このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20221117)

# シールドマシンの動的相互作用と協調ネットワーク

Dynamic Interactional And Cooperative Network For Shield Machine ( http://arxiv.org/abs/2211.10473v1 )

ライセンス: Link先を確認
Dazhi Gao, Rongyang Li, Hongbo Wang, Lingfeng Mao and Huansheng Ning(参考訳) シールドマシン (sm) はトンネル工事に用いられる複雑な機械装置である。 しかし、監視と決定は主に従来の建設中に人工的な経験によって行われ、隠れた機械的故障、人間の操作ミス、センサー異常などいくつかの制限がもたらされた。 これらの課題に対処するため、多くの学者がSMインテリジェントな手法を研究してきた。 これらの手法のほとんどはsmのみを考慮に入れるが、smの運用環境は考慮しない。 そこで本稿では,SM,地質情報,制御端末の関係について論じる。 そして, SM速度予測とSM異常検出を含む制御端末のモデルを構築した。 実験の結果, ベースラインモデルと比較して, 提案モデルの方が優れた性能を示した。 提案したモデルでは、レート予測のR2とMSEはそれぞれ92.2\%、0.0064に達する。 異常検出の異常検出率は98.2\%である。

The shield machine (SM) is a complex mechanical device used for tunneling. However, the monitoring and deciding were mainly done by artificial experience during traditional construction, which brought some limitations, such as hidden mechanical failures, human operator error, and sensor anomalies. To deal with these challenges, many scholars have studied SM intelligent methods. Most of these methods only take SM into account but do not consider the SM operating environment. So, this paper discussed the relationship among SM, geological information, and control terminals. Then, according to the relationship, models were established for the control terminal, including SM rate prediction and SM anomaly detection. The experimental results show that compared with baseline models, the proposed models in this paper perform better. In the proposed model, the R2 and MSE of rate prediction can reach 92.2\%, and 0.0064 respectively. The abnormal detection rate of anomaly detection is up to 98.2\%.
翻訳日:2022-11-22 23:33:09 公開日:2022-11-17
# ベニン共和国の複数のゲージステーションにおける流路データ不足の計算

Imputation of Missing Streamflow Data at Multiple Gauging Stations in Benin Republic ( http://arxiv.org/abs/2211.11576v1 )

ライセンス: Link先を確認
Rendani Mbuvha, Julien Yise Peniel Adounkpe, Wilson Tsakane Mongwe, Mandela Houngnibo, Nathaniel Newlands and Tshilidzi Marwala(参考訳) 流れの観測データは洪水のモニタリング、農業、集落計画に不可欠である。 しかし、こうした流れデータは、厳しい環境条件や運用資源の制約など、様々な原因による観測の欠如に苦しめられている。 この問題はサハラ以南のアフリカのような未資源の地域では広範に行われている。 本研究は,ベニン共和国の河川ガウイング10駅におけるGEOGloWS ECMWF予測のバイアス補正により,ストリームフロー時系列データを再構成する。 拘束されたトレーニング期間において,量子マッピング,ガウス過程,弾性ネット回帰を適合させることでバイアス補正を行う。 我々は,gess予測が有意なバイアスを持つテスト期間における欠落をシミュレーションすることにより,10個のbenineseステーションの予測スキルが低下することを示した。 その結果, 弾性ネットとガウス過程の回帰による全体的な偏差補正は, ランダムフォレスト, k-Nearest Neighbour, GESSルックアップによる従来の計算法と比較して, 優れた技術が得られることが示唆された。 この研究の成果は、極度の天候による干ばつや洪水に弱い国において、グローバルなGESSストリームフローデータを早期警戒型意思決定システム(例えば洪水警報)に統合するための基盤を提供する。

Streamflow observation data is vital for flood monitoring, agricultural, and settlement planning. However, such streamflow data are commonly plagued with missing observations due to various causes such as harsh environmental conditions and constrained operational resources. This problem is often more pervasive in under-resourced areas such as Sub-Saharan Africa. In this work, we reconstruct streamflow time series data through bias correction of the GEOGloWS ECMWF streamflow service (GESS) forecasts at ten river gauging stations in Benin Republic. We perform bias correction by fitting Quantile Mapping, Gaussian Process, and Elastic Net regression in a constrained training period. We show by simulating missingness in a testing period that GESS forecasts have a significant bias that results in low predictive skill over the ten Beninese stations. Our findings suggest that overall bias correction by Elastic Net and Gaussian Process regression achieves superior skill relative to traditional imputation by Random Forest, k-Nearest Neighbour, and GESS lookup. The findings of this work provide a basis for integrating global GESS streamflow data into operational early-warning decision-making systems (e.g., flood alert) in countries vulnerable to drought and flooding due to extreme weather events.
翻訳日:2022-11-22 23:13:11 公開日:2022-11-17
# 自律運転のための動的条件模倣学習

Dynamic Conditional Imitation Learning for Autonomous Driving ( http://arxiv.org/abs/2211.11579v1 )

ライセンス: Link先を確認
Hesham M. Eraqi, Mohamed N. Moustafa, Jens Honer(参考訳) 条件模倣学習(CIL)は、ディープニューラルネットワークをエンドツーエンドで訓練し、人間の運転を模倣する。 このアプローチは、道路を辿ったり、障害物を避けたり、目的地に到達するために交差点で特定の曲がり角を取るときに適切な車両制御を示す。 残念なことに、見えない環境に配備すると性能は劇的に低下し、様々な気象条件と矛盾する。 最も重要なことは、現在のCILが静的な道路封鎖を避けるのに失敗することです。 本研究では,これらの欠陥に対する解決策を提案する。 まず、レーザースキャナと通常のカメラストリームを機能レベルで融合することで、一般化と一貫性の課題を克服します。 第2に,道路封鎖回避とグローバルルート計画のための新しいアルゴリズムとともに,効率的なOGM(Occupancy Grid Mapping)手法を提案する。 そこで,提案手法では,部分的および全道路閉塞を動的に検出し,制御車両を他の経路に誘導して目的地に到達させる。 CILの当初の研究に続いて,CARLAシミュレータ都市運転ベンチマークにおける提案の有効性を実証した。 実験の結果, 気象条件に対する一貫性を4倍に改善し, 自律運転成功率を52%向上させた。 さらに,世界ルートプランナーは運転成功率を37%向上させた。 提案する道路閉塞回避アルゴリズムは運転成功率を27%向上させた。 最後に、静止物体と衝突する前に平均距離が1.5倍に増加した。 ソースコードはhttps://heshameraqi.github.io/dynamic_cil_autonomous_drivingで確認できる。

Conditional imitation learning (CIL) trains deep neural networks, in an end-to-end manner, to mimic human driving. This approach has demonstrated suitable vehicle control when following roads, avoiding obstacles, or taking specific turns at intersections to reach a destination. Unfortunately, performance dramatically decreases when deployed to unseen environments and is inconsistent against varying weather conditions. Most importantly, the current CIL fails to avoid static road blockages. In this work, we propose a solution to those deficiencies. First, we fuse the laser scanner with the regular camera streams, at the features level, to overcome the generalization and consistency challenges. Second, we introduce a new efficient Occupancy Grid Mapping (OGM) method along with new algorithms for road blockages avoidance and global route planning. Consequently, our proposed method dynamically detects partial and full road blockages, and guides the controlled vehicle to another route to reach the destination. Following the original CIL work, we demonstrated the effectiveness of our proposal on CARLA simulator urban driving benchmark. Our experiments showed that our model improved consistency against weather conditions by four times and autonomous driving success rate generalization by 52%. Furthermore, our global route planner improved the driving success rate by 37%. Our proposed road blockages avoidance algorithm improved the driving success rate by 27%. Finally, the average kilometers traveled before a collision with a static object increased by 1.5 times. The main source code can be reached at https://heshameraqi.github.io/dynamic_cil_autonomous_driving.
翻訳日:2022-11-22 22:20:59 公開日:2022-11-17
# DSLOB:分散シフト下での予測アルゴリズムのベンチマークのための合成極限順序ブックデータセット

DSLOB: A Synthetic Limit Order Book Dataset for Benchmarking Forecasting Algorithms under Distributional Shift ( http://arxiv.org/abs/2211.11513v1 )

ライセンス: Link先を確認
Defu Cao, Yousef El-Laham, Loc Trinh, Svitlana Vyetrenko, Yan Liu(参考訳) 電子取引市場において、リミットオーダーブック(LOB)は、所定のセキュリティのための様々な価格レベルで、保留中の購入/販売注文に関する情報を提供する。 近年、下流機械学習タスク(例えば予測)の解決にLOBデータを使うことへの関心が高まっている。 しかし、現在公開されているLOBデータセットに分散シフトがラベル付けされていないため、OODデータの扱いは困難である。 したがって、ラベル付きOODサンプルを用いた合成LOBデータセットの構築は、目に見えないシナリオをうまく一般化するモデルを開発するためのテストベッドとして重要である。 本研究では、マルチエージェント市場シミュレータを用いて、制御された分散シフトベンチマークの設計を可能にする、市場ストレスシナリオのない合成LOBデータセット(DSLOB)を構築する。 提案する合成データセットを用いて,3種類の最先端予測手法の予測性能を総合的に解析する。 この結果から,高周波時系列データの分布シフトにロバストなアルゴリズム開発の必要性が示唆された。

In electronic trading markets, limit order books (LOBs) provide information about pending buy/sell orders at various price levels for a given security. Recently, there has been a growing interest in using LOB data for resolving downstream machine learning tasks (e.g., forecasting). However, dealing with out-of-distribution (OOD) LOB data is challenging since distributional shifts are unlabeled in current publicly available LOB datasets. Therefore, it is critical to build a synthetic LOB dataset with labeled OOD samples serving as a testbed for developing models that generalize well to unseen scenarios. In this work, we utilize a multi-agent market simulator to build a synthetic LOB dataset, named DSLOB, with and without market stress scenarios, which allows for the design of controlled distributional shift benchmarking. Using the proposed synthetic dataset, we provide a holistic analysis on the forecasting performance of three different state-of-the-art forecasting methods. Our results reflect the need for increased researcher efforts to develop algorithms with robustness to distributional shifts in high-frequency time series data.
翻訳日:2022-11-22 19:13:17 公開日:2022-11-17
# ランダム-LTD - 大規模変圧器の効率的なトレーニングを実現するランダム・レイヤワイズトウイング

Random-LTD: Random and Layerwise Token Dropping Brings Efficient Training for Large-scale Transformers ( http://arxiv.org/abs/2211.11586v1 )

ライセンス: Link先を確認
Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang, Cheng Li, Yuxiong He(参考訳) 大規模トランスフォーマーモデルは、CVやNLPなど、さまざまな機械学習アプリケーションのためのデファクトアーキテクチャとなっている。 しかし、これらの大型モデルは、訓練費の制限も導入している。 この問題を軽減するために,全ての中間層における入力トークンのサブセットの計算を省略するランダムかつ層単位でのトークンドロップ手法(ランダムLTD)を提案する。 特にランダムLTDは、標準的なトレーニングベースラインと同等のスピードアップと精度を達成する。 他のトークンドロップ法と比較して、random-ltdは、(1)重要なスコアベースのメトリクス、(2)特別なトークン処理(例えば[cls])、(3)最初のレイヤと最後のレイヤを除いて、完全なシーケンス長トレーニングの多くのレイヤを必要としない。 また,提案する学習機構の重調整条件を解消する事前学習問題に対して,新しい階層化学習率スケジュールを提案する。 最後に, GPT や BERT の事前学習, ViT や GPT の微調整タスクなど,広範囲のアプリケーションにランダムLTD を適用することができることを示す。 この結果から,GPT-31.3Bのゼロショット評価をベースラインと比較すると,ランダムLTDは理論計算コスト約33.3%,ウォールクロックトレーニング時間を25.6%削減できることがわかった。

Large-scale transformer models have become the de-facto architectures for various machine learning applications, e.g., CV and NLP. However, those large models also introduce prohibitive training costs. To mitigate this issue, we propose a novel random and layerwise token dropping method (random-LTD), which skips the computation of a subset of the input tokens at all middle layers. Particularly, random-LTD achieves considerable speedups and comparable accuracy as the standard training baseline. Compared to other token dropping methods, random-LTD does not require (1) any importance score-based metrics, (2) any special token treatment (e.g., [CLS]), and (3) many layers in full sequence length training except the first and the last layers. Besides, a new LayerToken learning rate schedule is proposed for pretraining problems that resolve the heavy tuning requirement for our proposed training mechanism. Finally, we demonstrate that random-LTD can be applied to broader applications, including GPT and BERT pretraining as well as ViT and GPT finetuning tasks. Our results show that random-LTD can save about 33.3% theoretical compute cost and 25.6% wall-clock training time while achieving similar zero-shot evaluations on GPT-31.3B as compared to baseline.
翻訳日:2022-11-22 18:11:37 公開日:2022-11-17
# マルチアクセスチャネル上での分散型深層結合型ソースチャネル符号化

Distributed Deep Joint Source-Channel Coding over a Multiple Access Channel ( http://arxiv.org/abs/2211.09920v1 )

ライセンス: Link先を確認
Selim F. Yilmaz, Can Karamanli, Deniz Gunduz(参考訳) 我々は,ディープジョイントソースチャネル符号化(DeepJSCC)を用いて,ノイズの多い多重アクセスチャネル(MAC)上の分散画像伝送を検討する。 シャノンの分離定理は、漸近無限ブロック長系においてMAC上の独立したソースを伝達する際に成り立つことが知られている。 しかし、我々は実際的な有限ブロック長の体系に興味を持ち、その場合、ソースとチャネルの符号化は準最適であることが知られている。 そこで本研究では,圧縮画像表現を非直交方式で送信する新しいジョイント画像圧縮伝送方式を提案する。 非直交多重アクセス(NOMA)はキャパシティ領域を実現することが知られているが、我々の知る限り、実用システムのための非直交連系チャネル符号化(JSCC)方式はこれまでに研究されていない。 広範にわたる実験により,特に低帯域幅比のDeepJSCCを用いた直交伝送と比較して,再構成画像の品質は著しく向上した。 我々は、さらなる研究と再現性を促進するためにソースコードを公開している。

We consider distributed image transmission over a noisy multiple access channel (MAC) using deep joint source-channel coding (DeepJSCC). It is known that Shannon's separation theorem holds when transmitting independent sources over a MAC in the asymptotic infinite block length regime. However, we are interested in the practical finite block length regime, in which case separate source and channel coding is known to be suboptimal. We introduce a novel joint image compression and transmission scheme, where the devices send their compressed image representations in a non-orthogonal manner. While non-orthogonal multiple access (NOMA) is known to achieve the capacity region, to the best of our knowledge, non-orthogonal joint source channel coding (JSCC) scheme for practical systems has not been studied before. Through extensive experiments, we show significant improvements in terms of the quality of the reconstructed images compared to orthogonal transmission employing current DeepJSCC approaches particularly for low bandwidth ratios. We publicly share source code to facilitate further research and reproducibility.
翻訳日:2022-11-21 16:06:48 公開日:2022-11-17
# ディープラーニング原子間ポテンシャルの高速不確かさ推定

Fast Uncertainty Estimates in Deep Learning Interatomic Potentials ( http://arxiv.org/abs/2211.09866v1 )

ライセンス: Link先を確認
Albert Zhu, Simon Batzner, Albert Musaelian, Boris Kozinsky(参考訳) ディープラーニングは、分子特性や材料特性の高精度な予測にアクセスできるための、有望なパラダイムとして登場した。 しかし、現在のアプローチで共有されている共通の欠点は、ニューラルネットワークが予測のポイント推定のみを付与し、これらの推定に関連付けられた予測の不確実性は生じないことである。 既存の不確実性定量化の取り組みは、主に独立に訓練されたニューラルネットワークのアンサンブルにおける予測の標準偏差を利用した。 これは、トレーニングと予測の両方において大きな計算上のオーバーヘッドをもたらし、しばしば、桁違いに高価な予測をもたらす。 本稿では,単一ニューラルネットワークを用いて,アンサンブルを必要とせずに予測不確実性を推定する手法を提案する。 これにより、標準的なトレーニングや推論よりも計算上のオーバーヘッドがほとんどない不確実性推定が得られる。 深いアンサンブルから得られたものと不確実性推定の質が一致することを示す。 さらに,本実験システムの構成空間を横断する手法と深層アンサンブルの不確実性評価を行い,その不確かさをポテンシャルエネルギー面と比較した。 最後に,本手法の有効性を能動的学習環境において検討し,計算コスト低減のためのアンサンブル戦略に適合する結果を見出した。

Deep learning has emerged as a promising paradigm to give access to highly accurate predictions of molecular and materials properties. A common short-coming shared by current approaches, however, is that neural networks only give point estimates of their predictions and do not come with predictive uncertainties associated with these estimates. Existing uncertainty quantification efforts have primarily leveraged the standard deviation of predictions across an ensemble of independently trained neural networks. This incurs a large computational overhead in both training and prediction that often results in order-of-magnitude more expensive predictions. Here, we propose a method to estimate the predictive uncertainty based on a single neural network without the need for an ensemble. This allows us to obtain uncertainty estimates with virtually no additional computational overhead over standard training and inference. We demonstrate that the quality of the uncertainty estimates matches those obtained from deep ensembles. We further examine the uncertainty estimates of our methods and deep ensembles across the configuration space of our test system and compare the uncertainties to the potential energy surface. Finally, we study the efficacy of the method in an active learning setting and find the results to match an ensemble-based strategy at order-of-magnitude reduced computational cost.
翻訳日:2022-11-21 16:04:44 公開日:2022-11-17
# 球状畳み込みニューラルネットワークを用いた神経イメージング

Microstructural neuroimaging using spherical convolutional neural networks ( http://arxiv.org/abs/2211.09887v1 )

ライセンス: Link先を確認
Leevi Kerkel\"a, Kiran Seunarine, Filip Szczepankiewicz, and Chris A. Clark(参考訳) 拡散強調MRIは脳組織の微細構造に敏感である。 しかし、測定信号から臨床的および科学的に関連のあるミクロ構造特性を推定することは、非常に難しい逆問題である。 本稿では,最近開発した方向不変な球形畳み込みニューラルネットワークを用いて,構造パラメータを推定するための新しい枠組みを提案する。 このネットワークは、シミュレーションされたノイズデータから地上パラメータ値を予測するように訓練され、臨床で得られた画像データに適用され、ミクロ構造パラメータマップを生成する。 本モデルでは, 従来の非線形最小二乗や粉体平均データに適用した多層パーセプトロンよりも高精度な球面データからモデルパラメータを推定することができた(球面平均法, 配向不変な微構造パラメータ推定法)。 重要なことに,本手法は一般化可能であり,任意のガウスコンパートメントモデルのパラメータを推定することができる。

Diffusion-weighted magnetic resonance imaging is sensitive to the microstructural properties of brain tissue. However, estimating clinically and scientifically relevant microstructural properties from the measured signals remains a highly challenging inverse problem. This paper presents a novel framework for estimating microstructural parameters using recently developed orientationally invariant spherical convolutional neural networks and efficiently simulated training data with a known ground truth. The network was trained to predict the ground-truth parameter values from simulated noisy data and applied to imaging data acquired in a clinical setting to generate microstructural parameter maps. Our model could estimate model parameters from spherical data more accurately than conventional non-linear least squares or a multi-layer perceptron applied on powder-averaged data (i.e., the spherical mean technique, a popular method for orientationally invariant microstructural parameter estimation). Importantly, our method is generalizable and can be used to estimate the parameters of any Gaussian compartment model.
翻訳日:2022-11-21 16:04:25 公開日:2022-11-17
# 付加的なAngularマージン損失とメタ学習に基づく単純な注意モジュールと共同最適化を用いた音声アンチスプーフィング

Audio Anti-spoofing Using a Simple Attention Module and Joint Optimization Based on Additive Angular Margin Loss and Meta-learning ( http://arxiv.org/abs/2211.09898v1 )

ライセンス: Link先を確認
Zhenyu Wang and John H.L. Hansen(参考訳) 自動話者認証システムは、様々なアクセス脅威に対して脆弱であり、そのようなスプーフィング攻撃をフィルターするゲートとして機能する効果的なスプーフィング検出システムの定式化に関する研究が進められている。 本研究では、畳み込み層における特徴写像の3次元注意重みを推定するための単純な注意モジュールを導入し、各ニューロンの重要性を決定するためにエネルギー関数を最適化する。 音声変換と音声合成技術の進歩に伴い、スプーフィング検出システムの性能を制限するため、目立たないスプーフィング攻撃が絶えず発生している。 本稿では,二項分類のための重み付き加法的角縁損失に基づく共同最適化手法を提案する。メタラーニング学習フレームワークは,モデル一般化強化のための幅広いスプーフィング攻撃に頑健な,効率的なシステムを開発する。 その結果、現在の最先端システムと比較すると、本提案手法はプールEERが0.99%、min t-DCFが0.0289と競合する結果となる。

Automatic speaker verification systems are vulnerable to a variety of access threats, prompting research into the formulation of effective spoofing detection systems to act as a gate to filter out such spoofing attacks. This study introduces a simple attention module to infer 3-dim attention weights for the feature map in a convolutional layer, which then optimizes an energy function to determine each neuron's importance. With the advancement of both voice conversion and speech synthesis technologies, unseen spoofing attacks are constantly emerging to limit spoofing detection system performance. Here, we propose a joint optimization approach based on the weighted additive angular margin loss for binary classification, with a meta-learning training framework to develop an efficient system that is robust to a wide range of spoofing attacks for model generalization enhancement. As a result, when compared to current state-of-the-art systems, our proposed approach delivers a competitive result with a pooled EER of 0.99% and min t-DCF of 0.0289.
翻訳日:2022-11-21 16:04:08 公開日:2022-11-17
# グラフニューラルネットワークは従来のジェットサブ構造を学ぶか?

Do graph neural networks learn traditional jet substructure? ( http://arxiv.org/abs/2211.09912v1 )

ライセンス: Link先を確認
Farouk Mokhtar, Raghav Kansal, Javier Duarte(参考訳) CERN LHCでは、最終状態粒子の集合が与えられたジェットの起源を推測するジェットタグのタスクが機械学習手法によって支配されている。 グラフニューラルネットワークは、ジェットを内部の粒子間の基盤、学習可能なエッジ接続を持つポイントクラウドとして扱うことで、この問題に対処するために使用されている。 本研究では,そのような最先端ネットワークである particlenet の意思決定過程を,層状関係伝播法を用いて特定したエッジ接続を探索することにより検討する。 モデルが訓練されるにつれて、サブジェットと呼ばれる異なる中間粒子のクラスターを接続する関連エッジの分布の変化が観察される。 結果として生じるサブジェット接続の分布は、通常は3つの崩壊生成物に対応するトップクォーク由来の信号ジェットと、より軽いクォークとグルーオン由来のバックグラウンドジェットとでは異なる。 この挙動は、モデルがジェットを識別する際に、ジェット内におけるプロングの数(エネルギー粒子クラスター)のような従来のジェットサブストラクタを使用していることを示している。

At the CERN LHC, the task of jet tagging, whose goal is to infer the origin of a jet given a set of final-state particles, is dominated by machine learning methods. Graph neural networks have been used to address this task by treating jets as point clouds with underlying, learnable, edge connections between the particles inside. We explore the decision-making process for one such state-of-the-art network, ParticleNet, by looking for relevant edge connections identified using the layerwise-relevance propagation technique. As the model is trained, we observe changes in the distribution of relevant edges connecting different intermediate clusters of particles, known as subjets. The resulting distribution of subjet connections is different for signal jets originating from top quarks, whose subjets typically correspond to its three decay products, and background jets originating from lighter quarks and gluons. This behavior indicates that the model is using traditional jet substructure observables, such as the number of prongs -- energetic particle clusters -- within a jet, when identifying jets.
翻訳日:2022-11-21 16:03:48 公開日:2022-11-17
# クエーサーの時系列データに対するガウス過程のニューラル推論

Neural Inference of Gaussian Processes for Time Series Data of Quasars ( http://arxiv.org/abs/2211.10305v1 )

ライセンス: Link先を確認
Egor Danilov, Aleksandra \'Ciprijanovi\'c and Brian Nord(参考訳) クエーサー光曲線の研究は、パワースペクトルの推定と不規則にサンプリングされた時系列の補間という2つの問題を引き起こす。 これらのタスクに対するベースラインなアプローチは、最大確率推定(mle)を用いてスペクトルを推定するダンプランダムウォーク(drw)モデルで時系列を補間することである。 しかし、DRWモデルは時系列の滑らかさを記述せず、MLEは最適化と数値精度の点で多くの問題に直面している。 本稿では,新しい確率モデルを導入し,これを$\textit{Convolved Damped Random Walk}$ (CDRW)と呼ぶ。 このモデルはDRWに滑らかさの概念を導入し、クエーサースペクトルを完全に記述することができる。 また、ガウス過程パラメータの新たな推論法も導入し、これを$\textit{neural inference}$と呼ぶ。 この手法は最先端ニューラルネットワークのパワーを利用して従来のmle推論技術を改善する。 実験の結果,Neural Inference法はベースラインMLE (RMSE: $0.318 \rightarrow 0.205$, $0.464 \rightarrow 0.444$) を大幅に改善した。 さらに、CDRWモデルとニューラル推論の組み合わせは、典型的なクエーサー光曲線(\chi^2$:$0.333 \rightarrow 0.998$, $2.695 \rightarrow 0.981$)を補間する際に、ベースラインDRWとMLEを著しく上回る。 コードはGitHubで公開されている。

The study of quasar light curves poses two problems: inference of the power spectrum and interpolation of an irregularly sampled time series. A baseline approach to these tasks is to interpolate a time series with a Damped Random Walk (DRW) model, in which the spectrum is inferred using Maximum Likelihood Estimation (MLE). However, the DRW model does not describe the smoothness of the time series, and MLE faces many problems in terms of optimization and numerical precision. In this work, we introduce a new stochastic model that we call $\textit{Convolved Damped Random Walk}$ (CDRW). This model introduces a concept of smoothness to a DRW, which enables it to describe quasar spectra completely. We also introduce a new method of inference of Gaussian process parameters, which we call $\textit{Neural Inference}$. This method uses the powers of state-of-the-art neural networks to improve the conventional MLE inference technique. In our experiments, the Neural Inference method results in significant improvement over the baseline MLE (RMSE: $0.318 \rightarrow 0.205$, $0.464 \rightarrow 0.444$). Moreover, the combination of both the CDRW model and Neural Inference significantly outperforms the baseline DRW and MLE in interpolating a typical quasar light curve ($\chi^2$: $0.333 \rightarrow 0.998$, $2.695 \rightarrow 0.981$). The code is published on GitHub.
翻訳日:2022-11-21 15:54:16 公開日:2022-11-17
# 2次元心エコーセグメンテーションのベイズ最適化

Bayesian Optimization of 2D Echocardiography Segmentation ( http://arxiv.org/abs/2211.09888v1 )

ライセンス: Link先を確認
Son-Tung Tran, Joshua V. Stough, Xiaoyan Zhang, Christopher M. Haggerty(参考訳) Bayesian Optimization (BO)は、高コストで高パラメータな機械学習問題のグリッド探索よりも効率的である、よく研究されたハイパーパラメータチューニング技術である。 心エコー図は心電図の心臓構造と機能を評価するためのユビキタスモードである。 本研究では,心エコー図における多構造セグメンテーションのための深層畳み込みニューラルネットワークモデルのアーキテクチャおよびトレーニング関連ハイパーパラメータをBOを用いて最適化する。 比較すると、結果として得られたモデルは、apical two-および4-chamber echoビューの両方で、アノテーション付きcamusデータセットの最近の最先端を上回っている。 左心室(LV)心内膜,左心室,左心房のDiceオーバーラップは0.95,0.96,0.93であった。 また, lvエンドダイアストリックボリューム (4.9ml vs. 6.7), エンドシストリックボリューム (3.1ml vs. 5.2) および射出率 (2.6% vs. 3.7) に対する中央値の絶対誤差を小さくし, 既に非コントラストエコーのレート間変動範囲内にある一致限界をかなり厳しくした。 これらの結果から,心臓エコー検査におけるboの有用性が示されるが,大規模独立臨床データを用いた検証が必要である。

Bayesian Optimization (BO) is a well-studied hyperparameter tuning technique that is more efficient than grid search for high-cost, high-parameter machine learning problems. Echocardiography is a ubiquitous modality for evaluating heart structure and function in cardiology. In this work, we use BO to optimize the architectural and training-related hyperparameters of a previously published deep fully convolutional neural network model for multi-structure segmentation in echocardiography. In a fair comparison, the resulting model outperforms this recent state-of-the-art on the annotated CAMUS dataset in both apical two- and four-chamber echo views. We report mean Dice overlaps of 0.95, 0.96, and 0.93 on left ventricular (LV) endocardium, LV epicardium, and left atrium respectively. We also observe significant improvement in derived clinical indices, including smaller median absolute errors for LV end-diastolic volume (4.9mL vs. 6.7), end-systolic volume (3.1mL vs. 5.2), and ejection fraction (2.6% vs. 3.7); and much tighter limits of agreement, which were already within inter-rater variability for non-contrast echo. These results demonstrate the benefits of BO for echocardiography segmentation over a recent state-of-the-art framework, although validation using large-scale independent clinical data is required.
翻訳日:2022-11-21 15:53:29 公開日:2022-11-17
# SARによる地すべり事前訓練によるセグメンテーションの改善

SAR-based landslide classification pretraining leads to better segmentation ( http://arxiv.org/abs/2211.09927v1 )

ライセンス: Link先を確認
Vanessa B\"ohm, Wei Ji Leong, Ragini Bal Mahesh, Ioannis Prapas, Edoardo Nemni, Freddie Kalaitzis, Siddha Ganju, Raul Ramos-Pollan(参考訳) 自然災害後の迅速な評価は、緊急資源の優先順位付けの鍵となる。 地すべりの場合,急激な評価は影響範囲の特定と,個々の地すべりの大きさと位置を計測することを伴う。 SAR(Synthetic Aperture Radar)は、気象条件の影響を受けないリモートセンシング技術である。 ディープラーニングアルゴリズムはSARデータに適用可能だが、トレーニングには大きなラベル付きデータセットが必要である。 地すべりの場合、これらのデータセットはセグメンテーションのために作成するのに苦労し、イベントが発生した特定の領域では使用できないことが多い。 本稿では,SAR製品における地すべりセグメンテーションの深層学習アルゴリズムが,より簡単なタスクと異なる領域のデータから事前学習することのメリットについて検討する。 探索方法は2つの訓練段階から構成される。 まず、SAR画像が地すべりを含むか否かを識別するタスクを学習する。 そして,データの半分が地すべりを含まない,緩やかにラベル付けされたシナリオでセグメント化することを学ぶ。 ステージ1から抽出した特徴埋め込みがステージ2の地すべり検出に有用かどうかを検証した。 また, 高精度リコール曲線の下では, 地すべりのない地域での偽陽性率が著しく低くなり, チップ内の地すべり画素数の平均推定値も改善された。 より正確なピクセルカウントは、最も影響の大きい領域を高い信頼性で識別することができる。 これは、グローバルな規模でのリソースの優先順位付けが重要である、迅速な応答シナリオにおいて有用である。 コードはhttps://github.com/VMBoehm/SAR-landslide-detection-pretrainingで公開しています。

Rapid assessment after a natural disaster is key for prioritizing emergency resources. In the case of landslides, rapid assessment involves determining the extent of the area affected and measuring the size and location of individual landslides. Synthetic Aperture Radar (SAR) is an active remote sensing technique that is unaffected by weather conditions. Deep Learning algorithms can be applied to SAR data, but training them requires large labeled datasets. In the case of landslides, these datasets are laborious to produce for segmentation, and often they are not available for the specific region in which the event occurred. Here, we study how deep learning algorithms for landslide segmentation on SAR products can benefit from pretraining on a simpler task and from data from different regions. The method we explore consists of two training stages. First, we learn the task of identifying whether a SAR image contains any landslides or not. Then, we learn to segment in a sparsely labeled scenario where half of the data do not contain landslides. We test whether the inclusion of feature embeddings derived from stage-1 helps with landslide detection in stage-2. We find that it leads to minor improvements in the Area Under the Precision-Recall Curve, but also to a significantly lower false positive rate in areas without landslides and an improved estimate of the average number of landslide pixels in a chip. A more accurate pixel count allows to identify the most affected areas with higher confidence. This could be valuable in rapid response scenarios where prioritization of resources at a global scale is important. We make our code publicly available at https://github.com/VMBoehm/SAR-landslide-detection-pretraining.
翻訳日:2022-11-21 15:53:03 公開日:2022-11-17
# 第2回プログラミングの論理と実践に関するワークショップ(LPOP)の開催報告

Proceedings of the 2nd Workshop on Logic and Practice of Programming (LPOP) ( http://arxiv.org/abs/2211.09923v1 )

ライセンス: Link先を確認
David S. Warren and Peter Van Roy and Yanhong A. Liu(参考訳) このプロシージャには、第2回 Logic and Practice of Programming (LPOP) Workshop で提示された作業の抽象化とポジションペーパーが含まれている。 ワークショップは2010年11月15日に、ACM SIGPLAN Conference on Systems, Programming, Languages, and Applications: Software for Humanity (SPLASH) 2020と共同で、事実上米国シカゴの代わりにオンラインで開催された。 本ワークショップの目的は,論理を実践的なツールとして使用する異なる分野の計算機科学の橋渡しである。 形式論理の共通言語を利用して、これらの異なる領域間でアイデアを交換する。

This proceedings contains abstracts and position papers for the work presented at the second Logic and Practice of Programming (LPOP) Workshop. The workshop was held online, virtually in place of Chicago, USA, on November 15, 2010, in conjunction with the ACM SIGPLAN Conference on Systems, Programming, Languages, and Applications: Software for Humanity (SPLASH) 2020. The purpose of this workshop is to be a bridge between different areas of computer science that use logic as a practical tool. We take advantage of the common language of formal logic to exchange ideas between these different areas.
翻訳日:2022-11-21 15:46:49 公開日:2022-11-17
# 逐次レコメンダのための潜在ユーザインテントモデリング

Latent User Intent Modeling for Sequential Recommenders ( http://arxiv.org/abs/2211.09832v1 )

ライセンス: Link先を確認
Bo Chang, Alexandros Karatzoglou, Yuyan Wang, Can Xu, Ed H. Chi, Minmin Chen(参考訳) シークエンシャルレコメンダモデルは、現代の産業レコメンダシステムの不可欠な構成要素である。 これらのモデルは、プラットフォーム上でのインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学ぶ。 しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。 したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。 本稿では,変動オートエンコーダ(VAE)を用いたユーザ行動信号に基づいて,確率論的モデリング手法を提案し,潜在変数としてユーザ意図を定式化する。 そして、推定されたユーザの意図に応じて推奨ポリシーを調整する。 本研究では,オフライン解析による潜在ユーザインテントモデルの有効性と,大規模産業レコメンデーションプラットフォームでのライブ実験を実証する。

Sequential recommender models are essential components of modern industrial recommender systems. These models learn to predict the next items a user is likely to interact with based on his/her interaction history on the platform. Most sequential recommenders however lack a higher-level understanding of user intents, which often drive user behaviors online. Intent modeling is thus critical for understanding users and optimizing long-term user experience. We propose a probabilistic modeling approach and formulate user intent as latent variables, which are inferred based on user behavior signals using variational autoencoders (VAE). The recommendation policy is then adjusted accordingly given the inferred user intent. We demonstrate the effectiveness of the latent user intent modeling via offline analyses as well as live experiments on a large-scale industrial recommendation platform.
翻訳日:2022-11-21 15:46:21 公開日:2022-11-17
# 早期非小細胞肺癌に対する機械学習による再発予測

Machine Learning-Assisted Recurrence Prediction for Early-Stage Non-Small-Cell Lung Cancer Patients ( http://arxiv.org/abs/2211.09856v1 )

ライセンス: Link先を確認
Adrianna Janik, Maria Torrente, Luca Costabello, Virginia Calvo, Brian Walsh, Carlos Camps, Sameh K. Mohamed, Ana L. Ortega, V\'it Nov\'a\v{c}ek, Bartomeu Massut\'i, Pasquale Minervini, M.Rosario Garcia Campelo, Edel del Barco, Joaquim Bosch-Barrera, Ernestina Menasalvas, Mohan Timilsina, Mariano Provencio(参考訳) 背景:再発リスクに応じてがん患者を戦略的に分類することは、ケアをパーソナライズすることができる。 本研究では, 早期非小細胞肺癌患者において, 機械学習を用いて再発確率を推定する方法を提案する。 方法:1,387人(I-II)の早期再発を予測するため,非小細胞肺癌(NSCLC)患者(平均年齢65.7歳,女性24.8%,男性75.2%)は,表層およびグラフ機械学習モデルを訓練する。 我々はそのようなモデルの予測を自動で説明する。 表型データに基づいてトレーニングしたモデルでは,各患者の特徴が予測結果にどのように貢献するかを評価するため,SHAP局所説明を採用する。 本稿では,過去の患者を対象とするグラフ機械学習予測を例に説明する。 結果: 表データでトレーニングされた機械学習モデルは、10倍のクロスバリデーションで評価された再発予測におけるランダムフォレストモデルの76%の精度を示す(モデルは、テスト、トレーニング、検証セットで異なる患者セットで10回トレーニングされ、報告されたメトリクスは、これらの10のテストセットで平均される)。 グラフ機械学習は200人の患者に対して68%の精度に達し、100人の患者に対して調整される。 結論: この結果から, グラフデータを用いて学習した機械学習モデルにより, 早期NSCLC患者の客観的, パーソナライズ, 再現可能な再発予測が可能であることが示唆された。 さらなる予測的および多サイト検証、さらに放射線学的および分子的データにより、この予後モデルは早期肺癌における補助的治療の使用を決定するための予測的決定支援ツールとして機能する可能性がある。 キーワード:非小細胞肺癌、腫瘍再発予測、機械学習

Background: Stratifying cancer patients according to risk of relapse can personalize their care. In this work, we provide an answer to the following research question: How to utilize machine learning to estimate probability of relapse in early-stage non-small-cell lung cancer patients? Methods: For predicting relapse in 1,387 early-stage (I-II), non-small-cell lung cancer (NSCLC) patients from the Spanish Lung Cancer Group data (65.7 average age, 24.8% females, 75.2% males) we train tabular and graph machine learning models. We generate automatic explanations for the predictions of such models. For models trained on tabular data, we adopt SHAP local explanations to gauge how each patient feature contributes to the predicted outcome. We explain graph machine learning predictions with an example-based method that highlights influential past patients. Results: Machine learning models trained on tabular data exhibit a 76% accuracy for the Random Forest model at predicting relapse evaluated with a 10-fold cross-validation (model was trained 10 times with different independent sets of patients in test, train and validation sets, the reported metrics are averaged over these 10 test sets). Graph machine learning reaches 68% accuracy over a 200-patient, held-out test set, calibrated on a held-out set of 100 patients. Conclusions: Our results show that machine learning models trained on tabular and graph data can enable objective, personalised and reproducible prediction of relapse and therefore, disease outcome in patients with early-stage NSCLC. With further prospective and multisite validation, and additional radiological and molecular data, this prognostic model could potentially serve as a predictive decision support tool for deciding the use of adjuvant treatments in early-stage lung cancer. Keywords: Non-Small-Cell Lung Cancer, Tumor Recurrence Prediction, Machine Learning
翻訳日:2022-11-21 15:46:04 公開日:2022-11-17
# 迅速かつ正確なDNA配列修正のための知識蒸留

Knowledge distillation for fast and accurate DNA sequence correction ( http://arxiv.org/abs/2211.09862v1 )

ライセンス: Link先を確認
Anastasiya Belyaeva, Joel Shor, Daniel E. Cook, Kishwar Shafin, Daniel Liu, Armin T\"opfer, Aaron M. Wenger, William J. Rowell, Howard Yang, Alexey Kolesnikov, Cory Y. McLean, Maria Nattestad, Andrew Carroll, Pi-Chuan Chang(参考訳) 正確なゲノムシークエンシングは、生物学の理解と疾患の遺伝的基盤を改善することができる。 PacBioの機器からDNA配列を生成する標準的なアプローチは、HMMベースのモデルに依存している。 本稿では,実行時制約を考慮したhmmに基づく手法を改良した,シーケンス補正用蒸留トランスフォーマエンコーダモデルであるdeepconsensusを提案する。 蒸留されたDeepConsensusは1.3倍高速で1.5倍小さく、HMM法よりも高品質な読み出し(Q30)を1.69倍改善した(大型モデルでは1.73倍)。 ゲノム配列の精度の向上により、Distilled DeepConsensusは、可変呼び出しエラーを39%(大型モデルでは34%)減らし、ゲノム組立品質を3.8%(大型モデルでは4.2%)改善するなど、ゲノム配列解析の下流応用を改善した。 Distilled DeepConsensusによって学習された表現は、高速モデルと遅いモデルに類似していることを示す。

Accurate genome sequencing can improve our understanding of biology and the genetic basis of disease. The standard approach for generating DNA sequences from PacBio instruments relies on HMM-based models. Here, we introduce Distilled DeepConsensus - a distilled transformer-encoder model for sequence correction, which improves upon the HMM-based methods with runtime constraints in mind. Distilled DeepConsensus is 1.3x faster and 1.5x smaller than its larger counterpart while improving the yield of high quality reads (Q30) over the HMM-based method by 1.69x (vs. 1.73x for larger model). With improved accuracy of genomic sequences, Distilled DeepConsensus improves downstream applications of genomic sequence analysis such as reducing variant calling errors by 39% (34% for larger model) and improving genome assembly quality by 3.8% (4.2% for larger model). We show that the representations learned by Distilled DeepConsensus are similar between faster and slower models.
翻訳日:2022-11-21 15:45:16 公開日:2022-11-17
# 対実解析に基づく特徴圧縮

Features Compression based on Counterfactual Analysis ( http://arxiv.org/abs/2211.09894v1 )

ライセンス: Link先を確認
Veronica Piccialli, Dolores Romero Morales, Cecilia Salvatore(参考訳) 反事実的説明は、ポストホックな解釈可能な機械学習のデファクトスタンダードになりつつある。 与えられた分類器と望ましくないクラスに分類されたインスタンスに対して、その反事実的説明は、分類結果を変更することができるインスタンスの小さな摂動に対応する。 本研究は,事前学習したブラックボックスモデルの重要な決定境界を検出するために,非現実的説明を活用することを目的とする。 この情報は、調整可能な粒度でデータセットの機能の教師付き離散化を構築するために使用される。 小さくて解釈可能な決定木は、安定でロバストな離散データセット上でトレーニングされる。 実世界のデータセットにおける数値結果は、このアプローチの有効性を示している。

Counterfactual Explanations are becoming a de-facto standard in post-hoc interpretable machine learning. For a given classifier and an instance classified in an undesired class, its counterfactual explanation corresponds to small perturbations of that instance that allow changing the classification outcome. This work aims to leverage Counterfactual Explanations to detect the important decision boundaries of a pre-trained black-box model. This information is used to build a supervised discretization of the features in the dataset with a tunable granularity. A small and interpretable Decision Tree is trained on the discretized dataset that is stable and robust. Numerical results on real-world datasets show the effectiveness of the approach.
翻訳日:2022-11-21 15:44:59 公開日:2022-11-17
# 連続予測によるオンライン配信シフト検出

Online Distribution Shift Detection via Recency Prediction ( http://arxiv.org/abs/2211.09916v1 )

ライセンス: Link先を確認
Rachel Luo, Rohan Sinha, Ali Hindy, Shengjia Zhao, Silvio Savarese, Edward Schmerling, Marco Pavone(参考訳) 現代の機械学習を利用したロボットシステムを高スループットアプリケーションでデプロイする場合、分散シフトの検出が不可欠である。 しかし、分布シフトを検出する既存の方法の多くは、データがストリーミング形式で到着することが多く、非常に高次元のロボット工学的設定には適していない。 本研究では,偽陽性率の保証を伴う分布シフトを検出するオンライン手法を提案する。すなわち,分布シフトが存在しない場合,システムが誤報を発する可能性は極めて低い(確率$< \epsilon$)。 提案手法は,高次元データでも効率的に検出できるように設計されており,実際の偽陰性率を低く保ちつつ,従来の作業に比べて最大11倍高速なリアルロボティクス設定検出を実現している(実験で分布シフトがあった場合,実際に警告を発する)。

When deploying modern machine learning-enabled robotic systems in high-stakes applications, detecting distribution shift is critical. However, most existing methods for detecting distribution shift are not well-suited to robotics settings, where data often arrives in a streaming fashion and may be very high-dimensional. In this work, we present an online method for detecting distribution shift with guarantees on the false positive rate - i.e., when there is no distribution shift, our system is very unlikely (with probability $< \epsilon$) to falsely issue an alert; any alerts that are issued should therefore be heeded. Our method is specifically designed for efficient detection even with high dimensional data, and it empirically achieves up to 11x faster detection on realistic robotics settings compared to prior work while maintaining a low false negative rate in practice (whenever there is a distribution shift in our experiments, our method indeed emits an alert).
翻訳日:2022-11-21 15:44:50 公開日:2022-11-17
# FairMile: 公正でスケーラブルなグラフ表現学習のためのマルチレベルフレームワーク

FairMILE: A Multi-Level Framework for Fair and Scalable Graph Representation Learning ( http://arxiv.org/abs/2211.09925v1 )

ライセンス: Link先を確認
Yuntian He, Saket Gurukar, Srinivasan Parthasarathy(参考訳) グラフ表現学習モデルは、複数のハイテイクシナリオで意思決定するためにデプロイされている。 したがって、これらのモデルが公平であることを保証することは重要である。 先行研究では、グラフニューラルネットワークがグラフデータに存在するバイアスを継承し、強化できることが示されている。 研究者たちは、このようなモデルのバイアスを軽減する方法の検討を始めた。 しかし、既存の取り組みは、その非効率性、限定的な適用性、それらが機密属性に課す制約によって制限されている。 これらの問題に対処するため、公正でスケーラブルなグラフ表現学習のための一般的なフレームワークであるFairMILEを提案する。 fairmileはマルチレベルフレームワークで、現代の教師なしグラフ埋め込みメソッドを、無依存に大規模グラフにスケールできる。 FairMILEは、フレームワークの各フェーズに公正性制約が組み込まれている公正なノード埋め込みと高品質なノード埋め込みの両方を学ぶ。 2つの異なるタスクにわたる実験により、FairMILEは、優れた公正度スコアと高い下流性能を達成できるノード表現を学習でき、効率の点で全てのベースラインを大幅に上回ることを示した。

Graph representation learning models have been deployed for making decisions in multiple high-stakes scenarios. It is therefore critical to ensure that these models are fair. Prior research has shown that graph neural networks can inherit and reinforce the bias present in graph data. Researchers have begun to examine ways to mitigate the bias in such models. However, existing efforts are restricted by their inefficiency, limited applicability, and the constraints they place on sensitive attributes. To address these issues, we present FairMILE a general framework for fair and scalable graph representation learning. FairMILE is a multi-level framework that allows contemporary unsupervised graph embedding methods to scale to large graphs in an agnostic manner. FairMILE learns both fair and high-quality node embeddings where the fairness constraints are incorporated in each phase of the framework. Our experiments across two distinct tasks demonstrate that FairMILE can learn node representations that often achieve superior fairness scores and high downstream performance while significantly outperforming all the baselines in terms of efficiency.
翻訳日:2022-11-21 15:44:32 公開日:2022-11-17
# 分散ガウス過程におけるエキスパート選択:マルチラベル分類アプローチ

Expert Selection in Distributed Gaussian Processes: A Multi-label Classification Approach ( http://arxiv.org/abs/2211.09940v1 )

ライセンス: Link先を確認
Hamed Jalali and Gjergji Kasneci(参考訳) トレーニングプロセスの分散により、局所近似は標準ガウス過程のコストを低減させる。 アンサンブルテクニックは、データの異なる分割で訓練されたガウスの専門家による局所的な予測を、局所的な予測者の完全な多様性を仮定することで組み合わせる。 アグリゲーションは扱いやすいが、実際にはこの仮定はしばしば違反する。 専門家間の依存関係を取ることで、一貫性のある結果を提供することができる。 しかし、計算コストが高いため、関係する専門家の数は3倍になる。 専門家選択戦略を実装することで、最終的な集約ステップは専門家を少なくし、より効率的になる。 実際、新しいデータポイントごとに専門家の固定セットを割り当てる静的選択アプローチでは、各ユニークなデータポイントの特定のプロパティをエンコードすることはできない。 本稿では,入力データ点の特性に基づくフレキシブルなエキスパート選択手法を提案する。 この目的のために,専門家がラベルを定義し,各エントリポイントを専門家に割り当てるマルチラベル分類問題として選択課題を検討する。 提案手法は, 予測品質, 効率, 漸近特性を詳細に検討した。 本手法は,合成および実世界のデータセットを用いた広範囲な数値実験により有効性を示す。

By distributing the training process, local approximation reduces the cost of the standard Gaussian Process. An ensemble technique combines local predictions from Gaussian experts trained on different partitions of the data by assuming a perfect diversity of local predictors. Although it keeps the aggregation tractable, this assumption is often violated in practice. Taking dependencies between experts enables ensemble methods to provide consistent results. However, they have a high computational cost, which is cubic in the number of experts involved. By implementing an expert selection strategy, the final aggregation step uses fewer experts and is more efficient. Indeed, a static selection approach that assigns a fixed set of experts to each new data point cannot encode the specific properties of each unique data point. This paper proposes a flexible expert selection approach based on the characteristics of entry data points. To this end, we investigate the selection task as a multi-label classification problem where the experts define labels, and each entry point is assigned to some experts. The proposed solution's prediction quality, efficiency, and asymptotic properties are discussed in detail. We demonstrate the efficacy of our method through extensive numerical experiments using synthetic and real-world data sets.
翻訳日:2022-11-21 15:44:13 公開日:2022-11-17
# テキスト非依存話者認識のためのマルチソースドメイン適応

Multi-source Domain Adaptation for Text-independent Forensic Speaker Recognition ( http://arxiv.org/abs/2211.09913v1 )

ライセンス: Link先を確認
Zhenyu Wang, and John H. L. Hansen(参考訳) 話者認識システムを新しい環境に適応させる手法は、大規模データから学習した高性能なモデルをタスク固有の小規模データシナリオへと改善するための広く使われている手法である。 しかし、以前の研究では、法医学的なシナリオで必要とされる複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点を当てていた。 法医学的話者認識のための音声分析は、位置不確かさと参照と自然的フィールド記録の多様性ミスマッチによるマルチドメイン訓練データを用いたモデルトレーニングにおいて、ユニークな課題を提供する。 ドメインミスマッチとパフォーマンス損失のために、複雑なニューラルネットワークアーキテクチャをトレーニングするために、小規模のドメイン固有データを直接使用することも難しい。 微調整(英: fine-tuning)は、よく訓練されたモデルから初期化された重みでモデルを再訓練するためによく用いられる適応法である。 本研究は,複数の音響領域における適応性能をさらに高めるために,ドメイン逆訓練,不一致最小化,モーメントマッチングアプローチに基づく3つの新しい適応手法を提案する。 これを実証するために、総合的な実験セットが実施されている。 1) 多様な音響環境が話者認識性能に影響を及ぼすため, 音声鑑識研究の進展が期待できる。 2) ドメイン敵訓練は、ドメイン間のシフトにも不変な識別的特徴を学習する。 3)異性度最小化適応は複数の音響領域で同時に有効性能を達成する。 4) モーメントマッチング適応と動的分布アライメントは各領域、特に他の全てのシステムと比較してノイズのあるレナフィールド領域において話者認識性能を著しく向上させる。

Adapting speaker recognition systems to new environments is a widely-used technique to improve a well-performing model learned from large-scale data towards a task-specific small-scale data scenarios. However, previous studies focus on single domain adaptation, which neglects a more practical scenario where training data are collected from multiple acoustic domains needed in forensic scenarios. Audio analysis for forensic speaker recognition offers unique challenges in model training with multi-domain training data due to location/scenario uncertainty and diversity mismatch between reference and naturalistic field recordings. It is also difficult to directly employ small-scale domain-specific data to train complex neural network architectures due to domain mismatch and performance loss. Fine-tuning is a commonly-used method for adaptation in order to retrain the model with weights initialized from a well-trained model. Alternatively, in this study, three novel adaptation methods based on domain adversarial training, discrepancy minimization, and moment-matching approaches are proposed to further promote adaptation performance across multiple acoustic domains. A comprehensive set of experiments are conducted to demonstrate that: 1) diverse acoustic environments do impact speaker recognition performance, which could advance research in audio forensics, 2) domain adversarial training learns the discriminative features which are also invariant to shifts between domains, 3) discrepancy-minimizing adaptation achieves effective performance simultaneously across multiple acoustic domains, and 4) moment-matching adaptation along with dynamic distribution alignment also significantly promotes speaker recognition performance on each domain, especially for the LENA-field domain with noise compared to all other systems.
翻訳日:2022-11-21 15:35:05 公開日:2022-11-17
# 信頼性半教師付き学習のためのコントラスト信頼度伝播

Contrastive Credibility Propagation for Reliable Semi-Supervised Learning ( http://arxiv.org/abs/2211.09929v1 )

ライセンス: Link先を確認
Brody Kutt, Pamela Toman, Xavier Mignot, Sujit Rokka Chhetri, Shan Huang, Nandini Ramanan, Min Du, William Hewlett(参考訳) ラベル付きデータからラベルなしのデータを参照することは、エラーを起こしやすいプロセスである。 従来のニューラルネットワークトレーニングは、監視エラーに非常に敏感である。 これら2つの現実は、半教師付き学習(SSL)を厄介にする。 SSLアプローチは、完全に教師されたベースラインを上回りません。 提案は、Deep SSL(特に擬似ラベル)のための新しいフレームワークで、CCP(Contrative credibility propagation)と呼ばれる。 ソフトな擬似ラベルを生成して精製する反復的なプロセスを通じて、CCPは、擬似ラベルを生成するための新しいコントラスト的なアプローチと、インスタンスベースのラベルノイズを克服する強力なテクニックを統一する。 その結果、教師付きベースライン上での性能を確実に向上するために、避けられない疑似ラベルエラーを克服するために明示的に設計された半教師付き分類フレームワークが得られた。 5つのベンチマーク分類データセットに対する実証的な評価は、CCPが両方を提供するのに対して、事前アプローチによる信頼性と有効性を選択する必要があることを示唆している。 また,CCPの反復と終了後の誤りを除去するため,擬似ラベルをサブサンプリングする教師なし信号も示す。

Inferencing unlabeled data from labeled data is an error-prone process. Conventional neural network training is highly sensitive to supervision errors. These two realities make semi-supervised learning (SSL) troublesome. Often, SSL approaches fail to outperform their fully supervised baseline. Proposed is a novel framework for deep SSL, specifically pseudo-labeling, called contrastive credibility propagation (CCP). Through an iterative process of generating and refining soft pseudo-labels, CCP unifies a novel contrastive approach to generating pseudo-labels and a powerful technique to overcome instance-based label noise. The result is a semi-supervised classification framework explicitly designed to overcome inevitable pseudo-label errors in an attempt to reliably boost performance over a supervised baseline. Our empirical evaluation across five benchmark classification datasets suggests one must choose between reliability or effectiveness with prior approaches while CCP delivers both. We also demonstrate an unsupervised signal to subsample pseudo-labels to eliminate errors between iterations of CCP and after its conclusion.
翻訳日:2022-11-21 15:28:16 公開日:2022-11-17
# ディープラーニングによるビデオ教師なしドメイン適応:包括的調査

Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey ( http://arxiv.org/abs/2211.10412v1 )

ライセンス: Link先を確認
Yuecong Xu, Haozhi Cao, Zhenghua Chen, Xiaoli Li, Lihua Xie, Jianfei Yan(参考訳) 大規模データセットとディープラーニングに基づく表現の導入により、アクション認識などのビデオ分析タスクは、スマートヘルスケアなどの分野のアプリケーションの成長において、研究の関心が高まっている。 しかし、既存のデータセットでトレーニングされたビデオモデルは、公開ビデオデータセット(ソースビデオドメイン)と実際のビデオ(ターゲットビデオドメイン)の間のドメインシフトのため、実世界のアプリケーションに直接デプロイした場合、パフォーマンスが著しく低下する。 さらに,ビデオアノテーションのコストが高いため,未収録映像をトレーニングに使用する方が実用的である。 ビデオアノテーションコストの均一化を図るため、ラベル付きソースドメインからラベル付きターゲットドメインへのビデオモデルを適応させるために、ビデオドメインシフトを緩和し、ビデオモデルの一般化性とポータビリティを向上させるために、ビデオアン教師付きドメイン適応(VUDA)を導入している。 本稿では,深層学習によるVUDAの最近の進歩について調査する。 VUDAのモチベーションはVUDAの定義に続き、VUDAとVUDAの両方を異なるシナリオで扱う手法の最近の進歩と、VUDA研究のための現在のベンチマークデータセットから始まる。 最終的には、さらなるVUDA研究を促進するための今後の方向性が提供される。

Video analysis tasks such as action recognition have received increasing research interest with growing applications in fields such as smart healthcare, thanks to the introduction of large-scale datasets and deep learning-based representations. However, video models trained on existing datasets suffer from significant performance degradation when deployed directly to real-world applications due to domain shifts between the training public video datasets (source video domains) and real-world videos (target video domains). Further, with the high cost of video annotation, it is more practical to use unlabeled videos for training. To tackle performance degradation and address concerns in high video annotation cost uniformly, the video unsupervised domain adaptation (VUDA) is introduced to adapt video models from the labeled source domain to the unlabeled target domain by alleviating video domain shift, improving the generalizability and portability of video models. This paper surveys recent progress in VUDA with deep learning. We begin with the motivation of VUDA, followed by its definition, and recent progress of methods for both closed-set VUDA and VUDA under different scenarios, and current benchmark datasets for VUDA research. Eventually, future directions are provided to promote further VUDA research.
翻訳日:2022-11-21 15:18:59 公開日:2022-11-17
# DETRDistill: DETRファミリーのためのユニバーサル知識蒸留フレームワーク

DETRDistill: A Universal Knowledge Distillation Framework for DETR-families ( http://arxiv.org/abs/2211.10156v1 )

ライセンス: Link先を確認
Jiahao Chang, Shuo Wang, Guangkai Xu, Zehui Chen, Chenhongyi Yang, Feng Zhao(参考訳) トランスフォーマーベースの検出器 (DETR) は, 未成熟なトレーニングパラダイムと後処理操作の除去により注目されているが, 計算に時間がかかり, 実際のアプリケーションに展開することが困難である。 この問題に取り組むために,普遍的な教師・学生学習フレームワークを構築し,巨大なモデルを圧縮するために知識蒸留(kd)が用いられる。 従来のCNN検出器とは異なり、蒸留対象を特徴マップを通して自然に整列させることができるため、DETRはオブジェクト検出をセット予測問題とみなし、蒸留中に教師と学生の間に不明瞭な関係が生じる。 本稿では,DETR家族を対象とした新しい知識蒸留であるDETRDistillを提案する。 まず,段階単位の段階的蒸留によるスパースマッチングのパラダイムを探求する。 異なるdetrで採用されている多種多様な注意機構を考慮し,従来の特徴模倣の非効率を克服するために注意非依存な特徴蒸留モジュールを提案する。 最後に,教師からの中間製品を完全に活用するために,教師のオブジェクトクエリと追加指導を行うグループに対する割当て結果を用いた,教師支援型割当て蒸留を導入する。 実験により, 蒸留法は, 推算段階での余分な消費を伴わずとも, 様々な競争力のあるDETRアプローチにおいて顕著な改善を達成できることを示した。 我々の知る限り、これはDETR型検出器の一般的な蒸留法を探求する最初の体系的な研究である。

Transformer-based detectors (DETRs) have attracted great attention due to their sparse training paradigm and the removal of post-processing operations, but the huge model can be computationally time-consuming and difficult to be deployed in real-world applications. To tackle this problem, knowledge distillation (KD) can be employed to compress the huge model by constructing a universal teacher-student learning framework. Different from the traditional CNN detectors, where the distillation targets can be naturally aligned through the feature map, DETR regards object detection as a set prediction problem, leading to an unclear relationship between teacher and student during distillation. In this paper, we propose DETRDistill, a novel knowledge distillation dedicated to DETR-families. We first explore a sparse matching paradigm with progressive stage-by-stage instance distillation. Considering the diverse attention mechanisms adopted in different DETRs, we propose attention-agnostic feature distillation module to overcome the ineffectiveness of conventional feature imitation. Finally, to fully leverage the intermediate products from the teacher, we introduce teacher-assisted assignment distillation, which uses the teacher's object queries and assignment results for a group with additional guidance. Extensive experiments demonstrate that our distillation method achieves significant improvement on various competitive DETR approaches, without introducing extra consumption in the inference phase. To the best of our knowledge, this is the first systematic study to explore a general distillation method for DETR-style detectors.
翻訳日:2022-11-21 15:11:40 公開日:2022-11-17
# SparseVLR: 局所ロバストなスパースニューラルネットワーク探索のための新しいフレームワーク

SparseVLR: A Novel Framework for Verified Locally Robust Sparse Neural Networks Search ( http://arxiv.org/abs/2211.09945v1 )

ライセンス: Link先を確認
Sawinder Kaur, Asif Salekin(参考訳) ニューラルネットワーク(NN)の計算集約性は、携帯電話やドローン、自律ロボットなど、リソースに制約のある環境への展開を制限する。 したがって、安全クリティカルなアプリケーションに適した堅牢なスパースモデルの開発は、長年の関心事となっている。 モデルスペーシフィケーションによる敵のトレーニングは目標を達成するために組み合わせられているが、従来の敵のトレーニングアプローチでは、モデルが良性サンプルの周囲の制限された空間におけるどのローグサンプルに対しても堅牢であるという正式な保証は得られていない。 最近提案された局所ロバスト性技術はそのような保証を提供する。 検証された局所的ロバスト性と動的スパーストレーニングのアイデアを組み合わせた最初の論文であり、'sparsevlr'-検証された局所的ロバストなスパースネットワークを探索するための新しいフレームワークである。 得られたスパースモデルでは、99%の精度で密度の高いモデルに匹敵する精度と頑健性を示す。 さらに、従来のスペーシフィケーション技術とは異なり、SparseVLRは事前訓練された高密度モデルを必要としないため、トレーニング時間を50%短縮する。 我々は,SparseVLRの有効性と一般化性について,様々なベンチマークおよびアプリケーション固有のデータセットを複数のモデルで評価することによって徹底的に検討した。

The compute-intensive nature of neural networks (NNs) limits their deployment in resource-constrained environments such as cell phones, drones, autonomous robots, etc. Hence, developing robust sparse models fit for safety-critical applications has been an issue of longstanding interest. Though adversarial training with model sparsification has been combined to attain the goal, conventional adversarial training approaches provide no formal guarantee that the models would be robust against any rogue samples in a restricted space around a benign sample. Recently proposed verified local robustness techniques provide such a guarantee. This is the first paper that combines the ideas from verified local robustness and dynamic sparse training to develop `SparseVLR'-- a novel framework to search verified locally robust sparse networks. Obtained sparse models exhibit accuracy and robustness comparable to their dense counterparts at sparsity as high as 99%. Furthermore, unlike most conventional sparsification techniques, SparseVLR does not require a pre-trained dense model, reducing the training time by 50%. We exhaustively investigated SparseVLR's efficacy and generalizability by evaluating various benchmark and application-specific datasets across several models.
翻訳日:2022-11-21 15:02:39 公開日:2022-11-17
# tempnet:ビデオにおける動物行動検出への時間的注意

TempNet: Temporal Attention Towards the Detection of Animal Behaviour in Videos ( http://arxiv.org/abs/2211.09950v1 )

ライセンス: Link先を確認
Declan McIntosh and Tunai Porto Marques and Alexandra Branzan Albu and Rodney Rountree and Fabio De Leo(参考訳) 近年の海底観測装置の進歩により、水中ビデオの品質や普及度が向上し、種行動などの生物学的に重要な情報を抽出できるようになった。 この能力の増大にもかかわらず、水中ビデオの自動解釈の最も現代的な方法は、生物の検出と数えることのみに焦点を当てている。 本研究では,映像中の生体行動を検出するための効率的なコンピュータビジョンと深層学習に基づく手法を提案する。 tempnetはエンコーダブリッジと残留ブロックを使用して、2段、空間、そして時間的エンコーダでモデル性能を維持する。 tempnetはまた、空間符号化の時間的注意とウェーブレットのダウンサンプリング前処理によってモデルの精度が向上する。 本システムは多様な魚類行動(すなわちジェネリック)に応用するために設計されているが,サブルフィッシュ(Anoplopoma fimbria)幼虫の検出への応用を実証する。 提案手法を,既存のデータセットから映像中のサブルフィッシュの発芽イベントを検出するためのハイブリッド手法と,最先端のエンドツーエンドビデオ検出手法(ReMotENet)と比較した。 その結果, 提案手法は, 複数の測定値において比較基準線を快適に上回り, 精度は80%, 精度は0.81となった。 これは、このデータセットを用いた比較手法に比べて、精度が31%、精度が27%の相対的な改善を示している。 計算パイプラインは4秒のビデオクリップをわずか38ミリ秒で処理できるので、非常に効率的です。 さらに,サブルフィッシュ・スタートルイベントに特有な機能を導入していないため,本システムは今後の作業において,他の行動にも容易に拡張できる。

Recent advancements in cabled ocean observatories have increased the quality and prevalence of underwater videos; this data enables the extraction of high-level biologically relevant information such as species' behaviours. Despite this increase in capability, most modern methods for the automatic interpretation of underwater videos focus only on the detection and counting organisms. We propose an efficient computer vision- and deep learning-based method for the detection of biological behaviours in videos. TempNet uses an encoder bridge and residual blocks to maintain model performance with a two-staged, spatial, then temporal, encoder. TempNet also presents temporal attention during spatial encoding as well as Wavelet Down-Sampling pre-processing to improve model accuracy. Although our system is designed for applications to diverse fish behaviours (i.e, is generic), we demonstrate its application to the detection of sablefish (Anoplopoma fimbria) startle events. We compare the proposed approach with a state-of-the-art end-to-end video detection method (ReMotENet) and a hybrid method previously offered exclusively for the detection of sablefish's startle events in videos from an existing dataset. Results show that our novel method comfortably outperforms the comparison baselines in multiple metrics, reaching a per-clip accuracy and precision of 80% and 0.81, respectively. This represents a relative improvement of 31% in accuracy and 27% in precision over the compared methods using this dataset. Our computational pipeline is also highly efficient, as it can process each 4-second video clip in only 38ms. Furthermore, since it does not employ features specific to sablefish startle events, our system can be easily extended to other behaviours in future works.
翻訳日:2022-11-21 15:02:17 公開日:2022-11-17
# GLFF:顔偽造検出のためのグローバル・ローカル機能融合

GLFF: Global and Local Feature Fusion for Face Forgery Detection ( http://arxiv.org/abs/2211.08615v2 )

ライセンス: Link先を確認
Yan Ju, Shan Jia, Jialing Cai, Haiying Guan, Siwei Lyu(参考訳) 複雑な生成モデル(ジェネレーティブ・アドバーサリアル・ネットワークやオート・エンコーダなど)の急速な発展に伴い、人間の顔のAI合成画像は質が高くなり、人間は原始的なものと区別することができない。 既存の検出手法は、例えば実世界のポストプロセッシングなしで見たモデルや画像の特定の評価設定で高い性能を示してきたが、より強力な世代モデルや様々なポストプロセッシング操作によってテスト画像が生成される現実のシナリオでは、深刻なパフォーマンス劣化に悩まされる傾向にある。 そこで本研究では,画像全体から多スケールのグローバル特徴と,顔偽造検出のための情報パッチから洗練された局所特徴を組み合わせることで,リッチで判別的な表現を学習するグローバル・ローカル特徴融合(glff)を提案する。 GLFFは2つのブランチから情報を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチである。 実世界のアプリケーションの評価をシミュレートするface forgeryデータセットが欠如していることから、deepfakefaceforensics(df^3)と呼ばれる、実世界のシナリオにアプローチするためのさまざまな後処理技術を含む、挑戦的なface forgeryデータセットを更に作成する。 実験により,提案したDF^3データセットおよび他の3つのオープンソースデータセットの最先端手法に対する本手法の優位性を示した。

With the rapid development of deep generative models (such as Generative Adversarial Networks and Auto-encoders), AI-synthesized images of the human face are now of such high quality that humans can hardly distinguish them from pristine ones. Although existing detection methods have shown high performance in specific evaluation settings, e.g., on images from seen models or on images without real-world post-processings, they tend to suffer serious performance degradation in real-world scenarios where testing images can be generated by more powerful generation models or combined with various post-processing operations. To address this issue, we propose a Global and Local Feature Fusion (GLFF) to learn rich and discriminative representations by combining multi-scale global features from the whole image with refined local features from informative patches for face forgery detection. GLFF fuses information from two branches: the global branch to extract multi-scale semantic features and the local branch to select informative patches for detailed local artifacts extraction. Due to the lack of a face forgery dataset simulating real-world applications for evaluation, we further create a challenging face forgery dataset, named DeepFakeFaceForensics (DF^3), which contains 6 state-of-the-art generation models and a variety of post-processing techniques to approach the real-world scenarios. Experimental results demonstrate the superiority of our method to the state-of-the-art methods on the proposed DF^3 dataset and three other open-source datasets.
翻訳日:2022-11-21 14:52:03 公開日:2022-11-17
# データ中心のデバッグ: ターゲットデータ収集によるモデル障害の軽減

Data-Centric Debugging: mitigating model failures via targeted data collection ( http://arxiv.org/abs/2211.09859v1 )

ライセンス: Link先を確認
Sahil Singla, Atoosa Malemir Chegini, Mazda Moayeri, Soheil Feiz(参考訳) トレーニングセットがデプロイされたすべての設定を十分にカバーしていない場合、ディープニューラルネットワークは実世界で信頼できない場合がある。 イメージ分類に焦点をあてて、モデルが失敗するデプロイメントシナリオを表すエラー分布 $\mathcal{E}$ の設定を検討します。 我々は$\mathcal{E}_{sample}$から$\mathcal{E}_{sample}$の小さなサンプル集合にアクセスでき、追加のサンプルを得るのに費用がかかる。 従来のモデル開発フレームワークでは、$\mathcal{E}$でモデルの失敗を緩和することは困難であり、しばしばアドホックな方法で行われる。 本稿では,元のテストセットでの性能を維持しつつ,$\mathcal{e}$ のモデル性能を体系的に改善できる汎用的なモデルデバッグ手法を提案する。 私たちのキーとなる前提は、弱い(ノイズの多い)ラベル付きデータの大きなプールにアクセスできるということです。 しかし、トレーニングに$\mathcal{F}$を追加すると、大量のラベルノイズのためにモデルのパフォーマンスが損なわれる。 我々のData-Centric Debugging (DCD)フレームワークは、$\mathcal{F}$からイメージを選択して、$\mathcal{E}_{sample}$のイメージと知覚的に似ているデバッグトレインセットを慎重に作成します。 これを実現するために、ResNet、Robust ResNet、DINOなどのモデルの特徴空間(最小層アクティベーション)において$$\ell_2$の距離を使い、DINO ViTsがResnetsと比較して類似した画像を発見するのに優れていることを観察する。 LPIPSと比較して,本手法は計算とストレージの要求を99.58\%削減する。 モデルパフォーマンスをテストセットで維持するベースラインと比較して,デバッグ・ヘルプアウトセットで大幅に改善した(+9.45\%)。

Deep neural networks can be unreliable in the real world when the training set does not adequately cover all the settings where they are deployed. Focusing on image classification, we consider the setting where we have an error distribution $\mathcal{E}$ representing a deployment scenario where the model fails. We have access to a small set of samples $\mathcal{E}_{sample}$ from $\mathcal{E}$ and it can be expensive to obtain additional samples. In the traditional model development framework, mitigating failures of the model in $\mathcal{E}$ can be challenging and is often done in an ad hoc manner. In this paper, we propose a general methodology for model debugging that can systemically improve model performance on $\mathcal{E}$ while maintaining its performance on the original test set. Our key assumption is that we have access to a large pool of weakly (noisily) labeled data $\mathcal{F}$. However, naively adding $\mathcal{F}$ to the training would hurt model performance due to the large extent of label noise. Our Data-Centric Debugging (DCD) framework carefully creates a debug-train set by selecting images from $\mathcal{F}$ that are perceptually similar to the images in $\mathcal{E}_{sample}$. To do this, we use the $\ell_2$ distance in the feature space (penultimate layer activations) of various models including ResNet, Robust ResNet and DINO where we observe DINO ViTs are significantly better at discovering similar images compared to Resnets. Compared to LPIPS, we find that our method reduces compute and storage requirements by 99.58\%. Compared to the baselines that maintain model performance on the test set, we achieve significantly (+9.45\%) improved results on the debug-heldout sets.
翻訳日:2022-11-21 14:51:33 公開日:2022-11-17
# 残像を用いた自己監督型視覚表現学習

Self-Supervised Visual Representation Learning via Residual Momentum ( http://arxiv.org/abs/2211.09861v1 )

ライセンス: Link先を確認
Trung X. Pham, Axi Niu, Zhang Kang, Sultan Rizky Madjid, Ji Woo Hong, Daehyeok Kim, Joshua Tian Jin Tee, Chang D. Yoo(参考訳) 自己教師付き学習(SSL)アプローチは、ラベルのないデータから表現を学ぶ上で有望な能力を示している。 その中でも運動量に基づくフレームワークが注目されている。 大きな成功にもかかわらず、これらのモメンタベースのSSLフレームワークは、オンラインエンコーダ(学生)とモメンタエンコーダ(教師)の間の大きなギャップに悩まされており、下流タスクのパフォーマンスを妨げている。 この論文は、既存のSSLフレームワークで見過ごされているボトルネックとして、この目に見えないギャップを調査し、特定した最初のものである。 この問題を解決するため,教師とのパフォーマンスギャップを狭くし,既存のSSLを大幅に改善するため,このギャップを直接減らし,教師に近い表現をできる限り学習するよう学生に促す「残留運動量」を提案する。 私たちのメソッドは単純で実装が容易で、他のSSLフレームワークに簡単にプラグインできます。 多数のベンチマークデータセットと多様なネットワークアーキテクチャに関する大規模な実験結果から,最先端のコントラスト学習ベースラインに対する本手法の有効性が示された。

Self-supervised learning (SSL) approaches have shown promising capabilities in learning the representation from unlabeled data. Amongst them, momentum-based frameworks have attracted significant attention. Despite being a great success, these momentum-based SSL frameworks suffer from a large gap in representation between the online encoder (student) and the momentum encoder (teacher), which hinders performance on downstream tasks. This paper is the first to investigate and identify this invisible gap as a bottleneck that has been overlooked in the existing SSL frameworks, potentially preventing the models from learning good representation. To solve this problem, we propose "residual momentum" to directly reduce this gap to encourage the student to learn the representation as close to that of the teacher as possible, narrow the performance gap with the teacher, and significantly improve the existing SSL. Our method is straightforward, easy to implement, and can be easily plugged into other SSL frameworks. Extensive experimental results on numerous benchmark datasets and diverse network architectures have demonstrated the effectiveness of our method over the state-of-the-art contrastive learning baselines.
翻訳日:2022-11-21 14:50:57 公開日:2022-11-17
# 相関画像発声のためのパッチクラフト自己教師付き訓練

Patch-Craft Self-Supervised Training for Correlated Image Denoising ( http://arxiv.org/abs/2211.09919v1 )

ライセンス: Link先を確認
Gregory Vaksman and Michael Elad(参考訳) 教師付きニューラルネットワークは、様々な画像復元タスクにおいて優れた結果を達成することが知られている。 しかし、そのような訓練には、破損した画像とそれに対応する真実のターゲットからなるデータセットが必要である。 残念ながら、このようなデータは多くのアプリケーションで利用できない。 ノイズ統計が不明な画像復調作業において,この難しさを克服するための自己指導型トレーニング手法が提案されている。 これらのいくつかはノイズモデルに関する知識を必要とするが、汚染音は相関関係がないと仮定する者もいる。 本研究では,未知の相関雑音の除去に適した自己教師付き学習手法を提案する。 提案手法では,ノイズモデルに関する知識も基礎的真理ターゲットへのアクセスも必要としない。 アルゴリズムの入力は、ノイズショットのバーストを捉えるのが簡単である。 本アルゴリズムは,これらのバーストからの人工パッチクラフトイメージをパッチマッチングと縫い合わせにより構築し,得られたクラフトイメージをトレーニング対象とする。 我々の方法はバースト内の画像の登録を必要としない。 合成および実画像雑音を用いた広範囲な実験により,提案手法の評価を行った。

Supervised neural networks are known to achieve excellent results in various image restoration tasks. However, such training requires datasets composed of pairs of corrupted images and their corresponding ground truth targets. Unfortunately, such data is not available in many applications. For the task of image denoising in which the noise statistics is unknown, several self-supervised training methods have been proposed for overcoming this difficulty. Some of these require knowledge of the noise model, while others assume that the contaminating noise is uncorrelated, both assumptions are too limiting for many practical needs. This work proposes a novel self-supervised training technique suitable for the removal of unknown correlated noise. The proposed approach neither requires knowledge of the noise model nor access to ground truth targets. The input to our algorithm consists of easily captured bursts of noisy shots. Our algorithm constructs artificial patch-craft images from these bursts by patch matching and stitching, and the obtained crafted images are used as targets for the training. Our method does not require registration of the images within the burst. We evaluate the proposed framework through extensive experiments with synthetic and real image noise.
翻訳日:2022-11-21 14:50:39 公開日:2022-11-17
# ProtSi:Few-Shot主観的回答評価のためのデータ拡張型プロトタイプシームスネットワーク

ProtSi: Prototypical Siamese Network with Data Augmentation for Few-Shot Subjective Answer Evaluation ( http://arxiv.org/abs/2211.09855v1 )

ライセンス: Link先を確認
Yining Lu, Jingxi Qiu, Gaurav Gupta(参考訳) 主観的回答評価は時間的かつ退屈な作業であり、評価の質は様々な主観的個人的特徴の影響を強く受けている。 代わりに、機械評価は、教育者が時間を節約する上で効果的に支援し、評価が公平で現実的であることを保証する。 しかし、通常の機械学習や自然言語処理技術を用いた既存のほとんどの手法は、注釈付き回答の欠如とモデル解釈性の欠如によって一般的に妨げられ、現実の用途には適さない。 これらの課題を解決するために,我々はprotsi networkを提案する。protsi networkは,主観的回答評価に初となる,ユニークな半教師付きアーキテクチャである。 類似度プロトタイプを用いて学生の回答を評価するため,protsiネットワークは,bert層とエンコーダ層からなるsiameseネットワークとプロトタイプネットワークを組み合わせることで,評価結果の自然な過程をシミュレートする。 非教師なしの多彩なパラフレージングモデルを用いて,テキストの効果的な分類に過剰適合を防止した。 コントラスト学習を統合することにより、識別テキストの問題を軽減することができる。 Kaggle Short Scoring Datasetの実験は、ProtSi Networkが最新のベースラインモデルよりも精度と二次重み付きカッパで優れていることを示した。

Subjective answer evaluation is a time-consuming and tedious task, and the quality of the evaluation is heavily influenced by a variety of subjective personal characteristics. Instead, machine evaluation can effectively assist educators in saving time while also ensuring that evaluations are fair and realistic. However, most existing methods using regular machine learning and natural language processing techniques are generally hampered by a lack of annotated answers and poor model interpretability, making them unsuitable for real-world use. To solve these challenges, we propose ProtSi Network, a unique semi-supervised architecture that for the first time uses few-shot learning to subjective answer evaluation. To evaluate students' answers by similarity prototypes, ProtSi Network simulates the natural process of evaluator scoring answers by combining Siamese Network which consists of BERT and encoder layers with Prototypical Network. We employed an unsupervised diverse paraphrasing model ProtAugment, in order to prevent overfitting for effective few-shot text classification. By integrating contrastive learning, the discriminative text issue can be mitigated. Experiments on the Kaggle Short Scoring Dataset demonstrate that the ProtSi Network outperforms the most recent baseline models in terms of accuracy and quadratic weighted kappa.
翻訳日:2022-11-21 14:42:42 公開日:2022-11-17
# 特徴帰属を伴うニューラルマシン翻訳における幻覚の低減

Reducing Hallucinations in Neural Machine Translation with Feature Attribution ( http://arxiv.org/abs/2211.09878v1 )

ライセンス: Link先を確認
Jo\"el Tang, Marina Fomicheva, Lucia Specia(参考訳) ニューラル条件付き言語生成モデルは、ニューラルネットワーク翻訳(NMT)の最先端を実現するが、並列トレーニングデータセットの品質に大きく依存する。 低品質のデータセットでトレーニングすると、これらのモデルは幻覚、すなわち、流動的だが原文とは無関係な出力を含む様々なエラータイプに傾向がある。 これらの誤りは特に危険である、なぜなら表面上は翻訳が正しい出力であると認識でき、特に読者がソース言語を理解していない場合である。 NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディを提案する。 まず,幻覚を発生させるnmtモデルの行動を研究するために特徴帰属法を用いる。 次に,これらの手法を用いて幻覚を低減し,モデルをスクラッチから再トレーニングする必要のない新しい損失関数を提案する。

Neural conditional language generation models achieve the state-of-the-art in Neural Machine Translation (NMT) but are highly dependent on the quality of parallel training dataset. When trained on low-quality datasets, these models are prone to various error types, including hallucinations, i.e. outputs that are fluent, but unrelated to the source sentences. These errors are particularly dangerous, because on the surface the translation can be perceived as a correct output, especially if the reader does not understand the source language. We present a case study focusing on model understanding and regularisation to reduce hallucinations in NMT. We first use feature attribution methods to study the behaviour of an NMT model that produces hallucinations. We then leverage these methods to propose a novel loss function that substantially helps reduce hallucinations and does not require retraining the model from scratch.
翻訳日:2022-11-21 14:42:19 公開日:2022-11-17
# プロのプレゼンテーションと投影力: 英語CVにおけるインシシイトジェンダー情報の事例研究

Professional Presentation and Projected Power: A Case Study of Implicit Gender Information in English CVs ( http://arxiv.org/abs/2211.09942v1 )

ライセンス: Link先を確認
Jinrui Yang, Sheilla Njoto, Marc Cheong, Leah Ruppanner, Lea Frermann(参考訳) 雇用におけるジェンダー差別は、社会において関連的で永続的な偏見であり、NLPにおける偏見を探究する共通のモチベーションの例である。 しかし, 応用資料におけるジェンダー言語の発現は, あまり注目されていない。 本稿では,男女のCVにおけるスキルと背景のフレーミングについて検討する。 16の職業をカバーする米国からの1.8k authentic, english-language, cvsのデータセットを導入し,職業固有の性別ベースを部分的にコントロールできるようにした。 その結果,(1) 女性では低消費電力の印象を呼び起こす動詞が多く,(2) 代名詞や名前のエンティティをデータバランシング・削除した後でも性別信号が捕捉され,これがトランスフォーマーベースと線形分類器の両方に当てはまることがわかった。

Gender discrimination in hiring is a pertinent and persistent bias in society, and a common motivating example for exploring bias in NLP. However, the manifestation of gendered language in application materials has received limited attention. This paper investigates the framing of skills and background in CVs of self-identified men and women. We introduce a data set of 1.8K authentic, English-language, CVs from the US, covering 16 occupations, allowing us to partially control for the confound occupation-specific gender base rates. We find that (1) women use more verbs evoking impressions of low power; and (2) classifiers capture gender signal even after data balancing and removal of pronouns and named entities, and this holds for both transformer-based and linear classifiers.
翻訳日:2022-11-21 14:42:03 公開日:2022-11-17
# MelHuBERT: Mel Spectrogramを使ったシンプルなHuBERT

MelHuBERT: A simplified HuBERT on Mel spectrogram ( http://arxiv.org/abs/2211.09944v1 )

ライセンス: Link先を確認
Tzu-Quan Lin, Hung-yi Lee, Hao Tang(参考訳) 自己教師付きモデルは、様々な下流タスクに一般化できる音声表現の学習に大きな成功を収めた。 特に HuBERT は、訓練において他と比べて比較的単純でありながら、高いパフォーマンスを実現している。 元々の実験的な設定は計算的に広く、モデルの再現性を妨げている。 アドホック損失関数のような特定の設計決定がなされる理由や、これらの決定が学習した表現に影響を与えるかどうかも不明である。 We propose MelHuBERT, a simple version of HuBERT that Mel spectrograms as input, significantly reduce compute and memory consumption。 本研究では,損失関数,多段階トレーニング,ストリーミングオプションなど,トレーニングのいくつかの側面について検討する。 私たちの結果は、単一のGPUでトレーニング可能な、効率的で高性能なモデルです。

Self-supervised models have had great success in learning speech representations that can generalize to various downstream tasks. HuBERT, in particular, achieves strong performance while being relatively simple in training compared to others. The original experimental setting is computationally extensive, hindering the reproducibility of the models. It is also unclear why certain design decisions are made, such as the ad-hoc loss function, and whether these decisions have an impact on the learned representations. We propose MelHuBERT, a simplified version of HuBERT that takes Mel spectrograms as input, significantly reducing computation and memory consumption. We study several aspects of training, including the loss function, multi-stage training, and streaming options. Our result is a efficient yet performant model that can be trained on a single GPU.
翻訳日:2022-11-21 14:25:10 公開日:2022-11-17
# 音声処理のためのトランスフォーマーに基づく自己教師型圧縮モデル

Compressing Transformer-based self-supervised models for speech processing ( http://arxiv.org/abs/2211.09949v1 )

ライセンス: Link先を確認
Tzu-Quan Lin, Tsung-Huan Yang, Chun-Yao Chang, Kuang-Ming Chen, Tzu-hsun Feng, Hung-yi Lee, Hao Tang(参考訳) 様々な下流タスクへの応用による自己教師型学習におけるトランスフォーマーの成功にもかかわらず、トレーニングと推論の計算コストは、これらのモデルを幅広いデバイスに適用する上で大きな課題である。 下流タスクに適用する前に、トランスフォーマーを圧縮するためのいくつかの独立した試みが行われた。 本研究では, 分離された結果の文脈を提供し, 重みの刈り込み, ヘッドの刈り取り, 低ランク近似, 知識蒸留など, 広く用いられている圧縮技術について検討することを目的とした。 壁時計時間,パラメータ数,累積演算数について報告するとともに,変圧器をベースとする自己教師付きモデルについて考察した。

Despite the success of Transformers in self-supervised learning with applications to various downstream tasks, the computational cost of training and inference remains a major challenge for applying these models to a wide spectrum of devices. Several isolated attempts have been made to compress Transformers, prior to applying them to downstream tasks. In this work, we aim to provide context for the isolated results, studying several commonly used compression techniques, including weight pruning, head pruning, low-rank approximation, and knowledge distillation. We report wall-clock time, the number of parameters, and the number of multiply-accumulate operations for these techniques, charting the landscape of compressing Transformer-based self-supervised models.
翻訳日:2022-11-21 14:24:58 公開日:2022-11-17
# 海面におけるラグランジュドリフトシミュレーションのための深層学習

Deep learning for Lagrangian drift simulation at the sea surface ( http://arxiv.org/abs/2211.09818v1 )

ライセンス: Link先を確認
Daria Botvynko (Lab-STICC\_OSE, IMT Atlantique - MEE, ENIB), Carlos Granero-Belinchon, Simon Van Gennip, Abdesslam Benzinou (ENIB), Ronan Fablet(参考訳) 我々は,物理力学におけるラグランジアンドリフトシミュレーションを取り上げ,計算複雑性と誤差伝播の観点から最先端モデルに基づくマルコフ的アプローチの既知の限界を克服する深層学習手法を探求する。 我々は,ラグランジュ力学のeulerian fokker-planck表現に触発された新しいドリフトネットと呼ばれるアーキテクチャを紹介する。 海面でのラグランジアンドリフトシミュレーションの数値実験は、ドリフトネットw.r.t.の最先端スキームの関連性を示している。 ドリフトネットの完全畳み込みの性質から,モデル由来の速度w.r.t.実ドリフトラー軌跡の診断法をニューラルインバージョンで検討した。

We address Lagrangian drift simulation in geophysical dynamics and explore deep learning approaches to overcome known limitations of state-of-the-art model-based and Markovian approaches in terms of computational complexity and error propagation. We introduce a novel architecture, referred to as DriftNet, inspired from the Eulerian Fokker-Planck representation of Lagrangian dynamics. Numerical experiments for Lagrangian drift simulation at the sea surface demonstrates the relevance of DriftNet w.r.t. state-of-the-art schemes. Benefiting from the fully-convolutional nature of Drift-Net, we explore through a neural inversion how to diagnose modelderived velocities w.r.t. real drifter trajectories.
翻訳日:2022-11-21 14:24:21 公開日:2022-11-17
# 発声音声検出のためのロバストな声質特徴埋め込み

Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection ( http://arxiv.org/abs/2211.09858v1 )

ライセンス: Link先を確認
Jianwei Zhang, Julie Liss, Suren Jayasuriya, and Visar Berisha(参考訳) 世界の人口の約1.2%が音声生産に支障をきたしている。 その結果,自動発声音声検出は学術的,臨床的にかなりの関心を集めている。 しかし,既存の音声自動評価手法では,訓練条件外や関連するアプリケーションへの一般化に失敗することが多い。 本稿では,声質に敏感で異なるコーパスにまたがる頑健な音響特徴を組み込んだディープラーニングフレームワークを提案する。 対照的な損失は、分類損失と組み合わせて、ディープラーニングモデルを共同で訓練する。 本手法の堅牢性を向上させるため,入力音声サンプルにデータワープ手法を用いた。 実験結果から,本手法は高いコーパスとクロスコーパスの分類精度を達成するだけでなく,声質に敏感な埋め込みや,異なるコーパス間の堅牢性も生み出すことが示された。 また, 劣化したインコーパスとクロスコーパスデータセットの3種類のベースライン法と比較し, 提案モデルがベースライン法より一貫して優れていることを示す。

Approximately 1.2% of the world's population has impaired voice production. As a result, automatic dysphonic voice detection has attracted considerable academic and clinical interest. However, existing methods for automated voice assessment often fail to generalize outside the training conditions or to other related applications. In this paper, we propose a deep learning framework for generating acoustic feature embeddings sensitive to vocal quality and robust across different corpora. A contrastive loss is combined with a classification loss to train our deep learning model jointly. Data warping methods are used on input voice samples to improve the robustness of our method. Empirical results demonstrate that our method not only achieves high in-corpus and cross-corpus classification accuracy but also generates good embeddings sensitive to voice quality and robust across different corpora. We also compare our results against three baseline methods on clean and three variations of deteriorated in-corpus and cross-corpus datasets and demonstrate that the proposed model consistently outperforms the baseline methods.
翻訳日:2022-11-21 14:24:10 公開日:2022-11-17
# 変圧器の前訓練がオフライン強化学習に及ぼす影響について

On the Effect of Pre-training for Transformer in Different Modality on Offline Reinforcement Learning ( http://arxiv.org/abs/2211.09817v1 )

ライセンス: Link先を確認
Shiro Takagi(参考訳) 言語や視覚などの異なるモダリティのデータに対する事前トレーニングが,ミュージョコオフライン強化学習タスクに対するトランスフォーマーベースのモデルの微調整に与える影響を実証的に検討する。 内部表現の分析により,事前学習前後に大きく異なる表現が得られたが,微調整時のデータ情報の取得は,ランダムに初期化したものよりも少ないことがわかった。 事前訓練されたトランスフォーマーのパラメータ変化をよく見ると、それらのパラメータはそれほど変化せず、画像データで事前訓練されたモデルの悪い性能は、部分的に大きな勾配と勾配のクリッピングから生じる可能性があることが分かる。 言語データで事前学習したトランスフォーマがどのような情報を利用するかを調べるために,文脈情報を提供しずにモデルを微調整し,文脈情報なしでも効率的に学習できることを見出した。 その後のフォローアップ分析では、言語データによる事前学習は、Transformerがコンテキストのような情報を入手し、それをダウンストリームタスクの解決に利用する、という仮説を支持している。

We empirically investigate how pre-training on data of different modalities, such as language and vision, affects fine-tuning of Transformer-based models to Mujoco offline reinforcement learning tasks. Analysis of the internal representation reveals that the pre-trained Transformers acquire largely different representations before and after pre-training, but acquire less information of data in fine-tuning than the randomly initialized one. A closer look at the parameter changes of the pre-trained Transformers reveals that their parameters do not change that much and that the bad performance of the model pre-trained with image data could partially come from large gradients and gradient clipping. To study what information the Transformer pre-trained with language data utilizes, we fine-tune this model with no context provided, finding that the model learns efficiently even without context information. Subsequent follow-up analysis supports the hypothesis that pre-training with language data is likely to make the Transformer get context-like information and utilize it to solve the downstream task.
翻訳日:2022-11-21 14:17:18 公開日:2022-11-17
# RenderDiffusion:3次元再構成・塗装・生成のための画像拡散

RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation ( http://arxiv.org/abs/2211.09869v1 )

ライセンス: Link先を確認
Titas Anciukevi\v{c}ius, Zexiang Xu, Matthew Fisher, Paul Henderson, Hakan Bilen, Niloy J. Mitra, Paul Guerrero(参考訳) 拡散モデルは現在、条件付きおよび無条件画像生成の両方において最先端の性能を達成している。 しかし、これまでの画像拡散モデルは、ビュー一貫性のある3D生成やシングルビューオブジェクト再構成のような3D理解に必要なタスクをサポートしていない。 本稿では,RenderDiffusionをモノクロ2D監視のみを用いてトレーニング可能な3次元生成と推論のための最初の拡散モデルとして提示する。 提案手法の核心は,各デノナイジングステップにおけるシーンの中間的な3次元表現を生成し,描画する新しいイメージデノナイジングアーキテクチャである。 これは拡散過程に強い帰納的構造を強制し、2次元の監督のみを必要とする3次元の一貫した表現を与える。 得られた3d表現は、任意の視点からレンダリングできる。 shapenetとclevrデータセットのrenderdiffusionを評価し、3dシーンの生成と2d画像からの3dシーンの推論に競争力を示す。 さらに、拡散ベースのアプローチでは、2dインペインティングを使って3dシーンを編集できます。 我々は,大規模な画像収集の訓練を行う際に,大規模な3D生成を可能にすることを約束し,大規模な3Dモデル収集を監督する必要性を回避することを約束している。

Diffusion models currently achieve state-of-the-art performance for both conditional and unconditional image generation. However, so far, image diffusion models do not support tasks required for 3D understanding, such as view-consistent 3D generation or single-view object reconstruction. In this paper, we present RenderDiffusion as the first diffusion model for 3D generation and inference that can be trained using only monocular 2D supervision. At the heart of our method is a novel image denoising architecture that generates and renders an intermediate three-dimensional representation of a scene in each denoising step. This enforces a strong inductive structure into the diffusion process that gives us a 3D consistent representation while only requiring 2D supervision. The resulting 3D representation can be rendered from any viewpoint. We evaluate RenderDiffusion on ShapeNet and Clevr datasets and show competitive performance for generation of 3D scenes and inference of 3D scenes from 2D images. Additionally, our diffusion-based approach allows us to use 2D inpainting to edit 3D scenes. We believe that our work promises to enable full 3D generation at scale when trained on massive image collections, thus circumventing the need to have large-scale 3D model collections for supervision.
翻訳日:2022-11-21 14:14:53 公開日:2022-11-17
# 構造化プルーニングアダプタ

Structured Pruning Adapters ( http://arxiv.org/abs/2211.10155v1 )

ライセンス: Link先を確認
Lukas Hedegaard, Aman Alok, Juby Jose, Alexandros Iosifidis(参考訳) 本稿では,小パラメータ集合を用いたネットワークの高速化と特化を行う圧縮タスクスイッチングネットワークアダプタ群であるStructured Pruning Adapters (SPAs)を提案する。 具体的には,チャネルベースおよびブロックベースのspaを提案し,コンピュータビジョンと自然言語処理ベンチマークの両方において,一連のプルーニング手法を用いて評価する。 微調整を施した通常の構造的刈り取りに比べて,各パラメータの半分を90%の刈り取り重みで使用しながら,平均で6.9%の精度向上を実現している。 あるいは、1.6%の精度で、70%のプルーニングで17倍のパラメータで適応を学習できる。 同様に、ブロックSPAは微調整でプルーニングするよりもはるかに少ないパラメータを必要とする。 実験コードとPythonライブラリはgithub.com/lukashedegaard/structured-pruning-adaptersで利用可能です。

We propose Structured Pruning Adapters (SPAs), a family of compressing, task-switching network adapters, that accelerate and specialize networks using tiny parameter sets. Specifically, we propose a channel- and a block-based SPA and evaluate them with a suite of pruning methods on both computer vision and natural language processing benchmarks. Compared to regular structured pruning with fine-tuning, our channel-SPA improves accuracy by 6.9% on average while using half the parameters at 90% pruned weights. Alternatively, it can learn adaptations with 17x fewer parameters at 70% pruning with 1.6% lower accuracy. Similarly, our block-SPA requires far fewer parameters than pruning with fine-tuning. Our experimental code and Python library of adapters are available at github.com/lukashedegaard/structured-pruning-adapters.
翻訳日:2022-11-21 14:09:14 公開日:2022-11-17
# UMFuse:人間編集アプリケーションのための統合マルチビューフュージョン

UMFuse: Unified Multi View Fusion for Human Editing applications ( http://arxiv.org/abs/2211.10157v1 )

ライセンス: Link先を確認
Rishabh Jain, Mayur Hemani, Duygu Ceylan, Krishna Kumar Singh, Jingwan Lu, Mausooom Sarkar, Balaji Krishnamurthy(参考訳) 視覚コミュニティは、その広範な実用的応用のために、多くのポーズガイドによる人間の編集方法を探求してきた。 これらの手法のほとんどは、単一の画像が入力として与えられ、編集された画像を出力として生成する画像から画像への定式化を依然として使っている。 しかし、ターゲットポーズが入力ポーズと大きく異なる場合、問題は未定義である。 既存の方法では、インペインティングやスタイル転送を利用してオクルージョンを処理し、コンテンツを保存する。 本稿では,欠落情報の問題を最小限に抑えるために複数のビューの利用を検討し,基礎となる人間モデルの正確な表現を生成する。 複数の視点から知識を融合させるため,画像からキーポイントとテクスチャを抽出し,解釈可能な画素ごとの選択マップを生成するセレクタネットワークを設計する。 その後、別々のネットワーク(単一の画像人間再現タスクで訓練された)からのエンコーディングを潜伏空間にマージする。 これにより、異なる編集タスクに対して正確で正確で視覚的に一貫性のある画像を生成することができる。 本稿では,新たに提案する2つのタスクのマルチビュー・ヒューマン・レポジトリとミックス・アンド・マッチ・ヒューマン・イメージ生成におけるネットワークの適用例を示す。 さらに,単一ビュー編集の限界と,マルチビューがより優れた代替手段を提供するシナリオについても検討した。

The vision community has explored numerous pose guided human editing methods due to their extensive practical applications. Most of these methods still use an image-to-image formulation in which a single image is given as input to produce an edited image as output. However, the problem is ill-defined in cases when the target pose is significantly different from the input pose. Existing methods then resort to in-painting or style transfer to handle occlusions and preserve content. In this paper, we explore the utilization of multiple views to minimize the issue of missing information and generate an accurate representation of the underlying human model. To fuse the knowledge from multiple viewpoints, we design a selector network that takes the pose keypoints and texture from images and generates an interpretable per-pixel selection map. After that, the encodings from a separate network (trained on a single image human reposing task) are merged in the latent space. This enables us to generate accurate, precise, and visually coherent images for different editing tasks. We show the application of our network on 2 newly proposed tasks - Multi-view human reposing, and Mix-and-match human image generation. Additionally, we study the limitations of single-view editing and scenarios in which multi-view provides a much better alternative.
翻訳日:2022-11-21 14:09:01 公開日:2022-11-17
# コミュニティ型質問応答ペアの要約

Summarizing Community-based Question-Answer Pairs ( http://arxiv.org/abs/2211.09892v1 )

ライセンス: Link先を確認
Ting-Yao Hsu, Yoshi Suhara, Xiaolan Wang(参考訳) CQA(Community-based Question Answering)は,Eコマースや旅行,食事など,さまざまな分野におけるオンラインサービスの不可欠なコンポーネントになりつつある。 しかし、CQAペアの数が圧倒的に多いため、ユーザがCQAペアに散らばる有用な情報を見つけることは困難である。 そこで本研究では,CQAペアから簡潔な要約を作成することを目的とした,新しいCQA要約タスクを提案する。 この目的のために,我々はまず多段階データアノテーションプロセスを設計し,amazon qaコーパスに基づいたベンチマークデータセットcoqasumを作成する。 次に,抽出的および抽象的要約法の集まりを比較し,cqa要約タスクに対して分離された強いベースラインアプローチを確立する。 本実験ではさらに,cqa要約タスクに対する文型転送と重複除去の2つの課題を検証した。 私たちのデータとコードは公開されています。

Community-based Question Answering (CQA), which allows users to acquire their desired information, has increasingly become an essential component of online services in various domains such as E-commerce, travel, and dining. However, an overwhelming number of CQA pairs makes it difficult for users without particular intent to find useful information spread over CQA pairs. To help users quickly digest the key information, we propose the novel CQA summarization task that aims to create a concise summary from CQA pairs. To this end, we first design a multi-stage data annotation process and create a benchmark dataset, CoQASUM, based on the Amazon QA corpus. We then compare a collection of extractive and abstractive summarization methods and establish a strong baseline approach DedupLED for the CQA summarization task. Our experiment further confirms two key challenges, sentence-type transfer and deduplication removal, towards the CQA summarization task. Our data and code are publicly available.
翻訳日:2022-11-21 14:00:00 公開日:2022-11-17
# sms: 微分方程式の効率的な長時間積分のためのスパイキングマーチングスキーム

SMS: Spiking Marching Scheme for Efficient Long Time Integration of Differential Equations ( http://arxiv.org/abs/2211.09928v1 )

ライセンス: Link先を確認
Qian Zhang, Adar Kahana, George Em Karniadakis, Panos Stinis(参考訳) 本稿では、時間依存の正規項と部分微分方程式(ODE、PDE)を長時間統合するためのスパイキングニューラルネットワーク(SNN)に基づく明示的な数値スキームを提案する。 この手法の核となる要素はsnであり、前回のタイムステップでソリューションに関するスパイクエンコード情報を使用して、次のタイムステップでスパイクエンコード情報を予測するように訓練されている。 ネットワークがトレーニングされた後、スパイクエンコードされた初期条件により、将来の時間ステップで解を計算するために使用できる明示的な数値スキームとして動作する。 デコーダは、進化したスパイクエンコードされたソリューションを関数値に戻すために使用される。 提案手法を用いて複雑度の異なるODEとPDEの数値実験を行った。

We propose a Spiking Neural Network (SNN)-based explicit numerical scheme for long time integration of time-dependent Ordinary and Partial Differential Equations (ODEs, PDEs). The core element of the method is a SNN, trained to use spike-encoded information about the solution at previous timesteps to predict spike-encoded information at the next timestep. After the network has been trained, it operates as an explicit numerical scheme that can be used to compute the solution at future timesteps, given a spike-encoded initial condition. A decoder is used to transform the evolved spiking-encoded solution back to function values. We present results from numerical experiments of using the proposed method for ODEs and PDEs of varying complexity.
翻訳日:2022-11-21 13:58:46 公開日:2022-11-17
# CRAFT: 説明可能性のための再帰的活性化FacTorization

CRAFT: Concept Recursive Activation FacTorization for Explainability ( http://arxiv.org/abs/2211.10154v1 )

ライセンス: Link先を確認
Thomas Fel, Agustin Picard, Louis Bethune, Thibaut Boissin, David Vigouroux, Julien Colin, R\'emi Cad\`ene, Thomas Serre(参考訳) 属性法は、モデル決定を駆動する画像の最も重要な領域を記述するためにヒートマップを使用する一般的な説明可能性法である。 しかし、近年の研究では、これらの手法が実用性に限界があることが示されており、それはおそらく、画像の最も健全な部分(つまり、モデルが見える場所)のみをハイライトし、それらの場所で見た「何」についての情報を伝達しないからである。 本研究では,概念に基づく説明を生成することによって,「何」と「どこに」を識別する新しいアプローチであるCRAFTで,このギャップを埋めようとしている。 自動概念抽出文献に新しい3つの要素を紹介する。 (i)レイヤ間の概念を検出し分解する再帰的戦略。 (ii)sobolインデックスを用いた概念重要度をより忠実に推定するための新しい方法 (三)概念属性マップのアンロックに暗黙の差別を用いること。 提案手法の利点を実証するために,人間とコンピュータの視覚実験を行った。 再帰的分解は有意義で正確な概念を生成し,提案する概念重要度推定手法は従来の手法よりもモデルに忠実であることを示す。 ヒトが定義したユーティリティベンチマークで人体実験者の方法の有用性を評価すると、3つのテストシナリオのうち2つのシナリオでアプローチが大幅に改善されることがわかりました。 全体として,本研究は,実用シナリオにおいて有用な一般的な説明可能性手法の開発に向けて多くの研究が続けられているものの,適切な粒度レベルにおける意味概念の同定は,帰属法によって得られる以上の有用かつ補完的な情報をもたらすことを示唆する。

Attribution methods are a popular class of explainability methods that use heatmaps to depict the most important areas of an image that drive a model decision. Nevertheless, recent work has shown that these methods have limited utility in practice, presumably because they only highlight the most salient parts of an image (i.e., 'where' the model looked) and do not communicate any information about 'what' the model saw at those locations. In this work, we try to fill in this gap with CRAFT -- a novel approach to identify both 'what' and 'where' by generating concept-based explanations. We introduce 3 new ingredients to the automatic concept extraction literature: (i) a recursive strategy to detect and decompose concepts across layers, (ii) a novel method for a more faithful estimation of concept importance using Sobol indices, and (iii) the use of implicit differentiation to unlock Concept Attribution Maps. We conduct both human and computer vision experiments to demonstrate the benefits of the proposed approach. We show that our recursive decomposition generates meaningful and accurate concepts and that the proposed concept importance estimation technique is more faithful to the model than previous methods. When evaluating the usefulness of the method for human experimenters on a human-defined utility benchmark, we find that our approach significantly improves on two of the three test scenarios (while none of the current methods including ours help on the third). Overall, our study suggests that, while much work remains toward the development of general explainability methods that are useful in practical scenarios, the identification of meaningful concepts at the proper level of granularity yields useful and complementary information beyond that afforded by attribution methods.
翻訳日:2022-11-21 13:57:13 公開日:2022-11-17
# コロンビア・マシン・ラーニングによるカンナダ英語テキストの単語レベルでのコード混合言語識別

CoLI-Machine Learning Approaches for Code-mixed Language Identification at the Word Level in Kannada-English Texts ( http://arxiv.org/abs/2211.09847v1 )

ライセンス: Link先を確認
H.L. Shashirekha and F. Balouchzahi and M.D. Anusha and G. Sidorov(参考訳) 与えられたテキストで使用される言語を自動的に識別するタスクはLanguage Identification (LI)と呼ばれる。 インドは多言語国であり、多くのインド人、特に若者はヒンディー語や英語に慣れている。 そのため、ソーシャルメディアにコメントを投稿するために複数の言語を使うことが多い。 複数の言語を含むテキストは"code-mixed texts"と呼ばれ、LIにとって良い入力源である。 これらのテキストの言語は、文レベル、単語レベル、さらにはサブワードレベルで混合される。 単語レベルでのLIは、文中の各単語が予め定義された言語の1つの言語でタグ付けされるシーケンスラベリング問題である。 コード・ミックス・カンナダ・イングリッシュ(kn-en)テキストにおける単語レベルliの対応について述べる。 i)CoLI-Kenglishデータセットと呼ばれるコード混合Kn-Enデータセットの構築 二 コード混合Kn-En埋め込み及び 三 機械学習(ML)、Deep Learning(DL)、Transfer Learning(TL)アプローチを用いた学習モデル。 コードミックスKn-Enテキストは、Kannada YouTubeビデオコメントから抽出され、CoLI-KenglishデータセットとコードミックスKn-En埋め込みを構築する。 CoLI-Kenglishデータセットの単語は、"Kannada"、" English"、"Mixed-lang"、"Name"、"Location"、"Other"の6つの主要なカテゴリに分類される。 学習モデル、すなわち、MLに基づくCoLI-vectorとCoLI-ngram、DLに基づくCoLI-BiLSTM、TLアプローチに基づくCoLI-ULMFiTを構築し、CoLI-Kenglishデータセットを用いて評価する。 学習モデルの性能は,マクロ平均F1スコア0.64の他のモデルと比較して,CoLI-ngramsモデルの方が優れていた。 しかし、すべての学習モデルの結果は互いに非常に競合していた。

The task of automatically identifying a language used in a given text is called Language Identification (LI). India is a multilingual country and many Indians especially youths are comfortable with Hindi and English, in addition to their local languages. Hence, they often use more than one language to post their comments on social media. Texts containing more than one language are called "code-mixed texts" and are a good source of input for LI. Languages in these texts may be mixed at sentence level, word level or even at sub-word level. LI at word level is a sequence labeling problem where each and every word in a sentence is tagged with one of the languages in the predefined set of languages. In order to address word level LI in code-mixed Kannada-English (Kn-En) texts, this work presents i) the construction of code-mixed Kn-En dataset called CoLI-Kenglish dataset, ii) code-mixed Kn-En embedding and iii) learning models using Machine Learning (ML), Deep Learning (DL) and Transfer Learning (TL) approaches. Code-mixed Kn-En texts are extracted from Kannada YouTube video comments to construct CoLI-Kenglish dataset and code-mixed Kn-En embedding. The words in CoLI-Kenglish dataset are grouped into six major categories, namely, "Kannada", "English", "Mixed-language", "Name", "Location" and "Other". The learning models, namely, CoLI-vectors and CoLI-ngrams based on ML, CoLI-BiLSTM based on DL and CoLI-ULMFiT based on TL approaches are built and evaluated using CoLI-Kenglish dataset. The performances of the learning models illustrated, the superiority of CoLI-ngrams model, compared to other models with a macro average F1-score of 0.64. However, the results of all the learning models were quite competitive with each other.
翻訳日:2022-11-21 13:40:29 公開日:2022-11-17
# 修正再入力による大規模言語モデルの構築

Planning with Large Language Models via Corrective Re-prompting ( http://arxiv.org/abs/2211.09935v1 )

ライセンス: Link先を確認
Shreyas Sundara Raman, Vanya Cohen, Eric Rosen, Ifrah Idrees, David Paulius and Stefanie Tellex(参考訳) 大規模言語モデル(llms)に存在する常識知識の抽出は、インテリジェントで具体化されたエージェントを設計するための道を提供する。 関連する研究は、目標、センサー観測、シーン記述などの幅広いコンテキスト情報を用いてLCMをクエリして、特定のタスクのための高レベルなアクションプランを生成するが、これらのアプローチは、センサーとモーターの相互作用を可能にするための人間の介入や追加の機械を含むことが多い。 本研究では,新しい情報ソースであるプレコンディショニングエラーを利用したLCMから実行可能なプランを抽出するためのプロンプトベースの戦略を提案する。 私たちのアプローチでは、アクションは特定のコンテキストでのみ実行可能である、すなわち、暗黙の前提条件は実行すべきアクション(例えば、ドアを開かなければならない)のために満たされなければならない、そして具体化されたエージェントは、現在のコンテキストでアクションが実行可能かどうかを判断する能力を持っている(例えば、事前条件エラーがあるかどうかを検出する)。 エージェントがアクションを実行できない場合、我々のアプローチはLCMに事前条件エラー情報を加えて実行可能修正アクションを抽出し、現在のコンテキストで目的を達成する。 88の異なるタスクと7つのシーンで仮想ホームシミュレーション環境におけるアプローチを評価した。 我々は,異なるプロンプトテンプレートを評価し,LLMの動作を鼻で再サンプリングする手法と比較した。 プリコンディショニングエラーを用いることで,計画の実行可能性と意味的正確性を向上させると同時に,アクションをクエリする上で必要な再プロンプト数を削減する。

Extracting the common sense knowledge present in Large Language Models (LLMs) offers a path to designing intelligent, embodied agents. Related works have queried LLMs with a wide-range of contextual information, such as goals, sensor observations and scene descriptions, to generate high-level action plans for specific tasks; however these approaches often involve human intervention or additional machinery to enable sensor-motor interactions. In this work, we propose a prompting-based strategy for extracting executable plans from an LLM, which leverages a novel and readily-accessible source of information: precondition errors. Our approach assumes that actions are only afforded execution in certain contexts, i.e., implicit preconditions must be met for an action to execute (e.g., a door must be unlocked to open it), and that the embodied agent has the ability to determine if the action is/is not executable in the current context (e.g., detect if a precondition error is present). When an agent is unable to execute an action, our approach re-prompts the LLM with precondition error information to extract an executable corrective action to achieve the intended goal in the current context. We evaluate our approach in the VirtualHome simulation environment on 88 different tasks and 7 scenes. We evaluate different prompt templates and compare to methods that naively re-sample actions from the LLM. Our approach, using precondition errors, improves executability and semantic correctness of plans, while also reducing the number of re-prompts required when querying actions.
翻訳日:2022-11-21 13:39:54 公開日:2022-11-17
# 説明責任 - 因果自尊心

Explainability Via Causal Self-Talk ( http://arxiv.org/abs/2211.09937v1 )

ライセンス: Link先を確認
Nicholas A. Roy, Junkyung Kim, Neil Rabinowitz(参考訳) AIシステムの振る舞いを説明することは、実際には一般的に避けられる重要な問題である。 xaiコミュニティは、多くのテクニックを開発してきたが、ほとんどが、より広いディープラーニングコミュニティがほとんどの状況で支払いを望んでいない一連のコストを伴っている。 我々はこの問題を現実的に捉え、XAIの野心とディープラーニングの実践的制約の両方を捉えたデシラタのセットを定義します。 私たちは、すべてのデシデラタを満たす効果的な方法を説明する:aiシステムをトレーニングして、自分自身の因果モデルを構築する。 我々は、このソリューションのdeep rlエージェントのインスタンスであるcausal self-talkを開発した。 CSTはエージェントに時間をかけて自分自身と通信するように訓練することで動作する。 本手法をシミュレートした3次元環境に実装し,エージェントが自己の行動について忠実かつ意味的に説明できることを示す。 説明以外にも、これらの学習モデルがAIシステムにセマンティックコントロールインターフェースを構築する新しい方法を提供することも示しています。

Explaining the behavior of AI systems is an important problem that, in practice, is generally avoided. While the XAI community has been developing an abundance of techniques, most incur a set of costs that the wider deep learning community has been unwilling to pay in most situations. We take a pragmatic view of the issue, and define a set of desiderata that capture both the ambitions of XAI and the practical constraints of deep learning. We describe an effective way to satisfy all the desiderata: train the AI system to build a causal model of itself. We develop an instance of this solution for Deep RL agents: Causal Self-Talk. CST operates by training the agent to communicate with itself across time. We implement this method in a simulated 3D environment, and show how it enables agents to generate faithful and semantically-meaningful explanations of their own behavior. Beyond explanations, we also demonstrate that these learned models provide new ways of building semantic control interfaces to AI systems.
翻訳日:2022-11-21 13:39:24 公開日:2022-11-17
# 抗体配列構造共設計のための事前学習パラダイムの導入

Incorporating Pre-training Paradigm for Antibody Sequence-Structure Co-design ( http://arxiv.org/abs/2211.08406v2 )

ライセンス: Link先を確認
Kaiyuan Gao, Lijun Wu, Jinhua Zhu, Tianbo Peng, Yingce Xia, Liang He, Shufang Xie, Tao Qin, Haiguang Liu, Kun He, Tie-Yan Liu(参考訳) 抗体は病原体に結合し、人体に効果的な保護を与える万能なタンパク質である。 近年,人間の経験に相補する可能性のあるデータから,自動的に抗体パターンをマイニングするディープラーニングベースの計算抗体設計が注目されている。 しかし、計算手法は高品質な抗体構造データに大きく依存しており、非常に限られている。 さらに、特異性と結合親和性を決定する抗体の主要成分である相補性決定領域(CDR)は高度に変動し、予測が困難である。 したがって、データ制限問題により、抗体のCDR生成がさらに困難になる。 幸いなことに、CDRをモデル化し、構造データへの依存を軽減するために有効な抗体の配列データが多数存在する。 本稿では,タンパク質モデリングのための事前学習モデルの成功を目撃し,抗体事前学習言語モデルを開発し,(抗原特異的)抗体設計モデルに体系的に組み込む。 具体的には、まず、配列データに基づいて抗体言語モデルを事前訓練し、次にCDRの配列と構造を1ショットで生成し、自己回帰的手法による重コストとエラーの伝播を回避し、最後に、慎重に設計されたモジュールを用いた抗原特異的抗体生成モデルのための事前訓練された抗体モデルを活用する。 種々の実験により,本手法は,配列や構造の生成,抗原結合型CDR-H3設計など,過去のベースラインよりも優れた性能が得られることを示す。

Antibodies are versatile proteins that can bind to pathogens and provide effective protection for human body. Recently, deep learning-based computational antibody design has attracted popular attention since it automatically mines the antibody patterns from data that could be complementary to human experiences. However, the computational methods heavily rely on high-quality antibody structure data, which is quite limited. Besides, the complementarity-determining region (CDR), which is the key component of an antibody that determines the specificity and binding affinity, is highly variable and hard to predict. Therefore, the data limitation issue further raises the difficulty of CDR generation for antibodies. Fortunately, there exists a large amount of sequence data of antibodies that can help model the CDR and alleviate the reliance on structure data. By witnessing the success of pre-training models for protein modeling, in this paper, we develop the antibody pre-training language model and incorporate it into the (antigen-specific) antibody design model in a systemic way. Specifically, we first pre-train an antibody language model based on the sequence data, then propose a one-shot way for sequence and structure generation of CDR to avoid the heavy cost and error propagation from an autoregressive manner, and finally leverage the pre-trained antibody model for the antigen-specific antibody generation model with some carefully designed modules. Through various experiments, we show that our method achieves superior performances over previous baselines on different tasks, such as sequence and structure generation and antigen-binding CDR-H3 design.
翻訳日:2022-11-20 14:16:18 公開日:2022-11-17
# 重み付き固有値を用いたグラフとハイパーグラフのチーガー不等式

Cheeger Inequalities for Directed Graphs and Hypergraphs Using Reweighted Eigenvalues ( http://arxiv.org/abs/2211.09776v1 )

ライセンス: Link先を確認
Lap Chi Lau, Kam Chuen Tung, Robert Wang(参考訳) 有向グラフとハイパーグラフのチーガー不等式を,最近,非有向グラフの頂点展開のために開発された再重み付け固有値法(oz22,klt22,jpv22])を用いて導出する。 目的は、有向グラフの新しいスペクトル理論とハイパーグラフの代替スペクトル理論を開発することである。 最初の結果は、頂点拡大に関するチーガーの不等式である: $\vec{\psi}(G)$ of a directed graph $G$ to the vertex-capacitated maximum reweighted second eigen value $\vec{\lambda}_2^{v*}$: \[ \vec{\lambda}_2^{v*} \lesssim \vec{\psi}(G) \lesssim \sqrt{\vec{\lambda}_2^{v*} \cdot \log (\Delta/\vec{\lambda}_2^{v*})}。 これは、有向グラフの頂点展開による最速混合時間の組合せ的特徴を提供し、有向グラフに対する再重み付き固有値、頂点展開、および最速混合時間の間の新たな接続を構築する。 第二の主な結果は、有向グラフのエッジコンダクタンス $\vec{\phi}(g)$ を、エッジ容量の最大再重み付き第二の固有値 $\vec{\lambda}_2^{e*}$: \[ \vec{\lambda}_2^{e*} \lesssim \vec{\phi}(g) \lesssim \sqrt{\vec{\lambda}_2^{e*} \cdot \log (1/\vec{\lambda}_2^{e*})} に関連付けるより強いチーガーの不等式である。 これは、有向グラフを展開する有向グラフの証明書と、有向グラフでスパースカットを見つけるスペクトルアルゴリズムを提供し、グラフ展開の証明と非有向グラフのスペクトル分割アルゴリズムにおいてチーガーの不等式と同様の役割を果たす。 さらに, [lou15,cltz18] における既存の結果にマッチし改善するハイパーグラフに対するいくつかのチーガー不等式を導出するために, この再重み付け固有値法を用いて, 有向グラフに対するチーガー不等式の改良を導出する。 これらの結果は、無向グラフのスペクトル理論をより一般的な設定へ持ち上げるための統一的なアプローチを提供する。

We derive Cheeger inequalities for directed graphs and hypergraphs using the reweighted eigenvalue approach that was recently developed for vertex expansion in undirected graphs [OZ22,KLT22,JPV22]. The goal is to develop a new spectral theory for directed graphs and an alternative spectral theory for hypergraphs. The first main result is a Cheeger inequality relating the vertex expansion $\vec{\psi}(G)$ of a directed graph $G$ to the vertex-capacitated maximum reweighted second eigenvalue $\vec{\lambda}_2^{v*}$: \[ \vec{\lambda}_2^{v*} \lesssim \vec{\psi}(G) \lesssim \sqrt{\vec{\lambda}_2^{v*} \cdot \log (\Delta/\vec{\lambda}_2^{v*})}. \] This provides a combinatorial characterization of the fastest mixing time of a directed graph by vertex expansion, and builds a new connection between reweighted eigenvalued, vertex expansion, and fastest mixing time for directed graphs. The second main result is a stronger Cheeger inequality relating the edge conductance $\vec{\phi}(G)$ of a directed graph $G$ to the edge-capacitated maximum reweighted second eigenvalue $\vec{\lambda}_2^{e*}$: \[ \vec{\lambda}_2^{e*} \lesssim \vec{\phi}(G) \lesssim \sqrt{\vec{\lambda}_2^{e*} \cdot \log (1/\vec{\lambda}_2^{e*})}. \] This provides a certificate for a directed graph to be an expander and a spectral algorithm to find a sparse cut in a directed graph, playing a similar role as Cheeger's inequality in certifying graph expansion and in the spectral partitioning algorithm for undirected graphs. We also use this reweighted eigenvalue approach to derive the improved Cheeger inequality for directed graphs, and furthermore to derive several Cheeger inequalities for hypergraphs that match and improve the existing results in [Lou15,CLTZ18]. These are supporting results that this provides a unifying approach to lift the spectral theory for undirected graphs to more general settings.
翻訳日:2022-11-18 17:35:31 公開日:2022-11-17
# 機械学習を用いたALMAデータ中の隠れた太陽系外惑星の配置

Locating Hidden Exoplanets in ALMA Data Using Machine Learning ( http://arxiv.org/abs/2211.09541v1 )

ライセンス: Link先を確認
Jason Terry, Cassandra Hall, Sean Abreau, Sergei Gleyzer(参考訳) 原始惑星系円盤の太陽系外惑星は、ケプラー速度から分子線放出のチャネルマップで局所的な偏差を引き起こす。 これらの偏差を特徴づける現在の方法は時間がかかり、統一された標準アプローチは存在しない。 機械学習が惑星の存在を迅速かつ正確に検出できることを実証する。 我々はシミュレーションから生成した合成画像に基づいてモデルを訓練し、実際の観測に応用して実際の系で形成する惑星を識別する。 コンピュータビジョンに基づく機械学習手法は、1つ以上の惑星の存在を正確に識別するだけでなく、それらの惑星の位置を正確に制限することもできる。

Exoplanets in protoplanetary disks cause localized deviations from Keplerian velocity in channel maps of molecular line emission. Current methods of characterizing these deviations are time consuming, and there is no unified standard approach. We demonstrate that machine learning can quickly and accurately detect the presence of planets. We train our model on synthetic images generated from simulations and apply it to real observations to identify forming planets in real systems. Machine learning methods, based on computer vision, are not only capable of correctly identifying the presence of one or more planets, but they can also correctly constrain the location of those planets.
翻訳日:2022-11-18 17:33:16 公開日:2022-11-17
# 機械学習の音響反転によるリアルタイム音声感情検出に対するプライバシ

Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning ( http://arxiv.org/abs/2211.09273v1 )

ライセンス: Link先を確認
Brian Testa, Yi Xiao, Avery Gump, and Asif Salekin(参考訳) 感情監視(Emotional Surveillance)は、プライバシーの懸念が高まりつつある分野だ。 これらの懸念は、監視ユースケースをサポートする複数のセンサーを備えたユビキタスIoTデバイスによって悪化する。 ここでは、スマートスピーカーに接続された音声感情認識(SER)分類器の使用という、そのようなユースケースについて考察する。 この研究は、スマートスピーカーの利便性を損なうことなく、スマートスピーカーに接続されたブラックボックスSER分類器を回避する能力を示す。 このプライバシーの懸念は、機械学習の敵対的回避のレンズを通して考慮される。 遺伝的プログラミング(dare-gp)による感情の音響認識を打破するソリューションは,非侵襲的付加音響摂動(aaps)を生成するために遺伝的プログラミングを用いる。 これらのAAPの進化を制限することにより、SER分類器の性能を低下させながら、転写精度を保護できる。 これらのAAPの付加的な性質は、発話とユーザ位置に依存しない方法で、固定されたユーザに対してこれらのAAPを生成するアプローチとともに、SER分類器のリアルタイム、実世界の回避をサポートする。 DARE-GPによるスペクトル特徴の使用は、音声の感情的内容の基盤となるもので、AAPの転送性は以前は見つからなかったブラックボックスのSER分類器が可能である。 さらに、DARE-GPは最先端のSER回避技術よりも優れており、知識のある敵が使用する防御に対して堅牢である。 本研究の評価は、市販の市販スマートスピーカー2台に対して音響評価を行い、単一のAAPがブラックボックス分類器を70%以上回避できる結果となった。 最終的な評価では、DARE-GPがスマートスピーカーのウェイクワードで自動的に起動される実世界のリアルタイムデプロイメントの有効性を評価するために、ウェイクワードシステムと統合された小さなフォームファクタシステム(ラズベリーpi)にAAP再生をデプロイした。

Emotional Surveillance is an emerging area with wide-reaching privacy concerns. These concerns are exacerbated by ubiquitous IoT devices with multiple sensors that can support these surveillance use cases. The work presented here considers one such use case: the use of a speech emotion recognition (SER) classifier tied to a smart speaker. This work demonstrates the ability to evade black-box SER classifiers tied to a smart speaker without compromising the utility of the smart speaker. This privacy concern is considered through the lens of adversarial evasion of machine learning. Our solution, Defeating Acoustic Recognition of Emotion via Genetic Programming (DARE-GP), uses genetic programming to generate non-invasive additive audio perturbations (AAPs). By constraining the evolution of these AAPs, transcription accuracy can be protected while simultaneously degrading SER classifier performance. The additive nature of these AAPs, along with an approach that generates these AAPs for a fixed set of users in an utterance and user location-independent manner, supports real-time, real-world evasion of SER classifiers. DARE-GP's use of spectral features, which underlay the emotional content of speech, allows the transferability of AAPs to previously unseen black-box SER classifiers. Further, DARE-GP outperforms state-of-the-art SER evasion techniques and is robust against defenses employed by a knowledgeable adversary. The evaluations in this work culminate with acoustic evaluations against two off-the-shelf commercial smart speakers, where a single AAP could evade a black box classifier over 70% of the time. The final evaluation deployed AAP playback on a small-form-factor system (raspberry pi) integrated with a wake-word system to evaluate the efficacy of a real-world, real-time deployment where DARE-GP is automatically invoked with the smart speaker's wake word.
翻訳日:2022-11-18 17:32:08 公開日:2022-11-17
# mmwaveネットワークの能動型レジリエント伝送とスケジューリング機構

Proactive Resilient Transmission and Scheduling Mechanisms for mmWave Networks ( http://arxiv.org/abs/2211.09307v1 )

ライセンス: Link先を確認
Mine Gokce Dogan, Martina Cardone, Christina Fragouli(参考訳) 本稿では、任意のミリ波(mmWave)ネットワークにおいて、複数の経路にまたがるトラフィックを適切に分散するレジリエント伝送機構を開発することを目的とする。 主な貢献は以下の通り。 (a)ネットワーク障害に対するレジリエンスを事前に構築し、かつ、エンドツーエンドのパケットレートを高く達成するプロアクティブトランスミッション機構の開発 (b)パケットレートの高い複数の積極的な弾力性経路を効率良く(ネットワークサイズで多項式時間で)選択するヒューリスティック経路選択アルゴリズムの設計 (c)提案した経路選択アルゴリズムと深部強化学習(DRL)に基づくオンライン手法を組み合わせたハイブリッドスケジューリングアルゴリズムの開発。 リンク障害に対するレジリエンスを実現するため,ネットワークを介した情報の流れに適応する最先端のソフトアクタ・クリティカルDRLアルゴリズムについて検討した。 提案したスケジューリングアルゴリズムは,異なるトポロジ,チャネル,ブロックを実現する上での障害のリンクに強く適応し,代替アルゴリズムに優れた性能を提供する。

This paper aims to develop resilient transmission mechanisms to suitably distribute traffic across multiple paths in an arbitrary millimeter-wave (mmWave) network. The main contributions include: (a) the development of proactive transmission mechanisms that build resilience against network disruptions in advance, while achieving a high end-to-end packet rate; (b) the design of a heuristic path selection algorithm that efficiently selects (in polynomial time in the network size) multiple proactively resilient paths with high packet rates; and (c) the development of a hybrid scheduling algorithm that combines the proposed path selection algorithm with a deep reinforcement learning (DRL) based online approach for decentralized adaptation to blocked links and failed paths. To achieve resilience to link failures, a state-of-the-art Soft Actor-Critic DRL algorithm, which adapts the information flow through the network, is investigated. The proposed scheduling algorithm robustly adapts to link failures over different topologies, channel and blockage realizations while offering a superior performance to alternative algorithms.
翻訳日:2022-11-18 17:31:37 公開日:2022-11-17
# 鳥の発声検出のためのバランスのとれた深部CA

Balanced Deep CCA for Bird Vocalization Detection ( http://arxiv.org/abs/2211.09376v1 )

ライセンス: Link先を確認
Sumit Kumar, B. Anshuman, Linus Ruettimann, Richard H.R. Hahnloser, Vipul Arora(参考訳) イベント検出は、イベントが1つではなく2つの異なるモダリティによってキャプチャされると改善される。 しかし、複数のモードで検出システムを訓練するには、特にラベル付きデータが豊富だがラベル付きデータが限られている場合、困難である。 我々は,マイクロホン(音)信号と加速度計(振動)信号の相関関係を学習する,マルチモーダルデータのための新しい自己教師学習手法を開発した。 本研究の主な目的は、ラベル付きデータが不足し、興味のある音声イベント(声帯発声)が希薄な場合、下流イベント検出タスクにおける高性能な埋め込みを学習することである。 我々は,事象の疎度に苦しむディープ・カノニカル相関分析(DCCA)に基づくアプローチを行った。 ラベル付きデータからデータサンプリングモデルを学習し,その出力にDCCAを適用することで,正のラベルの疎さを克服する。 本手法は,古典的なDCCAと比較して,下流の教師なし音声検出タスクにおける教師なし埋め込みの性能を向上させる。 データラベルは頻繁に不均衡であるため、この手法は低リソースシナリオにおいて広く有用である可能性がある。

Event detection improves when events are captured by two different modalities rather than just one. But to train detection systems on multiple modalities is challenging, in particular when there is abundance of unlabelled data but limited amounts of labeled data. We develop a novel self-supervised learning technique for multi-modal data that learns (hidden) correlations between simultaneously recorded microphone (sound) signals and accelerometer (body vibration) signals. The key objective of this work is to learn useful embeddings associated with high performance in downstream event detection tasks when labeled data is scarce and the audio events of interest (songbird vocalizations) are sparse. We base our approach on deep canonical correlation analysis (DCCA) that suffers from event sparseness. We overcome the sparseness of positive labels by first learning a data sampling model from the labelled data and by applying DCCA on the output it produces. This method that we term balanced DCCA (b-DCCA) improves the performance of the unsupervised embeddings on the downstream supervised audio detection task compared to classsical DCCA. Because data labels are frequently imbalanced, our method might be of broad utility in low-resource scenarios.
翻訳日:2022-11-18 17:31:19 公開日:2022-11-17
# 物理インフォームド・クープマンネットワーク

Physics-Informed Koopman Network ( http://arxiv.org/abs/2211.09419v1 )

ライセンス: Link先を確認
Yuying Liu, Aleksei Sholokhov, Hassan Mansour, Saleh Nabi(参考訳) クープマン作用素理論は、非線形力学を線型化するという約束のために注目されている。 クープマン作用素を表現するために開発されたニューラルネットワークは、任意に複雑な関数を近似する能力によって大きな成功を収めている。 しかし、大きな可能性にもかかわらず、それらは通常、実際のシステムの測定や高忠実度シミュレーションからの大きなトレーニングデータセットを必要とする。 本研究では,モデルトレーニング中にソフトペナルティ制約によって基礎となる物理法則を強制するために自動微分を利用する,物理に変形したニューラルネットワークに触発された新しいアーキテクチャを提案する。 大規模トレーニングデータセットの必要性を減少させるだけでなく,koopman固有関数近似における高い有効性を維持することを実証した。

Koopman operator theory is receiving increased attention due to its promise to linearize nonlinear dynamics. Neural networks that are developed to represent Koopman operators have shown great success thanks to their ability to approximate arbitrarily complex functions. However, despite their great potential, they typically require large training data-sets either from measurements of a real system or from high-fidelity simulations. In this work, we propose a novel architecture inspired by physics-informed neural networks, which leverage automatic differentiation to impose the underlying physical laws via soft penalty constraints during model training. We demonstrate that it not only reduces the need of large training data-sets, but also maintains high effectiveness in approximating Koopman eigenfunctions.
翻訳日:2022-11-18 17:30:42 公開日:2022-11-17
# 量子アニーラを用いた特徴選択の利点

An Advantage Using Feature Selection with a Quantum Annealer ( http://arxiv.org/abs/2211.09756v1 )

ライセンス: Link先を確認
Andrew Vlasic, Grant Hunter and Salvatore Certo(参考訳) 特徴選択(英: feature selection)は、対象変数と強い統計接続を持つレコード中の特徴を識別する統計予測モデリングの手法である。 トレーニングにおいて、ターゲット変数に弱い統計的接続を持つ特徴は、データの次元を減少させるだけでなく、アルゴリズムの時間的複雑さを減少させるだけでなく、過度な適合を避けるのに役立つデータ内のノイズも減少させる。 全体として、特徴選択は、良好に動作し安定な堅牢な統計モデルのトレーニングを支援する。 古典的な計算におけるスケーラビリティの欠如を考えると、現在のテクニックは機能の予測能力のみを考慮し、機能自体の冗長性は考慮しない。 量子アニール(QA)を利用した最近の特徴選択の進歩は、冗長性を最小化しながら特徴の予測力を最大化することを目的としたスケーラブルな技術を提供する。 その結果、このアルゴリズムはバイアス/分散トレードオフを補助し、統計モデルのトレーニングにより良い特徴をもたらすことが期待できる。 本稿では,オープンソースのデータセットを用いて,古典的手法に対する直観性を検証し,各訓練された統計モデルでよく知られた予測アルゴリズムの有効性を評価する。 数値結果は,QAを利用したアルゴリズムから選択した特徴を利用した利点を示す。

Feature selection is a technique in statistical prediction modeling that identifies features in a record with a strong statistical connection to the target variable. Excluding features with a weak statistical connection to the target variable in training not only drops the dimension of the data, which decreases the time complexity of the algorithm, it also decreases noise within the data which assists in avoiding overfitting. In all, feature selection assists in training a robust statistical model that performs well and is stable. Given the lack of scalability in classical computation, current techniques only consider the predictive power of the feature and not redundancy between the features themselves. Recent advancements in feature selection that leverages quantum annealing (QA) gives a scalable technique that aims to maximize the predictive power of the features while minimizing redundancy. As a consequence, it is expected that this algorithm would assist in the bias/variance trade-off yielding better features for training a statistical model. This paper tests this intuition against classical methods by utilizing open-source data sets and evaluate the efficacy of each trained statistical model well-known prediction algorithms. The numerical results display an advantage utilizing the features selected from the algorithm that leveraged QA.
翻訳日:2022-11-18 17:30:22 公開日:2022-11-17
# 機械学習カラビ-ヤウ計量と曲率

Machine Learned Calabi--Yau Metrics and Curvature ( http://arxiv.org/abs/2211.09801v1 )

ライセンス: Link先を確認
Per Berglund, Giorgi Butbaia, Tristan H\"ubsch, Vishnu Jejjala, Dami\'an Mayorga Pe\~na, Challenger Mishra, Justin Tan(参考訳) ricci-flat (calabi-yau)メトリックを見つけることは、弦理論や現象学に深い意味を持つ幾何学における長い問題である。この問題に対する新しい攻撃は、ニューラルネットワークを使って与えられたk\"ahlerクラス内のカラビ-ヤウ計量の近似を設計できる。 本稿では,滑らかかつ特異なk3曲面とカラビ・ヤウ3次元多様体上の数値リッチ平坦計量について検討する。 これらのリッチ平坦計量近似を用いて、四次2次多様体の Cefal\'u および Dwork 族とクインティック3次多様体の Dwork 族を解析し、これらの幾何学上の特徴形式を研究する。 永続ホモロジーを用いて、多様体の高曲率領域が特異点の近傍にクラスターを形成していることを示す。 我々のニューラルネットワーク近似では、ボゴモロフ-ヤウ型不等式3c_2 \geq c_1^2$を観察し、我々のジオメトリが$A_1$型特異点を孤立させたときにアイデンティティを観察する。 我々は、$\chi(x~\smallsetminus~\mathrm{sing}\,{x}) + 2~|\mathrm{sing}\,{x}| = 24$ という証明をスケッチする。

Finding Ricci-flat (Calabi--Yau) metrics is a long standing problem in geometry with deep implications for string theory and phenomenology. A new attack on this problem uses neural networks to engineer approximations to the Calabi--Yau metric within a given K\"ahler class. In this paper we investigate numerical Ricci-flat metrics over smooth and singular K3 surfaces and Calabi--Yau threefolds. Using these Ricci-flat metric approximations for the Cefal\'u and Dwork family of quartic twofolds and the Dwork family of quintic threefolds, we study characteristic forms on these geometries. Using persistent homology, we show that high curvature regions of the manifolds form clusters near the singular points, but also elsewhere. For our neural network approximations, we observe a Bogomolov--Yau type inequality $3c_2 \geq c_1^2$ and observe an identity when our geometries have isolated $A_1$ type singularities. We sketch a proof that $\chi(X~\smallsetminus~\mathrm{Sing}\,{X}) + 2~|\mathrm{Sing}\,{X}| = 24$ also holds for our numerical approximations.
翻訳日:2022-11-18 17:30:01 公開日:2022-11-17
# 付加天文学画像の統計的推測

Statistical Inference for Coadded Astronomical Images ( http://arxiv.org/abs/2211.09300v1 )

ライセンス: Link先を確認
Mallory Wang, Ismael Mendoza, Cheng Wang, Camille Avestruz, Jeffrey Regier(参考訳) 共添加された天文学画像は、複数の単射像を積み重ねることで作成される。 coaddedイメージは、要約したシングルエクスポージャーイメージよりもデータサイズが小さいため、読み込みと処理は計算コストが低くなります。 しかし、画像共添加は画素間のさらなる依存をもたらし、それらの原理的な統計分析を複雑にする。 本稿では,天文画像を用いた光源パラメータ推定を行うための原理ベイズ法を提案する。 本手法は,コ加算画像に寄与する単一露光画素強度を暗黙的に限界化し,次世代天文調査にスケールするために必要な計算効率を与える。 概念実証として,シミュレートされたコ加算を用いた恒星の位置とフラックスを推定する手法が,単一露光画像で学習した手法よりも優れていることを示す。

Coadded astronomical images are created by stacking multiple single-exposure images. Because coadded images are smaller in terms of data size than the single-exposure images they summarize, loading and processing them is less computationally expensive. However, image coaddition introduces additional dependence among pixels, which complicates principled statistical analysis of them. We present a principled Bayesian approach for performing light source parameter inference with coadded astronomical images. Our method implicitly marginalizes over the single-exposure pixel intensities that contribute to the coadded images, giving it the computational efficiency necessary to scale to next-generation astronomical surveys. As a proof of concept, we show that our method for estimating the locations and fluxes of stars using simulated coadds outperforms a method trained on single-exposure images.
翻訳日:2022-11-18 17:23:39 公開日:2022-11-17
# 修正赤宅情報基準の非許容性

Inadmissibility of the corrected Akaike information criterion ( http://arxiv.org/abs/2211.09326v1 )

ライセンス: Link先を確認
Takeru Matsuda(参考訳) For the multivariate linear regression model with unknown covariance, the corrected Akaike information criterion is the minimum variance unbiased estimator of the expected Kullback--Leibler discrepancy. In this study, based on the loss estimation framework, we show its inadmissibility as an estimator of the Kullback--Leibler discrepancy itself, instead of the expected Kullback--Leibler discrepancy. We provide improved estimators of the Kullback--Leibler discrepancy that work well in reduced-rank situations and examine their performance numerically.

For the multivariate linear regression model with unknown covariance, the corrected Akaike information criterion is the minimum variance unbiased estimator of the expected Kullback--Leibler discrepancy. In this study, based on the loss estimation framework, we show its inadmissibility as an estimator of the Kullback--Leibler discrepancy itself, instead of the expected Kullback--Leibler discrepancy. We provide improved estimators of the Kullback--Leibler discrepancy that work well in reduced-rank situations and examine their performance numerically.
翻訳日:2022-11-18 17:23:26 公開日:2022-11-17
# mfcc特徴量とdual stream attention based networkを用いた心臓信号からの心臓異常検出

Heart Abnormality Detection from Heart Sound Signals using MFCC Feature and Dual Stream Attention Based Network ( http://arxiv.org/abs/2211.09751v1 )

ライセンス: Link先を確認
Nayeeb Rashid, Swapnil Saha, Mohseu Rashid Subah, Rizwan Ahmed Robin, Syed Mortuza Hasan Fahim, Shahed Ahmed, Talha Ibn Mahmud(参考訳) 心臓血管疾患は、今日の世界で主要な死因の1つであり、心臓病の早期スクリーニングはそれらを防ぐ上で重要な役割を担っている。 心臓音信号は心臓の症状の主要な指標の1つであり、心臓の異常を検出するのに使用できる。 心臓音信号の取得は非侵襲的で費用対効果があり、最小限の装置を必要とする。 しかし、現在心臓信号からの心臓異常の検出は、医師の専門知識と経験に大きく依存している。 これにより、心エコー信号から心臓異常を検出する自動検出システムは、未発達地域に住む人々にとって大きな資産となり得る。 本稿では,患者の心臓状態の異常を検出するために,生の心臓音信号とMFCC特徴の両方を用いた注意機構を備えた新しい深層学習型デュアルストリームネットワークを提案する。 ディープニューラルネットワークは、生の心臓音信号を使用する畳み込みストリームと、信号のMFCC特徴を使用するリカレントストリームとを有する。 これら2つのストリームの特徴は、新しい注目ネットワークを使用して統合され、分類ネットワークを通過する。 このモデルは、最大で利用可能なpcg信号のデータセットに基づいてトレーニングされ、精度87.11、感度82.41、特異性91.8、mcc87.12を達成する。

Cardiovascular diseases are one of the leading cause of death in today's world and early screening of heart condition plays a crucial role in preventing them. The heart sound signal is one of the primary indicator of heart condition and can be used to detect abnormality in the heart. The acquisition of heart sound signal is non-invasive, cost effective and requires minimum equipment. But currently the detection of heart abnormality from heart sound signal depends largely on the expertise and experience of the physician. As such an automatic detection system for heart abnormality detection from heart sound signal can be a great asset for the people living in underdeveloped areas. In this paper we propose a novel deep learning based dual stream network with attention mechanism that uses both the raw heart sound signal and the MFCC features to detect abnormality in heart condition of a patient. The deep neural network has a convolutional stream that uses the raw heart sound signal and a recurrent stream that uses the MFCC features of the signal. The features from these two streams are merged together using a novel attention network and passed through the classification network. The model is trained on the largest publicly available dataset of PCG signal and achieves an accuracy of 87.11, sensitivity of 82.41, specificty of 91.8 and a MACC of 87.12.
翻訳日:2022-11-18 17:23:18 公開日:2022-11-17
# レコメンデーションのための摂動回復方法

Perturbation-Recovery Method for Recommendation ( http://arxiv.org/abs/2211.09324v1 )

ライセンス: Link先を確認
Jeongwhan Choi, Seoyoung Hong, Noseong Park, Sung-Bae Cho(参考訳) 協調フィルタリングは最も影響力のある推奨システムの1つである。 行列分解からグラフ畳み込み法まで,協調フィルタリングのための様々な手法が提案されている。 近年のGF-CFと拡散モデルの成功に触発されて,BSPM(Blubring-sharpening process model)という新しい概念を提示する。 拡散モデルとbspmは同じ処理哲学を共有し、新しい情報が発見され(例えば拡散モデルの場合、新しい画像が生成される)、元の情報は最初に摂動され、その後元の形式に復元される。 しかし, 拡散モデルとBSPMは異なる種類の情報を扱うため, その最適摂動・回復過程には根本的な相違がある。 したがって、我々のBSPMは拡散モデルとは異なる形態を持つ。 さらに,我々の概念は,既存の協調フィルタリングモデルの多くを理論的に活用するだけでなく,gowalla,yelp2018,amazon-bookの3つのベンチマークデータセットにおいて,リコールやndcgよりも優れています。 私たちのモデルはそれらの中で最高の精度を示している。 さらに,本手法の処理時間は,協調フィルタリングにおける最短事例の1つである。 提案する概念は,我々が本論文で使用しているものよりも,ぼやけ(摂動)やシャープニング(回復)のプロセスをデザインすることで,将来性を高める可能性がある。

Collaborative filtering is one of the most influential recommender system types. Various methods have been proposed for collaborative filtering, ranging from matrix factorization to graph convolutional methods. Being inspired by recent successes of GF-CF and diffusion models, we present a novel concept of blurring-sharpening process model (BSPM). Diffusion models and BSPMs share the same processing philosophy in that new information is discovered (e.g., a new image is generated in the case of diffusion models) while original information is first perturbed and then recovered to its original form. However, diffusion models and our BSPMs deal with different types of information, and their optimal perturbation and recovery processes have a fundamental discrepancy. Therefore, our BSPMs have different forms from diffusion models. In addition, our concept not only theoretically subsumes many existing collaborative filtering models but also outperforms them in terms of Recall and NDCG in the three benchmark datasets, Gowalla, Yelp2018, and Amazon-book. Our model marks the best accuracy in them. In addition, the processing time of our method is one of the shortest cases ever in collaborative filtering. Our proposed concept has much potential in the future to be enhanced by designing better blurring (i.e., perturbation) and sharpening (i.e., recovery) processes than what we use in this paper.
翻訳日:2022-11-18 17:22:05 公開日:2022-11-17
# セキュアで高速なプライバシ保存型分散機械学習

Securer and Faster Privacy-Preserving Distributed Machine Learning ( http://arxiv.org/abs/2211.09353v1 )

ライセンス: Link先を確認
Hongxiao Wang, Zoe L. Jiang, Yanmin Zhao, Siu-Ming Yiu, Peng Yang, Zejiu Tan, Bohan Jin, Shiyuan Xu, and Shimin Pan(参考訳) 機械学習の開発により、単一のサーバがすべてのデータを処理することが困難になる。 したがって、機械学習タスクは複数のサーバに分散し、中央集権的な機械学習を分散タスクに変換する必要がある。 しかし、分散機械学習では、プライバシは未解決の問題である。 MKTFHE(Multi-key homomorphic encryption over torus)はこの問題を解決するのに適した候補の一つである。 しかし、MKTFHEの復号化にはセキュリティ上のリスクがあり、MKFHEに関する最新の結果はブール演算と線形演算のみをサポートする。 したがって、mktfheはsgmoidのような非線形関数を直接計算することはできないし、ロジスティック回帰やニューラルネットワークといった一般的な機械学習をハイパフォーマンスで実行するのは難しい。 本稿ではまず,mktfheの分散復号プロトコルを提案する。次に,mktfheフレンドリーなアクティベーション関数を設計,最後に,ロジスティック回帰とニューラルネットワークのトレーニングをmktfheで実装する。 本プロトコルの正確性と安全性を実証し,sgmoidのtaylor多項式と提案関数を活性化関数として用いた場合の効率と精度を比較した。 実験の結果,7次テイラー多項式の効率は10倍高く,訓練モデルの精度は活性化関数スキームとして高次多項式を用いることと類似していることがわかった。

With the development of machine learning, it is difficult for a single server to process all the data. So machine learning tasks need to be spread across multiple servers, turning centralized machine learning into a distributed one. However, privacy remains an unsolved problem in distributed machine learning. Multi-key homomorphic encryption over torus (MKTFHE) is one of the suitable candidates to solve the problem. However, there may be security risks in the decryption of MKTFHE and the most recent result about MKFHE only supports the Boolean operation and linear operation. So, MKTFHE cannot compute the non-linear function like Sigmoid directly and it is still hard to perform common machine learning such as logistic regression and neural networks in high performance. This paper first introduces secret sharing to propose a new distributed decryption protocol for MKTFHE, then designs an MKTFHE-friendly activation function, and finally utilizes them to implement logistic regression and neural network training in MKTFHE. We prove the correctness and security of our decryption protocol and compare the efficiency and accuracy between using Taylor polynomials of Sigmoid and our proposed function as an activation function. The experiments show that the efficiency of our function is 10 times higher than using 7-order Taylor polynomials straightly and the accuracy of the training model is similar to that of using a high-order polynomial as an activation function scheme.
翻訳日:2022-11-18 17:21:40 公開日:2022-11-17
# ソフトウェアエンジニアリングのための機械学習:第3次研究

Machine Learning for Software Engineering: A Tertiary Study ( http://arxiv.org/abs/2211.09425v1 )

ライセンス: Link先を確認
Zoe Kotti, Rafaila Galanopoulou, Diomidis Spinellis(参考訳) 機械学習(ML)技術は、ソフトウェアエンジニアリング(SE)ライフサイクルアクティビティの有効性を高める。 2009~2022年に発行されたML for SEで, 体系的, 品質評価, 要約, 分類を行い, 初等研究6,117件について検討した。 MLに最も取り組まれているSE領域は、ソフトウェアの品質とテストである。 MLに関するさらなる実証的検証と産業研究の実施、欠陥のあるSE手法の再検討、データ収集とパイプラインプロセスの文書化と自動化、産業従事者が独自データを配布する方法の再検討、インクリメンタルなMLアプローチの実施など、いくつかのSE研究課題と行動を提案する。

Machine learning (ML) techniques increase the effectiveness of software engineering (SE) lifecycle activities. We systematically collected, quality-assessed, summarized, and categorized 83 reviews in ML for SE published between 2009-2022, covering 6,117 primary studies. The SE areas most tackled with ML are software quality and testing, while human-centered areas appear more challenging for ML. We propose a number of ML for SE research challenges and actions including: conducting further empirical validation and industrial studies on ML; reconsidering deficient SE methods; documenting and automating data collection and pipeline processes; reexamining how industrial practitioners distribute their proprietary data; and implementing incremental ML approaches.
翻訳日:2022-11-18 17:21:17 公開日:2022-11-17
# 深部強化学習によるソーラーパワー駆動EV充電最適化

Solar Power driven EV Charging Optimization with Deep Reinforcement Learning ( http://arxiv.org/abs/2211.09479v1 )

ライセンス: Link先を確認
Stavros Sykiotis, Christoforos Menos-Aikateriniadis, Anastasios Doulamis, Nikolaos Doulamis, Pavlos S. Georgilakis(参考訳) 電力セクターの脱炭は、より持続可能な未来へのエネルギー移行において重要な役割を果たす。 電気自動車(EV)や太陽光発電システム(PV)などの分散型エネルギー資源は、住宅電力システムに継続的に統合され、配電ネットワークにおけるボトルネックのリスクが増大する。 本稿では、クリーンで太陽エネルギーの消費を優先しながら、家庭用EV充電の課題を解決することを目的とする。 リアル・タイム・オブ・ユース関税は、Deep Reinforcement Learning (DRL) を用いて、エンドユーザが高ソーラーPV発生時間にEV充電負荷を最適にシフトさせるための価格ベースの需要応答(DR)メカニズムとして扱われる。 pecan streetデータセットからの過去の測定結果を分析して、エンドユーザの充電選択を記述する柔軟性の可能性の報奨を形成する。 実験結果から,dqn evの最適充電方式は,太陽エネルギー88.4を平均利用することにより,電力料金を平均11.5 %削減できることがわかった。

Power sector decarbonization plays a vital role in the upcoming energy transition towards a more sustainable future. Decentralized energy resources, such as Electric Vehicles (EV) and solar photovoltaic systems (PV), are continuously integrated in residential power systems, increasing the risk of bottlenecks in power distribution networks. This paper aims to address the challenge of domestic EV charging while prioritizing clean, solar energy consumption. Real Time-of-Use tariffs are treated as a price-based Demand Response (DR) mechanism that can incentivize end-users to optimally shift EV charging load in hours of high solar PV generation with the use of Deep Reinforcement Learning (DRL). Historical measurements from the Pecan Street dataset are analyzed to shape a flexibility potential reward to describe end-user charging preferences. Experimental results show that the proposed DQN EV optimal charging policy is able to reduce electricity bills by an average 11.5\% by achieving an average utilization of solar power 88.4
翻訳日:2022-11-18 17:21:03 公開日:2022-11-17
# 拡張性非居住型HVACの経時的熱画像化と占有特性評価

Longitudinal thermal imaging for scalable non-residential HVAC and occupant behaviour characterization ( http://arxiv.org/abs/2211.09288v1 )

ライセンス: Link先を確認
Vasantha Ramani, Miguel Martin, Pandarasamy Arjunan, Adrian Chong, Kameshwar Poolla, Clayton Miller(参考訳) 本研究は,都市赤外線観測所から収集した熱画像から非住宅ビルの空調(ac)利用パターンの特徴について検討した。 まず、熱画像から温度時系列のクリーニングと抽出を行う画像処理方式を実行する。 赤外線カメラによる温度測定の精度をテストするため, 抽出した温度を地上の真理表面温度測定と比較した。 その結果, 変形熱測定は地表面温度測定とよく一致していることがわかった。 その後、熱シグネチャの分析から水冷システムと窓交流ユニットの動作パターンを抽出する。 水冷システムでは, 窓の変化率と壁面の変化率の違いが操作パターンの抽出に有効であることが観察された。 一方、窓ACユニットの場合は、ACユニット温度のウェーブレット変換を用いて、ACユニット動作の周波数及び時間領域情報を抽出する。 分析結果は,ビルのオフィス空間に設置された室内温度センサと比較した。 運転パターンの予測精度は午後8時から午前10時の間が最も高く,日射量や日中の高温のため日中は低下することが判明した。 その後、夜間に収集した熱画像から8つの窓/分割交流ユニットの特性評価を行った。 これは、長手熱画像技術を用いた非住宅用HVACシステムの運用挙動に関する最初の研究の1つである。 この研究の成果は、建物空間に大量のセンサーを配置する必要なしに、運用と占有者の振る舞いをよりよく理解するために利用することができる。

This work presents a study on the characterization of the air-conditioning (AC) usage pattern of non-residential buildings from thermal images collected from an urban-scale infrared (IR) observatory. To achieve this first, an image processing scheme, for cleaning and extraction of the temperature time series from the thermal images is implemented. To test the accuracy of the thermal measurements using IR camera, the extracted temperature is compared against the ground truth surface temperature measurements. It is observed that the detrended thermal measurements match well with the ground truth surface temperature measurements. Subsequently, the operational pattern of the water-cooled systems and window AC units are extracted from the analysis of the thermal signature. It is observed that for the water-cooled system, the difference between the rate of change of the window and wall can be used to extract the operational pattern. While, in the case of the window AC units, wavelet transform of the AC unit temperature is used to extract the frequency and time domain information of the AC unit operation. The results of the analysis are compared against the indoor temperature sensors installed in the office spaces of the building. It is realized that the accuracy in the prediction of the operational pattern is highest between 8 pm to 10 am, and it reduces during the day because of solar radiation and high daytime temperature. Subsequently, a characterization study is conducted for eight window/split AC units from the thermal image collected during the nighttime. This forms one of the first studies on the operational behavior of HVAC systems for non-residential buildings using the longitudinal thermal imaging technique. The output from this study can be used to better understand the operational and occupant behavior, without requiring to deploy a large array of sensors in the building space.
翻訳日:2022-11-18 17:15:28 公開日:2022-11-17
# CapEnrich: クロスモーダルな事前学習によるWebイメージのキャプションセマンティックス強化

CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained Knowledge ( http://arxiv.org/abs/2211.09371v1 )

ライセンス: Link先を確認
Linli Yao, Weijing Chen, Qin Jin(参考訳) web上の大量のラベルのない画像に対するテキスト記述の自動生成は、マルチモーダル検索やレコメンデーションなど、現実的なwebアプリケーションに大きなメリットがある。 しかし、既存のモデルは、異なる画像に対して共通の概念を持つ反復文を生成する傾向など、'over-generic'の記述を生成する問題に悩まされている。 これらの一般的な記述は、絶え間なく変化するWebイメージに十分なテキストセマンティクスを提供していない。 近年のvlp(vision-language pre-training, 視覚言語事前学習)モデルの成功に触発されて,画像記述のテクスト的意味度を自動向上するクロスモーダル事前学習知識の活用について検討した。 追加のヒューマンアノテーションを必要としないため、一般的な画像記述をよりセマンティックな詳細で補完するプラグイン・アンド・プレイフレームワークであるCapEnrichを提案する。 具体的には、まず、所望のトレーニング文を得るための自動データ構築戦略を提案し、学習可能なプロンプトやテンプレートプロンプトといったプロンプト戦略を採用し、VLPモデルにインセンティブを与え、よりテキストの詳細を生成する。 学習可能なテンプレートでは、VLPモデル全体を修正し、プロンプトベクトルのみをチューニングします。 1) VLPモデルの事前学習知識は,多様な視覚概念を記述するために可能な限り確保することができる。 2) 軽量なトレーニング可能なパラメータしか必要としないため、低いデータリソースに親しみやすい。 本手法は,Web画像における文の記述性や多様性を大幅に向上させる。 私たちのコードはリリースされます。

Automatically generating textual descriptions for massive unlabeled images on the web can greatly benefit realistic web applications, e.g. multimodal retrieval and recommendation. However, existing models suffer from the problem of generating ``over-generic'' descriptions, such as their tendency to generate repetitive sentences with common concepts for different images. These generic descriptions fail to provide sufficient textual semantics for ever-changing web images. Inspired by the recent success of Vision-Language Pre-training (VLP) models that learn diverse image-text concept alignment during pretraining, we explore leveraging their cross-modal pre-trained knowledge to automatically enrich the textual semantics of image descriptions. With no need for additional human annotations, we propose a plug-and-play framework, i.e CapEnrich, to complement the generic image descriptions with more semantic details. Specifically, we first propose an automatic data-building strategy to get desired training sentences, based on which we then adopt prompting strategies, i.e. learnable and template prompts, to incentivize VLP models to generate more textual details. For learnable templates, we fix the whole VLP model and only tune the prompt vectors, which leads to two advantages: 1) the pre-training knowledge of VLP models can be reserved as much as possible to describe diverse visual concepts; 2) only lightweight trainable parameters are required, so it is friendly to low data resources. Extensive experiments show that our method significantly improves the descriptiveness and diversity of generated sentences for web images. Our code will be released.
翻訳日:2022-11-18 17:15:07 公開日:2022-11-17
# 階層的強化学習による不規則物体のパッケージング計画

Planning Irregular Object Packing via Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2211.09382v1 )

ライセンス: Link先を確認
Sichao Huang, Ziwei Wang, Jie Zhou, and Jiwen Lu(参考訳) 自律型ロボットによるオブジェクトパッキングは、倉庫や物流業界にとって重要な課題だ。 従来のデータ駆動型パッキング計画手法は、通常のカブイドパッキングに重点を置いており、通常はヒューリスティックであり、日常的なオブジェクトで現実的なアプリケーションでの使用を制限する。 本稿では,不規則オブジェクトパッキングのパッキングシーケンスと配置を同時に計画する,階層的強化学習手法を提案する。 具体的には、トップマネージャネットワークは、すべてのオブジェクトの6つのプリンシパルビューハイトマップからパッキングシーケンスを推論し、下ワーカネットワークは次のオブジェクトのハイトマップを受け取り、配置位置と向きを予測する。 この2つのネットワークは、自己教師型Qラーニングフレームワークで階層的に訓練され、箱の上部高さ、物体体積、配置安定性に基づいて、梱包結果によって報酬が提供される。 フレームワークは、すべてのオブジェクトがボックスに詰め込まれるか、アンパックアイテムのスペースが残らないまで、反復的にシーケンスと配置計画を繰り返します。 物理シミュレータにおける不規則物体に対する既存のロボットパッキング手法との比較を行った。 実験により, 不規則な物体の最先端の包装法よりも, 低コストでより多くの物体を梱包できることが示された。 また,実世界の一般化能力を示すロボットマニピュレータを用いて,パッケージング計画を実装した。

Object packing by autonomous robots is an im-portant challenge in warehouses and logistics industry. Most conventional data-driven packing planning approaches focus on regular cuboid packing, which are usually heuristic and limit the practical use in realistic applications with everyday objects. In this paper, we propose a deep hierarchical reinforcement learning approach to simultaneously plan packing sequence and placement for irregular object packing. Specifically, the top manager network infers packing sequence from six principal view heightmaps of all objects, and then the bottom worker network receives heightmaps of the next object to predict the placement position and orientation. The two networks are trained hierarchically in a self-supervised Q-Learning framework, where the rewards are provided by the packing results based on the top height , object volume and placement stability in the box. The framework repeats sequence and placement planning iteratively until all objects have been packed into the box or no space is remained for unpacked items. We compare our approach with existing robotic packing methods for irregular objects in a physics simulator. Experiments show that our approach can pack more objects with less time cost than the state-of-the-art packing methods of irregular objects. We also implement our packing plan with a robotic manipulator to show the generalization ability in the real world.
翻訳日:2022-11-18 17:14:38 公開日:2022-11-17
# マルチスケール・アテンション・フュージョンモジュールを用いた超解像処理による硬質セグメンテーション

Hard Exudate Segmentation Supplemented by Super-Resolution with Multi-scale Attention Fusion Module ( http://arxiv.org/abs/2211.09404v1 )

ライセンス: Link先を確認
Jiayi Zhang, Xiaoshan Chen, Zhongxi Qiu, Mingming Yang, Yan Hu, Jiang Liu(参考訳) hard exudates (he) は網膜浮腫の最も特異的なバイオマーカーである。 正確なHEセグメンテーションは、疾患の診断と治療には不可欠であるが、その大きさ、形状、位置などの大きな特徴により自動セグメンテーションは困難であり、小さな病変や病変の境界を検出することは困難である。 本稿では,分割処理と超解像処理の相補的特徴を考慮し,SS-MAFと呼ばれる超解像処理を補助的に行う手法を提案する。 具体的には,マルチスケールアテンション・フュージョン(MAF)モジュールと呼ばれる融合モジュールを提案し,その2つのタスクの特徴を効果的に統合する。 MAFはまず、分割空間畳み込み(SSC)層をマルチスケールの特徴抽出に適用し、2つのタスクの特徴融合に注意機構を利用する。 画素依存性を考慮し、小さな病変や境界検出のためにMAFモジュールを最適化するために、領域相互情報(RMI)損失を導入する。 我々はIDRiDとE-Ophthaの2つのパブリック病変データセットについて検討した。 本手法は, 定量的および定性的に低解像度入力と競合性能を示す。 e-ophthaデータセットでは、このメソッドは最先端のメソッドと比較して$\geq3\%$ high diceを達成し、リコールすることができる。

Hard exudates (HE) is the most specific biomarker for retina edema. Precise HE segmentation is vital for disease diagnosis and treatment, but automatic segmentation is challenged by its large variation of characteristics including size, shape and position, which makes it difficult to detect tiny lesions and lesion boundaries. Considering the complementary features between segmentation and super-resolution tasks, this paper proposes a novel hard exudates segmentation method named SS-MAF with an auxiliary super-resolution task, which brings in helpful detailed features for tiny lesion and boundaries detection. Specifically, we propose a fusion module named Multi-scale Attention Fusion (MAF) module for our dual-stream framework to effectively integrate features of the two tasks. MAF first adopts split spatial convolutional (SSC) layer for multi-scale features extraction and then utilize attention mechanism for features fusion of the two tasks. Considering pixel dependency, we introduce region mutual information (RMI) loss to optimize MAF module for tiny lesions and boundary detection. We evaluate our method on two public lesion datasets, IDRiD and E-Ophtha. Our method shows competitive performance with low-resolution inputs, both quantitatively and qualitatively. On E-Ophtha dataset, the method can achieve $\geq3\%$ higher dice and recall compared with the state-of-the-art methods.
翻訳日:2022-11-18 17:14:17 公開日:2022-11-17
# 医用画像分割用ハイブリッド軸方向変換器

Parameter-Efficient Transformer with Hybrid Axial-Attention for Medical Image Segmentation ( http://arxiv.org/abs/2211.09533v1 )

ライセンス: Link先を確認
Yiyue Hu and Lei Zhang and Nan Mu and Lei Liu(参考訳) トランスフォーマーは、柔軟なセルフアテンション機構を使用する能力により、医用画像解析において顕著な成功を収めている。 しかしながら、視覚構造情報のモデリングにおける内在的な帰納的バイアスが欠如しているため、一般的には大規模な事前訓練スケジュールが必要となり、高価な小規模医療データに対する臨床応用が制限される。 そこで本研究では,医用画像分割のための位置情報を用いた本質的帰納バイアスを探索するパラメータ効率変換器を提案する。 具体的には、異なる位置符号化戦略が関心領域(ROI)の予測品質に与える影響を実証的に検討し、ROIが位置符号化戦略に敏感であることを観察する。 そこで本研究では,空間的画素情報と相対的位置情報を帰納バイアスとして備えることができる位置自己注意型ハイブリッド軸アテンション(HAA)を提案する。 さらに,学習スケジュールの負担を軽減するゲーティング機構を導入し,小規模データセット上での効率的な特徴選択を実現する。 BraTSとCovid19データセットの実験は、我々の手法がベースラインや以前の研究よりも優れていることを証明している。 私たちの成功をよりよく検証するために、解釈可能な内部ワークフローの可視化が実行されます。

Transformers have achieved remarkable success in medical image analysis owing to their powerful capability to use flexible self-attention mechanism. However, due to lacking intrinsic inductive bias in modeling visual structural information, they generally require a large-scale pre-training schedule, limiting the clinical applications over expensive small-scale medical data. To this end, we propose a parameter-efficient transformer to explore intrinsic inductive bias via position information for medical image segmentation. Specifically, we empirically investigate how different position encoding strategies affect the prediction quality of the region of interest (ROI), and observe that ROIs are sensitive to the position encoding strategies. Motivated by this, we present a novel Hybrid Axial-Attention (HAA), a form of position self-attention that can be equipped with spatial pixel-wise information and relative position information as inductive bias. Moreover, we introduce a gating mechanism to alleviate the burden of training schedule, resulting in efficient feature selection over small-scale datasets. Experiments on the BraTS and Covid19 datasets prove the superiority of our method over the baseline and previous works. Internal workflow visualization with interpretability is conducted to better validate our success.
翻訳日:2022-11-18 17:13:52 公開日:2022-11-17
# 弱教師付き制約付き深層学習アプローチによる臨床ガイドライン評価による解釈可能なHER2スコア

Interpretable HER2 scoring by evaluating clinical Guidelines through a weakly supervised, constrained Deep Learning Approach ( http://arxiv.org/abs/2211.09559v1 )

ライセンス: Link先を確認
Manh Dan Pham, Cyprien Tilmant, St\'ephanie Petit, Isabelle Salmon, Saima Ben Hadj, Rutger H.J. Fick(参考訳) ヒト上皮成長因子受容体2(her2)発現の評価は乳癌治療における重要な予後因子である。 しかしher2スコアは,腫瘍領域の特定の割合の染色強度を視覚的に見積もる必要があるため,中心間の染色変化による異物間変動が高いことで悪名高い。 本稿では,病理学者によるher2得点の解釈可能性に着目し,米国臨床腫瘍学会/アメリカ病理学会(asco/cap)が定義する臨床her2ガイドラインを直接評価する,半自動的な2段階のディープラーニングアプローチを提案する。 第1段階では,ユーザによる関心領域(ROI)に浸潤性腫瘍を区分する。 そして第2段階において腫瘍組織を4つのHER2クラスに分類する。 分類段階では, 腫瘍表面の比率が各HER2クラスのガイドラインに合致するように, 癌パッチを分類するモデルを見つけるために, 弱教師付き制約付き最適化を用いる。 トレーニングセット内のすべてのスライドラベルに対して,モデルを凍結し,その出力ロジットを教師付き方法で精製することで,第2ステージを終了する。 データセットのラベルの品質を保証するため,多病理学者のHER2によるコンセンサス調査を行った。 コンセンサスが見つからない疑わしいケースを評価するため、我々のモデルはHER2クラスパーセンテージの出力を解釈するのに役立つ。 我々は、デジタル病理学におけるAIモデルの解釈に貢献し、病理学者のためにモデルを解釈しながら、テストセットにおけるF1スコアの0.78のパフォーマンスを達成する。

The evaluation of the Human Epidermal growth factor Receptor-2 (HER2) expression is an important prognostic biomarker for breast cancer treatment selection. However, HER2 scoring has notoriously high interobserver variability due to stain variations between centers and the need to estimate visually the staining intensity in specific percentages of tumor area. In this paper, focusing on the interpretability of HER2 scoring by a pathologist, we propose a semi-automatic, two-stage deep learning approach that directly evaluates the clinical HER2 guidelines defined by the American Society of Clinical Oncology/ College of American Pathologists (ASCO/CAP). In the first stage, we segment the invasive tumor over the user-indicated Region of Interest (ROI). Then, in the second stage, we classify the tumor tissue into four HER2 classes. For the classification stage, we use weakly supervised, constrained optimization to find a model that classifies cancerous patches such that the tumor surface percentage meets the guidelines specification of each HER2 class. We end the second stage by freezing the model and refining its output logits in a supervised way to all slide labels in the training set. To ensure the quality of our dataset's labels, we conducted a multi-pathologist HER2 scoring consensus. For the assessment of doubtful cases where no consensus was found, our model can help by interpreting its HER2 class percentages output. We achieve a performance of 0.78 in F1-score on the test set while keeping our model interpretable for the pathologist, hopefully contributing to interpretable AI models in digital pathology.
翻訳日:2022-11-18 17:13:31 公開日:2022-11-17
# ステンドデコンボリューションと修復he-hesによるヘステンドスライドのコラーゲン定量化

Enabling Collagen Quantification on HE-stained Slides Through Stain Deconvolution and Restained HE-HES ( http://arxiv.org/abs/2211.09566v1 )

ライセンス: Link先を確認
Guillaume Balezo, Christof A. Bertram, Cyprien Tilmant, St\'ephanie Petit, Saima Ben Hadj, Rutger H.J. Fick(参考訳) 組織学では、細胞外マトリックスにコラーゲンの存在は癌悪性腫瘍の診断と予後の両方に価値があり、通常のヘマトキシリンとエオシン(HE)染色にサフラン(S)を加えることで強調できる。 しかし、サフロンは追加費用や病理学者がHEに慣れているため、フランスに拠点を置く研究所を除いて、通常追加されることはない。 本稿では,he画像のみからコラーゲン含有量を定量化し,hes画像をデジタル的に作成することが可能であることを示す。 そこで我々は,HE画像からサフラン密度を予測するためにUNetを訓練した。 我々はHE-HESスライスを登録したデータセットを作成し,HES画像のステンレスデコンボリューションを用いて,サフロン濃度を基底真実として抽出した。 我々のモデルは、平均絶対誤差が 0.0668 $\pm$ 0.0002 (0 から 1 の間のサフラン値) に到達した。 提案手法は, 臨床ワークフローの改善に有効でありながら, 実験室の試薬コストを低減できることを期待する。

In histology, the presence of collagen in the extra-cellular matrix has both diagnostic and prognostic value for cancer malignancy, and can be highlighted by adding Saffron (S) to a routine Hematoxylin and Eosin (HE) staining. However, Saffron is not usually added because of the additional cost and because pathologists are accustomed to HE, with the exception of France-based laboratories. In this paper, we show that it is possible to quantify the collagen content from the HE image alone and to digitally create an HES image. To do so, we trained a UNet to predict the Saffron densities from HE images. We created a dataset of registered, restained HE-HES slides and we extracted the Saffron concentrations as ground truth using stain deconvolution on the HES images. Our model reached a Mean Absolute Error of 0.0668 $\pm$ 0.0002 (Saffron values between 0 and 1) on a 3-fold testing set. We hope our approach can aid in improving the clinical workflow while reducing reagent costs for laboratories.
翻訳日:2022-11-18 17:13:06 公開日:2022-11-17
# 拡散モデルを用いた任意の話者適応テキスト音声合成

Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models ( http://arxiv.org/abs/2211.09383v1 )

ライセンス: Link先を確認
Minki Kang, Dongchan Min, Sung Ju Hwang(参考訳) 近年、ニューラルネットワーク生成モデリングの進歩により、tts(text-to-speech)合成技術が著しく進歩している。 しかし,既存の話者適応型TTSの手法は,ターゲット話者のスタイルを模倣する際の最適以下の精度のため,不満足な性能を実現している。 本研究では,話者の音声と非常に高い類似度を持つ高自然度音声を生成する拡散モデルに基づく,任意の話者適応型ttsフレームワークであるgrad-stylespeechを提案する。 Grad-StyleSpeechは、最近の話者適応型TSベースラインを英語ベンチマークで大幅に上回っている。 オーディオサンプルはhttps://nardien.github.io/grad-stylespeech-demoで入手できる。

There has been a significant progress in Text-To-Speech (TTS) synthesis technology in recent years, thanks to the advancement in neural generative modeling. However, existing methods on any-speaker adaptive TTS have achieved unsatisfactory performance, due to their suboptimal accuracy in mimicking the target speakers' styles. In this work, we present Grad-StyleSpeech, which is an any-speaker adaptive TTS framework that is based on a diffusion model that can generate highly natural speech with extremely high similarity to target speakers' voice, given a few seconds of reference speech. Grad-StyleSpeech significantly outperforms recent speaker-adaptive TTS baselines on English benchmarks. Audio samples are available at https://nardien.github.io/grad-stylespeech-demo.
翻訳日:2022-11-18 17:12:24 公開日:2022-11-17
# commu:組合せ音楽生成のためのデータセット

ComMU: Dataset for Combinatorial Music Generation ( http://arxiv.org/abs/2211.09385v1 )

ライセンス: Link先を確認
Lee Hyun, Taehyun Kim, Hyolim Kang, Minjoo Ki, Hyeonchan Hwang, Kwanho Park, Sharang Han, Seon Joo Kim(参考訳) 自動作曲の商業的採用には、望ましい状況(例えばロマンチック映画、アクションゲーム、レストランなど)に適した多種多様な高品質の音楽を生成する能力が必要である。 本稿では,与えられた条件に基づいて異なるバックグラウンド音楽を生成するための新しいタスクである組合せ音楽生成を提案する。 Combinatorの音楽生成は、音楽の短いサンプルと豊かな音楽メタデータを生成し、それらを組み合わせて完全な音楽を生成する。 さらに,短い楽曲サンプルとそれに対応する12の楽曲メタデータからなる最初のシンボリック音楽データセットであるComMUを紹介する。 ComMUの特筆すべき特徴は、(1)データセットは規則性を誘導する客観的ガイドラインを持つプロの作曲家によって手作業で構築され、(2)作曲家の意図を取り入れた12の音楽メタデータを持っていることである。 その結果、メタデータだけで多様な高品質な楽曲を生成でき、トラックロールやコード品質の延長といった独自のメタデータにより、自動作曲の能力が向上することが示された。 論文を読む前にビデオを見ることを強く推奨する(https://pozalabs.github.io/ComMU)。

Commercial adoption of automatic music composition requires the capability of generating diverse and high-quality music suitable for the desired context (e.g., music for romantic movies, action games, restaurants, etc.). In this paper, we introduce combinatorial music generation, a new task to create varying background music based on given conditions. Combinatorial music generation creates short samples of music with rich musical metadata, and combines them to produce a complete music. In addition, we introduce ComMU, the first symbolic music dataset consisting of short music samples and their corresponding 12 musical metadata for combinatorial music generation. Notable properties of ComMU are that (1) dataset is manually constructed by professional composers with an objective guideline that induces regularity, and (2) it has 12 musical metadata that embraces composers' intentions. Our results show that we can generate diverse high-quality music only with metadata, and that our unique metadata such as track-role and extended chord quality improves the capacity of the automatic composition. We highly recommend watching our video before reading the paper (https://pozalabs.github.io/ComMU).
翻訳日:2022-11-18 17:12:11 公開日:2022-11-17
# 観測から直接4DVARインバージョンを学習する

Learning 4DVAR inversion directly from observations ( http://arxiv.org/abs/2211.09741v1 )

ライセンス: Link先を確認
Arthur Filoche and Julien Brajard and Anastase Charantonis and Dominique B\'er\'eziat(参考訳) 変分データ同化とディープラーニングは多くのアルゴリズム的側面を共有している。 前者はシステム状態の推定に焦点を当てているが、後者は複雑な関係を学ぶための大きな帰納的バイアスを提供する。 本稿では,4dvarアルゴリズムの機械論的制約を用いて,部分的および雑音的観測からアシミレーションタスクを直接学習するハイブリッドアーキテクチャを設計する。 最後に,提案手法が興味ある正規化特性を用いて所望の反転を学習でき,計算的興味も持てることを示す実験を行った。

Variational data assimilation and deep learning share many algorithmic aspects in common. While the former focuses on system state estimation, the latter provides great inductive biases to learn complex relationships. We here design a hybrid architecture learning the assimilation task directly from partial and noisy observations, using the mechanistic constraint of the 4DVAR algorithm. Finally, we show in an experiment that the proposed method was able to learn the desired inversion with interesting regularizing properties and that it also has computational interests.
翻訳日:2022-11-18 17:06:16 公開日:2022-11-17
# 意図でコミュニケーションすることを学ぶ:序論

Learning to Communicate with Intent: An Introduction ( http://arxiv.org/abs/2211.09613v1 )

ライセンス: Link先を確認
Miguel Angel Gutierrez-Estevez, Yiqun Wu, Chan Zhou(参考訳) 本稿では,コミュニケーションの終了目標に基づいて,無線通信チャネル上でメッセージを送信する意図と通信する方法を学ぶための新しいフレームワークを提案する。 これは、送信側が送信側が送信したメッセージを正確に、あるいは概略的に再生することを目的としている古典的な通信システムとは全く対照的である。 我々の手順は、そのタスクが(ほぼどこでも)微分可能な関数であり、勾配を伝播できる限り、任意の種類の目標やタスクに適応できるのに十分である。 本稿では,教師付き学習・強化学習(RL)タスクに着目し,コミュニケーションシステムとタスクをエンドツーエンドで学習するためのアルゴリズムを提案する。 次に、画像の伝送を深く掘り下げ、画像の分類のための2つのシステムと、RLに基づくAtariゲームを行うための2つのシステムを提案する。 再建誤りを最小限に抑えるために設計したJSCC通信システムと比較し, 全体的な改善点を示す。 さらに, RL タスクでは, JSCC 戦略はランダムな行動選択戦略よりも優れているが, 提案手法は低 SNR においても上界に近づく。

We propose a novel framework to learn how to communicate with intent, i.e., to transmit messages over a wireless communication channel based on the end-goal of the communication. This stays in stark contrast to classical communication systems where the objective is to reproduce at the receiver side either exactly or approximately the message sent by the transmitter, regardless of the end-goal. Our procedure is general enough that can be adapted to any type of goal or task, so long as the said task is a (almost-everywhere) differentiable function over which gradients can be propagated. We focus on supervised learning and reinforcement learning (RL) tasks, and propose algorithms to learn the communication system and the task jointly in an end-to-end manner. We then delve deeper into the transmission of images and propose two systems, one for the classification of images and a second one to play an Atari game based on RL. The performance is compared with a joint source and channel coding (JSCC) communication system designed to minimize the reconstruction error, and results show overall great improvement. Further, for the RL task, we show that while a JSCC strategy is not better than a random action selection strategy, with our approach we get close to the upper bound even for low SNRs.
翻訳日:2022-11-18 17:06:08 公開日:2022-11-17
# コミュニティブリッジノードを用いたソーシャルネットワークにおける超低予算影響最大化のためのスプレッドラーランキングアルゴリズム

A Spreader Ranking Algorithm for Extremely Low-budget Influence Maximization in Social Networks using Community Bridge Nodes ( http://arxiv.org/abs/2211.09657v1 )

ライセンス: Link先を確認
Aaryan Gupta, Inder Khatri, Arjun Choudhry, Pranav Chandhok, Dinesh Kumar Vishwakarma, Mukesh Prasad(参考訳) 近年、ソーシャルネットワークプラットフォームは、人とのつながりや、考えや意見を広めるなど、大衆の間で大きな人気を集めている。 これにより、ターゲット広告、バイラルマーケティング、パーソナライズされたレコメンデーションに幅広い適用性があることから、ソーシャルネットワークにおけるユーザー固有の広告やレコメンデーションへの扉が開かれた。 IMの目的は、拡散カスケードを介して情報の拡散を最大化するネットワーク内の特定のノードを特定することである。 IMのためのいくつかの研究が提案されているが、ほとんどがコミュニティ構造を最大限に活用する上で非効率であった。 本研究では,K-Shellアルゴリズムを用いて,低予算シナリオにおけるシードノードとコミュニティ間のコネクションのスコアを生成するコミュニティ構造に基づくアプローチを提案する。 さらに,コミュニティ内の情報の適切な拡散を確保するために,コミュニティ内のエントロピーを活用している。 Independent Cascade(IC)モデルを選択し、情報拡散をシミュレートし、4つの評価指標で評価する。 提案手法を8つの公開ネットワーク上で検証し,これらの指標のベースラインアプローチを著しく上回っているが,それでも比較的効率的であることがわかった。

In recent years, social networking platforms have gained significant popularity among the masses like connecting with people and propagating ones thoughts and opinions. This has opened the door to user-specific advertisements and recommendations on these platforms, bringing along a significant focus on Influence Maximisation (IM) on social networks due to its wide applicability in target advertising, viral marketing, and personalized recommendations. The aim of IM is to identify certain nodes in the network which can help maximize the spread of certain information through a diffusion cascade. While several works have been proposed for IM, most were inefficient in exploiting community structures to their full extent. In this work, we propose a community structures-based approach, which employs a K-Shell algorithm in order to generate a score for the connections between seed nodes and communities for low-budget scenarios. Further, our approach employs entropy within communities to ensure the proper spread of information within the communities. We choose the Independent Cascade (IC) model to simulate information spread and evaluate it on four evaluation metrics. We validate our proposed approach on eight publicly available networks and find that it significantly outperforms the baseline approaches on these metrics, while still being relatively efficient.
翻訳日:2022-11-18 17:05:47 公開日:2022-11-17
# 分散型エネルギー資源を用いた最適ボルト/VAR制御のための深層学習

Deep Learning for Optimal Volt/VAR Control using Distributed Energy Resources ( http://arxiv.org/abs/2211.09557v1 )

ライセンス: Link先を確認
Sarthak Gupta, Spyros Chatzivasileiadis, and Vassilis Kekatos(参考訳) 断続性を考えると、分散エネルギー資源(DER)は高速な時間スケールで電圧を制御するよう依頼されている。 IEEE 1547標準ではVolt/VAR制御ルールの形状が規定されているが、DERごとに最適なカスタマイズ方法が明確ではない。 最適ルール設計(ord)は、volt/varルールが非線形ダイナミクスを導入し、双線形最適化モデルが必要となり、安定性と定常性能のトレードオフが生じるため、難しい問題である。 ORDに取り組むために、Volt/VARダイナミクスのディジタルツインとして機能するディープニューラルネットワーク(DNN)を開発した。 DNNはグリッド条件を入力として、ルールパラメータを重みとして、平衡電圧を出力として計算する。 この真の設計により、ORDはグリッドシナリオをトレーニングデータとして使用し、単体に近い平衡電圧である予測変数を駆動する深層学習タスクとして再編成される。 学習課題は、効率的なディープラーニングルーチンを変更してルールパラメータの制約を強制することで解決される。 DNNベースのORDでは,単相/多相給電装置におけるVolt/VAR規則の安定性条件と収束率についても検討・拡張する。 DNNベースのORDの最適性と実行性をベンチマークするために、新しい混合整数非線形プログラムの定式化を考案する。 数値実験は、DNNベースのORDの利点を示す。

Given their intermittency, distributed energy resources (DERs) have been commissioned with regulating voltages at fast timescales. Although the IEEE 1547 standard specifies the shape of Volt/VAR control rules, it is not clear how to optimally customize them per DER. Optimal rule design (ORD) is a challenging problem as Volt/VAR rules introduce nonlinear dynamics, require bilinear optimization models, and lurk trade-offs between stability and steady-state performance. To tackle ORD, we develop a deep neural network (DNN) that serves as a digital twin of Volt/VAR dynamics. The DNN takes grid conditions as inputs, uses rule parameters as weights, and computes equilibrium voltages as outputs. Thanks to this genuine design, ORD is reformulated as a deep learning task using grid scenarios as training data and aiming at driving the predicted variables being the equilibrium voltages close to unity. The learning task is solved by modifying efficient deep-learning routines to enforce constraints on rule parameters. In the course of DNN-based ORD, we also review and expand on stability conditions and convergence rates for Volt/VAR rules on single-/multi-phase feeders. To benchmark the optimality and runtime of DNN-based ORD, we also devise a novel mixed-integer nonlinear program formulation. Numerical tests showcase the merits of DNN-based ORD.
翻訳日:2022-11-18 17:04:58 公開日:2022-11-17
# LongFNT:分解型ニューラルトランスデューサを用いた長文音声認識

LongFNT: Long-form Speech Recognition with Factorized Neural Transducer ( http://arxiv.org/abs/2211.09412v1 )

ライセンス: Link先を確認
Xun Gong, Yu Wu, Jinyu Li, Shujie Liu, Rui Zhao, Xie Chen, Yanmin Qian(参考訳) 従来の自動音声認識〜(ASR)システムは、実際のシナリオでより実用的な、有用な歴史的情報を持つ長文の音声を考慮せずに、個々の発話に焦点を当てる。 予測ネットワークは純粋言語モデルではないため,バニラニューラルトランスデューサモデルのより長い転写履歴に参加するだけでは,予備実験では大きな成果は得られない。 これにより、実言語モデルである語彙予測器を含む因子化ニューラルトランスデューサ構造を利用することができる。 文レベルの長文特徴を語彙予測器の出力と直接融合し,トークンレベルの長文特徴を語彙予測器内に埋め込んだ「LongFNT-Text」アーキテクチャを,事前学習した文脈エンコーダ「RoBERTa」を用いて提案する。 さらに,LongFNTアーキテクチャを提案し,その長文音声を元の音声入力に拡張し,最高の性能を実現する。 この手法の有効性はlibrispeechとgigaspeech corporaで検証され,それぞれ19%,12%の単語誤り率~(wer)削減が確認された。

Traditional automatic speech recognition~(ASR) systems usually focus on individual utterances, without considering long-form speech with useful historical information, which is more practical in real scenarios. Simply attending longer transcription history for a vanilla neural transducer model shows no much gain in our preliminary experiments, since the prediction network is not a pure language model. This motivates us to leverage the factorized neural transducer structure, containing a real language model, the vocabulary predictor. We propose the {LongFNT-Text} architecture, which fuses the sentence-level long-form features directly with the output of the vocabulary predictor and then embeds token-level long-form features inside the vocabulary predictor, with a pre-trained contextual encoder RoBERTa to further boost the performance. Moreover, we propose the {LongFNT} architecture by extending the long-form speech to the original speech input and achieve the best performance. The effectiveness of our LongFNT approach is validated on LibriSpeech and GigaSpeech corpora with 19% and 12% relative word error rate~(WER) reduction, respectively.
翻訳日:2022-11-18 17:04:33 公開日:2022-11-17
# ASRシステム! なぜあなたはもっと包括的でないのか? 自動音声認識システムのバイアスと提案バイアス緩和手法 文献レビュー

Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review ( http://arxiv.org/abs/2211.09511v1 )

ライセンス: Link先を確認
Mikel K. Ngueajio and Gloria Washington(参考訳) 音声は人間間のコミュニケーションの基本的な手段である。 AIと高度な音声技術の出現は、主に自動音声認識(ASR)システムによって、人間とコンピュータによる対話の急速な普及につながった。 ASRシステムは通常、音声の形式で人間の音声を単語に変換するが、一部のユーザーにとっては音声を復号することはできず、出力テキストは人間の読み手に理解できない誤りで満たされている。 これらのシステムは全員に等しく機能せず、実際に一部のユーザの生産性を妨げる。 本稿では, 性別, 人種, 障害者に対するASR偏見に対処する研究と, 差別緩和のためのASR脱バイアス技術を提案する研究について述べる。 また、よりアクセシブルで包括的なASR技術の設計手法についても論じる。 調査した各アプローチについて、適用された調査方法、使用したASRシステムとコーパス、および研究結果について概説し、その強度や弱点を強調した。 最後に、自然言語処理研究者がasr技術を次段階に作り出すための将来の機会を提案する。

Speech is the fundamental means of communication between humans. The advent of AI and sophisticated speech technologies have led to the rapid proliferation of human-to-computer-based interactions, fueled primarily by Automatic Speech Recognition (ASR) systems. ASR systems normally take human speech in the form of audio and convert it into words, but for some users, it cannot decode the speech, and any output text is filled with errors that are incomprehensible to the human reader. These systems do not work equally for everyone and actually hinder the productivity of some users. In this paper, we present research that addresses ASR biases against gender, race, and the sick and disabled, while exploring studies that propose ASR debiasing techniques for mitigating these discriminations. We also discuss techniques for designing a more accessible and inclusive ASR technology. For each approach surveyed, we also provide a summary of the investigation and methods applied, the ASR systems and corpora used, and the research findings, and highlight their strengths and/or weaknesses. Finally, we propose future opportunities for Natural Language Processing researchers to explore in the next level creation of ASR technologies.
翻訳日:2022-11-18 17:04:11 公開日:2022-11-17
# FedFA: 特徴アンカーによるフェデレーション学習と異種データの分類

FedFA: Federated Learning with Feature Anchors to Align Feature and Classifier for Heterogeneous Data ( http://arxiv.org/abs/2211.09299v1 )

ライセンス: Link先を確認
Tailin Zhou, Jun Zhang, Danny Tsang(参考訳) フェデレーション学習により、複数のクライアントがデータを交換することなく、協調的にモデルをトレーニングできる。 残念ながら、クライアントの異種データでパフォーマンスが著しく低下する。 局所訓練における一般的な解決策は、重量のばらつきや特徴の矛盾を正すために特定の補助損失を設計することである。 しかし、これらのアプローチは、分類器の発散とクライアント間の特徴マッピングの不整合の間の悪循環の存在を無視し、クライアントモデルが発散した分類器で一貫性のない機能空間で更新されるため、期待される性能に届かないことがわかった。 次に、FedFA(Federated Learning with Feature Anchors)というシンプルなフレームワークを提案し、ローカルトレーニング中にクライアント間で特徴マッピングと分類器を調整し、一貫した分類器で共有機能空間でクライアントモデルを更新できるようにする。 この修正によって、類似した分類器と、クライアント間の特徴整合性と分類器の類似性の間の希薄なサイクルがもたらされることを示す。 大規模な実験により、FedFAはラベルと特徴分布スキューの下の様々な画像分類データセット上で、最先端のフェデレーション学習アルゴリズムを著しく上回ることがわかった。

Federated learning allows multiple clients to collaboratively train a model without exchanging their data, thus preserving data privacy. Unfortunately, it suffers significant performance degradation under heterogeneous data at clients. Common solutions in local training involve designing a specific auxiliary loss to regularize weight divergence or feature inconsistency. However, we discover that these approaches fall short of the expected performance because they ignore the existence of a vicious cycle between classifier divergence and feature mapping inconsistency across clients, such that client models are updated in inconsistent feature space with diverged classifiers. We then propose a simple yet effective framework named Federated learning with Feature Anchors (FedFA) to align the feature mappings and calibrate classifier across clients during local training, which allows client models updating in a shared feature space with consistent classifiers. We demonstrate that this modification brings similar classifiers and a virtuous cycle between feature consistency and classifier similarity across clients. Extensive experiments show that FedFA significantly outperforms the state-of-the-art federated learning algorithms on various image classification datasets under label and feature distribution skews.
翻訳日:2022-11-18 16:57:33 公開日:2022-11-17
# FedSiam-DA:非IIDデータに基づくシームズネットワークによる二重集約型フェデレーションラーニング

FedSiam-DA: Dual-aggregated Federated Learning via Siamese Networks under Non-IID Data ( http://arxiv.org/abs/2211.09421v1 )

ライセンス: Link先を確認
Ming Yang, Yanhan Wang, Xin Wang, Zhenyong Zhang, Xiaoming Wu, Peng Cheng(参考訳) フェデレーション学習(federated learning)は、各クライアントが元のデータをローカルに保持し、ローカルモデルのパラメータのみをサーバにアップロードする分散学習である。 フェデレーション学習はデータ島に対処できるが、実際のアプリケーションで異種データを扱うことは依然として困難である。 本稿では,データの不均一性の様々な設定下で,局所モデルとグローバルモデルの両方をパーソナライズするための,新しいコントラスト型コントラスト学習手法fesiam-daを提案する。 まず、シャムネットワークにおけるコントラスト学習の考え方に基づき、フェデシアムダはローカルトレーニング中に、ローカルモデルとグローバルモデルをシャムネットワークの異なるブランチとして捉え、ローカルモデルをパーソナライズするためにモデルの類似性を常に変更することにより、モデルの更新方向を制御する。 第二に、FedSiam-DAは各局所モデルのモデル類似性に基づく動的ウェイトを導入し、グローバルモデルの一般化をさらに改善するために二重集約機構を行使する。 さらに、ベンチマークデータセットに関する広範な実験を行い、FedSiam-DAがヘテロジニアスデータセットに対する以前のFLアプローチよりも優れていることを示す。

Federated learning is a distributed learning that allows each client to keep the original data locally and only upload the parameters of the local model to the server. Despite federated learning can address data island, it remains challenging to train with data heterogeneous in a real application. In this paper, we propose FedSiam-DA, a novel dual-aggregated contrastive federated learning approach, to personalize both local and global models, under various settings of data heterogeneity. Firstly, based on the idea of contrastive learning in the Siamese Network, FedSiam-DA regards the local and global model as different branches of the Siamese Network during the local training and controls the update direction of the model by constantly changing model similarity to personalize the local model. Secondly, FedSiam-DA introduces dynamic weights based on model similarity for each local model and exercises the dual-aggregated mechanism to further improve the generalization of the global model. Moreover, we provide extensive experiments on benchmark datasets, the results demonstrate that FedSiam-DA achieves outperforming several previous FL approaches on heterogeneous datasets.
翻訳日:2022-11-18 16:57:13 公開日:2022-11-17
# 時相正規性と旅行意味論を用いた自己教師付き軌道表現学習

Self-supervised Trajectory Representation Learning with Temporal Regularities and Travel Semantics ( http://arxiv.org/abs/2211.09510v1 )

ライセンス: Link先を確認
Jiawei Jiang, Dayan Pan, Houxing Ren, Xiaohan Jiang, Chao Li, Jingyuan Wang(参考訳) Trajectory Representation Learning (TRL) は空間時間データ分析と管理のための強力なツールである。 TRLは、複雑な生の軌跡を低次元の表現ベクトルに変換し、軌道分類、クラスタリング、類似性計算などの様々な下流タスクに適用することを目的としている。 既存のTRL作業は通常、トラジェクトリを通常のシーケンスデータとして扱うが、時間的規則性や旅行意味論といった重要な時空間特性は、完全には利用されない。 このギャップを埋めるために,TemporAl規則と旅行意味論,すなわちSTARTを用いた自己教師付き軌道表現学習フレームワークを提案する。 提案手法は2段階からなる。 最初の段階はTPE-GAT(Trajectory Pattern-Enhanced Graph Attention Network)であり、道路網の特徴と走行意味を道路セグメントの表現ベクトルに変換する。 第2段階は、時間認識軌道エンコーダ(TAT-Enc)であり、軌跡表現ベクトルと同じ軌跡内の道路セグメントの表現ベクトルを符号化し、同時に軌道表現に時間正規性を組み込む。 さらに,トラジェクタの空間的-時間的特性をスタートフレームワークのトレーニングプロセスに導入するために,スパンマッシュ軌道リカバリと軌道コントラスト学習という2つの自己教師付きタスクも設計した。 提案手法の有効性は,3つのダウンストリームタスクに対する2つの大規模実世界データセットの広範な実験により検証された。 また, 異種軌跡データセットを適応させるために, 異種都市間を移動可能であることを示した。

Trajectory Representation Learning (TRL) is a powerful tool for spatial-temporal data analysis and management. TRL aims to convert complicated raw trajectories into low-dimensional representation vectors, which can be applied to various downstream tasks, such as trajectory classification, clustering, and similarity computation. Existing TRL works usually treat trajectories as ordinary sequence data, while some important spatial-temporal characteristics, such as temporal regularities and travel semantics, are not fully exploited. To fill this gap, we propose a novel Self-supervised trajectory representation learning framework with TemporAl Regularities and Travel semantics, namely START. The proposed method consists of two stages. The first stage is a Trajectory Pattern-Enhanced Graph Attention Network (TPE-GAT), which converts the road network features and travel semantics into representation vectors of road segments. The second stage is a Time-Aware Trajectory Encoder (TAT-Enc), which encodes representation vectors of road segments in the same trajectory as a trajectory representation vector, meanwhile incorporating temporal regularities with the trajectory representation. Moreover, we also design two self-supervised tasks, i.e., span-masked trajectory recovery and trajectory contrastive learning, to introduce spatial-temporal characteristics of trajectories into the training process of our START framework. The effectiveness of the proposed method is verified by extensive experiments on two large-scale real-world datasets for three downstream tasks. The experiments also demonstrate that our method can be transferred across different cities to adapt heterogeneous trajectory datasets.
翻訳日:2022-11-18 16:56:48 公開日:2022-11-17
# ニューラルランゲヴィンダイナミクス : 解釈可能なニューラル確率微分方程式に向けて

Neural Langevin Dynamics: towards interpretable Neural Stochastic Differential Equations ( http://arxiv.org/abs/2211.09537v1 )

ライセンス: Link先を確認
Simon M. Koop, Mark A. Peletier, Jacobus W. Portegies, Vlado Menkovski(参考訳) ニューラル確率微分方程式(NSDE)は変分オートエンコーダやGANとして訓練されている。 しかし、結果として生じる確率微分方程式は、ドリフトと拡散場の一般的な性質のために解釈や解析が難しい。 NSDEをランゲヴィン力学の形式に制限し、それをVAEとして訓練することにより、より精巧な分析や汎用的なNSDEよりも幅広い可視化技術に役立てるNSDEを得る。 より具体的には、使用済みデータの背後にある潜伏状態と1対1の対応を持つエネルギー景観を得る。 これにより、教師なしの方法でデータダイナミクスの基礎となる状態を検出できるだけでなく、学習したsdeに従って各ステートに費やされる時間の分布を推測できる。 より一般的には、NSDE をランゲヴィン力学に制限することで、計算分子動力学から得られた結果の分析に大量のツールを使うことができる。

Neural Stochastic Differential Equations (NSDE) have been trained as both Variational Autoencoders, and as GANs. However, the resulting Stochastic Differential Equations can be hard to interpret or analyse due to the generic nature of the drift and diffusion fields. By restricting our NSDE to be of the form of Langevin dynamics, and training it as a VAE, we obtain NSDEs that lend themselves to more elaborate analysis and to a wider range of visualisation techniques than a generic NSDE. More specifically, we obtain an energy landscape, the minima of which are in one-to-one correspondence with latent states underlying the used data. This not only allows us to detect states underlying the data dynamics in an unsupervised manner, but also to infer the distribution of time spent in each state according to the learned SDE. More in general, restricting an NSDE to Langevin dynamics enables the use of a large set of tools from computational molecular dynamics for the analysis of the obtained results.
翻訳日:2022-11-18 16:56:20 公開日:2022-11-17
# 配水システムのための空間グラフ畳み込みニューラルネットワーク

Spatial Graph Convolution Neural Networks for Water Distribution Systems ( http://arxiv.org/abs/2211.09587v1 )

ライセンス: Link先を確認
Inaam Ashraf and Luca Hermes and Andr\'e Artelt and Barbara Hammer(参考訳) クリティカルインフラストラクチャの領域における機械学習の代表的な課題として,スパース信号に基づく水分散システム(WDS)によるグラフにおける値推定の欠落について検討する。 下位のグラフはノードの次数と直径が比較的低いが、グラフ内の情報はグローバルに関連しているため、グラフニューラルネットワークは長期的な依存関係の課題に直面している。 WDS領域における多くのベンチマークタスクに対して優れた結果を示すメッセージパッシングに基づく特定のアーキテクチャを提案する。 さらに,より少ないリソースを必要とするマルチホップ変動について検討し,大きなwdsグラフへの道を開く。

We investigate the task of missing value estimation in graphs as given by water distribution systems (WDS) based on sparse signals as a representative machine learning challenge in the domain of critical infrastructure. The underlying graphs have a comparably low node degree and high diameter, while information in the graph is globally relevant, hence graph neural networks face the challenge of long-term dependencies. We propose a specific architecture based on message passing which displays excellent results for a number of benchmark tasks in the WDS domain. Further, we investigate a multi-hop variation, which requires considerably less resources and opens an avenue towards big WDS graphs.
翻訳日:2022-11-18 16:56:02 公開日:2022-11-17
# オンライン設定におけるボリュームディスカウントによる動的価格設定

Dynamic Pricing with Volume Discounts in Online Settings ( http://arxiv.org/abs/2211.09612v1 )

ライセンス: Link先を確認
Marco Mussi, Gianmarco Genalti, Alessandro Nuara, Francesco Trov\`o, Marcello Restelli and Nicola Gatti(参考訳) 主要国際レポートによると、機械学習と高度な分析ツールのおかげで、より広範囲な産業とビジネスプロセスの自動化が、2030年までに毎年14兆USドル以上をアンロックする。 価格問題(この論文で調査する問題のクラスを構成する)の具体的な場合、推定アンロックされた値は年間0.5兆米ドルである。 特に本論文は,利益の最大化と取引データのみを対象とする電子商取引における価格設定に焦点を当てた。 この設定は、現実世界のアプリケーションでもっとも一般的なもののひとつです。 我々の研究は、異なるボリューム閾値で最適な価格を定義するための価格戦略を見つけることを目的としている。 さらに、利用可能な限られたデータを扱うという、現実世界で一般的な大きな課題に直面しています。 我々は2段階のオンライン学習アルゴリズムであるPVD-Bを設計し、オンライン方式でデータを段階的に活用する。 アルゴリズムはまず需要曲線を推定し、最適な平均価格を取得し、その後、各ボリューム閾値の価格を区別するために割引を提供する。 私たちは、イタリアのeコマース企業と共同で、実際の4ヶ月にわたるA/Bテスト実験を実施しました。 実験終了時,本アルゴリズムは約300keuroのトータルターンオーバーを行い,b構成性能を約55%上回った。 協力したイタリアの会社は2022年1月以来1200以上の製品でこのアルゴリズムを採用することに決めました。

According to the main international reports, more pervasive industrial and business-process automation, thanks to machine learning and advanced analytic tools, will unlock more than 14 trillion USD worldwide annually by 2030. In the specific case of pricing problems-which constitute the class of problems we investigate in this paper-, the estimated unlocked value will be about 0.5 trillion USD per year. In particular, this paper focuses on pricing in e-commerce when the objective function is profit maximization and only transaction data are available. This setting is one of the most common in real-world applications. Our work aims to find a pricing strategy that allows defining optimal prices at different volume thresholds to serve different classes of users. Furthermore, we face the major challenge, common in real-world settings, of dealing with limited data available. We design a two-phase online learning algorithm, namely PVD-B, capable of exploiting the data incrementally in an online fashion. The algorithm first estimates the demand curve and retrieves the optimal average price, and subsequently it offers discounts to differentiate the prices for each volume threshold. We ran a real-world 4-month-long A/B testing experiment in collaboration with an Italian e-commerce company, in which our algorithm PVD-B-corresponding to A configuration-has been compared with human pricing specialists-corresponding to B configuration. At the end of the experiment, our algorithm produced a total turnover of about 300 KEuros, outperforming the B configuration performance by about 55%. The Italian company we collaborated with decided to adopt our algorithm for more than 1,200 products since January 2022.
翻訳日:2022-11-18 16:55:53 公開日:2022-11-17
# 2層ネットワークのサンプル複雑性について:Lipschitz vs. Element-Wise Lipschitz Activation

On the Sample Complexity of Two-Layer Networks: Lipschitz vs. Element-Wise Lipschitz Activation ( http://arxiv.org/abs/2211.09634v1 )

ライセンス: Link先を確認
Amit Daniely and Elad Granot(参考訳) 異なる活性化関数を用いた有界二層ニューラルネットワークのサンプル複雑性について検討する。 特に、クラス \[ \mathcal{H} = \left\{\textbf{x}\mapsto \langle \textbf{v}, \sigma \circ W\textbf{x} + \textbf{b} \rangle : \textbf{b}\in\mathbb{R}^d, W \in \mathbb{R}^{T\times d}, \textbf{v} \in \mathbb{R}^{T}\right\} \] を考える。 我々は、$\sigma$ が要素的であれば、$\mathcal{H}$ のサンプル複雑性は幅独立であり、この複雑さは密であることを示す。 さらに、サンプルの複雑さが証明可能な幅依存性を持つ非要素的活性化関数が存在するという意味で、$\sigma$の要素ワイド性は幅非依存境界に不可欠であることを示す。 上界に対しては、arXiv:1910.05697 により Approximate Description Length (ADL) と呼ばれるノルムベース境界に対する最近のアプローチを用いる。 我々は、このアプローチのための新しい技術とツールをさらに発展させ、将来の作業に刺激を与えることを期待します。

We investigate the sample complexity of bounded two-layer neural networks using different activation functions. In particular, we consider the class \[ \mathcal{H} = \left\{\textbf{x}\mapsto \langle \textbf{v}, \sigma \circ W\textbf{x} + \textbf{b} \rangle : \textbf{b}\in\mathbb{R}^d, W \in \mathbb{R}^{T\times d}, \textbf{v} \in \mathbb{R}^{T}\right\} \] where the spectral norm of $W$ and $\textbf{v}$ is bounded by $O(1)$, the Frobenius norm of $W$ is bounded from its initialization by $R > 0$, and $\sigma$ is a Lipschitz activation function. We prove that if $\sigma$ is element-wise, then the sample complexity of $\mathcal{H}$ is width independent and that this complexity is tight. Moreover, we show that the element-wise property of $\sigma$ is essential for width-independent bound, in the sense that there exist non-element-wise activation functions whose sample complexity is provably width-dependent. For the upper bound, we use the recent approach for norm-based bounds named Approximate Description Length (ADL) by arXiv:1910.05697. We further develop new techniques and tools for this approach, that will hopefully inspire future works.
翻訳日:2022-11-18 16:55:26 公開日:2022-11-17
# ディープラーニングが一般化する理由

Why Deep Learning Generalizes ( http://arxiv.org/abs/2211.09639v1 )

ライセンス: Link先を確認
Benjamin L. Badger(参考訳) 勾配降下法を用いて訓練された非常に大きなディープラーニングモデルは、その膨大な能力から記憶への耐性が著しく高いが、同時に、純粋なノイズの大規模なデータセットを適合させることができる。 ここでは、通常一般化されるデータセットを記憶するためにモデルを訓練することができる。 一般化と比較して暗記は難しいが,雑音を加えると暗記が容易になる。 より多くのトレーニングサンプルへのモデルアクセスにより、ランダムなデータではオーバーフィットが容易になりますが、自然画像では多少難しいのです。 一般化への深層学習のバイアスを理論的に検討し,勾配降下時のモデルの入力に対して,モデルのパラメータが最大安定性の点に惹きつけられることから一般化が導かれることを示した。

Very large deep learning models trained using gradient descent are remarkably resistant to memorization given their huge capacity, but are at the same time capable of fitting large datasets of pure noise. Here methods are introduced by which models may be trained to memorize datasets that normally are generalized. We find that memorization is difficult relative to generalization, but that adding noise makes memorization easier. Increasing the dataset size exaggerates the characteristics of that dataset: model access to more training samples makes overfitting easier for random data, but somewhat harder for natural images. The bias of deep learning towards generalization is explored theoretically, and we show that generalization results from a model's parameters being attracted to points of maximal stability with respect to that model's inputs during gradient descent.
翻訳日:2022-11-18 16:54:43 公開日:2022-11-17
# 探索的ランドスケープ解析によるベイズ最適化の自動設計

Towards Automated Design of Bayesian Optimization via Exploratory Landscape Analysis ( http://arxiv.org/abs/2211.09678v1 )

ライセンス: Link先を確認
Carolin Benjamins, Anja Jankovic, Elena Raponi, Koen van der Blom, Marius Lindauer, Carola Doerr(参考訳) ベイズ最適化 (bayesian optimization, bo) アルゴリズムは、数値ブラックボックス最適化問題の高品質解を効率的に計算することを目的とした、サーロゲートに基づくヒューリスティックのクラスを形成する。 BOパイプラインは高度にモジュール化されており、初期サンプリング戦略、サロゲートモデル、取得関数(AF)、AFの最適化に使用されるソルバなど、設計上の選択肢が異なる。 本研究では,AFの動的選択がBO設計に有効であることを示す。 より正確には、初期設計点から計算した探索的ランドスケープ分析機能上に構築されたna\"ive random forest regression modelが、cocoプラットフォーム上のデリバティブフリーな数値最適化法のための古典的なbbobベンチマークスイートのパフォーマンスを考慮する際に、任意の静的選択よりも優れたafsを推奨できることを示す。 そこで本研究は,オートMLによるオンザフライBO設計への道を開き,その動作をランニングバイランベースで調整する。

Bayesian optimization (BO) algorithms form a class of surrogate-based heuristics, aimed at efficiently computing high-quality solutions for numerical black-box optimization problems. The BO pipeline is highly modular, with different design choices for the initial sampling strategy, the surrogate model, the acquisition function (AF), the solver used to optimize the AF, etc. We demonstrate in this work that a dynamic selection of the AF can benefit the BO design. More precisely, we show that already a na\"ive random forest regression model, built on top of exploratory landscape analysis features that are computed from the initial design points, suffices to recommend AFs that outperform any static choice, when considering performance over the classic BBOB benchmark suite for derivative-free numerical optimization methods on the COCO platform. Our work hence paves a way towards AutoML-assisted, on-the-fly BO designs that adjust their behavior on a run-by-run basis.
翻訳日:2022-11-18 16:54:29 公開日:2022-11-17
# 知識蒸留による時空間予測のためのサブグラフ学習

Sub-Graph Learning for Spatiotemporal Forecasting via Knowledge Distillation ( http://arxiv.org/abs/2211.09740v1 )

ライセンス: Link先を確認
Mehrtash Mehrabi and Yingxue Zhang(参考訳) 大きなグラフにおける相互作用を研究する際の課題の1つは、その多様なパターンと様々な相互作用タイプを学ぶことである。 したがって、すべてのノードを研究するための1つの分布とモデルと、近隣の多様性と局所的な特徴を無視して、全体的なパフォーマンスに重大な影響を与える可能性がある。 グラフ内のノードの構造情報とそれらの相互作用に基づいて、メイングラフを複数のサブグラフに分割することができる。 このグラフ分割は学習プロセスに大きな影響を及ぼすが、全体的な性能はクラスタリング法に大きく依存し、モデルの誤解を招くのを避けることができる。 そこで我々は,グラフの全体構造と各サブグラフに対する複数の局所モデルを学習するために,ひとつのグローバルモデルを定義する。 提案するフレームワークの性能を評価し,公開データセット上で評価する。 得られた結果に基づいて、複雑さの少ないモデルのアンサンブルと比較して、最先端の時空間モデルの性能を比較できる。

One of the challenges in studying the interactions in large graphs is to learn their diverse pattern and various interaction types. Hence, considering only one distribution and model to study all nodes and ignoring their diversity and local features in their neighborhoods, might severely affect the overall performance. Based on the structural information of the nodes in the graph and the interactions between them, the main graph can be divided into multiple sub-graphs. This graph partitioning can tremendously affect the learning process, however the overall performance is highly dependent on the clustering method to avoid misleading the model. In this work, we present a new framework called KD-SGL to effectively learn the sub-graphs, where we define one global model to learn the overall structure of the graph and multiple local models for each sub-graph. We assess the performance of the proposed framework and evaluate it on public datasets. Based on the achieved results, it can improve the performance of the state-of-the-arts spatiotemporal models with comparable results compared to ensemble of models with less complexity.
翻訳日:2022-11-18 16:54:06 公開日:2022-11-17
# conffusion: 拡散モデルに対する信頼区間

Conffusion: Confidence Intervals for Diffusion Models ( http://arxiv.org/abs/2211.09795v1 )

ライセンス: Link先を確認
Eliahu Horwitz, Yedid Hoshen(参考訳) 拡散モデルは多くの生成タスク、特に超解像やインペイントのような画像から画像への生成タスクのゴーツーメソッドとなっている。 現在の拡散に基づく方法は、生成した結果に関する統計的な保証を提供しておらず、しばしば高レベルの状況での使用を妨げている。 このギャップを埋めるために,ユーザが設定した確率で,画素の真の値が区間内に落ちることが保証されるように,各生成画素の周りの信頼区間を構成する。 拡散モデルはデータ分布をパラメータ化するため、そのような区間を構成する簡単な方法は複数のサンプルを描画してそれらの境界を計算することである。 しかし、この方法にはいくつかの欠点がある。 一 サンプリング速度の遅いもの 二 準最適境界 三 タスクごとに拡散モデルを訓練すること。 これらの欠点を軽減するために,1つの前方通過における間隔境界を予測するために,事前学習した拡散モデルを微調整する融合法を提案する。 conffusionは3桁の速さでベースラインメソッドよりも優れています。

Diffusion models have become the go-to method for many generative tasks, particularly for image-to-image generation tasks such as super-resolution and inpainting. Current diffusion-based methods do not provide statistical guarantees regarding the generated results, often preventing their use in high-stakes situations. To bridge this gap, we construct a confidence interval around each generated pixel such that the true value of the pixel is guaranteed to fall within the interval with a probability set by the user. Since diffusion models parametrize the data distribution, a straightforward way of constructing such intervals is by drawing multiple samples and calculating their bounds. However, this method has several drawbacks: i) slow sampling speeds ii) suboptimal bounds iii) requires training a diffusion model per task. To mitigate these shortcomings we propose Conffusion, wherein we fine-tune a pre-trained diffusion model to predict interval bounds in a single forward pass. We show that Conffusion outperforms the baseline method while being three orders of magnitude faster.
翻訳日:2022-11-18 16:48:37 公開日:2022-11-17
# CAE v2: CLIP Targetを使ったコンテキストオートエンコーダ

CAE v2: Context Autoencoder with CLIP Target ( http://arxiv.org/abs/2211.09799v1 )

ライセンス: Link先を確認
Xinyu Zhang, Jiahui Chen, Junkun Yuan, Qiang Chen, Jian Wang, Xiaodi Wang, Shumin Han, Xiaokang Chen, Jimin Pi, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang(参考訳) マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。 再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。 しかし、MIMにおけるCLIPの監督がパフォーマンスにどのように影響するかはまだ解明されていない。 CLIPターゲットMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち監視位置とマスク比について検討し,CLIPターゲットを用いたコンテキスト自動デコーダ(CAE v2)の開発した単純なパイプラインに依存する2つの興味深い視点を明らかにする。 まず、目に見えるパッチに対する監督が、既存のmimメソッドの標準フォーマットであるマスクされたパッチよりも優れた、驚くべきパフォーマンスを達成することを観察する。 第二に、最適マスク比はモデルサイズと正に相関する。 つまり、モデルが小さくなればなるほど、マスク比は低くなります。 これら2つの発見によって駆動される私たちの単純で簡潔なアプローチであるCAE v2は、一連の下流タスクにおいて優れたパフォーマンスを実現する。 例えば、バニラViT-ラージモデルは、ImageNet-1K上の線形探索と微調整において81.7%と86.7%のトップ-1精度、ADE20K上のセマンティックセグメンテーションにおいて55.9%のmIoUを達成し、300エポックの事前トレーニングを行う。 本研究は,MIM領域,特に小規模モデルにおける事前トレーニングのガイドラインとして有用であると考えられた。

Masked image modeling (MIM) learns visual representation by masking and reconstructing image patches. Applying the reconstruction supervision on the CLIP representation has been proven effective for MIM. However, it is still under-explored how CLIP supervision in MIM influences performance. To investigate strategies for refining the CLIP-targeted MIM, we study two critical elements in MIM, i.e., the supervision position and the mask ratio, and reveal two interesting perspectives, relying on our developed simple pipeline, context autodecoder with CLIP target (CAE v2). Firstly, we observe that the supervision on visible patches achieves remarkable performance, even better than that on masked patches, where the latter is the standard format in the existing MIM methods. Secondly, the optimal mask ratio positively correlates to the model size. That is to say, the smaller the model, the lower the mask ratio needs to be. Driven by these two discoveries, our simple and concise approach CAE v2 achieves superior performance on a series of downstream tasks. For example, a vanilla ViT-Large model achieves 81.7% and 86.7% top-1 accuracy on linear probing and fine-tuning on ImageNet-1K, and 55.9% mIoU on semantic segmentation on ADE20K with the pre-training for 300 epochs. We hope our findings can be helpful guidelines for the pre-training in the MIM area, especially for the small-scale models.
翻訳日:2022-11-18 16:48:22 公開日:2022-11-17
# マルチモーダル相互情報最大化によるオールインワン事前学習に向けて

Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information ( http://arxiv.org/abs/2211.09807v1 )

ライセンス: Link先を確認
Weijie Su, Xizhou Zhu, Chenxin Tao, Lewei Lu, Bin Li, Gao Huang, Yu Qiao, Xiaogang Wang, Jie Zhou, Jifeng Dai(参考訳) 大規模モデルの可能性を効果的に活用するために、教師付き事前訓練、弱教師付き事前訓練、自己教師付き事前訓練など、様々な情報源からの大量のデータによって支援される様々な事前訓練戦略を提案する。 複数の事前トレーニング戦略とさまざまなモダリティ/ソースからのデータを組み合わせることで、大規模モデルのトレーニングが大幅に向上することが証明されている。 しかし、現在の作業では、複雑なパイプラインによって事前訓練の不確実性と不安定性が増大する多段階事前訓練システムを採用している。 したがって、これらの戦略を単一段階の方法で統合することが望ましい。 本稿では,まず,統一最適化目標として汎用マルチモーダル相互情報公式を提案し,既存の手法はすべてフレームワークの特別な場合であることを実証する。 この統一的な視点の下で,マルチモーダル相互情報事前学習(m3i pre-training)の最大化という,オールインワンの単段事前学習手法を提案する。 提案手法は,イメージネット分類,COCOオブジェクト検出,LVISロングテールオブジェクト検出,ADE20kセマンティックセマンティックセマンティックセグメンテーションなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。 特に,10億レベルのパラメータ画像バックボーンの事前トレーニングに成功し,様々なベンチマークで最先端のパフォーマンスを実現した。 コードは解放される。

To effectively exploit the potential of large-scale models, various pre-training strategies supported by massive data from different sources are proposed, including supervised pre-training, weakly-supervised pre-training, and self-supervised pre-training. It has been proved that combining multiple pre-training strategies and data from various modalities/sources can greatly boost the training of large-scale models. However, current works adopt a multi-stage pre-training system, where the complex pipeline may increase the uncertainty and instability of the pre-training. It is thus desirable that these strategies can be integrated in a single-stage manner. In this paper, we first propose a general multi-modal mutual information formula as a unified optimization target and demonstrate that all existing approaches are special cases of our framework. Under this unified perspective, we propose an all-in-one single-stage pre-training approach, named Maximizing Multi-modal Mutual Information Pre-training (M3I Pre-training). Our approach achieves better performance than previous pre-training methods on various vision benchmarks, including ImageNet classification, COCO object detection, LVIS long-tailed object detection, and ADE20k semantic segmentation. Notably, we successfully pre-train a billion-level parameter image backbone and achieve state-of-the-art performance on various benchmarks. Code shall be released.
翻訳日:2022-11-18 16:47:54 公開日:2022-11-17
# Uni-Perceiver v2: 大規模ビジョンと視覚言語タスクの汎用モデル

Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks ( http://arxiv.org/abs/2211.09808v1 )

ライセンス: Link先を確認
Hao Li, Jinguo Zhu, Xiaohu Jiang, Xizhou Zhu, Hongsheng Li, Chun Yuan, Xiaohua Wang, Yu Qiao, Xiaogang Wang, Wenhai Wang, Jifeng Dai(参考訳) 基礎モデルの顕著な成功にもかかわらず、タスク固有の微調整パラダイムは、一般的な知覚モデリングの目標と矛盾する。 この矛盾を取り除く鍵は、一般的なタスクモデリングにジェネラリストモデルを使用することです。 しかし、ジェネラリストモデルに対する既存の試みは、汎用性と性能の両方において不十分である。 本稿では,大規模ビジョンと視覚言語タスクを競合性能で処理できる最初のジェネラリストモデルであるuni-perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 エンコードされた表現はタスクに依存しないデコーダによって変換される。 異なるタスクは、統一された最大推定問題として定式化される。 さらに,大規模なバッチサイズのトレーニングを必要とするタスクに有用な,非混合サンプリング戦略による安定なマルチタスク学習を実現するための最適化手法を提案する。 様々なタスクを共同で訓練した後、UniPerceiver v2はタスク固有の適応なしに下流タスクを直接処理できる。 結果,Uni-Perceiver v2は汎用性と性能の両面で,既存のジェネラリストモデルよりも優れていた。 一方、タスク固有の微調整を必要とする一般的に認識されている強固なベースラインと比較すると、uni-perceiver v2は幅広い視覚および視覚言語タスクで競争力を発揮する。

Despite the remarkable success of foundation models, their task-specific fine-tuning paradigm makes them inconsistent with the goal of general perception modeling. The key to eliminating this inconsistency is to use generalist models for general task modeling. However, existing attempts at generalist models are inadequate in both versatility and performance. In this paper, we propose Uni-Perceiver v2, which is the first generalist model capable of handling major large-scale vision and vision-language tasks with competitive performance. Specifically, images are encoded as general region proposals, while texts are encoded via a Transformer-based language model. The encoded representations are transformed by a task-agnostic decoder. Different tasks are formulated as a unified maximum likelihood estimation problem. We further propose an improved optimizer to ensure stable multi-task learning with an unmixed sampling strategy, which is helpful for tasks requiring large batch-size training. After being jointly trained on various tasks, Uni-Perceiver v2 is capable of directly handling downstream tasks without any task-specific adaptation. Results show that Uni-Perceiver v2 outperforms all existing generalist models in both versatility and performance. Meanwhile, compared with the commonly-recognized strong baselines that require tasks-specific fine-tuning, Uni-Perceiver v2 achieves competitive performance on a broad range of vision and vision-language tasks.
翻訳日:2022-11-18 16:47:29 公開日:2022-11-17
# SPACEx:制御可能な表現を用いた音声駆動画像アニメーション

SPACEx: Speech-driven Portrait Animation with Controllable Expression ( http://arxiv.org/abs/2211.09809v1 )

ライセンス: Link先を確認
Siddharth Gururani, Arun Mallya, Ting-Chun Wang, Rafael Valle, Ming-Yu Liu(参考訳) 近年,音声による肖像画のアニメーション化が注目されている。 理想的な生成ビデオは、オーディオ、自然な表情、頭部の動きと良好な唇のシンク、フレーム品質を持つべきである。 本研究では,音声と単一画像を用いて,リアルな頭部ポーズで高解像度で表現力のある映像を生成するSPACExを提案する。 顔ランドマークの制御性と事前訓練された顔発生装置の高品質な合成能力を組み合わせた多段階的アプローチを採用している。 SPACExはまた、感情とその強度を制御できる。 提案手法は,画像品質と顔の動きの客観的指標において,先行手法よりも優れており,対比較では利用者に好まれる。 プロジェクトのwebサイトはhttps://deepimagination.cc/spacex/で入手できる。

Animating portraits using speech has received growing attention in recent years, with various creative and practical use cases. An ideal generated video should have good lip sync with the audio, natural facial expressions and head motions, and high frame quality. In this work, we present SPACEx, which uses speech and a single image to generate high-resolution, and expressive videos with realistic head pose, without requiring a driving video. It uses a multi-stage approach, combining the controllability of facial landmarks with the high-quality synthesis power of a pretrained face generator. SPACEx also allows for the control of emotions and their intensities. Our method outperforms prior methods in objective metrics for image quality and facial motions and is strongly preferred by users in pair-wise comparisons. The project website is available at https://deepimagination.cc/SPACEx/
翻訳日:2022-11-18 16:47:06 公開日:2022-11-17
# データサイエンスコード生成モデルの実行に基づく評価

Execution-based Evaluation for Data Science Code Generation Models ( http://arxiv.org/abs/2211.09374v1 )

ライセンス: Link先を確認
Junjie Huang, Chenglong Wang, Jipeng Zhang, Cong Yan, Haotian Cui, Jeevana Priya Inala, Colin Clement, Nan Duan, Jianfeng Gao(参考訳) コード生成モデルは、コンテキストやテキスト記述からコードを自動的に生成することで、データサイエンティストの生産性を向上することができる。 モデリングの進捗に関する重要な尺度は、モデルを正しく実行してタスクを解決できるコードを生成することができるかどうかである。 しかし、実行ベースのモデル評価を直接サポートする評価データセットがないため、既存の作業は不正確なモデル選択のためにコード表面形状の類似性メトリクス(BLEU、CodeBLEUなど)に依存している。 そこで本稿では,データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。 ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。 ExeDSでは,高い表面形状評価スコアを得た5つの最先端コード生成モデルの実行性能を評価する。 実験の結果,高い表面形状のスコアを持つモデルが必ずしも実行メトリクスでうまく動作せず,実行ベースのメトリクスがモデルコード生成エラーをよりよくキャプチャできることがわかった。 ソースコードとデータはhttps://github.com/Jun-jie-Huang/ExeDSにある。

Code generation models can benefit data scientists' productivity by automatically generating code from context and text descriptions. An important measure of the modeling progress is whether a model can generate code that can correctly execute to solve the task. However, due to the lack of an evaluation dataset that directly supports execution-based model evaluation, existing work relies on code surface form similarity metrics (e.g., BLEU, CodeBLEU) for model selection, which can be inaccurate. To remedy this, we introduce ExeDS, an evaluation dataset for execution evaluation for data science code generation tasks. ExeDS contains a set of 534 problems from Jupyter Notebooks, each consisting of code context, task description, reference program, and the desired execution output. With ExeDS, we evaluate the execution performance of five state-of-the-art code generation models that have achieved high surface-form evaluation scores. Our experiments show that models with high surface-form scores do not necessarily perform well on execution metrics, and execution-based metrics can better capture model code generation errors. Source code and data can be found at https://github.com/Jun-jie-Huang/ExeDS
翻訳日:2022-11-18 16:46:51 公開日:2022-11-17
# エラー低減を期待するアクティブラーニング

Active Learning with Expected Error Reduction ( http://arxiv.org/abs/2211.09283v1 )

ライセンス: Link先を確認
Stephen Mussmann, Julia Reisler, Daniel Tsai, Ehsan Mousavi, Shayne O'Brien, Moises Goldszmidt(参考訳) 能動学習は効率的なデータ収集手法として広く研究されてきた。 文献における多くのアプローチの中で、期待誤差削減(EER) (Roy and McCallum) はアクティブラーニングに有効な方法であることが示されている。 しかし、eerは全ての候補サンプルに対してモデルを再トレーニングする必要があるため、この大きな計算コストのため、現代のディープニューラルネットワークでは広く使われていない。 本稿では,eerをベイズアクティブラーニングのレンズで再構成し,任意のベイズパラメータサンプリング法(arxiv:1506.02142 など)を用いた計算効率の高いバージョンを導出する。 そこで本研究では,モンテカルロドロップアウト法を用いて,深層アクティブラーニング文献における手法状態に対するパラメータサンプリングを行い,実験結果と比較した。 4つの標準ベンチマークデータセットと3つのWILDSデータセット(arXiv:2012.07421)で実験が行われる。 その結果,本手法はデータシフトシナリオにおける他の手法よりも優れており,計算コストが桁違いに高いモデル依存非情報理論法(arXiv:1906.03671)であることがわかった。

Active learning has been studied extensively as a method for efficient data collection. Among the many approaches in literature, Expected Error Reduction (EER) (Roy and McCallum) has been shown to be an effective method for active learning: select the candidate sample that, in expectation, maximally decreases the error on an unlabeled set. However, EER requires the model to be retrained for every candidate sample and thus has not been widely used for modern deep neural networks due to this large computational cost. In this paper we reformulate EER under the lens of Bayesian active learning and derive a computationally efficient version that can use any Bayesian parameter sampling method (such as arXiv:1506.02142). We then compare the empirical performance of our method using Monte Carlo dropout for parameter sampling against state of the art methods in the deep active learning literature. Experiments are performed on four standard benchmark datasets and three WILDS datasets (arXiv:2012.07421). The results indicate that our method outperforms all other methods except one in the data shift scenario: a model dependent, non-information theoretic method that requires an order of magnitude higher computational cost (arXiv:1906.03671).
翻訳日:2022-11-18 16:45:46 公開日:2022-11-17
# 置換不変表型データ合成

Permutation-Invariant Tabular Data Synthesis ( http://arxiv.org/abs/2211.09286v1 )

ライセンス: Link先を確認
Yujin Zhu, Zilong Zhao, Robert Birke, Lydia Y. Chen(参考訳) 表型データ合成は、ビッグデータを通じて知識を発見しながら、データプライバシに関する厳格な規制を回避するための新たなアプローチだ。 表-GAN、CTGAN、TVAE、CTAB-GANといった最先端のAIベースの表データシンセサイザーは、合成表データを生成するのに有効であるが、それらのトレーニングは入力データの列置換に敏感である。 本稿では、まず、置換不変性を明らかにするための広範な実験研究と、既存のシンセサイザーの詳細な分析を行う。 入力列の順序を変更することで、表形式のデータとネットワークアーキテクチャの符号化により、実データと合成データの統計的差異が最大38.67%悪化することを示す。 巨大合成表データの可能性を完全に解き放つために,我々は2つの解決策を提案する。 (i)AE-GANは、自動エンコーダネットワークを用いて表データとGANネットワークを表現し、潜在表現を合成するシンセサイザーであり、 (ii)cnnベースのシンセサイザにおける入力データの適切な列順を求める特徴ソートアルゴリズム。 提案手法は, カラム置換に対する感度, 合成データの品質, 下流解析における有用性の観点から, 5つのデータセットの解を評価できる。 以上の結果から, 合成装置のトレーニングにおける置換不変性の向上と, 合成データの品質と有用性の向上が, 既存の合成装置と比較して最大22%向上することが示唆された。

Tabular data synthesis is an emerging approach to circumvent strict regulations on data privacy while discovering knowledge through big data. Although state-of-the-art AI-based tabular data synthesizers, e.g., table-GAN, CTGAN, TVAE, and CTAB-GAN, are effective at generating synthetic tabular data, their training is sensitive to column permutations of input data. In this paper, we first conduct an extensive empirical study to disclose such a property of permutation invariance and an in-depth analysis of the existing synthesizers. We show that changing the input column order worsens the statistical difference between real and synthetic data by up to 38.67% due to the encoding of tabular data and the network architectures. To fully unleash the potential of big synthetic tabular data, we propose two solutions: (i) AE-GAN, a synthesizer that uses an autoencoder network to represent the tabular data and GAN networks to synthesize the latent representation, and (ii) a feature sorting algorithm to find the suitable column order of input data for CNN-based synthesizers. We evaluate the proposed solutions on five datasets in terms of the sensitivity to the column permutation, the quality of synthetic data, and the utility in downstream analyses. Our results show that we enhance the property of permutation-invariance when training synthesizers and further improve the quality and utility of synthetic data, up to 22%, compared to the existing synthesizers.
翻訳日:2022-11-18 16:45:27 公開日:2022-11-17
# 3次元物体接地のための言語条件付き空間関係推論

Language Conditioned Spatial Relation Reasoning for 3D Object Grounding ( http://arxiv.org/abs/2211.09646v1 )

ライセンス: Link先を確認
Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev(参考訳) 自然言語に基づく3dシーンにおけるオブジェクトのローカライズには、空間関係に関する理解と推論が必要である。 特に、「一番左の椅子」や「窓の隣の椅子」など、テキストで言及されている類似の物体を区別することが不可欠であることが多い。 本研究では,3次元物体を接地する言語条件付きトランスフォーマモデルとその空間関係について述べる。 この目的のために,入力3次元点雲内の物体間の相対距離と方向を考慮した空間的自己着床層を設計する。 このような層を視覚的および言語的な入力で訓練することで、空間的関係を曖昧にし、テキストが参照するオブジェクトをローカライズすることができる。 そこで本研究では,教師モデルにおいて,まず接地型オブジェクトラベルを用いて教師モデルを訓練し,次にポイントクラウド入力を用いた生徒モデルの学習を支援する教師・教師のアプローチを提案する。 我々はアプローチの利点を示すアブレーション研究を行う。 また、挑戦的なNr3D、Sr3D、ScanReferの3Dオブジェクトグラウンドデータセットにおいて、我々のモデルが芸術の状態を著しく上回ることを示す。

Localizing objects in 3D scenes based on natural language requires understanding and reasoning about spatial relations. In particular, it is often crucial to distinguish similar objects referred by the text, such as "the left most chair" and "a chair next to the window". In this work we propose a language-conditioned transformer model for grounding 3D objects and their spatial relations. To this end, we design a spatial self-attention layer that accounts for relative distances and orientations between objects in input 3D point clouds. Training such a layer with visual and language inputs enables to disambiguate spatial relations and to localize objects referred by the text. To facilitate the cross-modal learning of relations, we further propose a teacher-student approach where the teacher model is first trained using ground-truth object labels, and then helps to train a student model using point cloud inputs. We perform ablation studies showing advantages of our approach. We also demonstrate our model to significantly outperform the state of the art on the challenging Nr3D, Sr3D and ScanRefer 3D object grounding datasets.
翻訳日:2022-11-18 16:39:42 公開日:2022-11-17
# シングルステージ・グローバルアソシエーションアプローチによる移動のマルチカメラマルチオブジェクトトラッキング

Multi-Camera Multi-Object Tracking on the Move via Single-Stage Global Association Approach ( http://arxiv.org/abs/2211.09663v1 )

ライセンス: Link先を確認
Pha Nguyen, Kha Gia Quach, Chi Nhan Duong, Son Lam Phung, Ngan Le, Khoa Luu(参考訳) 自動運転車の開発は、車の周囲の環境を捉えた完全なカメラセンサーを備えた、低コストのソリューションに対する膨大な需要を生み出します。 マルチカメラ設定におけるこれらの新しい課題に対処するためには、オブジェクトの検出と追跡が不可欠である。 これらの課題に対処するため,本研究では,複数カメラからの1つ以上の検出を追跡対象と関連付ける,新しい一段階のグローバルアソシエーション追跡手法を導入する。 これらの手法は,不整合3次元物体検出によるフラグメント追跡の問題を解決することを目的としている。 さらに, ニューセンシング検出課題において, 標準視覚に基づく3次元物体検出器の検出精度も向上した。 nuScenesデータセットの実験結果から,マルチカメラ環境下での事前の視線追跡手法よりも優れていることを示す。

The development of autonomous vehicles generates a tremendous demand for a low-cost solution with a complete set of camera sensors capturing the environment around the car. It is essential for object detection and tracking to address these new challenges in multi-camera settings. In order to address these challenges, this work introduces novel Single-Stage Global Association Tracking approaches to associate one or more detection from multi-cameras with tracked objects. These approaches aim to solve fragment-tracking issues caused by inconsistent 3D object detection. Moreover, our models also improve the detection accuracy of the standard vision-based 3D object detectors in the nuScenes detection challenge. The experimental results on the nuScenes dataset demonstrate the benefits of the proposed method by outperforming prior vision-based tracking methods in multi-camera settings.
翻訳日:2022-11-18 16:39:21 公開日:2022-11-17
# AligNeRF:アライメント・アウェアトレーニングによる高忠実神経放射場

AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware Training ( http://arxiv.org/abs/2211.09682v1 )

ライセンス: Link先を確認
Yifan Jiang, Peter Hedman, Ben Mildenhall, Dejia Xu, Jonathan T. Barron, Zhangyang Wang, Tianfan Xue(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元シーンを連続関数としてモデル化するための強力な表現である。 nerfは、ビューに依存した複雑な3dシーンをレンダリングできるが、高解像度設定でその限界を探索する努力は少ない。 具体的には、非常に多くのパラメータ、不整合入力データ、過度に滑らかな詳細を含む、高解像度のリアルシーンを再構成する際に、既存のNeRFベースの手法にはいくつかの制限がある。 本研究では,高分解能データを用いたnrf訓練に関する最初のパイロット研究を行い,対応する解を提案する。 1) 多層パーセプトロン(mlp)と、パラメータの総数を減少させながら、より多くの近傍情報をエンコードできる畳み込み層との結合 2 移動物体又は小型カメラキャリブレーション誤差による不一致に対処するための新しい訓練戦略 3)高周波認識損失。 我々のアプローチは、明らかなトレーニング/テストコストを導入することなくほぼ無料で、異なるデータセットでの実験では、現在のnerfモデルと比較して、より高周波な詳細を回復できることが示されています。 プロジェクトページ: \url{https://yifanjiang.net/alignerf。 }

Neural Radiance Fields (NeRFs) are a powerful representation for modeling a 3D scene as a continuous function. Though NeRF is able to render complex 3D scenes with view-dependent effects, few efforts have been devoted to exploring its limits in a high-resolution setting. Specifically, existing NeRF-based methods face several limitations when reconstructing high-resolution real scenes, including a very large number of parameters, misaligned input data, and overly smooth details. In this work, we conduct the first pilot study on training NeRF with high-resolution data and propose the corresponding solutions: 1) marrying the multilayer perceptron (MLP) with convolutional layers which can encode more neighborhood information while reducing the total number of parameters; 2) a novel training strategy to address misalignment caused by moving objects or small camera calibration errors; and 3) a high-frequency aware loss. Our approach is nearly free without introducing obvious training/testing costs, while experiments on different datasets demonstrate that it can recover more high-frequency details compared with the current state-of-the-art NeRF models. Project page: \url{https://yifanjiang.net/alignerf.}
翻訳日:2022-11-18 16:39:10 公開日:2022-11-17
# 深層学習型ポリープ検出における性能変動源

Sources of performance variability in deep learning-based polyp detection ( http://arxiv.org/abs/2211.09708v1 )

ライセンス: Link先を確認
Thuy Nuong Tran, Tim Adler, Amine Yamlahi, Evangelia Christodoulou, Patrick Godau, Annika Reinke, Minu Dietlinde Tizabi, Peter Sauer, Tillmann Persicke, J\"org Gerhard Albert, Lena Maier-Hein(参考訳) 検証基準は、科学的進歩の信頼できる追跡と、方法の潜在的な臨床翻訳を決定するための重要な前提条件である。 最近の取り組みは、画像解析問題におけるメートル法関連の落とし穴を理解するための包括的な理論的枠組みを開発することを目的としているが、特定のアプリケーションに対する共通および希少な落とし穴の具体的な影響に関する実験的な証拠が不足している。 大腸がん検診の文献におけるこのギャップについて考察する。 私たちの貢献は2倍です。 まず,大腸がん検出のための内視鏡コンピュータビジョンチャレンジ(EndoCV)の優勝ソリューションについて,IEEE International Symposium on Biomedical Imaging (ISBI) 2022と共同で実施した。 第二に、よく使われるメトリクスの過度パラメータに対する感度と、悪いメトリック選択の結果を実証する。 6つの臨床センターの患者データを用いて総合的検証を行った結果,対象検出の指標はいずれも高い中心間変動が認められた。 さらに,コンピュータビジョンのコミュニティで使用される標準ハイパーパラメータの適応は,臨床上最も有効な結果にはならないことが明らかとなった。 最後に,臨床関連性によく対応した局所化基準を提案する。 我々の研究は、自動大腸癌検診アプリケーションにおける一般的なバリデーション戦略を再考する第一歩となるかもしれない。

Validation metrics are a key prerequisite for the reliable tracking of scientific progress and for deciding on the potential clinical translation of methods. While recent initiatives aim to develop comprehensive theoretical frameworks for understanding metric-related pitfalls in image analysis problems, there is a lack of experimental evidence on the concrete effects of common and rare pitfalls on specific applications. We address this gap in the literature in the context of colon cancer screening. Our contribution is twofold. Firstly, we present the winning solution of the Endoscopy computer vision challenge (EndoCV) on colon cancer detection, conducted in conjunction with the IEEE International Symposium on Biomedical Imaging (ISBI) 2022. Secondly, we demonstrate the sensitivity of commonly used metrics to a range of hyperparameters as well as the consequences of poor metric choices. Based on comprehensive validation studies performed with patient data from six clinical centers, we found all commonly applied object detection metrics to be subject to high inter-center variability. Furthermore, our results clearly demonstrate that the adaptation of standard hyperparameters used in the computer vision community does not generally lead to the clinically most plausible results. Finally, we present localization criteria that correspond well to clinical relevance. Our work could be a first step towards reconsidering common validation strategies in automatic colon cancer screening applications.
翻訳日:2022-11-18 16:38:45 公開日:2022-11-17
# d$^3$etr:検出変圧器用脱コーダ蒸留

D$^3$ETR: Decoder Distillation for Detection Transformer ( http://arxiv.org/abs/2211.09768v1 )

ライセンス: Link先を確認
Xiaokang Chen, Jiahui Chen, Yan Liu, Gang Zeng(参考訳) CNNベースの検出器における様々な知識蒸留(KD)手法は、小学生の育成に効果を示すが、DETRベースの検出器のベースラインとレシピはまだ作成されていない。 本稿では,DETRを用いた検出器のトランスデコーダに着目し,KD法を探索する。 トランスデコーダの出力はランダムな順序で行われ、教師と生徒の予測と直接対応しないため、知識の蒸留に挑戦する。 そこで本研究では,教師と教師のマッチング戦略,すなわち適応マッチングと固定マッチングを混合したdetrベースの教師と生徒のデコーダ出力を調整するためのmixmatcherを提案する。 具体的には、適応マッチングは、各デコーダ層における教師と生徒の出力を適応的にマッチングするために2部マッチングを適用し、固定マッチングは、教師と生徒の出力の対応を同じオブジェクトクエリで固定し、教師の固定オブジェクトクエリは、生徒のデコーダに補助グループとして供給する。 MixMatcherをベースとして, 教師から生徒へのデコーダ予測や注意マップの知識を抽出する, \textbf{D}ecoder \textbf{D}istillation for \textbf{DE}tection \textbf{TR}ansformer (D$^3$ETR)を構築した。 d$^3$etrは様々なバックボーンを持つdetrベースの検出器で優れた性能を示す。 例えば、D$^3$ETR は Conditional DETR-R50-C5 を $\textbf{7.8}/\textbf{2.4}$ mAP under $112/50$ epochs training settings with Conditional DETR-R101-C5 で改善する。

While various knowledge distillation (KD) methods in CNN-based detectors show their effectiveness in improving small students, the baselines and recipes for DETR-based detectors are yet to be built. In this paper, we focus on the transformer decoder of DETR-based detectors and explore KD methods for them. The outputs of the transformer decoder lie in random order, which gives no direct correspondence between the predictions of the teacher and the student, thus posing a challenge for knowledge distillation. To this end, we propose MixMatcher to align the decoder outputs of DETR-based teachers and students, which mixes two teacher-student matching strategies, i.e., Adaptive Matching and Fixed Matching. Specifically, Adaptive Matching applies bipartite matching to adaptively match the outputs of the teacher and the student in each decoder layer, while Fixed Matching fixes the correspondence between the outputs of the teacher and the student with the same object queries, with the teacher's fixed object queries fed to the decoder of the student as an auxiliary group. Based on MixMatcher, we build \textbf{D}ecoder \textbf{D}istillation for \textbf{DE}tection \textbf{TR}ansformer (D$^3$ETR), which distills knowledge in decoder predictions and attention maps from the teachers to students. D$^3$ETR shows superior performance on various DETR-based detectors with different backbones. For example, D$^3$ETR improves Conditional DETR-R50-C5 by $\textbf{7.8}/\textbf{2.4}$ mAP under $12/50$ epochs training settings with Conditional DETR-R101-C5 as the teacher.
翻訳日:2022-11-18 16:38:25 公開日:2022-11-17
# 3DLatNav:セマンティックな3Dオブジェクト操作のための生成潜在空間のナビゲーション

3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D Object Manipulation ( http://arxiv.org/abs/2211.09770v1 )

ライセンス: Link先を確認
Amaya Dharmasiri, Dinithi Dissanayake, Mohamed Afham, Isuru Dissanayake, Ranga Rodrigo, Kanchana Thilakarathna(参考訳) 3D生成モデルは、最近、点雲という形で現実的な3Dオブジェクトを生成することに成功した。 しかし、ほとんどのモデルは、広範なセマンティクス属性ラベルや他の参照ポイントクラウドなしでコンポーネントオブジェクト部分の形状セマンティクスを操作する制御性を提供していない。 さらに、単純な潜在ベクトル算術や補間を行う能力の他に、3次元形状の部分レベル意味論が対応する生成潜在空間にエンコードされる方法の理解が欠如している。 本稿では,3Dオブジェクトのパートレベルのセマンティック操作を可能にするために,事前学習された生成潜在空間をナビゲートする新しいアプローチである3DLatNavを提案する。 まず,3次元形状の潜在表現を用いた部分レベル弱教師付き形状意味認識機構を提案する。 そして,その知識を事前学習された3次元オブジェクト生成潜時空間に変換し,学習中に部分レベルラベルが利用できないにもかかわらず,対象の構成要素の異なる形状意味を線形部分空間として表現する。 最後に,これら同定された部分空間を用いて,事前学習した3次元生成モデルに適用することにより,制御可能な3次元オブジェクト部分操作を実現する。 3dlatnavは,3dオブジェクトの部分レベルの形状セマンティクスをエンコードする潜在方向を特定する際に,既存の非教師付き潜在性不等角化手法よりも優れていることを示す。 複数のアブレーション研究と最先端生成モデルのテストにより、3DLatNavは入力点クラウド上で制御された部分レベルのセマンティック操作を実装でき、他の特徴やオブジェクトの現実的な性質を保存できることを示した。

3D generative models have been recently successful in generating realistic 3D objects in the form of point clouds. However, most models do not offer controllability to manipulate the shape semantics of component object parts without extensive semantic attribute labels or other reference point clouds. Moreover, beyond the ability to perform simple latent vector arithmetic or interpolations, there is a lack of understanding of how part-level semantics of 3D shapes are encoded in their corresponding generative latent spaces. In this paper, we propose 3DLatNav; a novel approach to navigating pretrained generative latent spaces to enable controlled part-level semantic manipulation of 3D objects. First, we propose a part-level weakly-supervised shape semantics identification mechanism using latent representations of 3D shapes. Then, we transfer that knowledge to a pretrained 3D object generative latent space to unravel disentangled embeddings to represent different shape semantics of component parts of an object in the form of linear subspaces, despite the unavailability of part-level labels during the training. Finally, we utilize those identified subspaces to show that controllable 3D object part manipulation can be achieved by applying the proposed framework to any pretrained 3D generative model. With two novel quantitative metrics to evaluate the consistency and localization accuracy of part-level manipulations, we show that 3DLatNav outperforms existing unsupervised latent disentanglement methods in identifying latent directions that encode part-level shape semantics of 3D objects. With multiple ablation studies and testing on state-of-the-art generative models, we show that 3DLatNav can implement controlled part-level semantic manipulations on an input point cloud while preserving other features and the realistic nature of the object.
翻訳日:2022-11-18 16:37:49 公開日:2022-11-17
# 画像がないなんて信じられない! 言語データのみを用いた視覚タスクの学習

I Can't Believe There's No Images! Learning Visual Tasks Using only Language Data ( http://arxiv.org/abs/2211.09778v1 )

ライセンス: Link先を確認
Sophia Gu, Christopher Clark, Aniruddha Kembhavi(参考訳) 質問のパース、意味論の比較と対比、記述の記述など、コンピュータビジョンタスクに必要な多くの高度なスキルは、自然言語処理のような他の領域でも必要である。 本稿では,テキストデータからこれらのスキルを学習し,視覚訓練データを訓練することなく視覚タスクを完遂できるかどうかを問う。 我々のアプローチの鍵は、対照的に訓練された視覚と言語エンコーダの結合埋め込み空間を活用することである。 実際には、コントラッシブモデルにおける異なるモダリティに対する埋め込み空間の体系的な違いがあり、これらの違いが我々のアプローチにどのように影響するかを分析し、この懸念を軽減するための様々な戦略を研究する。 画像キャプション,視覚的包含,視覚的質問応答の3つのタスクに関するテキストトレーニングデータのみを用いたモデルを作成し,画像を用いた標準ベンチマークで評価する。 この種の転送は可能であり、画像でトレーニングされたモデルと比較して、パフォーマンスがわずかに低下するだけであることが分かりました。 また,画像データや言語データではなく,書籍やweb,あるいは言語モデルからのテキストデータを用いて学習した,さまざまなスタイリスティックな画像キャプションモデルも紹介した。

Many high-level skills that are required for computer vision tasks, such as parsing questions, comparing and contrasting semantics, and writing descriptions, are also required in other domains such as natural language processing. In this paper, we ask whether this makes it possible to learn those skills from text data and then use them to complete vision tasks without ever training on visual training data. Key to our approach is exploiting the joint embedding space of contrastively trained vision and language encoders. In practice, there can be systematic differences between embedding spaces for different modalities in contrastive models, and we analyze how these differences affect our approach and study a variety of strategies to mitigate this concern. We produce models using only text training data on three tasks: image captioning, visual entailment and visual question answering, and evaluate them on standard benchmarks using images. We find that this kind of transfer is possible and results in only a small drop in performance relative to models trained on images. We also showcase a variety of stylistic image captioning models that were trained using no image data and no human-curated language data, but instead text data from books, the web, or language models.
翻訳日:2022-11-18 16:37:13 公開日:2022-11-17
# DiffusionDet:オブジェクト検出のための拡散モデル

DiffusionDet: Diffusion Model for Object Detection ( http://arxiv.org/abs/2211.09788v1 )

ライセンス: Link先を確認
Shoufa Chen, Peize Sun, Yibing Song, Ping Luo(参考訳) ノイズボックスからオブジェクトボックスへの拡散プロセスとしてオブジェクト検出を定式化する新しいフレームワークであるDiffusionDetを提案する。 トレーニングステージでは、オブジェクトボックスが接地箱からランダムな分布に拡散し、モデルがこのノイズ処理を逆転することを学習する。 推論において、モデルはランダムに生成されたボックスの集合をプログレッシブな方法で出力に洗練する。 MS-COCO や LVIS など標準ベンチマークの広範な評価は、DiffusionDet が従来確立されていた検出器と比較して良好な性能を発揮することを示している。 我々の研究は2つの重要な発見をもたらす。 まず、ランダムボックスは、事前定義されたアンカーや学習クエリとは大きく異なるが、効果的なオブジェクト候補でもある。 第二に、代表的な知覚課題の一つである物体検出は、生成的な方法で解決できる。 私たちのコードはhttps://github.com/shoufachen/diffusiondetで入手できます。

We propose DiffusionDet, a new framework that formulates object detection as a denoising diffusion process from noisy boxes to object boxes. During training stage, object boxes diffuse from ground-truth boxes to random distribution, and the model learns to reverse this noising process. In inference, the model refines a set of randomly generated boxes to the output results in a progressive way. The extensive evaluations on the standard benchmarks, including MS-COCO and LVIS, show that DiffusionDet achieves favorable performance compared to previous well-established detectors. Our work brings two important findings in object detection. First, random boxes, although drastically different from pre-defined anchors or learned queries, are also effective object candidates. Second, object detection, one of the representative perception tasks, can be solved by a generative way. Our code is available at https://github.com/ShoufaChen/DiffusionDet.
翻訳日:2022-11-18 16:36:53 公開日:2022-11-17
# motrv2: 事前学習された物体検出器によるエンドツーエンドのマルチオブジェクト追跡

MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors ( http://arxiv.org/abs/2211.09791v1 )

ライセンス: Link先を確認
Yuang Zhang, Tiancai Wang, Xiangyu Zhang(参考訳) 本稿では,事前学習された物体検出器を用いてエンドツーエンドのマルチオブジェクト追跡をブートストラップする,シンプルかつ効果的なパイプラインであるmotrv2を提案する。 motrやtrackformerといった既存のエンド・ツー・エンドの手法は、主に検出性能が低かったため、追跡・検出方式よりも劣っている。 我々は、追加の物体検出器をエレガントに組み込むことでMOTRを改善することを目指している。 まず、クエリのアンカー定式化を採用し、次に余分なオブジェクト検出器を使用してアンカーとして提案を生成し、MOTRに先立って検出する。 単純な修正により、MOTRにおける共同学習検出と関連タスクの衝突が大幅に緩和される。 MOTRv2はエンドツーエンドの機能を維持し、大規模ベンチマークでうまくスケールする。 MOTRv2はグループ・ダンス・チャレンジで1位(ダンストラックの73.4%HOTA)にランクインした。 さらに、MOTRv2はBDD100Kデータセット上で最先端のパフォーマンスを達成する。 このシンプルで効果的なパイプラインが、エンドツーエンドのMOTコミュニティに新たな洞察を与えてくれることを願っています。 コードは \url{https://github.com/megvii-research/motrv2} で入手できる。

In this paper, we propose MOTRv2, a simple yet effective pipeline to bootstrap end-to-end multi-object tracking with a pretrained object detector. Existing end-to-end methods, e.g. MOTR and TrackFormer, are inferior to their tracking-by-detection counterparts mainly due to their poor detection performance. We aim to improve MOTR by elegantly incorporating an extra object detector. We first adopt the anchor formulation of queries and then use an extra object detector to generate proposals as anchors, providing detection prior to MOTR. The simple modification greatly eases the conflict between joint learning detection and association tasks in MOTR. MOTRv2 keeps the end-to-end feature and scales well on large-scale benchmarks. MOTRv2 ranks the 1st place (73.4% HOTA on DanceTrack) in the 1st Multiple People Tracking in Group Dance Challenge. Moreover, MOTRv2 achieves state-of-the-art performance on BDD100K dataset. We hope this simple and effective pipeline can provide some new insights to the end-to-end MOT community. Code is available at \url{https://github.com/megvii-research/MOTRv2}.
翻訳日:2022-11-18 16:36:36 公開日:2022-11-17
# 誘導拡散モデルを用いた実画像編集のためのヌルテキストインバージョン

Null-text Inversion for Editing Real Images using Guided Diffusion Models ( http://arxiv.org/abs/2211.09794v1 )

ライセンス: Link先を確認
Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, Daniel Cohen-Or(参考訳) 最近のテキスト誘導拡散モデルは強力な画像生成機能を提供する。 現在、直感的で汎用的な編集を提供する手段としてのみ、テキストによる画像の修正を可能にするために、膨大な努力が払われている。 これらの最先端ツールを使って実際の画像を編集するには、事前に訓練されたモデルのドメインに意味のあるテキストプロンプトで画像を反転させなければならない。 本稿では,正確な逆変換手法を導入し,画像の直感的なテキストベースの修正を容易にする。 提案するインバージョンは,2つの新しいキーコンポーネントから構成される。 (i)拡散モデルに対するPivotalインバージョン。 現在の手法では、ランダムノイズサンプルを単一の入力画像にマッピングすることを目指しているが、各タイムスタンプに対して単一の重要なノイズベクトルを使用し、その周りを最適化する。 直接反転はそれ自体では不十分であるが、最適化に十分なアンカーを提供することを示す。 (ii) null-text optimization では、入力テキストの埋め込みではなく、分類子なしのガイダンスに使われる無条件のテキスト埋め込みのみを変更する。 これにより、モデルの重みと条件埋め込みの両方をそのままに保ち、モデルの重みの面倒なチューニングを回避しながら、プロンプトベースの編集を適用することができる。 我々のnullテキストインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像とプロンプト編集で広範囲に評価され、実画像の忠実度の高い編集を示す。

Recent text-guided diffusion models provide powerful image generation capabilities. Currently, a massive effort is given to enable the modification of these images using text only as means to offer intuitive and versatile editing. To edit a real image using these state-of-the-art tools, one must first invert the image with a meaningful text prompt into the pretrained model's domain. In this paper, we introduce an accurate inversion technique and thus facilitate an intuitive text-based modification of the image. Our proposed inversion consists of two novel key components: (i) Pivotal inversion for diffusion models. While current methods aim at mapping random noise samples to a single input image, we use a single pivotal noise vector for each timestamp and optimize around it. We demonstrate that a direct inversion is inadequate on its own, but does provide a good anchor for our optimization. (ii) NULL-text optimization, where we only modify the unconditional textual embedding that is used for classifier-free guidance, rather than the input text embedding. This allows for keeping both the model weights and the conditional embedding intact and hence enables applying prompt-based editing while avoiding the cumbersome tuning of the model's weights. Our Null-text inversion, based on the publicly available Stable Diffusion model, is extensively evaluated on a variety of images and prompt editing, showing high-fidelity editing of real images.
翻訳日:2022-11-18 16:36:21 公開日:2022-11-17
# ビデオキャプションのためのビジュアルコモンセンス対応表現ネットワーク

Visual Commonsense-aware Representation Network for Video Captioning ( http://arxiv.org/abs/2211.09469v1 )

ライセンス: Link先を確認
Pengpeng Zeng, Haonan Zhang, Lianli Gao, Xiangpeng Li, Jin Qian, Heng Tao Shen(参考訳) ビデオの連続的な記述、すなわちビデオキャプションを生成するには、生成プロセスと共に視覚的表現を最大限に活用する必要がある。 既存のビデオキャプション手法は、空間-時間表現とその関係を探索して推論を作成することに焦点を当てている。 しかし、そのような手法は、ビデオデータセットに存在する内在的な視覚常識知識を考慮せずに、ビデオ自体に含まれる表面的関連のみを活用し、正確な説明を推論する知識認知能力を妨げる可能性がある。 この問題に対処するために,ビデオキャプションのためのVisual Commonsense-aware Representation Network (VCRN) という,シンプルで効果的な手法を提案する。 具体的には,全データから全動画機能を,追加のアノテーションを伴わずに複数のクラスタ化センタにクラスタリングした,プラグイン・アンド・プレイコンポーネントであるビデオ辞書を構築する。 各中心はビデオ領域における視覚的コモンセンスの概念を暗黙的に表現し,提案した視覚概念選択(VCS)を用いて映像関連概念機能を得る。 次に、キャプション生成を強化するために概念統合生成(CIG)を提案する。 MSVD, MSR-VTT, VATEXの3つの公開ビデオキャプションベンチマークによる大規模な実験により, 提案手法が最先端の性能に達することを示すとともに, 本手法の有効性を示した。 また,本手法は既存の映像質問応答手法に統合され,その性能を向上し,より一般化した手法である。 ソースコードはhttps://github.com/zchoi/VCRNで公開されている。

Generating consecutive descriptions for videos, i.e., Video Captioning, requires taking full advantage of visual representation along with the generation process. Existing video captioning methods focus on making an exploration of spatial-temporal representations and their relationships to produce inferences. However, such methods only exploit the superficial association contained in the video itself without considering the intrinsic visual commonsense knowledge that existed in a video dataset, which may hinder their capabilities of knowledge cognitive to reason accurate descriptions. To address this problem, we propose a simple yet effective method, called Visual Commonsense-aware Representation Network (VCRN), for video captioning. Specifically, we construct a Video Dictionary, a plug-and-play component, obtained by clustering all video features from the total dataset into multiple clustered centers without additional annotation. Each center implicitly represents a visual commonsense concept in the video domain, which is utilized in our proposed Visual Concept Selection (VCS) to obtain a video-related concept feature. Next, a Conceptual Integration Generation (CIG) is proposed to enhance the caption generation. Extensive experiments on three publicly video captioning benchmarks: MSVD, MSR-VTT, and VATEX, demonstrate that our method reaches state-of-the-art performance, indicating the effectiveness of our method. In addition, our approach is integrated into the existing method of video question answering and improves this performance, further showing the generalization of our method. Source code has been released at https://github.com/zchoi/VCRN.
翻訳日:2022-11-18 16:30:57 公開日:2022-11-17
# ArcAid:図面を用いた考古学的遺物の分析

ArcAid: Analysis of Archaeological Artifacts using Drawings ( http://arxiv.org/abs/2211.09480v1 )

ライセンス: Link先を確認
Offry Hayon, Stefan M\"unger, Ilan Shimshoni, Ayellet Tal(参考訳) 考古学はコンピュータビジョンの興味深い分野である。 ラベル付き)データの不足だけでなく、高度に乱雑なデータにも苦しんでいます。 本稿では,考古学的遺物の画像の分類と検索のための新しい半教師付きモデルを提案する。 このモデルはドメイン内に存在するユニークなデータ -- 特殊アーティストによる手作業による図面 -- を使用して、トレーニング中にドメイン知識を図面から対応する画像に暗黙的に転送し、その分類結果を改善するために使用される。 分類の仕方を学習しながら、このモデルは、現在手作業で行われている重要なドキュメントタスクであるアーティファクトの図面を生成する方法も学んでいます。 最後に、我々は南レバントのスタンプシールの新しいデータセットを収集しました。

Archaeology is an intriguing domain for computer vision. It suffers not only from shortage in (labeled) data, but also from highly-challenging data, which is often extremely abraded and damaged. This paper proposes a novel semi-supervised model for classification and retrieval of images of archaeological artifacts. This model utilizes unique data that exists in the domain -- manual drawings made by special artists.These are used during training to implicitly transfer the domain knowledge from the drawings to their corresponding images, improving their classification results. We show that while learning how to classify, our model also learns how to generate drawings of the artifacts, an important documentation task, which is currently performed manually. Last but not least, we collected a new dataset of stamp-seals of the Southern Levant.
翻訳日:2022-11-18 16:30:30 公開日:2022-11-17
# EPCS:低品質点雲に対するエンドポイントベース部分認識曲線スケルトン抽出

EPCS: Endpoint-based Part-aware Curve Skeleton Extraction for Low-quality Point Clouds ( http://arxiv.org/abs/2211.09488v1 )

ライセンス: Link先を確認
Chunhui Li and Mingquan Zhou and Zehua Liu and Yuhe Zhang(参考訳) 曲線スケルトンは重要な形状記述子であり、コンピュータグラフィックス、マシンビジョン、人工知能の様々な応用に利用されてきた。 本研究では,低品質点雲に対する終端型部分認識曲線スケルトン(EPCS)抽出法を提案する。 新たなランダム中心シフト法 (RCS) が最初に提案され, 点雲上の終点を検出する。 エンドポイントは、各部分をレイヤに分割するための初期シードポイントとして使用され、その後、各レイヤの向き付けられたバウンディングボックス(obb)の中心ポイントを演算して骨格ポイントを得る。 その後、骨格点が連結され、枝を形成する。 さらに,枝を接続する接合点の位置を求めるために,多ベクトル運動量駆動法 (MVMD) も提案されている。 点雲上の異なる部分の形状の違いにより, 余分な接合点を除去し, 提案したMVMD法を用いて分岐を再接続し, 分割演算子に基づく補間法を適用することにより, 骨格のグローバルトポロジを最終的に最適化する。 その結果、完全で滑らかな曲線骨格が達成される。 提案法を最先端法と比較し, そのロバスト性, 有効性, 効率性を実験的に検証した。 さらに,壊れたTerracottaの点群におけるスケルトン抽出とモデルセグメンテーションの結果は,提案手法の有用性も強調している。

The curve skeleton is an important shape descriptor that has been utilized in various applications in computer graphics, machine vision, and artificial intelligence. In this study, the endpoint-based part-aware curve skeleton (EPCS) extraction method for low-quality point clouds is proposed. The novel random center shift (RCS) method is first proposed for detecting the endpoints on point clouds. The endpoints are used as the initial seed points for dividing each part into layers, and then the skeletal points are obtained by computing the center points of the oriented bounding box (OBB) of the layers. Subsequently, the skeletal points are connected, thus forming the branches. Furthermore, the multi-vector momentum-driven (MVMD) method is also proposed for locating the junction points that connect the branches. Due to the shape differences between different parts on point clouds, the global topology of the skeleton is finally optimized by removing the redundant junction points, re-connecting some branches using the proposed MVMD method, and applying an interpolation method based on the splitting operator. Consequently, a complete and smooth curve skeleton is achieved. The proposed EPCS method is compared with several state-of-the-art methods, and the experimental results verify its robustness, effectiveness, and efficiency. Furthermore, the skeleton extraction and model segmentation results on the point clouds of broken Terracotta also highlight the utility of the proposed method.
翻訳日:2022-11-18 16:30:17 公開日:2022-11-17
# ImLiDAR:3Dオブジェクト検出のためのクロスセンサ動的メッセージ伝搬ネットワーク

ImLiDAR: Cross-Sensor Dynamic Message Propagation Network for 3D Object Detection ( http://arxiv.org/abs/2211.09518v1 )

ライセンス: Link先を確認
Yiyang Shen, Rongwei Yu, Peng Wu, Haoran Xie, Lina Gong, Jing Qin, and Mingqiang Wei(参考訳) LiDARとカメラは2つの異なるセンサーとして、3Dシーンの幾何学的(点雲)と意味的(RGB画像)情報を提供する。 しかし、既存の2つのクロスセンサーからのデータを融合することは依然として困難であり、高品質な3Dオブジェクト検出(3OD)を補完する。 我々は,カメラ画像とLiDAR点雲のマルチスケール特徴を段階的に融合させることにより,センサ間差を狭める新しい3ODパラダイムであるImLiDARを提案する。 ImLiDARは、クロスセンサーで堅牢に融合した機能を備えた検出ヘッドを提供することができる。 このため、ImLiDARには2つのコア設計が存在する。 まず,マルチスケール画像とポイント特徴の最良の組み合わせを目的としたクロスセンサ動的メッセージ伝搬モジュールを提案する。 第2に, 効果的なセットベース検出器の設計により, 分類と局所化の信頼性の不一致や, ハンドチューニングハイパーパラメータの感度に対処できる, 直接セット予測問題を提案する。 さらに、この新しいセットベースの検出器は脱着可能であり、様々な検出ネットワークに容易に統合できる。 KITTIとSUN-RGBDのデータセットの比較では、23の最先端3OD法よりも、ImLiDARの視覚的および数値的改善が明らかになっている。

LiDAR and camera, as two different sensors, supply geometric (point clouds) and semantic (RGB images) information of 3D scenes. However, it is still challenging for existing methods to fuse data from the two cross sensors, making them complementary for quality 3D object detection (3OD). We propose ImLiDAR, a new 3OD paradigm to narrow the cross-sensor discrepancies by progressively fusing the multi-scale features of camera Images and LiDAR point clouds. ImLiDAR enables to provide the detection head with cross-sensor yet robustly fused features. To achieve this, two core designs exist in ImLiDAR. First, we propose a cross-sensor dynamic message propagation module to combine the best of the multi-scale image and point features. Second, we raise a direct set prediction problem that allows designing an effective set-based detector to tackle the inconsistency of the classification and localization confidences, and the sensitivity of hand-tuned hyperparameters. Besides, the novel set-based detector can be detachable and easily integrated into various detection networks. Comparisons on both the KITTI and SUN-RGBD datasets show clear visual and numerical improvements of our ImLiDAR over twenty-three state-of-the-art 3OD methods.
翻訳日:2022-11-18 16:29:56 公開日:2022-11-17
# InternVideo-Ego4D:Ego4Dに挑戦するチャンピオンソリューション

InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges ( http://arxiv.org/abs/2211.09529v1 )

ライセンス: Link先を確認
Guo Chen, Sen Xing, Zhe Chen, Yi Wang, Kunchang Li, Yizhuo Li, Yi Liu, Jiahao Wang, Yin-Dong Zheng, Bingkun Huang, Zhiyu Zhao, Junting Pan, Yifei Huang, Zun Wang, Jiashuo Yu, Yinan He, Hongjie Zhang, Tong Lu, Yali Wang, Limin Wang, Yu Qiao(参考訳) 本稿では,Ego4D Challengeの5トラックに対して,チャンピオンソリューションを提案する。 我々は,ビデオファウンデーションモデルであるinternvideoを,モーメントクエリ,自然言語クエリ,将来の手予測,状態変化オブジェクト検出,短期オブジェクトインタラクション予測を含む5つのego4dタスクに活用した。 InternVideo-Ego4Dは、シンプルなヘッドデザインで下流のエゴ中心のビデオ理解タスクに強力な基礎モデルを適用するための効果的なパラダイムである。 これらの5つのタスクにおいて、InternVideo-Ego4DのパフォーマンスはCVPR2022のベースラインメソッドとチャンピオンを網羅的に上回り、ビデオ基盤モデルとしてのInternVideoの強力な表現能力を実証している。 私たちのコードはhttps://github.com/OpenGVLab/ego4d-eccv2022-solutionsでリリースされます。

In this report, we present our champion solutions to five tracks at Ego4D challenge. We leverage our developed InternVideo, a video foundation model, for five Ego4D tasks, including Moment Queries, Natural Language Queries, Future Hand Prediction, State Change Object Detection, and Short-term Object Interaction Anticipation. InternVideo-Ego4D is an effective paradigm to adapt the strong foundation model to the downstream ego-centric video understanding tasks with simple head designs. In these five tasks, the performance of InternVideo-Ego4D comprehensively surpasses the baseline methods and the champions of CVPR2022, demonstrating the powerful representation ability of InternVideo as a video foundation model. Our code will be released at https://github.com/OpenGVLab/ego4d-eccv2022-solutions
翻訳日:2022-11-18 16:29:37 公開日:2022-11-17
# UniFormerV2:ビデオUniFormerによる画像ViTの固定による時空間学習

UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer ( http://arxiv.org/abs/2211.09552v1 )

ライセンス: Link先を確認
Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Limin Wang, Yu Qiao(参考訳) 識別的時空間表現の学習はビデオ理解の重要な問題である。 近年、ビジョントランスフォーマー (ViT) は、長期ビデオ依存を自己注意で学習する能力を示している。 残念ながら、トークン間の盲目なグローバル比較のため、ローカルなビデオ冗長性に取り組むのに制限がある。 UniFormerは、コンボリューションと自己アテンションをトランスフォーマーフォーマットのリレーションアグリゲータとして統一することで、この問題を緩和した。 しかし、このモデルは、ビデオで微調整される前に、面倒で複雑なイメージプリトレーニングフレーズが必要となる。 これは実際に広く使われることを妨げている。 それとは対照的に、オープンソースのViTは容易に利用でき、リッチなイメージ監視で十分に調整されている。 これらの観測結果に基づいて,UniFormer の設計により事前学習した ViT を固定することで,ビデオネットワークの強力なファミリーを構築するための汎用パラダイムを提案する。 UniFormerブロックの簡潔なスタイルを継承するため、私たちはこのファミリーをUniFormerV2と呼びます。 しかし、新しいローカルおよびグローバルリレーションアグリゲータが含まれており、vitsとuniformerの両方の利点をシームレスに統合することで、精度と計算のバランスが望ましい。 私たちのUniFormerV2は、シーン関連Kineetics-400/600/700やMoments in Time、時間関連Something V1/V2、untrimmed ActivityNet、HACSといった8つの人気ビデオベンチマークで、最先端の認識性能を享受しています。 特に、我々の最善の知識であるkinetics-400において90%のtop-1精度を達成した最初のモデルである。 コードはhttps://github.com/OpenGVLab/UniFormerV2で入手できる。

Learning discriminative spatiotemporal representation is the key problem of video understanding. Recently, Vision Transformers (ViTs) have shown their power in learning long-term video dependency with self-attention. Unfortunately, they exhibit limitations in tackling local video redundancy, due to the blind global comparison among tokens. UniFormer has successfully alleviated this issue, by unifying convolution and self-attention as a relation aggregator in the transformer format. However, this model has to require a tiresome and complicated image-pretraining phrase, before being finetuned on videos. This blocks its wide usage in practice. On the contrary, open-sourced ViTs are readily available and well-pretrained with rich image supervision. Based on these observations, we propose a generic paradigm to build a powerful family of video networks, by arming the pretrained ViTs with efficient UniFormer designs. We call this family UniFormerV2, since it inherits the concise style of the UniFormer block. But it contains brand-new local and global relation aggregators, which allow for preferable accuracy-computation balance by seamlessly integrating advantages from both ViTs and UniFormer. Without any bells and whistles, our UniFormerV2 gets the state-of-the-art recognition performance on 8 popular video benchmarks, including scene-related Kinetics-400/600/700 and Moments in Time, temporal-related Something-Something V1/V2, untrimmed ActivityNet and HACS. In particular, it is the first model to achieve 90% top-1 accuracy on Kinetics-400, to our best knowledge. Code will be available at https://github.com/OpenGVLab/UniFormerV2.
翻訳日:2022-11-18 16:29:22 公開日:2022-11-17
# Ego4D Moment Queries Challenge 2022へのReLER@ZJUの提出

ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 ( http://arxiv.org/abs/2211.09558v1 )

ライセンス: Link先を確認
Jiayi Shao and Xiaohan Wang and Yi Yang(参考訳) 本稿では,ECCV 2022におけるEgo4D Moment Queries ChallengeへのReLER@ZJU1の提出について述べる。 このタスクでは、エゴセントリックビデオで可能なアクティビティのすべてのインスタンスを検索し、ローカライズすることが目標です。 ego4dデータセットは、ビデオの時間的持続時間がかなり長く、各ビデオがきめ細かいアクションクラスを持つ複数のアクションインスタンスを含んでいるため、時間的アクションローカライズタスクに挑戦する。 これらの問題に対処するために,マルチスケールトランスフォーマを使用して異なるアクションカテゴリを分類し,各インスタンスの境界を予測する。 さらに,長いビデオの時間的依存性をよりよく捉えるために,セグメントレベルの再帰機構を提案する。 提案するセグメントレベルの再帰機構は,全ての映像特徴をトランスフォーマエンコーダに直接供給することに比べ,最適化の難しさを軽減し,良好な性能を実現する。 Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。

In this report, we present the ReLER@ZJU1 submission to the Ego4D Moment Queries Challenge in ECCV 2022. In this task, the goal is to retrieve and localize all instances of possible activities in egocentric videos. Ego4D dataset is challenging for the temporal action localization task as the temporal duration of the videos is quite long and each video contains multiple action instances with fine-grained action classes. To address these problems, we utilize a multi-scale transformer to classify different action categories and predict the boundary of each instance. Moreover, in order to better capture the long-term temporal dependencies in the long videos, we propose a segment-level recurrence mechanism. Compared with directly feeding all video features to the transformer encoder, the proposed segment-level recurrence mechanism alleviates the optimization difficulties and achieves better performance. The final submission achieved Recall@1,tIoU=0.5 score of 37.24, average mAP score of 17.67 and took 3-rd place on the leaderboard.
翻訳日:2022-11-18 16:28:51 公開日:2022-11-17
# スケルトンベース動作認識のためのハイパーグラフトランスフォーマ

Hypergraph Transformer for Skeleton-based Action Recognition ( http://arxiv.org/abs/2211.09590v1 )

ライセンス: Link先を確認
Yuxuan Zhou, Chao Li, Zhi-Qi Cheng, Yifeng Geng, Xuansong Xie, Margret Keuper(参考訳) スケルトンに基づく行動認識は、骨格相互結合を伴う人間の関節座標によって人間の行動を予測することを目的としている。 このようなオフグリッドデータポイントとその共起をモデル化するには、トランスフォーマーベースの定式化が自然な選択となるだろう。 しかし、トランスフォーマーはグラフ畳み込みネットワーク(GCN)を用いた最先端の手法をまだ遅れている。 トランスフォーマーは入力が置換不変で均質(位置符号化によって部分的に緩和される)であると仮定し、骨格データ、すなわち骨接続の重要な特性を無視している。 さらに、身体関節の各タイプは、人間の運動において明確な物理的意味を持ち、すなわち、運動は、トランスフォーマーでは研究されていない関節座標に関係なく内在的な関係を保っている。 実際には、身体関節の特定の再帰グループは、バランスを保つための意識下手の動きなど、特定の行動に関与していることが多い。 バニラの注意は、永続的でペアワイド以上の基礎的な関係を記述することができない。 本研究では,トランスフォーマーとGCNのパフォーマンスギャップを埋めるために,これらのスケルトンデータのユニークな側面を活用することを目的とする。 具体的には,ハイパーグラフ自己注意(Hypergraph Self-Attention, HyperSA)と呼ばれる新たな自己注意拡張を提案する。 Kホップの相対的な位置埋め込みも骨の接続性を考慮して用いられる。 NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAデータセット上の最先端のGCNアーキテクチャと比較すると, 同等あるいは優れた性能を実現することができる。 最大のNTU RGB+D 120データセットでは、Hyperformerが到達した大幅な性能向上が、この分野におけるTransformerモデルの過小評価可能性を示している。

Skeleton-based action recognition aims to predict human actions given human joint coordinates with skeletal interconnections. To model such off-grid data points and their co-occurrences, Transformer-based formulations would be a natural choice. However, Transformers still lag behind state-of-the-art methods using graph convolutional networks (GCNs). Transformers assume that the input is permutation-invariant and homogeneous (partially alleviated by positional encoding), which ignores an important characteristic of skeleton data, i.e., bone connectivity. Furthermore, each type of body joint has a clear physical meaning in human motion, i.e., motion retains an intrinsic relationship regardless of the joint coordinates, which is not explored in Transformers. In fact, certain re-occurring groups of body joints are often involved in specific actions, such as the subconscious hand movement for keeping balance. Vanilla attention is incapable of describing such underlying relations that are persistent and beyond pair-wise. In this work, we aim to exploit these unique aspects of skeleton data to close the performance gap between Transformers and GCNs. Specifically, we propose a new self-attention (SA) extension, named Hypergraph Self-Attention (HyperSA), to incorporate inherently higher-order relations into the model. The K-hop relative positional embeddings are also employed to take bone connectivity into account. We name the resulting model Hyperformer, and it achieves comparable or better performance w.r.t. accuracy and efficiency than state-of-the-art GCN architectures on NTU RGB+D, NTU RGB+D 120, and Northwestern-UCLA datasets. On the largest NTU RGB+D 120 dataset, the significantly improved performance reached by our Hyperformer demonstrates the underestimated potential of Transformer models in this field.
翻訳日:2022-11-18 16:28:32 公開日:2022-11-17
# NorMatch:半教師付き学習における正規化フローと識別型分類器とのマッチング

NorMatch: Matching Normalizing Flows with Discriminative Classifiers for Semi-Supervised Learning ( http://arxiv.org/abs/2211.09593v1 )

ライセンス: Link先を確認
Zhongying Deng, Rihuan Ke, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero(参考訳) Semi-Supervised Learning (SSL)は、小さなラベル付きセットと大量のラベルなしデータを使ってモデルを学習することを目的としている。 ラベルのないデータをうまく活用するために、最新のSSLメソッドでは、単一の識別分類器から予測される擬似ラベルを使用する。 しかし、生成した擬似ラベルは、モデルの性能に大きな影響を及ぼす固有の確証バイアスとノイズに必然的に関連付けられる。 この作業では、NorMatchというSSLの新しいフレームワークを紹介します。 まず, 正規化フローに基づく新たな不確実性推定手法を補助分類器として導入し, 判別分類器の強化をもたらす疑似ラベルを強要する。 第2に,高信頼性と低信頼性の疑似ラベルを両立させるためのしきい値のないサンプル重み付け手法を提案する。 さらに,教師なしの方法でラベルなしデータの分布をモデル化するために正規化フローを利用する。 このモデリング仮定は、ラベルのないデータによる生成的分類器の性能をさらに向上させ、より優れた識別的分類器の訓練に暗黙的に寄与する。 数値的および視覚的な結果を通じて、NorMatchが複数のデータセットで最先端のパフォーマンスを達成することを示す。

Semi-Supervised Learning (SSL) aims to learn a model using a tiny labeled set and massive amounts of unlabeled data. To better exploit the unlabeled data the latest SSL methods use pseudo-labels predicted from a single discriminative classifier. However, the generated pseudo-labels are inevitably linked to inherent confirmation bias and noise which greatly affects the model performance. In this work we introduce a new framework for SSL named NorMatch. Firstly, we introduce a new uncertainty estimation scheme based on normalizing flows, as an auxiliary classifier, to enforce highly certain pseudo-labels yielding a boost of the discriminative classifiers. Secondly, we introduce a threshold-free sample weighting strategy to exploit better both high and low confidence pseudo-labels. Furthermore, we utilize normalizing flows to model, in an unsupervised fashion, the distribution of unlabeled data. This modelling assumption can further improve the performance of generative classifiers via unlabeled data, and thus, implicitly contributing to training a better discriminative classifier. We demonstrate, through numerical and visual results, that NorMatch achieves state-of-the-art performance on several datasets.
翻訳日:2022-11-18 16:28:00 公開日:2022-11-17
# TrafficCAM: トラフィックフローセグメンテーションのためのVersatileデータセット

TrafficCAM: A Versatile Dataset for Traffic Flow Segmentation ( http://arxiv.org/abs/2211.09620v1 )

ライセンス: Link先を確認
Zhongying Deng, Yanqi Chen, Lihao Liu, Shujun Wang, Rihuan Ke, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero(参考訳) 交通フロー分析は交通管理に革命をもたらしている。 交通流のデータに基づいて、交通管制局はドライバーにリアルタイムの警告を与え、最速のルートを助言し、輸送の物流を最適化し、渋滞を減らすことができる。 既存のトラフィックフローデータセットには2つの大きな制限がある。 クラス数は限られており、通常は1種類の車両に制限されており、ラベルなしのデータも少ない。 本稿では,trafficcamと呼ばれる新しいベンチマークトラヒックフロー画像データセットを提案する。 我々のデータセットは2つの主要なハイライトによって区別される。 まずtrafficcamは、ピクセルレベルとインスタンスレベルのセマンティクスのラベル付けと、さまざまなタイプの車両と歩行者を提供する。 インドの8つの都市で静止カメラで撮影された、大規模で多様なビデオシーケンスで構成されている。 第2に、TrafficCAMは、完全に教師付きタスク、そして重要な半教師付き学習技術を開発するための新しいベンチマークを確立することを目指している。 これは、大量の非競合データを提供する最初のデータセットであり、低コストのアノテーション要件の下で、トラフィックフローの資格をよりよく取得するのに役立つ。 より正確には、データセットには4,402のイメージフレームがあり、セマンティクスとインスタンスアノテーションと59,944のラベルなしイメージフレームがあります。 我々は、新しいデータセットを、4つの異なる設定でいくつかの最先端のアプローチで大規模かつ包括的な実験を通して検証する: 完全に教師ありセマンティックとインスタンスセグメンテーション、半教師ありセマンティックとインスタンスセグメンテーションタスク。 ベンチマークデータセットはリリースされます。

Traffic flow analysis is revolutionising traffic management. Qualifying traffic flow data, traffic control bureaus could provide drivers with real-time alerts, advising the fastest routes and therefore optimising transportation logistics and reducing congestion. The existing traffic flow datasets have two major limitations. They feature a limited number of classes, usually limited to one type of vehicle, and the scarcity of unlabelled data. In this paper, we introduce a new benchmark traffic flow image dataset called TrafficCAM. Our dataset distinguishes itself by two major highlights. Firstly, TrafficCAM provides both pixel-level and instance-level semantic labelling along with a large range of types of vehicles and pedestrians. It is composed of a large and diverse set of video sequences recorded in streets from eight Indian cities with stationary cameras. Secondly, TrafficCAM aims to establish a new benchmark for developing fully-supervised tasks, and importantly, semi-supervised learning techniques. It is the first dataset that provides a vast amount of unlabelled data, helping to better capture traffic flow qualification under a low cost annotation requirement. More precisely, our dataset has 4,402 image frames with semantic and instance annotations along with 59,944 unlabelled image frames. We validate our new dataset through a large and comprehensive range of experiments on several state-of-the-art approaches under four different settings: fully-supervised semantic and instance segmentation, and semi-supervised semantic and instance segmentation tasks. Our benchmark dataset will be released.
翻訳日:2022-11-18 16:27:40 公開日:2022-11-17
# 言語支援深層学習モデルを用いた自閉症児の映像における問題行動認識

Problem Behaviors Recognition in Videos using Language-Assisted Deep Learning Model for Children with Autism ( http://arxiv.org/abs/2211.09310v1 )

ライセンス: Link先を確認
Andong Deng and Taojiannan Yang and Chen Chen and Qian Chen and Leslie Neely and Sakiko Oyama(参考訳) 自閉症スペクトラム障害(ASD)児の行動の正確な認識は,自閉症の診断や早期介入において極めて重要である。 しかし,自閉症児の親による治療中の観察と記録は正確で客観的なものではない。 このような場合、コンピュータビジョンと機械学習(特にディープラーニング)技術に基づく自動認識システムは、この問題を大幅に軽減することができる。 既存のヒューマンアクション認識モデルは、日々の活動やスポーツ活動など、挑戦的なアクティビティデータセットで説得力のあるパフォーマンスを実現することができる。 しかし,ASD児における問題行動はこれらの一般的な行動とは大きく異なり,コンピュータビジョンによる問題行動の認識は少ない。 本稿では,2つの自閉症行動データセット(ssbdおよびesbd)上での行動認識の強力なベースライン,すなわちビデオスウィントランスを評価し,従来の手法よりも高い精度を達成し,大きなマージンで先行手法に勝ることを示し,視覚に基づく問題行動認識の実現可能性を示す。 さらに,行動認識性能を高めるために,言語支援トレーニングを提案する。 具体的には,問題行動の各タイプに「フリーで利用可能な」言語記述を組み込んで,マルチモーダル深層学習フレームワークを開発した。 実験結果から,言語指導を付加することで,映像情報のみを使用する場合に比べて,自閉症問題行動認識タスクの性能が向上することが示唆された(ESBDは3.49%,SSBDは1.46%)。

Correctly recognizing the behaviors of children with Autism Spectrum Disorder (ASD) is of vital importance for the diagnosis of Autism and timely early intervention. However, the observation and recording during the treatment from the parents of autistic children may not be accurate and objective. In such cases, automatic recognition systems based on computer vision and machine learning (in particular deep learning) technology can alleviate this issue to a large extent. Existing human action recognition models can now achieve persuasive performance on challenging activity datasets, e.g. daily activity, and sports activity. However, problem behaviors in children with ASD are very different from these general activities, and recognizing these problem behaviors via computer vision is less studied. In this paper, we first evaluate a strong baseline for action recognition, i.e. Video Swin Transformer, on two autism behaviors datasets (SSBD and ESBD) and show that it can achieve high accuracy and outperform the previous methods by a large margin, demonstrating the feasibility of vision-based problem behaviors recognition. Moreover, we propose language-assisted training to further enhance the action recognition performance. Specifically, we develop a two-branch multimodal deep learning framework by incorporating the "freely available" language description for each type of problem behavior. Experimental results demonstrate that incorporating additional language supervision can bring an obvious performance boost for the autism problem behaviors recognition task as compared to using the video information only (i.e. 3.49% improvement on ESBD and 1.46% on SSBD).
翻訳日:2022-11-18 16:22:18 公開日:2022-11-17
# 汎用・ゼロショット学習のための目標注意

Targeted Attention for Generalized- and Zero-Shot Learning ( http://arxiv.org/abs/2211.09322v1 )

ライセンス: Link先を確認
Abhijit Suprem(参考訳) Zero-Shot Learning (ZSL)タスクはラベル付きデータなしで概念を学習しようとする。 従来の分類・検出タスクとは異なり、評価環境はトレーニング中に遭遇したことのないクラスを提供する。 そのため、教師なしの概念学習、ドメイン適応、データセットドリフト検出など、さまざまな面での挑戦と期待の両方が続けられている。 近年、ZSL の解法には、計量学習法の改善、伝達学習、単語ベクトルを用いた意味領域と画像領域の組み合わせ、未知のクラスを分類するための既知のクラスの潜在空間をモデル化するための生成モデルなど、様々なアプローチがある。 多くのアプローチでは、一般的には利用できない属性や特徴(属性ベース学習)や、敵対的攻撃(生成学習)の影響を受けやすいような、集中的なトレーニング強化が必要である。 本稿では,ZSL の関連人物再識別タスクからのアプローチと,ZSL 設定における性能を,特徴量やトレーニングデータセットの強化を必要とせずに十分に向上させるキー修正を組み合わせることを提案する。 CUB200では63.27、CUB200では61.04のNMI 66.03、Cars196では82.75%のNMI 66.03を用いて、ZSL設定のCUB200とCars196の最先端性能を実現している。 また,CUB200データセット上での高調波平均R-1の66.14%の一般ゼロショット学習(GZSL)設定において,最先端の結果を示す。

The Zero-Shot Learning (ZSL) task attempts to learn concepts without any labeled data. Unlike traditional classification/detection tasks, the evaluation environment is provided unseen classes never encountered during training. As such, it remains both challenging, and promising on a variety of fronts, including unsupervised concept learning, domain adaptation, and dataset drift detection. Recently, there have been a variety of approaches towards solving ZSL, including improved metric learning methods, transfer learning, combinations of semantic and image domains using, e.g. word vectors, and generative models to model the latent space of known classes to classify unseen classes. We find many approaches require intensive training augmentation with attributes or features that may be commonly unavailable (attribute-based learning) or susceptible to adversarial attacks (generative learning). We propose combining approaches from the related person re-identification task for ZSL, with key modifications to ensure sufficiently improved performance in the ZSL setting without the need for feature or training dataset augmentation. We are able to achieve state-of-the-art performance on the CUB200 and Cars196 datasets in the ZSL setting compared to recent works, with NMI (normalized mutual inference) of 63.27 and top-1 of 61.04 for CUB200, and NMI 66.03 with top-1 82.75% in Cars196. We also show state-of-the-art results in the Generalized Zero-Shot Learning (GZSL) setting, with Harmonic Mean R-1 of 66.14% on the CUB200 dataset.
翻訳日:2022-11-18 16:21:50 公開日:2022-11-17
# 熱可視顔認識のための学習領域とポーズ不変性

Learning Domain and Pose Invariance for Thermal-to-Visible Face Recognition ( http://arxiv.org/abs/2211.09350v1 )

ライセンス: Link先を確認
Cedric Nimpa Fondje and Shuowen Hu and Benjamin S. Riggan(参考訳) 熱から目に見える顔認識への関心は、熱赤外カメラの進歩と可視スペクトルを超えた分析により、過去10年間で大きく伸びている。 熱スペクトルと可視スペクトルの間に大きな相違があるにもかかわらず、既存のアプローチは、熱面から可視面を合成するか、あるいはクロススペクトル画像表現を学習することによってドメインギャップを埋める。 これらのアプローチは、通常、様々な範囲や表現で収集された正面の顔画像とうまく機能するが、正面の目に見える顔に異なるポーズを合わせると、著しく性能が低下する。 本稿では,ドメインを同時に学習し,不変表現を提示する新しいドメイン不変フレームワークを提案する。 提案フレームワークは, 外部熱・正面視像から最も相関の深い中間表現を抽出するネットワークと, 部分ネットワークで領域をブリッジし, ギャップを埋めるネットワークと, クロススペクトルとポーズ補正の損失からなる結合損失関数から構成される。 提案手法の有効性と利点を,ARL Visible-to-Thermal Face,ARL Multimodal Face,Tufts Faceの3つの熱可視データセットを用いて評価した。 DPIFは,前頭部のサーマルフェース画像と前頭部のサーマルフェース画像とをマッチングする際に,DPIFが性能を向上させることも示している。

Interest in thermal to visible face recognition has grown significantly over the last decade due to advancements in thermal infrared cameras and analytics beyond the visible spectrum. Despite large discrepancies between thermal and visible spectra, existing approaches bridge domain gaps by either synthesizing visible faces from thermal faces or by learning the cross-spectrum image representations. These approaches typically work well with frontal facial imagery collected at varying ranges and expressions, but exhibit significantly reduced performance when matching thermal faces with varying poses to frontal visible faces. We propose a novel Domain and Pose Invariant Framework that simultaneously learns domain and pose invariant representations. Our proposed framework is composed of modified networks for extracting the most correlated intermediate representations from off-pose thermal and frontal visible face imagery, a sub-network to jointly bridge domain and pose gaps, and a joint-loss function comprised of cross-spectrum and pose-correction losses. We demonstrate efficacy and advantages of the proposed method by evaluating on three thermal-visible datasets: ARL Visible-to-Thermal Face, ARL Multimodal Face, and Tufts Face. Although DPIF focuses on learning to match off-pose thermal to frontal visible faces, we also show that DPIF enhances performance when matching frontal thermal face images to frontal visible face images.
翻訳日:2022-11-18 16:21:22 公開日:2022-11-17
# 位相ベース動作解析による一般化可能なディープフェイク検出

Generalizable Deepfake Detection with Phase-Based Motion Analysis ( http://arxiv.org/abs/2211.09363v1 )

ライセンス: Link先を確認
Ekta Prashnani, Michael Goebel, B. S. Manjunath(参考訳) 顔の時間的ダイナミクスの位相に基づく動き表現を利用するDeepFake(DF)ビデオ検出法であるPhaseForensicsを提案する。 DF検出における時間的不整合に依存する既存の手法は、典型的なフレームベース手法よりも多くの利点がある。 しかし、それらは共通の歪みに対して限定的なクロスデータセットの一般化と堅牢性を示す。 これらの欠点は、部分的にはエラーを起こしやすい動きの推定とランドマーク追跡、あるいはピクセル強度に基づく特徴の空間歪みへの感受性とデータセット間のドメインシフトによるものである。 これらの問題を克服するための重要な洞察は、複雑なステアブルピラミッドのバンドパス成分の時間的位相変化を活用することである。 これにより、これらの領域の時間的ダイナミクスを堅牢に見積もることができるだけでなく、データセット間のばらつきも少なくなる。 さらに、局所的なフレーム単位の位相を計算するために用いられる帯域通過フィルタは、勾配に基づく敵攻撃でよく見られる摂動に対する効果的な防御となる。 全体として、PyseForensicsでは歪みと対向性の向上、最先端のクロスデータセットの一般化が示され、CelebDFv2(最近の最先端の86.9%)に挑戦するビデオレベルAUCは91.2%である。

We propose PhaseForensics, a DeepFake (DF) video detection method that leverages a phase-based motion representation of facial temporal dynamics. Existing methods relying on temporal inconsistencies for DF detection present many advantages over the typical frame-based methods. However, they still show limited cross-dataset generalization and robustness to common distortions. These shortcomings are partially due to error-prone motion estimation and landmark tracking, or the susceptibility of the pixel intensity-based features to spatial distortions and the cross-dataset domain shifts. Our key insight to overcome these issues is to leverage the temporal phase variations in the band-pass components of the Complex Steerable Pyramid on face sub-regions. This not only enables a robust estimate of the temporal dynamics in these regions, but is also less prone to cross-dataset variations. Furthermore, the band-pass filters used to compute the local per-frame phase form an effective defense against the perturbations commonly seen in gradient-based adversarial attacks. Overall, with PhaseForensics, we show improved distortion and adversarial robustness, and state-of-the-art cross-dataset generalization, with 91.2% video-level AUC on the challenging CelebDFv2 (a recent state-of-the-art compares at 86.9%).
翻訳日:2022-11-18 16:20:54 公開日:2022-11-17
# 3D-QueryIS: 3Dインスタンスセグメンテーションのためのクエリベースのフレームワーク

3D-QueryIS: A Query-based Framework for 3D Instance Segmentation ( http://arxiv.org/abs/2211.09375v1 )

ライセンス: Link先を確認
Jiaheng Liu, Tong He, Honghui Yang, Rui Su, Jiayi Tian, Junran Wu, Hongcheng Guo, Ke Xu, Wanli Ouyang(参考訳) 3Dインスタンスセグメンテーションの以前のトップパフォーマンスメソッドは、しばしばタスク間の依存関係と堅牢性の欠如の傾向を維持します。 さらに、必然的に異なるデータセットのバリエーションにより、これらの手法は特にハイパーパラメータ値に敏感になり、一般化能力の低下を示す。 本稿では,3d-queryisと呼ばれる,検出器フリー,セグメンテーションフリー,クラスタフリーの新たなクエリベース手法を提案することで,上記の課題を解決する。 具体的には,代表点を暗黙的に生成し,初期クエリと併用して情報的インスタンスクエリを生成することを提案する。 次に、インスタンスクエリと抽出されたポイントクラウド埋め込みの上にMDP層を単純に適用することで、クラスとバイナリインスタンスマスクの予測を生成することができる。 したがって、我々の3D-QueryISは、タスク間の依存関係による累積エラーから解放される。 複数のベンチマークデータセットに対する大規模な実験により,提案手法の有効性と有効性を示した。

Previous top-performing methods for 3D instance segmentation often maintain inter-task dependencies and the tendency towards a lack of robustness. Besides, inevitable variations of different datasets make these methods become particularly sensitive to hyper-parameter values and manifest poor generalization capability. In this paper, we address the aforementioned challenges by proposing a novel query-based method, termed as 3D-QueryIS, which is detector-free, semantic segmentation-free, and cluster-free. Specifically, we propose to generate representative points in an implicit manner, and use them together with the initial queries to generate the informative instance queries. Then, the class and binary instance mask predictions can be produced by simply applying MLP layers on top of the instance queries and the extracted point cloud embeddings. Thus, our 3D-QueryIS is free from the accumulated errors caused by the inter-task dependencies. Extensive experiments on multiple benchmark datasets demonstrate the effectiveness and efficiency of our proposed 3D-QueryIS method.
翻訳日:2022-11-18 16:20:33 公開日:2022-11-17
# BEVDistill:マルチビュー3Dオブジェクト検出のためのクロスモーダルBEV蒸留

BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection ( http://arxiv.org/abs/2211.09386v1 )

ライセンス: Link先を確認
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao(参考訳) 複数の画像ビューから3Dオブジェクトを検出することは、視覚的シーン理解の基本的な課題である。 低コストで高効率な3Dオブジェクト検出は、将来有望な応用可能性を示している。 しかし、深度情報がないため、視界ビューによる物体の正確な検出は極めて困難である。 現在のアプローチでは、イメージエンコーダに重いバックボーンを採用する傾向があり、実際のデプロイメントには適用できない。 画像と異なり、LiDARポイントは空間的手がかりを提供するのに優れている。 本稿では,多視点3Dオブジェクト検出のためのLiDARベースの検出器の導入について検討する。 深度予測ネットワークを直接訓練する代わりに,Bird-Eye-View(BEV)空間における画像とLiDAR機能を統一し,教師-学生パラダイムにおける非同種表現間で知識を適応的に伝達する。 そこで我々は,多視点3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留(KD)フレームワークである \textbf{BEVDistill} を提案する。 提案手法は, 提案手法が, 推定位相に余分なコストを伴わずに, 競合性の高いベースラインであるBEVFormerにおいて, 現行のKD手法よりも優れていることを示す。 特に、我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を実現している。 コードはhttps://github.com/zehuichen123/bevdistillで入手できる。

3D object detection from multiple image views is a fundamental and challenging task for visual scene understanding. Owing to its low cost and high efficiency, multi-view 3D object detection has demonstrated promising application prospects. However, accurately detecting objects through perspective views is extremely difficult due to the lack of depth information. Current approaches tend to adopt heavy backbones for image encoders, making them inapplicable for real-world deployment. Different from the images, LiDAR points are superior in providing spatial cues, resulting in highly precise localization. In this paper, we explore the incorporation of LiDAR-based detectors for multi-view 3D object detection. Instead of directly training a depth prediction network, we unify the image and LiDAR features in the Bird-Eye-View (BEV) space and adaptively transfer knowledge across non-homogenous representations in a teacher-student paradigm. To this end, we propose \textbf{BEVDistill}, a cross-modal BEV knowledge distillation (KD) framework for multi-view 3D object detection. Extensive experiments demonstrate that the proposed method outperforms current KD approaches on a highly-competitive baseline, BEVFormer, without introducing any extra cost in the inference phase. Notably, our best model achieves 59.4 NDS on the nuScenes test leaderboard, achieving new state-of-the-art in comparison with various image-based detectors. Code will be available at https://github.com/zehuichen123/BEVDistill.
翻訳日:2022-11-18 16:20:18 公開日:2022-11-17
# aiMotive Dataset:長距離知覚を用いたロバスト自動運転のためのマルチモーダルデータセット

aiMotive Dataset: A Multimodal Dataset for Robust Autonomous Driving with Long-Range Perception ( http://arxiv.org/abs/2211.09445v1 )

ライセンス: Link先を確認
Tam\'as Matuszka, Iv\'an Barton, \'Ad\'am Butykai, P\'eter Hajas, D\'avid Kiss, Domonkos Kov\'acs, S\'andor Kuns\'agi-M\'at\'e, P\'eter Lengyel, G\'abor N\'emeth, Levente Pet\H{o}, Dezs\H{o} Ribli, D\'avid Szeghy, Szabolcs Vajna, B\'alint Varga(参考訳) 自動運転はコンピュータビジョン研究コミュニティで人気のある研究分野である。 自動運転車は安全性が極めて重要であるため、現実の展開には堅牢性を保証することが不可欠である。 いくつかの公共のマルチモーダルデータセットはアクセス可能であるが、主に悪天候に適さない2つのセンサーモード(カメラ、LiDAR)で構成されている。 さらに、長距離アノテーションが欠如しているため、自動運転車の高速道路アシスタント機能の基盤となるニューラルネットワークのトレーニングが困難になる。 そこで本稿では,長距離認識による頑健な自律運転のためのマルチモーダルデータセットを提案する。 データセットは176のシーンで構成され、同期して校正されたLiDAR、カメラ、レーダーセンサーが360度視野をカバーする。 収集したデータは、昼間、夜間、雨季に高速道路、都市、郊外で撮影され、フレーム間に一貫した識別子を持つ3D境界ボックスで注釈付けされている。 さらに,3次元物体検出のためのユニモーダルベースラインモデルとマルチモーダルベースラインモデルを訓練した。 データは \url{https://github.com/aimotive/aimotive_dataset} で入手できる。

Autonomous driving is a popular research area within the computer vision research community. Since autonomous vehicles are highly safety-critical, ensuring robustness is essential for real-world deployment. While several public multimodal datasets are accessible, they mainly comprise two sensor modalities (camera, LiDAR) which are not well suited for adverse weather. In addition, they lack far-range annotations, making it harder to train neural networks that are the base of a highway assistant function of an autonomous vehicle. Therefore, we introduce a multimodal dataset for robust autonomous driving with long-range perception. The dataset consists of 176 scenes with synchronized and calibrated LiDAR, camera, and radar sensors covering a 360-degree field of view. The collected data was captured in highway, urban, and suburban areas during daytime, night, and rain and is annotated with 3D bounding boxes with consistent identifiers across frames. Furthermore, we trained unimodal and multimodal baseline models for 3D object detection. Data are available at \url{https://github.com/aimotive/aimotive_dataset}.
翻訳日:2022-11-18 16:19:54 公開日:2022-11-17
# 部分修正部分分割マスクによる肢とスキーの任意キーポイントの検出

Detecting Arbitrary Keypoints on Limbs and Skis with Sparse Partly Correct Segmentation Masks ( http://arxiv.org/abs/2211.09446v1 )

ライセンス: Link先を確認
Katja Ludwig, Daniel Kienzle, Julian Lorenz, Rainer Lienhart(参考訳) 身体姿勢に基づく分析は多くのスポーツ分野のトップクラスのアスリートにとって不可欠である。 手動アノテーションは非常にコストがかかるため、コーチは最も重要なキーポイントのみをラベル付けする。 本稿では,プロスキージャンプ選手の四肢とスキーの任意のキーポイントを検出する手法を提案する。 私たちのモデルはvision transformerアーキテクチャに基づいており、入力トークンが所望のキーポイントを問い合わせる特別な設計をしています。 選択可能なキーポイントに対して,セグメンテーションマスクのみを使用してグラウンド真理ラベルを生成するので,トレーニング手順には部分的に正しいセグメンテーションマスクが十分である。 したがって、高価な手書きのセグメンテーションマスクは不要である。 擬似ラベルを含む自由選択および標準キーポイントのための異なるトレーニング手法を解析し,手足やスキーの任意のキーポイントを検出するのに十分な部分的なセグメンテーションマスクがいくつか存在することを示す。

Analyses based on the body posture are crucial for top-class athletes in many sports disciplines. If at all, coaches label only the most important keypoints, since manual annotations are very costly. This paper proposes a method to detect arbitrary keypoints on the limbs and skis of professional ski jumpers that requires a few, only partly correct segmentation masks during training. Our model is based on the Vision Transformer architecture with a special design for the input tokens to query for the desired keypoints. Since we use segmentation masks only to generate ground truth labels for the freely selectable keypoints, partly correct segmentation masks are sufficient for our training procedure. Hence, there is no need for costly hand-annotated segmentation masks. We analyze different training techniques for freely selected and standard keypoints, including pseudo labels, and show in our experiments that only a few partly correct segmentation masks are sufficient for learning to detect arbitrary keypoints on limbs and skis.
翻訳日:2022-11-18 16:19:38 公開日:2022-11-17
# DeepPrivacy2: Realistic Full-Body Anonymizationを目指して

DeepPrivacy2: Towards Realistic Full-Body Anonymization ( http://arxiv.org/abs/2211.09454v1 )

ライセンス: Link先を確認
H{\aa}kon Hukkel{\aa}s, Frank Lindseth(参考訳) GAN(Generative Adversarial Networks)は、人物の匿名化に広く応用されている。 しかし、現在最先端の匿名化は、顔匿名化のタスクに限られている。 本稿では,人物と顔の現実的な匿名化のための新しい匿名化フレームワーク(DeepPrivacy2)を提案する。 人間の図形合成のための大規模で多様なデータセットを導入し、画像の画質と多様性を大幅に改善する。 さらに,高品質で多様性があり,編集可能な匿名化を実現するスタイルベースGANを提案する。 我々の全体匿名化フレームワークは、これまで提案された方法よりも強力なプライバシー保証を提供することを示した。

Generative Adversarial Networks (GANs) are widely adapted for anonymization of human figures. However, current state-of-the-art limit anonymization to the task of face anonymization. In this paper, we propose a novel anonymization framework (DeepPrivacy2) for realistic anonymization of human figures and faces. We introduce a new large and diverse dataset for human figure synthesis, which significantly improves image quality and diversity of generated images. Furthermore, we propose a style-based GAN that produces high quality, diverse and editable anonymizations. We demonstrate that our full-body anonymization framework provides stronger privacy guarantees than previously proposed methods.
翻訳日:2022-11-18 16:19:08 公開日:2022-11-17
# 終端画像キャプションのためのプログレッシブツリー構造化プロトタイプネットワーク

Progressive Tree-Structured Prototype Network for End-to-End Image Captioning ( http://arxiv.org/abs/2211.09460v1 )

ライセンス: Link先を確認
Pengpeng Zeng, Jinkuan Zhu, Jingkuan Song, Lianli Gao(参考訳) 画像キャプションの研究は、より柔軟なモデルトレーニングとより高速な推論速度のために、強力なビジュアル事前学習モデルとトランスフォーマーベースの生成アーキテクチャを活用することで、完全なエンドツーエンドパラダイムのトレンドにシフトしている。 最先端のアプローチは、単に独立した概念や属性を抽出して記述生成を支援する。 しかし、そのようなアプローチはテキスト領域における階層的意味構造を考慮せず、ビジュアル表現と概念語の間の予測不能なマッピングにつながる。 そこで本研究では,階層的テキスト意味論をモデル化することにより,予測語の範囲を適切な意味論で絞り込むための新しいプログレッシブツリー構造化プロトタイプネットワーク(PTSN)を提案する。 具体的には,木構造プロトタイプと呼ばれる新しい埋め込み手法を設計し,テキスト空間における階層的意味構造をキャプチャする階層的代表埋め込みのセットを作成する。 このような木構造型プロトタイプを視覚認知に活用するために,画像とプロトタイプのセマンティックな関係を利用するプログレッシブアグリゲーションモジュールを提案する。 PTSNをエンドツーエンドのキャプションフレームワークに適用することにより、MSCOCOデータセット上で行った広範な実験により、我々の手法は144.2%(シングルモデル)と146.5%(4モデルのアンサンブル)の新たな最先端性能を実現し、CIDErは「カルパシー」の分割、141.4%(c5)、143.9%(c40)のCIDErは公式オンラインテストサーバ上でのスコアを得た。 トレーニングされたモデルとソースコードは、https://github.com/NovaMind-Z/PTSNでリリースされた。

Studies of image captioning are shifting towards a trend of a fully end-to-end paradigm by leveraging powerful visual pre-trained models and transformer-based generation architecture for more flexible model training and faster inference speed. State-of-the-art approaches simply extract isolated concepts or attributes to assist description generation. However, such approaches do not consider the hierarchical semantic structure in the textual domain, which leads to an unpredictable mapping between visual representations and concept words. To this end, we propose a novel Progressive Tree-Structured prototype Network (dubbed PTSN), which is the first attempt to narrow down the scope of prediction words with appropriate semantics by modeling the hierarchical textual semantics. Specifically, we design a novel embedding method called tree-structured prototype, producing a set of hierarchical representative embeddings which capture the hierarchical semantic structure in textual space. To utilize such tree-structured prototypes into visual cognition, we also propose a progressive aggregation module to exploit semantic relationships within the image and prototypes. By applying our PTSN to the end-to-end captioning framework, extensive experiments conducted on MSCOCO dataset show that our method achieves a new state-of-the-art performance with 144.2% (single model) and 146.5% (ensemble of 4 models) CIDEr scores on `Karpathy' split and 141.4% (c5) and 143.9% (c40) CIDEr scores on the official online test server. Trained models and source code have been released at: https://github.com/NovaMind-Z/PTSN.
翻訳日:2022-11-18 16:18:57 公開日:2022-11-17
# 潜在階層型文書構造による抽象的要約

Abstractive Summarization Guided by Latent Hierarchical Document Structure ( http://arxiv.org/abs/2211.09458v1 )

ライセンス: Link先を確認
Yifu Qiu, Shay B. Cohen(参考訳) 逐次抽象的神経要約器は、入力記事の基盤構造や入力文間の依存関係を使わないことが多い。 この構造は、テキストの異なる部分からの情報の統合と統合に不可欠である。 この欠点に対処するために,階層認識型グラフニューラルネットワーク(hiergnn)を提案する。 1) 疎行列木計算で学習した潜在構造木を通して階層的文書構造を学習すること。 2 この構造上の文章情報を伝達する新規なメッセージ通過ノード伝搬機構により、有能な情報を識別する。 3)グラフレベルの注意を付けて,デコーダをサルエント情報に集中させる。 実験により、HierGNNはBARTのような強力なシーケンスモデルを改善し、CNN/DMとXSumの平均ROUGE-1/2/Lの0.55と0.75のマージンを持つことを確認した。 さらに,HierGNNが組み込まれているベースラインよりも,モデルが生成する要約の方が関連性が高く,冗長性が低いことを示す。 また、HierGNNは、単一のソース文を圧縮するのではなく、複数のソース文を融合させて要約を合成し、長い入力をより効率的に処理する。

Sequential abstractive neural summarizers often do not use the underlying structure in the input article or dependencies between the input sentences. This structure is essential to integrate and consolidate information from different parts of the text. To address this shortcoming, we propose a hierarchy-aware graph neural network (HierGNN) which captures such dependencies through three main steps: 1) learning a hierarchical document structure through a latent structure tree learned by a sparse matrix-tree computation; 2) propagating sentence information over this structure using a novel message-passing node propagation mechanism to identify salient information; 3) using graph-level attention to concentrate the decoder on salient information. Experiments confirm HierGNN improves strong sequence models such as BART, with a 0.55 and 0.75 margin in average ROUGE-1/2/L for CNN/DM and XSum. Further human evaluation demonstrates that summaries produced by our model are more relevant and less redundant than the baselines, into which HierGNN is incorporated. We also find HierGNN synthesizes summaries by fusing multiple source sentences more, rather than compressing a single source sentence, and that it processes long inputs more effectively.
翻訳日:2022-11-18 16:12:49 公開日:2022-11-17
# 変圧器推論のためのゼロショット動的量子化

Zero-Shot Dynamic Quantization for Transformer Inference ( http://arxiv.org/abs/2211.09744v1 )

ライセンス: Link先を確認
Yousef El-Kurdi, Jerry Quinn and Avirup Sil(参考訳) bert様モデルを8ビット整数に量子化する際の精度損失を著しく低減する新しい実行時間法を提案する。 モデルの定量化には、トレーニング手順を変更するか、選択された保持データセットを必要とするパラメータを調整するための追加のキャリブレーションステップが必要となる。 これらの調整を必要とせずに量子化を利用できる。 本手法の有用性を示すいくつかのNLPタスクについて報告する。

We introduce a novel run-time method for significantly reducing the accuracy loss associated with quantizing BERT-like models to 8-bit integers. Existing methods for quantizing models either modify the training procedure,or they require an additional calibration step to adjust parameters that also requires a selected held-out dataset. Our method permits taking advantage of quantization without the need for these adjustments. We present results on several NLP tasks demonstrating the usefulness of this technique.
翻訳日:2022-11-18 16:12:33 公開日:2022-11-17
# 動的トークンポーリングを用いた効率的な変圧器

Efficient Transformers with Dynamic Token Pooling ( http://arxiv.org/abs/2211.09761v1 )

ライセンス: Link先を確認
Piotr Nawrot, Jan Chorowski, Adrian {\L}a\'ncucki, Edoardo M. Ponti(参考訳) トランスフォーマーは、モデリング言語で非競合のパフォーマンスを達成するが、メモリと時間の複雑さの点で非効率である。 可能な修正は、トークンの固定長セグメントをプールすることで中間層のシーケンス長を削減することである。 それでも、言葉や句など、意味の自然な単位は、様々な大きさを示す。 このミスマッチに対処するため,自動回帰方式でセグメント境界を予測する動的プール機構を言語モデルに装備する。 確率的再パラメータ化によるエンドツーエンド学習、教師付き学習(サブワードトークン化や条件付きエントロピーのスパイクのセグメンテーションに基づく)、言語的に動機付けられた境界など、境界を推論するいくつかの手法を比較した。 複数のデータセットと形態学的に多様な言語からテキストを文字レベルで評価する。 その結果,同じ計算予算内で,バニラ変換器や固定長プーリングよりも高速かつ高精度な動的プーリングが可能となった。

Transformers achieve unrivalled performance in modelling language, but remain inefficient in terms of memory and time complexity. A possible remedy is to reduce the sequence length in the intermediate layers by pooling fixed-length segments of tokens. Nevertheless, natural units of meaning, such as words or phrases, display varying sizes. To address this mismatch, we equip language models with a dynamic-pooling mechanism, which predicts segment boundaries in an autoregressive fashion. We compare several methods to infer boundaries, including end-to-end learning through stochastic re-parameterisation, supervised learning (based on segmentations from subword tokenizers or spikes in conditional entropy), as well as linguistically motivated boundaries. We perform character-level evaluation on texts from multiple datasets and morphologically diverse languages. The results demonstrate that dynamic pooling, which jointly segments and models language, is often both faster and more accurate than vanilla Transformers and fixed-length pooling within the same computational budget.
翻訳日:2022-11-18 16:12:27 公開日:2022-11-17
# UniSumm: マルチタスク事前トレーニングとプレフィックスチューニングによる一括一括一括要約

UniSumm: Unified Few-shot Summarization with Multi-Task Pre-Training and Prefix-Tuning ( http://arxiv.org/abs/2211.09783v1 )

ライセンス: Link先を確認
Yulong Chen, Yang Liu, Ruochen Xu, Ziyi Yang, Chenguang Zhu, Michael Zeng, Yue Zhang(参考訳) 様々な要約タスクの多様な要求と高いアノテーションコストが、数ショットの要約の必要性を喚起している。 しかし、多くの要約タスクやデータセットの出現にもかかわらず、現在の数ショットの要約システムの訓練パラダイムは、異種データセットにおける潜在的共有可能な知識を無視している。 この目的のために、複数の要約タスクで事前訓練された統合された複数ショット要約モデルである \textsc{UniSumm} を提案する。 一方,多様性とロバスト性の原則に基づき,少数の要約システムを評価するため,新しいベンチマークであるtextsc{SummZoo} を作成した。 8ドルの多様な要約タスクと、各タスクの複数セットの少数のサンプルで構成され、モノローグと対話ドメインの両方をカバーする。 実験結果とアブレーション研究により, \textsc{UniSumm} は, 自動評価と人的評価の両面において, すべてのタスクにおいて, 強いベースラインシステムよりも優れた性能を示した。 コードとベンチマークは \url{https://github.com/microsoft/UniSumm} で公開しています。

The diverse demands of different summarization tasks and their high annotation costs are driving a need for few-shot summarization. However, despite the emergence of many summarization tasks and datasets, the current training paradigm for few-shot summarization systems ignores potentially shareable knowledge in heterogeneous datasets. To this end, we propose \textsc{UniSumm}, a unified few-shot summarization model pre-trained with multiple summarization tasks and can be prefix-tuned to excel at any few-shot summarization datasets. Meanwhile, to better evaluate few-shot summarization systems, under the principles of diversity and robustness, we assemble and publicize a new benchmark \textsc{SummZoo}. It consists of $8$ diverse summarization tasks with multiple sets of few-shot samples for each task, covering both monologue and dialogue domains. Experimental results and ablation studies show that \textsc{UniSumm} outperforms strong baseline systems by a large margin across all tasks in \textsc{SummZoo} under both automatic and human evaluations. We release our code and benchmark at \url{https://github.com/microsoft/UniSumm}.
翻訳日:2022-11-18 16:12:10 公開日:2022-11-17
# 聞いて デノワーズ アクション! 拡散モデルを用いた音声駆動モーション合成

Listen, denoise, action! Audio-driven motion synthesis with diffusion models ( http://arxiv.org/abs/2211.09707v1 )

ライセンス: Link先を確認
Simon Alexanderson, Rajmund Nagy, Jonas Beskow, Gustav Eje Henter(参考訳) 拡散モデルは非常に表現力が高く、効率的に訓練可能な確率モデルとして関心を集めている。 これらのモデルは,音声と協調する人間の動作を合成するのに適しており,動作は複雑であいまいな音声であるため,確率的記述を求める。 具体的には、DiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えて精度を向上させる。 また,文体表現の強みを調整するために,分類器のない指導法を用いて,動作スタイルの制御を示す。 ジェスチャ生成によるtrinity speech-gestureおよびzeroeggsデータセットの実験により、提案手法が、多かれ少なかれ発音可能な独特のスタイルで、最上位の動作品質を達成できることが確認された。 同じモデルアーキテクチャを用いてダンスモーションとパス駆動ロコモーションを合成する。 最後に,合成タスクにアピールし,製品・オブ・エキスパートズモデルとの関連性を有する方法で,スタイル補間を行うための指導手順を拡張する。 ビデオ例はhttps://www.speech.kth.se/research/listen-denoise-action/で公開されている。

Diffusion models have experienced a surge of interest as highly expressive yet efficiently trainable probabilistic models. We show that these models are an excellent fit for synthesising human motion that co-occurs with audio, for example co-speech gesticulation, since motion is complex and highly ambiguous given audio, calling for a probabilistic description. Specifically, we adapt the DiffWave architecture to model 3D pose sequences, putting Conformers in place of dilated convolutions for improved accuracy. We also demonstrate control over motion style, using classifier-free guidance to adjust the strength of the stylistic expression. Gesture-generation experiments on the Trinity Speech-Gesture and ZeroEGGS datasets confirm that the proposed method achieves top-of-the-line motion quality, with distinctive styles whose expression can be made more or less pronounced. We also synthesise dance motion and path-driven locomotion using the same model architecture. Finally, we extend the guidance procedure to perform style interpolation in a manner that is appealing for synthesis tasks and has connections to product-of-experts models, a contribution we believe is of independent interest. Video examples are available at https://www.speech.kth.se/research/listen-denoise-action/
翻訳日:2022-11-18 16:11:50 公開日:2022-11-17
# 遺伝的多目的最適化に基づく四極磁石の設計

Quadrupole Magnet Design based on Genetic Multi-Objective Optimization ( http://arxiv.org/abs/2211.09580v1 )

ライセンス: Link先を確認
Eric Diehl, Moritz von Tresckow, Lou Scholtissek, Dimitrios Loukrezis, Nicolas Marsic, Wolfgang F. O. M\"uller, Herbert De Gersem(参考訳) 本研究は,多目的最適化問題に適応した遺伝的アルゴリズムを用いて,四極磁石の形状を最適化することを提案する。 そのため、nsga-iiiとして知られる非ドーミネーションソート遺伝アルゴリズムが用いられる。 マグネットの開口部における高い磁場品質が保証されると共に、磁石設計のコスト効率が維持されるように最適化目標を選定する。 フィールド品質は四重極の静磁場有限要素モデルを用いて計算され、その結果は後処理され最適化アルゴリズムに統合される。 最適化結果を広範囲に分析し,パレート前部運動と最適設計の同定を行った。

This work suggests to optimize the geometry of a quadrupole magnet by means of a genetic algorithm adapted to solve multi-objective optimization problems. To that end, a non-domination sorting genetic algorithm known as NSGA-III is used. The optimization objectives are chosen such that a high magnetic field quality in the aperture of the magnet is guaranteed, while simultaneously the magnet design remains cost-efficient. The field quality is computed using a magnetostatic finite element model of the quadrupole, the results of which are post-processed and integrated into the optimization algorithm. An extensive analysis of the optimization results is performed, including Pareto front movements and identification of best designs.
翻訳日:2022-11-18 16:11:26 公開日:2022-11-17
# AlphaSnake:非決定論的NPハードマルコフ決定過程のポリシー反復

AlphaSnake: Policy Iteration on a Nondeterministic NP-hard Markov Decision Process ( http://arxiv.org/abs/2211.09622v1 )

ライセンス: Link先を確認
Kevin Du, Ian Gemp, Yi Wu, Yingying Wu(参考訳) 強化学習は、グラフ理論におけるよく知られたNPハード組合せ問題に近づいた。 これらの問題のうち、ハミルトンサイクル問題は、たとえ構造的に複雑なグラフの個々のインスタンスに制限されたとしても、非常に分析が難しい。 本稿では,AlphaZeroのような最先端の強化学習アルゴリズムの背後にある探索アルゴリズムであるMonte Carlo Tree Search (MCTS) を用いて,格子グラフ上のハミルトンサイクルの性質に着目したゲームであるSnakeのゲームを学習する自律エージェントを作成する。 スネークのゲームは、エージェントが確率的環境で最適に振る舞う必要があるマルコフ決定過程 (MDP) として定式化することができる。 スネークの最適政策の決定は、高い優先度で勝利の確率を最大化し、より低い優先度で勝つ予定の時間ステップ数を最小化する政策として定義され、np-hardであると推測される。 性能面では、Snakeゲームにおける先行研究と比較して、我々のアルゴリズムは0.5ドルを超える勝利率を達成した最初のアルゴリズムである(一様ランダムポリシーは勝利率$<2.57 \times 10^{-15}$を達成し、NPハード環境に近づく際のAlphaZeroの汎用性を実証する)。

Reinforcement learning has recently been used to approach well-known NP-hard combinatorial problems in graph theory. Among these problems, Hamiltonian cycle problems are exceptionally difficult to analyze, even when restricted to individual instances of structurally complex graphs. In this paper, we use Monte Carlo Tree Search (MCTS), the search algorithm behind many state-of-the-art reinforcement learning algorithms such as AlphaZero, to create autonomous agents that learn to play the game of Snake, a game centered on properties of Hamiltonian cycles on grid graphs. The game of Snake can be formulated as a single-player discounted Markov Decision Process (MDP) where the agent must behave optimally in a stochastic environment. Determining the optimal policy for Snake, defined as the policy that maximizes the probability of winning - or win rate - with higher priority and minimizes the expected number of time steps to win with lower priority, is conjectured to be NP-hard. Performance-wise, compared to prior work in the Snake game, our algorithm is the first to achieve a win rate over $0.5$ (a uniform random policy achieves a win rate $< 2.57 \times 10^{-15}$), demonstrating the versatility of AlphaZero in approaching NP-hard environments.
翻訳日:2022-11-18 16:11:17 公開日:2022-11-17
# 推奨事項を非現実的に説明する学習

Learning to Counterfactually Explain Recommendations ( http://arxiv.org/abs/2211.09752v1 )

ライセンス: Link先を確認
Yuanshun Yao, Chong Wang, Hang Li(参考訳) レコメンデーションシステム実践者は、レコメンデーションを説明する圧力が高まっている。 我々は、反ファクト論理を用いてレコメンデーションを説明する方法、すなわち「もしあなたが以前以下の項目と対話しなかったら、この項目を推奨しない可能性が高い」。 従来の説明論理と比較すると、反事実的説明は理解しやすく、技術的に検証可能である。 このような説明を生成する上で大きな課題は、ユーザー(インタラクション)履歴を削除することによって生じるレコメンデーションに影響を与えるために、繰り返しモデルを再訓練する必要があるため、計算コストである。 本稿では,反実的説明を生成するための学習ベースのフレームワークを提案する。 鍵となるアイデアは、サロゲートモデルをトレーニングして、リコメンデーションに対するユーザ履歴のサブセットを削除する効果を学ぶことです。 この目的のために、まず、履歴のサブセットを削除した後、推奨事項の反事実を人工的にシミュレートする。 次に、サロゲートモデルをトレーニングし、履歴削除と削除によって引き起こされるレコメンデーションの変化の間のマッピングを学習する。 最後に、説明を生成するために、サロゲートモデルによって予測される履歴サブセットを見つけ、最も推奨を除去する可能性が高い。 オフライン実験やオンラインユーザスタディを通じて,本手法をベースラインと比較し,ユーザから見れば,非現実的かつ満足な説明を生成できることを示す。

Recommender system practitioners are facing increasing pressure to explain recommendations. We explore how to explain recommendations using counterfactual logic, i.e. "Had you not interacted with the following items before, it is likely we would not recommend this item." Compared to traditional explanation logic, counterfactual explanations are easier to understand and more technically verifiable. The major challenge of generating such explanations is the computational cost because it requires repeatedly retraining the models to obtain the effect on a recommendation caused by removing user (interaction) history. We propose a learning-based framework to generate counterfactual explanations. The key idea is to train a surrogate model to learn the effect of removing a subset of user history on the recommendation. To this end, we first artificially simulate the counterfactual outcomes on the recommendation after deleting subsets of history. Then we train surrogate models to learn the mapping between a history deletion and the change in the recommendation caused by the deletion. Finally, to generate an explanation, we find the history subset predicted by the surrogate model that is most likely to remove the recommendation. Through offline experiments and online user studies, we show our method, compared to baselines, can generate explanations that are more counterfactually valid and more satisfactory considered by users.
翻訳日:2022-11-18 16:10:50 公開日:2022-11-17
# 一度だけラベルを付ける: ポイントクラウドから画像への3Dボックス適応

You Only Label Once: 3D Box Adaptation from Point Cloud to Image via Semi-Supervised Learning ( http://arxiv.org/abs/2211.09302v1 )

ライセンス: Link先を確認
Jieqi Shi, Peiliang Li, Xiaozhi Chen, Shaojie Shen(参考訳) 画像ベースの3Dオブジェクト検出タスクは、予測された3Dバウンディングボックスが、物体の輪郭を画像によく適合させながら、3D空間上の幾何学的属性を保ちながら、例えば、物理的次元、対方向直交等を保った ''tightness''' プロジェクション(立方体とも呼ばれる)を有することを期待する。 これらの要件はアノテーションに重大な課題をもたらします。 画像にLidarでラベル付けされた3Dボックスを投影するだけで、画像にキューブを直接描画しても元の3D情報にはアクセスできない。 本研究では,360$^{\circ}$ Lidar 3Dバウンディングボックスの最小パラメータを自動的に調整し,パノラマカメラの外観を完璧に適合させる学習型3Dボックス適応手法を提案する。 トレーニング段階では2dボックスアノテーションのみを指導することで,lidarボックスから3dプロパティを備えた正確な画像レベルのcuboidアノテーションを生成できる。 私たちのメソッドを ‘you only label once'' と呼びます。つまり、ポイントクラウドにラベルを付け、周囲のすべてのカメラに自動的に適応します。 これは精度と効率のバランスを良くし、正確な立方体アノテーションに対するラベル付けの労力を劇的に削減します。 公開waymoおよびnuscenesデータセットの広範な実験により,手作業による調整を必要とせず,画像上に人間レベルのcuboidアノテーションを生成できることが確認された。

The image-based 3D object detection task expects that the predicted 3D bounding box has a ``tightness'' projection (also referred to as cuboid), which fits the object contour well on the image while still keeping the geometric attribute on the 3D space, e.g., physical dimension, pairwise orthogonal, etc. These requirements bring significant challenges to the annotation. Simply projecting the Lidar-labeled 3D boxes to the image leads to non-trivial misalignment, while directly drawing a cuboid on the image cannot access the original 3D information. In this work, we propose a learning-based 3D box adaptation approach that automatically adjusts minimum parameters of the 360$^{\circ}$ Lidar 3D bounding box to perfectly fit the image appearance of panoramic cameras. With only a few 2D boxes annotation as guidance during the training phase, our network can produce accurate image-level cuboid annotations with 3D properties from Lidar boxes. We call our method ``you only label once'', which means labeling on the point cloud once and automatically adapting to all surrounding cameras. As far as we know, we are the first to focus on image-level cuboid refinement, which balances the accuracy and efficiency well and dramatically reduces the labeling effort for accurate cuboid annotation. Extensive experiments on the public Waymo and NuScenes datasets show that our method can produce human-level cuboid annotation on the image without needing manual adjustment.
翻訳日:2022-11-18 16:09:59 公開日:2022-11-17
# EmoDiff: ソフトラベル誘導による感情テキストの強調制御

EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance ( http://arxiv.org/abs/2211.09496v1 )

ライセンス: Link先を確認
Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu(参考訳) 現在のニューラルテキスト音声(TTS)モデルは高品質な音声を生成することができるが、強度制御可能な感情的TSは依然として難しい課題である。 既存のほとんどの手法では、強度計算のための外部最適化が必要であり、最適化された結果や劣化した品質につながる。 本稿では,分類器誘導に基づくソフトラベル誘導手法により,感情インテンシティを操作可能な拡散型ttsモデルであるemodiffを提案する。 具体的には、指定された感情の1ホットベクトルでガイドされる代わりに、EmoDiff は、指定された感情の値と \textit{Neutral} がそれぞれ$\alpha$ と $1-\alpha$ に設定されたソフトラベルでガイドされる。 ここでの$\alpha$は感情の強さを表し、0から1に選択できる。 実験の結果,EmoDiffは高い声質を維持しながら感情の強度を正確に制御できることがわかった。 さらに、逆復調過程におけるサンプリングにより、特定の感情強度を持つ多様な音声を生成することができる。

Although current neural text-to-speech (TTS) models are able to generate high-quality speech, intensity controllable emotional TTS is still a challenging task. Most existing methods need external optimizations for intensity calculation, leading to suboptimal results or degraded quality. In this paper, we propose EmoDiff, a diffusion-based TTS model where emotion intensity can be manipulated by a proposed soft-label guidance technique derived from classifier guidance. Specifically, instead of being guided with a one-hot vector for the specified emotion, EmoDiff is guided with a soft label where the value of the specified emotion and \textit{Neutral} is set to $\alpha$ and $1-\alpha$ respectively. The $\alpha$ here represents the emotion intensity and can be chosen from 0 to 1. Our experiments show that EmoDiff can precisely control the emotion intensity while maintaining high voice quality. Moreover, diverse speech with specified emotion intensity can be generated by sampling in the reverse denoising process.
翻訳日:2022-11-18 16:03:04 公開日:2022-11-17
# 整合性を伴う混合データ行列補完に対する一般化潜在因子モデルアプローチ

A Generalized Latent Factor Model Approach to Mixed-data Matrix Completion with Entrywise Consistency ( http://arxiv.org/abs/2211.09272v1 )

ライセンス: Link先を確認
Yunxiao Chen, Xiaoou Li(参考訳) matrix completionは、部分的に観測された行列の欠落エントリの予測に関する機械学習手法のクラスである。 本稿では、混合データ、すなわち、混合変数(連続、二項、順序など)を含むデータに対する行列補完について研究する。 非線形因子モデルの一般族の下で, 低ランク行列推定問題として定式化し, 低ランク行列を推定するためのエントリワイズ一貫性推定器を提案する。 提案した推定器にタイト確率誤差境界を導出する。 提案手法は,協調フィルタリングと大規模教育評価のためのシミュレーション研究および実データ応用により評価される。

Matrix completion is a class of machine learning methods that concerns the prediction of missing entries in a partially observed matrix. This paper studies matrix completion for mixed data, i.e., data involving mixed types of variables (e.g., continuous, binary, ordinal). We formulate it as a low-rank matrix estimation problem under a general family of non-linear factor models and then propose entrywise consistent estimators for estimating the low-rank matrix. Tight probabilistic error bounds are derived for the proposed estimators. The proposed methods are evaluated by simulation studies and real-data applications for collaborative filtering and large-scale educational assessment.
翻訳日:2022-11-18 16:02:45 公開日:2022-11-17
# オンライン非定型制御入門

Introduction to Online Nonstochastic Control ( http://arxiv.org/abs/2211.09619v1 )

ライセンス: Link先を確認
Elad Hazan and Karan Singh(参考訳) 本文は、動的システムの制御における新たなパラダイムと、オンライン非確率的制御と呼ばれる微分可能強化学習を紹介する。 新しいアプローチでは、オンライン凸最適化と凸緩和の手法を適用し、最適かつ堅牢な制御において古典的な設定を保証できる新しい方法を得る。 オンラインの非確率的制御と他のフレームワークの主な違いは目的である。 最適制御、ロバスト制御、および確率的ノイズを仮定する他の制御方法論において、目標はオフラインの最適戦略と同等に実行することである。 オンラインの非確率制御では、コスト関数と仮定力学モデルからの摂動の両方が敵によって選択される。 したがって、最適方針は事前定義されない。 むしろ、ターゲットは、ベンチマークのポリシーのクラスから遠ざかって、最善のポリシーに対する低い後悔を得ることです。 この目的は,オンライン凸最適化の意思決定フレームワークをアルゴリズム手法として用いることを示唆する。 得られた手法は反復的な数学的最適化アルゴリズムに基づいており、有限時間後悔と計算複雑性を保証する。

This text presents an introduction to an emerging paradigm in control of dynamical systems and differentiable reinforcement learning called online nonstochastic control. The new approach applies techniques from online convex optimization and convex relaxations to obtain new methods with provable guarantees for classical settings in optimal and robust control. The primary distinction between online nonstochastic control and other frameworks is the objective. In optimal control, robust control, and other control methodologies that assume stochastic noise, the goal is to perform comparably to an offline optimal strategy. In online nonstochastic control, both the cost functions as well as the perturbations from the assumed dynamical model are chosen by an adversary. Thus the optimal policy is not defined a priori. Rather, the target is to attain low regret against the best policy in hindsight from a benchmark class of policies. This objective suggests the use of the decision making framework of online convex optimization as an algorithmic methodology. The resulting methods are based on iterative mathematical optimization algorithms, and are accompanied by finite-time regret and computational complexity guarantees.
翻訳日:2022-11-18 16:02:34 公開日:2022-11-17
# 目的保存強化による自己学習による生成対話状態追跡の改善

Self-Training with Purpose Preserving Augmentation Improves Few-shot Generative Dialogue State Tracking ( http://arxiv.org/abs/2211.09379v1 )

ライセンス: Link先を確認
Jihyun Lee, Chaebin Lee, Yunsu Kim, Gary Geunbae Lee(参考訳) 対話状態追跡(DST)では、データセットのラベル付けにはかなりの人的労力がかかる。 本稿では,ラベルなしデータを用いた少数発生成dstのための新しい自己学習フレームワークを提案する。 自己学習手法は, 擬似ラベリングにより反復的にモデルを改善し, オーバーフィッティングを防止するためにPPAugを用いている。 また,MultiWOZ 2.1では10%程度向上し,ベースラインに比べてスロットリコールが8.34%向上した。

In dialogue state tracking (DST), labeling the dataset involves considerable human labor. We propose a new self-training framework for few-shot generative DST that utilize unlabeled data. Our self-training method iteratively improves the model by pseudo labeling and employs Purpose Preserving Augmentation (PPAug) to prevent overfitting. We increaese the few-shot 10% performance by approximately 4% on MultiWOZ 2.1 and enhances the slot-recall 8.34% for unseen values compared to baseline.
翻訳日:2022-11-18 16:01:44 公開日:2022-11-17
# conner: 言語横断型エンティティ認識のための一貫性トレーニング

ConNER: Consistency Training for Cross-lingual Named Entity Recognition ( http://arxiv.org/abs/2211.09394v1 )

ライセンス: Link先を確認
Ran Zhou, Xin Li, Lidong Bing, Erik Cambria, Luo Si, Chunyan Miao(参考訳) 言語間の名前付きエンティティ認識(NER)は、特にゼロショット設定下で、ターゲット言語のデータの不足に悩まされる。 既存の翻訳訓練や知識蒸留法は言語ギャップを埋めようとするが、しばしば高いレベルのノイズをもたらす。 この問題を解決するために、一貫性トレーニング手法は、データや隠れ状態の摂動に対して堅牢なモデルを規則化する。 しかし、そのような手法は一貫性仮説に違反する可能性があり、主に粗粒の一貫性に焦点が当てられる。 本研究では,(1)ラベル付きターゲット言語データに対する翻訳ベース一貫性トレーニング,(2)ラベル付きソース言語データに対するドロップアウトベース一貫性トレーニングからなる,言語間NERのための新しい一貫性トレーニングフレームワークとして,ConNERを提案する。 ConNERは、ラベルのないターゲット言語データを効果的に活用し、ソース言語への過度な適合を緩和し、言語間適応性を高める。 実験の結果,ConNERは様々なベースライン法に対して一貫した改善を達成できた。

Cross-lingual named entity recognition (NER) suffers from data scarcity in the target languages, especially under zero-shot settings. Existing translate-train or knowledge distillation methods attempt to bridge the language gap, but often introduce a high level of noise. To solve this problem, consistency training methods regularize the model to be robust towards perturbations on data or hidden states. However, such methods are likely to violate the consistency hypothesis, or mainly focus on coarse-grain consistency. We propose ConNER as a novel consistency training framework for cross-lingual NER, which comprises of: (1) translation-based consistency training on unlabeled target-language data, and (2) dropoutbased consistency training on labeled source-language data. ConNER effectively leverages unlabeled target-language data and alleviates overfitting on the source language to enhance the cross-lingual adaptability. Experimental results show our ConNER achieves consistent improvement over various baseline methods.
翻訳日:2022-11-18 16:01:34 公開日:2022-11-17
# 歴史的回答を伴うオープンドメイン対話型質問応答

Open-Domain Conversational Question Answering with Historical Answers ( http://arxiv.org/abs/2211.09401v1 )

ライセンス: Link先を確認
Hung-Chieh Fang, Kuo-Han Hung, Chao-Wei Huang, Yun-Nung Chen(参考訳) オープンドメインの会話型質問応答は2つのタスクとみなすことができる: パス検索と会話型質問応答、前者は大きなコーパスから候補パスを選択することに依存し、後者は回答を予測するためにコンテキストを持った質問をよりよく理解する必要がある。 本稿では,過去の回答を利用して検索性能を向上させるConvADR-QAを提案する。 提案する枠組みでは,前回からの騒音低減のために教師・学生の枠組みを用いる。 ベンチマークデータセットOR-QuACを用いた実験により,提案手法は抽出と生成の両方において既存のベースラインよりも優れており,オープンドメイン対話型質問応答における過去の回答の有効性を正当化する。

Open-domain conversational question answering can be viewed as two tasks: passage retrieval and conversational question answering, where the former relies on selecting candidate passages from a large corpus and the latter requires better understanding of a question with contexts to predict the answers. This paper proposes ConvADR-QA that leverages historical answers to boost retrieval performance and further achieves better answering performance. In our proposed framework, the retrievers use a teacher-student framework to reduce noises from previous turns. Our experiments on the benchmark dataset, OR-QuAC, demonstrate that our model outperforms existing baselines in both extractive and generative reader settings, well justifying the effectiveness of historical answers for open-domain conversational question answering.
翻訳日:2022-11-18 16:01:16 公開日:2022-11-17
# 補助タスクによる特徴提示型機械読解

Feature-augmented Machine Reading Comprehension with Auxiliary Tasks ( http://arxiv.org/abs/2211.09438v1 )

ライセンス: Link先を確認
Yifeng Xie(参考訳) 機械読解における最も成功したアプローチは、単一の学習目標に依存するが、まずニューラルネットワークを用いて質問と段落を符号化し、それから直接その符号化結果を融合させる場合において、予測層で定義する損失関数を通じて、エンコーダ層が優れた表現を学習できると仮定する。 しかし、読解における遠方のロスバックプロパゲーションのため、エンコーダ層は効果的に学習できず、直接監視される。 したがって、エンコーダ層は、その表現をいつでもよく学習することはできない。 そこで本研究では,符号化層に多粒度情報を注入することを提案する。 符号化層に多粒度情報を加えることで,機械読解システムの性能が向上することを示す実験を行った。 最後に,本手法が既存のMRCモデルにも適用可能であることを示す。

While most successful approaches for machine reading comprehension rely on single training objective, it is assumed that the encoder layer can learn great representation through the loss function we define in the predict layer, which is cross entropy in most of time, in the case that we first use neural networks to encode the question and paragraph, then directly fuse the encoding result of them. However, due to the distantly loss backpropagating in reading comprehension, the encoder layer cannot learn effectively and be directly supervised. Thus, the encoder layer can not learn the representation well at any time. Base on this, we propose to inject multi granularity information to the encoding layer. Experiments demonstrate the effect of adding multi granularity information to the encoding layer can boost the performance of machine reading comprehension system. Finally, empirical study shows that our approach can be applied to many existing MRC models.
翻訳日:2022-11-18 16:01:03 公開日:2022-11-17
# 相談チェックリスト:医療ノート作成の人間的評価の標準化

Consultation Checklists: Standardising the Human Evaluation of Medical Note Generation ( http://arxiv.org/abs/2211.09455v1 )

ライセンス: Link先を確認
Aleksandar Savkov, Francesco Moramarco, Alex Papadopoulos Korfiatis, Mark Perera, Anya Belz, Ehud Reiter(参考訳) 自動生成テキストの評価は、出力品質の多くの側面が本質的に主観的であるため、一般的に難しい。 この難易度は、患者ステートメントを作成ノートに含めるべきか、および診断に着く上でのそれぞれの重要性について、医療専門家間の意見の相違により、自動相談ノート作成において複合される。 ノートジェネレーションシステムの以前の実世界評価では、専門家評価者とはかなりの意見の相違があった。 本稿では,予備ステップで作成し,品質評価時に共通の参照点として用いる相談チェックリストの評価を基礎にすることで,客観性を高めることを目的としたプロトコルを提案する。 本プロトコルを用いた最初の評価研究において,アノテーション間合意の良好なレベルを観察した。さらに,ルージュやバートスコアなどの自動測定基準として,研究で作成した相談チェックリストを用いることで,人間の判断との相関性が原文よりも向上する。

Evaluating automatically generated text is generally hard due to the inherently subjective nature of many aspects of the output quality. This difficulty is compounded in automatic consultation note generation by differing opinions between medical experts both about which patient statements should be included in generated notes and about their respective importance in arriving at a diagnosis. Previous real-world evaluations of note-generation systems saw substantial disagreement between expert evaluators. In this paper we propose a protocol that aims to increase objectivity by grounding evaluations in Consultation Checklists, which are created in a preliminary step and then used as a common point of reference during quality assessment. We observed good levels of inter-annotator agreement in a first evaluation study using the protocol; further, using Consultation Checklists produced in the study as reference for automatic metrics such as ROUGE or BERTScore improves their correlation with human judgements compared to using the original human note.
翻訳日:2022-11-18 16:00:48 公開日:2022-11-17
# VeLO: スケールアップによるVersatile Learned Optimizerのトレーニング

VeLO: Training Versatile Learned Optimizers by Scaling Up ( http://arxiv.org/abs/2211.09760v1 )

ライセンス: Link先を確認
Luke Metz, James Harrison, C. Daniel Freeman, Amil Merchant, Lucas Beyer, James Bradbury, Naman Agrawal, Ben Poole, Igor Mordatch, Adam Roberts, Jascha Sohl-Dickstein(参考訳) ディープラーニングモデルは、多くのドメインで手作りの機能を置き換えるが、これらのモデルは、まだ手作りのオプティマイザで訓練されている。 この作業では、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用的なオプティマイザを学習します。 私たちは、勾配を取り込み、パラメータ更新を出力する小さなニューラルネットワークであるディープラーニングのためのオプティマイザをトレーニングします。 様々な最適化タスクで約4万のTPU-月分の計算をメタトレーニングすることで、最適化は魅力的なパフォーマンスを示すだけでなく、興味深い、予期せぬ方法で最適化する。 ハイパーパラメータのチューニングは不要で、代わりに最適化されている問題の仕様に自動的に適応する。 学習したオプティマイザ、メタトレーニングコード、関連するトレインとテストデータ、およびvelo-code.github.ioのベースラインを備えた広範なオプティマイザベンチマークスイートをオープンソースとして公開しています。

While deep learning models have replaced hand-designed features across many domains, these models are still trained with hand-designed optimizers. In this work, we leverage the same scaling approach behind the success of deep learning to learn versatile optimizers. We train an optimizer for deep learning which is itself a small neural network that ingests gradients and outputs parameter updates. Meta-trained with approximately four thousand TPU-months of compute on a wide variety of optimization tasks, our optimizer not only exhibits compelling performance, but optimizes in interesting and unexpected ways. It requires no hyperparameter tuning, instead automatically adapting to the specifics of the problem being optimized. We open source our learned optimizer, meta-training code, the associated train and test data, and an extensive optimizer benchmark suite with baselines at velo-code.github.io.
翻訳日:2022-11-18 15:55:07 公開日:2022-11-17
# 医療介入の存在下での機械学習(ml)に基づくリスク予測アルゴリズムのモニタリング

Monitoring machine learning (ML)-based risk prediction algorithms in the presence of confounding medical interventions ( http://arxiv.org/abs/2211.09781v1 )

ライセンス: Link先を確認
Jean Feng, Alexej Gossmann, Gene Pennello, Nicholas Petrick, Berkman Sahiner, Romain Pirracchio(参考訳) 医療における機械学習(ML)に基づくリスク予測モデルのパフォーマンスのモニタリングは、医療介入(CMI)の問題によって複雑である。アルゴリズムが患者が有害事象のリスクが高いと予測した場合、臨床医は予防的治療を施し、アルゴリズムが予測するターゲットを変更する可能性が高い。 モデルと臨床とMLの相互作用の進化は、標準的な仮定に反するデータに複雑な依存性をもたらす可能性があるため、治療を受けていない患者のみを監視することでCMIを無視する。 より洗練されたアプローチは、治療精度をモデル化することでCMIを明示的に説明することであるが、その時間変化の性質は正確な推定を困難にしている。 データ中の多くの複雑さの源を考えると、CMIを無視した単純な手順が有効な推論を提供する状況を決定することが重要である。 ここでは、条件交換可能性や時間的選択バイアスを仮定して、モデル校正の特別事例について述べる。 頻繁なフレームワークにおけるモニタリングのためのスコアベース累積和(CUSUM)チャートを導入し,ベイズ推定を用いた代替手法について検討する。 シミュレーションにより,モデル更新とモニタリングを組み合わせることにより,予測モデルにおける過信が遅延検出を行う場合(あるいはしない場合)について検討する。 最後に、新型コロナウイルスの感染拡大に伴うMLベースの術後吐き気と吐き気リスク電卓のモニタリングをシミュレートする。

Monitoring the performance of machine learning (ML)-based risk prediction models in healthcare is complicated by the issue of confounding medical interventions (CMI): when an algorithm predicts a patient to be at high risk for an adverse event, clinicians are more likely to administer prophylactic treatment and alter the very target that the algorithm aims to predict. Ignoring CMI by monitoring only the untreated patients--whose outcomes remain unaltered--can inflate false alarm rates, because the evolution of both the model and clinician-ML interactions can induce complex dependencies in the data that violate standard assumptions. A more sophisticated approach is to explicitly account for CMI by modeling treatment propensities, but its time-varying nature makes accurate estimation difficult. Given the many sources of complexity in the data, it is important to determine situations in which a simple procedure that ignores CMI provides valid inference. Here we describe the special case of monitoring model calibration, under either the assumption of conditional exchangeability or time-constant selection bias. We introduce a new score-based cumulative sum (CUSUM) chart for monitoring in a frequentist framework and review an alternative approach using Bayesian inference. Through simulations, we investigate the benefits of combining model updating with monitoring and study when over-trust in a prediction model does (or does not) delay detection. Finally, we simulate monitoring an ML-based postoperative nausea and vomiting risk calculator during the COVID-19 pandemic.
翻訳日:2022-11-18 15:54:43 公開日:2022-11-17
# 医学における説明可能・ドメイン適応・連合型人工知能

Explainable, Domain-Adaptive, and Federated Artificial Intelligence in Medicine ( http://arxiv.org/abs/2211.09317v1 )

ライセンス: Link先を確認
Ahmad Chaddad, Qizong lu, Jiali Li, Yousef Katib, Reem Kateb, Camel Tanougast, Ahmed Bouridane, Ahmed Abdulkadir(参考訳) 人工知能(AI)は多くの領域でデータ分析を変換し続けている。 各ドメインの進歩は、アノテートされたデータの増加、計算リソースの増加、技術革新によって駆動される。 医学では、データの感度、タスクの複雑さ、潜在的に高い利害関係、そして説明責任の要件は、特定の課題を生じさせる。 本稿では、AIによる医療意思決定における課題に対処する3つの主要な方法論的アプローチに焦点を当てる。 1)説明可能なAIは,各出力に対して人間解釈可能な正当性を作り出すことを目的としている。 このようなモデルは、結果が妥当で、臨床医の期待に合致すると信頼性が高まる。 しかし、妥当な説明がないことは、不正確なモデルを意味するものではない。 特に、精度を最大化するために調整された非常に非線形で複雑なモデルでは、解釈可能な表現は正当化のごく一部しか反映しない。 2) ドメイン適応と伝達学習により、AIモデルを複数のドメインにまたがってトレーニングおよび適用することが可能となる。 例えば、異なる取得ハードウェアで取得した画像に基づく分類タスク。 3)フェデレートラーニングにより,個人情報を侵害することなく大規模モデルの学習が可能となる。 集中学習マシンがトレーニングデータ全体にアクセスする集中型AI学習とは異なり、フェデレーション学習プロセスは、個人の健康データではなくパラメータ更新のみを交換することによって、複数のサイトにわたるモデルを反復的に更新する。 この物語レビューは、基本的な概念をカバーし、この分野における関連する基礎研究と最先端の研究を強調し、視点について論じる。

Artificial intelligence (AI) continues to transform data analysis in many domains. Progress in each domain is driven by a growing body of annotated data, increased computational resources, and technological innovations. In medicine, the sensitivity of the data, the complexity of the tasks, the potentially high stakes, and a requirement of accountability give rise to a particular set of challenges. In this review, we focus on three key methodological approaches that address some of the particular challenges in AI-driven medical decision making. (1) Explainable AI aims to produce a human-interpretable justification for each output. Such models increase confidence if the results appear plausible and match the clinicians expectations. However, the absence of a plausible explanation does not imply an inaccurate model. Especially in highly non-linear, complex models that are tuned to maximize accuracy, such interpretable representations only reflect a small portion of the justification. (2) Domain adaptation and transfer learning enable AI models to be trained and applied across multiple domains. For example, a classification task based on images acquired on different acquisition hardware. (3) Federated learning enables learning large-scale models without exposing sensitive personal health information. Unlike centralized AI learning, where the centralized learning machine has access to the entire training data, the federated learning process iteratively updates models across multiple sites by exchanging only parameter updates, not personal health data. This narrative review covers the basic concepts, highlights relevant corner-stone and state-of-the-art research in the field, and discusses perspectives.
翻訳日:2022-11-18 15:54:15 公開日:2022-11-17
# DexPoint: Sim-to-Real Dexterous Manipulationのための一般化可能なポイントクラウド強化学習

DexPoint: Generalizable Point Cloud Reinforcement Learning for Sim-to-Real Dexterous Manipulation ( http://arxiv.org/abs/2211.09423v1 )

ライセンス: Link先を確認
Yuzhe Qin, Binghao Huang, Zhao-Heng Yin, Hao Su, Xiaolong Wang(参考訳) 実世界において同一のカテゴリの新しいオブジェクトに一般化できるデクスタース操作のためのsim-to-realフレームワークを提案する。 私たちのフレームワークの鍵は、ポイントクラウド入力と巧妙な手による操作ポリシーのトレーニングです。 複数物体の連立学習とシム・トゥ・リアルの一般化を実現するための2つの新しい手法を提案する。 (i)想像上の手指の雲を追加入力として用いること。 (二 新規接触報酬を設計すること。) 本手法はシミュレーションと実世界の両方において新しい物体を把握できるアレグロハンドを用いて実験的に評価する。 我々の知る限りでは、このような一般化結果を巧妙な手で達成する最初のポリシー学習ベースのフレームワークである。 私たちのプロジェクトページはhttps://yzqin.github.io/dexpointで閲覧できます。

We propose a sim-to-real framework for dexterous manipulation which can generalize to new objects of the same category in the real world. The key of our framework is to train the manipulation policy with point cloud inputs and dexterous hands. We propose two new techniques to enable joint learning on multiple objects and sim-to-real generalization: (i) using imagined hand point clouds as augmented inputs; and (ii) designing novel contact-based rewards. We empirically evaluate our method using an Allegro Hand to grasp novel objects in both simulation and real world. To the best of our knowledge, this is the first policy learning-based framework that achieves such generalization results with dexterous hands. Our project page is available at https://yzqin.github.io/dexpoint
翻訳日:2022-11-18 15:53:51 公開日:2022-11-17
# RDRN:イメージ超解像のための再定義された残留ネットワーク

RDRN: Recursively Defined Residual Network for Image Super-Resolution ( http://arxiv.org/abs/2211.09462v1 )

ライセンス: Link先を確認
Alexander Panaetov, Karim Elhadji Daou, Igor Samenko, Evgeny Tetin, and Ilya Ivanov(参考訳) 深層畳み込みニューラルネットワーク(cnns)はシングルイメージスーパーレゾリューション(sisr)において顕著な性能を得た。 しかし、非常に深いネットワークはトレーニングの困難に苦しめられ、さらなるパフォーマンス向上は得られない。 この問題を解決する主なトレンドは2つある: ネットワークアーキテクチャを改善し、多数のレイヤを通して機能の伝播を改善すること、そして最も有益な機能を選択するための注意機構を設計すること。 最近のSISRソリューションでは、高度な注意と自己注意機構が提案されている。 しかし、最も効率的な方法で注意ブロックを使用するネットワークを構築することは難しい問題である。 この問題に対処するために,ネットワーク層を通した特徴抽出と伝搬を改善するための汎用再帰的残差ブロック(RDRB)を提案する。 rdrbに基づき,アテンションブロックを効率的に利用する新しいネットワークアーキテクチャである再帰的に定義された残差ネットワーク(rdrn)を設計した。 大規模な実験により,提案手法はいくつかの高精細度ベンチマークで最先端の結果が得られ,0.43dBの先行手法よりも優れていた。

Deep convolutional neural networks (CNNs) have obtained remarkable performance in single image super-resolution (SISR). However, very deep networks can suffer from training difficulty and hardly achieve further performance gain. There are two main trends to solve that problem: improving the network architecture for better propagation of features through large number of layers and designing an attention mechanism for selecting most informative features. Recent SISR solutions propose advanced attention and self-attention mechanisms. However, constructing a network to use an attention block in the most efficient way is a challenging problem. To address this issue, we propose a general recursively defined residual block (RDRB) for better feature extraction and propagation through network layers. Based on RDRB we designed recursively defined residual network (RDRN), a novel network architecture which utilizes attention blocks efficiently. Extensive experiments show that the proposed model achieves state-of-the-art results on several popular super-resolution benchmarks and outperforms previous methods by up to 0.43 dB.
翻訳日:2022-11-18 15:53:38 公開日:2022-11-17
# 転校者攻撃評価の実践に向けて

Towards Good Practices in Evaluating Transfer Adversarial Attacks ( http://arxiv.org/abs/2211.09565v1 )

ライセンス: Link先を確認
Zhengyu Zhao, Hanwei Zhang, Renjue Li, Ronan Sicre, Laurent Amsaleg, Michael Backes(参考訳) トランスファー攻撃は、現実のブラックボックスシナリオにおいて重要なセキュリティ上の懸念を引き起こす。 しかし,既存の評価では2つの大きな限界があるため,実際の攻撃方法の進歩は評価が難しい。 第一に、既存の評価は、しばしば同様の方法と完全に比較せずに、古い評価方法に直接追加されるため、体系的ではなく、時には不公平である。 第二に、既存の評価は主に転送可能性に焦点を当てているが、別の重要な攻撃特性であるステルスネスを見落としている。 この作業では、これらの制限に対処するための優れたプラクティスを設計します。 まず,攻撃分類を新たに導入し,各カテゴリで同様の攻撃を系統的に分析する。 私たちの分析は、既存の知識を補完する、あるいは挑戦する新たな発見につながります。 さらに,ImageNet上の9つの防御に対する23の代表的な攻撃を総合的に評価した。 我々は、さまざまな非受容性指標を採用し、新しいよりきめ細かい特徴を探求することで、ステルスネスに特に注意を払う。 私たちの評価は 新たな重要な洞察を示します 1) 転送性は高度に文脈的であり、一部のホワイトボックス防御は、実際には(ブラックボックス)転送攻撃に弱いため、誤ったセキュリティ感覚を与える可能性がある。 2) 全ての転送攻撃はステルス性が低く、そのステルス性は同じ$L_{\infty}$boundの下で劇的に変化する。

Transfer adversarial attacks raise critical security concerns in real-world, black-box scenarios. However, the actual progress of attack methods is difficult to assess due to two main limitations in existing evaluations. First, existing evaluations are unsystematic and sometimes unfair since new methods are often directly added to old ones without complete comparisons to similar methods. Second, existing evaluations mainly focus on transferability but overlook another key attack property: stealthiness. In this work, we design good practices to address these limitations. We first introduce a new attack categorization, which enables our systematic analyses of similar attacks in each specific category. Our analyses lead to new findings that complement or even challenge existing knowledge. Furthermore, we comprehensively evaluate 23 representative attacks against 9 defenses on ImageNet. We pay particular attention to stealthiness, by adopting diverse imperceptibility metrics and looking into new, finer-grained characteristics. Our evaluation reveals new important insights: 1) Transferability is highly contextual, and some white-box defenses may give a false sense of security since they are actually vulnerable to (black-box) transfer attacks; 2) All transfer attacks are less stealthy, and their stealthiness can vary dramatically under the same $L_{\infty}$ bound.
翻訳日:2022-11-18 15:53:20 公開日:2022-11-17
# DeepSense 6G: 大規模実世界のマルチモーダルセンシングと通信データセット

DeepSense 6G: A Large-Scale Real-World Multi-Modal Sensing and Communication Dataset ( http://arxiv.org/abs/2211.09769v1 )

ライセンス: Link先を確認
Ahmed Alkhateeb, Gouranga Charan, Tawfik Osman, Andrew Hredzak, Jo\~ao Morais, Umut Demirhan, and Nikhil Srinivas(参考訳) 本稿では,既存のマルチモーダルセンシングと通信データの実測に基づく大規模データセットであるDeepSense 6Gデータセットを提案する。 DeepSense 6Gデータセットは、マルチモーダルセンシング、通信、位置決めの交差点における幅広い応用におけるディープラーニング研究を促進するために構築されている。 この記事では、マルチモーダルセンシングおよび通信データセットの採用と再現性を促進することを目的として、deepsenseデータセット構造、採用済みテストベッド、データ収集および処理方法論、デプロイシナリオ、およびサンプルアプリケーションに関する詳細な概要を提供する。

This article presents the DeepSense 6G dataset, which is a large-scale dataset based on real-world measurements of co-existing multi-modal sensing and communication data. The DeepSense 6G dataset is built to advance deep learning research in a wide range of applications in the intersection of multi-modal sensing, communication, and positioning. This article provides a detailed overview of the DeepSense dataset structure, adopted testbeds, data collection and processing methodology, deployment scenarios, and example applications, with the objective of facilitating the adoption and reproducibility of multi-modal sensing and communication datasets.
翻訳日:2022-11-18 15:53:01 公開日:2022-11-17
# 共振器調整によるニューラルネットワークのロバスト性評価

Assessing Neural Network Robustness via Adversarial Pivotal Tuning ( http://arxiv.org/abs/2211.09782v1 )

ライセンス: Link先を確認
Peter Ebert Christensen, V\'esteinn Sn{\ae}bjarnarson, Andrea Dittadi, Serge Belongie, Sagie Benaim(参考訳) 多様な操作セットに対する画像分類器のロバスト性を評価する能力は、現実世界での展開に不可欠である。 近年,実際の画像の意味的操作が検討されているが,これは通常の敵意設定では発生しない可能性がある。 しかし、このような意味的な操作は、しばしばスタイル、色、属性の変更に限られる。 表現力は高いが、これらの操作は、予め訓練されたジェネレータの完全な能力を考慮していない。 本研究では,事前学習した画像生成装置のフル能力を活用し,高精細で多彩でフォトリアリスティックな画像操作を実現することを目的とする。 近年のGANに基づく画像インバージョン法に着想を得て,Adversarial Pivotal Tuning (APT) と呼ばれる手法を提案する。 APTはまず、入力画像を最もよく再構成する予め訓練された発電機に入力されたピボット潜在空間を見つける。 次に、ジェネレータの重みを調整して、トレーニング済みの分類器を騙す小さなセマンティックな操作を生成する。 重要なことは、APTは事前訓練されたジェネレータの入力と重みの両方を変更し、表現力のある潜在編集能力を保ち、セマンティックな敵操作を作成するのにその完全な能力を利用することができる。 我々は、APTが入力画像のクラスを保存する様々な意味的イメージ操作を生成するが、事前訓練された様々な分類器を騙すことを実証する。 さらに、他の堅牢性ベンチマークに対して堅牢であるように訓練された分類器は、生成した操作に対して堅牢ではないことを実証し、生成した操作に対する堅牢性を改善するアプローチを提案する。 コード https://captaine.github.io/apt/

The ability to assess the robustness of image classifiers to a diverse set of manipulations is essential to their deployment in the real world. Recently, semantic manipulations of real images have been considered for this purpose, as they may not arise using standard adversarial settings. However, such semantic manipulations are often limited to style, color or attribute changes. While expressive, these manipulations do not consider the full capacity of a pretrained generator to affect adversarial image manipulations. In this work, we aim at leveraging the full capacity of a pretrained image generator to generate highly detailed, diverse and photorealistic image manipulations. Inspired by recent GAN-based image inversion methods, we propose a method called Adversarial Pivotal Tuning (APT). APT first finds a pivot latent space input to a pretrained generator that best reconstructs an input image. It then adjusts the weights of the generator to create small, but semantic, manipulations which fool a pretrained classifier. Crucially, APT changes both the input and the weights of the pretrained generator, while preserving its expressive latent editing capability, thus allowing the use of its full capacity in creating semantic adversarial manipulations. We demonstrate that APT generates a variety of semantic image manipulations, which preserve the input image class, but which fool a variety of pretrained classifiers. We further demonstrate that classifiers trained to be robust to other robustness benchmarks, are not robust to our generated manipulations and propose an approach to improve the robustness towards our generated manipulations. Code available at: https://captaine.github.io/apt/
翻訳日:2022-11-18 15:52:51 公開日:2022-11-17
# 神経ディスクリプタフィールドを用いたse(3)等価リレーショナルアレンジメント

SE(3)-Equivariant Relational Rearrangement with Neural Descriptor Fields ( http://arxiv.org/abs/2211.09786v1 )

ライセンス: Link先を確認
Anthony Simeonov, Yilun Du, Lin Yen-Chen, Alberto Rodriguez, Leslie Pack Kaelbling, Tomas Lozano-Perez, Pulkit Agrawal(参考訳) 本稿では,任意のポーズで初期化された新しいオブジェクトインスタンス間の空間的関係に関わるタスクを点雲観測から直接実行する手法を提案する。 私たちのフレームワークは、5-10のデモだけで新しいタスクを指定できるスケーラブルな方法を提供する。 オブジェクトのアレンジメントは、望ましいアライメントでオブジェクトのタスク関連部分を構成するアクションを見つける問題として形式化されます。 この形式は、3つのステップで実装される: タスク関連オブジェクト部品に一貫した局所座標フレームを割り当て、未確認オブジェクトインスタンス上の座標フレームの位置と向きを決定し、これらのフレームを望ましいアライメントに導くアクションを実行する。 ニューラルディスクリプタフィールド(ndfs)と1つの注釈付き3dキーポイントに基づく最適化手法を開発し,いくつかのデモンストレーションからタスク関連局所座標フレームを決定するという技術的課題を克服した。 所望のリレーショナルタスクを満たすオブジェクトのジョイント構成をモデル化するエネルギーベース学習方式により、さらに性能が向上する。 この手法はシミュレーションと実ロボットの3つのマルチオブジェクト再配置タスクでテストされる。 プロジェクトwebサイト、ビデオ、およびコード: https://anthonysimeonov.github.io/r-ndf/

We present a method for performing tasks involving spatial relations between novel object instances initialized in arbitrary poses directly from point cloud observations. Our framework provides a scalable way for specifying new tasks using only 5-10 demonstrations. Object rearrangement is formalized as the question of finding actions that configure task-relevant parts of the object in a desired alignment. This formalism is implemented in three steps: assigning a consistent local coordinate frame to the task-relevant object parts, determining the location and orientation of this coordinate frame on unseen object instances, and executing an action that brings these frames into the desired alignment. We overcome the key technical challenge of determining task-relevant local coordinate frames from a few demonstrations by developing an optimization method based on Neural Descriptor Fields (NDFs) and a single annotated 3D keypoint. An energy-based learning scheme to model the joint configuration of the objects that satisfies a desired relational task further improves performance. The method is tested on three multi-object rearrangement tasks in simulation and on a real robot. Project website, videos, and code: https://anthonysimeonov.github.io/r-ndf/
翻訳日:2022-11-18 15:52:22 公開日:2022-11-17
# 2015年から2021年までマトグロッソ州 (brazil) におけるnicfi衛星画像による熱帯森林被覆と森林破壊のマッピングと深層学習

Mapping Tropical Forest Cover and Deforestation with Planet NICFI Satellite Images and Deep Learning in Mato Grosso State (Brazil) from 2015 to 2021 ( http://arxiv.org/abs/2211.09806v1 )

ライセンス: Link先を確認
Fabien H Wagner, Ricardo Dalagnol, Celso HL Silva-Junior, Griffin Carter, Alison L Ritz, Mayumi CM Hirye, Jean PHB Ometto and Sassan Saatchi(参考訳) 森林伐採の迅速評価のための樹木被覆の変化のモニタリングは、炭素削減のための気候緩和政策の重要な要素と考えられている。 ここでは,ブラジルのマトグロッソ州(MT)における5m空間分解能惑星NICFI衛星画像とU-net深層学習モデルを用いて,2015年から2022年にかけての熱帯樹冠と森林破壊をマッピングする。 2015年には556510.8 km$^2$(MT州の58.1%)となり、2021年末には141598.5 km$^2$(総面積の14.8%)に減らされた。 2016年12月の森林伐採面積は6632.05 km$^2$で、2016年12月から2019年12月までにわずかに増加した。 1年後の2019年12月の9944.5 km$^2$から2021年12月の19817.8 km$^2$にほぼ倍増した。 高解像度データ製品はブラジルの公式森林破壊地図(67.2%)と比較的一致していたが、GFCデータで観測された火災の多さから、GFC(Global Forest Change)製品からの森林被覆損失の年数から大きくずれた。 深層学習技術に関連するPlanet NICFIの高解像度画像は、熱帯の森林破壊範囲を著しく改善することができる。

Monitoring changes in tree cover for rapid assessment of deforestation is considered the critical component of any climate mitigation policy for reducing carbon. Here, we map tropical tree cover and deforestation between 2015 and 2022 using 5 m spatial resolution Planet NICFI satellite images over the state of Mato Grosso (MT) in Brazil and a U-net deep learning model. The tree cover for the state was 556510.8 km$^2$ in 2015 (58.1 % of the MT State) and was reduced to 141598.5 km$^2$ (14.8 % of total area) at the end of 2021. After reaching a minimum deforested area in December 2016 with 6632.05 km$^2$, the bi-annual deforestation area only showed a slight increase between December 2016 and December 2019. A year after, the areas of deforestation almost doubled from 9944.5 km$^2$ in December 2019 to 19817.8 km$^2$ in December 2021. The high-resolution data product showed relatively consistent agreement with the official deforestation map from Brazil (67.2%) but deviated significantly from year of forest cover loss estimates from the Global Forest change (GFC) product, mainly due to large area of fire degradation observed in the GFC data. High-resolution imagery from Planet NICFI associated with deep learning technics can significantly improve mapping deforestation extent in tropics.
翻訳日:2022-11-18 15:52:03 公開日:2022-11-17
# DeepVoxNet2: もうひとつのCNNフレームワーク

DeepVoxNet2: Yet another CNN framework ( http://arxiv.org/abs/2211.09569v1 )

ライセンス: Link先を確認
Jeroen Bertels, David Robben, Robin Lemmens, Dirk Vandermeulen(参考訳) 我々は、CNNマッピング機能とサンプリング方式の両方が、CNNに基づく画像解析において最重要であることを知っている。 両方の関数は同じ空間で動作し、画像軸 $\mathcal{I}$ と特徴軸 $\mathcal{F}$ が成り立つことは明らかである。 注目すべきことに、この2つを統一するフレームワークは存在せず、データの空間的起源を自動的に追跡している。 私たちの実践的な経験から、後者は複雑なコーディングと、交換が難しいパイプラインになることが多いことが分かりました。 本稿では,DeepVoxNet2 (DVN2) という,1,2,3次元画像分類やセグメンテーションのためのフレームワークを紹介する。 この記事はインタラクティブなチュートリアルとして機能し、コードブロックのアウトプットを含むコンパイル済みのバージョンは、パブリックなDVN2リポジトリでオンラインで見ることができる。 このチュートリアルでは、2018年のマルチモーダルなBrain tumor Image Segmentation Benchmark(BRATS)のデータを使用して、3Dセグメンテーションパイプラインの例を示す。

We know that both the CNN mapping function and the sampling scheme are of paramount importance for CNN-based image analysis. It is clear that both functions operate in the same space, with an image axis $\mathcal{I}$ and a feature axis $\mathcal{F}$. Remarkably, we found that no frameworks existed that unified the two and kept track of the spatial origin of the data automatically. Based on our own practical experience, we found the latter to often result in complex coding and pipelines that are difficult to exchange. This article introduces our framework for 1, 2 or 3D image classification or segmentation: DeepVoxNet2 (DVN2). This article serves as an interactive tutorial, and a pre-compiled version, including the outputs of the code blocks, can be found online in the public DVN2 repository. This tutorial uses data from the multimodal Brain Tumor Image Segmentation Benchmark (BRATS) of 2018 to show an example of a 3D segmentation pipeline.
翻訳日:2022-11-18 15:45:10 公開日:2022-11-17
# 次世代ユーザのためのテキスト音声合成システムの構築に向けて

Towards Building Text-To-Speech Systems for the Next Billion Users ( http://arxiv.org/abs/2211.09536v1 )

ライセンス: Link先を確認
Gokul Karthik Kumar, Praveen S V, Pratyush Kumar, Mitesh M. Khapra, Karthik Nandakumar(参考訳) ディープラーニングベースのテキスト音声(TTS)システムは、モデルアーキテクチャ、トレーニング方法論、話者と言語間の一般化など、急速に進化している。 しかし、これらの進歩はインド語の音声合成において十分に研究されていない。 このような調査は、インドの言語の数と多様性、比較的低い資源利用率、そして未検証のニューラルネットワークTSの多様な進歩を考えると、計算に費用がかかる。 本稿では,ドラヴィダ語とインド・アーリア語における音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討する。 そこで本研究では,男性話者と女性話者を共同で訓練したfastpitchとhifi-gan v1を用いた単言語モデルを明らかにする。 この設定により、13言語でttsモデルをトレーニングし、評価し、平均的な意見スコアで測定したすべての言語で既存のモデルを大幅に改善できるモデルを見つけます。 Bhashiniプラットフォーム上のすべてのモデルをオープンソースにしています。

Deep learning based text-to-speech (TTS) systems have been evolving rapidly with advances in model architectures, training methodologies, and generalization across speakers and languages. However, these advances have not been thoroughly investigated for Indian language speech synthesis. Such investigation is computationally expensive given the number and diversity of Indian languages, relatively lower resource availability, and the diverse set of advances in neural TTS that remain untested. In this paper, we evaluate the choice of acoustic models, vocoders, supplementary loss functions, training schedules, and speaker and language diversity for Dravidian and Indo-Aryan languages. Based on this, we identify monolingual models with FastPitch and HiFi-GAN V1, trained jointly on male and female speakers to perform the best. With this setup, we train and evaluate TTS models for 13 languages and find our models to significantly improve upon existing models in all languages as measured by mean opinion scores. We open-source all models on the Bhashini platform.
翻訳日:2022-11-18 15:44:38 公開日:2022-11-17
# 多目的最適化のための並列アルゴリズムポートフォリオの自動構築

Automatic Construction of Parallel Algorithm Portfolios for Multi-objective Optimization ( http://arxiv.org/abs/2211.09498v1 )

ライセンス: Link先を確認
Xiasheng Ma, Shengcai Liu, Wenjing Hong(参考訳) 万能多目的進化アルゴリズム(MOEA)が、可能な全多目的最適化問題(MOP)において他のすべてのMOEAを支配下に置くことはないことが広く知られている。 本稿では,複数のmoeaを独立して並列に実行し,それらを最大限に活用し,異なるmoeaの利点を組み合わせる並列アルゴリズムポートフォリオ(parallel algorithm portfolio:pap)の利用を提唱する。 PAPのマニュアル構築は簡単で面倒なため,MPPを解くための高性能なPAPの自動構築を提案する。 具体的には、まず、従来のpapsよりもmopsの出力解セットをよりよく決定できる、moeas/papの変種を提案する。 そこで本研究では,moeas/papの自動構築手法として,複数のmopにおけるmoeasの性能評価のための新しい性能指標を提案する。 最後に,提案手法を用いてモップのトレーニングセットとnsga-iiのいくつかの変種によって定義されるアルゴリズム構成空間に基づいてmoeas/papを構築する。 実験の結果、自動構築されたMOEA/PAPは、人間の専門家が設計した最先端のマルチオペレータベースのMOEAに匹敵する可能性を示し、多目的最適化におけるPAPの自動構築の可能性を示した。

It has been widely observed that there exists no universal best Multi-objective Evolutionary Algorithm (MOEA) dominating all other MOEAs on all possible Multi-objective Optimization Problems (MOPs). In this work, we advocate using the Parallel Algorithm Portfolio (PAP), which runs multiple MOEAs independently in parallel and gets the best out of them, to combine the advantages of different MOEAs. Since the manual construction of PAPs is non-trivial and tedious, we propose to automatically construct high-performance PAPs for solving MOPs. Specifically, we first propose a variant of PAPs, namely MOEAs/PAP, which can better determine the output solution set for MOPs than conventional PAPs. Then, we present an automatic construction approach for MOEAs/PAP with a novel performance metric for evaluating the performance of MOEAs across multiple MOPs. Finally, we use the proposed approach to construct a MOEAs/PAP based on a training set of MOPs and an algorithm configuration space defined by several variants of NSGA-II. Experimental results show that the automatically constructed MOEAs/PAP can even rival the state-of-the-art multi-operator-based MOEAs designed by human experts, demonstrating the huge potential of automatic construction of PAPs in multi-objective optimization.
翻訳日:2022-11-18 15:44:11 公開日:2022-11-17
# ACon$^2$: 予測可能なブロックチェーンOracleのための適応型コンフォーマルコンセンサス

ACon$^2$: Adaptive Conformal Consensus for Provable Blockchain Oracles ( http://arxiv.org/abs/2211.09330v1 )

ライセンス: Link先を確認
Sangdon Park and Osbert Bastani and Taesoo Kim(参考訳) スマートコントラクトを備えたブロックチェーンは、スマートコントラクトの決定論的操作のみを許可することで、分散ノード間のブロック状態一貫性を実現する分散型台帳システムである。 しかし、スマートコントラクトのパワーは、確率的なオフチェーンデータとのインタラクションによって実現され、ブロック状態の一貫性を損なう可能性がある。 この問題に対処するために、オラクルスマートコントラクトを使用して、外部データの単一一貫したソースを提供するが、同時に、オラクル問題と呼ばれる単一障害点も導入する。 オラクル問題に対処するために,オンライン不確実性定量化学習の最近の進歩を通じて,複数のオラクル契約からコンセンサスを導出する適応型コンセンサス(ACon$^2$)アルゴリズムを提案する。 特に、提案するアルゴリズムは、データの不確かさを定量化し、ビザンチンの敵と分布シフトの存在下で所望の正しさを保証するコンセンサス集合を返す。 2つの価格データセットとEthereumケーススタディに対して提案アルゴリズムの有効性を示す。 特に、提案アルゴリズムのソリディティ実装は、提案アルゴリズムの実用性を示し、ブロックチェーンの問題に対処するためにオンライン機械学習アルゴリズムが適用可能であることを示唆している。

Blockchains with smart contracts are distributed ledger systems which achieve block state consistency among distributed nodes by only allowing deterministic operations of smart contracts. However, the power of smart contracts is enabled by interacting with stochastic off-chain data, which in turn opens the possibility to undermine the block state consistency. To address this issue, an oracle smart contract is used to provide a single consistent source of external data; but, simultaneously this introduces a single point of failure, which is called the oracle problem. To address the oracle problem, we propose an adaptive conformal consensus (ACon$^2$) algorithm, which derives consensus from multiple oracle contracts via the recent advance in online uncertainty quantification learning. In particular, the proposed algorithm returns a consensus set, which quantifies the uncertainty of data and achieves a desired correctness guarantee in the presence of Byzantine adversaries and distribution shift. We demonstrate the efficacy of the proposed algorithm on two price datasets and an Ethereum case study. In particular, the Solidity implementation of the proposed algorithm shows the practicality of the proposed algorithm, implying that online machine learning algorithms are applicable to address issues in blockchains.
翻訳日:2022-11-18 15:43:49 公開日:2022-11-17
# 自己教師型遠絡学習による人体移動予測

Predicting Human Mobility via Self-supervised Disentanglement Learning ( http://arxiv.org/abs/2211.09625v1 )

ライセンス: Link先を確認
Qiang Gao, Jinyu Hong, Xovee Xu, Ping Kuang, Fan Zhou, Goce Trajcevski(参考訳) 深層ニューラルネットワークは、人間の行動パターンや、巨大な空間-時間的軌跡データから個人の嗜好を学習する上で、近年大幅に改善されている。 しかし、既存の研究のほとんどは、移動パターン学習のシーケンシャルな軌跡に基づく異なる意味論を融合させることに集中しており、それによって人間の本質的な動きを理解するための狭い視点が得られる。 加えて、人間のチェックインに関連する本質的にの疎外性と過度に探索された異種共同作業は、ヒトの多様な定期性や共通の関心事の潜在的利用を妨げる。 本研究では,近年のジエンタングルメント学習の進展に動機づけられ,次のpoi予測問題に取り組むためのssdlと呼ばれる新しいジエンタングルソリューションを提案する。 SSDLは主に、潜在的な時間不変因子と時間変化因子を、巨大な軌跡データから異なる潜在空間に切り離し、人間の多様なモビリティ表現の基礎となる複雑な意味を理解するための解釈可能なビューを提供する。 データスパーシティ問題に対処するために,人間の内在的周期性と絶えず変化する意図の両方を理解するための2つの現実的な軌道拡張手法を提案する。 さらに,POI中心のグラフ構造を考案し,歴史的チェックインに基づく異種協調信号の探索を行う。 4つの実世界のデータセットで実施された大規模な実験は、提案されたSSDLが最先端のアプローチを大幅に上回っていることを示している。

Deep neural networks have recently achieved considerable improvements in learning human behavioral patterns and individual preferences from massive spatial-temporal trajectories data. However, most of the existing research concentrates on fusing different semantics underlying sequential trajectories for mobility pattern learning which, in turn, yields a narrow perspective on comprehending human intrinsic motions. In addition, the inherent sparsity and under-explored heterogeneous collaborative items pertaining to human check-ins hinder the potential exploitation of human diverse periodic regularities as well as common interests. Motivated by recent advances in disentanglement learning, in this study we propose a novel disentangled solution called SSDL for tackling the next POI prediction problem. SSDL primarily seeks to disentangle the potential time-invariant and time-varying factors into different latent spaces from massive trajectories data, providing an interpretable view to understand the intricate semantics underlying human diverse mobility representations. To address the data sparsity issue, we present two realistic trajectory augmentation approaches to enhance the understanding of both the human intrinsic periodicity and constantly-changing intents. In addition, we devise a POI-centric graph structure to explore heterogeneous collaborative signals underlying historical check-ins. Extensive experiments conducted on four real-world datasets demonstrate that our proposed SSDL significantly outperforms the state-of-the-art approaches -- for example, it yields up to 8.57% improvements on ACC@1.
翻訳日:2022-11-18 15:43:30 公開日:2022-11-17
# 深層学習による非線形cox回帰モデルの変数選択

Variable selection for nonlinear Cox regression model via deep learning ( http://arxiv.org/abs/2211.09287v1 )

ライセンス: Link先を確認
Kexuan Li(参考訳) 非線形コックス回帰モデルに対する可変選択問題を考察する。 生存分析において、主な目的は、興味のある出来事を経験するリスクに関連する共変量を特定することである。 cox比例ハザードモデル(英語版)は生存時間と共変量との関係を研究するために生存解析において広く用いられている。 しかし、この線形性仮定は実際には満たされないかもしれない。 特徴の代表的な部分集合を抽出するために,線形コックスモデルの下での生存データに対する様々な変数選択手法が提案されている。 しかし、非線形コックスモデルに対する変数選択に関する文献はほとんどない。 このギャップを解消するために、最近開発されたディープラーニングベースの変数選択モデルであるLassoNetをサバイバルデータに拡張する。 提案手法の有効性と有効性を示すためにシミュレーションを行った。 最後に, びまん性大細胞型B細胞リンパ腫の実際のデータセットを解析するために提案手法を適用した。

Variable selection problem for the nonlinear Cox regression model is considered. In survival analysis, one main objective is to identify the covariates that are associated with the risk of experiencing the event of interest. The Cox proportional hazard model is being used extensively in survival analysis in studying the relationship between survival times and covariates, where the model assumes that the covariate has a log-linear effect on the hazard function. However, this linearity assumption may not be satisfied in practice. In order to extract a representative subset of features, various variable selection approaches have been proposed for survival data under the linear Cox model. However, there exists little literature on variable selection for the nonlinear Cox model. To break this gap, we extend the recently developed deep learning-based variable selection model LassoNet to survival data. Simulations are provided to demonstrate the validity and effectiveness of the proposed method. Finally, we apply the proposed methodology to analyze a real data set on diffuse large B-cell lymphoma.
翻訳日:2022-11-18 15:42:54 公開日:2022-11-17
# 隠れ半マルコフモデルにおける状態持続時間のパラメータ化:心電図への応用

Parameterization of state duration in Hidden semi-Markov Models: an application in electrocardiography ( http://arxiv.org/abs/2211.09478v1 )

ライセンス: Link先を確認
Adri\'an P\'erez Herrero and Paulo F\'elix Lamas and Jes\'us Mar\'ia Rodr\'iguez Presedo(参考訳) 本研究の目的は,一つの例から学ぶことに基づく時系列分類の新しいモデルを提供することである。 時系列はパラメータ乱数過程、つまり変動時間を持つ回帰モデルの列を表す隠れ半マルコフモデルとしてよく特徴づけられると仮定する。 時系列パターン認識のためのパラメトリック確率モデルを導入し,パラメータの最大類似度推定を行う。 特に、状態持続時間を表す2つの異なる表現を調べることに興味がある。 一 各期間の見積もりを必要とする離散密度分布 i) 連続密度関数のパラメトリック族、ここではガンマ分布で、推定するパラメータは2つだけである。 心拍分類の応用により、各選択肢の主な強みと弱みが明らかになった。

This work aims at providing a new model for time series classification based on learning from just one example. We assume that time series can be well characterized as a parametric random process, a sort of Hidden semi-Markov Model representing a sequence of regression models with variable duration. We introduce a parametric stochastic model for time series pattern recognition and provide a maximum-likelihood estimation of its parameters. Particularly, we are interested in examining two different representations for state duration: i) a discrete density distribution requiring an estimate for each possible duration; and ii) a parametric family of continuous density functions, here the Gamma distribution, with just two parameters to estimate. An application on heartbeat classification reveals the main strengths and weaknesses of each alternative.
翻訳日:2022-11-18 15:42:40 公開日:2022-11-17
# 自然科学実験における神経エンコーディングの文脈依存的変化の検証

Testing for context-dependent changes in neural encoding in naturalistic experiments ( http://arxiv.org/abs/2211.09295v1 )

ライセンス: Link先を確認
Yenho Chen, Carl W. Harris, Xiaoyu Ma, Zheng Li, Francisco Pereira, and Charles Y.Zheng(参考訳) 縦型ニューラル記録データにおける文脈効果を検出するためのデコードに基づく手法を提案する。 このアプローチは、情報がどのように神経活動にエンコードされるかに依存せず、データに存在する様々な結合要因を制御できる。 マウスの前頭前皮質から位置エンコーディングを復号できるかどうかを判定し,さらにタスクエンゲージメントによるエンコーディングの変化を検証することにより,我々のアプローチを実証する。

We propose a decoding-based approach to detect context effects on neural codes in longitudinal neural recording data. The approach is agnostic to how information is encoded in neural activity, and can control for a variety of possible confounding factors present in the data. We demonstrate our approach by determining whether it is possible to decode location encoding from prefrontal cortex in the mouse and, further, testing whether the encoding changes due to task engagement.
翻訳日:2022-11-18 15:35:40 公開日:2022-11-17
# テンソルガウス図形モデルの伝達学習

Transfer learning for tensor Gaussian graphical models ( http://arxiv.org/abs/2211.09391v1 )

ライセンス: Link先を確認
Mingyang Ren, Yaoming Zhen and Junhui Wang(参考訳) テンソルデータ内の条件付き独立構造を解釈するテンソルガウスグラフィカルモデル(ggm)は、多くの領域で重要な応用がある。 しかし、単一の研究で利用可能なテンソルデータは、取得コストが高いため、しばしば制限される。 関連する研究は追加のデータを提供することができるが、そのような異種データのプール方法には疑問が残る。 本稿では,非インフォーマティブな補助領域が存在する場合でも情報付き補助領域を十分に活用するテンソルggmの転送学習フレームワークを提案する。 本理論解析では,補助領域の情報を活用することで,かなり緩和された条件下で推定誤差や変数選択一貫性が大幅に向上することを示す。 合成テンソルグラフと脳機能接続ネットワークデータの両方で大規模な数値実験を行い,提案手法の良好な性能を実証した。

Tensor Gaussian graphical models (GGMs), interpreting conditional independence structures within tensor data, have important applications in numerous areas. Yet, the available tensor data in one single study is often limited due to high acquisition costs. Although relevant studies can provide additional data, it remains an open question how to pool such heterogeneous data. In this paper, we propose a transfer learning framework for tensor GGMs, which takes full advantage of informative auxiliary domains even when non-informative auxiliary domains are present, benefiting from the carefully designed data-adaptive weights. Our theoretical analysis shows substantial improvement of estimation errors and variable selection consistency on the target domain under much relaxed conditions, by leveraging information from auxiliary domains. Extensive numerical experiments are conducted on both synthetic tensor graphs and a brain functional connectivity network data, which demonstrates the satisfactory performance of the proposed method.
翻訳日:2022-11-18 15:35:30 公開日:2022-11-17
# マルコフ連鎖とMDPの混合学習

Learning Mixtures of Markov Chains and MDPs ( http://arxiv.org/abs/2211.09403v1 )

ライセンス: Link先を確認
Chinmaya Kausik, Kevin Tan, Ambuj Tewari(参考訳) 本稿では,マルコフ連鎖 (mcs) とマルコフ決定過程 (オフライン型mdp) の混合物を軌道から学習するためのアルゴリズムを提案する。 これはオプションの制御入力でマルコフ連鎖を扱うことに相当する。 本手法は本質的にモジュラーであり、(1)部分空間推定ステップ、(2)軌道のスペクトルクラスタリング、(3)emアルゴリズムのいくつかの反復に相当する。 我々は, 状態が線形であること, 軌道長が混合時間に線形であることのみを明示的に要求する, エンド・ツー・エンドの性能保証を提供する。 実験結果から、EM(平均で95.4%)と、Guptaらによる以前の手法(54.1%)の両方を上回り、8x8グリッドワールドで100%の精度が得られることが示唆された。

We present an algorithm for use in learning mixtures of both Markov chains (MCs) and Markov decision processes (offline latent MDPs) from trajectories, with roots dating back to the work of Vempala and Wang. This amounts to handling Markov chains with optional control input. The method is modular in nature and amounts to (1) a subspace estimation step, (2) spectral clustering of trajectories, and (3) a few iterations of the EM algorithm. We provide end-to-end performance guarantees where we only explicitly require the number of trajectories to be linear in states and the trajectory length to be linear in mixing time. Experimental results suggest it outperforms both EM (95.4% on average) and a previous method by Gupta et al. (54.1%), obtaining 100% permuted accuracy on an 8x8 gridworld.
翻訳日:2022-11-18 15:35:16 公開日:2022-11-17
# スタイン変分勾配降下のための有限粒子収束速度

A Finite-Particle Convergence Rate for Stein Variational Gradient Descent ( http://arxiv.org/abs/2211.09721v1 )

ライセンス: Link先を確認
Jiaxin Shi and Lester Mackey(参考訳) スタイン変分勾配降下(svgd)に対する最初の有限粒子収束率を示す。 具体的には、ターゲット分布がタラグラントのT1不等式を満たすとき、SVGDとn個の粒子、および適切なステップサイズシーケンスは、次の1/sqrt(log log n)レートで、カーネルのスタイン差分をゼロに駆動する。 n への依存度が向上し、我々の明示的で非漸近的な証明戦略が将来の改良のテンプレートになることを期待している。

We provide a first finite-particle convergence rate for Stein variational gradient descent (SVGD). Specifically, whenever the target distribution satisfies Talagrand's T1 inequality, SVGD with n particles and an appropriate step size sequence drives the kernel Stein discrepancy to zero at an order 1/sqrt(log log n) rate. We suspect that the dependence on n can be improved, and we hope that our explicit, non-asymptotic proof strategy will serve as a template for future refinements.
翻訳日:2022-11-18 15:35:00 公開日:2022-11-17
# 特徴保存マニフォールド近似と投影による解釈可能な次元化

Interpretable Dimensionality Reduction by Feature Preserving Manifold Approximation and Projection ( http://arxiv.org/abs/2211.09321v1 )

ライセンス: Link先を確認
Yang Yang, Hongjian Sun, Jialei Gong, Yali Du, Di Yu(参考訳) 非線形次元の減少は、低次元埋め込み空間における音源特徴の欠如による解釈可能性に欠ける。 そこで本研究では,タンジェント空間埋め込みによるソース特徴の保存のための解釈可能なdeadMAPを提案する。 提案手法の中核は局所特異値分解(SVD)を用いて、アライメントを維持することで低次元空間に埋め込まれた接空間を近似することである。 埋め込み接空間に基づいて、featmapは、ソースの特徴と機能の重要性をローカルに示すことで、解釈を可能にします。 さらに、featmapは、局所的な類似性と元の密度を保つために、異方性投影によるデータポイントを埋め込む。 我々は、桁分類、オブジェクト検出、MNIST対逆例の解釈にdeadMAPを適用した。 FeatMAPはソース機能を使用して、数字とオブジェクトを明確に区別し、敵の例の誤分類を説明する。 また,フェアトマップと他の最先端手法との比較を行った。

Nonlinear dimensionality reduction lacks interpretability due to the absence of source features in low-dimensional embedding space. We propose an interpretable method featMAP to preserve source features by tangent space embedding. The core of our proposal is to utilize local singular value decomposition (SVD) to approximate the tangent space which is embedded to low-dimensional space by maintaining the alignment. Based on the embedding tangent space, featMAP enables the interpretability by locally demonstrating the source features and feature importance. Furthermore, featMAP embeds the data points by anisotropic projection to preserve the local similarity and original density. We apply featMAP to interpreting digit classification, object detection and MNIST adversarial examples. FeatMAP uses source features to explicitly distinguish the digits and objects and to explain the misclassification of adversarial examples. We also compare featMAP with other state-of-the-art methods on local and global metrics.
翻訳日:2022-11-18 15:34:19 公開日:2022-11-17
# sgdで視覚モデルを微調整する方法

How to Fine-Tune Vision Models with SGD ( http://arxiv.org/abs/2211.09359v1 )

ライセンス: Link先を確認
Ananya Kumar and Ruoqi Shen and S\'ebastien Bubeck and Suriya Gunasekar(参考訳) SGD(運動量を持つ)とAdamWは、コンピュータビジョンにおける大きなニューラルネットワークを微調整するための最もよく使われる最適化器である。 2つのメソッドが同じ場合、SGDはAdamW(16バイト/パラメータ)よりもメモリ(12バイト/パラメータ)が少ないため、好ましい。 しかし,下流タスク群,特に分布シフトのあるタスク群では,現代の視覚トランスフォーマーやconvnextモデルにおいて,adamwによる微調整がsgdよりも大幅に優れていることが示されている。 その結果,SGDとAdamWの差は,第1層における微調整勾配がモデルの他の層よりもはるかに大きい場合に生じることがわかった。 埋め込み層(パラメータの1\%未満)を凍結するだけでSGDがAdamWと競合し、メモリが少なくなります。 我々の洞察は、WILDS-FMoW、WILDS-Camelyon、Living-17、Waterbirds、DomainNetの5つの人気のある分散シフトベンチマークにおける最先端の精度をもたらす。

SGD (with momentum) and AdamW are the two most used optimizers for fine-tuning large neural networks in computer vision. When the two methods perform the same, SGD is preferable because it uses less memory (12 bytes/parameter) than AdamW (16 bytes/parameter). However, on a suite of downstream tasks, especially those with distribution shifts, we show that fine-tuning with AdamW performs substantially better than SGD on modern Vision Transformer and ConvNeXt models. We find that large gaps in performance between SGD and AdamW occur when the fine-tuning gradients in the first "embedding" layer are much larger than in the rest of the model. Our analysis suggests an easy fix that works consistently across datasets and models: merely freezing the embedding layer (less than 1\% of the parameters) leads to SGD performing competitively with AdamW while using less memory. Our insights result in state-of-the-art accuracies on five popular distribution shift benchmarks: WILDS-FMoW, WILDS-Camelyon, Living-17, Waterbirds, and DomainNet.
翻訳日:2022-11-18 15:34:07 公開日:2022-11-17
# 医用画像分割のための畳み込みニューラルネットワーク

Convolutional neural networks for medical image segmentation ( http://arxiv.org/abs/2211.09562v1 )

ライセンス: Link先を確認
Jeroen Bertels, David Robben, Robin Lemmens, Dirk Vandermeulen(参考訳) 本稿では,医療画像のセグメンテーションに焦点をあて,畳み込みニューラルネットワーク(CNN)の本質的な側面について考察する。 まず,CNNアーキテクチャについて考察し,データの空間的起源,ボクセル的分類,受容場について考察する。 次に,入力出力対のサンプリングについて検討し,voxel-wise分類,パッチサイズ,受容野間の相互作用を強調する。 最後に,分類とセグメンテーションにおけるCNNアーキテクチャの重要な変更点について,FCN,U-Net,DeepMedicの3つの重要なCNNアーキテクチャの関係について考察する。

In this article, we look into some essential aspects of convolutional neural networks (CNNs) with the focus on medical image segmentation. First, we discuss the CNN architecture, thereby highlighting the spatial origin of the data, voxel-wise classification and the receptive field. Second, we discuss the sampling of input-output pairs, thereby highlighting the interaction between voxel-wise classification, patch size and the receptive field. Finally, we give a historical overview of crucial changes to CNN architectures for classification and segmentation, giving insights in the relation between three pivotal CNN architectures: FCN, U-Net and DeepMedic.
翻訳日:2022-11-18 15:33:48 公開日:2022-11-17
# CPT-V:視覚変換器の後の量子化に対する対照的なアプローチ

CPT-V: A Contrastive Approach to Post-Training Quantization of Vision Transformers ( http://arxiv.org/abs/2211.09643v1 )

ライセンス: Link先を確認
Natalia Frumkin, Dibakar Gope, and Diana Marculescu(参考訳) トレーニング後の量子化を考えるとき、事前の作業は通常、混合精度スキームの開発や、量子化のためにネットワークを分割する最良の方法を学ぶことに焦点を当てている。 我々の研究であるCPT-Vでは、量子化スケールを摂動することで、既に量子化されているネットワークの精度を改善するための一般的な方法を検討する。 自己教師付き学習から対照的な損失の考えを借用し,1,000の校正画像を用いて,損失関数を最小化するための頑健な方法を見出した。 最高の量子化スケールを決定するために、CPT-Vは自己監督的な方法で量子化モデルと完全精度モデルの特徴を対比する。 従来のレコンストラクションベースの損失関数とは異なり、コントラスト損失関数は、量子化出力と完全精度出力の類似性を報知するだけでなく、与えられたバッチ内の他の出力と量子化出力を区別するのに役立つ。 さらに、cpt-vは先行研究とは対照的に、グローバルコントラスト損失目標を最小化し、既存のビジョントランスフォーマ(vit)量子化スキームの精度を向上させるブロックワイズ進化探索を提案する。 例えば、cpt-vは全量子化されたvit-baseのtop-1精度を10.30%、0.78%、0.15%改善し、3ビット、4ビット、8ビットの重み量子化レベルで改善した。 他の様々なViTアーキテクチャに関する大規模な実験は、極端量子化シナリオにおけるその堅牢性をさらに証明している。 私たちのコードは<link>で利用可能です。

When considering post-training quantization, prior work has typically focused on developing a mixed precision scheme or learning the best way to partition a network for quantization. In our work, CPT-V, we look at a general way to improve the accuracy of networks that have already been quantized, simply by perturbing the quantization scales. Borrowing the idea of contrastive loss from self-supervised learning, we find a robust way to jointly minimize a loss function using just 1,000 calibration images. In order to determine the best performing quantization scale, CPT-V contrasts the features of quantized and full precision models in a self-supervised fashion. Unlike traditional reconstruction-based loss functions, the use of a contrastive loss function not only rewards similarity between the quantized and full precision outputs but also helps in distinguishing the quantized output from other outputs within a given batch. In addition, in contrast to prior works, CPT-V proposes a block-wise evolutionary search to minimize a global contrastive loss objective, allowing for accuracy improvement of existing vision transformer (ViT) quantization schemes. For example, CPT-V improves the top-1 accuracy of a fully quantized ViT-Base by 10.30%, 0.78%, and 0.15% for 3-bit, 4-bit, and 8-bit weight quantization levels. Extensive experiments on a variety of other ViT architectures further demonstrate its robustness in extreme quantization scenarios. Our code is available at <link>.
翻訳日:2022-11-18 15:27:44 公開日:2022-11-17
# 失われたミドラッシュタンフマ物質検出のためのラビ文学のスタイル分類

Style Classification of Rabbinic Literature for Detection of Lost Midrash Tanhuma Material ( http://arxiv.org/abs/2211.09710v1 )

ライセンス: Link先を確認
Shlomo Tannor, Nachum Dershowitz, Moshe Lavee(参考訳) ミッドラッシュ・コレクション(Midrash collections)は、複数の言語のテキストからなる複雑なラビ作品であり、不安定な口頭と文字の伝達の長いプロセスを通して進化した。 そのようなコンピレーションにおける与えられた文の起源を決定することは必ずしも単純ではなく、しばしば学者の間で論争の的となっているが、ラビ語コーパスにおける文とその他の文との関係を学者が理解するためには必要不可欠である。 そこで本研究では, ヘブライ語で最近発表された事前学習されたトランスフォーマーモデルを用いて, そのスタイルに基づくラビ文学の分類システムを提案する。 さらに,この手法がミドラッシュタンフマの失われた物質を発見できることを示す。

Midrash collections are complex rabbinic works that consist of text in multiple languages, which evolved through long processes of unstable oral and written transmission. Determining the origin of a given passage in such a compilation is not always straightforward and is often a matter of dispute among scholars, yet it is essential for scholars' understanding of the passage and its relationship to other texts in the rabbinic corpus. To help solve this problem, we propose a system for classification of rabbinic literature based on its style, leveraging recently released pretrained Transformer models for Hebrew. Additionally, we demonstrate how our method can be applied to uncover lost material from Midrash Tanhuma.
翻訳日:2022-11-18 15:26:50 公開日:2022-11-17
# 自己回帰型言語モデルにおけるインクリメンタルParse状態の探索

Probing for Incremental Parse States in Autoregressive Language Models ( http://arxiv.org/abs/2211.09748v1 )

ライセンス: Link先を確認
Tiwalayo Eisape, Vineet Gangireddy, Roger P. Levy, Yoon Kim(参考訳) 自己回帰型言語モデルからの次の単語予測は、構文に顕著な感度を示す。 この研究は、インクリメンタル構文構造の暗黙的な表現を維持する学習能力の結果として、この振る舞いが生み出す範囲を評価する。 自動回帰言語モデルから不完全な構文構造(スタックベースパーサから解析状態を介して操作する)を抽出するためのいくつかのプローブを提案する。 提案手法は,曖昧な文接頭辞のモデル嗜好を予測し,モデル表現とステアモデル行動に因果的に介入できることがわかった。 これは、自己回帰型ニューラルネットワークモデルにおいて、次の単語を予測する暗黙的な漸進的な構文推論を示唆している。

Next-word predictions from autoregressive neural language models show remarkable sensitivity to syntax. This work evaluates the extent to which this behavior arises as a result of a learned ability to maintain implicit representations of incremental syntactic structures. We extend work in syntactic probing to the incremental setting and present several probes for extracting incomplete syntactic structure (operationalized through parse states from a stack-based parser) from autoregressive language models. We find that our probes can be used to predict model preferences on ambiguous sentence prefixes and causally intervene on model representations and steer model behavior. This suggests implicit incremental syntactic inferences underlie next-word predictions in autoregressive neural language models.
翻訳日:2022-11-18 15:26:38 公開日:2022-11-17
# 中国語多言語不明瞭化のためのバックトランスレーション型データ拡張

Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone Disambiguation ( http://arxiv.org/abs/2211.09495v1 )

ライセンス: Link先を確認
Chunyu Qiang, Peng Yang, Hao Che, Jinba Xiao, Xiaorui Wang, Zhongyuan Wang(参考訳) 中国語のG2P(Grapheme-to-Phoneme)の変換は,中国語のテキスト音声(TTS)システムにおいて重要な役割を担っている。 従来のポリフォーン曖昧化モデルのほとんどは手動で注釈付きデータセットでトレーニングされており、ポリフォーン曖昧化のための公開データセットは少ない。 本稿では,大量のラベルなしテキストデータを用いた中国語ポリホンの曖昧さ解消のための簡易なバックトランスレーション方式データ拡張手法を提案する。 機械翻訳の分野で提案されているバック翻訳技術に触発されて,多音文字の発音を予測するためのG2Pモデルと,文字の発音を予測するP2Gモデルを構築した。 一方、擬似ラベルの正しさを判断するために、ウィンドウベースマッチング戦略とマルチモデルスコアリング戦略を提案する。 我々は,不均衡分布やデータ不足を伴う訓練セットにおける典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。 実験の結果,提案手法の有効性が示された。

Conversion of Chinese Grapheme-to-Phoneme (G2P) plays an important role in Mandarin Chinese Text-To-Speech (TTS) systems, where one of the biggest challenges is the task of polyphone disambiguation. Most of the previous polyphone disambiguation models are trained on manually annotated datasets, and publicly available datasets for polyphone disambiguation are scarce. In this paper we propose a simple back-translation-style data augmentation method for mandarin Chinese polyphone disambiguation, utilizing a large amount of unlabeled text data. Inspired by the back-translation technique proposed in the field of machine translation, we build a Grapheme-to-Phoneme (G2P) model to predict the pronunciation of polyphonic character, and a Phoneme-to-Grapheme (P2G) model to predict pronunciation into text. Meanwhile, a window-based matching strategy and a multi-model scoring strategy are proposed to judge the correctness of the pseudo-label. We design a data balance strategy to improve the accuracy of some typical polyphonic characters in the training set with imbalanced distribution or data scarcity. The experimental result shows the effectiveness of the proposed back-translation-style data augmentation method.
翻訳日:2022-11-18 15:26:00 公開日:2022-11-17
# 回転機械のマルチタスク故障診断のための個人化フェデレーション学習

Personalized Federated Learning for Multi-task Fault Diagnosis of Rotating Machinery ( http://arxiv.org/abs/2211.09406v1 )

ライセンス: Link先を確認
Sheng Guo, Zengxiang Li, Hui Liu, Shubao Zhao and Cheng Hao Jin(参考訳) 機械の安全運転には知的故障診断が不可欠である。 しかし, 深層学習に基づく診断手法は, 現場機械の欠陥サンプルやデータ不均一性に乏しく, 一般化能力に乏しいため, 過度に適合する傾向にある。 そこで本研究では,複数工場にまたがるマルチタスク故障診断をプライバシ保護方式で実現する,個人用フェデレーション学習フレームワークを提案する。 まず、同様の振動特徴データを持つ異なる工場の回転機械を、連合クラスタリング法を用いて機械群に分類する。 そして、畳み込みニューラルネットワークに基づくマルチタスク深層学習モデルを構築し、異種情報融合による機械の多重故障を診断する。 最後に,適応的な階層的アグリゲーション戦略を用いて,異なるマシン間でのデータ不均一性を解決するために,パーソナライズされたフェデレーション学習フレームワークを提案する。 実マシンから収集したデータに関するケーススタディは,提案手法の有効性を検証する。 その結果、特に欠陥サンプルの少ない機械において、個別化学習を用いて診断精度を著しく向上できることが示された。

Intelligent fault diagnosis is essential to safe operation of machinery. However, due to scarce fault samples and data heterogeneity in field machinery, deep learning based diagnosis methods are prone to over-fitting with poor generalization ability. To solve the problem, this paper proposes a personalized federated learning framework, enabling multi-task fault diagnosis method across multiple factories in a privacypreserving manner. Firstly, rotating machines from different factories with similar vibration feature data are categorized into machine groups using a federated clustering method. Then, a multi-task deep learning model based on convolutional neural network is constructed to diagnose the multiple faults of machinery with heterogeneous information fusion. Finally, a personalized federated learning framework is proposed to solve data heterogeneity across different machines using adaptive hierarchical aggregation strategy. The case study on collected data from real machines verifies the effectiveness of the proposed framework. The result shows that the diagnosis accuracy could be improved significantly using the proposed personalized federated learning, especially for those machines with scarce fault samples.
翻訳日:2022-11-18 15:25:01 公開日:2022-11-17
# EfficientTrain: ビジュアルバックボーンのトレーニングのための汎用的なカリキュラム学習

EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones ( http://arxiv.org/abs/2211.09703v1 )

ライセンス: Link先を確認
Yulin Wang, Yang Yue, Rui Lu, Tianjiao Liu, Zhao Zhong, Shiji Song, Gao Huang(参考訳) 現代のディープネットワークの優れた性能は、通常、高価なトレーニング手順の費用がかかる。 本稿では,視覚バックボーン(視覚変換器など)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。 提案手法は,画像の低周波成分やデータ拡張前の元の情報など,訓練の初期段階において,各事例における「より易しい」識別パターンの認識を主に学習する現象に着想を得たものである。 この観察により,本カリキュラムでは,各エポックにおけるトレーニングデータを常に活用するカリキュラムを提案し,各例の「より簡単な」パターンのみを公開し,より難しいパターンを導入している。 このアイデアを実現するために 1)入力のフーリエスペクトルにトリッピング演算を導入することで、低周波成分のみから効率的に学習することができる。 2) 元の画像の特徴を露呈することで、より弱いデータ拡張を採用することができることを示す。 私たちのアルゴリズムであるEfficientTrainは単純で汎用的で、驚くほど効果的です。 例えば、様々な人気モデル(例えば、ConvNeXts、DeiT、PVT、Swin/CSWin Transformers)のトレーニング時間を、精度を犠牲にすることなく、${1.5\times}$以上削減する。 自己指導型学習(MAE)にも有効である。 コードはhttps://github.com/LeapLabTHU/EfficientTrainで入手できる。

The superior performance of modern deep networks usually comes at the price of a costly training procedure. In this paper, we present a novel curriculum learning approach for the efficient training of visual backbones (e.g., vision Transformers). The proposed method is inspired by the phenomenon that deep networks mainly learn to recognize some 'easier-to-learn' discriminative patterns within each example at earlier stages of training, e.g., the lower-frequency components of images and the original information before data augmentation. Driven by this observation, we propose a curriculum where the model always leverages all the training data at each epoch, while the curriculum starts with only exposing the 'easier-to-learn' patterns of each example, and introduces gradually more difficult patterns. To implement this idea, we 1) introduce a cropping operation in the Fourier spectrum of the inputs, which enables the model to learn from only the lower-frequency components efficiently, and 2) demonstrate that exposing the features of original images amounts to adopting weaker data augmentation. Our resulting algorithm, EfficientTrain, is simple, general, yet surprisingly effective. For example, it reduces the training time of a wide variety of popular models (e.g., ConvNeXts, DeiT, PVT, and Swin/CSWin Transformers) by more than ${1.5\times}$ on ImageNet-1K/22K without sacrificing the accuracy. It is effective for self-supervised learning (i.e., MAE) as well. Code is available at https://github.com/LeapLabTHU/EfficientTrain.
翻訳日:2022-11-18 15:19:20 公開日:2022-11-17
# コンストラクトVL:データフリー連続構造VL概念学習

ConStruct-VL: Data-Free Continual Structured VL Concepts Learning ( http://arxiv.org/abs/2211.09790v1 )

ライセンス: Link先を確認
James Seale Smith, Paola Cascante-Bonilla, Assaf Arbelle, Donghyun Kim, Rameswar Panda, David Cox, Diyi Yang, Zsolt Kira, Rogerio Feris, Leonid Karlinsky(参考訳) 近年,大規模事前学習型視覚言語(vl)基礎モデルが,ゼロショットダウンストリームタスクの多くにおいて顕著な性能を示し,短いテキストプロンプトで定義した物体を識別する競争的結果を達成している。 しかしながら、VLモデルは、オブジェクト属性、状態、オブジェクト間の関係を認識する能力など、構造化VL概念(SVLC)の推論においてまだ脆弱であることも示されている。 これは、vlモデルに不足しているsvlcスキルを教えることによって生じる誤りの推論につながる。多くの場合、問題が発生したプライベートデータを使用して行う必要があり、自然にデータフリーの連続的な(タスクidなし)vl学習設定につながる。 本稿では,データフリーな構造化vl概念学習(construct-vl)ベンチマーク(continual data-free structured vl concepts learning)について紹介する。 そこで本研究では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するadversarial pseudo-replay (apr) の新たなアプローチによるデータフリー手法を提案する。 また,この手法を効率的に利用するために,連続パラメータ効率の高いLaLo(LaLo)ニューラルアーキテクチャを提案する。 このアプローチは、いくつかのレベルのエクスペリエンス再生(データプライバシを保存する必要があるアプリケーションに対しては禁止)に対応しながら、すべてのデータフリーメソッドを最大7%上回ります。

Recently, large-scale pre-trained Vision-and-Language (VL) foundation models have demonstrated remarkable capabilities in many zero-shot downstream tasks, achieving competitive results for recognizing objects defined by as little as short text prompts. However, it has also been shown that VL models are still brittle in Structured VL Concept (SVLC) reasoning, such as the ability to recognize object attributes, states, and inter-object relations. This leads to reasoning mistakes, which need to be corrected as they occur by teaching VL models the missing SVLC skills; often this must be done using private data where the issue was found, which naturally leads to a data-free continual (no task-id) VL learning setting. In this work, we introduce the first Continual Data-Free Structured VL Concepts Learning (ConStruct-VL) benchmark and show it is challenging for many existing data-free CL strategies. We, therefore, propose a data-free method comprised of a new approach of Adversarial Pseudo-Replay (APR) which generates adversarial reminders of past tasks from past task models. To use this method efficiently, we also propose a continual parameter-efficient Layered-LoRA (LaLo) neural architecture allowing no-memory-cost access to all past models at train time. We show this approach outperforms all data-free methods by as much as ~7% while even matching some levels of experience-replay (prohibitive for applications where data-privacy must be preserved).
翻訳日:2022-11-18 15:18:50 公開日:2022-11-17
# 急速に変化するシナプス接続を制御するための学習 : シーケンス処理型ニューラルネットワークにおける代替記憶型

Learning to Control Rapidly Changing Synaptic Connections: An Alternative Type of Memory in Sequence Processing Artificial Neural Networks ( http://arxiv.org/abs/2211.09440v1 )

ライセンス: Link先を確認
Kazuki Irie, J\"urgen Schmidhuber(参考訳) 標準、汎用、シーケンス処理リカレントニューラルネットワーク(RNN)における短期記憶は、ノードまたは「ニューロン」のアクティベーションとして記憶される。 1943年、マカロックとピットスは、これを「シナプス的な修正」の代用として提案した(事実上、1920年代の最初の非シーケンス処理RNNアーキテクチャであるレンツ・イシング・モデル(英語版)を一般化した)。 シナプス接続(synaptic connections)"に短期記憶を保存するための、あまり知られていない別のアプローチ -- 別のnnを介してコンテキストに敏感な時変重み行列のダイナミクスをパラメータ化し、制御することで -- は、シーケンス処理nnsにおける別の"自然な"短期記憶型(fast weight programmers、fwps)を生み出します。 fwpは近年、汎用シーケンスプロセッサとして復活し、様々なタスクで競合性能を達成している。 現在では一般的なトランスフォーマーと密接に関連している。 ここでは、生物学的nnの抽象化として人工nnの文脈でそれらを提示する。 我々はまず、教育目的のためにFWPの側面をレビューし、その後、神経科学からの洞察によって動機付けられた関連作品との関係について論じる。

Short-term memory in standard, general-purpose, sequence-processing recurrent neural networks (RNNs) is stored as activations of nodes or "neurons." Generalising feedforward NNs to such RNNs is mathematically straightforward and natural, and even historical: already in 1943, McCulloch and Pitts proposed this as a surrogate to "synaptic modifications" (in effect, generalising the Lenz-Ising model, the first non-sequence processing RNN architecture of the 1920s). A lesser known alternative approach to storing short-term memory in "synaptic connections" -- by parameterising and controlling the dynamics of a context-sensitive time-varying weight matrix through another NN -- yields another "natural" type of short-term memory in sequence processing NNs: the Fast Weight Programmers (FWPs) of the early 1990s. FWPs have seen a recent revival as generic sequence processors, achieving competitive performance across various tasks. They are formally closely related to the now popular Transformers. Here we present them in the context of artificial NNs as an abstraction of biological NNs -- a perspective that has not been stressed enough in previous FWP work. We first review aspects of FWPs for pedagogical purposes, then discuss connections to related works motivated by insights from neuroscience.
翻訳日:2022-11-18 15:18:21 公開日:2022-11-17
# 添加物製造におけるプロセスパラメータ最適化のための強化学習手法

A Reinforcement Learning Approach for Process Parameter Optimization in Additive Manufacturing ( http://arxiv.org/abs/2211.09545v1 )

ライセンス: Link先を確認
Susheel Dharmadhikari, Nandana Menon, Amrita Basak(参考訳) 金属添加物製造(AM)のプロセス最適化は、繰り返し性の確保、微細構造制御、欠陥の最小化に不可欠である。 従来の実験設計や統計的プロセスマッピングを通じてこの問題に対処する努力にもかかわらず、オンザフライ最適化フレームワークに関する限られた洞察は、金属AMシステムに統合できる。 さらに、これらの手法の多くは、データ集約型であり、予算制限のため、金属AM合金やシステムでは支持できない。 この問題に対処するために、金属AM領域における最適化問題に変換された強化学習(RL)手法を提案する。 定常溶融プール深さを維持する目的で, 最適レーザーパワー(P$)スキャン速度(v$)の組み合わせを求めるために, Q-ラーニングに基づくオフポリチィRLフレームワークを提案する。 このために、実験的に検証されたeagar-tsai定式化は、レーザー指向のエネルギー沈着環境をエミュレートするために使用され、そこでレーザーは、最適に近いメルトプール深さに対する報酬を最大化するように、$p-v$空間を横切るエージェントとして作用する。 トレーニングプロセスの終了は、最も高いQ値を持つ状態(P,v$)が最適化されたプロセスパラメータに対応するQテーブルが得られる。 溶融プール深さとQ値の$P-v$空間へのマッピングは実験結果と一致している。 したがって、このフレームワークは、事前の学習なしに、モデルなしのアプローチを提供する。

Process optimization for metal additive manufacturing (AM) is crucial to ensure repeatability, control microstructure, and minimize defects. Despite efforts to address this via the traditional design of experiments and statistical process mapping, there is limited insight on an on-the-fly optimization framework that can be integrated into a metal AM system. Additionally, most of these methods, being data-intensive, cannot be supported by a metal AM alloy or system due to budget restrictions. To tackle this issue, the article introduces a Reinforcement Learning (RL) methodology transformed into an optimization problem in the realm of metal AM. An off-policy RL framework based on Q-learning is proposed to find optimal laser power ($P$) - scan velocity ($v$) combinations with the objective of maintaining steady-state melt pool depth. For this, an experimentally validated Eagar-Tsai formulation is used to emulate the Laser-Directed Energy Deposition environment, where the laser operates as the agent across the $P-v$ space such that it maximizes rewards for a melt pool depth closer to the optimum. The culmination of the training process yields a Q-table where the state ($P,v$) with the highest Q-value corresponds to the optimized process parameter. The resultant melt pool depths and the mapping of Q-values to the $P-v$ space show congruence with experimental observations. The framework, therefore, provides a model-free approach to learning without any prior.
翻訳日:2022-11-18 15:17:56 公開日:2022-11-17
# Ignore Previous Prompt: 言語モデルに対する攻撃テクニック

Ignore Previous Prompt: Attack Techniques For Language Models ( http://arxiv.org/abs/2211.09527v1 )

ライセンス: Link先を確認
F\'abio Perez and Ian Ribeiro(参考訳) トランスフォーマーベースの大規模言語モデル(llms)は、大規模顧客向けアプリケーションにおける自然言語タスクの強力な基盤を提供する。 しかし、悪意のあるユーザーインタラクションから生じる脆弱性を探求する研究は少ない。 PromptInjectは、マスクベースの反復的逆数生成のためのプロザイクアライメントフレームワークであり、プロダクションにおいて最も広くデプロイされている言語モデルであるGPT-3が、手書き入力で容易にミスアライメント可能であるかを検討する。 特に,目標ハイジャックと即時リークという2種類の攻撃を調査し,低照度でも十分に意図しないエージェントであっても,GPT-3の確率的性質を容易に活用でき,長期的リスクが生じることを示した。 PromptInjectのコードはhttps://github.com/agencyenterprise/PromptInjectにある。

Transformer-based large language models (LLMs) provide a powerful foundation for natural language tasks in large-scale customer-facing applications. However, studies that explore their vulnerabilities emerging from malicious user interaction are scarce. By proposing PromptInject, a prosaic alignment framework for mask-based iterative adversarial prompt composition, we examine how GPT-3, the most widely deployed language model in production, can be easily misaligned by simple handcrafted inputs. In particular, we investigate two types of attacks -- goal hijacking and prompt leaking -- and demonstrate that even low-aptitude, but sufficiently ill-intentioned agents, can easily exploit GPT-3's stochastic nature, creating long-tail risks. The code for PromptInject is available at https://github.com/agencyenterprise/PromptInject.
翻訳日:2022-11-18 15:17:03 公開日:2022-11-17
# 双方向連想記憶の熱力学

Thermodynamics of bidirectional associative memories ( http://arxiv.org/abs/2211.09694v1 )

ライセンス: Link先を確認
Adriano Barra, Giovanni Catania, Aur\'elien Decelle, Beatriz Seoane(参考訳) 本稿では,双方向連想記憶(BAM)の平衡特性について検討する。 ホップフィールドモデルから二部構造への一般化として1988年にKoskoによって導入され、最も単純なアーキテクチャは2つの階層のニューロンで定義され、各層の内部接続がなくても、情報記憶と検索は、ある層から別の層へ流れる神経活動の残響を通じて可能である。 統計物理学の厳密な手法を適用することにより, このモデルの確率的拡張の計算能力を熱力学的極限で特徴づける。 有限温度とノイズレス状態の両方において、レプリカ対称レベルでの位相図の詳細な図が提供される。 制御パラメータとして、遷移曲線(すなわち、機械の様々な動作モードを分割する臨界線)の分析および数値検査を行う。 特に,二つの層間の非対称性が有限であることから,一定数のパターンを符号化するためにパラメータを少なくすることで,bamがホップフィールドモデルよりも効率的に情報を格納できることを示す。 ニューラルダイナミクスの数値シミュレーションとの比較を行った。 最後に,2つの相互作用するホップフィールドモデルに類似したbamの検索機構を説明するために,低負荷解析を行う。 2つの結合された制限ボルトミザン機械のポテンシャル同値性についても論じる。

In this paper we investigate the equilibrium properties of bidirectional associative memories (BAMs). Introduced by Kosko in 1988 as a generalization of the Hopfield model to a bipartite structure, the simplest architecture is defined by two layers of neurons, with synaptic connections only between units of different layers: even without internal connections within each layer, information storage and retrieval are still possible through the reverberation of neural activities passing from one layer to another. We characterize the computational capabilities of a stochastic extension of this model in the thermodynamic limit, by applying rigorous techniques from statistical physics. A detailed picture of the phase diagram at the replica symmetric level is provided, both at finite temperature and in the noiseless regime. An analytical and numerical inspection of the transition curves (namely critical lines splitting the various modes of operation of the machine) is carried out as the control parameters - noise, load and asymmetry between the two layer sizes - are tuned. In particular, with a finite asymmetry between the two layers, it is shown how the BAM can store information more efficiently than the Hopfield model by requiring less parameters to encode a fixed number of patterns. Comparisons are made with numerical simulations of neural dynamics. Finally, a low-load analysis is carried out to explain the retrieval mechanism in the BAM by analogy with two interacting Hopfield models. A potential equivalence with two coupled Restricted Boltmzann Machines is also discussed.
翻訳日:2022-11-18 15:16:18 公開日:2022-11-17
# i see you: 交通監視カメラによる車とペデストリアンのインタラクションデータセット

I see you: A Vehicle-Pedestrian Interaction Dataset from Traffic Surveillance Cameras ( http://arxiv.org/abs/2211.09342v1 )

ライセンス: Link先を確認
Hanan Quispe, Jorshinno Sumire, Patricia Condori, Edwin Alvarez and Harley Vera(参考訳) 自動運転車の開発は、自動車と歩行者の相互作用が頻繁に歩行者に渡される都市交通のシナリオにおいて、新たな課題を引き起こしている。 過去数年間、これらの相互作用をモデル化するいくつかのデータセットが開発されてきた。 しかし、利用可能なデータセットは、私たちのデータセットがカバーするアクシデントに近いシナリオをカバーしません。 YOLOv5とカメラキャリブレーション法を用いたほぼ事故シナリオにおける軌跡データ不足に対処する,新たな車両と歩行者のインタラクションデータセットを紹介します。 クスコ・ペルーの7つの交差点で170のアクシデントが発生しています。 この新しいデータセットとパイプラインコードは、githubから入手できる。

The development of autonomous vehicles arises new challenges in urban traffic scenarios where vehicle-pedestrian interactions are frequent e.g. vehicle yields to pedestrians, pedestrian slows down due approaching to the vehicle. Over the last years, several datasets have been developed to model these interactions. However, available datasets do not cover near-accident scenarios that our dataset covers. We introduce I see you, a new vehicle-pedestrian interaction dataset that tackles the lack of trajectory data in near-accident scenarios using YOLOv5 and camera calibration methods. I see you consist of 170 near-accident occurrences in seven intersections in Cusco-Peru. This new dataset and pipeline code are available on Github.
翻訳日:2022-11-18 15:15:55 公開日:2022-11-17
# リテイクにはフィードバックが必要:視覚障害者のための説明不能なイメージ通知フレームワーク

Feedback is Needed for Retakes: An Explainable Poor Image Notification Framework for the Visually Impaired ( http://arxiv.org/abs/2211.09427v1 )

ライセンス: Link先を確認
Kazuya Ohata, Shunsuke Kitada, Hitoshi Iyatomi(参考訳) 本稿では,画像の品質を判定し,画像の欠陥の原因をユーザに通知する,シンプルで効果的な画像キャプションフレームワークを提案する。 本フレームワークはまず画像の品質を判定し,高品質であると判定された画像のみを用いてキャプションを生成する。 ユーザは、画像品質が低ければ再取り込みする欠陥機能により通知され、このサイクルは、入力画像が高品質であると判断されるまで繰り返される。 フレームワークの構成要素として,画像認識の難しさと個々の欠陥を同時に学習する低品質画像検出モデルを訓練し,評価し,問題点の理由を十分なスコアで説明できることを実証した。 また,このフレームワークによって削除された低品質画像を用いたデータセットを評価し,汎用画像キャプション能力の向上を確認し,4つの共通メトリクス(bleu-4,meteor,rouge-l,ciderなど)の値の改善を確認した。 我々の枠組みは、画質の判断が難しい視覚障害者を支援する。

We propose a simple yet effective image captioning framework that can determine the quality of an image and notify the user of the reasons for any flaws in the image. Our framework first determines the quality of images and then generates captions using only those images that are determined to be of high quality. The user is notified by the flaws feature to retake if image quality is low, and this cycle is repeated until the input image is deemed to be of high quality. As a component of the framework, we trained and evaluated a low-quality image detection model that simultaneously learns difficulty in recognizing images and individual flaws, and we demonstrated that our proposal can explain the reasons for flaws with a sufficient score. We also evaluated a dataset with low-quality images removed by our framework and found improved values for all four common metrics (e.g., BLEU-4, METEOR, ROUGE-L, CIDEr), confirming an improvement in general-purpose image captioning capability. Our framework would assist the visually impaired, who have difficulty judging image quality.
翻訳日:2022-11-18 15:10:21 公開日:2022-11-17
# InstructPix2Pix: イメージ編集指導の学習

InstructPix2Pix: Learning to Follow Image Editing Instructions ( http://arxiv.org/abs/2211.09800v1 )

ライセンス: Link先を確認
Tim Brooks, Aleksander Holynski, Alexei A. Efros(参考訳) 入力画像と、モデルに何をすべきかを指示する書き込み命令が与えられた場合、これらの指示に従って画像の編集を行う。 この問題に対するトレーニングデータを得るために,言語モデル(gpt-3)とテキスト・ツー・イメージモデル(stable diffusion)という2つの大きな事前学習モデルの知識を組み合わせて,画像編集例の大規模なデータセットを生成する。 我々の条件拡散モデルであるInstructPix2Pixは、生成したデータに基づいて訓練され、推論時に実際の画像とユーザ記述命令に一般化される。 フォワードパスで編集を行い、例えば微調整や逆変換を必要としないので、我々のモデルは数秒で迅速に画像を編集する。 入力画像と書込み命令の多種多様なコレクションに対して魅力的な編集結果を示す。

We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the knowledge of two large pretrained models -- a language model (GPT-3) and a text-to-image model (Stable Diffusion) -- to generate a large dataset of image editing examples. Our conditional diffusion model, InstructPix2Pix, is trained on our generated data, and generalizes to real images and user-written instructions at inference time. Since it performs edits in the forward pass and does not require per example fine-tuning or inversion, our model edits images quickly, in a matter of seconds. We show compelling editing results for a diverse collection of input images and written instructions.
翻訳日:2022-11-18 15:10:05 公開日:2022-11-17
# HARDVS:ダイナミックビジョンセンサーによる人間の活動認識の再考

HARDVS: Revisiting Human Activity Recognition with Dynamic Vision Sensors ( http://arxiv.org/abs/2211.09648v1 )

ライセンス: Link先を確認
Xiao Wang, Zongzhen Wu, Bo Jiang, Zhimin Bao, Lin Zhu, Guoqi Li, Yaowei Wang, Yonghong Tian(参考訳) 人間の活動認識(HAR)アルゴリズムの主なストリームは、照明、高速な動き、プライバシー保護、大規模なエネルギー消費に苦しむRGBカメラに基づいて開発されている。 一方、生物学的にインスパイアされたイベントカメラは、高ダイナミックレンジ、高密度の時空間分解能、低レイテンシ、低消費電力などの特徴から、大きな関心を集めている。 新たに発生するセンサであるため、HAR用の現実的な大規模データセットも存在しない。 本稿では,このギャップを埋める大規模なベンチマークデータセットを提案し,300のカテゴリと100K以上のイベントシーケンスを含むHARDVSと呼ぶ。 我々は,複数の一般的なharアルゴリズムの性能を評価し,その性能を報告した。 さらに,イベントストリームに基づく人間行動認識のための新しい時空間特徴学習・融合フレームワークであるESTFを提案する。 まず、イベントストリームをstemnetを使って空間的および時間的埋め込みに投影し、次にトランスフォーマーネットワークを使用してデュアルビュー表現をエンコードし、融合する。 最後に、2つの特徴を連結し、アクティビティ予測のための分類ヘッドに入力する。 複数のデータセットに対する広範囲な実験により、モデルの有効性が完全に検証された。 データセットとソースコードは \url{https://github.com/Event-AHU/HARDVS} でリリースされる。

The main streams of human activity recognition (HAR) algorithms are developed based on RGB cameras which are suffered from illumination, fast motion, privacy-preserving, and large energy consumption. Meanwhile, the biologically inspired event cameras attracted great interest due to their unique features, such as high dynamic range, dense temporal but sparse spatial resolution, low latency, low power, etc. As it is a newly arising sensor, even there is no realistic large-scale dataset for HAR. Considering its great practical value, in this paper, we propose a large-scale benchmark dataset to bridge this gap, termed HARDVS, which contains 300 categories and more than 100K event sequences. We evaluate and report the performance of multiple popular HAR algorithms, which provide extensive baselines for future works to compare. More importantly, we propose a novel spatial-temporal feature learning and fusion framework, termed ESTF, for event stream based human activity recognition. It first projects the event streams into spatial and temporal embeddings using StemNet, then, encodes and fuses the dual-view representations using Transformer networks. Finally, the dual features are concatenated and fed into a classification head for activity prediction. Extensive experiments on multiple datasets fully validated the effectiveness of our model. Both the dataset and source code will be released on \url{https://github.com/Event-AHU/HARDVS}.
翻訳日:2022-11-18 15:09:49 公開日:2022-11-17
# テキストビデオ検索用クロスモーダルアダプタ

Cross-Modal Adapter for Text-Video Retrieval ( http://arxiv.org/abs/2211.09623v1 )

ライセンス: Link先を確認
Haojun Jiang, Jianke Zhang, Rui Huang, Chunjiang Ge, Zanlin Ni, Jiwen Lu, Jie Zhou, Shiji Song, Gao Huang(参考訳) テキストビデオ検索は重要なマルチモーダル学習タスクであり、与えられたテキストクエリに対して最も関連性の高いビデオを取得することを目的としている。 近年、CLIPのような事前訓練されたモデルは、このタスクに大きな可能性を示している。 しかし、事前訓練されたモデルがスケールアップしているため、テキストビデオ検索データセットを十分に微調整することは、過度に適合するリスクが高い。 さらに、実際には、タスクごとに大きなモデルをトレーニングし、保存するのにコストがかかる。 上記の問題を克服するために、パラメータ効率の良い微調整のための新しい$\textbf{Cross-Modal Adapter}$を示す。 アダプタベースの手法にインスパイアされ、いくつかのパラメータ化層で事前学習モデルを調整する。 しかし、2つの顕著な違いがある。 まず,本手法はマルチモーダル領域向けに設計されている。 第二に、CLIPの2つのエンコーダ間の初期の相互モーダル相互作用を可能にする。 驚くほど単純ではあるが、このアプローチには3つの注目すべきメリットがある。(1)$\textbf{99.6}\%の微調整パラメータを削減し、オーバーフィッティングの問題を軽減し、(2)トレーニング時間の約30%を節約し、(3)事前トレーニングされたパラメータを修正できるようにし、データセット間で事前トレーニングされたモデルを共有できるようにする。 MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoのデータセットで完全に調整された手法と比較して、ベルやホイッスルがなければ、優れた、あるいは同等のパフォーマンスを達成できる。 コードは \url{https://github.com/LeapLabTHU/Cross-Modal-Adapter} で入手できる。

Text-video retrieval is an important multi-modal learning task, where the goal is to retrieve the most relevant video for a given text query. Recently, pre-trained models, e.g., CLIP, show great potential on this task. However, as pre-trained models are scaling up, fully fine-tuning them on text-video retrieval datasets has a high risk of overfitting. Moreover, in practice, it would be costly to train and store a large model for each task. To overcome the above issues, we present a novel $\textbf{Cross-Modal Adapter}$ for parameter-efficient fine-tuning. Inspired by adapter-based methods, we adjust the pre-trained model with a few parameterization layers. However, there are two notable differences. First, our method is designed for the multi-modal domain. Secondly, it allows early cross-modal interactions between CLIP's two encoders. Although surprisingly simple, our approach has three notable benefits: (1) reduces $\textbf{99.6}\%$ of fine-tuned parameters, and alleviates the problem of overfitting, (2) saves approximately 30% of training time, and (3) allows all the pre-trained parameters to be fixed, enabling the pre-trained model to be shared across datasets. Extensive experiments demonstrate that, without bells and whistles, it achieves superior or comparable performance compared to fully fine-tuned methods on MSR-VTT, MSVD, VATEX, ActivityNet, and DiDeMo datasets. The code will be available at \url{https://github.com/LeapLabTHU/Cross-Modal-Adapter}.
翻訳日:2022-11-18 15:09:27 公開日:2022-11-17
# ファクト検証のためのデータ効率の高い自己回帰文書検索

Data-Efficient Autoregressive Document Retrieval for Fact Verification ( http://arxiv.org/abs/2211.09388v1 )

ライセンス: Link先を確認
James Thorne(参考訳) 文書検索は、事実の検証や質問への回答など、多くの知識集約型自然言語処理タスクのコアコンポーネントである。 wikipediaの記事などのテキスト知識のソースは、モデルからの回答の生成を条件としています。 検索の最近の進歩は、クエリが与えられた場合、適切なwikipediaページのタイトルを漸進的に予測するためにシーケンシャル・ツー・シーケンス・モデルを用いる。 しかし,本手法では,適切なコンテキストを含むウィキペディアページをラベル付けするには,人間のアノテーションの形式での監督が必要である。 本稿では,ゼロショット環境でR-Precisionとリコールを競合する自己回帰型レトリバーを訓練するためのアノテーションを必要としない遠隔スーパービジョン手法を提案する。 さらに,2つのウィキペディアベースの事実検証タスクに対して,タスク固有の微調整による自己回帰検索性能が,データ効率の高い自己回帰検索の可能な方向を示す注釈付きデータの1/4ドル以下で,完全監督に近づいたり,超えたりできることを示す。

Document retrieval is a core component of many knowledge-intensive natural language processing task formulations such as fact verification and question answering. Sources of textual knowledge, such as Wikipedia articles, condition the generation of answers from the models. Recent advances in retrieval use sequence-to-sequence models to incrementally predict the title of the appropriate Wikipedia page given a query. However, this method requires supervision in the form of human annotation to label which Wikipedia pages contain appropriate context. This paper introduces a distant-supervision method that does not require any annotation to train autoregressive retrievers that attain competitive R-Precision and Recall in a zero-shot setting. Furthermore we show that with task-specific supervised fine-tuning, autoregressive retrieval performance for two Wikipedia-based fact verification tasks can approach or even exceed full supervision using less than $1/4$ of the annotated data indicating possible directions for data-efficient autoregressive retrieval.
翻訳日:2022-11-18 15:08:34 公開日:2022-11-17
# 流れの正規化に基づくsbiアルゴリズムの検証診断

Validation Diagnostics for SBI algorithms based on Normalizing Flows ( http://arxiv.org/abs/2211.09602v1 )

ライセンス: Link先を確認
Julia Linhart (1,2), Alexandre Gramfort (1), Pedro L. C. Rodrigues (2) ((1) MIND - INRIA, (2) University of Paris-Saclay, (3) STATIFY - INRIA)(参考訳) 正規化フロー (NF) と呼ばれる新しい深層生成モデルのトレンドに基づき、シミュレーションベース推論 (SBI) アルゴリズムが任意の複素および高次元データ分布を効率的に適応できるようになった。 しかし、適切な検証方法の開発は遅れている。 実際、既存のメトリックのほとんどは、真の後方分布へのアクセスを必要とするか、あるいは1次元設定を超えて推定された近似の一貫性に関する理論的保証を提供していない。 本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。 局所的一貫性の結果に基づく理論的保証も提供する。 提案するワークフローは、推定子の一貫した振る舞いのチェック、分析、保証に使用できる。 この方法は、計算神経科学の文脈において、密結合パラメータを含む困難な例で示される。 この研究は、より良い特定モデルの設計や、新しいsbi-algorithmsの開発に役立ち、実験科学における重要な疑問に答える能力に対する信頼を築くことができるだろう。

Building on the recent trend of new deep generative models known as Normalizing Flows (NF), simulation-based inference (SBI) algorithms can now efficiently accommodate arbitrary complex and high-dimensional data distributions. The development of appropriate validation methods however has fallen behind. Indeed, most of the existing metrics either require access to the true posterior distribution, or fail to provide theoretical guarantees on the consistency of the inferred approximation beyond the one-dimensional setting. This work proposes easy to interpret validation diagnostics for multi-dimensional conditional (posterior) density estimators based on NF. It also offers theoretical guarantees based on results of local consistency. The proposed workflow can be used to check, analyse and guarantee consistent behavior of the estimator. The method is illustrated with a challenging example that involves tightly coupled parameters in the context of computational neuroscience. This work should help the design of better specified models or drive the development of novel SBI-algorithms, hence allowing to build up trust on their ability to address important questions in experimental science.
翻訳日:2022-11-18 15:07:58 公開日:2022-11-17
# データ次元削減によるMLアルゴリズムの効率化

Data Dimension Reduction makes ML Algorithms efficient ( http://arxiv.org/abs/2211.09392v1 )

ライセンス: Link先を確認
Wisal Khan, Muhammad Turab, Waqas Ahmad, Syed Hasnat Ahmad, Kelash Kumar and Bin Luo(参考訳) データ次元の縮小(DDR)は、高次元から低次元へのデータマッピングに関するものであり、ランダム射影、主成分分析(PCA)、分散アプローチ、LSA変換、結合および直接アプローチ、新しいランダムアプローチなどの様々なDDRの手法が画像次元の縮小に使われている。 自動エンコーダ(AE)はエンドツーエンドマッピングの学習に使用される。 本稿では,事前処理がアルゴリズムを高速化するだけでなく,教師なし学習と教師なし学習の精度を向上させることを示す。 DDRの前処理では、PCAをベースとした最初のDDRが教師なし学習に使用される。 PCAに基づくDDRでは,まず,PCA適用前後の教師付き学習アルゴリズムの精度と時間を比較する。 同様に、AEに基づくDDRでは、教師なし学習アルゴリズムの精度とAE表現学習前後の時間を比較する。 支援ベクトルマシン(SVM)、GINIインデックス付き決定木、エントロピー付き決定木、SGDC(Stochastic Gradient Descent Classifier)およびK平均クラスタリングを含む教師なし学習アルゴリズムを含む教師なし学習アルゴリズムが分類目的に用いられる。 我々はMNISTとFashionMNISTの2つのデータセットを用いて、教師なし学習と教師なし学習の両方において、事前処理後の精度と時間短縮が大幅に改善されていることを示した。

Data dimension reduction (DDR) is all about mapping data from high dimensions to low dimensions, various techniques of DDR are being used for image dimension reduction like Random Projections, Principal Component Analysis (PCA), the Variance approach, LSA-Transform, the Combined and Direct approaches, and the New Random Approach. Auto-encoders (AE) are used to learn end-to-end mapping. In this paper, we demonstrate that pre-processing not only speeds up the algorithms but also improves accuracy in both supervised and unsupervised learning. In pre-processing of DDR, first PCA based DDR is used for supervised learning, then we explore AE based DDR for unsupervised learning. In PCA based DDR, we first compare supervised learning algorithms accuracy and time before and after applying PCA. Similarly, in AE based DDR, we compare unsupervised learning algorithm accuracy and time before and after AE representation learning. Supervised learning algorithms including support-vector machines (SVM), Decision Tree with GINI index, Decision Tree with entropy and Stochastic Gradient Descent classifier (SGDC) and unsupervised learning algorithm including K-means clustering, are used for classification purpose. We used two datasets MNIST and FashionMNIST Our experiment shows that there is massive improvement in accuracy and time reduction after pre-processing in both supervised and unsupervised learning.
翻訳日:2022-11-18 15:07:18 公開日:2022-11-17
# IFQA: 顔の品質評価

IFQA: Interpretable Face Quality Assessment ( http://arxiv.org/abs/2211.07077v2 )

ライセンス: Link先を確認
Byungho Jo and Donghyeon Cho and In Kyu Park and Sungeun Hong(参考訳) 既存の顔復元モデルは、顔領域の特徴を考慮しない一般的な評価指標に依存している。 それゆえ、最近の研究は、スケーラブルではなく、かなりの労力を要する人間研究を用いてその手法を評価している。 本稿では, 顔の復元を模擬し, 識別器が画質を評価する, 対向的な枠組みに基づく新しい顔中心距離法を提案する。 具体的には、従来のメトリクスでは提供できない解釈可能な評価を可能にする。 さらに, 眼, 鼻, 口の微妙な変化が人間の認知に有意な影響を及ぼすことを考慮し, 顔面一次領域に着目した。 我々の顔指向測定基準は、既存の一般または顔画像品質評価基準を印象的なマージンで一貫して上回っている。 提案手法は,様々なアーキテクチャ設計と課題シナリオにおいて汎用性を示す。 興味深いことに、IFQAは客観的な機能として性能改善につながる可能性がある。

Existing face restoration models have relied on general assessment metrics that do not consider the characteristics of facial regions. Recent works have therefore assessed their methods using human studies, which is not scalable and involves significant effort. This paper proposes a novel face-centric metric based on an adversarial framework where a generator simulates face restoration and a discriminator assesses image quality. Specifically, our per-pixel discriminator enables interpretable evaluation that cannot be provided by traditional metrics. Moreover, our metric emphasizes facial primary regions considering that even minor changes to the eyes, nose, and mouth significantly affect human cognition. Our face-oriented metric consistently surpasses existing general or facial image quality assessment metrics by impressive margins. We demonstrate the generalizability of the proposed strategy in various architectural designs and challenging scenarios. Interestingly, we find that our IFQA can lead to performance improvement as an objective function.
翻訳日:2022-11-18 12:56:44 公開日:2022-11-17
# SexWEs: ソーシャルメディアにおける中国語性検知のための言語間セマンティックスペシャライゼーションによるドメイン認識語埋め込み

SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic Specialisation for Chinese Sexism Detection in Social Media ( http://arxiv.org/abs/2211.08447v2 )

ライセンス: Link先を確認
Aiqi Jiang, Arkaitz Zubiaga(参考訳) 性差別検出の目標は、特定の性別グループをターゲットにしたネガティブなオンラインコンテンツを緩和することである。 しかし、ラベル付き性差別関連データセットが限られたため、低リソース言語に対するオンライン性差別を特定することは問題となる。 本稿では,1つの低リソース言語である中国語に対するソーシャルメディアにおける性差別の自動検出の課題に対処する。 新しい性差別データを収集したり、言語間移動学習モデルを構築する代わりに、既存のデータを活用するために言語間ドメイン認識セマンティック・スペシャライゼーション・システムを開発する。 意味的特殊化(semantic specialization)は、外部言語知識(lexico-semantic relationsなど)を特殊化特徴空間に統合することにより、事前訓練された分布的単語ベクトルを再構築する技法である。 これを実現するために、ハイリソース言語(英語)からの性差別のためのセマンティックリソースを活用し、対象言語(中国語)における事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。 本研究は, セクシストの単語埋め込み(sexwes)の利点を, 単語類似性の固有評価とセクシズム検出の極端評価を通じて実証する。 他の特殊化手法や中国語のベースライン単語ベクトルと比較すると,本質的評価と外因的評価では平均スコアが0.033,0.064であった。 また,低リソース言語における単語ベクトルの再構成におけるSexWEsの有効性を検証した。 私たちのコードと性差別に関連する単語ベクトルは公開されます。

The goal of sexism detection is to mitigate negative online content targeting certain gender groups of people. However, the limited availability of labeled sexism-related datasets makes it problematic to identify online sexism for low-resource languages. In this paper, we address the task of automatic sexism detection in social media for one low-resource language -- Chinese. Rather than collecting new sexism data or building cross-lingual transfer learning models, we develop a cross-lingual domain-aware semantic specialisation system in order to make the most of existing data. Semantic specialisation is a technique for retrofitting pre-trained distributional word vectors by integrating external linguistic knowledge (such as lexico-semantic relations) into the specialised feature space. To do this, we leverage semantic resources for sexism from a high-resource language (English) to specialise pre-trained word vectors in the target language (Chinese) to inject domain knowledge. We demonstrate the benefit of our sexist word embeddings (SexWEs) specialised by our framework via intrinsic evaluation of word similarity and extrinsic evaluation of sexism detection. Compared with other specialisation approaches and Chinese baseline word vectors, our SexWEs shows an average score improvement of 0.033 and 0.064 in both intrinsic and extrinsic evaluations, respectively. The ablative results and visualisation of SexWEs also prove the effectiveness of our framework on retrofitting word vectors in low-resource languages. Our code and sexism-related word vectors will be publicly available.
翻訳日:2022-11-18 12:56:31 公開日:2022-11-17
# 自然言語処理を用いたディシプリンの拡散星間バンドのキャリヤ探索

Searching for Carriers of the Diffuse Interstellar Bands Across Disciplines, using Natural Language Processing ( http://arxiv.org/abs/2211.08513v2 )

ライセンス: Link先を確認
Corentin van den Broek d'Obrenan, Fr\'ed\'eric Galliano, Jeremy Minton, Viktor Botev, Ronin Wu(参考訳) 科学出版物の爆発は、研究者に情報を積み重ねる。 これは、いくつかの分野を探求する必要がある学際的な研究にとってさらに劇的である。 研究者がこれを克服するためのツールが自然言語処理(NLP)である。機械学習(ML)技術で、科学者は多くの記事から情報を自動で合成する。 実用的な例として,天体物理学における長年の疑問である拡散型星間バンド (dibs) のキャリアになりうる化合物の学際探索にnlpを用いた。 我々は、オープンアクセスで150万のクロスドメイン記事のコーパス上でNLPモデルをトレーニングし、DIBに関する天体物理論文のコーパスを用いて、このモデルを微調整した。 我々の分析は、主に生物学で研究され、数個のジブの波長で遷移し、豊富な星間原子からなるいくつかの分子を指し示している。 これらの分子のいくつかは、分子の色に責任を持つ小さな分子群であるクロモフォアを含んでいる。 有効なキャリアを特定することは、学際的な方法で、オープンな科学的問題に取り組むためにNLPを使うことの価値を示す。

The explosion of scientific publications overloads researchers with information. This is even more dramatic for interdisciplinary studies, where several fields need to be explored. A tool to help researchers overcome this is Natural Language Processing (NLP): a machine-learning (ML) technique that allows scientists to automatically synthesize information from many articles. As a practical example, we have used NLP to conduct an interdisciplinary search for compounds that could be carriers for Diffuse Interstellar Bands (DIBs), a long-standing open question in astrophysics. We have trained a NLP model on a corpus of 1.5 million cross-domain articles in open access, and fine-tuned this model with a corpus of astrophysical publications about DIBs. Our analysis points us toward several molecules, studied primarily in biology, having transitions at the wavelengths of several DIBs and composed of abundant interstellar atoms. Several of these molecules contain chromophores, small molecular groups responsible for the molecule's colour, that could be promising candidate carriers. Identifying viable carriers demonstrates the value of using NLP to tackle open scientific questions, in an interdisciplinary manner.
翻訳日:2022-11-18 12:56:07 公開日:2022-11-17
# EHRデータを用いた生存分析のためのニューラル付加モデルの拡張

Extending the Neural Additive Model for Survival Analysis with EHR Data ( http://arxiv.org/abs/2211.07814v2 )

ライセンス: Link先を確認
Matthew Peroni, Marharyta Kurban, Sun Young Yang, Young Sun Kim, Hae Yeon Kang, Ji Hyun Song(参考訳) 医療ソリューション開発に機械学習を適用することへの関心が高まっており、生存分析のための解釈可能なディープラーニングモデルを作成したいと考えている。 本稿では,Coxモデルの比例的拡張と非比例的拡張の両方に適合する損失関数をこれらのモデルに装備することにより,ニューラル加算モデル(NAM)を拡張した。 この拡張フレームワークでは、ベンチマークサバイバルデータセットの標準NAMモデルアーキテクチャよりも性能を大幅に向上させる、TimeNAMと呼ばれる非プロポーショナルハザードモデルを構築することができることを示す。 韓国国立大学ガンナムセンター(SNUHGC)の電子健康記録(EHR)データベースのデータにこれらのモデルアーキテクチャを適用し,胃癌予測のための解釈可能なニューラルネットワーク生存モデルを構築した。 私たちは、ベンチマークサバイバル分析データセットと、我々の胃癌データセットの両方で、我々のモデルアーキテクチャが現在の最先端のブラックボックス手法と一致する、あるいは超えるパフォーマンスをもたらすことを実証した。

With increasing interest in applying machine learning to develop healthcare solutions, there is a desire to create interpretable deep learning models for survival analysis. In this paper, we extend the Neural Additive Model (NAM) by incorporating pairwise feature interaction networks and equip these models with loss functions that fit both proportional and non-proportional extensions of the Cox model. We show that within this extended framework, we can construct non-proportional hazard models, which we call TimeNAM, that significantly improve performance over the standard NAM model architecture on benchmark survival datasets. We apply these model architectures to data from the Electronic Health Record (EHR) database of Seoul National University Hospital Gangnam Center (SNUHGC) to build an interpretable neural network survival model for gastric cancer prediction. We demonstrate that on both benchmark survival analysis datasets, as well as on our gastric cancer dataset, our model architectures yield performance that matches, or surpasses, the current state-of-the-art black-box methods.
翻訳日:2022-11-18 12:55:47 公開日:2022-11-17
# 長系列ニュースストーリー生成のためのfnetベースのオートエンコーダ

An FNet based Auto Encoder for Long Sequence News Story Generation ( http://arxiv.org/abs/2211.08295v2 )

ライセンス: Link先を確認
Paul K. Mandal, Rakeshkumar Mahto(参考訳) 本稿では,GoogleのC4データセットに含まれるニュース記事のサブセットからテキストを生成するために,GoogleのFNetアーキテクチャをベースとした自動エンコーダを設計する。 我々は、オートエンコーダや非LLMモデルからテキストを生成する以前の試みと方法について議論する。 FNETはBERTベースのエンコーダに対して、GPUで80%高速に、TPUで70%高速にトレーニングする効率面で、複数の利点がある。 次に、このautencoderの出力を異なるエポックで比較する。 最後に、エンコーダが生成する出力を異なるシードテキストで分析する。

In this paper, we design an auto encoder based off of Google's FNet Architecture in order to generate text from a subset of news stories contained in Google's C4 dataset. We discuss previous attempts and methods to generate text from autoencoders and non LLM Models. FNET poses multiple advantages to BERT based encoders in the realm of efficiency which train 80% faster on GPUs and 70% faster on TPUs. We then compare outputs of how this autencoder perfroms on different epochs. Finally, we analyze what outputs the encoder produces with different seed text.
翻訳日:2022-11-18 12:52:34 公開日:2022-11-17
# 説明不能な軽微な医療報告を要した病変ガイド

Lesion Guided Explainable Few Weak-shot Medical Report Generation ( http://arxiv.org/abs/2211.08732v2 )

ライセンス: Link先を確認
Jinghan Sun, Dong Wei, Liansheng Wang, and Yefeng Zheng(参考訳) 医療画像は臨床診断に広く用いられている。 解釈可能な医療報告の自動生成は、放射線医の負担を軽減し、タイムリーなケアを容易にする。 しかし、既存のレポート自動生成手法では、トレーニングに十分なラベル付きデータが必要である。 さらに、学習したモデルはトレーニングクラスのレポートのみを生成することができ、これまで見つからなかった新しい病気に適応する能力に欠ける。 そこで本研究では,視覚的特徴アライメントと意味的特徴アライメントを通じて,目と新しいクラス間の相関関係を学習し,トレーニング中に観察されない疾患の医療報告を生成するための,弱ショットな医療レポート生成フレームワークを提案する。 病変中心の特徴抽出器とトランスフォーマティブベースのレポート生成モジュールを統合する。 具体的には、病変中心の特徴抽出器が異常領域を検出し、多視点(視覚的および語彙的)埋め込みによる目新しいクラス間の相関を学習する。 そして、検出された領域と対応する埋め込みの特徴をレポート生成モジュールへのマルチビュー入力として連結し、画像中に検出されたテキスト記述及び対応する異常領域を含む説明可能なレポート生成を行う。 解説可能なアノテーションを提供するデータセットであるFFA-IRの実験を行い、本フレームワークが新規疾患の報告生成において他者より優れていることを示す。

Medical images are widely used in clinical practice for diagnosis. Automatically generating interpretable medical reports can reduce radiologists' burden and facilitate timely care. However, most existing approaches to automatic report generation require sufficient labeled data for training. In addition, the learned model can only generate reports for the training classes, lacking the ability to adapt to previously unseen novel diseases. To this end, we propose a lesion guided explainable few weak-shot medical report generation framework that learns correlation between seen and novel classes through visual and semantic feature alignment, aiming to generate medical reports for diseases not observed in training. It integrates a lesion-centric feature extractor and a Transformer-based report generation module. Concretely, the lesion-centric feature extractor detects the abnormal regions and learns correlations between seen and novel classes with multi-view (visual and lexical) embeddings. Then, features of the detected regions and corresponding embeddings are concatenated as multi-view input to the report generation module for explainable report generation, including text descriptions and corresponding abnormal regions detected in the images. We conduct experiments on FFA-IR, a dataset providing explainable annotations, showing that our framework outperforms others on report generation for novel diseases.
翻訳日:2022-11-18 12:52:24 公開日:2022-11-17
# Pyrocumulonimbus(PyroCb)の原因の同定

Identifying the Causes of Pyrocumulonimbus (PyroCb) ( http://arxiv.org/abs/2211.08883v2 )

ライセンス: Link先を確認
Emiliano D\'iaz Salas-Porras, Kenza Tazi, Ashwin Braude, Daniel Okoh, Kara D. Lamb, Duncan Watson-Parris, Paula Harder and Nis Meinert(参考訳) ピロCb(極端の山火事から発生する吹雪雲)の観測データから,最初の因果発見分析を行った。 Invariant Causal Predictionは、pyroCb形成の因果的要因を理解するためのツールの開発に使用された。 これには、バイナリ変数$Y$とマルチ変数に対して$X$が与えられた$E$の条件付き独立性テスト、連続変数$X$と$E$の条件付き独立性テスト、より小さな条件付き独立性テストに依存するgreedy-ICP検索アルゴリズムが含まれます。 これらのツールを用いて, 表面感受性熱流束, 相対湿度850ドルhPa, 風の成分250ドルhPa, マイクロメータ, 熱放射, 対流可能なポテンシャルエネルギー, 高度の7つの因果予測器のサブセットを同定した。

A first causal discovery analysis from observational data of pyroCb (storm clouds generated from extreme wildfires) is presented. Invariant Causal Prediction was used to develop tools to understand the causal drivers of pyroCb formation. This includes a conditional independence test for testing $Y$ conditionally independent of $E$ given $X$ for binary variable $Y$ and multivariate, continuous variables $X$ and $E$, and a greedy-ICP search algorithm that relies on fewer conditional independence tests to obtain a smaller more manageable set of causal predictors. With these tools, we identified a subset of seven causal predictors which are plausible when contrasted with domain knowledge: surface sensible heat flux, relative humidity at $850$ hPa, a component of wind at $250$ hPa, $13.3$\ micro-meters, thermal emissions, convective available potential energy, and altitude.
翻訳日:2022-11-18 12:52:01 公開日:2022-11-17
# 短期量子コンピューティング技術:変分量子アルゴリズム、誤り除去、回路コンパイル、ベンチマークおよび古典シミュレーション

Near-Term Quantum Computing Techniques: Variational Quantum Algorithms, Error Mitigation, Circuit Compilation, Benchmarking and Classical Simulation ( http://arxiv.org/abs/2211.08737v2 )

ライセンス: Link先を確認
He-Liang Huang, Xiao-Yue Xu, Chu Guo, Guojing Tian, Shi-Jie Wei, Xiaoming Sun, Wan-Su Bao, Gui-Lu Long(参考訳) 量子コンピューティング(Quantum Computing)は、計算科学、数学、ファイナンス、薬学、材料科学、化学、暗号などを含む、世界学術、研究センター、産業のゲーム変更技術である。 この10年で大きな成長を遂げたものの、本格的な量子コンピュータが成熟するまでには、まだまだ長い道のりが続いています。 とは言っても、我々は長い間、ノイズ・中間スケール量子(NISQ)時代にあり、数十から数千の量子コンピューティングシステムに取り組んでいる。 そこで、注目すべき課題は、非無視の量子ノイズを持つ短期量子デバイスに対して、確実に非自明なタスクを実行することができるアプリケーションを考案することである。 この課題に対処するために、変分量子アルゴリズム、エラー軽減、量子回路コンパイル、ベンチマークプロトコルなど、いくつかの短期量子コンピューティング技術が提案され、エラーを特徴づけ、緩和し、ノイズに対する一定の耐性を持つアルゴリズムを実装し、短期量子デバイスの能力を高め、有用アプリケーションを実現する能力の境界を探求している。 加えて、短期量子デバイスの開発は、量子アルゴリズムの設計と検証、エラー耐性検証、その他の応用において重要な役割を果たす効率的な古典シミュレーションとは分離できない。 このレビューでは、これらの短期量子コンピューティング技術の徹底的な導入、その進歩の報告、そして最終的にこれらの技術の将来展望について論じる。

Quantum computing is a game-changing technology for global academia, research centers and industries including computational science, mathematics, finance, pharmaceutical, materials science, chemistry and cryptography. Although it has seen a major boost in the last decade, we are still a long way from reaching the maturity of a full-fledged quantum computer. That said, we will be in the Noisy-Intermediate Scale Quantum (NISQ) era for a long time, working on dozens or even thousands of qubits quantum computing systems. An outstanding challenge, then, is to come up with an application that can reliably carry out a nontrivial task of interest on the near-term quantum devices with non-negligible quantum noise. To address this challenge, several near-term quantum computing techniques, including variational quantum algorithms, error mitigation, quantum circuit compilation and benchmarking protocols, have been proposed to characterize and mitigate errors, and to implement algorithms with a certain resistance to noise, so as to enhance the capabilities of near-term quantum devices and explore the boundaries of their ability to realize useful applications. Besides, the development of near-term quantum devices is inseparable from the efficient classical simulation, which plays a vital role in quantum algorithm design and verification, error-tolerant verification and other applications. This review will provide a thorough introduction of these near-term quantum computing techniques, report on their progress, and finally discuss the future prospect of these techniques, which we hope will motivate researchers to undertake additional studies in this field.
翻訳日:2022-11-18 12:51:39 公開日:2022-11-17
# 1型糖尿病におけるインスリン需要の経時的変化

Temporal patterns in insulin needs for Type 1 diabetes ( http://arxiv.org/abs/2211.07393v2 )

ライセンス: Link先を確認
Isabella Degen, Zahraa S. Abdallah(参考訳) 1型糖尿病 (1 type 1 Diabetes, T1D) は、体がインスリンをほとんど、または全く産生しない慢性疾患であり、細胞がエネルギーとして血糖(BG)を使用し、体内のBG濃度を調節するために必要なホルモンである。 正しいインスリン摂取量と時間を見つけることは、複雑で困難であり、まだ未解決のコントロールタスクである。 本研究では,実際の状況で収集された広範囲なデータセットであるopenaps data commons datasetを用いて,炭水化物などの既知の要因や潜在的に新しい要因によって,インスリンに必要な時間的パターンを探索する。 行列プロファイルと多変量クラスタリングを用いて,様々な時系列手法を用いてパターンを抽出した。 T1Dとインスリンのニーズに影響を与える因子を理解するほど、T1D治療のためのデータ駆動技術の構築に貢献できる。

Type 1 Diabetes (T1D) is a chronic condition where the body produces little or no insulin, a hormone required for the cells to use blood glucose (BG) for energy and to regulate BG levels in the body. Finding the right insulin dose and time remains a complex, challenging and as yet unsolved control task. In this study, we use the OpenAPS Data Commons dataset, which is an extensive dataset collected in real-life conditions, to discover temporal patterns in insulin need driven by well-known factors such as carbohydrates as well as potentially novel factors. We utilised various time series techniques to spot such patterns using matrix profile and multi-variate clustering. The better we understand T1D and the factors impacting insulin needs, the more we can contribute to building data-driven technology for T1D treatments.
翻訳日:2022-11-18 12:51:11 公開日:2022-11-17
# 決定論的問題に対する確率的推定器の優越性:ロバスト性、一貫性、知覚品質

Reasons for the Superiority of Stochastic Estimators over Deterministic Ones: Robustness, Consistency and Perceptual Quality ( http://arxiv.org/abs/2211.08944v2 )

ライセンス: Link先を確認
Guy Ohayon, Theo Adrai, Michael Elad, Tomer Michaeli(参考訳) 確率的復元アルゴリズムは、劣化した入力に対応する解の空間を探索することができる。 本稿では, 決定論的手法よりも確率論的手法の基本的な利点を明らかにする。 まず, 完全な知覚的品質を達成し, 入力と一致した出力を持つ復元アルゴリズムは, 後方標本でなければならないことを証明し, 確率的であることが求められる。 第二に、決定論的復元アルゴリズムは高い知覚的品質を達成できるが、これは、非常に敏感なマッピングを用いて、可能なすべてのソースイメージの空間を埋めることによってのみ達成できるので、敵の攻撃に対して非常に脆弱である。 実際,このような攻撃に対して決定論的モデルを強制することは知覚的品質を著しく損なう一方で,確率的モデルの堅牢化は知覚的品質にはほとんど影響を与えず,出力の変動性も向上することを示す。 これらの知見は, 確率的回復手法の進歩を促進する動機となり, 回復アルゴリズムの改善への道を開いた。

Stochastic restoration algorithms allow to explore the space of solutions that correspond to the degraded input. In this paper we reveal additional fundamental advantages of stochastic methods over deterministic ones, which further motivate their use. First, we prove that any restoration algorithm that attains perfect perceptual quality and whose outputs are consistent with the input must be a posterior sampler, and is thus required to be stochastic. Second, we illustrate that while deterministic restoration algorithms may attain high perceptual quality, this can be achieved only by filling up the space of all possible source images using an extremely sensitive mapping, which makes them highly vulnerable to adversarial attacks. Indeed, we show that enforcing deterministic models to be robust to such attacks profoundly hinders their perceptual quality, while robustifying stochastic models hardly influences their perceptual quality, and improves their output variability. These findings provide a motivation to foster progress in stochastic restoration methods, paving the way to better recovery algorithms.
翻訳日:2022-11-18 12:50:54 公開日:2022-11-17
# ParsBERTと不均衡データ処理手法を用いたペルシャ感情検出

Persian Emotion Detection using ParsBERT and Imbalanced Data Handling Approaches ( http://arxiv.org/abs/2211.08029v2 )

ライセンス: Link先を確認
Amirhossein Abaskohi, Nazanin Sabri, Behnam Bahrak(参考訳) 感情認識は、ソーシャルメディア空間から収集したテキスト、音声、画像データを使って行うことができる機械学習アプリケーションの1つである。 感情を検出することは、意見マイニングなど、さまざまな分野で役立ちます。 ソーシャルメディアの普及に伴い、Twitterのようなさまざまなプラットフォームがデータソースとなり、これらのプラットフォームで使用される言語は非公式であり、感情検出作業が困難になっている。 EmoParsとArmanEmoは、ペルシャ語のための新しい人間のラベル付き感情データセットである。 これらのデータセット、特にエモパルは、2つのクラス間のいくつかのサンプル間の不平等に苦しんでいる。 本稿では,EmoParsを評価し,ArmanEmoと比較する。 この分析を通じて,データ拡張法,データ再サンプリング法,クラス重み付け法,トランスフォーマティブ型事前学習言語モデル(plms)を用いて,これらのデータセットの不均衡問題に対処する。 また、テキストの特徴を強調することで、モデルの性能を高めるために特徴選択が用いられる。 さらに,高信頼度サンプルを選択するEmoParsからデータを選択するための新しいポリシーを提供する。その結果,トレーニング中に特定の感情を持たないサンプルは見つからない。 このモデルでは,armanemo と emopars では,マクロ平均 f1-score が 0.81 と 0.76 に到達した。

Emotion recognition is one of the machine learning applications which can be done using text, speech, or image data gathered from social media spaces. Detecting emotion can help us in different fields, including opinion mining. With the spread of social media, different platforms like Twitter have become data sources, and the language used in these platforms is informal, making the emotion detection task difficult. EmoPars and ArmanEmo are two new human-labeled emotion datasets for the Persian language. These datasets, especially EmoPars, are suffering from inequality between several samples between two classes. In this paper, we evaluate EmoPars and compare them with ArmanEmo. Throughout this analysis, we use data augmentation techniques, data re-sampling, and class-weights with Transformer-based Pretrained Language Models(PLMs) to handle the imbalance problem of these datasets. Moreover, feature selection is used to enhance the models' performance by emphasizing the text's specific features. In addition, we provide a new policy for selecting data from EmoPars, which selects the high-confidence samples; as a result, the model does not see samples that do not have specific emotion during training. Our model reaches a Macro-averaged F1-score of 0.81 and 0.76 on ArmanEmo and EmoPars, respectively, which are new state-of-the-art results in these benchmarks.
翻訳日:2022-11-18 12:50:09 公開日:2022-11-17
# 長距離ゼロショット生成深部ネットワーク量子化

Long-Range Zero-Shot Generative Deep Network Quantization ( http://arxiv.org/abs/2211.06816v2 )

ライセンス: Link先を確認
Yan Luo, Yangcheng Gao, Zhao Zhang, Haijun Zhang, Mingliang Xu, Meng Wang(参考訳) 量子化は、推論を加速し計算を減らすために、浮動小数点数を持つディープネットワークモデルを低ビット幅のネットワークモデルに近似する。 元のデータにアクセスせずにモデルを量子化することで、データ合成によって実際のデータ分布を適合させることでゼロショット量子化を実現できる。 しかし、ゼロショット量子化は実データによる後学習量子化よりも性能が劣る。 原因は以下の通り。 1) 通常の発電機は、グローバルな特徴に注意を向ける長距離情報がないため、高い多様性の合成データを得るのは難しい。 2) 合成画像は実データの統計をシミュレートすることを目的としており, クラス内不均一性が弱く, 特徴量も限られている。 これらの問題を解決するために,Long-Range Zero-Shot Generative Deep Network Quantization (LRQ) と呼ばれる新しいディープネットワーク量子化器を提案する。 技術的には、単純な局所的特徴ではなく、長距離情報を学ぶための長距離生成器を提案する。 合成データがよりグローバルな特徴を含むためには、大きなカーネル畳み込みを用いた長距離の注意を発電機に組み込む。 また,特徴ベクトルとクラス中心の間のクラス内角拡大を強制するAdversarial Margin Add (AMA)モジュールも提案する。 amaは、元の損失関数の訓練目的とは逆の損失関数の収束困難度を増大させるので、逆プロセスを形成する。 さらに, 完全精度ネットワークから知識を伝達するために, 分離された知識蒸留も活用する。 広範な実験により、LRQは他の競合他社よりも優れた性能が得られることが示された。

Quantization approximates a deep network model with floating-point numbers by the one with low bit width numbers, in order to accelerate inference and reduce computation. Quantizing a model without access to the original data, zero-shot quantization can be accomplished by fitting the real data distribution by data synthesis. However, zero-shot quantization achieves inferior performance compared to the post-training quantization with real data. We find it is because: 1) a normal generator is hard to obtain high diversity of synthetic data, since it lacks long-range information to allocate attention to global features; 2) the synthetic images aim to simulate the statistics of real data, which leads to weak intra-class heterogeneity and limited feature richness. To overcome these problems, we propose a novel deep network quantizer, dubbed Long-Range Zero-Shot Generative Deep Network Quantization (LRQ). Technically, we propose a long-range generator to learn long-range information instead of simple local features. In order for the synthetic data to contain more global features, long-range attention using large kernel convolution is incorporated into the generator. In addition, we also present an Adversarial Margin Add (AMA) module to force intra-class angular enlargement between feature vector and class center. As AMA increases the convergence difficulty of the loss function, which is opposite to the training objective of the original loss function, it forms an adversarial process. Furthermore, in order to transfer knowledge from the full-precision network, we also utilize a decoupled knowledge distillation. Extensive experiments demonstrate that LRQ obtains better performance than other competitors.
翻訳日:2022-11-18 12:49:47 公開日:2022-11-17