このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220618となっている論文です。

PDF登録状況(公開日: 20220618)

TitleAuthorsAbstract論文公表日・翻訳日
# HERS:同型暗号化表現検索

HERS: Homomorphically Encrypted Representation Search ( http://arxiv.org/abs/2003.12197v3 )

ライセンス: Link先を確認
Joshua J. Engelsma and Anil K. Jain and Vishnu Naresh Boddeti(参考訳) 暗号化されたドメイン内の大きなギャラリーに対して,プローブ(あるいはクエリ)画像表現を検索する手法を提案する。 学習ネットワークから得られた表現に典型的である固定長表現を用いて,探索画像とギャラリー画像の表現が要求される。 我々の暗号方式は固定長表現の取得方法に従わないため、任意のアプリケーション領域における固定長表現に適用できる。 本手法はhers (homomorphically encrypted representation search) と呼ばれる。 (i)精度の最小限の損失で推定本質的次元に向かって表現を圧縮すること (ii)完全準同型暗号方式を用いて圧縮表現を暗号化すること、及び (iii)暗号化ドメイン内で直接暗号化された表現のギャラリーを復号することなく効率的に検索する。 ImageNetのような顔、指紋、オブジェクトのデータセットの大きなギャラリーでの数値的な結果から、暗号化されたドメイン内の正確で高速な画像検索は、スケールで実現可能である(500秒; 275\times$ speed up over the-of-the-art search against a Gallery)。 コードはhttps://github.com/human- analysis/hers-encrypted-image-searchで入手できる。

We present a method to search for a probe (or query) image representation against a large gallery in the encrypted domain. We require that the probe and gallery images be represented in terms of a fixed-length representation, which is typical for representations obtained from learned networks. Our encryption scheme is agnostic to how the fixed-length representation is obtained and can therefore be applied to any fixed-length representation in any application domain. Our method, dubbed HERS (Homomorphically Encrypted Representation Search), operates by (i) compressing the representation towards its estimated intrinsic dimensionality with minimal loss of accuracy (ii) encrypting the compressed representation using the proposed fully homomorphic encryption scheme, and (iii) efficiently searching against a gallery of encrypted representations directly in the encrypted domain, without decrypting them. Numerical results on large galleries of face, fingerprint, and object datasets such as ImageNet show that, for the first time, accurate and fast image search within the encrypted domain is feasible at scale (500 seconds; $275\times$ speed up over state-of-the-art for encrypted search against a gallery of 100 million). Code is available at https://github.com/human-analysis/hers-encrypted-image-search
翻訳日:2022-12-19 04:54:16 公開日:2022-06-18
# サンプリングのためのhessian-free high- resolution nesterovacceleration

Hessian-Free High-Resolution Nesterov Acceleration for Sampling ( http://arxiv.org/abs/2006.09230v4 )

ライセンス: Link先を確認
Ruilin Li, Hongyuan Zha, Molei Tao(参考訳) 最適化のためのネステロフの加速勾配(nag)は、有限ステップサイズを採用した場合の連続時間制限(ノイズなし速度ランジュバン)よりも優れた性能を示す。 本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。 より正確には、強凸関数(NAG-SC)に対するNAGの最適化をヘッセンフリー高分解能ODEとして再構成し、高分解能係数をハイパーパラメータに変更し、適切なノイズを注入し、その結果の拡散過程を離散化する。 新しいハイパーパラメータの加速度効果を定量化し、時間再スケーリングによって生成された人工的な効果ではない。 代わりに、連続ダイナミクスレベルと離散アルゴリズムレベルの両方において、w_2$距離のアンダーダンドランジュバンを超える加速度は、ログに強い凹凸とスムースターゲットに対して定量的に確立される。 log-strongly-concaveとmulti-modalのケースでの実証実験も、この加速を数値的に示している。

Nesterov's Accelerated Gradient (NAG) for optimization has better performance than its continuous time limit (noiseless kinetic Langevin) when a finite step-size is employed \citep{shi2021understanding}. This work explores the sampling counterpart of this phenonemon and proposes a diffusion process, whose discretizations can yield accelerated gradient-based MCMC methods. More precisely, we reformulate the optimizer of NAG for strongly convex functions (NAG-SC) as a Hessian-Free High-Resolution ODE, change its high-resolution coefficient to a hyperparameter, inject appropriate noise, and discretize the resulting diffusion process. The acceleration effect of the new hyperparameter is quantified and it is not an artificial one created by time-rescaling. Instead, acceleration beyond underdamped Langevin in $W_2$ distance is quantitatively established for log-strongly-concave-and-smooth targets, at both the continuous dynamics level and the discrete algorithm level. Empirical experiments in both log-strongly-concave and multi-modal cases also numerically demonstrate this acceleration.
翻訳日:2022-11-20 20:12:26 公開日:2022-06-18
# MRI再構成と解析のための共同周波数と画像空間学習

Joint Frequency and Image Space Learning for MRI Reconstruction and Analysis ( http://arxiv.org/abs/2007.01441v4 )

ライセンス: Link先を確認
Nalini M. Singh, Juan Eugenio Iglesias, Elfar Adalsteinsson, Adrian V. Dalca, Polina Golland(参考訳) 本稿では、周波数と画像の特徴表現を明示的に組み合わせたニューラルネットワーク層を提案し、周波数空間データから再構成するための汎用的なビルディングブロックとして使用できることを示す。 私たちの研究は、信号が所望の画像の劣化したフーリエ変換であるmri取得の課題に起因しています。 提案手法は,周波数空間に固有なアーティファクトの補正と画像空間表現の操作を両立させ,ネットワークの各層におけるコヒーレントな画像構造を再構築する。 これは、周波数と画像空間の特徴を別々に扱い、しばしば2つの空間の1つでのみ操作する、現在の画像再構成のディープラーニングアプローチと対照的である。 シミュレーションと実世界のマルチコイルMRIデータに対するアンダーサンプリングとモーション補正を併用し, 動作補正, デノイング, アンダーサンプル取得からの再構築, および, 共同畳み込み学習の利点を実証した。 ジョイントモデルでは、すべてのタスクとデータセットにわたって一貫して高品質な出力画像を生成する。 物理にインスパイアされたデータ一貫性制約を満たした最先端の最適化ネットワークに組み込むと、提案されたアーキテクチャは最適化のランドスケープを大幅に改善し、トレーニング時間の桁違いな削減をもたらす。 この結果は,関節表現が深層学習ネットワークにおけるMRI信号に特に適していることを示唆している。 私たちのコードと事前訓練されたモデルはhttps://github.com/nalinimsingh/interlacer.comで公開されています。

We propose neural network layers that explicitly combine frequency and image feature representations and show that they can be used as a versatile building block for reconstruction from frequency space data. Our work is motivated by the challenges arising in MRI acquisition where the signal is a corrupted Fourier transform of the desired image. The proposed joint learning schemes enable both correction of artifacts native to the frequency space and manipulation of image space representations to reconstruct coherent image structures at every layer of the network. This is in contrast to most current deep learning approaches for image reconstruction that treat frequency and image space features separately and often operate exclusively in one of the two spaces. We demonstrate the advantages of joint convolutional learning for a variety of tasks, including motion correction, denoising, reconstruction from undersampled acquisitions, and combined undersampling and motion correction on simulated and real world multicoil MRI data. The joint models produce consistently high quality output images across all tasks and datasets. When integrated into a state of the art unrolled optimization network with physics-inspired data consistency constraints for undersampled reconstruction, the proposed architectures significantly improve the optimization landscape, which yields an order of magnitude reduction of training time. This result suggests that joint representations are particularly well suited for MRI signals in deep learning networks. Our code and pretrained models are publicly available at https://github.com/nalinimsingh/interlacer.
翻訳日:2022-11-14 14:10:29 公開日:2022-06-18
# 低次多項式による計算障壁の推定

Computational Barriers to Estimation from Low-Degree Polynomials ( http://arxiv.org/abs/2008.02269v2 )

ライセンス: Link先を確認
Tselil Schramm and Alexander S. Wein(参考訳) 高次元統計の基本的な目標は、ノイズデータに隠された植木構造(低ランク行列など)を検知または回収することである。 このような問題に対する計算の制限モデルとして低次多項式を研究し、データの低次多項式が最もよく知られた多項式時間アルゴリズムの統計的性能と一致することが様々な環境で実証されている。 先行研究は隠れ構造の存在を検出するタスクのために低次多項式のパワーを研究した。 本研究では,これらの手法を拡張して,推定とリカバリの問題(検出に代えて)に対処する。 大規模な「信号+雑音」問題に対して、任意の次数D多項式で達成可能な最良の平均二乗誤差に対して、ユーザフレンドリな下界を与える。 我々の知る限り、これらは、関連する検出が容易な回復問題の低次硬度化を最初に達成した結果である。 応用として,植込みサブマトリクスの低次平均二乗誤差と高密度サブグラフ問題を厳密に評価し,両ケースにおける回復の計算複雑性に関する問題を解き放つ(低次フレームワークにおける)。

One fundamental goal of high-dimensional statistics is to detect or recover planted structure (such as a low-rank matrix) hidden in noisy data. A growing body of work studies low-degree polynomials as a restricted model of computation for such problems: it has been demonstrated in various settings that low-degree polynomials of the data can match the statistical performance of the best known polynomial-time algorithms. Prior work has studied the power of low-degree polynomials for the task of detecting the presence of hidden structures. In this work, we extend these methods to address problems of estimation and recovery (instead of detection). For a large class of "signal plus noise" problems, we give a user-friendly lower bound for the best possible mean squared error achievable by any degree-D polynomial. To our knowledge, these are the first results to establish low-degree hardness of recovery problems for which the associated detection problem is easy. As applications, we give a tight characterization of the low-degree minimum mean squared error for the planted submatrix and planted dense subgraph problems, resolving (in the low-degree framework) open problems about the computational complexity of recovery in both cases.
翻訳日:2022-11-02 18:47:05 公開日:2022-06-18
# 自動取引プラットフォームコンポーネントの統計的に一様かつ比較可能な評価のためのジェネリック手法

A Generic Methodology for the Statistically Uniform & Comparable Evaluation of Automated Trading Platform Components ( http://arxiv.org/abs/2009.09993v4 )

ライセンス: Link先を確認
Artur Sokolovsky and Luca Arnaboldi(参考訳) 機械学習のアプローチは、金融の分野では広く使われているが、非常に成功した学位では、説明可能性、比較可能性、再現性の観点から、特定の調査や不透明さに注意が払われている。 本研究の主な目的は、金融市場の実践者に対して調査に無関係で解釈可能な一般的な方法論を提供することで、その効率を向上し、参入障壁を減らし、実験の再現性を高めることであった。 提案手法は2つの自動トレーディングプラットフォームコンポーネントで実証される。 すなわち、価格レベル、よく知られた取引パターン、および新しい2段階特徴抽出方法である。 この方法論は仮説テストに依存しており、単純な分類精度以上の具体的な結果を効果的に評価するために、他の社会的・科学的分野に広く適用されている。 主な仮説は、選択された取引パターンが機械学習環境での使用に適しているかどうかを評価するために定式化された。 実験を通じて、マシンラーニング環境でのトレーディングパターンの使用は、統計によって部分的にしかサポートされないことが判明し、結果として重要な効果サイズ(リバウンド7$0.64 \pm 1.02$、リバウンド11$0.38 \pm 0.98$、リバウンド15 - $1.05 \pm 1.16$)になる。 当社はus futures market instrumentで一般的な方法論を紹介し、この手法により、従来のパフォーマンスや収益性指標を越えて、より有用なメトリクスを簡単に得ることができるという証拠を提供した。 この研究は、この厳格な統計的支援を受けたアプローチを金融市場に適用した最初の1つであり、さらなる研究の出発点になることを願っている。

Although machine learning approaches have been widely used in the field of finance, to very successful degrees, these approaches remain bespoke to specific investigations and opaque in terms of explainability, comparability, and reproducibility. The primary objective of this research was to shed light upon this field by providing a generic methodology that was investigation-agnostic and interpretable to a financial markets practitioner, thus enhancing their efficiency, reducing barriers to entry, and increasing the reproducibility of experiments. The proposed methodology is showcased on two automated trading platform components. Namely, price levels, a well-known trading pattern, and a novel 2-step feature extraction method. The methodology relies on hypothesis testing, which is widely applied in other social and scientific disciplines to effectively evaluate the concrete results beyond simple classification accuracy. The main hypothesis was formulated to evaluate whether the selected trading pattern is suitable for use in the machine learning setting. Across the experiments we found that the use of the considered trading pattern in the machine learning setting is only partially supported by statistics, resulting in insignificant effect sizes (Rebound 7 - $0.64 \pm 1.02$, Rebound 11 $0.38 \pm 0.98$, and rebound 15 - $1.05 \pm 1.16$), but allowed the rejection of the null hypothesis. We showcased the generic methodology on a US futures market instrument and provided evidence that with this methodology we could easily obtain informative metrics beyond the more traditional performance and profitability metrics. This work is one of the first in applying this rigorous statistically-backed approach to the field of financial markets and we hope this may be a springboard for more research.
翻訳日:2022-10-16 05:44:10 公開日:2022-06-18
# 多言語BERT, 小コーパス, 小木バンクによる構文解析

Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank ( http://arxiv.org/abs/2009.14124v3 )

ライセンス: Link先を確認
Ethan C. Chau, Lucy H. Lin, Noah A. Smith(参考訳) 事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練データの制限のため、すべての言語品種に等しく適用されない。 これは、これらのモデルになじみのない言語多様体に対する挑戦を示しており、それらのデータは、単言語モデルを効果的に訓練するには制限されすぎている。 低リソース環境に多言語モデルを適用するために,言語固有の事前訓練と語彙拡張を提案する。 4種類の低リソース言語の依存解析をケーススタディとして用い,これらの手法がベースライン,特に低リソースの場合における性能を著しく向上し,それらのモデルの事前学習データと対象言語種との関係の重要性を実証した。

Pretrained multilingual contextual representations have shown great success, but due to the limits of their pretraining data, their benefits do not apply equally to all language varieties. This presents a challenge for language varieties unfamiliar to these models, whose labeled \emph{and unlabeled} data is too limited to train a monolingual model effectively. We propose the use of additional language-specific pretraining and vocabulary augmentation to adapt multilingual models to low-resource settings. Using dependency parsing of four diverse low-resource language varieties as a case study, we show that these methods significantly improve performance over baselines, especially in the lowest-resource cases, and demonstrate the importance of the relationship between such models' pretraining data and target language varieties.
翻訳日:2022-10-13 06:19:12 公開日:2022-06-18
# ベイズニューラルネットワークの効率的かつ転送可能な逆例

Efficient and Transferable Adversarial Examples from Bayesian Neural Networks ( http://arxiv.org/abs/2011.05074v4 )

ライセンス: Link先を確認
Martin Gubri, Maxime Cordy, Mike Papadakis, Yves Le Traon, Koushik Sen(参考訳) ブラックボックス回避攻撃の転送性を改善するための確立された方法は、多様性を高めるためにアンサンブルベースのサロゲート上で敵対的な例を作成することである。 我々は、転送性は基本的に不確実性と関連していると主張する。 本稿では,最先端のベイズ深層学習手法に基づいて,ニューラルネットワーク重みの後方分布から推定し,各パラメータの値に対する信念を推定し,サーロゲートを効率的に構築する手法を提案する。 imagenet, cifar-10, mnistに関する広範な実験により,我々は,アーキテクチャ内およびアーキテクチャ間における4つの攻撃成功率(最大83.2ポイント)を有意に向上させた。 imagenetでは、独立に訓練されたdnnのアンサンブルに比べて、トレーニング計算を11.6から2.4exaflopsに削減しながら、成功率の94%に達することができる。 私たちのバニラサロゲートは、この目的のために設計された3つのテストタイム技術よりも87.5%高い転送性を達成しています。 我々の研究は、転送ベースの攻撃の重要な要素であるが、サロゲートの訓練方法が見過ごされていることを示している。 そこで,本研究では,トランスファー性向上におけるトレーニング手法の有効性を最初に検討する。 トランスファービリティ現象をよりよく理解するための新しい方向性を提供し、将来の作業にシンプルだが強力なベースラインを提供します。

An established way to improve the transferability of black-box evasion attacks is to craft the adversarial examples on an ensemble-based surrogate to increase diversity. We argue that transferability is fundamentally related to uncertainty. Based on a state-of-the-art Bayesian Deep Learning technique, we propose a new method to efficiently build a surrogate by sampling approximately from the posterior distribution of neural network weights, which represents the belief about the value of each parameter. Our extensive experiments on ImageNet, CIFAR-10 and MNIST show that our approach improves the success rates of four state-of-the-art attacks significantly (up to 83.2 percentage points), in both intra-architecture and inter-architecture transferability. On ImageNet, our approach can reach 94% of success rate while reducing training computations from 11.6 to 2.4 exaflops, compared to an ensemble of independently trained DNNs. Our vanilla surrogate achieves 87.5% of the time higher transferability than three test-time techniques designed for this purpose. Our work demonstrates that the way to train a surrogate has been overlooked, although it is an important element of transfer-based attacks. We are, therefore, the first to review the effectiveness of several training methods in increasing transferability. We provide new directions to better understand the transferability phenomenon and offer a simple but strong baseline for future work.
翻訳日:2022-09-27 06:46:25 公開日:2022-06-18
# 正規化による相互情報に基づく損失の不安定化

Combating the Instability of Mutual Information-based Losses via Regularization ( http://arxiv.org/abs/2011.07932v4 )

ライセンス: Link先を確認
Kwanghee Choi and Siyeong Lee(参考訳) ニューラルネットワーク駆動型相互情報(MI)境界に基づく機械学習の多くの分野において、注目すべき進歩がなされている。 しかし,従来のmiベース損失の活用は,その実用的・数学的限界から困難であることが多い。 本研究では,(1)損失が収束した後でも収束しないニューラルネットワーク,(2)損失を発生させるニューラルネットワーク出力の飽和,という不安定性の背後にある症状を明らかにする。 既存の損失に新たな正規化用語を追加することで、両方の問題を緩和します。 正規化の付加がトレーニングを安定させることを理論的および実験的に実証する。 最後に、MI推定能力と下流タスクの能力の両方に対するMIに基づく損失を、既存の教師付きおよびコントラスト付き学習設定に忠実に追従して評価する新しいベンチマークを提案する。 我々は、複数のベンチマークで6つの異なるmiベース損失とその正規化比較を評価し、我々のアプローチが単純かつ効果的であることを示す。

Notable progress has been made in numerous fields of machine learning based on neural network-driven mutual information (MI) bounds. However, utilizing the conventional MI-based losses is often challenging due to their practical and mathematical limitations. In this work, we first identify the symptoms behind their instability: (1) the neural network not converging even after the loss seemed to converge, and (2) saturating neural network outputs causing the loss to diverge. We mitigate both issues by adding a novel regularization term to the existing losses. We theoretically and experimentally demonstrate that added regularization stabilizes training. Finally, we present a novel benchmark that evaluates MI-based losses on both the MI estimation power and its capability on the downstream tasks, closely following the pre-existing supervised and contrastive learning settings. We evaluate six different MI-based losses and their regularized counterparts on multiple benchmarks to show that our approach is simple yet effective.
翻訳日:2022-09-24 23:57:14 公開日:2022-06-18
# AIベースのチャットボット: 顧客のサービスアシストを活用するアプローチ

AI Based Chatbot: An Approach of Utilizing On Customer Service Assistance ( http://arxiv.org/abs/2207.10573v1 )

ライセンス: Link先を確認
Rejwan Bin Sulaiman(参考訳) 最高の顧客エクスペリエンスを提供することは、オンラインベースの企業にとって大きな関心事のひとつです。 マシンラーニングの進歩は、チャットボットソリューションを実装することによって、サービス品質を改善することによって、顧客に対する同社の態度に革命をもたらしている。 この技術の導入は、チャットボットシステムの新たな改善と効率性によって増加している。 本論文では, ak trading ltd を事例として, チャットボットシステムの概念を概説する。 それは、利用可能なさまざまなチャットボット技術の研究と、研究に基づいて、会社のためのチャットボットシステムの開発にそれらを使用する。 このシステムは、自然言語で人間と対話できる会話エージェントとして、テキストに基づいて動作する。 主な目的は、よく定義されたアプローチで複雑な質問や論理的な回答に従えるチャットボットソリューションを開発することである。 最終的な目標は、ユーザ入力(クエスト)に基づいた高品質な結果(回答)を提供することです。 このプロジェクトを成功させるために、利用可能なさまざまな機械学習技術を詳細に分析し、十分に構造化された実装に続き、企業にとって最良のソリューションを見つけました。 このプロジェクトの主な関心事は自然言語処理(NLP)、機械学習、ベクトル空間モデル(VSM)である。 プロジェクトの成果は、企業のためのチャットボットシステムの実装における妥当な品質レベルでの問題解決技術を示している。

Providing the best customer experience is one of the primary concerns for the firms that are based online. The advancement of machine learning is revolutionising the company's attitude towards the client through improving the service quality by implementing chatbot solutions, which gives the user instant and satisfactory answers to their enquiries. The acceptance of this technology is increasing with the new improvements and efficiency of the chatbot system. This thesis paper will cover the concept of chatbot system for the company, as a use case we took AK traders Ltd. It involves the research work on various chatbot technologies available and based on research, use them to develop a chatbot system for the company. This system will work based on the text as a conversational agent that can interact with humans by natural language. The main objective project is to develop the chatbot solution that could comply with complex questions and logical output answers in a well-defined approach. The ultimate goal is to give high-quality results (answers) based on user input (question). For the successful implementation of this project, we have undertaken an in-depth analysis of the various machine learning techniques available and followed well-structured implementation to figure out the best solution for the company. The primary concern of this project includes natural language processing (NLP), machine learning and the vector space model (VSM). The outcome of the project shows the problem-solving technique for the implementation of the chatbot system for the company at a reasonable quality level
翻訳日:2022-07-24 11:48:52 公開日:2022-06-18
# ランダム・トランスフォーメーション・ディフェンスの対向ロバスト性

Demystifying the Adversarial Robustness of Random Transformation Defenses ( http://arxiv.org/abs/2207.03574v1 )

ライセンス: Link先を確認
Chawin Sitawarin, Zachary Golan-Strieb, David Wagner(参考訳) ニューラルネットワークによる攻撃に対する堅牢性の欠如は、自動運転車のようなセキュリティに敏感な設定の懸念を引き起こす。 多くの対策が期待できるように見えるが、厳格な評価に耐えられるものはわずかである。 ランダムトランスフォーメーション(RT)を使ったディフェンスでは、特にImageNet上のBaRT(Raff et al., 2019)が印象的な結果を示している。 しかし、この種の防御は厳密には評価されておらず、堅牢性はよく分かっていない。 これらの確率的特性は評価をより困難にし、決定論的モデルに対する多くの提案された攻撃を適用不能にする。 まず, BaRT の評価に使用される BPDA 攻撃 (Athalye et al., 2018a) が非効率であり, その頑健さを過大評価していることを示す。 次に、変換の情報選択とパラメータの調整のためのベイズ最適化により、最強のRTディフェンスの構築を試みる。 さらに、RT防御を評価するための最強の攻撃を作成する。 私たちの新たな攻撃はベースラインを大幅に上回り、一般的に使用されるEoT攻撃(4.3\times$ Improvement)による19%の削減に比べて精度が83%低下します。 その結果、Imagenetteデータセット(ImageNetの10クラスのサブセット)のRT防御は、敵の例に対して堅牢ではないことが示唆された。 研究をさらに進めると、我々の新たな攻撃でRT防衛(AdvRT)を敵に訓練し、その結果、ロバスト性が大きく向上する。 コードはhttps://github.com/wagnergroup/demystify-random-transformで入手できる。

Neural networks' lack of robustness against attacks raises concerns in security-sensitive settings such as autonomous vehicles. While many countermeasures may look promising, only a few withstand rigorous evaluation. Defenses using random transformations (RT) have shown impressive results, particularly BaRT (Raff et al., 2019) on ImageNet. However, this type of defense has not been rigorously evaluated, leaving its robustness properties poorly understood. Their stochastic properties make evaluation more challenging and render many proposed attacks on deterministic models inapplicable. First, we show that the BPDA attack (Athalye et al., 2018a) used in BaRT's evaluation is ineffective and likely overestimates its robustness. We then attempt to construct the strongest possible RT defense through the informed selection of transformations and Bayesian optimization for tuning their parameters. Furthermore, we create the strongest possible attack to evaluate our RT defense. Our new attack vastly outperforms the baseline, reducing the accuracy by 83% compared to the 19% reduction by the commonly used EoT attack ($4.3\times$ improvement). Our result indicates that the RT defense on the Imagenette dataset (a ten-class subset of ImageNet) is not robust against adversarial examples. Extending the study further, we use our new attack to adversarially train RT defense (called AdvRT), resulting in a large robustness gain. Code is available at https://github.com/wagnergroup/demystify-random-transform.
翻訳日:2022-07-17 17:04:33 公開日:2022-06-18
# (参考訳) 対人ロバストネスは怠け者トレーニングのオッズにある

Adversarial Robustness is at Odds with Lazy Training ( http://arxiv.org/abs/2207.00411v1 )

ライセンス: CC BY 4.0
Yunjuan Wang, Enayat Ullah, Poorya Mianjy, Raman Arora(参考訳) 近年の研究では、ランダムニューラルネットワークは敵対的攻撃(Daniely and Schacham, 2020)に対して脆弱であり、そのような攻撃は勾配降下の一段階(Bubeck et al., 2021)で容易に発見できることが示されている。 この研究では、さらに一歩進めて、いわゆる遅延レジームで訓練されたネットワークに対して、1つの勾配ステップで逆の例を見つけることができることを示す。 この仕組みは、ニューラルネットワークの重みが初期化に近くても、一階法で効率的に見つかるような一般化誤差の少ないネットワークが存在する点が興味深い。 我々の研究は、ニューラルネットワークが確実に効率的に学習できる支配的な体制である遅延体制のモデルに挑戦する。 この手法で訓練されたネットワークは、十分な理論計算の保証を享受しながらも、敵の例に対して脆弱であることを示す。 私たちの知る限りでは、このようなよく一般化可能なニューラルネットワークがいまだに敵の攻撃に対して脆弱であることを証明する最初の研究である。

Recent works show that random neural networks are vulnerable against adversarial attacks [Daniely and Schacham, 2020] and that such attacks can be easily found using a single step of gradient descent [Bubeck et al., 2021]. In this work, we take it one step further and show that a single gradient step can find adversarial examples for networks trained in the so-called lazy regime. This regime is interesting because even though the neural network weights remain close to the initialization, there exist networks with small generalization error, which can be found efficiently using first-order methods. Our work challenges the model of the lazy regime, the dominant regime in which neural networks are provably efficiently learnable. We show that the networks trained in this regime, even though they enjoy good theoretical computational guarantees, remain vulnerable to adversarial examples. To the best of our knowledge, this is the first work to prove that such well-generalizable neural networks are still vulnerable to adversarial attacks.
翻訳日:2022-07-10 16:30:35 公開日:2022-06-18
# ビデオのための自己監督型学習: 調査

Self-Supervised Learning for Videos: A Survey ( http://arxiv.org/abs/2207.00419v1 )

ライセンス: Link先を確認
Madeline C. Schiappa and Yogesh S. Rawat and Mubarak Shah(参考訳) さまざまな領域におけるディープラーニングの顕著な成功は、大規模な注釈付きデータセットの可用性に依存している。 しかしながら、人為的なアノテーションの使用は、バイアス学習、ドメインの一般化の貧弱、堅牢性の劣るモデルにつながる。 アノテーションの取得も高価で、非常に努力を要するため、特にビデオでは難しい。 代わりに、自己教師付き学習は、アノテーションを必要とせず、画像領域とビデオ領域の両方で約束を示す表現学習の方法を提供する。 画像領域と異なり、時間次元による映像表現の学習はより困難であり、動きやその他の環境力学をもたらす。 これはまた、ビデオおよびマルチモーダル領域における自己教師型学習を促進する排他的アイデアの機会を提供する。 本稿では,ビデオ領域に着目した自己教師付き学習における既存のアプローチについて概観する。 これらの手法を,前文課題,生成モデリング,コントラスト学習という学習目標に基づいて,3つのカテゴリにまとめる。 これらのアプローチは、ビデオ、ビデオオーディオ、ビデオテキスト、ビデオオーディオテキストといった、使われているモダリティについても異なる。 さらに,一般的なデータセット,ダウンストリーム評価タスク,既存の作業の限界に対する洞察,この分野の今後の方向性についても紹介する。

The remarkable success of deep learning in various domains relies on the availability of large-scale annotated datasets. However, the use of human-generated annotations leads to models with biased learning, poor domain generalization, and poor robustness. Obtaining annotations is also expensive and requires great effort, which is especially challenging for videos. As an alternative, self-supervised learning provides a way for representation learning which does not require annotations and has shown promise in both image and video domains. Different from the image domain, learning video representations are more challenging due to the temporal dimension, bringing in motion and other environmental dynamics. This also provides opportunities for exclusive ideas which can advance self-supervised learning in the video and multimodal domain. In this survey, we provide a review of existing approaches on self-supervised learning focusing on the video domain. We summarize these methods into three different categories based on their learning objectives: pre-text tasks, generative modeling, and contrastive learning. These approaches also differ in terms of the modality which are being used: video, video-audio, video-text, and video-audio-text. We further introduce the commonly used datasets, downstream evaluation tasks, insights into the limitations of existing works, and the potential future directions in this area.
翻訳日:2022-07-10 11:57:42 公開日:2022-06-18
# (参考訳) scept: 計画のための状況一貫性とポリシーに基づく軌道予測

ScePT: Scene-consistent, Policy-based Trajectory Predictions for Planning ( http://arxiv.org/abs/2206.13387v1 )

ライセンス: CC BY 4.0
Yuxiao Chen, Boris Ivanovic, and Marco Pavone(参考訳) 軌道予測は、制御されていないエージェントと環境を共有する自律システムの重要な機能である。 現在、ほとんどの予測方法はシーンの一貫性を強制しない。つまり、シーン内の異なるエージェントの予測された軌道の間にかなりの量の自己結合が存在する。 さらに、複数のアプローチが、シーン全体の共同軌道予測ではなく、エージェントごとに個々の軌道予測を生成するため、下流計画が困難になる。 本研究では,自律システムの運動計画に適した高精度な軌道予測を生成する,政策計画に基づく軌道予測モデルであるsceptを提案する。 明示的にシーンの一貫性を強制し、条件付き予測に使用できるエージェントインタラクションポリシーを学ぶ。 複数の現実世界の歩行者と自動運転車のデータセットの実験では、ScePT}が現在の最先端の予測精度に一致し、シーンの一貫性が大幅に改善された。 また、ScePTが下流の緊急プランナーと連携できることを実証する。

Trajectory prediction is a critical functionality of autonomous systems that share environments with uncontrolled agents, one prominent example being self-driving vehicles. Currently, most prediction methods do not enforce scene consistency, i.e., there are a substantial amount of self-collisions between predicted trajectories of different agents in the scene. Moreover, many approaches generate individual trajectory predictions per agent instead of joint trajectory predictions of the whole scene, which makes downstream planning difficult. In this work, we present ScePT, a policy planning-based trajectory prediction model that generates accurate, scene-consistent trajectory predictions suitable for autonomous system motion planning. It explicitly enforces scene consistency and learns an agent interaction policy that can be used for conditional prediction. Experiments on multiple real-world pedestrians and autonomous vehicle datasets show that ScePT} matches current state-of-the-art prediction accuracy with significantly improved scene consistency. We also demonstrate ScePT's ability to work with a downstream contingency planner.
翻訳日:2022-07-04 02:54:18 公開日:2022-06-18
# (参考訳) 一定出力分布を持つ変分オートエンコーダによる回転数字認識

Rotated Digit Recognition by Variational Autoencoders with Fixed Output Distributions ( http://arxiv.org/abs/2206.13388v1 )

ライセンス: CC BY 4.0
David Yevick(参考訳) 本稿では,変分オートエンコーダ(vae)形式を簡易に修正することで,回転および歪んだ桁を識別・分類できることを示す。 特に、VAEのトレーニングプロセスで使用される従来の目的(コスト)関数は、入力データレコードと出力データレコードとの一致を定量化し、入力データレコードの潜在空間表現が、適切な平均と標準偏差で統計的に生成されることを保証する。 トレーニング後、適切な潜在空間点を復号してシミュレーションデータ実現を生成する。 しかしながら、ランダムに回転したMNIST桁で訓練された標準VAE:sは、同じ回転した出力データレコードと効果的に比較されるので、異なる桁のクラスを確実に区別することはできない。 これとは対照的に、対象関数が各回転桁に付随する出力と対応する固定未参照参照桁とを比較した代替実装をここで示し、潜時空間の寸法が2または3であっても、潜時空間における回転桁を正確に判別する。

This paper demonstrates that a simple modification of the variational autoencoder (VAE) formalism enables the method to identify and classify rotated and distorted digits. In particular, the conventional objective (cost) function employed during the training process of a VAE both quantifies the agreement between the input and output data records and ensures that the latent space representation of the input data record is statistically generated with an appropriate mean and standard deviation. After training, simulated data realizations are generated by decoding appropriate latent space points. Since, however, standard VAE:s trained on randomly rotated MNIST digits cannot reliably distinguish between different digit classes since the rotated input data is effectively compared to a similarly rotated output data record. In contrast, an alternative implementation in which the objective function compares the output associated with each rotated digit to a corresponding fixed unreferenced reference digit is shown here to discriminate accurately among the rotated digits in latent space even when the dimension of the latent space is 2 or 3.
翻訳日:2022-07-04 02:37:18 公開日:2022-06-18
# UIレイヤのマージ: ビジュアルラーニングと境界優先によるUIレイヤのマージ

UI Layers Merger: Merging UI layers via Visual Learning and Boundary Prior ( http://arxiv.org/abs/2206.13389v1 )

ライセンス: Link先を確認
Yun-nong Chen, Yan-kun Zhen, Chu-ning Shi, Jia-zhi Li, Ting-ting Zhou, Yan-fang Chang, Ling-yun Sun, Liu-qing Chen(参考訳) インターネット産業におけるGUI開発ワークロードの急速な増加に伴い、インテリジェントなメソッドの研究は、UIスクリーンショットから保守可能なフロントエンドコードの生成を試みた。 UIメタデータを含むUIデザインドラフトを利用するのにもっと適しています。 しかし、フラグメントされたレイヤがUI設計ドラフトに必然的に現れ、コード生成の質が大幅に低下します。 既存のGUI自動化技術はどれも、生成されたコードのアクセシビリティを改善するために断片化されたレイヤを検出し、マージするものではない。 本稿では,フラグメント層を自動的に検出し,uiコンポーネントにマージするビジョンベース手法 ui layers merge (uilm) を提案する。 我々のUILMには、マージングエリア検出器(MAD)とレイヤーマージングアルゴリズムが含まれている。 MADはUIコンポーネントの境界を正確に検出するための事前知識を組み込んでいる。 次に、マージアルゴリズムは、コンポーネント境界内の関連するレイヤを検索し、それらを全部にマージすることができる。 我々は,MADの性能向上を目的とした動的データ拡張手法を提案する。 また、MADをトレーニングし、UILMの性能をテストするための大規模なUIデータセットを構築した。 実験により,提案手法は領域検出における最良ベースラインを上回っており,層合併に関する精度が良好であることを示す。

With the fast-growing GUI development workload in the Internet industry, some work on intelligent methods attempted to generate maintainable front-end code from UI screenshots. It can be more suitable for utilizing UI design drafts that contain UI metadata. However, fragmented layers inevitably appear in the UI design drafts which greatly reduces the quality of code generation. None of the existing GUI automated techniques detects and merges the fragmented layers to improve the accessibility of generated code. In this paper, we propose UI Layers Merger (UILM), a vision-based method, which can automatically detect and merge fragmented layers into UI components. Our UILM contains Merging Area Detector (MAD) and a layers merging algorithm. MAD incorporates the boundary prior knowledge to accurately detect the boundaries of UI components. Then, the layers merging algorithm can search out the associated layers within the components' boundaries and merge them into a whole part. We present a dynamic data augmentation approach to boost the performance of MAD. We also construct a large-scale UI dataset for training the MAD and testing the performance of UILM. The experiment shows that the proposed method outperforms the best baseline regarding merging area detection and achieves a decent accuracy regarding layers merging.
翻訳日:2022-07-04 01:19:16 公開日:2022-06-18
# 仮想多視点投影と再構成による3次元非教師なし異常検出と局在:低用量胸部ctによる臨床的検証

3D unsupervised anomaly detection and localization through virtual multi-view projection and reconstruction: Clinical validation on low-dose chest computed tomography ( http://arxiv.org/abs/2206.13385v1 )

ライセンス: Link先を確認
Kyung-Su Kim, Seong Je Oh, Ju Hwan Lee, Myung Jin Chung(参考訳) 深層学習に基づく低線量CT(低線量CT)のコンピュータ支援診断は,高精度・低放射線曝露による一線自動検査ツールとして注目されている。 しかし、既存の方法は教師付き学習に依存しており、病気データを収集したり、ネットワークトレーニングのために空間ラベルに注釈を付けることで、その実施を妨げている。 本稿では,コンピュータ支援診断のための深層ニューラルネットワークを用いた仮想多視点投影法と,教師なし異常検出のための再構成法を提案する。 おそらくこれは、異常を含む3次元(3d)領域を特定する訓練のために、健康な患者からのデータのみを必要とする最初の方法である。 このメソッドには3つの重要な要素がある。 従来のctスライスをネットワーク入力として使用する既存のコンピュータ支援診断ツールと異なり,提案手法である。 1) 抽出した3次元肺領域を仮想的に投影し, 多様な視点から二次元(2次元)画像を取得し, ネットワーク入力として機能することにより, 3次元肺構造の認識を改善する。 2)入力多様性ゲインを正確な異常検出に適合させ, 3) 複数の2次元異常マップを用いた新しい3次元マップ復元手法により,3次元異常/異常の局所化を実現する。 非教師付き学習に基づく提案手法は,教師付き学習に基づく金本位制と比較し,患者レベルの異常検出を10%(曲線下領域0.959)で改善し,異常領域を93%の精度でローカライズし,高い性能を示す。

Computer-aided diagnosis for low-dose computed tomography (CT) based on deep learning has recently attracted attention as a first-line automatic testing tool because of its high accuracy and low radiation exposure. However, existing methods rely on supervised learning, imposing an additional burden to doctors for collecting disease data or annotating spatial labels for network training, consequently hindering their implementation. We propose a method based on a deep neural network for computer-aided diagnosis called virtual multi-view projection and reconstruction for unsupervised anomaly detection. Presumably, this is the first method that only requires data from healthy patients for training to identify three-dimensional (3D) regions containing any anomalies. The method has three key components. Unlike existing computer-aided diagnosis tools that use conventional CT slices as the network input, our method 1) improves the recognition of 3D lung structures by virtually projecting an extracted 3D lung region to obtain two-dimensional (2D) images from diverse views to serve as network inputs, 2) accommodates the input diversity gain for accurate anomaly detection, and 3) achieves 3D anomaly/disease localization through a novel 3D map restoration method using multiple 2D anomaly maps. The proposed method based on unsupervised learning improves the patient-level anomaly detection by 10% (area under the curve, 0.959) compared with a gold standard based on supervised learning (area under the curve, 0.848), and it localizes the anomaly region with 93% accuracy, demonstrating its high performance.
翻訳日:2022-07-04 01:17:58 公開日:2022-06-18
# aiを用いた胸部デジタルトモグラフィ合成診断システム--x線を用いたaiシステムとの比較

AI-based computer-aided diagnostic system of chest digital tomography synthesis: Demonstrating comparative advantage with X-ray-based AI systems ( http://arxiv.org/abs/2206.13504v1 )

ライセンス: Link先を確認
Kyung-Su Kim, Ju Hwan Lee, Seong Je Oh, Myung Jin Chung(参考訳) 胸部X線 (CXR) 画像と比較すると, 胸部デジタルトモシンセシス (CDTS) 画像は患者の複数の角度から投影された複数の画像を取得するため, 肺病変の検出に有利である。 様々な臨床比較分析および検証研究が報告されているが、人工知能(AI)を用いた比較分析は行われていない。 肺病変診断のための既存のAIベースのコンピュータ支援検出システム(CAD)は,主にCXR画像に基づいて開発されているが,CDTSをベースとしたCADは,CXR画像と比較して有用性が確認されていない。 本研究は,CDTSベースのAI CADシステムを開発し,肺病変を検知し,CXRベースのAI CADと比較して性能改善を示す。 我々は、CDTSベースのAIモデルの入力として複数の投影画像を、CXRベースのAIモデルの入力として単一投影画像を用いて、モデル間の性能を適切に比較、評価した。 提案するcdtsベースのaicadシステムは, 正常者に対する結核や肺炎の検出において, 0.782 と 0.785 の感度, 0.895 と 0.837 の精度を示した。 以上の結果から,CXRをベースとしたAI CADを用いて結核および肺炎の検出を行う場合,0.728,0.698の感度,0.874,0.826の精度よりも高い性能を示した。 その結果,CDTSベースのAICADは,CXRベースのAICADと比較して,結核と肺炎の感受性を5.4%,肺炎8.7%改善した。 そこで本研究では,CDTSをベースとしたAI CAD技術がCXR以上の性能向上を実現し,CDTSの臨床応用性の向上を図る。

Compared with chest X-ray (CXR) imaging, which is a single image projected from the front of the patient, chest digital tomosynthesis (CDTS) imaging can be more advantageous for lung lesion detection because it acquires multiple images projected from multiple angles of the patient. Various clinical comparative analysis and verification studies have been reported to demonstrate this, but there were no artificial intelligence (AI)-based comparative analysis studies. Existing AI-based computer-aided detection (CAD) systems for lung lesion diagnosis have been developed mainly based on CXR images; however, CAD-based on CDTS, which uses multi-angle images of patients in various directions, has not been proposed and verified for its usefulness compared to CXR-based counterparts. This study develops/tests a CDTS-based AI CAD system to detect lung lesions to demonstrate performance improvements compared to CXR-based AI CAD. We used multiple projection images as input for the CDTS-based AI model and a single-projection image as input for the CXR-based AI model to fairly compare and evaluate the performance between models. The proposed CDTS-based AI CAD system yielded sensitivities of 0.782 and 0.785 and accuracies of 0.895 and 0.837 for the performance of detecting tuberculosis and pneumonia, respectively, against normal subjects. These results show higher performance than sensitivities of 0.728 and 0.698 and accuracies of 0.874 and 0.826 for detecting tuberculosis and pneumonia through the CXR-based AI CAD, which only uses a single projection image in the frontal direction. We found that CDTS-based AI CAD improved the sensitivity of tuberculosis and pneumonia by 5.4% and 8.7% respectively, compared to CXR-based AI CAD without loss of accuracy. Therefore, we comparatively prove that CDTS-based AI CAD technology can improve performance more than CXR, enhancing the clinical applicability of CDTS.
翻訳日:2022-07-04 01:16:37 公開日:2022-06-18
# (参考訳) nastar:ターゲット条件再サンプリングによる雑音適応型音声強調

NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional Resampling ( http://arxiv.org/abs/2206.09058v1 )

ライセンス: CC BY 4.0
Chi-Chang Lee, Cheng-Hung Hu, Yu-Chen Lin, Chu-Song Chen, Hsin-Min Wang, Yu Tsao(参考訳) 深層学習に基づく音声強調(SE)システムでは、トレーニングテストの音響ミスマッチが顕著な性能劣化を引き起こす可能性がある。 ミスマッチ問題に対処するため、多くのノイズ適応戦略が導出された。 本稿では,ターゲット環境における雑音の1つのサンプル(1ショット)のみとミスマッチを低減できる,ターゲット条件再サンプリングを用いた雑音適応音声強調法(nastar)を提案する。 nastarはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応トレーニングデータをシミュレートする。 雑音抽出器は、疑似雑音と呼ばれる雑音音声から目標雑音を推定する。 ノイズ検索モデルは、関連するコホートと呼ばれるノイズ音声に従って、ノイズ信号プールから関連するノイズサンプルを検索する。 擬似ノイズと関連コホートセットとを共同でサンプリングしてソース音声コーパスと混合し、雑音適応のための模擬訓練データを作成する。 実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。 さらに、ノイズ抽出器とノイズ検索モデルの両方がモデル適応に寄与する。 私たちの知る限りでは、nastarはノイズ抽出と検索を通じてワンショットノイズ適応を行う最初の作品です。

For deep learning-based speech enhancement (SE) systems, the training-test acoustic mismatch can cause notable performance degradation. To address the mismatch issue, numerous noise adaptation strategies have been derived. In this paper, we propose a novel method, called noise adaptive speech enhancement with target-conditional resampling (NASTAR), which reduces mismatches with only one sample (one-shot) of noisy speech in the target environment. NASTAR uses a feedback mechanism to simulate adaptive training data via a noise extractor and a retrieval model. The noise extractor estimates the target noise from the noisy speech, called pseudo-noise. The noise retrieval model retrieves relevant noise samples from a pool of noise signals according to the noisy speech, called relevant-cohort. The pseudo-noise and the relevant-cohort set are jointly sampled and mixed with the source speech corpus to prepare simulated training data for noise adaptation. Experimental results show that NASTAR can effectively use one noisy speech sample to adapt an SE model to a target condition. Moreover, both the noise extractor and the noise retrieval model contribute to model adaptation. To our best knowledge, NASTAR is the first work to perform one-shot noise adaptation through noise extraction and retrieval.
翻訳日:2022-06-26 17:29:14 公開日:2022-06-18
# (参考訳) climb: 視覚言語タスクの継続的学習ベンチマーク

CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks ( http://arxiv.org/abs/2206.09059v1 )

ライセンス: CC BY 4.0
Tejas Srinivasan, Ting-Yun Chang, Leticia Leonor Pinto Alva, Georgios Chochlakis, Mohammad Rostami, Jesse Thomason(参考訳) 現在の最先端のビジョン・アンド・ランゲージモデルは、個別またはマルチタスク設定のタスクで評価され、到着するたびに継続的な学習(CL)タスクの課題を見越す。 既存のclベンチマークではタスク適応の研究や"破滅的な忘れ方"の緩和が進められているが、視覚のみのタスクと言語のみのタスクに限定されている。 本稿では,cl環境でのマルチモーダルタスクの学習の課題を検討するためのベンチマークとして,上流連続学習が新しいマルチモーダルタスクやユニモーダルタスクに迅速に一般化できるかを体系的に評価する。 CLiMBには、複数のCLアルゴリズムの実装と、マルチモーダルタスクとアンモーダルタスクの両方にデプロイ可能なViLTモデルの変更が含まれている。 共通CL手法は,マルチモーダルタスク学習における忘れの軽減に有効であるが,タスク間の知識伝達は不可能である。 我々は、CLiMBが、この挑戦的なマルチモーダル設定のための新しいCLアルゴリズムの研究を促進することを期待する。

Current state-of-the-art vision-and-language models are evaluated on tasks either individually or in a multi-task setting, overlooking the challenges of continually learning (CL) tasks as they arrive. Existing CL benchmarks have facilitated research on task adaptation and mitigating "catastrophic forgetting", but are limited to vision-only and language-only tasks. We present CLiMB, a benchmark to study the challenge of learning multimodal tasks in a CL setting, and to systematically evaluate how upstream continual learning can rapidly generalize to new multimodal and unimodal tasks. CLiMB includes implementations of several CL algorithms and a modified Vision-Language Transformer (ViLT) model that can be deployed on both multimodal and unimodal tasks. We find that common CL methods can help mitigate forgetting during multimodal task learning, but do not enable cross-task knowledge transfer. We envision that CLiMB will facilitate research on a new class of CL algorithms for this challenging multimodal setting.
翻訳日:2022-06-26 17:15:34 公開日:2022-06-18
# (参考訳) 単眼およびステレオ深度推定手法の解析と計算複雑性の低減

Analysis & Computational Complexity Reduction of Monocular and Stereo Depth Estimation Techniques ( http://arxiv.org/abs/2206.09071v1 )

ライセンス: CC BY 4.0
Rajeev Patwari, Varo Ly(参考訳) 計算とエネルギーコストの低い正確な深度推定は、無人・電池駆動自律システムにとって重要な要件である。 ロボットアプリケーションは、急速に変化する3次元環境下でのナビゲーションと意思決定のためにリアルタイムな深度推定を必要とする。 高精度なアルゴリズムは最高の深さ推定を提供するが、膨大な計算とエネルギー資源を消費する。 一般的なトレードオフは、初期深度推定の精度の低い方法と、必要であればより正確な計算集約手法を選択することである。 これまでの研究は、ステレオ深度推定を改善するための最先端手法(AnyNet)を開発することで、このトレードオフを改善することを示した。 単眼および立体視深度推定法について検討し,これらの手法の計算複雑性を低減する方法を検討した。 これが私たちの基準でした。 その結果, 単眼深度推定モデルサイズを約75%削減し, 精度を2%以下に抑えることができた(ssimメトリック)。 新たなステレオビジョン法 (AnyNet) による実験により, モデルサイズが約20%減少しても, 深度推定の精度は3%以上低下しないことがわかった。 より小さなモデルが実際に競争力を発揮することを示した。

Accurate depth estimation with lowest compute and energy cost is a crucial requirement for unmanned and battery operated autonomous systems. Robotic applications require real time depth estimation for navigation and decision making under rapidly changing 3D surroundings. A high accuracy algorithm may provide the best depth estimation but may consume tremendous compute and energy resources. A general trade-off is to choose less accurate methods for initial depth estimate and a more accurate yet compute intensive method when needed. Previous work has shown this trade-off can be improved by developing a state-of-the-art method (AnyNet) to improve stereo depth estimation. We studied both the monocular and stereo vision depth estimation methods and investigated methods to reduce computational complexity of these methods. This was our baseline. Consequently, our experiments show reduction of monocular depth estimation model size by ~75% reduces accuracy by less than 2% (SSIM metric). Our experiments with the novel stereo vision method (AnyNet) show that accuracy of depth estimation does not degrade more than 3% (three pixel error metric) in spite of reduction in model size by ~20%. We have shown that smaller models can indeed perform competitively.
翻訳日:2022-06-26 16:52:47 公開日:2022-06-18
# (参考訳) 実物または人工物としてのバイタルサインアラートの弱い教師付き分類

Weakly Supervised Classification of Vital Sign Alerts as Real or Artifact ( http://arxiv.org/abs/2206.09074v1 )

ライセンス: CC BY-SA 4.0
Arnab Dey, Mononito Goswami, Joo Heung Yoon, Gilles Clermont, Michael Pinsky, Marilyn Hravnak and Artur Dubrawski(参考訳) 臨床生理モニタリングアラームのかなりの割合は偽である。 これはしばしば臨床スタッフの目覚まし疲労を引き起こし、必然的に患者の安全を損なう。 この問題に対処するため、研究者は、血液学的に監視された患者のベッドサイドで発生したバイタルサイン(VS)警告をリアルまたはアーティファクトとして正確に適応できる機械学習(ML)モデルを構築しようとした。 これまでの研究では、大量の手書きデータを必要とする教師付きML技術を利用してきた。 しかし、このようなデータを手動で収穫することはコストがかかり、時間もかかるため、医療(hc)におけるmlの普及を制限する鍵となる。 代わりに、弱い監督力を用いたラベル付きトレーニングデータに確率ラベルを自動的に割り当てるために、複数の不完全なヒューリスティックの使用を検討する。 我々の弱教師付きモデルは、従来の教師付き手法と競合し、ドメインエキスパートの関与を少なくし、MLのHCアプリケーションにおける教師付き学習の効率的で実践的な代替手段としての使用を実証する。

A significant proportion of clinical physiologic monitoring alarms are false. This often leads to alarm fatigue in clinical personnel, inevitably compromising patient safety. To combat this issue, researchers have attempted to build Machine Learning (ML) models capable of accurately adjudicating Vital Sign (VS) alerts raised at the bedside of hemodynamically monitored patients as real or artifact. Previous studies have utilized supervised ML techniques that require substantial amounts of hand-labeled data. However, manually harvesting such data can be costly, time-consuming, and mundane, and is a key factor limiting the widespread adoption of ML in healthcare (HC). Instead, we explore the use of multiple, individually imperfect heuristics to automatically assign probabilistic labels to unlabeled training data using weak supervision. Our weakly supervised models perform competitively with traditional supervised techniques and require less involvement from domain experts, demonstrating their use as efficient and practical alternatives to supervised learning in HC applications of ML.
翻訳日:2022-06-26 16:42:27 公開日:2022-06-18
# (参考訳) 凸ペナルティを持つ公正な一般化線形モデル

Fair Generalized Linear Models with a Convex Penalty ( http://arxiv.org/abs/2206.09076v1 )

ライセンス: CC BY 4.0
Hyungrok Do, Preston Putzel, Axel Martin, Padhraic Smyth, Judy Zhong(参考訳) 近年のアルゴリズムフェアネスの進歩にもかかわらず、一般化線形モデル(GLM)による公正性を達成する手法は、GLMが実際に広く使われているにもかかわらず、一般には研究されていない。 本稿では,予測結果の等化やログ類似度に基づくGLMの公平性基準を2つ導入する。 我々は,GLMの線形成分のみに基づく凸ペナルティ項により両基準が達成できることを証明し,効率よく最適化できることを示した。 また、結果の公正なGLM推定器の理論的性質を導出する。 提案するfair glmの有効性を実証的に示すために,バイナリ分類と回帰のためのベンチマークデータセットの広範なセットにおいて,他の有名なfair予測手法と比較した。 さらに,2次および連続的な結果以外の応答変数に対して,公正なGLMが公平に予測できることを示す。

Despite recent advances in algorithmic fairness, methodologies for achieving fairness with generalized linear models (GLMs) have yet to be explored in general, despite GLMs being widely used in practice. In this paper we introduce two fairness criteria for GLMs based on equalizing expected outcomes or log-likelihoods. We prove that for GLMs both criteria can be achieved via a convex penalty term based solely on the linear components of the GLM, thus permitting efficient optimization. We also derive theoretical properties for the resulting fair GLM estimator. To empirically demonstrate the efficacy of the proposed fair GLM, we compare it with other well-known fair prediction methods on an extensive set of benchmark datasets for binary classification and regression. In addition, we demonstrate that the fair GLM can generate fair predictions for a range of response variables, other than binary and continuous outcomes.
翻訳日:2022-06-26 16:28:21 公開日:2022-06-18
# (参考訳) 説明可能なシーン理解のための動的データ駆動アプローチ

A Dynamic Data Driven Approach for Explainable Scene Understanding ( http://arxiv.org/abs/2206.09089v1 )

ライセンス: CC BY 4.0
Zachary A Daniels and Dimitris Metaxas(参考訳) シーン理解はコンピュータビジョンの分野で重要なトピックであり、リモートセンシング、監視、スマート農業、ロボティクス、自動運転、スマートシティなど、幅広いドメインへの応用における計算上の課題を説明している。 シーンの活発な理解と分類について考察する。 1つ以上のセンサーを利用するエージェントが未知の環境に置かれ、その感覚入力に基づいて、エージェントは認識されたシーンにラベルを割り当てる必要があると仮定する。 エージェントは、そのセンサーを調整してシーンに関する追加情報を取得することができるが、センサ操作に関連するコストがかかるため、エージェントが迅速かつ効率的にシーンを理解することが重要である。 また、エージェントは、シーンのグローバルな状態(例えば、シーンのカテゴリやシーンの主要イベント)だけでなく、シーンのグローバルな状態に関する決定や予測を支援するシーンの特徴やプロパティも理解することが重要である。 最後に、エージェントが未知のシーンカテゴリに遭遇した場合、そのシーンにラベルを割り当てることを拒否し、人間からの援助を要請し、その基盤となる知識ベースと人間のフィードバックに基づいて機械学習モデルを更新しなければならない。 シーンのアクティブな説明駆動分類のための動的データ駆動フレームワークを提案する。 我々のフレームワークはACUMEN: Active Classification and Understanding Method by Explanation-driven Networksである。 提案手法の有用性を実証し,それをドメイン固有の応用に適用できることを示すために,視覚センサを用いたアクティブなロボットエージェント,すなわち電気光学カメラを用いた屋内シーンの分類に関する事例研究に焦点を当てた。

Scene-understanding is an important topic in the area of Computer Vision, and illustrates computational challenges with applications to a wide range of domains including remote sensing, surveillance, smart agriculture, robotics, autonomous driving, and smart cities. We consider the active explanation-driven understanding and classification of scenes. Suppose that an agent utilizing one or more sensors is placed in an unknown environment, and based on its sensory input, the agent needs to assign some label to the perceived scene. The agent can adjust its sensor(s) to capture additional details about the scene, but there is a cost associated with sensor manipulation, and as such, it is important for the agent to understand the scene in a fast and efficient manner. It is also important that the agent understand not only the global state of a scene (e.g., the category of the scene or the major events taking place in the scene) but also the characteristics/properties of the scene that support decisions and predictions made about the global state of the scene. Finally, when the agent encounters an unknown scene category, it must be capable of refusing to assign a label to the scene, requesting aid from a human, and updating its underlying knowledge base and machine learning models based on feedback provided by the human. We introduce a dynamic data driven framework for the active explanation-driven classification of scenes. Our framework is entitled ACUMEN: Active Classification and Understanding Method by Explanation-driven Networks. To demonstrate the utility of the proposed ACUMEN approach and show how it can be adapted to a domain-specific application, we focus on an example case study involving the classification of indoor scenes using an active robotic agent with vision-based sensors, i.e., an electro-optical camera.
翻訳日:2022-06-26 15:46:08 公開日:2022-06-18
# (参考訳) スコアガイドを用いた中間層最適化:逆問題に対する高速ランゲヴィン混合

Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for Inverse Problem ( http://arxiv.org/abs/2206.09104v1 )

ライセンス: CC BY 4.0
Giannis Daras and Yuval Dagan, Alexandros G. Dimakis, Constantinos Daskalakis(参考訳) ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。 この結果により、ハンドとヴォロニンスキーの作業は効率的な逆転から効率的な後方サンプリングへと拡張される。 実際, 表現性を高めるために, 事前学習した生成モデルの潜在空間において後方サンプリングを行うことを提案する。 そこで我々は,StyleGAN-2の潜在空間におけるスコアベースモデルを訓練し,逆問題の解法として利用する。 我々のフレームワークであるScore-Guided Intermediate Layer Optimization (SGILO) は、スパーシ正規化を中間層における生成前処理に置き換えることで、事前作業を拡張する。 実験では, 従来より, 特に低測定領域において有意な改善が得られた。

We prove fast mixing and characterize the stationary distribution of the Langevin Algorithm for inverting random weighted DNN generators. This result extends the work of Hand and Voroninski from efficient inversion to efficient posterior sampling. In practice, to allow for increased expressivity, we propose to do posterior sampling in the latent space of a pre-trained generative model. To achieve that, we train a score-based model in the latent space of a StyleGAN-2 and we use it to solve inverse problems. Our framework, Score-Guided Intermediate Layer Optimization (SGILO), extends prior work by replacing the sparsity regularization with a generative prior in the intermediate layer. Experimentally, we obtain significant improvements over the previous state-of-the-art, especially in the low measurement regime.
翻訳日:2022-06-26 15:45:06 公開日:2022-06-18
# (参考訳) スケールドグラディエントDescenceによる高速かつ予測可能なテンソルロバスト主成分分析

Fast and Provable Tensor Robust Principal Component Analysis via Scaled Gradient Descent ( http://arxiv.org/abs/2206.09109v1 )

ライセンス: CC BY 4.0
Harry Dong, Tian Tong, Cong Ma, Yuejie Chi(参考訳) データサイエンスと機械学習の問題の増加はテンソルによる計算に依存しており、行列よりもデータのマルチウェイ関係や相互作用をよりよく捉えている。 この重要な利点を活かす際、重要な課題は、腐敗と悪条件に同時に頑健なテンソルデータから有用な情報を抽出する計算効率が高く、確実に正しいアルゴリズムを開発することである。 本稿では,タッカー分解下でのばらばらな腐敗による観測から低位テンソルを回収することを目的とした,テンソルロバスト主成分分析(rpca)について述べる。 計算量とメモリフットプリントを最小化するために, スケールド勾配降下(scaledd)により, 低次元のテンソル因子 -- スペクトル初期化から始める -- を直接回復し, 反復変動しきい値操作と組み合わせ, 腐敗の影響を適応的に除去する。 理論的には、提案されたアルゴリズムは、腐敗のレベルが大きすぎない限り、条件数に依存しない定数率で真の低ランクテンソルに線形収束する。 実験により,提案アルゴリズムは,合成実験や実世界の応用を通じて,最先端行列やテンソルRPCAアルゴリズムよりも優れた,よりスケーラブルな性能を実現することを示した。

An increasing number of data science and machine learning problems rely on computation with tensors, which better capture the multi-way relationships and interactions of data than matrices. When tapping into this critical advantage, a key challenge is to develop computationally efficient and provably correct algorithms for extracting useful information from tensor data that are simultaneously robust to corruptions and ill-conditioning. This paper tackles tensor robust principal component analysis (RPCA), which aims to recover a low-rank tensor from its observations contaminated by sparse corruptions, under the Tucker decomposition. To minimize the computation and memory footprints, we propose to directly recover the low-dimensional tensor factors -- starting from a tailored spectral initialization -- via scaled gradient descent (ScaledGD), coupled with an iteration-varying thresholding operation to adaptively remove the impact of corruptions. Theoretically, we establish that the proposed algorithm converges linearly to the true low-rank tensor at a constant rate that is independent with its condition number, as long as the level of corruptions is not too large. Empirically, we demonstrate that the proposed algorithm achieves better and more scalable performance than state-of-the-art matrix and tensor RPCA algorithms through synthetic experiments and real-world applications.
翻訳日:2022-06-26 15:43:56 公開日:2022-06-18
# (参考訳) VReBERT:視覚関係検出のためのシンプルで柔軟な変換器

VReBERT: A Simple and Flexible Transformer for Visual Relationship Detection ( http://arxiv.org/abs/2206.09111v1 )

ライセンス: CC BY 4.0
Yu Cui, Moshiur Farazi(参考訳) 視覚関係検出(vrd)は、コンピュータビジョンモデルに個々のオブジェクトインスタンスを超えて「見る」こと、シーン内の異なるオブジェクトがどのように関連しているかを「理解」させる。 従来のVRDの方法は、まず画像内のオブジェクトを検出し、検出されたオブジェクトインスタンス間の関係を別々に予測する。 このような不一致のアプローチは、同一のオブジェクト対と類似のセマンティック意味を持つ冗長な関係タグ(つまり述語)を予測しがちである。 そこで本稿では,VRDモデルに視覚オブジェクトの特徴と意味的関係性を持たせることを提案する。 そこで本研究では,視覚的特徴と意味的特徴を協調的に処理する多段階学習戦略を用いた,視覚的関係検出のためのBERTライクなトランスフォーマモデルであるVReBERTを提案する。 我々の単純なBERTライクなモデルは、予測予測において最先端のVRDモデルより優れていることを示す。 さらに,事前学習したVReBERTモデルを用いて,最先端のゼロショット述語予測を有意差(+8.49 R@50および+8.99 R@100)で推し進めることを示した。

Visual Relationship Detection (VRD) impels a computer vision model to 'see' beyond an individual object instance and 'understand' how different objects in a scene are related. The traditional way of VRD is first to detect objects in an image and then separately predict the relationship between the detected object instances. Such a disjoint approach is prone to predict redundant relationship tags (i.e., predicate) between the same object pair with similar semantic meaning, or incorrect ones that have a similar meaning to the ground truth but are semantically incorrect. To remedy this, we propose to jointly train a VRD model with visual object features and semantic relationship features. To this end, we propose VReBERT, a BERT-like transformer model for Visual Relationship Detection with a multi-stage training strategy to jointly process visual and semantic features. We show that our simple BERT-like model is able to outperform the state-of-the-art VRD models in predicate prediction. Furthermore, we show that by using the pre-trained VReBERT model, our model pushes the state-of-the-art zero-shot predicate prediction by a significant margin (+8.49 R@50 and +8.99 R@100).
翻訳日:2022-06-26 15:42:16 公開日:2022-06-18
# (参考訳) 交通予測のための動的時空間グラフニューラルネットワークの分離

Decoupled Dynamic Spatial-Temporal Graph Neural Network for Traffic Forecasting ( http://arxiv.org/abs/2206.09112v1 )

ライセンス: CC BY 4.0
Zezhi Shao, Zhao Zhang, Wei Wei, Fei Wang, Yongjun Xu, Xin Cao, and Christian S. Jensen(参考訳) 私たちは皆移動に頼っており、車載輸送は私たちのほとんどの日常生活に影響を与えます。 したがって、道路網における交通状況を予測する能力は重要な機能であり、課題である。 交通データは道路網に配置されたセンサーから取得されることが多い。 近年の時空間グラフニューラルネットワークの提案は,交通データを拡散過程としてモデル化することで,交通データの複雑な時空間相関をモデル化する上で大きな進歩を遂げている。 しかし直観的には、交通データは拡散信号と固有信号という2種類の隠れた時系列信号を含んでいる。 残念なことに、これまでのほとんどの研究は、交通信号が拡散の結果であると考える一方で、モデルの性能に悪影響を及ぼす固有の信号を無視している。 モデリング性能を向上させるために,分散と固有トラフィック情報をデータ駆動方式で分離し,一意な推定ゲートと残留分解機構を包含する,分離した空間時空間フレームワーク(dstf)を提案する。 分離された信号はその後、拡散と固有のモジュールによって別々に処理できる。 さらに、時空間相関を捉えるDSTF(Decoupled Dynamic Spatial-Temporal Graph Neural Network, D2STGNN)のインスタンス化を提案し、また、トラフィックネットワークの動的特性の学習を目的とした動的グラフ学習モジュールを特徴とする。 4つの現実世界のトラフィックデータセットによる広範囲な実験により、フレームワークが最先端を前進できることが示されている。

We all depend on mobility, and vehicular transportation affects the daily lives of most of us. Thus, the ability to forecast the state of traffic in a road network is an important functionality and a challenging task. Traffic data is often obtained from sensors deployed in a road network. Recent proposals on spatial-temporal graph neural networks have achieved great progress at modeling complex spatial-temporal correlations in traffic data, by modeling traffic data as a diffusion process. However, intuitively, traffic data encompasses two different kinds of hidden time series signals, namely the diffusion signals and inherent signals. Unfortunately, nearly all previous works coarsely consider traffic signals entirely as the outcome of the diffusion, while neglecting the inherent signals, which impacts model performance negatively. To improve modeling performance, we propose a novel Decoupled Spatial-Temporal Framework (DSTF) that separates the diffusion and inherent traffic information in a data-driven manner, which encompasses a unique estimation gate and a residual decomposition mechanism. The separated signals can be handled subsequently by the diffusion and inherent modules separately. Further, we propose an instantiation of DSTF, Decoupled Dynamic Spatial-Temporal Graph Neural Network (D2STGNN), that captures spatial-temporal correlations and also features a dynamic graph learning module that targets the learning of the dynamic characteristics of traffic networks. Extensive experiments with four real-world traffic datasets demonstrate that the framework is capable of advancing the state-of-the-art.
翻訳日:2022-06-26 14:41:03 公開日:2022-06-18
# (参考訳) 多変量時系列予測のための事前学習型時空間グラフニューラルネットワーク

Pre-training Enhanced Spatial-temporal Graph Neural Network for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2206.09113v1 )

ライセンス: CC BY 4.0
Zezhi Shao, Zhao Zhang, Fei Wang, Yongjun Xu(参考訳) 多変量時系列(MTS)予測は、幅広いアプリケーションにおいて重要な役割を果たす。 近年,時空間グラフニューラルネットワーク (STGNN) がMSS予測手法として普及している。 STGNNはグラフニューラルネットワークとシーケンシャルモデルを通じてMTSの空間的パターンと時間的パターンを共同でモデル化し、予測精度を大幅に向上させる。 しかし、モデル複雑さによって制限されるため、STGNNの多くは、過去1時間にわたるデータなど、短期的なMSSデータのみを考慮する。 しかし、時系列のパターンとそれらの間の依存関係(時間的および空間的パターン)は、長期の歴史的MSSデータに基づいて分析する必要がある。 この問題に対処するために,STGNNはスケーラブルな時系列事前学習モデル(STEP)によって拡張される新しいフレームワークを提案する。 具体的には,非常に長い歴史の時系列(例えば過去2週間)から時間パターンを効率的に学習し,セグメントレベルの表現を生成する事前学習モデルを設計する。 これらの表現は、STGNNへの短期時系列入力のためのコンテキスト情報を提供し、時系列間のモデリング依存を容易にする。 3つの公開実世界のデータセットの実験により、我々のフレームワークは下流のSTGNNを著しく拡張できることを示した。

Multivariate Time Series (MTS) forecasting plays a vital role in a wide range of applications. Recently, Spatial-Temporal Graph Neural Networks (STGNNs) have become increasingly popular MTS forecasting methods. STGNNs jointly model the spatial and temporal patterns of MTS through graph neural networks and sequential models, significantly improving the prediction accuracy. But limited by model complexity, most STGNNs only consider short-term historical MTS data, such as data over the past one hour. However, the patterns of time series and the dependencies between them (i.e., the temporal and spatial patterns) need to be analyzed based on long-term historical MTS data. To address this issue, we propose a novel framework, in which STGNN is Enhanced by a scalable time series Pre-training model (STEP). Specifically, we design a pre-training model to efficiently learn temporal patterns from very long-term history time series (e.g., the past two weeks) and generate segment-level representations. These representations provide contextual information for short-term time series input to STGNNs and facilitate modeling dependencies between time series. Experiments on three public real-world datasets demonstrate that our framework is capable of significantly enhancing downstream STGNNs, and our pre-training model aptly captures temporal patterns.
翻訳日:2022-06-26 14:15:42 公開日:2022-06-18
# (参考訳) クエリを念頭に置いて:クエリ条件の畳み込みによるビジュアルグラウンド

Bear the Query in Mind: Visual Grounding with Query-conditioned Convolution ( http://arxiv.org/abs/2206.09114v1 )

ライセンス: CC BY 4.0
Chonghan Chen, Qi Jiang1, Chih-Hao Wang, Noel Chen, Haohan Wang, Xiang Li, Bhiksha Raj(参考訳) ビジュアルグラウンドティングは、自然言語表現に従って対象物を見つけることを目的としたタスクである。 マルチモーダルタスクとしては,テキスト入力と視覚入力の相互作用が不可欠である。 しかし, 従来の手法では, 視覚的特徴を抽出しながら, 関係するテキスト情報を十分に活用することができない。 ビジュアルグラウンドディングにおけるテキスト-視覚的関係をよりよく活用するために,クエリ情報を畳み込みカーネルの生成に組み込むことで,クエリ対応の視覚特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案する。 提案したQCMにより、下流融合モジュールはより識別性が高く、表現に記述された所望のオブジェクトに焦点を絞った視覚的特徴を受け取り、より正確な予測を行う。 3つの一般的な視覚的グラウンドティングデータセットに対する大規模な実験により、我々の手法が最先端の性能を達成することを示す。 さらに、クエリアウェアなビジュアル機能は、さらなるマルチモーダル融合なしに直接予測に使用される場合、最新のメソッドに匹敵するパフォーマンスを達成するのに十分な情報を提供する。

Visual grounding is a task that aims to locate a target object according to a natural language expression. As a multi-modal task, feature interaction between textual and visual inputs is vital. However, previous solutions mainly handle each modality independently before fusing them together, which does not take full advantage of relevant textual information while extracting visual features. To better leverage the textual-visual relationship in visual grounding, we propose a Query-conditioned Convolution Module (QCM) that extracts query-aware visual features by incorporating query information into the generation of convolutional kernels. With our proposed QCM, the downstream fusion module receives visual features that are more discriminative and focused on the desired object described in the expression, leading to more accurate predictions. Extensive experiments on three popular visual grounding datasets demonstrate that our method achieves state-of-the-art performance. In addition, the query-aware visual features are informative enough to achieve comparable performance to the latest methods when directly used for prediction without further multi-modal fusion.
翻訳日:2022-06-26 13:44:06 公開日:2022-06-18
# (参考訳) NISPA: スパースネットワークにおける連続学習のための神経誘発安定確率適応

NISPA: Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Networks ( http://arxiv.org/abs/2206.09117v1 )

ライセンス: CC BY 4.0
Mustafa Burak Gurbuz and Constantine Dovrolis(参考訳) 継続学習(CL)の目標は、時間とともに異なるタスクを学習することである。 clに関連する主なデシデラタは、古いタスクのパフォーマンスを維持し、後者を利用して将来のタスクの学習を改善し、トレーニングプロセスに最小限のオーバーヘッドを導入することである(例えば、成長したモデルや再トレーニングを必要としない)。 固定密度のスパースニューラルネットワークを用いてこれらのデシラタに対処するニューロインスパイアされた安定度適応(NISPA)アーキテクチャを提案する。 NISPAは、学習した知識を古いタスクから保存するために安定した経路を形成する。 また、nispaはコネクションリワイリングを使用して新しいプラスチックパスを作成し、新しいタスクで既存の知識を再利用する。 EMNIST, FashionMNIST, CIFAR10, CIFAR100データセットに対する広範な評価は, NISPAが最先端の学習ベースラインを著しく上回り, ベースラインに比べて学習可能なパラメータが最大10倍少ないことを示している。 また,空間が継続的な学習に欠かせない要素であることを示す。 NISPAコードはhttps://github.com/BurakGurbuz97/NISPAで入手できる。

The goal of continual learning (CL) is to learn different tasks over time. The main desiderata associated with CL are to maintain performance on older tasks, leverage the latter to improve learning of future tasks, and to introduce minimal overhead in the training process (for instance, to not require a growing model or retraining). We propose the Neuro-Inspired Stability-Plasticity Adaptation (NISPA) architecture that addresses these desiderata through a sparse neural network with fixed density. NISPA forms stable paths to preserve learned knowledge from older tasks. Also, NISPA uses connection rewiring to create new plastic paths that reuse existing knowledge on novel tasks. Our extensive evaluation on EMNIST, FashionMNIST, CIFAR10, and CIFAR100 datasets shows that NISPA significantly outperforms representative state-of-the-art continual learning baselines, and it uses up to ten times fewer learnable parameters compared to baselines. We also make the case that sparsity is an essential ingredient for continual learning. The NISPA code is available at https://github.com/BurakGurbuz97/NISPA.
翻訳日:2022-06-26 13:29:37 公開日:2022-06-18
# (参考訳) 早期乳癌検出のためのPCA-MLPネットワーク

A Combined PCA-MLP Network for Early Breast Cancer Detection ( http://arxiv.org/abs/2206.09128v1 )

ライセンス: CC BY 4.0
Md. Wahiduzzaman Khan Arnob, Arunima Dey Pooja and Md. Saif Hassan Onim(参考訳) 乳癌はあらゆる種類のがんに対して2番目に責任を負っており、特に女性の間では長年にわたって多数の死因となっている。 癌検出のための既存の診断システムの即興化は、死亡率の最小化に寄与する。 さらに, 早期のがん検出は, 生存率を高めるために, 最近科学界で主要な研究領域となっている。 機械学習ツールの適切な選択は、早期予後を高い精度で保証することができる。 本稿では,患者が乳がんに遭遇する可能性を検出するため,異なる機械学習アルゴリズムについて検討した。 初期特徴の暗黙的な振る舞いのため,PCAを統合した多層認識モデルを実装し,他の検出アルゴリズムよりも有効であることが示唆された。 我々の4層MLP-PCAネットワークは、BCCDデータセットの平均90.48%の精度で100%の精度を得た。

Breast cancer is the second most responsible for all cancer types and has been the cause of numerous deaths over the years, especially among women. Any improvisation of the existing diagnosis system for the detection of cancer can contribute to minimizing the death ratio. Moreover, cancer detection at an early stage has recently been a prime research area in the scientific community to enhance the survival rate. Proper choice of machine learning tools can ensure early-stage prognosis with high accuracy. In this paper, we have studied different machine learning algorithms to detect whether a patient is likely to face breast cancer or not. Due to the implicit behavior of early-stage features, we have implemented a multilayer perception model with the integration of PCA and suggested it to be more viable than other detection algorithms. Our 4 layers MLP-PCA network has obtained the best accuracy of 100% with a mean of 90.48% accuracy on the BCCD dataset.
翻訳日:2022-06-26 13:04:52 公開日:2022-06-18
# (参考訳) マルチモデル融合によるスプーフィングアウェア話者照合

Tackling Spoofing-Aware Speaker Verification with Multi-Model Fusion ( http://arxiv.org/abs/2206.09131v1 )

ライセンス: CC BY 4.0
Haibin Wu, Jiawen Kang, Lingwei Meng, Yang Zhang, Xixin Wu, Zhiyong Wu, Hung-yi Lee, Helen Meng(参考訳) 近年、自動話者検証(ASV)の異常な発展を目撃している。 しかし、従来の研究では、最先端のASVモデルは音声スプーフィング攻撃に深刻な脆弱性があることが示されており、最近提案された高性能スプーフィング対策(CM)モデルは、単独のアンチスプーフィングタスクのみにのみフォーカスし、その後の話者検証プロセスを無視している。 cmとasvを統合する方法はまだ未解決の問題だ。 近年,CMサブシステムとASVサブシステムの両方が協調的に最適化された場合,より優れた性能が提供できるという議論が持ち上がっている。 課題のシナリオでは、参加者が提案する統合システムは、信頼性の高いスプーフィング・ロバスト型asvシステムの期待に直感的かつ効果的に合致する、標的話者からのスプーフィング攻撃の両方を拒絶することが求められている。 この研究は、融合に基づくSASVソリューションに焦点を当て、複数の最先端 ASV と CM モデルのパワーを利用するマルチモデル融合フレームワークを提案する。 提案されたフレームワークは、sasv-eerを8.75%から1.17\%に大幅に改善し、sasvチャレンジの最高のベースラインシステムと比較すると、86%の相対的な改善である。

Recent years have witnessed the extraordinary development of automatic speaker verification (ASV). However, previous works show that state-of-the-art ASV models are seriously vulnerable to voice spoofing attacks, and the recently proposed high-performance spoofing countermeasure (CM) models only focus solely on the standalone anti-spoofing tasks, and ignore the subsequent speaker verification process. How to integrate the CM and ASV together remains an open question. A spoofing aware speaker verification (SASV) challenge has recently taken place with the argument that better performance can be delivered when both CM and ASV subsystems are optimized jointly. Under the challenge's scenario, the integrated systems proposed by the participants are required to reject both impostor speakers and spoofing attacks from target speakers, which intuitively and effectively matches the expectation of a reliable, spoofing-robust ASV system. This work focuses on fusion-based SASV solutions and proposes a multi-model fusion framework to leverage the power of multiple state-of-the-art ASV and CM models. The proposed framework vastly improves the SASV-EER from 8.75% to 1.17\%, which is 86% relative improvement compared to the best baseline system in the SASV challenge.
翻訳日:2022-06-26 12:36:13 公開日:2022-06-18
# (参考訳) 認定グラフアンラーニング

Certified Graph Unlearning ( http://arxiv.org/abs/2206.09140v1 )

ライセンス: CC BY 4.0
Eli Chien, Chao Pan, Olgica Milenkovic(参考訳) グラフ構造化データは実際にはユビキタスであり、グラフニューラルネットワーク(GNN)を使用して処理されることが多い。 近年の「忘れられる権利」を保障する法律の採用により、グラフデータ削除の問題は重要になっている。 この問題に対処するために、GNNのemph{certified graph unlearning} のための最初のフレームワークを紹介する。 標準的な機械学習とは対照的に、複雑なグラフデータを扱う際に、新しい分析的およびヒューリスティックな未学習の課題が発生する。 まず、ノード機能、エッジ、ノードアンラーニングを含む3つの異なるタイプのアンラーニング要求を検討する必要があります。 第二に、実現可能なパフォーマンス保証を確立するためには、伝搬中の機能混合に関連する課題に対処する必要がある。 基礎となる分析は、単純なグラフ畳み込み(SGC)とその一般化されたPageRank(GPR)拡張の例に示されており、それによってGNNの認定未学習の理論的基礎が築かれる。 6つのベンチマークデータセットに関する実証的研究は、グラフ情報を利用しない完全再トレーニング手法やアプローチと比較して、優れた性能・複雑さのトレードオフを示す。 例えば、Coraデータセット上のノードの20ドル%をアンラーニングする場合、我々のアプローチはテストの精度が0.1セント%低下する一方、完全な再トレーニングに比べて4ドル分のスピードアップを提供する。 また,グラフ情報の活用を行なわない未学習手法を同等の時間でテスト精度を12 %以上向上させる手法よりも優れていた。

Graph-structured data is ubiquitous in practice and often processed using graph neural networks (GNNs). With the adoption of recent laws ensuring the ``right to be forgotten'', the problem of graph data removal has become of significant importance. To address the problem, we introduce the first known framework for \emph{certified graph unlearning} of GNNs. In contrast to standard machine unlearning, new analytical and heuristic unlearning challenges arise when dealing with complex graph data. First, three different types of unlearning requests need to be considered, including node feature, edge and node unlearning. Second, to establish provable performance guarantees, one needs to address challenges associated with feature mixing during propagation. The underlying analysis is illustrated on the example of simple graph convolutions (SGC) and their generalized PageRank (GPR) extensions, thereby laying the theoretical foundation for certified unlearning of GNNs. Our empirical studies on six benchmark datasets demonstrate excellent performance-complexity trade-offs when compared to complete retraining methods and approaches that do not leverage graph information. For example, when unlearning $20\%$ of the nodes on the Cora dataset, our approach suffers only a $0.1\%$ loss in test accuracy while offering a $4$-fold speed-up compared to complete retraining. Our scheme also outperforms unlearning methods that do not leverage graph information with a $12\%$ increase in test accuracy for a comparable time complexity.
翻訳日:2022-06-26 08:18:39 公開日:2022-06-18
# (参考訳) 実世界のベンチマークデータセットを超えて - GNNによるノード分類の実証的研究

Beyond Real-world Benchmark Datasets: An Empirical Study of Node Classification with GNNs ( http://arxiv.org/abs/2206.09144v1 )

ライセンス: CC BY 4.0
Seiji Maekawa, Koki Noda, Yuya Sasaki, Makoto Onizuka(参考訳) グラフニューラルネットワーク(GNN)はノード分類タスクにおいて大きな成功を収めている。 GNNの開発と評価には幅広い関心があるが、限られたベンチマークデータセットで評価されている。 その結果、既存のGNNの評価では、グラフの様々な特性からのきめ細かい分析が欠如している。 そこで我々は, 微粒化解析のための制御特性を持つグラフを生成する合成グラフ生成器を用いて, 広範囲な実験を行った。 本研究は,ノードのクラスラベルを持つ実世界グラフの4つの主要特徴からgnnの強みと弱みを明らかにする。 1) クラスサイズの分布(均衡対不均衡) 2) クラス間のエッジ接続比率(ホモフィル性対ヘテロフィル性) 3)属性値(バイアス付き対ランダム)、および 4) グラフサイズ(小さい対大きい)。 さらに,GNNの今後の研究を促進するため,ユーザがさまざまなグラフでさまざまなGNNを評価することのできるコードベースを公開しています。 この研究が今後の研究に興味深い洞察をもたらすことを願っています。

Graph Neural Networks (GNNs) have achieved great success on a node classification task. Despite the broad interest in developing and evaluating GNNs, they have been assessed with limited benchmark datasets. As a result, the existing evaluation of GNNs lacks fine-grained analysis from various characteristics of graphs. Motivated by this, we conduct extensive experiments with a synthetic graph generator that can generate graphs having controlled characteristics for fine-grained analysis. Our empirical studies clarify the strengths and weaknesses of GNNs from four major characteristics of real-world graphs with class labels of nodes, i.e., 1) class size distributions (balanced vs. imbalanced), 2) edge connection proportions between classes (homophilic vs. heterophilic), 3) attribute values (biased vs. random), and 4) graph sizes (small vs. large). In addition, to foster future research on GNNs, we publicly release our codebase that allows users to evaluate various GNNs with various graphs. We hope this work offers interesting insights for future research.
翻訳日:2022-06-26 07:31:32 公開日:2022-06-18
# (参考訳) thompson sampling for (combinatorial) pure exploration (英語)

Thompson Sampling for (Combinatorial) Pure Exploration ( http://arxiv.org/abs/2206.09150v1 )

ライセンス: CC BY 4.0
Siwei Wang, Jun Zhu(参考訳) 既存の組合せ純粋探索法は主に UCB アプローチに焦点を当てている。 アルゴリズムを効率よくするために、彼らは通常、アームセット内の上限値の和$S$を使い、S$の上限値よりもはるかに大きい$S$を表現し、S$の異なるアームの実証的な手段が独立であることから、必要以上に複雑になる。 この課題に対処するために、上位信頼境界の代わりに独立したランダムサンプルを用いたトンプソンサンプリング(TS)のアイデアを探求し、(組合せ)純粋探索のためのTS-Exploreアルゴリズムを設計する。 TS-Explore では、アームセット$S$の独立したランダムサンプルの和は、高い確率で$S$の厳密な上限を超えることはない。 したがって、上記の課題を解決し、一般的な組合せ純粋探索において、既存の効率的な UCB ベースのアルゴリズムよりも低い複雑性上限を達成する。 古典的マルチアームバンディットの純粋探索については、TS-Exploreが漸近的に最適な複雑性上限を達成することを示す。

Existing methods of combinatorial pure exploration mainly focus on the UCB approach. To make the algorithm efficient, they usually use the sum of upper confidence bounds within arm set $S$ to represent the upper confidence bound of $S$, which can be much larger than the tight upper confidence bound of $S$ and leads to a much higher complexity than necessary, since the empirical means of different arms in $S$ are independent. To deal with this challenge, we explore the idea of Thompson Sampling (TS) that uses independent random samples instead of the upper confidence bounds, and design the first TS-based algorithm TS-Explore for (combinatorial) pure exploration. In TS-Explore, the sum of independent random samples within arm set $S$ will not exceed the tight upper confidence bound of $S$ with high probability. Hence it solves the above challenge, and achieves a lower complexity upper bound than existing efficient UCB-based algorithms in general combinatorial pure exploration. As for pure exploration of classic multi-armed bandit, we show that TS-Explore achieves an asymptotically optimal complexity upper bound.
翻訳日:2022-06-26 07:10:11 公開日:2022-06-18
# (参考訳) manorm:ラテン文字で書かれたモロッコ語アラビア語の正規化辞書

MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written in Latin Script ( http://arxiv.org/abs/2206.09167v1 )

ライセンス: CC BY 4.0
Randa Zarnoufi, Walid Bachri, Hamid Jaafar and Mounia Abik(参考訳) ソーシャルメディアのユーザ生成テキストは多くのNLPタスクの主要なリソースである。 しかし、この文章は標準的な文の規則に従わない。 さらに、モロッコ語のような方言を文字によるコミュニケーションで使用すると、NLPタスクの複雑さが増す。 方言は標準の正書法を持たない言語であり、ユーザが書きながら即興で綴りを書けるようにしている。 したがって、同じ単語の場合、複数の形態の訳文を見つけることができる。 その後、これらの異なる文字を1つの標準語形式に正規化することが義務付けられる。 この目標を達成するために、youtubeコメントのコーパスで生成された単語埋め込みモデルの強力さを活用した。 さらに、標準形を提供するモロッコのアラビア語方言辞書を用いて、我々はマノルムと呼ぶ正規化辞書を構築した。 本研究では,方言正規化に有用性を示すマナームの効率性を示す実験を行った。

Social media user-generated text is actually the main resource for many NLP tasks. This text however, does not follow the standard rules of writing. Moreover, the use of dialect such as Moroccan Arabic in written communications increases further NLP tasks complexity. A dialect is a verbal language that does not have a standard orthography, which leads users to improvise spelling while writing. Thus, for the same word we can find multiple forms of transliterations. Subsequently, it is mandatory to normalize these different transliterations to one canonical word form. To reach this goal, we have exploited the powerfulness of word embedding models generated with a corpus of YouTube comments. Besides, using a Moroccan Arabic dialect dictionary that provides the canonical forms, we have built a normalization dictionary that we refer to as MANorm. We have conducted several experiments to demonstrate the efficiency of MANorm, which have shown its usefulness in dialect normalization.
翻訳日:2022-06-26 06:38:10 公開日:2022-06-18
# (参考訳) REVECA -- Video Event Captioner用のリッチエンコーダデコーダフレームワーク

REVECA -- Rich Encoder-decoder framework for Video Event CAptioner ( http://arxiv.org/abs/2206.09178v1 )

ライセンス: CC BY 4.0
Jaehyuk Heo, YongGi Jeong, Sunwoo Kim, Jaehee Kim, Pilsung Kang(参考訳) 本稿では,cvpr 2022で開催される長期ビデオ理解ワークショップにおいて,汎用境界イベントキャプションチャレンジで使用されるアプローチについて述べる。 我々はビデオイベントキャピタ(REVECA)のためのリッチエンコーダデコーダフレームワークを設計し、ビデオから空間的・時間的情報を利用してイベント境界に対応するキャプションを生成する。 REVECAは、イベント境界の前後に情報を組み込むためにフレーム位置埋め込みを使用する。 さらに、時間セグメントネットワークと時間ベースのペアワイズ差分法を用いて抽出した特徴を用いて、時間情報学習を行う。 イベントの主題を学習するために、注意プーリングプロセスのためのセマンティックセグメンテーションマスクが採用される。 最後に、LoRAを用いて画像エンコーダの微調整を行い、学習効率を向上させる。 REVECAはKinetics-GEBCテストデータの平均スコアを50.97とし、ベースライン法よりも10.17に改善した。 私たちのコードはhttps://github.com/TooTouch/REVECAで利用可能です。

We describe an approach used in the Generic Boundary Event Captioning challenge at the Long-Form Video Understanding Workshop held at CVPR 2022. We designed a Rich Encoder-decoder framework for Video Event CAptioner (REVECA) that utilizes spatial and temporal information from the video to generate a caption for the corresponding the event boundary. REVECA uses frame position embedding to incorporate information before and after the event boundary. Furthermore, it employs features extracted using the temporal segment network and temporal-based pairwise difference method to learn temporal information. A semantic segmentation mask for the attentional pooling process is adopted to learn the subject of an event. Finally, LoRA is applied to fine-tune the image encoder to enhance the learning efficiency. REVECA yielded an average score of 50.97 on the Kinetics-GEBC test data, which is an improvement of 10.17 over the baseline method. Our code is available in https://github.com/TooTouch/REVECA.
翻訳日:2022-06-26 06:23:55 公開日:2022-06-18
# (参考訳) コインフリップニューラルネットワーク

Coin Flipping Neural Networks ( http://arxiv.org/abs/2206.09182v1 )

ライセンス: CC BY 4.0
Yuval Sieradzki, Nitzan Hodos, Gal Yehuda, Assaf Schuster(参考訳) ランダム性を持つニューラルネットワークは増幅を用いて決定論的ネットワークより優れていることを示す。 このようなネットワークをCoin-Flipping Neural Networks(CFNN)と呼ぶ。 CFNNは2層と$\mathcal{O}(1)$ニューロンで任意の精度で$d$次元球のインジケータを近似でき、2層決定ネットワークは$\Omega(e^d)$ニューロン、指数的改善(arXiv:1610.09887[cs.LG])を必要とすることを示した。 ほとんどすべての分類問題に対して、ネットワークの重みに対して十分な強力な生成器を与えるような、自明な単純なネットワークが存在することを証明している。 これらの結果を組み合わせることで、ほとんどの分類問題に対して、決定論的ネットワークよりも高い精度または少ないニューロンでそれらを解くCFNNが存在すると推測する。 最後に, CIFAR10 および CIFAR100 上の新しい CFNN アーキテクチャを用いて実験により検証を行い, ベースラインから 9.25 % 向上した。

We show that neural networks with access to randomness can outperform deterministic networks by using amplification. We call such networks Coin-Flipping Neural Networks, or CFNNs. We show that a CFNN can approximate the indicator of a $d$-dimensional ball to arbitrary accuracy with only 2 layers and $\mathcal{O}(1)$ neurons, where a 2-layer deterministic network was shown to require $\Omega(e^d)$ neurons, an exponential improvement (arXiv:1610.09887 [cs.LG]). We prove a highly non-trivial result, that for almost any classification problem, there exists a trivially simple network that solves it given a sufficiently powerful generator for the network's weights. Combining these results we conjecture that for most classification problems, there is a CFNN which solves them with higher accuracy or fewer neurons than any deterministic network. Finally, we verify our proofs experimentally using novel CFNN architectures on CIFAR10 and CIFAR100, reaching an improvement of 9.25\% from the baseline.
翻訳日:2022-06-26 05:46:50 公開日:2022-06-18
# (参考訳) 測定誤差を考慮した因果推論:非パラメトリック機器可変アプローチ

Causal Inference with Treatment Measurement Error: A Nonparametric Instrumental Variable Approach ( http://arxiv.org/abs/2206.09186v1 )

ライセンス: CC BY 4.0
Yuchen Zhu, Limor Gultchin, Arthur Gretton, Matt Kusner, Ricardo Silva(参考訳) 原因が誤りである場合の因果効果に対するカーネルベースの非パラメトリック推定器を提案する。 インストゥルメンタル変数設定における推定を一般化することで、そうする。 測定エラーによる回帰に関する大きな作業にもかかわらず、連続的な設定で観測されていないコンファウンディングを扱うのは簡単ではない。 本研究の副産物として,平均埋め込みと特徴関数の関係を明らかにし,一方を学習することで他方を学習できることを示す。 これにより、カーネル手法の研究は、特徴関数推定において既存の結果を活用することができる。 最後に,提案手法であるMEKIVは,測定誤差の強度や誤差分布の種類の変化により,ベースラインよりも改善され,堅牢であることを示す。

We propose a kernel-based nonparametric estimator for the causal effect when the cause is corrupted by error. We do so by generalizing estimation in the instrumental variable setting. Despite significant work on regression with measurement error, additionally handling unobserved confounding in the continuous setting is non-trivial: we have seen little prior work. As a by-product of our investigation, we clarify a connection between mean embeddings and characteristic functions, and how learning one simultaneously allows one to learn the other. This opens the way for kernel method research to leverage existing results in characteristic function estimation. Finally, we empirically show that our proposed method, MEKIV, improves over baselines and is robust under changes in the strength of measurement error and to the type of error distributions.
翻訳日:2022-06-26 05:15:29 公開日:2022-06-18
# (参考訳) ビジュアルデータセットにおけるジェンダーアーティファクト

Gender Artifacts in Visual Datasets ( http://arxiv.org/abs/2206.09191v1 )

ライセンス: CC BY 4.0
Nicole Meister, Dora Zhao, Angelina Wang, Vikram V. Ramaswamy, Ruth Fong, Olga Russakovsky(参考訳) ジェンダーバイアスは大規模なビジュアルデータセットに存在することが知られており、下流モデルで反映または増幅することもできる。 多くの先行研究は、画像から性別表現情報を取り除こうとして、性別バイアスを緩和する方法を提案している。 これらのアプローチの実現可能性と実用性を理解するため、大規模なビジュアルデータセットに$\textit{gender artifacts}$が存在するかを調べる。 そこで本稿では,現代画像分類器で学習可能で,解釈可能なヒューマン・コロナリーを持つような,ジェンダーと相関する視覚的キューとして,$\textit{gender artifact}$を定義した。 分析の結果、性別のアーティファクトはCOCOデータセットやOpenImagesデータセットの中でユビキタスであり、低レベル情報(例えば、カラーチャネルの平均値)から高レベル画像(例えば、ポーズや人物の位置)まで至るところで発生することがわかった。 性別アーチファクトの普及を考えると、このようなデータセットから性別アーチファクトを取り除く試みは、ほとんど不可能であると主張する。 その代わり、研究者や実践者はデータセット内の画像の分布が高度に性的なものであることに気付き、グループ間の分散シフトに堅牢な方法を開発する責任を負う。

Gender biases are known to exist within large-scale visual datasets and can be reflected or even amplified in downstream models. Many prior works have proposed methods for mitigating gender biases, often by attempting to remove gender expression information from images. To understand the feasibility and practicality of these approaches, we investigate what $\textit{gender artifacts}$ exist within large-scale visual datasets. We define a $\textit{gender artifact}$ as a visual cue that is correlated with gender, focusing specifically on those cues that are learnable by a modern image classifier and have an interpretable human corollary. Through our analyses, we find that gender artifacts are ubiquitous in the COCO and OpenImages datasets, occurring everywhere from low-level information (e.g., the mean value of the color channels) to the higher-level composition of the image (e.g., pose and location of people). Given the prevalence of gender artifacts, we claim that attempts to remove gender artifacts from such datasets are largely infeasible. Instead, the responsibility lies with researchers and practitioners to be aware that the distribution of images within datasets is highly gendered and hence develop methods which are robust to these distributional shifts across groups.
翻訳日:2022-06-26 04:53:17 公開日:2022-06-18
# (参考訳) ファンダス画像に基づくCVDリスク推定のためのカメラ適応

Camera Adaptation for Fundus-Image-Based CVD Risk Estimation ( http://arxiv.org/abs/2206.09202v1 )

ライセンス: CC BY 4.0
Zhihong Lin, Danli Shi, Donghao Zhang, Xianwen Shang, Mingguang He, Zongyuan Ge(参考訳) 近年の研究では、心血管疾患(CVD)のリスクと網膜基底像との関連が検証されている。 ディープラーニング(DL)とポータブルファンドカメラを組み合わせることで、さまざまなシナリオにおけるCVDリスク推定が可能になり、医療の民主化が向上する。 しかし、解決すべき重要な問題がまだ残っている。 最優先課題の1つは、研究資料のデータベースと生産環境のサンプルの異なるカメラの違いである。 研究可能な高品質なレチノグラフィーデータベースのほとんどは、ハイエンドな眼底カメラから収集され、異なるカメラ間で大きな領域の相違がある。 ドメインの相違を十分に検討するために,まず,ハイエンドのtopcon retinal カメラと同一患者の低価格 mediwork portable fundus カメラで撮影された対方向の fundus 画像を含む fundus camera paired (fcp) データセットを収集する。 次に,モデルのロバスト性を改善するために,クロス・ラタナリティ特徴アライメント事前学習方式とセルフ・アテンションカメラ適応モジュールを提案する。 横方向の特徴アライメントトレーニングにより、同じ患者の左右の眼底画像から共通知識を学習し、モデルの一般化を改善することができる。 一方、デバイス適応モジュールは、ターゲットドメインからソースドメインへの特徴変換を学習する。 英国バイオバンクデータベースとFCPデータの両方について包括的な実験を行った。 実験の結果,提案手法により,cvdのリスク回帰精度と2台のカメラによる結果整合性が向上した。 コードはここで入手できる。 \url{https://github.com/linzhlalala/CVD-risk-based-on-retinal-fundus-images}

Recent studies have validated the association between cardiovascular disease (CVD) risk and retinal fundus images. Combining deep learning (DL) and portable fundus cameras will enable CVD risk estimation in various scenarios and improve healthcare democratization. However, there are still significant issues to be solved. One of the top priority issues is the different camera differences between the databases for research material and the samples in the production environment. Most high-quality retinography databases ready for research are collected from high-end fundus cameras, and there is a significant domain discrepancy between different cameras. To fully explore the domain discrepancy issue, we first collect a Fundus Camera Paired (FCP) dataset containing pair-wise fundus images captured by the high-end Topcon retinal camera and the low-end Mediwork portable fundus camera of the same patients. Then, we propose a cross-laterality feature alignment pre-training scheme and a self-attention camera adaptor module to improve the model robustness. The cross-laterality feature alignment training encourages the model to learn common knowledge from the same patient's left and right fundus images and improve model generalization. Meanwhile, the device adaptation module learns feature transformation from the target domain to the source domain. We conduct comprehensive experiments on both the UK Biobank database and our FCP data. The experimental results show that the CVD risk regression accuracy and the result consistency over two cameras are improved with our proposed method. The code is available here: \url{https://github.com/linzhlalala/CVD-risk-based-on-retinal-fundus-images}
翻訳日:2022-06-26 04:51:55 公開日:2022-06-18
# (参考訳) EST: 人工エージェントの科学的思考を評価する

EST: Evaluating Scientific Thinking in Artificial Agents ( http://arxiv.org/abs/2206.09203v1 )

ライセンス: CC BY 4.0
Manjie Xu, Guangyuan Jiang, Chi Zhang, Song-Chun Zhu, Yixin Zhu(参考訳) 子どもは、非常に若い幼児でさえ、形式的な研究において科学的推論と非常によく似た方法で学習と思考を示しています。 新たな現象を仮定すると、子どもたちはデータに対して仮説を立て、観察から因果推論を行い、実験を通して理論を検証し、矛盾が発生した場合、命題を正す。 そのようなプロセスのラウンドは、基盤となるメカニズムが見つかるまで継続する。 私たちが今日達成した知性が、そのような科学的思考プロセスを実行し、どんなレベルでも実行することができるかどうか、という疑問です。 本研究では,人工エージェントの科学的思考能力を評価するためのest環境を考案する。 因果発見の研究の流れに触発されて,Blicket検出に基づく対話型EST環境を構築した。 具体的には、estの各エピソードにおいて、エージェントが新しい観察を行い、すべてのオブジェクトのblicketnessを解明するように要求される。 それぞれの時間ステップで、エージェントは仮説を検証する新しい実験を提案し、現在の信念を更新する。 このタスクのシンボリックバージョンとビジュアルバージョンの両方で強化学習(RL)エージェントを評価することで、今日の学習方法が人間に匹敵するインテリジェンスレベルに到達できないことが明らかになった。 科学的思考における学習の非効率性は、人間のような知性を構築するための将来の研究を要求する。

Theoretical ideas and empirical research have shown us a seemingly surprising result: children, even very young toddlers, demonstrate learning and thinking in a strikingly similar manner to scientific reasoning in formal research. Encountering a novel phenomenon, children make hypotheses against data, conduct causal inference from observation, test their theory via experimentation, and correct the proposition if inconsistency arises. Rounds of such processes continue until the underlying mechanism is found. Towards building machines that can learn and think like people, one natural question for us to ask is: whether the intelligence we achieve today manages to perform such a scientific thinking process, and if any, at what level. In this work, we devise the EST environment for evaluating the scientific thinking ability in artificial agents. Motivated by the stream of research on causal discovery, we build our interactive EST environment based on Blicket detection. Specifically, in each episode of EST, an agent is presented with novel observations and asked to figure out all objects' Blicketness. At each time step, the agent proposes new experiments to validate its hypothesis and updates its current belief. By evaluating Reinforcement Learning (RL) agents on both a symbolic and visual version of this task, we notice clear failure of today's learning methods in reaching a level of intelligence comparable to humans. Such inefficacy of learning in scientific thinking calls for future research in building humanlike intelligence.
翻訳日:2022-06-26 04:41:31 公開日:2022-06-18
# (参考訳) 生物インスパイアされたランダム射影によるロバスト・スパース分類

Bioinspired random projections for robust, sparse classification ( http://arxiv.org/abs/2206.09222v1 )

ライセンス: CC BY 4.0
Bryn Davies and Nina Dekoninck Bruhin(参考訳) 生物センシングシステムにおけるランダムプロジェクションの利用に着想を得て,分類問題におけるデータ処理のための新しいアルゴリズムを提案する。 これはヒトの脳とショウジョウバエの嗅覚系の観察に基づいており、小さなエントリを切り離すためにキャップ操作を適用する前に、データを非常に大きな次元の空間にランダムに投影する。 これにより、分類精度が最小限に低下したスパース表現を達成でき、また、データにノイズを加えると分類精度が向上するという意味でも、より堅牢である。 これは、結果の信号変換が連続的かつ可逆であることを示す理論的結果を適切な意味で補足する数値実験で示される。

Inspired by the use of random projections in biological sensing systems, we present a new algorithm for processing data in classification problems. This is based on observations of the human brain and the fruit fly's olfactory system and involves randomly projecting data into a space of greatly increased dimension before applying a cap operation to truncate the smaller entries. This leads to an algorithm that achieves a sparse representation with minimal loss in classification accuracy and is also more robust in the sense that classification accuracy is improved when noise is added to the data. This is demonstrated with numerical experiments, which supplement theoretical results demonstrating that the resulting signal transform is continuous and invertible, in an appropriate sense.
翻訳日:2022-06-26 04:24:23 公開日:2022-06-18
# (参考訳) モデル非依存Few-Shotオープンセット認識

Model-Agnostic Few-Shot Open-Set Recognition ( http://arxiv.org/abs/2206.09236v1 )

ライセンス: CC BY-SA 4.0
Malik Boudiaf, Etienne Bennequin, Myriam Tami, Celine Hudelot, Antoine Toubhans, Pablo Piantanida, Ismail Ben Ayed(参考訳) Few-Shot Open-Set Recognition (FSOSR) 問題、すなわち、ラベル付きサンプルがほとんどないクラスのインスタンスを分類すると同時に、既知のクラスに属さないインスタンスを同時に検出する。 既存の文献とは別に,アーキテクチャやトレーニング手順に関わらず,既存のモデルにプラグイン可能なモデルに依存しない推論手法の開発に注力する。 各種モデルの埋め込み品質を評価することにより、モデルに依存しないFSOSRの本質的な難しさを定量化する。 さらに、公正な実証的評価は、FSOSRの帰納的設定において、kNN検出器と原型分類器の内在的な組み合わせが、特殊的または複雑な方法の前にランク付けされていることを示唆している。 これらの観察は、標準的な少数ショット学習問題の一般的かつ実用的な緩和として、トランスダクションに頼る動機となった。 我々は,抽出した特徴と代入の相互情報を最大化しながら,外来プロトタイプを幻覚させるオープンセットトランスダクティブ情報最大化手法OSTIMを提案する。 5つのデータセットにまたがる広範な実験を通じて、ostimはオープンセットインスタンスの検出においてインダクティブおよび既存のトランスダクティブメソッドを上回っており、クローズドセットインスタンスの分類において最も強いトランスダクティブメソッドと競合することを示した。 さらに、OSTIMのモデル非依存により、ハイパーパラメータを変更することなく、最新のアーキテクチャやトレーニング戦略の強力な表現能力を活用することができ、アーキテクチャの進歩がOSTIMのパフォーマンスに肯定的な影響を与え続けることを示す。

We tackle the Few-Shot Open-Set Recognition (FSOSR) problem, i.e. classifying instances among a set of classes for which we only have few labeled samples, while simultaneously detecting instances that do not belong to any known class. Departing from existing literature, we focus on developing model-agnostic inference methods that can be plugged into any existing model, regardless of its architecture or its training procedure. Through evaluating the embedding's quality of a variety of models, we quantify the intrinsic difficulty of model-agnostic FSOSR. Furthermore, a fair empirical evaluation suggests that the naive combination of a kNN detector and a prototypical classifier ranks before specialized or complex methods in the inductive setting of FSOSR. These observations motivated us to resort to transduction, as a popular and practical relaxation of standard few-shot learning problems. We introduce an Open Set Transductive Information Maximization method OSTIM, which hallucinates an outlier prototype while maximizing the mutual information between extracted features and assignments. Through extensive experiments spanning 5 datasets, we show that OSTIM surpasses both inductive and existing transductive methods in detecting open-set instances while competing with the strongest transductive methods in classifying closed-set instances. We further show that OSTIM's model agnosticity allows it to successfully leverage the strong expressive abilities of the latest architectures and training strategies without any hyperparameter modification, a promising sign that architectural advances to come will continue to positively impact OSTIM's performances.
翻訳日:2022-06-26 04:07:47 公開日:2022-06-18
# (参考訳) ニューラル量子状態の基底状態問題としての量子力学の実証的研究

An Empirical Study of Quantum Dynamics as a Ground State Problem with Neural Quantum States ( http://arxiv.org/abs/2206.09241v1 )

ライセンス: CC BY 4.0
Vladimir Vargas-Calder\'on and Herbert Vinck-Posada and Fabio A. Gonz\'alez(参考訳) ニューラルネットワークは、機械学習コミュニティで何十年にもわたって研究されてきた数学的モデルである、人工ニューラルネットワークによってパラメータ化される変動波動関数である。 多体物理学の文脈では、変分モンテカルロや、変分波動関数のようなニューラル量子状態を持つ手法は、量子ハミルトニアンの基底状態の高精度な近似に成功している。 しかしながら、ニューラルネットワークアーキテクチャを提案することの難しさと、その表現性とトレーニング可能性の探求は、ニューラルネットワークの量子状態として応用される。 本稿では, 離散時間ステップにおけるスピン鎖の時間発展を基底状態がエンコードする横場イジングモデルに対するファインマン・キタエフ・ハミルトニアンについて考察する。 この基底状態問題は、真の基底状態がより絡み合うようになり、確率分布がヒルベルト空間全体に広がり始めるため、時間ステップが増加するにつれて、神経量子状態のトレーサビリティにどのように挑戦するかを示す。 以上の結果から, 検討された神経量子状態は, 系の真の基底状態を正確に近似することができることが示唆された。 しかしながら、広範囲なハイパーパラメータチューニング実験は、真の基底状態の忠実な近似を防ぐモンテカルロ設定において、訓練性が乏しいという経験的事実を指している。

Neural quantum states are variational wave functions parameterised by artificial neural networks, a mathematical model studied for decades in the machine learning community. In the context of many-body physics, methods such as variational Monte Carlo with neural quantum states as variational wave functions are successful in approximating, with great accuracy, the ground-state of a quantum Hamiltonian. However, all the difficulties of proposing neural network architectures, along with exploring their expressivity and trainability, permeate their application as neural quantum states. In this paper, we consider the Feynman-Kitaev Hamiltonian for the transverse field Ising model, whose ground state encodes the time evolution of a spin chain at discrete time steps. We show how this ground state problem specifically challenges the neural quantum state trainability as the time steps increase because the true ground state becomes more entangled, and the probability distribution starts to spread across the Hilbert space. Our results indicate that the considered neural quantum states are capable of accurately approximating the true ground state of the system, i.e., they are expressive enough. However, extensive hyper-parameter tuning experiments point towards the empirical fact that it is poor trainability--in the variational Monte Carlo setup--that prevents a faithful approximation of the true ground state.
翻訳日:2022-06-26 03:50:08 公開日:2022-06-18
# (参考訳) 冗長符号による構造光

Structured Light with Redundancy Codes ( http://arxiv.org/abs/2206.09243v1 )

ライセンス: CC BY 4.0
Zhanghao Sun, Yu Zhang, Yicheng Wu, Dong Huo, Yiming Qian, and Jian Wang(参考訳) 構造光(SL)システムは能動照明投影による高忠実度3次元形状を得る。 従来のシステムは、強い環境照明、グローバル照明、デバイス間の干渉のある環境で働く際に課題を示す。 本稿では,ネイティブなSLパターンに加えて,冗長な光信号を投影することで,SLのロバスト性を向上させる汎用手法を提案する。 このようにして、投影された信号はエラーとより区別できる。 これにより、簡単な信号処理により幾何情報をより容易に回収することができ、性能の「コーディングゲイン」が得られる。 本研究では,(1)強い環境光下でのSL画像の自己誤り補正,(2)大域照明下での適応的再構成の誤り検出,(3)デバイス固有の投影シーケンスエンコーディングによる干渉フィルタリング,特にイベントカメラベースのSLとライトカーテン装置の3つの手法を提案する。 これらのアプリケーションの設計規則と信号処理アルゴリズムを体系的に解析する。 対応するハードウェアプロトタイプは、現実世界の複雑なシーンの評価のために作られている。 合成および実データを用いた実験の結果,冗長性コードを用いたslシステムの性能改善が示された。

Structured light (SL) systems acquire high-fidelity 3D geometry with active illumination projection. Conventional systems exhibit challenges when working in environments with strong ambient illumination, global illumination and cross-device interference. This paper proposes a general-purposed technique to improve the robustness of SL by projecting redundant optical signals in addition to the native SL patterns. In this way, projected signals become more distinguishable from errors. Thus the geometry information can be more easily recovered using simple signal processing and the ``coding gain" in performance is obtained. We propose three applications using our redundancy codes: (1) Self error-correction for SL imaging under strong ambient light, (2) Error detection for adaptive reconstruction under global illumination, and (3) Interference filtering with device-specific projection sequence encoding, especially for event camera-based SL and light curtain devices. We systematically analyze the design rules and signal processing algorithms in these applications. Corresponding hardware prototypes are built for evaluations on real-world complex scenes. Experimental results on the synthetic and real data demonstrate the significant performance improvements in SL systems with our redundancy codes.
翻訳日:2022-06-26 03:30:59 公開日:2022-06-18
# (参考訳) 機械学習モデルにおける分布外検出のためのロバストなランダムカットフォレスト削減

Reduced Robust Random Cut Forest for Out-Of-Distribution detection in machine learning models ( http://arxiv.org/abs/2206.09247v1 )

ライセンス: CC BY 4.0
Harsh Vardhan, Janos Sztipanovits(参考訳) ほとんどの機械学習ベースの回帰器は、限られた長さの過去の観測を通して収集されたデータから情報を抽出し、将来予測する。 したがって、これらの訓練されたモデルへの入力が、トレーニングに使用するデータと統計特性が著しく異なるデータである場合、正確な予測は保証されない。 したがって、これらのモデルが分布外入力データで使用される場合、予測結果と予測結果とは全く異なる結果をもたらす可能性がある。 任意のシステムにこれらの機械学習モデルをうまく配置するには、アウト・オブ・ディストリビューションとイン・ディストリビューション(トレーニングデータに似たもの)を区別できる検出システムが必要である。 本稿では,この検出プロセスにおいて,小型・大規模の両方で使用できるRRRCF(Reduced Robust Random Cut Forest)データ構造を用いた新しい手法を提案する。 ロバストランダムカットフォレスト(RRCF)と同様に、RRCFは構造化されているが、カットツリーの形でトレーニングデータサブスペースの縮小表現である。 低次元データと高次元データの両方における実験結果から、トレーニング分布の入出力データに対する推論を効率的に行うことができ、超パラメータチューニングが困難で容易に訓練できることがわかった。 テストと検証の2つの異なるユースケースについて論じる。

Most machine learning-based regressors extract information from data collected via past observations of limited length to make predictions in the future. Consequently, when input to these trained models is data with significantly different statistical properties from data used for training, there is no guarantee of accurate prediction. Consequently, using these models on out-of-distribution input data may result in a completely different predicted outcome from the desired one, which is not only erroneous but can also be hazardous in some cases. Successful deployment of these machine learning models in any system requires a detection system, which should be able to distinguish between out-of-distribution and in-distribution data (i.e. similar to training data). In this paper, we introduce a novel approach for this detection process using a Reduced Robust Random Cut Forest (RRRCF) data structure, which can be used on both small and large data sets. Similar to the Robust Random Cut Forest (RRCF), RRRCF is a structured, but a reduced representation of the training data sub-space in form of cut trees. Empirical results of this method on both low and high-dimensional data showed that inference about data being in/out of training distribution can be made efficiently and the model is easy to train with no difficult hyper-parameter tuning. The paper discusses two different use-cases for testing and validating results.
翻訳日:2022-06-26 03:08:42 公開日:2022-06-18
# (参考訳) ゼロサムゲームにおけるラストイテレート収束のための正規化リーダの追従

Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games ( http://arxiv.org/abs/2206.09254v1 )

ライセンス: CC BY 4.0
Kenshi Abe, Mitsuki Sakamoto, Atsushi Iwasaki(参考訳) 本研究では,2プレイヤーゼロサムゲームにおけるFTRL(Follow the Regularized Leader)の変動について考察する。 FTRLは戦略を時分割するときにナッシュ均衡に収束することが保証され、多くの変種はサイクルの制限という問題に悩まされる。 そこで本研究では,行動確率の摂動に変異を導入するアルゴリズムであるミュータントftrl(m-ftrl)を提案する。 次に,m-ftrlの連続時間ダイナミクスを調査し,全情報フィードバック下でnash平衡を近似する定常点に対して強い収束保証を与える。 さらに,本シミュレーションでは,FTRLよりもFTRLや楽観的なFTRLよりも高速に収束できることを示す。

In this study, we consider a variant of the Follow the Regularized Leader (FTRL) dynamics in two-player zero-sum games. FTRL is guaranteed to converge to a Nash equilibrium when time-averaging the strategies, while a lot of variants suffer from the issue of limit cycling behavior, i.e., lack the last-iterate convergence guarantee. To this end, we propose mutant FTRL (M-FTRL), an algorithm that introduces mutation for the perturbation of action probabilities. We then investigate the continuous-time dynamics of M-FTRL and provide the strong convergence guarantees toward stationary points that approximate Nash equilibria under full-information feedback. Furthermore, our simulation demonstrates that M-FTRL can enjoy faster convergence rates than FTRL and optimistic FTRL under full-information feedback and surprisingly exhibits clear convergence under bandit feedback.
翻訳日:2022-06-26 02:53:09 公開日:2022-06-18
# (参考訳) 言語モデルはグラフセマンティクスをキャプチャできるか? グラフから言語モデル、そしてその逆まで

Can Language Models Capture Graph Semantics? From Graphs to Language Model and Vice-Versa ( http://arxiv.org/abs/2206.09259v1 )

ライセンス: CC BY 4.0
Tarun Garg, Kaushik Roy, Amit Sheth(参考訳) ナレッジグラフは、エンティティとエンティティ間の関係の観点から意味的知識を捉えるための優れたリソースです。 しかし、現在のディープラーニングモデルは、入力された分散表現またはベクトルである。 したがって、グラフはベクトル化表現で圧縮される。 我々は、ディープラーニングモデルがグラフを圧縮し、ほとんどの意味論をそのままで同じグラフを出力できるかどうかを調査する。 実験の結果,トランスフォーマーモデルは入力知識グラフの完全な意味を表現できないことがわかった。 これは、知識グラフに含まれる有向関係情報とタイプベース情報と、トランスフォーマトリクスの完全連結トークントケン非有向グラフィカル解釈との相違によるものである。

Knowledge Graphs are a great resource to capture semantic knowledge in terms of entities and relationships between the entities. However, current deep learning models takes as input distributed representations or vectors. Thus, the graph is compressed in a vectorized representation. We conduct a study to examine if the deep learning model can compress a graph and then output the same graph with most of the semantics intact. Our experiments show that Transformer models are not able to express the full semantics of the input knowledge graph. We find that this is due to the disparity between the directed, relationship and type based information contained in a Knowledge Graph and the fully connected token-token undirected graphical interpretation of the Transformer Attention matrix.
翻訳日:2022-06-26 02:32:15 公開日:2022-06-18
# (参考訳) Pisces: ガイド付き非同期トレーニングによる効果的なフェデレーション学習

Pisces: Efficient Federated Learning via Guided Asynchronous Training ( http://arxiv.org/abs/2206.09264v1 )

ライセンス: CC BY 4.0
Zhifeng Jiang, Wei Wang, Baochun Li, Bo Li(参考訳) フェデレーテッド・ラーニング(FL)は通常、遅いクライアントの関与がトレーニングのイテレーションを遅らせる、同期的な並列的な方法で実行される。 現在のflシステムは参加者選択戦略を採用し、イテレーション毎に品質データを持つ高速なクライアントを選択する。 しかし、これは実際には必ずしも可能ではなく、選択戦略は、しばしばクライアントの速度とデータ品質の間の不快なトレードオフをナビゲートする必要がある。 本稿では,インテリジェントな参加者選択とモデルアグリゲーションを備えた非同期flシステム pisces を提案する。 過剰なリソースコストが発生することを避けるため、pisceは新たなスコアリング機構を使用して、トレーニングイテレーションに参加する適切なクライアントを識別する。 また、モデルアグリゲーションのペースに適応して、選択されたクライアントとサーバの間の進捗ギャップを動的にバインドし、スムーズな非凸設定で保証可能な収束を保証する。 我々はPassesをオープンソースのFLプラットフォームであるPlatoで実装し、その性能を一般的なビジョンと言語モデルを用いた大規模実験で評価した。 piscesは最先端の同期と非同期のスキームを上回っており、それぞれ2.0倍と1.9倍の正確性を実現している。

Federated learning (FL) is typically performed in a synchronous parallel manner, where the involvement of a slow client delays a training iteration. Current FL systems employ a participant selection strategy to select fast clients with quality data in each iteration. However, this is not always possible in practice, and the selection strategy often has to navigate an unpleasant trade-off between the speed and the data quality of clients. In this paper, we present Pisces, an asynchronous FL system with intelligent participant selection and model aggregation for accelerated training. To avoid incurring excessive resource cost and stale training computation, Pisces uses a novel scoring mechanism to identify suitable clients to participate in a training iteration. It also adapts the pace of model aggregation to dynamically bound the progress gap between the selected clients and the server, with a provable convergence guarantee in a smooth non-convex setting. We have implemented Pisces in an open-source FL platform called Plato, and evaluated its performance in large-scale experiments with popular vision and language models. Pisces outperforms the state-of-the-art synchronous and asynchronous schemes, accelerating the time-to-accuracy by up to 2.0x and 1.9x, respectively.
翻訳日:2022-06-26 02:24:32 公開日:2022-06-18
# (参考訳) savir-t:トランスフォーマーを用いた空間的注意視覚推論

SAViR-T: Spatially Attentive Visual Reasoning with Transformers ( http://arxiv.org/abs/2206.09265v1 )

ライセンス: CC BY 4.0
Pritish Sahu, Kalliopi Basioti, Vladimir Pavlovic(参考訳) 本稿では,Raven's Progressive Matrices (RPM) に具現化された視覚的推論問題に対する新しい計算モデル "SAViR-T" を提案する。 本モデルでは,各画像内の視覚的要素の明示的な空間的意味論を,空間的・視覚的なトークンとして符号化し,画像内および画像間トークン依存性を学習する。 トランスフォーマーベースのsavir-tアーキテクチャでモデル化されたトークン関係は、グループルールコヒーレンスを利用してグループ(行または列)駆動の表現を抽出し、これをインダクティブバイアスとして、rpmのトークン毎に上位2行(またはカラム)のルール表現を抽出する。 我々はこの関係表現を用いて、RPMの最終行または列を完成させる正しい選択画像を見つける。 RAVEN、I-RAVEN、RAVEN-FAIR、PGMといった合成RPMベンチマークと自然画像ベースの「V-PROM」の双方にわたる広範な実験により、SAViR-Tは視覚的推論のための新しい最先端技術を構築し、以前のモデルの性能をかなり上回った。

We present a novel computational model, "SAViR-T", for the family of visual reasoning problems embodied in the Raven's Progressive Matrices (RPM). Our model considers explicit spatial semantics of visual elements within each image in the puzzle, encoded as spatio-visual tokens, and learns the intra-image as well as the inter-image token dependencies, highly relevant for the visual reasoning task. Token-wise relationship, modeled through a transformer-based SAViR-T architecture, extract group (row or column) driven representations by leveraging the group-rule coherence and use this as the inductive bias to extract the underlying rule representations in the top two row (or column) per token in the RPM. We use this relation representations to locate the correct choice image that completes the last row or column for the RPM. Extensive experiments across both synthetic RPM benchmarks, including RAVEN, I-RAVEN, RAVEN-FAIR, and PGM, and the natural image-based "V-PROM" demonstrate that SAViR-T sets a new state-of-the-art for visual reasoning, exceeding prior models' performance by a considerable margin.
翻訳日:2022-06-26 01:03:39 公開日:2022-06-18
# (参考訳) 半スーパービジョンの医用画像分割のためのベイズ深層学習法の再考

Rethinking Bayesian Deep Learning Methods for Semi-Supervised Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2206.09293v1 )

ライセンス: CC BY 4.0
Jianfeng Wang, Thomas Lukasiewicz(参考訳) 近年,半教師付き医用画像セグメンテーションのためのベイズディープラーニング手法がいくつか提案されている。 彼らは医療ベンチマークで有望な結果を得たが、いくつかの問題はまだ残っている。 まず、彼らの全体的なアーキテクチャは識別モデルに属し、トレーニングの初期段階ではトレーニングにラベル付きデータのみを使用し、ラベル付きデータに過剰に適合する可能性がある。 第二に、それらは部分的にベイズディープラーニングに基づいているだけであり、全体的なアーキテクチャはベイズフレームワークの下では設計されていない。 しかし、ベイズの観点から全体のアーキテクチャを統一することで、アーキテクチャは厳密な理論的基盤を持つことができ、アーキテクチャの各部分は明確な確率論的解釈を持つことができる。 そこで本研究では,新しい生成型ベイズディープラーニング(GBDL)アーキテクチャを提案する。 GBDLは,入力医療ボリュームと対応するラベルの同時分布を推定することを目的とした生成モデルに属する。 共同分布の推定は暗黙的にデータ分布を伴うため、ラベル付きデータとラベル付きデータの両方をトレーニングの初期段階で活用することができ、潜在的な過剰フィット問題を軽減できる。 さらに、gbdlはベイズ的枠組みの下で完全に設計されており、その完全なベイズ的定式化が我々のアーキテクチャの理論的確率論的基礎となっている。 広汎な実験により, GBDLは, 3つの公開医療データセットの4つの評価指標において, 従来の最先端手法よりも優れていたことが明らかとなった。

Recently, several Bayesian deep learning methods have been proposed for semi-supervised medical image segmentation. Although they have achieved promising results on medical benchmarks, some problems are still existing. Firstly, their overall architectures belong to the discriminative models, and hence, in the early stage of training, they only use labeled data for training, which might make them overfit to the labeled data. Secondly, in fact, they are only partially based on Bayesian deep learning, as their overall architectures are not designed under the Bayesian framework. However, unifying the overall architecture under the Bayesian perspective can make the architecture have a rigorous theoretical basis, so that each part of the architecture can have a clear probabilistic interpretation. Therefore, to solve the problems, we propose a new generative Bayesian deep learning (GBDL) architecture. GBDL belongs to the generative models, whose target is to estimate the joint distribution of input medical volumes and their corresponding labels. Estimating the joint distribution implicitly involves the distribution of data, so both labeled and unlabeled data can be utilized in the early stage of training, which alleviates the potential overfitting problem. Besides, GBDL is completely designed under the Bayesian framework, and thus we give its full Bayesian formulation, which lays a theoretical probabilistic foundation for our architecture. Extensive experiments show that our GBDL outperforms previous state-of-the-art methods in terms of four commonly used evaluation indicators on three public medical datasets.
翻訳日:2022-06-26 00:41:43 公開日:2022-06-18
# Few-shot Class-incremental Learningのための基礎と新しいパフォーマンス

Demystifying the Base and Novel Performances for Few-shot Class-incremental Learning ( http://arxiv.org/abs/2206.10596v1 )

ライセンス: Link先を確認
Jaehoon Oh, Se-Young Yun(参考訳) few-shot class-incremental learning (fscil)は、未発見の新規クラスが少数のサンプルで継続的に到着する現実のシナリオに挑戦している。 これらのシナリオでは、事前の知識を忘れずに新しいクラスを認識するモデルを開発する必要がある。 言い換えれば、FSCILは基本性能を維持し、新しい性能を同時に向上することを目的としている。 しかし、2つの公演を別々に調査する研究はほとんどない。 本稿では、まずモデル全体を4種類のパラメータに分解し、新しいクラスが現れると、2つのパフォーマンスの傾向が更新されたパラメータと大きく異なることを示す。 そこで本研究では,NoNPCと命名されたFSCILの簡単な手法を提案する。 本手法は,高度な最先端アルゴリズムと同等の性能を有することを示す。

Few-shot class-incremental learning (FSCIL) has addressed challenging real-world scenarios where unseen novel classes continually arrive with few samples. In these scenarios, it is required to develop a model that recognizes the novel classes without forgetting prior knowledge. In other words, FSCIL aims to maintain the base performance and improve the novel performance simultaneously. However, there is little study to investigate the two performances separately. In this paper, we first decompose the entire model into four types of parameters and demonstrate that the tendency of the two performances varies greatly with the updated parameters when the novel classes appear. Based on the analysis, we propose a simple method for FSCIL, coined as NoNPC, which uses normalized prototype classifiers without further training for incremental novel classes. It is shown that our straightforward method has comparable performance with the sophisticated state-of-the-art algorithms.
翻訳日:2022-06-23 14:08:27 公開日:2022-06-18
# 経路選択モデルのための深部逆強化学習

Deep Inverse Reinforcement Learning for Route Choice Modeling ( http://arxiv.org/abs/2206.10598v1 )

ライセンス: Link先を確認
Zhan Zhao, Yuebing Liang(参考訳) 経路選択モデリング(英: route choice modeling、すなわち、個人が旅行中に従う可能性の高い経路を推定する過程)は、輸送計画と需要予測において基本的なタスクである。 古典的手法は一般に線形効用関数と高レベル経路特性を持つ離散選択モデル(DCM)フレームワークを採用する。 旅行選択モデリングにおけるディープラーニングの適用性について、最近のいくつかの研究が始まっているが、いずれも比較的単純なモデルアーキテクチャを持つパスベースであり、詳細なリンクレベル機能を活用できない。 既存のリンクベースモデルは理論的には有望だが、一般的には目的地の特徴を考慮できるほどスケーラブルで柔軟ではない。 そこで本研究では,高次元の特徴を取り入れ,複雑な関係を捉えることが可能な,リンクベース経路選択モデリングのための汎用的奥行き逆強化学習(irl)フレームワークを提案する。 具体的には、経路選択問題に逆IRLモデルを適用し、目的地依存報酬と政策関数の効率的な推定を行う。 中国上海のタクシーGPSデータに基づく実験は、訓練データに見つからない目的地であっても、従来のDCMや他の模倣学習ベースラインよりも提案モデルの性能が向上していることを検証する。 また、説明可能なAI技術を用いてモデル解釈可能性を示す。 提案手法は,経路選択モデルの開発に向けた新たな方向性を提供する。 汎用的で、異なるモードやネットワークにまたがる他の経路選択問題に適応可能であるべきである。

Route choice modeling, i.e., the process of estimating the likely path that individuals follow during their journeys, is a fundamental task in transportation planning and demand forecasting. Classical methods generally adopt the discrete choice model (DCM) framework with linear utility functions and high-level route characteristics. While several recent studies have started to explore the applicability of deep learning for travel choice modeling, they are all path-based with relatively simple model architectures and cannot take advantage of detailed link-level features. Existing link-based models, while theoretically promising, are generally not as scalable or flexible enough to account for the destination characteristics. To address these issues, this study proposes a general deep inverse reinforcement learning (IRL) framework for link-based route choice modeling, which is capable of incorporating high-dimensional features and capturing complex relationships. Specifically, we adapt an adversarial IRL model to the route choice problem for efficient estimation of destination-dependent reward and policy functions. Experiment results based on taxi GPS data from Shanghai, China validate the improved performance of the proposed model over conventional DCMs and other imitation learning baselines, even for destinations unseen in the training data. We also demonstrate the model interpretability using explainable AI techniques. The proposed methodology provides a new direction for future development of route choice models. It is general and should be adaptable to other route choice problems across different modes and networks.
翻訳日:2022-06-23 14:08:12 公開日:2022-06-18
# セキュアな埋め込みアグリゲーションによる完全プライバシー保存型フェデレーション表現学習

Fully Privacy-Preserving Federated Representation Learning via Secure Embedding Aggregation ( http://arxiv.org/abs/2206.09097v1 )

ライセンス: Link先を確認
Jiaxiang Tang, Jinbao Zhu, Songze Li, Kai Zhang, Lichao Sun(参考訳) 我々は、中央サーバの助けを借りて、分散クライアントのグループは、一連のエンティティ(例えば、ソーシャルネットワークのユーザ)の表現(または埋め込み)に対して、プライベートデータを協調的にトレーニングする、連合表現学習フレームワークを検討する。 このフレームワークでは、クライアントでトレーニングされたローカルな埋め込みをプライベートな方法で集約する重要なステップとして、SecEAと呼ばれるセキュアな埋め込み集約プロトコルを開発します。 SecEAの最初のステップとして、連合学習システムは、各クライアントがどのエンティティがどのクライアントに属しているかを知ることなく、システム内のすべてのエンティティを学習するためのプライベートエンティティユニオンを実行する。 各アグリゲーションラウンドでは、ローカルな埋め込みはLagrange補間を使用してクライアント間で秘密に共有され、各クライアントはコード化されたクエリを構築して、意図したエンティティの集約された埋め込みを検索する。 我々は,seceaの実用性と効率を評価するために,様々な表現学習タスクを包括的に実験し,プライバシの保証を伴わない(または弱い)アグリゲーションプロトコルを組み込んだ場合と比較して,(5%で)性能の低下を招き,より大きなデータセットでより深いモデルをトレーニングするためにseceaの計算遅延が減少することを示す。

We consider a federated representation learning framework, where with the assistance of a central server, a group of $N$ distributed clients train collaboratively over their private data, for the representations (or embeddings) of a set of entities (e.g., users in a social network). Under this framework, for the key step of aggregating local embeddings trained at the clients in a private manner, we develop a secure embedding aggregation protocol named SecEA, which provides information-theoretical privacy guarantees for the set of entities and the corresponding embeddings at each client $simultaneously$, against a curious server and up to $T < N/2$ colluding clients. As the first step of SecEA, the federated learning system performs a private entity union, for each client to learn all the entities in the system without knowing which entities belong to which clients. In each aggregation round, the local embeddings are secretly shared among the clients using Lagrange interpolation, and then each client constructs coded queries to retrieve the aggregated embeddings for the intended entities. We perform comprehensive experiments on various representation learning tasks to evaluate the utility and efficiency of SecEA, and empirically demonstrate that compared with embedding aggregation protocols without (or with weaker) privacy guarantees, SecEA incurs negligible performance loss (within 5%); and the additional computation latency of SecEA diminishes for training deeper models on larger datasets.
翻訳日:2022-06-22 20:00:57 公開日:2022-06-18
# 二元分類における逆代理リスクの存在とミニマックス定理

Existence and Minimax Theorems for Adversarial Surrogate Risks in Binary Classification ( http://arxiv.org/abs/2206.09098v1 )

ライセンス: Link先を確認
Natalie S. Frank(参考訳) 敵意訓練は、敵意攻撃に頑健な訓練方法の最も一般的な方法の1つであるが、理論的にはよく理解されていない。 我々は、逆代理リスクに対する証明と存在、正則性、およびミニマックス定理を行う。 本研究は,先行研究による敵のロバスト性に関する経験的観察を説明し,アルゴリズム開発における新たな方向性を示唆する。 さらに, 既知の存在と, 逆分類リスクに対するミニマックス定理を拡張し, リスクを推測した。

Adversarial training is one of the most popular methods for training methods robust to adversarial attacks, however, it is not well-understood from a theoretical perspective. We prove and existence, regularity, and minimax theorems for adversarial surrogate risks. Our results explain some empirical observations on adversarial robustness from prior work and suggest new directions in algorithm development. Furthermore, our results extend previously known existence and minimax theorems for the adversarial classification risk to surrogate risks.
翻訳日:2022-06-22 20:00:31 公開日:2022-06-18
# バイナリ分類における対人訓練の整合性

The Consistency of Adversarial Training for Binary Classification ( http://arxiv.org/abs/2206.09099v1 )

ライセンス: Link先を確認
Natalie S. Frank, Jonathan Niles-Weed(参考訳) 敵の摂動に対するロバスト性は、現代の機械学習において重要な関心事である。 頑健な分類器を訓練するための最先端の手法の1つは、超越的なサロゲートリスクを最小化する敵の訓練である。 サーロゲートリスクの統計的一貫性は、標準的な機械学習の文脈ではよく理解されているが、敵対的な設定では理解されていない。 本稿では,二元分類におけるルベーグ測度に関して絶対連続な分布に対して,どのスプレム系サロゲートが一致するかを特徴付ける。 さらに, 敵の分類リスクに対する, 敵の代理的リスクに関連する定量的境界を求める。 最後に, 対人訓練における$\cH$-consistencyの意義について論じる。

Robustness to adversarial perturbations is of paramount concern in modern machine learning. One of the state-of-the-art methods for training robust classifiers is adversarial training, which involves minimizing a supremum-based surrogate risk. The statistical consistency of surrogate risks is well understood in the context of standard machine learning, but not in the adversarial setting. In this paper, we characterize which supremum-based surrogates are consistent for distributions absolutely continuous with respect to Lebesgue measure in binary classification. Furthermore, we obtain quantitative bounds relating adversarial surrogate risks to the adversarial classification risk. Lastly, we discuss implications for the $\cH$-consistency of adversarial training.
翻訳日:2022-06-22 20:00:23 公開日:2022-06-18
# SGDによる過度パラメータ化メタラーニングの確率的一般化

Provable Generalization of Overparameterized Meta-learning Trained with SGD ( http://arxiv.org/abs/2206.09136v1 )

ライセンス: Link先を確認
Yu Huang and Yingbin Liang and Longbo Huang(参考訳) 深層メタラーニングの優れた経験的成功にもかかわらず、過パラメータ化メタラーニングの理論的理解はまだ限られている。 本稿では,新しいタスクへの迅速な適応のための適切な初期化を見出すことを目的として,広く用いられているメタラーニング手法であるモデル非依存メタラーニング(maml)の一般化について検討する。 混合線形回帰モデルにより、SGDで訓練されたMAMLの過パラメータ化状態における一般化特性を解析する。 mamlの過剰なリスクに対して上界と下界の両方を提供し、sgdダイナミクスがこれらの一般化境界にどのように影響するかを捉えている。 過パラメータ化による一般化誤差の低減を実現する典型的なデータやタスク分布を明確に同定し、過パラメータ化リスクと早期停止時間の両方に適応学習率が及ぼす影響を特徴付けることを含む、様々な学習パラメータが過パラメータ化MAMLの一般化能力にどのように影響するかをさらに検討する。 理論的知見は実験によってさらに検証される。

Despite the superior empirical success of deep meta-learning, theoretical understanding of overparameterized meta-learning is still limited. This paper studies the generalization of a widely used meta-learning approach, Model-Agnostic Meta-Learning (MAML), which aims to find a good initialization for fast adaptation to new tasks. Under a mixed linear regression model, we analyze the generalization properties of MAML trained with SGD in the overparameterized regime. We provide both upper and lower bounds for the excess risk of MAML, which captures how SGD dynamics affect these generalization bounds. With such sharp characterizations, we further explore how various learning parameters impact the generalization capability of overparameterized MAML, including explicitly identifying typical data and task distributions that can achieve diminishing generalization error with overparameterization, and characterizing the impact of adaptation learning rate on both excess risk and the early stopping time. Our theoretical findings are further validated by experiments.
翻訳日:2022-06-22 20:00:11 公開日:2022-06-18
# PHN:CTR予測のためのソフトゲーティングを用いた並列異種ネットワーク

PHN: Parallel heterogeneous network with soft gating for CTR prediction ( http://arxiv.org/abs/2206.09184v1 )

ライセンス: Link先を確認
Ri Su, Alphonse Houssou Hounye, Cong Cao, Muzhou Hou(参考訳) CTR予測タスクは、推奨システムにおける基本的なタスクである。 これまでのCTRモデルの研究の多くは、広義の深層構造に基づいて構築され、徐々に異なるモジュールを持つ並列構造へと発展していった。 しかし、並列構造の単純な蓄積は、より高い構造的複雑さと長い訓練時間をもたらす可能性がある。 出力層のシグモイド活性化関数に基づき、トレーニングプロセスにおける平行構造の線形付加活性化値は、サンプルを弱勾配区間に落下させることが容易であり、弱勾配現象が発生し、トレーニングの有効性が低下する。 そこで本稿では,3つの異なる相互作用解析手法を用いて並列構造を持つネットワークを構築する並列型ヘテロジニアス・ネットワーク(phn)モデルを提案し,異なる構造を持つ異種データを特徴付けるためにソフトセレクション・ゲーティング(ssg)を用いる。 最後に,ネットワーク上でトレーニング可能なパラメータとの残差リンクを用いて,弱勾配現象の影響を緩和する。 さらに,多くの比較実験においてphnの有効性を実証し,訓練過程と構造におけるモデルの性能を可視化した。

The Click-though Rate (CTR) prediction task is a basic task in recommendation system. Most of the previous researches of CTR models built based on Wide \& deep structure and gradually evolved into parallel structures with different modules. However, the simple accumulation of parallel structures can lead to higher structural complexity and longer training time. Based on the Sigmoid activation function of output layer, the linear addition activation value of parallel structures in the training process is easy to make the samples fall into the weak gradient interval, resulting in the phenomenon of weak gradient, and reducing the effectiveness of training. To this end, this paper proposes a Parallel Heterogeneous Network (PHN) model, which constructs a network with parallel structure through three different interaction analysis methods, and uses Soft Selection Gating (SSG) to feature heterogeneous data with different structure. Finally, residual link with trainable parameters are used in the network to mitigate the influence of weak gradient phenomenon. Furthermore, we demonstrate the effectiveness of PHN in a large number of comparative experiments, and visualize the performance of the model in training process and structure.
翻訳日:2022-06-22 19:59:52 公開日:2022-06-18
# 敵対的チームゲームと2人プレイゲームとの結婚 : 抽象化の実現、ノンリグレット学習、サブゲーム解決

A Marriage between Adversarial Team Games and 2-player Games: Enabling Abstractions, No-regret Learning, and Subgame Solving ( http://arxiv.org/abs/2206.09161v1 )

ライセンス: Link先を確認
Luca Carminati, Federico Cacciamani, Marco Ciccone, Nicola Gatti(参考訳) \emph{Ex ante}相関は、プレイヤーのチームがゼロサムゲームで他のチームと対決する「emph{sequential adversarial team game}」の主流のアプローチになりつつある。 チームメンバーの非対称情報により、平衡計算 \textsf{APX}-hard とチームの戦略がゲームツリー上で直接表現できないことが知られている。 後者の問題は、\emph{e.g}, abstracts, no-regret learning, and subgame solveのような巨大な2人のプレイヤーのゼロサムゲームで成功するツールの採用を妨げる。 本研究は, 連勝チームゲームと2プレーヤゲームとのギャップを埋めることで, この弱点から回復できることを示す。 具体的には,チーム全体の共通する情報のみを知り,各メンバに対して,可能なプライベート状態に対するアクションを規定する単一コーディネータとして,チームが表現される,新たな適切なゲーム表現を提案する。 結果として得られる表現は高度に \emph{explainable} であり、抽象を設計する際、チームの戦略が直接解釈され、元の広範な形式よりも表現力が高い2-player tree である。 さらに、当社の表現のペイオフ同値性を証明し、広範な形式から直接、情報損失を伴わずに劇的にコンパクトな表現を生成する技術を提供する。 最後に,本手法を標準テストベッドに適用した場合,その性能を現在の技術と比較し,実験的に評価した。

\emph{Ex ante} correlation is becoming the mainstream approach for \emph{sequential adversarial team games}, where a team of players faces another team in a zero-sum game. It is known that team members' asymmetric information makes both equilibrium computation \textsf{APX}-hard and team's strategies not directly representable on the game tree. This latter issue prevents the adoption of successful tools for huge 2-player zero-sum games such as, \emph{e.g.}, abstractions, no-regret learning, and subgame solving. This work shows that we can recover from this weakness by bridging the gap between sequential adversarial team games and 2-player games. In particular, we propose a new, suitable game representation that we call \emph{team-public-information}, in which a team is represented as a single coordinator who only knows information common to the whole team and prescribes to each member an action for any possible private state. The resulting representation is highly \emph{explainable}, being a 2-player tree in which the team's strategies are behavioral with a direct interpretation and more expressive than the original extensive form when designing abstractions. Furthermore, we prove payoff equivalence of our representation, and we provide techniques that, starting directly from the extensive form, generate dramatically more compact representations without information loss. Finally, we experimentally evaluate our techniques when applied to a standard testbed, comparing their performance with the current state of the art.
翻訳日:2022-06-22 19:16:40 公開日:2022-06-18
# ソースローカライゼーションのための可逆グラフ拡散ニューラルネットワーク

An Invertible Graph Diffusion Neural Network for Source Localization ( http://arxiv.org/abs/2206.09214v1 )

ライセンス: Link先を確認
Junxiang Wang, Junji Jiang, and Liang Zhao(参考訳) 誤った情報伝達などのグラフ拡散現象の発生源の局所化は重要ではあるが極めて困難な課題である。 既存のソースローカライズモデルは通常、手作りのルールに大きく依存する。 残念ながら、多くのアプリケーションに対するグラフ拡散プロセスの大部分は、まだ人間には知られていないため、そのような基礎となるルールを自動的に学習するための表現的モデルを持つことが重要である。 本稿では,グラフ上のソースローカライズのための可逆グラフ拡散モデル,すなわち可逆妥当性認識グラフ拡散(ivgd)の汎用的枠組みを確立することを目的としている。 1) グラフ拡散モデルにおける知識の活用が困難である。 2 推定源の妥当性の確保が困難であること、及び 3) ソース推論の効率性とスケーラビリティ。 具体的には、まず、グラフ拡散のソースを逆推論するために、既存のグラフ拡散モデルを理論的保証で可逆化するグラフ残差シナリオを提案し、次に、推定されたソースのエラーをオフセットする新しいエラー補償機構を開発する。 最後に, 提案手法を用いて制約を柔軟に符号化することにより, 提案手法を適用可能な領域に推定する新たな妥当性認識層が考案された。 提案するレイヤの効率を高めるために,線形化手法を提案する。 提案されたIVGDの収束は理論的に証明されている。 実世界の9つのデータセットに対する大規模な実験により、提案したIVGDは最先端比較法を大幅に上回っていることが示された。 私たちはコードをhttps://github.com/xianggebenbenben/ivgdでリリースした。

Localizing the source of graph diffusion phenomena, such as misinformation propagation, is an important yet extremely challenging task. Existing source localization models typically are heavily dependent on the hand-crafted rules. Unfortunately, a large portion of the graph diffusion process for many applications is still unknown to human beings so it is important to have expressive models for learning such underlying rules automatically. This paper aims to establish a generic framework of invertible graph diffusion models for source localization on graphs, namely Invertible Validity-aware Graph Diffusion (IVGD), to handle major challenges including 1) Difficulty to leverage knowledge in graph diffusion models for modeling their inverse processes in an end-to-end fashion, 2) Difficulty to ensure the validity of the inferred sources, and 3) Efficiency and scalability in source inference. Specifically, first, to inversely infer sources of graph diffusion, we propose a graph residual scenario to make existing graph diffusion models invertible with theoretical guarantees; second, we develop a novel error compensation mechanism that learns to offset the errors of the inferred sources. Finally, to ensure the validity of the inferred sources, a new set of validity-aware layers have been devised to project inferred sources to feasible regions by flexibly encoding constraints with unrolled optimization techniques. A linearization technique is proposed to strengthen the efficiency of our proposed layers. The convergence of the proposed IVGD is proven theoretically. Extensive experiments on nine real-world datasets demonstrate that our proposed IVGD outperforms state-of-the-art comparison methods significantly. We have released our code at https://github.com/xianggebenben/IVGD.
翻訳日:2022-06-22 19:11:14 公開日:2022-06-18
# motley: フェデレーション学習における不均一性とパーソナライゼーションのベンチマーク

Motley: Benchmarking Heterogeneity and Personalization in Federated Learning ( http://arxiv.org/abs/2206.09262v1 )

ライセンス: Link先を確認
Shanshan Wu, Tian Li, Zachary Charles, Yu Xiao, Ziyu Liu, Zheng Xu, Virginia Smith(参考訳) パーソナライズされたフェデレーション学習は、異種ネットワークにおける各クライアント固有の学習モデルを考える。 結果として得られたクライアント固有のモデルは、連合ネットワークにおける正確性、公平性、堅牢性などの指標を改善するために提案されている。 しかし,この分野では多方面にわたる作業にもかかわらず,(1) どのようなパーソナライズ技術が様々な場面でもっとも有効か,(2) 現実的なフェデレーション・アプリケーションにとってパーソナライズがいかに重要であるかは,まだ不明である。 これらの質問に答えるために、パーソナライズされたフェデレーション学習のためのベンチマークであるMotleyを提案する。 motleyは、さまざまな問題領域のクロスデバイスおよびクロスサイロフェデレーションデータセットのスイートと、パーソナライゼーションの影響をより深く理解するための詳細な評価指標で構成されている。 そこで本研究では,代表的フェデレーション学習手法を多数比較することにより,ベンチマークのベースラインを確立する。 これらの最初の結果は、既存のアプローチの強みと弱みを浮き彫りにしている。 motleyは、パーソナライズド・ヘテロゲニティ・アウェア・フェデレーション学習や、トランスファー学習、メタラーニング、マルチタスク学習といった関連分野の発展を促進するための再現可能な手段を提供することを目指している。

Personalized federated learning considers learning models unique to each client in a heterogeneous network. The resulting client-specific models have been purported to improve metrics such as accuracy, fairness, and robustness in federated networks. However, despite a plethora of work in this area, it remains unclear: (1) which personalization techniques are most effective in various settings, and (2) how important personalization truly is for realistic federated applications. To better answer these questions, we propose Motley, a benchmark for personalized federated learning. Motley consists of a suite of cross-device and cross-silo federated datasets from varied problem domains, as well as thorough evaluation metrics for better understanding the possible impacts of personalization. We establish baselines on the benchmark by comparing a number of representative personalized federated learning methods. These initial results highlight strengths and weaknesses of existing approaches, and raise several open questions for the community. Motley aims to provide a reproducible means with which to advance developments in personalized and heterogeneity-aware federated learning, as well as the related areas of transfer learning, meta-learning, and multi-task learning.
翻訳日:2022-06-22 19:10:46 公開日:2022-06-18
# AutoGML: グラフ機械学習のための高速自動モデル選択

AutoGML: Fast Automatic Model Selection for Graph Machine Learning ( http://arxiv.org/abs/2206.09280v1 )

ライセンス: Link先を確認
Namyong Park, Ryan Rossi, Nesreen Ahmed, Christos Faloutsos(参考訳) 新しいグラフデータセット上で、リンク予測などのグラフ学習タスクが与えられた場合、そのハイパーパラメータ(モデルと呼ばれる)だけでなく、最適なメソッドを自動的に選択するにはどうすればよいのか? グラフ学習のためのモデル選択は、主にアドホックだ。 典型的なアプローチは、新しいデータセットに一般的なメソッドを適用することであるが、これはしばしば準最適である。 一方、新しいグラフで体系的に比較するモデルにはコストがかかりすぎるし、実用的でないこともある。 本研究では,ベンチマークグラフデータセットにおける既存の大規模手法の先行性能を活かしたautogmlと呼ばれる自動グラフ機械学習のための最初のメタラーニング手法を開発し,この先行経験を継承して,モデルトレーニングや評価を必要とせず,新しいグラフに使用する効果的なモデルを自動選択する。 異なる領域のグラフ間の類似性を捉えるために,グラフの構造特性を定量化する特殊なメタグラフ機能を導入する。 次に,モデルとグラフの関係を表すメタグラフを設計し,メタグラフをベースとしたグラフメタラーナを開発し,各モデルと異なるグラフとの関係を推定する。 大規模な実験により,新しいグラフのメソッド選択にAutoGMLを用いることで,テスト時に非常に高速でありながら,一般的なメソッドやいくつかのメタラーナを一貫して適用する性能が著しく向上することを示した。

Given a graph learning task, such as link prediction, on a new graph dataset, how can we automatically select the best method as well as its hyperparameters (collectively called a model)? Model selection for graph learning has been largely ad hoc. A typical approach has been to apply popular methods to new datasets, but this is often suboptimal. On the other hand, systematically comparing models on the new graph quickly becomes too costly, or even impractical. In this work, we develop the first meta-learning approach for automatic graph machine learning, called AutoGML, which capitalizes on the prior performances of a large body of existing methods on benchmark graph datasets, and carries over this prior experience to automatically select an effective model to use for the new graph, without any model training or evaluations. To capture the similarity across graphs from different domains, we introduce specialized meta-graph features that quantify the structural characteristics of a graph. Then we design a meta-graph that represents the relations among models and graphs, and develop a graph meta-learner operating on the meta-graph, which estimates the relevance of each model to different graphs. Through extensive experiments, we show that using AutoGML to select a method for the new graph significantly outperforms consistently applying popular methods as well as several existing meta-learners, while being extremely fast at test time.
翻訳日:2022-06-22 19:10:22 公開日:2022-06-18
# 非IIDデータを用いたASRの非結合型フェデレーション学習

Decoupled Federated Learning for ASR with Non-IID Data ( http://arxiv.org/abs/2206.09102v1 )

ライセンス: Link先を確認
Han Zhu, Jindong Wang, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan(参考訳) 統合学習(FL)を用いた自動音声認識(ASR)により、プライバシーを損なうことなく、複数のクライアントのデータを活用することができる。 FLベースのASRの品質は、認識性能、通信、計算コストによって測定できる。 異なるクライアント間のデータが独立かつ同一の分散(非iid)ではない場合、パフォーマンスは著しく低下する可能性がある。 本研究では、クライアント毎にパーソナライズされたモデルを学ぶパーソナライズされたflを用いて、flベースのasrにおける非iid問題に取り組む。 具体的には,asrに対して2種類のパーソナライズしたflアプローチを提案する。 まず、ASRのパーソナライズ層に基づくFLを適用し、いくつかのレイヤをローカルに保持してパーソナライズモデルを学習する。 第2に,コミュニケーションと計算コストを削減するために,非結合型連合学習(DecoupleFL)を提案する。 一方、DecoupleFLは計算負荷をサーバに移動させ、クライアントの計算量を減少させる。 一方、DecoupleFLはモデルパラメータの代わりにセキュアな高レベル機能を通信し、モデルが大きい場合の通信コストを低減する。 FLベースのASRアプローチを提案する2つの実験は、FedAvgと比較してWERを2.3%削減できることを示した。 中でもDecoupleFLは、FedAvgに比べてわずか11.4%の通信と75%の計算コストしか持たない。

Automatic speech recognition (ASR) with federated learning (FL) makes it possible to leverage data from multiple clients without compromising privacy. The quality of FL-based ASR could be measured by recognition performance, communication and computation costs. When data among different clients are not independently and identically distributed (non-IID), the performance could degrade significantly. In this work, we tackle the non-IID issue in FL-based ASR with personalized FL, which learns personalized models for each client. Concretely, we propose two types of personalized FL approaches for ASR. Firstly, we adapt the personalization layer based FL for ASR, which keeps some layers locally to learn personalization models. Secondly, to reduce the communication and computation costs, we propose decoupled federated learning (DecoupleFL). On one hand, DecoupleFL moves the computation burden to the server, thus decreasing the computation on clients. On the other hand, DecoupleFL communicates secure high-level features instead of model parameters, thus reducing communication cost when models are large. Experiments demonstrate two proposed personalized FL-based ASR approaches could reduce WER by 2.3% - 3.4% compared with FedAvg. Among them, DecoupleFL has only 11.4% communication and 75% computation cost compared with FedAvg, which is also significantly less than the personalization layer based FL.
翻訳日:2022-06-22 18:46:56 公開日:2022-06-18
# 部分畳み込み生成逆数ネットワークを用いた自由形病変合成による深層学習肝腫瘍分離の促進

Free-form Lesion Synthesis Using a Partial Convolution Generative Adversarial Network for Enhanced Deep Learning Liver Tumor Segmentation ( http://arxiv.org/abs/2206.09065v1 )

ライセンス: Link先を確認
Yingao Liu, Fei Yang, Yidong Yang(参考訳) 自動ディープラーニングセグメンテーションモデルは、セグメンテーション効率と精度の両方を改善することが示されている。 しかし、堅牢なセグメンテーションモデルのトレーニングには、かなり大きなラベル付きトレーニングサンプルが必要である。 本研究の目的は,ネットワークトレーニングの強化に有効な合成病変を生成するための深層学習フレームワークを開発することである。 病変合成ネットワークはGAN (Modified Generative Adversarial Network) である。 具体的には、unetライクなジェネレータを構築するための部分畳み込み戦略を革新した。 判別器は勾配ペナルティとスペクトル正規化を伴うwasserstein ganを用いて設計されている。 各種病変形状をモデル化するための主成分分析に基づくマスク生成法を開発した。 生成されたマスクは、病変合成ネットワークを介して肝臓病変に変換される。 病変合成フレームワークを病変のテクスチャとして評価し, 病変の分節ネットワークを訓練し, この枠組みの有効性をさらに検証した。 すべてのネットワークは、LITSから公開データセットでトレーニングされ、テストされる。 提案手法により生成された合成病変は, GLCMエネルギーとGLCM相関という2種類のテクスチャパラメータの実際の病変と比較して, 非常に類似した組織像分布を有する。 GLCMとGLCMの相関は0.01と0.10であった。 腫瘍セグメンテーションネットワークの合成病変を含め、U-Netのセグメンテーションダイス性能は67.3%から71.4%(p<0.05。 一方、体積精度は74.6%から76.0%(p=0.23)、66.1%から70.9%(p<0.01)に向上した。 合成データはセグメンテーション性能を著しく向上させる。

Automatic deep learning segmentation models has been shown to improve both the segmentation efficiency and the accuracy. However, training a robust segmentation model requires considerably large labeled training samples, which may be impractical. This study aimed to develop a deep learning framework for generating synthetic lesions that can be used to enhance network training. The lesion synthesis network is a modified generative adversarial network (GAN). Specifically, we innovated a partial convolution strategy to construct an Unet-like generator. The discriminator is designed using Wasserstein GAN with gradient penalty and spectral normalization. A mask generation method based on principal component analysis was developed to model various lesion shapes. The generated masks are then converted into liver lesions through a lesion synthesis network. The lesion synthesis framework was evaluated for lesion textures, and the synthetic lesions were used to train a lesion segmentation network to further validate the effectiveness of this framework. All the networks are trained and tested on the public dataset from LITS. The synthetic lesions generated by the proposed approach have very similar histogram distributions compared to the real lesions for the two employed texture parameters, GLCM-energy and GLCM-correlation. The Kullback-Leibler divergence of GLCM-energy and GLCM-correlation were 0.01 and 0.10, respectively. Including the synthetic lesions in the tumor segmentation network improved the segmentation dice performance of U-Net significantly from 67.3% to 71.4% (p<0.05). Meanwhile, the volume precision and sensitivity improve from 74.6% to 76.0% (p=0.23) and 66.1% to 70.9% (p<0.01), respectively. The synthetic data significantly improves the segmentation performance.
翻訳日:2022-06-22 18:44:49 公開日:2022-06-18
# ユニバーサルヒューマノイド制御から自動身体的有効文字生成へ

From Universal Humanoid Control to Automatic Physically Valid Character Creation ( http://arxiv.org/abs/2206.09286v1 )

ライセンス: Link先を確認
Zhengyi Luo, Ye Yuan, Kris M. Kitani(参考訳) 仮想人間とヒューマノイドの自動設計は、ゲーム、映画、ロボットにおけるキャラクター生成プロセスを支援する大きな可能性を持っている。 キャラクター制作者は、空手キックやパールジャンプなどの特定の動きに合わせてカスタマイズされたヒューマノイド体をデザインしたいと考える場合もある。 本研究では,予め特定された人間の動作のシーケンスに基づいて,身体的に有効なヒューマノイドを自動生成するヒューマノイド設計フレームワークを提案する。 まず,多種多様な人間の動作と体型を特徴とする大規模ヒューマンモーションデータセット上で訓練された汎用ヒューマノイドコントローラを学習する。 第二に、設計と制御の枠組みを用いて、ヒューマノイドの物理的特性を最適化し、事前に特定された人間の動作シーケンスをよりよく模倣できるボディデザインを見つける。 トレーニング済みのヒューマノイドコントローラと物理シミュレーションをガイダンスとして利用することにより、事前に特定された人間の動作をカスタマイズした新しいヒューマノイドデザインを発見できる。

Automatically designing virtual humans and humanoids holds great potential in aiding the character creation process in games, movies, and robots. In some cases, a character creator may wish to design a humanoid body customized for certain motions such as karate kicks and parkour jumps. In this work, we propose a humanoid design framework to automatically generate physically valid humanoid bodies conditioned on sequence(s) of pre-specified human motions. First, we learn a generalized humanoid controller trained on a large-scale human motion dataset that features diverse human motion and body shapes. Second, we use a design-and-control framework to optimize a humanoid's physical attributes to find body designs that can better imitate the pre-specified human motion sequence(s). Leveraging the pre-trained humanoid controller and physics simulation as guidance, our method is able to discover new humanoid designs that are customized to perform pre-specified human motions.
翻訳日:2022-06-22 18:43:24 公開日:2022-06-18
# 遺伝的ドリフトの理解から分布推定アルゴリズムのスマートリスタート機構へ

From Understanding Genetic Drift to a Smart-Restart Mechanism for Estimation-of-Distribution Algorithms ( http://arxiv.org/abs/2206.09090v1 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 推定分布アルゴリズム(EDAs)は、優れた解を容易にサンプリングできる探索空間上の分布を学習する最適化アルゴリズムである。 ほとんどのEDAのキーパラメータはサンプルサイズ(集団サイズ)である。 集団サイズが小さすぎると、確率モデルの更新は少数のサンプルの上に構築され、遺伝的ドリフトの望ましくない影響をもたらす。 人口が多すぎると遺伝的ドリフトは避けられますが、プロセスは遅くなります。 集団の大きさが遺伝的ドリフトにどのように繋がるかの最近の定量的分析に基づいて、我々はEDAのためのスマートリスタート機構を設計する。 遺伝的ドリフトのリスクが高い場合に実行を停止することで、適切なパラメータで自動的にedaを実行します。 数学的な実行時解析により、このスマートリスタート方式の一般的な性能保証が証明される。 特に、最適パラメータ値が知られている多くの状況において、再起動スキームが自動的にこれらを見つけ出し、漸近的に最適な性能をもたらすことが示されている。 広範な実験分析も行っています。 4つの古典的なベンチマーク問題において,個体群の大きさが性能に与える影響を明らかに観察し,スマートリスタート方式が最適なパラメータ値で得られるものに近い性能をもたらすことを見出した。 また, 最適個体数に対する従来の理論に基づく提案は, 最適個体数とは程遠い可能性を示し, スマートリスタート方式によって得られた提案よりも明らかに性能が劣ることを示した。 また,2つの組合せ最適化問題,最大カット問題,分割問題についてもPBIL(クロスエントロピーアルゴリズム)を用いて実験を行った。 繰り返しになるが、スマートリスタート機構は文献で示唆されているものよりも人口規模に対してはるかに優れた値を見出すので、パフォーマンスが向上する。

Estimation-of-distribution algorithms (EDAs) are optimization algorithms that learn a distribution on the search space from which good solutions can be sampled easily. A key parameter of most EDAs is the sample size (population size). If the population size is too small, the update of the probabilistic model builds on few samples, leading to the undesired effect of genetic drift. Too large population sizes avoid genetic drift, but slow down the process. Building on a recent quantitative analysis of how the population size leads to genetic drift, we design a smart-restart mechanism for EDAs. By stopping runs when the risk for genetic drift is high, it automatically runs the EDA in good parameter regimes. Via a mathematical runtime analysis, we prove a general performance guarantee for this smart-restart scheme. This in particular shows that in many situations where the optimal (problem-specific) parameter values are known, the restart scheme automatically finds these, leading to the asymptotically optimal performance. We also conduct an extensive experimental analysis. On four classic benchmark problems, we clearly observe the critical influence of the population size on the performance, and we find that the smart-restart scheme leads to a performance close to the one obtainable with optimal parameter values. Our results also show that previous theory-based suggestions for the optimal population size can be far from the optimal ones, leading to a performance clearly inferior to the one obtained via the smart-restart scheme. We also conduct experiments with PBIL (cross-entropy algorithm) on two combinatorial optimization problems from the literature, the max-cut problem and the bipartition problem. Again, we observe that the smart-restart mechanism finds much better values for the population size than those suggested in the literature, leading to a much better performance.
翻訳日:2022-06-22 18:14:26 公開日:2022-06-18
# 区分線形ニューラルネットワークとディープラーニング

Piecewise Linear Neural Networks and Deep Learning ( http://arxiv.org/abs/2206.09149v1 )

ライセンス: Link先を確認
Qinghua Tao, Li Li, Xiaolin Huang, Xiangming Xi, Shuning Wang, Johan A.K. Suykens(参考訳) 強力なモデリング手法として、PieceWise Linear Neural Networks (PWLNN) が様々な分野で成功している。 PWLNN法を適用するために、表現と学習の両方が長い間研究されてきた。 1977年、標準表現は漸進的な設計によって学習された浅いPWLNNの研究の先駆者となったが、大規模データへの応用は禁止された。 2010年、Rectified Linear Unit (ReLU) は深層学習におけるPWLNNの普及を提唱した。 それ以来、pwlnは広範囲なタスクにうまく適用され、有利なパフォーマンスを達成してきた。 本稿では,pwlnnの方法論を,浅層ネットワークと深層ネットワークにグループ化して体系的に導入する。 まず、異なるpwlnn表現モデルが詳細な例で構築される。 PWLNNでは、データの学習アルゴリズムの進化が示され、基本的な理論的分析が深い理解のために続く。 そして、議論や展望とともに代表的アプリケーションが紹介される。

As a powerful modelling method, PieceWise Linear Neural Networks (PWLNNs) have proven successful in various fields, most recently in deep learning. To apply PWLNN methods, both the representation and the learning have long been studied. In 1977, the canonical representation pioneered the works of shallow PWLNNs learned by incremental designs, but the applications to large-scale data were prohibited. In 2010, the Rectified Linear Unit (ReLU) advocated the prevalence of PWLNNs in deep learning. Ever since, PWLNNs have been successfully applied to extensive tasks and achieved advantageous performances. In this Primer, we systematically introduce the methodology of PWLNNs by grouping the works into shallow and deep networks. Firstly, different PWLNN representation models are constructed with elaborated examples. With PWLNNs, the evolution of learning algorithms for data is presented and fundamental theoretical analysis follows up for in-depth understandings. Then, representative applications are introduced together with discussions and outlooks.
翻訳日:2022-06-22 17:32:45 公開日:2022-06-18
# nas-bench-graph:ベンチマークグラフニューラルネットワーク検索

NAS-Bench-Graph: Benchmarking Graph Neural Architecture Search ( http://arxiv.org/abs/2206.09166v1 )

ライセンス: Link先を確認
Yijian Qin, Ziwei Zhang, Xin Wang, Zeyang Zhang, Wenwu Zhu(参考訳) graph neural architecture search(graphnas)は最近、学界と業界の両方でかなりの注目を集めている。 しかし、2つの重要な課題がGraphNASのさらなる研究を妨げる。 第一に、実験的な設定にコンセンサスがないため、異なる研究論文の実証結果は、しばしば比較できない、再現できない、不公平な比較に繋がる。 第二に、GraphNASはしばしば広範な計算を必要とするため、大規模な計算にアクセスできることなく、研究者にとって非常に非効率でアクセスし難い。 これらの課題を解決するために、我々は、GraphNASの統一的で再現可能で効率的な評価をサポートする調整済みベンチマークであるNAS-Bench-Graphを提案する。 具体的には,26,206のユニークなグラフニューラルネットワーク(GNN)アーキテクチャを網羅した,統一的で表現力のあるコンパクトな検索空間を構築し,基本的評価プロトコルを提案する。 不要な反復トレーニングを避けるため、私たちは9つの代表的なグラフデータセットでこれらのアーキテクチャをすべてトレーニングし、評価し、各エポック、レイテンシ、パラメータの数など、トレイン、バリデーション、テストパフォーマンスなどの詳細なメトリクスを記録しました。 提案したベンチマークに基づいて、GNNアーキテクチャの性能は、余分な計算を行わないルックアップテーブルで直接得られるので、公平で再現性があり、効率的な比較が可能になる。 提案したNAS-Bench-Graphの詳細な分析を行い,GraphNASの興味深い発見をいくつか明らかにした。 また、ベンチマークがAutoGLやNNIといったGraphNASオープンライブラリと容易に互換性があることを示す。 私たちの知る限りでは、私たちの研究はグラフニューラルネットワークアーキテクチャ検索の最初のベンチマークです。

Graph neural architecture search (GraphNAS) has recently aroused considerable attention in both academia and industry. However, two key challenges seriously hinder the further research of GraphNAS. First, since there is no consensus for the experimental setting, the empirical results in different research papers are often not comparable and even not reproducible, leading to unfair comparisons. Secondly, GraphNAS often needs extensive computations, which makes it highly inefficient and inaccessible to researchers without access to large-scale computation. To solve these challenges, we propose NAS-Bench-Graph, a tailored benchmark that supports unified, reproducible, and efficient evaluations for GraphNAS. Specifically, we construct a unified, expressive yet compact search space, covering 26,206 unique graph neural network (GNN) architectures and propose a principled evaluation protocol. To avoid unnecessary repetitive training, we have trained and evaluated all of these architectures on nine representative graph datasets, recording detailed metrics including train, validation, and test performance in each epoch, the latency, the number of parameters, etc. Based on our proposed benchmark, the performance of GNN architectures can be directly obtained by a look-up table without any further computation, which enables fair, fully reproducible, and efficient comparisons. To demonstrate its usage, we make in-depth analyses of our proposed NAS-Bench-Graph, revealing several interesting findings for GraphNAS. We also showcase how the benchmark can be easily compatible with GraphNAS open libraries such as AutoGL and NNI. To the best of our knowledge, our work is the first benchmark for graph neural architecture search.
翻訳日:2022-06-22 17:32:33 公開日:2022-06-18
# MTSCのためのスケーラブルな分類器-非依存チャネル選択

Scalable Classifier-Agnostic Channel Selection for MTSC ( http://arxiv.org/abs/2206.09274v1 )

ライセンス: Link先を確認
Bhaskar Dhariyal, Thach Le Nguyen, Georgiana Ifrim(参考訳) 精度は、時系列分類における現在の作業の重要な焦点である。 しかし、特にデータスケールとストレージ要件が急速に増加すると、多くのアプリケーションで速度とデータ削減が重要である。 現在のMTSCアルゴリズムでは、トレーニングと予測の完了に数百時間を要する。 これは多変量時系列データの性質によるものであり、時系列の数、長さ、チャネルの数に応じて増大する。 多くのアプリケーションでは、すべてのチャネルが分類タスクに有用ではないため、有用なチャネルを効率的に選択し、計算資源を節約できる方法が必要となる。 チャネル選択のための2つの手法を提案し,評価する。 本手法は,各クラスをプロトタイプ時系列で表現し,クラス間のプロトタイプ距離に基づいてチャネル選択を行う。 主な仮説は、有用なチャネルはクラス間のより良い分離を可能にするため、クラスプロトタイプ間の高い距離を持つチャネルはより有用である。 UEA Multivariate Time Series Classification (MTSC) ベンチマークでは,これらの手法が類似の分類精度のレベルにおいて,データ削減と分類器の高速化を実現していることを示す。 チャネル選択は、最先端mtscアルゴリズムをトレーニングする前に前処理ステップとして適用され、計算時間とデータストレージの約70\%を保存精度で節約する。 さらに, ROCKETなどの効率の良い分類器も, チャネル選択や前方チャネル選択を使わずに, 精度が向上する。 そこで本研究では,100以上のチャンネルからなる合成多変量時系列データセットの分類実験と,50チャンネルからなるデータセットに関する実世界のケーススタディを提案する。 チャネル選択法は,保存あるいは精度の向上により,大幅なデータ削減につながる。

Accuracy is a key focus of current work in time series classification. However, speed and data reduction in many applications is equally important, especially when the data scale and storage requirements increase rapidly. Current MTSC algorithms need hundreds of compute hours to complete training and prediction. This is due to the nature of multivariate time series data, which grows with the number of time series, their length and the number of channels. In many applications, not all the channels are useful for the classification task; hence we require methods that can efficiently select useful channels and thus save computational resources. We propose and evaluate two methods for channel selection. Our techniques work by representing each class by a prototype time series and performing channel selection based on the prototype distance between classes. The main hypothesis is that useful channels enable better separation between classes; hence, channels with the higher distance between class prototypes are more useful. On the UEA Multivariate Time Series Classification (MTSC) benchmark, we show that these techniques achieve significant data reduction and classifier speedup for similar levels of classification accuracy. Channel selection is applied as a pre-processing step before training state-of-the-art MTSC algorithms and saves about 70\% of computation time and data storage, with preserved accuracy. Furthermore, our methods enable even efficient classifiers, such as ROCKET, to achieve better accuracy than using no channel selection or forward channel selection. To further study the impact of our techniques, we present experiments on classifying synthetic multivariate time series datasets with more than 100 channels, as well as a real-world case study on a dataset with 50 channels. Our channel selection methods lead to significant data reduction with preserved or improved accuracy.
翻訳日:2022-06-22 17:32:05 公開日:2022-06-18
# 監督スケーラブル学習システムの設計:方法論と性能ベンチマーク

Design of Supervision-Scalable Learning Systems: Methodology and Performance Benchmarking ( http://arxiv.org/abs/2206.09061v1 )

ライセンス: Link先を確認
Yijing Yang, Hongyu Fu and C.-C. Jay Kuo(参考訳) 本研究は,幅広い監督学位の下で安定した性能を提供する頑健な学習システムの設計について検討する。 画像分類問題を図示的な例として選び、表現学習、特徴学習、決定学習という3つの学習モジュールからなるモジュール化システムの設計に焦点を当てる。 異なるトレーニングサンプル数に対して設計が堅牢になるように各モジュールを調整する方法について論じる。 これらの考え方に基づき,2種類の学習システムを提案する。 1つはオブジェクト指向勾配(HOG)の古典的ヒストグラムを採用し、もう1つは連続部分空間学習(SSL)機能を使用している。 mnist と fashion-mnist データセットのためのエンドツーエンド最適化ニューラルネットワークである lenet-5 の性能をテストする。 画像クラス毎のトレーニングサンプルの数は、非常に弱い監督条件(クラス毎の1つのラベル付きサンプル)から強い監督条件(クラス毎の4096個のラベル付きサンプル)に移行し、段階的に移行する(すなわち、$2^n$, $n=0, 1, \cdots, 12$)。 実験の結果,モジュール型学習システムの2つのファミリーは,LeNet-5よりも堅牢な性能を示した。 どちらも、小さな$n$でLeNet-5をはるかに上回り、大きな$n$でLeNet-5に匹敵するパフォーマンスを持つ。

The design of robust learning systems that offer stable performance under a wide range of supervision degrees is investigated in this work. We choose the image classification problem as an illustrative example and focus on the design of modularized systems that consist of three learning modules: representation learning, feature learning and decision learning. We discuss ways to adjust each module so that the design is robust with respect to different training sample numbers. Based on these ideas, we propose two families of learning systems. One adopts the classical histogram of oriented gradients (HOG) features while the other uses successive-subspace-learning (SSL) features. We test their performance against LeNet-5, which is an end-to-end optimized neural network, for MNIST and Fashion-MNIST datasets. The number of training samples per image class goes from the extremely weak supervision condition (i.e., 1 labeled sample per class) to the strong supervision condition (i.e., 4096 labeled sample per class) with gradual transition in between (i.e., $2^n$, $n=0, 1, \cdots, 12$). Experimental results show that the two families of modularized learning systems have more robust performance than LeNet-5. They both outperform LeNet-5 by a large margin for small $n$ and have performance comparable with that of LeNet-5 for large $n$.
翻訳日:2022-06-22 17:10:52 公開日:2022-06-18
# 医用画像解析のための注意に基づく動的サブスペース学習

Attention-based Dynamic Subspace Learners for Medical Image Analysis ( http://arxiv.org/abs/2206.09068v1 )

ライセンス: Link先を確認
Sukesh Adiga V, Jose Dolz, Herve Lombaert(参考訳) 学習の類似性は、医学画像解析において、特に推奨システムや画像における解剖データの解釈を明らかにする上で重要な側面である。 既存のほとんどの手法は、単一のメートル法学習器を用いて画像集合上の埋め込み空間でそのような類似性を学ぶ。 しかし画像には、色、形、アーティファクトなど、さまざまなオブジェクト属性がある。 そのような属性を単一のメトリック学習者でエンコーディングすることは不十分であり、一般化に失敗する可能性がある。 代わりに、複数の学習者は、包括的な埋め込みのサブスペースにおけるこれらの属性の別々の側面に集中できる。 しかしこれは、新しいデータセットごとに経験的に見つかる学習者の数を意味する。 この研究であるDynamic Subspace Learnersは、トレーニング中に学習者の数を知り、新しいサブスペース学習者を集約することで、複数の学習者を動的に活用することを提案する。 さらに,本手法に注意モジュールを組み込むことにより,サブスペース学習の視覚的解釈性が強化される。 この統合注意機構は、画像集合のクラスタリングに寄与する識別的画像特徴の視覚的な洞察と、埋め込み特徴の視覚的説明を提供する。 注意に基づく動的サブスペース学習者の利点は,画像クラスタリング,画像検索,弱教師付きセグメンテーションの適用において評価される。 提案手法は,複数の学習者のベースラインのパフォーマンスと競合する結果を得るとともに,3つの公開ベンチマークデータセットのクラスタリングと検索スコアにおいて,分類ネットワークを著しく上回っている。 さらにアテンションマップにはプロキシラベルが提供されており,最先端の解釈手法と比較して,diceスコアのセグメンテーション精度が最大15%向上する。

Learning similarity is a key aspect in medical image analysis, particularly in recommendation systems or in uncovering the interpretation of anatomical data in images. Most existing methods learn such similarities in the embedding space over image sets using a single metric learner. Images, however, have a variety of object attributes such as color, shape, or artifacts. Encoding such attributes using a single metric learner is inadequate and may fail to generalize. Instead, multiple learners could focus on separate aspects of these attributes in subspaces of an overarching embedding. This, however, implies the number of learners to be found empirically for each new dataset. This work, Dynamic Subspace Learners, proposes to dynamically exploit multiple learners by removing the need of knowing apriori the number of learners and aggregating new subspace learners during training. Furthermore, the visual interpretability of such subspace learning is enforced by integrating an attention module into our method. This integrated attention mechanism provides a visual insight of discriminative image features that contribute to the clustering of image sets and a visual explanation of the embedding features. The benefits of our attention-based dynamic subspace learners are evaluated in the application of image clustering, image retrieval, and weakly supervised segmentation. Our method achieves competitive results with the performances of multiple learners baselines and significantly outperforms the classification network in terms of clustering and retrieval scores on three different public benchmark datasets. Moreover, our attention maps offer a proxy-labels, which improves the segmentation accuracy up to 15% in Dice scores when compared to state-of-the-art interpretation techniques.
翻訳日:2022-06-22 17:10:27 公開日:2022-06-18
# 時間的行動検出のための文脈認識提案ネットワーク

Context-aware Proposal Network for Temporal Action Detection ( http://arxiv.org/abs/2206.09082v1 )

ライセンス: Link先を確認
Xiang Wang, Huaxin Zhang, Shiwei Zhang, Changxin Gao, Yuanjie Shao, Nong Sang(参考訳) 本稿では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションを提案する。 このタスクは、長いビデオで特定のクラスにアクションインスタンスの時間的境界をローカライズすることを目的としている。 最近の主流の試みは、密接な境界マッチングに基づいて、提案を生成するために可能なすべての組み合わせを列挙している。 生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。 この目的のために,本手法は主に以下の3つのステップからなる。 1) Slowfast, CSN, TimeSformer, TSP, I3D-flow, VGGish-audio, TPN, ViViTによる行動分類と特徴抽出 2) 提案の生成。 提案するコンテキスト対応提案ネットワーク(CPN)は,BMN,GTAD,PRN上に構築され,提案機能の一部をランダムにマスキングすることでコンテキスト情報を集約する。 3) 行動検出。 最終検出予測は、対応するビデオレベル分類結果に提案を割り当てて算出する。 最後に、異なる機能の組み合わせ設定で結果をアンサンブルし、テストセットで45.8%のパフォーマンスを達成し、平均的なマップでcvpr-2021アクティビティネットチャレンジのチャンピオン結果が1.1%向上した。

This technical report presents our first place winning solution for temporal action detection task in CVPR-2022 AcitivityNet Challenge. The task aims to localize temporal boundaries of action instances with specific classes in long untrimmed videos. Recent mainstream attempts are based on dense boundary matchings and enumerate all possible combinations to produce proposals. We argue that the generated proposals contain rich contextual information, which may benefits detection confidence prediction. To this end, our method mainly consists of the following three steps: 1) action classification and feature extraction by Slowfast, CSN, TimeSformer, TSP, I3D-flow, VGGish-audio, TPN and ViViT; 2) proposal generation. Our proposed Context-aware Proposal Network (CPN) builds on top of BMN, GTAD and PRN to aggregate contextual information by randomly masking some proposal features. 3) action detection. The final detection prediction is calculated by assigning the proposals with corresponding video-level classifcation results. Finally, we ensemble the results under different feature combination settings and achieve 45.8% performance on the test set, which improves the champion result in CVPR-2021 ActivityNet Challenge by 1.1% in terms of average mAP.
翻訳日:2022-06-22 17:08:40 公開日:2022-06-18
# 身体的シーン認識による人間のポーズ推定

Embodied Scene-aware Human Pose Estimation ( http://arxiv.org/abs/2206.09106v1 )

ライセンス: Link先を確認
Zhengyi Luo, Shun Iwase, Ye Yuan, Kris Kitani(参考訳) 本研究では,エージェントの認識とシーン認識のシミュレーションと外部の第三者の観察に基づいて3dポーズを推定する,身体的シーン認識型人間のポーズ推定を提案する。 多段階最適化、非因果推論、複雑な接触モデルを用いて人間のポーズと人間のシーンの相互作用を推定する従来の手法とは異なり、本手法はシミュレーション環境でのグローバルな3次元人間のポーズを解析・復元する1段階である。 2次元の3人称観察はカメラのポーズと結合するため、カメラのポーズをアンタングルし、グローバル座標フレームで定義された多段階のプロジェクション勾配を具体化エージェントの移動キューとして用いることを提案する。 物理シミュレーションと事前スキャンされたシーン(例えば3Dメッシュ)を活用して、エージェントを日常の環境(図書館、オフィス、寝室など)でシミュレートし、エージェントに環境センサーを装着して、シーンのジオメトリをインテリジェントにナビゲートし、対話する。 また,本手法は2次元キーポイントのみに依存し,ヒトの動作データベースから合成データセットを学習することができる。 評価のために、人気のあるH36MデータセットとPROXデータセットを使用し、トレーニングにPROXモーションシーケンスを使用することなく、挑戦的なPROXデータセットで96.7%の成功率を達成した。

We propose embodied scene-aware human pose estimation where we estimate 3D poses based on a simulated agent's proprioception and scene awareness, along with external third-person observations. Unlike prior methods that often resort to multistage optimization, non-causal inference, and complex contact modeling to estimate human pose and human scene interactions, our method is one stage, causal, and recovers global 3D human poses in a simulated environment. Since 2D third-person observations are coupled with the camera pose, we propose to disentangle the camera pose and use a multi-step projection gradient defined in the global coordinate frame as the movement cue for our embodied agent. Leveraging a physics simulation and prescanned scenes (e.g., 3D mesh), we simulate our agent in everyday environments (libraries, offices, bedrooms, etc.) and equip our agent with environmental sensors to intelligently navigate and interact with scene geometries. Our method also relies only on 2D keypoints and can be trained on synthetic datasets derived from popular human motion databases. To evaluate, we use the popular H36M and PROX datasets and, for the first time, achieve a success rate of 96.7% on the challenging PROX dataset without ever using PROX motion sequences for training.
翻訳日:2022-06-22 17:08:19 公開日:2022-06-18
# 部分監督型医用画像分割のためのDeep Compatible Learning

Deep Compatible Learning for Partially-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2206.09148v1 )

ライセンス: Link先を確認
Ke Zhang, Xiahai Zhuang(参考訳) 部分教師付き学習は、ラベル付き構造に対する監督の欠如によりセグメンテーションにおいて困難であり、完全教師付き学習を直接適用する手法は非互換性をもたらす可能性がある。 この課題に対処するために,部分的構造のみを付加した画像を用いて,単一のマルチラベルセグメンテーションネットワークをトレーニングするディープラーニング学習(DCL)フレームワークを提案する。 まず,部分教師付きセグメンテーションを,欠落ラベルと互換性のある最適化問題として定式化し,その適合性を証明する。 次に,条件付きセグメンテーション戦略を用いて,複数の部分注釈画像からターゲットへのラベルの伝搬を行う。 さらに,ラベル伝播の反対の2つのマッピングを同時に学習し,ラベルなし構造に対する実質的な監視を行う2つの学習戦略を提案する。 2つの戦略は、それぞれ条件互換性と二重互換性と呼ばれる、互換性のある形式に定式化されている。 この枠組みは一般に従来の損失関数に適用可能であることを示す。 このアプローチは、特に小さなトレーニングデータセットのみが利用可能な状況において、既存のメソッドよりも大幅にパフォーマンスが向上する。 3つのセグメンテーションタスクの結果,提案手法が完全教師付きモデルに適合する性能を実現することが示された。

Partially-supervised learning can be challenging for segmentation due to the lack of supervision for unlabeled structures, and the methods directly applying fully-supervised learning could lead to incompatibility, meaning ground truth is not in the solution set of the optimization problem given the loss function. To address the challenge, we propose a deep compatible learning (DCL) framework, which trains a single multi-label segmentation network using images with only partial structures annotated. We first formulate the partially-supervised segmentation as an optimization problem compatible with missing labels, and prove its compatibility. Then, we equip the model with a conditional segmentation strategy, to propagate labels from multiple partially-annotated images to the target. Additionally, we propose a dual learning strategy, which learns two opposite mappings of label propagation simultaneously, to provide substantial supervision for unlabeled structures. The two strategies are formulated into compatible forms, termed as conditional compatibility and dual compatibility, respectively. We show this framework is generally applicable for conventional loss functions. The approach attains significant performance improvement over existing methods, especially in the situation where only a small training dataset is available. Results on three segmentation tasks have shown that the proposed framework could achieve performance matching fully-supervised models.
翻訳日:2022-06-22 17:07:53 公開日:2022-06-18
# 表面パラメータ化と2次元意味セグメンテーションネットワークによる3次元顔解析

3D Face Parsing via Surface Parameterization and 2D Semantic Segmentation Network ( http://arxiv.org/abs/2206.09221v1 )

ライセンス: Link先を確認
Wenyuan Sun, Ping Zhou, Yangang Wang, Zongpu Yu, Jing Jin, Guangquan Zhou(参考訳) 顔解析は、多くの高度な顔技術の基本部分であるコンピュータの顔表現としてピクセル単位のセマンティックラベルを割り当てる。 2d顔解析と比較すると、3d顔解析はより良いパフォーマンスとさらなるアプリケーションを実現する可能性を示していますが、それでも3dメッシュデータの計算が難しいです。 近年の研究では3次元表面のセグメンテーションの異なる手法が導入されたが、性能は依然として限られている。 本稿では,3d-2d-3d戦略に基づく3d顔解析手法を提案する。 空間的およびテクスチャ的な情報を含むトポロジカルディスク状2d顔画像は、顔パラメータ化アルゴリズムにより、サンプル化された3d顔データから変換され、cpfnetと呼ばれる特定の2dネットワークにより、マルチスケール技術と特徴集約による2dパラメータ化顔データのセマンティックセグメンテーションを実現する。 2d意味的結果が3d顔データに逆マップされ、最終的に3d顔解析が実現される。 実験の結果,CPFNet と "3D-2D-3D" の両戦略は,質的,定量的に比較して,高品質な3次元顔解析と最先端の2Dネットワークを実現することができた。

Face parsing assigns pixel-wise semantic labels as the face representation for computers, which is the fundamental part of many advanced face technologies. Compared with 2D face parsing, 3D face parsing shows more potential to achieve better performance and further application, but it is still challenging due to 3D mesh data computation. Recent works introduced different methods for 3D surface segmentation, while the performance is still limited. In this paper, we propose a method based on the "3D-2D-3D" strategy to accomplish 3D face parsing. The topological disk-like 2D face image containing spatial and textural information is transformed from the sampled 3D face data through the face parameterization algorithm, and a specific 2D network called CPFNet is proposed to achieve the semantic segmentation of the 2D parameterized face data with multi-scale technologies and feature aggregation. The 2D semantic result is then inversely re-mapped to 3D face data, which finally achieves the 3D face parsing. Experimental results show that both CPFNet and the "3D-2D-3D" strategy accomplish high-quality 3D face parsing and outperform state-of-the-art 2D networks as well as 3D methods in both qualitative and quantitative comparisons.
翻訳日:2022-06-22 17:07:30 公開日:2022-06-18
# GAN2X: 画像GANの非ラミビア逆レンダリング

GAN2X: Non-Lambertian Inverse Rendering of Image GANs ( http://arxiv.org/abs/2206.09244v1 )

ライセンス: Link先を確認
Xingang Pan, Ayush Tewari, Lingjie Liu, Christian Theobalt(参考訳) 2D画像は、幾何学、材料、照明成分で描かれた3D物理世界の観測である。 逆レンダリング(inverse rendering)とも呼ばれる2D画像からこれらの基盤となる固有成分を復元するには、通常、複数の視点から収集されたペア画像とリソース要求の照明条件による教師付き設定が必要である。 本研究では,未ペア画像のみをトレーニングに用いる教師なし逆レンダリングの新しい手法であるGAN2Xを提案する。 3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。 正確な逆レンダリングを実現するために,形状や材料特性を連続的にモデル化する,特異性を考慮した神経表面表現を考案する。 シェーディングベースの精錬技術を用いて、対象画像の情報を更に蒸留し、さらに細部を復元する。 実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なし単視3次元顔再構成の最先端性能を実現する。 また、実際の画像編集や3D GANの分解のための2D GANのリフトなど、下流タスクにも応用例を示す。

2D images are observations of the 3D physical world depicted with the geometry, material, and illumination components. Recovering these underlying intrinsic components from 2D images, also known as inverse rendering, usually requires a supervised setting with paired images collected from multiple viewpoints and lighting conditions, which is resource-demanding. In this work, we present GAN2X, a new method for unsupervised inverse rendering that only uses unpaired images for training. Unlike previous Shape-from-GAN approaches that mainly focus on 3D shapes, we take the first attempt to also recover non-Lambertian material properties by exploiting the pseudo paired data generated by a GAN. To achieve precise inverse rendering, we devise a specularity-aware neural surface representation that continuously models the geometry and material properties. A shading-based refinement technique is adopted to further distill information in the target image and recover more fine details. Experiments demonstrate that GAN2X can accurately decompose 2D images to 3D shape, albedo, and specular properties for different object categories, and achieves the state-of-the-art performance for unsupervised single-view 3D face reconstruction. We also show its applications in downstream tasks including real image editing and lifting 2D GANs to decomposed 3D GANs.
翻訳日:2022-06-22 17:07:03 公開日:2022-06-18
# フレーム意味解析のためのダブルグラフベースのフレームワーク

A Double-Graph Based Framework for Frame Semantic Parsing ( http://arxiv.org/abs/2206.09158v1 )

ライセンス: Link先を確認
Ce Zheng, Xudong Chen, Runxin Xu, Baobao Chang(参考訳) フレーム意味解析は基本的なNLPタスクであり、フレーム識別、引数識別、ロール分類という3つのサブタスクから構成される。 これまでのほとんどの研究は、異なるサブタスクと議論の関係を無視し、FrameNetで定義された存在論的フレーム知識にはほとんど注意を払わない傾向にある。 本稿では,知識誘導型インクリメンタル・セマンティック・パーサ(KID)を提案する。 まず,フレーム知識に基づいて構築されたフレームとfes(フレーム要素)の両方を含むヘテロジニアスグラフであるフレーム知識グラフ(fkg)を導入し,フレームとfesの知識エンハンス表現を導出する。 さらに,テキストから抽出したフレーム意味構造をグラフ構造で表現するためのフレーム意味グラフ(FSG)を提案する。 このように、フレームセマンティックパーシングをインクリメンタルグラフ構築問題に変換することで、サブタスク間の相互作用と引数間の関係を強化することができる。 実験の結果,KIDは2つのFrameNetデータセットの1.7F1スコアよりも優れていた。 私たちのコードはhttps://github.com/PKUnlp-icler/KIDで利用可能です。

Frame semantic parsing is a fundamental NLP task, which consists of three subtasks: frame identification, argument identification and role classification. Most previous studies tend to neglect relations between different subtasks and arguments and pay little attention to ontological frame knowledge defined in FrameNet. In this paper, we propose a Knowledge-guided Incremental semantic parser with Double-graph (KID). We first introduce Frame Knowledge Graph (FKG), a heterogeneous graph containing both frames and FEs (Frame Elements) built on the frame knowledge so that we can derive knowledge-enhanced representations for frames and FEs. Besides, we propose Frame Semantic Graph (FSG) to represent frame semantic structures extracted from the text with graph structures. In this way, we can transform frame semantic parsing into an incremental graph construction problem to strengthen interactions between subtasks and relations between arguments. Our experiments show that KID outperforms the previous state-of-the-art method by up to 1.7 F1-score on two FrameNet datasets. Our code is availavle at https://github.com/PKUnlp-icler/KID.
翻訳日:2022-06-22 15:51:37 公開日:2022-06-18
# Collocation2Text:ロシア語のガイドフレーズから制御可能なテキスト生成

Collocation2Text: Controllable Text Generation from Guide Phrases in Russian ( http://arxiv.org/abs/2206.09248v1 )

ライセンス: Link先を確認
Sergey Vychegzhanin, Evgeny Kotelnikov(参考訳) 大規模な事前学習された言語モデルは、多種多様なテキストを生成することができる。 プロンプトから、これらのモデルは予測不可能に発展できる物語を生成する。 既存の制御可能なテキスト生成手法では,テキスト中の物語をユーザが指定した方向に導くためには,トレーニングコーパスの作成と追加の時間を要する。 本稿では,ロシアで自動制御可能なテキスト生成のためのプラグイン・アンド・プレイ方式である collocation2text を提案し,検討する。 この手法は、自己回帰言語ruGPT-3モデルと自己符号化言語ruRoBERTaモデルという2つの相互作用モデルに基づいている。 この方法のアイデアは、テキスト中の物語のコヒーレントな遷移を保証するために、自動エンコーディングモデルの出力分布に従って自己回帰モデルの出力分布をシフトさせることであり、単一の単語やコロケーションを含むことができる。 トークンの左右コンテキストを考慮に入れた自己エンコーディングモデルでは、トークンが現在の生成ステップにおいて最も論理的かつ最も論理的な自己回帰モデルを「スター」し、対応するトークンの確率を増大または減少させる。 提案手法を用いてニュース記事を生成する実験は,ユーザ指定句間のコヒーレントな遷移を含む流布文の自動生成の有効性を示した。

Large pre-trained language models are capable of generating varied and fluent texts. Starting from the prompt, these models generate a narrative that can develop unpredictably. The existing methods of controllable text generation, which guide the narrative in the text in the user-specified direction, require creating a training corpus and an additional time-consuming training procedure. The paper proposes and investigates Collocation2Text, a plug-and-play method for automatic controllable text generation in Russian, which does not require fine-tuning. The method is based on two interacting models: the autoregressive language ruGPT-3 model and the autoencoding language ruRoBERTa model. The idea of the method is to shift the output distribution of the autoregressive model according to the output distribution of the autoencoding model in order to ensure a coherent transition of the narrative in the text towards the guide phrase, which can contain single words or collocations. The autoencoding model, which is able to take into account the left and right contexts of the token, "tells" the autoregressive model which tokens are the most and least logical at the current generation step, increasing or decreasing the probabilities of the corresponding tokens. The experiments on generating news articles using the proposed method showed its effectiveness for automatically generated fluent texts which contain coherent transitions between user-specified phrases.
翻訳日:2022-06-22 15:51:10 公開日:2022-06-18
# ruarg-2022: 引数マイニングの評価

RuArg-2022: Argument Mining Evaluation ( http://arxiv.org/abs/2206.09249v1 )

ライセンス: Link先を確認
Evgeny Kotelnikov, Natalia Loukachevitch, Irina Nikishina, Alexander Panchenko(参考訳) 論証分析は、テキストから引数を抽出する手法とそれら間の関係、およびテキストの議論構造を構築するための計算言語学の分野である。 本稿では,対話会議の枠組みの中でロシア語テキストを扱う議論分析システムに関する第1回コンペティションを主催者らに報告する。 競技中、参加者はスタンス検出と引数分類の2つのタスクを提示された。 新型コロナウイルス(covid-19)のパンデミックに関連する3つの話題(予防接種、隔離、マスク着用)に関する9,550文(ソーシャルメディア投稿の投稿)のコーパスを作成し、注釈を付け、訓練とテストに使用した。 両タスクで第1位を獲得したシステムは、bertアーキテクチャのnli(natural language inference)変種、専用のbertモデルを適用するための英語への自動翻訳、covid-19について議論するtwitter投稿で再トレーニング、ターゲットエンティティのマスキングなどを使用していた。 姿勢検出タスクでは, f1-score が 0.6968, 引数分類タスクが 0.7404, f1-score が 0.744。 準備されたデータセットとベースラインが、ロシア語の議論マイニングに関するさらなる研究を促進することを願っている。

Argumentation analysis is a field of computational linguistics that studies methods for extracting arguments from texts and the relationships between them, as well as building argumentation structure of texts. This paper is a report of the organizers on the first competition of argumentation analysis systems dealing with Russian language texts within the framework of the Dialogue conference. During the competition, the participants were offered two tasks: stance detection and argument classification. A corpus containing 9,550 sentences (comments on social media posts) on three topics related to the COVID-19 pandemic (vaccination, quarantine, and wearing masks) was prepared, annotated, and used for training and testing. The system that won the first place in both tasks used the NLI (Natural Language Inference) variant of the BERT architecture, automatic translation into English to apply a specialized BERT model, retrained on Twitter posts discussing COVID-19, as well as additional masking of target entities. This system showed the following results: for the stance detection task an F1-score of 0.6968, for the argument classification task an F1-score of 0.7404. We hope that the prepared dataset and baselines will help to foster further research on argument mining for the Russian language.
翻訳日:2022-06-22 15:50:37 公開日:2022-06-18
# 経済領域における議論的テキスト生成

Argumentative Text Generation in Economic Domain ( http://arxiv.org/abs/2206.09251v1 )

ライセンス: Link先を確認
Irina Fishcheva, Dmitriy Osadchiy, Klavdiya Bochenina, Evgeny Kotelnikov(参考訳) GPT-3, T5, Switch Transformer, ERNIEなどの大規模・大規模言語モデルの開発により, テキスト生成の性能が大幅に向上した。 この領域における重要な研究方向の1つは、議論のあるテキストの生成である。 この問題に対する解決策は、ビジネス会議、政治討論、対話システム、学生エッセイの作成などに利用できる。 これらの応用の主要な領域の1つは経済圏である。 ロシア語における議論テキスト生成の重要な問題は、注釈付き議論コーパスの欠如である。 本稿では,Argumentative Microtext, Persuasive Essays および UKP Sentential corpora の翻訳版を詳細な RuBERT モデルに適用する。 さらに、このモデルは議論によって経済ニュースのコーパスに注釈をつけるために用いられる。 次に、注釈付きコーパスを用いて、引数テキストを生成するruGPT-3モデルを微調整する。 その結果,本手法は元々のrugpt-3モデルと比較して20パーセンテージ(63.2\%対42.5\%)以上の引数生成精度が向上した。

The development of large and super-large language models, such as GPT-3, T5, Switch Transformer, ERNIE, etc., has significantly improved the performance of text generation. One of the important research directions in this area is the generation of texts with arguments. The solution of this problem can be used in business meetings, political debates, dialogue systems, for preparation of student essays. One of the main domains for these applications is the economic sphere. The key problem of the argument text generation for the Russian language is the lack of annotated argumentation corpora. In this paper, we use translated versions of the Argumentative Microtext, Persuasive Essays and UKP Sentential corpora to fine-tune RuBERT model. Further, this model is used to annotate the corpus of economic news by argumentation. Then the annotated corpus is employed to fine-tune the ruGPT-3 model, which generates argument texts. The results show that this approach improves the accuracy of the argument generation by more than 20 percentage points (63.2\% vs. 42.5\%) compared to the original ruGPT-3 model.
翻訳日:2022-06-22 15:50:15 公開日:2022-06-18
# ロシア語テキストの自動要約:抽出法と抽象法の比較

Automatic Summarization of Russian Texts: Comparison of Extractive and Abstractive Methods ( http://arxiv.org/abs/2206.09253v1 )

ライセンス: Link先を確認
Valeriya Goloviznina, Evgeny Kotelnikov(参考訳) GPT-3, T5, Switch Transformer, ERNIEなどの大規模・大規模言語モデルの開発により, テキスト生成の性能が大幅に向上した。 この領域における重要な研究方向の1つは、議論のあるテキストの生成である。 この問題に対する解決策は、ビジネス会議、政治討論、対話システム、学生エッセイの作成などに利用できる。 これらの応用の主要な領域の1つは経済圏である。 ロシア語における議論テキスト生成の重要な問題は、注釈付き議論コーパスの欠如である。 本稿では,Argumentative Microtext, Persuasive Essays および UKP Sentential corpora の翻訳版を詳細な RuBERT モデルに適用する。 さらに、このモデルは議論によって経済ニュースのコーパスに注釈をつけるために用いられる。 次に、注釈付きコーパスを用いて、引数テキストを生成するruGPT-3モデルを微調整する。 その結果、このアプローチは元のrugpt-3モデルと比較して20パーセンテージ(63.2%対42.5%)以上の引数生成精度が向上することが示された。

The development of large and super-large language models, such as GPT-3, T5, Switch Transformer, ERNIE, etc., has significantly improved the performance of text generation. One of the important research directions in this area is the generation of texts with arguments. The solution of this problem can be used in business meetings, political debates, dialogue systems, for preparation of student essays. One of the main domains for these applications is the economic sphere. The key problem of the argument text generation for the Russian language is the lack of annotated argumentation corpora. In this paper, we use translated versions of the Argumentative Microtext, Persuasive Essays and UKP Sentential corpora to fine-tune RuBERT model. Further, this model is used to annotate the corpus of economic news by argumentation. Then the annotated corpus is employed to fine-tune the ruGPT-3 model, which generates argument texts. The results show that this approach improves the accuracy of the argument generation by more than 20 percentage points (63.2% vs. 42.5%) compared to the original ruGPT-3 model.
翻訳日:2022-06-22 15:48:45 公開日:2022-06-18
# 不確実性定量化を用いた非パラメトリック多形モデリング

Nonparametric Multi-shape Modeling with Uncertainty Quantification ( http://arxiv.org/abs/2206.09127v1 )

ライセンス: Link先を確認
Hengrui Luo, Justin D. Strait(参考訳) 閉曲線のモデリングと不確かさの定量化は形状解析の分野において重要な問題であり、その後の統計的タスクに重大な影響をもたらす可能性がある。 これらのタスクの多くは閉曲線の集合を含み、しばしば複数のレベルで構造的類似性を示す。 このような曲線間の依存を効率的に組み込む方法で複数の閉曲線をモデル化することは難しい問題である。 本研究では,多次元ガウス過程モデリングフレームワーク(multi-output,multi-output)を提案する。 提案手法を応用し,いくつかの曲線および形状関連課題において有意義な不確実性定量化の有用性を示す。 このモデルに基づくアプローチは、閉曲線(とその形状)をカーネル構成で推論する問題だけでなく、一般に関数オブジェクトに対するマルチレベル依存の非パラメトリックモデリングへの扉を開く。

The modeling and uncertainty quantification of closed curves is an important problem in the field of shape analysis, and can have significant ramifications for subsequent statistical tasks. Many of these tasks involve collections of closed curves, which often exhibit structural similarities at multiple levels. Modeling multiple closed curves in a way that efficiently incorporates such between-curve dependence remains a challenging problem. In this work, we propose and investigate a multiple-output (a.k.a. multi-output), multi-dimensional Gaussian process modeling framework. We illustrate the proposed methodological advances, and demonstrate the utility of meaningful uncertainty quantification, on several curve and shape-related tasks. This model-based approach not only addresses the problem of inference on closed curves (and their shapes) with kernel constructions, but also opens doors to nonparametric modeling of multi-level dependence for functional objects in general.
翻訳日:2022-06-22 15:34:29 公開日:2022-06-18
# 不完全$U$統計を用いた効率的な凝集カーネル試験

Efficient Aggregated Kernel Tests using Incomplete $U$-statistics ( http://arxiv.org/abs/2206.09194v1 )

ライセンス: Link先を確認
Antonin Schrab and Ilmun Kim and Benjamin Guedj and Arthur Gretton(参考訳) 本稿では,Hilbert Schmidt Independence Criterion (HSIC) と Kernel Stein Discrepancy (KSD) を用いて,2サンプル・独立性・適合性問題に対する計算効率の良い非パラメトリックテストを提案する。 我々のテスト統計は、古典的な$U$-statisticsと関連する、サンプル数における線形時間と二次時間の間に補間する計算コストを持つ不完全$U$-statisticsである。 提案した3つのテストは、複数のカーネル帯域にまたがって集約され、さまざまなスケールでnullからの離脱を検出する: MMDAggInc、HSICAggInc、KSDAggInc。 テストしきい値については、独立利害関係にあるワイルドブートストラップの不完全な$u$-統計値のクォンティルバウンドを導出する。 我々はMMDAggIncとHSICAggIncの均一分離率を導出し、計算効率と達成可能な速度とのトレードオフを正確に定量化する。 さらに、二次時間の場合、ワイルドブートストラップは、同じミニマックス最適レート(oracle quantilesを使用するレートに一致する)を達成するため、より広範な置換ベースのアプローチでパワーをテストするためのペナルティを負わないことも示します。 計算効率とテストパワーのトレードオフに関する数値実験により,我々の主張を支持する。 3つのテストフレームワークにおいて,提案する線形時間集約テストは,現行の線形時間カーネルテストよりも高いパワーを得られることを確認した。

We propose a series of computationally efficient, nonparametric tests for the two-sample, independence and goodness-of-fit problems, using the Maximum Mean Discrepancy (MMD), Hilbert Schmidt Independence Criterion (HSIC), and Kernel Stein Discrepancy (KSD), respectively. Our test statistics are incomplete $U$-statistics, with a computational cost that interpolates between linear time in the number of samples, and quadratic time, as associated with classical $U$-statistic tests. The three proposed tests aggregate over several kernel bandwidths to detect departures from the null on various scales: we call the resulting tests MMDAggInc, HSICAggInc and KSDAggInc. For the test thresholds, we derive a quantile bound for wild bootstrapped incomplete $U$- statistics, which is of independent interest. We derive uniform separation rates for MMDAggInc and HSICAggInc, and quantify exactly the trade-off between computational efficiency and the attainable rates: this result is novel for tests based on incomplete $U$-statistics, to our knowledge. We further show that in the quadratic-time case, the wild bootstrap incurs no penalty to test power over more widespread permutation-based approaches, since both attain the same minimax optimal rates (which in turn match the rates that use oracle quantiles). We support our claims with numerical experiments on the trade-off between computational efficiency and test power. In the three testing frameworks, we observe that our proposed linear-time aggregated tests obtain higher power than current state-of-the-art linear-time kernel tests.
翻訳日:2022-06-22 15:34:14 公開日:2022-06-18
# 生成逆ネットワークを用いたマルチモーダル画像超解法

Multi-Modality Image Super-Resolution using Generative Adversarial Networks ( http://arxiv.org/abs/2206.09193v1 )

ライセンス: Link先を確認
Aref Abedjooy, Mehran Ebrahimi(参考訳) 過去数年間、GAN(Generative Adversarial Networks)のようなディープラーニングベースの技術は、画像の超解像および画像間翻訳問題に対するソリューションを著しく改善してきた。 本稿では,画像超解像と多モード画像-画像変換の連立問題に対する解法を提案する。 この問題は、別のモダリティで同じ像を低解像度で観測することを考えると、モダリティにおける高分解能像の回復と表現できる。 本稿では,この問題に対処する2つのモデルを提案し,同一シーンの低解像度夜間画像から高解像度の日像を復元する方法について検討する。 定性的かつ定量的な結果を各モデルに提示する。

Over the past few years deep learning-based techniques such as Generative Adversarial Networks (GANs) have significantly improved solutions to image super-resolution and image-to-image translation problems. In this paper, we propose a solution to the joint problem of image super-resolution and multi-modality image-to-image translation. The problem can be stated as the recovery of a high-resolution image in a modality, given a low-resolution observation of the same image in an alternative modality. Our paper offers two models to address this problem and will be evaluated on the recovery of high-resolution day images given low-resolution night images of the same scene. Promising qualitative and quantitative results will be presented for each model.
翻訳日:2022-06-22 15:30:23 公開日:2022-06-18
# 生成的対向ネットワークを用いたマルチモーダル画像インパインティング

Multi-Modality Image Inpainting using Generative Adversarial Networks ( http://arxiv.org/abs/2206.09210v1 )

ライセンス: Link先を確認
Aref Abedjooy, Mehran Ebrahimi(参考訳) ディープラーニング技術、特にGAN(Generative Adversarial Networks)は、過去数年間で画像インペイントと画像間翻訳タスクを大幅に改善した。 我々の知る限りでは、画像インパインティングタスクとマルチモーダル画像-画像間翻訳を併用する問題はいまだに残っていない。 本稿では,この問題に対処するためのモデルを提案する。 モデルは、定性的かつ定量的な結果とともに、夜間のイメージ翻訳と塗装の組み合わせで評価される。

Deep learning techniques, especially Generative Adversarial Networks (GANs) have significantly improved image inpainting and image-to-image translation tasks over the past few years. To the best of our knowledge, the problem of combining the image inpainting task with the multi-modality image-to-image translation remains intact. In this paper, we propose a model to address this problem. The model will be evaluated on combined night-to-day image translation and inpainting, along with promising qualitative and quantitative results.
翻訳日:2022-06-22 15:30:13 公開日:2022-06-18
# 電子健康記録データを用いた樹木誘導型希少特徴選択と論理アグリゲーション

Tree-Guided Rare Feature Selection and Logic Aggregation with Electronic Health Records Data ( http://arxiv.org/abs/2206.09107v1 )

ライセンス: Link先を確認
Jianmin Chen, Robert H. Aseltine, Fei Wang, Kun Chen(参考訳) 電子健康記録(ehr)データの解析において、多くの希少な二進性特徴を持つ統計的学習は、特に先行医療診断と処置を伴う疾患発症のモデリングにおいてよく見られる。 従来の手法はテストの力不足やモデルフィッティングの一貫性の欠如に悩まされる一方で、機械学習の手法では解釈可能な結果や臨床的に意味のあるリスク要因を発生できないという問題もある。 病気分類の自然な階層構造を生かし,EHRに基づくモデリングを改善するために,希少な二分特徴を持つ大規模回帰のための木誘導特徴選択と論理集約手法を提案する。 組合せ問題を線形拘束正規化推定に変換し, 理論的な保証によりスケーラブルな計算が可能となる。 EHRデータを用いた自殺リスクスタディでは,国際疾患分類の診断階層が示すように,従来の精神保健診断を選択・集約することが可能である。 EHR診断記録の希少性と特異性のバランスをとることで,予測とモデル解釈の両方を改善することができる。 自殺リスクの予測において,精神疾患の重要な上位カテゴリーと下位カテゴリを特定し,それぞれに必要な特異度を同時に決定する。

Statistical learning with a large number of rare binary features is commonly encountered in analyzing electronic health records (EHR) data, especially in the modeling of disease onset with prior medical diagnoses and procedures. Dealing with the resulting highly sparse and large-scale binary feature matrix is notoriously challenging as conventional methods may suffer from a lack of power in testing and inconsistency in model fitting while machine learning methods may suffer from the inability of producing interpretable results or clinically-meaningful risk factors. To improve EHR-based modeling and utilize the natural hierarchical structure of disease classification, we propose a tree-guided feature selection and logic aggregation approach for large-scale regression with rare binary features, in which dimension reduction is achieved through not only a sparsity pursuit but also an aggregation promoter with the logic operator of ``or''. We convert the combinatorial problem into a convex linearly-constrained regularized estimation, which enables scalable computation with theoretical guarantees. In a suicide risk study with EHR data, our approach is able to select and aggregate prior mental health diagnoses as guided by the diagnosis hierarchy of the International Classification of Diseases. By balancing the rarity and specificity of the EHR diagnosis records, our strategy improves both prediction and model interpretation. We identify important higher-level categories and subcategories of mental health conditions and simultaneously determine the level of specificity needed for each of them in predicting suicide risk.
翻訳日:2022-06-22 15:24:04 公開日:2022-06-18
# lqr制御における最適動的後悔

Optimal Dynamic Regret in LQR Control ( http://arxiv.org/abs/2206.09257v1 )

ライセンス: Link先を確認
Dheeraj Baby and Yu-Xiang Wang(参考訳) 我々は、LQR制御という2次的損失の連続を伴う非確率的制御の問題を考察する。 我々は,$\tilde{o}(\text{max}\{n^{1/3} \mathcal{tv}(m_{1:n})^{2/3}, 1\})$, ここで$\mathcal{tv}(m_{1:n})$は,$m_1,...,m_n$でパラメータづけされた任意のoracleの妨害行動ポリシーの合計変動である。 このレートは一般的な凸損失に対して最もよく知られた$\tilde{o}(\sqrt{n (\mathcal{tv}(m_{1:n})+1)} の速度を改善する。 主な技術的コンポーネントは、フォスターとシムショヴィッツ(2020年)による遅延フィードバックによるオンライン線形回帰へのlqrの削減と、独立利害である「ミニバッチ」二次損失の族に最適な$\tilde{o}(n^{1/3})$動的後悔を与える新しい適切な学習アルゴリズムである。

We consider the problem of nonstochastic control with a sequence of quadratic losses, i.e., LQR control. We provide an efficient online algorithm that achieves an optimal dynamic (policy) regret of $\tilde{O}(\text{max}\{n^{1/3} \mathcal{TV}(M_{1:n})^{2/3}, 1\})$, where $\mathcal{TV}(M_{1:n})$ is the total variation of any oracle sequence of Disturbance Action policies parameterized by $M_1,...,M_n$ -- chosen in hindsight to cater to unknown nonstationarity. The rate improves the best known rate of $\tilde{O}(\sqrt{n (\mathcal{TV}(M_{1:n})+1)} )$ for general convex losses and we prove that it is information-theoretically optimal for LQR. Main technical components include the reduction of LQR to online linear regression with delayed feedback due to Foster and Simchowitz (2020), as well as a new proper learning algorithm with an optimal $\tilde{O}(n^{1/3})$ dynamic regret on a family of ``minibatched'' quadratic losses, which could be of independent interest.
翻訳日:2022-06-22 15:22:37 公開日:2022-06-18
# GaLeNet: 災害予測・管理・救済のためのマルチモーダル学習

GaLeNet: Multimodal Learning for Disaster Prediction, Management and Relief ( http://arxiv.org/abs/2206.09242v1 )

ライセンス: Link先を確認
Rohit Saha, Mengyi Fang, Angeline Yasodhara, Kyryl Truskovskyi, Azin Asgarian, Daniel Homola, Raahil Shah, Frederik Dieleman, Jack Weatheritt, Thomas Rogers(参考訳) ハリケーンなどの自然災害の後、数百万人が緊急支援を必要としている。 リソースを最適に割り当てるために、ヒューマンプランナーは複数のソースから大量に流れるデータを正確に分析する必要がある。 これにより、複数のデータソースを統合し、それらを効率的に活用できるマルチモーダル機械学習フレームワークの開発が動機付けられる。 これまで研究コミュニティは、被害の詳細な評価を行うために、ユニモーダル推論に重点を置いてきた。 さらに、これまでの研究は主にポスト・ディザスター画像に依存しており、利用には数日かかる可能性がある。 本研究では,災害前画像と気象データとハリケーンの軌跡を補完することにより,被害の重大度を評価するマルチモーダルフレームワーク(galenet)を提案する。 2つのハリケーンのデータをもとに 広範囲にわたる実験を行い (i)マルチモーダルアプローチの利点とユニモーダル法との比較 (II)様々なモダリティを融合させるGaLeNetの有効性。 さらに、GaLeNetは、ディスアスター後の画像がない場合に、プリディスアスター画像を利用することができ、意思決定のかなりの遅延を防止できることを示す。

After a natural disaster, such as a hurricane, millions are left in need of emergency assistance. To allocate resources optimally, human planners need to accurately analyze data that can flow in large volumes from several sources. This motivates the development of multimodal machine learning frameworks that can integrate multiple data sources and leverage them efficiently. To date, the research community has mainly focused on unimodal reasoning to provide granular assessments of the damage. Moreover, previous studies mostly rely on post-disaster images, which may take several days to become available. In this work, we propose a multimodal framework (GaLeNet) for assessing the severity of damage by complementing pre-disaster images with weather data and the trajectory of the hurricane. Through extensive experiments on data from two hurricanes, we demonstrate (i) the merits of multimodal approaches compared to unimodal methods, and (ii) the effectiveness of GaLeNet at fusing various modalities. Furthermore, we show that GaLeNet can leverage pre-disaster images in the absence of post-disaster images, preventing substantial delays in decision making.
翻訳日:2022-06-22 15:01:01 公開日:2022-06-18
# 合成トランスファーラーニングによる解剖学的眼領域分離によるマルチストリーム視線推定

Multistream Gaze Estimation with Anatomical Eye Region Isolation by Synthetic to Real Transfer Learning ( http://arxiv.org/abs/2206.09256v1 )

ライセンス: Link先を確認
Zunayed Mahmud, Paul Hungler, Ali Etemad(参考訳) 本研究では,マルチストリーム・フレームワークによる視線解剖情報を活用し,視線表現を学習するニューラル・パイプラインmsgazenetを提案する。 提案手法は,解剖学的眼領域を分離するネットワークと,マルチストリーム視線推定のための第2のネットワークという2つの構成要素からなる。 眼球と虹彩領域の眼球領域マスクを含む合成データセットを用いて訓練するu-netスタイルのネットワークを用いて眼球領域分離を行う。 この段階で使用される合成データセットは、6万枚の眼画像からなる新しいデータセットで、眼球運動シミュレータUnityEyesを使って作成します。 トレーニングの後、眼領域分離ネットワークは実領域に移動され、実世界の眼画像のマスクを生成する。 トランスファーを成功させるために,訓練プロセスにおいてドメインランダム化を活用し,人工画像に類似した拡張の助けを借りて,より大きなばらつきの恩恵を受ける。 生成した眼領域マスクと生眼画像とを併用して、視線推定ネットワークへのマルチストリーム入力を行う。 我々は,MPIIGaze,Eyediap,UTMultiviewの3つのベンチマークガーゼニング推定データセットに対して,それぞれ7.57%,1.85%の性能向上を達成し,MPIIGazeの競争性能を達成し,EyediapとUTMultiviewの3つのベンチマークガーゼニング推定データセットについて評価を行った。 また,データ中の雑音に対するロバスト性についても検討し,ノイズに対する感度の低下を実証した。 最後に、様々なコンポーネントの寄与とソリューションにおける設計選択を評価するためのアブレーション研究を含む様々な実験を行った。

We propose a novel neural pipeline, MSGazeNet, that learns gaze representations by taking advantage of the eye anatomy information through a multistream framework. Our proposed solution comprises two components, first a network for isolating anatomical eye regions, and a second network for multistream gaze estimation. The eye region isolation is performed with a U-Net style network which we train using a synthetic dataset that contains eye region masks for the visible eyeball and the iris region. The synthetic dataset used in this stage is a new dataset consisting of 60,000 eye images, which we create using an eye-gaze simulator, UnityEyes. Successive to training, the eye region isolation network is then transferred to the real domain for generating masks for the real-world eye images. In order to successfully make the transfer, we exploit domain randomization in the training process, which allows for the synthetic images to benefit from a larger variance with the help of augmentations that resemble artifacts. The generated eye region masks along with the raw eye images are then used together as a multistream input to our gaze estimation network. We evaluate our framework on three benchmark gaze estimation datasets, MPIIGaze, Eyediap, and UTMultiview, where we set a new state-of-the-art on Eyediap and UTMultiview datasets by obtaining a performance gain of 7.57% and 1.85% respectively, while achieving competitive performance on MPIIGaze. We also study the robustness of our method with respect to the noise in the data and demonstrate that our model is less sensitive to noisy data. Lastly, we perform a variety of experiments including ablation studies to evaluate the contribution of different components and design choices in our solution.
翻訳日:2022-06-22 15:00:45 公開日:2022-06-18
# 生体刺激によるトーンマッピングオペレータの知覚的最適化

Perceptual Optimization of a Biologically-Inspired Tone Mapping Operator ( http://arxiv.org/abs/2206.09146v1 )

ライセンス: Link先を確認
Peibei Cao, Chenyang Le, Yuming Fang and Kede Ma(参考訳) 高ダイナミックレンジ(hdr)撮影の人気とアクセシビリティが高まる中、ダイナミックレンジ圧縮とメディアプレゼンテーションのためのトーンマッピングオペレータ(tmos)が事実上要求されている。 本稿では,生物学的にインスパイアされ,計算効率が良く,知覚的に最適化された2段階のニューラルネットワークベースのHDR画像TMOを開発する。 第1段階では、ヒト視覚系(hvs)の初期段階の生理学に動機づけられ、まずhdr画像を正常化したラプラシアピラミッドに分解する。 次に、この正規化表現を入力とし、対応するLDR画像のラプラシアピラミッドを推定する2つの軽量ディープニューラルネットワーク(DNN)を用いる。 音素マップネットワークの最適化は,音素マップ画像品質の人間の判断に適応した知覚指標である正規化ラプラシアンピラミッド距離(nlpd)を最小化する。 第2段階では,最大輝度の異なるhdr画像 ‘calibrated'' を学習トーンマッピングネットワークに入力することにより,色彩度や細部視認性が異なる擬似マルチ露光画像スタックを生成する。 次に、LDR画像スタックを所望のLDR画像に融合させるために別の軽量DNNをトレーニングし、画像融合のための別のキャリブレーション基準であるMEF-SSIMの変種を最大化する。 これにより、提案したTMOは完全に自動で、未校正HDR画像のトーンマップを作成できる。 独立したhdr画像群にまたがって,本手法が常に良好な画質の画像を生成し,最も高速な局所的tmosであることがわかった。

With the increasing popularity and accessibility of high dynamic range (HDR) photography, tone mapping operators (TMOs) for dynamic range compression and medium presentation are practically demanding. In this paper, we develop a two-stage neural network-based HDR image TMO that is biologically-inspired, computationally efficient, and perceptually optimized. In Stage one, motivated by the physiology of the early stages of the human visual system (HVS), we first decompose an HDR image into a normalized Laplacian pyramid. We then use two lightweight deep neural networks (DNNs) that take this normalized representation as input and estimate the Laplacian pyramid of the corresponding LDR image. We optimize the tone mapping network by minimizing the normalized Laplacian pyramid distance (NLPD), a perceptual metric calibrated against human judgments of tone-mapped image quality. In Stage two, we generate a pseudo-multi-exposure image stack with different color saturation and detail visibility by inputting an HDR image ``calibrated'' with different maximum luminances to the learned tone mapping network. We then train another lightweight DNN to fuse the LDR image stack into a desired LDR image by maximizing a variant of MEF-SSIM, another perceptually calibrated metric for image fusion. By doing so, the proposed TMO is fully automatic to tone map uncalibrated HDR images. Across an independent set of HDR images, we find that our method produces images with consistently better visual quality, and is among the fastest local TMOs.
翻訳日:2022-06-22 14:56:23 公開日:2022-06-18
# 付加雑音による伝達性と入力変換に関するコメント

Comment on Transferability and Input Transformation with Additive Noise ( http://arxiv.org/abs/2206.09075v1 )

ライセンス: Link先を確認
Hoki Kim, Jinseong Park, Jaewook Lee(参考訳) 敵の攻撃はニューラルネットワークの脆弱性の存在を証明した。 良質な例に小さな摂動を加えることで、敵の攻撃は、ディープラーニングモデルの誤分類につながる敵の例をうまく生成する。 さらに重要なことに、特定のモデルから生成された敵対的な例は、修正なしに他のモデルも欺くことができる。 この現象を「移動可能性」と呼ぶ。 ここでは,変換可能性と付加雑音による入力変換の関係を数学的に解析し,改良された最適化がより伝達可能な逆の例を生成することを証明した。

Adversarial attacks have verified the existence of the vulnerability of neural networks. By adding small perturbations to a benign example, adversarial attacks successfully generate adversarial examples that lead misclassification of deep learning models. More importantly, an adversarial example generated from a specific model can also deceive other models without modification. We call this phenomenon ``transferability". Here, we analyze the relationship between transferability and input transformation with additive noise by mathematically proving that the modified optimization can produce more transferable adversarial examples.
翻訳日:2022-06-22 14:52:54 公開日:2022-06-18
# 連続ゲームによる複数部分空間の識別的表現の探索

Pursuit of a Discriminative Representation for Multiple Subspaces via Sequential Games ( http://arxiv.org/abs/2206.09120v1 )

ライセンス: Link先を確認
Druv Pai, Michael Psenka, Chih-Yuan Chiu, Manxi Wu, Edgar Dobriban, Yi Ma(参考訳) 本研究では,複数の低次元線形部分空間の周辺に分布する高次元空間におけるデータの識別表現を学習する問題を考える。 すなわち、特徴が複数の直交部分空間上に存在するようなデータの線形単射写像を計算したいということである。 この学習問題を複数のPCAを用いて扱う代わりに、最近提案されたCTRLフレームワークを用いて、一般的な低次元部分多様体に対する識別的および生成的表現を学習するためのシーケンシャルゲームとしてキャストした。 ゲームの均衡解が正しい表現を与えることが証明される。 本手法は,現代的表現学習のツールキットを用いて,サブスペース学習問題を確実に解決できることを示すことにより,現代的深層学習実践とサブスペース学習の古典的手法を統合する。 さらに、我々の研究は線型部分空間の重要な場合において、CTRLフレームワークに対する最初の理論的正当化を提供する。 我々は説得力のある実証的証拠で理論的な発見を支持している。 また、逐次ゲーム定式化をより一般的な表現学習問題に一般化する。 実験結果の再現を容易にするメソッドを含む私たちのコードは、GitHubで公開されています。

We consider the problem of learning discriminative representations for data in a high-dimensional space with distribution supported on or around multiple low-dimensional linear subspaces. That is, we wish to compute a linear injective map of the data such that the features lie on multiple orthogonal subspaces. Instead of treating this learning problem using multiple PCAs, we cast it as a sequential game using the closed-loop transcription (CTRL) framework recently proposed for learning discriminative and generative representations for general low-dimensional submanifolds. We prove that the equilibrium solutions to the game indeed give correct representations. Our approach unifies classical methods of learning subspaces with modern deep learning practice, by showing that subspace learning problems may be provably solved using the modern toolkit of representation learning. In addition, our work provides the first theoretical justification for the CTRL framework, in the important case of linear subspaces. We support our theoretical findings with compelling empirical evidence. We also generalize the sequential game formulation to more general representation learning problems. Our code, including methods for easy reproduction of experimental results, is publically available on GitHub.
翻訳日:2022-06-22 14:25:08 公開日:2022-06-18
# 逆例の伝達可能性における一般化の役割について

On the Role of Generalization in Transferability of Adversarial Examples ( http://arxiv.org/abs/2206.09238v1 )

ライセンス: Link先を確認
Yilin Wang, Farzan Farnia(参考訳) black-box adversarial attacks design adversarial examples for unseen neural networks (nns) は近年注目を集めている。 いくつかのブラックボックス攻撃方式が文献で提案されているが、ブラックボックス攻撃例の転送可能性を高める根本的要因はまだ十分に理解されていない。 本稿では,未観測のNN分類器への攻撃スキームの転送可能性の逆例を生成するために使用される代用分類器の一般化特性の役割を示す。 これを実現するために,max-min のadversarial example game framework を適用し,代替 nn の一般化特性が,異なる nn 分類器に適用するブラックボックス攻撃方式の成功に重要であることを示す。 本研究では,攻撃伝達率と試験試料との差を理論的に一般化する。 我々の限界は、より一般化挙動のよい代替NNが、より移動可能な逆の例をもたらすことを示唆している。 さらに,標準作用素ノルムに基づく正規化手法により,設計した逆数例の転送性が向上することを示した。 我々は,代用ネットワークの一般化が転置可能な逆例生成に果たす役割を示す数値実験を複数実施し,理論結果を裏付ける。 実験結果は,リプシッツ正則化法が,逆例の伝達性を向上させる効果を示した。

Black-box adversarial attacks designing adversarial examples for unseen neural networks (NNs) have received great attention over the past years. While several successful black-box attack schemes have been proposed in the literature, the underlying factors driving the transferability of black-box adversarial examples still lack a thorough understanding. In this paper, we aim to demonstrate the role of the generalization properties of the substitute classifier used for generating adversarial examples in the transferability of the attack scheme to unobserved NN classifiers. To do this, we apply the max-min adversarial example game framework and show the importance of the generalization properties of the substitute NN in the success of the black-box attack scheme in application to different NN classifiers. We prove theoretical generalization bounds on the difference between the attack transferability rates on training and test samples. Our bounds suggest that a substitute NN with better generalization behavior could result in more transferable adversarial examples. In addition, we show that standard operator norm-based regularization methods could improve the transferability of the designed adversarial examples. We support our theoretical results by performing several numerical experiments showing the role of the substitute network's generalization in generating transferable adversarial examples. Our empirical results indicate the power of Lipschitz regularization methods in improving the transferability of adversarial examples.
翻訳日:2022-06-22 14:24:50 公開日:2022-06-18
# Augmented Imagefication: 航空機用データセンサのデータ駆動故障検出法

Augmented Imagefication: A Data-driven Fault Detection Method for Aircraft Air Data Sensors ( http://arxiv.org/abs/2206.09055v1 )

ライセンス: Link先を確認
Hang Zhao, Jinyi Ma, Zhongzhi Li, Yiqun Dong, Jianliang Ai(参考訳) 本稿では,航空機用エアデータセンサ(ADS)のFD(Augmented Imagefication for Fault Detection)と呼ばれる新しいデータ駆動方式を提案する。 航空機用空気データセンサのFD問題を例として,ディープニューラルネットワーク(DNN)に基づくエッジデバイス上のオンラインFDスキームを開発した。 第一に、航空機慣性基準単位の測定は、異なる航空機/飛行ケースに対してスケーラブルな等価な入力として採用されている。 6つの異なる航空機/飛行条件に関連するデータが収集され、トレーニング/テストデータベースに多様性(scalability)を提供する。 次に,DNNによる飛行条件の予測のために,Augmented Imageficationを提案する。 原データは畳み込み操作のためのグレースケール画像として再構成され、補足の必要性を解析して指摘する。 Flip, Repeat, Tile とそれらの組み合わせについて検討した結果, 画像行列の両軸における All Repeat 演算が DNN の最高の性能をもたらすことが示された。 DNNの解釈性はGrad-CAMに基づいて研究され、DNNの堅牢性をよりよく理解し、さらに確立する。 次にDNNモデルであるVGG-16は、モバイルハードウェア展開に最適化されている。 dnnのプルーニング後、精度の高い軽量モデル(元のvgg-16より98.79%小さい)と高速(時間遅延を87.54%小さくする)が得られる。 そして、TPEに基づくDNNのハイパーパラメータ最適化を行い、ハイパーパラメータの最良の組み合わせを決定する(学習率0.001、反復エポック600、バッチサイズ100は0.987で最高精度が得られる)。 最後に、エッジデバイスに基づくオンラインFDデプロイメントであるJetson Nanoを開発し、航空機のリアルタイム監視を実現する。 本手法は他の類似分野のFD問題に対処するための指導的手法であると信じている。

In this paper, a novel data-driven approach named Augmented Imagefication for Fault detection (FD) of aircraft air data sensors (ADS) is proposed. Exemplifying the FD problem of aircraft air data sensors, an online FD scheme on edge device based on deep neural network (DNN) is developed. First, the aircraft inertial reference unit measurements is adopted as equivalent inputs, which is scalable to different aircraft/flight cases. Data associated with 6 different aircraft/flight conditions are collected to provide diversity (scalability) in the training/testing database. Then Augmented Imagefication is proposed for the DNN-based prediction of flying conditions. The raw data are reshaped as a grayscale image for convolutional operation, and the necessity of augmentation is analyzed and pointed out. Different kinds of augmented method, i.e. Flip, Repeat, Tile and their combinations are discussed, the result shows that the All Repeat operation in both axes of image matrix leads to the best performance of DNN. The interpretability of DNN is studied based on Grad-CAM, which provide a better understanding and further solidifies the robustness of DNN. Next the DNN model, VGG-16 with augmented imagefication data is optimized for mobile hardware deployment. After pruning of DNN, a lightweight model (98.79% smaller than original VGG-16) with high accuracy (slightly up by 0.27%) and fast speed (time delay is reduced by 87.54%) is obtained. And the hyperparameters optimization of DNN based on TPE is implemented and the best combination of hyperparameters is determined (learning rate 0.001, iterative epochs 600, and batch size 100 yields the highest accuracy at 0.987). Finally, a online FD deployment based on edge device, Jetson Nano, is developed and the real time monitoring of aircraft is achieved. We believe that this method is instructive for addressing the FD problems in other similar fields.
翻訳日:2022-06-22 14:09:19 公開日:2022-06-18
# EEML: 組込みメタラーニング

EEML: Ensemble Embedded Meta-learning ( http://arxiv.org/abs/2206.09195v1 )

ライセンス: Link先を確認
Geng Li, Boyuan Ren, Hongzhi Wang(参考訳) わずかなサンプルで学習プロセスを加速するために、メタラーニングは以前のタスクから事前の知識に頼る。 しかし、不整合タスク分布と不均一性は、グローバルな共有モデル初期化によって扱うことは困難である。 本稿では,勾配に基づくメタラーニングに基づいて,複数モデルアンサンブルを明示的に活用し,事前知識を多種多様な専門家に分類するアンサンブル組込みメタラーニングアルゴリズム(EEML)を提案する。 トレーニングプロセスのエキスパートに多様なタスクを提供し、テストフェーズで専門家がどのように協力するかを指示するために、クラスタメカニズムを組み込むタスクに依存しています。 その結果、複数の専門家が自身の専門分野に集中し、今後の課題に協力してタスクの不均一性を解決することができる。 実験の結果, 提案手法は, 分化と協調の重要性を検証し, 単発学習問題において, 近年の最先端技術に匹敵することがわかった。

To accelerate learning process with few samples, meta-learning resorts to prior knowledge from previous tasks. However, the inconsistent task distribution and heterogeneity is hard to be handled through a global sharing model initialization. In this paper, based on gradient-based meta-learning, we propose an ensemble embedded meta-learning algorithm (EEML) that explicitly utilizes multi-model-ensemble to organize prior knowledge into diverse specific experts. We rely on a task embedding cluster mechanism to deliver diverse tasks to matching experts in training process and instruct how experts collaborate in test phase. As a result, the multi experts can focus on their own area of expertise and cooperate in upcoming task to solve the task heterogeneity. The experimental results show that the proposed method outperforms recent state-of-the-arts easily in few-shot learning problem, which validates the importance of differentiation and cooperation.
翻訳日:2022-06-22 14:02:05 公開日:2022-06-18
# スポーツにおける機械学習:バレーボールの試合結果予測に説明可能なモデルを用いたケーススタディ

Machine Learning in Sports: A Case Study on Using Explainable Models for Predicting Outcomes of Volleyball Matches ( http://arxiv.org/abs/2206.09258v1 )

ライセンス: Link先を確認
Abhinav Lalwani, Aman Saraiya, Apoorv Singh, Aditya Jain, Tirtharaj Dash(参考訳) 機械学習は、スポーツを含むいくつかの領域におけるエンジニアリング設計と意思決定の不可欠な部分となっている。 ディープニューラルネットワーク(dnn)は、プロスポーツイベントの結果を予測する最先端の手法である。 しかし、これらのスポーツイベントの結果について非常に正確な予測を得るのとは別に、「なぜモデルがチームAがマッチXに勝つと予測したのか? DNNは本質的にブラックボックスである。 したがって,スポーツにおけるモデルの予測には,高品質な解釈可能,理解可能な説明が必要である。 本稿では,ブラジルバレーボールリーグ(superliga)における試合結果予測のための2相説明型人工知能(xai)アプローチについて検討する。 第1フェーズでは、ブールルール列生成(BRCG、単純なAND-OR分類規則を抽出する)とロジスティック回帰(LogReg、特徴重要度スコアを推定する)に基づいて、モデル動作のグローバルな理解を提供する解釈可能なルールベースMLモデルを直接使用します。 第2フェーズでは,バレーボールの試合結果の予測性能を得るために,サポートベクターマシン(svm)やディープニューラルネットワーク(dnn)などの非線形モデルを構築した。 テストインスタンスと最もよく似たトレーニングデータセットのプロトタイプを見つける方法であるProtoDashと、モデルの予測に対する各機能の貢献を推定するメソッドであるSHAPを用いて、各データインスタンスの"ポストホック"説明を構築した。 忠実度指標を用いてシェープ説明を評価する。 本結果は,モデルの予測に対する説明の有効性を示す。

Machine Learning has become an integral part of engineering design and decision making in several domains, including sports. Deep Neural Networks (DNNs) have been the state-of-the-art methods for predicting outcomes of professional sports events. However, apart from getting highly accurate predictions on these sports events outcomes, it is necessary to answer questions such as "Why did the model predict that Team A would win Match X against Team B?" DNNs are inherently black-box in nature. Therefore, it is required to provide high-quality interpretable, and understandable explanations for a model's prediction in sports. This paper explores a two-phased Explainable Artificial Intelligence(XAI) approach to predict outcomes of matches in the Brazilian volleyball League (SuperLiga). In the first phase, we directly use the interpretable rule-based ML models that provide a global understanding of the model's behaviors based on Boolean Rule Column Generation (BRCG; extracts simple AND-OR classification rules) and Logistic Regression (LogReg; allows to estimate the feature importance scores). In the second phase, we construct non-linear models such as Support Vector Machine (SVM) and Deep Neural Network (DNN) to obtain predictive performance on the volleyball matches' outcomes. We construct the "post-hoc" explanations for each data instance using ProtoDash, a method that finds prototypes in the training dataset that are most similar to the test instance, and SHAP, a method that estimates the contribution of each feature on the model's prediction. We evaluate the SHAP explanations using the faithfulness metric. Our results demonstrate the effectiveness of the explanations for the model's predictions.
翻訳日:2022-06-22 14:01:49 公開日:2022-06-18
# ラベル付き実画像データセットを自動生成輪郭に置き換える

Replacing Labeled Real-image Datasets with Auto-generated Contours ( http://arxiv.org/abs/2206.09132v1 )

ライセンス: Link先を確認
Hirokatsu Kataoka, Ryo Hayamizu, Ryosuke Yamada, Kodai Nakashima, Sora Takashima, Xinyu Zhang, Edgar Josafat Martinez-Noriega, Nakamasa Inoue, Rio Yokota(参考訳) 本研究では,視覚変換器(ViT)の事前学習において,実像,人間,自己超越を使わずに,公式駆動型教師あり学習(FDSL)の性能がImageNet-21kのそれと一致または超えることを示す。 例えば、imagenet-21kで事前トレーニングされたvitベースは、imagenet-1kとfdslで微調整した場合、81.8%top-1精度を示し、同じ条件(画像数、ハイパーパラメータ、エポック数)で事前トレーニングした場合、82.7%top-1精度を示す。 公式によって生成された画像は、プライバシ/コピーライトの問題、コストとエラーのラベル付け、実際の画像が抱えるバイアスを回避します。 合成画像の性能を理解するために,二つの仮説,すなわち2つの仮説を検証した。 (i)オブジェクトの輪郭はFDSLデータセットで問題となる。 (II) FDSL事前学習の性能向上に影響を及ぼすラベル作成パラメータの増加。 従来の仮説をテストするために、単純なオブジェクトの輪郭の組み合わせからなるデータセットを構築した。 このデータセットはフラクタルの性能にマッチすることがわかった。 後者の仮説では, 事前学習作業の難易度を増大させることで, 微調整精度が向上することがわかった。

In the present work, we show that the performance of formula-driven supervised learning (FDSL) can match or even exceed that of ImageNet-21k without the use of real images, human-, and self-supervision during the pre-training of Vision Transformers (ViTs). For example, ViT-Base pre-trained on ImageNet-21k shows 81.8% top-1 accuracy when fine-tuned on ImageNet-1k and FDSL shows 82.7% top-1 accuracy when pre-trained under the same conditions (number of images, hyperparameters, and number of epochs). Images generated by formulas avoid the privacy/copyright issues, labeling cost and errors, and biases that real images suffer from, and thus have tremendous potential for pre-training general models. To understand the performance of the synthetic images, we tested two hypotheses, namely (i) object contours are what matter in FDSL datasets and (ii) increased number of parameters to create labels affects performance improvement in FDSL pre-training. To test the former hypothesis, we constructed a dataset that consisted of simple object contour combinations. We found that this dataset can match the performance of fractals. For the latter hypothesis, we found that increasing the difficulty of the pre-training task generally leads to better fine-tuning accuracy.
翻訳日:2022-06-22 13:31:39 公開日:2022-06-18
# DECK: 広汎なバックドアを守るためのモデルハードニング

DECK: Model Hardening for Defending Pervasive Backdoors ( http://arxiv.org/abs/2206.09272v1 )

ライセンス: Link先を確認
Guanhong Tao, Yingqi Liu, Siyuan Cheng, Shengwei An, Zhuo Zhang, Qiuling Xu, Guangyu Shen, Xiangyu Zhang(参考訳) 広汎なバックドアは動的および広汎な入力摂動によって引き起こされる。 故意に攻撃者から注射されるか、通常訓練されたモデルに自然に存在する。 それらは従来の静的および局所化されたバックドアとは異なる性質を持ち、小さな入力領域を固定されたパターンで摂動することでトリガーすることができる。 既存の防御技術は従来のバックドアに非常に効果的である。 しかし、広範に普及しているバックドア、特にバックドアの除去とモデル硬化についてはうまく機能しない。 本稿では,自然と注入の両方のバックドアを含む広汎なバックドアに対する新しいモデル硬化技術を提案する。 我々は,特殊な変換層で拡張されたエンコーダ・デコーダアーキテクチャに基づく汎用攻撃を開発する。 この攻撃は、既存の広範囲にわたるバックドア攻撃をモデル化し、クラス距離でそれらを定量化することができる。 このように、敵の訓練において我々の攻撃から得られたサンプルを使用することで、これらのバックドア脆弱性に対するモデルを強化することができる。 15のモデル構造を持つ9つのデータセットを評価したところ, クラス距離を平均59.65%拡大し, 1%未満の精度劣化とロバスト性損失を伴わず, 対人訓練, ユニバーサル対人訓練, MOTHなどの5つのハードニング技術より優れていた。 攻撃成功率を99.06%から1.94%に下げ、最先端の7つのバックドア除去技術を上回っている。

Pervasive backdoors are triggered by dynamic and pervasive input perturbations. They can be intentionally injected by attackers or naturally exist in normally trained models. They have a different nature from the traditional static and localized backdoors that can be triggered by perturbing a small input area with some fixed pattern, e.g., a patch with solid color. Existing defense techniques are highly effective for traditional backdoors. However, they may not work well for pervasive backdoors, especially regarding backdoor removal and model hardening. In this paper, we propose a novel model hardening technique against pervasive backdoors, including both natural and injected backdoors. We develop a general pervasive attack based on an encoder-decoder architecture enhanced with a special transformation layer. The attack can model a wide range of existing pervasive backdoor attacks and quantify them by class distances. As such, using the samples derived from our attack in adversarial training can harden a model against these backdoor vulnerabilities. Our evaluation on 9 datasets with 15 model structures shows that our technique can enlarge class distances by 59.65% on average with less than 1% accuracy degradation and no robustness loss, outperforming five hardening techniques such as adversarial training, universal adversarial training, MOTH, etc. It can reduce the attack success rate of six pervasive backdoor attacks from 99.06% to 1.94%, surpassing seven state-of-the-art backdoor removal techniques.
翻訳日:2022-06-22 13:31:17 公開日:2022-06-18