このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220709となっている論文です。

PDF登録状況(公開日: 20220709)

TitleAuthorsAbstract論文公表日・翻訳日
# 半構造化分布回帰-任意深部ニューラルネットワークとデータモーダリティによる構造化付加モデルの拡張

Semi-Structured Distributional Regression -- Extending Structured Additive Models by Arbitrary Deep Neural Networks and Data Modalities ( http://arxiv.org/abs/2002.05777v5 )

ライセンス: Link先を確認
David R\"ugamer, Chris Kolb, Nadja Klein(参考訳) 加法モデルとニューラルネットワークを組み合わせることで、統計的回帰の範囲を広げ、構造化された加法予測器を同時に解釈することでディープラーニングベースのアプローチを拡張することができる。 しかし、2つのモデリングアプローチを統合する既存の試みは、非常に特定の組み合わせに限定されており、さらに重要なことは、識別可能性の問題である。 その結果、解釈可能性と安定した推定は通常失われる。 本稿では、構造化回帰モデルとディープニューラルネットワークを統合ネットワークアーキテクチャに結合する一般的なフレームワークを提案する。 異なるモデル部品間の固有の識別可能性の問題を克服するため,我々は,深部ニューラルネットワークを統計モデル予測器の直交補体に投射する直交化セルを構築した。 これにより、構造化されたモデル部分の適切な推定と解釈が可能になる。 数値実験におけるフレームワークの有効性を実証し,ベンチマークや実世界のアプリケーションにおいて,その特長を説明する。

Combining additive models and neural networks allows to broaden the scope of statistical regression and extend deep learning-based approaches by interpretable structured additive predictors at the same time. Existing attempts uniting the two modeling approaches are, however, limited to very specific combinations and, more importantly, involve an identifiability issue. As a consequence, interpretability and stable estimation are typically lost. We propose a general framework to combine structured regression models and deep neural networks into a unifying network architecture. To overcome the inherent identifiability issues between different model parts, we construct an orthogonalization cell that projects the deep neural network into the orthogonal complement of the statistical model predictor. This enables proper estimation of structured model parts and thereby interpretability. We demonstrate the framework's efficacy in numerical experiments and illustrate its special merits in benchmarks and real-world applications.
翻訳日:2023-01-01 13:03:23 公開日:2022-07-09
# 汎用グラフ畳み込みネットワークのためのオーバースムーシング

Tackling Over-Smoothing for General Graph Convolutional Networks ( http://arxiv.org/abs/2008.09864v5 )

ライセンス: Link先を確認
Wenbing Huang, Yu Rong, Tingyang Xu, Fuchun Sun, Junzhou Huang(参考訳) 表現性の向上を期待するGCNの深さの増大は,特にノード分類において性能低下を引き起こすことを示す。 この主な原因は、過剰な喫煙にある。 過度に滑らかな問題により、GCNの出力はノード間の限られた区別情報を含む空間へと誘導され、表現性が低下する。 深層GCNのアーキテクチャを改良するいくつかの研究が提案されているが、これらの改良が過度に平滑化できるかどうかは不明である。 本稿ではまず,一般GCNがGCN,GCN,バイアス付きGCN,ResGCN,APPNPなどの深さ増加にどのように作用するかを理論的に分析する。 これらのモデルはすべて普遍的なプロセスによって特徴づけられる:すべてのノードがキューブイドに収束する。 この定理に基づいて,各トレーニング時代において一定数のエッジをランダムに削除することにより,過剰スムーシングを緩和するドロップエッジを提案する。 理論的には、ドロップエッジはオーバースムーシングの収束速度を減少させるか、次元崩壊による情報損失を緩和する。 シミュレーションデータセットの実験的評価は、異なるGCN間のオーバースムーシングの違いを可視化した。 さらに、いくつかの実際のベンチマークに関する広範な実験では、DropEdgeは浅いGCNと深いGCNの両方のパフォーマンスを一貫して改善している。

Increasing the depth of GCN, which is expected to permit more expressivity, is shown to incur performance detriment especially on node classification. The main cause of this lies in over-smoothing. The over-smoothing issue drives the output of GCN towards a space that contains limited distinguished information among nodes, leading to poor expressivity. Several works on refining the architecture of deep GCN have been proposed, but it is still unknown in theory whether or not these refinements are able to relieve over-smoothing. In this paper, we first theoretically analyze how general GCNs act with the increase in depth, including generic GCN, GCN with bias, ResGCN, and APPNP. We find that all these models are characterized by a universal process: all nodes converging to a cuboid. Upon this theorem, we propose DropEdge to alleviate over-smoothing by randomly removing a certain number of edges at each training epoch. Theoretically, DropEdge either reduces the convergence speed of over-smoothing or relieves the information loss caused by dimension collapse. Experimental evaluations on simulated dataset have visualized the difference in over-smoothing between different GCNs. Moreover, extensive experiments on several real benchmarks support that DropEdge consistently improves the performance on a variety of both shallow and deep GCNs.
翻訳日:2022-10-26 07:46:24 公開日:2022-07-09
# ベイズモデルによるアウト・オブ・タスクとアウト・オブ・ディストリビューション一般化によるアモーダルセグメンテーション

Amodal Segmentation through Out-of-Task and Out-of-Distribution Generalization with a Bayesian Model ( http://arxiv.org/abs/2010.13175v4 )

ライセンス: Link先を確認
Yihong Sun, Adam Kortylewski, Alan Yuille(参考訳) amodal completionは、人間が簡単に実行できるが、コンピュータビジョンアルゴリズムでは難しいビジュアルタスクである。 目的は、隠蔽されているため見えないオブジェクト境界を分割することである。 このタスクは、データが取得や注釈が難しいため、ディープニューラルネットワークでは特に難しい。 そこで我々は,タスク外および分散外一般化問題としてアモーダルセグメンテーションを定式化する。 具体的には、ニューラルネットワークにおける完全連結型分類器を、ニューラルネットワーク特徴のベイズ生成モデルに置き換える。 このモデルは、境界ボックスアノテーションとクラスラベルのみを用いて非閉塞画像から訓練されるが、オブジェクトセグメント化へのアウト・オブ・タスクの一般化と、セグメント閉塞オブジェクトへのアウト・オブ・ディストリビューションの一般化に応用される。 このようなベイズ的モデルは、対象の背景コンテキストと形状をモデル化する事前学習において、トレーニングタスクラベルを超えて自然に一般化できることを示す。 さらに、退化過程を活用することで、ベイズ模型は部分閉塞対象への分布外分布をさらに一般化し、アモーダル対象の境界を予測できる。 我々のアルゴリズムは、同じ監督方法を使用する方法よりも大きなマージンで優れており、また、オクルージョンの量が大きい場合、トレーニング中に注釈付アモーダルセグメンテーションを使用する方法よりも優れています。 コードはhttps://github.com/YihongSun/Bayesian-Amodal.comで公開されている。

Amodal completion is a visual task that humans perform easily but which is difficult for computer vision algorithms. The aim is to segment those object boundaries which are occluded and hence invisible. This task is particularly challenging for deep neural networks because data is difficult to obtain and annotate. Therefore, we formulate amodal segmentation as an out-of-task and out-of-distribution generalization problem. Specifically, we replace the fully connected classifier in neural networks with a Bayesian generative model of the neural network features. The model is trained from non-occluded images using bounding box annotations and class labels only, but is applied to generalize out-of-task to object segmentation and to generalize out-of-distribution to segment occluded objects. We demonstrate how such Bayesian models can naturally generalize beyond the training task labels when they learn a prior that models the object's background context and shape. Moreover, by leveraging an outlier process, Bayesian models can further generalize out-of-distribution to segment partially occluded objects and to predict their amodal object boundaries. Our algorithm outperforms alternative methods that use the same supervision by a large margin, and even outperforms methods where annotated amodal segmentations are used during training, when the amount of occlusion is large. Code is publicly available at https://github.com/YihongSun/Bayesian-Amodal.
翻訳日:2022-10-03 04:48:33 公開日:2022-07-09
# クロスレゾリューション人物再同定のための学習レゾリューション適応表現

Learning Resolution-Adaptive Representations for Cross-Resolution Person Re-Identification ( http://arxiv.org/abs/2207.13037v1 )

ライセンス: Link先を確認
Lin Wu, Lingqiao Liu, Yang Wang, Zheng Zhang, Farid Boussaid, Mohammed Bennamoun(参考訳) クロス解像度人物再識別(CRReID)問題は、低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとをマッチングすることを目的としている。 実世界のカメラの撮影条件が異なるため、クエリ画像は解像度劣化に苦しむことが多いため、挑戦的で実用的な問題である。 この問題に対処するため、soTA(State-of-the-art)ソリューションは、解像度不変表現を学習するか、超解像度(SR)モジュールを用いてLRクエリから不足した情報を復元する。 本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するSRフリーなパラダイムを提案する。 クロスレゾリューション比較のためのレゾリューション適応表現を学習することで,この概念を実現する。 具体的には,2つの分解能適応機構を提案する。 第1の方法は、ディープニューラルネットワークのペナルティメート層において、解像度特異的な情報を異なるサブベクトルに分解し、可変長表現を生成する。 解像度依存情報を抽出するため,我々はさらに,中間的特徴ブロックに対する解像度適応マスクを学習する。 それらのマスクを適切に訓練するための新しいプログレッシブラーニング戦略が提案されている。 これら2つのメカニズムを組み合わせてCRReIDの性能を高める。 実験の結果,提案手法は既存手法よりも優れており,複数のCRReIDベンチマーク上でSOTA性能を実現することがわかった。

The cross-resolution person re-identification (CRReID) problem aims to match low-resolution (LR) query identity images against high resolution (HR) gallery images. It is a challenging and practical problem since the query images often suffer from resolution degradation due to the different capturing conditions from real-world cameras. To address this problem, state-of-the-art (SOTA) solutions either learn the resolution-invariant representation or adopt super-resolution (SR) module to recover the missing information from the LR query. This paper explores an alternative SR-free paradigm to directly compare HR and LR images via a dynamic metric, which is adaptive to the resolution of a query image. We realize this idea by learning resolution-adaptive representations for cross-resolution comparison. Specifically, we propose two resolution-adaptive mechanisms. The first one disentangles the resolution-specific information into different sub-vectors in the penultimate layer of the deep neural networks, and thus creates a varying-length representation. To better extract resolution-dependent information, we further propose to learn resolution-adaptive masks for intermediate residual feature blocks. A novel progressive learning strategy is proposed to train those masks properly. These two mechanisms are combined to boost the performance of CRReID. Experimental results show that the proposed method is superior to existing approaches and achieves SOTA performance on multiple CRReID benchmarks.
翻訳日:2022-07-31 14:45:08 公開日:2022-07-09
# 推薦のための複数ロバスト学習

Multiple Robust Learning for Recommendation ( http://arxiv.org/abs/2207.10796v1 )

ライセンス: Link先を確認
Haoxuan Li, Quanyu Dai, Yuru Li, Yan Lyu, Zhenhua Dong, Peng Wu, Xiao-Hua Zhou(参考訳) レコメンデーションシステムでは、収集されたデータに様々なバイアスが存在することが一般的な問題であり、レコメンデーションモデルの一般化能力を低下させ、不正確な予測をもたらす。 二重頑健な(DR)学習は、RSの多くのタスクにおいて研究されており、単一の命令または単一の確率モデルが正確である場合に、偏りのない学習が達成できるという利点がある。 本稿では,不偏性を実現するために,複数の候補計算モデルと確率モデルの利点を生かしうるマルチロバスト(MR)推定器を提案する。 特に、MR推定器は、インプットモデルや確率モデルのいずれかが正確である場合、あるいはこれらのモデルの線形結合が正確である場合、偏りがない。 理論的解析により,提案するmrは1つのインプテーションモデルとプロペンシティモデルのみを持つ場合のdrの強化版であり,バイアスが小さいことが示された。 mrの一般化誤差境界に着想を得て,安定化を伴う新しい多重ロバスト学習手法を提案する。 実世界および半合成データセットに関する広範な実験を行い、提案手法が最先端手法よりも優れていることを示す。

In recommender systems, a common problem is the presence of various biases in the collected data, which deteriorates the generalization ability of the recommendation models and leads to inaccurate predictions. Doubly robust (DR) learning has been studied in many tasks in RS, with the advantage that unbiased learning can be achieved when either a single imputation or a single propensity model is accurate. In this paper, we propose a multiple robust (MR) estimator that can take the advantage of multiple candidate imputation and propensity models to achieve unbiasedness. Specifically, the MR estimator is unbiased when any of the imputation or propensity models, or a linear combination of these models is accurate. Theoretical analysis shows that the proposed MR is an enhanced version of DR when only having a single imputation and propensity model, and has a smaller bias. Inspired by the generalization error bound of MR, we further propose a novel multiple robust learning approach with stabilization. We conduct extensive experiments on real-world and semi-synthetic datasets, which demonstrates the superiority of the proposed approach over state-of-the-art methods.
翻訳日:2022-07-31 14:37:29 公開日:2022-07-09
# 疑似ペア型自己相似学習による教師なし人物再同定

Pseudo-Pair based Self-Similarity Learning for Unsupervised Person Re-identification ( http://arxiv.org/abs/2207.13035v1 )

ライセンス: Link先を確認
Lin Wu, Deyin Liu, Wenying Zhang, Dapeng Chen, Zongyuan Ge, Farid Boussaid, Mohammed Bennamoun, Jialie Shen(参考訳) 人物再識別(re-ID)は、一対のクロスカメラパーソンショーツの類似性を推定することにより、ビデオ監視システムにおいて非常に重要である。 このような類似性を推定する現在の手法は、教師あり訓練のために多数のラベル付きサンプルを必要とする。 本稿では,人間アノテーションを使わずに教師なしの自己相似学習を行うための擬似ペア型自己相似学習手法を提案する。 グローバルクラスタリングをベースとした疑似ラベルを用いた従来手法とは違って,パッチサロゲートクラスを初期監視として構築し,一対の勾配誘導類似性分離により画像に擬似ラベルを割り当てることを提案する。 これにより、イメージを擬似ペアにクラスタリングし、トレーニング中に擬似を更新することができる。 擬似対に基づいて,新しい自己相似学習による相似関数の一般化について提案する:相似性によって個々の画像から局所的弁別特徴を学習し,相似性を介して画像にまたがるパッチ対応を発見する。 類似度学習は、画像から多様な局所特徴を検出するためにチャンネルの注意に基づく。 類似性学習では、非局所ブロックによる変形可能な畳み込みを用いて、クロスイメージの類似性にパッチを合わせる。 いくつかのre-IDベンチマークデータセットの実験結果から,提案手法が最先端技術よりも優れていることが示された。

Person re-identification (re-ID) is of great importance to video surveillance systems by estimating the similarity between a pair of cross-camera person shorts. Current methods for estimating such similarity require a large number of labeled samples for supervised training. In this paper, we present a pseudo-pair based self-similarity learning approach for unsupervised person re-ID without human annotations. Unlike conventional unsupervised re-ID methods that use pseudo labels based on global clustering, we construct patch surrogate classes as initial supervision, and propose to assign pseudo labels to images through the pairwise gradient-guided similarity separation. This can cluster images in pseudo pairs, and the pseudos can be updated during training. Based on pseudo pairs, we propose to improve the generalization of similarity function via a novel self-similarity learning:it learns local discriminative features from individual images via intra-similarity, and discovers the patch correspondence across images via inter-similarity. The intra-similarity learning is based on channel attention to detect diverse local features from an image. The inter-similarity learning employs a deformable convolution with a non-local block to align patches for cross-image similarity. Experimental results on several re-ID benchmark datasets demonstrate the superiority of the proposed method over the state-of-the-arts.
翻訳日:2022-07-31 14:36:34 公開日:2022-07-09
# セキュアでプライベートな連邦学習のためのPoisson二項機構

The Poisson binomial mechanism for secure and private federated learning ( http://arxiv.org/abs/2207.09916v1 )

ライセンス: Link先を確認
Wei-Ning Chen, Ayfer \"Ozg\"ur, Peter Kairouz(参考訳) 本稿では,分散平均推定(dme)のための離散微分プライバシー機構であるpoisson binomial mechanism(pbm)と,連合学習と分析への応用について紹介する。 我々は、プライバシー保証の厳密な分析を行い、継続的なガウス機構と同じプライバシーと精度のトレードオフを達成することを示す。 我々の分析は、2つのポアソン二項分布の R'enyi の発散に基づくもので、これは独立な関心を持つ可能性がある。 付加雑音に基づく従来の離散DPスキームとは異なり、我々のメカニズムは局所情報を二項分布のパラメータにエンコードするので、出力分布は有界支持で離散的である。 さらに、プライバシ予算の$\varepsilon \rightarrow 0$のように、より高いプライバシを実現するためにより多くのノイズの追加を必要とする付加的なスキームの場合のように、サポートが増加することはない。 境界付きサポートにより,マルチパーティ暗号プロトコルであるセキュアアグリゲーション(secagg)と機構を組み合わせることで,局所ベクトルの和の偏りのない推定結果を生成するモジュール型クリッピングが不要になる。 これにより、これをプライベートFL設定に適用し、SGDアルゴリズムの収束率に上限を与えることができる。 さらに、出力分布のサポートが$\varepsilon \rightarrow 0$と小さくなるにつれて、プライバシ制約の$\varepsilon$によって通信コストが減少し、高プライバシや低通信方式の付加雑音に基づく従来の分散DPスキームよりも性能が向上する。

We introduce the Poisson Binomial mechanism (PBM), a discrete differential privacy mechanism for distributed mean estimation (DME) with applications to federated learning and analytics. We provide a tight analysis of its privacy guarantees, showing that it achieves the same privacy-accuracy trade-offs as the continuous Gaussian mechanism. Our analysis is based on a novel bound on the R\'enyi divergence of two Poisson binomial distributions that may be of independent interest. Unlike previous discrete DP schemes based on additive noise, our mechanism encodes local information into a parameter of the binomial distribution, and hence the output distribution is discrete with bounded support. Moreover, the support does not increase as the privacy budget $\varepsilon \rightarrow 0$ as in the case of additive schemes which require the addition of more noise to achieve higher privacy; on the contrary, the support becomes smaller as $\varepsilon \rightarrow 0$. The bounded support enables us to combine our mechanism with secure aggregation (SecAgg), a multi-party cryptographic protocol, without the need of performing modular clipping which results in an unbiased estimator of the sum of the local vectors. This in turn allows us to apply it in the private FL setting and provide an upper bound on the convergence rate of the SGD algorithm. Moreover, since the support of the output distribution becomes smaller as $\varepsilon \rightarrow 0$, the communication cost of our scheme decreases with the privacy constraint $\varepsilon$, outperforming all previous distributed DP schemes based on additive noise in the high privacy or low communication regimes.
翻訳日:2022-07-24 11:44:31 公開日:2022-07-09
# (参考訳) 非メラノーマ皮膚癌の高表現率機械学習モデルに向けて

Towards Highly Expressive Machine Learning Models of Non-Melanoma Skin Cancer ( http://arxiv.org/abs/2207.05749v1 )

ライセンス: CC BY-SA 4.0
Simon M. Thomas, James G. Lefevre, Glenn Baxter, Nicholas A.Hamilton(参考訳) 病理学者は細胞形態の全てのニュアンスを記述できる豊富な語彙を持っている。 彼らの世界では、自然な画像と言葉のペアがあります。 最近の進歩は、機械学習モデルが高品質な画像特徴を学習し、それらを情報の離散単位として表現するために訓練できることを示しています。 これにより、離散的な自然言語を画像と共に共同でモデル化することができ、その結果、画像の内容が記述される。 今回我々は,非メラノーマ皮膚癌の問題領域,特に表皮内癌(IEC)の組織像に離散的モデリング手法を適用する実験を行った。 iec画像の高分解能(256x256)画像を再構成するvq-ganモデルを実装し,病理学用語を用いた自然言語記述を生成するためにシーケンスツーシーケンストランスフォーマを訓練した。 連続生成法を用いて利用可能なインタラクティブな概念ベクトルのアイデアと組み合わせて、解釈可能性のさらなる角度を示す。 この結果は、予測/分類ツールとしてだけでなく、病気の科学的理解をさらに深めるための、高度に表現力のある機械学習システムに向けた有望な手段である。

Pathologists have a rich vocabulary with which they can describe all the nuances of cellular morphology. In their world, there is a natural pairing of images and words. Recent advances demonstrate that machine learning models can now be trained to learn high-quality image features and represent them as discrete units of information. This enables natural language, which is also discrete, to be jointly modelled alongside the imaging, resulting in a description of the contents of the imaging. Here we present experiments in applying discrete modelling techniques to the problem domain of non-melanoma skin cancer, specifically, histological images of Intraepidermal Carcinoma (IEC). Implementing a VQ-GAN model to reconstruct high-resolution (256x256) images of IEC images, we trained a sequence-to-sequence transformer to generate natural language descriptions using pathologist terminology. Combined with the idea of interactive concept vectors available by using continuous generative methods, we demonstrate an additional angle of interpretability. The result is a promising means of working towards highly expressive machine learning systems which are not only useful as predictive/classification tools, but also means to further our scientific understanding of disease.
翻訳日:2022-07-15 08:49:15 公開日:2022-07-09
# 交通流予測のための適応グラフ空間時間変換器ネットワーク

Adaptive Graph Spatial-Temporal Transformer Network for Traffic Flow Forecasting ( http://arxiv.org/abs/2207.05064v1 )

ライセンス: Link先を確認
Aosong Feng and Leandros Tassiulas(参考訳) グラフ上のトラフィックフロー予測は、交通システムやコンピュータネットワークなど、多くの分野で実世界の応用がある。 複雑な時空間相関と非線形トラフィックパターンのため、交通予測は非常に困難である。 既存の研究はほとんどの場合、空間的相関と時間的相関を別々に考慮し、直接的空間的相関をモデル化できないような空間的依存をモデル化している。 本稿では,近年のグラフ領域におけるトランスフォーマーの成功に触発されて,局所的マルチヘッド自己アテンションを用いた空間時間グラフ上の空間的時間的相関を直接モデル化する。 時間的複雑さを低減するため,空間的隣接ノードに注意受容場を設定し,空間的時間的依存関係を隠蔽する適応グラフも導入した。 これらの注意機構に基づき,複数の空間的-時空間的注意層を積み重ねて入力グラフにセルフアテンションを施し,予測のための線形層を配置する適応グラフ空間-時空間トランスフォーマネットワーク (asttn) を提案する。 公共交通ネットワークデータセットであるMETR-LA PEMS-BAY, PeMSD4, PeMSD7の実験結果から, モデルの性能が向上したことを示す。

Traffic flow forecasting on graphs has real-world applications in many fields, such as transportation system and computer networks. Traffic forecasting can be highly challenging due to complex spatial-temporal correlations and non-linear traffic patterns. Existing works mostly model such spatial-temporal dependencies by considering spatial correlations and temporal correlations separately and fail to model the direct spatial-temporal correlations. Inspired by the recent success of transformers in the graph domain, in this paper, we propose to directly model the cross-spatial-temporal correlations on the spatial-temporal graph using local multi-head self-attentions. To reduce the time complexity, we set the attention receptive field to the spatially neighboring nodes, and we also introduce an adaptive graph to capture the hidden spatial-temporal dependencies. Based on these attention mechanisms, we propose a novel Adaptive Graph Spatial-Temporal Transformer Network (ASTTN), which stacks multiple spatial-temporal attention layers to apply self-attention on the input graph, followed by linear layers for predictions. Experimental results on public traffic network datasets, METR-LA PEMS-BAY, PeMSD4, and PeMSD7, demonstrate the superior performance of our model.
翻訳日:2022-07-13 13:28:13 公開日:2022-07-09
# (参考訳) コンピューティング研究へのコミュニティコラボレーションアプローチの体系的レビューとテーマ分析

A Systematic Review and Thematic Analysis of Community-Collaborative Approaches to Computing Research ( http://arxiv.org/abs/2207.04171v1 )

ライセンス: CC BY 4.0
Ned Cooper, Tiffanie Horne, Gillian Hayes, Courtney Heldreth, Michal Lahav, Jess Scon Holbrook, Lauren Wilcox(参考訳) hciの研究者は、研究、設計、システム開発に従事する際に、個々のユーザからコミュニティへと徐々に注意を移している。 しかし,我々の研究分野は,コミュニティ・コラボレーティブな研究アプローチの課題,利益,コミットメントの体系的理解をまだ確立していない。 我々は,過去20年間に発行された47のコンピュータ研究論文の体系的レビューとテーマ分析を行い,技術アーティファクト・システム開発コミュニティとの参加型研究について議論した。 本総説では,プロジェクトの発展に関連する7つのテーマ,すなわちコミュニティパートナーシップの確立から成果の持続までのテーマを特定した。 これらのプロジェクトの特徴として, 研究者の力や位置, コンピューティング研究環境など, コミュニティパートナーに対して緊張感が強いことが示唆された。 我々は,本研究の意義を考察し,HCI,コンピューティング研究をより広く,コミュニティの中心となる実践に向け,方法論的提案を行う。

HCI researchers have been gradually shifting attention from individual users to communities when engaging in research, design, and system development. However, our field has yet to establish a cohesive, systematic understanding of the challenges, benefits, and commitments of community-collaborative approaches to research. We conducted a systematic review and thematic analysis of 47 computing research papers discussing participatory research with communities for the development of technological artifacts and systems, published over the last two decades. From this review, we identified seven themes associated with the evolution of a project: from establishing community partnerships to sustaining results. Our findings suggest that several tensions characterize these projects, many of which relate to the power and position of researchers, and the computing research environment, relative to community partners. We discuss the implications of our findings and offer methodological proposals to guide HCI, and computing research more broadly, towards practices that center communities.
翻訳日:2022-07-13 12:54:54 公開日:2022-07-09
# (参考訳) 決定依存分布による確率近似:漸近正規性と最適性

Stochastic approximation with decision-dependent distributions: asymptotic normality and optimality ( http://arxiv.org/abs/2207.04173v1 )

ライセンス: CC BY 4.0
Joshua Cutler, Mateo D\'iaz, Dmitriy Drusvyatskiy(参考訳) 決定依存問題に対する確率近似アルゴリズムを解析し,アルゴリズムが使用するデータ分布は反復列に沿って進化する。 このような問題の主な例は、性能予測とそのマルチプレイヤー拡張である。 軽度の仮定では,アルゴリズムの平均反復率と解の偏差は漸近的に正常であり,勾配雑音と分布シフトの影響をうまく分解する共分散が示される。 さらに,h\'ajek と le cam の研究に基づいて,アルゴリズムの漸近的性能は局所的最小最適であることを示した。

We analyze a stochastic approximation algorithm for decision-dependent problems, wherein the data distribution used by the algorithm evolves along the iterate sequence. The primary examples of such problems appear in performative prediction and its multiplayer extensions. We show that under mild assumptions, the deviation between the average iterate of the algorithm and the solution is asymptotically normal, with a covariance that nicely decouples the effects of the gradient noise and the distributional shift. Moreover, building on the work of H\'ajek and Le Cam, we show that the asymptotic performance of the algorithm is locally minimax optimal.
翻訳日:2022-07-13 12:20:11 公開日:2022-07-09
# (参考訳) トランスフォーマリンプロセス:シーケンスモデリングによる不確実性を考慮したメタ学習

Transformer Neural Processes: Uncertainty-Aware Meta Learning Via Sequence Modeling ( http://arxiv.org/abs/2207.04179v1 )

ライセンス: CC BY 4.0
Tung Nguyen and Aditya Grover(参考訳) ニューラルプロセス(NP)はメタラーニングにおける一般的なアプローチのクラスである。 ガウス過程(GP)と同様に、NPは関数上の分布を定義し、予測の不確かさを推定することができる。 しかし、GPと異なり、NPとその変種は不適合であり、しばしば難解な可能性があり、連続的な意思決定における応用を制限する。 本稿では,不確実性を考慮したメタ学習をシーケンスモデリング問題として用いたNPファミリーの新たなメンバーであるTransformer Neural Processs (TNPs)を提案する。 我々は自己回帰的可能性に基づく目的を通してTNPを学習し、それを新しいトランスフォーマーベースのアーキテクチャでインスタンス化する。 モデルアーキテクチャは、観測されたデータ点への不変や観測されていない点への等価といった問題構造に固有の帰納バイアスを尊重する。 さらに、余分な計算で復号分布の表現性をトレードオフするTNPフレームワーク内のノブについても検討する。 実験により, TNPは, メタ回帰, 画像補完, コンテキスト多重武装の帯域幅, ベイズ最適化において, 過去のNP変種よりも優れていることを示す。

Neural Processes (NPs) are a popular class of approaches for meta-learning. Similar to Gaussian Processes (GPs), NPs define distributions over functions and can estimate uncertainty in their predictions. However, unlike GPs, NPs and their variants suffer from underfitting and often have intractable likelihoods, which limit their applications in sequential decision making. We propose Transformer Neural Processes (TNPs), a new member of the NP family that casts uncertainty-aware meta learning as a sequence modeling problem. We learn TNPs via an autoregressive likelihood-based objective and instantiate it with a novel transformer-based architecture. The model architecture respects the inductive biases inherent to the problem structure, such as invariance to the observed data points and equivariance to the unobserved points. We further investigate knobs within the TNP framework that tradeoff expressivity of the decoding distribution with extra computation. Empirically, we show that TNPs achieve state-of-the-art performance on various benchmark problems, outperforming all previous NP variants on meta regression, image completion, contextual multi-armed bandits, and Bayesian optimization.
翻訳日:2022-07-13 12:18:33 公開日:2022-07-09
# (参考訳) ドメインアライメントがテスト時間適応を完全に満たす

Domain Alignment Meets Fully Test-Time Adaptation ( http://arxiv.org/abs/2207.04185v1 )

ライセンス: CC BY-SA 4.0
Kowshik Thopalli, Pavan Turaga and Jayaraman J. Thiagarajan(参考訳) デプロイされたMLモデルの基本的な要件は、トレーニングとは異なるテストディストリビューションから引き出されたデータに一般化することである。 この問題の一般的な解決策は、未ラベルのデータのみを使用して、事前訓練されたモデルを新しいドメインに適応させることである。 本稿では,元のソースデータへのアクセスを制限した,この問題の難易度に焦点をあてる。 完全テスト時間適応(FTTA)と教師なしドメイン適応(UDA)は密接に関連しているが、ほとんどのUDAメソッドはソースデータにアクセスする必要があるため、UDAの進歩はTTAに容易に適用できない。 そこで我々は,新しい深部空間アライメント戦略により,ソースデータ全体にアクセスする必要性を緩和し,UDAとFTTAを橋渡しする新しいアプローチCATTAnを提案する。 ソースデータのサブスペース基底を格納するオーバーヘッドが最小限であるため、CATTAnは適応中にソースデータとターゲットデータの教師なしアライメントを可能にする。 複数の2Dおよび3Dビジョンベンチマーク(ImageNet-C, Office-31, OfficeHome, DomainNet, PointDA-10)とモデルアーキテクチャの広範な実験により、FTTAの性能は大幅に向上した。 さらに,本質的にロバストなモデル,事前学習されたvit表現,および対象領域でのサンプル使用率の低いモデルにおいても,アライメント目標の有用性に関する重要な知見を多数提示する。

A foundational requirement of a deployed ML model is to generalize to data drawn from a testing distribution that is different from training. A popular solution to this problem is to adapt a pre-trained model to novel domains using only unlabeled data. In this paper, we focus on a challenging variant of this problem, where access to the original source data is restricted. While fully test-time adaptation (FTTA) and unsupervised domain adaptation (UDA) are closely related, the advances in UDA are not readily applicable to TTA, since most UDA methods require access to the source data. Hence, we propose a new approach, CATTAn, that bridges UDA and FTTA, by relaxing the need to access entire source data, through a novel deep subspace alignment strategy. With a minimal overhead of storing the subspace basis set for the source data, CATTAn enables unsupervised alignment between source and target data during adaptation. Through extensive experimental evaluation on multiple 2D and 3D vision benchmarks (ImageNet-C, Office-31, OfficeHome, DomainNet, PointDA-10) and model architectures, we demonstrate significant gains in FTTA performance. Furthermore, we make a number of crucial findings on the utility of the alignment objective even with inherently robust models, pre-trained ViT representations and under low sample availability in the target domain.
翻訳日:2022-07-13 11:52:27 公開日:2022-07-09
# (参考訳) 強度領域多重露光画像融合の変分的アプローチ

Variational Approach for Intensity Domain Multi-exposure Image Fusion ( http://arxiv.org/abs/2207.04204v1 )

ライセンス: CC BY 4.0
Harbinder Singh, Dinesh Arora, Vinay Kumar(参考訳) 最近の技術革新により、ldr(single low dynamic range)センサーが捉えたディテールのブレンドは、高ダイナミックレンジシーンからディテールを捉えるための標準デジタルカメラの限界を克服している。 本稿では,従来の表示装置に直接表示可能な融合画像を生成する方法を提案する。 その目標は、照度が悪く、明るく照らされた地域で詳細を保存することである。 提案するアプローチは、真の放射率再構成とトーン操作ステップを必要としない。 上記の目的は、入力露光中において、適切に露光された領域を選択するローカル情報尺度を考慮して達成される。 さらに、コントラスト限定適応ヒストグラム等化(CLAHE)を導入し、融合前の入力マルチ露光画像の均一性を改善する。

Recent innovations shows that blending of details captured by single Low Dynamic Range (LDR) sensor overcomes the limitations of standard digital cameras to capture details from high dynamic range scene. We present a method to produce well-exposed fused image that can be displayed directly on conventional display devices. The ambition is to preserve details in poorly illuminated and brightly illuminated regions. Proposed approach does not require true radiance reconstruction and tone manipulation steps. The aforesaid objective is achieved by taking into account local information measure that select well-exposed regions across input exposures. In addition, Contrast Limited Adaptive Histogram equalization (CLAHE) is introduced to improve uniformity of input multi-exposure image prior to fusion.
翻訳日:2022-07-13 11:36:00 公開日:2022-07-09
# (参考訳) CNNとVGG16を用いた胸部CT画像上のCOVID-19疾患の同定

COVID-19 Disease Identification on Chest-CT images using CNN and VGG16 ( http://arxiv.org/abs/2207.04212v1 )

ライセンス: CC BY-SA 4.0
Briskline Kiruba S, Petchiammal A, D. Murugan(参考訳) 新型コロナウイルス(COVID-19)は、主にヒトの呼吸器系に影響を及ぼす。 新型コロナウイルス(COVID-19)は、2019年12月に中国武漢で発生した感染症である。 早期診断は医療提供者にとって大きな課題である。 初期の医療機関は、新型コロナウイルス(COVID-19)を検出する適切な医療援助や薬が無かったため、混乱していた。 新しい診断ツールRT-PCR(Reverse Transcription Polymerase Chain Reaction)が導入された。 患者の鼻や喉からスワブの標本を採取し、そこでcovid-19ウイルスが集結する。 この手法は精度と試験時間にいくつかの制限がある。 医療専門家は、感染した肺領域を迅速に診断し、早期に新型コロナウイルスを識別できるCT(Computed Tomography)という別のアプローチを提案する。 胸部CT画像を用いて、コンピューター研究者たちは新型コロナウイルスの病気を識別するいくつかのディープラーニングモデルを開発した。 本研究では,胸部CT画像上でのCOVID-19自動同定のための畳み込みニューラルネットワーク(CNN)とVGG16に基づくモデルを提案する。 14320ct画像の公開データセットを用いた実験では,cnnとvgg16の分類精度は96.34%,96.99%であった。

A newly identified coronavirus disease called COVID-19 mainly affects the human respiratory system. COVID-19 is an infectious disease caused by a virus originating in Wuhan, China, in December 2019. Early diagnosis is the primary challenge of health care providers. In the earlier stage, medical organizations were dazzled because there were no proper health aids or medicine to detect a COVID-19. A new diagnostic tool RT-PCR (Reverse Transcription Polymerase Chain Reaction), was introduced. It collects swab specimens from the patient's nose or throat, where the COVID-19 virus gathers. This method has some limitations related to accuracy and testing time. Medical experts suggest an alternative approach called CT (Computed Tomography) that can quickly diagnose the infected lung areas and identify the COVID-19 in an earlier stage. Using chest CT images, computer researchers developed several deep learning models identifying the COVID-19 disease. This study presents a Convolutional Neural Network (CNN) and VGG16-based model for automated COVID-19 identification on chest CT images. The experimental results using a public dataset of 14320 CT images showed a classification accuracy of 96.34% and 96.99% for CNN and VGG16, respectively.
翻訳日:2022-07-13 11:26:14 公開日:2022-07-09
# (参考訳) 教師付き特徴ランキングアルゴリズムのための新しい評価手法

A novel evaluation methodology for supervised Feature Ranking algorithms ( http://arxiv.org/abs/2207.04258v1 )

ライセンス: CC BY 4.0
Jeroen G. S. Overschie(参考訳) 機能選択と解釈可能なAIの領域には、その重要性に基づいて機能の“ランク”を希望するものがある。 このような重要度ランキングは、(1)データセットのサイズを縮小するか、(2)機械学習モデルを解釈するかのいずれかに使用できる。 しかし文献では,このような特徴のランク付けは体系的かつ一貫した方法では評価されない。 多くの論文では、どの重要ランク付けが最善かという議論の方法が異なる。 本稿では,新しい評価手法を提案することにより,このギャップを埋める。 合成データセットを使用することで、特徴重要度スコアを事前に知ることができ、より体系的な評価が可能になる。 新しい方法論を使った大規模な実験を容易にするため、ベンチマークフレームワークはfsevalと呼ばれるpythonで構築された。 このフレームワークは、hpcシステム上で並列および分散マシン上で実験を実行することができる。 Weights and Biasesと呼ばれるオンラインプラットフォームとの統合により、チャートはライブダッシュボード上でインタラクティブに探索できる。 このソフトウェアはオープンソースソフトウェアとしてリリースされ、PyPiプラットフォーム上のパッケージとして公開されている。 この研究は、多くの面で、参加するアルゴリズムの強みと弱みを見つけるために、このような大規模な実験を1つ探すことで締めくくっている。

Both in the domains of Feature Selection and Interpretable AI, there exists a desire to `rank' features based on their importance. Such feature importance rankings can then be used to either: (1) reduce the dataset size or (2) interpret the Machine Learning model. In the literature, however, such Feature Rankers are not evaluated in a systematic, consistent way. Many papers have a different way of arguing which feature importance ranker works best. This paper fills this gap, by proposing a new evaluation methodology. By making use of synthetic datasets, feature importance scores can be known beforehand, allowing more systematic evaluation. To facilitate large-scale experimentation using the new methodology, a benchmarking framework was built in Python, called fseval. The framework allows running experiments in parallel and distributed over machines on HPC systems. By integrating with an online platform called Weights and Biases, charts can be interactively explored on a live dashboard. The software was released as open-source software, and is published as a package on the PyPi platform. The research concludes by exploring one such large-scale experiment, to find the strengths and weaknesses of the participating algorithms, on many fronts.
翻訳日:2022-07-13 11:20:18 公開日:2022-07-09
# (参考訳) 時系列領域におけるロバスト深部モデルの訓練:新しいアルゴリズムと理論的解析

Training Robust Deep Models for Time-Series Domain: Novel Algorithms and Theoretical Analysis ( http://arxiv.org/abs/2207.04305v1 )

ライセンス: CC BY 4.0
Taha Belkhouja, Yan Yan, Janardhan Rao Doppa(参考訳) モバイル健康のような時系列データよりも現実世界のアプリケーションにディープニューラルネットワーク(DNN)が成功したにもかかわらず、画像やテキストデータに特有の特徴があるため、時系列ドメインのために堅牢なDNNをトレーニングする方法については、ほとんど分かっていない。 本稿では,時系列分類タスクのためのロバストdnnを作成するためのロバストトレーニング(ro-ts)と呼ばれる新しいアルゴリズムフレームワークを提案する。 具体的には、大域的アライメントカーネル(GAK)ベース距離で測定された時系列入力に対する加法摂動の観点から、ロバスト性基準を明示的に推論することにより、モデルパラメータに対するmin-max最適化問題を定式化する。 また,GAKと動的時間ワープ(DTW)を関連づけることで,時系列アライメントの総和構造を用いた定式化の一般化と利点を示す。 この問題は、構成的min-max最適化問題の例であり、理論的な保証が不明な、挑戦的でオープンである。 本稿では,この最適化問題のファミリに対する確率的交互勾配勾配勾配勾配法(SCAGDA)アルゴリズムを提案する。 距離測度の近似計算を必要とする従来の時系列法とは異なり、SCAGDAは移動平均アプローチを用いてGAKに基づく飛行距離を近似する。 我々は,SCAGDAの収束速度を理論的に解析し,GAKに基づく距離推定のための強力な理論的支援を提供する。 実世界のベンチマーク実験により,ro-tsはデータ拡張や損失関数の新しい定義に依存する先行手法を用いた敵訓練と比較して,より頑健なdnnを生成することが示された。 また, ユークリッド距離における時系列データに対するgakの重要性を示す。 RO-TSアルゴリズムのソースコードはhttps://github.com/tahabelkhouja/Robust-Training-for-Time-Seriesで公開されている。

Despite the success of deep neural networks (DNNs) for real-world applications over time-series data such as mobile health, little is known about how to train robust DNNs for time-series domain due to its unique characteristics compared to images and text data. In this paper, we propose a novel algorithmic framework referred as RObust Training for Time-Series (RO-TS) to create robust DNNs for time-series classification tasks. Specifically, we formulate a min-max optimization problem over the model parameters by explicitly reasoning about the robustness criteria in terms of additive perturbations to time-series inputs measured by the global alignment kernel (GAK) based distance. We also show the generality and advantages of our formulation using the summation structure over time-series alignments by relating both GAK and dynamic time warping (DTW). This problem is an instance of a family of compositional min-max optimization problems, which are challenging and open with unclear theoretical guarantee. We propose a principled stochastic compositional alternating gradient descent ascent (SCAGDA) algorithm for this family of optimization problems. Unlike traditional methods for time-series that require approximate computation of distance measures, SCAGDA approximates the GAK based distance on-the-fly using a moving average approach. We theoretically analyze the convergence rate of SCAGDA and provide strong theoretical support for the estimation of GAK based distance. Our experiments on real-world benchmarks demonstrate that RO-TS creates more robust DNNs when compared to adversarial training using prior methods that rely on data augmentation or new definitions of loss functions. We also demonstrate the importance of GAK for time-series data over the Euclidean distance. The source code of RO-TS algorithms is available at https://github.com/tahabelkhouja/Robust-Training-for-Time-Series
翻訳日:2022-07-13 11:03:04 公開日:2022-07-09
# (参考訳) 時系列領域における分布外検出--新しい季節比スコア法

Out-of-Distribution Detection in Time-Series Domain: A Novel Seasonal Ratio Scoring Approach ( http://arxiv.org/abs/2207.04306v1 )

ライセンス: CC BY 4.0
Taha Belkhouja, Yan Yan, Janardhan Rao Doppa(参考訳) リアルタイムアプリケーションのための時系列分類器の安全なデプロイは、トレーニングデータと同じディストリビューションから生成されたデータを検出する能力に依存している。 このタスクはout-of-distribution (ood) detectionと呼ばれる。 時系列領域におけるood検出の新たな問題を考える。 時系列データによって生じるユニークな課題を議論し、画像領域のメソッドがなぜパフォーマンスが悪いのかを説明します。 これらの課題に触発された本研究では,新しい季節比スコアリング(SRS)手法を提案する。 srsは3つの主要なアルゴリズムからなる。 まず、各入力はクラスワイドのセマンティックコンポーネントと残りに分割される。 第二に、この分解は深い生成モデルを用いて入力と残りのクラスごとの条件付き確率を推定するために用いられる。 これらの推定値から季節比が計算される。 第3に、分布内データからしきい値間隔を特定してOOD例を検出する。 各種実世界のベンチマーク実験により,SRS法は基準法と比較して時系列OOD検出に適していることが示された。 SRSメソッドのオープンソースコードはhttps://github.com/tahabelkhouja/SRSで提供されている。

Safe deployment of time-series classifiers for real-world applications relies on the ability to detect the data which is not generated from the same distribution as training data. This task is referred to as out-of-distribution (OOD) detection. We consider the novel problem of OOD detection for the time-series domain. We discuss the unique challenges posed by time-series data and explain why prior methods from the image domain will perform poorly. Motivated by these challenges, this paper proposes a novel {\em Seasonal Ratio Scoring (SRS)} approach. SRS consists of three key algorithmic steps. First, each input is decomposed into class-wise semantic component and remainder. Second, this decomposition is employed to estimate the class-wise conditional likelihoods of the input and remainder using deep generative models. The seasonal ratio score is computed from these estimates. Third, a threshold interval is identified from the in-distribution data to detect OOD examples. Experiments on diverse real-world benchmarks demonstrate that the SRS method is well-suited for time-series OOD detection when compared to baseline methods. Open-source code for SRS method is provided at https://github.com/tahabelkhouja/SRS
翻訳日:2022-07-13 10:39:23 公開日:2022-07-09
# (参考訳) 統計的特徴を用いた時間系列領域のロバスト性証明付き逆数フレームワーク

Adversarial Framework with Certified Robustness for Time-Series Domain via Statistical Features ( http://arxiv.org/abs/2207.04307v1 )

ライセンス: CC BY 4.0
Taha Belkhouja, Janardhan Rao Doppa(参考訳) 時系列データは、多くの現実世界のアプリケーション(例えばモバイルヘルス)やディープニューラルネットワーク(DNN)で発生し、その解決に大きな成功を収めている。 その成功にもかかわらず、敵の攻撃に対する強固さについてはほとんど知られていない。 本稿では,統計的特徴量(tsa-stat)を用いた時系列攻撃と呼ばれる新しい敵対的枠組みを提案する。 TSA-STATは、時系列データの統計的特徴に制約を課し、敵対的な例を構築する。 最適化多項式変換は、加法摂動に基づく攻撃よりも効果的(DNNを騙すことに成功)な攻撃を生成するために用いられる。 また,実例構築のための統計的特徴のノルムに関する認定限界も提示する。 実世界の様々なベンチマークデータセットに対する実験は、時系列領域のDNNを騙し、その堅牢性を改善する上で、TSA-STATの有効性を示す。 TSA-STATアルゴリズムのソースコードはhttps://github.com/tahabelkhouja/Time-Series-Attacks-via-STATistical-Featuresで公開されている。

Time-series data arises in many real-world applications (e.g., mobile health) and deep neural networks (DNNs) have shown great success in solving them. Despite their success, little is known about their robustness to adversarial attacks. In this paper, we propose a novel adversarial framework referred to as Time-Series Attacks via STATistical Features (TSA-STAT)}. To address the unique challenges of time-series domain, TSA-STAT employs constraints on statistical features of the time-series data to construct adversarial examples. Optimized polynomial transformations are used to create attacks that are more effective (in terms of successfully fooling DNNs) than those based on additive perturbations. We also provide certified bounds on the norm of the statistical features for constructing adversarial examples. Our experiments on diverse real-world benchmark datasets show the effectiveness of TSA-STAT in fooling DNNs for time-series domain and in improving their robustness. The source code of TSA-STAT algorithms is available at https://github.com/tahabelkhouja/Time-Series-Attacks-via-STATistical-Features
翻訳日:2022-07-13 10:15:56 公開日:2022-07-09
# (参考訳) 動的時間ワープに基づく時系列領域の逆フレームワーク

Dynamic Time Warping based Adversarial Framework for Time-Series Domain ( http://arxiv.org/abs/2207.04308v1 )

ライセンス: CC BY 4.0
Taha Belkhouja, Yan Yan, Janardhan Rao Doppa(参考訳) ディープニューラルネットワーク(DNN)の対角的堅牢性の研究が急速に進んでいるにもかかわらず、時系列領域には原則的な仕事はほとんどない。 時系列データは、モバイルヘルス、金融、スマートグリッドなどの多様なアプリケーションで発生するため、時系列領域におけるDNNの堅牢性を検証することが重要である。 本稿では, 動的時間ゆがみ尺度を用いて, {\em dynamic time warping for adversarial robustness (dtw-ar)} と呼ばれる時系列領域の新しい枠組みを提案する。 画像領域の先行手法で用いられる標準ユークリッド距離測定値に対するDTWの有効性を示す理論的および実証的な証拠が提供される。 理論解析によって正当化される原理付きアルゴリズムを開発し,ランダムアライメントパスを用いた多様な逆例を効率的に作成する。 多様な実世界のベンチマーク実験では、DTW-ARが時系列データに対してDNNを騙し、敵の訓練によってその堅牢性を向上させることが示されている。 DTW-ARアルゴリズムのソースコードはhttps://github.com/tahabelkhouja/DTW-ARで公開されている。

Despite the rapid progress on research in adversarial robustness of deep neural networks (DNNs), there is little principled work for the time-series domain. Since time-series data arises in diverse applications including mobile health, finance, and smart grid, it is important to verify and improve the robustness of DNNs for the time-series domain. In this paper, we propose a novel framework for the time-series domain referred as {\em Dynamic Time Warping for Adversarial Robustness (DTW-AR)} using the dynamic time warping measure. Theoretical and empirical evidence is provided to demonstrate the effectiveness of DTW over the standard Euclidean distance metric employed in prior methods for the image domain. We develop a principled algorithm justified by theoretical analysis to efficiently create diverse adversarial examples using random alignment paths. Experiments on diverse real-world benchmarks show the effectiveness of DTW-AR to fool DNNs for time-series data and to improve their robustness using adversarial training. The source code of DTW-AR algorithms is available at https://github.com/tahabelkhouja/DTW-AR
翻訳日:2022-07-13 09:41:50 公開日:2022-07-09
# (参考訳) パッチングによる拡散モデル効率の改善

Improving Diffusion Model Efficiency Through Patching ( http://arxiv.org/abs/2207.04316v1 )

ライセンス: CC BY 4.0
Troy Luhman, Eric Luhman(参考訳) 拡散モデルは、データを生成するために反復的にサンプルを発音する強力な生成モデルのクラスである。 多くの作品がこのサンプリング手順のイテレーション数に焦点を当てているが、各イテレーションのコストに焦点を当てた作品はほとんどない。 単純なViTスタイルのパッチ変換を追加することで,拡散モデルのサンプリング時間とメモリ使用量を大幅に削減できることがわかった。 我々は,拡散モデル対象の分析と,LSUN教会, ImageNet 256, FFHQ 1024の実証実験を通じてアプローチを正当化する。 tensorflowとpytorchの実装を提供しています。

Diffusion models are a powerful class of generative models that iteratively denoise samples to produce data. While many works have focused on the number of iterations in this sampling procedure, few have focused on the cost of each iteration. We find that adding a simple ViT-style patching transformation can considerably reduce a diffusion model's sampling time and memory usage. We justify our approach both through an analysis of the diffusion model objective, and through empirical experiments on LSUN Church, ImageNet 256, and FFHQ 1024. We provide implementations in Tensorflow and Pytorch.
翻訳日:2022-07-13 09:09:31 公開日:2022-07-09
# (参考訳) 証明可能な保証を持つ多モデルフェデレーション学習

Multi-Model Federated Learning with Provable Guarantees ( http://arxiv.org/abs/2207.04330v1 )

ライセンス: CC BY 4.0
Neelkamal Bhuyan, Sharayu Moharir, Gauri Joshi(参考訳) Federated Learning(FL)は、エッジデバイスが中央サーバや互いにデータを共有せずにモデルを学習する分散学習の亜種である。 クライアントの共通プールをマルチモデルFLとするフェデレーション設定において,複数の独立モデルを同時に訓練するプロセスについて述べる。 本研究では,多モデルflのための一般的なfedavgアルゴリズムの2つの変種を提案する。 さらに,同じ計算量において,マルチモデルflは,各モデルを個別にトレーニングするよりも優れた性能が得られることを示す。 我々は, 強凸, 凸, 非凸の設定実験により, 理論結果を補足する。

Federated Learning (FL) is a variant of distributed learning where edge devices collaborate to learn a model without sharing their data with the central server or each other. We refer to the process of training multiple independent models simultaneously in a federated setting using a common pool of clients as multi-model FL. In this work, we propose two variants of the popular FedAvg algorithm for multi-model FL, with provable convergence guarantees. We further show that for the same amount of computation, multi-model FL can have better performance than training each model separately. We supplement our theoretical results with experiments in strongly convex, convex, and non-convex settings.
翻訳日:2022-07-13 08:55:43 公開日:2022-07-09
# (参考訳) タンパク質脂質指紋の連続表現における新たなパターン

Emerging Patterns in the Continuum Representation of Protein-Lipid Fingerprints ( http://arxiv.org/abs/2207.04333v1 )

ライセンス: CC BY 4.0
Konstantia Georgouli, Helgi I Ing\'olfsson, Fikret Aydin, Mark Heimann, Felice C Lightstone, Peer-Timo Bremer, Harsh Bhatia(参考訳) 複雑な生物学的現象を捉えるには、しばしば、高価な高忠実度モデルの限られたコンポーネントを用いて粗大で安価なモデルを開発できるようなマルチスケールのモデリングが必要となる。 本稿では,がん生物学の文脈におけるこのようなマルチスケールの枠組みを考察し,分子動力学モデルから1次元統計学を用いて開発した連続体モデルの記述能力を評価するという課題に対処する。 深層学習を用いて,連続体モデルから複雑で創発的な振る舞いを識別する高度な予測的分類モデルを開発する。 2つのシミュレーションで99.9%以上の精度が示され、タンパク質特異的な「脂質指紋」、すなわち興味のあるタンパク質に対する脂質の空間的再構成の存在を確認した。 この実演を通じて,本モデルは連続体モデルの外部的検証を提供し,マルチスケールモデリングの価値を肯定し,これらの指紋のさらなる分析を通じて新たな洞察を育むことができる。

Capturing intricate biological phenomena often requires multiscale modeling where coarse and inexpensive models are developed using limited components of expensive and high-fidelity models. Here, we consider such a multiscale framework in the context of cancer biology and address the challenge of evaluating the descriptive capabilities of a continuum model developed using 1-dimensional statistics from a molecular dynamics model. Using deep learning, we develop a highly predictive classification model that identifies complex and emergent behavior from the continuum model. With over 99.9% accuracy demonstrated for two simulations, our approach confirms the existence of protein-specific "lipid fingerprints", i.e. spatial rearrangements of lipids in response to proteins of interest. Through this demonstration, our model also provides external validation of the continuum model, affirms the value of such multiscale modeling, and can foster new insights through further analysis of these fingerprints.
翻訳日:2022-07-13 08:54:46 公開日:2022-07-09
# 周波数領域におけるデータポジショニングによる見えないバックドア攻撃

Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain ( http://arxiv.org/abs/2207.04209v1 )

ライセンス: Link先を確認
Chang Yue, Peizhuo Lv, Ruigang Liang, Kai Chen(参考訳) ディープニューラルネットワーク(DNN)の幅広い応用により、バックドア攻撃は徐々に注目を集めている。 バックドア攻撃は威圧的であり、毒殺されたモデルは良性サンプルで良好に動作し、特定の入力が与えられたときにのみトリガーされる。 最先端のバックドア攻撃は、データ中毒、すなわち、攻撃者がデータセットに有毒なサンプルを注入し、そのデータセットで訓練されたモデルはバックドアに感染する。 しかし、現在の研究で用いられるトリガーのほとんどは、画像のごく一部にパッチを当てた固定パターンであり、しばしば明確に誤記されるため、人間や神経洗浄やセンチネットなどの防御方法によって容易に検出される。 また、小さなパターンを無視する可能性があるため、DNNによって誤解なしに学ぶのは難しい。 本稿では,周波数領域に基づく一般的なバックドアアタック手法を提案し,トレーニングプロセスの誤ラベルやアクセスを伴わずにバックドアのインプラントを実装できる。 人間には見えず、一般的に使われる防御方法から逃れることができる。 3つのデータセット (cifar-10, stl-10, gtsrb) において, 自己教師あり学習と教師なし学習の2つの一般的なシナリオを用いて, このアプローチを評価した。 その結果,本手法は主要タスクの性能低下を伴わずにすべてのタスクにおいて高い攻撃成功率(90%以上)を達成できることがわかった。 また、トレーニングデータ(アクティベーションクラスタリング)の検出、入力の事前処理(フィルタ)、入力の検出(SentiNet)、モデルの検出(ニューラルクリーンス)など、さまざまな種類の防衛に対するアプローチのバイパス性能を評価した。 実験結果から, 本手法は防御に優れた堅牢性を示すことが示された。

With the broad application of deep neural networks (DNNs), backdoor attacks have gradually attracted attention. Backdoor attacks are insidious, and poisoned models perform well on benign samples and are only triggered when given specific inputs, which cause the neural network to produce incorrect outputs. The state-of-the-art backdoor attack work is implemented by data poisoning, i.e., the attacker injects poisoned samples into the dataset, and the models trained with that dataset are infected with the backdoor. However, most of the triggers used in the current study are fixed patterns patched on a small fraction of an image and are often clearly mislabeled, which is easily detected by humans or defense methods such as Neural Cleanse and SentiNet. Also, it's difficult to be learned by DNNs without mislabeling, as they may ignore small patterns. In this paper, we propose a generalized backdoor attack method based on the frequency domain, which can implement backdoor implantation without mislabeling and accessing the training process. It is invisible to human beings and able to evade the commonly used defense methods. We evaluate our approach in the no-label and clean-label cases on three datasets (CIFAR-10, STL-10, and GTSRB) with two popular scenarios (self-supervised learning and supervised learning). The results show our approach can achieve a high attack success rate (above 90%) on all the tasks without significant performance degradation on main tasks. Also, we evaluate the bypass performance of our approach for different kinds of defenses, including the detection of training data (i.e., Activation Clustering), the preprocessing of inputs (i.e., Filtering), the detection of inputs (i.e., SentiNet), and the detection of models (i.e., Neural Cleanse). The experimental results demonstrate that our approach shows excellent robustness to such defenses.
翻訳日:2022-07-12 16:33:39 公開日:2022-07-09
# 統計モデルの変換を実装するクラス関数のサブクラス

Subclasses of Class Function used to Implement Transformations of Statistical Models ( http://arxiv.org/abs/2207.04218v1 )

ライセンス: Link先を確認
Lloyd Allison(参考訳) 最小メッセージ長(MML)原理で導かれる帰納的推論のためのソフトウェアライブラリが以前作成された。 さまざまな(オブジェクト指向の)クラスと統計モデルのサブクラスが含まれており、機械学習問題で与えられたデータセットからモデルを推論するのに使うことができる。 ここで統計モデルの変換は、オブジェクト指向プログラミングや数学的観点から望ましい性質を持つようにライブラリ内で考慮され、実装される。 このような変換を行うのに必要なクラス関数のサブクラスを定義する。

A library of software for inductive inference guided by the Minimum Message Length (MML) principle was created previously. It contains various (object-oriented-) classes and subclasses of statistical Model and can be used to infer Models from given data sets in machine learning problems. Here transformations of statistical Models are considered and implemented within the library so as to have desirable properties from the object-oriented programming and mathematical points of view. The subclasses of class Function needed to do such transformations are defined.
翻訳日:2022-07-12 16:33:06 公開日:2022-07-09
# プロジェクト固有のコード要約のためのマイナショットトレーニングllm

Few-shot training LLMs for project-specific code-summarization ( http://arxiv.org/abs/2207.04237v1 )

ライセンス: Link先を確認
Toufique Ahmed and Premkumar Devanbu(参考訳) GPT-3やCodexのような非常に大きな言語モデル(LLM)は、いくつかの自然言語タスクで最先端のパフォーマンスを達成した。 LLMの特にエキサイティングな側面は、ごく少数の例でタスクを実行することを学べるという、数ショットでゼロショットの学習の難しさである。 数少ないショップはソフトウェアエンジニアリングにおいて特に相乗効果があり、非常にプロジェクト特有の現象(識別者名、api、用語、コーディングパターン)が数多く存在する。 しかしながら、プロジェクト固有のデータは、特にプロジェクトの歴史の早い段階で、かなり制限される可能性がある。 本稿では,非常に大きなGPT(Generative Pre-trained Transformer)コーデックスモデルを用いた数ショットトレーニングについて検討し,プロジェクト固有のトレーニングを利用して,コード要約のための最先端モデルを大幅に超えることを示す。

Very large language models (LLMs), such as GPT-3 and Codex have achieved state-of-the-art performance on several natural-language tasks, and show great promise also for code. A particularly exciting aspect of LLMs is their knack for few-shot and zero-shot learning: they can learn to perform a task with very few examples. Few-shotting has particular synergies in software engineering, where there are a lot of phenomena (identifier names, APIs, terminology, coding patterns) that are known to be highly project-specific. However, project-specific data can be quite limited, especially early in the history of a project; thus the few-shot learning capacity of LLMs might be very relevant. In this paper, we investigate the use few-shot training with the very large GPT (Generative Pre-trained Transformer) Codex model, and find evidence suggesting that one can significantly surpass state-of-the-art models for code-summarization, leveraging project-specific training.
翻訳日:2022-07-12 16:32:59 公開日:2022-07-09
# フィードフォワードニューラルネットワークモデル選択に対する統計的アプローチ

A Statistically-Based Approach to Feedforward Neural Network Model Selection ( http://arxiv.org/abs/2207.04248v1 )

ライセンス: Link先を確認
Andrew McInerney, Kevin Burke(参考訳) feedforward neural networks (fnns) は、重み付き和と非線形関数の組み合わせによって共変数がモデルに入る非線形回帰モデルと見なすことができる。 これらのモデルは通常統計モデリングで使用されるモデルといくつかの類似性があるが、ほとんどのニューラルネットワーク研究は統計学以外の分野で行われている。 この結果、統計に基づく方法論が欠如しており、特にモデルパーシモニーにはほとんど重点を置いていない。 入力層構造の決定は変数選択と類似し、隠された層の構造はモデルの複雑さに関連する。 実際には、ニューラルネットワークのモデル選択は、サンプル外のパフォーマンスを使ったモデルの比較によって行われることが多い。 対照的に、関連する可能性関数の構築は、情報基準に基づく変数とアーキテクチャの選択への扉を開く。 入力ノード選択と隠れノード選択の両方を行う新しいモデル選択法を,FNNのためのベイズ情報基準(BIC)を用いて提案する。 モデル選択目的関数として、サンプル外性能よりもBICを選択することは、サンプル外性能を最適に達成しつつ、真のモデルを取り戻す確率を増大させる。 シミュレーション研究を用いて提案手法の評価と正当化を行い,実データへの適用について検討した。

Feedforward neural networks (FNNs) can be viewed as non-linear regression models, where covariates enter the model through a combination of weighted summations and non-linear functions. Although these models have some similarities to the models typically used in statistical modelling, the majority of neural network research has been conducted outside of the field of statistics. This has resulted in a lack of statistically-based methodology, and, in particular, there has been little emphasis on model parsimony. Determining the input layer structure is analogous to variable selection, while the structure for the hidden layer relates to model complexity. In practice, neural network model selection is often carried out by comparing models using out-of-sample performance. However, in contrast, the construction of an associated likelihood function opens the door to information-criteria-based variable and architecture selection. A novel model selection method, which performs both input- and hidden-node selection, is proposed using the Bayesian information criterion (BIC) for FNNs. The choice of BIC over out-of-sample performance as the model selection objective function leads to an increased probability of recovering the true model, while parsimoniously achieving favourable out-of-sample performance. Simulation studies are used to evaluate and justify the proposed method, and applications on real data are investigated.
翻訳日:2022-07-12 16:32:43 公開日:2022-07-09
# VIDINTにおけるタスクベース機械学習コンテンツ抽出サービスの検討

A Survey of Task-Based Machine Learning Content Extraction Services for VIDINT ( http://arxiv.org/abs/2207.04158v1 )

ライセンス: Link先を確認
Joshua Brunk, Nathan Jermann, Ryan Sharp, Carl D. Hoover(参考訳) 本稿では,現状のビデオコンテンツ抽出ツールの比較を行い,商用タスクベースの機械学習サービスの比較に焦点をあてる。 ビデオインテリジェンス(VIDINT)データは、過去10年間で重要なインテリジェンスソースになっている。 ビデオからコンテンツを抽出し、構造化するためのAIベースの分析と自動化ツールの必要性は、ビデオの大規模な検索、分析、活用を必要とする組織にとって、急速に重要になっている。 機械学習技術の急速な成長に伴い、機械転写、機械翻訳、話題タグ付け、オブジェクト認識タスクの成熟度が指数関数的に向上し、新しいアプリケーションが進化するにつれて、パフォーマンスの記録を速さと正確さで破る。 本稿の各セクションでは,映像から情報を抽出するタスクと機械学習技術に基づいて,製品,ソフトウェアリソース,ビデオ分析機能を比較し,比較する。

This paper provides a comparison of current video content extraction tools with a focus on comparing commercial task-based machine learning services. Video intelligence (VIDINT) data has become a critical intelligence source in the past decade. The need for AI-based analytics and automation tools to extract and structure content from video has quickly become a priority for organizations needing to search, analyze and exploit video at scale. With rapid growth in machine learning technology, the maturity of machine transcription, machine translation, topic tagging, and object recognition tasks are improving at an exponential rate, breaking performance records in speed and accuracy as new applications evolve. Each section of this paper reviews and compares products, software resources and video analytics capabilities based on tasks relevant to extracting information from video with machine learning techniques.
翻訳日:2022-07-12 16:27:10 公開日:2022-07-09
# 空間領域による音声の分離学習

Learning to Separate Voices by Spatial Regions ( http://arxiv.org/abs/2207.04203v1 )

ライセンス: Link先を確認
Zhongweiyang Xu and Romit Roy Choudhury(参考訳) 補聴器や補聴器などのバイノーラル応用における音声分離の問題点について考察する。 今日のニューラルネットワークは、非常によく機能する(4ドル以上のソースと2つのマイクを分離する)が、既知のまたは固定されたソース数、Kを仮定する。さらに、今日のモデルは、ジェネリックソース、環境、人間の頭形から合成されたトレーニングデータを使用して、教師付き方法でトレーニングされている。 本稿では,問題定義の変更を犠牲にして,これらの制約を緩和することを目的とする。 受信した混合物が多すぎると、その混合物を領域別に分離する、すなわち、ユーザの頭の周りの各円錐形セクタから信号混合物を分離する、という方法が依然として有用である。 これは、人の頭によって課される信号歪みを含む各領域のきめ細かい空間特性を学ぶ必要がある。 そこで本研究では,耳から聞こえた音声を事前に処理し,比較的クリーンなパーソナライズされた信号を抽出する2段階の自己教師付きフレームワークを提案する。 結果は有望なパフォーマンスを示し、一般的な教師付きアプローチよりもパーソナライズの重要性を強調している。 (audioのサンプルはプロジェクトのwebサイトにある。 https://uiuc-earable-computing.github.io/binaural/ この結果は、聴覚、ノイズキャンセリング、オーディオ拡張現実といった現実世界のアプリケーションに役立つと信じています。

We consider the problem of audio voice separation for binaural applications, such as earphones and hearing aids. While today's neural networks perform remarkably well (separating $4+$ sources with 2 microphones) they assume a known or fixed maximum number of sources, K. Moreover, today's models are trained in a supervised manner, using training data synthesized from generic sources, environments, and human head shapes. This paper intends to relax both these constraints at the expense of a slight alteration in the problem definition. We observe that, when a received mixture contains too many sources, it is still helpful to separate them by region, i.e., isolating signal mixtures from each conical sector around the user's head. This requires learning the fine-grained spatial properties of each region, including the signal distortions imposed by a person's head. We propose a two-stage self-supervised framework in which overheard voices from earphones are pre-processed to extract relatively clean personalized signals, which are then used to train a region-wise separation model. Results show promising performance, underscoring the importance of personalization over a generic supervised approach. (audio samples available at our project website: https://uiuc-earable-computing.github.io/binaural/. We believe this result could help real-world applications in selective hearing, noise cancellation, and audio augmented reality.
翻訳日:2022-07-12 16:24:21 公開日:2022-07-09
# テンソル-トレインクロス近似の誤差解析

Error Analysis of Tensor-Train Cross Approximation ( http://arxiv.org/abs/2207.04327v1 )

ライセンス: Link先を確認
Zhen Qin, Alexander Lidiak, Zhexuan Gong, Gongguo Tang, Michael B. Wakin and Zhihui Zhu(参考訳) テンソルトレイン分解は、高次元テンソルの簡潔な表現のため、機械学習や量子物理学で広く用いられている。 行列を選択された行と列の集合から表現するクロス近似は、テンソルのテンソルトレイン分解を構成する効率的な方法である。 テンソルトレインのクロス近似は実用上顕著な性能を達成しているが、その理論解析、特に近似の誤差についてはまだ不十分である。 我々の知る限り、既存の結果は要素ワイズ近似の精度を保証するだけであり、テンソル全体に拡張すると非常にゆるい境界となる。 本稿では, テンソル全体の精度保証を, 精度と雑音の両面において提供することにより, このギャップを埋める。 以上の結果から,選択したサブテンソルの選択がクロス近似の品質にどのように影響するかを示し,モデル誤差や測定誤差による近似誤差がテンソルの次数で指数関数的に増加することはないことを示した。 これらの結果は数値実験によって検証され、量子多体状態の記述に見られるような高次テンソルに対するクロス近似の有用性に重要な意味を持つ。

Tensor train decomposition is widely used in machine learning and quantum physics due to its concise representation of high-dimensional tensors, overcoming the curse of dimensionality. Cross approximation-originally developed for representing a matrix from a set of selected rows and columns-is an efficient method for constructing a tensor train decomposition of a tensor from few of its entries. While tensor train cross approximation has achieved remarkable performance in practical applications, its theoretical analysis, in particular regarding the error of the approximation, is so far lacking. To our knowledge, existing results only provide element-wise approximation accuracy guarantees, which lead to a very loose bound when extended to the entire tensor. In this paper, we bridge this gap by providing accuracy guarantees in terms of the entire tensor for both exact and noisy measurements. Our results illustrate how the choice of selected subtensors affects the quality of the cross approximation and that the approximation error caused by model error and/or measurement error may not grow exponentially with the order of the tensor. These results are verified by numerical experiments, and may have important implications for the usefulness of cross approximations for high-order tensors, such as those encountered in the description of quantum many-body states.
翻訳日:2022-07-12 16:24:01 公開日:2022-07-09
# 分散還元型proxskip:アルゴリズム、理論および連合学習への応用

Variance Reduced ProxSkip: Algorithm, Theory and Application to Federated Learning ( http://arxiv.org/abs/2207.04338v1 )

ライセンス: Link先を確認
Grigory Malinovsky and Kai Yi and Peter Richt\'arik(参考訳) 本研究では,パラメータ平均化前のクライアント上でよりリッチな局所勾配学習を行うことにより,コミュニケーション効率を向上する分散最適化手法について検討した。 場の進歩を振り返って、我々は5世代にわたるLTメソッドを特定します。 1)ヒューリスティック。 2)同質である。 3) サブリニア。 4) 線形, および 5) 加速した。 5${}^{\rm th}$ 生成は、Mishchenko, Malinovsky, Stich and Richt\'{a}rik (2022) の ProxSkip 法によって開始され、その解析は、LTが通信加速機構であるという最初の理論的確証によって特徴づけられる。 この最近の進歩に触発されて、我々は5${}^{\rm th}$ LT法の生成に寄与し、それらをさらに強化できることを示す。 従来のLT手法の理論的結果は局所的な作業のコストを完全に無視しており、通信ラウンド数の観点から純粋にフレーム化されているが、局所的な計算が十分高価である体制における理論と実践において、我々の手法は最先端のProxSkipよりも大幅に高速であることを示す。 この閾値を理論的に特徴付け、実験結果を用いて理論予測を確認する。

We study distributed optimization methods based on the {\em local training (LT)} paradigm: achieving communication efficiency by performing richer local gradient-based training on the clients before parameter averaging. Looking back at the progress of the field, we {\em identify 5 generations of LT methods}: 1) heuristic, 2) homogeneous, 3) sublinear, 4) linear, and 5) accelerated. The 5${}^{\rm th}$ generation, initiated by the ProxSkip method of Mishchenko, Malinovsky, Stich and Richt\'{a}rik (2022) and its analysis, is characterized by the first theoretical confirmation that LT is a communication acceleration mechanism. Inspired by this recent progress, we contribute to the 5${}^{\rm th}$ generation of LT methods by showing that it is possible to enhance them further using {\em variance reduction}. While all previous theoretical results for LT methods ignore the cost of local work altogether, and are framed purely in terms of the number of communication rounds, we show that our methods can be substantially faster in terms of the {\em total training cost} than the state-of-the-art method ProxSkip in theory and practice in the regime when local computation is sufficiently expensive. We characterize this threshold theoretically, and confirm our theoretical predictions with empirical results.
翻訳日:2022-07-12 16:23:29 公開日:2022-07-09
# クロスドメインコード切り換え音声認識のための内部言語モデル推定に基づく言語モデル融合

Internal Language Model Estimation based Language Model Fusion for Cross-Domain Code-Switching Speech Recognition ( http://arxiv.org/abs/2207.04176v1 )

ライセンス: Link先を確認
Yizhou Peng, Yufei Liu, Jicheng Zhang, Haihua Xu, Yi He, Hao Huang and Eng Siong Chng(参考訳) 内部言語モデル推定(ILME)に基づく言語モデル(LM)融合は、ドメイン内およびクロスドメイン音声認識タスクにおいて、従来の浅層融合よりも認識結果を有意に改善している。 本稿では,クロスドメインコード切り換え音声認識(cssr)作業にilme法を適用することを試みる。 具体的には、好奇心はいくつかの側面から来ています。 まず、ILMEベースのLM融合がドメイン内のCSSRタスクとクロスドメインCSSRタスクの両方にどの程度効果的かに興味があります。 これを2つのコードスイッチングドメインとマージしなくても検証できます。 さらに,2つの単言語データセットを融合してエンドツーエンド(E2E)音声認識モデルを訓練し,提案したILME LM fusion for CSSRの有効性を検証した。 東南アジアと中国本土のCSデータセットであるSEAMEの実験結果から,ILMEを用いたLM融合法の有効性が示された。

Internal Language Model Estimation (ILME) based language model (LM) fusion has been shown significantly improved recognition results over conventional shallow fusion in both intra-domain and cross-domain speech recognition tasks. In this paper, we attempt to apply our ILME method to cross-domain code-switching speech recognition (CSSR) work. Specifically, our curiosity comes from several aspects. First, we are curious about how effective the ILME-based LM fusion is for both intra-domain and cross-domain CSSR tasks. We verify this with or without merging two code-switching domains. More importantly, we train an end-to-end (E2E) speech recognition model by means of merging two monolingual data sets and observe the efficacy of the proposed ILME-based LM fusion for CSSR. Experimental results on SEAME that is from Southeast Asian and another Chinese Mainland CS data set demonstrate the effectiveness of the proposed ILME-based LM fusion method.
翻訳日:2022-07-12 15:44:01 公開日:2022-07-09
# sparse ellipsometry: 非構造フラッシュ写真を用いたポラリメトリックsvbrdfと形状のポータブル取得

Sparse Ellipsometry: Portable Acquisition of Polarimetric SVBRDF and Shape with Unstructured Flash Photography ( http://arxiv.org/abs/2207.04236v1 )

ライセンス: Link先を確認
Inseung Hwang, Daniel S. Jeon, Adolfo Mu\~noz, Diego Gutierrez, Xin Tong, Min H. Kim(参考訳) エリプソメトリー技術は材料の偏光情報を計測することができ、光とセンサーの異なる構成の光学部品の正確な回転を必要とする。 これにより、実験室の条件や非常に長い取得時間、通常オブジェクト1日あたり数日間の順序で注意深く調整された、面倒なキャプチャデバイスが生まれます。 近年の手法では、偏光学的に空間的に変化する反射情報を捉えることができるが、単一のビューに制限されるか、または全てのビュー方向をカバーすることができるが、単一の均一な材料からなる球形物体に制限される。 ポーラリメトリックSVBRDFと3次元形状を同時にキャプチャする携帯型ポーラリメトリック取得法であるスパースエリプソメトリを提案する。 私たちのハンドヘルドデバイスは、既製の固定光学部品で構成されています。 日数の代わりに、取得時間はオブジェクトあたり20分から30分の間で異なる。 本研究では, 単一散乱だけでなく, 拡散成分, 鏡面成分を含む完全ポラリメトリックsvbrdfモデルを開発し, 生成的モデリングによる鏡面反射サンプルデータ拡張を伴う新しいポラリメトリック逆レンダリングアルゴリズムを考案する。 その結果、実世界の物体の偏光測定brdfの最近の地上データセットと強い一致を示した。

Ellipsometry techniques allow to measure polarization information of materials, requiring precise rotations of optical components with different configurations of lights and sensors. This results in cumbersome capture devices, carefully calibrated in lab conditions, and in very long acquisition times, usually in the order of a few days per object. Recent techniques allow to capture polarimetric spatially-varying reflectance information, but limited to a single view, or to cover all view directions, but limited to spherical objects made of a single homogeneous material. We present sparse ellipsometry, a portable polarimetric acquisition method that captures both polarimetric SVBRDF and 3D shape simultaneously. Our handheld device consists of off-the-shelf, fixed optical components. Instead of days, the total acquisition time varies between twenty and thirty minutes per object. We develop a complete polarimetric SVBRDF model that includes diffuse and specular components, as well as single scattering, and devise a novel polarimetric inverse rendering algorithm with data augmentation of specular reflection samples via generative modeling. Our results show a strong agreement with a recent ground-truth dataset of captured polarimetric BRDFs of real-world objects.
翻訳日:2022-07-12 15:42:40 公開日:2022-07-09
# ハイパースペクトル画像復調のためのランクアップ低次元コンボリューションセット

Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image Denoising ( http://arxiv.org/abs/2207.04266v1 )

ライセンス: Link先を確認
Jinhui Hou, Zhiyu Zhu, Hui Liu, Junhui Hou(参考訳) 本稿では,ハイパースペクトル(hs)画像デノイジングの課題に挑戦する。 既存のディープラーニングベースの手法では複雑なネットワークアーキテクチャを採用する場合が多いが,性能向上を追求するため,実証的にオフザシェルフモジュールを積み重ねる場合と異なり,HS画像の高次元特性を捉えるための効率的かつ効率的な特徴抽出手法に着目する。 具体的には、展開された畳み込み核によって形成される行列の階数の増加が特徴の多様性を促進するという理論的解析に基づいて、hs像の3次元に沿って個別に1次元畳み込みを行い、学習可能な圧縮層を介して空間スペクトル埋め込みを集約するランクエンハンス低次元畳み込み集合(re-convset)を提案する。 re-convsetはhs画像の多様な空間スペクトル特徴を学習するだけでなく、ネットワークのパラメータと複雑さを低減させる。 次に、広く使われているu-netアーキテクチャに再コンボセットを組み込み、hsイメージデノイジング法を構築する。 意外なことに、このような簡潔なフレームワークは、測定量、視覚的結果、効率の点で、最新の手法よりもかなり優れている。 私たちは、深層学習に基づく画像処理と分析に光を当てるかもしれないと信じています。

This paper tackles the challenging problem of hyperspectral (HS) image denoising. Unlike existing deep learning-based methods usually adopting complicated network architectures or empirically stacking off-the-shelf modules to pursue performance improvement, we focus on the efficient and effective feature extraction manner for capturing the high-dimensional characteristics of HS images. To be specific, based on the theoretical analysis that increasing the rank of the matrix formed by the unfolded convolutional kernels can promote feature diversity, we propose rank-enhanced low-dimensional convolution set (Re-ConvSet), which separately performs 1-D convolution along the three dimensions of an HS image side-by-side, and then aggregates the resulting spatial-spectral embeddings via a learnable compression layer. Re-ConvSet not only learns the diverse spatial-spectral features of HS images, but also reduces the parameters and complexity of the network. We then incorporate Re-ConvSet into the widely-used U-Net architecture to construct an HS image denoising method. Surprisingly, we observe such a concise framework outperforms the most recent method to a large extent in terms of quantitative metrics, visual results, and efficiency. We believe our work may shed light on deep learning-based HS image processing and analysis.
翻訳日:2022-07-12 15:42:18 公開日:2022-07-09
# デジタルファウンダス画像による血管の分別,視神経の局在,排尿物の検出,糖尿病網膜症診断

Segmentation of Blood Vessels, Optic Disc Localization, Detection of Exudates and Diabetic Retinopathy Diagnosis from Digital Fundus Images ( http://arxiv.org/abs/2207.04345v1 )

ライセンス: Link先を確認
Soham Basu, Sayantan Mukherjee, Ankit Bhattacharya, Anindya Sen(参考訳) 糖尿病網膜症(英: Diabetic Retinopathy, DR)は、慢性糖尿病の合併症の一つで、世界有数の失明の原因の1つである。 本稿では,DR,vizの特徴を抽出するための改良されたロバストな手法に焦点を当てた。 血管と吐き出します 血管は複数の形態学的およびしきい値操作を用いて分節される。 排他物のセグメンテーションには、元の画像上のk平均クラスタリングと輪郭検出を用いる。 船体セグメンテーションアルゴリズムの結果から偽陽性を除去するために、広範雑音低減を行う。 k平均クラスタリングとテンプレートマッチングを用いた光学ディスクの局在化も行った。 最後に、DRの自動二値診断のための14の畳み込み層と2の完全連結層を備えたディープ畳み込みニューラルネットワーク(DCNN)モデルを提案する。 ソースコードと事前トレーニングされたモデルはhttps://github.com/sohambasu07/dr_2021

Diabetic Retinopathy (DR) is a complication of long-standing, unchecked diabetes and one of the leading causes of blindness in the world. This paper focuses on improved and robust methods to extract some of the features of DR, viz. Blood Vessels and Exudates. Blood vessels are segmented using multiple morphological and thresholding operations. For the segmentation of exudates, k-means clustering and contour detection on the original images are used. Extensive noise reduction is performed to remove false positives from the vessel segmentation algorithm's results. The localization of Optic Disc using k-means clustering and template matching is also performed. Lastly, this paper presents a Deep Convolutional Neural Network (DCNN) model with 14 Convolutional Layers and 2 Fully Connected Layers, for the automatic, binary diagnosis of DR. The vessel segmentation, optic disc localization and DCNN achieve accuracies of 95.93%, 98.77% and 75.73% respectively. The source code and pre-trained model are available https://github.com/Sohambasu07/DR_2021
翻訳日:2022-07-12 15:41:56 公開日:2022-07-09
# 細胞遺伝子発現ダイナミクス推定のためのODEの変動混合

Variational Mixtures of ODEs for Inferring Cellular Gene Expression Dynamics ( http://arxiv.org/abs/2207.04166v1 )

ライセンス: Link先を確認
Yichen Gu, David Blaauw, Joshua Welch(参考訳) 計算生物学における重要な問題は、ある細胞型が別の細胞に変化する細胞運命遷移を制御する遺伝子発現の変化を発見することである。 しかし、個々の細胞を縦方向に追跡することはできず、リアルタイムで同じ位置にある細胞は遷移過程の異なる段階にある可能性がある。 これは、時間不明の観測から力学系の挙動を学ぶ問題と見なすことができる。 さらに、単一の前駆細胞型は、しばしば複数の子細胞型に分岐し、ダイナミクスをモデル化する問題を複雑にする。 この問題に対処するため,常微分方程式の変分混合という手法を開発した。 遺伝子発現の生化学によって誘導される単純なODEのファミリーを用いて、深部生成モデルの可能性を制限することで、各細胞の潜伏時間と潜伏状態を同時に推測し、将来の遺伝子発現状態を予測することができる。 このモデルは、セル状態の潜在空間にわたってパラメータが連続的に変化するODEの混合と解釈できる。 本手法は,従来手法と比較して,データ適合性,潜在時間推定,将来の細胞状態推定を劇的に改善する。

A key problem in computational biology is discovering the gene expression changes that regulate cell fate transitions, in which one cell type turns into another. However, each individual cell cannot be tracked longitudinally, and cells at the same point in real time may be at different stages of the transition process. This can be viewed as a problem of learning the behavior of a dynamical system from observations whose times are unknown. Additionally, a single progenitor cell type often bifurcates into multiple child cell types, further complicating the problem of modeling the dynamics. To address this problem, we developed an approach called variational mixtures of ordinary differential equations. By using a simple family of ODEs informed by the biochemistry of gene expression to constrain the likelihood of a deep generative model, we can simultaneously infer the latent time and latent state of each cell and predict its future gene expression state. The model can be interpreted as a mixture of ODEs whose parameters vary continuously across a latent space of cell states. Our approach dramatically improves data fit, latent time inference, and future cell state estimation of single-cell gene expression data compared to previous approaches.
翻訳日:2022-07-12 15:37:17 公開日:2022-07-09
# 改良バイナリフォワード探索:確率最適化のための学習率スケジューリング法

Improved Binary Forward Exploration: Learning Rate Scheduling Method for Stochastic Optimization ( http://arxiv.org/abs/2207.04198v1 )

ライセンス: Link先を確認
Xin Cao(参考訳) 近年,学習率の自動スケジューリングによる勾配に基づく新しい最適化手法が提案され,binary forward exploration (bfe) と呼ばれる。 その後、BFEの適応版も議論されている。 本稿では,新しい手法の効率と頑健性を最適化するために,それらに基づく改良アルゴリズムについて検討する。 この改良されたアプローチは、学習率の更新をスケジューリングする新しい視点を提供し、運動量やネステロフ運動量を持つ確率勾配降下(sgd)アルゴリズムと、adamのような最も成功した適応学習率アルゴリズムと比較される。 本手法の目的は,他者を倒すことではなく,勾配降下過程を最適化するための異なる視点を提供することである。 このアプローチは、スピードと効率の面で、一階最適化と二階最適化の利点を組み合わせる。

A new gradient-based optimization approach by automatically scheduling the learning rate has been proposed recently, which is called Binary Forward Exploration (BFE). The Adaptive version of BFE has also been discussed thereafter. In this paper, the improved algorithms based on them will be investigated, in order to optimize the efficiency and robustness of the new methodology. This improved approach provides a new perspective to scheduling the update of learning rate and will be compared with the stochastic gradient descent (SGD) algorithm with momentum or Nesterov momentum and the most successful adaptive learning rate algorithm e.g. Adam. The goal of this method does not aim to beat others but provide a different viewpoint to optimize the gradient descent process. This approach combines the advantages of the first-order and second-order optimizations in the aspects of speed and efficiency.
翻訳日:2022-07-12 15:36:58 公開日:2022-07-09
# 高階・高階ラベル相関を用いたマルチラベル分類

Multi-label Classification with High-rank and High-order Label Correlations ( http://arxiv.org/abs/2207.04197v1 )

ライセンス: Link先を確認
Chongjie Si, Yuheng Jia, Ran Wang, Min-Ling Zhang, Yanghe Feng, Qu Chongxiao(参考訳) ラベル相関の活用はマルチラベル分類において重要である。 従来の手法では, ラベル行列を低ランク行列分解による潜在ラベル空間に変換することにより, 高階ラベル相関を捉える。 しかし、ラベル行列は一般にフルランクまたは近似フルランク行列であり、低ランク分解は不適切である。 さらに、潜在空間では、ラベルの相関関係が暗黙化する。 そこで本研究では,高次ラベル相関を明示的に表現する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。 さらに,入力の局所幾何構造を通じてラベル相関を推定し,モデルパラメータを同時推定し,相互拡張を実現する。 10以上のベンチマークデータセットの比較研究は、マルチラベル分類における提案アルゴリズムの有効性を検証する。 悪用された高次ラベル相関は経験的に常識と一致している。 私たちのコードはhttps://github.com/601175936/HOMIで公開されています。

Exploiting label correlations is important to multi-label classification. Previous methods capture the high-order label correlations mainly by transforming the label matrix to a latent label space with low-rank matrix factorization. However, the label matrix is generally a full-rank or approximate full-rank matrix, making the low-rank factorization inappropriate. Besides, in the latent space, the label correlations will become implicit. To this end, we propose a simple yet effective method to depict the high-order label correlations explicitly, and at the same time maintain the high-rank of the label matrix. Moreover, we estimate the label correlations and infer model parameters simultaneously via the local geometric structure of the input to achieve mutual enhancement. Comparative studies over ten benchmark data sets validate the effectiveness of the proposed algorithm in multi-label classification. The exploited high-order label correlations are consistent with common sense empirically. Our code is publicly available at https://github.com/601175936/HOMI.
翻訳日:2022-07-12 15:23:01 公開日:2022-07-09
# スパースニューラルネットワークのロバスト性と異常検出について

On the Robustness and Anomaly Detection of Sparse Neural Networks ( http://arxiv.org/abs/2207.04227v1 )

ライセンス: Link先を確認
Morgane Ayle, Bertrand Charpentier, John Rachwan, Daniel Z\"ugner, Simon Geisler, Stephan G\"unnemann(参考訳) ニューラルネットワークの堅牢性と異常検出能力は、現実世界での安全な採用にとって重要なトピックである。 さらに、最近のネットワークの過剰パラメータ化は高い計算コストを伴い、そのロバスト性や異常検出への影響について疑問を投げかけている。 本研究では,sparsityがネットワークをより堅牢にし,異常検出能力を向上させることを示す。 さらにこれを動機づけるために、事前学習されたニューラルネットワークは、パラメータ空間内で、これらのタスクでより優れたスパースサブネットを含んでいることを示す。 また,高コストなロバスト性や検出手法の複雑さを低減しつつ,これらのタスクにおける結果の維持や改善にも有効であることを示す。 最後に,適切な刈り取り法から得られた重みの感度を利用して,入力中の異常サンプルを検出する新しい手法であるSensNormを提案する。

The robustness and anomaly detection capability of neural networks are crucial topics for their safe adoption in the real-world. Moreover, the over-parameterization of recent networks comes with high computational costs and raises questions about its influence on robustness and anomaly detection. In this work, we show that sparsity can make networks more robust and better anomaly detectors. To motivate this even further, we show that a pre-trained neural network contains, within its parameter space, sparse subnetworks that are better at these tasks without any further training. We also show that structured sparsity greatly helps in reducing the complexity of expensive robustness and detection methods, while maintaining or even improving their results on these tasks. Finally, we introduce a new method, SensNorm, which uses the sensitivity of weights derived from an appropriate pruning method to detect anomalous samples in the input.
翻訳日:2022-07-12 15:22:47 公開日:2022-07-09
# 中小行列に対するバッチ効率の固有分解

Batch-efficient EigenDecomposition for Small and Medium Matrices ( http://arxiv.org/abs/2207.04228v1 )

ライセンス: Link先を確認
Yue Song, Nicu Sebe, Wei Wang(参考訳) EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。 その使用を制限する重要なボトルネックの1つは、特にディープニューラルネットワークにおける行列の小さなバッチに対して、高価な計算コストである。 本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。 提案手法は,全行列を同時に処理し,GPUのパワーをフル活用するバッチ行列/ベクトル乗算により,EDを完全化する。 本手法は, ダブルウィルキンソンシフトを用いたギフト回転による明示的なQR反復に基づく。 いくつかの加速法では、QR反復の時間複雑性は$O{(}n^5{)}$から$O{(}n^3{)}$に減少する。 数値テストにより、中小のバッチ行列(例えば、$dim{<}32$)に対して、この方法はpytorch svd関数よりもはるかに高速であることが示される。 視覚認識と画像生成の実験結果から,本手法は競争性能も向上することが示された。

EigenDecomposition (ED) is at the heart of many computer vision algorithms and applications. One crucial bottleneck limiting its usage is the expensive computation cost, particularly for a mini-batch of matrices in the deep neural networks. In this paper, we propose a QR-based ED method dedicated to the application scenarios of computer vision. Our proposed method performs the ED entirely by batched matrix/vector multiplication, which processes all the matrices simultaneously and thus fully utilizes the power of GPUs. Our technique is based on the explicit QR iterations by Givens rotation with double Wilkinson shifts. With several acceleration techniques, the time complexity of QR iterations is reduced from $O{(}n^5{)}$ to $O{(}n^3{)}$. The numerical test shows that for small and medium batched matrices (\emph{e.g.,} $dim{<}32$) our method can be much faster than the Pytorch SVD function. Experimental results on visual recognition and image generation demonstrate that our methods also achieve competitive performances.
翻訳日:2022-07-12 14:36:12 公開日:2022-07-09
# パッチ不変ネットワークを用いた教師なし共同画像転送と不確かさ定量化

Unsupervised Joint Image Transfer and Uncertainty Quantification using Patch Invariant Networks ( http://arxiv.org/abs/2207.04325v1 )

ライセンス: Link先を確認
Christoph Angermann and Markus Haltmeier and Ahsan Raza Siyal(参考訳) 教師なし画像転送は、大量のペアトレーニングデータが不足している医療アプリケーションにおいて、モダリティ内およびモダリティ間転送を可能にする。 入力から対象領域への構造保存マッピングを確実にするため、未確認の医用画像転送の既存の方法は一般にサイクル一貫性に基づいており、逆マッピングの学習により計算資源や不安定性が増大する。 本稿では,トレーニングプロセス全体を通してペアデータを必要としない一方向領域マッピング法を提案する。 GANアーキテクチャとパッチ不変性に基づく新規なジェネレータ損失を用いることで、合理的な転送が保証される。 より正確に言うと、ジェネレータ出力は異なるスケールで評価され比較されるため、高周波の詳細や暗黙的なデータ拡張に注意が向けられる。 この新しい用語はまた、パッチ残差の入力依存スケールマップをモデル化することで、アレテータの不確実性を予測する機会を与える。 提案手法は3つの著名医用データベース上で包括的に評価される。 これらのデータセットの優れた精度は、不確実性を認識した医用画像翻訳におけるこのアプローチの大きな可能性を示唆している。 提案されたフレームワークの実装は以下の通りである。

Unsupervised image transfer enables intra- and inter-modality transfer for medical applications where a large amount of paired training data is not abundant. To ensure a structure-preserving mapping from the input to the target domain, existing methods for unpaired medical image transfer are commonly based on cycle-consistency, causing additional computation resources and instability due to the learning of an inverse mapping. This paper presents a novel method for uni-directional domain mapping where no paired data is needed throughout the entire training process. A reasonable transfer is ensured by employing the GAN architecture and a novel generator loss based on patch invariance. To be more precise, generator outputs are evaluated and compared on different scales, which brings increased attention to high-frequency details as well as implicit data augmentation. This novel term also gives the opportunity to predict aleatoric uncertainty by modeling an input-dependent scale map for the patch residuals. The proposed method is comprehensively evaluated on three renowned medical databases. Superior accuracy on these datasets compared to four different state-of-the-art methods for unpaired image transfer suggests the great potential of this approach for uncertainty-aware medical image translation. Implementation of the proposed framework is released here: https://github.com/anger-man/unsupervised-image-transfer-and-uq.
翻訳日:2022-07-12 14:35:55 公開日:2022-07-09
# 音声・音声の抽出に必要なのはデュアルパス

Dual-path Attention is All You Need for Audio-Visual Speech Extraction ( http://arxiv.org/abs/2207.04213v1 )

ライセンス: Link先を確認
Zhongweiyang Xu, Xulin Fan and Mark Hasegawa-Johnson(参考訳) 唇の動きから特定の話者の音声を抽出することを目的とした音声-視覚的ターゲット音声抽出は,時間領域の音声分離モデルと視覚特徴抽出器(CNN)を併用して大きく進歩した。 音声とビデオ情報を融合させる場合の問題は、時間分解能が異なることである。 現在のほとんどの研究は、時間軸に沿って視覚的特徴を増幅し、音声とビデオの機能を時間的に整列させることができる。 しかし, 口唇運動には, 主に長期的, あるいは電話レベルの情報が含まれるべきだと考えている。 この仮定に基づき,音声・視覚機能を融合する新しい手法を提案する。 DPRNN \cite{dprnn} の場合、インターチャンク次元の時間分解能はビデオフレームの時間分解能に非常に近い可能性がある。 cite{sepformer}と同様に、DPRNNのLSTMはチャンク内およびチャンク間自己注意に置き換えられるが、提案アルゴリズムでは、チャンク間注意が視覚的特徴を付加的な特徴ストリームとして組み込む。 これにより、視覚的手がかりのアップサンプリングが防止され、より効率的な音声・視覚融合が実現される。 その結果,他の時間領域ベース音声-視覚融合モデルと比較して,優れた結果が得られた。

Audio-visual target speech extraction, which aims to extract a certain speaker's speech from the noisy mixture by looking at lip movements, has made significant progress combining time-domain speech separation models and visual feature extractors (CNN). One problem of fusing audio and video information is that they have different time resolutions. Most current research upsamples the visual features along the time dimension so that audio and video features are able to align in time. However, we believe that lip movement should mostly contain long-term, or phone-level information. Based on this assumption, we propose a new way to fuse audio-visual features. We observe that for DPRNN \cite{dprnn}, the interchunk dimension's time resolution could be very close to the time resolution of video frames. Like \cite{sepformer}, the LSTM in DPRNN is replaced by intra-chunk and inter-chunk self-attention, but in the proposed algorithm, inter-chunk attention incorporates the visual features as an additional feature stream. This prevents the upsampling of visual cues, resulting in more efficient audio-visual fusion. The result shows we achieve superior results compared with other time-domain based audio-visual fusion models.
翻訳日:2022-07-12 14:34:18 公開日:2022-07-09
# 非自己回帰機械翻訳における構文的マルチモダリティに関する研究

A Study of Syntactic Multi-Modality in Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2207.04206v1 )

ライセンス: Link先を確認
Kexun Zhang, Rui Wang, Xu Tan, Junliang Guo, Yi Ren, Tao Qin, Tie-Yan Liu(参考訳) 非自己回帰的翻訳(NAT)モデルでは、条件付き独立性仮定("multi-modality problem"と呼ばれる語彙的多様性や構文的多様性を含む)により、ターゲット翻訳のマルチモーダル分布を捉えることは困難である。 最初のものはよく研究されているが、構文的多様性はnatの標準クロスエントロピー(xe)損失に深刻な挑戦をもたらし、現在研究中である。 本稿では,構文的多様性問題に関する体系的な研究を行う。 具体的には、これを短距離および長距離の構文的マルチモーダルに分解し、慎重に設計された合成データセットと実データセットの両方に高度な損失関数を持つ最近のNATアルゴリズムを評価する。 接続型テンポラル分類(CTC)の損失と順序非依存型クロスエントロピー(OAXE)の損失は,それぞれ短距離と長距離の構文的マルチモーダルをうまく扱えることがわかった。 さらに,実世界のデータセットにおける複雑な構文的マルチモダリティをよりうまく扱うために,両者を最大限に活用し,新しい損失関数を設計する。 実用的利用を容易にするため,異なる種類の構文的マルチモーダルに対して異なる損失関数を使用するためのガイドを提供する。

It is difficult for non-autoregressive translation (NAT) models to capture the multi-modal distribution of target translations due to their conditional independence assumption, which is known as the "multi-modality problem", including the lexical multi-modality and the syntactic multi-modality. While the first one has been well studied, the syntactic multi-modality brings severe challenge to the standard cross entropy (XE) loss in NAT and is under studied. In this paper, we conduct a systematic study on the syntactic multi-modality problem. Specifically, we decompose it into short- and long-range syntactic multi-modalities and evaluate several recent NAT algorithms with advanced loss functions on both carefully designed synthesized datasets and real datasets. We find that the Connectionist Temporal Classification (CTC) loss and the Order-Agnostic Cross Entropy (OAXE) loss can better handle short- and long-range syntactic multi-modalities respectively. Furthermore, we take the best of both and design a new loss function to better handle the complicated syntactic multi-modality in real-world datasets. To facilitate practical usage, we provide a guide to use different loss functions for different kinds of syntactic multi-modality.
翻訳日:2022-07-12 14:33:29 公開日:2022-07-09
# シミュレートされたデフォーカスに対するハンドヘルドバーストイメージング

Direct Handheld Burst Imaging to Simulated Defocus ( http://arxiv.org/abs/2207.04175v1 )

ライセンス: Link先を確認
Meng-Lin Wu, Venkata Ravi Kiran Dayana, Hau Hwang(参考訳) 浅い視野深度の画像では被写体が焦点を合わせ、前景と背景のコンテキストはぼやけている。 この効果は、スマートフォンカメラよりもずっと大きなレンズ開口を必要とする。 従来の手法では,RGB-D画像の深度に基づいて,画像領域をぼやけてしまう。 しかし、この手法は反射面や透明な表面、あるいは深度値が不正確あるいは曖昧である細かな物体シルエットには適していない。 単一開口レンズで取得したハンドヘルプバーストから浅部深度画像におけるデフォーカスのぼかしを合成する学習的手法を提案する。 深層学習モデルは浅部深度画像を直接生成し,鮮明な深度に基づくぼかしを避ける。 模擬開口径はバースト取得時のカメラ翻訳と等しい。 本手法は奥行きが不正確で曖昧なため人工物に苦しめられず,ポートレート撮影にも適している。

A shallow depth-of-field image keeps the subject in focus, and the foreground and background contexts blurred. This effect requires much larger lens apertures than those of smartphone cameras. Conventional methods acquire RGB-D images and blur image regions based on their depth. However, this approach is not suitable for reflective or transparent surfaces, or finely detailed object silhouettes, where the depth value is inaccurate or ambiguous. We present a learning-based method to synthesize the defocus blur in shallow depth-of-field images from handheld bursts acquired with a single small aperture lens. Our deep learning model directly produces the shallow depth-of-field image, avoiding explicit depth-based blurring. The simulated aperture diameter equals the camera translation during burst acquisition. Our method does not suffer from artifacts due to inaccurate or ambiguous depth estimation, and it is well-suited to portrait photography.
翻訳日:2022-07-12 14:29:36 公開日:2022-07-09
# 適応型カリキュラムと特徴連接による眼科疾患の合同評価のための学習ロバスト表現

Learning Robust Representation for Joint Grading of Ophthalmic Diseases via Adaptive Curriculum and Feature Disentanglement ( http://arxiv.org/abs/2207.04183v1 )

ライセンス: Link先を確認
Haoxuan Che and Haibo Jin and Hao Chen(参考訳) 糖尿病性網膜症(DR)と糖尿病性黄斑浮腫(DME)は、世界中で永久盲症の原因となっている。 DRおよびDMEの一般化能力に優れた自動階調システムの設計は臨床実践において不可欠である。 しかし、先行研究はDRとDMEを別々に評価し、それら間の内部相関を考慮せずに、あるいは共有特徴表現によってそれらを共同で評価するが、難しいサンプルやデータのバイアスによって生じる潜在的な一般化問題を無視する。 これらの課題に対処するために,動的困難認識重み付き損失(DAW)と二重ストリーム非絡み合い学習アーキテクチャ(DETACH)を併用した共同学習フレームワークを提案する。 カリキュラム学習にインスパイアされたDAWは、簡単なサンプルから困難サンプルを動的に、適応的に測定することで学習する。 DETACHは、バイアスの潜在的な強調を避けるために、グレーディングタスクの特徴を分離する。 DAWとDETACHの追加により、DRとDMEの内部相関を探索し、より優れたグレーディング性能を実現するために、頑健な不整形特徴表現を学習する。 3つのベンチマークの実験は、データセット内テストとデータセット間テストの両方において、我々のフレームワークの有効性と堅牢性を示している。

Diabetic retinopathy (DR) and diabetic macular edema (DME) are leading causes of permanent blindness worldwide. Designing an automatic grading system with good generalization ability for DR and DME is vital in clinical practice. However, prior works either grade DR or DME independently, without considering internal correlations between them, or grade them jointly by shared feature representation, yet ignoring potential generalization issues caused by difficult samples and data bias. Aiming to address these problems, we propose a framework for joint grading with the dynamic difficulty-aware weighted loss (DAW) and the dual-stream disentangled learning architecture (DETACH). Inspired by curriculum learning, DAW learns from simple samples to difficult samples dynamically via measuring difficulty adaptively. DETACH separates features of grading tasks to avoid potential emphasis on the bias. With the addition of DAW and DETACH, the model learns robust disentangled feature representations to explore internal correlations between DR and DME and achieve better grading performance. Experiments on three benchmarks show the effectiveness and robustness of our framework under both the intra-dataset and cross-dataset tests.
翻訳日:2022-07-12 14:29:23 公開日:2022-07-09
# 自己監督型物体検出事前学習に関する研究

A Study on Self-Supervised Object Detection Pretraining ( http://arxiv.org/abs/2207.04186v1 )

ライセンス: Link先を確認
Trung Dang, Simon Kornblith, Huy Thong Nguyen, Peter Chin, Maryam Khademi(参考訳) 本研究では,物体検出モデルの自己教師付き事前学習に対する異なるアプローチについて検討する。 まず、画像から空間的に一貫した密度表現を学習するための一般的なフレームワークを設計し、各拡張ビューにランダムにサンプリングおよび投影ボックスを配置し、対応するボックス特徴間の類似性を最大化する。 ボックス生成,特徴抽出戦略,インスタンスレベルのイメージ表現学習手法の成功に触発された複数のビューを用いた文学における既存の設計選択について検討した。 提案手法はハイパーパラメータの異なる選択に対して頑健であり,複数ビューを用いた場合,インスタンスレベルの画像表現学習ほど効果的ではないことが示唆された。 また,比較的損失を用いて,(1)サンプルセットからボックスを予測し,(2)トランスフォーマを用いてボックス座標を予測することにより,下流オブジェクト検出タスクの恩恵を受けることにより,一方の視点からボックスを予測できる2つの補助タスクを設計する。 ラベル付きデータ上で事前トレーニングされたモデルを微調整する場合、これらのタスクはオブジェクト検出性能を向上しないことがわかった。

In this work, we study different approaches to self-supervised pretraining of object detection models. We first design a general framework to learn a spatially consistent dense representation from an image, by randomly sampling and projecting boxes to each augmented view and maximizing the similarity between corresponding box features. We study existing design choices in the literature, such as box generation, feature extraction strategies, and using multiple views inspired by its success on instance-level image representation learning techniques. Our results suggest that the method is robust to different choices of hyperparameters, and using multiple views is not as effective as shown for instance-level image representation learning. We also design two auxiliary tasks to predict boxes in one view from their features in the other view, by (1) predicting boxes from the sampled set by using a contrastive loss, and (2) predicting box coordinates using a transformer, which potentially benefits downstream object detection tasks. We found that these tasks do not lead to better object detection performance when finetuning the pretrained model on labeled data.
翻訳日:2022-07-12 14:29:00 公開日:2022-07-09
# 視覚認識のための持続的ホモロジー再考

Rethinking Persistent Homology for Visual Recognition ( http://arxiv.org/abs/2207.04220v1 )

ライセンス: Link先を確認
Ekaterina Khramtsova, Guido Zuccon, Xi Wang, Mahsa Baktashmotlagh(参考訳) 画像の永続的なトポロジー特性は、従来のニューラルネットワークでは発見できないインサイトを提供する追加のディスクリプタとして機能する。 この領域における既存の研究は主に、学習プロセスにおけるデータのトポロジ的特性を効率的に統合して、パフォーマンスを向上させることに焦点を当てている。 しかしながら、トポロジカルプロパティを導入することでパフォーマンスを向上あるいは損なうという、可能なすべてのシナリオを実証する既存の研究は存在しない。 本稿では,トレーニングサンプル数,トレーニングデータの複雑さ,バックボーンネットワークの複雑さなどによって定義される,様々なトレーニングシナリオにおける画像分類におけるトポロジカル特性の有効性を詳細に分析する。 例えば、小さなデータセット上で単純なネットワークをトレーニングするなど、トポロジカルな特徴から最も恩恵を受けるシナリオを特定します。 さらに,分類にトポロジ的特徴を用いる際の主要なボトルネックの一つであるデータセットのトポロジ的一貫性の問題についても論じる。 さらに、トポロジ的不整合が特定のシナリオのパフォーマンスにどのように影響するかを示す。

Persistent topological properties of an image serve as an additional descriptor providing an insight that might not be discovered by traditional neural networks. The existing research in this area focuses primarily on efficiently integrating topological properties of the data in the learning process in order to enhance the performance. However, there is no existing study to demonstrate all possible scenarios where introducing topological properties can boost or harm the performance. This paper performs a detailed analysis of the effectiveness of topological properties for image classification in various training scenarios, defined by: the number of training samples, the complexity of the training data and the complexity of the backbone network. We identify the scenarios that benefit the most from topological features, e.g., training simple networks on small datasets. Additionally, we discuss the problem of topological consistency of the datasets which is one of the major bottlenecks for using topological features for classification. We further demonstrate how the topological inconsistency can harm the performance for certain scenarios.
翻訳日:2022-07-12 14:28:42 公開日:2022-07-09
# 不均衡点対を登録する学習

Learning to Register Unbalanced Point Pairs ( http://arxiv.org/abs/2207.04221v1 )

ライセンス: Link先を確認
Kanghee Lee, Junha Lee, Jaesik Park(参考訳) 最近の3D登録法は,大規模あるいは部分的に重複する点対を効果的に扱うことができる。 しかし、その実用性にもかかわらず、空間スケールと密度の点で不均衡なペアは見過ごされている。 本稿では,不均衡点対に対してuppnetと呼ばれる新しい3次元登録手法を提案する。 探索空間を徐々に減らし,不整合を効果的に見つける階層的枠組みを提案する。 提案手法は,クエリポイントと重複する可能性のあるターゲットポイントのサブリージョンを予測する。 以下のスーパーポイントマッチングモジュールと微粒化モジュールは、2点雲間の正確な不整合を推定する。 さらに,空間的適合性を満たす対応を洗練するために幾何学的制約を適用する。 対応予測はエンドツーエンドで訓練され,不均衡な点雲対が与えられた1つの前方通過で適切な剛性変換を予測できる。 提案手法の有効性を検証するため,KITTI LiDARデータセットを拡張してKITTI-UPPデータセットを作成する。 このデータセットの実験では、提案手法が最先端のペアワイズクラウド登録手法を大きなマージンで大幅に上回り、ターゲットポイントクラウドが空間的に大きく、クエリポイントクラウドよりも約10$\times$の密度を持つ場合、登録リコールが78%向上することが示された。

Recent 3D registration methods can effectively handle large-scale or partially overlapping point pairs. However, despite its practicality, matching the unbalanced pairs in terms of spatial scale and density has been overlooked. We present a novel 3D registration method, called UPPNet, for the unbalanced point pairs. We propose a hierarchical framework to find inlier correspondences effectively by gradually reducing search space. Our method predicts the subregions of the target points likely to be overlapped with the query points. The following super-point matching module and fine-grained refinement module estimate accurate inlier correspondences between two point clouds. Furthermore, we apply geometric constraints to refine the correspondences that satisfy spatial compatibility. Correspondence prediction is trained end-to-end, and our approach can predict the proper rigid transformation with a single forward pass given unbalanced point cloud pairs. To validate the efficacy of the proposed method, we create a KITTI-UPP dataset by augmenting the KITTI LiDAR dataset. Experiments on this dataset reveal that the proposed approach significantly outperforms state-of-the-art pairwise point cloud registration methods by a large margin, resulting in 78% improvement in Registration Recall when the target point cloud is about 10$\times$ spatially larger and about 10$\times$ times denser than the query point cloud.
翻訳日:2022-07-12 14:28:27 公開日:2022-07-09
# PI-Trans:Parallel-ConvMLPとImplicit-Transformationベースの画像変換用GAN

PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for Cross-View Image Translation ( http://arxiv.org/abs/2207.04242v1 )

ライセンス: Link先を確認
Bin Ren, Hao Tang, Yiming Wang, Xia Li, Wei Wang, Nicu Sebe(参考訳) セマンティックガイドを用いたクロスビュー画像翻訳では、ソースビューイメージからピクセルをどこでサンプリングするか、ターゲットビューセマンティックマップでガイドされたピクセルをどこに再配置するか、特にソースとターゲットイメージの重なりや急激なビュー差がほとんどない場合に学ぶことが不可欠である。 したがって、ソースビューイメージとターゲットビューの両方のピクセル間の長距離依存性をエンコードするだけでなく、これらの学習した依存関係を変換する必要がある。 そこで本研究では,新しいParallel-ConvMLPモジュールと,複数のセマンティックレベルでのImplicit変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。 広範な実験結果から,提案するpi-transは,2つの難題データセットにおける最先端手法に比べて,質的かつ定量的に高い性能が得られることがわかった。 コードはhttps://github.com/Amazingren/PI-Transで公開される。

For semantic-guided cross-view image translation, it is crucial to learn where to sample pixels from the source view image and where to reallocate them guided by the target view semantic map, especially when there is little overlap or drastic view difference between the source and target images. Hence, one not only needs to encode the long-range dependencies among pixels in both the source view image and target view the semantic map but also needs to translate these learned dependencies. To this end, we propose a novel generative adversarial network, PI-Trans, which mainly consists of a novel Parallel-ConvMLP module and an Implicit Transformation module at multiple semantic levels. Extensive experimental results show that the proposed PI-Trans achieves the best qualitative and quantitative performance by a large margin compared to the state-of-the-art methods on two challenging datasets. The code will be made available at https://github.com/Amazingren/PI-Trans.
翻訳日:2022-07-12 14:28:02 公開日:2022-07-09
# 視線シフトの本質的なコストによる健康モデルによる次の固定の予測の改善

Improving saliency models' predictions of the next fixation with humans' intrinsic cost of gaze shifts ( http://arxiv.org/abs/2207.04250v1 )

ライセンス: Link先を確認
Florian Kadner, Tobias Thomas, David Hoppe and Constantin A. Rothkopf(参考訳) 画像領域の人間の優先順位付けは、サリエンシマップやスキャンパスモデルを用いて時間不変の方法でモデル化することができる。 しかしながら、どちらのモデルもいくつかのベンチマークやデータセットで着実に改善されているものの、人間の視線を予測するには大きなギャップがある。 本稿では,このギャップを減らすために,次の視線目標を予測するための原則的枠組みを確立する理論的解析と,視線スイッチの人的コストを画像の内容とは無関係に実証的に測定する。 本稿では,任意の静的サリエンシマップを動的履歴依存値マップの列に変換し,視線シフト後に再計算する逐次決定の枠組みにアルゴリズムを導入する。 これらの地図は、 1) 任意の給与モデルによって提供される給与マップ。 2)最近測定された人的コスト関数は、眼球運動の大きさと方向の嗜好を定量化し、 3) 逐次的探索ボーナスは,その後の視線シフト毎に変化する。 この探索ボーナスの空間的範囲と時間的減衰のパラメータは、人間の視線データから推定される。 これら3つのコンポーネントの相対的な貢献は、nssスコアのmit1003データセットに最適化されており、3つの画像データセット上の5つの状態のアートサリエンシーモデルに対して、nssとaucスコアの次の視線目標の予測を著しく上回るほどである。 そこで我々は、人間の視線嗜好の実装を行い、人間の次の視線目標に対する任意の正当性モデルの予測を改善するために使用できる。

The human prioritization of image regions can be modeled in a time invariant fashion with saliency maps or sequentially with scanpath models. However, while both types of models have steadily improved on several benchmarks and datasets, there is still a considerable gap in predicting human gaze. Here, we leverage two recent developments to reduce this gap: theoretical analyses establishing a principled framework for predicting the next gaze target and the empirical measurement of the human cost for gaze switches independently of image content. We introduce an algorithm in the framework of sequential decision making, which converts any static saliency map into a sequence of dynamic history-dependent value maps, which are recomputed after each gaze shift. These maps are based on 1) a saliency map provided by an arbitrary saliency model, 2) the recently measured human cost function quantifying preferences in magnitude and direction of eye movements, and 3) a sequential exploration bonus, which changes with each subsequent gaze shift. The parameters of the spatial extent and temporal decay of this exploration bonus are estimated from human gaze data. The relative contributions of these three components were optimized on the MIT1003 dataset for the NSS score and are sufficient to significantly outperform predictions of the next gaze target on NSS and AUC scores for five state of the art saliency models on three image data sets. Thus, we provide an implementation of human gaze preferences, which can be used to improve arbitrary saliency models' predictions of humans' next gaze targets.
翻訳日:2022-07-12 14:27:43 公開日:2022-07-09
# shdm-net:産業用溶接セマンティクスセグメンテーションネットワークのためのイメージマット付きヒートマップ詳細ガイダンス

SHDM-NET: Heat Map Detail Guidance with Image Matting for Industrial Weld Semantic Segmentation Network ( http://arxiv.org/abs/2207.04297v1 )

ライセンス: Link先を確認
Qi Wang and Jingwu Mei(参考訳) 実際の工業生産においては,鋼板溶接効果の評価が重要であり,溶接部のセグメント化が評価の基礎となっている。 本稿では,溶接領域の自動セグメント化問題を解決するため,ヒートマップ細部案内と画像マッティングを融合した深層学習意味セグメンテーションアルゴリズムに基づく工業用溶接セグメンテーションネットワークを提案する。 既存のセマンティックセグメンテーションネットワークでは、境界情報は高レベル層と低レベル層の両方の特徴を融合させて保存することができる。 しかし,この手法は,低層層における空間情報の不足を招き,不正確なセグメンテーション境界位置を導出する。 この問題に対処する低レベルネットワークにおいて,分割領域境界情報を完全に表現するためのヒートマップに基づく詳細なガイダンスモジュールを提案する。 具体的には、細部を追加して分割境界を予測し、マスクラベルによって生成された境界ヒートマップと照合して平均二乗誤差損失を算出することで、境界情報の表現を強化することができる。 また, セマンティックセグメンテーションの分野では深層学習が大きな成功を収めているが, 符号化・復号過程において, 古典セグメンテーションネットワークによって引き起こされる詳細情報が失われるため, セグメンテーション境界領域の精度は高くない。 本稿では,この問題を解決するために,意味セグメンテーションネットワークのセグメンテーション領域の境界を校正するマッティングアルゴリズムを提案する。 産業用溶接データセットに関する多くの実験を通じて,本手法の有効性を示し,MIOUは97.93%に達した。 この性能は人間の手動セグメンテーション(MIOU 97.96%)に匹敵する。

In actual industrial production, the assessment of the steel plate welding effect is an important task, and the segmentation of the weld section is the basis of the assessment. This paper proposes an industrial weld segmentation network based on a deep learning semantic segmentation algorithm fused with heatmap detail guidance and Image Matting to solve the automatic segmentation problem of weld regions. In the existing semantic segmentation networks, the boundary information can be preserved by fusing the features of both high-level and low-level layers. However, this method can lead to insufficient expression of the spatial information in the low-level layer, resulting in inaccurate segmentation boundary positioning. We propose a detailed guidance module based on heatmaps to fully express the segmented region boundary information in the low-level network to address this problem. Specifically, the expression of boundary information can be enhanced by adding a detailed branch to predict segmented boundary and then matching it with the boundary heat map generated by mask labels to calculate the mean square error loss. In addition, although deep learning has achieved great success in the field of semantic segmentation, the precision of the segmentation boundary region is not high due to the loss of detailed information caused by the classical segmentation network in the process of encoding and decoding process. This paper introduces a matting algorithm to calibrate the boundary of the segmentation region of the semantic segmentation network to solve this problem. Through many experiments on industrial weld data sets, the effectiveness of our method is demonstrated, and the MIOU reaches 97.93%. It is worth noting that this performance is comparable to human manual segmentation ( MIOU 97.96%).
翻訳日:2022-07-12 14:27:02 公開日:2022-07-09
# Snipper: ビデオスニペットにおける同時多人数3次元姿勢推定と予測のための時空間変換器

Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D Pose Estimation Tracking and Forecasting on a Video Snippet ( http://arxiv.org/abs/2207.04320v1 )

ライセンス: Link先を確認
Shihao Zou, Yuanlu Xu, Chao Li, Lingni Ma, Li Cheng, Minh Vo(参考訳) RGBビデオからの多人数ポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。 これら3つのタスクのうち、ポーズ推定とトラッキングは相関しており、トラッキングはモーション予測に不可欠である。 ほとんどの既存の作業は1つのタスクに集中するか、個別のタスクを個別に解くためにカスケードされたメソッドを使う。 本稿では,複数人の3次元ポーズ推定,追跡,動作予測を同時に行うフレームワークであるsnipperを提案する。 具体的には、まず、ビデオスニペットから時空間情報を集約する変形可能な注意機構を提案する。 この変形可能な注意に基づいて、視覚トランスフォーマは、多フレーム画像から時空間的特徴をエンコードし、情報的なポーズ特徴を復号して多人数のポーズクエリを更新することを学習する。 最後に、これらのクエリは、複数人のポーズの軌跡と1つの前方通過における将来の動きを予測するために後退される。 実験では,ポーズ推定,追跡,予測のための最先端のベースラインに匹敵する3つの難解なパブリックデータセットに対して,スナイパーの有効性を示す。 コードは \href{https://github.com/JimmyZou/Snipper}{https://github.com/JimmyZou/Snipper} で公開されている。

Multi-person pose understanding from RGB videos includes three complex tasks: pose estimation, tracking and motion forecasting. Among these three tasks, pose estimation and tracking are correlated, and tracking is crucial to motion forecasting. Most existing works either focus on a single task or employ cascaded methods to solve each individual task separately. In this paper, we propose Snipper, a framework to perform multi-person 3D pose estimation, tracking and motion forecasting simultaneously in a single inference. Specifically, we first propose a deformable attention mechanism to aggregate spatiotemporal information from video snippets. Building upon this deformable attention, a visual transformer is learned to encode the spatiotemporal features from multi-frame images and to decode informative pose features to update multi-person pose queries. Last, these queries are regressed to predict multi-person pose trajectories and future motions in one forward pass. In the experiments, we show the effectiveness of Snipper on three challenging public datasets where a generic model rivals specialized state-of-art baselines for pose estimation, tracking, and forecasting. Code is available at \href{https://github.com/JimmyZou/Snipper}{https://github.com/JimmyZou/Snipper}.
翻訳日:2022-07-12 14:26:29 公開日:2022-07-09
# 視覚シーンの構造化表現の学習

Learning Structured Representations of Visual Scenes ( http://arxiv.org/abs/2207.04200v1 )

ライセンス: Link先を確認
Meng-Jiun Chiou(参考訳) 2つのレベルを橋渡しする中間レベルの表現として、ペアオブジェクト間の視覚的関係のような視覚シーンの構造的表現は、学習において構成モデルに利益をもたらすだけでなく、モデル決定により高い解釈性をもたらすことが示されている。 しかしながら、これらの表現は従来の認識タスクよりもはるかに少ない注意を受けており、多くのオープンな課題が未解決のまま残されている。 本論文では,視覚関係を構造化表現として,個々の画像や映像の内容を記述する方法について検討する。 具体的には、外部知識の取り込み、バイアス低減機構、拡張表現モデルによる改善により、静的画像とビデオの両方で視覚シーンの構造的表現を効果的に構築し、学習する方法について検討する。 この論文の最後には、視覚シーンのための構造化表現学習の今後の方向性に光を当てるためのオープンな課題や制限についても論じる。

As the intermediate-level representations bridging the two levels, structured representations of visual scenes, such as visual relationships between pairwise objects, have been shown to not only benefit compositional models in learning to reason along with the structures but provide higher interpretability for model decisions. Nevertheless, these representations receive much less attention than traditional recognition tasks, leaving numerous open challenges unsolved. In the thesis, we study how machines can describe the content of the individual image or video with visual relationships as the structured representations. Specifically, we explore how structured representations of visual scenes can be effectively constructed and learned in both the static-image and video settings, with improvements resulting from external knowledge incorporation, bias-reducing mechanism, and enhanced representation models. At the end of this thesis, we also discuss some open challenges and limitations to shed light on future directions of structured representation learning for visual scenes.
翻訳日:2022-07-12 13:54:55 公開日:2022-07-09
# 学習型GAN圧縮を用いたビデオ符号化

Video Coding Using Learned Latent GAN Compression ( http://arxiv.org/abs/2207.04324v1 )

ライセンス: Link先を確認
Mustafa Shukor, Bharath Bushan Damodaran, Xu Yao, Pierre Hellier(参考訳) 本稿では,顔映像圧縮の新しいパラダイムを提案する。 我々は、StyleGANのようなGANの生成能力を活用して、イントラ圧縮やインター圧縮を含むビデオの表現と圧縮を行う。 各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。 そのため、画像符号化にエントロピーモデルを最適化できる正規化フローモデルを用いて、二相的潜在表現を学習する。 さらに,他のものよりも効率のよい新たな知覚的損失を提案する。 最後に、予め構築した潜在表現において、残差を有するビデオインターコーディングのためのエントロピーモデルも学習する。 我々の手法(SGANC)は,VTMやAV1といった最先端のコーデックや,最近のディープラーニング技術と比較して,画像やビデオの符号化において,シンプルで高速な訓練結果が得られる。 特に、低ビットレートでの知覚歪みを劇的に最小化する。

We propose in this paper a new paradigm for facial video compression. We leverage the generative capacity of GANs such as StyleGAN to represent and compress a video, including intra and inter compression. Each frame is inverted in the latent space of StyleGAN, from which the optimal compression is learned. To do so, a diffeomorphic latent representation is learned using a normalizing flows model, where an entropy model can be optimized for image coding. In addition, we propose a new perceptual loss that is more efficient than other counterparts. Finally, an entropy model for video inter coding with residual is also learned in the previously constructed latent representation. Our method (SGANC) is simple, faster to train, and achieves better results for image and video coding compared to state-of-the-art codecs such as VTM, AV1, and recent deep learning techniques. In particular, it drastically minimizes perceptual distortion at low bit rates.
翻訳日:2022-07-12 13:39:43 公開日:2022-07-09
# CEG4N:反例のニューラルネットワーク量子化リファインメント

CEG4N: Counter-Example Guided Neural Network Quantization Refinement ( http://arxiv.org/abs/2207.04231v1 )

ライセンス: Link先を確認
Jo\~ao Batista P. Matos Jr. and Iury Bessa and Edoardo Manino and Xidan Song and Lucas C. Cordeiro(参考訳) ニューラルネットワークは学習ベースのソフトウェアシステムの不可欠なコンポーネントである。 しかし、それらの高い計算能力、メモリ、電力要件により、低リソース領域での使用は困難である。 そのため、ニューラルネットワークはデプロイ前に量子化されることが多い。 既存の量子化技術は、ネットワークの精度を低下させる傾向がある。 本稿では,カウンタ-例示型ニューラルネットワーク量子化リファインメント(CEG4N)を提案する。 この手法は探索に基づく量子化と等価検証を組み合わせたもので、前者は計算要求を最小化し、後者はネットワークの出力が量子化後に変化しないことを保証する。 我々はCEG4N~を、大規模・小規模ネットワークを含む様々なベンチマークで評価する。 本手法は,最先端技術よりも最大72%精度のモデルを作成しながら,評価におけるネットワークの定量化に成功した。

Neural networks are essential components of learning-based software systems. However, their high compute, memory, and power requirements make using them in low resources domains challenging. For this reason, neural networks are often quantized before deployment. Existing quantization techniques tend to degrade the network accuracy. We propose Counter-Example Guided Neural Network Quantization Refinement (CEG4N). This technique combines search-based quantization and equivalence verification: the former minimizes the computational requirements, while the latter guarantees that the network's output does not change after quantization. We evaluate CEG4N~on a diverse set of benchmarks, including large and small networks. Our technique successfully quantizes the networks in our evaluation while producing models with up to 72% better accuracy than state-of-the-art techniques.
翻訳日:2022-07-12 13:38:47 公開日:2022-07-09
# TensorIR: 自動テンソル化プログラム最適化のための抽象化

TensorIR: An Abstraction for Automatic Tensorized Program Optimization ( http://arxiv.org/abs/2207.04296v1 )

ライセンス: Link先を確認
Siyuan Feng, Bohan Hou, Hongyi Jin, Wuwei Lin, Junru Shao, Ruihang Lai, Zihao Ye, Lianmin Zheng, Cody Hao Yu, Yong Yu, and Tianqi Chen(参考訳) さまざまなデバイスにディープラーニングモデルをデプロイすることが重要なトピックになっている。 ハードウェア特殊化の波は多次元テンソル計算のための様々な加速プリミティブをもたらす。 これらの新しいアクセラレーションプリミティブは、新しい機械学習モデルとともに、素晴らしいエンジニアリング課題をもたらす。 本稿では,このテンソル計算プリミティブを用いてプログラムを最適化するコンパイラであるTensorIRを提案する。 tensorirは、既存の機械学習コンパイラで使用されるループネスト表現を一般化し、テンソル計算を第一級市民として提供する。 最後に、テンソル計算プリミティブのディープラーニングモデルを自動的に最適化するために、抽象化の上にエンドツーエンドのフレームワークを構築します。 実験の結果、tensorirコンパイルは、ハードウェアバックエンドのテンソル計算プリミティブを自動的に使用し、プラットフォーム間で最先端のハンド最適化システムと競合するパフォーマンスを提供する。

Deploying deep learning models on various devices has become an important topic. The wave of hardware specialization brings a diverse set of acceleration primitives for multi-dimensional tensor computations. These new acceleration primitives, along with the emerging machine learning models, bring tremendous engineering challenges. In this paper, we present TensorIR, a compiler abstraction for optimizing programs with these tensor computation primitives. TensorIR generalizes the loop nest representation used in existing machine learning compilers to bring tensor computation as the first-class citizen. Finally, we build an end-to-end framework on top of our abstraction to automatically optimize deep learning models for given tensor computation primitives. Experimental results show that TensorIR compilation automatically uses the tensor computation primitives for given hardware backends and delivers performance that is competitive to state-of-art hand-optimized systems across platforms.
翻訳日:2022-07-12 13:38:33 公開日:2022-07-09
# beyond visual range air combat simulationsに基づく効果的なミサイル発射のための教師付き機械学習

Supervised Machine Learning for Effective Missile Launch Based on Beyond Visual Range Air Combat Simulations ( http://arxiv.org/abs/2207.04188v1 )

ライセンス: Link先を確認
Joao P. A. Dantas, Andre N. Costa, Felipe L. L. Medeiros, Diego Geraldo, Marcos R. O. A. Maximo and Takashi Yoneyama(参考訳) この研究は、建設シミュレーションの信頼性データを用いた教師付き機械学習手法を比較し、空戦中にミサイルを発射する最も効果的な瞬間を推定する。 予測モデルの改善,正確性,正確性,リコール,f1-scoreについて再サンプリングを行った。 実際、決定木に基づくモデルの顕著な性能と、再サンプリング手法に対する他のアルゴリズムの顕著な感度を識別できる。 最高のf1スコアを持つモデルはそれぞれ0.379と0.465の値を持ち、再サンプリング技術は22.69%増加した。 したがって、望ましい場合、再サンプリング技術はモデルのリコールとf1-scoreをわずかに精度と精度を低下させることなく改善することができる。 したがって、建設シミュレーションにより得られたデータにより、bvr空戦における飛行品質の向上を期待できる機械学習モデルに基づく意思決定支援ツールの開発が可能となり、特定の目標に到達するための攻撃任務の有効性を高めることができる。

This work compares supervised machine learning methods using reliable data from constructive simulations to estimate the most effective moment for launching missiles during air combat. We employed resampling techniques to improve the predictive model, analyzing accuracy, precision, recall, and f1-score. Indeed, we could identify the remarkable performance of the models based on decision trees and the significant sensitivity of other algorithms to resampling techniques. The models with the best f1-score brought values of 0.379 and 0.465 without and with the resampling technique, respectively, which is an increase of 22.69%. Thus, if desirable, resampling techniques can improve the model's recall and f1-score with a slight decline in accuracy and precision. Therefore, through data obtained through constructive simulations, it is possible to develop decision support tools based on machine learning models, which may improve the flight quality in BVR air combat, increasing the effectiveness of offensive missions to hit a particular target.
翻訳日:2022-07-12 13:36:02 公開日:2022-07-09
# scout:spatialtemporal transformers(時空間トランスフォーマー)による医療用合成偽物

SCouT: Synthetic Counterfactuals via Spatiotemporal Transformers for Actionable Healthcare ( http://arxiv.org/abs/2207.04208v1 )

ライセンス: Link先を確認
Bhishma Dedhia, Roshini Balasubramanian and Niraj K. Jha(参考訳) 合成制御法は、ドナーユニットからユニットの対実的現実を推定する強力なデータ駆動手法のクラスを開拓した。 テクニックの中核となるのは、ドナーの成果を組み合わせることによって反事実を生み出す、介入前の期間に合わせた線形モデルである。 しかし、時間に依存しない重みを用いた各インスタンスにおける空間情報の線形結合は、単位間および単位内時間的文脈と実データの複雑な非線形ダイナミクスを捉えることができない。 代わりに, 介入開始前に局所的時空間情報を用いる手法を提案し, 反事実系列を推定する有望な方法を提案する。 この目的のために、特定の位置埋め込み、修正されたデコーダアテンションマスク、および時空間列列列モデルを実行するための新しい事前学習タスクを活用するトランスフォーマーモデルを提案する。 合成データを用いた実験により, 典型的な小型ドナープールにおける手法の有効性と騒音に対する頑健性を示した。 また,全国の公衆衛生政策をシミュレートし,その効果を評価するとともに,無作為化比較試験を支援する喘息薬のサイリコ試験,臨床意思決定の改善とパーソナライズされた治療を促進するフリードライヒ失調症患者に対する医療介入を行うことにより,人口や患者レベルでの実用的な医療の洞察も得る。

The Synthetic Control method has pioneered a class of powerful data-driven techniques to estimate the counterfactual reality of a unit from donor units. At its core, the technique involves a linear model fitted on the pre-intervention period that combines donor outcomes to yield the counterfactual. However, linearly combining spatial information at each time instance using time-agnostic weights fails to capture important inter-unit and intra-unit temporal contexts and complex nonlinear dynamics of real data. We instead propose an approach to use local spatiotemporal information before the onset of the intervention as a promising way to estimate the counterfactual sequence. To this end, we suggest a Transformer model that leverages particular positional embeddings, a modified decoder attention mask, and a novel pre-training task to perform spatiotemporal sequence-to-sequence modeling. Our experiments on synthetic data demonstrate the efficacy of our method in the typical small donor pool setting and its robustness against noise. We also generate actionable healthcare insights at the population and patient levels by simulating a state-wide public health policy to evaluate its effectiveness, an in silico trial for asthma medications to support randomized controlled trials, and a medical intervention for patients with Friedreich's ataxia to improve clinical decision-making and promote personalized therapy.
翻訳日:2022-07-12 13:35:47 公開日:2022-07-09
# Weisfeiler-Lehmanサブツリー間の$L_1$-近似木編集距離に基づくWassersteinグラフ距離

Wasserstein Graph Distance based on $L_1$-Approximated Tree Edit Distance between Weisfeiler-Lehman Subtrees ( http://arxiv.org/abs/2207.04216v1 )

ライセンス: Link先を確認
Zhongxi Fang, Jianming Huang, Xun Su, Hiroyuki Kasai(参考訳) Weisfeiler-Lehman(WL)テストは、グラフカーネル、メトリクス、ニューラルネットワークに広く適用されている。 しかし、グラフの一貫性のみを考慮し、構造情報の弱い記述力をもたらす。 これにより,適用手法の性能向上が制限される。 さらに、WLテストで定義されるグラフ間の類似性と距離は粗い測定である。 我々の知る限り、この論文はこれらの事実を初めて明らかにし、ワッサーシュタインWL部分木(WWLS)距離と呼ばれる計量を定義する。 我々は,ノード近傍の構造情報としてwlサブツリーを導入し,各ノードに割り当てる。 次に、新しいグラフ埋め込み空間を$L_1$-approximated tree edit distance (L_1$-TED): $L_1$ 空間上のノード特徴ベクトル間の差のノルムは、これらのノード間の$L_1$-TEDである。 さらに,グラフ埋め込みのための高速アルゴリズムを提案する。 最後に、ワッサーシュタイン距離を用いて、$L_1$-TEDをグラフレベルに反映する。 WWLSは従来のメトリクスでは難しい構造の変化を捉えることができる。 いくつかのグラフ分類およびメトリック検証実験でその性能を実証する。

The Weisfeiler-Lehman (WL) test has been widely applied to graph kernels, metrics, and neural networks. However, it considers only the graph consistency, resulting in the weak descriptive power of structural information. Thus, it limits the performance improvement of applied methods. In addition, the similarity and distance between graphs defined by the WL test are in coarse measurements. To the best of our knowledge, this paper clarifies these facts for the first time and defines a metric we call the Wasserstein WL subtree (WWLS) distance. We introduce the WL subtree as the structural information in the neighborhood of nodes and assign it to each node. Then we define a new graph embedding space based on $L_1$-approximated tree edit distance ($L_1$-TED): the $L_1$ norm of the difference between node feature vectors on the space is the $L_1$-TED between these nodes. We further propose a fast algorithm for graph embedding. Finally, we use the Wasserstein distance to reflect the $L_1$-TED to the graph level. The WWLS can capture small changes in structure that are difficult with traditional metrics. We demonstrate its performance in several graph classification and metric validation experiments.
翻訳日:2022-07-12 13:35:20 公開日:2022-07-09
# Few-shot Model-Agnostic Meta-Learning のための擬似ラベルの生成

Generating Pseudo-labels Adaptively for Few-shot Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2207.04217v1 )

ライセンス: Link先を確認
Guodong Liu, Tongling Wang, Shuoxi Zhang, Kun He(参考訳) Model-Agnostic Meta-Learning (MAML) は、AnILやBOILなど、多くのフォローアップ活動に刺激を与えてきた、数少ない学習方法である。 しかし、帰納的手法として、MAMLはクエリセットの情報を完全に活用できず、高い一般性を得る可能性を制限する。 この問題に対処するために,疑似ラベルを適応的に生成し,MAMLファミリの性能を向上させる,シンプルで効果的な手法を提案する。 提案手法はGP-MAML (Generative Pseudo-label based MAML)、GP-ANIL、GP-BOILと呼ばれ、クエリセットの統計を利用して新しいタスクの性能を向上させる。 具体的には、擬似ラベルを適応的に追加し、クエリセットからサンプルを抽出し、選択したクエリサンプルを使用してモデルを再訓練する。 gpシリーズは疑似クエリセットの情報を使用して、メタテスト中にネットワークを再トレーニングすることもできる。 Transductive Propagation Network (TPN)のようなトランスダクティブな手法は、この目標を達成するのに苦労する。

Model-Agnostic Meta-Learning (MAML) is a famous few-shot learning method that has inspired many follow-up efforts, such as ANIL and BOIL. However, as an inductive method, MAML is unable to fully utilize the information of query set, limiting its potential of gaining higher generality. To address this issue, we propose a simple yet effective method that generates psuedo-labels adaptively and could boost the performance of the MAML family. The proposed methods, dubbed Generative Pseudo-label based MAML (GP-MAML), GP-ANIL and GP-BOIL, leverage statistics of the query set to improve the performance on new tasks. Specifically, we adaptively add pseudo labels and pick samples from the query set, then re-train the model using the picked query samples together with the support set. The GP series can also use information from the pseudo query set to re-train the network during the meta-testing. While some transductive methods, such as Transductive Propagation Network (TPN), struggle to achieve this goal.
翻訳日:2022-07-12 13:35:03 公開日:2022-07-09
# 双曲型平滑化によるファジィクラスタリング

Fuzzy Clustering by Hyperbolic Smoothing ( http://arxiv.org/abs/2207.04261v1 )

ライセンス: Link先を確認
David Masis, Esteban Segura, Javier Trejos, Adilson Xavier(参考訳) 本研究では,大規模データセットのファジィクラスタを構築するための新しい手法を提案する。 通常の2乗和規準は緩和されるので、良いファジィ分割の探索は、古典的な方法 \cite{Hartigan} のように組合せ空間ではなく連続空間上で行われる。 この平滑化は、無限クラスの微分可能関数を用いて、強非微分可能問題から低次元の制約なしに最適化の微分可能部分問題への変換を可能にする。 アルゴリズムの実装には,統計ソフトウェア $r$ を用いた。その結果は,bezdek が提案した従来のファジィ $c$-means 法と比較した。

We propose a novel method for building fuzzy clusters of large data sets, using a smoothing numerical approach. The usual sum-of-squares criterion is relaxed so the search for good fuzzy partitions is made on a continuous space, rather than a combinatorial space as in classical methods \cite{Hartigan}. The smoothing allows a conversion from a strongly non-differentiable problem into differentiable subproblems of optimization without constraints of low dimension, by using a differentiable function of infinite class. For the implementation of the algorithm we used the statistical software $R$ and the results obtained were compared to the traditional fuzzy $C$--means method, proposed by Bezdek.
翻訳日:2022-07-12 13:33:06 公開日:2022-07-09
# ランダム林における注意と自己注意

Attention and Self-Attention in Random Forests ( http://arxiv.org/abs/2207.04293v1 )

ライセンス: Link先を確認
Lev V. Utkin and Andrei V. Konstantinov(参考訳) 回帰問題の解法として,注意とセルフアテンション機構を併用したランダム林の新しいモデルを提案する。 これらのモデルは、ナダラヤ・ワトソン核回帰とハマーの汚染モデルをランダム森林に適用することに由来する注意に基づくランダム森林の拡張と見なすことができる。 このセルフアテンションは、ツリー予測の依存性を捉え、ランダムフォレストにおけるノイズや異常な予測を取り除くことを目的としている。 自己注意モジュールは、重みを計算するための注意モジュールと共同で訓練される。 注意重みのトレーニングプロセスは、単一の二次的あるいは線形最適化問題に還元されることが示されている。 一般的なアプローチの3つの修正を提案し、比較した。 ランダムな森林に対する特定の多頭部自己注意も考慮する。 モデルのカーネルパラメータと汚染パラメータを含むチューニングパラメータを変更することで、セルフアテンションのヘッドを得る。 種々のデータセットを用いた数値実験により提案したモデルを示し,自己注意の補足によって多くのデータセットのモデル性能が向上することを示す。

New models of random forests jointly using the attention and self-attention mechanisms are proposed for solving the regression problem. The models can be regarded as extensions of the attention-based random forest whose idea stems from applying a combination of the Nadaraya-Watson kernel regression and the Huber's contamination model to random forests. The self-attention aims to capture dependencies of the tree predictions and to remove noise or anomalous predictions in the random forest. The self-attention module is trained jointly with the attention module for computing weights. It is shown that the training process of attention weights is reduced to solving a single quadratic or linear optimization problem. Three modifications of the general approach are proposed and compared. A specific multi-head self-attention for the random forest is also considered. Heads of the self-attention are obtained by changing its tuning parameters including the kernel parameters and the contamination parameter of models. Numerical experiments with various datasets illustrate the proposed models and show that the supplement of the self-attention improves the model performance for many datasets.
翻訳日:2022-07-12 13:32:52 公開日:2022-07-09
# SiaTrans:深度画像分類によるRGB-D能動物体検出のためのシームス変圧器ネットワーク

SiaTrans: Siamese Transformer Network for RGB-D Salient Object Detection with Depth Image Classification ( http://arxiv.org/abs/2207.04224v1 )

ライセンス: Link先を確認
Xingzhao Jia and Dongye Changlei and Yanjun Peng(参考訳) RGB-D SODは、深度情報を用いて、挑戦的なシーンを処理し、高品質な唾液マップを得る。 既存のRGB-Dの精度検出手法は、直接深度情報を拡散する戦略を圧倒的に頼っている。 これらの手法は様々なクロスモダリティ・フュージョン戦略による塩分予測の精度を向上させるが、低画質の深度画像による誤報は塩分予測結果に影響を及ぼす可能性がある。 この問題に対処するために,SODのトレーニングと同時に深度画像品質分類のトレーニングを可能にする新しいRGB-D Salient Object Detection Model(SiaTrans)を提案する。 SiaTransは、RGBとサルエントオブジェクトの深度画像の共通情報に基づいて、共有重みパラメータを持つシームズトランスネットワークをエンコーダとして使用し、バッチ次元に連結したRGBと深度特徴を抽出し、性能を損なうことなく宇宙資源を節約する。 SiaTransは、バックボーンネットワーク(T2T-ViT)のClassトークンを使用して、トークンシーケンスが唾液検出タスクで進行することを防ぐことなく、深さ画像の品質を分類する。 トランスフォーマーベースの相互モード融合モジュール(CMF)は、RGBと深度情報を効果的に融合することができる。 また、テスト工程では、深度画像の品質分類信号に応じて、相互モダリティ情報を融合するか、RGB情報を強化することができる。 設計したCMFとデコーダの最大の利点は、RGBとRGB-D情報の整合性を維持することである: SiaTransは、テスト中の分類信号に従って、同じモデルパラメータの下でRGB-DまたはRGB情報をデコードする。 9つのrgb-d sodベンチマークデータセットに関する包括的実験により、siatransは最新の最先端手法と比較して、全体的な性能と計算量が最も低いことが示されている。

RGB-D SOD uses depth information to handle challenging scenes and obtain high-quality saliency maps. Existing state-of-the-art RGB-D saliency detection methods overwhelmingly rely on the strategy of directly fusing depth information. Although these methods improve the accuracy of saliency prediction through various cross-modality fusion strategies, misinformation provided by some poor-quality depth images can affect the saliency prediction result. To address this issue, a novel RGB-D salient object detection model (SiaTrans) is proposed in this paper, which allows training on depth image quality classification at the same time as training on SOD. In light of the common information between RGB and depth images on salient objects, SiaTrans uses a Siamese transformer network with shared weight parameters as the encoder and extracts RGB and depth features concatenated on the batch dimension, saving space resources without compromising performance. SiaTrans uses the Class token in the backbone network (T2T-ViT) to classify the quality of depth images without preventing the token sequence from going on with the saliency detection task. Transformer-based cross-modality fusion module (CMF) can effectively fuse RGB and depth information. And in the testing process, CMF can choose to fuse cross-modality information or enhance RGB information according to the quality classification signal of the depth image. The greatest benefit of our designed CMF and decoder is that they maintain the consistency of RGB and RGB-D information decoding: SiaTrans decodes RGB-D or RGB information under the same model parameters according to the classification signal during testing. Comprehensive experiments on nine RGB-D SOD benchmark datasets show that SiaTrans has the best overall performance and the least computation compared with recent state-of-the-art methods.
翻訳日:2022-07-12 13:30:24 公開日:2022-07-09
# 自然言語における胸部X線診断

Explaining Chest X-ray Pathologies in Natural Language ( http://arxiv.org/abs/2207.04343v1 )

ライセンス: Link先を確認
Maxime Kayser, Cornelius Emde, Oana-Maria Camburu, Guy Parsons, Bartlomiej Papiez, Thomas Lukasiewicz(参考訳) ほとんどのディープラーニングアルゴリズムは、臨床実践におけるデプロイメントを制限する予測の説明を欠いている。 説明可能性を改善するアプローチ、特に医用画像では、限られた情報を伝達したり、過度に安心したり、堅牢性を欠いたりすることがしばしば示されている。 本研究では,医学画像上の予測を正当化するための自然言語説明(NLE)作成の課題を紹介する。 NLEは人間フレンドリで包括的で、本質的に説明可能なモデルのトレーニングを可能にする。 この目的のために,NLEを用いた最初の大規模医療画像データセットMIMIC-NLEを紹介する。 胸部X線所見や胸部胸部X線所見を説明できる38,000以上のNLEが含まれている。 本稿では,この課題を解決するための一般的なアプローチを提案し,臨床評価を含むいくつかのアーキテクチャを評価する。

Most deep learning algorithms lack explanations for their predictions, which limits their deployment in clinical practice. Approaches to improve explainability, especially in medical imaging, have often been shown to convey limited information, be overly reassuring, or lack robustness. In this work, we introduce the task of generating natural language explanations (NLEs) to justify predictions made on medical images. NLEs are human-friendly and comprehensive, and enable the training of intrinsically explainable models. To this goal, we introduce MIMIC-NLE, the first, large-scale, medical imaging dataset with NLEs. It contains over 38,000 NLEs, which explain the presence of various thoracic pathologies and chest X-ray findings. We propose a general approach to solve the task and evaluate several architectures on this dataset, including via clinician assessment.
翻訳日:2022-07-12 13:07:55 公開日:2022-07-09
# 特徴空間における形状符号付き距離関数の「ゼロレベル集合」ショット学習

Few 'Zero Level Set'-Shot Learning of Shape Signed Distance Functions in Feature Space ( http://arxiv.org/abs/2207.04161v1 )

ライセンス: Link先を確認
Amine Ouasfi and Adnane Boukhayma(参考訳) 我々は,最近普及した暗黙的ニューラル形状表現に基づく,点雲からの学習に基づく形状再構成の新しいアイデアを探求する。 特徴空間における暗黙的神経サイン付き距離関数の数少ない学習としてこの問題を取り上げ,勾配に基づくメタラーニングを用いてアプローチする。 入力ポイントクラウドを与えられた特徴空間を構築するために畳み込みエンコーダを使用します。 暗黙デコーダは、この特徴空間に表される点について符号付き距離値を予測する。 入力ポイントクラウド、すなわちターゲットシェープ関数のゼロレベルセットからサンプルを設定することで、わずかな学習用語でサポート(つまりコンテキスト)としてデコーダを訓練し、その重みをいくつかの(5)チューニングステップでこのコンテキストの基盤となる形状に適応させることができる。 そこで本研究では,特徴エンコーディングとメタラーニングという,2種類の暗黙的ニューラルネットワークコンディショニング機構を初めて組み合わせた。 数値的・質的評価により,疎点雲からの暗黙的再構成の文脈において,提案手法,すなわち特徴空間におけるメタラーニング,すなわち,標準教師あり学習,ユークリッド空間におけるメタラーニングよりも優れ,かつ,高速な推論が可能となった。

We explore a new idea for learning based shape reconstruction from a point cloud, based on the recently popularized implicit neural shape representations. We cast the problem as a few-shot learning of implicit neural signed distance functions in feature space, that we approach using gradient based meta-learning. We use a convolutional encoder to build a feature space given the input point cloud. An implicit decoder learns to predict signed distance values given points represented in this feature space. Setting the input point cloud, i.e. samples from the target shape function's zero level set, as the support (i.e. context) in few-shot learning terms, we train the decoder such that it can adapt its weights to the underlying shape of this context with a few (5) tuning steps. We thus combine two types of implicit neural network conditioning mechanisms simultaneously for the first time, namely feature encoding and meta-learning. Our numerical and qualitative evaluation shows that in the context of implicit reconstruction from a sparse point cloud, our proposed strategy, i.e. meta-learning in feature space, outperforms existing alternatives, namely standard supervised learning in feature space, and meta-learning in euclidean space, while still providing fast inference.
翻訳日:2022-07-12 13:06:05 公開日:2022-07-09
# スマートマルチテナント連合学習

Smart Multi-tenant Federated Learning ( http://arxiv.org/abs/2207.04202v1 )

ライセンス: Link先を確認
Weiming Zhuang, Yonggang Wen, Shuai Zhang(参考訳) Federated Learning(FL)は、分散型エッジデバイス上でのその場でモデルトレーニングを可能にする、新興の分散機械学習手法である。 しかし、複数の同時トレーニングアクティビティは、リソース制約されたデバイスをオーバーロードする可能性がある。 本研究では,同時学習を効果的に調整し実行するためのマルチテナントflシステムであるmuflを提案する。 まず、マルチテナントflの問題を定式化し、マルチテナントflのシナリオを定義し、アクティビティを順次訓練してベースラインを形成するバニラマルチテナントflシステムを導入する。 次に,マルチテナントFLを最適化する2つの手法を提案する。 1) 活動の統合は、訓練活動をマルチタスクアーキテクチャで一つの活動にマージする。 2) ラウンドトレーニング後, グループ内の活動の相乗効果が向上するなど, グループ間の親和性を活用してグループに分けた。 大規模な実験では、MuFLは他の方法よりも40%少ないエネルギーを消費することを示した。 この取り組みがコミュニティにさらなる研究と、マルチテナントFLの最適化を促すことを願っている。

Federated learning (FL) is an emerging distributed machine learning method that empowers in-situ model training on decentralized edge devices. However, multiple simultaneous training activities could overload resource-constrained devices. In this work, we propose a smart multi-tenant FL system, MuFL, to effectively coordinate and execute simultaneous training activities. We first formalize the problem of multi-tenant FL, define multi-tenant FL scenarios, and introduce a vanilla multi-tenant FL system that trains activities sequentially to form baselines. Then, we propose two approaches to optimize multi-tenant FL: 1) activity consolidation merges training activities into one activity with a multi-task architecture; 2) after training it for rounds, activity splitting divides it into groups by employing affinities among activities such that activities within a group have better synergy. Extensive experiments demonstrate that MuFL outperforms other methods while consuming 40% less energy. We hope this work will inspire the community to further study and optimize multi-tenant FL.
翻訳日:2022-07-12 13:05:37 公開日:2022-07-09
# バイオメディカルシグナルと画像処理における説明可能なAI(XAI) - 約束と挑戦

Explainable AI (XAI) in Biomedical Signal and Image Processing: Promises and Challenges ( http://arxiv.org/abs/2207.04295v1 )

ライセンス: Link先を確認
Guang Yang, Arvind Rao, Christine Fernandez-Maloigne, Vince Calhoun, Gloria Menegaz(参考訳) 人工知能は分野や分野にまたがって普及し、生物医学的な画像や信号処理も例外ではない。 この話題に対する関心の高まりは、指数的な研究努力に反映される膨大な研究活動を引き起こしている。 大規模で多様なバイオメディカルデータの研究を通じて、機械学習モデルとディープラーニングモデルは、モデリング、セグメンテーション、登録、分類、合成といった様々なタスクに革命をもたらし、従来の技術より優れている。 しかし, 生物学的・臨床的に解釈可能な情報への翻訳が困難であることは, 現場での活用を妨げている。 説明可能なAI(XAI)は、モデルを解釈し、説明を提供することによって、この翻訳ギャップを埋めようとしている。 これまでに様々なソリューションが提案されており、コミュニティからの関心が高まっている。 本稿では,生物医学データ処理におけるxaiの概要を提供し,2022年3月に発行予定のieee信号処理マガジンの生物医学画像と信号処理における深層学習に関する特集号を提示する。

Artificial intelligence has become pervasive across disciplines and fields, and biomedical image and signal processing is no exception. The growing and widespread interest on the topic has triggered a vast research activity that is reflected in an exponential research effort. Through study of massive and diverse biomedical data, machine and deep learning models have revolutionized various tasks such as modeling, segmentation, registration, classification and synthesis, outperforming traditional techniques. However, the difficulty in translating the results into biologically/clinically interpretable information is preventing their full exploitation in the field. Explainable AI (XAI) attempts to fill this translational gap by providing means to make the models interpretable and providing explanations. Different solutions have been proposed so far and are gaining increasing interest from the community. This paper aims at providing an overview on XAI in biomedical data processing and points to an upcoming Special Issue on Deep Learning in Biomedical Image and Signal Processing of the IEEE Signal Processing Magazine that is going to appear in March 2022.
翻訳日:2022-07-12 13:05:20 公開日:2022-07-09
# BOSS:ロバストコンテンツに基づく画像検索のためのハイブリッド対実学習によるボトムアップクロスモーダルセマンティック合成

BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval ( http://arxiv.org/abs/2207.04211v1 )

ライセンス: Link先を確認
Wenqiao Zhang, Jiannan Guo, Mengze Li, Haochen Shi, Shengyu Zhang, Juncheng Li, Siliang Tang, Yueting Zhuang(参考訳) コンテンツベース画像検索(cir)は,インターネット検索やファッション検索など,現実世界のさまざまなアプリケーションに影響を与える可能性のあるサンプル画像と補完テキストの合成を併用することにより,対象画像の検索を目標とする。 このシナリオでは、入力画像は、検索の直感的なコンテキストと背景として機能し、対応する言語は、目的とする対象画像を取得するために、クエリ画像の特定の特性をどのように変更すべきかに関する新しい特徴を明示的に要求する。 クロスグラニュラーなセマンティックアップデートを取り入れることで、複合画像テキスト表現の学習と理解を必要とするため、このタスクは難しい。 本稿では,従来見過ごされてきた2つの視点から CIR タスクに新たな光を当てることにより,CIR タスクに新たな光を当てるハイブリッド対物訓練フレームワークを用いた,新しい \underline{\textbf{B}}ottom-up cr\underline{\textbf{O}}ss-modal \underline{\textbf{S}}emantic compo\underline{\textbf{S}}ition (\textbf{BOSS}) を提案する。 一方,下位の局所的特徴から上位のグローバルセマンティクスへのクロスモーダル埋め込みの暗黙的相互作用と構成を活用し,効果的な対象画像検索のために,言語セマンティクスを条件とした視覚的表現の保存と変換を行う。 一方で,類似クエリに対するモデルのあいまいさを低減できるハイブリッドな反事実訓練戦略を考案する。

Content-Based Image Retrieval (CIR) aims to search for a target image by concurrently comprehending the composition of an example image and a complementary text, which potentially impacts a wide variety of real-world applications, such as internet search and fashion retrieval. In this scenario, the input image serves as an intuitive context and background for the search, while the corresponding language expressly requests new traits on how specific characteristics of the query image should be modified in order to get the intended target image. This task is challenging since it necessitates learning and understanding the composite image-text representation by incorporating cross-granular semantic updates. In this paper, we tackle this task by a novel \underline{\textbf{B}}ottom-up cr\underline{\textbf{O}}ss-modal \underline{\textbf{S}}emantic compo\underline{\textbf{S}}ition (\textbf{BOSS}) with Hybrid Counterfactual Training framework, which sheds new light on the CIR task by studying it from two previously overlooked perspectives: \emph{implicitly bottom-up composition of visiolinguistic representation} and \emph{explicitly fine-grained correspondence of query-target construction}. On the one hand, we leverage the implicit interaction and composition of cross-modal embeddings from the bottom local characteristics to the top global semantics, preserving and transforming the visual representation conditioned on language semantics in several continuous steps for effective target image search. On the other hand, we devise a hybrid counterfactual training strategy that can reduce the model's ambiguity for similar queries.
翻訳日:2022-07-12 13:04:15 公開日:2022-07-09
# 非ジェネリックテキストを生成するマルチモーダル視覚言語モデルに向けて

Towards Multimodal Vision-Language Models Generating Non-Generic Text ( http://arxiv.org/abs/2207.04174v1 )

ライセンス: Link先を確認
Wes Robbins, Zanyar Zohourianshahzadi, and Jugal Kalita(参考訳) 視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述テキストを生成する。 生成したテキストは正確で構文的に正しいかもしれないが、しばしば過度に一般的である。 これに対処するために、最近の研究では、光学的文字認識を用いて画像から抽出したテキストで視覚情報を補完している。 本研究では,視覚言語モデルが,画像から抽出できるが,現在のモデルでは利用できない付加的な情報から利益を享受できると主張する。 我々は、複数の補助分類器から関連する情報を受け入れるために、以前のマルチモーダルフレームワークを変更します。 特に,トークンの付加集合として人名に着目し,人名のキャプションを容易にするための新しい画像キャプチャデータセットを作成する。 データセットPAC(Politicians and Athletes in Captions)は、よく知られた人々のキャプション付きイメージで構成されている。 このデータセットで事前学習されたモデルを微調整することで、限られたデータでトレーニングすることで、顔認証トークンを生成テキストに自然に統合できるモデルを示す。 PACデータセットでは、コレクションとベースラインベンチマークスコアについて議論する。

Vision-language models can assess visual context in an image and generate descriptive text. While the generated text may be accurate and syntactically correct, it is often overly general. To address this, recent work has used optical character recognition to supplement visual information with text extracted from an image. In this work, we contend that vision-language models can benefit from additional information that can be extracted from an image, but are not used by current models. We modify previous multimodal frameworks to accept relevant information from any number of auxiliary classifiers. In particular, we focus on person names as an additional set of tokens and create a novel image-caption dataset to facilitate captioning with person names. The dataset, Politicians and Athletes in Captions (PAC), consists of captioned images of well-known people in context. By fine-tuning pretrained models with this dataset, we demonstrate a model that can naturally integrate facial recognition tokens into generated text by training on limited data. For the PAC dataset, we provide a discussion on collection and baseline benchmark scores.
翻訳日:2022-07-12 13:01:24 公開日:2022-07-09
# qkvaグリッド: イメージパースペクティブとスタックed detrの注目

QKVA grid: Attention in Image Perspective and Stacked DETR ( http://arxiv.org/abs/2207.04313v1 )

ライセンス: Link先を確認
Wenyuan Sheng(参考訳) 本稿では,標準DETRの主要な概念を継承するStacked-DETR(SDETR)というモデルを提案する。 トレーニングコストの簡易化と,パフォーマンス向上のためのスタックアーキテクチャの導入という,DECを2つの方向に改善する。 前者には、注意ブロックの内部に焦点をあて、注意のプロセスを記述するための新しい視点であるQKVAグリッドを提案する。 これにより、画像問題に対する注意の働き方や、マルチヘッドの効果をさらに深めることができる。 これら2つのアイデアは、シングルヘッドエンコーダ層の設計に寄与している。 後者では、SDETRはDETRに対して大きな改善(+1.1AP、+3.4AP)に達する。 SDETRは、特に小さなオブジェクトのパフォーマンスにおいて、最適化されたFaster R-CNNベースラインにより良い結果をもたらす。 私たちの変更はDETRのコードに基づいています。 トレーニングコードと事前トレーニングされたモデルはhttps://github.com/shengwenyuan/sdetr.comで入手できる。

We present a new model named Stacked-DETR(SDETR), which inherits the main ideas in canonical DETR. We improve DETR in two directions: simplifying the cost of training and introducing the stacked architecture to enhance the performance. To the former, we focus on the inside of the Attention block and propose the QKVA grid, a new perspective to describe the process of attention. By this, we can step further on how Attention works for image problems and the effect of multi-head. These two ideas contribute the design of single-head encoder-layer. To the latter, SDETR reaches great improvement(+1.1AP, +3.4APs) to DETR. Especially to the performance on small objects, SDETR achieves better results to the optimized Faster R-CNN baseline, which was a shortcoming in DETR. Our changes are based on the code of DETR. Training code and pretrained models are available at https://github.com/shengwenyuan/sdetr.
翻訳日:2022-07-12 13:01:07 公開日:2022-07-09
# スケールしたベータポリシによる市場形成

Market Making with Scaled Beta Policies ( http://arxiv.org/abs/2207.03352v2 )

ライセンス: Link先を確認
Joseph Jerome, Gregory Palmer, and Rahul Savani(参考訳) 本稿では,注文型市場におけるマーケットメーカの行動の新たな表現を紹介する。 この表現は、スケールされたベータディストリビューションを使用し、市場作りのための人工知能で取られた3つのアプローチを一般化している。 ラダー戦略は連続した価格の間隔で均一なボリュームを配置する。 スケールされたベータ配布ベースのポリシーはこれらを一般化し、ボリュームを価格間隔でスキューすることができる。 この柔軟性は、市場メーカが直面している重要な課題の1つである在庫管理に有用であることを示す。 本稿では、まず、より柔軟なベータベースのアクションとはしご戦略の特殊なケースを比較し、次に、簡単な固定分布の性能を調査し、最後に、マーケットメーカが取得した署名された在庫に応じて、アクションを連続的に調整するシンプルで直感的な動的制御ポリシーを考案し、評価する。 実験的な評価はすべて、各面に50レベルの履歴データに基づく高忠実度リミテッドオーダーブックシミュレータを使用する。

This paper introduces a new representation for the actions of a market maker in an order-driven market. This representation uses scaled beta distributions, and generalises three approaches taken in the artificial intelligence for market making literature: single price-level selection, ladder strategies and "market making at the touch". Ladder strategies place uniform volume across an interval of contiguous prices. Scaled beta distribution based policies generalise these, allowing volume to be skewed across the price interval. We demonstrate that this flexibility is useful for inventory management, one of the key challenges faced by a market maker. In this paper, we conduct three main experiments: first, we compare our more flexible beta-based actions with the special case of ladder strategies; then, we investigate the performance of simple fixed distributions; and finally, we devise and evaluate a simple and intuitive dynamic control policy that adjusts actions in a continuous manner depending on the signed inventory that the market maker has acquired. All empirical evaluations use a high-fidelity limit order book simulator based on historical data with 50 levels on each side.
翻訳日:2022-07-12 11:04:43 公開日:2022-07-09