このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221005となっている論文です。

PDF登録状況(公開日: 20221005)

TitleAuthorsAbstract論文公表日・翻訳日
# 3次元ファブリック画像表現ネットワークを用いたユニバーサル医用画像分割

Universal Medical Image Segmentation using 3D Fabric Image Representation Encoding Networks ( http://arxiv.org/abs/2006.15578v3 )

ライセンス: Link先を確認
Siyu Liu, Wei Dai, Craig Engstrom, Jurgen Fripp, Stuart Crozier, Jason A. Dowling and Shekhar S. Chandra(参考訳) データ不足は、医学画像分割に適用されるディープラーニングの一般的な問題である。 この問題に対処するひとつの方法は、複数のデータセットを大きなトレーニングセットに結合し、これらのデータセットから同時に学習する統一ネットワークをトレーニングすることだ。 本研究では,Fabric Image Representation Encoding Network (FIRENet) という,同時3次元マルチデータセットセグメンテーションのためのネットワークを提案する。 医療画像データセットはサイズとボクセル間隔が極めて多様であるため、FIRENetは3Dファブリックラテントモジュールを使用して、多数のマルチスケールサブアーキテクチャを自動的にカプセル化する。 これらのサブアーキテクチャの最適組み合わせは暗黙的に学習され、多くのデータセットのパフォーマンスが向上する。 多様な3次元特徴抽出をさらに促進するため、各ファブリックノード内にアトース空間ピラミッドプーリングの3次元拡張を用いて、リッチな画像特徴のより詳細なカバレッジを提供する。 本研究では, FIRENetをヒト膝関節, 肩関節, 腰関節の複数の筋骨格データセットを含む3次元普遍骨分割に適用した。 FIRENetは、全ての関節データセットで優れた普遍的な骨分割性能を示した。 転送学習を使用する場合、FIRENetはトレーニング前(前立腺データセット)に優れた単一データセットのパフォーマンスと、骨分割性能を著しく改善した。 以下の実験では、10のメディカルセグメンテーションdecathlon(msd)チャレンジデータセットを同時にセグメンテーションする。 FIRENetは、画像サイズや特徴が多様であるにもかかわらず、優れたマルチデータセットセグメンテーション結果を示し、データセット間適応性を示した。 これらの実験全体で、FIRENetの汎用設計は、マルチデータセットセグメンテーションを1つの統一ネットワークに合理化した。 伝統的に、同様のタスクは複数の個別に訓練されたネットワークを必要とする。

Data scarcity is a common issue for deep learning applied to medical image segmentation. One way to address this problem is to combine multiple datasets into a large training set and train a unified network that simultaneously learns from these datasets. This work proposes one such network, Fabric Image Representation Encoding Network (FIRENet), for simultaneous 3D multi-dataset segmentation. As medical image datasets can be extremely diverse in size and voxel spacing, FIRENet uses a 3D fabric latent module, which automatically encapsulates many multi-scale sub-architectures. An optimal combination of these sub-architectures is implicitly learnt to enhance the performance across many datasets. To further promote diverse-scale 3D feature extraction, a 3D extension of atrous spatial pyramid pooling is used within each fabric node to provide a finer coverage of rich-scale image features. In this study, FIRENet was first applied to 3D universal bone segmentation involving multiple musculoskeletal datasets of the human knee, shoulder and hip joints. FIRENet exhibited excellent universal bone segmentation performance across all the different joint datasets. When transfer learning is used, FIRENet exhibited both excellent single dataset performance during pre-training (on a prostate dataset) as well as significantly improved universal bone segmentation performance. In a following experiment which involves the simultaneous segmentation of the 10 Medical Segmentation Decathlon (MSD) challenge datasets. FIRENet produced good multi-dataset segmentation results and demonstrated excellent inter-dataset adaptability despite highly diverse image sizes and features. Across these experiments, FIRENet's versatile design streamlined multi-dataset segmentation into one unified network. Whereas traditionally, similar tasks would often require multiple separately trained networks.
翻訳日:2022-11-16 03:01:21 公開日:2022-10-05
# 機械学習アルゴリズムのハイパーパラメータ最適化について:理論と実践

On Hyperparameter Optimization of Machine Learning Algorithms: Theory and Practice ( http://arxiv.org/abs/2007.15745v3 )

ライセンス: Link先を確認
Li Yang, Abdallah Shami(参考訳) 機械学習アルゴリズムは様々なアプリケーションや領域で広く使われている。 機械学習モデルをさまざまな問題に適合させるためには、ハイパーパラメータをチューニングする必要がある。 マシンラーニングモデルの最適なハイパーパラメータ構成を選択することは、モデルのパフォーマンスに直接影響します。 機械学習アルゴリズムと適切なハイパーパラメータ最適化技術に関する深い知識を必要とすることが多い。 いくつかの自動最適化手法が存在するが、異なる種類の問題に適用した場合の長所と短所は異なる。 本稿では,一般的な機械学習モデルのハイパーパラメータを最適化する。 本稿では,最先端の最適化手法をいくつか紹介し,機械学習アルゴリズムに適用する方法について論じる。 ハイパーパラメータ最適化問題のために開発された利用可能なライブラリやフレームワークが数多く提供されており、ハイパーパラメータ最適化研究のオープンチャレンジも本論文で議論されている。 さらに,様々な最適化手法の性能を比較するためのベンチマークデータセットについて実験を行い,ハイパーパラメータ最適化の実例を示す。 本調査では,産業ユーザ,データアナリスト,研究者が適切なハイパーパラメータ構成を効果的に識別することで,機械学習モデルの開発を支援する。

Machine learning algorithms have been used widely in various applications and areas. To fit a machine learning model into different problems, its hyper-parameters must be tuned. Selecting the best hyper-parameter configuration for machine learning models has a direct impact on the model's performance. It often requires deep knowledge of machine learning algorithms and appropriate hyper-parameter optimization techniques. Although several automatic optimization techniques exist, they have different strengths and drawbacks when applied to different types of problems. In this paper, optimizing the hyper-parameters of common machine learning models is studied. We introduce several state-of-the-art optimization techniques and discuss how to apply them to machine learning algorithms. Many available libraries and frameworks developed for hyper-parameter optimization problems are provided, and some open challenges of hyper-parameter optimization research are also discussed in this paper. Moreover, experiments are conducted on benchmark datasets to compare the performance of different optimization methods and provide practical examples of hyper-parameter optimization. This survey paper will help industrial users, data analysts, and researchers to better develop machine learning models by identifying the proper hyper-parameter configurations effectively.
翻訳日:2022-11-05 13:30:44 公開日:2022-10-05
# 各種データセットにおける画像分類精度のための4f光ニューラルネットの不整合配向

Misaligned orientations of 4f optical neural network for image classification accuracy on various datasets ( http://arxiv.org/abs/2210.08004v1 )

ライセンス: Link先を確認
Yanbing Liu, Wei Li, Kun Cheng, Xun Liu, and Wei Yang(参考訳) 近年、光4fシステムは高速かつ超低消費電力の光ニューラルネットワーク(ONN)の構築に多くの注目を集めている。 ほとんどの光学系は、装着時の光学装置の誤配に悩まされる。 光4f系(4f-ONN)に基づくONNの性能は、導入した光路のずれに敏感であると考えられる。 4f-onnの性能を画像分類タスクの文脈における様々な不一致に応答して推定する方法を提案し, 4f系における4f-onnの光学的強度分布を操作することにより, 数値シミュレーションにおける不一致を推定した。 シミュレーション結果を検証するための一連の物理実験に追随した。 本手法を用いて,MNISTとQuickdraw16の2つの画像分類データセットの分類精度に及ぼす4fシステムの誤配の影響を検証した。 両データセットにおいて,4f-ONNの性能は,位置決め誤差の増加とともに劇的に低下した。 2つのデータセット上で, 配向方向の異なる位置誤差耐性が観察された。 分類性能は、200ミクロンまでの誤差を特定の方向に配置することで維持できる。

In recent years, the optical 4f system has drawn much attention in building high-speed and ultra-low-power optical neural networks (ONNs). Most optical systems suffer from the misalignment of the optical devices during installment. The performance of ONN based on the optical 4f system (4f-ONN) is considered sensitive to the misalignment in the optical path introduced. In order to comprehensively investigate the influence caused by the misalignment, we proposed a method for estimating the performance of a 4f-ONN in response to various misalignment in the context of the image classification task.The misalignment in numerical simulation is estimated by manipulating the optical intensity distributions in the fourth focus plane in the 4f system. Followed by a series of physical experiments to validate the simulation results. Using our method to test the impact of misalignment of 4f system on the classification accuracy of two popular image classification datasets, MNIST and Quickdraw16. On both datasets, we found that the performances of 4f-ONN generally degraded dramatically as the positioning error increased. Different positioning error tolerance in the misalignment orientations was observed over the two datasets. Classification performance could be preserved by positioning errors up to 200 microns in a specific direction.
翻訳日:2022-10-23 20:54:16 公開日:2022-10-05
# ResBeMF: 分類に基づく協調フィルタリングの予測カバレッジの改善

ResBeMF: Improving Prediction Coverage of Classification based Collaborative Filtering ( http://arxiv.org/abs/2210.10619v1 )

ライセンス: Link先を確認
\'Angel Gonz\'alez-Prieto and Abraham Gutierrez and Fernando Ortega and Ra\'ul Lara-Cabrera(参考訳) 機械学習モデル予測に関連する信頼性対策は、人工知能に対するユーザの信頼を高めるために重要である。 したがって、予測だけでなく信頼性も提供できるモデルの方が、より人気が高い。 推薦システムの分野では、信頼性は重要であり、ユーザーは確実に興味を持つレコメンデーション、すなわち高い信頼度を持つ高い予測を好む傾向がある。 本稿では,協調フィルタリングに基づく新しい推薦システムResBeMFについて述べる。 実験の結果,ResBeMFは他のモデルよりもカスタマイズが可能であり,予測品質と予測信頼性のバランスを調整できることがわかった。

Reliability measures associated to machine learning model predictions are critical to reinforcing user confidence in artificial intelligence. Therefore, those models that are able to provide not only predictions, but also reliability enjoy greater popularity. In the field of recommender systems, reliability is crucial, since users tend to prefer those recommendations that are sure to interest them, i.e.\ high predictions with high reliabilities. In this paper we present ResBeMF, a new recommender system based on collaborative filtering that provides reliabilities associated with its predictions. Experimental results show that ResBeMF offers greater customization than other models, allowing to adjust the balance between prediction quality and prediction reliability.
翻訳日:2022-10-23 20:44:03 公開日:2022-10-05
# APGKT:知識追跡のためのスキルグラフに連想パスを爆発させる

APGKT: Exploiting Associative Path on Skills Graph for Knowledge Tracing ( http://arxiv.org/abs/2210.08971v1 )

ライセンス: Link先を確認
Haotian Zhang, Chenyang Bu, Fei Liu, Shuochen Liu, Yuhong Zhang, and Xuegang Hu(参考訳) 知識追跡(KT)は、主に学生の動的認知的スキル状態に焦点を当てた、教育データマイニングの基本的な課題である。 学生の質問応答過程は,以下の2つの問題を考える思考過程とみなすことができる。 ひとつは、質問に答えるためにどのスキルが必要なのか、もうひとつは、これらのスキルを順番に使う方法です。 学生が正しい質問に答えたい場合、学生は質問に関わるスキルのセットをマスターするだけでなく、スキルグラフの連想パスを考えたり得る必要がある。 連想パスのノードは必要なスキルを参照し、パスはそれらを使用する順序を示す。 連想パスはスキルモードと呼ばれる。 したがって、スキルモードを取得することが、質問にうまく答える鍵となる。 しかしながら、既存のKTモデルのほとんどは、スキルモードを考慮せずに、一連のスキルのみに焦点を当てている。 我々は,スキルモードを利用したKTモデルAPGKTを提案する。 具体的には,課題に関わるスキルのサブグラフトポロジを抽出し,エンコーディングによるスキルモード獲得の難易度を組み合わせ,多層リカレントニューラルネットワークを用いて,学生の今後の回答性能を予測するための高次認知状態を得る。 5つのベンチマークデータセットの実験は、提案モデルの有効性を検証する。

Knowledge tracing (KT) is a fundamental task in educational data mining that mainly focuses on students' dynamic cognitive states of skills. The question-answering process of students can be regarded as a thinking process that considers the following two problems. One problem is which skills are needed to answer the question, and the other is how to use these skills in order. If a student wants to answer a question correctly, the student should not only master the set of skills involved in the question but also think and obtain the associative path on the skills graph. The nodes in the associative path refer to the skills needed and the path shows the order of using them. The associative path is referred to as the skill mode. Thus, obtaining the skill modes is the key to answering questions successfully. However, most existing KT models only focus on a set of skills, without considering the skill modes. We propose a KT model, called APGKT, that exploits skill modes. Specifically, we extract the subgraph topology of the skills involved in the question and combine the difficulty level of the skills to obtain the skill modes via encoding; then, through multi-layer recurrent neural networks, we obtain a student's higher-order cognitive states of skills, which is used to predict the student's future answering performance. Experiments on five benchmark datasets validate the effectiveness of the proposed model.
翻訳日:2022-10-23 20:43:00 公開日:2022-10-05
# アルゴリズム的誤情報検出における偶発性:責任あるイノベーションアジェンダに向けて

Addressing contingency in algorithmic misinformation detection: Toward a responsible innovation agenda ( http://arxiv.org/abs/2210.09014v1 )

ライセンス: Link先を確認
Andr\'es Dom\'inguez Hern\'andez, Richard Owen, Dan Saattrup Nielsen, Ryan McConville(参考訳) 機械学習(ml)を有効にした分類モデルは、オンライン誤情報の膨大な量と速度に取り組むことで、ますます人気が高まっている。 これらのモデルを構築する際、データサイエンティストはモデルトレーニングとテストに使用される「真実」の情報源の正当性、信頼性、客観性にスタンスを取る必要がある。 これは政治的、倫理的、疫学的な意味を持ち、技術論文ではほとんど取り上げられない。 報告された高いパフォーマンスにもかかわらず、ML駆動のモデレーションシステムは、オンラインの公開討論を形作り、不正な検閲や偽の信念の強化のような下流のネガティブな影響を生み出す可能性がある。 本稿では、科学とデータサイエンスの社会研究の交差点で、責任あるイノベーション(RI)が協調する様子を報告する。 モデル開発における重要な瞬間は,将来的な結果,不確実性,有害な影響に繋がる可能性がある。 我々は,情報不正対策のためのMLツールの柔軟性と責任ある開発に関する議題を提供することで結論付ける。

Machine learning (ML) enabled classification models are becoming increasingly popular for tackling the sheer volume and speed of online misinformation. In building these models, data scientists need to take a stance on the legitimacy, authoritativeness and objectivity of the sources of `truth' used for model training and testing. This has political, ethical and epistemic implications which are rarely addressed in technical papers. Despite (and due to) their reported high performance, ML-driven moderation systems have the potential to shape online public debate and create downstream negative impacts such as undue censorship and reinforcing false beliefs. This article reports on a responsible innovation (RI) inflected collaboration at the intersection of social studies of science and data science. We identify a series of algorithmic contingencies--key moments during model development which could lead to different future outcomes, uncertainty and harmful effects. We conclude by offering an agenda of reflexivity and responsible development of ML tools for combating misinformation.
翻訳日:2022-10-23 20:35:26 公開日:2022-10-05
# アクティブ画像インデクシング

Active Image Indexing ( http://arxiv.org/abs/2210.10620v1 )

ライセンス: Link先を確認
Pierre Fernandez, Matthijs Douze, Herv\'e J\'egou, Teddy Furon(参考訳) 大規模なデータベースからの画像コピーの検出と検索は2つのコンポーネントを利用する。 まず、ニューラルネットワークは、画像の様々な変換に対して比較的堅牢なベクトル表現に画像をマッピングする。 第二に、効率的だが近似的な類似性検索アルゴリズムは、検索の質とスケーラビリティ(サイズと速度)を交換し、エラーの原因を導入する。 本稿では,この2つのコンポーネントの相互作用を最適化するアクティブインデックスによる画像コピー検出の堅牢性を改善する。 画像の公開前に画像に不可避な変更を加えることにより、所定の画像表現の量子化損失を低減する。 この損失は、知覚的制約の下で、ディープニューラルネットワークからイメージにバックプロパガンダされる。 これらの変更により、画像の検索がより容易になる。 実験により,活性画像の検索とコピー検出が大幅に改善された。 例えば、アクティベーションは様々な画像変換で$40\%$のrecall1@1と、製品量子化と局所性感度ハッシュに基づくいくつかの人気のあるインデックス構造によって改善される。

Image copy detection and retrieval from large databases leverage two components. First, a neural network maps an image to a vector representation, that is relatively robust to various transformations of the image. Second, an efficient but approximate similarity search algorithm trades scalability (size and speed) against quality of the search, thereby introducing a source of error. This paper improves the robustness of image copy detection with active indexing, that optimizes the interplay of these two components. We reduce the quantization loss of a given image representation by making imperceptible changes to the image before its release. The loss is back-propagated through the deep neural network back to the image, under perceptual constraints. These modifications make the image more retrievable. Our experiments show that the retrieval and copy detection of activated images is significantly improved. For instance, activation improves by $+40\%$ the Recall1@1 on various image transformations, and for several popular indexing structures based on product quantization and locality sensitivity hashing.
翻訳日:2022-10-23 20:25:20 公開日:2022-10-05
# 非線形力学系のディジタル双対

Digital twins of nonlinear dynamical systems ( http://arxiv.org/abs/2210.06144v1 )

ライセンス: Link先を確認
Ling-Wei Kong, Yang Weng, Bryan Glaz, Mulugeta Haile, and Ying-Cheng Lai(参考訳) 本研究では,外部駆動による非線形力学系のための機械学習に基づくディジタルツインの設計命令を具体化し,対象システムの「健康」をモニタし,今後の崩壊を予測できる。 単一または並列のリザーバコンピューティング構成で、デジタル双子は予測および監視タスクに挑戦できることを実証する。 Employing prototypical systems from climate, optics and ecology, we show that the digital twins can extrapolate the dynamics of the target system to certain parameter regimes never experienced before, make continual forecasting/monitoring with sparse real-time updates under non-stationary external driving, infer hidden variables and accurately predict their dynamical evolution, adapt to different forms of external driving, and extrapolate the global bifurcation behaviors to systems of some different sizes. これらの特徴により、我々のデジタル双生児は、臨界システムの健康状態を監視し、環境変化によって引き起こされる潜在的な崩壊を予測するなど、重要な応用にアピールできる。

We articulate the design imperatives for machine-learning based digital twins for nonlinear dynamical systems subject to external driving, which can be used to monitor the ``health'' of the target system and anticipate its future collapse. We demonstrate that, with single or parallel reservoir computing configurations, the digital twins are capable of challenging forecasting and monitoring tasks. Employing prototypical systems from climate, optics and ecology, we show that the digital twins can extrapolate the dynamics of the target system to certain parameter regimes never experienced before, make continual forecasting/monitoring with sparse real-time updates under non-stationary external driving, infer hidden variables and accurately predict their dynamical evolution, adapt to different forms of external driving, and extrapolate the global bifurcation behaviors to systems of some different sizes. These features make our digital twins appealing in significant applications such as monitoring the health of critical systems and forecasting their potential collapse induced by environmental changes.
翻訳日:2022-10-16 16:12:35 公開日:2022-10-05
# 機械学習を用いたてんかん発作検出法の検討

A review on Epileptic Seizure Detection using Machine Learning ( http://arxiv.org/abs/2210.06292v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Aimen Zulfiqar, Shamyla Riaz(参考訳) てんかん(てんかん、英: Epilepsy)は、脳疾患の一種で、生命が脅かされ、再発する発作を引き起こす。 それは脳の異常な化学的変化によって起こる。 長年にわたり、てんかん発作の自動診断を臨床医が容易に行えるよう支援する研究が進められてきた。 そのため、いくつかの研究は、てんかん発作の早期予測に機械学習手法を使用する。 主に、EEGマシンによって生成された脳波データから適切な特徴を抽出するために特徴抽出法が用いられ、その分類には様々な機械学習分類器が使用される。 本研究は,特徴選択プロセスの体系的な文献レビューと分類性能について述べる。 本研究は, 正常・てんかん発作の正確な分類に使用される特徴抽出法と分類器の発見に限られていた。 既存の文献は、MPDI、IEEEXplore、Wiley、Elsevier、ACM、Springerlinkなどの有名なリポジトリから調査された。 さらに、この問題に対する最先端の解決策を再結合する分類法が作られた。 また、異なるベンチマークと偏りのないデータセットの性質を研究し、分類器の動作を厳密に分析した。 最後に、てんかん発作の予測に研究者がさらに役立つギャップ、課題、機会を提示することで研究を締めくくった。

Epilepsy is a neurological brain disorder which life threatening and gives rise to recurrent seizures that are unprovoked. It occurs due to the abnormal chemical changes in our brain. Over the course of many years, studies have been conducted to support automatic diagnosis of epileptic seizures for the ease of clinicians. For that, several studies entail the use of machine learning methods for the early prediction of epileptic seizures. Mainly, feature extraction methods have been used to extract the right features from the EEG data generated by the EEG machine and then various machine learning classifiers are used for the classification process. This study provides a systematic literature review of feature selection process as well as the classification performance. This study was limited to the finding of most used feature extraction methods and the classifiers used for accurate classification of normal to epileptic seizures. The existing literature was examined from well-known repositories such as MPDI, IEEEXplore, Wiley, Elsevier, ACM, Springerlink and others. Furthermore, a taxonomy was created that recapitulates the state-of-the-art used solutions for this problem. We also studied the nature of different benchmark and unbiased datasets and gave a rigorous analysis of the working of classifiers. Finally, we concluded the research by presenting the gaps, challenges and opportunities which can further help researchers in prediction of epileptic seizure
翻訳日:2022-10-16 16:12:09 公開日:2022-10-05
# 抗体配列インフィルディングのための大規模事前学習言語モデルの再プログラミング

Reprogramming Large Pretrained Language Models for Antibody Sequence Infilling ( http://arxiv.org/abs/2210.07144v1 )

ライセンス: Link先を確認
Igor Melnyk, Vijil Chenthamarakshan, Pin-Yu Chen, Payel Das, Amit Dhurandhar, Inkit Padhi, Devleena Das(参考訳) 抗体は最も汎用的な結合分子であり、バイオメディシンに多くの応用がある。 治療用抗体の開発には、構造的整合性を維持しつつ、特性を改善した新規で多様な配列を設計する必要がある。 近年,深層言語モデルとグラフニューラルネットは抗体配列生成において著しい成功を収めている。 限られた数の抗体構造しか知られていないため、この制限されたデータを用いたモデルのトレーニングは、特に生成されたサンプルの多様性を欠いた性能低下につながる可能性がある。 このような問題に対処するために,我々は,事前学習された機械学習モデルを不足した領域タスクに再導入することに焦点を当てたモデル再プログラミング手法(mr)を活用し,高パフォーマンスモデルのスクラッチからトレーニングすることが困難になる可能性がある。 本稿では, タンパク質配列を組込み, 新規なタンパク質生成手法として, リプログラミングによるタンパク質配列の組込みに, 事前学習した自然言語モデルを再利用するフレームワークであるProtein Sequence Infillingについて紹介する。 可変CDRシークエンス設計では,抗体の定数領域を配列テンプレートとして用いたテキスト入力としてタスクを定式化する。 抗体設計ベンチマークの結果,低リソース抗体配列データセットを用いたリプログラムモデルによって,構造的完全性と自然性を失うことなく,ベースライン上の多様性が最大2倍も増大する非常に多様なcdr配列が得られることが示された。 抗体配列のみから再プログラムされたモデル学習の性能上の利点は、追加構造情報を必要とする既存のグラフベースのモデルと比較して、cdr設計の長期化や複数のループインフィルメントにおいてより顕著である。 生成された配列はまた、抗原結合特異性またはウイルス中和能の増強を示す。

Antibodies comprise the most versatile class of binding molecules, with numerous applications in biomedicine. Therapeutic antibody development requires designing novel and diverse sequences with improved properties, while maintaining the structural consistency. Recently, deep language models and graph neural networks have shown impressive success in antibody sequence generation. Since only a limited number of antibody structures are known, training a model using this limited data can lead to degraded performance, particularly lacking diversity in the generated samples. To address such issues, we leverage the method of Model Reprogramming (MR), which focuses on repurposing pretrained machine learning models for target domain tasks with scarce data, where it may be difficult to train a high-performing model from scratch. We introduce Reprogramming for Protein Sequence Infilling, a framework in which pretrained natural language models are repurposed for protein sequence infilling via reprogramming, to infill protein sequence templates as a method of novel protein generation. For variable CDR sequence design, we formulate the task as text infilling that uses the constant region of an antibody as the sequence template. Results on antibody design benchmarks show that our reprogrammed model on low resourced antibody sequence dataset provides highly diverse CDR sequences, up to more than a two-fold increase of diversity over the baselines, without losing structural integrity and naturalness. The performance benefit of the reprogrammed model learning only from antibody sequences is more evident for longer CDR design or for multiple loop infilling at once, compared to existing graph-based models that require additional structural information. The generated sequences also demonstrate enhanced antigen binding specificity or virus neutralization ability.
翻訳日:2022-10-16 16:11:26 公開日:2022-10-05
# すべての単語を数える: モデル注意を伴う個人のアライメントの多言語分析

Every word counts: A multilingual analysis of individual human alignment with model attention ( http://arxiv.org/abs/2210.04963v1 )

ライセンス: Link先を確認
Stephanie Brandl and Nora Hollenstein(参考訳) 人間の固定パターンはトランスフォーマーに基づく注意と強く相関している。 これらの相関分析は通常、参加者間の個人差を考慮せずに行われ、主に単言語データセットで行われ、結果の一般化が困難である。 本稿では,13ヶ国語話者が母国語 (l1) と英語 (l2) の両方で読む視線追跡データを,言語学習者 (l2) として分析する。 言語間の有意な差異を見出すとともに, スキップ率, 総読解時間, 語彙知識(語彙知識, 語彙知識)などの個々の読解行動が, 今後の研究で考慮すべき程度まで人間とモデル間のアライメントに影響を与えることも見いだした。

Human fixation patterns have been shown to correlate strongly with Transformer-based attention. Those correlation analyses are usually carried out without taking into account individual differences between participants and are mostly done on monolingual datasets making it difficult to generalise findings. In this paper, we analyse eye-tracking data from speakers of 13 different languages reading both in their native language (L1) and in English as language learners (L2). We find considerable differences between languages but also that individual reading behaviour such as skipping rate, total reading time and vocabulary knowledge (LexTALE) influence the alignment between humans and models to an extent that should be considered in future studies.
翻訳日:2022-10-16 16:02:32 公開日:2022-10-05
# 適切な信頼のための説明の有効性を探る:認知心理学からの教訓

Exploring Effectiveness of Explanations for Appropriate Trust: Lessons from Cognitive Psychology ( http://arxiv.org/abs/2210.03737v1 )

ライセンス: Link先を確認
Ruben S. Verhagen, Siddharth Mehrotra, Mark A. Neerincx, Catholijn M. Jonker and Myrthe L. Tielman(参考訳) 人工知能(AI)の急速な発展には、開発者とデザイナが人間と機械のコラボレーションに集中する必要がある。 aiによるシステムの振る舞いと推論の説明は、適切な信頼の促進、理解の確保、公平さとバイアスの問題への対処によって、効果的なコラボレーションに不可欠である。 しかし、様々な文脈的・主観的要因がAIシステムの説明の有効性に影響を与える可能性がある。 この研究は認知心理学の知見から着想を得て、効果的な説明がどのように設計できるかを理解する。 我々は、説明デザイナーが特に注意を払うことができる4つの要素、すなわち知覚、意味論、意図、ユーザとコンテキストを特定する。 本稿では,これら4つの説明成分を,テキストと視覚との組み合わせによる食品カロリーの推定,例示による確率,ユーザとコンテキストを念頭に置いた意図コミュニケーションなどを用いて示す。 効果的なai説明のための重要な課題は、解釈可能な説明と説明コミュニケーションを生成できないアルゴリズムを用いた説明生成との間にある追加のステップである。 この追加ステップは,本研究で概説されている4つの説明要素を慎重に検討することで,説明の有効性に肯定的な影響を与えることができると考えています。

The rapid development of Artificial Intelligence (AI) requires developers and designers of AI systems to focus on the collaboration between humans and machines. AI explanations of system behavior and reasoning are vital for effective collaboration by fostering appropriate trust, ensuring understanding, and addressing issues of fairness and bias. However, various contextual and subjective factors can influence an AI system explanation's effectiveness. This work draws inspiration from findings in cognitive psychology to understand how effective explanations can be designed. We identify four components to which explanation designers can pay special attention: perception, semantics, intent, and user & context. We illustrate the use of these four explanation components with an example of estimating food calories by combining text with visuals, probabilities with exemplars, and intent communication with both user and context in mind. We propose that the significant challenge for effective AI explanations is an additional step between explanation generation using algorithms not producing interpretable explanations and explanation communication. We believe this extra step will benefit from carefully considering the four explanation components outlined in our work, which can positively affect the explanation's effectiveness.
翻訳日:2022-10-16 16:01:47 公開日:2022-10-05
# ECG信号分類のための2ストリームネットワーク

Two-stream Network for ECG Signal Classification ( http://arxiv.org/abs/2210.06293v1 )

ライセンス: Link先を確認
Xinyao Hou, Shengmei Qin, Jianbo Su(参考訳) 心活動の医療的モニタリングのための技術である心電図(ecg)は、心血管疾患を同定するための重要な方法である。 しかし、ECGデータの量の増加を分析することは、多くの医療資源を消費する。 本稿では,心電図に基づく心拍型多種自動分類アルゴリズムについて検討する。 ほとんどのニューラルネットワークベースの手法は個々の心拍をターゲットとし、時間系列に埋め込まれた秘密を無視している。 また,心電図の信号は時間的変動と独特な個人特性を有しており,同じタイプの心電図信号は体調の異なる患者によって異なる。 本稿では,2ストリームアーキテクチャを用いて,これに基づくECG認識の強化版を提案する。 このアーキテクチャは、総合的なECG信号と個々の心拍を分類し、特定された時間的ストリームネットワークを組み込む。 特定されたネットワークは個々の心拍の特徴を抽出し、時間的ネットワークは心拍間の時間的相関を抽出する。 mit-bih不整脈データベースの結果,提案アルゴリズムの精度は99.38\%であった。 さらに,提案アルゴリズムは実生活における大規模データに対する88.07\%正の精度に達し,高診断能で心拍の異なるクラスを効率的に分類できることを示した。

Electrocardiogram (ECG), a technique for medical monitoring of cardiac activity, is an important method for identifying cardiovascular disease. However, analyzing the increasing quantity of ECG data consumes a lot of medical resources. This paper explores an effective algorithm for automatic classifications of multi-classes of heartbeat types based on ECG. Most neural network based methods target the individual heartbeats, ignoring the secrets embedded in the temporal sequence. And the ECG signal has temporal variation and unique individual characteristics, which means that the same type of ECG signal varies among patients under different physical conditions. A two-stream architecture is used in this paper and presents an enhanced version of ECG recognition based on this. The architecture achieves classification of holistic ECG signal and individual heartbeat and incorporates identified and temporal stream networks. Identified networks are used to extract features of individual heartbeats, while temporal networks aim to extract temporal correlations between heartbeats. Results on the MIT-BIH Arrhythmia Database demonstrate that the proposed algorithm performs an accuracy of 99.38\%. In addition, the proposed algorithm reaches an 88.07\% positive accuracy on massive data in real life, showing that the proposed algorithm can efficiently categorize different classes of heartbeat with high diagnostic performance.
翻訳日:2022-10-16 15:54:23 公開日:2022-10-05
# 信頼できる臨床AIソリューション:医療画像解析のためのディープラーニングモデルにおける不確実性定量化の統一的レビュー

Trustworthy clinical AI solutions: a unified review of uncertainty quantification in deep learning models for medical image analysis ( http://arxiv.org/abs/2210.03736v1 )

ライセンス: Link先を確認
Benjamin Lambert, Florence Forbes, Alan Tucholka, Senan Doyle, Harmonie Dehaene and Michel Dojat(参考訳) 臨床分野におけるDeep Learning(DL)モデルの完全受け入れは,文献で報告されたハイパフォーマンスなソリューションの量に対して比較的低い。 特に、エンドユーザーはDLモデルの大雑把な予測に頼ることに消極的です。 dlブラックボックスの粗い決定を低減し、最終ユーザによる結果の解釈可能性と受容性を高める潜在的応答として、不確実性定量化手法が文献に提案されている。 本稿では,DL予測に関連する不確実性を定量化する既存手法の概要について述べる。 本研究は,画像の高次元性とその品質変動性,および実生活における臨床経過に伴う制約など,特定の課題を呈する医用画像解析への応用に焦点を当てる。 次に,不確実性評価の妥当性を検証するための評価プロトコルについて検討する。 最後に,医療分野における不確実性定量化の課題を明らかにする。

The full acceptance of Deep Learning (DL) models in the clinical field is rather low with respect to the quantity of high-performing solutions reported in the literature. Particularly, end users are reluctant to rely on the rough predictions of DL models. Uncertainty quantification methods have been proposed in the literature as a potential response to reduce the rough decision provided by the DL black box and thus increase the interpretability and the acceptability of the result by the final user. In this review, we propose an overview of the existing methods to quantify uncertainty associated to DL predictions. We focus on applications to medical image analysis, which present specific challenges due to the high dimensionality of images and their quality variability, as well as constraints associated to real-life clinical routine. We then discuss the evaluation protocols to validate the relevance of uncertainty estimates. Finally, we highlight the open challenges of uncertainty quantification in the medical field.
翻訳日:2022-10-16 15:54:03 公開日:2022-10-05
# 凸最適化問題と機械学習のための順序メッセージやフレキシブル通信の非有界遅延と可能性の可能な並列あるいは分散非同期イテレーションについて

On Parallel or Distributed Asynchronous Iterations with Unbounded Delays and Possible Out of Order Messages or Flexible Communication for Convex Optimization Problems and Machine Learning ( http://arxiv.org/abs/2210.04626v1 )

ライセンス: Link先を確認
Didier El Baz (LAAS-SARA)(参考訳) 本稿では,非有界遅延や不整合メッセージ,フレキシブル通信など,並列あるいは分散非同期反復アルゴリズムの特徴について述べる。 非同期反復の収束や終了を研究するために導入されたマクロ化シーケンスの概念に集中する。 凸最適化問題に対する非同期反復に関する調査も紹介する。 最後に、凸最適化問題と機械学習のためのフレキシブルな通信を伴う並列あるいは分散非同期反復アルゴリズムの収束結果を提案する。

We describe several features of parallel or distributed asynchronous iterative algorithms such as unbounded delays, possible out of order messages or flexible communication. We concentrate on the concept of macroiteration sequence which was introduced in order to study the convergence or termination of asynchronous iterations. A survey of asynchronous iterations for convex optimization problems is also presented. Finally, a new result of convergence for parallel or distributed asynchronous iterative algorithms with flexible communication for convex optimization problems and machine learning is proposed.
翻訳日:2022-10-16 15:53:03 公開日:2022-10-05
# 改良型逆タンパク質成形のためのアルファフォールド蒸留法

AlphaFold Distillation for Improved Inverse Protein Folding ( http://arxiv.org/abs/2210.03488v1 )

ライセンス: Link先を確認
Igor Melnyk, Aurelie Lozano, Payel Das, Vijil Chenthamarakshan(参考訳) 逆タンパク質の折り畳み、すなわち、与えられた3次元構造に折り畳まれた配列を設計することは、バイオエンジニアリングと薬物発見における基本的な設計課題の1つである。 伝統的に、逆折り畳みは主に実験的に解決された構造を持つ列から学習する。 しかし、既知の構造は、タンパク質配列の小さな空間のみをカバーし、モデル学習に制限を与える。 最近提案された前方折り畳みモデル、例えばアルファフォールドは、タンパク質配列が与えられた構造を正確に推定する前例のない機会を提供する。 自然に、逆折り畳みアプローチの構成要素として前方折り畳みモデルを取り込むことは、予測されたタンパク質構造または構造的信頼度メトリックの形で生成された任意の配列に対するフィードバックを提供することができるため、逆折り畳みモデルを大幅に改善する可能性をもたらす。 しかし、現在、これらの前方折り畳みモデルは、トレーニング中にモデル最適化ループの一部となることが禁じられている。 本研究では,ptmやplddtスコアといった折り畳みモデルの信頼度指標に関する知識蒸留を行い,より小さく,より高速でエンドツーエンドの微分可能な蒸留モデルを得る。 さらに,本手法は汎用的であり,タンパク質インフィルディングなど他の設計タスクにも適用可能である。 非正規化ベースラインに対する我々の手法の明らかな利点を示す。 例えば、逆折り畳み設計問題では、生成した配列の構造的一貫性を維持しながら、シーケンス回復率を最大3%向上させ、タンパク質多様性を最大45%向上させた。

Inverse protein folding, i.e., designing sequences that fold into a given three-dimensional structure, is one of the fundamental design challenges in bio-engineering and drug discovery. Traditionally, inverse folding mainly involves learning from sequences that have an experimentally resolved structure. However, the known structures cover only a tiny space of the protein sequences, imposing limitations on the model learning. Recently proposed forward folding models, e.g., AlphaFold, offer unprecedented opportunity for accurate estimation of the structure given a protein sequence. Naturally, incorporating a forward folding model as a component of an inverse folding approach offers the potential of significantly improving the inverse folding, as the folding model can provide a feedback on any generated sequence in the form of the predicted protein structure or a structural confidence metric. However, at present, these forward folding models are still prohibitively slow to be a part of the model optimization loop during training. In this work, we propose to perform knowledge distillation on the folding model's confidence metrics, e.g., pTM or pLDDT scores, to obtain a smaller, faster and end-to-end differentiable distilled model, which then can be included as part of the structure consistency regularized inverse folding model training. Moreover, our regularization technique is general enough and can be applied in other design tasks, e.g., sequence-based protein infilling. Extensive experiments show a clear benefit of our method over the non-regularized baselines. For example, in inverse folding design problems we observe up to 3% improvement in sequence recovery and up to 45% improvement in protein diversity, while still preserving structural consistency of the generated sequences.
翻訳日:2022-10-10 15:01:39 公開日:2022-10-05
# メッシュ張力駆動表現に基づく合成顔用しわ

Mesh-Tension Driven Expression-Based Wrinkles for Synthetic Faces ( http://arxiv.org/abs/2210.03529v1 )

ライセンス: Link先を確認
Chirag Raman, Charlie Hewitt, Erroll Wood, Tadas Baltrusaitis(参考訳) 最近の現実的な顔の合成の進歩は、合成訓練データが様々な顔関連コンピュータビジョンタスクの実際のデータを置き換えることができることを示した。 現実主義はどの程度重要か? フォトリアリズムの追求は過剰か? この作品では、そうでなければ示します。 我々は,表情に反応して動的皮膚しわを導入し,下流のコンピュータビジョンタスクにおいて有意な性能改善を観察することで,人工顔のリアリズムを高める。 それまでのアプローチでは、身元や表情にまたがる制限的なアーティストの努力が必要か、あるいは十分な忠実さで高周波の肌の詳細を再構築できなかったかのどちらかだった。 私たちの重要な貢献は、デジタル人間の多様で多様な集団に現実的なしわを生み出すアプローチです。 具体的には,メッシュ・テンションの概念を定式化し,高品質な表現スキャンからアルベドや変位テクスチャマップまで,可能なしわを集約する。 合成では、ソーススキャンで表現されない表現に対しても、これらのマップを使用してしわを生成する。 さらに,圧縮表現による変形時のモデル性能のより微妙な指標として,300Wウィンクス評価サブセットと閉鎖眼とウィンクスのペクセルデータセットを導入する。

Recent advances in synthesizing realistic faces have shown that synthetic training data can replace real data for various face-related computer vision tasks. A question arises: how important is realism? Is the pursuit of photorealism excessive? In this work, we show otherwise. We boost the realism of our synthetic faces by introducing dynamic skin wrinkles in response to facial expressions and observe significant performance improvements in downstream computer vision tasks. Previous approaches for producing such wrinkles either required prohibitive artist effort to scale across identities and expressions or were not capable of reconstructing high-frequency skin details with sufficient fidelity. Our key contribution is an approach that produces realistic wrinkles across a large and diverse population of digital humans. Concretely, we formalize the concept of mesh-tension and use it to aggregate possible wrinkles from high-quality expression scans into albedo and displacement texture maps. At synthesis, we use these maps to produce wrinkles even for expressions not represented in the source scans. Additionally, to provide a more nuanced indicator of model performance under deformations resulting from compressed expressions, we introduce the 300W-winks evaluation subset and the Pexels dataset of closed eyes and winks.
翻訳日:2022-10-10 14:53:35 公開日:2022-10-05
# 表在性MABのトラクタブル最適性

Tractable Optimality in Episodic Latent MABs ( http://arxiv.org/abs/2210.03528v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Yonathan Efroni, Constantine Caramanis, Shie Mannor(参考訳) エージェントが$h$の時間ステップのエピソードのために環境と対話する、$m$の潜在コンテキストを持つマルチアームのバンディット問題を考える。 エピソードの長さによっては、学習者は潜在する文脈を正確に推定できない可能性がある。 結果として環境の部分的な観察が、学習タスクを著しく難しくする。 構造的な仮定がなければ、部分的に観察された設定に対処する既存の手法は、意思決定者が$O(A)^H$のエピソードでほぼ最適のポリシーを学習できることを意味するが、それ以上は約束しない。 本研究では,$a$ の条件で {\em polynomial} サンプルを用いた学習が可能であることを示す。 実験設計の技術を用いてこれを実現する。 次に、メソッド・オブ・モーメントのアプローチを通じて、$o(\texttt{poly}(a) + \texttt{poly}(m,h)^{\min(m,h)}) の相互作用で最適に近いポリシーを確実に学習する手順を設計する。 実際,最大推定値を用いてモーメントマッチングを定式化できることが示される。 我々の実験では、これは既存の実用的な方法と同様に最悪のケースの保証を著しく上回る。

We consider a multi-armed bandit problem with $M$ latent contexts, where an agent interacts with the environment for an episode of $H$ time steps. Depending on the length of the episode, the learner may not be able to estimate accurately the latent context. The resulting partial observation of the environment makes the learning task significantly more challenging. Without any additional structural assumptions, existing techniques to tackle partially observed settings imply the decision maker can learn a near-optimal policy with $O(A)^H$ episodes, but do not promise more. In this work, we show that learning with {\em polynomial} samples in $A$ is possible. We achieve this by using techniques from experiment design. Then, through a method-of-moments approach, we design a procedure that provably learns a near-optimal policy with $O(\texttt{poly}(A) + \texttt{poly}(M,H)^{\min(M,H)})$ interactions. In practice, we show that we can formulate the moment-matching via maximum likelihood estimation. In our experiments, this significantly outperforms the worst-case guarantees, as well as existing practical methods.
翻訳日:2022-10-10 13:33:03 公開日:2022-10-05
# デノジング拡散暗黙モデル

Denoising Diffusion Implicit Models ( http://arxiv.org/abs/2010.02502v4 )

ライセンス: Link先を確認
Jiaming Song, Chenlin Meng, Stefano Ermon(参考訳) 拡散確率モデル(DDPM)は、敵対的訓練なしに高品質な画像生成を実現しているが、多くのステップでマルコフ連鎖をシミュレートする必要がある。 サンプリングを高速化するために,ddpmsと同じ訓練手順を持つ反復的確率モデルのより効率的なクラスであるdenoising diffusion implicit models (ddims)を提案する。 DDPMでは、生成過程はマルコフ拡散過程の逆過程として定義される。 同一のトレーニング目標に導く非マルコフ拡散過程のクラスを構築したが、その逆過程はサンプルよりはるかに高速である。 DDIMは、DDPMに比べて、壁面時間で10ドルから50ドル高速な高品質のサンプルを作成でき、サンプル品質で計算をオフにでき、潜時空間で直接意味のある画像補間を行うことができることを実証的に実証した。

Denoising diffusion probabilistic models (DDPMs) have achieved high quality image generation without adversarial training, yet they require simulating a Markov chain for many steps to produce a sample. To accelerate sampling, we present denoising diffusion implicit models (DDIMs), a more efficient class of iterative implicit probabilistic models with the same training procedure as DDPMs. In DDPMs, the generative process is defined as the reverse of a Markovian diffusion process. We construct a class of non-Markovian diffusion processes that lead to the same training objective, but whose reverse process can be much faster to sample from. We empirically demonstrate that DDIMs can produce high quality samples $10 \times$ to $50 \times$ faster in terms of wall-clock time compared to DDPMs, allow us to trade off computation for sample quality, and can perform semantically meaningful image interpolation directly in the latent space.
翻訳日:2022-10-10 05:53:47 公開日:2022-10-05
# 薬物発見のための抗体表現学習

Antibody Representation Learning for Drug Discovery ( http://arxiv.org/abs/2210.02881v1 )

ライセンス: Link先を確認
Lin Li, Esther Gupta, John Spaeth, Leslie Shing, Tristan Bepler, Rajmonda Sulo Caceres(参考訳) 治療用抗体の開発は、薬物開発においてますますポピュラーなアプローチとなっている。 現在までに、抗体治療は数十億の抗体配列を含む抗体ライブラリーの大規模な実験画面を用いて開発されている。 高いコストと治療用抗体の開発の難しさは、抗体特性を予測し、造形設計を作成するための計算方法の必要性を圧迫する。 しかし、抗体配列と活性の関係は複雑な物理的プロセスであり、伝統的な反復的設計アプローチは大規模なアッセイとランダム変異に依存する。 深層学習法は, 抗体特性予測器を学習するための有望な方法として現れてきたが, 抗体特性と標的特異的活性の予測は, 抗体表現の選択とデータリンク配列のプロパティへの選択に大きく依存する。 既存の研究はまだ、抗体ベースの薬物発見への応用におけるこれらの方法の価値、限界、機会について調査していない。 本稿では,SARS-CoV-2抗体結合データセットと追加ベンチマークデータセットについて述べる。 従来の統計シーケンスモデル,各データセットの教師付き学習,および抗体特異的事前学習言語モデルの3つのクラスを比較した。 実験結果から, 特徴表現の自己教師付き事前学習は, 従来よりも一貫して大きな改善をもたらすことが示唆された。 また,データサイズがモデル性能に与える影響についても検討し,サイリコ工学の進歩と治療抗体の設計に機械学習コミュニティが取り組むべき課題と機会について考察する。

Therapeutic antibody development has become an increasingly popular approach for drug development. To date, antibody therapeutics are largely developed using large scale experimental screens of antibody libraries containing hundreds of millions of antibody sequences. The high cost and difficulty of developing therapeutic antibodies create a pressing need for computational methods to predict antibody properties and create bespoke designs. However, the relationship between antibody sequence and activity is a complex physical process and traditional iterative design approaches rely on large scale assays and random mutagenesis. Deep learning methods have emerged as a promising way to learn antibody property predictors, but predicting antibody properties and target-specific activities depends critically on the choice of antibody representations and data linking sequences to properties is often limited. Existing works have not yet investigated the value, limitations and opportunities of these methods in application to antibody-based drug discovery. In this paper, we present results on a novel SARS-CoV-2 antibody binding dataset and an additional benchmark dataset. We compare three classes of models: conventional statistical sequence models, supervised learning on each dataset independently, and fine-tuning an antibody specific pre-trained language model. Experimental results suggest that self-supervised pretraining of feature representation consistently offers significant improvement in over previous approaches. We also investigate the impact of data size on the model performance, and discuss challenges and opportunities that the machine learning community can address to advance in silico engineering and design of therapeutic antibodies.
翻訳日:2022-10-07 17:57:36 公開日:2022-10-05
# モバイル奥行きスキャンとコンピュータビジョンを用いた屋内アクセシビリティ問題の半自動検出と局所化

Towards Semi-automatic Detection and Localization of Indoor Accessibility Issues using Mobile Depth Scanning and Computer Vision ( http://arxiv.org/abs/2210.02533v1 )

ライセンス: Link先を確認
Xia Su, Kaiming Cheng, Han Zhang, Jaewook Lee, Jon E. Froehlich(参考訳) 屋内空間の安全性とアクセシビリティ向上を支援するため、研究者と健康専門家は、住宅所有者や訓練された専門家が住宅の監査と改善を可能にするアセスメント機器を開発した。 コンピュータービジョン、拡張現実(AR)、モバイルセンサーの進歩により、新しいアプローチが可能になった。 RASSAR(Room Accessibility and Safety Scanning in Augmented Reality)は、LiDAR+カメラデータ、機械学習、ARを用いて、屋内アクセシビリティと安全性の問題を特定し、分類し、ローカライズするためのコンセプト実証プロトタイプである。 本稿では,現在のRASSARプロトタイプの概要と,一戸建て住宅における予備評価について述べる。

To help improve the safety and accessibility of indoor spaces, researchers and health professionals have created assessment instruments that enable homeowners and trained experts to audit and improve homes. With advances in computer vision, augmented reality (AR), and mobile sensors, new approaches are now possible. We introduce RASSAR (Room Accessibility and Safety Scanning in Augmented Reality), a new proof-of-concept prototype for semi-automatically identifying, categorizing, and localizing indoor accessibility and safety issues using LiDAR + camera data, machine learning, and AR. We present an overview of the current RASSAR prototype and a preliminary evaluation in a single home.
翻訳日:2022-10-07 17:55:47 公開日:2022-10-05
# 知識駆動型抑うつモデルに向けて:音声母音のスペクトル時間変動の活用

Toward Knowledge-Driven Speech-Based Models of Depression: Leveraging Spectrotemporal Variations in Speech Vowels ( http://arxiv.org/abs/2210.02527v1 )

ライセンス: Link先を確認
Kexin Feng and Theodora Chaspari(参考訳) 抑うつに伴う精神運動遅滞は、母音生成の具体的差異と関連している。 本稿では,母音レベルの音声のスペクトル時間情報を統合し,抑うつを識別する知識駆動機械学習(ML)手法について検討する。 低レベル音声記述子は、母音分類のために訓練された畳み込みニューラルネットワーク(CNN)によって学習される。 これらの低レベルディスクリプタの時間的進化は、最後の抑うつ決定を行う長い短期記憶(LSTM)モデルを介して、発話中の高レベルでモデル化される。 局所解釈型モデル非依存説明法 (LIME) の修正版は、低レベルの分光時相変化が決定に与える影響を識別し、抑うつ傾向の高レベルの時間変化を観察するためにさらに使用される。 提案手法は、母音に基づく情報を統合することなく、音声のスペクトル時間情報をモデル化するベースラインと、従来の韻律的特徴とスペクトル時間的特徴を訓練したMLモデルより優れている。 分析の結果,非母音セグメントに対応するスペクトル情報が母音情報よりも重要でないことが示された。 また、抑うつの有無にかかわらず、セグメント毎の判断を捉えた高レベル情報の説明可能性についても検証する。 この研究から得られた知見は、知識駆動の解釈可能な意思決定支援システムの基盤となり、臨床医が音声データの微妙な時間変化をよりよく理解し、最終的にはメンタルヘルスの診断と治療を促進することができる。

Psychomotor retardation associated with depression has been linked with tangible differences in vowel production. This paper investigates a knowledge-driven machine learning (ML) method that integrates spectrotemporal information of speech at the vowel-level to identify the depression. Low-level speech descriptors are learned by a convolutional neural network (CNN) that is trained for vowel classification. The temporal evolution of those low-level descriptors is modeled at the high-level within and across utterances via a long short-term memory (LSTM) model that takes the final depression decision. A modified version of the Local Interpretable Model-agnostic Explanations (LIME) is further used to identify the impact of the low-level spectrotemporal vowel variation on the decisions and observe the high-level temporal change of the depression likelihood. The proposed method outperforms baselines that model the spectrotemporal information in speech without integrating the vowel-based information, as well as ML models trained with conventional prosodic and spectrotemporal features. The conducted explainability analysis indicates that spectrotemporal information corresponding to non-vowel segments less important than the vowel-based information. Explainability of the high-level information capturing the segment-by-segment decisions is further inspected for participants with and without depression. The findings from this work can provide the foundation toward knowledge-driven interpretable decision-support systems that can assist clinicians to better understand fine-grain temporal changes in speech data, ultimately augmenting mental health diagnosis and care.
翻訳日:2022-10-07 17:55:33 公開日:2022-10-05
# データ融合・転送学習のためのスターグラフ・マルチモーダルマッチング成分分析

Star-Graph Multimodal Matching Component Analysis for Data Fusion and Transfer Learning ( http://arxiv.org/abs/2210.02590v1 )

ライセンス: Link先を確認
Nick Lorenzo(参考訳) 従来のマッチングコンポーネント分析(MCA)技術は、2つのデータドメインを共通のドメインにマッピングし、データ融合および転送学習コンテキストのさらなる処理を行う。 本稿では、これらの手法を、ある特定のデータ領域が目的関数を介して$m$に接続されるstar-graph multimodal (sgm) ケースに拡張する。 我々は,その計算と反復的改善のためのアルゴリズムと閉形式のトレース最大化問題に対して,特に実現可能な点を提供し,SGMマップの主な結果を得た。 また,トレーニングポイントが少ない場合に,SGMがMCAよりも多くの情報を地図にエンコードできることを示す数値例を示す。 さらに,mca共分散制約をさらに一般化し,既往の可逆条件を解消し,所定の共分散行列の階数をより大きくすることができる。

Previous matching component analysis (MCA) techniques map two data domains to a common domain for further processing in data fusion and transfer learning contexts. In this paper, we extend these techniques to the star-graph multimodal (SGM) case in which one particular data domain is connected to $m$ others via an objective function. We provide a particular feasible point for the resulting trace maximization problem in closed form and algorithms for its computation and iterative improvement, leading to our main result, the SGM maps. We also provide numerical examples demonstrating that SGM is capable of encoding into its maps more information than MCA when few training points are available. In addition, we develop a further generalization of the MCA covariance constraint, eliminating a previous feasibility condition and allowing larger values of the rank of the prescribed covariance matrix.
翻訳日:2022-10-07 17:55:07 公開日:2022-10-05
# L-無限性と空間摂動に対するロバスト性とその構成について

A Closer Look at Robustness to L-infinity and Spatial Perturbations and their Composition ( http://arxiv.org/abs/2210.02577v1 )

ライセンス: Link先を確認
Luke Rowe, Benjamin Th\'erien, Krzysztof Czarnecki, Hongyang Zhang(参考訳) 敵対的機械学習では、人気の高い$\ell_\infty$ threatモデルが、これまで多くの仕事の焦点だった。 この非受容性の数学的定義は、モデルが堅牢であるべき無限の加法的画像変換の集合をうまくキャプチャするが、これは画像の意味ラベルが変化しないすべての変換のサブセットにすぎない。 実際、以前の研究は空間攻撃や他の意味変換に対しても堅牢性を検討したが、空間と$\ell_{\infty}$摂動の合成に対する防御方法の設計はいまだに未熟である。 以下では,この構成構成の理解を深める。 単純な統計的条件下では,線形分類器が合成逆数に対して自明な精度を達成できないことが理論的に証明されている。 次に,この新たな脅威モデルに最先端の$\ell_{\infty}$防御がどのように適応できるかを調査し,構成的攻撃に対するそれらの性能について検討する。 新たに提案した TRADES$_{\text{All}}$ ストラテジーがすべての中で最強であることがわかった。 異なる大きさの RT 変換に対するロジットのリプシッツ定数を分析すると、TRADES$_{\text{All}}$ は $\ell_\infty$ 摂動をもたない幅広い RT 変換に対して安定である。

In adversarial machine learning, the popular $\ell_\infty$ threat model has been the focus of much previous work. While this mathematical definition of imperceptibility successfully captures an infinite set of additive image transformations that a model should be robust to, this is only a subset of all transformations which leave the semantic label of an image unchanged. Indeed, previous work also considered robustness to spatial attacks as well as other semantic transformations; however, designing defense methods against the composition of spatial and $\ell_{\infty}$ perturbations remains relatively underexplored. In the following, we improve the understanding of this seldom investigated compositional setting. We prove theoretically that no linear classifier can achieve more than trivial accuracy against a composite adversary in a simple statistical setting, illustrating its difficulty. We then investigate how state-of-the-art $\ell_{\infty}$ defenses can be adapted to this novel threat model and study their performance against compositional attacks. We find that our newly proposed TRADES$_{\text{All}}$ strategy performs the strongest of all. Analyzing its logit's Lipschitz constant for RT transformations of different sizes, we find that TRADES$_{\text{All}}$ remains stable over a wide range of RT transformations with and without $\ell_\infty$ perturbations.
翻訳日:2022-10-07 17:49:45 公開日:2022-10-05
# 脅威報告から継続的な脅威知性へ:テキストアーティファクトからの攻撃手法抽出法の比較

From Threat Reports to Continuous Threat Intelligence: A Comparison of Attack Technique Extraction Methods from Textual Artifacts ( http://arxiv.org/abs/2210.02601v1 )

ライセンス: Link先を確認
Md Rayhanur Rahman, Laurie Williams(参考訳) サイバー脅威の風景は 絶え間なく進化しています したがって、脅威情報の継続的な監視と共有が組織にとって最優先事項となっている。 サイバーセキュリティベンダが発表した脅威レポートには、非構造化テキスト形式で書かれた攻撃戦術、テクニック、手順(TTP)の詳細な記述が含まれている。 これらのレポートからTPを抽出することは、サイバーセキュリティの実践者や研究者が、進化する攻撃と脅威軽減の計画について学び、適応するのに役立つ。 研究者は文献でTP抽出法を提案しているが、これらの方法のすべてが互いに比較されるわけではない。 本研究の目的は,TTP抽出研究の基盤となる手法を文献で比較することにより,脅威情報を監視し,共有するための攻撃手法の選択を支援することである。 本研究は,本研究から既存のTTP抽出研究10点を特定し,本研究から5つの方法を実装した。 提案手法は,tfidf (term frequency-inverse document frequency) とlsi (latent semantic indexing, latent semantic indexing, latent semantic indexing, latent semantic indexing) に基づいて,f1スコアが84\%,83\%の他の3つの手法を上回っている。 クラスラベルを指数関数的に増やす場合、F1スコアの全てのメソッドのパフォーマンスを観察する。 また,クラス不均衡問題を解決するために,オーバーサンプリング戦略を実装し,評価する。 さらに、オーバーサンプリングにより、TTP抽出の分類性能が向上する。 我々は,大規模コーパスからのベンチマークデータセットの構築やttpのテキスト特徴の選択など,今後のサイバーセキュリティ研究者に対して,調査結果から得た勧告を提供する。 我々の研究は、データセットと実装ソースコードとともに、サイバーセキュリティ研究者が将来のTP抽出手法の性能をテスト、比較するためのベースラインとして機能する。

The cyberthreat landscape is continuously evolving. Hence, continuous monitoring and sharing of threat intelligence have become a priority for organizations. Threat reports, published by cybersecurity vendors, contain detailed descriptions of attack Tactics, Techniques, and Procedures (TTP) written in an unstructured text format. Extracting TTP from these reports aids cybersecurity practitioners and researchers learn and adapt to evolving attacks and in planning threat mitigation. Researchers have proposed TTP extraction methods in the literature, however, not all of these proposed methods are compared to one another or to a baseline. \textit{The goal of this study is to aid cybersecurity researchers and practitioners choose attack technique extraction methods for monitoring and sharing threat intelligence by comparing the underlying methods from the TTP extraction studies in the literature.} In this work, we identify ten existing TTP extraction studies from the literature and implement five methods from the ten studies. We find two methods, based on Term Frequency-Inverse Document Frequency(TFIDF) and Latent Semantic Indexing (LSI), outperform the other three methods with a F1 score of 84\% and 83\%, respectively. We observe the performance of all methods in F1 score drops in the case of increasing the class labels exponentially. We also implement and evaluate an oversampling strategy to mitigate class imbalance issues. Furthermore, oversampling improves the classification performance of TTP extraction. We provide recommendations from our findings for future cybersecurity researchers, such as the construction of a benchmark dataset from a large corpus; and the selection of textual features of TTP. Our work, along with the dataset and implementation source code, can work as a baseline for cybersecurity researchers to test and compare the performance of future TTP extraction methods.
翻訳日:2022-10-07 17:49:20 公開日:2022-10-05
# TgDLF2.0:TransformerとTransfer Learningによる電気負荷予測のための理論誘導型ディープラーニング

TgDLF2.0: Theory-guided deep-learning for electrical load forecasting via Transformer and transfer learning ( http://arxiv.org/abs/2210.02448v1 )

ライセンス: Link先を確認
Jiaxin Gao, Wenbo Hu, Dongxiao Zhang, Yuntian Chen(参考訳) 今日の社会では電気エネルギーが不可欠です。 正確な電気負荷予測は、発電のスケジューリングと電気エネルギーの節約に有用である。 本稿では,理論誘導型深層学習負荷予測フレームワーク(tgdlf)の改良版である理論誘導型深層学習負荷予測2.0(tgdlf2.0)を提案する。 tgdlf2.0では、電気負荷を無次元のトレンドと局所的なゆらぎに分割してディープラーニングモデルトランスフォーマーとトランスファー学習を導入し、ドメイン知識の活用を実現し、負荷列の長期的な依存性を捉え、サンプルが少ない現実的なシナリオに適している。 TgDLF2.0はTgDLFよりも約16%正確であり、トレーニング時間の半数以上を節約している。 50%の気象騒音を持つTgDLF2.0は、ノイズのないTgDLFと同じ精度であり、その堅牢性を示す。 また,TgDLF2.0におけるトランスフォーマーの解釈可能性についても予備検討し,今後の理論指導の可能性について検討する。 さらに, 伝達学習は, 学習エポックの半減期でモデルの収束を加速し, より良い性能が得られることを示した。

Electrical energy is essential in today's society. Accurate electrical load forecasting is beneficial for better scheduling of electricity generation and saving electrical energy. In this paper, we propose theory-guided deep-learning load forecasting 2.0 (TgDLF2.0) to solve this issue, which is an improved version of the theory-guided deep-learning framework for load forecasting via ensemble long short-term memory (TgDLF). TgDLF2.0 introduces the deep-learning model Transformer and transfer learning on the basis of dividing the electrical load into dimensionless trends and local fluctuations, which realizes the utilization of domain knowledge, captures the long-term dependency of the load series, and is more appropriate for realistic scenarios with scarce samples. Cross-validation experiments on different districts show that TgDLF2.0 is approximately 16% more accurate than TgDLF and saves more than half of the training time. TgDLF2.0 with 50% weather noise has the same accuracy as TgDLF without noise, which proves its robustness. We also preliminarily mine the interpretability of Transformer in TgDLF2.0, which may provide future potential for better theory guidance. Furthermore, experiments demonstrate that transfer learning can accelerate convergence of the model in half the number of training epochs and achieve better performance.
翻訳日:2022-10-07 17:38:28 公開日:2022-10-05
# 固定テキストキーストローク動作ダイナミクスのための非線形変換型マルチユーザ識別アルゴリズム

A novel non-linear transformation based multi-user identification algorithm for fixed text keystroke behavioral dynamics ( http://arxiv.org/abs/2210.02505v1 )

ライセンス: Link先を確認
Chinmay Sahu, Mahesh Banavar, Stephanie Schuckers(参考訳) 本稿では,キーストロークダイナミクスを用いて,単一のアプリケーションにアクセスする複数のユーザを一意に分類し識別する手法を提案する。 この問題は、複数のユーザが共有コンピュータやアカウントに正当なアクセス権を持っている場合、通常、あるユーザが別のユーザのアカウントに不注意にログインできる場合に発生する。 ログインプロセスは通常、この段階でバイパスされるので、ユーザを区別するためにキーストロークのダイナミクスに依存しています。 我々のアルゴリズムは、量子変換とローカライゼーションの技法を使ってユーザを分類し識別する。 具体的には,距離プロキシの比較から得られる順序データのみを用いたordinal unfolding based localization(unloc)というアルゴリズムを用いて,タイピングパターンに基づくpca/kernel-pca/t-sne空間内のユーザを"位置"する。 この結果はベンチマークキーストロークデータセットの助けを借りて検証され、アルゴリズムが他の手法よりも優れていることを示す。

In this paper, we propose a new technique to uniquely classify and identify multiple users accessing a single application using keystroke dynamics. This problem is usually encountered when multiple users have legitimate access to shared computers and accounts, where, at times, one user can inadvertently be logged in on another user's account. Since the login processes are usually bypassed at this stage, we rely on keystroke dynamics in order to tell users apart. Our algorithm uses the quantile transform and techniques from localization to classify and identify users. Specifically, we use an algorithm known as ordinal Unfolding based Localization (UNLOC), which uses only ordinal data obtained from comparing distance proxies, by "locating" users in a reduced PCA/Kernel-PCA/t-SNE space based on their typing patterns. Our results are validated with the help of benchmark keystroke datasets and show that our algorithm outperforms other methods.
翻訳日:2022-10-07 17:38:05 公開日:2022-10-05
# アルゴリズムにおける信用機会の平等化:米国公正貸出規制によるアルゴリズムフェアネス研究の調整

Equalizing Credit Opportunity in Algorithms: Aligning Algorithmic Fairness Research with U.S. Fair Lending Regulation ( http://arxiv.org/abs/2210.02516v1 )

ライセンス: Link先を確認
I. Elizabeth Kumar, Keegan E. Hines, John P. Dickerson(参考訳) 信用はアメリカの財政の健全化に欠かせない要素であり、不平等なアクセスは、現在存在する人口集団間の経済的格差の大きな要因である。 今日、代替データに基づいてトレーニングされる機械学習アルゴリズムは、クレジットへのアクセスを決定するためにますます使われているが、研究によると、機械学習は多くの異なるバージョンの「不公平」をエンコードできるため、銀行や他の金融機関が、おそらく不当に、この技術を使って違法な差別を犯す可能性があるという懸念が高まっている。 米国では、貸出において差別が起こらないようにする法律や、それらを強制する責任を負う機関がある。 公正な機械学習の研究は、既存の公正な貸付政策に特有の法的、実践的な考慮を欠くことが多いし、規制当局は、信用リスクモデルが研究コミュニティのプラクティスや技術をどのように活用すべきかについて、新たなガイダンスを発行していない。 本稿は会話のこれらの側面をよりよく一致させることを目的としている。 本稿では,米国における信用差別規制の現状について述べ,公正なml研究の結果を文脈化し,貸付における機械学習の利用によって生じる公平な懸念を特定し,これらの懸念に対処するための規制の機会について論じる。

Credit is an essential component of financial wellbeing in America, and unequal access to it is a large factor in the economic disparities between demographic groups that exist today. Today, machine learning algorithms, sometimes trained on alternative data, are increasingly being used to determine access to credit, yet research has shown that machine learning can encode many different versions of "unfairness," thus raising the concern that banks and other financial institutions could -- potentially unwittingly -- engage in illegal discrimination through the use of this technology. In the US, there are laws in place to make sure discrimination does not happen in lending and agencies charged with enforcing them. However, conversations around fair credit models in computer science and in policy are often misaligned: fair machine learning research often lacks legal and practical considerations specific to existing fair lending policy, and regulators have yet to issue new guidance on how, if at all, credit risk models should be utilizing practices and techniques from the research community. This paper aims to better align these sides of the conversation. We describe the current state of credit discrimination regulation in the United States, contextualize results from fair ML research to identify the specific fairness concerns raised by the use of machine learning in lending, and discuss regulatory opportunities to address these concerns.
翻訳日:2022-10-07 17:37:46 公開日:2022-10-05
# ECoG脳-コンピュータインタフェースの深層学習--エンドツーエンドと手作り機能

Deep learning for ECoG brain-computer interface: end-to-end vs. hand-crafted features ( http://arxiv.org/abs/2210.02544v1 )

ライセンス: Link先を確認
Maciej \'Sliwowski, Matthieu Martin, Antoine Souloumiac, Pierre Blanchart, Tetiana Aksenova(参考訳) 脳信号処理では、ディープラーニング(DL)モデルが一般的に使われている。 しかしながら、従来のmlアプローチと比較してエンド・ツー・エンドのdlモデルによるパフォーマンス向上は通常は重要ではあるが、適度であり、計算負荷の増加と説明可能性の低下のコストがかかる。 ディープラーニングアプローチの背後にある核となるアイデアは、より大きなデータセットによるパフォーマンスのスケールアップだ。 しかし、脳信号は時間的データであり、低信号対雑音比、不確実なラベル、非定常データである。 これらの要因はトレーニングプロセスに影響し、モデルのパフォーマンス向上を遅らせる可能性がある。 これらの要因の影響は、エンドツーエンドのdlモデルと、手作りの機能を使用するモデルで異なる可能性がある。 本稿では,BCIモータ画像復号における生のECoG信号と時間周波数特徴を用いたモデルを比較した。 我々は,現在のデータセットサイズがどのモデルにおいてもより強い制限であるかどうかを考察する。 最後に,手作り特徴の違いを特定するために得られたフィルタを比較し,バックプロパゲーションに最適化した。 両戦略の有効性を比較するために, この課題ですでに有効であることが証明された多層パーセプトロンと畳み込み層とLSTM層を混合した。 本解析は, 四肢麻痺患者の長期臨床試験データベース(約600分記録)を用いて, 3次元手指翻訳のための運動画像タスクを行った。 データセットでは、エンドツーエンドのトレーニングが、手作りの機能ベースモデルよりも大幅に優れているという結果が得られた。 データセットが大きいほどパフォーマンスのギャップは小さくなるが、計算負荷の増加を考えると、エンドツーエンドのトレーニングはこのアプリケーションにとって利益にならないかもしれない。

In brain signal processing, deep learning (DL) models have become commonly used. However, the performance gain from using end-to-end DL models compared to conventional ML approaches is usually significant but moderate, typically at the cost of increased computational load and deteriorated explainability. The core idea behind deep learning approaches is scaling the performance with bigger datasets. However, brain signals are temporal data with a low signal-to-noise ratio, uncertain labels, and nonstationary data in time. Those factors may influence the training process and slow down the models' performance improvement. These factors' influence may differ for end-to-end DL model and one using hand-crafted features. As not studied before, this paper compares models that use raw ECoG signal and time-frequency features for BCI motor imagery decoding. We investigate whether the current dataset size is a stronger limitation for any models. Finally, obtained filters were compared to identify differences between hand-crafted features and optimized with backpropagation. To compare the effectiveness of both strategies, we used a multilayer perceptron and a mix of convolutional and LSTM layers that were already proved effective in this task. The analysis was performed on the long-term clinical trial database (almost 600 minutes of recordings) of a tetraplegic patient executing motor imagery tasks for 3D hand translation. For a given dataset, the results showed that end-to-end training might not be significantly better than the hand-crafted features-based model. The performance gap is reduced with bigger datasets, but considering the increased computational load, end-to-end training may not be profitable for this application.
翻訳日:2022-10-07 17:37:21 公開日:2022-10-05
# JoeyS2T: JoeyNMT を用いた最小音声テキストモデリング

JoeyS2T: Minimalistic Speech-to-Text Modeling with JoeyNMT ( http://arxiv.org/abs/2210.02545v1 )

ライセンス: Link先を確認
Mayumi Ohta, Julia Kreutzer, Stefan Riezler(参考訳) JoeyS2Tは、自動音声認識やエンドツーエンドの音声翻訳などの音声テキストタスクのためのJoeyNMT拡張である。 これはPyTorch上に構築された最小限のNMTツールキットであるJoeyNMTのコア哲学を継承し、シンプルさとアクセシビリティを求める。 JoeyS2Tのワークフローは、データ前処理からモデルトレーニング、予測から評価まで、自己完結型で、JoeyNMTのコンパクトでシンプルなコードベースにシームレスに統合されている。 JoeyNMTの最先端のトランスフォーマーベースのエンコーダデコーダアーキテクチャに加えて、JoeyS2Tは畳み込み層、SpecAugment、CTC-loss、WER評価などの音声指向のコンポーネントを提供する。 従来の実装に比べて単純であるにもかかわらず、JoeyS2Tは英語の音声認識とドイツ語の音声翻訳ベンチマークで競争力がある。 実装にはチュートリアルが付属しており、https://github.com/may-/joeys2tで利用可能である。

JoeyS2T is a JoeyNMT extension for speech-to-text tasks such as automatic speech recognition and end-to-end speech translation. It inherits the core philosophy of JoeyNMT, a minimalist NMT toolkit built on PyTorch, seeking simplicity and accessibility. JoeyS2T's workflow is self-contained, starting from data pre-processing, over model training and prediction to evaluation, and is seamlessly integrated into JoeyNMT's compact and simple code base. On top of JoeyNMT's state-of-the-art Transformer-based encoder-decoder architecture, JoeyS2T provides speech-oriented components such as convolutional layers, SpecAugment, CTC-loss, and WER evaluation. Despite its simplicity compared to prior implementations, JoeyS2T performs competitively on English speech recognition and English-to-German speech translation benchmarks. The implementation is accompanied by a walk-through tutorial and available on https://github.com/may-/joeys2t.
翻訳日:2022-10-07 17:30:50 公開日:2022-10-05
# 深部画像デブラリングの逆ロバスト性について

On Adversarial Robustness of Deep Image Deblurring ( http://arxiv.org/abs/2210.02502v1 )

ライセンス: Link先を確認
Kanchana Vaishnavi Gandikota, Paramanand Chandramouli, Michael Moeller(参考訳) 近年のアプローチでは、そのぼやけた観察からシャープな画像の復元にディープラーニングベースのソリューションが採用されている。 本稿では,深層学習に基づく画像デブロワー法に対する敵対的攻撃を導入し,これらのニューラルネットワークの標的外攻撃に対する堅牢性を評価する。 本研究では,非知覚的歪みが,最先端の劣化ネットワークの性能を著しく低下させ,出力に大きく異なる内容が生じることを示し,分類だけでなく画像復元にも逆向きに堅牢なトレーニングを組み込む必要があることを示す。

Recent approaches employ deep learning-based solutions for the recovery of a sharp image from its blurry observation. This paper introduces adversarial attacks against deep learning-based image deblurring methods and evaluates the robustness of these neural networks to untargeted and targeted attacks. We demonstrate that imperceptible distortion can significantly degrade the performance of state-of-the-art deblurring networks, even producing drastically different content in the output, indicating the strong need to include adversarially robust training not only in classification but also for image recovery.
翻訳日:2022-10-07 17:30:32 公開日:2022-10-05
# TartanCalib:Adaptive SubPixel Refinement of AprilTagsを用いた反復広角レンズ校正

TartanCalib: Iterative Wide-Angle Lens Calibration using Adaptive SubPixel Refinement of AprilTags ( http://arxiv.org/abs/2210.02511v1 )

ライセンス: Link先を確認
Bardienus P Duisterhof, Yaoyu Hu, Si Heng Teng, Michael Kaess, Sebastian Scherer(参考訳) 広角カメラは、小型で軽量で費用対効果の高いフォームファクターで提供される豊富な情報によって、移動ロボットにユニークな位置を占める。 内因と外因性の正確な校正は、広角レンズのエッジを奥行き知覚とオドメトリーに使用するための重要な前提条件である。 現在の最先端技術による広角レンズの校正は、ほとんどのアルゴリズムがピンホールプロジェクションに近い低・中歪みのレンズを仮定するので、エッジの極端な歪みによる結果が得られない。 本研究では,正確な広角キャリブレーション手法を提案する。 私たちのパイプラインは中間モデルを生成し、機能検出とカメラパラメータを反復的に改善します。 中間カメラモデルを利用するために,(1)仮想ピンホールカメラへの画像の非表示,(2)ターゲットを画像フレームに再投影,(3)適応サブピクセルの精細化という3つの重要な手法をテストした。 適応的なサブピクセルリファインメントと機能再プロジェクションを組み合わせることで、リジェクションエラーを最大26.59パーセント改善し、42.01%以上の機能の検出を支援し、深度マッピングの下流タスクの性能向上に寄与する。 最後に、tartancalibはオープンソースであり、使いやすいキャリブレーションツールボックスに実装されている。 数千のパラメータでジェネリックモデルを回帰したり、より堅牢な解法を使ったりすることができる。 この目的のために、TartanCalibは広角キャリブレーションの選択ツールである。 プロジェクトサイトとコード: http://tartancalib.com

Wide-angle cameras are uniquely positioned for mobile robots, by virtue of the rich information they provide in a small, light, and cost-effective form factor. An accurate calibration of the intrinsics and extrinsics is a critical pre-requisite for using the edge of a wide-angle lens for depth perception and odometry. Calibrating wide-angle lenses with current state-of-the-art techniques yields poor results due to extreme distortion at the edge, as most algorithms assume a lens with low to medium distortion closer to a pinhole projection. In this work we present our methodology for accurate wide-angle calibration. Our pipeline generates an intermediate model, and leverages it to iteratively improve feature detection and eventually the camera parameters. We test three key methods to utilize intermediate camera models: (1) undistorting the image into virtual pinhole cameras, (2) reprojecting the target into the image frame, and (3) adaptive subpixel refinement. Combining adaptive subpixel refinement and feature reprojection significantly improves reprojection errors by up to 26.59 %, helps us detect up to 42.01 % more features, and improves performance in the downstream task of dense depth mapping. Finally, TartanCalib is open-source and implemented into an easy-to-use calibration toolbox. We also provide a translation layer with other state-of-the-art works, which allows for regressing generic models with thousands of parameters or using a more robust solver. To this end, TartanCalib is the tool of choice for wide-angle calibration. Project website and code: http://tartancalib.com.
翻訳日:2022-10-07 17:30:22 公開日:2022-10-05
# 静止写真からの水のシミュレーションとレンダリング

Water Simulation and Rendering from a Still Photograph ( http://arxiv.org/abs/2210.02553v1 )

ライセンス: Link先を確認
Ryusuke Sugimoto, Mingming He, Jing Liao, Pedro V. Sander(参考訳) 本研究では,静止画1枚からリアルな水のアニメーションをシミュレートし,レンダリングする手法を提案する。 まず、水面を分割し、レンダリングパラメータを推定し、ニューラルネットワークと従来の最適化技術を組み合わせて、水反射テクスチャを計算する。 次に,入力画像上に水面をオーバーレイし,リアルタイムな水面アニメーションを生成する画像ベースの画面空間局所反射モデルを提案する。 提案手法は,照明や水面条件の異なる大きな水域を含む様々な自然環境に対して,ユーザの介入なしに現実的な結果を生み出す。 本手法は水面の3次元表現を提供するため,自然に水パラメータの直接編集が可能であり,シーンに合成オブジェクトを追加するようなインタラクティブなアプリケーションもサポートする。

We propose an approach to simulate and render realistic water animation from a single still input photograph. We first segment the water surface, estimate rendering parameters, and compute water reflection textures with a combination of neural networks and traditional optimization techniques. Then we propose an image-based screen space local reflection model to render the water surface overlaid on the input image and generate real-time water animation. Our approach creates realistic results with no user intervention for a wide variety of natural scenes containing large bodies of water with different lighting and water surface conditions. Since our method provides a 3D representation of the water surface, it naturally enables direct editing of water parameters and also supports interactive applications like adding synthetic objects to the scene.
翻訳日:2022-10-07 17:29:52 公開日:2022-10-05
# 有効ディリクレエネルギー最適化による滑らかな非剛形形状マッチング

Smooth Non-Rigid Shape Matching via Effective Dirichlet Energy Optimization ( http://arxiv.org/abs/2210.02870v1 )

ライセンス: Link先を確認
Robin Magnet, Jing Ren, Olga Sorkine-Hornung, Maks Ovsjanikov(参考訳) 本稿では,ディリクレエネルギーを用いたポイントワイズマップスムースネスを関数マップパイプラインに導入し,それを効率的に最適化するアルゴリズムを提案する。 具体的には、まず引き戻し形状座標のディリクレエネルギーを離散曲面を横断する点写像の滑らかさを評価する方法として定式化する。 次に,最近提案する離散解法を拡張し,補助変数再構成に基づく戦略により,単射性などの望ましい機能的写像特性と並行して,ポイントワイズ写像の滑らかさを最適化できることを示す。 これにより、機能的およびポイント・ツー・ポイント対応を同時に改善し、非等尺形状のペアであっても滑らかな写像を得る効率的なマップ改善戦略が導かれる。 さらに,提案手法のいくつかは,提案手法の変種として再構成可能であり,一貫性のあるフレームワークで異なる定式化を比較できることを実証する。 最後に、これらの手法を既存のベンチマークと、非厳密で非等尺な形状対とカテゴリー間およびカテゴリ間対応を含む新しいリッチデータセットで比較する。 我々の研究は,概念上,かつ実用的設定において,地図の滑らかさを最適化し,分析するための汎用フレームワークへと導かれる。

We introduce pointwise map smoothness via the Dirichlet energy into the functional map pipeline, and propose an algorithm for optimizing it efficiently, which leads to high-quality results in challenging settings. Specifically, we first formulate the Dirichlet energy of the pulled-back shape coordinates, as a way to evaluate smoothness of a pointwise map across discrete surfaces. We then extend the recently proposed discrete solver and show how a strategy based on auxiliary variable reformulation allows us to optimize pointwise map smoothness alongside desirable functional map properties such as bijectivity. This leads to an efficient map refinement strategy that simultaneously improves functional and point-to-point correspondences, obtaining smooth maps even on non-isometric shape pairs. Moreover, we demonstrate that several previously proposed methods for computing smooth maps can be reformulated as variants of our approach, which allows us to compare different formulations in a consistent framework. Finally, we compare these methods both on existing benchmarks and on a new rich dataset that we introduce, which contains non-rigid, non-isometric shape pairs with inter-category and cross-category correspondences. Our work leads to a general framework for optimizing and analyzing map smoothness both conceptually and in challenging practical settings.
翻訳日:2022-10-07 17:28:29 公開日:2022-10-05
# サンプル・アンド・フォワード:ネットワークにおける偽発見率の通信効率制御

Sample-and-Forward: Communication-Efficient Control of the False Discovery Rate in Networks ( http://arxiv.org/abs/2210.02555v1 )

ライセンス: Link先を確認
Mehrdad Pournaderi and Yu Xiang(参考訳) この研究は、通信制約下でのネットワークにおける偽発見率(FDR)の制御に関するものである。 一般的なトポロジを持つマルチホップネットワークに対するBenjamini-Hochberg(BH)プロシージャのフレキシブルで通信効率のよいサンプル・アンド・フォワードを提案する。 提案手法は,ネットワーク内のノードが相互にp値を伝える必要が無く,グローバルfdr制御制約下で適切な統計力を実現することを実証する。 合計$m$p-値のネットワークを考えると、この手法はまず各ノードにおけるp-値の(経験的な)CDFをサンプリングし、次に隣接するノードに$\mathcal{O}(\log m)$ビットを転送する。 元のBH法と同じ仮定の下では,提案手法は証明可能な有限サンプルFDR制御と,各ノードに数個のサンプルを持つ競合的実証検出能力の両方を有する。 p値に対する混合モデル仮定の下での電力の漸近解析を提供する。

This work concerns controlling the false discovery rate (FDR) in networks under communication constraints. We present sample-and-forward, a flexible and communication-efficient version of the Benjamini-Hochberg (BH) procedure for multihop networks with general topologies. Our method evidences that the nodes in a network do not need to communicate p-values to each other to achieve a decent statistical power under the global FDR control constraint. Consider a network with a total of $m$ p-values, our method consists of first sampling the (empirical) CDF of the p-values at each node and then forwarding $\mathcal{O}(\log m)$ bits to its neighbors. Under the same assumptions as for the original BH procedure, our method has both the provable finite-sample FDR control as well as competitive empirical detection power, even with a few samples at each node. We provide an asymptotic analysis of power under a mixture model assumption on the p-values.
翻訳日:2022-10-07 17:19:24 公開日:2022-10-05
# 深部オフライン強化学習による安全機械換気処理を目指して

Towards Safe Mechanical Ventilation Treatment Using Deep Offline Reinforcement Learning ( http://arxiv.org/abs/2210.02552v1 )

ライセンス: Link先を確認
Flemming Kondrup, Thomas Jiralerspong, Elaine Lau, Nathan de Lara, Jacob Shkrob, My Duc Tran, Doina Precup, Sumana Basu(参考訳) 機械的換気は肺機能障害患者の生命維持の重要な形態である。 医療従事者は、患者ごとに人工呼吸器の設定を継続的に調整する必要がある。 したがって、換気処理を最適化する自動意思決定支援ツールを開発することは有益である。 我々は,90日間の生存を促進するために,患者が最適な人工呼吸器パラメータを予測することを学習する,保守的Q-Learning(CQL)ベースのオフラインDeep Reinforcement Learning(DRL)エージェントであるDeepVentを紹介する。 我々は、患者バイタルの継続的な改善を奨励する臨床的に関連する中間報酬をデザインし、rlにおけるスパース報酬の課題に対処する。 最近の臨床試験で概説されているように、deepventは安全範囲内の換気パラメータを推奨している。 cqlアルゴリズムは、分散状態/アクションの値推定の過大評価を緩和することで、さらなる安全性を提供する。 適合q評価 (fqe) を用いて薬剤の評価を行い, mimic-iii データセットより医師に優れることを示した。

Mechanical ventilation is a key form of life support for patients with pulmonary impairment. Healthcare workers are required to continuously adjust ventilator settings for each patient, a challenging and time consuming task. Hence, it would be beneficial to develop an automated decision support tool to optimize ventilation treatment. We present DeepVent, a Conservative Q-Learning (CQL) based offline Deep Reinforcement Learning (DRL) agent that learns to predict the optimal ventilator parameters for a patient to promote 90 day survival. We design a clinically relevant intermediate reward that encourages continuous improvement of the patient vitals as well as addresses the challenge of sparse reward in RL. We find that DeepVent recommends ventilation parameters within safe ranges, as outlined in recent clinical trials. The CQL algorithm offers additional safety by mitigating the overestimation of the value estimates of out-of-distribution states/actions. We evaluate our agent using Fitted Q Evaluation (FQE) and demonstrate that it outperforms physicians from the MIMIC-III dataset.
翻訳日:2022-10-07 17:13:27 公開日:2022-10-05
# メッシュ型物理シミュレーションのためのbi-strideマルチスケールグラフニューラルネットワーク

Bi-Stride Multi-Scale Graph Neural Network for Mesh-Based Physical Simulation ( http://arxiv.org/abs/2210.02573v1 )

ライセンス: Link先を確認
Yadi Cao, Menglei Chai, Minchen Li, Chenfanfu Jiang(参考訳) フラットグラフニューラルネットワーク(GNN)による非構造化メッシュ上の物理システム学習は、スケーリングの複雑さによって長距離インタラクションをモデル化するという課題に直面している。 通常のグリッドでは、u-net構造を持つ畳み込みニューラルネットワーク(cnns)は、効率的なステップ、プール、アップサンプリング操作によってこの課題を解決できる。 それでもこれらのツールは、グラフニューラルネットワーク(GNN)、特に大規模メッシュベースの物理学習にGNNを使用する場合には、はるかに少ない。 この課題は、非常に不規則なメッシュと、接続性を失うことなくマルチレベルの構造を構築する効果的な方法の欠如から生じる。 二成分グラフ決定アルゴリズムに触発されて,多次元gnn構築のための単純なプーリング戦略として,二成分多スケールグラフニューラルネットワーク(bsms-gnn)を提案する。 \textit{Bi-stride}は、他のすべてのBFSフロンティアをストレートすることでノードをプールする。 1)野生のどんなチャレンジメッシュでも頑健に動作します。 2)粗いレベルでのメッシュジェネレータの使用を避ける。 3)粗い層を作るための空間的近接を避けること、及び 4) プールやアンプール時のmlpの代わりに非パラメータ化集約/回帰を使用する。 実験により, 提案手法は, 代表的な物理シミュレーションケースにおいて, 最先端の計算効率を大きく上回ることを示した。

Learning physical systems on unstructured meshes by flat Graph neural networks (GNNs) faces the challenge of modeling the long-range interactions due to the scaling complexity w.r.t. the number of nodes, limiting the generalization under mesh refinement. On regular grids, the convolutional neural networks (CNNs) with a U-net structure can resolve this challenge by efficient stride, pooling, and upsampling operations. Nonetheless, these tools are much less developed for graph neural networks (GNNs), especially when GNNs are employed for learning large-scale mesh-based physics. The challenges arise from the highly irregular meshes and the lack of effective ways to construct the multi-level structure without losing connectivity. Inspired by the bipartite graph determination algorithm, we introduce Bi-Stride Multi-Scale Graph Neural Network (BSMS-GNN) by proposing \textit{bi-stride} as a simple pooling strategy for building the multi-level GNN. \textit{Bi-stride} pools nodes by striding every other BFS frontier; it 1) works robustly on any challenging mesh in the wild, 2) avoids using a mesh generator at coarser levels, 3) avoids the spatial proximity for building coarser levels, and 4) uses non-parametrized aggregating/returning instead of MLPs during pooling and unpooling. Experiments show that our framework significantly outperforms the state-of-the-art method's computational efficiency in representative physics-based simulation cases.
翻訳日:2022-10-07 17:13:08 公開日:2022-10-05
# 大型言語モデルは、かなり良いゼロショットビデオゲームのバグ検知器だ

Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors ( http://arxiv.org/abs/2210.02506v1 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Finlay Macklon, Yihe Wang, Hengshuo Shen, Cor-Paul Bezemer(参考訳) ビデオゲームのテストにはゲーム固有の知識と、ゲーム内のイベントに関する常識的な推論が必要です。 AI駆動エージェントは第1の要件を満たすことができるが、第2の要件を自動で満たすことはできない。 そのため、ビデオゲームのテストは依然として手動テストに依存しており、人間のテスターはバグを検出するためにゲームを徹底的にプレイする必要がある。 その結果,ゲームテストの完全自動化は困難である。 本研究では,大規模言語モデルのゼロショット機能を利用したゲームバグ検出の可能性を検討する。 バグ検出問題を質問応答タスクとして定式化することにより、ゲームからのイベントのテキスト記述のシーケンスにおいて、大きな言語モデルでどのイベントがバグであるかを識別できることを示す。 そこで本研究では,ゲームプレイ167本と8ゲーム合計334本からなるgamebugdescriptionsベンチマークデータセットを紹介する。 OPTおよびインストラクトGPT大言語モデルファミリーの6つのモデルの性能をベンチマークデータセット上で広範囲に評価した。 本研究は,ビデオゲームのバグ検出に言語モデルを用いた場合の有望な結果を示す。 適切なプロンプト技術により、70.66%の精度を達成でき、いくつかのビデオゲームでは78.94%まで向上した。 私たちのコード、評価データ、ベンチマークはhttps://asgaardlab.github.io/LLMxBugsで確認できる。

Video game testing requires game-specific knowledge as well as common sense reasoning about the events in the game. While AI-driven agents can satisfy the first requirement, it is not yet possible to meet the second requirement automatically. Therefore, video game testing often still relies on manual testing, and human testers are required to play the game thoroughly to detect bugs. As a result, it is challenging to fully automate game testing. In this study, we explore the possibility of leveraging the zero-shot capabilities of large language models for video game bug detection. By formulating the bug detection problem as a question-answering task, we show that large language models can identify which event is buggy in a sequence of textual descriptions of events from a game. To this end, we introduce the GameBugDescriptions benchmark dataset, which consists of 167 buggy gameplay videos and a total of 334 question-answer pairs across 8 games. We extensively evaluate the performance of six models across the OPT and InstructGPT large language model families on our benchmark dataset. Our results show promising results for employing language models to detect video game bugs. With the proper prompting technique, we could achieve an accuracy of 70.66%, and on some video games, up to 78.94%. Our code, evaluation data and the benchmark can be found on https://asgaardlab.github.io/LLMxBugs
翻訳日:2022-10-07 17:02:09 公開日:2022-10-05
# 自己監督型音声モデルの探索:感情コーパスの検討

Exploration of A Self-Supervised Speech Model: A Study on Emotional Corpora ( http://arxiv.org/abs/2210.02595v1 )

ライセンス: Link先を確認
Yuanchao Li, Yumnah Mohamied, Peter Bell, Catherine Lai(参考訳) 自己教師付き音声モデルはここ数年で急速に成長し、様々な下流タスクで使用できることが証明されている。 いくつかの最近の研究はこれらのモデルの特徴に注目し始めているが、多くの懸念は十分に解決されていない。 本稿では,人気のある自己監督モデルであるwav2vec 2.0について,感情コーパスの研究を行う。 定量的な分析を通して 主にそのことを示します 1) wav2vec 2.0は、単語認識目的にあまり有用でないパラ言語情報を破棄しているように見える。 2) 感情認識では, 中間層のみの表現が, 平均層から派生した表現と同等に機能し, 最終層が最悪の結果となる場合もある。 3)現在の自己教師型モデルは,非語彙的特徴を利用した下流タスクの最適解にはならない。 本研究は,本領域における今後の研究に役立つ新たな知見と既存モデルの利用に関する理論的基礎を提供する。

Self-supervised speech models have grown fast during the past few years and have proven feasible for use in various downstream tasks. Some recent work has started to look at the characteristics of these models, yet many concerns have not been fully addressed. In this work, we conduct a study on emotional corpora to explore a popular self-supervised model -- wav2vec 2.0. Via a set of quantitative analysis, we mainly demonstrate that: 1) wav2vec 2.0 appears to discard paralinguistic information that is less useful for word recognition purposes; 2) for emotion recognition, representations from the middle layer alone perform as well as those derived from layer averaging, while the final layer results in the worst performance in some cases; 3) current self-supervised models may not be the optimal solution for downstream tasks that make use of non-lexical features. Our work provides novel findings that will aid future research in this area and theoretical basis for the use of existing models.
翻訳日:2022-10-07 17:01:48 公開日:2022-10-05
# Vision+X: データの光におけるマルチモーダル学習に関する調査

Vision+X: A Survey on Multimodal Learning in the Light of Data ( http://arxiv.org/abs/2210.02884v1 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Nicu Sebe, Yan Yan(参考訳) 我々は、異なる情報ソースが高度に処理され、人間の脳の別々の部分によって解釈され、複雑で調和し、統一された知覚システムを構成する多感覚的な方法で世界と認識し、コミュニケーションしている。 機械に真の知性を授けるために、様々なモダリティからデータを取り入れたマルチモーダル機械学習は、近年、技術進歩とともに、ますます人気が高まっている。 本稿では、純粋に技術的な側面だけでなく、異なるデータモダリティの性質も考慮した新しい視点から、マルチモーダル機械学習に関する調査を行う。 視覚,音声,テキストなど,各データフォーマットの共通点と特異点を分析し,視覚データが多くのマルチモーダル学習作業において基本的な役割を果たすビジョン+Xの組み合わせによって分類された技術開発を提示する。 本研究では,表現学習レベルと下流アプリケーションレベルの両方から既存のマルチモーダル学習に関する文献を調査し,画像オブジェクトとテキスト記述間の意味的一貫性や,ビデオダンスの動きと音楽のビートとのリズム対応など,データの性質との技術的関係の観点から,さらなる比較を行う。 データモダリティの本質的性質と技術的な設計との間の既存のギャップに加えて、アライメントの活用は、具体的なマルチモーダルタスクに関連する特定の課題に対処し解決し、真の人間の知能システムに近い統一されたマルチモーダル機械学習フレームワークを促進するために、将来の研究研究に役立つだろう。

We are perceiving and communicating with the world in a multisensory manner, where different information sources are sophisticatedly processed and interpreted by separate parts of the human brain to constitute a complex, yet harmonious and unified sensing system. To endow the machines with true intelligence, the multimodal machine learning that incorporates data from various modalities has become an increasingly popular research area with emerging technical advances in recent years. In this paper, we present a survey on multimodal machine learning from a novel perspective considering not only the purely technical aspects but also the nature of different data modalities. We analyze the commonness and uniqueness of each data format ranging from vision, audio, text and others, and then present the technical development categorized by the combination of Vision+X, where the vision data play a fundamental role in most multimodal learning works. We investigate the existing literature on multimodal learning from both the representation learning and downstream application levels, and provide an additional comparison in the light of their technical connections with the data nature, e.g., the semantic consistency between image objects and textual descriptions, or the rhythm correspondence between video dance moves and musical beats. The exploitation of the alignment, as well as the existing gap between the intrinsic nature of data modality and the technical designs, will benefit future research studies to better address and solve a specific challenge related to the concrete multimodal task, and to prompt a unified multimodal machine learning framework closer to a real human intelligence system.
翻訳日:2022-10-07 16:53:36 公開日:2022-10-05
# DigiFace-1M: 顔認識のための100万のデジタル顔画像

DigiFace-1M: 1 Million Digital Face Images for Face Recognition ( http://arxiv.org/abs/2210.02579v1 )

ライセンス: Link先を確認
Gwangbin Bae, Martin de La Gorce, Tadas Baltrusaitis, Charlie Hewitt, Dong Chen, Julien Valentin, Roberto Cipolla, Jingjing Shen(参考訳) 最先端の顔認識モデルは、LFWデータセットで99.8%以上の精度で達成されている。 このようなモデルは、インターネットから収集された数百万の実際の顔画像を含む大規模データセットでトレーニングされる。 ウェブクローリングされた顔画像は(人種、照明、メイクアップなど)ひどく偏りがあり、しばしばラベルノイズを含んでいる。 さらに重要なのは、顔画像は明示的な同意なしに収集され、倫理的懸念が高まることだ。 このような問題を避けるため、コンピュータグラフィックスパイプラインを用いてデジタル顔の描画によって得られる顔認識のための大規模な合成データセットを導入する。 まず,アグレッシブなデータ拡張が合成と実領域のギャップを大幅に削減できることを実証する。 レンダリングパイプラインを完全に制御すると同時に,各属性(顔のポーズやアクセサリ,テクスチャの変化など)が精度に与える影響についても検討する。 GAN合成顔で訓練された最近のSynFaceと比較して、LFWの誤差率を52.5%削減する(精度は91.93%から96.17%)。 ネットワークを少数の実顔画像に微調整し、同意を得て合理的に取得することで、何百万もの実顔画像で訓練された方法に匹敵する精度を得る。

State-of-the-art face recognition models show impressive accuracy, achieving over 99.8% on Labeled Faces in the Wild (LFW) dataset. Such models are trained on large-scale datasets that contain millions of real human face images collected from the internet. Web-crawled face images are severely biased (in terms of race, lighting, make-up, etc) and often contain label noise. More importantly, the face images are collected without explicit consent, raising ethical concerns. To avoid such problems, we introduce a large-scale synthetic dataset for face recognition, obtained by rendering digital faces using a computer graphics pipeline. We first demonstrate that aggressive data augmentation can significantly reduce the synthetic-to-real domain gap. Having full control over the rendering pipeline, we also study how each attribute (e.g., variation in facial pose, accessories and textures) affects the accuracy. Compared to SynFace, a recent method trained on GAN-generated synthetic faces, we reduce the error rate on LFW by 52.5% (accuracy from 91.93% to 96.17%). By fine-tuning the network on a smaller number of real face images that could reasonably be obtained with consent, we achieve accuracy that is comparable to the methods trained on millions of real face images.
翻訳日:2022-10-07 16:46:59 公開日:2022-10-05
# イベントベースデータへの高密度物体検出モデル転送

Transferring dense object detection models to event-based data ( http://arxiv.org/abs/2210.02607v1 )

ライセンス: Link先を確認
Vincenz Mechler and Pavel Rojtberg(参考訳) イベントベースの画像表現は、従来の濃密な画像と根本的に異なる。 これは、高密度画像のために設計されたオブジェクト検出に現在の最先端モデルを適用することが課題となる。 本研究では,イベントデータに基づくyoloオブジェクト検出モデルを評価する。 これにより、イベントベースのイメージを直接処理し、パフォーマンスとランタイムとイベントヒストグラムを集中畳み込みに供給するパフォーマンスとランタイムを比較することができる。 ここで、ハイパーパラメータは全ての変種で共有され、スパース表現が検出性能に与える影響を分離する。 そこで本研究では,現在のスパース畳み込み実装では,理論的に低い計算条件を改良されたランタイムに変換することができないことを示す。

Event-based image representations are fundamentally different to traditional dense images. This poses a challenge to apply current state-of-the-art models for object detection as they are designed for dense images. In this work we evaluate the YOLO object detection model on event data. To this end we replace dense-convolution layers by either sparse convolutions or asynchronous sparse convolutions which enables direct processing of event-based images and compare the performance and runtime to feeding event-histograms into dense-convolutions. Here, hyper-parameters are shared across all variants to isolate the effect sparse-representation has on detection performance. At this, we show that current sparse-convolution implementations cannot translate their theoretical lower computation requirements into an improved runtime.
翻訳日:2022-10-07 16:46:38 公開日:2022-10-05
# モノクローナルな3D検出に必要な深度

Depth Is All You Need for Monocular 3D Detection ( http://arxiv.org/abs/2210.02493v1 )

ライセンス: Link先を確認
Dennis Park, Jie Li, Dian Chen, Vitor Guizilini, Adrien Gaidon(参考訳) 単一画像からの3d検出の最近の進歩の鍵となるのは、単眼深度推定である。 既存の手法では、疑似pointcloudを生成したり、画像機能に注意を向けたりすることで、深度を明示的に活用する方法に焦点を当てている。 近年の研究では、深度予測を事前学習タスクとして活用し、3D検出のためのトレーニング中に深度表現を微調整している。 しかし、適応性は不十分であり、マニュアルラベルによって規模が制限されている。 本研究では,教師なしの方法で対象領域と深度表現をさらに整合させる手法を提案する。 本手法では, トレーニング時間中に利用可能なLiDARやRGBビデオを利用して深度表現を微調整し, 改良された3D検出器を実現する。 特にRGBビデオでは,2つのタスク間の損失分布の不整合のため,まず擬似深度ラベルを生成する2段階トレーニングが重要であることを示す。 いずれの参照データでも、マルチタスク学習アプローチは、kittiとnusceneの両方の最先端技術よりも改善され、単一のタスクサブネットワークのテスト時間複雑性にマッチします。

A key contributor to recent progress in 3D detection from single images is monocular depth estimation. Existing methods focus on how to leverage depth explicitly, by generating pseudo-pointclouds or providing attention cues for image features. More recent works leverage depth prediction as a pretraining task and fine-tune the depth representation while training it for 3D detection. However, the adaptation is insufficient and is limited in scale by manual labels. In this work, we propose to further align depth representation with the target domain in unsupervised fashions. Our methods leverage commonly available LiDAR or RGB videos during training time to fine-tune the depth representation, which leads to improved 3D detectors. Especially when using RGB videos, we show that our two-stage training by first generating pseudo-depth labels is critical because of the inconsistency in loss distribution between the two tasks. With either type of reference data, our multi-task learning approach improves over the state of the art on both KITTI and NuScenes, while matching the test-time complexity of its single task sub-network.
翻訳日:2022-10-07 16:35:07 公開日:2022-10-05
# AOE-Net:テンポラルアクション生成のためのアダプティブアテンション機構を用いたエンティティインタラクションモデリング

AOE-Net: Entities Interactions Modeling with Adaptive Attention Mechanism for Temporal Action Proposals Generation ( http://arxiv.org/abs/2210.02578v1 )

ライセンス: Link先を確認
Khoa Vo, Sang Truong, Kashu Yamazaki, Bhiksha Raj, Minh-Triet Tran, Ngan Le(参考訳) 時間的アクションプロポーザル生成(TAPG)は、未トリミングビデオにおける動作間隔のローカライズを必要とする課題である。 直感的には、私たちは人間として、アクター、関連するオブジェクト、および周囲の環境の間の相互作用を通じて行動を認識する。 TAPGの著しい進歩にもかかわらず、既存の手法の大部分は、前述の人間の知覚過程の原則を無視し、バックボーンネットワークを所定のビデオにブラックボックスとして適用している。 本稿では,これらの相互作用をマルチモーダル表現ネットワーク,すなわちactor-objects-environment interaction network (aoe-net) を用いてモデル化する。 我々のAOE-Netは、知覚に基づくマルチモーダル表現(PMR)と境界マッチングモジュール(BMM)の2つのモジュールで構成される。 さらに,PMRにおける適応的注意機構(AAM)を導入し,主役(あるいは関連対象)のみに着目し,それらの関係をモデル化する。 PMRモジュールは、主アクターと周辺環境を視覚情報で表現する視覚言語的特徴によって各ビデオスニペットを表現し、関連するオブジェクトは画像テキストモデルを介して言語的特徴によって表現する。 BMMモジュールはその入力として視覚言語的特徴のシーケンスを処理し、アクション提案を生成する。 ActivityNet-1.3 と THUMOS-14 データセットに関する総合的な実験および広範囲なアブレーション研究により,提案した AOE-Net は,TAPG と時間的動作検出の両方において,従来の最先端手法よりも優れた性能と一般化を示した。 AOE-Netの堅牢性と有効性を証明するため、エゴセントリックビデオ(EPIC-KITCHENS 100 データセット)のアブレーション研究を行っている。 ソースコードは受理時に入手できる。

Temporal action proposal generation (TAPG) is a challenging task, which requires localizing action intervals in an untrimmed video. Intuitively, we as humans, perceive an action through the interactions between actors, relevant objects, and the surrounding environment. Despite the significant progress of TAPG, a vast majority of existing methods ignore the aforementioned principle of the human perceiving process by applying a backbone network into a given video as a black-box. In this paper, we propose to model these interactions with a multi-modal representation network, namely, Actors-Objects-Environment Interaction Network (AOE-Net). Our AOE-Net consists of two modules, i.e., perception-based multi-modal representation (PMR) and boundary-matching module (BMM). Additionally, we introduce adaptive attention mechanism (AAM) in PMR to focus only on main actors (or relevant objects) and model the relationships among them. PMR module represents each video snippet by a visual-linguistic feature, in which main actors and surrounding environment are represented by visual information, whereas relevant objects are depicted by linguistic features through an image-text model. BMM module processes the sequence of visual-linguistic features as its input and generates action proposals. Comprehensive experiments and extensive ablation studies on ActivityNet-1.3 and THUMOS-14 datasets show that our proposed AOE-Net outperforms previous state-of-the-art methods with remarkable performance and generalization for both TAPG and temporal action detection. To prove the robustness and effectiveness of AOE-Net, we further conduct an ablation study on egocentric videos, i.e. EPIC-KITCHENS 100 dataset. Source code is available upon acceptance.
翻訳日:2022-10-07 16:34:48 公開日:2022-10-05
# no, they didn」--事前学習された言語モデルにおける対話応答ダイナミクス

"No, they did not": Dialogue response dynamics in pre-trained language models ( http://arxiv.org/abs/2210.02526v1 )

ライセンス: Link先を確認
Sanghee J. Kim and Lang Yu and Allyson Ettinger(参考訳) 言語能力の重要な構成要素は、発話の関連成分を識別し、適切に返信することができることである。 本稿では,事前学習された言語モデルにおける対話応答の感度について検討し,発声と楕円現象のダイナミクスに対する感受性に着目した一連の実験を行った。 モデルは、埋め込み節の特徴的な役割と、先行発話の主節内容をターゲットにした応答に対する一般的な選択に対する明確な感受性を示すことが判明した。 しかし,本研究の結果は,対象コンテンツと対象コンテンツとに係わるダイナミックスの全範囲を捉える上で,混合的かつ一般に弱い傾向を示している。 加えて、モデルは楕円を統治するダイナミクスの把握において基本的な制限を示し、応答選択は原則付き談話制約の影響を上回る表面的要因からの明らかな干渉を示す。

A critical component of competence in language is being able to identify relevant components of an utterance and reply appropriately. In this paper we examine the extent of such dialogue response sensitivity in pre-trained language models, conducting a series of experiments with a particular focus on sensitivity to dynamics involving phenomena of at-issueness and ellipsis. We find that models show clear sensitivity to a distinctive role of embedded clauses, and a general preference for responses that target main clause content of prior utterances. However, the results indicate mixed and generally weak trends with respect to capturing the full range of dynamics involved in targeting at-issue versus not-at-issue content. Additionally, models show fundamental limitations in grasp of the dynamics governing ellipsis, and response selections show clear interference from superficial factors that outweigh the influence of principled discourse constraints.
翻訳日:2022-10-07 16:19:11 公開日:2022-10-05
# 注意に基づく成分句パーサ

Attention-based Ingredient Phrase Parser ( http://arxiv.org/abs/2210.02535v1 )

ライセンス: Link先を確認
Zhengxiang Shi, Pin Ni, Meihui Wang, To Eun Kim and Aldo Lipani(参考訳) 仮想パーソナルアシスタントが消費者市場に浸透し、SiriやAlexaなどの製品が登場し、研究コミュニティはホテルの予約、レストランの予約、映画レコメンデーションといったタスク指向の対話タスクをいくつも作り出している。 ユーザによる料理支援は、知的なアシスタントによって解決されると思われるタスクのひとつであり、ユーザに対して、名前、単位、量などの材料とその属性を正確かつ迅速に提供する必要がある。 しかし、調理ウェブサイトから抽出された既存の食材情報は、「1ニンニククローブ、破砕」や「1(8オンス)パッケージクリームチーズ、軟化」など、語彙構造が大きく変化した非構造であり、正確な情報抽出は困難である。 料理作業に携わって成功した会話サービスを提供するため、レシピの具体的句を0.03f1-score以上の属性で構造形式にパースできる新しい具体的構文解析モデルを提案する。 実験の結果,AllRecipesとFood.comのデータセット上での最先端のパフォーマンスが得られた。

As virtual personal assistants have now penetrated the consumer market, with products such as Siri and Alexa, the research community has produced several works on task-oriented dialogue tasks such as hotel booking, restaurant booking, and movie recommendation. Assisting users to cook is one of these tasks that are expected to be solved by intelligent assistants, where ingredients and their corresponding attributes, such as name, unit, and quantity, should be provided to users precisely and promptly. However, existing ingredient information scraped from the cooking website is in the unstructured form with huge variation in the lexical structure, for example, '1 garlic clove, crushed', and '1 (8 ounce) package cream cheese, softened', making it difficult to extract information exactly. To provide an engaged and successful conversational service to users for cooking tasks, we propose a new ingredient parsing model that can parse an ingredient phrase of recipes into the structure form with its corresponding attributes with over 0.93 F1-score. Experimental results show that our model achieves state-of-the-art performance on AllRecipes and Food.com datasets.
翻訳日:2022-10-07 16:18:55 公開日:2022-10-05
# 均一暗号を用いたBERT埋め込みにおけるプライバシー保護テキスト分類

Privacy-Preserving Text Classification on BERT Embeddings with Homomorphic Encryption ( http://arxiv.org/abs/2210.02574v1 )

ライセンス: Link先を確認
Garam Lee, Minsoo Kim, Jai Hyun Park, Seung-won Hwang, Jung Hee Cheon(参考訳) テキスト中の情報を意味的に保存する低次元ベクトルに圧縮する埋め込みは、その有効性に広く採用されている。 しかし、最近の研究では、埋め込みはテキストの機密属性に関する個人情報を漏らす可能性があり、場合によっては元の入力テキストを復元するために反転することができることが示されている。 これらの増大するプライバシー問題に対処するため,我々は,テキスト分類の過程で情報の漏洩を防止するため,準同型暗号に基づく埋め込みの民営化機構を提案する。 特に,ckks暗号化方式の効率的なgpu実装により,bertなどの最先端モデルからの埋め込みの暗号化において,テキスト分類を行う。 提案手法はbert埋め込みの暗号化保護を提供しつつ,下流のテキスト分類タスクでの有用性を保っていることを示す。

Embeddings, which compress information in raw text into semantics-preserving low-dimensional vectors, have been widely adopted for their efficacy. However, recent research has shown that embeddings can potentially leak private information about sensitive attributes of the text, and in some cases, can be inverted to recover the original input text. To address these growing privacy challenges, we propose a privatization mechanism for embeddings based on homomorphic encryption, to prevent potential leakage of any piece of information in the process of text classification. In particular, our method performs text classification on the encryption of embeddings from state-of-the-art models like BERT, supported by an efficient GPU implementation of CKKS encryption scheme. We show that our method offers encrypted protection of BERT embeddings, while largely preserving their utility on downstream text classification tasks.
翻訳日:2022-10-07 16:18:35 公開日:2022-10-05
# CCC-wav2vec 2.0:クラスタリング支援による音声表現のクロスコントラスト自己教師型学習

CCC-wav2vec 2.0: Clustering aided Cross Contrastive Self-supervised learning of speech representations ( http://arxiv.org/abs/2210.02592v1 )

ライセンス: Link先を確認
Vasista Sai Lodagala and Sreyan Ghosh and S. Umesh(参考訳) Self-Supervised Learningは、利用可能なラベルなしデータからスケールのメリットを得るのに役立ちましたが、学習パラダイムは継続的に改善されています。 本稿では,クラスタリングと拡張に基づくクロスコントラスト損失を自己管理対象とする,ccc-wav2vec 2.0という新たな事前学習戦略を提案する。 クラスタリングモジュールを通じて、ポジティブと非常によく似た否定的な例の影響をスケールダウンします。 クロスコントラスト損失は、元のサンプルのエンコーダ出力と、その増大と逆転の量子化器出力との間に計算され、事前学習戦略に堅牢性をもたらす。 ccc-wav2vec 2.0は、librispeechのベースラインであるwav2vec 2.0よりも15.6%と12.7%の改善を達成している。 提案手法は,Switchboardデータに微調整を施すと,ベースラインwav2vec 2.0よりも14.9%の相対的なWER改善を実現する。 すべてのコードをgithubで公開しています。

While Self-Supervised Learning has helped reap the benefit of the scale from the available unlabeled data, the learning paradigms are continuously being bettered. We present a new pre-training strategy named ccc-wav2vec 2.0, which uses clustering and an augmentation-based cross-contrastive loss as its self-supervised objective. Through the clustering module, we scale down the influence of those negative examples that are highly similar to the positive. The Cross-Contrastive loss is computed between the encoder output of the original sample and the quantizer output of its augmentation and vice-versa, bringing robustness to the pre-training strategy. ccc-wav2vec 2.0 achieves up to 15.6% and 12.7% relative WER improvement over the baseline wav2vec 2.0 on the test-clean and test-other sets, respectively, of LibriSpeech, without the use of any language model. The proposed method also achieves up to 14.9% relative WER improvement over the baseline wav2vec 2.0 when fine-tuned on Switchboard data. We make all our codes publicly available on GitHub.
翻訳日:2022-10-07 16:18:22 公開日:2022-10-05
# 言語モデルにおける音節の再検討と低リソース機械翻訳への応用

Revisiting Syllables in Language Modelling and their Application on Low-Resource Machine Translation ( http://arxiv.org/abs/2210.02509v1 )

ライセンス: Link先を確認
Arturo Oncevay, Kervy Dante Rivas Rojas, Liz Karen Chavez Sanchez, Roberto Zariquiey(参考訳) 言語モデリングや機械翻訳は、主にサブワードや文字入力を使うが、音節はほとんど使われない。 音節は文字よりも短いシーケンスを提供し、モーフィムよりも規則の抽出は必要とせず、そのセグメンテーションはコーパスサイズに影響されない。 本研究では,21言語における開語彙言語モデリングにおける音節の可能性について検討する。 我々は6言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。 類似のパープレキシティで、音節は文字や他のサブワードよりも優れています。 さらに,無関係・低リソース言語ペア (shipibo-konibo) におけるニューラルマシン翻訳における音節の重要性について検討した。 対訳系や多言語系では、音節は、透明な正書法(shipibo-konibo)で高度に合成された言語に翻訳する際に、教師なしのサブワードや、さらに形態素的なセグメンテーション法を上回る。 最後に、人間による評価を行い、限界と機会について論じる。

Language modelling and machine translation tasks mostly use subword or character inputs, but syllables are seldom used. Syllables provide shorter sequences than characters, require less-specialised extracting rules than morphemes, and their segmentation is not impacted by the corpus size. In this study, we first explore the potential of syllables for open-vocabulary language modelling in 21 languages. We use rule-based syllabification methods for six languages and address the rest with hyphenation, which works as a syllabification proxy. With a comparable perplexity, we show that syllables outperform characters and other subwords. Moreover, we study the importance of syllables on neural machine translation for a non-related and low-resource language-pair (Spanish--Shipibo-Konibo). In pairwise and multilingual systems, syllables outperform unsupervised subwords, and further morphological segmentation methods, when translating into a highly synthetic language with a transparent orthography (Shipibo-Konibo). Finally, we perform some human evaluation, and discuss limitations and opportunities.
翻訳日:2022-10-07 16:07:44 公開日:2022-10-05
# サンプリングのための漁業情報低域化

Fisher information lower bounds for sampling ( http://arxiv.org/abs/2210.02482v1 )

ライセンス: Link先を確認
Sinho Chewi, Patrik Gerber, Holden Lee, Chen Lu(参考訳) バラシュラマニアンら (2022) のフレームワークにおける非対数サンプリングの複雑さに対する2つの下界を証明し、サンプリングにおける近似一階定常性の概念としてフィッシャー情報(FI)境界を導入した。 第1の下位境界は,非凸最適化における定常点の探索問題を減らし,LMCの平均値が大規模FIの整合性に最適であることを示している。 我々の2番目の下限は、小さなFIの体制において、ターゲット分布から少なくとも$\varepsilon^2$のFIを得るには$\text{poly}(1/\varepsilon)$クエリが必要であることを示している。

We prove two lower bounds for the complexity of non-log-concave sampling within the framework of Balasubramanian et al. (2022), who introduced the use of Fisher information (FI) bounds as a notion of approximate first-order stationarity in sampling. Our first lower bound shows that averaged LMC is optimal for the regime of large FI by reducing the problem of finding stationary points in non-convex optimization to sampling. Our second lower bound shows that in the regime of small FI, obtaining a FI of at most $\varepsilon^2$ from the target distribution requires $\text{poly}(1/\varepsilon)$ queries, which is surprising as it rules out the existence of high-accuracy algorithms (e.g., algorithms using Metropolis-Hastings filters) in this context.
翻訳日:2022-10-07 16:01:46 公開日:2022-10-05
# 遅延文脈の少ないリワードミキシングMDPを学習可能

Reward-Mixing MDPs with a Few Latent Contexts are Learnable ( http://arxiv.org/abs/2210.02594v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Yonathan Efroni, Constantine Caramanis, Shie Mannor(参考訳) 我々は、報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習を考察し、各エピソードの始めに、M$候補のうち潜在報酬モデルをランダムに選択し、エージェントはエピソード全体を通してMDPと対話し、時間ステップを$H$とする。 我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する準最適政策を学ぶことである。 以前の研究では、RMMDPの上限が$M=2$であった。 本研究では,RMMDPモデルに対するいくつかのオープンな疑問を解決した。 任意の$m\ge2$に対して、サンプル効率の良いアルゴリズム--$\texttt{em}^2$-を提供し、$\tilde{o} \left(\epsilon^{-2} \cdot s^d a^d \cdot \texttt{poly}(h, z)^d \right)$ episodes を用いて$\epsilon$-optimalポリシーを出力する。 提案手法はモーメント法に基づく手法の高次拡張であるが, \algname アルゴリズムの設計と解析には,既存の手法を超越した新たなアイデアがいくつか必要である。 また、RMMDP の一般インスタンスに対して $(SA)^{\Omega(\sqrt{M})} / \epsilon^{2}$ という下界も提供し、M$ の超ポリノミカルサンプルの複雑さが必要とされることを裏付ける。

We consider episodic reinforcement learning in reward-mixing Markov decision processes (RMMDPs): at the beginning of every episode nature randomly picks a latent reward model among $M$ candidates and an agent interacts with the MDP throughout the episode for $H$ time steps. Our goal is to learn a near-optimal policy that nearly maximizes the $H$ time-step cumulative rewards in such a model. Previous work established an upper bound for RMMDPs for $M=2$. In this work, we resolve several open questions remained for the RMMDP model. For an arbitrary $M\ge2$, we provide a sample-efficient algorithm--$\texttt{EM}^2$--that outputs an $\epsilon$-optimal policy using $\tilde{O} \left(\epsilon^{-2} \cdot S^d A^d \cdot \texttt{poly}(H, Z)^d \right)$ episodes, where $S, A$ are the number of states and actions respectively, $H$ is the time-horizon, $Z$ is the support size of reward distributions and $d=\min(2M-1,H)$. Our technique is a higher-order extension of the method-of-moments based approach, nevertheless, the design and analysis of the \algname algorithm requires several new ideas beyond existing techniques. We also provide a lower bound of $(SA)^{\Omega(\sqrt{M})} / \epsilon^{2}$ for a general instance of RMMDP, supporting that super-polynomial sample complexity in $M$ is necessary.
翻訳日:2022-10-07 16:01:08 公開日:2022-10-05
# MAXCUT解決のための確率的ニューロモルフィック回路

Stochastic Neuromorphic Circuits for Solving MAXCUT ( http://arxiv.org/abs/2210.02588v1 )

ライセンス: Link先を確認
Bradley H. Theilman, Yipu Wang, Ojas D. Parekh, William Severa, J. Darby Smith, James B. Aimone(参考訳) グラフの最大カット(MAXCUT)を見つけることは、並列アルゴリズム開発を動機づけた古典的な最適化問題である。 マックスカットの近似アルゴリズムは魅力的な理論的な保証を提供し、説得力のある経験的性能を示すが、このような近似手法は支配的な計算コストを確率的サンプリング演算にシフトさせることができる。 ニューロモルフィックコンピューティング(neuromorphic computing)は、神経系の組織化原則を使って新しい並列コンピューティングアーキテクチャを刺激し、可能な解決策を提供する。 生物学的ニューラルネットワークの個々の要素は、固有の計算能力を実現するリソースとして機能する固有のランダム性を持っている。 自然脳と同様にランダム性を利用する回路やアルゴリズムを設計することで、マイクロエレクトロニクスデバイスに内在するランダム性は、より効率的な計算を可能にするニューロモルフィックアーキテクチャの貴重な構成要素にすることができると仮定する。 本稿では,ランダムデバイスプールの確率的挙動を,MAXCUTに確率的解をもたらす有用な相関に変換するニューロモルフィック回路を提案する。 これらの回路は、ソフトウェアソルバと比較して良好に動作し、このニューロモルフィックハードウェアの実装は、スケーリングの利点をもたらすと論じる。 この研究は、ニューロモルフィックの原理と本質的なランダム性を組み合わせた新しい計算アーキテクチャの計算資源としての有用性を示す。

Finding the maximum cut of a graph (MAXCUT) is a classic optimization problem that has motivated parallel algorithm development. While approximate algorithms to MAXCUT offer attractive theoretical guarantees and demonstrate compelling empirical performance, such approximation approaches can shift the dominant computational cost to the stochastic sampling operations. Neuromorphic computing, which uses the organizing principles of the nervous system to inspire new parallel computing architectures, offers a possible solution. One ubiquitous feature of natural brains is stochasticity: the individual elements of biological neural networks possess an intrinsic randomness that serves as a resource enabling their unique computational capacities. By designing circuits and algorithms that make use of randomness similarly to natural brains, we hypothesize that the intrinsic randomness in microelectronics devices could be turned into a valuable component of a neuromorphic architecture enabling more efficient computations. Here, we present neuromorphic circuits that transform the stochastic behavior of a pool of random devices into useful correlations that drive stochastic solutions to MAXCUT. We show that these circuits perform favorably in comparison to software solvers and argue that this neuromorphic hardware implementation provides a path for scaling advantages. This work demonstrates the utility of combining neuromorphic principles with intrinsic randomness as a computational resource for new computational architectures.
翻訳日:2022-10-07 15:51:51 公開日:2022-10-05
# 時空間交通予測モデルに対する実効攻撃

Practical Adversarial Attacks on Spatiotemporal Traffic Forecasting Models ( http://arxiv.org/abs/2210.02447v1 )

ライセンス: Link先を確認
Fan Liu and Hao Liu and Wenzhao Jiang(参考訳) 機械学習に基づく交通予測モデルは、高度な時空間自動相関を利用して、都市全体の交通状態を正確に予測する。 しかし、既存の手法は信頼性が高く偏りのない予測環境を前提としている。 本研究では,時空間トラヒック予測モデルの脆弱性を調査し,実用的な時空間攻撃フレームワークを提案する。 具体的には,すべての地理的分散データソースを同時に攻撃するのではなく,時間依存の被害者ノード集合を識別するために,反復勾配誘導ノード塩分法が提案されている。 さらに、摂動制約の下で実数値の逆トラフィック状態を生成する時空間勾配降下に基づくスキームを考案する。 一方,理論上は,対向交通予測攻撃の最悪の性能限界を実証する。 2つの実世界のデータセットに対する大規模な実験により、提案された2段階のフレームワークは、様々な高度な時空間予測モデルで最大で67.8 %のパフォーマンス劣化を達成している。 また,提案手法により,時空間交通予測モデルのロバスト性を大幅に向上させることができることを示す。 私たちのコードは \url{https://github.com/luckyfan-cs/ASTFA} で利用可能です。

Machine learning based traffic forecasting models leverage sophisticated spatiotemporal auto-correlations to provide accurate predictions of city-wide traffic states. However, existing methods assume a reliable and unbiased forecasting environment, which is not always available in the wild. In this work, we investigate the vulnerability of spatiotemporal traffic forecasting models and propose a practical adversarial spatiotemporal attack framework. Specifically, instead of simultaneously attacking all geo-distributed data sources, an iterative gradient-guided node saliency method is proposed to identify the time-dependent set of victim nodes. Furthermore, we devise a spatiotemporal gradient descent based scheme to generate real-valued adversarial traffic states under a perturbation constraint. Meanwhile, we theoretically demonstrate the worst performance bound of adversarial traffic forecasting attacks. Extensive experiments on two real-world datasets show that the proposed two-step framework achieves up to $67.8\%$ performance degradation on various advanced spatiotemporal forecasting models. Remarkably, we also show that adversarial training with our proposed attacks can significantly improve the robustness of spatiotemporal traffic forecasting models. Our code is available in \url{https://github.com/luckyfan-cs/ASTFA}.
翻訳日:2022-10-07 15:51:14 公開日:2022-10-05
# DEGAN:生成逆ネットワーク識別器を用いた時系列異常検出と密度推定

DEGAN: Time Series Anomaly Detection using Generative Adversarial Network Discriminators and Density Estimation ( http://arxiv.org/abs/2210.02449v1 )

ライセンス: Link先を確認
Yueyan Gu, Farrokh Jazizadeh(参考訳) 効率的な時系列異常検出技術の開発は、サービス品質を維持し、早期警報を提供するために重要である。 生成型ニューラルネットワーク手法は、近年注目を集めている教師なしアプローチの1つである。 本稿では,教師なし生成型逆ネットワーク(gan)に基づく異常検出フレームワークdeganを提案する。 通常の時系列データのみを入力として、よく構成された判別器(d)をスタンドアロンの異常予測器に訓練する。 このフレームワークでは、時系列データをスライディングウィンドウ法により処理する。 データ内の通常のパターンを利用して、通常のデータパターンを生成するジェネレータ(G)を開発する。 正規データはハイパーパラメータチューニングやdモデル選択ステップでも利用される。 検証されたDモデルは抽出され、未確認(テスト)時系列を評価し、異常な特性を持つパターンを特定する。 カーネル密度推定(kde)は、テスト時系列で確率密度関数を生成することに異常がある可能性のあるデータポイントに適用される。 相対確率が最も高いセグメントは異常として検出される。 この性能を評価するため,クラスIの線路から5マイルの単変量加速時系列で実験を行った。 演算子によって検出された実際の異常観測を検出するためのフレームワークを実装した。 その結果、cnn dアーキテクチャでフレームワークを活用すると、平均で80%と86%のリコールと精度が得られ、十分に訓練されたスタンドアロンdモデルが信頼性の高い異常検出器になる可能性が示された。 さらに, GANハイパーパラメータ, GANアーキテクチャ, スライディングウィンドウサイズ, 時系列のクラスタリング, ラベル付き/ラベルなしデータによるモデル検証の影響についても検討した。

Developing efficient time series anomaly detection techniques is important to maintain service quality and provide early alarms. Generative neural network methods are one class of the unsupervised approaches that are achieving increasing attention in recent years. In this paper, we have proposed an unsupervised Generative Adversarial Network (GAN)-based anomaly detection framework, DEGAN. It relies solely on normal time series data as input to train a well-configured discriminator (D) into a standalone anomaly predictor. In this framework, time series data is processed by the sliding window method. Expected normal patterns in data are leveraged to develop a generator (G) capable of generating normal data patterns. Normal data is also utilized in hyperparameter tuning and D model selection steps. Validated D models are then extracted and applied to evaluate unseen (testing) time series and identify patterns that have anomalous characteristics. Kernel density estimation (KDE) is applied to data points that are likely to be anomalous to generate probability density functions on the testing time series. The segments with the highest relative probabilities are detected as anomalies. To evaluate the performance, we tested on univariate acceleration time series for five miles of a Class I railroad track. We implemented the framework to detect the real anomalous observations identified by operators. The results show that leveraging the framework with a CNN D architecture results in average best recall and precision of 80% and 86%, respectively, which demonstrates that a well-trained standalone D model has the potential to be a reliable anomaly detector. Moreover, the influence of GAN hyperparameters, GAN architectures, sliding window sizes, clustering of time series, and model validation with labeled/unlabeled data were also investigated.
翻訳日:2022-10-07 15:50:54 公開日:2022-10-05
# 注意型孤立林を用いた異常検出の改善

Improved Anomaly Detection by Using the Attention-Based Isolation Forest ( http://arxiv.org/abs/2210.02558v1 )

ライセンス: Link先を確認
Lev V. Utkin and Andrey Y. Ageev and Andrei V. Konstantinov(参考訳) 異常検出問題を解決するために,ABIフォレスト(Attention-Based isolated Forest, ABIForest)と呼ばれる孤立林を改良した。 ナダラヤ・ワトソン回帰(Nadaraya-Watson regression)の形で注意機構を分離林に組み込み、異常検出問題の解法を改善する。 変更の根底にある主なアイデアは、インスタンスやツリー自体に応じて学習可能なパラメータを持つ木の各パスに注意重みを割り当てることである。 フーバーの汚染モデルは注意重みとそのパラメータを定義するために使われることが提案されている。 その結果、注意重みは、標準線形あるいは二次最適化問題の解法によって訓練された学習可能な注意パラメータに線形に依存する。 ABIForestは、勾配に基づくアルゴリズムを適用することなく、注意機構を簡単な方法で組み込んだ最初の分離林の修正と見なすことができる。 合成データセットと実データセットによる数値実験は、ABIForestの優れた結果を示している。 提案アルゴリズムのコードは利用可能である。

A new modification of Isolation Forest called Attention-Based Isolation Forest (ABIForest) for solving the anomaly detection problem is proposed. It incorporates the attention mechanism in the form of the Nadaraya-Watson regression into the Isolation Forest for improving solution of the anomaly detection problem. The main idea underlying the modification is to assign attention weights to each path of trees with learnable parameters depending on instances and trees themselves. The Huber's contamination model is proposed to be used for defining the attention weights and their parameters. As a result, the attention weights are linearly depend on the learnable attention parameters which are trained by solving the standard linear or quadratic optimization problem. ABIForest can be viewed as the first modification of Isolation Forest, which incorporates the attention mechanism in a simple way without applying gradient-based algorithms. Numerical experiments with synthetic and real datasets illustrate outperforming results of ABIForest. The code of proposed algorithms is available.
翻訳日:2022-10-07 15:41:40 公開日:2022-10-05
# 機能ラベル付き最適パーティショニング

Functional Labeled Optimal Partitioning ( http://arxiv.org/abs/2210.02580v1 )

ライセンス: Link先を確認
Toby D. Hocking, Jacob M. Kaufman, Alyssa J. Stenberg(参考訳) ピーク検出は、高いカウント(ピーク)を持つ領域と低いカウント(バックグラウンドノイズ)を持つ領域を区別するシーケンシャルデータ解析における問題である。 ラベルの列車とテストセットの両方において、バックグラウンドノイズから逸脱する領域を正確に予測することが重要である。 動的プログラミング変更点アルゴリズムは,平均値の増大と減少を制約してピーク検出問題を解くために提案されている。 現在の制約付き変更ポイントアルゴリズムは、テストセットに対してのみ予測を生成し、列車セットを完全に無視する。 列車セットの適合とテストセットの予測の両方において正確である変更点アルゴリズムが提案されているが、ピーク検出モデルでは提案されていない。 そこで我々は,列車ラベル誤りをゼロとし,テストセット上で高精度な予測を可能にする新しい動的プログラミングアルゴリズム flopart を作成することで,この問題を解決することを提案する。 flopartは既存のアルゴリズムよりも、トレーニングやテストラベルエラーの点で正確でありながら、時間的複雑性が同じであることを示す経験的分析を提供する。

Peak detection is a problem in sequential data analysis that involves differentiating regions with higher counts (peaks) from regions with lower counts (background noise). It is crucial to correctly predict areas that deviate from the background noise, in both the train and test sets of labels. Dynamic programming changepoint algorithms have been proposed to solve the peak detection problem by constraining the mean to alternatively increase and then decrease. The current constrained changepoint algorithms only create predictions on the test set, while completely ignoring the train set. Changepoint algorithms that are both accurate when fitting the train set, and make predictions on the test set, have been proposed but not in the context of peak detection models. We propose to resolve these issues by creating a new dynamic programming algorithm, FLOPART, that has zero train label errors, and is able to provide highly accurate predictions on the test set. We provide an empirical analysis that shows FLOPART has a similar time complexity while being more accurate than the existing algorithms in terms of train and test label errors.
翻訳日:2022-10-07 15:41:23 公開日:2022-10-05
# スペクトル規則化により、コンビネーション空間上のデータフルーガラーニングが可能に

Spectral Regularization Allows Data-frugal Learning over Combinatorial Spaces ( http://arxiv.org/abs/2210.02604v1 )

ライセンス: Link先を確認
Amirali Aghazadeh and Nived Rajaraman and Tony Tu and Kannan Ramchandran(参考訳) データ駆動機械学習モデルは、組合せ空間上での学習を必要とする生物学、化学、物理学におけるいくつかの重要な推論問題にますます採用されている。 最近の経験的証拠(例えば [1], [2], [3])は、そのようなモデルのスペクトル表現の規則化はラベル付きデータが不足しているときに一般化能力を改善することを示唆している。 しかし、これらの実証研究にもかかわらず、いつ、どのようにスペクトル正則化が一般化を促進するかという理論的根拠は理解されていない。 本稿では,擬似ブール関数の学習に焦点をあて,学習関数のスペクトル変換のL_1ノルムによる経験平均二乗誤差の正則化が損失ランドスケープを想起させ,学習者の経験誤差を地上の真理関数に対して限定した正当性条件下でデータフルーガー学習を可能にすることを示す。 より弱い二次成長条件下では、トレーニングデータポイントをほぼ補間する定常点が統計的に最適な一般化性能が得られることを示す。 提案理論を補完し, 正規化損失に対する勾配勾配降下は, 実世界の複数の問題におけるベースラインアルゴリズムと比較して, より優れた一般化性能を示す。

Data-driven machine learning models are being increasingly employed in several important inference problems in biology, chemistry, and physics which require learning over combinatorial spaces. Recent empirical evidence (see, e.g., [1], [2], [3]) suggests that regularizing the spectral representation of such models improves their generalization power when labeled data is scarce. However, despite these empirical studies, the theoretical underpinning of when and how spectral regularization enables improved generalization is poorly understood. In this paper, we focus on learning pseudo-Boolean functions and demonstrate that regularizing the empirical mean squared error by the L_1 norm of the spectral transform of the learned function reshapes the loss landscape and allows for data-frugal learning, under a restricted secant condition on the learner's empirical error measured against the ground truth function. Under a weaker quadratic growth condition, we show that stationary points which also approximately interpolate the training data points achieve statistically optimal generalization performance. Complementing our theory, we empirically demonstrate that running gradient descent on the regularized loss results in a better generalization performance compared to baseline algorithms in several data-scarce real-world problems.
翻訳日:2022-10-07 15:41:05 公開日:2022-10-05
# 脳MRIのスパース再構成のためのデュアルドメインクロスイテレーションスクイーズ励磁ネットワーク

Dual-Domain Cross-Iteration Squeeze-Excitation Network for Sparse Reconstruction of Brain MRI ( http://arxiv.org/abs/2210.02523v1 )

ライセンス: Link先を確認
Xiongchao Chen, Yoshihisa Shinagawa, Zhigang Peng, Gerardo Hermosillo Valadez(参考訳) 磁気共鳴イメージング(MRI)は神経学や神経外科において最もよく用いられる検査の1つである。 しかし、MRIの効用は長い取得時間によって大きく制限されており、患者の不快感やモーションアーティファクトなど多くの問題を引き起こす可能性がある。 k空間サンプリングの削減は、全走査時間を短縮する潜在的な解決策である。 しかし, 難治性再建遺物が再発し, 臨床診断に影響を及ぼす可能性がある。 現在、ディープラーニングはMRIのスパース再構成に関する新たな洞察を与えている。 本稿では,新しい2つのSqueeze-Excitation Networks と Inter-Iteration Residual Connections を用いて,k-space と MRI の情報を反復的に融合する手法を提案する。 本研究は,オープンソースで同定された高速MRIデータセットを用いた臨床多コイル脳MRI症例720例を含む。 8-folderdownsamplingレートを適用してsparse k-spaceを生成した。 その結果, 提案手法による120例の平均復元誤差は2.28%であり, 既存の画像領域予測 (6.03%, p<0.001), k空間合成 (6.12%, p<0.001) および二重領域特徴融合 (4.05%, p<0.001) を上回った。

Magnetic resonance imaging (MRI) is one of the most commonly applied tests in neurology and neurosurgery. However, the utility of MRI is largely limited by its long acquisition time, which might induce many problems including patient discomfort and motion artifacts. Acquiring fewer k-space sampling is a potential solution to reducing the total scanning time. However, it can lead to severe aliasing reconstruction artifacts and thus affect the clinical diagnosis. Nowadays, deep learning has provided new insights into the sparse reconstruction of MRI. In this paper, we present a new approach to this problem that iteratively fuses the information of k-space and MRI images using novel dual Squeeze-Excitation Networks and Cross-Iteration Residual Connections. This study included 720 clinical multi-coil brain MRI cases adopted from the open-source deidentified fastMRI Dataset. 8-folder downsampling rate was applied to generate the sparse k-space. Results showed that the average reconstruction error over 120 testing cases by our proposed method was 2.28%, which outperformed the existing image-domain prediction (6.03%, p<0.001), k-space synthesis (6.12%, p<0.001), and dual-domain feature fusion (4.05%, p<0.001).
翻訳日:2022-10-07 15:35:33 公開日:2022-10-05
# 中国語を自然の場面で読む

Reading Chinese in Natural Scenes with a Bag-of-Radicals Prior ( http://arxiv.org/abs/2210.02576v1 )

ライセンス: Link先を確認
Liu Yongbin, Liu Qingjie, Chen Jiaxin, Wang Yunhong(参考訳) ラテンデータセット上のシーンテキスト認識(STR)は近年広く研究されており、最新技術(SOTA)モデルは高い精度に達することが多い。 しかし、中国語などのラテン語以外の写本の演奏は満足できない。 本稿では,6つのオープンソースの中国語 STR データセットを収集し,ラテン系データセットでよく動作する一連の古典的手法を評価する。 中国語データセットの性能向上のために,漢字のイデオロギー記述を利用する新しいラディカル埋め込み(RE)表現を提案する。 漢字のイデオロギー記述はまずラジカルの袋に変換され、その後キャラクタ・ベクター・フュージョン・モジュール(cvfm)によって学習可能な文字埋め込みと融合される。 さらに,マルチタスクトレーニングのための監督信号としてラジカルの袋を用い,モデルのイデオロギー構造知覚を改善する。 実験の結果,RE+CVFM+マルチタスクトレーニングによるモデルの性能は,中国の6つのSTRデータセットのベースラインよりも優れていた。 さらに,マルチタスクトレーニングのための監督信号としてラジカルの袋を用い,モデルのイデオロギー構造知覚を改善する。 実験の結果,RE+CVFM+マルチタスクトレーニングによるモデルの性能は,中国の6つのSTRデータセットのベースラインよりも優れていた。

Scene text recognition (STR) on Latin datasets has been extensively studied in recent years, and state-of-the-art (SOTA) models often reach high accuracy. However, the performance on non-Latin transcripts, such as Chinese, is not satisfactory. In this paper, we collect six open-source Chinese STR datasets and evaluate a series of classic methods performing well on Latin datasets, finding a significant performance drop. To improve the performance on Chinese datasets, we propose a novel radical-embedding (RE) representation to utilize the ideographic descriptions of Chinese characters. The ideographic descriptions of Chinese characters are firstly converted to bags of radicals and then fused with learnable character embeddings by a character-vector-fusion-module (CVFM). In addition, we utilize a bag of radicals as supervision signals for multi-task training to improve the ideographic structure perception of our model. Experiments show performance of the model with RE + CVFM + multi-task training is superior compared with the baseline on six Chinese STR datasets. In addition, we utilize a bag of radicals as supervision signals for multi-task training to improve the ideographic structure perception of our model. Experiments show performance of the model with RE + CVFM + multi-task training is superior compared with the baseline on six Chinese STR datasets.
翻訳日:2022-10-07 15:35:10 公開日:2022-10-05
# 最大エントロピーモデルを用いた集約データからの学習

Learning from aggregated data with a maximum entropy model ( http://arxiv.org/abs/2210.02450v1 )

ライセンス: Link先を確認
Alexandre Gilotte, Ahmed Ben Yahmed, David Rohde(参考訳) データセットを集約し、次にノイズを注入することは、微分プライベートなデータをリリースするための単純で一般的な方法である。しかしながら、集約されたデータは、ノイズなしでも、機械学習分類器の適切な入力ではない。この研究では、ロジスティック回帰に似た新しいモデルが、観測されていない特徴分布を最大エントロピー仮説で近似することによってのみ、集約されたデータからどのように学習されるかを示す。 得られたモデルはマルコフ確率場 (mrf) であり、我々はmrfトレーニングアルゴリズムを設定に適用し、修正し、スケールする方法を詳述する。 最後に、このモデルが学習したいくつかの公開データセットに実証的な証拠を示し、完全な非集約データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを実現する。

Aggregating a dataset, then injecting some noise, is a simple and common way to release differentially private data.However, aggregated data -- even without noise -- is not an appropriate input for machine learning classifiers.In this work, we show how a new model, similar to a logistic regression, may be learned from aggregated data only by approximating the unobserved feature distribution with a maximum entropy hypothesis. The resulting model is a Markov Random Field (MRF), and we detail how to apply, modify and scale a MRF training algorithm to our setting. Finally we present empirical evidence on several public datasets that the model learned this way can achieve performances comparable to those of a logistic model trained with the full unaggregated data.
翻訳日:2022-10-07 15:33:41 公開日:2022-10-05
# 深層学習を用いたNIH N3CおよびRECOVERプログラムからの歴史的診断符号データの解析とLong Covidのリスク要因の検討

Analyzing historical diagnosis code data from NIH N3C and RECOVER Programs using deep learning to determine risk factors for Long Covid ( http://arxiv.org/abs/2210.02490v1 )

ライセンス: Link先を確認
Saurav Sengupta, Johanna Loomba, Suchetha Sharma, Donald E. Brown, Lorna Thorpe, Melissa A Haendel, Christopher G Chute, Stephanie Hong(参考訳) SARS-CoV-2感染症(英語版)(PASC)またはLong COVIDの急性後遺症は、新型コロナウイルス陽性のいくつかの患者で観察されている。 診断コード、検査結果、臨床ノートなどの歴史的な電子健康記録(ehr)はディープラーニングを用いて分析され、将来の臨床事象の予測に使用されている。 本稿では,National COVID Cohort Collective (N3C) の歴史的診断コードデータを分析し,Long COVIDの発症に寄与するリスク要因を明らかにするための,解釈可能な深層学習手法を提案する。 深層学習アプローチを用いて、患者が時間順に指示された診断コードから、各患者の最初の陽性検査または診断の45日後に、70.48\%の精度でLong COVIDを患っているかどうかを予測することができる。 次に、GradCAM(Gradient-weighted Class Activation Mapping)を用いてトレーニングされたモデルを調べ、各入力がスコアを診断する。 最も高い診断は、患者にとって正しい予測を行う上で最も重要なものと考えられた。 また、我々のコホートにおける患者ごとのトップ診断をまとめて、その時間的傾向を見て、どのコードがLong COVIDの陽性診断に寄与するかを判断する方法も提案する。

Post-acute sequelae of SARS-CoV-2 infection (PASC) or Long COVID is an emerging medical condition that has been observed in several patients with a positive diagnosis for COVID-19. Historical Electronic Health Records (EHR) like diagnosis codes, lab results and clinical notes have been analyzed using deep learning and have been used to predict future clinical events. In this paper, we propose an interpretable deep learning approach to analyze historical diagnosis code data from the National COVID Cohort Collective (N3C) to find the risk factors contributing to developing Long COVID. Using our deep learning approach, we are able to predict if a patient is suffering from Long COVID from a temporally ordered list of diagnosis codes up to 45 days post the first COVID positive test or diagnosis for each patient, with an accuracy of 70.48\%. We are then able to examine the trained model using Gradient-weighted Class Activation Mapping (GradCAM) to give each input diagnoses a score. The highest scored diagnosis were deemed to be the most important for making the correct prediction for a patient. We also propose a way to summarize these top diagnoses for each patient in our cohort and look at their temporal trends to determine which codes contribute towards a positive Long COVID diagnosis.
翻訳日:2022-10-07 15:33:25 公開日:2022-10-05
# 質問 エージェント: てんかん不確実性推定による試料効率の向上

Query The Agent: Improving sample efficiency through epistemic uncertainty estimation ( http://arxiv.org/abs/2210.02585v1 )

ライセンス: Link先を確認
Julian Alverio and Boris Katz and Andrei Barbu(参考訳) 目標条件強化学習エージェントのカリキュラムは、典型的にはエージェントの認識の不確実性の推定が不十分であるか、あるいはエージェントの認識の不確実性を完全に考慮しないため、サンプル効率が低下する。 提案手法は, エージェントが状態空間全体にわたって不確かさを推定し, 極めて不確実な領域で目標を設定することにより, サンプル効率を大幅に向上させる新しいアルゴリズムであるクエリー・ザ・エージェント(QTA)を提案する。 エージェントに極めて不確実な状態のデータを収集させると、エージェントは値関数の見積もりを急速に改善できる。 QTAは、先天的な不確実性ネットワーク(PUN)を推定するための新しい手法を用いて、QTAが前述した全ての状態におけるエージェントの不確実性を評価する。 我々はQTAが既存の方法よりも決定的なサンプル効率向上をもたらすことを示した。

Curricula for goal-conditioned reinforcement learning agents typically rely on poor estimates of the agent's epistemic uncertainty or fail to consider the agents' epistemic uncertainty altogether, resulting in poor sample efficiency. We propose a novel algorithm, Query The Agent (QTA), which significantly improves sample efficiency by estimating the agent's epistemic uncertainty throughout the state space and setting goals in highly uncertain areas. Encouraging the agent to collect data in highly uncertain states allows the agent to improve its estimation of the value function rapidly. QTA utilizes a novel technique for estimating epistemic uncertainty, Predictive Uncertainty Networks (PUN), to allow QTA to assess the agent's uncertainty in all previously observed states. We demonstrate that QTA offers decisive sample efficiency improvements over preexisting methods.
翻訳日:2022-10-07 15:32:57 公開日:2022-10-05
# 信頼できない教師からの正直な学生:事前学習言語モデルから解釈可能な質問答えパイプラインを学ぶ

Honest Students from Untrusted Teachers: Learning an Interpretable Question-Answering Pipeline from a Pretrained Language Model ( http://arxiv.org/abs/2210.02498v1 )

ライセンス: Link先を確認
Jacob Eisenstein and Daniel Andor and Bernd Bohnet and Michael Collins and David Mimno(参考訳) 説明可能な質問応答システムは、正確な回答だけでなく、推論を正当化し、人間が作業を確認するための合理的な根拠も生み出すべきである。 しかし、どんな理屈が役に立つのか、どのようにシステムをトレーニングして生産するか? 本稿では,オープンブックの質問応答に対する新たな論理的手法である「emph{markup-and-mask}」を提案する。 マークアップフェーズでは、各文が談話コンテキストの外側で独立して立つことができるフリーテキストマークアップが追加される。 マスキングフェーズでは、マークアップ通路のサブスパンが選択される。 アノテーションなしでマークアップ・アンド・マスクの合理性を生成するシステムをトレーニングするために、コンテキスト内学習を利用する。 具体的には,教師として機能する凍結した事前学習言語モデルに一連のプロンプトを送信することで,銀アノテートデータを生成する。 そして, 正解に繋がる理論のサブセットを訓練することで, より小さな学生モデルを微調整した。 学生はパイプラインであるという意味では「正直」であり、道程と答えの間のボトルネックとして機能し、一方「信頼できない」教師はそのような制約の下で活動する。 したがって、エンドタスクアノテーションと凍結事前訓練された言語モデルを組み合わせて、信頼できるパイプラインシステムを構築する新しい方法を提供する。

Explainable question answering systems should produce not only accurate answers but also rationales that justify their reasoning and allow humans to check their work. But what sorts of rationales are useful and how can we train systems to produce them? We propose a new style of rationale for open-book question answering, called \emph{markup-and-mask}, which combines aspects of extractive and free-text explanations. In the markup phase, the passage is augmented with free-text markup that enables each sentence to stand on its own outside the discourse context. In the masking phase, a sub-span of the marked-up passage is selected. To train a system to produce markup-and-mask rationales without annotations, we leverage in-context learning. Specifically, we generate silver annotated data by sending a series of prompts to a frozen pretrained language model, which acts as a teacher. We then fine-tune a smaller student model by training on the subset of rationales that led to correct answers. The student is "honest" in the sense that it is a pipeline: the rationale acts as a bottleneck between the passage and the answer, while the "untrusted" teacher operates under no such constraints. Thus, we offer a new way to build trustworthy pipeline systems from a combination of end-task annotations and frozen pretrained language models.
翻訳日:2022-10-07 15:23:35 公開日:2022-10-05
# basetransformers: ワンショット学習のためのベースデータポイントに対する注意

BaseTransformers: Attention over base data-points for One Shot Learning ( http://arxiv.org/abs/2210.02476v1 )

ライセンス: Link先を確認
Mayug Maniparambil, Kevin McGuinness, Noel O'Connor(参考訳) 少数のショット分類は、カテゴリごとに限られたサンプルのみを使用して、新しいカテゴリを認識することを目的としている。 現在の殆どのショットメソッドは、ラベル付き例に富んだベースデータセットを使用して、新しいクラスのサポートインスタンスの表現を得るために使用されるエンコーダをトレーニングしている。 テストインスタンスはベースディストリビューションとは異なるディストリビューションであるため、その特徴表現は品質が悪く、パフォーマンスが低下する。 本稿では、各サポートインスタンスに最も近いベースデータセットのよく訓練された特徴表現を用いて、メタテスト時にその表現を改善することを提案する。 この目的のために、ベースデータセットの特徴空間の最も関連する領域に準拠し、サポートインスタンス表現を改善するベース変換器を提案する。 3つのベンチマークデータセットの実験から,本手法はいくつかのバックボーンに対して有効であり,インダクティブ・ワンショット・セッティングにおける最先端の結果が得られた。 コードはgithub.com/mayug/BaseTransformersで入手できる

Few shot classification aims to learn to recognize novel categories using only limited samples per category. Most current few shot methods use a base dataset rich in labeled examples to train an encoder that is used for obtaining representations of support instances for novel classes. Since the test instances are from a distribution different to the base distribution, their feature representations are of poor quality, degrading performance. In this paper we propose to make use of the well-trained feature representations of the base dataset that are closest to each support instance to improve its representation during meta-test time. To this end, we propose BaseTransformers, that attends to the most relevant regions of the base dataset feature space and improves support instance representations. Experiments on three benchmark data sets show that our method works well for several backbones and achieves state-of-the-art results in the inductive one shot setting. Code is available at github.com/mayug/BaseTransformers
翻訳日:2022-10-07 15:15:57 公開日:2022-10-05
# rankme: 事前訓練された自己監督表現のランクによる下流性能の評価

RankMe: Assessing the downstream performance of pretrained self-supervised representations by their rank ( http://arxiv.org/abs/2210.02885v1 )

ライセンス: Link先を確認
Quentin Garrido (LIGM), Randall Balestriero, Laurent Najman (LIGM), Yann Lecun (CIMS)(参考訳) JE-SSL(Joint-Embedding Self Supervised Learning)は、多くのメソッドのバリエーションが出現し、実践者がこれらのメソッドをうまくデプロイするのに役立つガイドラインがほとんどない、急速に発展している。 この落とし穴の主な理由は、JE-SSLの中核的な原則である入力再構成を一切使わないことである。 視覚的な手掛かりがなければ、ラベル付きデータセットにアクセスせずに学習表現の品質を判断することは極めて謎めいたものになる。 私たちは、学習したJE-SSL表現の質を反映した単一の-理論的に動機づけられた-基準を提供することで、これらの制限を修正することを望んでいます。 単純で計算に親しみやすいこのメソッドであるRangeMeは、ラベルやトレーニング、パラメータをチューニングすることなく、異なる下流データセットでもJE-SSL表現のパフォーマンスを評価することができる。 何百もの繰り返しトレーニングエピソードを含む徹底的な実験実験を通じて、データセットラベルを含む現在の選択方法と比較して、最終性能にほとんど損失のないハイパーパラメータ選択にRangeMeがどのように使用できるかを示す。 RankMeは、ほとんど、または全くラベル付きデータを持たないドメインでのJE-SSLの使用を容易にすることを願っている。

Joint-Embedding Self Supervised Learning (JE-SSL) has seen a rapid development, with the emergence of many method variations and few principled guidelines that would help practitioners to successfully deploy those methods. The main reason for that pitfall actually comes from JE-SSL's core principle of not employing any input reconstruction. Without any visual clue, it becomes extremely cryptic to judge the quality of a learned representation without having access to a labelled dataset. We hope to correct those limitations by providing a single -- theoretically motivated -- criterion that reflects the quality of learned JE-SSL representations: their effective rank. Albeit simple and computationally friendly, this method -- coined RankMe -- allows one to assess the performance of JE-SSL representations, even on different downstream datasets, without requiring any labels, training or parameters to tune. Through thorough empirical experiments involving hundreds of repeated training episodes, we demonstrate how RankMe can be used for hyperparameter selection with nearly no loss in final performance compared to the current selection method that involve dataset labels. We hope that RankMe will facilitate the use of JE-SSL in domains with little or no labeled data.
翻訳日:2022-10-07 15:15:27 公開日:2022-10-05
# 医学的特徴の曖昧化のためのトークン分類

Token Classification for Disambiguating Medical Abbreviations ( http://arxiv.org/abs/2210.02487v1 )

ライセンス: Link先を確認
Mucahit Cevik, Sanaz Mohammad Jafari, Mitchell Myers, Savas Yildirim(参考訳) 略語は避けられないが、医学文献の重要な部分である。 略語、特に臨床患者ノートでは、時間と空間を節約し、機密情報を保護し、繰り返しを避けることができる。 しかし、ほとんどの省略形には複数の感覚があり、標準化されたマッピングシステムがないため、曖昧な省略形は困難で時間を要する。 本研究の目的は, 医用略語におけるトークン分類法の有効性を検討することである。 具体的には,トークン分類手法が単一テキストで複数の一意な省略を扱えるかを検討する。 2つの公開データセットを使用して、異なる科学および医学コーパスで事前トレーニングされた複数のトランスフォーマーモデルのパフォーマンスを比較し、比較します。 提案するトークン分類手法は,略語曖昧化タスクにおいて,より一般的なテキスト分類モデルよりも優れている。 特に、SciBERTモデルは、2つの考慮されたデータセットに対してトークンとテキストの分類タスクに対して強いパフォーマンスを示す。 さらに,テキスト分類モデルの省略化性能は,学習データに基づいて短縮用ラベルをフィルタリングすることで,後処理が予測に適用された場合にのみトークン分類に匹敵することがわかった。

Abbreviations are unavoidable yet critical parts of the medical text. Using abbreviations, especially in clinical patient notes, can save time and space, protect sensitive information, and help avoid repetitions. However, most abbreviations might have multiple senses, and the lack of a standardized mapping system makes disambiguating abbreviations a difficult and time-consuming task. The main objective of this study is to examine the feasibility of token classification methods for medical abbreviation disambiguation. Specifically, we explore the capability of token classification methods to deal with multiple unique abbreviations in a single text. We use two public datasets to compare and contrast the performance of several transformer models pre-trained on different scientific and medical corpora. Our proposed token classification approach outperforms the more commonly used text classification models for the abbreviation disambiguation task. In particular, the SciBERT model shows a strong performance for both token and text classification tasks over the two considered datasets. Furthermore, we find that abbreviation disambiguation performance for the text classification models becomes comparable to that of token classification only when postprocessing is applied to their predictions, which involves filtering possible labels for an abbreviation based on the training data.
翻訳日:2022-10-07 15:14:49 公開日:2022-10-05
# 構造化ドロップアウトの再検討

Revisiting Structured Dropout ( http://arxiv.org/abs/2210.02570v1 )

ライセンス: Link先を確認
Yiren Zhao, Oluwatomisin Dada, Xitong Gao, Robert D Mullins(参考訳) 大規模ニューラルネットワークはしばしば過パラメータ化され、オーバーフィッティングになりがちであり、ドロップアウトはオーバーフィッティングとモデル一般化と戦うために広く使われる正規化技法である。 しかし、非構造化Dropoutは特定のネットワークアーキテクチャに必ずしも有効ではなく、モデル性能を改善するために複数の構造化Dropoutアプローチを形成し、時には推論に必要な計算資源を削減している。 本研究では,複数の最先端ネットワークを対象とした自然言語処理とコンピュータビジョンタスクに対する異なるDropoutアプローチの比較を行った。 さらに、我々は、機能マップから連続したブロックを正規化された特徴サルペンス値によって与えられる確率で削除する、 \textbf{\emph{probdropblock}} と呼ばれる構造化ドロップアウトへのアプローチを考案する。 単純なスケジューリング戦略では、ベースラインや様々なタスクやモデルに対するDropoutアプローチと比較して、構造化されたDropoutアプローチはモデル性能を一貫して改善している。 特に、textbf{\emph{ProbDropBlock}}は、MNLI上のRoBERTa微調整を0.22\%$で改善し、ImageNet上でResNet50を0.28\%$でトレーニングする。

Large neural networks are often overparameterised and prone to overfitting, Dropout is a widely used regularization technique to combat overfitting and improve model generalization. However, unstructured Dropout is not always effective for specific network architectures and this has led to the formation of multiple structured Dropout approaches to improve model performance and, sometimes, reduce the computational resources required for inference. In this work, we revisit structured Dropout comparing different Dropout approaches to natural language processing and computer vision tasks for multiple state-of-the-art networks. Additionally, we devise an approach to structured Dropout we call \textbf{\emph{ProbDropBlock}} which drops contiguous blocks from feature maps with a probability given by the normalized feature salience values. We find that with a simple scheduling strategy the proposed approach to structured Dropout consistently improved model performance compared to baselines and other Dropout approaches on a diverse range of tasks and models. In particular, we show \textbf{\emph{ProbDropBlock}} improves RoBERTa finetuning on MNLI by $0.22\%$, and training of ResNet50 on ImageNet by $0.28\%$.
翻訳日:2022-10-07 15:08:17 公開日:2022-10-05
# 双レベル最適化問題の安定性と一般化について

On Stability and Generalization of Bilevel Optimization Problem ( http://arxiv.org/abs/2210.01063v2 )

ライセンス: Link先を確認
Meng Ding, Mingxi Lei, Yunwen Lei, Di Wang, Jinhui Xu(参考訳) (確率的)双レベル最適化は、メタラーニング、ハイパーパラメータ最適化、強化学習といった幅広い応用を持つ機械学習において頻繁に発生する問題である。 この問題に関する既存の研究のほとんどは収束率の分析と収束率の向上にのみ焦点を合わせているが、その一般化の振る舞いを理解することにはほとんど努力していない。 本稿では,二段階最適化問題に対する一階法(漸進法)の一般化を徹底的に分析する。 まずアルゴリズムの安定性と異なる形式における一般化誤差の基本的な関係を定め、以前のベストを$\bigo(\sqrt{n})$から$\bigo(\log n)$に改善する高い確率一般化境界を与え、ここで$n$をサンプルサイズとする。 次に、内層パラメータと外層パラメータの両方が連続的な更新を受ける場合の一般の場合の第一の安定性境界を、既存の作業では外層パラメータのみを更新できる。 本分析は, 強凸凸(SC-SC), 凸凸(C-C), 非凸凸(NC-NC)などの各種標準設定に適用できる。 NC-NC設定に対する我々の分析は、実際によく見られる特定の非凸強凸(NC-SC)設定にまで拡張することができる。 最後に,我々は,メタラーニングとハイパーパラメータ最適化の実験により,反復が一般化誤差に与える影響を実証する。

(Stochastic) bilevel optimization is a frequently encountered problem in machine learning with a wide range of applications such as meta-learning, hyper-parameter optimization, and reinforcement learning. Most of the existing studies on this problem only focused on analyzing the convergence or improving the convergence rate, while little effort has been devoted to understanding its generalization behaviors. In this paper, we conduct a thorough analysis on the generalization of first-order (gradient-based) methods for the bilevel optimization problem. We first establish a fundamental connection between algorithmic stability and generalization error in different forms and give a high probability generalization bound which improves the previous best one from $\bigO(\sqrt{n})$ to $\bigO(\log n)$, where $n$ is the sample size. We then provide the first stability bounds for the general case where both inner and outer level parameters are subject to continuous update, while existing work allows only the outer level parameter to be updated. Our analysis can be applied in various standard settings such as strongly-convex-strongly-convex (SC-SC), convex-convex (C-C), and nonconvex-nonconvex (NC-NC). Our analysis for the NC-NC setting can also be extended to a particular nonconvex-strongly-convex (NC-SC) setting that is commonly encountered in practice. Finally, we corroborate our theoretical analysis and demonstrate how iterations can affect the generalization error by experiments on meta-learning and hyper-parameter optimization.
翻訳日:2022-10-07 14:59:24 公開日:2022-10-05
# 教師なし構成表現学習における構成一般化 : 絡み合いと創発言語に関する研究

Compositional Generalization in Unsupervised Compositional Representation Learning: A Study on Disentanglement and Emergent Language ( http://arxiv.org/abs/2210.00482v2 )

ライセンス: Link先を確認
Zhenlin Xu, Marc Niethammer, Colin Raffel(参考訳) 深層学習モデルは構成的一般化、すなわち観察された基本概念の新たな組み合わせを認識または生成する能力に苦慮する。 構成一般化を可能にするために、学習表現における構成構造を誘導する帰納的バイアス(例えば、非絡み合い表現や創発的言語学習)を用いて、様々な教師なし学習アルゴリズムが提案されている。 本研究では,これらの教師なし学習アルゴリズムを,構成一般化の有効性の観点から評価する。 具体的には,合成因子の新たな組み合わせに一般化する学習表現の上に,簡単なモデルを訓練することが容易かどうかに焦点をあてる。 我々は,構成一般化を直接テスト可能な2つのデータセット上で,教師なし表現学習アルゴリズム($\beta$-VAE,$\beta$-TCVAE,および創発言語(EL)オートエンコーダ)を体系的に研究した。 単純なモデルと少ないラベルでボトルネック表現を直接使用すると、学習された表現そのものの前後のレイヤからの表現よりも、より悪い一般化につながる可能性がある。 また,これまでに提案した構成性評価指標は,本フレームワークの実際の構成一般化と相関しないことがわかった。 驚くべきことに、不整合表現を生成する圧力の増加は、より悪い一般化を伴う表現を生成するのに対し、ELモデルからの表現は強い構成一般化を示す。 本研究の結果は, 異なる教師なし学習アルゴリズムの合成一般化行動に新たな光を当て, より一般化可能な表現のために, EL学習アルゴリズムを高度に活用することの潜在的メリットを示唆するものである。

Deep learning models struggle with compositional generalization, i.e. the ability to recognize or generate novel combinations of observed elementary concepts. In hopes of enabling compositional generalization, various unsupervised learning algorithms have been proposed with inductive biases that aim to induce compositional structure in learned representations (e.g. disentangled representation and emergent language learning). In this work, we evaluate these unsupervised learning algorithms in terms of how well they enable compositional generalization. Specifically, our evaluation protocol focuses on whether or not it is easy to train a simple model on top of the learned representation that generalizes to new combinations of compositional factors. We systematically study three unsupervised representation learning algorithms - $\beta$-VAE, $\beta$-TCVAE, and emergent language (EL) autoencoders - on two datasets that allow directly testing compositional generalization. We find that directly using the bottleneck representation with simple models and few labels may lead to worse generalization than using representations from layers before or after the learned representation itself. In addition, we find that the previously proposed metrics for evaluating the levels of compositionality are not correlated with actual compositional generalization in our framework. Surprisingly, we find that increasing pressure to produce a disentangled representation produces representations with worse generalization, while representations from EL models show strong compositional generalization. Taken together, our results shed new light on the compositional generalization behavior of different unsupervised learning algorithms with a new setting to rigorously test this behavior, and suggest the potential benefits of delevoping EL learning algorithms for more generalizable representations.
翻訳日:2022-10-07 14:50:05 公開日:2022-10-05
# n-player general-sum gamesにおけるゲーム理論評価

Game Theoretic Rating in N-player general-sum games with Equilibria ( http://arxiv.org/abs/2210.02205v1 )

ライセンス: Link先を確認
Luke Marris, Marc Lanctot, Ian Gemp, Shayegan Omidshafiei, Stephen McAleer, Jerome Connor, Karl Tuyls, Thore Graepel(参考訳) ゲームにおけるレーティング戦略は、ゲーム理論と人工知能における重要な研究分野であり、現実世界の競争的または協調的な設定に適用することができる。 伝統的に、戦略間の推移的依存関係のみが戦略の評価(例えば、エロ)に使われてきたが、最近の研究は非推移的ゲームにおける戦略の評価を改善するためにゲーム理論の解を利用するように評価を拡張した。 本研究は,これらのアイデアを一般化し,通常のゲームにおける戦略のN-player,ジェネリックサムレーティングに適した新しいアルゴリズムを提案する。 これにより、平衡のような確立された解の概念を活用し、複雑な戦略的相互作用を持つゲームにおける戦略を効率的に評価することができる。 実世界の正規形データ(Premier League)とマルチエージェント強化学習エージェントによる評価を実証的に検証した。

Rating strategies in a game is an important area of research in game theory and artificial intelligence, and can be applied to any real-world competitive or cooperative setting. Traditionally, only transitive dependencies between strategies have been used to rate strategies (e.g. Elo), however recent work has expanded ratings to utilize game theoretic solutions to better rate strategies in non-transitive games. This work generalizes these ideas and proposes novel algorithms suitable for N-player, general-sum rating of strategies in normal-form games according to the payoff rating system. This enables well-established solution concepts, such as equilibria, to be leveraged to efficiently rate strategies in games with complex strategic interactions, which arise in multiagent training and real-world interactions between many agents. We empirically validate our methods on real world normal-form data (Premier League) and multiagent reinforcement learning agent evaluation.
翻訳日:2022-10-06 15:37:42 公開日:2022-10-05
# 異常検出のためのNull仮説テスト

Null Hypothesis Test for Anomaly Detection ( http://arxiv.org/abs/2210.02226v1 )

ライセンス: Link先を確認
Jernej F. Kamenik, Manuel Szewc(参考訳) 背景のみの仮説を除外するように設計された仮説テストを用いて,ラベルなしの分類法を異常検出に適用する。 2つの識別データセット領域の統計的独立性をテストすることにより、一定の異常スコアカットや領域間の背景推定の補間に頼ることなく、背景のみ仮説を除外することができる。 この手法は異常スコアの特徴とデータセット領域の条件付き独立性の仮定に依存しており、既存のデコリレーション手法を用いて保証することができる。 ベンチマークの例として,統計的独立性に適した相互情報を示すLHCオリンピックデータセットを考察し,現実的な特徴相関の存在下においても,異なる信号分数で優れた頑健性を示す手法を提案する。

We extend the use of Classification Without Labels for anomaly detection with a hypothesis test designed to exclude the background-only hypothesis. By testing for statistical independence of the two discriminating dataset regions, we are able exclude the background-only hypothesis without relying on fixed anomaly score cuts or extrapolations of background estimates between regions. The method relies on the assumption of conditional independence of anomaly score features and dataset regions, which can be ensured using existing decorrelation techniques. As a benchmark example, we consider the LHC Olympics dataset where we show that mutual information represents a suitable test for statistical independence and our method exhibits excellent and robust performance at different signal fractions even in presence of realistic feature correlations.
翻訳日:2022-10-06 15:37:26 公開日:2022-10-05
# コストを考慮した非同期マルチエージェントアクティブ検索

Cost Aware Asynchronous Multi-Agent Active Search ( http://arxiv.org/abs/2210.02259v1 )

ライセンス: Link先を確認
Arundhati Banerjee, Ramina Ghods and Jeff Schneider(参考訳) マルチエージェントアクティブサーチでは、自律エージェントがターゲットを効率的に特定するセンシングアクションを選択する必要がある。 現実的な環境では、エージェントは彼らの決定がもたらすコストも考慮しなければならない。 従来提案された能動探索アルゴリズムは, エージェントの環境における不確実性を無視し, 筋力決定やコストの見落としによって問題を単純化していた。 本稿では,エージェントの行動に関する適応的コスト認識決定を行うことにより,未知環境内のターゲットを検出するオンラインアクティブサーチアルゴリズムを提案する。 我々のアルゴリズムは、トンプソンサンプリング(探索空間探索と分散化マルチエージェント決定のための)、モンテカルロ木探索(長期水平計画のための)、および(未知の環境での多目的最適化のための)最適信頼境界の原理を組み合わせて、すべての単純化を除去するオンラインルックアヘッドプランナーを提案する。 アルゴリズムの性能をシミュレーションで解析し,コストを考慮したアクティブサーチの有効性を示す。

Multi-agent active search requires autonomous agents to choose sensing actions that efficiently locate targets. In a realistic setting, agents also must consider the costs that their decisions incur. Previously proposed active search algorithms simplify the problem by ignoring uncertainty in the agent's environment, using myopic decision making, and/or overlooking costs. In this paper, we introduce an online active search algorithm to detect targets in an unknown environment by making adaptive cost-aware decisions regarding the agent's actions. Our algorithm combines principles from Thompson Sampling (for search space exploration and decentralized multi-agent decision making), Monte Carlo Tree Search (for long horizon planning) and pareto-optimal confidence bounds (for multi-objective optimization in an unknown environment) to propose an online lookahead planner that removes all the simplifications. We analyze the algorithm's performance in simulation to show its efficacy in cost aware active search.
翻訳日:2022-10-06 15:37:13 公開日:2022-10-05
# マルコフ連鎖に対するデ・フィネッティの定理による隠れマルコフモデルへの等角性予測の拡張

Extending Conformal Prediction to Hidden Markov Models with Exact Validity via de Finetti's Theorem for Markov Chains ( http://arxiv.org/abs/2210.02271v1 )

ライセンス: Link先を確認
Buddhika Nettasinghe, Samrat Chatterjee, Ramakrishna Tipireddy, Mahantesh Halappanavar(参考訳) 共形予測(conformal prediction)は、データが独立かつ同一の分散(iid)またはより一般に交換可能な設定における不確実性を定量化する手法である。 コンフォーマル予測は、事前訓練された分類器、キャリブレーションデータセット、信頼レベルを入力として取り、特徴ベクトルをクラスのサブセットにマップする関数を返す。 新たな特徴ベクトル(すなわちテストデータポイント)に対する返却関数の出力は、所定の信頼度を持つ真のクラスを含むことが保証される。 iidの設定での成功と有用性にもかかわらず、共形予測を交換不能なデータ(例えばマルコフ的データ)に拡張し、全ての望ましい理論的性質を確実に保存する手法は、ほとんど未解決の問題のままである。 解法として、未知のパラメータを持つ隠れマルコフモデル(HMM)の設定に共形予測を拡張する。 提案手法の背後にある重要なアイデアは、diaconis and freedman (1980) によって発見されたマルコフ連鎖に対するde finettiの定理を利用して、交換不能なマルコフデータをhmmから交換可能なブロックに分割することである。 交換可能なブロックの置換は、HMMから観測されたマルコフデータのランダム化と見なされる。 提案手法は,古典的共形予測フレームワークが提案するすべての理論的保証を確実に保持し,多くの逐次予測問題に有効である。

Conformal prediction is a widely used method to quantify uncertainty in settings where the data is independent and identically distributed (IID), or more generally, exchangeable. Conformal prediction takes in a pre-trained classifier, a calibration dataset and a confidence level as inputs, and returns a function which maps feature vectors to subsets of classes. The output of the returned function for a new feature vector (i.e., a test data point) is guaranteed to contain the true class with the pre-specified confidence. Despite its success and usefulness in IID settings, extending conformal prediction to non-exchangeable (e.g., Markovian) data in a manner that provably preserves all desirable theoretical properties has largely remained an open problem. As a solution, we extend conformal prediction to the setting of a Hidden Markov Model (HMM) with unknown parameters. The key idea behind the proposed method is to partition the non-exchangeable Markovian data from the HMM into exchangeable blocks by exploiting the de Finetti's Theorem for Markov Chains discovered by Diaconis and Freedman (1980). The permutations of the exchangeable blocks are then viewed as randomizations of the observed Markovian data from the HMM. The proposed method provably retains all desirable theoretical guarantees offered by the classical conformal prediction framework and is general enough to be useful in many sequential prediction problems.
翻訳日:2022-10-06 15:36:56 公開日:2022-10-05
# グリッドマスクを用いたTC-SKNetによる音響シーンの低複雑さ分類

TC-SKNet with GridMask for Low-complexity Classification of Acoustic scene ( http://arxiv.org/abs/2210.02287v1 )

ライセンス: Link先を確認
Luyuan Xie, Yan Zhong, Lin Yang, Zhaoyu Yan, Zhonghai Wu, Junjie Wang(参考訳) 畳み込みニューラルネットワーク(CNN)は、音響シーン分類(ASC)のような低複雑さな分類タスクにおいて優れた性能を有する。 しかし、ターゲット音声の長さと畳み込みカーネルのサイズとの関係についてはほとんど研究されていない。 本稿では,選択型カーネルネットワークと時相畳み込み(tc-sknet)を組み合わせて畳み込みカーネルの受容場を調整し,低複雑さを維持しつつ目標音声の可変長問題を解く。 GridMaskは、生データや機能領域の一部をマスキングすることで、データ拡張戦略である。 モデルの一般化をドロップアウトの役割として強化することができる。 我々の実験では、GridMaskによる性能向上は、ASCのスペクトル増大よりも強い。 最後に,tc-sknet の最適構造と gridmask のハイパーパラメータを検索し,分類性能を向上させるために automl を採用する。 その結果、ピーク精度59.87%のTC-SKNetはSOTAと同値であるが、パラメータは20.9Kのみである。

Convolution neural networks (CNNs) have good performance in low-complexity classification tasks such as acoustic scene classifications (ASCs). However, there are few studies on the relationship between the length of target speech and the size of the convolution kernels. In this paper, we combine Selective Kernel Network with Temporal-Convolution (TC-SKNet) to adjust the receptive field of convolution kernels to solve the problem of variable length of target voice while keeping low-complexity. GridMask is a data augmentation strategy by masking part of the raw data or feature area. It can enhance the generalization of the model as the role of dropout. In our experiments, the performance gain brought by GridMask is stronger than spectrum augmentation in ASCs. Finally, we adopt AutoML to search best structure of TC-SKNet and hyperparameters of GridMask for improving the classification performance. As a result, a peak accuracy of 59.87% TC-SKNet is equivalent to that of SOTA, but the parameters only use 20.9 K.
翻訳日:2022-10-06 15:36:32 公開日:2022-10-05
# 乱流における粒子クラスタリング:深層学習による空間的・統計的特性の予測

Particle clustering in turbulence: Prediction of spatial and statistical properties with deep learning ( http://arxiv.org/abs/2210.02339v1 )

ライセンス: Link先を確認
Yan-Mong Chan, Natascha Manger, Yin Li, Chao-Chin Yang, Zhaohuan Zhu, Philip J. Armitage and Shirley Ho(参考訳) 乱流流体と空力的に結合した粒子のクラスタリングをモデル化する深層学習の有用性を実証する。 athena++流体力学コード内のラグランジアン粒子モジュールを用いて、等方的強制流体力学乱流の周期領域内のエプスタインドラッグレジームにおける粒子のダイナミクスをシミュレートする。 この設定は、初期惑星形成における微粉塵粒子との衝突成長に関連する理想的なモデルである。 シミュレーションデータを用いて、U-Net深層学習モデルを用いて、対応する流体場を入力として与えられる粒子密度と速度場の格子状3次元表現を予測する。 訓練されたモデルでは、クラスター粒子のフィラメント構造を高度に非線形な方法で定性的に捉える。 本研究では,密度構造(ラジアル分布関数)と速度場(粒子間の相対速度と相対ラジアル速度)の指標を算出し,モデルの忠実性を評価する。 トレーニングは空間場のみで行われるが、モデルは通常10%以下の誤差でこれらの統計量を予測する。 以上の結果から,深層学習により,原始惑星系円盤と関連する2流体乱流問題の両方における粒子クラスタリングと衝突結果の計算を高速化できる可能性が示唆された。

We demonstrate the utility of deep learning for modeling the clustering of particles that are aerodynamically coupled to turbulent fluids. Using a Lagrangian particle module within the ATHENA++ hydrodynamics code, we simulate the dynamics of particles in the Epstein drag regime within a periodic domain of isotropic forced hydrodynamic turbulence. This setup is an idealized model relevant to the collisional growth of micron to mmsized dust particles in early stage planet formation. The simulation data is used to train a U-Net deep learning model to predict gridded three-dimensional representations of the particle density and velocity fields, given as input the corresponding fluid fields. The trained model qualitatively captures the filamentary structure of clustered particles in a highly non-linear regime. We assess model fidelity by calculating metrics of the density structure (the radial distribution function) and of the velocity field (the relative velocity and the relative radial velocity between particles). Although trained only on the spatial fields, the model predicts these statistical quantities with errors that are typically < 10%. Our results suggest that, given appropriately expanded training data, deep learning could be used to accelerate calculations of particle clustering and collision outcomes both in protoplanetary disks, and in related two-fluid turbulence problems that arise in other disciplines.
翻訳日:2022-10-06 15:36:15 公開日:2022-10-05
# 力学系によるニューラルネットワーク

Dynamical systems' based neural networks ( http://arxiv.org/abs/2210.02373v1 )

ライセンス: Link先を確認
Elena Celledoni, Davide Murari, Brynjulf Owren, Carola-Bibiane Sch\"onlieb, Ferdia Sherry(参考訳) ニューラルネットワークは多くのアプリケーションで有効であることから、多くの関心を集めている。 しかし、それらの数学的性質は一般にはよく分かっていない。 データや近似関数に固有の幾何構造が存在する場合、ニューラルネットワークの設計においてこれを考慮に入れることが望ましい。 本研究では,非自律型odeから始まり,適切な構造保存型,数値的時間離散化を用いたニューラルネットワークを構築する。 ニューラルネットワークの構造は、ODEベクトル場の特性から推定される。 ネットワークアーキテクチャにより多くの構造を注入するだけでなく、このモデリング手順により、その振る舞いをより理論的に理解することができる。 2つの普遍近似結果を示し、ニューラルネットワークに特定の特性を課す方法を示す。 特に注目しているのは、1-Lipschitzでないレイヤを含む1-Lipschitzアーキテクチャである。 これらのネットワークは、CIFAR-10データセットに示すように、敵攻撃に対して表現的で堅牢である。

Neural networks have gained much interest because of their effectiveness in many applications. However, their mathematical properties are generally not well understood. If there is some underlying geometric structure inherent to the data or to the function to approximate, it is often desirable to take this into account in the design of the neural network. In this work, we start with a non-autonomous ODE and build neural networks using a suitable, structure-preserving, numerical time-discretisation. The structure of the neural network is then inferred from the properties of the ODE vector field. Besides injecting more structure into the network architectures, this modelling procedure allows a better theoretical understanding of their behaviour. We present two universal approximation results and demonstrate how to impose some particular properties on the neural networks. A particular focus is on 1-Lipschitz architectures including layers that are not 1-Lipschitz. These networks are expressive and robust against adversarial attacks, as shown for the CIFAR-10 dataset.
翻訳日:2022-10-06 15:35:53 公開日:2022-10-05
# iiotシステムのための多段階自動化オンラインネットワークデータストリーム分析フレームワーク

A Multi-Stage Automated Online Network Data Stream Analytics Framework for IIoT Systems ( http://arxiv.org/abs/2210.01985v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Shami(参考訳) 産業 5.0 は人間と機械の協力を最大化することを目的としている。 機械は反復的なジョブを自動化でき、人間は創造的なタスクを処理できる。 サービス配信のためのIndustrial Internet of Things(IIoT)システムの重要なコンポーネントとして、ネットワークデータストリーム分析は、動的IIoT環境によるコンセプトドリフト問題にしばしば遭遇する。 本稿では、動的データ前処理、Driftベースの動的特徴選択(DD-FS)法、動的モデル学習と選択、ウィンドウベースのパフォーマンス重み付き確率平均アンサンブル(W-PWPAE)モデルからなる、IIoTシステムにおけるコンセプトドリフト適応のための新しいマルチステージ自動ネットワーク分析(MSANA)フレームワークを提案する。 それは完全な自動データストリーム分析フレームワークで、産業用5.0におけるIIoTシステムの自動的、効率的、効率的なデータ分析を可能にする。 2つのパブリックIoTデータセットの実験結果は、提案されたフレームワークが、IIoTデータストリーム分析の最先端メソッドより優れていることを示している。

Industry 5.0 aims at maximizing the collaboration between humans and machines. Machines are capable of automating repetitive jobs, while humans handle creative tasks. As a critical component of Industrial Internet of Things (IIoT) systems for service delivery, network data stream analytics often encounter concept drift issues due to dynamic IIoT environments, causing performance degradation and automation difficulties. In this paper, we propose a novel Multi-Stage Automated Network Analytics (MSANA) framework for concept drift adaptation in IIoT systems, consisting of dynamic data pre-processing, the proposed Drift-based Dynamic Feature Selection (DD-FS) method, dynamic model learning & selection, and the proposed Window-based Performance Weighted Probability Averaging Ensemble (W-PWPAE) model. It is a complete automated data stream analytics framework that enables automatic, effective, and efficient data analytics for IIoT systems in Industry 5.0. Experimental results on two public IoT datasets demonstrate that the proposed framework outperforms state-of-the-art methods for IIoT data stream analytics.
翻訳日:2022-10-06 15:30:27 公開日:2022-10-05
# MAtt: EEGデコーディングのためのmanifold Attention Network

MAtt: A Manifold Attention Network for EEG Decoding ( http://arxiv.org/abs/2210.01986v1 )

ライセンス: Link先を確認
Yue-Ting Pan, Jing-Lun Chou, Chun-Shu Wei(参考訳) 脳波信号の認識は、非侵襲的脳-コンピュータインタフェース(BCI)の効率に高い影響を与える。 近年の深層学習(DL)ベースの脳波デコーダの進歩により性能が向上する一方、幾何学習(GL)の開発は、ノイズの多い脳波データのデコードにおいて、例外的な堅牢性を提供することで注目されている。 しかし、深層ニューラルネットワーク(dnn)と脳波復号のための幾何学的学習を融合した研究が不足している。 本稿では,リーマン対称正定値(SPD)多様体上でのEEGデータの時空間表現を特徴付ける,新しい幾何学的深層学習(GDL)モデルである,多様体アテンションネットワーク(mAtt)を提案する。 時間同期と非同期の両方のEEGデータセットにおけるMAttの評価は、一般的なEEGデコーディングのための他の主要なDLメソッドよりも優れていることを示唆している。 さらに、モデル解釈の解析により、情報脳波の特徴を捉え、脳力学の非定常性を扱うMAttの能力を明らかにする。

Recognition of electroencephalographic (EEG) signals highly affect the efficiency of non-invasive brain-computer interfaces (BCIs). While recent advances of deep-learning (DL)-based EEG decoders offer improved performances, the development of geometric learning (GL) has attracted much attention for offering exceptional robustness in decoding noisy EEG data. However, there is a lack of studies on the merged use of deep neural networks (DNNs) and geometric learning for EEG decoding. We herein propose a manifold attention network (mAtt), a novel geometric deep learning (GDL)-based model, featuring a manifold attention mechanism that characterizes spatiotemporal representations of EEG data fully on a Riemannian symmetric positive definite (SPD) manifold. The evaluation of the proposed MAtt on both time-synchronous and -asyncronous EEG datasets suggests its superiority over other leading DL methods for general EEG decoding. Furthermore, analysis of model interpretation reveals the capability of MAtt in capturing informative EEG features and handling the non-stationarity of brain dynamics.
翻訳日:2022-10-06 15:30:05 公開日:2022-10-05
# adamオプティマイザにおける非収束と極限サイクル

Non-Convergence and Limit Cycles in the Adam optimizer ( http://arxiv.org/abs/2210.02070v1 )

ライセンス: Link先を確認
Sebastian Bock and Martin Georg Wei{\ss}(参考訳) ディープニューラルネットワークのための最も一般的なトレーニングアルゴリズムの1つは、KingmaとBaによって導入されたAdaptive Moment Estimation (Adam)である。 多くのアプリケーションで成功しているにもかかわらず、収束解析は満足できるものではない: 局所収束のみをハイパーパラメータの制限下でバッチモードに表示できるため、インクリメンタルモードには逆例が存在する。 近年の研究では,2周期の2次目的関数の制限サイクルがバッチモードに存在するが,非典型的ハイパーパラメータのみであり,バイアス補正のないアルゴリズムに限られていることが示されている。 %) より適応的な勾配法がいくつか存在し, トレーニングデータから適度な学習率および/または探索方向を推定し, 定型学習率による純勾配勾配よりも学習過程を改善する。 バッチモードにおけるAdamの収束解析をバイアス補正で拡張し、凸関数の最も単純な場合である二次目的関数に対しても、ハイパーパラメータのすべての選択に対して2-極限サイクルが存在することを示す。 これらの極限サイクルの安定性を解析し、近似収束が示された他の結果と関係づけるが、二次関数には適用されない有界勾配の追加仮定下で解析を行う。 この調査は、方程式の複雑さのため、計算機代数の使用に大きく依存している。

One of the most popular training algorithms for deep neural networks is the Adaptive Moment Estimation (Adam) introduced by Kingma and Ba. Despite its success in many applications there is no satisfactory convergence analysis: only local convergence can be shown for batch mode under some restrictions on the hyperparameters, counterexamples exist for incremental mode. Recent results show that for simple quadratic objective functions limit cycles of period 2 exist in batch mode, but only for atypical hyperparameters, and only for the algorithm without bias correction. %More general there are several more adaptive gradient methods which try to estimate a fitting learning rate and / or search direction from the training data to improve the learning process compared to pure gradient descent with fixed learningrate. We extend the convergence analysis for Adam in the batch mode with bias correction and show that even for quadratic objective functions as the simplest case of convex functions 2-limit-cycles exist, for all choices of the hyperparameters. We analyze the stability of these limit cycles and relate our analysis to other results where approximate convergence was shown, but under the additional assumption of bounded gradients which does not apply to quadratic functions. The investigation heavily relies on the use of computer algebra due to the complexity of the equations.
翻訳日:2022-10-06 15:29:46 公開日:2022-10-05
# 確率勾配ランジュバン力学における関数中心極限定理と大数の強則

Functional Central Limit Theorem and Strong Law of Large Numbers for Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2210.02092v1 )

ライセンス: Link先を確認
Attila Lovas and Mikl\'os R\'asonyi(参考訳) 本稿では,機械学習の重要な最適化アルゴリズムである確率勾配ランゲヴィンダイナミクス(SGLD)の混合特性について検討する。 データストリームは独立ではないと仮定されるので、SGLD はマルコフ連鎖ではなく、単にランダムな環境での 'emph{Markov chain' であり、数学的処理をかなり複雑にする。 我々は、大数の強い法則と、SGLDの関数中心極限定理を導出する。

We study the mixing properties of an important optimization algorithm of machine learning: the stochastic gradient Langevin dynamics (SGLD) with a fixed step size. The data stream is not assumed to be independent hence the SGLD is not a Markov chain, merely a \emph{Markov chain in a random environment}, which complicates the mathematical treatment considerably. We derive a strong law of large numbers and a functional central limit theorem for SGLD.
翻訳日:2022-10-06 15:29:26 公開日:2022-10-05
# ChemAlgebra: 化学反応の代数的推論

ChemAlgebra: Algebraic Reasoning on Chemical Reactions ( http://arxiv.org/abs/2210.02095v1 )

ライセンス: Link先を確認
Andrea Valenti, Davide Bacciu, Antonio Vergari(参考訳) 各種の学習課題において印象的なパフォーマンスを示す一方で、深層学習モデルが推論タスクに頑健に取り組む能力を持っているかどうかは不明だ。 タスクを実際に解くのに必要な 基本的な推論プロセスを学ぶことよりも 複雑なオブジェクトや制約を操作しながら、データ内の散発的な統計相関を利用して簡単に近づかないタスクを提供する必要があるため、機械学習モデルにおける推論のロバスト性を測定することは困難である。 理屈の仕事。 この問題に対処するため,統計的に平衡な化学反応を予測することによって,深層学習モデルの推論能力を測定するベンチマークであるChemAlgebraを提案する。 ChemAlgebraは、質量保存原理のような代数的制約の下で、複雑な離散オブジェクト(式やグラフとして表される分子)の集合を操作する必要がある。 我々は、ChemAlgebraが次世代のマシン推論モデルに有用なテストベッドとして機能し、開発促進の役割を果たすと考えている。

While showing impressive performance on various kinds of learning tasks, it is yet unclear whether deep learning models have the ability to robustly tackle reasoning tasks. than by learning the underlying reasoning process that is actually required to solve the tasks. Measuring the robustness of reasoning in machine learning models is challenging as one needs to provide a task that cannot be easily shortcut by exploiting spurious statistical correlations in the data, while operating on complex objects and constraints. reasoning task. To address this issue, we propose ChemAlgebra, a benchmark for measuring the reasoning capabilities of deep learning models through the prediction of stoichiometrically-balanced chemical reactions. ChemAlgebra requires manipulating sets of complex discrete objects -- molecules represented as formulas or graphs -- under algebraic constraints such as the mass preservation principle. We believe that ChemAlgebra can serve as a useful test bed for the next generation of machine reasoning models and as a promoter of their development.
翻訳日:2022-10-06 15:29:17 公開日:2022-10-05
# 最適化型ニューラルネットワーク

Optimization-Informed Neural Networks ( http://arxiv.org/abs/2210.02113v1 )

ライセンス: Link先を確認
Dawen Wu, Abdel Lisser(参考訳) 制約付き非線形最適化問題 (cnlps) の解決は、経済学、計算機科学、工学など様々な分野において長年の課題である。 我々は,CNLPの解法として最適化インフォームドニューラルネットワーク(OINN)を提案する。 神経力学最適化法により、CNLPは、通常微分方程式(ODE)系を含む初期値問題(IVP)として初めて再帰される。 次に、ニューラルネットワークモデルがこのIPPの近似解として使用され、終端がCNLPの予測である。 本稿では,トレーニング中に最高の予測を行うようモデルに指示する新しいトレーニングアルゴリズムを提案する。 簡単に言うと、OINNはCNLPをニューラルネットワークトレーニング問題に変換する。 これにより、標準的な最適化解法や数値積分解法を使わずに、ディープラーニングインフラストラクチャのみに基づいてCNLPを解くことができる。 提案手法の有効性は, 変分不等式, 非線形相補問題, 標準cnlpなど, 古典的問題の集合を通して実証された。

Solving constrained nonlinear optimization problems (CNLPs) is a longstanding problem that arises in various fields, e.g., economics, computer science, and engineering. We propose optimization-informed neural networks (OINN), a deep learning approach to solve CNLPs. By neurodynamic optimization methods, a CNLP is first reformulated as an initial value problem (IVP) involving an ordinary differential equation (ODE) system. A neural network model is then used as an approximate solution for this IVP, with the endpoint being the prediction to the CNLP. We propose a novel training algorithm that directs the model to hold the best prediction during training. In a nutshell, OINN transforms a CNLP into a neural network training problem. By doing so, we can solve CNLPs based on deep learning infrastructure only, without using standard optimization solvers or numerical integration solvers. The effectiveness of the proposed approach is demonstrated through a collection of classical problems, e.g., variational inequalities, nonlinear complementary problems, and standard CNLPs.
翻訳日:2022-10-06 15:28:59 公開日:2022-10-05
# 複数日間の胚移植における深層学習型胚選択法の開発と検証

Development and validation of deep learning based embryo selection across multiple days of transfer ( http://arxiv.org/abs/2210.02120v1 )

ライセンス: Link先を確認
Jacob Theilgaard Lassen, Mikkel Fly Kragh, Jens Rimestad, Martin Nyg{\aa}rd Johansen, J{\o}rgen Berntsen(参考訳) 本研究は, 完全に自動化されたディープラーニングモデルidascore v2.0の開発と検証を行い, 2, 3, 5日以上の潜伏胚の評価を行った。 このモデルは、世界中の22のIVFクリニックから181,428個の胚を含む広範囲で多様なデータセットで訓練され、評価されている。 遺伝子組み換え胚(KID)を識別するためには、転写日に応じて0.621から0.708の範囲のAUCを示す。 予測性能は時間とともに向上し,形態運動パラメータと強い相関を示した。 このモデルは3日目の胚ではKIDScore D3と同等の性能を有し、第5日目の胚ではKIDScore D5 v3をはるかに上回っている。 このモデルは、ユーザ入力を必要とせずに、タイムラプスシーケンスの解析を提供し、胚を移植する確率を、開裂期と胚盤胞期の両方で評価するための信頼性の高い方法を提供する。 これにより、胚のグレーディングの一貫性が大幅に向上し、従来の胚評価方法に比べて時間が短縮される。

This work describes the development and validation of a fully automated deep learning model, iDAScore v2.0, for the evaluation of embryos incubated for 2, 3, and 5 or more days. The model is trained and evaluated on an extensive and diverse dataset including 181,428 embryos from 22 IVF clinics across the world. For discriminating transferred embryos with known outcome (KID), we show AUCs ranging from 0.621 to 0.708 depending on the day of transfer. Predictive performance increased over time and showed a strong correlation with morphokinetic parameters. The model has equivalent performance to KIDScore D3 on day 3 embryos while significantly surpassing the performance of KIDScore D5 v3 on day 5+ embryos. This model provides an analysis of time-lapse sequences without the need for user input, and provides a reliable method for ranking embryos for likelihood to implant, at both cleavage and blastocyst stages. This greatly improves embryo grading consistency and saves time compared to traditional embryo evaluation methods.
翻訳日:2022-10-06 15:28:44 公開日:2022-10-05
# ニューラルネットワークによる数値L\"uscher's Formulaの再検討

Rediscovery of Numerical L\"uscher's Formula from the Neural Network ( http://arxiv.org/abs/2210.02184v1 )

ライセンス: Link先を確認
Yu Lu, Yi-Jia Wang, Ying Chen, Jia-Jun Wu(参考訳) 連続空間における位相シフトから離散空間におけるスペクトルを予測することにより、ニューラルネットワークは数値的なL\"uscherの公式を高い精度で再現することができる。 l\"uscher's formula のモデル非依存性は、ニューラルネットワークの一般化によって自然に実現される。 これは、モデルに依存しない量間のモデルに依存しない関係を抽出するニューラルネットワークの大きな可能性を示し、このデータ駆動アプローチは、複雑なデータの下で物理原理の発見を大いに促進する可能性がある。

We present that by predicting the spectrum in discrete space from the phase shift in continuous space, the neural network can remarkably reproduce the numerical L\"uscher's formula to a high precision. The model-independent property of the L\"uscher's formula is naturally realized by the generalizability of the neural network. This exhibits the great potential of the neural network to extract model-independent relation between model-dependent quantities, and this data-driven approach could greatly facilitate the discovery of the physical principles underneath the intricate data.
翻訳日:2022-10-06 15:28:28 公開日:2022-10-05
# プライバシー制約下における推定・テストの統計的複雑性について

On the Statistical Complexity of Estimation and Testing under Privacy Constraints ( http://arxiv.org/abs/2210.02215v1 )

ライセンス: Link先を確認
Cl\'ement Lalanne (ENS Lyon), Aur\'elien Garivier, R\'emi Gribonval(参考訳) 精度を維持しながらサンプルのプライバシーを尊重する統計を作成することは、研究の重要なトピックである。 我々は、推定子のクラスが微分的プライベートなクラスに制限される場合の最小値下限について研究する。 特に,ディファレンシャル・プライバシの下で分布テストのパワーを特徴付けることは,トランスポート問題を解くことによって実現できることを示す。 特定の結合構成により、この観察により、微分プライバシーの正規定義と分岐に基づく定義(renyi divergenceに基づく)の両方において、le cam型とfano型不等式を導出することができる。 次に、簡単な3つの実例について、その結果を説明します。 特に,問題クラスは,プライバシによって有用性が損なわれることに対して,非常に重要であることを示す。 いくつかの問題において、プライバシは、プライバシパラメータの比率が十分に小さい場合にのみ証明可能な劣化を引き起こすが、他の問題では、プライバシパラメータのよりゆるい仮説の下で体系的に劣化が起こる。 最後に,プライベート凸ソルバであるdp-sgldの既知のプライバシ保証が,指数関数的家族を含む幅広いパラメトリック推定手順において,問題のサンプルサイズとプライバシチューニングパラメータの両方において最小に近いアルゴリズムに導かれることを示す。

Producing statistics that respect the privacy of the samples while still maintaining their accuracy is an important topic of research. We study minimax lower bounds when the class of estimators is restricted to the differentially private ones. In particular, we show that characterizing the power of a distributional test under differential privacy can be done by solving a transport problem. With specific coupling constructions, this observation allows us to derivate Le Cam-type and Fano-type inequalities for both regular definitions of differential privacy and for divergence-based ones (based on Renyi divergence). We then proceed to illustrate our results on three simple, fully worked out examples. In particular, we show that the problem class has a huge importance on the provable degradation of utility due to privacy. For some problems, privacy leads to a provable degradation only when the rate of the privacy parameters is small enough whereas for other problem, the degradation systematically occurs under much looser hypotheses on the privacy parametters. Finally, we show that the known privacy guarantees of DP-SGLD, a private convex solver, when used to perform maximum likelihood, leads to an algorithm that is near-minimax optimal in both the sample size and the privacy tuning parameters of the problem for a broad class of parametric estimation procedures that includes exponential families.
翻訳日:2022-10-06 15:22:57 公開日:2022-10-05
# キーボード入力における熱(およびハイブリッド熱/オーディオ)サイドチャネル攻撃

Thermal (and Hybrid Thermal/Audio) Side-Channel Attacks on Keyboard Input ( http://arxiv.org/abs/2210.02234v1 )

ライセンス: Link先を確認
Tyler Kaczmarek, Ercan Ozturk, Pier Paolo Tricomi, Gene Tsudik(参考訳) これまでキーボードの熱的プロファイルの体系的な調査は行われておらず、それを確保する努力は行われていない。 これは、キーボードの熱発散からパスワードを採取する手段を構築する主な動機となっている。 具体的には,一般的な外部(プラスチック)キーボードでパスワードを入力したユーザによる熱伝達に基づく,新しいファクト後のインサイダー攻撃であるThermanatorを紹介する。 4つのポピュラーなコモディティキーボードに10のユニークなパスワード(弱いものも強いものも)を入力した30人のユーザからの熱残基を収集するユーザスタディを実施・記述する。 その結果、キープレッシャーの全セットは、初期パスワード入力の30秒後に非熟練ユーザによって回復でき、部分セットは入力の1分後に回復できることがわかった。 しかし、サーマル残差サイドチャネルにはパスワードの長さ、重複キー押下、キー押下順序に関する情報が欠けている。 これらの制限を克服するために、キーボード音響エマニュエーションを活用し、この2つを組み合わせることで、AcuThermはキーボードに対する最初のハイブリッドサイドチャネル攻撃である。 AcuThermは、被害者のタイピングのトレーニングを必要とせずにパスワード検索を大幅に削減する。 本報告では,19名を対象にしたユーザ調査に基づいて,代表パスワードを多数収集した。 1) プラスチックキーボードを使って秘密(パスワードやPINなど)を入力することは、これまで認識されていたよりも安全ではない、(2) ポストファクタム熱画像攻撃は現実的で、(3) ハイブリッド(複数側チャネル)攻撃は現実的で効果的である。

To date, there has been no systematic investigation of thermal profiles of keyboards, and thus no efforts have been made to secure them. This serves as our main motivation for constructing a means for password harvesting from keyboard thermal emanations. Specifically, we introduce Thermanator: a new post-factum insider attack based on heat transfer caused by a user typing a password on a typical external (plastic) keyboard. We conduct and describe a user study that collected thermal residues from 30 users entering 10 unique passwords (both weak and strong) on 4 popular commodity keyboards. Results show that entire sets of key-presses can be recovered by non-expert users as late as 30 seconds after initial password entry, while partial sets can be recovered as late as 1 minute after entry. However, the thermal residue side-channel lacks information about password length, duplicate key-presses, and key-press ordering. To overcome these limitations, we leverage keyboard acoustic emanations and combine the two to yield AcuTherm, the first hybrid side-channel attack on keyboards. AcuTherm significantly reduces password search without the need for any training on the victim's typing. We report results gathered for many representative passwords based on a user study involving 19 subjects. The takeaway of this work is three-fold: (1) using plastic keyboards to enter secrets (such as passwords and PINs) is even less secure than previously recognized, (2) post-factum thermal imaging attacks are realistic, and (3) hybrid (multiple side-channel) attacks are both realistic and effective.
翻訳日:2022-10-06 15:22:32 公開日:2022-10-05
# 相関付き加法摂動を用いたプライバシー保護によるオーバーザ・エアフェデレート学習

Over-the-Air Federated Learning with Privacy Protection via Correlated Additive Perturbations ( http://arxiv.org/abs/2210.02235v1 )

ライセンス: Link先を確認
Jialing Liao, Zheng Chen, and Erik G. Larsson(参考訳) 本稿では,複数のユーザ/エージェントからエッジサーバへの勾配更新をota(over-the-air-the-air)送信する無線フェデレーション学習(fl)のプライバシー面を検討する。 複数のアクセスチャネルの波形重畳特性を利用することで、OtA FLはリニア処理技術と同時に更新を送信し、リソース効率を向上させる。 しかし、この設定は、相手ノードがアンコードされたメッセージを直接聞くことができるため、プライバシー漏洩に弱い。 従来の摂動に基づく手法は、信号対雑音比の低減によるトレーニング精度を犠牲にしながら、プライバシー保護を提供する。 本稿では,エッジサーバにおける敵へのプライバシリークの最小化とモデル精度の低下を同時に実現することを目的とする。 より明確には、送信前のユーザの勾配ベクトルに空間的に相関した摂動が加えられる。 相関摂動のゼロサム特性を用いて、エッジサーバの集約勾配に対する付加摂動の副作用を最小限に抑えることができる。 一方、追加の摂動は敵側ではキャンセルされないため、プライバシの漏洩が防止される。 プライバシー保護と収束性能のバランスをとるために共分散行列とパワースケーリング係数を共同で設計するために最適化問題を定式化した摂動共分散行列、微分プライバシー、モデル収束の理論解析を提供する。 相関摂動法の有効性をシミュレーションにより検証することで、高い学習精度を確保しつつ強い防御能力が得られる。

In this paper, we consider privacy aspects of wireless federated learning (FL) with Over-the-Air (OtA) transmission of gradient updates from multiple users/agents to an edge server. By exploiting the waveform superposition property of multiple access channels, OtA FL enables the users to transmit their updates simultaneously with linear processing techniques, which improves resource efficiency. However, this setting is vulnerable to privacy leakage since an adversary node can hear directly the uncoded message. Traditional perturbation-based methods provide privacy protection while sacrificing the training accuracy due to the reduced signal-to-noise ratio. In this work, we aim at minimizing privacy leakage to the adversary and the degradation of model accuracy at the edge server at the same time. More explicitly, spatially correlated perturbations are added to the gradient vectors at the users before transmission. Using the zero-sum property of the correlated perturbations, the side effect of the added perturbation on the aggregated gradients at the edge server can be minimized. In the meanwhile, the added perturbation will not be canceled out at the adversary, which prevents privacy leakage. Theoretical analysis of the perturbation covariance matrix, differential privacy, and model convergence is provided, based on which an optimization problem is formulated to jointly design the covariance matrix and the power scaling factor to balance between privacy protection and convergence performance. Simulation results validate the correlated perturbation approach can provide strong defense ability while guaranteeing high learning accuracy.
翻訳日:2022-10-06 15:22:03 公開日:2022-10-05
# visual backtracking teleoperation: オフライン画像ベース強化学習のためのデータ収集プロトコル

Visual Backtracking Teleoperation: A Data Collection Protocol for Offline Image-Based Reinforcement Learning ( http://arxiv.org/abs/2210.02343v1 )

ライセンス: Link先を確認
David Brandfonbrener, Stephen Tu, Avi Singh, Stefan Welker, Chad Boodoo, Nikolai Matni, Jake Varley(参考訳) 我々は,遠隔操作時間を最大限に活用し,頑健な画像に基づく価値関数の学習のためのデータ収集と,報酬ロボットタスクの分散のためのポリシーを検討する。 この目標を達成するために、私たちはデータ収集のプロセスを変更し、目的とするタスクのデモ以上のものを含むようにします。 代わりに、視覚的に類似した障害、回復、成功のデータセットを意図的に収集するVisual Backtracking Teleoperation (VBT)と呼ばれる新しいプロトコルを開発しました。 VBTデータ収集は、画像ベースの小さなデータセットから正確な値関数を効率的に学習するのに特に有用である。 tシャツ把持の変形可能な操作タスクのための画像観察から連続制御を行う実ロボットのvbtを実演する。 データ収集のプロセスを調整することで、学習した値関数とポリシーの両方の品質を、データ収集のためのさまざまなベースラインメソッドで改善できることが分かりました。 特に,実ロボットから60分分の等サイズのデータセットを与えられた場合,vbtデータのオフライン強化学習は,実演データ上での標準的な動作クローンを13%上回ることがわかった。

We consider how to most efficiently leverage teleoperator time to collect data for learning robust image-based value functions and policies for sparse reward robotic tasks. To accomplish this goal, we modify the process of data collection to include more than just successful demonstrations of the desired task. Instead we develop a novel protocol that we call Visual Backtracking Teleoperation (VBT), which deliberately collects a dataset of visually similar failures, recoveries, and successes. VBT data collection is particularly useful for efficiently learning accurate value functions from small datasets of image-based observations. We demonstrate VBT on a real robot to perform continuous control from image observations for the deformable manipulation task of T-shirt grasping. We find that by adjusting the data collection process we improve the quality of both the learned value functions and policies over a variety of baseline methods for data collection. Specifically, we find that offline reinforcement learning on VBT data outperforms standard behavior cloning on successful demonstration data by 13% when both methods are given equal-sized datasets of 60 minutes of data from the real robot.
翻訳日:2022-10-06 15:21:41 公開日:2022-10-05
# 改良された分類のためのカーネルベース量子ランダムフォレスト

A kernel-based quantum random forest for improved classification ( http://arxiv.org/abs/2210.02355v1 )

ライセンス: Link先を確認
Maiyuren Srikumar, Charles D. Hill and Lloyd C.L. Hollenberg(参考訳) 伝統的な古典的学習方法を強化する量子機械学習(qml)の出現は、その実現に様々な制限があった。 したがって、表現と計算の優位性を達成するために、ユニークなモデル仮説を持つ量子モデルを開発することが必須である。 本稿では,線形量子サポートベクトルマシン(qsvm)を,量子カーネル推定(qke)により計算したカーネル関数を用いて拡張し,量子ランダムフォレスト(qrf)と呼ばれるqsvmノードの決定指向非循環グラフから構築した決定木分類器を作成する。 オーバーフィッティングを制限するため、より低ランクなNystr\"{o}m近似をカーネル行列に適用するようにモデルを拡張する。 モデル上の一般化誤差境界と、Nystr\"{o}m-QKE 戦略上の有限サンプリングによる誤差の制限を理論的に保証する。 そこで本研究では,QKEと比較してサンプリングの複雑さが低いことを示す。 モデルハイパーパラメータの影響を数値的に説明し、最終的にQRFがQSVMよりも優れた性能を得られることを示した。

The emergence of Quantum Machine Learning (QML) to enhance traditional classical learning methods has seen various limitations to its realisation. There is therefore an imperative to develop quantum models with unique model hypotheses to attain expressional and computational advantage. In this work we extend the linear quantum support vector machine (QSVM) with kernel function computed through quantum kernel estimation (QKE), to form a decision tree classifier constructed from a decision directed acyclic graph of QSVM nodes - the ensemble of which we term the quantum random forest (QRF). To limit overfitting, we further extend the model to employ a low-rank Nystr\"{o}m approximation to the kernel matrix. We provide generalisation error bounds on the model and theoretical guarantees to limit errors due to finite sampling on the Nystr\"{o}m-QKE strategy. In doing so, we show that we can achieve lower sampling complexity when compared to QKE. We numerically illustrate the effect of varying model hyperparameters and finally demonstrate that the QRF is able obtain superior performance over QSVMs, while also requiring fewer kernel estimations.
翻訳日:2022-10-06 15:21:22 公開日:2022-10-05
# 深部確率モデルにおける画像の隠蔽

Hiding Images in Deep Probabilistic Models ( http://arxiv.org/abs/2210.02257v1 )

ライセンス: Link先を確認
Haoyu Chen, Linqi Song, Zhenxing Qian, Xinpeng Zhang, Kede Ma(参考訳) ディープニューラルネットワーク(DNN)によるデータ隠蔽は,近年,目覚ましい成功を収めている。 一般的なスキームは、秘密のメッセージをキャリア(またはキャリア)に埋め込み(または変換)するエンコードネットワークと、隠されたメッセージを抽出するための復号化ネットワークからなるオートエンコーダを訓練することである。 このスキームには実用性、セキュリティ、組み込み能力に関するいくつかの制限がある。 本研究では,画像の深い確率モデルに隠蔽する異なる計算フレームワークについて述べる。 具体的には,dnnを用いてカバー画像の確率密度をモデル化し,学習した分布の特定の場所に秘密画像を隠す。 そこで我々は,GAN (Generative Adversarial Network) のピラミッドである SinGAN を用いて,1つのカバーイメージのパッチ分布を学習する。 パッチ分布学習中に、固定されたノイズマップ(埋め込みキーによって生成される)から秘密画像に決定論的マッピングをフィッティングすることにより、秘密画像を隠す。 ステゴSinGANは、元のSinGANとして動作しており、埋め込みキーを有する受信者のみが秘密画像を抽出することができる。 我々は,抽出精度とモデルセキュリティの観点から,SinGANアプローチの実現可能性を示す。 また,提案手法では,異なる受信機に対して複数の画像を隠蔽し,その秘密画像を隠蔽するという柔軟性を示す。

Data hiding with deep neural networks (DNNs) has experienced impressive successes in recent years. A prevailing scheme is to train an autoencoder, consisting of an encoding network to embed (or transform) secret messages in (or into) a carrier, and a decoding network to extract the hidden messages. This scheme may suffer from several limitations regarding practicability, security, and embedding capacity. In this work, we describe a different computational framework to hide images in deep probabilistic models. Specifically, we use a DNN to model the probability density of cover images, and hide a secret image in one particular location of the learned distribution. As an instantiation, we adopt a SinGAN, a pyramid of generative adversarial networks (GANs), to learn the patch distribution of one cover image. We hide the secret image by fitting a deterministic mapping from a fixed set of noise maps (generated by an embedding key) to the secret image during patch distribution learning. The stego SinGAN, behaving as the original SinGAN, is publicly communicated; only the receiver with the embedding key is able to extract the secret image. We demonstrate the feasibility of our SinGAN approach in terms of extraction accuracy and model security. Moreover, we show the flexibility of the proposed method in terms of hiding multiple images for different receivers and obfuscating the secret image.
翻訳日:2022-10-06 15:20:59 公開日:2022-10-05
# 多発癌における治療反応のバイオマーカーとしての臨床像における腫瘍関連血管形態の新しい放射能測定

Novel Radiomic Measurements of Tumor- Associated Vasculature Morphology on Clinical Imaging as a Biomarker of Treatment Response in Multiple Cancers ( http://arxiv.org/abs/2210.02273v1 )

ライセンス: Link先を確認
Nathaniel Braman, Prateek Prasanna, Kaustav Bera, Mehdi Alilou, Mohammadhadi Khorrami, Patrick Leo, Maryam Etesami, Manasa Vulchi, Paulette Turk, Amit Gupta, Prantesh Jain, Pingfu Fu, Nathan Pennell, Vamsidhar Velcheti, Jame Abraham, Donna Plecha and Anant Madabhushi(参考訳) 目的: 腫瘍関連血管は, 治療抵抗性を促進するカオス構造とねじれ性によって, 健康な血管とは異なる。 これらの特性の計測上の違いは、全身療法(例えば化学療法)の利益によって患者を階層化するのに役立つ。 本研究は, 腫瘍関連血管の定量的特徴(QuanTAV)と呼ばれる放射線バイオマーカーの新たなカテゴリを提示し, 複数の癌に対する応答と生存, 画像モダリティ, 治療レギュラーの予測能力を示す。 実験設計: 腫瘍血管の分画とCT, 造影MRIの組織化を計算し, 乳がん(n=371)と非小細胞肺癌(NSCLC, n=187)の4つの治療法の1つを施行した558例について検討した。 結果: 4 つの化学療法ベースの治療戦略,QuanTAV 測定値の分類器 (p<.05) は, 有意な臨床変数のみのモデルに付加すると, AUC を 0.06-0.12 増加させた。 乳がん治療コホーツ化学療法 (p=0.002, HR=1.25, 95% CI 1.08-1.44, C-index=.66), NSCLC化学療法 (p=0.039, HR=1.28, 95% CI 1.01-1.62, C-index=0.66) では, 再発が認められなかった。 化学療法を受けたNSCLC患者 (p=0.034, HR=2.29, 95% CI 1.07-4.94, C-index=0.62) を含む全ての治療群で, カテゴリーのQuanTAVリスク群は独立に予後が良好であった。 結論: これらの領域で, 放射線学における血管形態と治療成績との関連が認められた。 多発癌および治療における予後・予測バイオマーカーとしての腫瘍関連血管形態・構造の可能性が示唆された。

Purpose: Tumor-associated vasculature differs from healthy blood vessels by its chaotic architecture and twistedness, which promotes treatment resistance. Measurable differences in these attributes may help stratify patients by likely benefit of systemic therapy (e.g. chemotherapy). In this work, we present a new category of radiomic biomarkers called quantitative tumor-associated vasculature (QuanTAV) features, and demonstrate their ability to predict response and survival across multiple cancers, imaging modalities, and treatment regimens. Experimental Design: We segmented tumor vessels and computed mathematical measurements of twistedness and organization on routine pre-treatment radiology (CT or contrast-enhanced MRI) from 558 patients, who received one of four first-line chemotherapy-based therapeutic intervention strategies for breast (n=371) or non-small cell lung cancer (NSCLC, n=187). Results: Across 4 chemotherapy-based treatment strategies, classifiers of QuanTAV measurements significantly (p<.05) predicted response in held out testing cohorts alone (AUC=0.63-0.71) and increased AUC by 0.06-0.12 when added to models of significant clinical variables alone. QuanTAV risk scores were prognostic of recurrence free survival in treatment cohorts chemotherapy for breast cancer (p=0.002, HR=1.25, 95% CI 1.08-1.44, C-index=.66) and chemoradiation for NSCLC (p=0.039, HR=1.28, 95% CI 1.01-1.62, C-index=0.66). Categorical QuanTAV risk groups were independently prognostic among all treatment groups, including NSCLC patients receiving chemotherapy (p=0.034, HR=2.29, 95% CI 1.07-4.94, C-index=0.62). Conclusions: Across these domains, we observed an association of vascular morphology on radiology with treatment outcome. Our findings suggest the potential of tumor-associated vasculature shape and structure as a prognostic and predictive biomarker for multiple cancers and treatments.
翻訳日:2022-10-06 15:20:39 公開日:2022-10-05
# 共有および個別ソースを用いた多視点独立成分分析

Multi-View Independent Component Analysis with Shared and Individual Sources ( http://arxiv.org/abs/2210.02083v1 )

ライセンス: Link先を確認
Teodora Pandeva, Patrick Forr\'e(参考訳) 独立成分分析(Independent component analysis, ICA)は、観測データから独立した潜伏源を線形に歪めるブラインドソース分離法である。 そこで我々は,観測を異なる視点に分割し,それぞれが共有音源と個別音源を混合したノイズリニアICAの特別な設定について検討する。 多様なビューやデータポイントが十分に利用可能であれば、対応する線形構造が識別可能であり、共有ソースを復元可能であることが証明される。 ソースを計算的に推定するために,観測されたデータのジョイントログライクティフィケーションの制約付き形式を全ビュー間で最適化する。 実測値がノイズによって破損した場合にも,高次元設定で音源を復元することが実証的に示される。 最後に,2つの異なる研究室(2つの異なるビュー)によって提供される2つの大きなトランスクリプトームデータセット(観測データ)から推定された共有ソースが,既存のベースラインよりも基礎となるグラフ構造のより妥当な表現につながる,という課題を現実のアプリケーションに適用する。

Independent component analysis (ICA) is a blind source separation method for linear disentanglement of independent latent sources from observed data. We investigate the special setting of noisy linear ICA where the observations are split among different views, each receiving a mixture of shared and individual sources. We prove that the corresponding linear structure is identifiable, and the shared sources can be recovered, provided that sufficiently many diverse views and data points are available. To computationally estimate the sources, we optimize a constrained form of the joint log-likelihood of the observed data among all views. We show empirically that our objective recovers the sources in high dimensional settings, also in the case when the measurements are corrupted by noise. Finally, we apply the proposed model in a challenging real-life application, where the estimated shared sources from two large transcriptome datasets (observed data) provided by two different labs (two different views) lead to a more plausible representation of the underlying graph structure than existing baselines.
翻訳日:2022-10-06 15:14:03 公開日:2022-10-05
# 時系列とディープラーニングによる株価変動予測

Stock Volatility Prediction using Time Series and Deep Learning Approach ( http://arxiv.org/abs/2210.02126v1 )

ライセンス: Link先を確認
Ananda Chatterjee, Hrisav Bhowmick, and Jaydip Sen(参考訳) ボラティリティクラスタリングは、株式市場のパターンに大きな影響を与える重要な特性である。 それでも、将来の株価変動を正確に予測するための堅牢なモデルの開発は難しい研究課題である。 インド株式市場(NSE)に上場する3つの株式のボラティリティを予測するため、一般化された自己回帰的条件付きヘテロスケサスティック性(GARCH)、Glosten-Jagannathan-GARCH(GJR-GARCH)、指数的自己回帰的条件付きヘテロスケサスティック(EGARCH)、LSTMフレームワークに依存する複数のボラティリティモデルを提案する。 私たちの研究で部門別株価が選ばれた。 これまで検討されてきた分野は、銀行、情報技術(IT)、製薬である。 yahoo financeは2017年1月から2021年12月までの株価データを取得するために利用されてきた。 2017年1月から2020年12月までのデータはトレーニングに使われ、2021年のデータは私たちのモデルをテストするために選ばれました。 3つのセクターの株式のボラティリティを予測できる性能を、lstmモデルと同様に3種類のガーチモデルを実装して評価した。 LSTMは、銀行やITセクターよりも薬局のボラティリティの予測に優れていた。 また, 銀行部門ではE-GARCHが, ITや製薬ではGJR-GARCHが良好な成績を示した。

Volatility clustering is a crucial property that has a substantial impact on stock market patterns. Nonetheless, developing robust models for accurately predicting future stock price volatility is a difficult research topic. For predicting the volatility of three equities listed on India's national stock market (NSE), we propose multiple volatility models depending on the generalized autoregressive conditional heteroscedasticity (GARCH), Glosten-Jagannathan-GARCH (GJR-GARCH), Exponential general autoregressive conditional heteroskedastic (EGARCH), and LSTM framework. Sector-wise stocks have been chosen in our study. The sectors which have been considered are banking, information technology (IT), and pharma. yahoo finance has been used to obtain stock price data from Jan 2017 to Dec 2021. Among the pulled-out records, the data from Jan 2017 to Dec 2020 have been taken for training, and data from 2021 have been chosen for testing our models. The performance of predicting the volatility of stocks of three sectors has been evaluated by implementing three different types of GARCH models as well as by the LSTM model are compared. It has been observed the LSTM performed better in predicting volatility in pharma over banking and IT sectors. In tandem, it was also observed that E-GARCH performed better in the case of the banking sector and for IT and pharma, GJR-GARCH performed better.
翻訳日:2022-10-06 15:13:42 公開日:2022-10-05
# オープンソースインテリジェンス情報ソースに基づく共通脆弱性スコアシステム予測

Common Vulnerability Scoring System Prediction based on Open Source Intelligence Information Sources ( http://arxiv.org/abs/2210.02143v1 )

ライセンス: Link先を確認
Philipp Kuehn, David N. Relke, Christian Reuter(参考訳) 新たに公開された脆弱性の数は常に増えている。 これまでのところ、新しい脆弱性が公開されたときに利用可能な情報は、common vulnerability scoring system(cvss)ベクターとスコアを使用して専門家によって手動で評価される。 この評価には時間がかかり、専門知識が必要です。 脆弱性のテキスト記述に基づいた機械学習を使用してCVSSベクターやスコアを予測して、より高速なアセスメントを実現している。 しかし、この目的のために、以前の作品では、national vulnerability databaseなどのデータベースで使用可能なテキストのみを使用する。 この作業により、National Vulnerability Databaseで参照された公開Webページを分析し、Webスクレイピングを通じてテキストのソースとして利用することができる。 CVSSベクトルを予測するためのディープラーニングに基づく手法を実装し評価する。 本研究は,それらのテキストの適合性とクロール性に基づいて,national vulnerability databaseのリファレンステキストの分類を行う。 追加テキストの全体的な影響は無視できるが、Deep Learning予測モデルでは最先端の予測よりも優れていた。

The number of newly published vulnerabilities is constantly increasing. Until now, the information available when a new vulnerability is published is manually assessed by experts using a Common Vulnerability Scoring System (CVSS) vector and score. This assessment is time consuming and requires expertise. Various works already try to predict CVSS vectors or scores using machine learning based on the textual descriptions of the vulnerability to enable faster assessment. However, for this purpose, previous works only use the texts available in databases such as National Vulnerability Database. With this work, the publicly available web pages referenced in the National Vulnerability Database are analyzed and made available as sources of texts through web scraping. A Deep Learning based method for predicting the CVSS vector is implemented and evaluated. The present work provides a classification of the National Vulnerability Database's reference texts based on the suitability and crawlability of their texts. While we identified the overall influence of the additional texts is negligible, we outperformed the state-of-the-art with our Deep Learning prediction models.
翻訳日:2022-10-06 15:13:09 公開日:2022-10-05
# SECOE: マシンラーニングと結合したIoTシステムにおけるセンサ障害軽減

SECOE: Alleviating Sensors Failure in Machine Learning-Coupled IoT Systems ( http://arxiv.org/abs/2210.02144v1 )

ライセンス: Link先を確認
Yousef AlShehri and Lakshmish Ramaswamy(参考訳) 機械学習(ML)アプリケーションは、多くのドメインに革命をもたらし続けている。 近年、精密農業、スマートシティ、スマートマニュファクチャリングなど、さまざまなモノのインターネット(IoT)ドメインのための新しいMLアプリケーションを構築することに、かなりの研究関心が寄せられている。 IoTドメインは、多様な地理的に分散したセンサーから派生したデータの連続的なストリームによって特徴づけられる。 IoTの特徴は、効果的なMLアプリケーションの設計と実装にいくつかの根本的な課題をもたらす。 データストリームの中断を引き起こすセンサ/ネットワーク障害は、そのような課題のひとつです。 残念なことに、多くのMLアプリケーションのパフォーマンスは、データ不完全性に直面した時に急速に低下する。 データ不完全性を扱う現在のテクニックは、データインプテーション(つまり、欠落したデータを満たそうとする)に基づいている。 残念なことに、これらのテクニックは、特に複数のセンサーのデータストリームが同時に利用できなくなると失敗する可能性がある。 堅牢なIoT結合型MLアプリケーションの構築を目的として,本論文では,センサ障害を同時に緩和するためのユニークなプロアクティブアプローチであるSECOEを提案する。 SECOEの背後にある基本的な考え方は、各モデルが失敗するセンサーのセット(すなわち、トレーニングセットが対応する値を省略する)を仮定してトレーニングされる、慎重に選択されたMLモデルのアンサンブルを作成することである。 SECOEは、センサー間の相関を利用してアンサンブル内のモデル数を最小化する新しい技術を含んでいる。 3つの異なるデータセットを含む一連の実験を通して,SECOEアプローチの有効性を示す。 実験の結果,SECOEはセンサ故障の有無の予測精度を効果的に維持することがわかった。

Machine learning (ML) applications continue to revolutionize many domains. In recent years, there has been considerable research interest in building novel ML applications for a variety of Internet of Things (IoT) domains, such as precision agriculture, smart cities, and smart manufacturing. IoT domains are characterized by continuous streams of data originating from diverse, geographically distributed sensors, and they often require a real-time or semi-real-time response. IoT characteristics pose several fundamental challenges to designing and implementing effective ML applications. Sensor/network failures that result in data stream interruptions is one such challenge. Unfortunately, the performance of many ML applications quickly degrades when faced with data incompleteness. Current techniques to handle data incompleteness are based upon data imputation ( i.e., they try to fill-in missing data). Unfortunately, these techniques may fail, especially when multiple sensors' data streams become concurrently unavailable (due to simultaneous sensor failures). With the aim of building robust IoT-coupled ML applications, this paper proposes SECOE, a unique, proactive approach for alleviating potentially simultaneous sensor failures. The fundamental idea behind SECOE is to create a carefully chosen ensemble of ML models in which each model is trained assuming a set of failed sensors (i.e., the training set omits corresponding values). SECOE includes a novel technique to minimize the number of models in the ensemble by harnessing the correlations among sensors. We demonstrate the efficacy of the SECOE approach through a series of experiments involving three distinct datasets. The experimental findings reveal that SECOE effectively preserves prediction accuracy in the presence of sensor failures.
翻訳日:2022-10-06 15:12:52 公開日:2022-10-05
# 新たなハイパーパラメータ探索を必要とする差分プライバシーによる微調整

Fine-Tuning with Differential Privacy Necessitates an Additional Hyperparameter Search ( http://arxiv.org/abs/2210.02156v1 )

ライセンス: Link先を確認
Yannis Cattan, Christopher A. Choquette-Choo, Nicolas Papernot, Abhradeep Thakurta(参考訳) モデルは、トレーニングデータに含まれる可能性のある機密情報の漏洩を防止するために、プライバシ保護学習アルゴリズムでトレーニングする必要がある。 しかし、微分的確率勾配降下(dp-sgd)のような正準アルゴリズムは、非プライベート学習と同様にモデルスケールの恩恵を受けない。 これは、複雑なタスクでDP-SGDを使用する場合、プライバシとユーティリティ(正確性)の間のトレードオフを未承認にする形で現れます。 この緊張を和らげるために、公共(非感受性)のトレーニングデータに事前訓練されたモデルから、差分プライバシーによる微調整というパラダイムが出現している。 そこで本研究では,微分プライベート微調整のための既存手法の監視を行う。 それらは、プライバシによる学習の具体性に対して、微調整のアプローチを調整しない。 私たちの主な結果は、事前訓練されたニューラルネットワークで微調整されたレイヤを慎重に選択することで、プライバシと正確性の間の新たな最先端のトレードオフが確立できることを示しています。 例えば、ImageNetで事前トレーニングされたモデルに対して、CIFAR-100上で$(\varepsilon, \delta)=(2, 10^{-5})$に対して77.9%の精度を達成する。 我々の研究は、差分的にプライベートな微調整手順自体を構成するために、追加のハイパーパラメーター探索を要求する。

Models need to be trained with privacy-preserving learning algorithms to prevent leakage of possibly sensitive information contained in their training data. However, canonical algorithms like differentially private stochastic gradient descent (DP-SGD) do not benefit from model scale in the same way as non-private learning. This manifests itself in the form of unappealing tradeoffs between privacy and utility (accuracy) when using DP-SGD on complex tasks. To remediate this tension, a paradigm is emerging: fine-tuning with differential privacy from a model pretrained on public (i.e., non-sensitive) training data. In this work, we identify an oversight of existing approaches for differentially private fine tuning. They do not tailor the fine-tuning approach to the specifics of learning with privacy. Our main result is to show how carefully selecting the layers being fine-tuned in the pretrained neural network allows us to establish new state-of-the-art tradeoffs between privacy and accuracy. For instance, we achieve 77.9% accuracy for $(\varepsilon, \delta)=(2, 10^{-5})$ on CIFAR-100 for a model pretrained on ImageNet. Our work calls for additional hyperparameter search to configure the differentially private fine-tuning procedure itself.
翻訳日:2022-10-06 15:12:27 公開日:2022-10-05
# CW-ERM: 閉ループ重み付き経験的リスク最小化による自律走行計画の改善

CW-ERM: Improving Autonomous Driving Planning with Closed-loop Weighted Empirical Risk Minimization ( http://arxiv.org/abs/2210.02174v1 )

ライセンス: Link先を確認
Eesha Kumar, Yiming Zhang, Stefano Pini, Simon Stent, Ana Ferreira, Sergey Zagoruyko, Christian S. Perone(参考訳) 行動クローニングによる自動運転車政策の模倣学習は、将来の状態に対する行動の影響を無視したオープンループ方式で行われることが多い。 経験的リスク最小化(Empirical Risk Minimization, ERM)で純粋にそのような政策を訓練することは、オープンループのみに適合する政策ネットワークに偏り、クローズドループで評価すると結果の低さを示す。 本研究では,実際の運転性能に重要なトレーニングデータサンプルを識別するためにクローズドループ評価手順を最初に用いたクローズドループ重み付き経験的リスク最小化(cw-erm)と呼ばれる効率的で実装可能な原則を開発し,これらのサンプルを用いてポリシーネットワークの偏りを解消する。 我々は,CW-ERMを難易度の高い都市運転データセットで評価し,この手法が衝突の大幅な低減と,他の非微分不能閉ループ測定値を示す。

The imitation learning of self-driving vehicle policies through behavioral cloning is often carried out in an open-loop fashion, ignoring the effect of actions to future states. Training such policies purely with Empirical Risk Minimization (ERM) can be detrimental to real-world performance, as it biases policy networks towards matching only open-loop behavior, showing poor results when evaluated in closed-loop. In this work, we develop an efficient and simple-to-implement principle called Closed-loop Weighted Empirical Risk Minimization (CW-ERM), in which a closed-loop evaluation procedure is first used to identify training data samples that are important for practical driving performance and then we these samples to help debias the policy network. We evaluate CW-ERM in a challenging urban driving dataset and show that this procedure yields a significant reduction in collisions as well as other non-differentiable closed-loop metrics.
翻訳日:2022-10-06 15:12:04 公開日:2022-10-05
# エントロピー計測を用いた活動パターンの進化モニタリング

Using Entropy Measures for Monitoring the Evolution of Activity Patterns ( http://arxiv.org/abs/2210.01736v2 )

ライセンス: Link先を確認
Yushan Huang, Yuchen Zhao, Hamed Haddadi, Payam Barnaghi(参考訳) 本研究では,日々の行動パターンの変化を定量化するために,情報理論に基づく手法を適用する。 家庭内移動監視データを用いて,医療関連イベントの発生状況の把握に有用性を示す。 シャノンのエントロピー、マルコフ鎖のエントロピー率、エントロピー生成率という3種類のエントロピー測度が利用されてきた。 本研究は,認知症臨床研究で収集した大規模在宅モニタリングデータセットを用いて評価した。 この研究は、IoT(Internet of Things)を有効にして家庭内活動、睡眠、生理学を継続的に監視するソリューションを使用して、認知症(PLWD)患者を自宅で支援するためのケアおよび早期介入ソリューションを開発した。 本研究の主な目的は,時系列活動データ分析へのエントロピー尺度の適用性を示し,抽出した指標を推論および解析モデルに入力可能な新しい特徴として利用することである。 実験の結果,多くの場合,これらの指標の組み合わせは,医療関連事象の発生を示唆する可能性が示唆された。 また,同一事象の異なる参加者は,一つのエントロピー尺度に基づいて異なる尺度を持つ可能性がある。 したがって、これらの指標を推論モデルに組み合わせることは、単一の測度のどれよりも効果的である。

In this work, we apply information theory inspired methods to quantify changes in daily activity patterns. We use in-home movement monitoring data and show how they can help indicate the occurrence of healthcare-related events. Three different types of entropy measures namely Shannon's entropy, entropy rates for Markov chains, and entropy production rate have been utilised. The measures are evaluated on a large-scale in-home monitoring dataset that has been collected within our dementia care clinical study. The study uses Internet of Things (IoT) enabled solutions for continuous monitoring of in-home activity, sleep, and physiology to develop care and early intervention solutions to support people living with dementia (PLWD) in their own homes. Our main goal is to show the applicability of the entropy measures to time-series activity data analysis and to use the extracted measures as new engineered features that can be fed into inference and analysis models. The results of our experiments show that in most cases the combination of these measures can indicate the occurrence of healthcare-related events. We also find that different participants with the same events may have different measures based on one entropy measure. So using a combination of these measures in an inference model will be more effective than any of the single measures.
翻訳日:2022-10-06 15:05:35 公開日:2022-10-05
# SE(3)-同変表現による粗点間クラウド登録

Coarse-to-Fine Point Cloud Registration with SE(3)-Equivariant Representations ( http://arxiv.org/abs/2210.02045v1 )

ライセンス: Link先を確認
Cheng-Wei Lin, Tung-I Chen, Hsin-Ying Lee, Wen-Chin Chen, and Winston H. Hsu(参考訳) ポイントクラウド登録はコンピュータビジョンとロボティクスにおいて重要な問題である。 既存の手法は、ポーズの相違に敏感な局所幾何学的特徴のマッチングに依存するか、大域的な形状を利用して、部分的な重なり合いのような分布のばらつきに直面すると矛盾する。 両方の方法の利点を組み合わせることで、両方の問題を同時処理する粗いパイプラインを採用する。 まず、グローバルな特徴を整合させることで、入力ポイントクラウド間のポーズ差を低減し、その後、局所的な特徴を一致させ、分散分散から生じる不正確なアライメントをさらに洗練する。 グローバルな特徴アライメントは入力点雲のポーズを保持するために機能を必要とし、局所的な特徴マッチングはこれらのポーズに不変な特徴を期待するので、2種類の特徴を同時に生成するSE(3)-等価特徴抽出器を提案する。 この特徴抽出器において、ポーズを保存する表現は、新しいSE(3)-同変ネットワークによってまず符号化され、その後、ポーズ検出モジュールによってポーズ不変の表現に変換される。 実験により,提案手法は相違点と分布のばらつきに直面する場合と比較して,リコール率を20%向上することを示した。

Point cloud registration is a crucial problem in computer vision and robotics. Existing methods either rely on matching local geometric features, which are sensitive to the pose differences, or leverage global shapes and thereby lead to inconsistency when facing distribution variances such as partial overlapping. Combining the advantages of both types of methods, we adopt a coarse-to-fine pipeline that concurrently handles both issues. We first reduce the pose differences between input point clouds by aligning global features; then we match the local features to further refine the inaccurate alignments resulting from distribution variances. As global feature alignment requires the features to preserve the poses of input point clouds and local feature matching expects the features to be invariant to these poses, we propose an SE(3)-equivariant feature extractor to simultaneously generate two types of features. In this feature extractor, representations preserving the poses are first encoded by our novel SE(3)-equivariant network and then converted into pose-invariant ones by a pose-detaching module. Experiments demonstrate that our proposed method increases the recall rate by 20% compared to state-of-the-art methods when facing both pose differences and distribution variances.
翻訳日:2022-10-06 14:55:21 公開日:2022-10-05
# 視聴覚ナビゲーションに自己注意を払う

Pay Self-Attention to Audio-Visual Navigation ( http://arxiv.org/abs/2210.01353v2 )

ライセンス: Link先を確認
Yinfeng Yu, Lele Cao, Fuchun Sun, Xiaohong Liu and Liejun Wang(参考訳) ホットな研究トピックとして、ロボットがエゴセントリックな視覚(ロボットに搭載されたセンサーから)とオーディオ(ターゲットから遠ざかる)を使って、オーディオターゲットに到達するよう訓練することを目指している。 音声-視覚情報融合戦略は自然にナビゲーション性能にとって重要であるが、最先端の手法は依然として視覚的特徴と音声的特徴を結合し、文脈の直接的な影響を無視している可能性がある。 さらに、既存のアプローチではフェーズワイズトレーニングか追加支援(トポロジグラフや音響意味論など)が必要である。 この日までは、移動目標に対するより困難な設定を扱う作業は、依然として稀である。 そこで,本研究では,自己着脱モジュールとして実装されたコンテキスト認識型音声・視覚融合戦略を用いて,移動音声ターゲットの追従を学習するためのエンド・ツー・エンドフレームワークfsaavnを提案する。 FSAAVNの精度(定量的および定性的)を最先端技術と比較して検証し,視覚的モダリティ,視覚的/音響的エンコーダのバックボーン,融合パターンの選択について独自の知見を提供する。

Audio-visual embodied navigation, as a hot research topic, aims training a robot to reach an audio target using egocentric visual (from the sensors mounted on the robot) and audio (emitted from the target) input. The audio-visual information fusion strategy is naturally important to the navigation performance, but the state-of-the-art methods still simply concatenate the visual and audio features, potentially ignoring the direct impact of context. Moreover, the existing approaches requires either phase-wise training or additional aid (e.g. topology graph and sound semantics). Up till this date, the work that deals with the more challenging setup with moving target(s) is still rare. As a result, we propose an end-to-end framework FSAAVN (feature self-attention audio-visual navigation) to learn chasing after a moving audio target using a context-aware audio-visual fusion strategy implemented as a self-attention module. Our thorough experiments validate the superior performance (both quantitatively and qualitatively) of FSAAVN in comparison with the state-of-the-arts, and also provide unique insights about the choice of visual modalities, visual/audio encoder backbones and fusion patterns.
翻訳日:2022-10-06 14:54:59 公開日:2022-10-05
# Rhythmic Gesticulator:階層型ニューラルエンベディングを用いたリズム対応音声合成

Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings ( http://arxiv.org/abs/2210.01448v2 )

ライセンス: Link先を確認
Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu(参考訳) リアルな音声ジェスチャーの自動合成は, 人工内在エージェント作成において, ますます重要な課題となっている。 従来のシステムは、主にエンドツーエンドでジェスチャーを生成することに焦点を当てており、音声とジェスチャーの複雑な微妙な調和のため、明確なリズムと意味をマイニングするのは難しい。 本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。 本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。 ジェスチャーセマンティクスについては,言語理論に基づく音声と動作の低レベルおよび高レベルの神経埋め込みを効果的に分離するメカニズムを考案する。 高レベルの埋め込みは意味論に対応し、低レベルの埋め込みは微妙なバリエーションに関連する。 最後に、音声の階層的な埋め込みと動きの対応性を構築し、リズムと意味を意識したジェスチャー合成を実現する。 既存の客観的指標,新たに提案されたリズミカル指標,人的フィードバックによる評価から,本手法が最先端システムよりも明確なマージンで優れていることが示された。

Automatic synthesis of realistic co-speech gestures is an increasingly important yet challenging task in artificial embodied agent creation. Previous systems mainly focus on generating gestures in an end-to-end manner, which leads to difficulties in mining the clear rhythm and semantics due to the complex yet subtle harmony between speech and gestures. We present a novel co-speech gesture synthesis method that achieves convincing results both on the rhythm and semantics. For the rhythm, our system contains a robust rhythm-based segmentation pipeline to ensure the temporal coherence between the vocalization and gestures explicitly. For the gesture semantics, we devise a mechanism to effectively disentangle both low- and high-level neural embeddings of speech and motion based on linguistic theory. The high-level embedding corresponds to semantics, while the low-level embedding relates to subtle variations. Lastly, we build correspondence between the hierarchical embeddings of the speech and the motion, resulting in rhythm- and semantics-aware gesture synthesis. Evaluations with existing objective metrics, a newly proposed rhythmic metric, and human feedback show that our method outperforms state-of-the-art systems by a clear margin.
翻訳日:2022-10-06 14:54:38 公開日:2022-10-05
# 操作とピアメカニズム:調査

Manipulation and Peer Mechanisms: A Survey ( http://arxiv.org/abs/2210.01984v1 )

ライセンス: Link先を確認
Matthew Olckers, Toby Walsh(参考訳) ピアメカニズムでは、賞の競争相手も勝者を決定する。 各競技者には、賞のランク、成績、候補者の指名を依頼することができる。 この賞は、金融援助、コースグレード、会議での賞などの価値があり得るため、競技者はその仕組みを操作する誘惑を受けることができる。 ピアメカニズムの操作を防止または回避するためのアプローチを調査する。 いくつかの重要な研究課題を特定して調査を締めくくる。

In peer mechanisms, the competitors for a prize also determine who wins. Each competitor may be asked to rank, grade, or nominate peers for the prize. Since the prize can be valuable, such as financial aid, course grades, or an award at a conference, competitors may be tempted to manipulate the mechanism. We survey approaches to prevent or discourage the manipulation of peer mechanisms. We conclude our survey by identifying several important research challenges
翻訳日:2022-10-06 14:54:17 公開日:2022-10-05
# 時空間対応型安全マルチエージェント強化学習の課題と課題

Spatial-Temporal-Aware Safe Multi-Agent Reinforcement Learning of Connected Autonomous Vehicles in Challenging Scenarios ( http://arxiv.org/abs/2210.02300v1 )

ライセンス: Link先を確認
Zhili Zhang, Songyang Han, Jiangwei Wang, Fei Miao(参考訳) 通信技術は、コネクテッド・自動運転車(CAV)間の協調を可能にする。 しかし,CAVシステムの安全性と効率を向上させるために共有情報をどのように活用するかは,まだ不明である。 本研究では,運転シナリオにおけるキャビネットの並列安全シールドを用いた制約付きマルチエージェント強化学習(marl)の枠組みを提案する。 提案したMARLのコーディネーション機構には,情報共有と協調的な政策学習が含まれ,空間的時間的エンコーダとしてのGraph Convolutional Network (GCN)-Transformerがエージェントの環境意識を高める。 制御バリア関数(CBF)ベースの安全チェックを備えた安全シールドモジュールは、エージェントが安全でないアクションを取るのを防ぐ。 制約付きマルチエージェント・アドバンテージ・アクター・クリティカル(CMAA2C)アルゴリズムを設計し,CAVの安全・協調政策を訓練する。 CARLAシミュレータに実装した実験では, 安全チェック, 時空間エンコーダ, 調整機構の有効性を, 決定されたハザード車両 (HAZV) を用いたいくつかの挑戦シナリオで比較実験により検証した。 その結果,提案手法は課題シナリオにおいてシステム安全性と効率を著しく向上させることがわかった。

Communication technologies enable coordination among connected and autonomous vehicles (CAVs). However, it remains unclear how to utilize shared information to improve the safety and efficiency of the CAV system. In this work, we propose a framework of constrained multi-agent reinforcement learning (MARL) with a parallel safety shield for CAVs in challenging driving scenarios. The coordination mechanisms of the proposed MARL include information sharing and cooperative policy learning, with Graph Convolutional Network (GCN)-Transformer as a spatial-temporal encoder that enhances the agent's environment awareness. The safety shield module with Control Barrier Functions (CBF)-based safety checking protects the agents from taking unsafe actions. We design a constrained multi-agent advantage actor-critic (CMAA2C) algorithm to train safe and cooperative policies for CAVs. With the experiment deployed in the CARLA simulator, we verify the effectiveness of the safety checking, spatial-temporal encoder, and coordination mechanisms designed in our method by comparative experiments in several challenging scenarios with the defined hazard vehicles (HAZV). Results show that our proposed methodology significantly increases system safety and efficiency in challenging scenarios.
翻訳日:2022-10-06 14:54:11 公開日:2022-10-05
# 限られたアドバイスによるシーケンス予測に対する絶え間ない後悔

Constant regret for sequence prediction with limited advice ( http://arxiv.org/abs/2210.02256v1 )

ライセンス: Link先を確認
El Mehdi Saad (LMO), G. Blanchard (LMO, DATASHAPE)(参考訳) 我々は,情報へのアクセスが制限された有限サイズのK族において,個々のシーケンス予測に対する累積的後悔最小化の問題について検討する。 各ラウンドにおいて、学習者は、最大p専門家の凸の組み合わせを使って予測し、その後、最大m専門家の損失を後方から観察することができると仮定する。 損失関数は範囲限定かつ exp-concave であると仮定する。 標準的なマルチアームバンディット設定では、学習者が1ラウンドごとに1人の専門家のみをプレイし、そのフィードバックのみを観察できる場合、既知の最適後悔境界はO($\sqrt$KT)である。 学習者がラウンド毎に1人のエキスパートをプレイし、1つの追加フィードバックを観察できるようにすることで、後悔に対する保証が大幅に向上することを示す。 予測とm$\ge$2専門家の損失を観測するために、1ラウンドあたりp = 2専門家のみを組み合わせる戦略を提供する。 そのランダム化された後悔 (wrt. internal randomization of the learners' strategy) は順序 o (k/m) log(k$\delta$ --1) であり、確率 1 -- $\delta$、すなわち、(p $\ge$ 2 と m $\ge$ 3) のとき、水平線 t から独立している。 p = m = 2 の場合、確率 1 -- $\delta$ の位数 O(K2 log(K$\delta$ --1) の上界を与える。 我々の戦略は地平線 T の事前知識や信頼パラメータ $\delta$ の知識を必要としない。 最後に、もし学習者が1ラウンドあたり1人の専門家のフィードバックのみを観察することを制約されている場合、最悪の後悔は「スローレート」$\Omega$($\sqrt$KT)であり、1ラウンドあたりの少なくとも2人の専門家の同期観察が常に後悔することが必要であることを示唆する。

We investigate the problem of cumulative regret minimization for individual sequence prediction with respect to the best expert in a finite family of size K under limited access to information. We assume that in each round, the learner can predict using a convex combination of at most p experts for prediction, then they can observe a posteriori the losses of at most m experts. We assume that the loss function is range-bounded and exp-concave. In the standard multi-armed bandits setting, when the learner is allowed to play only one expert per round and observe only its feedback, known optimal regret bounds are of the order O($\sqrt$ KT). We show that allowing the learner to play one additional expert per round and observe one additional feedback improves substantially the guarantees on regret. We provide a strategy combining only p = 2 experts per round for prediction and observing m $\ge$ 2 experts' losses. Its randomized regret (wrt. internal randomization of the learners' strategy) is of order O (K/m) log(K$\delta$ --1) with probability 1 -- $\delta$, i.e., is independent of the horizon T ("constant" or "fast rate" regret) if (p $\ge$ 2 and m $\ge$ 3). We prove that this rate is optimal up to a logarithmic factor in K. In the case p = m = 2, we provide an upper bound of order O(K 2 log(K$\delta$ --1)), with probability 1 -- $\delta$. Our strategies do not require any prior knowledge of the horizon T nor of the confidence parameter $\delta$. Finally, we show that if the learner is constrained to observe only one expert feedback per round, the worst-case regret is the "slow rate" $\Omega$($\sqrt$ KT), suggesting that synchronous observation of at least two experts per round is necessary to have a constant regret.
翻訳日:2022-10-06 14:53:48 公開日:2022-10-05
# 音声分類のためのスペクトログラム時間分解能の学習

Learning the Spectrogram Temporal Resolution for Audio Classification ( http://arxiv.org/abs/2210.01719v2 )

ライセンス: Link先を確認
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, Mark D. Plumbley(参考訳) オーディオスペクトログラム(audio spectrogram)は、オーディオ分類に広く使われている時間周波数表現である。 スペクトログラムの時間分解能はホップサイズに依存する。 以前の作品は一般にホップサイズが10ミリ秒のような一定値であるべきだと仮定している。 しかし、固定ホップサイズや解像度は必ずしも異なる種類の音に最適とは限らない。 本稿では,分化可能な時間分解能学習を行い,音声分類モデルの性能を向上させる新しい手法diffresを提案する。 固定ホップサイズで計算されたスペクトログラムが与えられた場合、DiffResは重要なフレームを保持しながら非必要時間フレームをマージする。 DiffResはオーディオスペクトログラムと分類器の間の"ドロップイン"モジュールとして機能し、エンドツーエンドで最適化できる。 mel-spectrogramの差分を評価し、次に最先端の分類器バックボーンを作成し、5つのサブタスクに適用する。 固定解像度のメル-スペクトログラムと比べ、DiffResベースの手法は、特徴量に対して少なくとも25%の時間次元で同じまたはより良い分類精度を達成でき、同時に計算コストを軽減できる。 1ミリ秒ホップサイズなどの高時間分解能スペクトログラムから、DiffResは同じ計算量で分類精度を向上させることができることを示す。

The audio spectrogram is a time-frequency representation that has been widely used for audio classification. The temporal resolution of a spectrogram depends on hop size. Previous works generally assume the hop size should be a constant value such as ten milliseconds. However, a fixed hop size or resolution is not always optimal for different types of sound. This paper proposes a novel method, DiffRes, that enables differentiable temporal resolution learning to improve the performance of audio classification models. Given a spectrogram calculated with a fixed hop size, DiffRes merges non-essential time frames while preserving important frames. DiffRes acts as a "drop-in" module between an audio spectrogram and a classifier, and can be end-to-end optimized. We evaluate DiffRes on the mel-spectrogram, followed by state-of-the-art classifier backbones, and apply it to five different subtasks. Compared with using the fixed-resolution mel-spectrogram, the DiffRes-based method can achieve the same or better classification accuracy with at least 25% fewer temporal dimensions on the feature level, which alleviates the computational cost at the same time. Starting from a high-temporal-resolution spectrogram such as one-millisecond hop size, we show that DiffRes can improve classification accuracy with the same computational complexity.
翻訳日:2022-10-06 14:53:08 公開日:2022-10-05
# 残留ネットワークの動的アイソメトリ

Dynamical Isometry for Residual Networks ( http://arxiv.org/abs/2210.02411v1 )

ライセンス: Link先を確認
Advait Gadhikar and Rebekka Burkholz(参考訳) ニューラルネットワークのトレーニング成功、トレーニング速度、一般化能力は、ランダムパラメータの初期化の選択に大きく依存する。 初期の動的等尺性は特に有利であることが、複数のアーキテクチャで示されている。 しかし、残余ブロックの初期化スキームは、この性質を見逃し、バッチ正規化や特徴多様性の欠如なしに、深さと不安定性を高めるために異なる入力の分解性に悩まされる。 本稿では,ReLUアクティベーション機能を持つ残差ネットワークに対して,有限深さ・幅でも完全な動的アイソメトリを実現するランダム初期化方式RISOTTOを提案する。 他のスキームとは異なり、残差とスキップブランチの貢献のバランスをとり、最初はスキップ接続に偏っている。 実験では、ほとんどのケースにおいて、バッチ正規化を時代遅れにするために提案された初期化スキームよりも優れており、安定したトレーニングが容易であることを示す。 また、バッチ正規化と組み合わせることで、RISOTTOが最高の結果をもたらすことがしばしばある。

The training success, training speed and generalization ability of neural networks rely crucially on the choice of random parameter initialization. It has been shown for multiple architectures that initial dynamical isometry is particularly advantageous. Known initialization schemes for residual blocks, however, miss this property and suffer from degrading separability of different inputs for increasing depth and instability without Batch Normalization or lack feature diversity. We propose a random initialization scheme, RISOTTO, that achieves perfect dynamical isometry for residual networks with ReLU activation functions even for finite depth and width. It balances the contributions of the residual and skip branches unlike other schemes, which initially bias towards the skip connections. In experiments, we demonstrate that in most cases our approach outperforms initialization schemes proposed to make Batch Normalization obsolete, including Fixup and SkipInit, and facilitates stable training. Also in combination with Batch Normalization, we find that RISOTTO often achieves the overall best result.
翻訳日:2022-10-06 14:47:03 公開日:2022-10-05
# Erd\"osとR\'enyiの勝利

How Erd\"os and R\'enyi Win the Lottery ( http://arxiv.org/abs/2210.02412v1 )

ライセンス: Link先を確認
Advait Gadhikar, Sohum Mukherjee and Rebekka Burkholz(参考訳) ランダムマスクは、実験的に示されたように驚くほど効果的なスパースニューラルネットワークモデルを定義する。 結果として生じる Erd\"os-R\enyi (ER) のランダムグラフは、計算コストのかかるプルーニングトレーニングのイテレーションに頼らず、計算上のオーバーヘッドを伴わずに最初に描画できるにもかかわらず、密集したアーキテクチャや最先端の抽選チケットプルーニングアルゴリズムと競合することが多い。 このようなerマスクが任意のターゲットネットワークを近似する方法の理論的説明を、逆スパルシティ 1 / \log(1/\text{sparsity})$ の対数因子によってより広い場合に提供する。 我々は,ランダムなERソースネットワークが強い宝くじを含むことを理論的,実験的に初めて示す一方で,強い宝くじよりも低い過度な過度化を必要とする弱い宝くじの存在を証明した。 これらの異常な結果は、ERマスクが実際に十分に訓練可能であるという観察に基づいており、ランダムマスクの様々な選択による実験で検証する。 これらのデータフリーな選択は、標準画像分類ベンチマークデータセットのランダムアプローチよりも優れている。

Random masks define surprisingly effective sparse neural network models, as has been shown empirically. The resulting Erd\"os-R\'enyi (ER) random graphs can often compete with dense architectures and state-of-the-art lottery ticket pruning algorithms struggle to outperform them, even though the random baselines do not rely on computationally expensive pruning-training iterations but can be drawn initially without significant computational overhead. We offer a theoretical explanation of how such ER masks can approximate arbitrary target networks if they are wider by a logarithmic factor in the inverse sparsity $1 / \log(1/\text{sparsity})$. While we are the first to show theoretically and experimentally that random ER source networks contain strong lottery tickets, we also prove the existence of weak lottery tickets that require a lower degree of overparametrization than strong lottery tickets. These unusual results are based on the observation that ER masks are well trainable in practice, which we verify in experiments with varied choices of random masks. Some of these data-free choices outperform previously proposed random approaches on standard image classification benchmark datasets.
翻訳日:2022-10-06 14:46:37 公開日:2022-10-05
# 境界認識による説明の不確かさ

Explanation Uncertainty with Decision Boundary Awareness ( http://arxiv.org/abs/2210.02419v1 )

ライセンス: Link先を確認
Davin Hill, Aria Masoomi, Sandesh Ghimire, Max Torop, Jennifer Dy(参考訳) ポストホックな説明手法は、高スループットアプリケーションにおけるブラックボックス分類器を理解するためにますます頼りになってきており、信頼できる説明の必要性が高まっている。 多くの説明法が提案されているが、近年の研究では、多くの既存手法が矛盾または不安定であることが示されている。 さらに、高い性能の分類器は、しばしば非常に非線形であり、決定境界の周りで複雑な振る舞いを示し、脆く、あるいは誤った局所的な説明をもたらす。 そのため、この説明方法の不確かさを定量化し、いつ説明が信頼できるかを理解する必要性が差し迫っている。 本稿では,既存手法の不確実性近似と,対象ブラックボックス決定境界の複雑さを捉える新しい測地線に基づく類似性を組み合わせたガウス過程モデルによってパラメータ化された新しい不確実性定量法を提案する。 提案手法は, ブラックボックス分類器や特徴属性法を用いて, 説明の不確実性推定を補正し, 高い柔軟性を有する。 提案した測地線に基づくカーネルの類似性は,決定境界の複雑さによって増大することを示す。 複数の表と画像のデータセットに対する実験結果から,境界認識の不確実性推定が既存手法と比較して説明の理解を向上させることが示された。

Post-hoc explanation methods have become increasingly depended upon for understanding black-box classifiers in high-stakes applications, precipitating a need for reliable explanations. While numerous explanation methods have been proposed, recent works have shown that many existing methods can be inconsistent or unstable. In addition, high-performing classifiers are often highly nonlinear and can exhibit complex behavior around the decision boundary, leading to brittle or misleading local explanations. Therefore, there is an impending need to quantify the uncertainty of such explanation methods in order to understand when explanations are trustworthy. We introduce a novel uncertainty quantification method parameterized by a Gaussian Process model, which combines the uncertainty approximation of existing methods with a novel geodesic-based similarity which captures the complexity of the target black-box decision boundary. The proposed framework is highly flexible; it can be used with any black-box classifier and feature attribution method to amortize uncertainty estimates for explanations. We show theoretically that our proposed geodesic-based kernel similarity increases with the complexity of the decision boundary. Empirical results on multiple tabular and image datasets show that our decision boundary-aware uncertainty estimate improves understanding of explanations as compared to existing methods.
翻訳日:2022-10-06 14:46:12 公開日:2022-10-05
# オープンリサーチ知識グラフにおける意味表現のクラスタリング

Clustering Semantic Predicates in the Open Research Knowledge Graph ( http://arxiv.org/abs/2210.02034v1 )

ライセンス: Link先を確認
Omar Arab Oghli, Jennifer D'Souza, S\"oren Auer(参考訳) 知識グラフ(KG)を意味的に記述する場合、ユーザーは語彙(述語と資源)を批判的に選択する必要がある。 KGビルディングの成功は共有語彙の収束によって決定され、意味が確立される。 新しいKG構成の典型的なライフサイクルは次のように定義できる: グラフ構築経験用語の分岐の初期段階、グラフ構築経験用語の収束と再利用の後の段階。 本稿では、オープンリサーチ知識グラフ(ORKG) https://orkg.org/におけるリソースに関する述語(RDF文)を推奨するために、2つのAIベースのクラスタリングアルゴリズムをカスタマイズするアプローチについて述べる。 学術出版物の新たな入ってくるデータをセマンティフィケーションする既存の述語を推奨するサービスは、ORKGにおける用語収束を促進する上で最重要となる。 線形実行時の性能を比較的高い精度で再現する実験を行った。 さらに、この研究は、44の研究分野にわたる学術知識のセマンティフィケーションのための一般的なセマンティフィケーションパターンとして、自動的に緩やかに蓄積する述語群に対する新たな洞察を提供する。

When semantically describing knowledge graphs (KGs), users have to make a critical choice of a vocabulary (i.e. predicates and resources). The success of KG building is determined by the convergence of shared vocabularies so that meaning can be established. The typical lifecycle for a new KG construction can be defined as follows: nascent phases of graph construction experience terminology divergence, while later phases of graph construction experience terminology convergence and reuse. In this paper, we describe our approach tailoring two AI-based clustering algorithms for recommending predicates (in RDF statements) about resources in the Open Research Knowledge Graph (ORKG) https://orkg.org/. Such a service to recommend existing predicates to semantify new incoming data of scholarly publications is of paramount importance for fostering terminology convergence in the ORKG. Our experiments show very promising results: a high precision with relatively high recall in linear runtime performance. Furthermore, this work offers novel insights into the predicate groups that automatically accrue loosely as generic semantification patterns for semantification of scholarly knowledge spanning 44 research fields.
翻訳日:2022-10-06 14:45:29 公開日:2022-10-05
# 文脈化生成検索

Contextualized Generative Retrieval ( http://arxiv.org/abs/2210.02068v1 )

ライセンス: Link先を確認
Hyunji Lee, Jaeyoung Kim, Hoyeon Chang, Hanseok Oh, Sohee Yang, Vlad Karpukhin, Yi Lu, Minjoon Seo(参考訳) テキスト検索タスクは主にバイエンコーダアプローチと生成アプローチの2つの方法で実行される。 bi-encoderアプローチは、ドキュメントとクエリ埋め込みを共通のベクトル空間にマッピングし、最も近い隣接探索を実行する。 安定して異なる領域間で高い性能と効率を示すが、L2または内部積空間で相互作用する埋め込み空間ボトルネックを持つ。 生成検索モデルは、ターゲットシーケンスを生成して検索し、パラメトリック空間内での相互作用により埋め込み空間ボトルネックを克服する。 しかし、自身のモデルパラメータで符号化された情報のみに依存するため、トレーニングプロセス中に見ていない情報を取得することができない。 両手法の利点を活かすために,文脈化埋め込み(言語モデルエンコーダの出力埋め込み)を,生成検索の復号化ステップにおけるvocab埋め込みとして利用する文脈化生成検索モデルを提案する。 このモデルは文脈化トークン埋め込みの非パラメトリック空間と生成検索モデルのパラメトリック空間の両方にエンコードされた情報を使用する。 文脈化vocab埋め込みによる生成検索のアプローチは,文書検索タスクにバニラvocab埋め込みのみを用いた生成検索よりも高い性能を示し,klt(nq,tqa)で平均6%,nq-320kで2倍の性能を示し,生成検索モデルで文脈化埋め込みを使用することの利点を示唆する。

The text retrieval task is mainly performed in two ways: the bi-encoder approach and the generative approach. The bi-encoder approach maps the document and query embeddings to common vector space and performs a nearest neighbor search. It stably shows high performance and efficiency across different domains but has an embedding space bottleneck as it interacts in L2 or inner product space. The generative retrieval model retrieves by generating a target sequence and overcomes the embedding space bottleneck by interacting in the parametric space. However, it fails to retrieve the information it has not seen during the training process as it depends solely on the information encoded in its own model parameters. To leverage the advantages of both approaches, we propose Contextualized Generative Retrieval model, which uses contextualized embeddings (output embeddings of a language model encoder) as vocab embeddings at the decoding step of generative retrieval. The model uses information encoded in both the non-parametric space of contextualized token embeddings and the parametric space of the generative retrieval model. Our approach of generative retrieval with contextualized vocab embeddings shows higher performance than generative retrieval with only vanilla vocab embeddings in the document retrieval task, an average of 6% higher performance in KILT (NQ, TQA) and 2X higher in NQ-320k, suggesting the benefits of using contextualized embedding in generative retrieval models.
翻訳日:2022-10-06 14:45:10 公開日:2022-10-05
# priornet:pet-ctにおける腫瘍出現情報を含む病変分画

PriorNet: lesion segmentation in PET-CT including prior tumor appearance information ( http://arxiv.org/abs/2210.02203v1 )

ライセンス: Link先を確認
Simone Bendazzoli and Mehdi Astaraki(参考訳) PET-CT画像における腫瘍のセグメンテーションは,CTにおける低代謝情報とPETにおける低空間分解能の2つの性質により困難である。 U-Netアーキテクチャは、医療現場で完全自動画像分割法を開発する際に最も一般的で広く認識されているアプローチである。 PET-CTにおける腫瘍病変のセグメンテーション性能を改善・改善するための2段階のアプローチを提案した。 第1ステップは、先行腫瘍情報とみなすPET-CTボリュームから先行腫瘍出現マップを生成する。 標準のU-Netからなる第2ステップは、腫瘍出現マップとPET-CT画像を受け取り、病変マスクを生成する。 その結果, AutoPET 2022 チャレンジで利用可能な1014症例について, 平均Dice スコアが0.701 であった。

Tumor segmentation in PET-CT images is challenging due to the dual nature of the acquired information: low metabolic information in CT and low spatial resolution in PET. U-Net architecture is the most common and widely recognized approach when developing a fully automatic image segmentation method in the medical field. We proposed a two-step approach, aiming to refine and improve the segmentation performances of tumoral lesions in PET-CT. The first step generates a prior tumor appearance map from the PET-CT volumes, regarded as prior tumor information. The second step, consisting of a standard U-Net, receives the prior tumor appearance map and PET-CT images to generate the lesion mask. We evaluated the method on the 1014 cases available for the AutoPET 2022 challenge, and the results showed an average Dice score of 0.701 on the positive cases.
翻訳日:2022-10-06 14:44:47 公開日:2022-10-05
# 知的エージェントから信頼できる人間中心マルチエージェントシステムへ

From Intelligent Agents to Trustworthy Human-Centred Multiagent Systems ( http://arxiv.org/abs/2210.02260v1 )

ライセンス: Link先を確認
Mohammad Divband Soorati, Enrico H. Gerding, Enrico Marchioni, Pavel Naumov, Timothy J. Norman, Sarvapali D. Ramchurn, Bahar Rastegari, Adam Sobey, Sebastian Stein, Danesh Tarpore, Vahid Yazdanpanah, Jie Zhang(参考訳) サウサンプトン大学のエージェント・インタラクション・複雑度研究グループ(Agens, Interaction and Complexity Research Group)は、マルチエージェントシステム(MAS)の研究の長い実績を持っている。 masの学習、エージェントシステムのコーディネートのためのゲーム理論技術、表現と推論のための形式的手法にまたがる科学的な貢献を行いました。 我々は、このグループによって達成された重要な成果を強調し、信頼に足る自律システムを開発し、社会的善をサポートすることを目的とした人間中心のAIシステムを展開するための最近の研究とオープンな研究課題について詳述する。

The Agents, Interaction and Complexity research group at the University of Southampton has a long track record of research in multiagent systems (MAS). We have made substantial scientific contributions across learning in MAS, game-theoretic techniques for coordinating agent systems, and formal methods for representation and reasoning. We highlight key results achieved by the group and elaborate on recent work and open research challenges in developing trustworthy autonomous systems and deploying human-centred AI systems that aim to support societal good.
翻訳日:2022-10-06 14:44:30 公開日:2022-10-05
# 説明可能な人工知能の影響: ヌージング行動か、あるいは強化能力か?

The Influence of Explainable Artificial Intelligence: Nudging Behaviour or Boosting Capability? ( http://arxiv.org/abs/2210.02407v1 )

ライセンス: Link先を確認
Matija Franklin(参考訳) 本稿では、説明可能な人工知能(XAI)が人々の行動や認知にどのように影響するかを分析するための理論的説明とそれに対応するパラダイムを提供することを目的とする。 行動変化の研究から得た洞察を利用する。 行動変化のテクニックを考えるための2つの注目すべきフレームワークは、行動に影響を与えることを目的としたナッジ(nudge)と、能力向上を目的としたブースト( boosts)である。 局所的および概念に基づく説明はナッジに隣接しているのに対し、グローバルおよび対実的な説明はブーストに隣接している。 これはXAIの影響を測定する方法の概要であり、最適な、安全で倫理的な人間とAIのコラボレーションのためにXAIを理解する利点を論じている。

This article aims to provide a theoretical account and corresponding paradigm for analysing how explainable artificial intelligence (XAI) influences people's behaviour and cognition. It uses insights from research on behaviour change. Two notable frameworks for thinking about behaviour change techniques are nudges - aimed at influencing behaviour - and boosts - aimed at fostering capability. It proposes that local and concept-based explanations are more adjacent to nudges, while global and counterfactual explanations are more adjacent to boosts. It outlines a method for measuring XAI influence and argues for the benefits of understanding it for optimal, safe and ethical human-AI collaboration.
翻訳日:2022-10-06 14:44:20 公開日:2022-10-05
# RCTデータによる昇降モデル評価の改善

Improving uplift model evaluation on RCT data ( http://arxiv.org/abs/2210.02152v1 )

ライセンス: Link先を確認
Bj\"orn Bokelmann and Stefan Lessmann(参考訳) 治療効果の推定は、データアナリストにとって最も困難で重要なタスクの1つである。 伝統的な統計手法は集団に対する平均治療効果を推定することを目的としている。 このような平均的な治療効果は、非常に有用であるが、どの個人が治療によって最も利益を得るかを決定するのに役立たない。 ここでは、アップリフトモデリングが重要になる。 upliftモデルは、治療の適切な個人を選定し、全体の治療効果(uplift)を最大化するのに役立つ。 揚力モデリングにおける課題は、モデルを評価することである。 以前の文献では、qini曲線や変換結果の平均二乗誤差のような方法が提案されている。 しかし、これらの指標はばらつきに悩まされ、それらの評価はデータのランダムノイズに強く影響され、任意の程度に評価される。 本稿では,ランダムに制御された試験データに基づいて,上昇評価指標の分散を統計的に解析する。 提案手法は,理論上,実証上,上昇評価指標のばらつきを低減できるような結果調整手法を提案する。 統計的分析と提案結果調整手法は,アップリフトモデリングにおけるより良い評価手法への一歩である。

Estimating treatment effects is one of the most challenging and important tasks of data analysts. Traditional statistical methods aim to estimate average treatment effects over a population. While being highly useful, such average treatment effects do not help to decide which individuals profit most by the treatment. This is where uplift modeling becomes important. Uplift models help to select the right individuals for treatment, to maximize the overall treatment effect (uplift). A challenging problem in uplift modeling is to evaluate the models. Previous literature suggests methods like the Qini curve and the transformed outcome mean squared error. However, these metrics suffer from variance: Their evaluations are strongly affected by random noise in the data, which makes these evaluations to a certain degree arbitrary. In this paper, we analyze the variance of the uplift evaluation metrics, on randomized controlled trial data, in a sound statistical manner. We propose certain outcome adjustment methods, for which we prove theoretically and empirically, that they reduce the variance of the uplift evaluation metrics. Our statistical analysis and the proposed outcome adjustment methods are a step towards a better evaluation practice in uplift modeling.
翻訳日:2022-10-06 14:44:08 公開日:2022-10-05
# 行動への学習: エピデミック準備のためのアルゴリズムとモデルの新しい統合

Learning to Act: Novel Integration of Algorithms and Models for Epidemic Preparedness ( http://arxiv.org/abs/2210.02055v1 )

ライセンス: Link先を確認
Sekou L. Remy, Oliver E. Bent(参考訳) 本研究では,疫病対策における研究と実践を変革する枠組みを提案する。 新型コロナウイルス(COVID-19)のパンデミックの状況で導入され、疫学モデルからアルゴリズムが学習し、流行予防のためにその価値を拡大する方法の具体的なデモを提供する。 この作品への私たちの貢献は2つあります 1)機械学習コミュニティ内で開発された疫学モデルやアルゴリズムと、意思決定ステークホルダーが容易に対話できる新しいプラットフォーム。 2) Apache-2.0ライセンス下でのリリース。 本論文の目的は,特定のモデルやアルゴリズムを綿密に検討することではなく,エビデンスに基づく意思決定を促進するためにどのように結合し,共有するかを強調することである。

In this work we present a framework which may transform research and praxis in epidemic planning. Introduced in the context of the ongoing COVID-19 pandemic, we provide a concrete demonstration of the way algorithms may learn from epidemiological models to scale their value for epidemic preparedness. Our contributions in this work are two fold: 1) a novel platform which makes it easy for decision making stakeholders to interact with epidemiological models and algorithms developed within the Machine learning community, and 2) the release of this work under the Apache-2.0 License. The objective of this paper is not to look closely at any particular models or algorithms, but instead to highlight how they can be coupled and shared to empower evidence-based decision making.
翻訳日:2022-10-06 14:38:13 公開日:2022-10-05
# MDPの双線形指数族:トラクタブル探索と計画を伴う周波数レグレト境界

Bilinear Exponential Family of MDPs: Frequentist Regret Bound with Tractable Exploration and Planning ( http://arxiv.org/abs/2210.02087v1 )

ライセンス: Link先を確認
Reda Ouhamma (CRIStAL), Debabrota Basu (CRIStAL), Odalric-Ambrym Maillard (CRIStAL)(参考訳) 未知の報酬と遷移を伴う連続状態作用空間におけるエピソディック強化学習の問題点について検討する。 具体的には、パラメトリック双線形指数族を用いて報酬と遷移をモデル化する。 我々はBEF-RLSVIというアルゴリズムを提案する。 a) 未知のパラメータを学習するためにペナルダライズされた最大度推定器を使用する。 b) 探査を確実にするために報酬のパラメータに校正されたガウス雑音を注入する c) 指数系列の根底にあるRKHSに対する線形性を活用して、抽出可能な計画を行う。 さらに、パラメータの次元が$d$、エピソード長が$H$、エピソード数が$K$であるような上限が$\tilde{\mathcal{O}}(\sqrt{d^3H^3K})$となるようなBEF-RLSVIの頻繁な後悔分析も提供する。 解析により,MDP の双線形指数族に対する既存の境界を$\sqrt{H}$ で改善し,既存の \RLSVI 型アルゴリズムで展開された手作りクリッピングを除去する。 我々の後悔の限界は$H$と$K$に関してオーダー最適である。

We study the problem of episodic reinforcement learning in continuous state-action spaces with unknown rewards and transitions. Specifically, we consider the setting where the rewards and transitions are modeled using parametric bilinear exponential families. We propose an algorithm, BEF-RLSVI, that a) uses penalized maximum likelihood estimators to learn the unknown parameters, b) injects a calibrated Gaussian noise in the parameter of rewards to ensure exploration, and c) leverages linearity of the exponential family with respect to an underlying RKHS to perform tractable planning. We further provide a frequentist regret analysis of BEF-RLSVI that yields an upper bound of $\tilde{\mathcal{O}}(\sqrt{d^3H^3K})$, where $d$ is the dimension of the parameters, $H$ is the episode length, and $K$ is the number of episodes. Our analysis improves the existing bounds for the bilinear exponential family of MDPs by $\sqrt{H}$ and removes the handcrafted clipping deployed in existing \RLSVI-type algorithms. Our regret bound is order-optimal with respect to $H$ and $K$.
翻訳日:2022-10-06 14:38:00 公開日:2022-10-05
# 非同期時系列の確率的補間のためのトリプルフォーマ

Tripletformer for Probabilistic Interpolation of Asynchronous Time Series ( http://arxiv.org/abs/2210.02091v1 )

ライセンス: Link先を確認
Vijaya Krishna Yalavarthi, Johannes Burchert, Lars Schmidt-thieme(参考訳) 非同期時系列は、医療、天文学、気候科学などのいくつかのアプリケーションでしばしば観察され、標準のディープラーニングアーキテクチャにとって大きな課題となる。 非同期時系列の補間は根本原因分析や診断といった現実世界の多くのタスクに不可欠である。 本稿では,非同期時系列の確率的補間のために,各集合要素が3倍の時間,チャネル,値であるような観測集合を扱う,tripletformerと呼ばれる新しいエンコーダ・デコーダアーキテクチャを提案する。 Tripletformerのエンコーダとデコーダは、アテンション層と完全に接続された層を用いてモデル化され、セット要素が提示される順序に不変である。 提案するtripletformerは、複数の実世界および合成非同期時系列データセットのベースラインと比較され、より正確かつ特定の補間を生成することを実証する実験結果が得られた。 tripletformerを用いた最先端モデルと比較して,実数で33%,合成非同期時系列データセットで800%,負のloglikelihoodエラーが改善するのを観察した。

Asynchronous time series are often observed in several applications such as health care, astronomy, and climate science, and pose a significant challenge to the standard deep learning architectures. Interpolation of asynchronous time series is vital for many real-world tasks like root cause analysis, and medical diagnosis. In this paper, we propose a novel encoder-decoder architecture called Tripletformer, which works on the set of observations where each set element is a triple of time, channel, and value, for the probabilistic interpolation of the asynchronous time series. Both the encoder and the decoder of the Tripletformer are modeled using attention layers and fully connected layers and are invariant to the order in which set elements are presented. The proposed Tripletformer is compared with a range of baselines over multiple real-world and synthetic asynchronous time series datasets, and the experimental results attest that it produces more accurate and certain interpolations. We observe an improvement in negative loglikelihood error up to 33% over real and 800% over synthetic asynchronous time series datasets compared to the state-of-the-art model using the Tripletformer.
翻訳日:2022-10-06 14:37:36 公開日:2022-10-05
# ノード分類のための近傍のグラフ自己蒸留を指導する

Teaching Yourself:c Graph Self-Distillation on Neighborhood for Node Classification ( http://arxiv.org/abs/2210.02097v1 )

ライセンス: Link先を確認
Lirong Wu, Jun Xia, Haitao Lin, Zhangyang Gao, Zicheng Liu, Guojiang Zhao, Stan Z. Li(参考訳) 近年、グラフ関連タスクをグラフニューラルネットワーク(gnns)で処理することに成功した。 学術的成功にもかかわらず、マルチ層パーセプトロン (MLP) は、実用産業における主要な仕事場である。 この学術と産業のギャップの1つは、gnnのデータ依存によって発生する近隣の遅延が原因で、高速な推論を必要とするレイテンシに敏感なアプリケーションへのデプロイが困難になる。 逆に、機能集約を伴わずに、MPPはデータ依存がなく、GNNよりもはるかに高速だが、そのパフォーマンスは競争力が少ない。 これらの相補的な強みと弱みに感化されて、GNNとMPPのギャップを減らすためのグラフ自己蒸留(GSDN)フレームワークを提案する。 具体的には、GSDNフレームワークは純粋にMLPに基づいており、構造情報は、GNNのような明示的な近隣情報伝達を代用して、近隣と対象との知識自己蒸留を導くために、前もって暗黙的にのみ使用される。 結果として、gsdnはトレーニングにおけるグラフトポロジ認識の利点を享受するが、推論にはデータ依存がない。 例えば、GSDN はスタンドアローンの MLP を平均 15.54 % 改善し、6つのデータセットで最先端の GNN を上回っている。 推論速度に関して、gsdnは既存のgnnより75x-89倍速く、他の推論加速法よりも16x-25倍高速である。

Recent years have witnessed great success in handling graph-related tasks with Graph Neural Networks (GNNs). Despite their great academic success, Multi-Layer Perceptrons (MLPs) remain the primary workhorse for practical industrial applications. One reason for this academic-industrial gap is the neighborhood-fetching latency incurred by data dependency in GNNs, which make it hard to deploy for latency-sensitive applications that require fast inference. Conversely, without involving any feature aggregation, MLPs have no data dependency and infer much faster than GNNs, but their performance is less competitive. Motivated by these complementary strengths and weaknesses, we propose a Graph Self-Distillation on Neighborhood (GSDN) framework to reduce the gap between GNNs and MLPs. Specifically, the GSDN framework is based purely on MLPs, where structural information is only implicitly used as prior to guide knowledge self-distillation between the neighborhood and the target, substituting the explicit neighborhood information propagation as in GNNs. As a result, GSDN enjoys the benefits of graph topology-awareness in training but has no data dependency in inference. Extensive experiments have shown that the performance of vanilla MLPs can be greatly improved with self-distillation, e.g., GSDN improves over stand-alone MLPs by 15.54\% on average and outperforms the state-of-the-art GNNs on six datasets. Regarding inference speed, GSDN infers 75X-89X faster than existing GNNs and 16X-25X faster than other inference acceleration methods.
翻訳日:2022-10-06 14:37:16 公開日:2022-10-05
# マルチ教師知識蒸留による自動グラフ自己教師学習

Automated Graph Self-supervised Learning via Multi-teacher Knowledge Distillation ( http://arxiv.org/abs/2210.02099v1 )

ライセンス: Link先を確認
Lirong Wu, Yufei Huang, Haitao Lin, Zicheng Liu, Tianyu Fan, Stan Z. Li(参考訳) グラフ上での自己教師あり学習は、グラフ表現学習で目覚ましい成功を収めている。 過去数年間に何百もの自己監督型プリテキストタスクが提案され、研究コミュニティは大きく発展し、もはやより強力で複雑なプリテキストタスクを設計するのではなく、既に手元にあるタスクをより効果的に活用することが鍵となっている。 本稿では,各ノードのインスタンスレベルの自己教師型学習戦略を自動的に,適応的に,動的に学習する方法の課題について検討する。 本稿では,2つの主要分野から構成される自動グラフ自己監視学習(AGSSL)のための新しい多教師知識蒸留フレームワークを提案する。 (i)知識抽出:異なる前文タスクで複数の教師を訓練し、異なる帰納的バイアスで異なるレベルの知識を抽出すること。 (ii)知識の統合:知識の異なるレベルを統合し、それを学生モデルに蒸留すること。 単に異なる教師を等しく扱うことなく、異なる教師の知識を統合する方法の証明可能な理論的指針、すなわち、統合教師確率は真のベイズ級確率に近付くべきである。 理論上の最適に近づくために, 比較的「良い」統合教師を構築するための2つの適応的知識統合戦略が提案されている。 8つのデータセットに対する大規模な実験は、AGSSLが複数のプリテキストタスクの恩恵を受けており、対応する個々のタスクよりも優れていることを示している。

Self-supervised learning on graphs has recently achieved remarkable success in graph representation learning. With hundreds of self-supervised pretext tasks proposed over the past few years, the research community has greatly developed, and the key is no longer to design more powerful but complex pretext tasks, but to make more effective use of those already on hand. This paper studies the problem of how to automatically, adaptively, and dynamically learn instance-level self-supervised learning strategies for each node from a given pool of pretext tasks. In this paper, we propose a novel multi-teacher knowledge distillation framework for Automated Graph Self-Supervised Learning (AGSSL), which consists of two main branches: (i) Knowledge Extraction: training multiple teachers with different pretext tasks, so as to extract different levels of knowledge with different inductive biases; (ii) Knowledge Integration: integrating different levels of knowledge and distilling them into the student model. Without simply treating different teachers as equally important, we provide a provable theoretical guideline for how to integrate the knowledge of different teachers, i.e., the integrated teacher probability should be close to the true Bayesian class-probability. To approach the theoretical optimum in practice, two adaptive knowledge integration strategies are proposed to construct a relatively "good" integrated teacher. Extensive experiments on eight datasets show that AGSSL can benefit from multiple pretext tasks, outperforming the corresponding individual tasks; by combining a few simple but classical pretext tasks, the resulting performance is comparable to other leading counterparts.
翻訳日:2022-10-06 14:36:51 公開日:2022-10-05
# 部分的未定義関数の確率閾値ロバスト性に対するベイズ解析

Bayesian Quadrature for Probability Threshold Robustness of Partially Undefined Functions ( http://arxiv.org/abs/2210.02168v1 )

ライセンス: Link先を確認
Jonathan Sadeghi, Romain Mueller, John Redford(参考訳) エンジニアリング設計では、不確実性の下でシステムの性能が満足できる確率を計算したい場合が多い。 ガウス過程モデルを用いたアクティブラーニングを用いてこの問題を解決するための最先端のアルゴリズムが存在する。 しかし、これらのアルゴリズムは、特定の状況下でシステムの性能が未定義となる自動運転車の領域でしばしば発生する問題に適用できない。 既定値のマスキングによる既存のアルゴリズムの修正は、不連続なシステム性能関数をもたらすが、不連続な性能関数ではこれらのアルゴリズムが失敗することが知られているため、失敗する。 システム性能の階層モデルを用いてこの問題を解決し、性能が後退する前に未定義のパフォーマンスを分類する。 これにより,システムの性能が未定義な問題に対して,能動的学習ガウス過程法の適用が可能となり,自律走行領域の合成数値例に関する方法論を検証してこれを実証する。

In engineering design, one often wishes to calculate the probability that the performance of a system is satisfactory under uncertainty. State of the art algorithms exist to solve this problem using active learning with Gaussian process models. However, these algorithms cannot be applied to problems which often occur in the autonomous vehicle domain where the performance of a system may be undefined under certain circumstances. Na\"ive modification of existing algorithms by simply masking undefined values will introduce a discontinuous system performance function, and would be unsuccessful because these algorithms are known to fail for discontinuous performance functions. We solve this problem using a hierarchical model for the system performance, where undefined performance is classified before the performance is regressed. This enables active learning Gaussian process methods to be applied to problems where the performance of the system is sometimes undefined, and we demonstrate this by testing our methodology on synthetic numerical examples for the autonomous driving domain.
翻訳日:2022-10-06 14:36:26 公開日:2022-10-05
# 時系列データの特徴的重要性: KernelSHAPの改善

Feature Importance for Time Series Data: Improving KernelSHAP ( http://arxiv.org/abs/2210.02176v1 )

ライセンス: Link先を確認
Mattia Villani, Joshua Lockhart, Daniele Magazzeni(参考訳) 特徴重要技術は、トレーニングされた機械学習モデルの予測方法を決定する手段として、説明可能なai文献で広く注目を集めている。 時系列データのコンテキストに適用される特徴的重要度に対するShapley値に基づくアプローチを検討する。 本稿では,varmaxを含む複数の時系列モデルのシェープ値に対する閉形式解を提案する。 また,KernelSHAPが時系列タスクにどのように適用できるか,また,この手法から生じる特徴を組み合わせて「イベント検出」を行う方法を示す。 最後に、特徴量としてTime Consistent Shapley値の使用について検討する。

Feature importance techniques have enjoyed widespread attention in the explainable AI literature as a means of determining how trained machine learning models make their predictions. We consider Shapley value based approaches to feature importance, applied in the context of time series data. We present closed form solutions for the SHAP values of a number of time series models, including VARMAX. We also show how KernelSHAP can be applied to time series tasks, and how the feature importances that come from this technique can be combined to perform "event detection". Finally, we explore the use of Time Consistent Shapley values for feature importance.
翻訳日:2022-10-06 14:36:10 公開日:2022-10-05
# TimesNet: 時系列解析のための時間的2次元変動モデリング

TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis ( http://arxiv.org/abs/2210.02186v1 )

ライセンス: Link先を確認
Haixu Wu, Tengge Hu, Yong Liu, Hang Zhou, Jianmin Wang, Mingsheng Long(参考訳) 時系列解析は、天気予報、異常検出、行動認識などの広範囲の応用において非常に重要である。 本稿では,広範囲な解析課題の共通課題である時間変動モデリングに焦点を当てた。 従来の手法では、複雑な時間パターンのために非常に難しい1次元時系列から直接これを達成しようと試みていた。 時系列における多周期性の観測に基づいて,複数の周期内および周期間変動の複雑な時間変化を探索する。 表現能力における1次元時系列の限界に取り組むために、1次元時系列を複数の周期に基づいて2次元テンソルの集合に変換することにより、2次元空間への時間変化の解析を拡張する。 この変換は、周期内変分と周期間変分をそれぞれ2Dテンソルの列と行に埋め込むことができ、2D-変分は2Dカーネルによって容易にモデル化できる。 技術的には、timesblockを時系列分析のためのタスクジェネラルバックボーンとしてtimesnetを提案する。 タイムブロックは適応的に多周期性を発見し、パラメーター効率の良いインセプションブロックによって変換された2次元テンソルから複雑な時間変化を抽出することができる。 提案するTimesNetは,短期および長期の予測,計算,分類,異常検出を含む5つの主流時系列解析タスクにおいて,一貫した最先端性を実現する。

Time series analysis is of immense importance in extensive applications, such as weather forecasting, anomaly detection, and action recognition. This paper focuses on temporal variation modeling, which is the common key problem of extensive analysis tasks. Previous methods attempt to accomplish this directly from the 1D time series, which is extremely challenging due to the intricate temporal patterns. Based on the observation of multi-periodicity in time series, we ravel out the complex temporal variations into the multiple intraperiod- and interperiod-variations. To tackle the limitations of 1D time series in representation capability, we extend the analysis of temporal variations into the 2D space by transforming the 1D time series into a set of 2D tensors based on multiple periods. This transformation can embed the intraperiod- and interperiod-variations into the columns and rows of the 2D tensors respectively, making the 2D-variations to be easily modeled by 2D kernels. Technically, we propose the TimesNet with TimesBlock as a task-general backbone for time series analysis. TimesBlock can discover the multi-periodicity adaptively and extract the complex temporal variations from transformed 2D tensors by a parameter-efficient inception block. Our proposed TimesNet achieves consistent state-of-the-art in five mainstream time series analysis tasks, including short- and long-term forecasting, imputation, classification, and anomaly detection.
翻訳日:2022-10-06 14:36:01 公開日:2022-10-05
# グラフスペクトルから見たグラフコントラスト学習の再検討

Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum ( http://arxiv.org/abs/2210.02330v1 )

ライセンス: Link先を確認
Nian Liu, Xiao Wang, Deyu Bo, Chuan Shi, Jian Pei(参考訳) グラフの強化によるノード表現の学習であるグラフコントラスト学習(gcl)が注目されている。 様々なグラフ拡張戦略の進展にもかかわらず、いくつかの基本的な疑問はいまだ不明である。 異なる拡張の背後にある一般的なグラフ拡張ルールはありますか? もしそうなら、彼らは何を持ち、どんな洞察をもたらすのか? 本稿では,GCLとグラフスペクトルの関連性を確立することで,これらの質問に答える。 スペクトル領域の実験的研究により、まずGCLに対する一般gAph augMEntation (GAME) 則、すなわち、2つの拡張グラフ間の高周波部分の違いは低周波部分のそれよりも大きいはずである。 このルールは、現在のグラフ拡張を再検討し、新しい効果的なグラフ拡張を設計する基本的な原則を明らかにする。 そして、GCLが対照的な不変性定理によって不変情報を学習できることを理論的に証明し、GAME則とともに、GCLが学習した表現が本質的に低周波情報を符号化していることを発見した。 本規則により,汎用かつGCLフレンドリなプラグインであるスペクトルグラフコントラスト学習モジュール(SpCo)を提案する。 既存のGCLモデルと組み合わせることで、多様なGCL手法の性能をさらに向上させることができることを示す。

Graph Contrastive Learning (GCL), learning the node representations by augmenting graphs, has attracted considerable attentions. Despite the proliferation of various graph augmentation strategies, some fundamental questions still remain unclear: what information is essentially encoded into the learned representations by GCL? Are there some general graph augmentation rules behind different augmentations? If so, what are they and what insights can they bring? In this paper, we answer these questions by establishing the connection between GCL and graph spectrum. By an experimental investigation in spectral domain, we firstly find the General grAph augMEntation (GAME) rule for GCL, i.e., the difference of the high-frequency parts between two augmented graphs should be larger than that of low-frequency parts. This rule reveals the fundamental principle to revisit the current graph augmentations and design new effective graph augmentations. Then we theoretically prove that GCL is able to learn the invariance information by contrastive invariance theorem, together with our GAME rule, for the first time, we uncover that the learned representations by GCL essentially encode the low-frequency information, which explains why GCL works. Guided by this rule, we propose a spectral graph contrastive learning module (SpCo), which is a general and GCL-friendly plug-in. We combine it with different existing GCL models, and extensive experiments well demonstrate that it can further improve the performances of a wide variety of different GCL methods.
翻訳日:2022-10-06 14:35:41 公開日:2022-10-05
# cidatgan: 表型ganの条件入力

ciDATGAN: Conditional Inputs for Tabular GANs ( http://arxiv.org/abs/2210.02404v1 )

ライセンス: Link先を確認
Gael Lederrey, Tim Hillel, Michel Bierlaire(参考訳) 合成画像を生成するためのGAN(Generative Adversarial Networks)のコアコンポーネントとなっている。 GANは通常、生成プロセスを制御するために潜伏条件を使います。 しかし、表データにはマニフェスト変数のみが含まれている。 したがって、潜伏条件は生成されたデータを制限するか、十分な良い結果が得られない。 そこで本稿では,画像補完法に触発された表状GANの条件性を含む新しい手法を提案する。 本稿では、現在最先端の表形式GANモデルより優れていることが示されているDATGAN(Directed Acyclic Tabular GAN)の進化であるciDATGANについて述べる。 まず,条件付き入力の追加は,前者と比較してモデルの性能を阻害することを示した。 そこで, ciDATGANは, 適切な条件入力の助けを借りてデータセットのアンバイアス化に利用できることを示す。 最後に、cidatganはデータの背後にあるロジックを学べるので、より小さなフィードデータセットのデータを使って大規模な合成データセットを完成させることができる。

Conditionality has become a core component for Generative Adversarial Networks (GANs) for generating synthetic images. GANs are usually using latent conditionality to control the generation process. However, tabular data only contains manifest variables. Thus, latent conditionality either restricts the generated data or does not produce sufficiently good results. Therefore, we propose a new methodology to include conditionality in tabular GANs inspired by image completion methods. This article presents ciDATGAN, an evolution of the Directed Acyclic Tabular GAN (DATGAN) that has already been shown to outperform state-of-the-art tabular GAN models. First, we show that the addition of conditional inputs does hinder the model's performance compared to its predecessor. Then, we demonstrate that ciDATGAN can be used to unbias datasets with the help of well-chosen conditional inputs. Finally, it shows that ciDATGAN can learn the logic behind the data and, thus, be used to complete large synthetic datasets using data from a smaller feeder dataset.
翻訳日:2022-10-06 14:35:16 公開日:2022-10-05
# NeuralMeshing: 意図しないニューラル表現の異なるメッシュ化

NeuralMeshing: Differentiable Meshing of Implicit Neural Representations ( http://arxiv.org/abs/2210.02382v1 )

ライセンス: Link先を確認
Mathias Vetsch, Sandro Lombardi, Marc Pollefeys and Martin R. Oswald(参考訳) 点雲、すなわちメッシュから三角形メッシュを生成することは、コンピュータグラフィックスとコンピュータビジョンにおける中核的なタスクである。 従来の手法は局所的な決定ヒューリスティックスを用いて表面メッシュを直接構築するが、ニューラルな暗黙表現に基づく最近の手法では、このメッシュ処理にデータ駆動アプローチを活用しようとする。 しかし、未知のトポロジと大きさの三角形メッシュの学習可能な表現を定義することは困難であり、そのため、ニューラルネットワークの暗黙表現は最終的な三角形メッシュを抽出するために非微分不可能な後処理に依存する。 本研究では,ニューラルな暗黙表現から表面メッシュを抽出する新しい微分可能なメッシュアルゴリズムを提案する。 本手法は, メッシュを反復的に生成し, 様々なスケールの形状に適用し, 形状の局所曲率に適応させる。 さらに,本手法は,通常のテッセルレーションパターンと,既存の手法に比べて三角形面の少ないメッシュを生成する。 実験は、ベースライン上でのリコンストラクション性能と好ましいメッシュ特性を実証する。

The generation of triangle meshes from point clouds, i.e. meshing, is a core task in computer graphics and computer vision. Traditional techniques directly construct a surface mesh using local decision heuristics, while some recent methods based on neural implicit representations try to leverage data-driven approaches for this meshing process. However, it is challenging to define a learnable representation for triangle meshes of unknown topology and size and for this reason, neural implicit representations rely on non-differentiable post-processing in order to extract the final triangle mesh. In this work, we propose a novel differentiable meshing algorithm for extracting surface meshes from neural implicit representations. Our method produces the mesh in an iterative fashion, which makes it applicable to shapes of various scales and adaptive to the local curvature of the shape. Furthermore, our method produces meshes with regular tessellation patterns and fewer triangle faces compared to existing methods. Experiments demonstrate the comparable reconstruction performance and favorable mesh properties over baselines.
翻訳日:2022-10-06 14:29:17 公開日:2022-10-05
# 語彙的感情知性のための感情20質問対話システム

Emotion Twenty Questions Dialog System for Lexical Emotional Intelligence ( http://arxiv.org/abs/2210.02400v1 )

ライセンス: Link先を確認
Abe Kazemzadeh and Adedamola Sanusi and Huihui (Summer) Nie(参考訳) 本稿では,感情の表現方法を研究するための対話ゲームであるEmotion Twenty Questions (EMO20Q) のWeb上でのデモンストレーションを行う。 EMO20Qは、ゲームをプレイできる人工知能のダイアログエージェントの開発にも利用できる。 以前の研究では、emo20qエージェントはシーケンシャルベイズ型機械学習モデルを使用して、質問を誘う役割を担った。 新しいトランスフォーマーベースのニューラル機械学習モデルにより、質問応答の役割のエージェントの開発が可能になった。 本稿では,エージェントがよりオープンな入力に応答する必要があるEMO20Qゲームにおける質問応答の役割の最近の展開について述べる。 さらに,web ベースのフロントエンド,エージェントアーキテクチャとプログラミング,使用済みのソフトウェアのアップデートなど,システム設計についても述べる。 デモシステムはACIIカンファレンスでパイロットデータを収集するために利用可能で、このデータは将来の実験やシステム設計に使用される。

This paper presents a web-based demonstration of Emotion Twenty Questions (EMO20Q), a dialog game whose purpose is to study how people describe emotions. EMO20Q can also be used to develop artificially intelligent dialog agents that can play the game. In previous work, an EMO20Q agent used a sequential Bayesian machine learning model and could play the question-asking role. Newer transformer-based neural machine learning models have made it possible to develop an agent for the question-answering role. This demo paper describes the recent developments in the question-answering role of the EMO20Q game, which requires the agent to respond to more open-ended inputs. Furthermore, we also describe the design of the system, including the web-based front-end, agent architecture and programming, and updates to earlier software used. The demo system will be available to collect pilot data during the ACII conference and this data will be used to inform future experiments and system design.
翻訳日:2022-10-06 14:29:02 公開日:2022-10-05
# feddig: 欠席したクライアントを表すデータダイジェストを用いた堅牢なフェデレーション学習

FedDig: Robust Federated Learning Using Data Digest to Represent Absent Clients ( http://arxiv.org/abs/2210.00737v2 )

ライセンス: Link先を確認
Chih-Fan Hsu, Ming-Ching Chang, Wei-Chao Chen(参考訳) Federated Learning (FL)は、クライアントデータのプライバシーを効果的に保護する。 しかしながら、トレーニング中のクライアントの欠如や離脱は、特に不均衡で非IIDのクライアントデータに対して、モデルのパフォーマンスを著しく低下させる可能性がある。 生データからデータダイジェストを生成し、FLモデレーターでのトレーニングをガイドすることでこの問題に対処する。 FedDigと呼ばれる提案されたFLフレームワークは、クライアントデータのプライバシを保持しながら、クロスサイロシナリオにおける予期せぬクライアントの不在を許容することができる。 EMNIST, CIFAR-10, CIFAR-100を用いてFedDigの評価を行い, 各種クライアント不在シナリオにおいて, 3つのベースラインアルゴリズム(FedAvg, FedProx, FedNova)に対して一貫した性能を示した。

Federated Learning (FL) effectively protects client data privacy. However, client absence or leaving during training can seriously degrade model performances, particularly for unbalanced and non-IID client data. We address this issue by generating data digests from the raw data and using them to guide training at the FL moderator. The proposed FL framework, called FedDig, can tolerate unexpected client absence in cross-silo scenarios while preserving client data privacy because the digests de-identify the raw data by mixing encoded features in the features space. We evaluate FedDig using EMNIST, CIFAR-10, and CIFAR-100; the results consistently outperform against three baseline algorithms (FedAvg, FedProx, and FedNova) by large margins in various client absence scenarios.
翻訳日:2022-10-06 14:28:46 公開日:2022-10-05
# ランダムな重み係数化は連続的神経表現の訓練を改善する

Random Weight Factorization Improves the Training of Continuous Neural Representations ( http://arxiv.org/abs/2210.01274v2 )

ライセンス: Link先を確認
Sifan Wang, Hanwen Wang, Jacob H. Seidman, Paris Perdikaris(参考訳) 連続神経表現は、信号の古典的な離散化表現に代わる強力で柔軟な代替物として最近登場した。 しかし,マルチスケール信号の細部を捉える訓練は困難であり,計算コストがかかる。 本稿では、座標系多層パーセプトロン(MLP)における従来の線形層をパラメータ化および初期化するための単純なドロップイン置換として、ランダムウェイト係数化を提案する。 ネットワーク内の各ニューロンが、自身の自己適応学習率を用いて学習できるように、この因子化が基盤となる損失状況をどのように変化させるかを示す。 これは、スペクトルバイアスを緩和するだけでなく、ネットワークが貧弱な初期化から素早く回復し、より優れた局所ミニマに到達するのに役立つ。 本稿では、画像回帰、形状表現、計算トモグラフィー、逆レンダリング、偏微分方程式の解法、関数空間間の学習演算子など、様々なタスクにおける神経表現の訓練を改善するために、ランダムな重み分解をいかに活用できるかを示す。

Continuous neural representations have recently emerged as a powerful and flexible alternative to classical discretized representations of signals. However, training them to capture fine details in multi-scale signals is difficult and computationally expensive. Here we propose random weight factorization as a simple drop-in replacement for parameterizing and initializing conventional linear layers in coordinate-based multi-layer perceptrons (MLPs) that significantly accelerates and improves their training. We show how this factorization alters the underlying loss landscape and effectively enables each neuron in the network to learn using its own self-adaptive learning rate. This not only helps with mitigating spectral bias, but also allows networks to quickly recover from poor initializations and reach better local minima. We demonstrate how random weight factorization can be leveraged to improve the training of neural representations on a variety of tasks, including image regression, shape representation, computed tomography, inverse rendering, solving partial differential equations, and learning operators between function spaces.
翻訳日:2022-10-06 14:28:26 公開日:2022-10-05
# より強力なタスク一般化を実現するマルチタスク自己教師付きグラフニューラルネットワーク

Multi-task Self-supervised Graph Neural Networks Enable Stronger Task Generalization ( http://arxiv.org/abs/2210.02016v1 )

ライセンス: Link先を確認
Mingxuan Ju, Tong Zhao, Qianlong Wen, Wenhao Yu, Neil Shah, Yanfang Ye, Chuxu Zhang(参考訳) 近年、グラフニューラルネットワーク(GNN)のための自己教師付き学習(SSL)がグラフ機械学習コミュニティから注目を集めている。 GNNの従来のSSLフレームワークの弱点の1つは、相互情報の最大化や生成的再構築のような単一の哲学を通して学習することである。 下流の様々なタスクに適用する場合、これらのフレームワークは全てのタスクに対して等しく機能することは滅多にない。 そこで我々は,グラフ上のノード表現学習のためのマルチタスクSSLフレームワークParetoGNNを紹介した。 特に、ParetoGNNは、複数の哲学を観察する多様体プレテキストタスクによって自己監督されている。 異なる哲学を整理するために,ParetoGNNは潜在的な対立を最小限に抑えつつ,あらゆる前提課題から積極的に学習する多段階降下アルゴリズムを探索する。 我々は4つの下流タスク(ノード分類、ノードクラスタリング、リンク予測、パーティション予測)に対して総合的な実験を行い、提案手法は広く採用されている11のベンチマークデータセット上でタスク全体で最高のパフォーマンスを達成する。 さらに、複数の哲学からの学習はタスク一般化だけでなく、単一タスクのパフォーマンスも向上し、ParetoGNNは、異なる哲学から学んだ相補的知識を通じて、より良いタスク一般化を実現することを示す。

Self-supervised learning (SSL) for graph neural networks (GNNs) has attracted increasing attention from the graph machine learning community in recent years, owing to its capability to learn performant node embeddings without costly label information. One weakness of conventional SSL frameworks for GNNs is that they learn through a single philosophy, such as mutual information maximization or generative reconstruction. When applied to various downstream tasks, these frameworks rarely perform equally well for every task, because one philosophy may not span the extensive knowledge required for all tasks. In light of this, we introduce ParetoGNN, a multi-task SSL framework for node representation learning over graphs. Specifically, ParetoGNN is self-supervised by manifold pretext tasks observing multiple philosophies. To reconcile different philosophies, we explore a multiple-gradient descent algorithm, such that ParetoGNN actively learns from every pretext task while minimizing potential conflicts. We conduct comprehensive experiments over four downstream tasks (i.e., node classification, node clustering, link prediction, and partition prediction), and our proposal achieves the best overall performance across tasks on 11 widely adopted benchmark datasets. Besides, we observe that learning from multiple philosophies enhances not only the task generalization but also the single task performance, demonstrating that ParetoGNN achieves better task generalization via the disjoint yet complementary knowledge learned from different philosophies.
翻訳日:2022-10-06 14:26:51 公開日:2022-10-05
# DreamShard: Recommenderシステムのための一般的な埋め込みテーブル配置

DreamShard: Generalizable Embedding Table Placement for Recommender Systems ( http://arxiv.org/abs/2210.02023v1 )

ライセンス: Link先を確認
Daochen Zha, Louis Feng, Qiaoyu Tan, Zirui Liu, Kwei-Herng Lai, Bhargav Bhushanam, Yuandong Tian, Arun Kejariwal, Xia Hu(参考訳) 分散レコメンデータシステムの組込みテーブル配置について検討し,複数のハードウェアデバイス(GPUなど)にテーブルを分割配置し,計算コストと通信コストのバランスをとることを目的とした。 計算グラフのデバイス配置に関する学習に基づくアプローチを先行研究で検討してきたが,テーブル配置の埋め込みは難しい課題である。 1)埋め込み表の操作融合,及び 2) テーブル数や装置数が異なる非表示配置タスクにおける一般化可能性要件。 この目的のために、テーブル配置を埋め込むための強化学習(RL)アプローチであるDreamShardを紹介する。 DreamShardは操作融合と一般化可能性の推論を達成する 1)融合運転のコストを直接予測するコストネットワーク、及び 2)実際のGPU実行を伴わない推定マルコフ決定プロセス(MDP)で効率的にトレーニングされたポリシネットワークにおいて,コストネットワークを用いて状態と報酬を推定する。 和と最大表現の削減を具備したこの2つのネットワークは、微調整なしでテーブル数やデバイス数が異なる未確認タスクに直接一般化することができる。 大規模な合成表と生産表で最強のベースラインを最大19%のスピードアップで、DreamShardは既存の人間専門家やRNNベースの戦略を大幅に上回っている。 コードはhttps://github.com/daochenzha/dreamshardで入手できる。

We study embedding table placement for distributed recommender systems, which aims to partition and place the tables on multiple hardware devices (e.g., GPUs) to balance the computation and communication costs. Although prior work has explored learning-based approaches for the device placement of computational graphs, embedding table placement remains to be a challenging problem because of 1) the operation fusion of embedding tables, and 2) the generalizability requirement on unseen placement tasks with different numbers of tables and/or devices. To this end, we present DreamShard, a reinforcement learning (RL) approach for embedding table placement. DreamShard achieves the reasoning of operation fusion and generalizability with 1) a cost network to directly predict the costs of the fused operation, and 2) a policy network that is efficiently trained on an estimated Markov decision process (MDP) without real GPU execution, where the states and the rewards are estimated with the cost network. Equipped with sum and max representation reductions, the two networks can directly generalize to any unseen tasks with different numbers of tables and/or devices without fine-tuning. Extensive experiments show that DreamShard substantially outperforms the existing human expert and RNN-based strategies with up to 19% speedup over the strongest baseline on large-scale synthetic tables and our production tables. The code is available at https://github.com/daochenzha/dreamshard
翻訳日:2022-10-06 14:26:27 公開日:2022-10-05
# LDEdit:潜時拡散モデルによる一般化テキストガイド画像操作を目指して

LDEdit: Towards Generalized Text Guided Image Manipulation via Latent Diffusion Models ( http://arxiv.org/abs/2210.02249v1 )

ライセンス: Link先を確認
Paramanand Chandramouli, Kanchana Vaishnavi Gandikota(参考訳) 視覚言語モデルの研究は急速に進展し、画像生成と操作のための自然言語ベースのインタフェースが実現された。 多くの既存のテキストガイド操作技術は、画像の特定のクラスに限定されており、異なるスタイルやドメインへの転送には微調整を必要とすることが多い。 それでも、柔軟なテキスト入力を持つ単一モデルを用いた汎用的な画像操作は非常に望ましい。 最近の研究は、事前学習された視覚言語エンコーダを用いて、一般的な画像データセットで訓練された生成モデルを導くことで、この課題に対処している。 有望ではあるが、このアプローチは各入力に対して高価な最適化を必要とする。 そこで本研究では,テキストプロンプトからの画像操作を最適化せずに行う手法を提案する。 提案手法は,テキストから画像への拡散モデル (ldm) を活用し,ゼロショットテキスト誘導操作を実現する。 低次元の潜在空間において決定論的前方拡散を行い、目標テキストを単純に提供して逆拡散過程を条件付けることで所望の操作を実現する。 このアプローチをLDEditと呼びます。 本手法は,意味的イメージ操作と芸術的スタイル伝達に適用できることを示す。 本手法は多様な領域で画像操作が可能であり,複数の属性を簡単な方法で編集することができる。 大規模な実験は、競合するベースラインに対する我々のアプローチの利点を実証する。

Research in vision-language models has seen rapid developments off-late, enabling natural language-based interfaces for image generation and manipulation. Many existing text guided manipulation techniques are restricted to specific classes of images, and often require fine-tuning to transfer to a different style or domain. Nevertheless, generic image manipulation using a single model with flexible text inputs is highly desirable. Recent work addresses this task by guiding generative models trained on the generic image datasets using pretrained vision-language encoders. While promising, this approach requires expensive optimization for each input. In this work, we propose an optimization-free method for the task of generic image manipulation from text prompts. Our approach exploits recent Latent Diffusion Models (LDM) for text to image generation to achieve zero-shot text guided manipulation. We employ a deterministic forward diffusion in a lower dimensional latent space, and the desired manipulation is achieved by simply providing the target text to condition the reverse diffusion process. We refer to our approach as LDEdit. We demonstrate the applicability of our method on semantic image manipulation and artistic style transfer. Our method can accomplish image manipulation on diverse domains and enables editing multiple attributes in a straightforward fashion. Extensive experiments demonstrate the benefit of our approach over competing baselines.
翻訳日:2022-10-06 14:20:47 公開日:2022-10-05
# 複数のタスクに対する画像検索のための粒度認識適応

Granularity-aware Adaptation for Image Retrieval over Multiple Tasks ( http://arxiv.org/abs/2210.02254v1 )

ライセンス: Link先を確認
Jon Almaz\'an, Byungsoo Ko, Geonmo Gu, Diane Larlus, Yannis Kalantidis(参考訳) 強い画像検索モデルは特定のドメインに対して学習することができる。 ラベルのセットで、そのドメインのラベル付きイメージが利用可能である。 しかし、現実的なビジュアル検索モデルは、非常に異なる専門領域をカバーする場合でも、複数の検索タスクを同時に解くのに十分な汎用性を持つべきである。 さらに、これらのさまざまな検索タスクからラベルなしの画像からも恩恵を受けられるはずです。 これは我々が本論文で考えるより実践的なシナリオである。 提案するgrappaは,強い事前学習モデルから始めて,異なるタスク領域のラベルなしイメージのみを使用して,複数の検索タスクを同時に処理する手法である。 プリトレーニングされたモデルを、異なるサイズの擬似ラベルセットを使用する複数の独立に訓練されたアダプタセットで拡張し、異なる擬似粒度を効果的に模倣する。 特徴空間内の近傍の擬似粒度注意を伝播させることで導いた融合層を学習することにより、全ての適応集合を、全ての検索タスクに適した単一の統一モデルに再構成する。 6つの異種検索タスクからなるベンチマークの結果、教師なしのGrappaモデルは最先端の自己教師付き学習モデルのゼロショット性能を改善し、ある場所ではタスク毎の最も適した擬似粒度を選択するタスクラベル認識オラクルに到達または改善することを示した。

Strong image search models can be learned for a specific domain, ie. set of labels, provided that some labeled images of that domain are available. A practical visual search model, however, should be versatile enough to solve multiple retrieval tasks simultaneously, even if those cover very different specialized domains. Additionally, it should be able to benefit from even unlabeled images from these various retrieval tasks. This is the more practical scenario that we consider in this paper. We address it with the proposed Grappa, an approach that starts from a strong pretrained model, and adapts it to tackle multiple retrieval tasks concurrently, using only unlabeled images from the different task domains. We extend the pretrained model with multiple independently trained sets of adaptors that use pseudo-label sets of different sizes, effectively mimicking different pseudo-granularities. We reconcile all adaptor sets into a single unified model suited for all retrieval tasks by learning fusion layers that we guide by propagating pseudo-granularity attentions across neighbors in the feature space. Results on a benchmark composed of six heterogeneous retrieval tasks show that the unsupervised Grappa model improves the zero-shot performance of a state-of-the-art self-supervised learning model, and in some places reaches or improves over a task label-aware oracle that selects the most fitting pseudo-granularity per task.
翻訳日:2022-10-06 14:20:28 公開日:2022-10-05
# 二重類似性伝達による弱ショット意味セグメンテーション

Weak-shot Semantic Segmentation via Dual Similarity Transfer ( http://arxiv.org/abs/2210.02270v1 )

ライセンス: Link先を確認
Junjie Chen, Li Niu, Siyuan Zhou, Jianlou Si, Chen Qian, Liqing Zhang(参考訳) セマンティックセグメンテーションは重要かつ一般的なタスクであるが、より広いアプリケーションでより多くのクラスに拡張する際には、ピクセルレベルのアノテーションのコストが高い。 そこで,本研究では,既定の画素レベルラベルを持つベースクラスをサポートすることで,安価な画像レベルラベルから新しいクラスを学習する,弱いショット意味セグメンテーションという問題に焦点を当てる。 この問題を解決するために,MaskFormer上で2つの類似性転送を行うSimFormerを提案する。 具体的には、MaskFormerはセマンティックセグメンテーションタスクを2つのサブタスクに分割する。 提案セグメンテーションにより,基本クラスから新しいクラスへ,提案画素間の類似性を移行することができる。 また,基本クラスからピクセル・ピクセル間の類似性を学習し,画像間のピクセルレベルの意味関係でセグメンテーションモデルを規則化する新規クラスのセマンティクスマスクと,そのようなクラスに依存しないセマンティクス類似性を蒸留する。 さらに,新しい授業の学習を容易にするための補完的損失を提案する。 COCO-Stuff-10KデータセットとADE20Kデータセットの総合実験により,本手法の有効性が示された。 コードはhttps://github.com/bcmi/SimFormer-Weak-Shot-Semantic-Segmentationで公開されている。

Semantic segmentation is an important and prevalent task, but severely suffers from the high cost of pixel-level annotations when extending to more classes in wider applications. To this end, we focus on the problem named weak-shot semantic segmentation, where the novel classes are learnt from cheaper image-level labels with the support of base classes having off-the-shelf pixel-level labels. To tackle this problem, we propose SimFormer, which performs dual similarity transfer upon MaskFormer. Specifically, MaskFormer disentangles the semantic segmentation task into two sub-tasks: proposal classification and proposal segmentation for each proposal. Proposal segmentation allows proposal-pixel similarity transfer from base classes to novel classes, which enables the mask learning of novel classes. We also learn pixel-pixel similarity from base classes and distill such class-agnostic semantic similarity to the semantic masks of novel classes, which regularizes the segmentation model with pixel-level semantic relationship across images. In addition, we propose a complementary loss to facilitate the learning of novel classes. Comprehensive experiments on the challenging COCO-Stuff-10K and ADE20K datasets demonstrate the effectiveness of our method. Codes are available at https://github.com/bcmi/SimFormer-Weak-Shot-Semantic-Segmentation.
翻訳日:2022-10-06 14:20:04 公開日:2022-10-05
# 微細テキスト・画像生成のためのプログレッシブデノージングモデル

Progressive Denoising Model for Fine-Grained Text-to-Image Generation ( http://arxiv.org/abs/2210.02291v1 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Junshi Huang, Xiaoming Wei, Xiaolin Wei(参考訳) 近年,vector quantized autoregressive (vq-ar)モデルでは,潜在空間の左上から右下への離散的な画像トークンを等しく予測することにより,テキストから画像への合成において顕著な結果を示している。 単純な生成プロセスは驚くほどうまく機能しますが、これは画像を生成する最良の方法なのでしょうか? 例えば、VQ-ARモデル自体が各コンポーネントの相対的重要性を考慮していないのに対して、人間の生成は画像のアウトライン・トゥ・フィニッシュに傾いている。 本稿では,高忠実度テキスト画像生成のためのプログレッシブデノナイズモデルを提案する。 提案手法は,既存のコンテキストに基づいて粗い画像トークンから細かな画像トークンを並列に生成することにより,画像シーケンスが完了するまで再帰的に適用する。 結果として得られる細かな階層構造は、画像生成プロセスを直感的かつ解釈可能にします。 広範囲にわたるFIDスコアにおいて, 従来のVQ-AR法と比較して, プログレッシブモデルの方が, より優れた結果が得られることを示した。 さらに、従来のarのテキスト対画像生成時間は、出力画像解像度と線形に増加するため、通常のサイズの画像であってもかなり時間がかかる。 対照的に、当社のアプローチは、生成品質と速度のトレードオフを改善できます。

Recently, vector quantized autoregressive (VQ-AR) models have shown remarkable results in text-to-image synthesis by equally predicting discrete image tokens from the top left to bottom right in the latent space. Although the simple generative process surprisingly works well, is this the best way to generate the image? For instance, human creation is more inclined to the outline-to-fine of an image, while VQ-AR models themselves do not consider any relative importance of each component. In this paper, we present a progressive denoising model for high-fidelity text-to-image image generation. The proposed method takes effect by creating new image tokens from coarse to fine based on the existing context in a parallel manner and this procedure is recursively applied until an image sequence is completed. The resulting coarse-to-fine hierarchy makes the image generation process intuitive and interpretable. Extensive experiments demonstrate that the progressive model produces significantly better results when compared with the previous VQ-AR method in FID score across a wide variety of categories and aspects. Moreover, the text-to-image generation time of traditional AR increases linearly with the output image resolution and hence is quite time-consuming even for normal-size images. In contrast, our approach allows achieving a better trade-off between generation quality and speed.
翻訳日:2022-10-06 14:19:44 公開日:2022-10-05
# ピル画像分類におけるクラスインクリメンタル学習のためのマルチストリーム融合

Multi-stream Fusion for Class Incremental Learning in Pill Image Classification ( http://arxiv.org/abs/2210.02313v1 )

ライセンス: Link先を確認
Trong-Tung Nguyen, Hieu H. Pham, Phi Le Nguyen, Thanh Hung Nguyen, and Minh Do(参考訳) 現実世界の画像から薬のカテゴリーを分類することは、さまざまなスマートヘルスケアアプリケーションにとって不可欠である。 画像分類における既存のアプローチは、固定された薬品カテゴリにおいて優れた性能を発揮するかもしれないが、学習アルゴリズムに頻繁に提示される新しい薬品カテゴリのインスタンスを処理できない。 この目的のために、簡単な解決策は、新しいクラスでモデルをトレーニングすることだ。 しかし、これは破滅的な忘れ込みと呼ばれる現象を引き起こし、そこではシステムが以前のクラスで学んだことを忘れてしまう。 本稿では,従来のピル画像分類システムにクラスインクリメンタルラーニング(CIL)機能を導入することで,この問題に対処する。 具体的には,問題領域に最も適合する追加のガイダンス情報ストリームを様々なcil法に組み込むことが可能な,新たなインクリメンタルなマルチストリーム中間融合フレームワークを提案する。 そこで本フレームワークでは,CIL 画像分類タスクを解くために,画素画像の色特化情報をガイダンスストリームとして考慮し,"Color Guidance with Multi-stream intermediate fusion" (CG-IMIF) というアプローチを考案する。 実世界のインクリメンタルピル画像分類データセット、すなわちVAIPE-PCILについて総合的な実験を行い、CG-IMIFはタスク設定の大きなマージンで、一貫していくつかの最先端の手法より優れていることを示した。 私たちのコード、データ、トレーニングされたモデルはhttps://github.com/vinuni-vishc/CG-IMIF.comで公開されています。

Classifying pill categories from real-world images is crucial for various smart healthcare applications. Although existing approaches in image classification might achieve a good performance on fixed pill categories, they fail to handle novel instances of pill categories that are frequently presented to the learning algorithm. To this end, a trivial solution is to train the model with novel classes. However, this may result in a phenomenon known as catastrophic forgetting, in which the system forgets what it learned in previous classes. In this paper, we address this challenge by introducing the class incremental learning (CIL) ability to traditional pill image classification systems. Specifically, we propose a novel incremental multi-stream intermediate fusion framework enabling incorporation of an additional guidance information stream that best matches the domain of the problem into various state-of-the-art CIL methods. From this framework, we consider color-specific information of pill images as a guidance stream and devise an approach, namely "Color Guidance with Multi-stream intermediate fusion"(CG-IMIF) for solving CIL pill image classification task. We conduct comprehensive experiments on real-world incremental pill image classification dataset, namely VAIPE-PCIL, and find that the CG-IMIF consistently outperforms several state-of-the-art methods by a large margin in different task settings. Our code, data, and trained model are available at https://github.com/vinuni-vishc/CG-IMIF.
翻訳日:2022-10-06 14:19:22 公開日:2022-10-05
# FQDet: 高速収束クエリベースの検出器

FQDet: Fast-converging Query-based Detector ( http://arxiv.org/abs/2210.02318v1 )

ライセンス: Link先を確認
C\'edric Picron, Punarjay Chakravarty, Tinne Tuytelaars(参考訳) 最近、Deformable DETRはクエリベースの2段ヘッドを導入した。これは、地域ベースの古典検出器の2段ヘッドとは異なる新しいタイプの2段ヘッドである。 クエリベースの2ステージヘッドでは、第2ステージは、領域ベースの検出器のように長方形の特徴のグリッドをプールするのとは対照的に、クエリと呼ばれる1つの検出機能を選択する。 本研究では,Deformable DETRからクエリベースのヘッドをさらに改善し,コンバージェンスを大幅に高速化し,性能を向上する。 これはクエリベースのパラダイムにアンカー生成のような古典的なテクニックを取り入れることで実現されている。 古典的およびクエリベースの世界の長所を組み合わせることで、2017年のCOCOバリデーションセットでFQDetのピークは45.4 APであり、ResNet-50+TPNバックボーンを使用しており、1xスケジュールを使用して12のエポックをトレーニングした後のみである。 我々は、カスケードR-CNNのような他の高性能な2段ヘッドよりも、同じバックボーンを使用しながら、計算的に安価であることが多い。 さらに、大規模なResNeXt-101-DCN+TPNバックボーンとマルチスケールテストを使用する場合、トレーニング12時間後の2017 COCO test-devセットで、FQDetヘッドは52.9 APを達成した。 コードはリリースされる。

Recently, two-stage Deformable DETR introduced the query-based two-stage head, a new type of two-stage head different from the region-based two-stage heads of classical detectors as Faster R-CNN. In query-based two-stage heads, the second stage selects one feature per detection, called the query, as opposed to pooling a rectangular grid of features as in region-based detectors. In this work, we further improve the query-based head from Deformable DETR, significantly speeding up the convergence while increasing its performance. This is achieved by incorporating classical techniques such as anchor generation within the query-based paradigm. By combining the best of both the classical and the query-based worlds, our FQDet head peaks at 45.4 AP on the 2017 COCO validation set when using a ResNet-50+TPN backbone, only after training for 12 epochs using the 1x schedule. We outperform other high-performing two-stage heads such as e.g. Cascade R-CNN, while using the same backbone and while often being computationally cheaper. Additionally, when using the large ResNeXt-101-DCN+TPN backbone and multi-scale testing, our FQDet head achieves 52.9 AP on the 2017 COCO test-dev set after only 12 epochs of training. Code will be released.
翻訳日:2022-10-06 14:18:57 公開日:2022-10-05
# clip2latent: DenoisingfusionとCLIPを用いた事前訓練されたStyleGANのテキスト駆動サンプリング

clip2latent: Text driven sampling of a pre-trained StyleGAN using denoising diffusion and CLIP ( http://arxiv.org/abs/2210.02347v1 )

ライセンス: Link先を確認
Justin N. M. Pinkney and Chuan Li(参考訳) 事前学習したCLIPとStyleGANからテキスト・ツー・イメージ・モデルを効率的に作成するための新しい手法を提案する。 外部データや微調整なしに、既存の生成モデルでテキスト駆動サンプリングを可能にする。 これは、CLIP埋め込みに条件付き拡散モデルをトレーニングして、トレーニング済みのStyleGANの潜伏ベクトルをサンプリングすることで実現される。 CLIPのイメージとテキスト埋め込みのアライメントを利用して、条件付き拡散モデルのトレーニングのためにラベル付きデータを必要としないようにする。 clip2latentでは,高速サンプリングによるテキストプロンプトによる高解像度(1024×1024ピクセル)画像の生成,高画質,低トレーニング計算とデータ要求を実現する。 また,よく研究されているstyleganアーキテクチャを使えば,さらに微調整することなく,生成した画像の制御や修正に既存の手法を直接適用することが可能であることを示す。

We introduce a new method to efficiently create text-to-image models from a pre-trained CLIP and StyleGAN. It enables text driven sampling with an existing generative model without any external data or fine-tuning. This is achieved by training a diffusion model conditioned on CLIP embeddings to sample latent vectors of a pre-trained StyleGAN, which we call clip2latent. We leverage the alignment between CLIP's image and text embeddings to avoid the need for any text labelled data for training the conditional diffusion model. We demonstrate that clip2latent allows us to generate high-resolution (1024x1024 pixels) images based on text prompts with fast sampling, high image quality, and low training compute and data requirements. We also show that the use of the well studied StyleGAN architecture, without further fine-tuning, allows us to directly apply existing methods to control and modify the generated images adding a further layer of control to our text-to-image pipeline.
翻訳日:2022-10-06 14:18:26 公開日:2022-10-05
# 頑健な自己監督型単眼深度推定のための画像マスキング

Image Masking for Robust Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2210.02357v1 )

ライセンス: Link先を確認
Hemang Chawla, Kishaan Jeeveswaran, Elahe Arani, Bahram Zonooz(参考訳) 自己教師付き単眼深度推定は3次元シーン理解のための健全なタスクである。 単眼運動推定と共同で学習し,ラベル付きデータを用いずに正確な画素深度を予測する手法がいくつか提案されている。 それでもこれらの手法は、自然やデジタルの腐敗のない理想的な条件下での性能向上に重点を置いている。 対象固有深さ推定においても、一般に閉塞がないと仮定する。 これらの手法は、ロボットや自律運転システムへの信頼性の高い配置が懸念される敵の攻撃にも脆弱である。 自己教師付き単眼深度推定にマスク画像モデリング(mim)を適用する手法であるmimdepthを提案する。 MIMは、事前学習中に一般化可能な特徴を学習するために使われてきたが、単眼深度推定の直接訓練にどのように適応できるかを示す。 実験の結果、MIMDepthはノイズ、ぼかし、気象条件、デジタルアーティファクト、オクルージョン、および標的外敵攻撃に対してより堅牢であることがわかった。

Self-supervised monocular depth estimation is a salient task for 3D scene understanding. Learned jointly with monocular ego-motion estimation, several methods have been proposed to predict accurate pixel-wise depth without using labeled data. Nevertheless, these methods focus on improving performance under ideal conditions without natural or digital corruptions. A general absence of occlusions is assumed even for object-specific depth estimation. These methods are also vulnerable to adversarial attacks, which is a pertinent concern for their reliable deployment on robots and autonomous driving systems. We propose MIMDepth, a method that adapts masked image modeling (MIM) for self-supervised monocular depth estimation. While MIM has been used to learn generalizable features during pre-training, we show how it could be adapted for direct training of monocular depth estimation. Our experiments show that MIMDepth is more robust to noise, blur, weather conditions, digital artifacts, occlusions, as well as untargeted and targeted adversarial attacks.
翻訳日:2022-10-06 14:18:09 公開日:2022-10-05
# SoccerNet 2022の結果に挑戦

SoccerNet 2022 Challenges Results ( http://arxiv.org/abs/2210.02365v1 )

ライセンス: Link先を確認
Silvio Giancola, Anthony Cioppa, Adrien Deli\`ege, Floriane Magera, Vladimir Somers, Le Kang, Xin Zhou, Olivier Barnich, Christophe De Vleeschouwer, Alexandre Alahi, Bernard Ghanem, Marc Van Droogenbroeck, Abdulrahman Darwish, Adrien Maglo, Albert Clap\'es, Andreas Luyts, Andrei Boiarov, Artur Xarles, Astrid Orcesi, Avijit Shah, Baoyu Fan, Bharath Comandur, Chen Chen, Chen Zhang, Chen Zhao, Chengzhi Lin, Cheuk-Yiu Chan, Chun Chuen Hui, Dengjie Li, Fan Yang, Fan Liang, Fang Da, Feng Yan, Fufu Yu, Guanshuo Wang, H. Anthony Chan, He Zhu, Hongwei Kan, Jiaming Chu, Jianming Hu, Jianyang Gu, Jin Chen, Jo\~ao V. B. Soares, Jonas Theiner, Jorge De Corte, Jos\'e Henrique Brito, Jun Zhang, Junjie Li, Junwei Liang, Leqi Shen, Lin Ma, Lingchi Chen, Miguel Santos Marques, Mike Azatov, Nikita Kasatkin, Ning Wang, Qiong Jia, Quoc Cuong Pham, Ralph Ewerth, Ran Song, Rengang Li, Rikke Gade, Ruben Debien, Runze Zhang, Sangrok Lee, Sergio Escalera, Shan Jiang, Shigeyuki Odashima, Shimin Chen, Shoichi Masui, Shouhong Ding, Sin-wai Chan, Siyu Chen, Tallal El-Shabrawy, Tao He, Thomas B. Moeslund, Wan-Chi Siu, Wei Zhang, Wei Li, Xiangwei Wang, Xiao Tan, Xiaochuan Li, Xiaolin Wei, Xiaoqing Ye, Xing Liu, Xinying Wang, Yandong Guo, Yaqian Zhao, Yi Yu, Yingying Li, Yue He, Yujie Zhong, Zhenhua Guo, Zhiheng Li(参考訳) SoccerNet 2022チャレンジは、サッカーネットチームが主催する2回目のビデオ理解チャレンジである。 In 2022, the challenges were composed of 6 vision-based tasks: (1) action spotting, focusing on retrieving action timestamps in long untrimmed videos, (2) replay grounding, focusing on retrieving the live moment of an action shown in a replay, (3) pitch localization, focusing on detecting line and goal part elements, (4) camera calibration, dedicated to retrieving the intrinsic and extrinsic camera parameters, (5) player re-identification, focusing on retrieving the same players across multiple views, and (6) multiple object tracking, focusing on tracking players and the ball through unedited video streams. 昨年の課題と比較すると、タスク(1-2)は、より厳密な時間的アキュラシーを検討するために評価基準を再定義し、基礎となるデータやアノテーションを含むタスク(3-6)は新しくなった。 タスク、課題、およびリーダーボードに関する詳細は、https://www.soccer-net.org.com/で確認できる。 ベースラインと開発キットはhttps://github.com/SoccerNet.comで入手できる。

The SoccerNet 2022 challenges were the second annual video understanding challenges organized by the SoccerNet team. In 2022, the challenges were composed of 6 vision-based tasks: (1) action spotting, focusing on retrieving action timestamps in long untrimmed videos, (2) replay grounding, focusing on retrieving the live moment of an action shown in a replay, (3) pitch localization, focusing on detecting line and goal part elements, (4) camera calibration, dedicated to retrieving the intrinsic and extrinsic camera parameters, (5) player re-identification, focusing on retrieving the same players across multiple views, and (6) multiple object tracking, focusing on tracking players and the ball through unedited video streams. Compared to last year's challenges, tasks (1-2) had their evaluation metrics redefined to consider tighter temporal accuracies, and tasks (3-6) were novel, including their underlying data and annotations. More information on the tasks, challenges and leaderboards are available on https://www.soccer-net.org. Baselines and development kits are available on https://github.com/SoccerNet.
翻訳日:2022-10-06 14:17:53 公開日:2022-10-05
# エンドツーエンドビデオオブジェクト検出のための時空間学習型提案

Spatio-Temporal Learnable Proposals for End-to-End Video Object Detection ( http://arxiv.org/abs/2210.02368v1 )

ライセンス: Link先を確認
Khurram Azeem Hashmi, Didier Stricker, Muhammamd Zeshan Afzal(参考訳) 本稿では,映像オブジェクト検出に時間的情報を活用することによってオブジェクト提案を生成する新しいアイデアを提案する。 現代の領域ベースのビデオオブジェクト検出器の特徴集約は、シングルフレームRPNから生成された学習された提案に大きく依存している。 これはすぐにNMSのような追加のコンポーネントを導入し、低品質のフレームに対する信頼性の低い提案を生み出します。 これらの制約に対処するために,Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。 特に,Sparse R-CNNの動的ヘッドに2つのモジュールを導入する。 まず、時間的roiアライメント操作に基づく時間的特徴抽出モジュールを追加して、roi提案特徴を抽出する。 第2に、シーケンスレベルのセマンティックアグリゲーションによって動機付けられた、注目誘導セマンティック提案特徴集合モジュールを組み込んで、検出前のオブジェクト特徴表現を強化する。 提案するsparsevodは、複雑な後処理メソッドのオーバーヘッドを効果的に軽減し、パイプライン全体をエンドツーエンドでトレーニング可能にする。 大規模実験の結果,本手法は1フレームのSparse RCNNをmAPで8%-9%改善することがわかった。 さらに、ResNet-50バックボーンでImageNet VIDデータセット上で最先端の80.3%のmAPを達成することに加えて、SparseVODはIoU閾値の増大(IoU > 0.5)において、既存の提案ベースのメソッドよりも優れています。

This paper presents the novel idea of generating object proposals by leveraging temporal information for video object detection. The feature aggregation in modern region-based video object detectors heavily relies on learned proposals generated from a single-frame RPN. This imminently introduces additional components like NMS and produces unreliable proposals on low-quality frames. To tackle these restrictions, we present SparseVOD, a novel video object detection pipeline that employs Sparse R-CNN to exploit temporal information. In particular, we introduce two modules in the dynamic head of Sparse R-CNN. First, the Temporal Feature Extraction module based on the Temporal RoI Align operation is added to extract the RoI proposal features. Second, motivated by sequence-level semantic aggregation, we incorporate the attention-guided Semantic Proposal Feature Aggregation module to enhance object feature representation before detection. The proposed SparseVOD effectively alleviates the overhead of complicated post-processing methods and makes the overall pipeline end-to-end trainable. Extensive experiments show that our method significantly improves the single-frame Sparse RCNN by 8%-9% in mAP. Furthermore, besides achieving state-of-the-art 80.3% mAP on the ImageNet VID dataset with ResNet-50 backbone, our SparseVOD outperforms existing proposal-based methods by a significant margin on increasing IoU thresholds (IoU > 0.5).
翻訳日:2022-10-06 14:17:37 公開日:2022-10-05
# Recurrent Self-Reasoning による不調和領域の局在

Inharmonious Region Localization via Recurrent Self-Reasoning ( http://arxiv.org/abs/2210.02036v1 )

ライセンス: Link先を確認
Penghao Wu, Li Niu, Jing Liang, Liqing Zhang(参考訳) 画像編集操作によって生成された合成画像は一般的であるが、操作された領域と背景の間の色や照明の不整合は非現実的である可能性がある。 したがって、合成画像の品質を向上させるために不調和領域を局在化することが重要である。 従来のクラスタリングアルゴリズムにインスパイアされた我々は,UNet構造のボトルネックに新たなRecurrent Self-Reasoning (RSR)モジュールを挿入することで,不調和クラスタとバックグラウンドクラスタの2つのクラスタに画素をグループ化する。 RSRモジュールからのマスク出力は、注意誘導としてデコーダに提供される。 最後に、RSRとデコーダのマスクを適応的に組み合わせ、最終マスクを形成する。 画像調和データセットの実験結果から,提案手法が定量的かつ定性的に競合性能を達成することを示す。

Synthetic images created by image editing operations are prevalent, but the color or illumination inconsistency between the manipulated region and background may make it unrealistic. Thus, it is important yet challenging to localize the inharmonious region to improve the quality of synthetic image. Inspired by the classic clustering algorithm, we aim to group pixels into two clusters: inharmonious cluster and background cluster by inserting a novel Recurrent Self-Reasoning (RSR) module into the bottleneck of UNet structure. The mask output from RSR module is provided for the decoder as attention guidance. Finally, we adaptively combine the masks from RSR and the decoder to form our final mask. Experimental results on the image harmonization dataset demonstrate that our method achieves competitive performance both quantitatively and qualitatively.
翻訳日:2022-10-06 14:11:40 公開日:2022-10-05
# MOTSLAM:単視点深度推定を用いたMOT支援単分子動的SLAM

MOTSLAM: MOT-assisted monocular dynamic SLAM using single-view depth estimation ( http://arxiv.org/abs/2210.02038v1 )

ライセンス: Link先を確認
Hanwei Zhang, Hideaki Uchiyama, Shintaro Ono and Hiroshi Kawasaki(参考訳) 静的シーンをターゲットとした視覚SLAMシステムは、良好な精度と堅牢性で開発されている。 動的3Dオブジェクトトラッキングは、自律運転、拡張現実、バーチャルリアリティーなど、様々なシナリオにおける動的環境を理解する必要性から、視覚SLAMにおいて重要な機能となっている。 しかし, 動的特徴の関連付けや位置推定が困難であるため, 単眼画像のみを用いた動的SLAMの実行は依然として困難な問題である。 本稿では,動的オブジェクトのポーズとバウンディングボックスの両方を追跡するモノクラー構成を持つ動的ビジュアルSLAMシステムMOTSLAMを提案する。 MOTSLAMはまず、2Dと3Dのバウンディングボックス検出に関連する複数のオブジェクト追跡(MOT)を行い、初期3Dオブジェクトを生成する。 次に、ニューラルネットワークに基づく単分子深度推定を適用し、動的特徴の深度を求める。 最後に、カメラポーズ、オブジェクトポーズ、静的および動的マップポイントの両方を、新しいバンドル調整を用いて共同最適化する。 KITTIデータセットを用いた実験により,カメラのエゴモーションとモノラルな動的SLAMでの物体追跡の両方において,我々のシステムが最高の性能を示した。

Visual SLAM systems targeting static scenes have been developed with satisfactory accuracy and robustness. Dynamic 3D object tracking has then become a significant capability in visual SLAM with the requirement of understanding dynamic surroundings in various scenarios including autonomous driving, augmented and virtual reality. However, performing dynamic SLAM solely with monocular images remains a challenging problem due to the difficulty of associating dynamic features and estimating their positions. In this paper, we present MOTSLAM, a dynamic visual SLAM system with the monocular configuration that tracks both poses and bounding boxes of dynamic objects. MOTSLAM first performs multiple object tracking (MOT) with associated both 2D and 3D bounding box detection to create initial 3D objects. Then, neural-network-based monocular depth estimation is applied to fetch the depth of dynamic features. Finally, camera poses, object poses, and both static, as well as dynamic map points, are jointly optimized using a novel bundle adjustment. Our experiments on the KITTI dataset demonstrate that our system has reached best performance on both camera ego-motion and object tracking on monocular dynamic SLAM.
翻訳日:2022-10-06 14:11:25 公開日:2022-10-05
# 分散オブジェクトの追跡と検索のための2つのビデオデータセット

Two Video Data Sets for Tracking and Retrieval of Out of Distribution Objects ( http://arxiv.org/abs/2210.02074v1 )

ライセンス: Link先を確認
Kira Maag, Robin Chan, Svenja Uhlemeyer, Kamil Kowol and Hanno Gottschalk(参考訳) 本研究では,out of distribution tracking(ood tracking)という新しいコンピュータビジョン(cv)タスクのための2つのビデオテストデータセットを提案する。 ここでは、OODオブジェクトは、下層のイメージセグメンテーションアルゴリズムのセマンティクス空間の外にあるセマンティクスクラスを持つオブジェクト、あるいは、トレーニングデータに含まれるインスタンスと決定的に異なるように見えるセマンティクス空間内のインスタンスとして理解される。 ビデオシーケンスで発生するOODオブジェクトは、できるだけ早く単一のフレームで検出し、その出現時間を可能な限り長く追跡する必要がある。 外観の段階では、できるだけ正確に区切らなければならない。 我々は,最大2つのOODオブジェクトを持つ20の街路シーンと1000以上のラベル付きフレームを含むSOSデータセットを提案する。 さらに,最大4つのOODオブジェクトを含む26の動画シーケンスからなる合成CARLA-WildLifeデータセットを1フレームで公開する。 我々は,OODトラッキングの成功を測定する指標を提案し,OODオブジェクトを効率的に追跡するベースラインアルゴリズムを開発した。 OODトラッキングの利点を生かしたアプリケーションとして、OODオブジェクトを含むストリートシーンのラベルなしビデオからOODシーケンスを検索する。

In this work we present two video test data sets for the novel computer vision (CV) task of out of distribution tracking (OOD tracking). Here, OOD objects are understood as objects with a semantic class outside the semantic space of an underlying image segmentation algorithm, or an instance within the semantic space which however looks decisively different from the instances contained in the training data. OOD objects occurring on video sequences should be detected on single frames as early as possible and tracked over their time of appearance as long as possible. During the time of appearance, they should be segmented as precisely as possible. We present the SOS data set containing 20 video sequences of street scenes and more than 1000 labeled frames with up to two OOD objects. We furthermore publish the synthetic CARLA-WildLife data set that consists of 26 video sequences containing up to four OOD objects on a single frame. We propose metrics to measure the success of OOD tracking and develop a baseline algorithm that efficiently tracks the OOD objects. As an application that benefits from OOD tracking, we retrieve OOD sequences from unlabeled videos of street scenes containing OOD objects.
翻訳日:2022-10-06 14:11:07 公開日:2022-10-05
# 自己教師型マスクオートエンコーダにおける平均教師の役割を探る

Exploring The Role of Mean Teachers in Self-supervised Masked Auto-Encoders ( http://arxiv.org/abs/2210.02077v1 )

ライセンス: Link先を確認
Youngwan Lee, Jeffrey Willette, Jonghee Kim, Juho Lee, Sung Ju Hwang(参考訳) マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。 代表的MIMモデルであるマスク付きオートエンコーダ(MAE)は、画像パッチのサブセットをランダムにマスキングし、マスクされたパッチをアンマスクしたパッチで再構築する。 同時に,前学生の指数移動平均(EMA)からなる教師の出力に基づいて,生徒に追加的な目標を与える,学生/教師パラダイムを利用した自己教師型学習の研究も数多く行われている。 普通ではあるが、生徒と教師の相互作用のダイナミクスについては比較的知られていない。 簡単な線形モデルの解析により,教師は条件運動量正規化器として効果的に機能する特徴的類似性に基づいて,事前の勾配方向を条件付きで除去する。 そこで本研究では,簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。 我々はrc-maeの収束が高速で、事前訓練中の最先端の自己蒸留法よりも少ないメモリ使用量を必要とすることを見出し、視覚トランスフォーマーモデルの禁断的に高価な自己教師付き学習の実用性を高める方法を提供する。 さらに, RC-MAEは, ImageNet-1K分類, オブジェクト検出, インスタンスセグメンテーションといった下流タスクのMAEと比較して, より堅牢性と性能が向上していることを示す。

Masked image modeling (MIM) has become a popular strategy for self-supervised learning~(SSL) of visual representations with Vision Transformers. A representative MIM model, the masked auto-encoder (MAE), randomly masks a subset of image patches and reconstructs the masked patches given the unmasked patches. Concurrently, many recent works in self-supervised learning utilize the student/teacher paradigm which provides the student with an additional target based on the output of a teacher composed of an exponential moving average (EMA) of previous students. Although common, relatively little is known about the dynamics of the interaction between the student and teacher. Through analysis on a simple linear model, we find that the teacher conditionally removes previous gradient directions based on feature similarities which effectively acts as a conditional momentum regularizer. From this analysis, we present a simple SSL method, the Reconstruction-Consistent Masked Auto-Encoder (RC-MAE) by adding an EMA teacher to MAE. We find that RC-MAE converges faster and requires less memory usage than state-of-the-art self-distillation methods during pre-training, which may provide a way to enhance the practicality of prohibitively expensive self-supervised learning of Vision Transformer models. Additionally, we show that RC-MAE achieves more robustness and better performance compared to MAE on downstream tasks such as ImageNet-1K classification, object detection, and instance segmentation.
翻訳日:2022-10-06 14:10:49 公開日:2022-10-05
# 応答前の場所:ビデオ質問応答における解答誘導質問定位

Locate before Answering: Answer Guided Question Localization for Video Question Answering ( http://arxiv.org/abs/2210.02081v1 )

ライセンス: Link先を確認
Tianwen Qian, Ran Cui, Jingjing Chen, Pai Peng, Xiaowei Guo, and Yu-Gang Jiang(参考訳) ビデオ質問応答(VideoQA)は視覚言語理解において重要な課題であり、近年多くの研究が注目されている。 それでも、既存の作品は15秒以内の短いビデオで有望なパフォーマンスを実現している。 分単位の長期ビデオのvideoqaでは、シーンの変更や複数のアクションによって生じるノイズや冗長性に対処する能力が欠如しているため、これらの方法は失敗する可能性が高い。 質問が短時間の時間範囲に集中していることを考えると,まずビデオ中のセグメントに質問を配置し,そのセグメントのみを用いて回答を推測することを提案する。 この方式では,質問ロケータと回答予測器をエンドツーエンドモデルに統合した新しいアプローチである「解答前位置」(locans)を提案する。 トレーニングフェーズの間、利用可能な回答ラベルは、回答予測器の監視信号として機能するだけでなく、質問ロケータの擬似時間ラベルを生成するためにも使用される。 さらに,2つのモジュールを別々に更新するために,分離した代替トレーニング戦略を設計する。 実験では、LocAnsは2つの最新の長期ビデオQAデータセットNExT-QAとActivityNet-QAの最先端のパフォーマンスを達成し、その定性的な例は質問ローカライゼーションの信頼性を示す。

Video question answering (VideoQA) is an essential task in vision-language understanding, which has attracted numerous research attention recently. Nevertheless, existing works mostly achieve promising performances on short videos of duration within 15 seconds. For VideoQA on minute-level long-term videos, those methods are likely to fail because of lacking the ability to deal with noise and redundancy caused by scene changes and multiple actions in the video. Considering the fact that the question often remains concentrated in a short temporal range, we propose to first locate the question to a segment in the video and then infer the answer using the located segment only. Under this scheme, we propose "Locate before Answering" (LocAns), a novel approach that integrates a question locator and an answer predictor into an end-to-end model. During the training phase, the available answer label not only serves as the supervision signal of the answer predictor, but also is used to generate pseudo temporal labels for the question locator. Moreover, we design a decoupled alternative training strategy to update the two modules separately. In the experiments, LocAns achieves state-of-the-art performance on two modern long-term VideoQA datasets NExT-QA and ActivityNet-QA, and its qualitative examples show the reliable performance of the question localization.
翻訳日:2022-10-06 14:10:25 公開日:2022-10-05
# Jitterが重要:新しいドメインにゲイズ推定を適用する

Jitter Does Matter: Adapting Gaze Estimation to New Domains ( http://arxiv.org/abs/2210.02082v1 )

ライセンス: Link先を確認
Ruicong Liu, Yiwei Bao, Mingjie Xu, Haofei Wang, Yunfei Liu, Feng Lu(参考訳) ディープニューラルネットワークは、外観に基づく視線推定タスクにおいて優れた性能を示している。 しかし、人、照度、背景の変化により、新しいドメインにモデルを適用する場合、パフォーマンスは劇的に低下する。 本稿では,異なる領域の視線推定において興味深い視線ジッタ現象,すなわち2つの類似画像の視線予測が対象領域において著しくずれることを見いだす。 これはドメイン間視線推定タスクと密接に関連しているが、驚くべきことに、これまでは気付かなかった。 そこで本稿では,ガウン領域適応タスクの分析と最適化にガウンジジッタを利用することを革新的に提案する。 高周波成分(HFC)がジッタに繋がる重要な因子であることがわかった。 この発見に基づいて, 逆方向攻撃を用いた画像入力に高周波数成分を加え, コントラスト学習を用いて, モデルが元のデータと摂動データの類似表現を得るように促し, HFCの影響を低減する。 提案手法を4つの領域間視線推定タスクで評価し、実験結果から視線ジッタを著しく低減し、対象領域における視線推定性能を向上させることを示した。

Deep neural networks have demonstrated superior performance on appearance-based gaze estimation tasks. However, due to variations in person, illuminations, and background, performance degrades dramatically when applying the model to a new domain. In this paper, we discover an interesting gaze jitter phenomenon in cross-domain gaze estimation, i.e., the gaze predictions of two similar images can be severely deviated in target domain. This is closely related to cross-domain gaze estimation tasks, but surprisingly, it has not been noticed yet previously. Therefore, we innovatively propose to utilize the gaze jitter to analyze and optimize the gaze domain adaptation task. We find that the high-frequency component (HFC) is an important factor that leads to jitter. Based on this discovery, we add high-frequency components to input images using the adversarial attack and employ contrastive learning to encourage the model to obtain similar representations between original and perturbed data, which reduces the impacts of HFC. We evaluate the proposed method on four cross-domain gaze estimation tasks, and experimental results demonstrate that it significantly reduces the gaze jitter and improves the gaze estimation performance in target domains.
翻訳日:2022-10-06 14:09:59 公開日:2022-10-05
# WUDA: 弱源ドメインラベルに基づく教師なしドメイン適応

WUDA: Unsupervised Domain Adaptation Based on Weak Source Domain Labels ( http://arxiv.org/abs/2210.02088v1 )

ライセンス: Link先を確認
Shengjie Liu, Chuang Zhu, Wenqi Tang(参考訳) セグメンテーションのための教師なしドメイン適応(UDA)は、細かなソースドメインラベルを持つクロスドメイン問題に対処する。 しかし、セマンティックラベルの取得は常に難しいステップであり、多くのシナリオは弱いラベル(バウンディングボックスなど)しか持たない。 本稿では,弱ソースドメインラベル(WUDA)に基づく非教師付きドメイン適応(unsupervised domain adapt)という新たな課題を,弱管理とクロスドメイン問題が共存するシナリオで定義する。 そこで本研究では,2つの直感的なフレームワークを提案する。 1) ソースドメイン内の弱教師付きセマンティックセグメンテーションを実行し、非教師付きドメイン適応を実装する。 2) ソースドメインデータを用いてオブジェクト検出モデルをトレーニングし、対象ドメイン内のオブジェクトを検出し、弱い教師付きセマンティックセグメンテーションを実装する。 データセットが変化すると、2つのフレームワークが異なる振る舞いをするのを観察します。 したがって、幅広いドメインシフトを持つデータセットペアを構築し、異なるドメインシフトが2つのフレームワークに与える影響を分析するために拡張実験を行う。 さらに,領域シフトを測定するために,まず,都市景観画像のセグメンテーションに計量表現シフトを適用する。 ソースコードと構築されたデータセットは \url{https://github.com/bupt-ai-cz/WUDA} で入手できる。

Unsupervised domain adaptation (UDA) for semantic segmentation addresses the cross-domain problem with fine source domain labels. However, the acquisition of semantic labels has always been a difficult step, many scenarios only have weak labels (e.g. bounding boxes). For scenarios where weak supervision and cross-domain problems coexist, this paper defines a new task: unsupervised domain adaptation based on weak source domain labels (WUDA). To explore solutions for this task, this paper proposes two intuitive frameworks: 1) Perform weakly supervised semantic segmentation in the source domain, and then implement unsupervised domain adaptation; 2) Train an object detection model using source domain data, then detect objects in the target domain and implement weakly supervised semantic segmentation. We observe that the two frameworks behave differently when the datasets change. Therefore, we construct dataset pairs with a wide range of domain shifts and conduct extended experiments to analyze the impact of different domain shifts on the two frameworks. In addition, to measure domain shift, we apply the metric representation shift to urban landscape image segmentation for the first time. The source code and constructed datasets are available at \url{https://github.com/bupt-ai-cz/WUDA}.
翻訳日:2022-10-06 14:09:40 公開日:2022-10-05
# オブジェクト検出のための集中型特徴ピラミッド

Centralized Feature Pyramid for Object Detection ( http://arxiv.org/abs/2210.02093v1 )

ライセンス: Link先を確認
Yu Quan, Dong Zhang, Liyan Zhang, Jinhui Tang(参考訳) visual feature pyramidは、幅広いアプリケーションで有効性と効率性の両方において優れていることを示している。 しかし, 既存の手法では, 層間相互作用に重点を置きつつ, 実験上有益である層内特徴規則を無視している。 注意機構や視覚変換器の助けを借りて、コンパクトな層内特徴表現を学習しようとする手法もあるが、密集予測タスクにおいて重要な無視されたコーナー領域を無視する手法もある。 この問題に対処するため,本稿では,グローバルに明示的な集中型特徴規則に基づく物体検出のための集中型特徴ピラミッド(cfp)を提案する。 具体的には,まず空間的明示的な視覚センタスキームを提案する。このスキームでは,大域的長距離依存性をライトウェイトなmlpでキャプチャし,入力画像の局所的コーナー領域を並列学習可能な視覚センタ機構を用いてキャプチャする。 そこで,本研究では,最深層内特徴から得られる視覚中心情報を用いて,前頭葉の浅部特徴の制御を行う,一般的な特徴ピラミッドをトップダウン方式でグローバルに一元管理する手法を提案する。 既存の機能ピラミッドと比較すると、CFPはグローバルな長距離依存関係をキャプチャするだけでなく、全周で差別的な特徴表現を効率的に得ることができる。 提案したCFPは,最先端のYOLOv5およびYOLOXオブジェクト検出ベースラインにおいて一貫した性能向上を達成できることを示す。

Visual feature pyramid has shown its superiority in both effectiveness and efficiency in a wide range of applications. However, the existing methods exorbitantly concentrate on the inter-layer feature interactions but ignore the intra-layer feature regulations, which are empirically proved beneficial. Although some methods try to learn a compact intra-layer feature representation with the help of the attention mechanism or the vision transformer, they ignore the neglected corner regions that are important for dense prediction tasks. To address this problem, in this paper, we propose a Centralized Feature Pyramid (CFP) for object detection, which is based on a globally explicit centralized feature regulation. Specifically, we first propose a spatial explicit visual center scheme, where a lightweight MLP is used to capture the globally long-range dependencies and a parallel learnable visual center mechanism is used to capture the local corner regions of the input images. Based on this, we then propose a globally centralized regulation for the commonly-used feature pyramid in a top-down fashion, where the explicit visual center information obtained from the deepest intra-layer feature is used to regulate frontal shallow features. Compared to the existing feature pyramids, CFP not only has the ability to capture the global long-range dependencies, but also efficiently obtain an all-round yet discriminative feature representation. Experimental results on the challenging MS-COCO validate that our proposed CFP can achieve the consistent performance gains on the state-of-the-art YOLOv5 and YOLOX object detection baselines.
翻訳日:2022-10-06 14:09:20 公開日:2022-10-05
# Decanus to Legatus:2D-3D人間のポーズリフトのための合成トレーニング

Decanus to Legatus: Synthetic training for 2D-3D human pose lifting ( http://arxiv.org/abs/2210.02231v1 )

ライセンス: Link先を確認
Yue Zhu, David Picard(参考訳) 3次元人間のポーズ推定は、制御された環境外の地中データを取得するのが難しいため、難しい課題である。 さまざまなデータセット間のドメイン間ギャップ、トレーニングとテストデータセット間の未認識のアクション、さまざまなハードウェア設定、アノテーションの高コストなどだ。 本稿では,2次元から3次元のポーズリフトニューラルネットワークのトレーニング中に,手作りの10個の3Dポーズ(デカナス)に基づいて,無限に合成された3Dポーズ(Legatus)を生成するアルゴリズムを提案する。 提案手法は,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの一般化可能性を示す。

3D human pose estimation is a challenging task because of the difficulty to acquire ground-truth data outside of controlled environments. A number of further issues have been hindering progress in building a universal and robust model for this task, including domain gaps between different datasets, unseen actions between train and test datasets, various hardware settings and high cost of annotation, etc. In this paper, we propose an algorithm to generate infinite 3D synthetic human poses (Legatus) from a 3D pose distribution based on 10 initial handcrafted 3D poses (Decanus) during the training of a 2D to 3D human pose lifter neural network. Our results show that we can achieve 3D pose estimation performance comparable to methods using real data from specialized datasets but in a zero-shot setup, showing the generalization potential of our framework.
翻訳日:2022-10-06 14:08:29 公開日:2022-10-05
# 連続構造推定によるマルチカメラ協調深さ予測

Multi-Camera Collaborative Depth Prediction via Consistent Structure Estimation ( http://arxiv.org/abs/2210.02009v1 )

ライセンス: Link先を確認
Jialei Xu, Xianming Liu, Yuanchao Bai, Junjun Jiang, Kaixuan Wang, Xiaozhi Chen, Xiangyang Ji(参考訳) 画像からの深度マップ推定はロボットシステムにおいて重要な課題である。 既存の方法は、多視点ステレオと単眼深度推定を含む2つのグループに分類できる。 前者はカメラの間に大きな重複領域と十分なベースラインを持つことを要求し、後者は各画像を独立して処理し、後者はカメラ間の構造一貫性をほとんど保証しない。 本稿では,カメラ間の構造整合性を維持しつつ,大きな重なり合う領域を必要としないマルチカメラ協調深度予測手法を提案する。 具体的には,提案する一貫性損失による改良ネットワークによって重み付けを反復的に更新する深さ基底の重み付け結合として深さ推定を定式化する。 反復更新では,深度推定の結果をカメラ間で比較し,重なり領域の情報を基本定式化することにより深度マップ全体に伝播する。 DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。

Depth map estimation from images is an important task in robotic systems. Existing methods can be categorized into two groups including multi-view stereo and monocular depth estimation. The former requires cameras to have large overlapping areas and sufficient baseline between cameras, while the latter that processes each image independently can hardly guarantee the structure consistency between cameras. In this paper, we propose a novel multi-camera collaborative depth prediction method that does not require large overlapping areas while maintaining structure consistency between cameras. Specifically, we formulate the depth estimation as a weighted combination of depth basis, in which the weights are updated iteratively by a refinement network driven by the proposed consistency loss. During the iterative update, the results of depth estimation are compared across cameras and the information of overlapping areas is propagated to the whole depth maps with the help of basis formulation. Experimental results on DDAD and NuScenes datasets demonstrate the superior performance of our method.
翻訳日:2022-10-06 14:01:45 公開日:2022-10-05
# InterFace: ディープラーニングのための調整可能なAngular Marginクラス間損失

InterFace:Adjustable Angular Margin Inter-class Loss for Deep Face Recognition ( http://arxiv.org/abs/2210.02018v1 )

ライセンス: Link先を確認
Meng Sang, Jiaxuan Chen, Mengzhen Li, Pan Tan, Anning Pan, Shang Zhao, Yang Yang(参考訳) 顔認識の分野では,ネットワークによって抽出された顔特徴の識別能力を高めるためのロスソリューションを改善することは,常にホットな研究課題である。 近年の研究により、ソフトマックスをコサイン空間に段階的に正規化し、クラス内距離を減少させクラス間距離を増加させることで、顔モデルの判別能力が向上している。 境界ペナルティを最適化してモデルの識別力を向上させるために、これまで多くの作業がなされてきたが、奥行き特性に一定のマージンペナルティを加え、それに対応する重量は実際のシナリオにおけるデータのパターンと一致しない。 本稿では,新しい損失関数であるインタフェースを提案し,深さ特徴とそれに対応する重みの間にマージンペナルティを追加する制約を解除し,深さ特徴と全ての重みの間に対応するマージンペナルティを付加することにより,クラスの分離性を押し上げる。 固定ペナルティマージンに対するインターフェースの利点を説明するために、主要なベンチマークセットで幾何学的および比較を行った。 より広い視点から見ると、InterFaceは13の主流ベンチマークのうち5つで最先端の顔認識性能を向上しました。 すべてのトレーニングコード、事前トレーニングされたモデル、トレーニングログは、公にリリースされた \footnote{$https://github.com/iamsangmeng/interface$} である。

In the field of face recognition, it is always a hot research topic to improve the loss solution to make the face features extracted by the network have greater discriminative power. Research works in recent years has improved the discriminative power of the face model by normalizing softmax to the cosine space step by step and then adding a fixed penalty margin to reduce the intra-class distance to increase the inter-class distance. Although a great deal of previous work has been done to optimize the boundary penalty to improve the discriminative power of the model, adding a fixed margin penalty to the depth feature and the corresponding weight is not consistent with the pattern of data in the real scenario. To address this issue, in this paper, we propose a novel loss function, InterFace, releasing the constraint of adding a margin penalty only between the depth feature and the corresponding weight to push the separability of classes by adding corresponding margin penalties between the depth features and all weights. To illustrate the advantages of InterFace over a fixed penalty margin, we explained geometrically and comparisons on a set of mainstream benchmarks. From a wider perspective, our InterFace has advanced the state-of-the-art face recognition performance on five out of thirteen mainstream benchmarks. All training codes, pre-trained models, and training logs, are publicly released \footnote{$https://github.com/iamsangmeng/InterFace$}.
翻訳日:2022-10-06 14:01:29 公開日:2022-10-05
# ファウショット物体検出のための効果的な知識伝達の探索

Exploring Effective Knowledge Transfer for Few-shot Object Detection ( http://arxiv.org/abs/2210.02021v1 )

ライセンス: Link先を確認
Zhiyuan Zhao, Qingjie Liu, Yunhong Wang(参考訳) 近年,fsod(non-shot object detection)がコミュニティから注目を集め,知識伝達の観点からこの問題に対処するための手法が数多く提案されている。 有望な結果が得られたが、これらの方法はショット安定には至らなかった:~ ローショットレジームで優れているメソッドは、ハイショットレジームで苦労する可能性が高い。 fsodの主な課題は、ショット数が変化すると変わるからだ、と私たちは信じています。 低ショットのシステムでは、主な課題は内部クラスのバリエーションの欠如である。 高ショット方式では、分散が実分布に近づくと、性能の主な障害は学習分布と真の分布の間の不一致である。 しかし、これらの2つの問題は既存のFSOD法では未解決のままである。 本稿では,モデルが学んだ豊富な知識を活用して,これらの課題を克服し,新しいクラスに効果的に移行することを提案する。 低ショット方式では,内部クラス変動問題に対処できる分散キャリブレーション手法を提案する。 一方,微調整時の分散シフトを補償するシフト補償法が提案されている。 高ショット方式では,imagenet から学んだ知識を微調整段階における特徴学習の指導として利用し,新たなクラスの分布を暗黙的に整えることを提案する。 異なる体制をターゲットにしているが、これらの2つの戦略はFSODのパフォーマンスをさらに向上するために協力することができる。 VOCとCOCOのベンチマーク実験により,提案手法はベースライン法を著しく上回り,低ショット設定 (shot<5) と高ショット設定 (shot>=5) の競争結果が得られることが示された。 コードはhttps://github.com/juliozhao97/efftrans_fsdet.gitで入手できる。

Recently, few-shot object detection~(FSOD) has received much attention from the community, and many methods are proposed to address this problem from a knowledge transfer perspective. Though promising results have been achieved, these methods fail to achieve shot-stable:~methods that excel in low-shot regimes are likely to struggle in high-shot regimes, and vice versa. We believe this is because the primary challenge of FSOD changes when the number of shots varies. In the low-shot regime, the primary challenge is the lack of inner-class variation. In the high-shot regime, as the variance approaches the real one, the main hindrance to the performance comes from misalignment between learned and true distributions. However, these two distinct issues remain unsolved in most existing FSOD methods. In this paper, we propose to overcome these challenges by exploiting rich knowledge the model has learned and effectively transferring them to the novel classes. For the low-shot regime, we propose a distribution calibration method to deal with the lack of inner-class variation problem. Meanwhile, a shift compensation method is proposed to compensate for possible distribution shift during fine-tuning. For the high-shot regime, we propose to use the knowledge learned from ImageNet as guidance for the feature learning in the fine-tuning stage, which will implicitly align the distributions of the novel classes. Although targeted toward different regimes, these two strategies can work together to further improve the FSOD performance. Experiments on both the VOC and COCO benchmarks show that our proposed method can significantly outperform the baseline method and produce competitive results in both low-shot settings (shot<5) and high-shot settings (shot>=5). Code is available at https://github.com/JulioZhao97/EffTrans_Fsdet.git.
翻訳日:2022-10-06 14:01:04 公開日:2022-10-05
# GMMSeg:ガウス混合に基づく生成セマンティックセマンティックセグメンテーションモデル

GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models ( http://arxiv.org/abs/2210.02025v1 )

ライセンス: Link先を確認
Chen Liang, Wenguan Wang, Jiaxu Miao, Yi Yang(参考訳) 一般的なセマンティックセグメンテーションソリューションは、本質的には、p(class|pixel feature)の密な判別分類器である。 このデファクトパラダイムは単純ではあるが、基盤となるデータ分散p(pixel feature|class)を無視し、分散データの識別に苦労している。 これとは別に、我々はgmmsegという新しいセグメンテーションモデルを提案している。これはジョイント分布p(ピクセル特徴、クラス)の高密度生成型分類器に依存する。 各クラスに対して、GMMSegはクラス条件密度をキャプチャするために、期待最大化(EM)を介してガウス混合モデル(GMM)を構築する。 一方、濃密表現は、識別的な方法で、すなわちp(クラス|ピクセル特徴)を最大化するエンドツーエンドの訓練である。 このendows gmmsegは、生成モデルと識別モデルの双方の強みを持つ。 さまざまなセグメンテーションアーキテクチャとバックボーンにより、GMMSegは3つのクローズドセットデータセットにおいて差別的処理よりも優れています。 さらに印象的なことに、GMMSegは変更なしに、オープンワールドのデータセットでもうまく機能する。 この研究は、関連する分野に基本的な洞察をもたらしていると考えています。

Prevalent semantic segmentation solutions are, in essence, a dense discriminative classifier of p(class|pixel feature). Though straightforward, this de facto paradigm neglects the underlying data distribution p(pixel feature|class), and struggles to identify out-of-distribution data. Going beyond this, we propose GMMSeg, a new family of segmentation models that rely on a dense generative classifier for the joint distribution p(pixel feature,class). For each class, GMMSeg builds Gaussian Mixture Models (GMMs) via Expectation-Maximization (EM), so as to capture class-conditional densities. Meanwhile, the deep dense representation is end-to-end trained in a discriminative manner, i.e., maximizing p(class|pixel feature). This endows GMMSeg with the strengths of both generative and discriminative models. With a variety of segmentation architectures and backbones, GMMSeg outperforms the discriminative counterparts on three closed-set datasets. More impressively, without any modification, GMMSeg even performs well on open-world datasets. We believe this work brings fundamental insights into the related fields.
翻訳日:2022-10-06 14:00:34 公開日:2022-10-05
# 補助的特徴を持つ不調和領域の局在

Inharmonious Region Localization with Auxiliary Style Feature ( http://arxiv.org/abs/2210.02029v1 )

ライセンス: Link先を確認
Penghao Wu, Li Niu, Liqing Zhang(参考訳) 画像編集技術の普及により、ユーザは素晴らしい合成画像を作成することができるが、画像の品質は、操作された領域と背景の間の色/照度差によって損なわれる可能性がある。 不調和領域の局在化は、不調和領域を合成画像でローカライズすることを目的としている。 本研究では,この作業を容易にするために補助的なスタイル機能を活用する。 具体的には,新しいカラーマッピングモジュールとスタイル特徴損失を提案し,タスク関連色/輝度情報を含む識別スタイル特徴を抽出する。 また,抽出したスタイルの特徴に基づいて,不調和領域の局所化を導く新しいスタイル投票モジュールを提案する。 さらに,さらに改良を図るために,文体投票モジュールに意味情報を導入する。 提案手法はベンチマークデータセットにおいて,既存の手法をはるかに上回っている。

With the prevalence of image editing techniques, users can create fantastic synthetic images, but the image quality may be compromised by the color/illumination discrepancy between the manipulated region and background. Inharmonious region localization aims to localize the inharmonious region in a synthetic image. In this work, we attempt to leverage auxiliary style feature to facilitate this task. Specifically, we propose a novel color mapping module and a style feature loss to extract discriminative style features containing task-relevant color/illumination information. Based on the extracted style features, we also propose a novel style voting module to guide the localization of inharmonious region. Moreover, we introduce semantic information into the style voting module to achieve further improvement. Our method surpasses the existing methods by a large margin on the benchmark dataset.
翻訳日:2022-10-06 14:00:17 公開日:2022-10-05
# 位置-構造間アテンション変換器を用いた点雲認識

Point Cloud Recognition with Position-to-Structure Attention Transformers ( http://arxiv.org/abs/2210.02030v1 )

ライセンス: Link先を確認
Zheng Ding, James Hou, Zhuowen Tu(参考訳) 本稿では,3次元点クラウド認識のためのトランスフォーマティブ・アルゴリズムであるps-former( position-to-structure attention transformers)を提案する。 PS-Formerは、固定グリッド構造に点が配置されず、限られた特徴記述(散在する点に対して3D座標(x, y, z$)のみ)を持つ3Dポイントクラウド表現の課題に対処する。 この領域の既存のTransformerベースのアーキテクチャは、しばしばポイントを抽出するために、事前に定義された機能エンジニアリングステップを必要とする。 ここではPS-Formerの2つの新しい側面を紹介する。 1)ポイントダウンサンプリングおよび特徴抽出を行う学習可能な凝縮層、 2) 位置注意分岐により構造情報を再帰的に高める位置から構造への注意機構。 競合する手法と比較すると、ヒューリスティックな特徴設計は少ないが、ps-formerは分類、部分分割、シーンセグメンテーションを含む3つの3dポイントクラウドタスクで競合する実験結果を示している。

In this paper, we present Position-to-Structure Attention Transformers (PS-Former), a Transformer-based algorithm for 3D point cloud recognition. PS-Former deals with the challenge in 3D point cloud representation where points are not positioned in a fixed grid structure and have limited feature description (only 3D coordinates ($x, y, z$) for scattered points). Existing Transformer-based architectures in this domain often require a pre-specified feature engineering step to extract point features. Here, we introduce two new aspects in PS-Former: 1) a learnable condensation layer that performs point downsampling and feature extraction; and 2) a Position-to-Structure Attention mechanism that recursively enriches the structural information with the position attention branch. Compared with the competing methods, while being generic with less heuristics feature designs, PS-Former demonstrates competitive experimental results on three 3D point cloud tasks including classification, part segmentation, and scene segmentation.
翻訳日:2022-10-06 14:00:07 公開日:2022-10-05
# in-the-wildビデオからの眼球接触セグメンテーションの学習

Learning Video-independent Eye Contact Segmentation from In-the-Wild Videos ( http://arxiv.org/abs/2210.02033v1 )

ライセンス: Link先を確認
Tianyi Wu and Yusuke Sugano(参考訳) 人間の目の接触は非言語コミュニケーションの一形態であり、社会的行動に大きな影響を与えうる。 眼接触目標の位置や大きさはビデオによって異なるため、汎用的な眼接触検出器の学習は依然として難しい課題である。 本研究では,野生の映像における片方向眼球接触検出の課題に対処する。 私たちの目標は、任意の入力ビデオで自分の視線目標を見ているときに識別できる統一モデルを作ることです。 時系列の相対眼球運動情報を必要とすることを考慮し,タスクを時間分割として定式化することを提案する。 ラベル付きトレーニングデータの不足により,ラベル付きビデオの擬似ラベル生成のための視線目標探索法も提案している。 提案手法を評価するために,人間の会話の52ビデオからなるテストデータセットを手作業でアノテートした。 実験結果から,眼球接触セグメンテーションモデルは従来の映像依存型眼球接触検出装置よりも優れており,アノテートテストセットでは71.88%の精度が達成できることがわかった。 コードと評価データセットはhttps://github.com/ut-vision/Video-Independent-ECSで公開されています。

Human eye contact is a form of non-verbal communication and can have a great influence on social behavior. Since the location and size of the eye contact targets vary across different videos, learning a generic video-independent eye contact detector is still a challenging task. In this work, we address the task of one-way eye contact detection for videos in the wild. Our goal is to build a unified model that can identify when a person is looking at his gaze targets in an arbitrary input video. Considering that this requires time-series relative eye movement information, we propose to formulate the task as a temporal segmentation. Due to the scarcity of labeled training data, we further propose a gaze target discovery method to generate pseudo-labels for unlabeled videos, which allows us to train a generic eye contact segmentation model in an unsupervised way using in-the-wild videos. To evaluate our proposed approach, we manually annotated a test dataset consisting of 52 videos of human conversations. Experimental results show that our eye contact segmentation model outperforms the previous video-dependent eye contact detector and can achieve 71.88% framewise accuracy on our annotated test set. Our code and evaluation dataset are available at https://github.com/ut-vision/Video-Independent-ECS.
翻訳日:2022-10-06 13:59:37 公開日:2022-10-05
# 一発顔アニメーションのための幾何駆動プログレッシブワーピング

Geometry Driven Progressive Warping for One-Shot Face Animation ( http://arxiv.org/abs/2210.02391v1 )

ライセンス: Link先を確認
Yatao Zhong, Faezeh Amjadi, Ilya Zharkov(参考訳) Face animationは、アニメーションのポーズと表情で写真リアルなポートレートビデオを作成することを目的としている。 一般的なプラクティスは、ピクセルや特徴をソースからターゲットへゆがめるために使われる変位場を生成することである。 しかし、以前の試みは、しばしば準最適変位を生み出す。 本研究では,幾何駆動モデルを提案し,3次元顔表現型変位マップとポーズ付きニューラルコードという2つの幾何学的パターンを提案する。 モデルでは、任意のパターンの1つを変位推定のガイダンスとして使用できる。 顔モデル(毛髪など)で覆われていない場所での変位をモデル化するため,画像の特徴を文脈情報として活用し,解像度の増大に伴う特徴変形と変位推定を交互に行うプログレッシブ・ワーピング・モジュールを提案する。 提案モデルでは,高忠実度で映像を合成し,VoxCeleb1 と VoxCeleb2 のデータセットを用いて,クロスアイデンティティと同一の同一性再構成を実現する。

Face animation aims at creating photo-realistic portrait videos with animated poses and expressions. A common practice is to generate displacement fields that are used to warp pixels and features from source to target. However, prior attempts often produce sub-optimal displacements. In this work, we present a geometry driven model and propose two geometric patterns as guidance: 3D face rendered displacement maps and posed neural codes. The model can optionally use one of the patterns as guidance for displacement estimation. To model displacements at locations not covered by the face model (e.g., hair), we resort to source image features for contextual information and propose a progressive warping module that alternates between feature warping and displacement estimation at increasing resolutions. We show that the proposed model can synthesize portrait videos with high fidelity and achieve the new state-of-the-art results on the VoxCeleb1 and VoxCeleb2 datasets for both cross identity and same identity reconstruction.
翻訳日:2022-10-06 13:53:54 公開日:2022-10-05
# 動静脈奇形を伴う3DRAにおける脳血管セグメンテーションの深層学習モデル

A deep learning model for brain vessel segmentation in 3DRA with arteriovenous malformations ( http://arxiv.org/abs/2210.02416v1 )

ライセンス: Link先を確認
Camila Garc\'ia and Yibin Fang and Jianmin Liu and Ana Paula Narata and Jos\'e Ignacio Orlando and Ignacio Larrabide(参考訳) 3次元回転血管造影(3DRA)における脳動脈静脈奇形(bAVMs)の分画は文献的にはまだ未解決の課題であり,臨床応用に高い関連性がある。 これらの画像の脳血管のセグメンテーションにはディープラーニングモデルが応用されているが、bAVMのケースでは使用されていない。 これはおそらく、これらのアプローチを訓練するのに十分な注釈付きデータを得るのが難しいためである。 本稿では,bAVM症例の3DRA画像における血管セグメンテーションに関する最初のディープラーニングモデルを提案する。 この目的のために、我々はbavmケースの5つの3draボリュームを密に注釈付けし、これらを使用して異なるセグメンテーション目的を持つ2つの代替3dunetベースのアーキテクチャを訓練した。 以上の結果から,bAVM解析の網羅的網羅的網羅的網羅的網羅性は,標準手法よりもはるかに良好であることが示唆された。 これは、興味のあるbAVM構造のより優れた位相的および形態的特徴化を達成するために有望である。 さらに,本モデルでは,介入治療計画に関係した基礎的真理ラベル付けに欠けている場合でも,静脈構造を分割する機能を備えている。 最終的には、これらの結果はより信頼性の高い最初の推測として利用でき、手動ラベルを作成するという面倒な作業を軽減することができる。

Segmentation of brain arterio-venous malformations (bAVMs) in 3D rotational angiographies (3DRA) is still an open problem in the literature, with high relevance for clinical practice. While deep learning models have been applied for segmenting the brain vasculature in these images, they have never been used in cases with bAVMs. This is likely caused by the difficulty to obtain sufficiently annotated data to train these approaches. In this paper we introduce a first deep learning model for blood vessel segmentation in 3DRA images of patients with bAVMs. To this end, we densely annotated 5 3DRA volumes of bAVM cases and used these to train two alternative 3DUNet-based architectures with different segmentation objectives. Our results show that the networks reach a comprehensive coverage of relevant structures for bAVM analysis, much better than what is obtained using standard methods. This is promising for achieving a better topological and morphological characterisation of the bAVM structures of interest. Furthermore, the models have the ability to segment venous structures even when missing in the ground truth labelling, which is relevant for planning interventional treatments. Ultimately, these results could be used as more reliable first initial guesses, alleviating the cumbersome task of creating manual labels.
翻訳日:2022-10-06 13:53:35 公開日:2022-10-05
# DALL-E-Bot: Webスケール拡散モデルをロボティクスに導入

DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics ( http://arxiv.org/abs/2210.02438v1 )

ライセンス: Link先を確認
Ivan Kapelyukh, Vitalis Vosylius, Edward Johns(参考訳) 本稿では,ロボット工学におけるWebスケール拡散モデルに関する最初の研究を紹介する。 DALL-E-Botは、まずそれらのオブジェクトのテキスト記述を推測し、そのオブジェクトの自然な人間的な配置を表す画像を生成し、最終的にその画像に従ってオブジェクトを物理的に配置することで、シーン内のオブジェクトを並べ替えることができる。 さらにデータ収集やトレーニングを必要とせずに、DALL-Eを使ってゼロショットを実現している点が重要です。 現実世界の成果を人間の研究で促進することは、これはWebスケールのロボット学習アルゴリズムの将来にとってエキサイティングな方向であることを示している。 また,これらのモデルのさらなる発展とロボティクスへの応用を整合させるために,テキストから画像へのコミュニティへのレコメンデーションリストを提案する。 ビデオは、https://www.robot-learning.uk/dall-e-botで公開されている。

We introduce the first work to explore web-scale diffusion models for robotics. DALL-E-Bot enables a robot to rearrange objects in a scene, by first inferring a text description of those objects, then generating an image representing a natural, human-like arrangement of those objects, and finally physically arranging the objects according to that image. The significance is that we achieve this zero-shot using DALL-E, without needing any further data collection or training. Encouraging real-world results with human studies show that this is an exciting direction for the future of web-scale robot learning algorithms. We also propose a list of recommendations to the text-to-image community, to align further developments of these models with applications to robotics. Videos are available at: https://www.robot-learning.uk/dall-e-bot
翻訳日:2022-10-06 13:53:10 公開日:2022-10-05
# ヘイトスピーチ検出における文脈情報の影響評価

Assessing the impact of contextual information in hate speech detection ( http://arxiv.org/abs/2210.00465v2 )

ライセンス: Link先を確認
Juan Manuel P\'erez, Franco Luque, Demian Zayat, Mart\'in Kondratzky, Agust\'in Moro, Pablo Serrati, Joaqu\'in Zajac, Paula Miguel, Natalia Debandi, Agust\'in Gravano, Viviana Cotik(参考訳) 近年、ヘイトスピーチは、その強みと保護団体のメンバーに対する暴力行為との関係から、ソーシャルネットワークやその他のバーチャルメディアにおいて大きな関連性が高まっている。 利用者が生成する大量のコンテンツにより、少なくとも最も脅かされる形態において、この音声の分析・モデレーションを支援する自動ツールの研究・開発に多大な努力が払われている。 ヘイトスピーチの自動検出に対する現在のアプローチの制限の1つは、コンテキストの欠如である。 ほとんどの研究とリソースは、コンテキストのないデータ、すなわち、会話的なコンテキストや議論対象のトピックのない独立したメッセージで実行される。 これは、ソーシャルネットワーク上の投稿が憎悪であるかどうかを定義するために利用可能な情報を制限する。 本研究では,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。 このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。 最先端技術を用いた分類実験は、文脈情報を追加することで、2つのタスク(バイナリとマルチラベルの予測)におけるヘイトスピーチ検出性能が向上することを示す。 コード、モデル、コーパスをさらなる研究のために利用できます。

In recent years, hate speech has gained great relevance in social networks and other virtual media because of its intensity and its relationship with violent acts against members of protected groups. Due to the great amount of content generated by users, great effort has been made in the research and development of automatic tools to aid the analysis and moderation of this speech, at least in its most threatening forms. One of the limitations of current approaches to automatic hate speech detection is the lack of context. Most studies and resources are performed on data without context; that is, isolated messages without any type of conversational context or the topic being discussed. This restricts the available information to define if a post on a social network is hateful or not. In this work, we provide a novel corpus for contextualized hate speech detection based on user responses to news posts from media outlets on Twitter. This corpus was collected in the Rioplatense dialectal variety of Spanish and focuses on hate speech associated with the COVID-19 pandemic. Classification experiments using state-of-the-art techniques show evidence that adding contextual information improves hate speech detection performance for two proposed tasks (binary and multi-label prediction). We make our code, models, and corpus available for further research.
翻訳日:2022-10-06 13:52:55 公開日:2022-10-05
# ベトナム語テキストに対する感情辞書アプローチによる感情分析の改善

Improving Sentiment Analysis By Emotion Lexicon Approach on Vietnamese Texts ( http://arxiv.org/abs/2210.02063v1 )

ライセンス: Link先を確認
An Long Doan, Son T. Luu(参考訳) 感情分析タスクには様々な応用がある。 感情分析タスクでは、ポジティブな感情やネガティブな感情を表す単語やフレーズが重要である。 テキストから感情を表す単語を見つけることで、感情分析タスクの分類モデルの性能を向上させることができる。 本稿では,感情レキシコンを分類モデルと組み合わせ,モデルの精度を高める手法を提案する。 実験の結果,感情レキシコンと分類モデルの組み合わせにより,モデルの性能が向上することが示された。

The sentiment analysis task has various applications in practice. In the sentiment analysis task, words and phrases that represent positive and negative emotions are important. Finding out the words that represent the emotion from the text can improve the performance of the classification models for the sentiment analysis task. In this paper, we propose a methodology that combines the emotion lexicon with the classification model for enhancing the accuracy of the models. Our experimental results show that the emotion lexicon combined with the classification model improves the performance of models.
翻訳日:2022-10-06 13:52:13 公開日:2022-10-05
# 合成句意味論を用いた教師なし文テキストの類似性

Unsupervised Sentence Textual Similarity with Compositional Phrase Semantics ( http://arxiv.org/abs/2210.02284v1 )

ライセンス: Link先を確認
Zihao Wang, Jiaheng Dou, Yong Zhang(参考訳) STS(Sentence Textual similarity)は、テキスト生成や検索など、多くのダウンストリームNLPアプリケーションに適用可能な古典的なタスクである。 本稿では、様々な領域で動作するが、最小限のデータと計算資源しか必要としない教師なしSTSに焦点を当てる。 理論的には、STS計算のための軽量期待補正(EC)の定式化を提案する。 ECの定式化は、追加合成(AC)文の埋め込み、最適輸送(OT)、ツリーカーネル(TK)のコサイン類似性を含む教師なしSTSアプローチを統一する。 さらに、複数の再帰的EC定式化を構成することで、構成句の意味を捉えるための再帰的最適輸送類似性(ROTS)アルゴリズムを提案する。 ROTSは線形時間で終了し、前機種よりも高速である。 ROTSは従来のアプローチよりも経験的に効率的でスケーラブルです。 29のSTSタスクに対する大規模な実験は、既存のアプローチよりもROTSの明確な利点を示している。 詳細なアブレーション研究は我々のアプローチの有効性を示している。

Measuring Sentence Textual Similarity (STS) is a classic task that can be applied to many downstream NLP applications such as text generation and retrieval. In this paper, we focus on unsupervised STS that works on various domains but only requires minimal data and computational resources. Theoretically, we propose a light-weighted Expectation-Correction (EC) formulation for STS computation. EC formulation unifies unsupervised STS approaches including the cosine similarity of Additively Composed (AC) sentence embeddings, Optimal Transport (OT), and Tree Kernels (TK). Moreover, we propose the Recursive Optimal Transport Similarity (ROTS) algorithm to capture the compositional phrase semantics by composing multiple recursive EC formulations. ROTS finishes in linear time and is faster than its predecessors. ROTS is empirically more effective and scalable than previous approaches. Extensive experiments on 29 STS tasks under various settings show the clear advantage of ROTS over existing approaches. Detailed ablation studies demonstrate the effectiveness of our approaches.
翻訳日:2022-10-06 13:52:05 公開日:2022-10-05
# 転送可能な対話状態追跡のためのスキーマ符号化

Schema Encoding for Transferable Dialogue State Tracking ( http://arxiv.org/abs/2210.02351v1 )

ライセンス: Link先を確認
Hyunmin Jeon and Gary Geunbae Lee(参考訳) 対話状態追跡(DST)はタスク指向対話システムにとって不可欠なサブタスクである。 最近の研究はdstのディープニューラルモデルに焦点を当てている。 しかし、神経モデルはトレーニングのために大きなデータセットを必要とする。 さらに、ニューラルネットワークが与えられたデータセットを模倣するようにトレーニングされるため、別のドメインにそれらを適用するためには、新たなデータセットが必要になる。 本稿では、新しいドメインへの効果的な転送のためのニューラルネットワークDST法であるSETDST(Transferable Dialogue State Tracking)のスキーマ符号化を提案する。 転送可能なDSTは、ターゲットドメインのデータセットが少なくても対話システムの開発を支援することができる。 データセットを模倣するだけでなく、データセットのスキーマを理解するためにスキーマエンコーダを使用します。 我々は、新しいスキーマを符号化し、マルチドメイン設定でDSTに使用することにより、モデルを新しいドメインに転送することを目指している。 その結果、SET-DSTはMultiWOZ 2.1で関節の精度を1.46ポイント改善した。

Dialogue state tracking (DST) is an essential sub-task for task-oriented dialogue systems. Recent work has focused on deep neural models for DST. However, the neural models require a large dataset for training. Furthermore, applying them to another domain needs a new dataset because the neural models are generally trained to imitate the given dataset. In this paper, we propose Schema Encoding for Transferable Dialogue State Tracking (SETDST), which is a neural DST method for effective transfer to new domains. Transferable DST could assist developments of dialogue systems even with few dataset on target domains. We use a schema encoder not just to imitate the dataset but to comprehend the schema of the dataset. We aim to transfer the model to new domains by encoding new schemas and using them for DST on multi-domain settings. As a result, SET-DST improved the joint accuracy by 1.46 points on MultiWOZ 2.1.
翻訳日:2022-10-06 13:51:49 公開日:2022-10-05
# Decomposed Prompting: 複雑なタスクを解くためのモジュール的アプローチ

Decomposed Prompting: A Modular Approach for Solving Complex Tasks ( http://arxiv.org/abs/2210.02406v1 )

ライセンス: Link先を確認
Tushar Khot, Harsh Trivedi, Matthew Finlayson, Yao Fu, Kyle Richardson, Peter Clark, Ashish Sabharwal(参考訳) さまざまなタスクを解決するためにLLM(Large Language Models)を使用するには,驚くほど強力な方法だ。 しかし、タスクの複雑さが増大したり、タスク自体の個々の推論ステップが学ぶのが難しい場合、特に複雑なタスクに組み込まれている場合、このアプローチは困難である。 そこで本研究では,複雑なタスクを(プロンプトによって)より単純なサブタスクに分解し,それらのサブタスクに特化したプロンプトベースのllmのライブラリに委譲する,新しいアプローチであるdecomposed promptingを提案する。 このモジュール構造により、各プロンプトは特定のサブタスクに最適化され、必要に応じてさらに分解され、必要に応じてより効果的なプロンプト、トレーニングされたモデル、あるいはシンボリック関数に置き換えられる。 本稿では,分解プロンプティングの柔軟性とモジュラリティが,GPT3を用いたショットプロンプトの先行処理よりも優れていることを示す。 シンボリック推論タスクでは、llmが難しいサブタスクを、より単純な解決可能なサブタスクに分解することができる。 複雑性が入力長から生じると、再帰的にタスクを同じタスクに分解するが、入力を小さくすることができる。 長いコンテキストのマルチホップqaタスクでは、個別のサブタスクプロンプトを通じてサブタスクをより効果的に教えることができ、オープンドメインのマルチホップqaでは、分解フレームワークにシンボル情報検索を組み込むことができ、両方のタスクでパフォーマンスが向上します。

Few-shot prompting is a surprisingly powerful way to use Large Language Models (LLMs) to solve various tasks. However, this approach struggles as the task complexity increases or when the individual reasoning steps of the task themselves are hard to learn, especially when embedded in more complex tasks. To address this, we propose Decomposed Prompting, a new approach to solve complex tasks by decomposing them (via prompting) into simpler sub-tasks that can be delegated to a library of prompting-based LLMs dedicated to these sub-tasks. This modular structure allows each prompt to be optimized for its specific sub-task, further decomposed if necessary, and even easily replaced with more effective prompts, trained models, or symbolic functions if desired. We show that the flexibility and modularity of Decomposed Prompting allows it to outperform prior work on few-shot prompting using GPT3. On symbolic reasoning tasks, we can further decompose sub-tasks that are hard for LLMs into even simpler solvable sub-tasks. When the complexity comes from the input length, we can recursively decompose the task into the same task but with smaller inputs. We also evaluate our approach on textual multi-step reasoning tasks: on long-context multi-hop QA task, we can more effectively teach the sub-tasks via our separate sub-tasks prompts; and on open-domain multi-hop QA, we can incorporate a symbolic information retrieval within our decomposition framework, leading to improved performance on both tasks.
翻訳日:2022-10-06 13:51:37 公開日:2022-10-05
# Ask Me Anything: 言語モデルを促進するためのシンプルな戦略

Ask Me Anything: A simple strategy for prompting language models ( http://arxiv.org/abs/2210.02441v1 )

ライセンス: Link先を確認
Simran Arora, Avanika Narayan, Mayee F. Chen, Laurel J. Orr, Neel Guha, Kush Bhatia, Ines Chami, Frederic Sala, Christopher R\'e(参考訳) 大規模言語モデル(LLM)は、単にタスクの実行方法を示す自然言語プロンプトを与えられただけで、追加のトレーニングは行われない。 プロンプティング(英: Prompting)は、プロンプトへの小さな変更がモデル予測に大きなバリエーションを引き起こすという不安定なプロセスである。 プロンプトデザインに関わる高い労力を軽減するために、複数の効果的だが不完全なプロンプトを作成し、それらを集約することで高品質なプロンプト戦略につながるかどうかを問う。 我々の観測は提案手法であるASK ME ANYTHING (AMA) を動機付けている。 まず、有効なプロンプト形式を理解し、QA(Qanguage-Awering)プロンプトがオープンエンド生成を促進する(Who went the park?)ことを発見し、モデル出力を制限するプロンプトよりも優れている(John went the park. Output True or False.)。 提案手法では,LLM自体を用いてタスク入力を効率的なQA形式に変換する。 収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。 提案手法では,プロンプトの精度と複雑な依存性が全く異なる場合があり,ノイズ予測を組み合わせるための弱い監督手法を用いて入力の最終的な予測を行う。 オープンソースのモデルファミリ(Neo, BLOOM, OPT, T0)とモデルサイズ(125M-175Bパラメータ)でAMAを評価し,数ショットベースラインに対して平均10.2%の性能向上を示した。 この単純な戦略により、オープンソースのGPT-Neo-6Bモデルは、20のベンチマークのうち15のベンチマークにおいて、数ショットのGPT3-175Bの性能にマッチし、超えることができる。 GPT-Neo-6BはGPT3-175Bより優れている。 コードはここでリリースします。 https://github.com/hazyresearch/ama_prompting

Large language models (LLMs) transfer well to new tasks out-of-the-box simply given a natural language prompt that demonstrates how to perform the task and no additional training. Prompting is a brittle process wherein small modifications to the prompt can cause large variations in the model predictions, and therefore significant effort is dedicated towards designing a painstakingly "perfect prompt" for a task. To mitigate the high degree of effort involved in prompt-design, we instead ask whether producing multiple effective, yet imperfect, prompts and aggregating them can lead to a high quality prompting strategy. Our observations motivate our proposed prompting method, ASK ME ANYTHING (AMA). We first develop an understanding of the effective prompt formats, finding that question-answering (QA) prompts, which encourage open-ended generation ("Who went to the park?") tend to outperform those that restrict the model outputs ("John went to the park. Output True or False."). Our approach recursively uses the LLM itself to transform task inputs to the effective QA format. We apply the collected prompts to obtain several noisy votes for the input's true label. We find that the prompts can have very different accuracies and complex dependencies and thus propose to use weak supervision, a procedure for combining the noisy predictions, to produce the final predictions for the inputs. We evaluate AMA across open-source model families (e.g., Neo, BLOOM, OPT, and T0) and model sizes (125M-175B parameters), demonstrating an average performance lift of 10.2% over the few-shot baseline. This simple strategy enables the open-source GPT-Neo-6B model to match and exceed the performance of few-shot GPT3-175B on 15 of 20 popular benchmarks. Averaged across these tasks, the GPT-Neo-6B model outperforms few-shot GPT3-175B. We release our code here: https://github.com/HazyResearch/ama_prompting
翻訳日:2022-10-06 13:51:09 公開日:2022-10-05
# ローカルコンピュータとリモートコンピュータを用いた視覚ロボットのリアルタイム強化学習

Real-Time Reinforcement Learning for Vision-Based Robotics Utilizing Local and Remote Computers ( http://arxiv.org/abs/2210.02317v1 )

ライセンス: Link先を確認
Yan Wang, Gautham Vasan, A. Rupam Mahmood(参考訳) リアルタイム学習は、絶え間なく変化する非定常環境に適応するロボットエージェントにとって不可欠である。 ロボットエージェントの一般的なセットアップは、リソース限定のローカルコンピュータと、ワイヤレスで接続された強力なリモートコンピュータの2つの異なるコンピュータを同時に持つことである。 このような設定を考えると、学習システムの性能がリソースの制限によってどの程度影響を受けるか、また、無線接続された強力なコンピュータを効率よく利用してパフォーマンス損失を補う方法が不明確である。 本稿では,2つの深部強化学習(RL)アルゴリズム,Soft Actor-Critic (SAC) と Proximal Policy Optimization (PPO) の計算をローカルコンピュータとリモートコンピュータ間で分散するリアルタイム学習システムであるRemote-Local Distributed (ReLoD) を実装した。 ロボットアームと移動ロボットを用いて開発した2つの視覚制御タスクに対して,システムの性能を評価する。 その結果,SACの性能は資源限定のローカルコンピュータ上で大幅に低下することがわかった。 興味深いことに、学習システムの全ての計算がリモートワークステーションにデプロイされると、SACは性能損失を補うことができなくなり、注意深い考慮なしには、強力なリモートコンピュータを使用することで性能が向上しない可能性がある。 しかし、慎重に選択されたSACの計算分布は、両タスクのパフォーマンスを大幅に改善する。 一方,PPOの性能は計算量分布の影響を受けていない。 さらに、全ての計算が強力なテザリングコンピュータ上でのみ実行される場合、システムの性能は1台のマシンで十分に調整された既存のシステムと同等である。 ReLoDは、視覚ベースのタスクのために複数のロボットに適用される、リアルタイムRLのための唯一の公開システムである。

Real-time learning is crucial for robotic agents adapting to ever-changing, non-stationary environments. A common setup for a robotic agent is to have two different computers simultaneously: a resource-limited local computer tethered to the robot and a powerful remote computer connected wirelessly. Given such a setup, it is unclear to what extent the performance of a learning system can be affected by resource limitations and how to efficiently use the wirelessly connected powerful computer to compensate for any performance loss. In this paper, we implement a real-time learning system called the Remote-Local Distributed (ReLoD) system to distribute computations of two deep reinforcement learning (RL) algorithms, Soft Actor-Critic (SAC) and Proximal Policy Optimization (PPO), between a local and a remote computer. The performance of the system is evaluated on two vision-based control tasks developed using a robotic arm and a mobile robot. Our results show that SAC's performance degrades heavily on a resource-limited local computer. Strikingly, when all computations of the learning system are deployed on a remote workstation, SAC fails to compensate for the performance loss, indicating that, without careful consideration, using a powerful remote computer may not result in performance improvement. However, a carefully chosen distribution of computations of SAC consistently and substantially improves its performance on both tasks. On the other hand, the performance of PPO remains largely unaffected by the distribution of computations. In addition, when all computations happen solely on a powerful tethered computer, the performance of our system remains on par with an existing system that is well-tuned for using a single machine. ReLoD is the only publicly available system for real-time RL that applies to multiple robots for vision-based tasks.
翻訳日:2022-10-06 13:45:54 公開日:2022-10-05
# 量子回帰による等化フェアネス

Conformalized Fairness via Quantile Regression ( http://arxiv.org/abs/2210.02015v1 )

ライセンス: Link先を確認
Meichen Liu, Lei Ding, Dengdeng Yu, Wulong Liu, Linglong Kong, Bei Jiang(参考訳) アルゴリズム的公平性は社会的に敏感な領域で注目を集めている。 平均的公平性に関する豊かな文献が確立されているが、質的公平性の研究は少ないが不可欠である。 そこで本研究では,人種や性別などのセンシティブな属性に対して,デモグラフィックパリティの公正性要件の下で実数値量子関数を学習し,信頼性の高い公正な予測区間を導出する枠組みを提案する。 最適輸送と機能同期技術を用いて、フェア量子化によって構築された誘導予測区間に対する分布のないカバレッジと正確な公正性の理論的保証を確立する。 フレキシブルな量子レグレッションと効率的なフェアネス調整後処理アルゴリズムを組み込むハンズオンパイプラインを提供する。 この手法の優れた経験的性能をいくつかのベンチマークデータセットで実証する。 本研究は, フェアネス・正確性トレードオフの基盤となるメカニズムを, 幅広い社会・医療応用において明らかにする能力を示すものである。

Algorithmic fairness has received increased attention in socially sensitive domains. While rich literature on mean fairness has been established, research on quantile fairness remains sparse but vital. To fulfill great needs and advocate the significance of quantile fairness, we propose a novel framework to learn a real-valued quantile function under the fairness requirement of Demographic Parity with respect to sensitive attributes, such as race or gender, and thereby derive a reliable fair prediction interval. Using optimal transport and functional synchronization techniques, we establish theoretical guarantees of distribution-free coverage and exact fairness for the induced prediction interval constructed by fair quantiles. A hands-on pipeline is provided to incorporate flexible quantile regressions with an efficient fairness adjustment post-processing algorithm. We demonstrate the superior empirical performance of this approach on several benchmark datasets. Our results show the model's ability to uncover the mechanism underlying the fairness-accuracy trade-off in a wide range of societal and medical applications.
翻訳日:2022-10-06 13:45:24 公開日:2022-10-05
# 広帯域ニューラルネットワークにおける表現ダイナミクスに及ぼす学習規則の影響

The Influence of Learning Rule on Representation Dynamics in Wide Neural Networks ( http://arxiv.org/abs/2210.02157v1 )

ライセンス: Link先を確認
Blake Bordelon, Cengiz Pehlevan(参考訳) ディープニューラルネットワークの学習ルールの変更が学習のダイナミクスや表現をどのように変えるのかは不明だ。 学習特徴量,関数近似,学習規則の関係を明らかにするために,勾配降下(GD)で訓練された無限幅の深層ネットワークと,フィードバックアライメント(FA),ダイレクトフィードバックアライメント(DFA),エラー変調ヘビアン学習(Hebb),ゲート線形ネットワーク(GLN)などの生物学的に有望な代替品を解析した。 これらの学習規則のそれぞれにおいて、無限幅における出力関数の進化は、時間変化の有効な神経接核(entk)によって制御される。 遅延訓練限界では、このeNTKは静的であり、進化しないが、リッチ平均場法では、このカーネルの進化は動的平均場理論(DMFT)と独立に決定することができる。 このDMFTは、これらの学習規則によって引き起こされる特徴と予測力学の比較を可能にする。 遅延限界では、DFAとHebbは最終層の特徴しか学習できないのに対し、完全なFAは、フィードフォワードとフィードバックの重み行列の最初の相関によって決定されたスケールで以前の層を利用することができる。 豊かな体制では、DFAとFAは時間的に進化し、深さに依存するNTKを利用する。 直観的に言うと、リッチレジームで訓練されたfaネットワークは、前方と後方のパスウェイトの相関が小さい場合に初期化すれば、より多くの機能学習を示す。 GLN は遅延極限核に対して非常に単純な公式を認め、ゲーティング関数の下での条件付きガウス性を保持する。 エラー変調hebbルールは、カーネルのタスク関連アライメントが非常に小さく、最前層でタスク関連学習を実行する。

It is unclear how changing the learning rule of a deep neural network alters its learning dynamics and representations. To gain insight into the relationship between learned features, function approximation, and the learning rule, we analyze infinite-width deep networks trained with gradient descent (GD) and biologically-plausible alternatives including feedback alignment (FA), direct feedback alignment (DFA), and error modulated Hebbian learning (Hebb), as well as gated linear networks (GLN). We show that, for each of these learning rules, the evolution of the output function at infinite width is governed by a time varying effective neural tangent kernel (eNTK). In the lazy training limit, this eNTK is static and does not evolve, while in the rich mean-field regime this kernel's evolution can be determined self-consistently with dynamical mean field theory (DMFT). This DMFT enables comparisons of the feature and prediction dynamics induced by each of these learning rules. In the lazy limit, we find that DFA and Hebb can only learn using the last layer features, while full FA can utilize earlier layers with a scale determined by the initial correlation between feedforward and feedback weight matrices. In the rich regime, DFA and FA utilize a temporally evolving and depth-dependent NTK. Counterintuitively, we find that FA networks trained in the rich regime exhibit more feature learning if initialized with smaller correlation between the forward and backward pass weights. GLNs admit a very simple formula for their lazy limit kernel and preserve conditional Gaussianity of their preactivations under gating functions. Error modulated Hebb rules show very small task-relevant alignment of their kernels and perform most task relevant learning in the last layer.
翻訳日:2022-10-06 13:45:05 公開日:2022-10-05
# Vendi Score: マシンラーニングのための多様性評価指標

The Vendi Score: A Diversity Evaluation Metric for Machine Learning ( http://arxiv.org/abs/2210.02410v1 )

ライセンス: Link先を確認
Dan Friedman and Adji Bousso Dieng(参考訳) 多様性は、生成モデリングやデータセットキュレーションを含む、機械学習(ML)の多くの領域において重要な基準である。 しかし、MLの多様性を理解し、形式化し、測定する作業はほとんど行われていない。 本稿では,エコロジーや量子統計力学のアイデアをMLに接続し,拡張するVendi Scoreを提案することにより,多様性評価の問題に対処する。 ヴェンディスコアは類似行列の固有値のシャノンエントロピーの指数として定義される。 このマトリックスは、多様性を評価するためにサンプルに適用されたユーザー定義の類似度関数によって誘導される。 類似機能を入力として取り込むことで、Vendi Scoreはユーザが望む多様性の形式を指定することができる。 重要なことは、MLの既存のメトリクスとは異なり、Vendi Scoreは参照データセットやサンプルやラベルの配布を必要としないため、任意の生成モデル、デコードアルゴリズム、類似性を定義可能な任意のドメインからのデータセットに適用できる。 我々は、新しい分子の発見に多様性が重要な役割を果たす領域である分子生成モデリングに関するVendi Scoreを紹介した。 私たちは、vendiスコアが、そのドメインにおける現在の多様性指標の欠点に対処することを見出しました。 また,画像の生成モデルとテキストの復号化アルゴリズムに適用し,それらの領域における多様性に関する既知の結果を確認した。 さらに、gans(generative adversarial network)の既知の制限であるモード崩壊を測定するために、vendiスコアを用いた。 特にVendi Scoreは、ラベル付きデータセットのすべてのモードをキャプチャするGANでさえ、元のデータセットよりも多様性が低いことを示した。 最後に、vendiスコアの解釈可能性により、多様性のためにいくつかのベンチマークmlデータセットを診断することができ、多様性に欠けるデータ拡張の扉を開くことができた。

Diversity is an important criterion for many areas of machine learning (ML), including generative modeling and dataset curation. Yet little work has gone into understanding, formalizing, and measuring diversity in ML. In this paper, we address the diversity evaluation problem by proposing the Vendi Score, which connects and extends ideas from ecology and quantum statistical mechanics to ML. The Vendi Score is defined as the exponential of the Shannon entropy of the eigenvalues of a similarity matrix. This matrix is induced by a user-defined similarity function applied to the sample to be evaluated for diversity. In taking a similarity function as input, the Vendi Score enables its user to specify any desired form of diversity. Importantly, unlike many existing metrics in ML, the Vendi Score doesn't require a reference dataset or distribution over samples or labels, it is therefore general and applicable to any generative model, decoding algorithm, and dataset from any domain where similarity can be defined. We showcased the Vendi Score on molecular generative modeling, a domain where diversity plays an important role in enabling the discovery of novel molecules. We found that the Vendi Score addresses shortcomings of the current diversity metric of choice in that domain. We also applied the Vendi Score to generative models of images and decoding algorithms of text and found it confirms known results about diversity in those domains. Furthermore, we used the Vendi Score to measure mode collapse, a known limitation of generative adversarial networks (GANs). In particular, the Vendi Score revealed that even GANs that capture all the modes of a labeled dataset can be less diverse than the original dataset. Finally, the interpretability of the Vendi Score allowed us to diagnose several benchmark ML datasets for diversity, opening the door for diversity-informed data augmentation.
翻訳日:2022-10-06 13:44:30 公開日:2022-10-05
# 混合学習のためのフーリエアプローチ

A Fourier Approach to Mixture Learning ( http://arxiv.org/abs/2210.02415v1 )

ライセンス: Link先を確認
Mingda Qiao, Guru Guruganesh, Ankit Singh Rawat, Kumar Avinava Dubey, Manzil Zaheer(参考訳) 球状ガウスの混合物を学習する問題を再検討する。 混合 $\frac{1}{k}\sum_{j=1}^{k}\mathcal{n}(\mu_j, i_d)$ からのサンプルが与えられた場合、目標は$\mu_1, \mu_2, \ldots, \mu_k \in \mathbb{r}^d$ を小さな誤差まで推定することである。 この学習問題の難しさは、すべての手段間の最小距離として定義される分離$\Delta$によって測定できる。 Regev と Vijayaraghavan (2017) は、$\Delta = \Omega(\sqrt{\log k})$ 分離によって、この手段は $\mathrm{poly}(k, d)$ サンプルを用いて学習できることを示したが、超多項式的に、$\Delta = o(\sqrt{\log k})$ と $d = \Omega(\log k)$ が要求される。 これにより、$d = o(\log k)$ という低次元のレギュレーションが生まれる。 本研究では,$d = O(\log k/\log k)$ dimensions under separation $d/\sqrt{\log k}$ (modulo doublely logarithmic factor) で効率よく平均を学習するアルゴリズムを提案する。 この分離は$\sqrt{\log k}$よりも厳密に小さく、必要であることが示されている。 Regev と Vijayaraghavan (2017) の結果とともに、球状ガウス混合に対して効率的なパラメータ学習が可能である臨界分離しきい値のほとんどを導いた。 より一般的に、我々のアルゴリズムは時間$\mathrm{poly}(k)\cdot f(d, \Delta, \epsilon)$で実行され、従ってパラメータ$d$、$\Delta$および$\epsilon$で固定パラメータを抽出可能である。 本手法は, 混合液のフーリエ変換を注意深く選択した周波数で推定し, アルゴリズムと解析は単純かつ初等的である。 我々の正の結果は、分布のフーリエスペクトルの穏やかな条件の下で、非ガウス分布の学習混合物に容易に拡張できる。

We revisit the problem of learning mixtures of spherical Gaussians. Given samples from mixture $\frac{1}{k}\sum_{j=1}^{k}\mathcal{N}(\mu_j, I_d)$, the goal is to estimate the means $\mu_1, \mu_2, \ldots, \mu_k \in \mathbb{R}^d$ up to a small error. The hardness of this learning problem can be measured by the separation $\Delta$ defined as the minimum distance between all pairs of means. Regev and Vijayaraghavan (2017) showed that with $\Delta = \Omega(\sqrt{\log k})$ separation, the means can be learned using $\mathrm{poly}(k, d)$ samples, whereas super-polynomially many samples are required if $\Delta = o(\sqrt{\log k})$ and $d = \Omega(\log k)$. This leaves open the low-dimensional regime where $d = o(\log k)$. In this work, we give an algorithm that efficiently learns the means in $d = O(\log k/\log\log k)$ dimensions under separation $d/\sqrt{\log k}$ (modulo doubly logarithmic factors). This separation is strictly smaller than $\sqrt{\log k}$, and is also shown to be necessary. Along with the results of Regev and Vijayaraghavan (2017), our work almost pins down the critical separation threshold at which efficient parameter learning becomes possible for spherical Gaussian mixtures. More generally, our algorithm runs in time $\mathrm{poly}(k)\cdot f(d, \Delta, \epsilon)$, and is thus fixed-parameter tractable in parameters $d$, $\Delta$ and $\epsilon$. Our approach is based on estimating the Fourier transform of the mixture at carefully chosen frequencies, and both the algorithm and its analysis are simple and elementary. Our positive results can be easily extended to learning mixtures of non-Gaussian distributions, under a mild condition on the Fourier spectrum of the distribution.
翻訳日:2022-10-06 13:44:01 公開日:2022-10-05
# リモートセンシング画像からの地下タイル排水管の高精度検出のためのディープラーニングアーキテクチャ

Advanced Deep Learning Architectures for Accurate Detection of Subsurface Tile Drainage Pipes from Remote Sensing Images ( http://arxiv.org/abs/2210.02071v1 )

ライセンス: Link先を確認
Tom L. Breitkopf (1), Leonard W. Hackel (1), Mahdyar Ravanbakhsh (1), Anne-Karin Cooke (2), Sandra Willkommen (2), Stefan Broda (2), Beg\"um Demir (1) ((1) Technische Universit\"at Berlin, (2) Bundesanstalt f\"ur Geowissenschaften und Rohstoffe Berlin)(参考訳) 地下のタイル排水管は農業、経済、環境に便益をもたらす。 湿った土壌の水位を下げることで、植物根の通気を改善し、最終的には農地の生産性を高める。 しかし、それらはまた、土壌の栄養損失を増加させる地下水域への農薬の入り口を提供する。 メンテナンスとインフラ整備のためには、タイル排水管の位置と排水された農地の正確な地図が必要である。 しかし、これらの地図はしばしば時代遅れか存在しない。 異なるリモートセンシング(rs)画像処理技術が長年にわたって適用されてきたが、これらの制限を克服するための成功度は様々である。 近年のディープラーニング(DL)技術の発展は,機械学習セグメンテーションモデルによる従来の手法により改善されている。 本研究では,2つのDLモデルを紹介する。 i) 改良されたu-netアーキテクチャ 二 タイル排水管検出の枠組みにおける視覚変換器に基づくエンコーダデコーダ 実験により, 基本U-Netアーキテクチャと比較して, 検出精度の観点から両モデルの有効性を確認した。 私たちのコードとモデルは \url{https://git.tu-berlin.de/rsim/drainage-pipes-detection} で公開されている。

Subsurface tile drainage pipes provide agronomic, economic and environmental benefits. By lowering the water table of wet soils, they improve the aeration of plant roots and ultimately increase the productivity of farmland. They do however also provide an entryway of agrochemicals into subsurface water bodies and increase nutrition loss in soils. For maintenance and infrastructural development, accurate maps of tile drainage pipe locations and drained agricultural land are needed. However, these maps are often outdated or not present. Different remote sensing (RS) image processing techniques have been applied over the years with varying degrees of success to overcome these restrictions. Recent developments in deep learning (DL) techniques improve upon the conventional techniques with machine learning segmentation models. In this study, we introduce two DL-based models: i) improved U-Net architecture; and ii) Visual Transformer-based encoder-decoder in the framework of tile drainage pipe detection. Experimental results confirm the effectiveness of both models in terms of detection accuracy when compared to a basic U-Net architecture. Our code and models are publicly available at \url{https://git.tu-berlin.de/rsim/drainage-pipes-detection}.
翻訳日:2022-10-06 13:43:13 公開日:2022-10-05
# HeartSpot: プリベートで説明可能なデータ圧縮による心筋症検出

HeartSpot: Privatized and Explainable Data Compression for Cardiomegaly Detection ( http://arxiv.org/abs/2210.02241v1 )

ライセンス: Link先を確認
Elvin Johnson, Shreshta Mohan, Alex Gaudio, Asim Smailagic, Christos Faloutsos, Aur\'elio Campilho(参考訳) 胸部x線画像解析のためのデータ駆動型ディープラーニングの進歩は、説明可能性、プライバシ、大規模データセット、重要な計算リソースの必要性を強調する。 プライバシーと説明責任は、トレーニングなしで計算とデータ要求の両方を減らすために、失われた単一イメージの圧縮問題である。 胸部X線画像における心内膜検出のために,HeartSpotと4つの空間バイアス先行法を提案する。 HeartSpotは、医学文献や機械からのドメイン知識に基づいてピクセルをサンプリングする方法を定義している。 heartspotは胸部x線像を民営化し、胸郭の形状、骨、小さな病変、その他の敏感な特徴を明らかにするピクセルの最大97%を廃棄する。 HeartSpotの先行画像は、アンテホックな説明が可能で、保存された空間的特徴を人間の解釈可能な画像で表す。 heartspotは、最大32倍のピクセルと11倍のファイルサイズを持つ強力な圧縮を提供する。 heartspotを使用するcardiomegaly検出器は、トレーニングが最大9倍、あるいは少なくとも正確(最大+.01まで)である。 AUC ROC) をベースラインのDenseNet121と比較した場合。 HeartSpotは、オリジナルの非プライベートイメージへのアクセスを必要とせずに、既存の属性メソッドを再使用することで、ポストホックな説明が可能である。 要約すると、HeartSpotはスピードと精度を改善し、画像サイズを削減し、プライバシーを改善し、説明可能性を確保する。 ソースコード: https://www.github.com/adgaudio/heartspot

Advances in data-driven deep learning for chest X-ray image analysis underscore the need for explainability, privacy, large datasets and significant computational resources. We frame privacy and explainability as a lossy single-image compression problem to reduce both computational and data requirements without training. For Cardiomegaly detection in chest X-ray images, we propose HeartSpot and four spatial bias priors. HeartSpot priors define how to sample pixels based on domain knowledge from medical literature and from machines. HeartSpot privatizes chest X-ray images by discarding up to 97% of pixels, such as those that reveal the shape of the thoracic cage, bones, small lesions and other sensitive features. HeartSpot priors are ante-hoc explainable and give a human-interpretable image of the preserved spatial features that clearly outlines the heart. HeartSpot offers strong compression, with up to 32x fewer pixels and 11x smaller filesize. Cardiomegaly detectors using HeartSpot are up to 9x faster to train or at least as accurate (up to +.01 AUC ROC) when compared to a baseline DenseNet121. HeartSpot is post-hoc explainable by re-using existing attribution methods without requiring access to the original non-privatized image. In summary, HeartSpot improves speed and accuracy, reduces image size, improves privacy and ensures explainability. Source code: https://www.github.com/adgaudio/HeartSpot
翻訳日:2022-10-06 13:42:31 公開日:2022-10-05
# Shine-Mapping:スパース階層型命令型ニューラル表現を用いた大規模3次元マッピング

SHINE-Mapping: Large-Scale 3D Mapping Using Sparse Hierarchical Implicit Neural Representations ( http://arxiv.org/abs/2210.02299v1 )

ライセンス: Link先を確認
Xingguang Zhong and Yue Pan and Jens Behley and Cyrill Stachniss(参考訳) 大規模環境の正確なマッピングは、ほとんどの屋外自律システムの重要なビルディングブロックである。 従来のマッピング手法の課題は、メモリ消費とマッピング精度のバランスである。 本稿では, 3次元LiDAR計測を用いて, 暗示表現を用いた大規模3次元再構成を実現する際の課題について述べる。 我々はオクツリーに基づく階層構造を通じて暗黙的な特徴を学習し、保存する。 これらの特徴は、浅いニューラルネットワークを通じて符号付き距離値に変換できる。 我々は,2値のクロスエントロピー損失を利用して局所的な特徴を最適化し,3次元計測を監督する。 暗黙的な表現に基づいて,連続学習における破滅的な忘れ方の問題に取り組むために,正規化による漸進的マッピングシステムを設計する。 実験の結果,現在の3次元マッピング法よりも精度が高く,完全かつメモリ効率が高いことがわかった。

Accurate mapping of large-scale environments is an essential building block of most outdoor autonomous systems. Challenges of traditional mapping methods include the balance between memory consumption and mapping accuracy. This paper addresses the problems of achieving large-scale 3D reconstructions with implicit representations using 3D LiDAR measurements. We learn and store implicit features through an octree-based hierarchical structure, which is sparse and extensible. The features can be turned into signed distance values through a shallow neural network. We leverage binary cross entropy loss to optimize the local features with the 3D measurements as supervision. Based on our implicit representation, we design an incremental mapping system with regularization to tackle the issue of catastrophic forgetting in continual learning. Our experiments show that our 3D reconstructions are more accurate, complete, and memory-efficient than current state-of-the-art 3D mapping methods.
翻訳日:2022-10-06 13:42:07 公開日:2022-10-05
# 自己監督機械学習による拡散緩和MRIデータへの方向構造モデルの適用

Fitting a Directional Microstructure Model to Diffusion-Relaxation MRI Data with Self-Supervised Machine Learning ( http://arxiv.org/abs/2210.02349v1 )

ライセンス: Link先を確認
Jason P. Lim and Stefano B. Blumberg and Neil Narayan and Sean C. Epstein and Daniel C. Alexander and Marco Palombo and Paddy J. Slator(参考訳) 機械学習は、微細構造モデルを拡散MRIデータに適用するための強力なアプローチである。 初期の機械学習マイクロ構造イメージングの実装は、既知の基底真理を持つ合成トレーニングデータを用いて、回帰器を訓練し、モデルパラメータを教師付き方法で推定した。 しかしながら、このアプローチの欠点は、トレーニングデータの選択がパラメータ値に適合することにある。 自己指導型学習は、この文脈における教師付き学習の魅力的な代替手段として現れつつある。 これまで、教師付き学習と自己教師型学習の両方が、異方性構造の方向性を推定するモデルとは対照的に、ボクセル内不整合運動(IVIM)のような等方性モデルに適用されてきた。 本稿では,方向性マイクロ構造モデルに適した自己教師あり機械学習モデルを提案する。 特に,多次元拡散(MUDI)課題拡散緩和データセットにT1-ball-stickモデルを組み合わせる。 自己教師あり手法は, 標準の非線形最小二乗法と比較して, シミュレーションデータと生体内データの両方において, パラメータ推定と計算時間は明らかに改善している。 この研究のために構築された人工ニューラルネットのコードは、次のgithubリポジトリから一般に利用可能である。

Machine learning is a powerful approach for fitting microstructural models to diffusion MRI data. Early machine learning microstructure imaging implementations trained regressors to estimate model parameters in a supervised way, using synthetic training data with known ground truth. However, a drawback of this approach is that the choice of training data impacts fitted parameter values. Self-supervised learning is emerging as an attractive alternative to supervised learning in this context. Thus far, both supervised and self-supervised learning have typically been applied to isotropic models, such as intravoxel incoherent motion (IVIM), as opposed to models where the directionality of anisotropic structures is also estimated. In this paper, we demonstrate self-supervised machine learning model fitting for a directional microstructural model. In particular, we fit a combined T1-ball-stick model to the multidimensional diffusion (MUDI) challenge diffusion-relaxation dataset. Our self-supervised approach shows clear improvements in parameter estimation and computational time, for both simulated and in-vivo brain data, compared to standard non-linear least squares fitting. Code for the artificial neural net constructed for this study is available for public use from the following GitHub repository: https://github.com/jplte/deep-T1-ball-stick
翻訳日:2022-10-06 13:41:52 公開日:2022-10-05
# ドメインとデバイス間の学習:クラスタ型フェデレーション学習におけるスタイル駆動型ソースフリードメイン適応

Learning Across Domains and Devices: Style-Driven Source-Free Domain Adaptation in Clustered Federated Learning ( http://arxiv.org/abs/2210.02326v1 )

ライセンス: Link先を確認
Donald Shenaj, Eros Fan\`i, Marco Toldo, Debora Caldarola, Antonio Tavera, Umberto Michieli, Marco Ciccone, Pietro Zanuttigh, Barbara Caputo(参考訳) Federated Learning (FL)は、最近、収集されたデータのプライベートな性質を損なうことなく、現実世界のセマンティックセグメンテーション(SS)におけるドメインシフトに取り組む方法として浮上した。 しかし、既存のFLでの作業のほとんどは、リモートクライアントでラベル付きデータを非現実的に仮定している。 本稿では,クライアントのデータをラベル解除し,サーバが事前学習のみのためにソースラベル付きデータセットにアクセスする新しいタスク(ffreeda)を提案する。 局所学習のためのアドホック正規化技術を用いた自己スーパービジョンと,クライアントのスタイルに基づく新たなクラスタ化アグリゲーション方式を導入することで,事前学習モデルの知識を活用するLADDを提案する。 実験の結果,我々のアルゴリズムは既存の手法よりも効率よく新しい課題に取り組むことができることがわかった。 コードはhttps://github.com/Erosinho13/LADDで公開されている。

Federated Learning (FL) has recently emerged as a possible way to tackle the domain shift in real-world Semantic Segmentation (SS) without compromising the private nature of the collected data. However, most of the existing works on FL unrealistically assume labeled data in the remote clients. Here we propose a novel task (FFREEDA) in which the clients' data is unlabeled and the server accesses a source labeled dataset for pre-training only. To solve FFREEDA, we propose LADD, which leverages the knowledge of the pre-trained model by employing self-supervision with ad-hoc regularization techniques for local training and introducing a novel federated clustered aggregation scheme based on the clients' style. Our experiments show that our algorithm is able to efficiently tackle the new task outperforming existing approaches. The code is available at https://github.com/Erosinho13/LADD.
翻訳日:2022-10-06 13:36:34 公開日:2022-10-05
# 圧縮フィンガープリントを用いた画像偽造検出と位置決め

Comprint: Image Forgery Detection and Localization using Compression Fingerprints ( http://arxiv.org/abs/2210.02227v1 )

ライセンス: Link先を確認
Hannes Mareen, Dante Vanden Bussche, Fabrizio Guillaro, Davide Cozzolino, Glenn Van Wallendael, Peter Lambert, Luisa Verdoliva(参考訳) リアルに画像を編集する操作ツールは広く利用されており、誰でも誤情報を作成・拡散できる。 偽ニュースに対抗するために、偽造検出とローカライズ手法が設計された。 しかし、既存の手法では、インターネット上の画像、すなわち野生の画像を正確に表現することは困難である。 これは、改ざん跡が再圧縮によって損傷されるのに加えて、偽造のタイプが通常不明であるからである。 本稿では,圧縮指紋やコンプリントに基づく新しい偽造検出手法であるComprintを提案する。 プリスタンデータのみに基づいてトレーニングされ、さまざまなタイプの操作を検出するための一般化を提供する。 さらに,補完カメラモデル指紋を用いたComprintと最先端のノイズプリントの融合を提案する。 我々は,広範に実験を行い,comprintが様々な操作型を表現する5つの評価データセットにおいて,実環境を模倣した高い精度を持つことを示す。 最も注目すべきは、提案された融合が最先端の参照メソッドを大幅に上回っていることだ。 このように、comprintとfusion comprint+noiseprintは、野生の改ざん画像を分析するための有望な鑑識ツールである。

Manipulation tools that realistically edit images are widely available, making it easy for anyone to create and spread misinformation. In an attempt to fight fake news, forgery detection and localization methods were designed. However, existing methods struggle to accurately reveal manipulations found in images on the internet, i.e., in the wild. That is because the type of forgery is typically unknown, in addition to the tampering traces being damaged by recompression. This paper presents Comprint, a novel forgery detection and localization method based on the compression fingerprint or comprint. It is trained on pristine data only, providing generalization to detect different types of manipulation. Additionally, we propose a fusion of Comprint with the state-of-the-art Noiseprint, which utilizes a complementary camera model fingerprint. We carry out an extensive experimental analysis and demonstrate that Comprint has a high level of accuracy on five evaluation datasets that represent a wide range of manipulation types, mimicking in-the-wild circumstances. Most notably, the proposed fusion significantly outperforms state-of-the-art reference methods. As such, Comprint and the fusion Comprint+Noiseprint represent a promising forensics tool to analyze in-the-wild tampered images.
翻訳日:2022-10-06 13:36:08 公開日:2022-10-05
# 階層型逆強化学習

Hierarchical Adversarial Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.01969v1 )

ライセンス: Link先を確認
Jiayu Chen, Tian Lan, Vaneet Aggarwal(参考訳) 階層的模倣学習(Hierarchical Imitation Learning, HIL)は、タスク階層をオプションフレームワークでモデル化することにより、専門家による実証から長期タスクの複雑な振る舞いを復元するために提案されている。 既存の方法は、サブタスクとそれに対応するポリシーの間の因果関係を見落としているか、あるいはエンドツーエンドでポリシーを学ばず、亜最適性につながる。 本研究では, 適応逆強化学習に基づく新しいHILアルゴリズムを開発し, 予測最大化アルゴリズムで適応することで, 注釈のない実演から階層的ポリシーを直接復元する。 さらに,目的関数に有向情報項を導入して因果性を高めるとともに,目的をエンドツーエンドで学習するための変分オートエンコーダフレームワークを提案する。 本アルゴリズムの優位性を示すため,ロボット制御の課題に対する理論的正当化と評価を行った。 コードはhttps://github.com/lucascjysdl/hierairlで入手できる。

Hierarchical Imitation Learning (HIL) has been proposed to recover highly-complex behaviors in long-horizontal tasks from expert demonstrations by modeling the task hierarchy with the option framework. Existing methods either overlook the causal relationship between the subtask and its corresponding policy or fail to learn the policy in an end-to-end fashion, which leads to suboptimality. In this work, we develop a novel HIL algorithm based on Adversarial Inverse Reinforcement Learning and adapt it with the Expectation-Maximization algorithm in order to directly recover a hierarchical policy from the unannotated demonstrations. Further, we introduce a directed information term to the objective function to enhance the causality and propose a Variational Autoencoder framework for learning with our objectives in an end-to-end fashion. Theoretical justifications and evaluations on challenging robotic control tasks are provided to show the superiority of our algorithm. The codes are available at https://github.com/LucasCJYSDL/HierAIRL.
翻訳日:2022-10-06 13:33:44 公開日:2022-10-05
# FedMT: 混合型ラベルによるフェデレーションラーニング

FedMT: Federated Learning with Mixed-type Labels ( http://arxiv.org/abs/2210.02042v1 )

ライセンス: Link先を確認
Qiong Zhang, Aline Talhouk, Gang Niu, Xiaoxiao Li(参考訳) フェデレーション学習(fl)では、分類器(ディープネットワークなど)は複数のセンタからデータを交換することなくデータセット上でトレーニングされ、サンプル効率が向上する。 FLの古典的な設定では、トレーニングに関わるすべてのセンターで同じラベル付け基準が使用される。 この制約はFLの適用性を著しく制限する。 例えば、疾患診断に使用される基準は、古典的なFL設定と一致しない臨床センターによって異なる傾向にある。 本稿では,各センターで異なるラベル付け基準を適用可能な混合型ラベル付きFLの重要かつ未探索な設定を考える。 混合型ラベルを用いたモデル学習を効果的かつ効率的に行うために,これらのラベル空間間の基礎となる対応を利用して,FedAvgのような様々なFL手法と容易に組み合わせることができる理論誘導型およびモデル依存型アプローチを提案する。 オーバーパラメータ化されたReLUネットワークに基づく収束解析を提案する。 提案手法はラベル投影における線形収束を達成できることを示し,新しい設定のパラメータが収束率に与える影響を実証する。 提案手法を評価し, ベンチマークおよび医療データを用いて理論的知見を検証した。

In federated learning (FL), classifiers (e.g., deep networks) are trained on datasets from multiple centers without exchanging data across them, and thus improves sample efficiency. In the classical setting of FL, the same labeling criterion is usually employed across all centers being involved in training. This constraint greatly limits the applicability of FL. For example, standards used for disease diagnosis are more likely to be different across clinical centers, which mismatches the classical FL setting. In this paper, we consider an important yet under-explored setting of FL, namely FL with mixed-type labels where different labeling criteria can be employed by various centers, leading to inter-center label space differences and challenging existing FL methods designed for the classical setting. To effectively and efficiently train models with mixed-type labels, we propose a theory-guided and model-agnostic approach that can make use of the underlying correspondence between those label spaces and can be easily combined with various FL methods such as FedAvg. We present convergence analysis based on over-parameterized ReLU networks. We show that the proposed method can achieve linear convergence in label projection, and demonstrate the impact of the parameters of our new setting on the convergence rate. The proposed method is evaluated and the theoretical findings are validated on benchmark and medical datasets.
翻訳日:2022-10-06 13:33:30 公開日:2022-10-05
# ISFL:地域重要度サンプリングによる非i.d.データのための信頼できるフェデレーション学習

ISFL: Trustworthy Federated Learning for Non-i.i.d. Data with Local Importance Sampling ( http://arxiv.org/abs/2210.02119v1 )

ライセンス: Link先を確認
Zheqi Zhu, Pingyi Fan, Chenghui Peng, and Khaled B. Letaief(参考訳) 有望な統合計算とコミュニケーション学習のパラダイムとして、フェデレーション学習(fl)は分散クライアントから定期的に共有される。 クライアント上の非IDデータ分布のため、FLモデルは勾配の多様性、性能の低下、収束不良等に悩まされる。 本稿では,ローカルトレーニングにデータ駆動重要度サンプリング(is)を採用することで,この問題に取り組むことを目的とする。 我々は、特にニューラルネットワーク(nn)モデルと互換性のある、重要度サンプリング連合学習(isfl)という信頼できるフレームワークを提案する。 この枠組みは理論的にも実験的にも評価される。 まず,isflと集中型データトレーニングのパラメータ偏差を導出し,非i.i.d.ジレンマの主な要因を同定する。 次に最適化問題として最適is重みの選択を定式化し、理論的解を得る。 また,is重みの計算やisflアルゴリズムの開発に水充填法を適用した。 cifar-10の実験結果は,提案する理論によく適合し,isflは高い性能と非i.i.d.データへの収束性が向上することを示す。 我々の知る限りでは、ISFLは、理論的なNN互換を示す局所的なサンプリングの側面から、最初の非i.d.FLソリューションである。 さらに、ローカルサンプリングアプローチとして、isflは新たなflフレームワークに容易に移行できる。

As a promising integrated computation and communication learning paradigm, federated learning (FL) carries a periodic sharing from distributed clients. Due to the non-i.i.d. data distribution on clients, FL model suffers from the gradient diversity, poor performance, bad convergence, etc. In this work, we aim to tackle this key issue by adopting data-driven importance sampling (IS) for local training. We propose a trustworthy framework, named importance sampling federated learning (ISFL), which is especially compatible with neural network (NN) models. The framework is evaluated both theoretically and experimentally. Firstly, we derive the parameter deviation bound between ISFL and the centralized full-data training to identify the main factors of the non-i.i.d. dilemmas. We will then formulate the selection of optimal IS weights as an optimization problem and obtain theoretical solutions. We also employ water-filling methods to calculate the IS weights and develop the complete ISFL algorithms. The experimental results on CIFAR-10 fit our proposed theories well and prove that ISFL reaps higher performance, as well as better convergence on non-i.i.d. data. To the best of our knowledge, ISFL is the first non-i.i.d. FL solution from the local sampling aspect which exhibits theoretical NN compatibility. Furthermore, as a local sampling approach, ISFL can be easily migrated into emerging FL frameworks.
翻訳日:2022-10-06 13:33:08 公開日:2022-10-05
# pacフレームワークを越えたマルチクラス学習能力:ユニバーサルレートと部分概念クラス

Multiclass Learnability Beyond the PAC Framework: Universal Rates and Partial Concept Classes ( http://arxiv.org/abs/2210.02297v1 )

ライセンス: Link先を確認
Alkis Kalavasis, Grigoris Velegkas, Amin Karbasi(参考訳) 本稿では,有界なラベル数$k$のマルチクラス分類の問題について,実現可能な設定で検討する。 従来のPACモデルを拡張します。 a) 分布依存学習率,及び b) データ依存的前提に基づく学習率 まず,固定分布毎に保持される達成可能な学習率の完全な評価を行う普遍的な学習環境(Bousquet, Hanneke, Moran, van Handel and Yehudayoff, STOC '21)を考える。 特に, 任意の概念クラスに対して, 最適学習速度は指数的, 線形, 任意に遅いかを示す。 さらに,これらの確率が発生することを特徴付ける仮説クラスの複雑性尺度を提供する。 第2に、構造化データ(低次元多様体上やマージン条件を満たすデータなど)を用いたマルチクラス分類の問題について、部分概念クラス(Alon, Hanneke, Holzman and Moran, FOCS '21)で捉えた設定について考察する。 部分概念は入力空間の特定の部分で定義できない関数である。 我々は,多クラス構成において,全概念クラスの従来のpac学習能力を部分概念クラスに拡張し,部分概念と全体概念の差異を検討する。

In this paper we study the problem of multiclass classification with a bounded number of different labels $k$, in the realizable setting. We extend the traditional PAC model to a) distribution-dependent learning rates, and b) learning rates under data-dependent assumptions. First, we consider the universal learning setting (Bousquet, Hanneke, Moran, van Handel and Yehudayoff, STOC '21), for which we provide a complete characterization of the achievable learning rates that holds for every fixed distribution. In particular, we show the following trichotomy: for any concept class, the optimal learning rate is either exponential, linear or arbitrarily slow. Additionally, we provide complexity measures of the underlying hypothesis class that characterize when these rates occur. Second, we consider the problem of multiclass classification with structured data (such as data lying on a low dimensional manifold or satisfying margin conditions), a setting which is captured by partial concept classes (Alon, Hanneke, Holzman and Moran, FOCS '21). Partial concepts are functions that can be undefined in certain parts of the input space. We extend the traditional PAC learnability of total concept classes to partial concept classes in the multiclass setting and investigate differences between partial and total concepts.
翻訳日:2022-10-06 13:27:27 公開日:2022-10-05
# メタアンサンブルパラメータ学習

Meta-Ensemble Parameter Learning ( http://arxiv.org/abs/2210.01973v1 )

ライセンス: Link先を確認
Zhengcong Fei, Shuman Tian, Junshi Huang, Xiaoming Wei, Xiaolin Wei(参考訳) 機械学習モデルの組み立てにより、パフォーマンスと堅牢性が向上する。 しかし、メモリ要件や推論コストは制限的に高くなります。 知識蒸留は、1つのモデルがアンサンブルの近似性能を効率的に捉えつつ、新しい教師モデルを導入する際に、再学習の需要としてスケーラビリティを低下させるアプローチである。 本稿では,メタラーニング戦略を用いて,アンサンブルの性能に匹敵する単一モデルのパラメータを直接予測できるかどうかについて検討する。 本稿では,教師モデルパラメータに従って,生徒のネットワーク重み付け層を前方通過層で予測できるTransformerベースのモデルWeightFormerを紹介する。 CIFAR-10, CIFAR-100, ImageNetデータセットを用いて, VGGNet-11, ResNet-50, ViT-B/32のモデル構造に対するWeightFormerの妥当性を検討した。 より奨励的に、WeightFormerの結果は、微調整による平均アンサンブルを超える可能性があることを示す。 重要なことは、我々のタスクとモデルと結果が、ネットワークパラメータ学習の新しい、より効率的でスケーラブルなパラダイムにつながる可能性があるということです。

Ensemble of machine learning models yields improved performance as well as robustness. However, their memory requirements and inference costs can be prohibitively high. Knowledge distillation is an approach that allows a single model to efficiently capture the approximate performance of an ensemble while showing poor scalability as demand for re-training when introducing new teacher models. In this paper, we study if we can utilize the meta-learning strategy to directly predict the parameters of a single model with comparable performance of an ensemble. Hereto, we introduce WeightFormer, a Transformer-based model that can predict student network weights layer by layer in a forward pass, according to the teacher model parameters. The proprieties of WeightFormer are investigated on the CIFAR-10, CIFAR-100, and ImageNet datasets for model structures of VGGNet-11, ResNet-50, and ViT-B/32, where it demonstrates that our method can achieve approximate classification performance of an ensemble and outperforms both the single network and standard knowledge distillation. More encouragingly, we show that WeightFormer results can further exceeds average ensemble with minor fine-tuning. Importantly, our task along with the model and results can potentially lead to a new, more efficient, and scalable paradigm of ensemble networks parameter learning.
翻訳日:2022-10-06 13:26:17 公開日:2022-10-05
# 大気モデルによる雲除去

Cloud removal Using Atmosphere Model ( http://arxiv.org/abs/2210.01981v1 )

ライセンス: Link先を確認
Yi Guo, Feng Li and Zhuo Wang(参考訳) クラウド除去はリモートセンシングデータ分析において重要なタスクである。 画像センサーは地上から遠ざかっているため、興味のある領域の一部は雲に覆われている可能性が高い。 さらに、中間の雰囲気は、取得した画像上に一定ヘイズ層を生成する。 地上画像の復元には,低階及びスパースモデルの枠組みにおける任意のシーンの画像の時間的シーケンスに散乱モデルを用いることを提案する。 私たちはさらに、より高速で、より正確である、その変種を開発します。 異なる手法の性能を客観的に測定するために, クラウドカバーを生成するための半現実的シミュレーション手法を開発し, 様々な手法を定量的に解析し, 提案手法の有効性の検証, ディープラーニングモデルを含む最先端モデルとの比較, 正規化パラメータの決定の長期的問題への対処など, クラウド除去アルゴリズムの多くの側面について詳細な研究を可能にした。 後者は、スパーシティ正規化パラメータの範囲に関する理論解析と連動し、数値的に検証される。

Cloud removal is an essential task in remote sensing data analysis. As the image sensors are distant from the earth ground, it is likely that part of the area of interests is covered by cloud. Moreover, the atmosphere in between creates a constant haze layer upon the acquired images. To recover the ground image, we propose to use scattering model for temporal sequence of images of any scene in the framework of low rank and sparse models. We further develop its variant, which is much faster and yet more accurate. To measure the performance of different methods {\em objectively}, we develop a semi-realistic simulation method to produce cloud cover so that various methods can be quantitatively analysed, which enables detailed study of many aspects of cloud removal algorithms, including verifying the effectiveness of proposed models in comparison with the state-of-the-arts, including deep learning models, and addressing the long standing problem of the determination of regularisation parameters. The latter is companioned with theoretic analysis on the range of the sparsity regularisation parameter and verified numerically.
翻訳日:2022-10-06 13:25:52 公開日:2022-10-05
# impresslearn: 複合タスクインプレッションによる継続的学習

ImpressLearn: Continual Learning via Combined Task Impressions ( http://arxiv.org/abs/2210.01987v1 )

ライセンス: Link先を確認
Dhrupad Bhardwaj, Julia Kempe, Artem Vysogorets, Angela M. Teng, and Evaristus C. Ezekwem(参考訳) 本研究は,未知のタスクに迅速に適応する能力を内挿しながら,破滅的な忘れを生じることなく,複数のタスクに対してディープニューラルネットワークをシーケンシャルにトレーニングする新しい手法を提案する。 ネットワークマスキングに関する既存の研究(Wortsman et al., 2020)から、ランダムに初期化されたバックボーンネットワーク上で少数のタスク固有のマスク(印象)の線形結合を学習するだけで、以前に学習したタスクの精度を維持し、新しいタスクの精度を高めることができることを示す。 従来の手法とは対照的に、タスク毎に専用のマスクやコンテキストを生成する必要はなく、代わりにトランスファー学習を活用してタスク毎のパラメータのオーバーヘッドを小さくする。 我々の研究は、個々の印象を線形に結合する能力を示し、それぞれが孤立していないので、専用のマスクに匹敵するパフォーマンスを達成する。 また、同じタスク(均質なマスク)からの繰り返しのインプレッションであっても、十分な数のインプレッションを使用すると、組み合わせた場合、不均質なコンビネーションのパフォーマンスに近づくことができる。 我々のアプローチは既存のメソッドよりも効率的にスケールでき、しばしば桁違いに少ないパラメータを必要とし、タスクのアイデンティティが失われても修正なしで機能する。 また,推論時にタスクラベルを付与しない環境では,提案するエントロピーに基づくタスク推論手法の代替として,アルゴリズムが好まれる(Wortsman et al., 2020)。 本手法は,多くの画像分類データセットとアーキテクチャを用いて評価する。

This work proposes a new method to sequentially train a deep neural network on multiple tasks without suffering catastrophic forgetting, while endowing it with the capability to quickly adapt to unseen tasks. Starting from existing work on network masking (Wortsman et al., 2020), we show that simply learning a linear combination of a small number of task-specific masks (impressions) on a randomly initialized backbone network is sufficient to both retain accuracy on previously learned tasks, as well as achieve high accuracy on new tasks. In contrast to previous methods, we do not require to generate dedicated masks or contexts for each new task, instead leveraging transfer learning to keep per-task parameter overhead small. Our work illustrates the power of linearly combining individual impressions, each of which fares poorly in isolation, to achieve performance comparable to a dedicated mask. Moreover, even repeated impressions from the same task (homogeneous masks), when combined can approach the performance of heterogeneous combinations if sufficiently many impressions are used. Our approach scales more efficiently than existing methods, often requiring orders of magnitude fewer parameters and can function without modification even when task identity is missing. In addition, in the setting where task labels are not given at inference, our algorithm gives an often favorable alternative to the entropy based task-inference methods proposed in (Wortsman et al., 2020). We evaluate our method on a number of well known image classification data sets and architectures.
翻訳日:2022-10-06 13:25:35 公開日:2022-10-05
# 識別的エッジ特徴学習によるグラフ分類

Graph Classification via Discriminative Edge Feature Learning ( http://arxiv.org/abs/2210.02060v1 )

ライセンス: Link先を確認
Yang Yi, Xuequan Lu, Shang Gao, Antonio Robles-Kelly, Yuejie Zhang(参考訳) スペクトルグラフ畳み込みニューラルネットワーク(GCNN)は、グラフ分類タスクにおいて奨励的な結果を生み出している。 しかし、ほとんどのスペクトルGCNNは、エッジ特徴学習を省略し、最適なグラフ構造を得ることができず、ノード特徴を集約するときに固定グラフを利用する。 さらに、既存のグラフデータセットの多くは初期化エッジ機能を提供しておらず、スペクトルGCNNを通じてエッジ機能を学習する能力をさらに抑制している。 本稿では,GCNNにおける2つのグラフ畳み込み層間のエッジ特徴体系とアドオン層を設計し,この問題に対処する。 どちらも軽量であり、エッジ特徴学習とグラフ分類の性能向上のギャップを埋めるのに効果的である。 edge feature schemeは、エッジ機能を異なるグラフ畳み込み層でのノード表現に適応させる。 アドオン層は、エッジ機能を最適なグラフ構造に調整するのに役立ちます。 本手法の有効性をテストするために,ユークリッド位置を初期ノードの特徴とし,ポイントクラウドオブジェクトから意味情報を持つグラフを抽出する。 抽出したグラフのノード機能は、既存のグラフデータセット(ワンホットエンコードされたラベル形式)よりもエッジ機能学習にスケーラブルです。 ModelNet40、ModelNet10、ShapeNet Partの3つの新しいグラフデータセットが構築されている。 実験結果から,グラフモデルNet40では96.56%,グラフモデルNet10では98.79%,グラフモデルNetPartでは97.91%,新しいデータセットでは96.56%,グラフモデルNet40では97.91%であった。 構築されたグラフデータセットがコミュニティに公開される。

Spectral graph convolutional neural networks (GCNNs) have been producing encouraging results in graph classification tasks. However, most spectral GCNNs utilize fixed graphs when aggregating node features, while omitting edge feature learning and failing to get an optimal graph structure. Moreover, many existing graph datasets do not provide initialized edge features, further restraining the ability of learning edge features via spectral GCNNs. In this paper, we try to address this issue by designing an edge feature scheme and an add-on layer between every two stacked graph convolution layers in GCNN. Both are lightweight while effective in filling the gap between edge feature learning and performance enhancement of graph classification. The edge feature scheme makes edge features adapt to node representations at different graph convolution layers. The add-on layers help adjust the edge features to an optimal graph structure. To test the effectiveness of our method, we take Euclidean positions as initial node features and extract graphs with semantic information from point cloud objects. The node features of our extracted graphs are more scalable for edge feature learning than most existing graph datasets (in one-hot encoded label format). Three new graph datasets are constructed based on ModelNet40, ModelNet10 and ShapeNet Part datasets. Experimental results show that our method outperforms state-of-the-art graph classification methods on the new datasets by reaching 96.56% overall accuracy on Graph-ModelNet40, 98.79% on Graph-ModelNet10 and 97.91% on Graph-ShapeNet Part. The constructed graph datasets will be released to the community.
翻訳日:2022-10-06 13:25:06 公開日:2022-10-05
# リレーショナルプロキシ:ファイングレードディスクリミネーターとしての創発的関係

Relational Proxies: Emergent Relationships as Fine-Grained Discriminators ( http://arxiv.org/abs/2210.02149v1 )

ライセンス: Link先を確認
Abhra Chaudhuri, Massimiliano Mancini, Zeynep Akata, Anjan Dutta(参考訳) 同じ部分のセットを共有する細かなカテゴリは、部分情報のみに基づいて判別することはできない。 本稿では,オブジェクトのグローバルビューとローカルビュー間の関係情報を利用して意味ラベルを符号化する手法であるRelational Proxiesを提案する。 細粒度カテゴリ間の識別可能性の概念の厳密な形式化から始め、細粒度設定の基盤となる決定境界を学ぶために、モデルが満たさなければならない必要十分条件を証明します。 我々は,我々の理論的知見に基づいて関係プロキシを設計し,7つの難解な細粒度ベンチマークデータセット上で評価し,それらすべてについて最先端の結果を得る。 また,詳細な識別可能性に関する理論を実験的に検証し,複数のベンチマークで一貫した結果を得る。 実装はhttps://github.com/abhrac/relational-proxiesで利用可能である。

Fine-grained categories that largely share the same set of parts cannot be discriminated based on part information alone, as they mostly differ in the way the local parts relate to the overall global structure of the object. We propose Relational Proxies, a novel approach that leverages the relational information between the global and local views of an object for encoding its semantic label. Starting with a rigorous formalization of the notion of distinguishability between fine-grained categories, we prove the necessary and sufficient conditions that a model must satisfy in order to learn the underlying decision boundaries in the fine-grained setting. We design Relational Proxies based on our theoretical findings and evaluate it on seven challenging fine-grained benchmark datasets and achieve state-of-the-art results on all of them, surpassing the performance of all existing works with a margin exceeding 4% in some cases. We also experimentally validate our theory on fine-grained distinguishability and obtain consistent results across multiple benchmarks. Implementation is available at https://github.com/abhrac/relational-proxies.
翻訳日:2022-10-06 13:24:35 公開日:2022-10-05
# オブジェクト指向表現学習のための微分数学プログラミング

Differentiable Mathematical Programming for Object-Centric Representation Learning ( http://arxiv.org/abs/2210.02159v1 )

ライセンス: Link先を確認
Adeel Pervez, Phillip Lippe, Efstratios Gavves(参考訳) 我々は,オブジェクト中心表現学習のための方法として,与えられたシーン特徴に対して$k$の非結合パーティションを分割するトポロジ・アウェア機能を提案する。 この目的のために,線形プログラムとして表現される分割法として,最小$s$-$t$グラフカットを用いることを提案する。 この方法は、画像グラフの近傍関係を明示的にエンコードするため、位相的に認識される。 このグラフを解くために、我々の解は効率的でスケーラブルで微分可能な二次プログラミング近似に依存する。 カット問題に特化した最適化により、二次プログラムを解き、それらの勾配を一般的な二次計画法よりもはるかに効率的に計算することができる。 以上の結果から,我々のアプローチはスケーラブルであり,テクスチャ化されたシーンやオブジェクトを用いたオブジェクト発見タスクにおける既存手法よりも優れていた。

We propose topology-aware feature partitioning into $k$ disjoint partitions for given scene features as a method for object-centric representation learning. To this end, we propose to use minimum $s$-$t$ graph cuts as a partitioning method which is represented as a linear program. The method is topologically aware since it explicitly encodes neighborhood relationships in the image graph. To solve the graph cuts our solution relies on an efficient, scalable, and differentiable quadratic programming approximation. Optimizations specific to cut problems allow us to solve the quadratic programs and compute their gradients significantly more efficiently compared with the general quadratic programming approach. Our results show that our approach is scalable and outperforms existing methods on object discovery tasks with textured scenes and objects.
翻訳日:2022-10-06 13:24:16 公開日:2022-10-05
# imagen video: 拡散モデルを用いた高精細映像生成

Imagen Video: High Definition Video Generation with Diffusion Models ( http://arxiv.org/abs/2210.02303v1 )

ライセンス: Link先を確認
Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J. Fleet, Tim Salimans(参考訳) 本稿では,映像拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムであるImagen Videoを紹介する。 テキストプロンプトが与えられると、imagen videoはベースビデオ生成モデルとインターリーブされた空間的および時間的ビデオのスーパーレゾリューションモデルを使用して高精細なビデオを生成する。 本稿では,特定の解像度での完全畳み込み時空間超解像モデルの選択や,拡散モデルのvパラメータ化の選択などの設計決定を含む,高定義のテキスト・ビデオモデルとしてシステムをスケールアップする方法を説明する。 また, 拡散に基づく画像生成に関する先行研究から映像生成環境へ移行した知見を確認し, 伝達する。 最後に, 高速, 高品質サンプリングのための分類器フリーガイダンスを用いて, ビデオモデルにプログレッシブ蒸留を適用した。 imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。 サンプルはhttps://imagen.research.google/video/を参照。

We present Imagen Video, a text-conditional video generation system based on a cascade of video diffusion models. Given a text prompt, Imagen Video generates high definition videos using a base video generation model and a sequence of interleaved spatial and temporal video super-resolution models. We describe how we scale up the system as a high definition text-to-video model including design decisions such as the choice of fully-convolutional temporal and spatial super-resolution models at certain resolutions, and the choice of the v-parameterization of diffusion models. In addition, we confirm and transfer findings from previous work on diffusion-based image generation to the video generation setting. Finally, we apply progressive distillation to our video models with classifier-free guidance for fast, high quality sampling. We find Imagen Video not only capable of generating videos of high fidelity, but also having a high degree of controllability and world knowledge, including the ability to generate diverse videos and text animations in various artistic styles and with 3D object understanding. See https://imagen.research.google/video/ for samples.
翻訳日:2022-10-06 13:24:01 公開日:2022-10-05
# 強化学習における状態表現基盤としてのニューラル蒸留

Neural Distillation as a State Representation Bottleneck in Reinforcement Learning ( http://arxiv.org/abs/2210.02224v1 )

ライセンス: Link先を確認
Valentin Guillet, Dennis G. Wilson, Carlos Aguilar-Melchor, Emmanuel Rachelson(参考訳) 優れた状態表現を学ぶことは、強化学習において複数のタスクを扱う際に重要なスキルである。 しかし、有用な表現を構成するものを定義するのは単純ではなく、そのようなエンコーディングを見つける標準的な方法は存在しない。 本稿では、与えられた一連のポリシーを単一のニューラルネットワークで模倣するプロセスである蒸留は、望ましい特性を示す状態表現を学習するために使用できると主張する。 本稿では、入力空間における重要な変数を選択する能力、対応する最適動作に応じて効率的に状態を分離する能力、新しいタスクにおける状態符号化の堅牢性といった、状態符号化の望ましい特徴を測定するための3つの基準を定義する。 これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証するとともに,atariベンチマークとprocgenベンチマークからより複雑な視覚タスクの解析を拡張した。

Learning a good state representation is a critical skill when dealing with multiple tasks in Reinforcement Learning as it allows for transfer and better generalization between tasks. However, defining what constitute a useful representation is far from simple and there is so far no standard method to find such an encoding. In this paper, we argue that distillation -- a process that aims at imitating a set of given policies with a single neural network -- can be used to learn a state representation displaying favorable characteristics. In this regard, we define three criteria that measure desirable features of a state encoding: the ability to select important variables in the input space, the ability to efficiently separate states according to their corresponding optimal action, and the robustness of the state encoding on new tasks. We first evaluate these criteria and verify the contribution of distillation on state representation on a toy environment based on the standard inverted pendulum problem, before extending our analysis on more complex visual tasks from the Atari and Procgen benchmarks.
翻訳日:2022-10-06 13:17:19 公開日:2022-10-05
# 強化学習における伝達のためのニューラルコンソリデーションについて

On Neural Consolidation for Transfer in Reinforcement Learning ( http://arxiv.org/abs/2210.02240v1 )

ライセンス: Link先を確認
Valentin Guillet, Dennis G. Wilson, Carlos Aguilar-Melchor, Emmanuel Rachelson(参考訳) 伝達学習は深層強化学習のマイルストーンと考えられているが、そのメカニズムはまだ理解されていない。 特に、与えられた2つのタスク間で知識を転送できるかどうかを予測することは、未解決の問題である。 本研究では, ネットワーク蒸留を特徴抽出法として用いることにより, 転移の発生状況の理解を深める。 特に,複数のタスクから新しいタスクへ移行する場合など,蒸留は知識伝達を阻害しないことを示すとともに,これらの結果と先行蒸留を伴わない転移との比較を行った。 異なるゲーム間のばらつきからAtariベンチマークに焦点をあてるとともに、視覚的特徴の点でも類似点に目を向ける。

Although transfer learning is considered to be a milestone in deep reinforcement learning, the mechanisms behind it are still poorly understood. In particular, predicting if knowledge can be transferred between two given tasks is still an unresolved problem. In this work, we explore the use of network distillation as a feature extraction method to better understand the context in which transfer can occur. Notably, we show that distillation does not prevent knowledge transfer, including when transferring from multiple tasks to a new one, and we compare these results with transfer without prior distillation. We focus our work on the Atari benchmark due to the variability between different games, but also to their similarities in terms of visual features.
翻訳日:2022-10-06 13:17:02 公開日:2022-10-05
# ディープラーニングタスクとしての目標認識:grnetアプローチ

Goal Recognition as a Deep Learning Task: the GRNet Approach ( http://arxiv.org/abs/2210.02377v1 )

ライセンス: Link先を確認
Mattia Chiari, Alfonso E. Gerevini, Luca Putelli, Francesco Percassi, Ivan Serina(参考訳) 自動計画では、観察の痕跡からエージェントのゴールを認識することが多くのアプリケーションにとって重要な課題である。 ゴール認識の最先端のアプローチは、ドメインアクションと初期ドメイン状態(例えばpddlで書かれる)のモデルを必要とする計画技術の適用に依存している。 本稿では,機械学習による分類課題としてゴール認識を定式化する手法を提案する。 GRNetと呼ばれる私たちのアプローチは、主に、特定のドメインでそれを解決する方法を学ぶことによって、ゴール認識をより正確かつ高速にすることを目的としています。 提案のセットとアクション名のセットで指定された計画領域が与えられると、ドメイン内の目標分類インスタンスは、recurrent neural network(rnn)によって解決される。 RNNの実行は、観測されたアクションのトレースを処理し、各ドメインの提案がエージェントの目標の一部である可能性を計算する。 これらの予測は、候補目標の1つを選択するために集約される。 トレーニングされたRNNの入力に必要な唯一の情報は、観察されたアクションの名前のみを示すアクションラベルのトレースである。 実験分析により, 目標分類精度と実行時間の両方において, \our が良好な性能を達成し, 評価されたベンチマークに対して, 最先端のゴール認識システムよりも優れた性能が得られることを確認した。

In automated planning, recognising the goal of an agent from a trace of observations is an important task with many applications. The state-of-the-art approaches to goal recognition rely on the application of planning techniques, which requires a model of the domain actions and of the initial domain state (written, e.g., in PDDL). We study an alternative approach where goal recognition is formulated as a classification task addressed by machine learning. Our approach, called GRNet, is primarily aimed at making goal recognition more accurate as well as faster by learning how to solve it in a given domain. Given a planning domain specified by a set of propositions and a set of action names, the goal classification instances in the domain are solved by a Recurrent Neural Network (RNN). A run of the RNN processes a trace of observed actions to compute how likely it is that each domain proposition is part of the agent's goal, for the problem instance under considerations. These predictions are then aggregated to choose one of the candidate goals. The only information required as input of the trained RNN is a trace of action labels, each one indicating just the name of an observed action. An experimental analysis confirms that \our achieves good performance in terms of both goal classification accuracy and runtime, obtaining better performance w.r.t. a state-of-the-art goal recognition system over the considered benchmarks.
翻訳日:2022-10-06 13:16:51 公開日:2022-10-05
# 確率的および指向的ネットワーク上のパーソナライズされた分散バイレベル最適化

Personalized Decentralized Bilevel Optimization over Stochastic and Directed Networks ( http://arxiv.org/abs/2210.02129v1 )

ライセンス: Link先を確認
Naoyuki Terashita, Satoshi Hara(参考訳) 分散学習におけるパーソナライゼーションは広く研究されているが、既存のアプローチでは、特定のタイプのパラメータ(例えば、クライアントクラスタやモデル補間重みなど)を最適化する専用のアルゴリズムを使用しており、パフォーマンスを向上させるために異なるタイプのパラメータを同時に最適化することは困難である。 さらに、アルゴリズムは集中的または静的な非ダイレクト通信ネットワークを必要とし、センターポイント障害やデッドロックに弱い可能性がある。 本研究では,より実用的な通信環境で動作する単一アルゴリズムを用いて,様々なパラメータの最適化を提案する。 まず,クライアントサイドハイパーパラメータの最適化に対するパーソナライズアプローチを最小化する,勾配に基づく2レベル最適化を提案する。 第2に,確率的および有向的な通信ネットワーク上でも動作可能なハイパーパラメータに関する勾配を推定する分散アルゴリズムを提案する。 実験の結果,従来のパーソナライゼーション手法を組み合わせることで,確率的・有向的ネットワークを含む複数のシミュレーション通信環境において実行可能であることを確認した。

While personalization in distributed learning has been extensively studied, existing approaches employ dedicated algorithms to optimize their specific type of parameters (e.g., client clusters or model interpolation weights), making it difficult to simultaneously optimize different types of parameters to yield better performance. Moreover, their algorithms require centralized or static undirected communication networks, which can be vulnerable to center-point failures or deadlocks. This study proposes optimizing various types of parameters using a single algorithm that runs on more practical communication environments. First, we propose a gradient-based bilevel optimization that reduces most personalization approaches to the optimization of client-wise hyperparameters. Second, we propose a decentralized algorithm to estimate gradients with respect to the hyperparameters, which can run even on stochastic and directed communication networks. Our empirical results demonstrated that the gradient-based bilevel optimization enabled combining existing personalization approaches which led to state-of-the-art performance, confirming it can perform on multiple simulated communication environments including a stochastic and directed network.
翻訳日:2022-10-06 13:15:37 公開日:2022-10-05
# 重要サンプリングによる予測の確率的調整

Probabilistic reconciliation of forecasts via importance sampling ( http://arxiv.org/abs/2210.02286v1 )

ライセンス: Link先を確認
Lorenzo Zambon, Dario Azzimonti, and Giorgio Corani(参考訳) 階層的な時系列はいくつかの応用分野において一般的である。 予測は階層によって与えられる制約を満たすために一貫性を持たなければならない。 コヒーレンスを強制する最も一般的なテクニックは調停と呼ばれ、各時系列で計算されたベース予測を調整する。 しかし、確率的和解に関する最近の研究にはいくつかの制限がある。 本稿では,任意の種類の予測分布を調和させる条件付けに基づく新しい手法を提案する。 次に,再結合分布から効率的にサンプリングするために,ボトムアップ重要度サンプリングと呼ばれる新しいアルゴリズムを導入する。 離散的、連続的、あるいはサンプルの形で、任意のベース予測分布に使用することができる。 本手法は,確率的予測の質を効果的に向上することを示す複数の時間階層上で検証した。 さらに,本アルゴリズムはバニラMCMC法よりも最大3桁高速である。

Hierarchical time series are common in several applied fields. Forecasts are required to be coherent, that is, to satisfy the constraints given by the hierarchy. The most popular technique to enforce coherence is called reconciliation, which adjusts the base forecasts computed for each time series. However, recent works on probabilistic reconciliation present several limitations. In this paper, we propose a new approach based on conditioning to reconcile any type of forecast distribution. We then introduce a new algorithm, called Bottom-Up Importance Sampling, to efficiently sample from the reconciled distribution. It can be used for any base forecast distribution: discrete, continuous, or even in the form of samples. The method was tested on several temporal hierarchies showing that our reconciliation effectively improves the quality of probabilistic forecasts. Moreover, our algorithm is up to 3 orders of magnitude faster than vanilla MCMC methods.
翻訳日:2022-10-06 13:15:17 公開日:2022-10-05
# プロトタイプベース自己説明型グラフニューラルネットワークに向けて

Towards Prototype-Based Self-Explainable Graph Neural Network ( http://arxiv.org/abs/2210.01974v1 )

ライセンス: Link先を確認
Enyan Dai, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを様々な領域でモデル化する優れた能力を示している。 しかし、GNNは解釈性に欠けるブラックボックスモデルとして知られている。 彼らの内部の動作を理解せずには、それらを完全には信頼できません。 当初、GNNの予測を解釈するためにいくつかの取り組みが行われたが、主にターゲットのGNNの内部動作機構を誤って表現できる追加の説明器を用いて、ホック後の説明を提供することに焦点を当てている。 自己説明可能なGNNの研究は、かなり限られている。 そこで本研究では,プロトタイプに基づく自己説明可能なGNNを学習し,正確な予測とプロトタイプによる予測説明を同時に行うという新たな課題について検討する。 クラスレベルの説明として各クラスの代表パターンをキャプチャするプロトタイプグラフを学習可能なフレームワークを設計する。 学習したプロトタイプは、テストインスタンスの予測とインスタンスレベルの説明を同時に行うためにも使用される。 実世界および合成データセットに関する広範な実験は、予測精度と説明品質の両方に対する提案フレームワークの有効性を示している。

Graph Neural Networks (GNNs) have shown great ability in modeling graph-structured data for various domains. However, GNNs are known as black-box models that lack interpretability. Without understanding their inner working, we cannot fully trust them, which largely limits their adoption in high-stake scenarios. Though some initial efforts have been taken to interpret the predictions of GNNs, they mainly focus on providing post-hoc explanations using an additional explainer, which could misrepresent the true inner working mechanism of the target GNN. The works on self-explainable GNNs are rather limited. Therefore, we study a novel problem of learning prototype-based self-explainable GNNs that can simultaneously give accurate predictions and prototype-based explanations on predictions. We design a framework which can learn prototype graphs that capture representative patterns of each class as class-level explanations. The learned prototypes are also used to simultaneously make prediction for for a test instance and provide instance-level explanation. Extensive experiments on real-world and synthetic datasets show the effectiveness of the proposed framework for both prediction accuracy and explanation quality.
翻訳日:2022-10-06 13:07:03 公開日:2022-10-05
# Atari-5: アーケード学習環境を5ゲームに拡張

Atari-5: Distilling the Arcade Learning Environment down to Five Games ( http://arxiv.org/abs/2210.02019v1 )

ライセンス: Link先を確認
Matthew Aitchison, Penny Sweetser, Marcus Hutter(参考訳) アーケード学習環境(ale)は強化学習アルゴリズムの性能を評価する上で不可欠なベンチマークとなっている。 しかし、57ゲームデータセット全体の結果を生成する計算コストは、ALEの使用を制限し、多くの結果の再現性を実現する。 本稿では,ベンチマークスイート内の環境の小さいが代表的な部分集合を選択するための原理的手法として,この問題に対する新しい解法を提案する。 本手法は5つのエールゲーム(atari-5)のサブセットを識別するために応用し,真価の10%以内で57ゲーム中央値の見積もりを生成する。 サブセットを10ゲームに拡張すると、57ゲームセット内の全てのゲームに対するログスコアの分散の80%が回復する。 ALEにおける多くのゲーム間の高い相関関係により、このレベルの圧縮が可能となることを示す。

The Arcade Learning Environment (ALE) has become an essential benchmark for assessing the performance of reinforcement learning algorithms. However, the computational cost of generating results on the entire 57-game dataset limits ALE's use and makes the reproducibility of many results infeasible. We propose a novel solution to this problem in the form of a principled methodology for selecting small but representative subsets of environments within a benchmark suite. We applied our method to identify a subset of five ALE games, called Atari-5, which produces 57-game median score estimates within 10% of their true values. Extending the subset to 10-games recovers 80% of the variance for log-scores for all games within the 57-game set. We show this level of compression is possible due to a high degree of correlation between many of the games in ALE.
翻訳日:2022-10-06 13:06:47 公開日:2022-10-05
# GT-GAN:生成逆ネットワークを用いた汎用時系列合成

GT-GAN: General Purpose Time Series Synthesis with Generative Adversarial Networks ( http://arxiv.org/abs/2210.02040v1 )

ライセンス: Link先を確認
Jinsung Jeon, Jeonghak Kim, Haryong Song, Seunghyeon Cho, Noseong Park(参考訳) 時系列合成は、深層学習の分野で重要な研究テーマであり、データ拡張に利用することができる。 時系列データ型は、広く正規または不規則に分類できる。 しかし、モデル変更なしに両方の型に優れたパフォーマンスを示す既存の生成モデルは存在しない。 そこで本研究では,正規および不規則時系列データを合成可能な汎用モデルを提案する。 我々の知る限り、我々は、時系列合成において最も困難な設定の1つである汎用時系列合成モデルを初めて設計している。 この目的のために,ニューラル常微分方程式から連続時間フロープロセスまで,多くの関連技術が注意深く単一のフレームワークに統合される生成逆ネットワークベースの手法を設計する。 我々のメソッドは既存のメソッドを全て上回っています。

Time series synthesis is an important research topic in the field of deep learning, which can be used for data augmentation. Time series data types can be broadly classified into regular or irregular. However, there are no existing generative models that show good performance for both types without any model changes. Therefore, we present a general purpose model capable of synthesizing regular and irregular time series data. To our knowledge, we are the first designing a general purpose time series synthesis model, which is one of the most challenging settings for time series synthesis. To this end, we design a generative adversarial network-based method, where many related techniques are carefully integrated into a single framework, ranging from neural ordinary/controlled differential equations to continuous time-flow processes. Our method outperforms all existing methods.
翻訳日:2022-10-06 13:06:34 公開日:2022-10-05
# 多変量時系列生成のためのトランスベース条件付き生成逆ネットワーク

Transformer-based conditional generative adversarial network for multivariate time series generation ( http://arxiv.org/abs/2210.02089v1 )

ライセンス: Link先を確認
Abdellah Madane, Mohamed-djallel Dilmi, Florent Forest, Hanane Azzag, Mustapha Lebbah, Jerome Lacaille(参考訳) 時間依存データの条件付き生成は、データ拡張、シナリオシミュレーション、データ欠落の完了など、多くの関心を持つタスクである。 最近の研究は、繰り返し発生するニューラルネットワークの限界に対応するために、Transformerベースの時系列生成敵ネットワーク(TTS-GAN)を提案する。 しかし、このモデルでは、一様分布を仮定し、実データ分布の期待値に関するサンプルを生成する。 その制限の一つは、ランダムな多変量時系列を生成することであり、全体分布内に複数のサブコンポーネントが存在する場合、サンプルを生成できない可能性がある。 この制限を克服するために、各サブコンポーネントに個別に適合するようにモデルを訓練することができる。 我々の研究はtts-ganを拡張し、生成された出力を特定のエンコードされたコンテキストに条件付けすることで、1つのモデルが複数のサブコンポーネントとの混合分布に適合できるようにします。 技術的には、分類変数や多変量時系列などの異なる条件下で、現実的な多変量時系列をモデル化する条件生成逆数ネットワークである。 スマートフォンを用いて収集した人間の活動のXYZ軸に追従する加速度データを含むUniMiBデータセットのモデルを評価する。 我々は,主成分分析(PCA)などの定性評価と定量的指標を用いて,Frechet開始距離(FID)の修正版を導入し,モデルの性能と生成したデータと実データとの統計的類似度を測定する。 この変換器をベースとしたCGANは,異なる条件下で現実的な高次元および長大なデータ列を生成することができることを示す。

Conditional generation of time-dependent data is a task that has much interest, whether for data augmentation, scenario simulation, completing missing data, or other purposes. Recent works proposed a Transformer-based Time series generative adversarial network (TTS-GAN) to address the limitations of recurrent neural networks. However, this model assumes a unimodal distribution and tries to generate samples around the expectation of the real data distribution. One of its limitations is that it may generate a random multivariate time series; it may fail to generate samples in the presence of multiple sub-components within an overall distribution. One could train models to fit each sub-component separately to overcome this limitation. Our work extends the TTS-GAN by conditioning its generated output on a particular encoded context allowing the use of one model to fit a mixture distribution with multiple sub-components. Technically, it is a conditional generative adversarial network that models realistic multivariate time series under different types of conditions, such as categorical variables or multivariate time series. We evaluate our model on UniMiB Dataset, which contains acceleration data following the XYZ axes of human activities collected using Smartphones. We use qualitative evaluations and quantitative metrics such as Principal Component Analysis (PCA), and we introduce a modified version of the Frechet inception distance (FID) to measure the performance of our model and the statistical similarities between the generated and the real data distributions. We show that this transformer-based CGAN can generate realistic high-dimensional and long data sequences under different kinds of conditions.
翻訳日:2022-10-06 13:06:24 公開日:2022-10-05
# ナチュラルカラーフール:ブラックボックスの制限なし攻撃を強化

Natural Color Fool: Towards Boosting Black-box Unrestricted Attacks ( http://arxiv.org/abs/2210.02041v1 )

ライセンス: Link先を確認
Shengming Yuan, Qilong Zhang, Lianli Gao, Yaya Cheng, Jingkuan Song(参考訳) 画像の意味的な色を操作できる無制限のカラー攻撃は、人間の目と深層ニューラルネットワークの両方を騙すことに成功した。 しかし、現在の作品は通常、敵対的な例の自然性を保証するために制御されていない設定の柔軟性を犠牲にしている。 その結果、これらの手法のブラックボックス攻撃性能は限られている。 画像品質を損なうことなく、逆行例の転送性を高めるために、パブリックデータセットからサンプリングされ、近隣探索と初期化リセットにより最適化されたリアルな色分布によって導かれる、新しい自然色フール(ncf)を提案する。 広範囲な実験と可視化を行い,提案手法の有効性を実証した。 特に,我々のNCFは,通常訓練されたモデルを騙す場合の15.0%$\sim$32.9%,防御手法を回避する場合の10.0%$\sim$25.3%よりも優れていた。 私たちのコードはhttps://github.com/ylhz/natural-color-foolで利用可能です。

Unrestricted color attacks, which manipulate semantically meaningful color of an image, have shown their stealthiness and success in fooling both human eyes and deep neural networks. However, current works usually sacrifice the flexibility of the uncontrolled setting to ensure the naturalness of adversarial examples. As a result, the black-box attack performance of these methods is limited. To boost transferability of adversarial examples without damaging image quality, we propose a novel Natural Color Fool (NCF) which is guided by realistic color distributions sampled from a publicly available dataset and optimized by our neighborhood search and initialization reset. By conducting extensive experiments and visualizations, we convincingly demonstrate the effectiveness of our proposed method. Notably, on average, results show that our NCF can outperform state-of-the-art approaches by 15.0%$\sim$32.9% for fooling normally trained models and 10.0%$\sim$25.3% for evading defense methods. Our code is available at https://github.com/ylhz/Natural-Color-Fool.
翻訳日:2022-10-06 12:59:50 公開日:2022-10-05
# Phenaki:オープンドメインのテキスト記述による可変長ビデオ生成

Phenaki: Variable Length Video Generation From Open Domain Textual Description ( http://arxiv.org/abs/2210.02399v1 )

ライセンス: Link先を確認
Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, Dumitru Erhan(参考訳) 本稿では,実写ビデオ合成が可能なモデルであるPhenakiについて,一連のテキストプロンプトを提示する。 テキストからビデオを生成することは、計算コスト、高品質なテキストビデオデータの量、動画の長さの変化など、特に難しい。 この問題に対処するために,映像を離散トークンの小さな表現に圧縮する,映像表現学習の新しいモデルを提案する。 このトークンーは時間内に因果注意を使い、可変長のビデオで作業することができる。 テキストからビデオトークンを生成するには、あらかじめ計算されたテキストトークンに条件付き双方向マスク付きトランスフォーマーを使用する。 生成されたビデオトークンはその後、実際のビデオを作成するために切り離される。 データ問題に対処するために、画像とテキストのペアの大規模なコーパスと、ビデオテキストのサンプルの少ない共同トレーニングが、ビデオデータセットで利用可能なもの以上の一般化をもたらすことを実証する。 従来のビデオ生成方法と比較して、Phenakiはオープンドメイン内の一連のプロンプト(例えば時間変化テキストやストーリー)に基づいて任意の長ビデオを生成することができる。 私たちの知る限りでは、タイム変数のプロンプトからビデオを生成する研究は、これが初めてです。 さらに、フレーム単位のベースラインと比較して、提案するビデオエンコーダデコーダは、ビデオ毎のトークンが少ないが、時空間整合性が向上する。

We present Phenaki, a model capable of realistic video synthesis, given a sequence of textual prompts. Generating videos from text is particularly challenging due to the computational cost, limited quantities of high quality text-video data and variable length of videos. To address these issues, we introduce a new model for learning video representation which compresses the video to a small representation of discrete tokens. This tokenizer uses causal attention in time, which allows it to work with variable-length videos. To generate video tokens from text we are using a bidirectional masked transformer conditioned on pre-computed text tokens. The generated video tokens are subsequently de-tokenized to create the actual video. To address data issues, we demonstrate how joint training on a large corpus of image-text pairs as well as a smaller number of video-text examples can result in generalization beyond what is available in the video datasets. Compared to the previous video generation methods, Phenaki can generate arbitrary long videos conditioned on a sequence of prompts (i.e. time variable text or a story) in open domain. To the best of our knowledge, this is the first time a paper studies generating videos from time variable prompts. In addition, compared to the per-frame baselines, the proposed video encoder-decoder computes fewer tokens per video but results in better spatio-temporal consistency.
翻訳日:2022-10-06 12:59:31 公開日:2022-10-05
# 訓練済み画像特徴の近距離探索による医用画像検索

Medical Image Retrieval via Nearest Neighbor Search on Pre-trained Image Features ( http://arxiv.org/abs/2210.02401v1 )

ライセンス: Link先を確認
Deepak Gupta, Russell Loane, Soumya Gayen, and Dina Demner-Fushman(参考訳) Nearest neighbor search (NNS) は、クエリポイントに最も近い高次元空間の点を見つけることを目的としている。 最寄りの近傍を見つけるためのブルートフォースのアプローチは、点数が大きいと計算不能になる。 NNSは、大規模な医療画像データベースの検索、疾患分類、診断など、医療に複数の応用がある。 医用画像に焦点をあてて,異種医用画像からの関連画像の検索と検索を行う,効率的かつ効率的なアルゴリズムとしてDenseLinkSearchを提案する。 これに向けて,提案アルゴリズムは,データベース内の各点の事前計算されたリンクからなるインデックスを構築する。 探索アルゴリズムは、インデックスを利用してデータベースを効率よく横切り、最も近い隣人を探索する。 我々は提案したNNSアプローチを広範囲に検証し、ベンチマークデータセットと作成した医用画像データセットの最先端NNSアプローチと比較した。 提案手法は,既存の手法よりも精度と検索速度の面で優れていた。 また,医療画像検索課題における医用画像特徴表現の役割について検討する。 CLEF 2011の医用画像検索作業において,既存のトレーニング済みトランスフォーマーアプローチよりも優れるトランスフォーマーに基づく特徴表現手法を提案する。 実験のソースコードはhttps://github.com/deepaknlp/dlsで入手できます。

Nearest neighbor search (NNS) aims to locate the points in high-dimensional space that is closest to the query point. The brute-force approach for finding the nearest neighbor becomes computationally infeasible when the number of points is large. The NNS has multiple applications in medicine, such as searching large medical imaging databases, disease classification, diagnosis, etc. With a focus on medical imaging, this paper proposes DenseLinkSearch an effective and efficient algorithm that searches and retrieves the relevant images from heterogeneous sources of medical images. Towards this, given a medical database, the proposed algorithm builds the index that consists of pre-computed links of each point in the database. The search algorithm utilizes the index to efficiently traverse the database in search of the nearest neighbor. We extensively tested the proposed NNS approach and compared the performance with state-of-the-art NNS approaches on benchmark datasets and our created medical image datasets. The proposed approach outperformed the existing approach in terms of retrieving accurate neighbors and retrieval speed. We also explore the role of medical image feature representation in content-based medical image retrieval tasks. We propose a Transformer-based feature representation technique that outperformed the existing pre-trained Transformer approach on CLEF 2011 medical image retrieval task. The source code of our experiments are available at https://github.com/deepaknlp/DLS.
翻訳日:2022-10-06 12:59:06 公開日:2022-10-05
# 等変深大体積近似による多目的最適化

Multi-objective optimization via equivariant deep hypervolume approximation ( http://arxiv.org/abs/2210.02177v1 )

ライセンス: Link先を確認
Jim Boelrijk, Bernd Ensing, Patrick Forr\'e(参考訳) 複数の競合する目標を最適化することは、科学と産業に共通する問題である。 これらの目的間の本質的に不可分なトレードオフは、パレートフロントを探索するタスクにつながります。 後者の目的の有意義な量は、ベイズ最適化(bo)と進化アルゴリズム(eas)で使用される超体積指標である。 しかし、ハイパーボリュームの計算の計算の複雑さは、それらの共通の多目的最適化フレームワークの使用を制限する目的やデータポイントの数が増えると不利である。 これらの制約を克服するため,我々はdeephvと呼ぶディープニューラルネットワークを用いてハイパーボリューム関数を近似する。 より優れたサンプル効率と一般化のために、超体積がそれぞれの目的においてスケール同変であるという事実と、目的とサンプルの両方に置換不変なw.r.t.を、スケーリングと置換の組み合わせ群であるw.r.t.と等価なディープニューラルネットワークを用いて活用する。 提案手法は,精度,計算時間,一般化の観点から,高精度で近似的な超体積法に対して評価する。 また,本手法を,最先端の多目的BO法およびEAに対して,様々なベンチマークテストケースに適用し比較する。 その結果,本手法はマルチ目的最適化タスクに有望であることがわかった。

Optimizing multiple competing objectives is a common problem across science and industry. The inherent inextricable trade-off between those objectives leads one to the task of exploring their Pareto front. A meaningful quantity for the purpose of the latter is the hypervolume indicator, which is used in Bayesian Optimization (BO) and Evolutionary Algorithms (EAs). However, the computational complexity for the calculation of the hypervolume scales unfavorably with increasing number of objectives and data points, which restricts its use in those common multi-objective optimization frameworks. To overcome these restrictions we propose to approximate the hypervolume function with a deep neural network, which we call DeepHV. For better sample efficiency and generalization, we exploit the fact that the hypervolume is scale-equivariant in each of the objectives as well as permutation invariant w.r.t. both the objectives and the samples, by using a deep neural network that is equivariant w.r.t. the combined group of scalings and permutations. We evaluate our method against exact, and approximate hypervolume methods in terms of accuracy, computation time, and generalization. We also apply and compare our methods to state-of-the-art multi-objective BO methods and EAs on a range of synthetic benchmark test cases. The results show that our methods are promising for such multi-objective optimization tasks.
翻訳日:2022-10-06 12:52:00 公開日:2022-10-05
# COMPS:事前学習言語モデルにおける概念最小ペア文による特性知識と継承性のテスト

COMPS: Conceptual Minimal Pair Sentences for testing Property Knowledge and Inheritance in Pre-trained Language Models ( http://arxiv.org/abs/2210.01963v1 )

ライセンス: Link先を確認
Kanishka Misra, Julia Taylor Rayz, Allyson Ettinger(参考訳) 人間のセマンティックメモリの特徴は、経験を通して観察された概念のプロパティを保存し、取り出すだけでなく、スーパーオーディネートな概念(動物)から従属的な概念(犬)へのプロパティ(呼吸)の継承を促進する能力である。 本稿では,事前学習された言語モデル(plms)を共同でテストし,概念に属性を付与する能力と,特性継承の振る舞いを実証する能力について述べる。 comps上の22の異なるplmの分析により、それらは自明に異なる性質に基づいて容易に概念を区別できるが、概念がニュアンス化された知識表現に基づいて関連している場合、比較的難しいことが分かる。 さらに, PLM は, プロパティ継承に一貫性のある動作を示すことができるが, 多くのモデルの性能を低下させ, 場合によってはチャンスを下回っている。 この単純な推論の頑健さの欠如は、前提となる知識を持っているように見える場合でも正しい推論を行うplmの能力に関する重要な疑問を提起する。

A characteristic feature of human semantic memory is its ability to not only store and retrieve the properties of concepts observed through experience, but to also facilitate the inheritance of properties (can breathe) from superordinate concepts (animal) to their subordinates (dog) -- i.e. demonstrate property inheritance. In this paper, we present COMPS, a collection of minimal pair sentences that jointly tests pre-trained language models (PLMs) on their ability to attribute properties to concepts and their ability to demonstrate property inheritance behavior. Analyses of 22 different PLMs on COMPS reveal that they can easily distinguish between concepts on the basis of a property when they are trivially different, but find it relatively difficult when concepts are related on the basis of nuanced knowledge representations. Furthermore, we find that PLMs can demonstrate behavior consistent with property inheritance to a great extent, but fail in the presence of distracting information, which decreases the performance of many models, sometimes even below chance. This lack of robustness in demonstrating simple reasoning raises important questions about PLMs' capacity to make correct inferences even when they appear to possess the prerequisite knowledge.
翻訳日:2022-10-06 12:50:55 公開日:2022-10-05
# GAPX: 一般化された自己回帰型パラフレーズ認識X

GAPX: Generalized Autoregressive Paraphrase-Identification X ( http://arxiv.org/abs/2210.01979v1 )

ライセンス: Link先を確認
Yifei Zhou, Renyu Li, Hayden Housen, Ser-Nam Lim(参考訳) パラフレーズ識別は自然言語処理の基本的なタスクである。 この分野では多くの進歩が見られたが、多くの最先端モデルの性能はしばしば推論時間中に分布シフトに苦しむ。 この性能低下の主な原因は、ネガティブな例によって導入されたバイアスにあることを検証します。 これらのバイアスを克服するために,本論文では,正のペアのみを利用するモデルと負のペアを訓練するモデルを提案する。 これにより、負のモデルをどの程度活用するかを選択でき、そこでは、推論中にどれだけの重量を与えるべきかを効果的に自動で決定できるパープレキシティに基づく分布外計量を導入する。 私たちは強い経験的結果でこの結果を支持します。

Paraphrase Identification is a fundamental task in Natural Language Processing. While much progress has been made in the field, the performance of many state-of-the-art models often suffer from distribution shift during inference time. We verify that a major source of this performance drop comes from biases introduced by negative examples. To overcome these biases, we propose in this paper to train two separate models, one that only utilizes the positive pairs and the other the negative pairs. This enables us the option of deciding how much to utilize the negative model, for which we introduce a perplexity based out-of-distribution metric that we show can effectively and automatically determine how much weight it should be given during inference. We support our findings with strong empirical results.
翻訳日:2022-10-06 12:50:32 公開日:2022-10-05
# CorefDiffs: 文書会話における共参照と微分の知識フロー

CorefDiffs: Co-referential and Differential Knowledge Flow in Document Grounded Conversations ( http://arxiv.org/abs/2210.02223v1 )

ライセンス: Link先を確認
Lin Xu, Qixian Zhou, Jinlan Fu, Min-Yen Kan, See-Kiong Ng(参考訳) 知識基底ダイアログシステムは、応答を生成するために選択された知識間のスムーズな遷移を取り入れ、ダイアログが自然に流れることを保証する必要がある。 文書地上対話システムでは、文書間および文書内知識関係を用いて会話の流れをモデル化することができる。 本研究では,コモンセンスと類似性に基づく文書間関係と,グラウンドング文書内の知識セグメントの文書内コファレンシャル構造を効果的に捉えるための,新しいマルチドキュメントコファレンシャルグラフ(coref-mdg)を開発した。 静的なCoref-MDGを対話型シーケンス論理に線形化するために,共参照差分フロー管理手法であるCorefDiffsを提案する。 CorefDiffsは、コンテキストグラフ構造と知識差分列を考慮した知識選択を行う。 CorefDiffs は3つの公開ベンチマークで最先端の 9.5 %, 7.4 %, 8.2 % を著しく上回っている。 これは、対話フローにおける共参照と知識差の効果的なモデリングが、文書座談話における遷移に重要であることを示す。

Knowledge-grounded dialog systems need to incorporate smooth transitions among knowledge selected for generating responses, to ensure that dialog flows naturally. For document-grounded dialog systems, the inter- and intra-document knowledge relations can be used to model such conversational flows. We develop a novel Multi-Document Co-Referential Graph (Coref-MDG) to effectively capture the inter-document relationships based on commonsense and similarity and the intra-document co-referential structures of knowledge segments within the grounding documents. We propose CorefDiffs, a Co-referential and Differential flow management method, to linearize the static Coref-MDG into conversational sequence logic. CorefDiffs performs knowledge selection by accounting for contextual graph structures and the knowledge difference sequences. CorefDiffs significantly outperforms the state-of-the-art by 9.5\%, 7.4\%, and 8.2\% on three public benchmarks. This demonstrates that the effective modeling of co-reference and knowledge difference for dialog flows are critical for transitions in document-grounded conversation
翻訳日:2022-10-06 12:50:21 公開日:2022-10-05
# Waveformer: 前方および後方ウェーブレット変換による線形時間アテンション

Waveformer: Linear-Time Attention with Forward and Backward Wavelet Transform ( http://arxiv.org/abs/2210.01989v1 )

ライセンス: Link先を確認
Yufan Zhuang, Zihan Wang, Fangbo Tao, Jingbo Shang(参考訳) 本稿では,ウェーブレット係数空間における注意機構を学習し,線形時間複雑性のみを必要とし,普遍近似パワーを享受する波形器を提案する。 具体的には、まず入力シーケンスを多分解能直交ウェーブレット基底に投影するためにフォワードウェーブレット変換を適用し、次にウェーブレット係数空間において非線形変換(この場合、ランダム特徴カーネル)を行い、最後に後方ウェーブレット変換を介して入力空間の表現を再構成する。 また、他の非線形変換も利用可能であり、学習パラダイムであるWavelet transformatIon for Sequence lEarning (WISE) と命名する。 我々は、WISEパラダイムにおける後方再構成の重要性を強調し、それなしでは、数学的に健全とはみなさないスキップ接続を通じて入力空間と係数空間の両方から情報を混合する。 最近の研究におけるフーリエ変換と比較して、ウェーブレット変換は時間複雑性においてより効率的であり、局所的および位置的情報をよりよくキャプチャする。 Long Range Arenaベンチマークとコード理解タスクによる7つの長距離理解データセットの大規模な実験により、(1)Waveformerは、最先端のTransformer変種よりも競争力と精度を向上し、(2)WISEは、時間的複雑さを増大させることなく、様々な注意近似手法の精度を高めることができることを示した。 これらは入力空間上のウェーブレット係数空間における学習注意の優位性を示す。

We propose Waveformer that learns attention mechanism in the wavelet coefficient space, requires only linear time complexity, and enjoys universal approximating power. Specifically, we first apply forward wavelet transform to project the input sequences to multi-resolution orthogonal wavelet bases, then conduct nonlinear transformations (in this case, a random feature kernel) in the wavelet coefficient space, and finally reconstruct the representation in input space via backward wavelet transform. We note that other non-linear transformations may be used, hence we name the learning paradigm Wavelet transformatIon for Sequence lEarning (WISE). We emphasize the importance of backward reconstruction in the WISE paradigm -- without it, one would be mixing information from both the input space and coefficient space through skip connections, which shall not be considered as mathematically sound. Compared with Fourier transform in recent works, wavelet transform is more efficient in time complexity and better captures local and positional information; we further support this through our ablation studies. Extensive experiments on seven long-range understanding datasets from the Long Range Arena benchmark and code understanding tasks demonstrate that (1) Waveformer achieves competitive and even better accuracy than a number of state-of-the-art Transformer variants and (2) WISE can boost accuracies of various attention approximation methods without increasing the time complexity. These together showcase the superiority of learning attention in a wavelet coefficient space over the input space.
翻訳日:2022-10-06 12:49:32 公開日:2022-10-05
# 全文コンテンツを用いたベストセラー書籍の識別と識別

Using Full-Text Content to Characterize and Identify Best Seller Books ( http://arxiv.org/abs/2210.02334v1 )

ライセンス: Link先を確認
Giovana D. da Silva, Filipi N. Silva, Henrique F. de Arruda, B\'arbara C. e Souza, Luciano da F. Costa and Diego R. Amancio(参考訳) 芸術的な作品について、いくつかの視点から研究することができる。 本論文では,本書がベストセラーになるかどうかを予測するタスクを特に評価し,文学作品の観点からこの興味深い話題にアプローチする。 従来のアプローチと異なり,本の全文に着目し,可視化と分類の課題を検討した。 我々はSemAxisと線形判別分析を含むデータ構造と特性の予備的な探索に可視化を用いた。 そして, 定量的かつ客観的な結果を得るために, 様々な分類器を用いた。 このようなアプローチはデータセットとともに使用されました (i)1895年(明治28年)から1924年(大正13年)に刊行され、emph{publishers weekly bestseller list}によってベストセラーとして表彰され、及び (二)同時期に刊行されたものの、そのリストには記載されていない文学作品。 提案手法との比較により,単語のバッグ・オブ・ワード表現とロジスティック回帰分類を組み合わした最良の結果が平均精度0.75に向上したことが明らかとなった。 このような結果から,テキストの全文のみを用いて,精度の高い書籍の成功を予測することは不可能であることが示唆された。 しかし,本研究では,文学作品の相対的成功につながる要因について考察した。

Artistic pieces can be studied from several perspectives, one example being their reception among readers over time. In the present work, we approach this interesting topic from the standpoint of literary works, particularly assessing the task of predicting whether a book will become a best seller. Dissimilarly from previous approaches, we focused on the full content of books and considered visualization and classification tasks. We employed visualization for the preliminary exploration of the data structure and properties, involving SemAxis and linear discriminant analyses. Then, to obtain quantitative and more objective results, we employed various classifiers. Such approaches were used along with a dataset containing (i) books published from 1895 to 1924 and consecrated as best sellers by the \emph{Publishers Weekly Bestseller Lists} and (ii) literary works published in the same period but not being mentioned in that list. Our comparison of methods revealed that the best-achieved result - combining a bag-of-words representation with a logistic regression classifier - led to an average accuracy of 0.75 both for the leave-one-out and 10-fold cross-validations. Such an outcome suggests that it is unfeasible to predict the success of books with high accuracy using only the full content of the texts. Nevertheless, our findings provide insights into the factors leading to the relative success of a literary work.
翻訳日:2022-10-06 12:48:49 公開日:2022-10-05
# ROAD-R:論理的要求を伴う自律運転データセット

ROAD-R: The Autonomous Driving Dataset with Logical Requirements ( http://arxiv.org/abs/2210.01597v2 )

ライセンス: Link先を確認
Eleonora Giunchiglia and Mihaela C\u{a}t\u{a}lina Stoian and Salman Khan and Fabio Cuzzolin and Thomas Lukasiewicz(参考訳) ニューラルネットワークはコンピュータビジョンタスクにおいて非常に強力であることが証明されている。 しかし、それらはしばしば予期せぬ行動を示し、背景知識を表す既知の要求に違反する。 これはモデルを呼び出す (i)要件から学ぶことができること、 (二)要件そのものに準拠することが保証される。 残念ながら、これらのモデルの開発は、公式に指定された要件を備えたデータセットの欠如によって妨げられている。 本稿では、論理的制約として表現された自律運転のための最初の公開データセットである論理的要件付きROADイベント認識データセット(ROAD-R)を紹介する。 ROAD-Rを考えると、現在の最先端モデルはしばしばその論理的制約に反し、それらを利用してモデルを作成することが可能であることを示す。 (i)パフォーマンスが良く、 (ii)要件そのものに準拠することが保証される。

Neural networks have proven to be very powerful at computer vision tasks. However, they often exhibit unexpected behaviours, violating known requirements expressing background knowledge. This calls for models (i) able to learn from the requirements, and (ii) guaranteed to be compliant with the requirements themselves. Unfortunately, the development of such models is hampered by the lack of datasets equipped with formally specified requirements. In this paper, we introduce the ROad event Awareness Dataset with logical Requirements (ROAD-R), the first publicly available dataset for autonomous driving with requirements expressed as logical constraints. Given ROAD-R, we show that current state-of-the-art models often violate its logical constraints, and that it is possible to exploit them to create models that (i) have a better performance, and (ii) are guaranteed to be compliant with the requirements themselves.
翻訳日:2022-10-06 12:42:33 公開日:2022-10-05
# 物理推論における学習メカニズムについて

On the Learning Mechanisms in Physical Reasoning ( http://arxiv.org/abs/2210.02075v1 )

ライセンス: Link先を確認
Shiqian Li, Kewen Wu, Chi Zhang, Yixin Zhu(参考訳) 力学予測は物理的推論に不可欠か? もしそうなら、動的予測モジュールは物理的な推論プロセスでどのような役割を果たすのか? ほとんどの研究は、動的予測ネットワークの設計と、上記の質問を調査することなく、物理推論を下流タスクとして扱うことに集中しており、設計された力学予測が推論プロセスに役立つことは明らかである。 本研究では,この仮定をより深く検討し,2つの学習メカニズム(LfD)と直観からの学習(LfI)を比較して,この基本的な仮説を考察する。 最初の実験では、これらの2つのメカニズムを直接検討し比較する。 単純なLfIは最先端のLfDと同等あるいは同等である。 この観測は、シミュレータから直接動力学が得られるlfdの理想的な場合である、地対地力学の第2の実験に繋がる。 結果は、もし近似の代わりに直接与えられるなら、力学は物理的推論においてLfI単独よりもはるかに高い性能が得られることを示している。 しかし実際には、lfd機構は物理法則を模倣したダイナミクス学習モジュールを使用して近似ダイナミクスを予測できるだけであり、下記の下流の物理的推論モジュールをlfiパラダイムに縮退させる。 ダイナミクスの予測エラーが必然的に長い地平線に蓄積するため、この問題を緩和することは困難である。 最後に、第4の実験において、正しく行うと非常に単純な戦略であるLfIが、物理的推論問題の解法を学ぶ上でより効果的であることに注意する。 まとめると、PHYREの挑戦的なベンチマークの結果は、LfIが力学予測においてLfDに劣らず優れていることを示している。 しかし、LfDによる潜在的な改善は、挑戦的ではあるが、利益を上げ続けている。

Is dynamics prediction indispensable for physical reasoning? If so, what kind of roles do the dynamics prediction modules play during the physical reasoning process? Most studies focus on designing dynamics prediction networks and treating physical reasoning as a downstream task without investigating the questions above, taking for granted that the designed dynamics prediction would undoubtedly help the reasoning process. In this work, we take a closer look at this assumption, exploring this fundamental hypothesis by comparing two learning mechanisms: Learning from Dynamics (LfD) and Learning from Intuition (LfI). In the first experiment, we directly examine and compare these two mechanisms. Results show a surprising finding: Simple LfI is better than or on par with state-of-the-art LfD. This observation leads to the second experiment with Ground-truth Dynamics, the ideal case of LfD wherein dynamics are obtained directly from a simulator. Results show that dynamics, if directly given instead of approximated, would achieve much higher performance than LfI alone on physical reasoning; this essentially serves as the performance upper bound. Yet practically, LfD mechanism can only predict Approximate Dynamics using dynamics learning modules that mimic the physical laws, making the following downstream physical reasoning modules degenerate into the LfI paradigm; see the third experiment. We note that this issue is hard to mitigate, as dynamics prediction errors inevitably accumulate in the long horizon. Finally, in the fourth experiment, we note that LfI, the extremely simpler strategy when done right, is more effective in learning to solve physical reasoning problems. Taken together, the results on the challenging benchmark of PHYRE show that LfI is, if not better, as good as LfD for dynamics prediction. However, the potential improvement from LfD, though challenging, remains lucrative.
翻訳日:2022-10-06 12:42:10 公開日:2022-10-05
# 変分プロンプトチューニングは視覚言語モデルの一般化を改善する

Variational prompt tuning improves generalization of vision-language models ( http://arxiv.org/abs/2210.02390v1 )

ライセンス: Link先を確認
Mohammad Mahdi Derakhshani, Enrique Sanchez, Adrian Bulat, Victor Guilherme Turrisi da Costa, Cees G. M. Snoek, Georgios Tzimiropoulos and Brais Martinez(参考訳) プロンプトチューニングは、入力言語プロンプトの一部を学習可能なパラメータとして扱うことによって、大きな視覚言語モデルを下流タスクに適応させる効率的なメカニズムを提供する。 しかしながら、既存のプロンプトチューニングの作業は、学習されたプロンプトが言語モデル内の特定の概念をカバーする能力に欠けるため、基礎モデルの一般化能力を損なう傾向にある。 このような制限を回避するため、確率的サンプリングにより、関連する概念の支持範囲内でのプロンプトを導出できるプロンプトの基盤分布の確率論的モデリングを提案する。 これにより、言語モデルによって取得された情報のより完全でリッチな転送が可能になり、下流タスクのより優れた一般化機能を提供する。 結果として得られるアルゴリズムは、他の開発と直接統合できるシンプルで強力な変分フレームワークに依存している。 我々は,本手法が標準および条件付きプロンプト学習フレームワークにシームレスに統合されていることを示す。 提案手法は,CoCoOpを標準ベンチマークで平均1.6%の精度で上回っている。 注目すべきは、新しいクラスへの一般化という点で、オリジナルのCLIPモデルを超えていることだ。 実装コードはリリースされます。

Prompt tuning provides an efficient mechanism to adapt large vision-language models to downstream tasks by treating part of the input language prompts as learnable parameters while freezing the rest of the model. Existing works for prompt tuning are however prone to damaging the generalization capabilities of the foundation models, because the learned prompts lack the capacity of covering certain concepts within the language model. To avoid such limitation, we propose a probabilistic modeling of the underlying distribution of prompts, allowing prompts within the support of an associated concept to be derived through stochastic sampling. This results in a more complete and richer transfer of the information captured by the language model, providing better generalization capabilities for downstream tasks. The resulting algorithm relies on a simple yet powerful variational framework that can be directly integrated with other developments. We show our approach is seamlessly integrated into both standard and conditional prompt learning frameworks, improving the performance on both cases considerably, especially with regards to preserving the generalization capability of the original model. Our method provides the current state-of-the-art for prompt learning, surpassing CoCoOp by 1.6% average Top-1 accuracy on the standard benchmark. Remarkably, it even surpasses the original CLIP model in terms of generalization to new classes. Implementation code will be released.
翻訳日:2022-10-06 12:41:22 公開日:2022-10-05
# 長期映像予測のための時間整合ビデオトランス

Temporally Consistent Video Transformer for Long-Term Video Prediction ( http://arxiv.org/abs/2210.02396v1 )

ライセンス: Link先を確認
Wilson Yan, Danijar Hafner, Stephen James, Pieter Abbeel(参考訳) 長い時間的に一貫性のあるビデオを生成することは、ビデオ生成におけるオープンな課題である。 主に計算上の制限のため、ほとんどの先行手法は、スライドウィンドウ方式で長いビデオを生成するために拡張されたフレームの小さなサブセットでのトレーニングに制限される。 これらの技術はシャープなビデオを生成する可能性があるが、文脈長が限られているため、長期的な時間的一貫性を維持するのが困難である。 本研究では,圧縮表現を学習し,トレーニングと生成の両方において数百フレームの長い映像を効率的に処理する,ベクトル量子化潜時動画像予測モデルteco(temporly consistent video transformer)を提案する。 動的予測にはMaskGitを前もって使用し、前よりもシャープで高速な世代を生成する。 実験の結果,TECOはDMLabの単純な迷路,Minecraftの大きな3Dワールド,Kinetics-600の複雑な実世界のビデオなど,さまざまなビデオ予測ベンチマークにおいて,SOTAのベースラインを上回っていることがわかった。 さらに,時間的一貫性のモデル化における映像予測モデルの能力の理解を深めるために,様々な難易度を持つ3dシーンをランダムに横断するエージェントからなる,いくつかの挑戦的な映像予測タスクを導入する。 これは、モデルが過去の観察や世代に応じて再創造するシーンのどの部分かを理解する必要がある部分観測可能な環境でのビデオ予測の難しいベンチマークを示す。 生成されたビデオはhttps://wilson1yan.github.io/tecoで入手できる。

Generating long, temporally consistent video remains an open challenge in video generation. Primarily due to computational limitations, most prior methods limit themselves to training on a small subset of frames that are then extended to generate longer videos through a sliding window fashion. Although these techniques may produce sharp videos, they have difficulty retaining long-term temporal consistency due to their limited context length. In this work, we present Temporally Consistent Video Transformer (TECO), a vector-quantized latent dynamics video prediction model that learns compressed representations to efficiently condition on long videos of hundreds of frames during both training and generation. We use a MaskGit prior for dynamics prediction which enables both sharper and faster generations compared to prior work. Our experiments show that TECO outperforms SOTA baselines in a variety of video prediction benchmarks ranging from simple mazes in DMLab, large 3D worlds in Minecraft, and complex real-world videos from Kinetics-600. In addition, to better understand the capabilities of video prediction models in modeling temporal consistency, we introduce several challenging video prediction tasks consisting of agents randomly traversing 3D scenes of varying difficulty. This presents a challenging benchmark for video prediction in partially observable environments where a model must understand what parts of the scenes to re-create versus invent depending on its past observations or generations. Generated videos are available at https://wilson1yan.github.io/teco
翻訳日:2022-10-06 12:41:01 公開日:2022-10-05
# 視覚能動的学習におけるコールドスタート問題に対処する

Making Your First Choice: To Address Cold Start Problem in Vision Active Learning ( http://arxiv.org/abs/2210.02442v1 )

ライセンス: Link先を確認
Liangyu Chen, Yutong Bai, Siyu Huang, Yongyi Lu, Bihan Wen, Alan L. Yuille, Zongwei Zhou(参考訳) アクティブラーニングは、最初に注釈付けされる最も重要なデータを反復的に選択することで、アノテーション効率を改善することを約束する。 アクティブラーニングは、最初のいくつかの選択でランダム選択と同じくらい効率的にデータを選択することができない。 偏りのある外れた初期クエリによって引き起こされるビジョンアクティブラーニングにおけるコールドスタート問題である。 本稿では,(1)アノテーションは不要,(2)ラベルの多様性は,バイアスを軽減するために擬似ラベルによって保証される,(3)典型的データは対照的な特徴によって決定され,外れ値が減少する,という3つの利点を生かしてコールドスタート問題に対処する。 CIFAR-10-LTと3つの医用画像データセット(大腸病理、腹部CT、血液細胞顕微鏡)で実験を行った。 我々の初期クエリは、既存のアクティブクエリ戦略を著しく上回るだけでなく、大きなマージンでランダム選択を上回る。 ビジョンアクティブラーニングのための最初のクエリを選択するための、シンプルで強力なベースラインとして、コールドスタート問題に対するソリューションを予見します。 コードは https://github.com/c-liangyu/CSVAL

Active learning promises to improve annotation efficiency by iteratively selecting the most important data to be annotated first. However, we uncover a striking contradiction to this promise: active learning fails to select data as efficiently as random selection at the first few choices. We identify this as the cold start problem in vision active learning, caused by a biased and outlier initial query. This paper seeks to address the cold start problem by exploiting the three advantages of contrastive learning: (1) no annotation is required; (2) label diversity is ensured by pseudo-labels to mitigate bias; (3) typical data is determined by contrastive features to reduce outliers. Experiments are conducted on CIFAR-10-LT and three medical imaging datasets (i.e. Colon Pathology, Abdominal CT, and Blood Cell Microscope). Our initial query not only significantly outperforms existing active querying strategies but also surpasses random selection by a large margin. We foresee our solution to the cold start problem as a simple yet strong baseline to choose the initial query for vision active learning. Code is available: https://github.com/c-liangyu/CSVAL
翻訳日:2022-10-06 12:40:34 公開日:2022-10-05
# Time Will Tell: 時間的マルチビュー3Dオブジェクト検出のための新しい展望とベースライン

Time Will Tell: New Outlooks and A Baseline for Temporal Multi-View 3D Object Detection ( http://arxiv.org/abs/2210.02443v1 )

ライセンス: Link先を確認
Jinhyung Park, Chenfeng Xu, Shijia Yang, Kurt Keutzer, Kris Kitani, Masayoshi Tomizuka, Wei Zhan(参考訳) 最近のカメラのみの3d検出手法は、複数の時間ステップを活用するが、それらの限られた履歴は、時間的融合が物体の知覚を改善できる範囲を著しく阻害する。 既存作品のマルチフレーム画像の融合が時間的ステレオマッチングの例であることを観察すると、パフォーマンスは相互作用によって妨げられていることが分かる。 1)一致解像度の低粒度と 2) 履歴使用が制限されたサブオプションのマルチビュー設定。 理論的および経験的分析により,ビュー間の最適な時間差は画素や深度によって大きく異なることが示され,長い歴史の中で多くの時間ステップを融合させる必要がある。 そこで本研究では,画像観察の長い歴史からコストボリュームを生成し,より最適なマルチビューマッチング設定による粗いが効率的なマッチング解像度を補償することを提案する。 さらに, フレームごとの単眼深度予測を, 短期的, きめ細かなマッチングと長期的, 粗いマッチングに用い, 長期的, 短期的な時間的融合が極めて相補的であることを示す。 高効率を維持しながら,本フレームワークはnuScenesに新たな最先端技術を設定し,テストセットで1位を獲得し,検証セットで5.2% mAP,3.7% NDSを達成した。 コードは $\href{https://github.com/Divadi/SOLOFusion}{here でリリースされる。 }$

While recent camera-only 3D detection methods leverage multiple timesteps, the limited history they use significantly hampers the extent to which temporal fusion can improve object perception. Observing that existing works' fusion of multi-frame images are instances of temporal stereo matching, we find that performance is hindered by the interplay between 1) the low granularity of matching resolution and 2) the sub-optimal multi-view setup produced by limited history usage. Our theoretical and empirical analysis demonstrates that the optimal temporal difference between views varies significantly for different pixels and depths, making it necessary to fuse many timesteps over long-term history. Building on our investigation, we propose to generate a cost volume from a long history of image observations, compensating for the coarse but efficient matching resolution with a more optimal multi-view matching setup. Further, we augment the per-frame monocular depth predictions used for long-term, coarse matching with short-term, fine-grained matching and find that long and short term temporal fusion are highly complementary. While maintaining high efficiency, our framework sets new state-of-the-art on nuScenes, achieving first place on the test set and outperforming previous best art by 5.2% mAP and 3.7% NDS on the validation set. Code will be released $\href{https://github.com/Divadi/SOLOFusion}{here.}$
翻訳日:2022-10-06 12:40:13 公開日:2022-10-05
# Promising か Elusiveか? 実世界の単一画像からの教師なしオブジェクトセグメンテーション

Promising or Elusive? Unsupervised Object Segmentation from Real-world Single Images ( http://arxiv.org/abs/2210.02324v1 )

ライセンス: Link先を確認
Yafei Yang, Bo Yang(参考訳) 本稿では,単一画像からの教師なしオブジェクトセグメンテーションの問題について検討する。 我々は,新しいアルゴリズムを導入するのではなく,既存の教師なしモデルが現実世界の画像に挑戦する上での有効性を体系的に検討する。 まず4つの複雑性因子を導入し,人間のアノテーションを用いたデータセットの外観・形状における物体・シーンレベルのバイアスの分布を定量的に計測する。 これらの要因の助けを借りて、既存の教師なしモデルでは、破滅的に現実のイメージにジェネリックオブジェクトを分割できないが、合成画像と実画像のオブジェクト性バイアスの差が大きいため、多くの単純な合成データセットにおいて、優れたパフォーマンスを達成できることを実証的に見出した。 実世界のデータセットを複数グループに分けて大規模な実験を行うことで、実世界の画像における既存の教師なしモデルの失敗の根底にある重要な要因が、外観と幾何学におけるオブジェクトレベルのバイアスとシーンレベルのバイアスの難しい分布であることが判明した。 このため、既存の教師なしモデルで導入された帰納的バイアスは、多様なオブジェクト分布を捉えられない。 我々の研究結果は、将来の研究はネットワーク設計におけるより明示的なオブジェクト指向バイアスを利用するべきであることを示唆している。

In this paper, we study the problem of unsupervised object segmentation from single images. We do not introduce a new algorithm, but systematically investigate the effectiveness of existing unsupervised models on challenging real-world images. We firstly introduce four complexity factors to quantitatively measure the distributions of object- and scene-level biases in appearance and geometry for datasets with human annotations. With the aid of these factors, we empirically find that, not surprisingly, existing unsupervised models catastrophically fail to segment generic objects in real-world images, although they can easily achieve excellent performance on numerous simple synthetic datasets, due to the vast gap in objectness biases between synthetic and real images. By conducting extensive experiments on multiple groups of ablated real-world datasets, we ultimately find that the key factors underlying the colossal failure of existing unsupervised models on real-world images are the challenging distributions of object- and scene-level biases in appearance and geometry. Because of this, the inductive biases introduced in existing unsupervised models can hardly capture the diverse object distributions. Our research results suggest that future work should exploit more explicit objectness biases in the network design.
翻訳日:2022-10-06 12:39:44 公開日:2022-10-05
# 校正一般化ギャップ

The Calibration Generalization Gap ( http://arxiv.org/abs/2210.01964v1 )

ライセンス: Link先を確認
Annabelle Carrell, Neil Mallinar, James Lucas, Preetum Nakkiran(参考訳) キャリブレーションは優れた予測モデルの基本特性であり、その信頼度に比例してモデルが正しく予測する必要がある。 しかし、現代のニューラルネットワークは、そのキャリブレーションに関する強力な保証を提供していない。 良質な校正に寄与する要因(アーキテクチャ、データ拡張、過剰パラメータ化など)は、文献に様々な主張があるが、現時点では不明である。 本研究では,(1)列車のキャリブレーション誤差,(2)キャリブレーション一般化ギャップに分解することにより,キャリブレーション誤差を体系的に検討する方法を提案する。 これは一般化の基本的な分解を反映している。 次に,これらの各項について検討し,(1) DNNは典型的に列車セット上で校正され,(2) 校正一般化ギャップは標準一般化ギャップによって上界となることを示す。 これは、小さな一般化ギャップを持つモデル(|Test Error - Train Error|)がよく校正されていることを意味する。 この観点は文献において多くの結果を統一し、一般化ギャップ(データの追加、重い拡張、より小さいモデルサイズなど)を減らす介入も校正を改善することを示唆している。 そこで我々は, キャリブレーション, 一般化, 最適化の関係を, より体系的で包括的に理解するための基礎研究を行う。

Calibration is a fundamental property of a good predictive model: it requires that the model predicts correctly in proportion to its confidence. Modern neural networks, however, provide no strong guarantees on their calibration -- and can be either poorly calibrated or well-calibrated depending on the setting. It is currently unclear which factors contribute to good calibration (architecture, data augmentation, overparameterization, etc), though various claims exist in the literature. We propose a systematic way to study the calibration error: by decomposing it into (1) calibration error on the train set, and (2) the calibration generalization gap. This mirrors the fundamental decomposition of generalization. We then investigate each of these terms, and give empirical evidence that (1) DNNs are typically always calibrated on their train set, and (2) the calibration generalization gap is upper-bounded by the standard generalization gap. Taken together, this implies that models with small generalization gap (|Test Error - Train Error|) are well-calibrated. This perspective unifies many results in the literature, and suggests that interventions which reduce the generalization gap (such as adding data, using heavy augmentation, or smaller model size) also improve calibration. We thus hope our initial study lays the groundwork for a more systematic and comprehensive understanding of the relation between calibration, generalization, and optimization.
翻訳日:2022-10-06 12:33:02 公開日:2022-10-05
# less is more: 言語モデル圧縮のためのタスクアウェア層別蒸留

Less is More: Task-aware Layer-wise Distillation for Language Model Compression ( http://arxiv.org/abs/2210.01351v2 )

ライセンス: Link先を確認
Chen Liang, Simiao Zuo, Qingru Zhang, Pengcheng He, Weizhu Chen, Tuo Zhao(参考訳) 層ワイド蒸留は、大きなモデル(すなわち教師モデル)を小さなモデル(すなわち学生モデル)に圧縮する強力なツールである。 生徒は、中間層ごとに教師の隠れた表現を模倣して、教師からの知識を蒸留する。 しかし, 層間蒸留は困難である。 生徒は教師よりもモデル能力が小さいため、しばしば不適合である。 さらに、教師の隠れた表現には、生徒が必ずしも対象タスクの学習に必要としない冗長な情報が含まれている。 これらの課題に対処するために,新しいタスク対応ライEr-wise Distillation (TED)を提案する。 tedは、各層で生徒と教師の隠れた表現を調整するタスク対応フィルタを設計している。 フィルタは、隠れた表現からターゲットタスクに有用な知識を選択する。 そのため、TEDは2つのモデルの知識ギャップを減らし、学生が目的のタスクに適合するのに役立つ。 TEDを連続的な事前学習と微調整の2つのシナリオで評価した。 TEDは、両方のシナリオで既存の蒸留法よりも顕著で一貫した改善を示している。

Layer-wise distillation is a powerful tool to compress large models (i.e. teacher models) into small ones (i.e., student models). The student distills knowledge from the teacher by mimicking the hidden representations of the teacher at every intermediate layer. However, layer-wise distillation is difficult. Since the student has a smaller model capacity than the teacher, it is often under-fitted. Furthermore, the hidden representations of the teacher contain redundant information that the student does not necessarily need for the target task's learning. To address these challenges, we propose a novel Task-aware layEr-wise Distillation (TED). TED designs task-aware filters to align the hidden representations of the student and the teacher at each layer. The filters select the knowledge that is useful for the target task from the hidden representations. As such, TED reduces the knowledge gap between the two models and helps the student to fit better on the target task. We evaluate TED in two scenarios: continual pre-training and fine-tuning. TED demonstrates significant and consistent improvements over existing distillation methods in both scenarios.
翻訳日:2022-10-06 12:31:39 公開日:2022-10-05
# GLM-130B:オープンバイリンガル事前訓練モデル

GLM-130B: An Open Bilingual Pre-trained Model ( http://arxiv.org/abs/2210.02414v1 )

ライセンス: Link先を確認
Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, Wenguang Chen, Peng Zhang, Yuxiao Dong, Jie Tang(参考訳) 我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくともGPT-3と同等にオープンソース化し、そのようなスケールのモデルをどのように事前訓練するかを明らかにする試みである。 この取り組みを通じて、多くの予期せぬ技術とエンジニアリングの課題、特に損失の急増と不収束に直面しています。 本稿では,GLM-130Bの設計選択,効率と安定性の両面でのトレーニング戦略,エンジニアリングの取り組みなどについて紹介する。 結果、GLM-130Bモデルは幅広い英語のベンチマークでGPT-3 175Bよりも優れた性能を示し、OPT-175BやBLOOM-176Bでは性能上の優位性は見られない。 また、ERNIE TITAN 3.0 260B(中国最大の言語モデル)を関連するベンチマークで一貫して大幅に上回っている。 最後に、glm-130bのユニークなスケーリング特性を利用して、量子化を意識したトレーニングやパフォーマンス損失のほとんどないint4量子化に到達し、100bスケールモデルの中で最初のものとなった。 さらに重要なことに、このプロパティは、100Bスケールモデルを使用するのに最も手頃な価格のGPUである4$\times$RTX 3090 (24G)または8$\times$RTX 2080 Ti (11G) GPUに対する効果的な推論を可能にする。 GLM-130Bモデルは公開されており、コード、トレーニングログ、関連するツールキット、教訓はhttps://github.com/THUDM/GLM-130Bで公開されている。

We introduce GLM-130B, a bilingual (English and Chinese) pre-trained language model with 130 billion parameters. It is an attempt to open-source a 100B-scale model at least as good as GPT-3 and unveil how models of such a scale can be successfully pre-trained. Over the course of this effort, we face numerous unexpected technical and engineering challenges, particularly on loss spikes and disconvergence. In this paper, we introduce the training process of GLM-130B including its design choices, training strategies for both efficiency and stability, and engineering efforts. The resultant GLM-130B model offers significant outperformance over GPT-3 175B on a wide range of popular English benchmarks while the performance advantage is not observed in OPT-175B and BLOOM-176B. It also consistently and significantly outperforms ERNIE TITAN 3.0 260B -- the largest Chinese language model -- across related benchmarks. Finally, we leverage a unique scaling property of GLM-130B to reach INT4 quantization, without quantization aware training and with almost no performance loss, making it the first among 100B-scale models. More importantly, the property allows its effective inference on 4$\times$RTX 3090 (24G) or 8$\times$RTX 2080 Ti (11G) GPUs, the most ever affordable GPUs required for using 100B-scale models. The GLM-130B model weights are publicly accessible and its code, training logs, related toolkit, and lessons learned are open-sourced at https://github.com/THUDM/GLM-130B .
翻訳日:2022-10-06 12:30:52 公開日:2022-10-05