このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220714となっている論文です。

PDF登録状況(公開日: 20220714)

TitleAuthorsAbstract論文公表日・翻訳日
# 空間整流器による傾斜画像の表面正規化

Surface Normal Estimation of Tilted Images via Spatial Rectifier ( http://arxiv.org/abs/2007.09264v2 )

ライセンス: Link先を確認
Tien Do, Khiem Vuong, Stergios I. Roumeliotis, and Hyun Soo Park(参考訳) 本稿では,傾斜画像の表面正規度を推定する空間整流器を提案する。 より視覚的なデータは、ボディ/ロボット搭載カメラのような任意の方向のセンサーによって撮影される。 既存のアプローチでは、重力整列画像を用いてトレーニングされたため、表面の正常を予測できる境界性能を示す。 2つの主仮説は,(1)視覚シーンレイアウトは重心方向の指標であり,(2)すべての表面がトレーニングデータの構造化分布により学習推定器によって等しく表現されるわけではないため,学習推定器に応答する各傾き画像に対する変換が存在する,というものである。 本研究では,傾斜画像の表面正規分布を重力方向のトレーニングデータ分布と一致する補正値に変換することを学習する空間整流器を設計する。 空間整流器と共に, 角誤差が小さく, 外れ値に対するロバスト性が向上する新しい断面積角損失を提案する。 結果として得られた推定値は、scannetとnyuv2だけでなく、かなりのロールとピッチカメラの動きを含むtilt-rgbdと呼ばれる新しいデータセットでも、データ拡張ベースラインを含む最先端の手法を上回る。

In this paper, we present a spatial rectifier to estimate surface normals of tilted images. Tilted images are of particular interest as more visual data are captured by arbitrarily oriented sensors such as body-/robot-mounted cameras. Existing approaches exhibit bounded performance on predicting surface normals because they were trained using gravity-aligned images. Our two main hypotheses are: (1) visual scene layout is indicative of the gravity direction; and (2) not all surfaces are equally represented by a learned estimator due to the structured distribution of the training data, thus, there exists a transformation for each tilted image that is more responsive to the learned estimator than others. We design a spatial rectifier that is learned to transform the surface normal distribution of a tilted image to the rectified one that matches the gravity-aligned training data distribution. Along with the spatial rectifier, we propose a novel truncated angular loss that offers a stronger gradient at smaller angular errors and robustness to outliers. The resulting estimator outperforms the state-of-the-art methods including data augmentation baselines not only on ScanNet and NYUv2 but also on a new dataset called Tilt-RGBD that includes considerable roll and pitch camera motion.
翻訳日:2022-11-09 14:34:20 公開日:2022-07-14
# RGB-D Salient Object Detection: A Survey

RGB-D Salient Object Detection: A Survey ( http://arxiv.org/abs/2008.00230v4 )

ライセンス: Link先を確認
Tao Zhou, Deng-Ping Fan, Ming-Ming Cheng, Jianbing Shen, and Ling Shao(参考訳) シーン内の最も魅力的な物体を見つけるために人間の視覚認識システムをシミュレートするサルエント物体検出(SOD)は、様々なコンピュータビジョンタスクに広く応用されている。 これにより、深度センサの出現により、SODの性能向上に有用な豊富な空間情報を持つ深度マップを容易に取得できる。 過去数年間、様々なrgb-dベースのsodモデルが提案されてきたが、これらのモデルとこの問題に対する深い理解はいまだに欠けている。 本稿では,様々な視点からrgb-dベースのsodモデルの包括的調査を行い,関連するベンチマークデータセットを詳細に検討する。 さらに,光場が深度マップを提供することができることを考慮し,この領域からのsodモデルや人気のあるベンチマークデータセットについても検討する。 さらに,既存モデルのSOD能力を検討するため,いくつかの代表的RGB-DベースSODモデルの属性ベース評価とともに,包括的評価を行う。 最後に,RGB-D をベースとした SOD の今後の研究に向けた課題と方向性について述べる。 すべての収集されたモデル、ベンチマークデータセット、ソースコードリンク、属性ベースの評価のために構築されたデータセット、評価のためのコードはhttps://github.com/taozh2017/RGBDSODsurveyで公開されます。

Salient object detection (SOD), which simulates the human visual perception system to locate the most attractive object(s) in a scene, has been widely applied to various computer vision tasks. Now, with the advent of depth sensors, depth maps with affluent spatial information that can be beneficial in boosting the performance of SOD, can easily be captured. Although various RGB-D based SOD models with promising performance have been proposed over the past several years, an in-depth understanding of these models and challenges in this topic remains lacking. In this paper, we provide a comprehensive survey of RGB-D based SOD models from various perspectives, and review related benchmark datasets in detail. Further, considering that the light field can also provide depth maps, we review SOD models and popular benchmark datasets from this domain as well. Moreover, to investigate the SOD ability of existing models, we carry out a comprehensive evaluation, as well as attribute-based evaluation of several representative RGB-D based SOD models. Finally, we discuss several challenges and open directions of RGB-D based SOD for future research. All collected models, benchmark datasets, source code links, datasets constructed for attribute-based evaluation, and codes for evaluation will be made publicly available at https://github.com/taozh2017/RGBDSODsurvey
翻訳日:2022-11-04 00:45:19 公開日:2022-07-14
# 注意ネットワークの対称性を考慮した無変量多ジェットイベント再構成

Permutationless Many-Jet Event Reconstruction with Symmetry Preserving Attention Networks ( http://arxiv.org/abs/2010.09206v6 )

ライセンス: Link先を確認
Michael James Fenton, Alexander Shmakov, Ta-Wei Ho, Shih-Chieh Hsu, Daniel Whiteson, Pierre Baldi(参考訳) 大型ハドロン衝突型加速器で大量に生産されるトップクォークは複雑な検出器シグネチャを持ち、特別な再構築技術を必要とする。 最も一般的な崩壊モードである"all-jet"チャネルは、6ジェットの最終状態となり、非常に多くの置換のために$pp$の衝突で再建するのが困難である。 本稿では,一般注意機構を用いたニューラルネットワークに基づくこの問題に対する新しいアプローチを提案し,spa-net(symmetry preservation attention networks)と呼ぶ。 このようなネットワークを訓練して、各クォークの崩壊生成物をあいまいに識別し、この手法のパワーの例として組み合わせ爆発なしに識別する。このアプローチは、既存の最先端の方法を大きく上回り、全てのジェットを$6$-jetの$3.0$、$7$-jetの$7.8%$、$2.6%$の$\geq 8$-jetイベントに正しく割り当てる。

Top quarks, produced in large numbers at the Large Hadron Collider, have a complex detector signature and require special reconstruction techniques. The most common decay mode, the "all-jet" channel, results in a 6-jet final state which is particularly difficult to reconstruct in $pp$ collisions due to the large number of permutations possible. We present a novel approach to this class of problem, based on neural networks using a generalized attention mechanism, that we call Symmetry Preserving Attention Networks (SPA-Net). We train one such network to identify the decay products of each top quark unambiguously and without combinatorial explosion as an example of the power of this technique.This approach significantly outperforms existing state-of-the-art methods, correctly assigning all jets in $93.0%$ of $6$-jet, $87.8%$ of $7$-jet, and $82.6%$ of $\geq 8$-jet events respectively.
翻訳日:2022-10-05 23:17:11 公開日:2022-07-14
# 戦略的可視性領域:バイオメトリックスにおける障害バイアス

Areas of Strategic Visibility: Disability Bias in Biometrics ( http://arxiv.org/abs/2208.04712v1 )

ライセンス: Link先を確認
Jennifer Mankoff, representing the Center for Research and Education on Accessible Technology and Experiences (U. Washington), Devva Kasnitz, Disability Studies (City University of New York), L Jean Camp (Indiana U.), Jonathan Lazar (U. of Maryland, HCIL, Trace Center), Harry Hochheiser (U. of Pittsburgh)(参考訳) RFIに対するこの反応は、バイオメトリックスが障害者2を援助または傷つける可能性を考慮している。 バイオメトリックスはすでに、空港旅行から携帯電話の利用まで、日常生活のさまざまな側面に統合されている。 しかし、これらのシステムの多くは、さまざまな障害を経験する人々にはアクセスできない。 異なる個人的特徴は、身体的特性(dna、指紋、顔または網膜)および行動的特性(ジェスチャー、歩行、声)に生体信号の例として影響する可能性がある。

This response to the RFI considers the potential for biometrics to help or harm disabled people2. Biometrics are already integrated into many aspects of daily life, from airport travel to mobile phone use. Yet many of these systems are not accessible to people who experience different kinds of disability exclusion . Different personal characteristics may impact any or all of the physical (DNA, fingerprints, face or retina) and behavioral (gesture, gait, voice) characteristics listed in the RFI as examples of biometric signals.
翻訳日:2022-08-14 18:23:56 公開日:2022-07-14
# 医用画像解析のためのaiモデルの開発に関するチュートリアル

Tutorial on the development of AI models for medical image analysis ( http://arxiv.org/abs/2208.00766v1 )

ライセンス: Link先を確認
Thijs Kooi(参考訳) コンピュータを使って医療スキャンを読むというアイデアは、1966年に導入された。 しかし、機械学習技術の限界は、当初は進歩が遅かったことを意味する。 2012年のAlexnetのブレークスルーは、このトピックに対する新たな関心を呼び、市場に100の医療AIソリューションがリリースされた。 いくつかの病気やモダリティの成功にもかかわらず、多くの課題が残っている。 研究は通常、調査や課題を通じて、特定の応用や技術の開発、臨床評価、臨床研究や技術のメタ分析に焦点を当てる。 しかし、実世界のパフォーマンスを改善するための開発プロセスには限定的な注意が払われている。 本チュートリアルでは,後者を取り上げ,開発プロセスを可能な限り効率的に行うための手法について議論する。

The idea of using computers to read medical scans was introduced as early as 1966. However, limits to machine learning technology meant progress was slow initially. The Alexnet breakthrough in 2012 sparked new interest in the topic, which resulted in the release of 100s of medical AI solutions on the market. In spite of success for some diseases and modalities, many challenges remain. Research typically focuses on the development of specific applications or techniques, clinical evaluation, or meta analysis of clinical studies or techniques through surveys or challenges. However, limited attention has been given to the development process of improving real world performance. In this tutorial, we address the latter and discuss some techniques to conduct the development process in order to make this as efficient as possible.
翻訳日:2022-08-07 14:39:04 公開日:2022-07-14
# BINARY-CSPのパラメータとしてのコンポーネントツイン幅とその半一般化

Component twin-width as a parameter for BINARY-CSP and its semiring generalisations ( http://arxiv.org/abs/2207.12368v1 )

ライセンス: Link先を確認
Ambroise Baril, Miguel Couceiro, Victor Lagerkvist(参考訳) グラフ彩色問題の変種を仮定する二項制約満足度問題(Binary-CSPs)のいくつかの一般化の細粒度およびパラメータ化複雑性について検討する。 我々の出発点は、これらの問題に対して複雑さの上界をもたらすいくつかのアルゴリズム的アプローチが共通の構造を共有することである。 そこで我々は,バイナリ-cspの異なる一般化(計数,リスト,重み付きバージョンなど)を統一する半環に依存した代数的アプローチを探求し,それらを効率的に解くための一般的なアルゴリズム的アプローチを促進する。 後者は、bonnetらによって導入された(コンポーネント)双幅パラメータにインスパイアされ、任意のバイナリ制約に対してそれを定式化するために、エッジラベルグラフを介して一般化する。 有界成分ツイン幅を持つ入力インスタンスと、有界成分ツイン幅の制約テンプレートについて検討し、FPTアルゴリズムと改良された指数時間アルゴリズムを二項制約の幅広いクラスに適用する。 いくつかの問題(例えば、$H$-coloring問題とその変種)に対する一般的なアルゴリズム的アプローチをインスタンス化することで、このフレームワークの利点を説明し、いくつかのよく知られた問題に対する文献における最も複雑な上限を改善することを示す。

We investigate the fine-grained and the parameterized complexity of several generalizations of binary constraint satisfaction problems (BINARY-CSPs), that subsume variants of graph colouring problems. Our starting point is the observation that several algorithmic approaches that resulted in complexity upper bounds for these problems, share a common structure. We thus explore an algebraic approach relying on semirings that unifies different generalizations of BINARY-CSPs (such as the counting, the list, and the weighted versions), and that facilitates a general algorithmic approach to efficiently solving them. The latter is inspired by the (component) twin-width parameter introduced by Bonnet et al., which we generalize via edge-labelled graphs in order to formulate it to arbitrary binary constraints. We consider input instances with bounded component twin-width, as well as constraint templates of bounded component twin-width, and obtain an FPT algorithm as well as an improved, exponential-time algorithm, for broad classes of binary constraints. We illustrate the advantages of this framework by instantiating our general algorithmic approach on several classes of problems (e.g., the $H$-coloring problem and its variants), and showing that it improves the best complexity upper bounds in the literature for several well-known problems.
翻訳日:2022-07-31 14:25:38 公開日:2022-07-14
# 生成言語モデルに対するアクティブデータパターン抽出攻撃

Active Data Pattern Extraction Attacks on Generative Language Models ( http://arxiv.org/abs/2207.10802v1 )

ライセンス: Link先を確認
Bargav Jayaraman, Esha Ghosh, Huseyin Inan, Melissa Chase, Sambuddha Roy, Wei Dai(参考訳) GPT-2やBERTのような大規模な事前訓練された言語モデルチェックポイントが広く利用可能になれば、最近のトレンドは、ダウンストリームタスクでそれらを微調整して、計算オーバーヘッドを小さくして最先端のパフォーマンスを達成することである。 自然な例のひとつがsmart replyアプリケーションで、事前トレーニングされたモデルを微調整して、クエリメッセージに対して多数のレスポンスを提案する。 本研究では,一般的なSmart Replyパイプラインの潜在的な情報漏洩脆弱性を調査し,学習データに含まれるセンシティブなユーザ情報を抽出するために,ブラックボックスやグレーボックスがSmart Replyモデルにアクセス可能な敵に対して可能であることを示す。 我々は、攻撃設定を通じて、このアプリケーションに関連する特定のコンポーネント、例えばデコード戦略のプライバシーへの影響をさらに分析する。 我々は、潜在的な緩和戦略を検討し、差分プライバシーがそのようなデータ抽出攻撃に対する強力な防御メカニズムであることを示す。

With the wide availability of large pre-trained language model checkpoints, such as GPT-2 and BERT, the recent trend has been to fine-tune them on a downstream task to achieve the state-of-the-art performance with a small computation overhead. One natural example is the Smart Reply application where a pre-trained model is fine-tuned for suggesting a number of responses given a query message. In this work, we set out to investigate potential information leakage vulnerabilities in a typical Smart Reply pipeline and show that it is possible for an adversary, having black-box or gray-box access to a Smart Reply model, to extract sensitive user information present in the training data. We further analyse the privacy impact of specific components, e.g. the decoding strategy, pertained to this application through our attack settings. We explore potential mitigation strategies and demonstrate how differential privacy can be a strong defense mechanism to such data extraction attacks.
翻訳日:2022-07-31 14:18:39 公開日:2022-07-14
# EVE:低消費電力エネルギーハーベスティングシステムのための環境適応型ニューラルネットワークモデル

EVE: Environmental Adaptive Neural Network Models for Low-power Energy Harvesting System ( http://arxiv.org/abs/2207.09258v1 )

ライセンス: Link先を確認
Sahidul Islam, Shanglin Zhou, Ran Ran, Yufang Jin, Wujie Wen, Caiwen Ding and Mimi Xie(参考訳) IoTデバイスは、スマートアプリケーションを可能にするニューラルネットワークモデルでますます実装されている。 環境からエネルギーを回収するエネルギー収穫技術(EH)は、保守コストの低さとエネルギー源の広範囲な利用のために、これらの機器を駆動する電池に代わる有望な代替手段である。 しかし、エネルギ収穫装置が供給する電力は低く、環境によって異なるため、本質的な不安定性の欠点がある。 本稿では,エネルギ収穫用IoTデバイスを共有重み付きで探索する自動機械学習(AutoML)共同探索フレームワークであるEVEを提案する。 これらの共有モデルは、異なるレベルのモデル間隔、レイテンシ、そして環境の変化に対応するための精度でメモリフットプリントを著しく削減します。 さらに、デバイス上で各モデルを効率的に実行する効率的なオンデバイス実装アーキテクチャを開発した。 特定のモデルモードがトリガーされた場合のオーバーヘッドを無視して個々のモデルを取得する実行時モデル抽出アルゴリズムを提案する。 実験結果から、EVEが生成するニューラルネットワークモデルは、プルーニングや共有重みのないベースラインモデルよりも平均2.5倍高速であることがわかった。

IoT devices are increasingly being implemented with neural network models to enable smart applications. Energy harvesting (EH) technology that harvests energy from ambient environment is a promising alternative to batteries for powering those devices due to the low maintenance cost and wide availability of the energy sources. However, the power provided by the energy harvester is low and has an intrinsic drawback of instability since it varies with the ambient environment. This paper proposes EVE, an automated machine learning (autoML) co-exploration framework to search for desired multi-models with shared weights for energy harvesting IoT devices. Those shared models incur significantly reduced memory footprint with different levels of model sparsity, latency, and accuracy to adapt to the environmental changes. An efficient on-device implementation architecture is further developed to efficiently execute each model on device. A run-time model extraction algorithm is proposed that retrieves individual model with negligible overhead when a specific model mode is triggered. Experimental results show that the neural networks models generated by EVE is on average 2.5X times faster than the baseline models without pruning and shared weights.
翻訳日:2022-07-24 11:45:47 公開日:2022-07-14
# 分子表現の統一2次元および3次元事前学習

Unified 2D and 3D Pre-Training of Molecular Representations ( http://arxiv.org/abs/2207.08806v1 )

ライセンス: Link先を確認
Jinhua Zhu, Yingce Xia, Lijun Wu, Shufang Xie, Tao Qin, Wengang Zhou, Houqiang Li and Tie-Yan Liu(参考訳) 分子表現学習は近年注目を集めている。 分子はエッジ/ボンドで連結されたノード/原子を持つ2次元グラフと見なすことができ、全ての原子の3次元座標による3次元配座で表すこともできる。 これまでの作業の多くは2Dと3Dの情報を別々に扱うが、これら2つの情報源を共同で活用することで、より情報的な表現を育むことができる。 本研究では,この魅力的なアイデアを探求し,2次元と3次元の統合事前学習に基づく新しい表現学習手法を提案する。 原子座標と原子間距離は符号化され、グラフニューラルネットワークを介して原子表現と融合する。 このモデルは、マスクされた原子と座標の再構成、2dグラフ上で条件付けられた3dコンフォメーション生成、3dコンフォメーションに基づく2dグラフ生成の3つのタスクで事前訓練されている。 提案手法は,2d情報のみを7つ,2d情報と3d情報の両方を4つ,下流分子特性予測タスク11について評価した。 提案手法は10タスクの最先端化を実現し、2Dのみのタスクの平均改善率は8.3%である。 また,本手法は2つの3次元コンホメーション生成タスクにおいて大幅な改善を実現する。

Molecular representation learning has attracted much attention recently. A molecule can be viewed as a 2D graph with nodes/atoms connected by edges/bonds, and can also be represented by a 3D conformation with 3-dimensional coordinates of all atoms. We note that most previous work handles 2D and 3D information separately, while jointly leveraging these two sources may foster a more informative representation. In this work, we explore this appealing idea and propose a new representation learning method based on a unified 2D and 3D pre-training. Atom coordinates and interatomic distances are encoded and then fused with atomic representations through graph neural networks. The model is pre-trained on three tasks: reconstruction of masked atoms and coordinates, 3D conformation generation conditioned on 2D graph, and 2D graph generation conditioned on 3D conformation. We evaluate our method on 11 downstream molecular property prediction tasks: 7 with 2D information only and 4 with both 2D and 3D information. Our method achieves state-of-the-art results on 10 tasks, and the average improvement on 2D-only tasks is 8.3%. Our method also achieves significant improvement on two 3D conformation generation tasks.
翻訳日:2022-07-24 11:40:07 公開日:2022-07-14
# ソーシャルメディアにおけるセッションベースのサイバーいじめ検出:調査

Session-based Cyberbullying Detection in Social Media: A Survey ( http://arxiv.org/abs/2207.10639v1 )

ライセンス: Link先を確認
Peiling Yi and Arkaitz Zubiaga(参考訳) オンラインソーシャルメディアでは、いじめがソーシャルメディアのセッションを通じて被害者を虐待している。 ソーシャルメディアセッションを通じて繰り返されるサイバーいじめの調査を通じて、最近の研究は、サイバーいじめの2つの特徴である反復行動とパワー不均衡をモデル化し理解するためのマイニングパターンと特徴を調査している。 本稿では,この問題のさまざまなステップと課題をカプセル化したセッションベースのサイバーいじめ検出フレームワークについて述べる。 この枠組みに基づき,ソーシャルメディアにおけるセッションベースのサイバーいじめ検出の包括的概要を提供し,データと方法論の観点から既存の取り組みを考察する。 我々は,セッションベースのサイバーいじめデータセットを作成するための一連のベストプラクティスのエビデンスベースの基準を提案する。 さらに,最新のセッションベースサイバーバブル検出モデルと,2つの異なるデータセットにわたる大規模事前学習言語モデルの性能を比較したベンチマーク実験を行った。 レビューを通じて、将来の研究の方向性として、いくつかのオープンチャレンジも発表しました。

Cyberbullying is a pervasive problem in online social media, where a bully abuses a victim through a social media session. By investigating cyberbullying perpetrated through social media sessions, recent research has looked into mining patterns and features for modeling and understanding the two defining characteristics of cyberbullying: repetitive behavior and power imbalance. In this survey paper, we define the Session-based Cyberbullying Detection framework that encapsulates the different steps and challenges of the problem. Based on this framework, we provide a comprehensive overview of session-based cyberbullying detection in social media, delving into existing efforts from a data and methodological perspective. Our review leads us to propose evidence-based criteria for a set of best practices to create session-based cyberbullying datasets. In addition, we perform benchmark experiments comparing the performance of state-of-the-art session-based cyberbullying detection models as well as large pre-trained language models across two different datasets. Through our review, we also put forth a set of open challenges as future research directions.
翻訳日:2022-07-24 11:38:26 公開日:2022-07-14
# dcase 2022チャレンジにおける数発バイオ音響イベント検出

Few-shot bioacoustic event detection at the DCASE 2022 challenge ( http://arxiv.org/abs/2207.07911v1 )

ライセンス: Link先を確認
I. Nolasco, S. Singh, E. Vidana-Villa, E. Grout, J. Morford, M. Emmerson, F. Jensens, H. Whitehead, I. Kiskin, A. Strandburg-Peshkin, L. Gill, H. Pamula, V. Lostanlen, V. Morfi, D. Stowell(参考訳) 音のイベント検出は、興味のクラスを示すいくつかの例があるにもかかわらず、音のイベントを検出するタスクである。 この枠組みは生体音響学において特に有用であり、非常に長い記録に注釈を付ける必要がある場合が多いが、専門家の注釈時間は限られている。 本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。 タスクの目的、データセット、ベースラインに関する詳細な説明と、得られた主な結果と、提出されたシステムの特徴を提示する。 このタスクは15の異なるチームから提出され、ベースラインよりも13のスコアが高かった。 最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。 高パフォーマンスな手法では、先駆的ネットワーク、トランスダクティブラーニングを使用し、すべてのターゲットクラスからのイベントの可変長に対処した。 さらに, 各サブセットについて結果を解析することにより, システムに直面する主な難しさを識別し, バイオアコースティックな音響事象検出が未確認の課題であることを示す。

Few-shot sound event detection is the task of detecting sound events, despite having only a few labelled examples of the class of interest. This framework is particularly useful in bioacoustics, where often there is a need to annotate very long recordings but the expert annotator time is limited. This paper presents an overview of the second edition of the few-shot bioacoustic sound event detection task included in the DCASE 2022 challenge. A detailed description of the task objectives, dataset, and baselines is presented, together with the main results obtained and characteristics of the submitted systems. This task received submissions from 15 different teams from which 13 scored higher than the baselines. The highest F-score was of 60% on the evaluation set, which leads to a huge improvement over last year's edition. Highly-performing methods made use of prototypical networks, transductive learning, and addressed the variable length of events from all target classes. Furthermore, by analysing results on each of the subsets we can identify the main difficulties that the systems face, and conclude that few-show bioacoustic sound event detection remains an open challenge.
翻訳日:2022-07-20 07:43:24 公開日:2022-07-14
# 階層型グラフポーリングモデルによるコントラスト脳ネットワーク学習

Contrastive Brain Network Learning via Hierarchical Signed Graph Pooling Model ( http://arxiv.org/abs/2207.07650v1 )

ライセンス: Link先を確認
Haoteng Tang, Guixiang Ma, Lei Guo, Xiyao Fu, Heng Huang, Liang Zhang(参考訳) 近年、脳ネットワークは脳のダイナミクス、脳の発達、脳疾患の研究に広く採用されている。 脳機能ネットワーク上のグラフ表現学習技術は、臨床表現型と神経変性疾患の新しいバイオマーカーの発見を促進する。 しかし、現在のグラフ学習技術は、脳ネットワークのマイニングにいくつかの問題がある。 まず、現在のグラフ学習モデルは符号なしグラフのために設計されており、多くの符号付きネットワークデータ(例えば脳機能ネットワーク)の分析を妨げる。 一方、脳ネットワークデータの不十分さは、臨床表現型予測のモデル性能を制限する。 さらに、現在のグラフ学習モデルのほとんどが解釈可能であり、モデルの結果に対する生物学的洞察を提供することができない可能性がある。 本稿では,様々な予測タスクに使用できる脳機能ネットワークからグラフレベル表現を抽出するための,解釈可能な階層的グラフ表現学習モデルを提案する。 さらに,モデルの性能をさらに向上させるため,機能的脳ネットワークデータによるコントラスト学習を増強する新しい戦略を提案する。 hcp と oasis のデータを用いて, 異なる分類および回帰タスクに関するこのフレームワークを評価した。 実験結果から,提案手法がいくつかの最先端技術よりも優れていることを示す。 さらに,これらの予測タスクから得られたグラフ塩分マップを用いて,表現型バイオマーカーの検出と解釈を行う。

Recently brain networks have been widely adopted to study brain dynamics, brain development and brain diseases. Graph representation learning techniques on brain functional networks can facilitate the discovery of novel biomarkers for clinical phenotypes and neurodegenerative diseases. However, current graph learning techniques have several issues on brain network mining. Firstly, most current graph learning models are designed for unsigned graph, which hinders the analysis of many signed network data (e.g., brain functional networks). Meanwhile, the insufficiency of brain network data limits the model performance on clinical phenotypes predictions. Moreover, few of current graph learning model is interpretable, which may not be capable to provide biological insights for model outcomes. Here, we propose an interpretable hierarchical signed graph representation learning model to extract graph-level representations from brain functional networks, which can be used for different prediction tasks. In order to further improve the model performance, we also propose a new strategy to augment functional brain network data for contrastive learning. We evaluate this framework on different classification and regression tasks using the data from HCP and OASIS. Our results from extensive experiments demonstrate the superiority of the proposed model compared to several state-of-the-art techniques. Additionally, we use graph saliency maps, derived from these prediction tasks, to demonstrate detection and interpretation of phenotypic biomarkers.
翻訳日:2022-07-20 07:28:00 公開日:2022-07-14
# 効率的な片側コルモゴロフ近似

Efficient One Sided Kolmogorov Approximation ( http://arxiv.org/abs/2207.07916v1 )

ライセンス: Link先を確認
Liat Cohen, Tal Grinshpoun, Gera Weiss(参考訳) 離散確率変数 $X$ と数 $m$ が与えられたとき、最大で$m$ の確率変数を計算し、そのコルモゴロフ距離が 1 辺のコルモゴロフ近似に対しても最小となる効率的なアルゴリズムを提案する。 アルゴリズムのいくつかの変種を提示し,その正しさと計算複雑性を分析し,実際にどのように動作するかを示す詳細な経験的評価を行う。 この研究のモチベーションである我々が調査する主な応用は、直列並列スケジュールにおける確率的欠落期限の推定である。 これらの確率の正確な計算はNPハードであるため,本論文で記述したアルゴリズムを用いて近似を求める。

We present an efficient algorithm that, given a discrete random variable $X$ and a number $m$, computes a random variable whose support is of size at most $m$ and whose Kolmogorov distance from $X$ is minimal, also for the one-sided Kolmogorov approximation. We present some variants of the algorithm, analyse their correctness and computational complexity, and present a detailed empirical evaluation that shows how they performs in practice. The main application that we examine, which is our motivation for this work, is estimation of the probability missing deadlines in series-parallel schedules. Since exact computation of these probabilities is NP-hard, we propose to use the algorithms described in this paper to obtain an approximation.
翻訳日:2022-07-20 07:14:58 公開日:2022-07-14
# 安定学習によるマルチゲストネットワークの改善

Improving Multi-Interest Network with Stable Learning ( http://arxiv.org/abs/2207.07910v1 )

ライセンス: Link先を確認
Zhaocheng Liu, Yingtao Luo, Di Zeng, Qiang Liu, Daqing Chang, Dongying Kong, Zhi Chen(参考訳) 歴史的行動からユーザの動的嗜好をモデル化することは、現代のレコメンデータシステムの中核にある。 ユーザの興味の多様性から、近年の進歩は、過去の振る舞いを複数の興味ベクトルにエンコードするマルチ関心ネットワークを提案する。 実際のシナリオでは、キャプチャされた関心事の対応するアイテムは、通常、露出を取得してトレーニングデータに収集され、興味事間の依存関係を生成する。 残念ながら、マルチ関心ネットワークは、取得した関心事間の微妙な依存関係に誤って集中する可能性がある。 これらの依存関係によって、無関係な関心と目標の間の急激な相関が捉えられ、トレーニングとテスト分布が一致しない場合に予測結果が不安定になる。 本稿では,Hilbert-Schmidt Independence Criterion(HSIC)を導入し,獲得した利害関係の独立度を測定し,HSICの継続的な増加がモデル性能を損なう可能性を実証的に示す。 そこで,本研究では,サンプルの学習重みによる捕えられた関心事間の微妙な依存関係の影響を排除し,モデルが真の因果関係により集中することを目的とした,新しい多目的ネットワークDESMILを提案する。 公開レコメンデーションデータセット,大規模産業データセット,分散データをシミュレートする合成データセットについて,広範な実験を行った。 実験の結果,提案するdesmilが最先端モデルを上回ることがわかった。 さらに、DESMILがある程度機能する理由を明らかにするために、包括的モデル解析も行っています。

Modeling users' dynamic preferences from historical behaviors lies at the core of modern recommender systems. Due to the diverse nature of user interests, recent advances propose the multi-interest networks to encode historical behaviors into multiple interest vectors. In real scenarios, the corresponding items of captured interests are usually retrieved together to get exposure and collected into training data, which produces dependencies among interests. Unfortunately, multi-interest networks may incorrectly concentrate on subtle dependencies among captured interests. Misled by these dependencies, the spurious correlations between irrelevant interests and targets are captured, resulting in the instability of prediction results when training and test distributions do not match. In this paper, we introduce the widely used Hilbert-Schmidt Independence Criterion (HSIC) to measure the degree of independence among captured interests and empirically show that the continuous increase of HSIC may harm model performance. Based on this, we propose a novel multi-interest network, named DEep Stable Multi-Interest Learning (DESMIL), which tries to eliminate the influence of subtle dependencies among captured interests via learning weights for training samples and make model concentrate more on underlying true causation. We conduct extensive experiments on public recommendation datasets, a large-scale industrial dataset and the synthetic datasets which simulate the out-of-distribution data. Experimental results demonstrate that our proposed DESMIL outperforms state-of-the-art models by a significant margin. Besides, we also conduct comprehensive model analysis to reveal the reason why DESMIL works to a certain extent.
翻訳日:2022-07-19 15:44:12 公開日:2022-07-14
# (参考訳) 遺伝的アルゴリズムを用いたオーディオ誘導アルバムカバーアート生成

Audio-guided Album Cover Art Generation with Genetic Algorithms ( http://arxiv.org/abs/2207.07162v1 )

ライセンス: CC BY 4.0
James Marien, Sam Leroux, Bart Dhoedt, Cedric De Boom(参考訳) spotifyでは毎日6万曲以上の楽曲がリリースされており、リスナーの注目を集める競争は激しさを増している。 その点において、カバーアートのキャプティベーションと誘惑の重要性は、歌のキャラクターとアーティストのアイデンティティと深く絡み合っており、人々が音楽を発見するためのもっとも重要な入り口の1つとして残っているため、過小評価できない。 しかし、カバーアートのデザインは非常に創造的で、長く、時には高価なプロセスであり、特に非プロのアーティストにとっては厄介なものである。 そこで本研究では,音声特徴に導かれたカバーアートを生成するための新しいディープラーニングフレームワークを提案する。 VQGAN-CLIPにインスパイアされた当社のアプローチは,再トレーニングを必要とせずに個々のコンポーネントを簡単に置き換えることができるため,非常に柔軟である。 本稿では,そのアーキテクチャの詳細を概説し,それらから生じる最適化課題について論じる。 より具体的には、遺伝子アルゴリズムを利用して、悪質なローカルミニマと敵対的な例を克服する。 我々のフレームワークは、ほとんどのジャンルで適切なカバーアートを生成でき、視覚的特徴は、オーディオ機能の変化に適応する。 これらの結果を踏まえ、我々のフレームワークは、音声誘導視覚生成タスクにおける拡張とより高度な応用の道を開くと信じている。

Over 60,000 songs are released on Spotify every day, and the competition for the listener's attention is immense. In that regard, the importance of captivating and inviting cover art cannot be underestimated, because it is deeply entangled with a song's character and the artist's identity, and remains one of the most important gateways to lead people to discover music. However, designing cover art is a highly creative, lengthy and sometimes expensive process that can be daunting, especially for non-professional artists. For this reason, we propose a novel deep-learning framework to generate cover art guided by audio features. Inspired by VQGAN-CLIP, our approach is highly flexible because individual components can easily be replaced without the need for any retraining. This paper outlines the architectural details of our models and discusses the optimization challenges that emerge from them. More specifically, we will exploit genetic algorithms to overcome bad local minima and adversarial examples. We find that our framework can generate suitable cover art for most genres, and that the visual features adapt themselves to audio feature changes. Given these results, we believe that our framework paves the road for extensions and more advanced applications in audio-guided visual generation tasks.
翻訳日:2022-07-19 02:22:26 公開日:2022-07-14
# (参考訳) ハナビにおけるゼロショット座標のKレベル推論

K-level Reasoning for Zero-Shot Coordination in Hanabi ( http://arxiv.org/abs/2207.07166v1 )

ライセンス: CC BY 4.0
Brandon Cui, Hengyuan Hu, Luis Pineda, Jakob N. Foerster(参考訳) 協調的なマルチエージェント設定における標準的な問題設定は、セルフプレイ(sp)である。 しかしながら、最適なSPポリシーは一般に任意の規約(ハンドシェイク)を含み、他の独立した訓練されたエージェントや人間と互換性がない。 この後者のデシラタは、最近Huらによってゼロショットコーディネート(ZSC)設定として公式化され、カードゲーム『ハナビ』でZSCと人間AIのパフォーマンスが改善されたOther-Play(OP)アルゴリズムで部分的に対処された。 opは環境の対称性へのアクセスを想定し、訓練中にエージェントが相互に互換性のない方法でこれらを壊すことを防止する。 しかし、著者らが指摘するように、ある環境に対する対称性の発見は計算的に難しい問題である。 代わりに、kレベル推論(KLR)の簡単な適応を通じて、2006年、Costa Gomesらは、すべてのレベルを同期的にトレーニングすることで、人間のようなプロキシボットとペアリングした場合を含む、競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。 また、ベストレスポンス(syklrbr)を用いた同期kレベル推論法を導入し、ベストレスポンスを共学習することで、同期klrの性能をさらに向上させる。

The standard problem setting in cooperative multi-agent settings is self-play (SP), where the goal is to train a team of agents that works well together. However, optimal SP policies commonly contain arbitrary conventions ("handshakes") and are not compatible with other, independently trained agents or humans. This latter desiderata was recently formalized by Hu et al. 2020 as the zero-shot coordination (ZSC) setting and partially addressed with their Other-Play (OP) algorithm, which showed improved ZSC and human-AI performance in the card game Hanabi. OP assumes access to the symmetries of the environment and prevents agents from breaking these in a mutually incompatible way during training. However, as the authors point out, discovering symmetries for a given environment is a computationally hard problem. Instead, we show that through a simple adaption of k-level reasoning (KLR) Costa Gomes et al. 2006, synchronously training all levels, we can obtain competitive ZSC and ad-hoc teamplay performance in Hanabi, including when paired with a human-like proxy bot. We also introduce a new method, synchronous-k-level reasoning with a best response (SyKLRBR), which further improves performance on our synchronous KLR by co-training a best response.
翻訳日:2022-07-19 02:11:34 公開日:2022-07-14
# (参考訳) コントラスト学習とマルチスケールグラフ畳み込みネットワークを用いた画像クラスタリング

Image Clustering with Contrastive Learning and Multi-scale Graph Convolutional Networks ( http://arxiv.org/abs/2207.07173v1 )

ライセンス: CC BY 4.0
Yuanku Xu, Dong Huang, Chang-Dong Wang, Jian-Huang Lai(参考訳) 近年,深層クラスタリングが注目されている。 顕著な進歩にもかかわらず、以前のディープクラスタリング作業の多くは、まだ2つの制限に悩まされている。 まず、多くは分散ベースのクラスタリングの損失に焦点を合わせ、対照的な学習を通じてサンプル単位(あるいは拡張単位)の関係性を利用する能力が欠如している。 第二に、彼らはしばしば間接的なサンプル単位の構造情報を無視し、マルチスケールな近隣構造学習の可能性を見越す。 そこで本研究では,コントラッシブニューラルネットワーク(CNN)とグラフ畳み込みネットワーク(GCN)のギャップと,画像クラスタリングタスクにおけるコントラスト学習とマルチスケール近傍構造学習のギャップを埋める,コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)という,新たな深層クラスタリング手法を提案する。 提案したIcicleGCNフレームワークは、CNNベースのバックボーン、インスタンス類似モジュール(ISM)、JC-SLIM(Joint Cluster Structure Learning and Instance reconstruction Module)、マルチスケールGCNモジュール(M-GCN)の4つの主要なモジュールで構成されている。 具体的には、各画像上で2つのランダムな拡張を行い、2つの重み付けビューを持つバックボーンネットワークを用いて、拡張サンプルの表現を学習し、それぞれインスタンスレベルとクラスタレベルのコントラスト学習のためにISMとJC-SLIMに供給する。 さらに、マルチスケールな近隣構造学習を実施するために、2つのGCNストリームとオートエンコーダを同時にトレーニングする。 一 表象融合及び表象融合との層間相互作用 (ii)最終層出力分布の一貫性を保証する共同自己適応学習。 複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。

Deep clustering has recently attracted significant attention. Despite the remarkable progress, most of the previous deep clustering works still suffer from two limitations. First, many of them focus on some distribution-based clustering loss, lacking the ability to exploit sample-wise (or augmentation-wise) relationships via contrastive learning. Second, they often neglect the indirect sample-wise structure information, overlooking the rich possibilities of multi-scale neighborhood structure learning. In view of this, this paper presents a new deep clustering approach termed Image clustering with contrastive learning and multi-scale Graph Convolutional Networks (IcicleGCN), which bridges the gap between convolutional neural network (CNN) and graph convolutional network (GCN) as well as the gap between contrastive learning and multi-scale neighborhood structure learning for the image clustering task. The proposed IcicleGCN framework consists of four main modules, namely, the CNN-based backbone, the Instance Similarity Module (ISM), the Joint Cluster Structure Learning and Instance reconstruction Module (JC-SLIM), and the Multi-scale GCN module (M-GCN). Specifically, with two random augmentations performed on each image, the backbone network with two weight-sharing views is utilized to learn the representations for the augmented samples, which are then fed to ISM and JC-SLIM for instance-level and cluster-level contrastive learning, respectively. Further, to enforce multi-scale neighborhood structure learning, two streams of GCNs and an auto-encoder are simultaneously trained via (i) the layer-wise interaction with representation fusion and (ii) the joint self-adaptive learning that ensures their last-layer output distributions to be consistent. Experiments on multiple image datasets demonstrate the superior clustering performance of IcicleGCN over the state-of-the-art.
翻訳日:2022-07-19 01:49:04 公開日:2022-07-14
# (参考訳) 地球観測のための深層学習の最近の動向:画像分類のためのオープンソースベンチマークアリーナ

Current Trends in Deep Learning for Earth Observation: An Open-source Benchmark Arena for Image Classification ( http://arxiv.org/abs/2207.07189v1 )

ライセンス: CC BY 4.0
Ivica Dimitrovski, Ivan Kitanovski, Dragi Kocev, Nikola Simidjievski(参考訳) aitlas: benchmark arena' - 地球観測における画像分類のための最先端のディープラーニングアプローチを評価するためのオープンソースのベンチマークフレームワーク。 この目的のために,9つの異なる最先端アーキテクチャから派生した400以上のモデルを総合的に比較分析し,異なるサイズと特性を持つ22のデータセットから,様々なマルチクラスおよびマルチラベルの分類タスクと比較する。 これらのデータセットで完全にトレーニングされたモデルに加えて、私たちは転送学習のコンテキストでトレーニングされたモデルをベンチマークします。 提案手法はすべて汎用的であり,本研究では考慮されていない多くのリモートセンシング画像分類タスクに容易に拡張できる。 再現性を保証し、より良いユーザビリティとさらなる開発を容易にするため、トレーニングされたモデル、モデル構成、データセットの処理詳細(モデルのトレーニングと評価に使用するスプリットを含む)を含む実験的なリソースはすべて、リポジトリで公開されている。

We present 'AiTLAS: Benchmark Arena' -- an open-source benchmark framework for evaluating state-of-the-art deep learning approaches for image classification in Earth Observation (EO). To this end, we present a comprehensive comparative analysis of more than 400 models derived from nine different state-of-the-art architectures, and compare them to a variety of multi-class and multi-label classification tasks from 22 datasets with different sizes and properties. In addition to models trained entirely on these datasets, we also benchmark models trained in the context of transfer learning, leveraging pre-trained model variants, as it is typically performed in practice. All presented approaches are general and can be easily extended to many other remote sensing image classification tasks not considered in this study. To ensure reproducibility and facilitate better usability and further developments, all of the experimental resources including the trained models, model configurations and processing details of the datasets (with their corresponding splits used for training and evaluating the models) are publicly available on the repository: https://github.com/biasvariancelabs/aitlas-arena.
翻訳日:2022-07-19 01:06:19 公開日:2022-07-14
# (参考訳) 確率的確率的ロバストなプロトタイプ分類器

Provably Adversarially Robust Nearest Prototype Classifiers ( http://arxiv.org/abs/2207.07208v1 )

ライセンス: CC BY 4.0
V\'aclav Vor\'a\v{c}ek and Matthias Hein(参考訳) 最近プロトタイプ分類器(NPC)は、選択された距離メートル法に関して、最も近いプロトタイプのラベルを各入力ポイントに割り当てる。 NPCの直接的な利点は、決定が解釈可能であることである。 以前の作業では、NPCに対して同じ$\ell_p$-distanceを使用する場合、$\ell_p$-threatモデルにおける最小対向摂動の低い境界を提供することができた。 本稿では、決定に$\ell_p$-distancesと$p,q \in \{1,2,\infty\}$の認証に$\ell_q$-threatモデルを使用する場合の複雑さについて完全な議論を行う。 特に,$\ell_2$-distance を用いた場合の最小対向摂動の \emph{exact} 計算のためのスケーラブルなアルゴリズムと,他の場合の低境界の改善について述べる。 ニューラルネットワークよりも高い$\ell_2$-robustnessを保証するMNISTに対して、効率よく改善された下位境界を用いて、確率的に堅牢なNPC(PNPC)をトレーニングする。 さらに,LPIPS の知覚測定値に対する最初の認証結果が,$\ell_p$-balls よりも現実的な画像分類の脅威モデルであるとの認識を,私たちの知識に示しています。 pnpc は (laidlaw et al., 2021) で報告された実証的ロバスト精度よりも, cifar10 の認証ロバスト精度が高い。 コードは私たちのリポジトリで利用可能です。

Nearest prototype classifiers (NPCs) assign to each input point the label of the nearest prototype with respect to a chosen distance metric. A direct advantage of NPCs is that the decisions are interpretable. Previous work could provide lower bounds on the minimal adversarial perturbation in the $\ell_p$-threat model when using the same $\ell_p$-distance for the NPCs. In this paper we provide a complete discussion on the complexity when using $\ell_p$-distances for decision and $\ell_q$-threat models for certification for $p,q \in \{1,2,\infty\}$. In particular we provide scalable algorithms for the \emph{exact} computation of the minimal adversarial perturbation when using $\ell_2$-distance and improved lower bounds in other cases. Using efficient improved lower bounds we train our Provably adversarially robust NPC (PNPC), for MNIST which have better $\ell_2$-robustness guarantees than neural networks. Additionally, we show up to our knowledge the first certification results w.r.t. to the LPIPS perceptual metric which has been argued to be a more realistic threat model for image classification than $\ell_p$-balls. Our PNPC has on CIFAR10 higher certified robust accuracy than the empirical robust accuracy reported in (Laidlaw et al., 2021). The code is available in our repository.
翻訳日:2022-07-19 00:13:33 公開日:2022-07-14
# (参考訳) 浮動小数点算術における音のランダム化

Sound Randomized Smoothing in Floating-Point Arithmetics ( http://arxiv.org/abs/2207.07209v1 )

ライセンス: CC BY 4.0
V\'aclav Vor\'a\v{c}ek and Matthias Hein(参考訳) ランダム化平滑化は無限の精度で音を出す。 しかし,無作為な平滑化は浮動小数点精度の限界に対してもはや健全ではないことを示す。 CIFAR10 の偽証明を提供するために、逆例が 0.8$ の距離にあるにもかかわらず、ランダム化された平滑化が 1 点あたり 1.26$ の半径を示す単純な例を示す。 ランダム化平滑化の暗黙の仮定について議論し、平滑化バージョンが一般的に認証されている汎用画像分類モデルには適用されないことを示した。 そこで本研究では,浮動小数点精度を本質的に同等の速度で使用する場合のランダム化平滑化のための音響的手法を提案する。 唯一の前提は、公正なコインにアクセスできるということです。

Randomized smoothing is sound when using infinite precision. However, we show that randomized smoothing is no longer sound for limited floating-point precision. We present a simple example where randomized smoothing certifies a radius of $1.26$ around a point, even though there is an adversarial example in the distance $0.8$ and extend this example further to provide false certificates for CIFAR10. We discuss the implicit assumptions of randomized smoothing and show that they do not apply to generic image classification models whose smoothed versions are commonly certified. In order to overcome this problem, we propose a sound approach to randomized smoothing when using floating-point precision with essentially equal speed and matching the certificates of the standard, unsound practice for standard classifiers tested so far. Our only assumption is that we have access to a fair coin.
翻訳日:2022-07-18 23:31:03 公開日:2022-07-14
# (参考訳) ルーティング問題における一般化のためのギャップを埋めること

Attention, Filling in The Gaps for Generalization in Routing Problems ( http://arxiv.org/abs/2207.07212v1 )

ライセンス: CC BY 4.0
Ahmad Bdeir, Jonas K. Falkner, Lars Schmidt-Thieme(参考訳) 機械学習(ML)メソッドは、一般的なヒューリスティックと組み合わせて、あるいはスタンドアロンモデルとして、車両ルーティング問題に取り組む上で有用なツールとなっている。 しかし、現在の手法では、サイズや分布の異なる問題に取り組む場合の一般化が貧弱である。 結果として、車両ルーティングにおけるMLは、より大きな問題サイズで実現不可能となる特定の問題インスタンスに対して、新しい方法論が作成される拡張フェーズを目撃した。 本稿では,現在のモデルであるkoolらによる注意モデルを理解し,改善することで,この分野の統合を促進することを目的とする。 vrp一般化のための2つの異なるカテゴリを識別する。 1つは問題自体に固有の違いに基づいており、もう1つはモデルを一般化する能力を制限するアーキテクチャ上の弱点に関するものである。 我々はまず,α-entmaxアクティベーションに基づくSparse Dynamic Attentionに対するKool et al.法とその損失関数を適用することで,モデルの相違を第一に狙う。 次に、特定のシナリオにおける単一インスタンストレーニングよりも優れたパフォーマンスを示す混合インスタンストレーニングメソッドを使用することで、固有の違いをターゲットとします。 最後に,モデルの回転や拡張変化に対する不変性の欠如を利用して,性能を向上させる推論レベルのデータ拡張フレームワークを提案する。

Machine Learning (ML) methods have become a useful tool for tackling vehicle routing problems, either in combination with popular heuristics or as standalone models. However, current methods suffer from poor generalization when tackling problems of different sizes or different distributions. As a result, ML in vehicle routing has witnessed an expansion phase with new methodologies being created for particular problem instances that become infeasible at larger problem sizes. This paper aims at encouraging the consolidation of the field through understanding and improving current existing models, namely the attention model by Kool et al. We identify two discrepancy categories for VRP generalization. The first is based on the differences that are inherent to the problems themselves, and the second relates to architectural weaknesses that limit the model's ability to generalize. Our contribution becomes threefold: We first target model discrepancies by adapting the Kool et al. method and its loss function for Sparse Dynamic Attention based on the alpha-entmax activation. We then target inherent differences through the use of a mixed instance training method that has been shown to outperform single instance training in certain scenarios. Finally, we introduce a framework for inference level data augmentation that improves performance by leveraging the model's lack of invariance to rotation and dilation changes.
翻訳日:2022-07-18 23:08:36 公開日:2022-07-14
# (参考訳) 確率データ中心化による単一モデル不確かさ推定

Single Model Uncertainty Estimation via Stochastic Data Centering ( http://arxiv.org/abs/2207.07235v1 )

ライセンス: CC BY 4.0
Jayaraman J. Thiagarajan, Rushil Anirudh, Vivek Narayanaswamy and Peer-Timo Bremer(参考訳) 我々は、多くの科学的・工学的問題において重要な役割を果たす深層ニューラルネットワークの不確実性の推定に興味を持っている。 本稿では,同じ重みの初期化を持つニューラルネットワークのアンサンブルが,一定のバイアスによって変化するデータセットに基づいてトレーニングされた場合,予測の相違が認識論的不確実性の強い指標となるような,わずかに一貫性のないトレーニングモデルをもたらすという新たな発見を提案する。 ニューラルタンジェントカーネル(NTK)を用いて、NTKはシフト不変ではないため、この現象が部分的に生じることを示した。 これは自明な入力変換によって達成されるため、バイアスの影響を限界にすることで予測に関する不確実性を推定する、単一のニューラルネットワーク($\delta-$uqと呼ばれる技術)を使って近似することができる。 我々は、$\delta-$uqの不確実性推定が、アウトリーバー拒否、分配シフトによるキャリブレーション、ブラックボックス関数の逐次設計最適化といった、様々なベンチマークにおいて、現在の多くの方法よりも優れていることを示す。

We are interested in estimating the uncertainties of deep neural networks, which play an important role in many scientific and engineering problems. In this paper, we present a striking new finding that an ensemble of neural networks with the same weight initialization, trained on datasets that are shifted by a constant bias gives rise to slightly inconsistent trained models, where the differences in predictions are a strong indicator of epistemic uncertainties. Using the neural tangent kernel (NTK), we demonstrate that this phenomena occurs in part because the NTK is not shift-invariant. Since this is achieved via a trivial input transformation, we show that it can therefore be approximated using just a single neural network -- using a technique that we call $\Delta-$UQ -- that estimates uncertainty around prediction by marginalizing out the effect of the biases. We show that $\Delta-$UQ's uncertainty estimates are superior to many of the current methods on a variety of benchmarks -- outlier rejection, calibration under distribution shift, and sequential design optimization of black box functions.
翻訳日:2022-07-18 22:54:57 公開日:2022-07-14
# 応力を用いた埋め込みアルゴリズムの監督

Supervising Embedding Algorithms Using the Stress ( http://arxiv.org/abs/2207.07218v1 )

ライセンス: Link先を確認
Ery Arias-Castro, Phong Alain Chau(参考訳) 古典的なスケーリングは、主成分分析と同様にパラメータフリーであるが、他のほとんどの方法は1つまたは複数のパラメータを埋め込む必要がある。 このチューニングは、状況の監督されていない性質のために難しい可能性がある。 本稿では,ストレスの概念を最小化するために,パラメータのチューニングの選択を監督するシンプルな,ほぼ明白なアプローチを提案する。 我々はこの選択を剛性理論を参照して証明する。 Aspnes et al. (IEEE Mobile Computing, 2006) の結果を拡張し、一般的なランダムな幾何グラフは高い確率で三次グラフであることを示す。 そして、安定結果 \`a la Anderson et al. (SIAM Discrete Mathematics, 2010) を提供する。 本手法は,Shang and Ruml (IEEE INFOCOM, 2004) の MDS-MAP(P) アルゴリズムの文脈で述べる。 原型的なパッチストッチ手法として、パッチサイズの選択が必要であり、ストレスを使ってデータ駆動型にしています。 この文脈では、パラメータ選択のチューニングの基礎としてストレスを使うことの有効性を説明するために、いくつかの実験を行う。 このようにして、多次元スケーリングの文献で見過ごされたかもしれない現象であるバイアス分散トレードオフを明らかにする。 mds-map(p) を多様体学習の方法に変換することで、応力の最小化をパラメータチューニングにも利用できるisomapの局所バージョンを得る。

While classical scaling, just like principal component analysis, is parameter-free, most other methods for embedding multivariate data require the selection of one or several parameters. This tuning can be difficult due to the unsupervised nature of the situation. We propose a simple, almost obvious, approach to supervise the choice of tuning parameter(s): minimize a notion of stress. We substantiate this choice by reference to rigidity theory. We extend a result by Aspnes et al. (IEEE Mobile Computing, 2006), showing that general random geometric graphs are trilateration graphs with high probability. And we provide a stability result \`a la Anderson et al. (SIAM Discrete Mathematics, 2010). We illustrate this approach in the context of the MDS-MAP(P) algorithm of Shang and Ruml (IEEE INFOCOM, 2004). As a prototypical patch-stitching method, it requires the choice of patch size, and we use the stress to make that choice data-driven. In this context, we perform a number of experiments to illustrate the validity of using the stress as the basis for tuning parameter selection. In so doing, we uncover a bias-variance tradeoff, which is a phenomenon which may have been overlooked in the multidimensional scaling literature. By turning MDS-MAP(P) into a method for manifold learning, we obtain a local version of Isomap for which the minimization of the stress may also be used for parameter tuning.
翻訳日:2022-07-18 15:01:09 公開日:2022-07-14
# 量子畳み込みニューラルネットワークのスケーラビリティに関する事例研究

Case study on quantum convolutional neural network scalability ( http://arxiv.org/abs/2207.07160v1 )

ライセンス: Link先を確認
Marina O. Lisnichenko, Stanislav I. Protasov(参考訳) コンピュータ科学における重要な課題の1つは、様々なデータタイプ、すなわち、医療や物流から仮想ショッピングに至るまで、さまざまな分野において重要な画像の処理時間短縮である。 従来のコンピュータと比較すると、量子コンピュータは並列データ処理が可能であり、データ処理時間を短縮できる。 この量子コンピュータの品質は、現実のタスクに適用可能な量子技術のポテンシャルの集中的な研究に影響を与えた。 入力データの少ないボリュームですでにいくつかの進歩が明らかになっている。 本研究では, 中間計測ステップをスキップしながら, 入力データ量(画像使用量2 x 2 から 8 x 8 まで)を増加させながら, 処理時間を短縮することを目的とした。 この仮説は、入力データの増加に対して、各量子畳み込み層が出力測定結果を改善し、データ処理を加速すると仮定した。 仮説を検証するために,各ネットワークの最適活性化関数とその導関数を選定する実験を行った。 この仮説は出力平均二乗誤差(MSE)の観点から部分的に確認されており、古典的畳み込みニューラルネットワーク(CNN)トレーニングの結果0.25から、量子畳み込みニューラルネットワーク(QCNN)トレーニングの結果0.23に低下した。 しかし,cnnでは1.5分,長期トレーニングでは4時間37分であったトレーニング時間に関しては,仮説は否定された。

One of the crucial tasks in computer science is the processing time reduction of various data types, i.e., images, which is important for different fields -- from medicine and logistics to virtual shopping. Compared to classical computers, quantum computers are capable of parallel data processing, which reduces the data processing time. This quality of quantum computers inspired intensive research of the potential of quantum technologies applicability to real-life tasks. Some progress has already revealed on a smaller volumes of the input data. In this research effort, I aimed to increase the amount of input data (I used images from 2 x 2 to 8 x 8), while reducing the processing time, by way of skipping intermediate measurement steps. The hypothesis was that, for increased input data, the omitting of intermediate measurement steps after each quantum convolution layer will improve output metric results and accelerate data processing. To test the hypothesis, I performed experiments to chose the best activation function and its derivative in each network. The hypothesis was partly confirmed in terms of output mean squared error (MSE) -- it dropped from 0.25 in the result of classical convolutional neural network (CNN) training to 0.23 in the result of quantum convolutional neural network (QCNN) training. In terms of the training time, however, which was 1.5 minutes for CNN and 4 hours 37 minutes in the least lengthy training iteration, the hypothesis was rejected.
翻訳日:2022-07-18 14:33:07 公開日:2022-07-14
# NASRec:Recommenderシステムのためのニューラルネットワーク検索の軽量化

NASRec: Weight Sharing Neural Architecture Search for Recommender Systems ( http://arxiv.org/abs/2207.07187v1 )

ライセンス: Link先を確認
Tunhou Zhang, Dehua Cheng, Yuchen He, Zhengxing Chen, Xiaoliang Dai, Liang Xiong, Feng Yan, Hai Li, Yiran Chen, Wei Wen(参考訳) ディープニューラルネットワークの台頭は、レコメンデータシステムの最適化において重要なドライバとなる。 しかし、レコメンダシステムの成功はアーキテクチャの繊細な構築に関係しており、そのモデリングをさらに改善するためにニューラルアーキテクチャサーチ(NAS)を求めている。 NASRecは,1つのスーパーネットをトレーニングし,重量共有により豊富なモデル/サブアーキテクチャを効率的に生成するパラダイムである。 NASRecは、レコメンデーションドメインにおけるデータの多モード性とアーキテクチャの不均一性を克服するために、完全なアーキテクチャを探索する巨大なスーパーネット(すなわち検索スペース)を確立し、そのスーパーネットは多目的演算子の選択を取り入れ、柔軟性のために人間の優先順位を最小化する。 NASRecのスケールと異質性は、訓練の非効率性、演算子不均衡、劣化したランク相関などの探索において課題を課している。 我々は,シングルオペレータのany-connectionサンプリング,オペレータ-バランシングインタラクションモジュール,トレーニング後の微調整を提案することで,これらの課題に取り組む。 CTR(Click-Through Rates)の3つの予測ベンチマークの結果,NASRecは手動設計モデルと既存のNAS手法の両方より優れた性能を示し,最先端の性能を実現している。

The rise of deep neural networks provides an important driver in optimizing recommender systems. However, the success of recommender systems lies in delicate architecture fabrication, and thus calls for Neural Architecture Search (NAS) to further improve its modeling. We propose NASRec, a paradigm that trains a single supernet and efficiently produces abundant models/sub-architectures by weight sharing. To overcome the data multi-modality and architecture heterogeneity challenges in recommendation domain, NASRec establishes a large supernet (i.e., search space) to search the full architectures, with the supernet incorporating versatile operator choices and dense connectivity minimizing human prior for flexibility. The scale and heterogeneity in NASRec impose challenges in search, such as training inefficiency, operator-imbalance, and degraded rank correlation. We tackle these challenges by proposing single-operator any-connection sampling, operator-balancing interaction modules, and post-training fine-tuning. Our results on three Click-Through Rates (CTR) prediction benchmarks show that NASRec can outperform both manually designed models and existing NAS methods, achieving state-of-the-art performance.
翻訳日:2022-07-18 14:32:42 公開日:2022-07-14
# クラウドファンド設定における顧客選択モデルによるソート最適化

Assortment Optimization with Customer Choice Modeling in a Crowdfunding Setting ( http://arxiv.org/abs/2207.07222v1 )

ライセンス: Link先を確認
Fatemeh Nosrat(参考訳) クラウドファンディングは、多くの人々の寄付から資金を集める行為であり、経済理論における最も人気のある研究トピックの一つである。 クラウドファンディングプラットフォーム(CFP)が、いくつかの機能を提供することで資金調達プロセスを促進したという事実から、市場における彼らの存在と生存を考慮に入れるべきである。 本研究では,顧客行動選択モデルにおけるプラットフォーム機能の役割について検討した。 特に,クラウドファンディング環境において,顧客(支援者)の行動を記述するための多項ロジットモデルを提案した。 これらのプラットフォームにおける収益分配モデルについて議論する。 この目的のために、プラットフォーム収益を最大化するために、アソシエーション最適化の問題が重要であると結論付けている。 場合によっては、妥当な量のデータを導き出し、多変量回帰や分類問題などのよく知られた2つの機械学習手法を実装して、プラットフォームが到着した顧客に対して提供可能な最高の選択肢を予測することができました。 これら2つの方法の結果を比較し,すべてのケースでその性能について検討した。

Crowdfunding, which is the act of raising funds from a large number of people's contributions, is among the most popular research topics in economic theory. Due to the fact that crowdfunding platforms (CFPs) have facilitated the process of raising funds by offering several features, we should take their existence and survival in the marketplace into account. In this study, we investigated the significant role of platform features in a customer behavioral choice model. In particular, we proposed a multinomial logit model to describe the customers' (backers') behavior in a crowdfunding setting. We proceed by discussing the revenue-sharing model in these platforms. For this purpose, we conclude that an assortment optimization problem could be of major importance in order to maximize the platforms' revenue. We were able to derive a reasonable amount of data in some cases and implement two well-known machine learning methods such as multivariate regression and classification problems to predict the best assortments the platform could offer to every arriving customer. We compared the results of these two methods and investigated how well they perform in all cases.
翻訳日:2022-07-18 14:32:17 公開日:2022-07-14
# 基礎モデル群ロバスト性のためのコントラストアダプタ

Contrastive Adapters for Foundation Model Group Robustness ( http://arxiv.org/abs/2207.07180v1 )

ライセンス: Link先を確認
Michael Zhang and Christopher R\'e(参考訳) 大規模な事前訓練基礎モデル(FM)はデータセットレベルの分布シフトに対して顕著なゼロショット分類の堅牢性を示したが、サブポピュレーションやグループシフトに対する堅牢性は比較的過小評価されている。 この問題を研究し,クリップなどのfmsが様々なグループシフトに対して頑健でないことを見出した。 9つのロバスト性ベンチマークにおいて、埋め込みによるゼロショット分類は、平均と最悪のグループの精度の間に最大80.7パーセンテージポイント(pp)のギャップをもたらす。 残念なことに、ロバスト性を改善する既存の方法には再トレーニングが必要であり、大規模な基礎モデルでは極めて高価である。 また、モデル推論を改善する効率的な方法(例えば、アダプタ、FM埋め込みを入力とする軽量ネットワークなど)は、ゼロショットに比べて群堅牢性を損なう可能性がある(例えば、CelebAの精度ギャップを50.1pp増やす)。 そこで我々はFMグループロバスト性を効果的かつ効率的に向上するアダプタトレーニング戦略を開発した。 私たちのモチベーションは、同じクラスのグループが基盤モデル"embedding space"にずっと離れて埋め込まれているため、ロバスト性が低かったが、標準アダプタトレーニングがこれらのポイントを近づけることはない、ということです。 そこで本研究では, コントラスト学習を伴うアダプタを訓練し, 基底構造クラス埋め込みと他のサンプル埋め込みの両方に近接してサンプル埋め込みをもたらすコントラスト適応を提案する。 9つのベンチマークを通じて,グループロバスト性は一貫して向上し,ゼロショットで最大8.5~56.0ppの精度向上を実現している。 提案手法は,FM微細加工を一切行わず,固定されたFM埋め込みの組に留まらず,効率的である。 waterbirds や celeba のようなベンチマークでは、モデルパラメータの $\leq$1% をトレーニングしながら、モデル全体を再トレーニングする最先端のメソッドに匹敵する最悪のグループ精度をもたらす。

While large pretrained foundation models (FMs) have shown remarkable zero-shot classification robustness to dataset-level distribution shifts, their robustness to subpopulation or group shifts is relatively underexplored. We study this problem, and find that FMs such as CLIP may not be robust to various group shifts. Across 9 robustness benchmarks, zero-shot classification with their embeddings results in gaps of up to 80.7 percentage points (pp) between average and worst-group accuracy. Unfortunately, existing methods to improve robustness require retraining, which can be prohibitively expensive on large foundation models. We also find that efficient ways to improve model inference (e.g., via adapters, lightweight networks with FM embeddings as inputs) do not consistently improve and can sometimes hurt group robustness compared to zero-shot (e.g., increasing the accuracy gap by 50.1 pp on CelebA). We thus develop an adapter training strategy to effectively and efficiently improve FM group robustness. Our motivating observation is that while poor robustness results from groups in the same class being embedded far apart in the foundation model "embedding space," standard adapter training may not bring these points closer together. We thus propose contrastive adapting, which trains adapters with contrastive learning to bring sample embeddings close to both their ground-truth class embeddings and other sample embeddings in the same class. Across the 9 benchmarks, our approach consistently improves group robustness, raising worst-group accuracy by 8.5 to 56.0 pp over zero-shot. Our approach is also efficient, doing so without any FM finetuning and only a fixed set of frozen FM embeddings. On benchmarks such as Waterbirds and CelebA, this leads to worst-group accuracy comparable to state-of-the-art methods that retrain entire models, while only training $\leq$1% of the model parameters.
翻訳日:2022-07-18 14:11:42 公開日:2022-07-14
# Decoupled Adaptive Optimizationによるフェデレーション学習の高速化

Accelerated Federated Learning with Decoupled Adaptive Optimization ( http://arxiv.org/abs/2207.07223v1 )

ライセンス: Link先を確認
Jiayin Jin, Jiaxiang Ren, Yang Zhou, Lingjuan Lyu, Ji Liu, Dejing Dou(参考訳) federated learning(fl)フレームワークにより、エッジクライアントは、クライアント上のトレーニングデータのプライバシを維持しながら、共有推論モデルを共同学習することが可能になる。 近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法を,収束度と精度を向上させるためのフェデレーション設定に一般化するための多くのヒューリスティックな取り組みがなされている。 しかし, 適応最適化手法をフェデレーション環境で設計・活用する方法については, 理論的な原理が定式化されている。 本研究の目的は、常微分方程式(odes)のダイナミクスの観点から、flのための新しい適応最適化手法の開発である。 まず、フェデレーション最適化手法と、対応する集中最適化器のODEの分解との接続を構築するための分析フレームワークを構築した。 第2に, この解析フレームワークに基づき, 局所反復毎に大域的な運動量を完全に活用し, 学習収束を加速するために, 運動量分離適応最適化法fedaを開発した。 最後に、完全なバッチ勾配を利用して、トレーニングプロセスの終了時に集中的な最適化を模倣し、収束を確実にし、適応最適化手法によって起こりうる矛盾を克服する。

The federated learning (FL) framework enables edge clients to collaboratively learn a shared inference model while keeping privacy of training data on clients. Recently, many heuristics efforts have been made to generalize centralized adaptive optimization methods, such as SGDM, Adam, AdaGrad, etc., to federated settings for improving convergence and accuracy. However, there is still a paucity of theoretical principles on where to and how to design and utilize adaptive optimization methods in federated settings. This work aims to develop novel adaptive optimization methods for FL from the perspective of dynamics of ordinary differential equations (ODEs). First, an analytic framework is established to build a connection between federated optimization methods and decompositions of ODEs of corresponding centralized optimizers. Second, based on this analytic framework, a momentum decoupling adaptive optimization method, FedDA, is developed to fully utilize the global momentum on each local iteration and accelerate the training convergence. Last but not least, full batch gradients are utilized to mimic centralized optimization in the end of the training process to ensure the convergence and overcome the possible inconsistency caused by adaptive optimization methods.
翻訳日:2022-07-18 14:11:03 公開日:2022-07-14
# QSAN: 達成可能な量子自己アテンションネットワーク

QSAN: A Near-term Achievable Quantum Self-Attention Network ( http://arxiv.org/abs/2207.07563v1 )

ライセンス: Link先を確認
Ren-xin Zhao and Jinjing Shi and Shichao Zhang(参考訳) 機械学習の重要な構成要素である自己認識機構は、量子機械学習の分野で比較的研究されていない。 変分量子アルゴリズム(vqa)フレームワークと古典的自己アテンション機構に着想を得て、近距離量子コンピュータに実装可能な量子自己アテンションネットワーク(qsan)を提案する。 理論的には、量子自己認識機構(QSAM)が定義されており、線形化および論理化後の古典的自己認識機構の新たな解釈である。 量子論理的類似性(quantum Logical similarity, QLS)はQSAMのコアの1つであり、内部積の類似性操作を論理演算に置き換え、量子コンピュータ上でQSAMのより良い実行を可能にする。 Quantum Bit Self-Attention Score Matrix (QBSASM) は、出力分布を表すために使用されるQLSベースの密度行列である。 実際にQSANはQSAMフレームワークに基づいて実現され、回路設計を単純化するために量子座標の概念が導入された。 最後に、QSANは小さなサンプルデータを持つ量子コンピュータ上でテストされ、量子自然言語処理(QNLP)の基礎となる。

Self-attention mechanism, an important component of machine learning, has been relatively little investigated in the field of quantum machine learning. Inspired by the variational Quantum Algorithm (VQA) framework and classical selfattention mechanism, Quantum Self-Attention Network (QSAN) that can be implemented on a near-term quantum computer is proposed. Theoretically, Quantum Self-Attention Mechanism (QSAM) is defined, which is a new interpretation of the classical self-attention mechanism after linearization and logicalization. Quantum Logical Similarity (QLS) is one of the cores of QSAM, which replaces the similarity operation of inner product with logical operation, allowing a better execution of QSAM on quantum computers. Quantum Bit Self-Attention Score Matrix (QBSASM) is another centerpiece, which is a QLS-based density matrix used to represent the output distribution. In practice, QSAN is realized based on the QSAM framework, and the concept of quantum coordinates is introduced to simplify circuit design. Finally, QSAN is tested on a quantum computer with a small sample of data, laying the foundation for Quantum Natural Language Processing (QNLP).
翻訳日:2022-07-18 13:40:30 公開日:2022-07-14
# 時系列分類における注意機構の再考

Rethinking Attention Mechanism in Time Series Classification ( http://arxiv.org/abs/2207.07564v1 )

ライセンス: Link先を確認
Bowen Zhao, Huanlai Xing, Xinhan Wang, Fuhong Song, Zhiwen Xiao(参考訳) 注意に基づくモデルはコンピュータビジョンや自然言語処理など多くの分野で広く利用されている。 しかし、時系列分類(tsc)における関連する応用は、まだ深く研究されておらず、多くのtscアルゴリズムは、二次複雑性のような注意機構の一般的な問題に苦しんでいる。 本稿では,変形可能な畳み込みブロックとの階層的相互作用とオンライン知識蒸留による局所性意識を高めるための,フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより,アテンション機構の効率と性能を向上する。 さらに,各系列の位置を比例的にマスキングすることで,時系列におけるノイズの影響を低減し,提案するFMLAの冗長性を低減できる簡易かつ効果的なマスク機構を提案する。 この機構を安定化するために、サンプルはランダムマスク層を持つモデルを通して数回転送され、それらの出力を集約して、通常のマスク層で同じモデルを教える。 85のucr2018データセットを用いて11の既知のデータセットと比較実験を行い,本アルゴリズムがtop-1の精度で同等の性能を示すことを示した。 また,1秒あたりの浮動小数点演算とパラメータ数に関して3つのトランスフォーマティブモデルと比較し,アルゴリズムの効率と複雑性の低減を見出した。

Attention-based models have been widely used in many areas, such as computer vision and natural language processing. However, relevant applications in time series classification (TSC) have not been explored deeply yet, causing a significant number of TSC algorithms still suffer from general problems of attention mechanism, like quadratic complexity. In this paper, we promote the efficiency and performance of the attention mechanism by proposing our flexible multi-head linear attention (FMLA), which enhances locality awareness by layer-wise interactions with deformable convolutional blocks and online knowledge distillation. What's more, we propose a simple but effective mask mechanism that helps reduce the noise influence in time series and decrease the redundancy of the proposed FMLA by masking some positions of each given series proportionally. To stabilize this mechanism, samples are forwarded through the model with random mask layers several times and their outputs are aggregated to teach the same model with regular mask layers. We conduct extensive experiments on 85 UCR2018 datasets to compare our algorithm with 11 well-known ones and the results show that our algorithm has comparable performance in terms of top-1 accuracy. We also compare our model with three Transformer-based models with respect to the floating-point operations per second and number of parameters and find that our algorithm achieves significantly better efficiency with lower complexity.
翻訳日:2022-07-18 13:25:22 公開日:2022-07-14
# コントラスト表現学習による線形MDPの実現

Making Linear MDPs Practical via Contrastive Representation Learning ( http://arxiv.org/abs/2207.07150v1 )

ライセンス: Link先を確認
Tianjun Zhang, Tongzheng Ren, Mengjiao Yang, Joseph E. Gonzalez, Dale Schuurmans, Bo Dai(参考訳) マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。 これは最近の線形MDPの理論研究の多くを動機付けている。 しかし、ほとんどのアプローチでは、分解の正規化に関する非現実的な仮定の下で与えられた表現を必要とする。 代わりに,正規化を自動で保証し,コントラスト推定による効率的な表現学習を可能にする線形mdpの代替定義を考える。 このフレームワークは信頼調整インデックスアルゴリズムも認めており、不確実性に直面して楽観主義や悲観主義を取り入れるための効率的で原則的なアプローチを可能にしている。 我々の知る限り、この手法は線形MDPに対して、強力な理論的保証と経験的性能の両方を達成するための最初の実用的な表現学習法を提供する。 理論的には,提案アルゴリズムがオンラインとオフラインの両方で効率的にサンプル化できることを実証する。 複数のベンチマークにおいて,既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。

It is common to address the curse of dimensionality in Markov decision processes (MDPs) by exploiting low-rank representations. This motivates much of the recent theoretical study on linear MDPs. However, most approaches require a given representation under unrealistic assumptions about the normalization of the decomposition or introduce unresolved computational challenges in practice. Instead, we consider an alternative definition of linear MDPs that automatically ensures normalization while allowing efficient representation learning via contrastive estimation. The framework also admits confidence-adjusted index algorithms, enabling an efficient and principled approach to incorporating optimism or pessimism in the face of uncertainty. To the best of our knowledge, this provides the first practical representation learning method for linear MDPs that achieves both strong theoretical guarantees and empirical performance. Theoretically, we prove that the proposed algorithm is sample efficient in both the online and offline settings. Empirically, we demonstrate superior performance over existing state-of-the-art model-based and model-free algorithms on several benchmarks.
翻訳日:2022-07-18 13:24:57 公開日:2022-07-14
# 生成モデルに基づく因果グラフ:限定データによる学習への道

Causal Graphs Underlying Generative Models: Path to Learning with Limited Data ( http://arxiv.org/abs/2207.07174v1 )

ライセンス: Link先を確認
Samuel C. Hoffman, Kahini Wadhawan, Payel Das, Prasanna Sattigeri, Karthikeyan Shanmugam(参考訳) データの豊富なセマンティクスをキャプチャし、そのようなモデルによって符号化された潜在表現を解釈する生成モデルのトレーニングは、教師なし学習において非常に重要な問題である。 本研究では,事前学習された自動エンコーダの潜在符号に対する摂動実験に基づき,生成モデルに含意される因果グラフを明らかにする単純なアルゴリズムを提案する。 事前学習した属性分類器を利用して摂動実験を行い、与えられた潜在変数が属性のサブセットに与える影響をチェックする。 このことから,外因性変数として取られる潜在コードと観測変数として取られる属性との間の構造方程式モデルをモデル化する効果的な因果グラフに適合することを示す。 興味深い側面の1つは、単一の潜在変数が属性の複数の重複部分集合を制御することである。 ペプチド配列のデータセットに基づいて訓練されたRNNベースの生成オートエンコーダを用いて, アルゴリズムから学習した様々な属性と潜伏符号間の因果グラフを用いて, 未知の配列の特定の特性を予測できることを実証した。 すべての利用可能な属性またはマルコフブランケットでトレーニングされた予測モデルを比較し、通常、マルコフブランケット属性に依存する予測器を使用して、教師なしおよび教師なしのレジームの両方において、分散シーケンスにおいてより良く一般化することを実証的に示す。

Training generative models that capture rich semantics of the data and interpreting the latent representations encoded by such models are very important problems in unsupervised learning. In this work, we provide a simple algorithm that relies on perturbation experiments on latent codes of a pre-trained generative autoencoder to uncover a causal graph that is implied by the generative model. We leverage pre-trained attribute classifiers and perform perturbation experiments to check for influence of a given latent variable on a subset of attributes. Given this, we show that one can fit an effective causal graph that models a structural equation model between latent codes taken as exogenous variables and attributes taken as observed variables. One interesting aspect is that a single latent variable controls multiple overlapping subsets of attributes unlike conventional approach that tries to impose full independence. Using a pre-trained RNN-based generative autoencoder trained on a dataset of peptide sequences, we demonstrate that the learnt causal graph from our algorithm between various attributes and latent codes can be used to predict a specific property for sequences which are unseen. We compare prediction models trained on either all available attributes or only the ones in the Markov blanket and empirically show that in both the unsupervised and supervised regimes, typically, using the predictor that relies on Markov blanket attributes generalizes better for out-of-distribution sequences.
翻訳日:2022-07-18 13:24:44 公開日:2022-07-14
# 確率的ソフト論理を用いた会話における感情認識

Emotion Recognition in Conversation using Probabilistic Soft Logic ( http://arxiv.org/abs/2207.07238v1 )

ライセンス: Link先を確認
Eriq Augustine, Pegah Jandaghi, Alon Albalak, Connor Pryor, Charles Dickens, William Wang, Lise Getoor(参考訳) 会話に適切に反応し、複雑な人間の言語傾向や社会的手がかりを理解するエージェントを作成することは、NLPコミュニティにおいて長年の課題であった。 最近の研究の柱は、会話における感情認識(ERC)、すなわち2つ以上の発話を含む会話や対話に焦点を当てた感情認識のサブフィールドである。 本研究では,対話における複雑な構造とともに,神経組込みを利用するercへのアプローチを検討する。 確率的ソフト論理(PSL, Probabilistic Soft Logic)と呼ばれる,論理規則のような一階述語を用いた宣言的テンプレート言語で,データと組み合わせることで,特定のグラフィカルモデルのクラスを定義する。 さらに、pslは、神経モデルからpslモデルに結果を組み込むための機能を提供する。 これにより,文の埋め込みや対話構造に対する論理的推論といった,高度なニューラルネットワーク手法を活用できる。 本手法を最先端の純粋ニューラルネットワークercシステムと比較し,20%近く改善した。 これらの結果から,DailyDialog会話データセットの質的,定量的な分析を行う。

Creating agents that can both appropriately respond to conversations and understand complex human linguistic tendencies and social cues has been a long standing challenge in the NLP community. A recent pillar of research revolves around emotion recognition in conversation (ERC); a sub-field of emotion recognition that focuses on conversations or dialogues that contain two or more utterances. In this work, we explore an approach to ERC that exploits the use of neural embeddings along with complex structures in dialogues. We implement our approach in a framework called Probabilistic Soft Logic (PSL), a declarative templating language that uses first-order like logical rules, that when combined with data, define a particular class of graphical model. Additionally, PSL provides functionality for the incorporation of results from neural models into PSL models. This allows our model to take advantage of advanced neural methods, such as sentence embeddings, and logical reasoning over the structure of a dialogue. We compare our method with state-of-the-art purely neural ERC systems, and see almost a 20% improvement. With these results, we provide an extensive qualitative and quantitative analysis over the DailyDialog conversation dataset.
翻訳日:2022-07-18 13:18:15 公開日:2022-07-14
# 高次グラフ推論ネットワークによる説明可能なスパース知識グラフ補完

Explainable Sparse Knowledge Graph Completion via High-order Graph Reasoning Network ( http://arxiv.org/abs/2207.07503v1 )

ライセンス: Link先を確認
Weijian Chen, Yixin Cao, Fuli Feng, Xiangnan He, Yongdong Zhang(参考訳) 知識グラフ(KG)は多くのアプリケーションにおいて不完全性の問題に悩まされているが、ますます重要なインフラになりつつある。 KG完了タスク(KGC)は、不完全なKGに基づいて、行方不明の事実を自動的に予測する。 しかし、既存の手法は現実のシナリオでは不満足に機能する。 一方、彼らの性能は、kgのスパース性の増加とともに劇的に低下する。 一方、予測のための推論手順は信頼できないブラックボックスである。 本稿では,グラフ畳み込みネットワーク,すなわちHoGRNに高次推論を合成する,スパースKGCの新しい説明可能なモデルを提案する。 情報不足の問題を緩和する一般化能力を向上させるだけでなく、モデルの有効性と効率を維持しながら解釈性を提供する。 共同最適化のためにシームレスに統合された2つの主要コンポーネントがある。 まず、高次推論成分は、関係間の内在的相関を捉えて高品質な関係表現を学習する。 これは論理的な規則を反映して、欠落した事実をより広く正当化することができる。 第二に、エンティティ更新コンポーネントは、重量のないグラフ畳み込みネットワーク(GCN)を利用して、解釈可能なKG構造を効率的にモデル化する。 従来の手法とは違って,余分なパラメータを伴わない関係空間において,エンティティアグリゲーションと構成に基づく設計を行う。 軽量なデザインにより、HoGRNはスパース設定に適している。 評価のために, 疎KGに対するHoGRNの結果から, 顕著な改善(平均で9%のMRRゲイン)が得られた。 さらにアブレーションやケーススタディが主成分の有効性を示している。 私たちのコードは受け入れ次第解放されます。

Knowledge Graphs (KGs) are becoming increasingly essential infrastructures in many applications while suffering from incompleteness issues. The KG completion task (KGC) automatically predicts missing facts based on an incomplete KG. However, existing methods perform unsatisfactorily in real-world scenarios. On the one hand, their performance will dramatically degrade along with the increasing sparsity of KGs. On the other hand, the inference procedure for prediction is an untrustworthy black box. This paper proposes a novel explainable model for sparse KGC, compositing high-order reasoning into a graph convolutional network, namely HoGRN. It can not only improve the generalization ability to mitigate the information insufficiency issue but also provide interpretability while maintaining the model's effectiveness and efficiency. There are two main components that are seamlessly integrated for joint optimization. First, the high-order reasoning component learns high-quality relation representations by capturing endogenous correlation among relations. This can reflect logical rules to justify a broader of missing facts. Second, the entity updating component leverages a weight-free Graph Convolutional Network (GCN) to efficiently model KG structures with interpretability. Unlike conventional methods, we conduct entity aggregation and design composition-based attention in the relational space without additional parameters. The lightweight design makes HoGRN better suitable for sparse settings. For evaluation, we have conducted extensive experiments-the results of HoGRN on several sparse KGs present impressive improvements (9% MRR gain on average). Further ablation and case studies demonstrate the effectiveness of the main components. Our codes will be released upon acceptance.
翻訳日:2022-07-18 13:17:10 公開日:2022-07-14
# ニューラルネットワークのリプシッツ境界解析

Lipschitz Bound Analysis of Neural Networks ( http://arxiv.org/abs/2207.07232v1 )

ライセンス: Link先を確認
Sarosij Bose(参考訳) リプシッツ境界推定は、ディープニューラルネットワークを正則化し、敵の攻撃に対して堅牢にする方法である。 これは強化学習から自律システムまで、さまざまなアプリケーションで有用である。 本稿では、畳み込みニューラルネットワーク(CNN)の非自明なリプシッツ境界証明書を得る際の大きなギャップを強調し、それを広範なグラフィカル解析で実証的に支援する。 また,畳み込みニューラルネットワーク(CNN)を完全連結ネットワークに変換するために,畳み込み層やToeplitz行列の展開も可能であることを示す。 さらに,実リプシッツ定数と得られたタイトバウンドとの間の特定のデータ分布における既存の20x-50xギャップを示す簡単なアルゴリズムを提案する。 また、様々なネットワークアーキテクチャに関する徹底した実験を行い、mnistやcifar-10といったデータセットでそれらをベンチマークしました。 これらの提案はすべて、広範なテスト、グラフ、ヒストグラム、比較分析によって支持されている。

Lipschitz Bound Estimation is an effective method of regularizing deep neural networks to make them robust against adversarial attacks. This is useful in a variety of applications ranging from reinforcement learning to autonomous systems. In this paper, we highlight the significant gap in obtaining a non-trivial Lipschitz bound certificate for Convolutional Neural Networks (CNNs) and empirically support it with extensive graphical analysis. We also show that unrolling Convolutional layers or Toeplitz matrices can be employed to convert Convolutional Neural Networks (CNNs) to a Fully Connected Network. Further, we propose a simple algorithm to show the existing 20x-50x gap in a particular data distribution between the actual lipschitz constant and the obtained tight bound. We also ran sets of thorough experiments on various network architectures and benchmark them on datasets like MNIST and CIFAR-10. All these proposals are supported by extensive testing, graphs, histograms and comparative analysis.
翻訳日:2022-07-18 13:00:40 公開日:2022-07-14
# (参考訳) 視覚属性予測器の公平性向上

Enhancing Fairness of Visual Attribute Predictors ( http://arxiv.org/abs/2207.05727v2 )

ライセンス: CC BY 4.0
Tobias H\"anel, Nishant Kumar, Dmitrij Schlesinger, Mengze Li, Erdem \"Unal, Abouzar Eslami, Stefan Gumhold(参考訳) 笑顔の予測などの画像認識タスクにおけるディープニューラルネットワークの性能は、過小評価された機密属性のクラスで劣化することが知られている。 本稿では, 人口格差, 等化オッズ, および新しい交点オーバー結合尺度のバッチ推定に基づいて, 公平性を考慮した正規化損失を導入することで, この問題に対処した。 celeba, utkface, siim-isic melanoma classification challengeの顔面画像および医用画像を用いた実験では, 高い分類性能を維持しつつ, モデルフェア性を向上させるバイアス軽減効果が示唆された。 我々の知る限りでは、視覚特性予測器のバイアスを軽減するためのエンドツーエンドのトレーニングスキームにこの種の損失を取り入れる最初の試みである。 私たちのコードはhttps://github.com/nish03/fvapで利用可能です。

The performance of deep neural networks for image recognition tasks such as predicting a smiling face is known to degrade with under-represented classes of sensitive attributes. We address this problem by introducing fairness-aware regularization losses based on batch estimates of Demographic Parity, Equalized Odds, and a novel Intersection-over-Union measure. The experiments performed on facial and medical images from CelebA, UTKFace, and the SIIM-ISIC melanoma classification challenge show the effectiveness of our proposed fairness losses for bias mitigation as they improve model fairness while maintaining high classification performance. To the best of our knowledge, our work is the first attempt to incorporate these types of losses in an end-to-end training scheme for mitigating biases of visual attribute predictors. Our code is available at https://github.com/nish03/FVAP.
翻訳日:2022-07-17 17:52:44 公開日:2022-07-14
# (参考訳) 敵対的攻撃に対する連続学習の感受性

Susceptibility of Continual Learning Against Adversarial Attacks ( http://arxiv.org/abs/2207.05225v3 )

ライセンス: CC BY 4.0
Hikmat Khan, Pir Masoom Shah, Syed Farhan Alam Zaidi, Saif ul Islam(参考訳) 近年の連続的(増分的または生涯的)学習の進歩は、破滅的な結果につながる忘れの予防に集中しているが、対処すべき課題は2つある。 1つ目は,提案手法の堅牢性の評価である。 2つめは、学習したタスクのセキュリティを確保することです。 本稿では,忘れやすい連続学習タスク(現在のタスクと以前に学習されたタスクの両方を含む)の感受性に関する包括的研究を行う。 このような敵攻撃に対するタスクの脆弱性は、データの完全性とプライバシーに大きな問題を引き起こす。 本稿では,連続学習における3つのシナリオ(タスク・インクリメンタル・リーン,ドメイン・インクリメンタル・ラーニング,クラス・インクリメンタル・ラーニング)について考察し,正規化に基づく3つの実験,リプレイに基づく3つの実験,応答と模範的アプローチに基づく1つのハイブリッド技術について考察する。 これらの手法の堅牢性について検討する。 特に、現在または以前に学習されたタスクに属するクラスが誤分類されやすいことを実証するケースについて考察する。 私たちの観察では、敵対的攻撃に対する継続的な学習アプローチにおける潜在的な限界を特定する。 本研究は,提案する継続学習アプローチの頑健性を検討し,破滅的な学習の軽減に多大な努力を注ぐことを推奨する。

The recent advances in continual (incremental or lifelong) learning have concentrated on the prevention of forgetting that can lead to catastrophic consequences, but there are two outstanding challenges that must be addressed. The first is the evaluation of the robustness of the proposed methods. The second is ensuring the security of learned tasks remains largely unexplored. This paper presents a comprehensive study of the susceptibility of the continually learned tasks (including both current and previously learned tasks) that are vulnerable to forgetting. Such vulnerability of tasks against adversarial attacks raises profound issues in data integrity and privacy. We consider all three scenarios (i.e, task-incremental leaning, domain-incremental learning and class-incremental learning) of continual learning and explore three regularization-based experiments, three replay-based experiments, and one hybrid technique based on the reply and exemplar approach. We examine the robustness of these methods. In particular, we consider cases where we demonstrate that any class belonging to the current or previously learned tasks is prone to misclassification. Our observations, we identify potential limitations in continual learning approaches against adversarial attacks. Our empirical study recommends that the research community consider the robustness of the proposed continual learning approaches and invest extensive efforts in mitigating catastrophic forgetting.
翻訳日:2022-07-16 10:17:12 公開日:2022-07-14
# (参考訳) アメリカ合衆国における土壌侵食。 未来(2020年-2050年)

Soil Erosion in the United States. Present and Future (2020-2050) ( http://arxiv.org/abs/2207.06579v1 )

ライセンス: CC BY 4.0
Shahab Aldin Shojaeezadeh, Malik Al-Wardy, Mohammad Reza Nikoo, Mehrdad Ghorbani Mooselu, Mohammad Reza Alizadeh, Jan Franklin Adamowski, Hamid Moradkhani, Nasrin Alamdari, Amir H. Gandomi(参考訳) 土壌浸食は世界中の環境と長期的な土地管理にとって重大な脅威である。 人的活動による土壌侵食の促進は、フィールドスケール(30-m)において、現在かつ可能性の高い未来に向けて完全に調査・予測されていない陸生生態系や水生生態系の極端な変化をもたらす。 本研究では,アメリカ合衆国における社会経済的経路および代表集中経路(ssp-rcp)の3つのシナリオ(2.6,4.5,8.5)を用いて,水浸食による土壌侵食率(シートおよびリル侵食)を推定・予測した。 フィールドスケール土壌侵食モデル(fsslm)の推定は、衛星および画像に基づく土地利用・土地被覆(lulc)の推定、長期降水量のゲージ観測、結合モデル間比較計画フェーズ6(cmip6)のシナリオに基づく高分解能(30-m)g2侵食モデルに依存する。 ベースラインモデル(2020年)は、現在の農業保全慣行(cps)による2.32 mg ha 1 yr 1の土壌侵食率を推定している。 現在のCPによる将来のシナリオは、気候とLULCの変化のSSP-RCPシナリオの異なる組み合わせで8%から21%の増加を示す。 2050年の土壌浸食予測は、気候とLULCシナリオの全てが、極端な出来事の増加または、主に南から東、北東にかけての極端の空間的位置の変化を示していることを示唆している。

Soil erosion is a significant threat to the environment and long-term land management around the world. Accelerated soil erosion by human activities inflicts extreme changes in terrestrial and aquatic ecosystems, which is not fully surveyed/predicted for the present and probable future at field-scales (30-m). Here, we estimate/predict soil erosion rates by water erosion, (sheet and rill erosion), using three alternative (2.6, 4.5, and 8.5) Shared Socioeconomic Pathway and Representative Concentration Pathway (SSP-RCP) scenarios across the contiguous United States. Field Scale Soil Erosion Model (FSSLM) estimations rely on a high resolution (30-m) G2 erosion model integrated by satellite- and imagery-based estimations of land use and land cover (LULC), gauge observations of long-term precipitation, and scenarios of the Coupled Model Intercomparison Project Phase 6 (CMIP6). The baseline model (2020) estimates soil erosion rates of 2.32 Mg ha 1 yr 1 with current agricultural conservation practices (CPs). Future scenarios with current CPs indicate an increase between 8% to 21% under different combinations of SSP-RCP scenarios of climate and LULC changes. The soil erosion forecast for 2050 suggests that all the climate and LULC scenarios indicate either an increase in extreme events or a change in the spatial location of extremes largely from the southern to the eastern and northeastern regions of the United States.
翻訳日:2022-07-16 05:45:12 公開日:2022-07-14
# (参考訳) 超解像をテキストガイドディテール生成として再考する

Rethinking Super-Resolution as Text-Guided Details Generation ( http://arxiv.org/abs/2207.06604v1 )

ライセンス: CC BY 4.0
Chenxi Ma, Bo Yan, Qing Lin, Weimin Tan, Siming Chen(参考訳) ディープニューラルネットワークはシングルイメージスーパーレゾリューション(sisr)の性能を大きく向上させた。 従来の手法では、画像モダリティの入力のみに基づいて単一の高分解能(hr)ソリューションを復元する。 しかし、画像レベルの情報は、大きなアップスケーリング要因(x8,x16)に直面した適切な詳細と写実的な視覚的品質を予測するには不十分である。 本稿では,SISRを意味的画像詳細強調問題とみなして,真理に忠実な意味論的に合理的なHR画像を生成する新しい視点を提案する。 再構成画像の意味的精度と視覚的品質を向上させるため,テキストガイド型超解法(TGSR)フレームワークを提案し,テキストと画像のモダリティからの情報を有効に活用することで,SISRにおけるマルチモーダル融合学習を探索する。 既存の方法とは異なり、提案したTGSRは粗いプロセスを通じてテキスト記述と一致するHR画像の詳細を生成することができる。 大規模な実験とアブレーション研究は、テキスト参照を利用して現実的なイメージを復元するTGSRの効果を示す。

Deep neural networks have greatly promoted the performance of single image super-resolution (SISR). Conventional methods still resort to restoring the single high-resolution (HR) solution only based on the input of image modality. However, the image-level information is insufficient to predict adequate details and photo-realistic visual quality facing large upscaling factors (x8, x16). In this paper, we propose a new perspective that regards the SISR as a semantic image detail enhancement problem to generate semantically reasonable HR image that are faithful to the ground truth. To enhance the semantic accuracy and the visual quality of the reconstructed image, we explore the multi-modal fusion learning in SISR by proposing a Text-Guided Super-Resolution (TGSR) framework, which can effectively utilize the information from the text and image modalities. Different from existing methods, the proposed TGSR could generate HR image details that match the text descriptions through a coarse-to-fine process. Extensive experiments and ablation studies demonstrate the effect of the TGSR, which exploits the text reference to recover realistic images.
翻訳日:2022-07-16 05:43:53 公開日:2022-07-14
# (参考訳) 知覚指向ステレオ画像の超解像

Perception-Oriented Stereo Image Super-Resolution ( http://arxiv.org/abs/2207.06617v1 )

ライセンス: CC BY 4.0
Chenxi Ma, Bo Yan, Weimin Tan, Xuhao Jiang(参考訳) 深層学習に基づくステレオ画像超解像(StereoSR)の最近の研究は、StereoSRの開発を促進している。 しかし、既存のStereoSRモデルは、主に定量的評価基準の改善と超解像ステレオ画像の視覚的品質の無視に焦点を当てている。 そこで本論文では,ステレオsr結果の知覚品質の評価から得られたフィードバックを活用し,知覚指向ステレオ画像の超解像手法を提案する。 ステレオSRモデルに対して正確なガイダンスを提供するため,ステレオ画像の超解像品質評価(StereoSRQA)モデルを開発し,さらにステレオSRQAデータベースを構築した。 大規模な実験により,我々のステレオSRアプローチは知覚的品質を著しく向上し,ステレオ画像の信頼性を高めることが示されている。

Recent studies of deep learning based stereo image super-resolution (StereoSR) have promoted the development of StereoSR. However, existing StereoSR models mainly concentrate on improving quantitative evaluation metrics and neglect the visual quality of super-resolved stereo images. To improve the perceptual performance, this paper proposes the first perception-oriented stereo image super-resolution approach by exploiting the feedback, provided by the evaluation on the perceptual quality of StereoSR results. To provide accurate guidance for the StereoSR model, we develop the first special stereo image super-resolution quality assessment (StereoSRQA) model, and further construct a StereoSRQA database. Extensive experiments demonstrate that our StereoSR approach significantly improves the perceptual quality and enhances the reliability of stereo images for disparity estimation.
翻訳日:2022-07-16 05:29:10 公開日:2022-07-14
# (参考訳) 実世界画像デハジングのためのソースフリー領域適応

Source-Free Domain Adaptation for Real-world Image Dehazing ( http://arxiv.org/abs/2207.06644v1 )

ライセンス: CC BY 4.0
Hu Yu, Jie Huang, Yajing Liu, Qi Zhu, Man Zhou, Feng Zhao(参考訳) 合成データセットに基づいてトレーニングされたディープラーニングベースのソースデハージング手法は、優れたパフォーマンスを達成しているが、ドメインシフトによる実際のヘイズ画像の劇的なパフォーマンス劣化に悩まされている。 特定のドメイン適応(da)デハジング法が提示されているが、必然的にソースデータセットへのアクセスが必要となり、ソース合成とターゲットリアルドメインの間のギャップが減少する。 これらの問題に対処するために、訓練済みのソースモデルとラベルなしのターゲットリアルヘイズデータセットのみを利用できる、新しい Source-Free Unsupervised Domain Adaptation (SFUDA) 画像デハージングパラダイムを提案する。 具体的には、ドメイン表現正規化(DRN)モジュールを考案し、実際のハジードメイン特徴の表現を合成ドメインのそれと一致させてギャップを埋める。 プラグアンドプレイのDRNモジュールを使えば、ラベルのない実画像が既存のよく訓練されたソースネットワークに適応できる。 さらに、教師なしの損失は、周波数損失と物理的事前損失からなるDRNモジュールの学習を導くために適用される。 周波数損失は構造とスタイルに制約を与え、先行損失はhazeフリーイメージの固有の統計特性を探索する。 DRNモジュールと教師なしの損失を伴って、既存のソースデハージングモデルは、ラベルなしのリアルな乱雑なイメージをデハズすることができる。 複数のベースラインに対する広範囲な実験により,本手法の有効性と優位性を視覚的,定量的に実証した。

Deep learning-based source dehazing methods trained on synthetic datasets have achieved remarkable performance but suffer from dramatic performance degradation on real hazy images due to domain shift. Although certain Domain Adaptation (DA) dehazing methods have been presented, they inevitably require access to the source dataset to reduce the gap between the source synthetic and target real domains. To address these issues, we present a novel Source-Free Unsupervised Domain Adaptation (SFUDA) image dehazing paradigm, in which only a well-trained source model and an unlabeled target real hazy dataset are available. Specifically, we devise the Domain Representation Normalization (DRN) module to make the representation of real hazy domain features match that of the synthetic domain to bridge the gaps. With our plug-and-play DRN module, unlabeled real hazy images can adapt existing well-trained source networks. Besides, the unsupervised losses are applied to guide the learning of the DRN module, which consists of frequency losses and physical prior losses. Frequency losses provide structure and style constraints, while the prior loss explores the inherent statistic property of haze-free images. Equipped with our DRN module and unsupervised loss, existing source dehazing models are able to dehaze unlabeled real hazy images. Extensive experiments on multiple baselines demonstrate the validity and superiority of our method visually and quantitatively.
翻訳日:2022-07-16 05:11:52 公開日:2022-07-14
# (参考訳) DropNet:イテレーティブ・プルーニングによるニューラルネットワークの複雑さ低減

DropNet: Reducing Neural Network Complexity via Iterative Pruning ( http://arxiv.org/abs/2207.06646v1 )

ライセンス: CC BY 4.0
John Tan Chong Min, Mehul Motani(参考訳) 現代のディープニューラルネットワークは、トレーニングとデプロイにかなりの計算時間とパワーを必要とし、エッジデバイスの使用を制限している。 Lottery Ticket仮説の反復的な重み付けにインスパイアされたDropNetは、ネットワークの複雑さを軽減するためにノード/フィルタをプーンする反復的プルーニング手法である。 DropNetは、すべてのトレーニングサンプルで最低平均のポストアクティベーション値のノード/フィルタを反復的に削除する。 実証的に、DropNetは、MNIST、CIFAR-10、Tiny ImageNetデータセットを使用したMLPやCNNなど、さまざまなシナリオで堅牢であることを示す。 最大90%のノード/フィルタを、精度を著しく損なうことなく取り除くことができることを示す。 最後の刈り取り網は、重みとバイアスを再初期化してもうまく機能する。 dropnetは、トレーニング損失を最小限にするため、ノード/フィルタを一度に削除し、その効果を強調する、oracleと同じような精度を持つ。

Modern deep neural networks require a significant amount of computing time and power to train and deploy, which limits their usage on edge devices. Inspired by the iterative weight pruning in the Lottery Ticket Hypothesis, we propose DropNet, an iterative pruning method which prunes nodes/filters to reduce network complexity. DropNet iteratively removes nodes/filters with the lowest average post-activation value across all training samples. Empirically, we show that DropNet is robust across diverse scenarios, including MLPs and CNNs using the MNIST, CIFAR-10 and Tiny ImageNet datasets. We show that up to 90% of the nodes/filters can be removed without any significant loss of accuracy. The final pruned network performs well even with reinitialization of the weights and biases. DropNet also has similar accuracy to an oracle which greedily removes nodes/filters one at a time to minimise training loss, highlighting its effectiveness.
翻訳日:2022-07-16 04:57:41 公開日:2022-07-14
# (参考訳) PIAT:偏微分方程式を解くための物理インフォームド・アドバイサルトレーニング

PIAT: Physics Informed Adversarial Training for Solving Partial Differential Equations ( http://arxiv.org/abs/2207.06647v1 )

ライセンス: CC BY 4.0
Simin Shekarpaz, Mohammad Azizmalayeri, Mohammad Hossein Rohban(参考訳) 本稿では,非線形微分方程式(nde)の解法として,ニューラルネットワークの物理情報学習(piat)を提案する。 ニューラルネットワークの標準的なトレーニングが非スムース機能をもたらすことはよく知られている。 対戦訓練 (AT) は、敵の攻撃に対して確立された防御機構であり、その解決を円滑にするのに役立つ。 ATはトレーニング用ミニバッチを摂動で強化し、ネットワーク出力のミスマッチを好ましくない出力にする。 トレーニングデータのみに依存する形式的atとは異なり、ここでは敵対的ネットワークアーキテクチャにおける自動微分を用いた非線形微分方程式の形で物理法則を符号化する。 PIATとPINNを比較し,最大10次元のNDEの解法の有効性を示す。 さらに, PIATの利点を示すために, 重量減衰とガウス平滑化を提案する。 コードリポジトリはhttps://github.com/rohban-lab/piatで入手できる。

In this paper, we propose the physics informed adversarial training (PIAT) of neural networks for solving nonlinear differential equations (NDE). It is well-known that the standard training of neural networks results in non-smooth functions. Adversarial training (AT) is an established defense mechanism against adversarial attacks, which could also help in making the solution smooth. AT include augmenting the training mini-batch with a perturbation that makes the network output mismatch the desired output adversarially. Unlike formal AT, which relies only on the training data, here we encode the governing physical laws in the form of nonlinear differential equations using automatic differentiation in the adversarial network architecture. We compare PIAT with PINN to indicate the effectiveness of our method in solving NDEs for up to 10 dimensions. Moreover, we propose weight decay and Gaussian smoothing to demonstrate the PIAT advantages. The code repository is available at https://github.com/rohban-lab/PIAT.
翻訳日:2022-07-16 04:37:53 公開日:2022-07-14
# (参考訳) マシンラーニングモデルの選択はナイーブでしたか? うるさいデータがここにあります!

Have we been Naive to Select Machine Learning Models? Noisy Data are here to Stay! ( http://arxiv.org/abs/2207.06651v1 )

ライセンス: CC BY 4.0
Felipe Costa Farias, Teresa Bernarda Ludermir and Carmelo Jos\'e Albanez Bastos-Filho(参考訳) モデル選択手順は、通常、検証セットのパフォーマンスのような特定のセットにおける特定のメトリックを最大化するモデルを選択する、単一基準決定である。 これは非常にナイーブで、特定のセットのパフォーマンスを過大評価する過剰な検索現象のために、不適切なモデルの選択を行えません。 さらに、実世界のデータは、モデル選択手順で無視すべきではなく、モデル選択を行う際に考慮しなければならないノイズを含んでいる。 また,適切なモデルを選択するために,最適条件に対するプロキシを考慮に入れたマルチクレータ決定アルゴリズム(TOPSIS)を用いて,モデルの選択と解析を行う4つの理論的最適条件を定義した。

The model selection procedure is usually a single-criterion decision making in which we select the model that maximizes a specific metric in a specific set, such as the Validation set performance. We claim this is very naive and can perform poor selections of over-fitted models due to the over-searching phenomenon, which over-estimates the performance on that specific set. Futhermore, real world data contains noise that should not be ignored by the model selection procedure and must be taken into account when performing model selection. Also, we have defined four theoretical optimality conditions that we can pursue to better select the models and analyze them by using a multi-criteria decision-making algorithm (TOPSIS) that considers proxies to the optimality conditions to select reasonable models.
翻訳日:2022-07-16 04:22:23 公開日:2022-07-14
# (参考訳) インドデータセットのためのエンドツーエンド自動ナンバープレート認識ニューラルネットワークの探索

Exploration of an End-to-End Automatic Number-plate Recognition neural network for Indian datasets ( http://arxiv.org/abs/2207.06657v1 )

ライセンス: CC BY 4.0
Sai Sirisha Nadiminti, Pranav Kant Gaur, Abhilash Bhardwaj(参考訳) インドの車両番号プレートはサイズ、フォント、文字、形状の点で多種多様である。 したがって、ANPR(Automatic Number Plate Recognition)ソリューションの開発は困難であり、多様なデータセットがサンプルのコレクションとして必要とされる。 しかし、インドのシナリオの包括的なデータセットが欠落しており、公開され再現可能なANPRソリューションへの進捗を妨げている。 多くの国は、中国向けの中国シティパーキングデータセット(CCPD)や米国向けのアプリケーション指向ライセンスプレート(AOLP)データセットといった、包括的なANPRデータセットの開発に投資している。 本研究では,現在1.5k画像からなる拡張データセットと,インド条件のための anpr ソリューションの開発に向けて,このデータセットを拡張するスケーラブルで再現可能な手順をリリースする。 我々は、このデータセットを活用して、CCPDデータセットに基づいた中国車両ナンバープレート認識のために提案されたインドのシナリオのためのEnd-to-End(E2E)ANPRアーキテクチャを探索した。 データセットのアーキテクチャをカスタマイズしたので、この論文で論じてきた洞察に遭遇しました。 本研究は,インド数プレートの極端な多様性と,CCPDデータセットに対する分布の差異から,CCPD作成者が提供するモデルの直接再利用可能性の障害について報告する。 lp検出では、インドデータセットの特徴と中国データセットを一致させた後、42.86%の改善が見られた。 本研究では,E2Eナンバープレート検出モデルとYOLOv5モデルを比較し,COCOデータセットで事前学習し,インドの車両画像で微調整した。 検出モジュールとyolov5の微調整に使用されるインドの車両画像の数を考慮すれば,ccpdデータセットではなく,cocoデータセットに基づくインド条件のanprソリューションを開発する方が,より効率的なサンプルであることがわかった。

Indian vehicle number plates have wide variety in terms of size, font, script and shape. Development of Automatic Number Plate Recognition (ANPR) solutions is therefore challenging, necessitating a diverse dataset to serve as a collection of examples. However, a comprehensive dataset of Indian scenario is missing, thereby, hampering the progress towards publicly available and reproducible ANPR solutions. Many countries have invested efforts to develop comprehensive ANPR datasets like Chinese City Parking Dataset (CCPD) for China and Application-oriented License Plate (AOLP) dataset for US. In this work, we release an expanding dataset presently consisting of 1.5k images and a scalable and reproducible procedure of enhancing this dataset towards development of ANPR solution for Indian conditions. We have leveraged this dataset to explore an End-to-End (E2E) ANPR architecture for Indian scenario which was originally proposed for Chinese Vehicle number-plate recognition based on the CCPD dataset. As we customized the architecture for our dataset, we came across insights, which we have discussed in this paper. We report the hindrances in direct reusability of the model provided by the authors of CCPD because of the extreme diversity in Indian number plates and differences in distribution with respect to the CCPD dataset. An improvement of 42.86% was observed in LP detection after aligning the characteristics of Indian dataset with Chinese dataset. In this work, we have also compared the performance of the E2E number-plate detection model with YOLOv5 model, pre-trained on COCO dataset and fine-tuned on Indian vehicle images. Given that the number Indian vehicle images used for fine-tuning the detection module and yolov5 were same, we concluded that it is more sample efficient to develop an ANPR solution for Indian conditions based on COCO dataset rather than CCPD dataset.
翻訳日:2022-07-16 03:59:28 公開日:2022-07-14
# (参考訳) グラフ畳み込みネットワークを用いたゴールデンリファレンスフリーハードウェアトロイの木馬定位

Golden Reference-Free Hardware Trojan Localization using Graph Convolutional Network ( http://arxiv.org/abs/2207.06664v1 )

ライセンス: CC BY 4.0
Rozhin Yasaei, Sina Faezi, Mohammad Abdullah Al Faruque(参考訳) 集積回路(IC)サプライチェーンのグローバル化は、設計、製造、テストプロセスの大部分を単一の信頼できるエンティティから世界中の様々な信頼できないサードパーティのエンティティに移行した。 信頼できない第三者知的財産(3PIP)を使用するリスクは、敵がハードウェアトロイの木馬(HT)と呼ばれる悪意のある修正を挿入する可能性である。 これらのHTは、整合性を妥協し、パフォーマンスを低下させ、サービスを否定し、設計の機能を変更します。 文献では多くのHT検出法が提案されているが、HT局所化の重要な課題は見過ごされている。 さらに、いくつかの既存のHTローカライゼーション手法には、黄金の参照への依存、すべてのタイプのHTを一般化できないこと、スケーラビリティの欠如、ローカライゼーションの解決の低さ、手動の機能工学/プロパティ定義など、いくつかの弱点がある。 それらの欠点を克服するために,グラフ畳み込みネットワーク(GCN)を活用して,前シリコンステージにおけるゴールデンレファレンスフリーHTローカライゼーション手法を提案する。 本研究では,回路設計を固有データ構造に変換し,ノード属性のグラフ化と抽出を行う。 その後、グラフ畳み込みはノードの自動特徴抽出を行い、ノードをトロイの木馬または良性に分類する。 私たちの自動化アプローチでは、デザイナが手作業によるコードレビューを負担することはありません。 トロイの木信号の精度は99.6%、F1スコア93.1%、偽陽性率は0.009%である。

The globalization of the Integrated Circuit (IC) supply chain has moved most of the design, fabrication, and testing process from a single trusted entity to various untrusted third-party entities worldwide. The risk of using untrusted third-Party Intellectual Property (3PIP) is the possibility for adversaries to insert malicious modifications known as Hardware Trojans (HTs). These HTs can compromise the integrity, deteriorate the performance, deny the service, and alter the functionality of the design. While numerous HT detection methods have been proposed in the literature, the crucial task of HT localization is overlooked. Moreover, a few existing HT localization methods have several weaknesses: reliance on a golden reference, inability to generalize for all types of HT, lack of scalability, low localization resolution, and manual feature engineering/property definition. To overcome their shortcomings, we propose a novel, golden reference-free HT localization method at the pre-silicon stage by leveraging Graph Convolutional Network (GCN). In this work, we convert the circuit design to its intrinsic data structure, graph and extract the node attributes. Afterward, the graph convolution performs automatic feature extraction for nodes to classify the nodes as Trojan or benign. Our automated approach does not burden the designer with manual code review. It locates the Trojan signals with 99.6% accuracy, 93.1% F1-score, and a false-positive rate below 0.009%.
翻訳日:2022-07-16 03:52:22 公開日:2022-07-14
# (参考訳) 弾性異種計算資源を用いた大規模知識蒸留

Large-scale Knowledge Distillation with Elastic Heterogeneous Computing Resources ( http://arxiv.org/abs/2207.06667v1 )

ライセンス: CC BY 4.0
Ji Liu, Daxiang Dong, Xi Wang, An Qin, Xingjian Li, Patrick Valduriez, Dejing Dou, Dianhai Yu(参考訳) レイヤーが増え、パラメータが増えてモデルの精度が向上するが、そのような大きなモデルは一般に高い計算複雑性を持ち、推論のために小さなデバイスの容量を超える大きなメモリを必要とする。 また,高性能サーバにおいても,大規模モデルの長時間のトレーニング時間や推論時間を確保することは困難である。 大規模深層モデル(教師モデル)をコンパクトモデル(学生モデル)に圧縮する効率的なアプローチとして、大きなモデルを扱うための有望なアプローチとして知識蒸留が出現する。 既存の知識蒸留法は弾力性のある計算資源を活用できず、低効率に対応している。 本稿では,知識蒸留のためのElastic Deep Learningフレームワーク,すなわちEDL-Distを提案する。 EDL-Distの利点は3倍である。 まず、推論とトレーニングプロセスが分離される。 第二に、弾力性のある計算資源を利用して効率を向上させることができる。 第三に、トレーニングと推論プロセスのフォールトトレランスがサポートされている。 EDL-Distのスループットはベースライン法(オンライン知識蒸留)よりも最大3.125倍速く,精度は同等かそれ以上であることを示す。

Although more layers and more parameters generally improve the accuracy of the models, such big models generally have high computational complexity and require big memory, which exceed the capacity of small devices for inference and incurs long training time. In addition, it is difficult to afford long training time and inference time of big models even in high performance servers, as well. As an efficient approach to compress a large deep model (a teacher model) to a compact model (a student model), knowledge distillation emerges as a promising approach to deal with the big models. Existing knowledge distillation methods cannot exploit the elastic available computing resources and correspond to low efficiency. In this paper, we propose an Elastic Deep Learning framework for knowledge Distillation, i.e., EDL-Dist. The advantages of EDL-Dist are three-fold. First, the inference and the training process is separated. Second, elastic available computing resources can be utilized to improve the efficiency. Third, fault-tolerance of the training and inference processes is supported. We take extensive experimentation to show that the throughput of EDL-Dist is up to 3.125 times faster than the baseline method (online knowledge distillation) while the accuracy is similar or higher.
翻訳日:2022-07-16 03:20:13 公開日:2022-07-14
# (参考訳) 具体的説明可能な勧告のための強化経路推論

Reinforced Path Reasoning for Counterfactual Explainable Recommendation ( http://arxiv.org/abs/2207.06674v1 )

ライセンス: CC BY 4.0
Xiangmeng Wang, Qian Li, Dianer Yu, Guandong Xu(参考訳) 反事実的説明は、アイテムやユーザの変更がレコメンデーション決定にどの程度影響するかを検討することによって、レコメンデーションメカニズムを解釈する。 既存のカウンターファクトな説明可能なアプローチは巨大な検索スペースに直面しており、その説明はアクションベース(ユーザークリックなど)かアスペクトベース(項目記述など)である。 項目属性に基づく説明は、細かな項目人口統計機能(ブランドなど)によって説明されるため、ユーザにとってより直感的で説得力があると考えています。 さらに、反事実的な説明は、否定的な項目を除外することで推奨を高めることができる。 本研究では,アイテム属性に基づく反事実説明を生成するための新しい反事実説明可能レコメンデーション(cerec)を提案し,レコメンデーション性能を向上させる。 我々のceecは,強化学習環境において,候補の反事実を一様に検索することで,説明方針を最適化する。 与えられた知識グラフの豊かな文脈情報を用いて,適応パスサンプルを用いて巨大な探索空間を削減する。 また、リコメンデーションモデルに説明ポリシーを配置し、リコメンデーションを強化する。 広範な説明可能性とレコメンデーション評価は、CERecがユーザの好みと整合した説明を提供し、改善されたレコメンデーションを維持する能力を示している。 私たちはコードをhttps://github.com/chrystalii/cerecでリリースします。

Counterfactual explanations interpret the recommendation mechanism via exploring how minimal alterations on items or users affect the recommendation decisions. Existing counterfactual explainable approaches face huge search space and their explanations are either action-based (e.g., user click) or aspect-based (i.e., item description). We believe item attribute-based explanations are more intuitive and persuadable for users since they explain by fine-grained item demographic features (e.g., brand). Moreover, counterfactual explanation could enhance recommendations by filtering out negative items. In this work, we propose a novel Counterfactual Explainable Recommendation (CERec) to generate item attribute-based counterfactual explanations meanwhile to boost recommendation performance. Our CERec optimizes an explanation policy upon uniformly searching candidate counterfactuals within a reinforcement learning environment. We reduce the huge search space with an adaptive path sampler by using rich context information of a given knowledge graph. We also deploy the explanation policy to a recommendation model to enhance the recommendation. Extensive explainability and recommendation evaluations demonstrate CERec's ability to provide explanations consistent with user preferences and maintain improved recommendations. We release our code at https://github.com/Chrystalii/CERec.
翻訳日:2022-07-16 03:05:19 公開日:2022-07-14
# (参考訳) pdbシーケンシングデータを用いたタンパク質ファミリー分類のための深層学習法

Deep Learning Methods for Protein Family Classification on PDB Sequencing Data ( http://arxiv.org/abs/2207.06678v1 )

ライセンス: CC BY 4.0
Aaron Wang(参考訳) タンパク質は、その折りたたみやその機能や特徴に影響を与えるアミノ酸鎖で構成され、主要な生物学的過程において中心的な役割を果たす高分子の一種であり、身体組織の構造、機能、制御に必須である。 Understanding protein functions is vital to the development of therapeutics and precision medicine, and hence the ability to classify proteins and their functions based on measurable features is crucial; indeed, the automatic inference of a protein's properties from its sequence of amino acids, known as its primary structure, remains an important open problem within the field of bioinformatics, especially given the recent advancements in sequencing technologies and the extensive number of known but uncategorized proteins with unknown properties. 本研究では,構造バイオインフォマティクス研究協力(rcsb)のタンパク質データバンク(pdb)から広く入手可能なシークエンシングデータに対して,新しい双方向lstmおよび畳み込みモデルを含む,いくつかのディープラーニングフレームワークのパフォーマンスを実証・比較し,k-nearest近傍や多項回帰分類器などの古典的機械学習アプローチに対するパフォーマンスのベンチマークを行った。 我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。

Composed of amino acid chains that influence how they fold and thus dictating their function and features, proteins are a class of macromolecules that play a central role in major biological processes and are required for the structure, function, and regulation of the body's tissues. Understanding protein functions is vital to the development of therapeutics and precision medicine, and hence the ability to classify proteins and their functions based on measurable features is crucial; indeed, the automatic inference of a protein's properties from its sequence of amino acids, known as its primary structure, remains an important open problem within the field of bioinformatics, especially given the recent advancements in sequencing technologies and the extensive number of known but uncategorized proteins with unknown properties. In this work, we demonstrate and compare the performance of several deep learning frameworks, including novel bi-directional LSTM and convolutional models, on widely available sequencing data from the Protein Data Bank (PDB) of the Research Collaboratory for Structural Bioinformatics (RCSB), as well as benchmark this performance against classical machine learning approaches, including k-nearest neighbors and multinomial regression classifiers, trained on experimental data. Our results show that our deep learning models deliver superior performance to classical machine learning methods, with the convolutional architecture providing the most impressive inference performance.
翻訳日:2022-07-16 02:36:08 公開日:2022-07-14
# (参考訳) 三角性を証明するための学習

Learning to Prove Trigonometric Identities ( http://arxiv.org/abs/2207.06679v1 )

ライセンス: CC BY 4.0
Zhou Liu, Yujun Li, Zhengying Liu, Lin Li, Zhenguo Li(参考訳) 近年,ディープラーニング手法による自動定理証明が注目されている。 本稿では,三角法等式の自動証明システムを構築する。 三角idの正規化形式を定義し、証明のための一連のルールを設計し、理論上無限の三角idを生成できる方法を提唱する。 私たちの目標は、証明を完遂するだけでなく、可能な限り少数のステップで証明を完成させることです。 そこで我々は,ランダムなBFS(rBFS)によって生成された証明データを学習するモデルを設計し,そのモデルが単純な模倣学習後にrBFSより優れていることを理論的・実験的に証明した。 強化学習によるさらなる改善により、autotrigはbfs(理論上最も短い方法)とほぼ同等の短時間で識別の証明ステップを、わずか1分の1の時間コストで得ることができる。 さらにAutoTrigは、合成データセットでSympy、Matlab、人間を破り、多くの一般化タスクでうまく機能する。

Automatic theorem proving with deep learning methods has attracted attentions recently. In this paper, we construct an automatic proof system for trigonometric identities. We define the normalized form of trigonometric identities, design a set of rules for the proof and put forward a method which can generate theoretically infinite trigonometric identities. Our goal is not only to complete the proof, but to complete the proof in as few steps as possible. For this reason, we design a model to learn proof data generated by random BFS (rBFS), and it is proved theoretically and experimentally that the model can outperform rBFS after a simple imitation learning. After further improvement through reinforcement learning, we get AutoTrig, which can give proof steps for identities in almost as short steps as BFS (theoretically shortest method), with a time cost of only one-thousandth. In addition, AutoTrig also beats Sympy, Matlab and human in the synthetic dataset, and performs well in many generalization tasks.
翻訳日:2022-07-16 02:23:31 公開日:2022-07-14
# (参考訳) 等変ハイパーグラフ拡散ニューラル演算子

Equivariant Hypergraph Diffusion Neural Operators ( http://arxiv.org/abs/2207.06680v1 )

ライセンス: CC BY 4.0
Peihao Wang, Shenghao Yang, Yunyu Liu, Zhangyang Wang, Pan Li(参考訳) ニューラルネットワークを用いてハイパーグラフを符号化するハイパーグラフニューラルネットワーク(HNN)は、データ内の高次関係をモデル化し、高次関係の上に構築された関連する予測タスクをさらに解決する有望な方法を提供する。 しかし、実際には高次関係は複雑なパターンを含み、しばしば非常に不規則である。 したがって、計算効率を維持しつつそれらの関係を表現するのに十分であるhnnを設計することはしばしば困難である。 ハイパーグラフ拡散アルゴリズムに触発されて、この研究はed-hnnと呼ばれる新しいhnnアーキテクチャを提案している。 ED-HNNは、ハイパーグラフの星拡大と標準メッセージパッシングニューラルネットワークを組み合わせることで効率よく実装できる。 ED-HNNはさらに、ヘテロ親和性ハイパーグラフの処理や深層モデルの構築において、優れた優位性を示している。 実世界の9つのハイパーグラフデータセットのノード分類のためのED-HNNを評価する。 ED-HNNは、これらの9つのデータセットで最高のベースラインを均一に上回り、2\%$\uparrow$以上の予測精度を4つのデータセットで達成している。

Hypergraph neural networks (HNNs) using neural networks to encode hypergraphs provide a promising way to model higher-order relations in data and further solve relevant prediction tasks built upon such higher-order relations. However, higher-order relations in practice contain complex patterns and are often highly irregular. So, it is often challenging to design an HNN that suffices to express those relations while keeping computational efficiency. Inspired by hypergraph diffusion algorithms, this work proposes a new HNN architecture named ED-HNN, which provably represents any continuous equivariant hypergraph diffusion operators that can model a wide range of higher-order relations. ED-HNN can be implemented efficiently by combining star expansions of hypergraphs with standard message passing neural networks. ED-HNN further shows great superiority in processing heterophilic hypergraphs and constructing deep models. We evaluate ED-HNN for node classification on nine real-world hypergraph datasets. ED-HNN uniformly outperforms the best baselines over these nine datasets and achieves more than 2\%$\uparrow$ in prediction accuracy over four datasets therein.
翻訳日:2022-07-16 01:00:06 公開日:2022-07-14
# (参考訳) mdeaw: ワイヤレスウェアラブル市販デバイスからのedaおよびppg信号による感情分析のためのマルチモーダルデータセット

MDEAW: A Multimodal Dataset for Emotion Analysis through EDA and PPG signals from wireless wearable low-cost off-the-shelf Devices ( http://arxiv.org/abs/2207.06410v1 )

ライセンス: CC BY 4.0
Arijit Nandi, Fatos Xhafa, Laia Subirats, Santi Fort(参考訳) 本研究では,バルセロナ・サバデルのユーレカット・アカデミーの教員が授業中に記録した,電気活動(EDA)と光胸腺撮影(PPG)の多モードデータベースMDEAWについて,教室のシナリオにおける学生の感情的反応を引き出す。 刺激後の情緒状態の自己評価とともに,6つの基本的な感情状態から10名の学生の信号が記録された。 すべての信号は、ポータブル、ウェアラブル、ワイヤレス、低コスト、および市販の機器を使用してキャプチャされ、毎日のアプリケーションで感情的コンピューティング手法を使用できる可能性がある。 ReMECS, Fed-ReMECS, Fed-ReMECS-U を用いて, EDA と PPG に基づく特徴を用いた学生の感情認識のベースラインを構築した。 これらの結果は、情緒的状態認識アプリケーションに低価格デバイスを使用することの可能性を示している。 提案したデータベースは、研究者がこれらのキャプチャーデバイスによる感情状態認識アプリケーションへの適合性をより徹底的に評価できるようにするために、公開されている。

We present MDEAW, a multimodal database consisting of Electrodermal Activity (EDA) and Photoplethysmography (PPG) signals recorded during the exams for the course taught by the teacher at Eurecat Academy, Sabadell, Barcelona in order to elicit the emotional reactions to the students in a classroom scenario. Signals from 10 students were recorded along with the students' self-assessment of their affective state after each stimulus, in terms of 6 basic emotion states. All the signals were captured using portable, wearable, wireless, low-cost, and off-the-shelf equipment that has the potential to allow the use of affective computing methods in everyday applications. A baseline for student-wise affect recognition using EDA and PPG-based features, as well as their fusion, was established through ReMECS, Fed-ReMECS, and Fed-ReMECS-U. These results indicate the prospects of using low-cost devices for affective state recognition applications. The proposed database will be made publicly available in order to allow researchers to achieve a more thorough evaluation of the suitability of these capturing devices for emotion state recognition applications.
翻訳日:2022-07-16 00:26:37 公開日:2022-07-14
# (参考訳) problexity - バイナリ分類問題複雑性評価のためのオープンソースのpythonライブラリ

problexity -- an open-source Python library for binary classification problem complexity assessment ( http://arxiv.org/abs/2207.06709v1 )

ライセンス: CC BY 4.0
Joanna Komorniczak, Pawel Ksieniewicz(参考訳) 分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。 メタ学習において重要な役割を担っており、メタ属性決定やマルチクリトリア最適化の基礎となる -- 認識モデルを再構築することなく、トレーニングセットの再サンプリングを評価することができる。 現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。 本稿では,Python言語における22の複雑度を推定するソフトウェアモジュールについて述べる。これは,Scikit-Lernプログラミングインターフェースと互換性のあるもので,機械学習コミュニティで最も人気のあるプログラミング環境において,それらを用いた研究の実装を可能にするものだ。

The classification problem's complexity assessment is an essential element of many topics in the supervised learning domain. It plays a significant role in meta-learning -- becoming the basis for determining meta-attributes or multi-criteria optimization -- allowing the evaluation of the training set resampling without needing to rebuild the recognition model. The tools currently available for the academic community, which would enable the calculation of problem complexity measures, are available only as libraries of the C++ and R languages. This paper describes the software module that allows for the estimation of 22 complexity measures for the Python language -- compatible with the scikit-learn programming interface -- allowing for the implementation of research using them in the most popular programming environment of the machine learning community.
翻訳日:2022-07-16 00:20:23 公開日:2022-07-14
# (参考訳) FIRE2021におけるウルドゥー語乱用・脅威言語検出の概要

Overview of Abusive and Threatening Language Detection in Urdu at FIRE 2021 ( http://arxiv.org/abs/2207.06710v1 )

ライセンス: CC BY 4.0
Maaz Amjad, Alisa Zhila, Grigori Sidorov, Andrey Labunets, Sabur Butta, Hamza Imam Amjad, Oxana Vitman, Alexander Gelbukh(参考訳) ソーシャルメディアプラットフォームの影響が拡大するにつれ、その悪用の影響はますます強くなっている。 脅迫や虐待言語の自動検出の重要性を過大評価することはできない。 しかし、既存の研究や最先端の手法のほとんどは、低級言語と中級言語に限られる対象言語としての英語に焦点を当てている。 本稿では,全世界で1億5000万人以上の話者を抱えるウルドゥー語の言語検出を乱用し,脅迫する2つのタスクについて述べる。 どちらも、ウルドゥー語でつぶやきを2つのクラスに分類するために参加するシステムが要求されるバイナリ分類タスクとして提案されている。 一 第一の業務に対する虐待及び非虐待 (二 第二の脅威及び非脅威。) ラベル付きツイートを含む手動注釈付きデータセットを2つ提示する。 一 虐待及び非虐待及び (ii)脅迫、非脅迫。 乱用データセットは、列車部に2400のアノテートツイートと、テスト部に1100のアノテートツイートとを含む。 脅威データセットには、列車区間に6000の注釈付ツイートと、試験部に3950の注釈付ツイートが含まれている。 また、両方のタスクに対してロジスティック回帰とBERTベースのベースライン分類器を提供する。 この共有タスクでは、参加登録された6カ国(インド、パキスタン、中国、マレーシア、アラブ首長国連邦、台湾)から21のチームが、乱用言語検出であるSubtask Aに10のチームが、脅威言語検出であるSubtask Bに9のチームが、技術的報告を提出した。 最良性能のシステムは、サブタスクaでは0.880、サブタスクbでは0.545のf1-score値を達成している。

With the growth of social media platform influence, the effect of their misuse becomes more and more impactful. The importance of automatic detection of threatening and abusive language can not be overestimated. However, most of the existing studies and state-of-the-art methods focus on English as the target language, with limited work on low- and medium-resource languages. In this paper, we present two shared tasks of abusive and threatening language detection for the Urdu language which has more than 170 million speakers worldwide. Both are posed as binary classification tasks where participating systems are required to classify tweets in Urdu into two classes, namely: (i) Abusive and Non-Abusive for the first task, and (ii) Threatening and Non-Threatening for the second. We present two manually annotated datasets containing tweets labelled as (i) Abusive and Non-Abusive, and (ii) Threatening and Non-Threatening. The abusive dataset contains 2400 annotated tweets in the train part and 1100 annotated tweets in the test part. The threatening dataset contains 6000 annotated tweets in the train part and 3950 annotated tweets in the test part. We also provide logistic regression and BERT-based baseline classifiers for both tasks. In this shared task, 21 teams from six countries registered for participation (India, Pakistan, China, Malaysia, United Arab Emirates, and Taiwan), 10 teams submitted their runs for Subtask A, which is Abusive Language Detection and 9 teams submitted their runs for Subtask B, which is Threatening Language detection, and seven teams submitted their technical reports. The best performing system achieved an F1-score value of 0.880 for Subtask A and 0.545 for Subtask B. For both subtasks, m-Bert based transformer model showed the best performance.
翻訳日:2022-07-16 00:08:53 公開日:2022-07-14
# (参考訳) 用語データベースフェデレーションのためのオープン用語管理と共有ツールキット

Open Terminology Management and Sharing Toolkit for Federation of Terminology Databases ( http://arxiv.org/abs/2207.06729v1 )

ライセンス: CC BY-SA 4.0
Andis Lagzdi\c{n}\v{s} and Uldis Sili\c{n}\v{s} and M\=arcis Pinnis and Toms Bergmanis and Art\=urs Vasi\c{l}evskis and Andrejs Vasi\c{l}jevs(参考訳) コンテンツ制作者や翻訳者にとって、異なる分野や言語から現在および信頼できる用語への統合アクセスが必要である。 用語学は、機械翻訳、音声認識、情報抽出、その他の自然言語処理ツールなどのAIアプリケーションにも必要である。 本研究では,オープンな用語管理ソリューションであるEuroTermBank Toolkitを提供することで,用語資源の標準的共有と管理を容易にする。 組織は、フェデレーションされたデータベースのネットワークに参加することで、用語の管理と検索、用語コレクションの作成、組織内外の共有が可能になる。 連合データベースで収集されたデータは、ヨーロッパ最大の多言語用語リソースであるEuroTermBankと自動的に共有され、翻訳者や言語サービスプロバイダ、研究者や学生が最新のバージョンで用語リソースにアクセスできるようになる。

Consolidated access to current and reliable terms from different subject fields and languages is necessary for content creators and translators. Terminology is also needed in AI applications such as machine translation, speech recognition, information extraction, and other natural language processing tools. In this work, we facilitate standards-based sharing and management of terminology resources by providing an open terminology management solution - the EuroTermBank Toolkit. It allows organisations to manage and search their terms, create term collections, and share them within and outside the organisation by participating in the network of federated databases. The data curated in the federated databases are automatically shared with EuroTermBank, the largest multilingual terminology resource in Europe, allowing translators and language service providers as well as researchers and students to access terminology resources in their most current version.
翻訳日:2022-07-15 23:40:23 公開日:2022-07-14
# (参考訳) ブロック圧縮センシングとディープラーニングによるシングルピクセル画像再構成

Single-Pixel Image Reconstruction Based on Block Compressive Sensing and Deep Learning ( http://arxiv.org/abs/2207.06746v1 )

ライセンス: CC BY 4.0
Stephen L. H. Lau and Edwin K. P. Chong(参考訳) シングルピクセルイメージング(SPI)は、圧縮センシング(CS)理論に基づく新しいイメージング技術である。 SPIでは、一連の圧縮測定によってデータを取得し、対応する画像を再構成する。 通常、基底追跡のような再構成アルゴリズムは画像の空間性仮定に依存する。 しかし、近年の深層学習の進歩により、cs画像の再構成に利用されていることが判明している。 シミュレーションにおいて有望な結果を示すにもかかわらず、そのようなアルゴリズムが実際のSPI設定でどのように実装できるかはよく分かっていない。 本稿では,ブロック圧縮センシング(BCS)とともに,SPI画像の再構成におけるディープラーニングの利用を実証する。 また、他の競合CS再構成アルゴリズムよりも優れた畳み込みニューラルネットワークに基づく新しい再構成モデルを提案する。 さらに,BCSをディープラーニングモデルに組み込むことで,最小画像サイズ以上の任意のサイズの画像を再構成することができた。 また,本モデルでは,SPI画像とは大きく異なる自然画像に基づいて事前訓練を行いながら,SPI設定から得られた画像を再構成可能であることを示す。 これにより、様々な領域の画像のCS再構成のための事前訓練されたディープラーニングモデルの実現が可能となる。

Single-pixel imaging (SPI) is a novel imaging technique whose working principle is based on the compressive sensing (CS) theory. In SPI, data is obtained through a series of compressive measurements and the corresponding image is reconstructed. Typically, the reconstruction algorithm such as basis pursuit relies on the sparsity assumption in images. However, recent advances in deep learning have found its uses in reconstructing CS images. Despite showing a promising result in simulations, it is often unclear how such an algorithm can be implemented in an actual SPI setup. In this paper, we demonstrate the use of deep learning on the reconstruction of SPI images in conjunction with block compressive sensing (BCS). We also proposed a novel reconstruction model based on convolutional neural networks that outperforms other competitive CS reconstruction algorithms. Besides, by incorporating BCS in our deep learning model, we were able to reconstruct images of any size above a certain smallest image size. In addition, we show that our model is capable of reconstructing images obtained from an SPI setup while being priorly trained on natural images, which can be vastly different from the SPI images. This opens up opportunity for the feasibility of pretrained deep learning models for CS reconstructions of images from various domain areas.
翻訳日:2022-07-15 23:31:29 公開日:2022-07-14
# (参考訳) 開発中:nnvツールを用いたオートエンコーダに基づく回帰モデルの安全性とロバスト性検証

Work In Progress: Safety and Robustness Verification of Autoencoder-Based Regression Models using the NNV Tool ( http://arxiv.org/abs/2207.06759v1 )

ライセンス: CC BY 4.0
Neelanjana Pal (Department of Electrical and Computer Engineering Vanderbilt University, USA), Taylor T Johnson (Department of Electrical and Computer Engineering Vanderbilt University, USA)(参考訳) 本稿では,画像分類nnのロバスト性検証のための最先端手法に従い,自動エンコーダ型回帰ニューラルネットワーク(nn)モデルのロバスト性検証を提案する。 様々なディープニューラルネットワーク(DNN)における安全性と堅牢性の検証手法の開発が進行中であるにもかかわらず、オートエンコーダモデルの堅牢性チェックはまだ検討されていない。 このオープンな研究空間を探求し、これらのオートエンコーダネットワークに対する既存のロバスト性解析手法を拡張して既存のDNN検証手法のギャップを埋める方法を確認する。 オートエンコーダを用いた分類モデルは画像分類NNと多かれ少なかれよく似ているが、回帰モデルの機能は明らかに異なる。 本稿では,自己エンコーダに基づく回帰モデルに対するロバスト性評価の指標を2つ導入する。 また、既存のImagetarアプローチを変更し、回帰ネットワークの特定の入力タイプを処理できるように変数を調整しました。 この手法はNNVの拡張として実装され、同じデータセットを用いてケーススタディ実験を行い、データセット上で適用および評価される。 著者らの理解によれば、この研究はautoencoderベースのnnsの到達可能性分析を初めて示したものである。

This work in progress paper introduces robustness verification for autoencoder-based regression neural network (NN) models, following state-of-the-art approaches for robustness verification of image classification NNs. Despite the ongoing progress in developing verification methods for safety and robustness in various deep neural networks (DNNs), robustness checking of autoencoder models has not yet been considered. We explore this open space of research and check ways to bridge the gap between existing DNN verification methods by extending existing robustness analysis methods for such autoencoder networks. While classification models using autoencoders work more or less similar to image classification NNs, the functionality of regression models is distinctly different. We introduce two definitions of robustness evaluation metrics for autoencoder-based regression models, specifically the percentage robustness and un-robustness grade. We also modified the existing Imagestar approach, adjusting the variables to take care of the specific input types for regression networks. The approach is implemented as an extension of NNV, then applied and evaluated on a dataset, with a case study experiment shown using the same dataset. As per the authors' understanding, this work in progress paper is the first to show possible reachability analysis of autoencoder-based NNs.
翻訳日:2022-07-15 23:17:29 公開日:2022-07-14
# (参考訳) 半教師付き言語間感情認識

Semi-supervised cross-lingual speech emotion recognition ( http://arxiv.org/abs/2207.06767v1 )

ライセンス: CC BY 4.0
Mirko Agarla, Simone Bianco, Luigi Celona, Paolo Napoletano, Alexey Petrovsky, Flavio Piccoli, Raimondo Schettini, Ivan Shanin(参考訳) 単一の言語上での音声感情認識(SER)は,過去10年間のディープラーニングアプローチを通じて,顕著な成果を上げている。 しかし、言語横断SERは現実世界のアプリケーションでは依然として課題である。 (i)ソースとターゲットドメインの分布に大きな違いがある。 (ii)新しい言語にはラベル付きがほとんどなく、ラベルなしの発話が多数ある。 従来の側面を考慮し,新たな言語からのラベルがいくつか用意されている場合に,言語間感情認識のためのセミ・スーパーバイザード・ラーニング(SSL)手法を提案する。 畳み込みニューラルネットワーク (CNN) をベースとして, ラベルなし発話に対する擬似ラベル付け戦略を利用して新しい言語に適応する手法を提案する。 特に,硬質で軟質な擬似ラベルを用いた手法について検討した。 情報源と新言語の両方で話者に依存しない設定で提案手法の性能を徹底的に評価し,異なる言語系統に属する5言語にまたがるロバスト性を示す。

Speech emotion recognition (SER) on a single language has achieved remarkable results through deep learning approaches over the last decade. However, cross-lingual SER remains a challenge in real-world applications due to (i) a large difference between the source and target domain distributions, (ii) the availability of few labeled and many unlabeled utterances for the new language. Taking into account previous aspects, we propose a Semi-Supervised Learning (SSL) method for cross-lingual emotion recognition when a few labels from the new language are available. Based on a Convolutional Neural Network (CNN), our method adapts to a new language by exploiting a pseudo-labeling strategy for the unlabeled utterances. In particular, the use of a hard and soft pseudo-labels approach is investigated. We thoroughly evaluate the performance of the method in a speaker-independent setup on both the source and the new language and show its robustness across five languages belonging to different linguistic strains.
翻訳日:2022-07-15 23:04:03 公開日:2022-07-14
# (参考訳) 多視点光度ステレオのためのニューラル可視BRDF場

Neural apparent BRDF fields for multiview photometric stereo ( http://arxiv.org/abs/2207.06793v1 )

ライセンス: CC BY 4.0
Meghna Asthana, William A. P. Smith, Patrik Huber(参考訳) 光源方向を条件としたNear Radiance Fields(NeRF)の拡張により,多視点光度ステレオ問題に取り組むことを提案する。 神経表現の幾何学的部分は、表面の正常な方向を予測し、局所的な表面反射率を推論できる。 我々の神経表現の外観部分は、ニューラルネットワークの双方向反射関数(BRDF)に分解され、適合過程の一部として学習され、影予測ネットワーク(光源方向で条件付けされている)により、明らかなBRDFをモデル化することができる。 物理画像形成モデルに基づく帰納的バイアスを伴う学習成分のバランスは、トレーニング中に観測された光源やビューアーの方向から遠ざかることができる。 本稿では,多視点フォトメトリックステレオベンチマークのアプローチを実証し,nerfの神経密度表現を用いて競合性能が得られることを示す。

We propose to tackle the multiview photometric stereo problem using an extension of Neural Radiance Fields (NeRFs), conditioned on light source direction. The geometric part of our neural representation predicts surface normal direction, allowing us to reason about local surface reflectance. The appearance part of our neural representation is decomposed into a neural bidirectional reflectance function (BRDF), learnt as part of the fitting process, and a shadow prediction network (conditioned on light source direction) allowing us to model the apparent BRDF. This balance of learnt components with inductive biases based on physical image formation models allows us to extrapolate far from the light source and viewer directions observed during training. We demonstrate our approach on a multiview photometric stereo benchmark and show that competitive performance can be obtained with the neural density representation of a NeRF.
翻訳日:2022-07-15 22:55:54 公開日:2022-07-14
# (参考訳) GrabQC: 自動ICD符号化のためのグラフベースのクエリコンテキスト化

GrabQC: Graph based Query Contextualization for automated ICD coding ( http://arxiv.org/abs/2207.06802v1 )

ライセンス: CC BY 4.0
Jeshuren Chelladurai, Sudarsun Santhiappan, Balaraman Ravindran(参考訳) 自動医療コーディング(automated medical coding)は、icd(international classification of disease)やcpt(current procedure terminology)といった標準分類群から、適切な診断と手順コードを自動的に作成するプロセスである。 マニュアルコーディングプロセスは、臨床ノートからのエンティティの識別と、cms(center for medicare and medicaid services)ガイドラインに従う商業的または非商業的な医療コード情報検索(ir)システムへの問い合わせを含む。 臨床ノートから自動抽出されたエンティティを用いてIRシステムのためのクエリを自動構築し、この手作業を自動化することを提案する。 本稿では,臨床テキストからクエリを自動的に抽出し,グラフニューラルネットワーク(gnn)モデルを用いてクエリをコンテキスト化し,外部irシステムを用いてicdコードを取得する手法である, \textbf{gra}ph \textbf{b}ased \textbf{q}uery \textbf{c}ontextualization を提案する。 また,モデル学習のためのデータセットのラベル付け手法を提案する。 臨床テキストの2つのデータセットを3つの異なる設定で実験し,その効果を検証した。 実験の結果,提案手法は3つの設定で比較したベースラインよりも優れていることがわかった。

Automated medical coding is a process of codifying clinical notes to appropriate diagnosis and procedure codes automatically from the standard taxonomies such as ICD (International Classification of Diseases) and CPT (Current Procedure Terminology). The manual coding process involves the identification of entities from the clinical notes followed by querying a commercial or non-commercial medical codes Information Retrieval (IR) system that follows the Centre for Medicare and Medicaid Services (CMS) guidelines. We propose to automate this manual process by automatically constructing a query for the IR system using the entities auto-extracted from the clinical notes. We propose \textbf{GrabQC}, a \textbf{Gra}ph \textbf{b}ased \textbf{Q}uery \textbf{C}ontextualization method that automatically extracts queries from the clinical text, contextualizes the queries using a Graph Neural Network (GNN) model and obtains the ICD Codes using an external IR system. We also propose a method for labelling the dataset for training the model. We perform experiments on two datasets of clinical text in three different setups to assert the effectiveness of our approach. The experimental results show that our proposed method is better than the compared baselines in all three settings.
翻訳日:2022-07-15 22:41:34 公開日:2022-07-14
# (参考訳) FFTc: HPC高速フーリエ変換ライブラリ開発のためのMLIRダイアレクタ

FFTc: An MLIR Dialect for Developing HPC Fast Fourier Transform Libraries ( http://arxiv.org/abs/2207.06803v1 )

ライセンス: CC BY 4.0
Yifei He, Artur Podobas, M{\aa}ns I. Andersson, and Stefano Markidis(参考訳) 離散フーリエ変換(DFT)ライブラリは、科学計算における最も重要なソフトウェアコンポーネントの1つである。 DFT HPC計算用ライブラリであるFFTWにヒントを得て,HPCフーリエ変換ライブラリの開発にコンパイラ技術を適用した。 本稿では,FFTcというドメイン固有言語を用いて,Fourier Transformアルゴリズムを表現したマルチレベル中間表現(MLIR)を提案する。 FFTcの初期設計,実装,および予備結果について述べる。

Discrete Fourier Transform (DFT) libraries are one of the most critical software components for scientific computing. Inspired by FFTW, a widely used library for DFT HPC calculations, we apply compiler technologies for the development of HPC Fourier transform libraries. In this work, we introduce FFTc, a domain-specific language, based on Multi-Level Intermediate Representation (MLIR), for expressing Fourier Transform algorithms. We present the initial design, implementation, and preliminary results of FFTc.
翻訳日:2022-07-15 22:31:43 公開日:2022-07-14
# (参考訳) 生成モデルの潜在空間の比較

Comparing the latent space of generative models ( http://arxiv.org/abs/2207.06812v1 )

ライセンス: CC BY 4.0
Andrea Asperti and Valerio Tonelli(参考訳) 潜伏ベクトル生成モデルの潜在空間におけるデータポイントの異なる符号化は、データの背後にある異なる説明的要因の多かれ少なかれ効果的で不連続な特徴付けをもたらす可能性がある。 近年、特定のモデルの潜伏空間の探索に多くの研究が注がれており、主に特徴がどのように絡み合っているか、また、軌道が可視空間における望ましいデータ変化をいかに生み出すかの研究に焦点が当てられている。 本研究では、異なるモデルの潜在空間を比較し、それらの間の変換を求めるというより一般的な問題に対処する。 本研究は,人間の顔のデータ多様体生成モデルについて,親しみやすく,広く研究されている事例に限定した。 この論文で報告された驚くべき予備的な結果は、(提案されたモデルは、異なる振る舞いをするために教えられていないか、明示的に考えられている)単純な線形写像は、情報の大半を保存しながら、潜在空間から別の空間に渡すのに十分であるということである。

Different encodings of datapoints in the latent space of latent-vector generative models may result in more or less effective and disentangled characterizations of the different explanatory factors of variation behind the data. Many works have been recently devoted to the explorationof the latent space of specific models, mostly focused on the study of how features are disentangled and of how trajectories producing desired alterations of data in the visible space can be found. In this work we address the more general problem of comparing the latent spaces of different models, looking for transformations between them. We confined the investigation to the familiar and largely investigated case of generative models for the data manifold of human faces. The surprising, preliminary result reported in this article is that (provided models have not been taught or explicitly conceived to act differently) a simple linear mapping is enough to pass from a latent space to another while preserving most of the information.
翻訳日:2022-07-15 22:22:32 公開日:2022-07-14
# (参考訳) BERTIN:パープレクシティサンプリングを用いたスペイン語モデルの効率的な事前学習

BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling ( http://arxiv.org/abs/2207.06814v1 )

ライセンス: CC BY-SA 4.0
Javier de la Rosa, Eduardo G. Ponferrada, Paulo Villegas, Pablo Gonzalez de Prado Salas, Manu Romero, Mar{\i}a Grandury(参考訳) 大規模言語モデルの事前学習は通常、計算とデータの両方で大量のリソースを必要とする。 Common Crawlのような頻繁に使われるWebソースは、この事前学習サブ最適化を実現するのに十分なノイズを含んでいるかもしれない。 本研究では,mC4のスペイン語版から異なるサンプリング手法を実験し,約半分のステップで言語モデルの事前学習が可能で,その5分の1のデータを用いて,$\textit{perplexity sample}$という新しいデータ中心の手法を提案する。 結果のモデルは現在の最先端のモデルと同等であり、特定のタスクに対してより良い結果が得られる。 私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングする方法を提供します。 私たちのモデルは、この$\href{https://huggingface.co/bertin-project}{URL}$で利用可能です。

The pre-training of large language models usually requires massive amounts of resources, both in terms of computation and data. Frequently used web sources such as Common Crawl might contain enough noise to make this pre-training sub-optimal. In this work, we experiment with different sampling methods from the Spanish version of mC4, and present a novel data-centric technique which we name $\textit{perplexity sampling}$ that enables the pre-training of language models in roughly half the amount of steps and using one fifth of the data. The resulting models are comparable to the current state-of-the-art, and even achieve better results for certain tasks. Our work is proof of the versatility of Transformers, and paves the way for small teams to train their models on a limited budget. Our models are available at this $\href{https://huggingface.co/bertin-project}{URL}$.
翻訳日:2022-07-15 21:58:46 公開日:2022-07-14
# (参考訳) Anomal-E:グラフニューラルネットワークを用いた自己監視型ネットワーク侵入検知システム

Anomal-E: A Self-Supervised Network Intrusion Detection System based on Graph Neural Networks ( http://arxiv.org/abs/2207.06819v1 )

ライセンス: CC BY 4.0
Evan Caville, Wai Weng Lo, Siamak Layeghy, Marius Portmann(参考訳) 本稿では,自己教師型ネットワーク侵入と異常検出に対するグラフニューラルネットワーク(GNN)の適用について検討する。 GNNは、グラフ表現と出力埋め込みを一般化する学習にグラフ構造を組み込んだグラフベースのデータのためのディープラーニングアプローチである。 ネットワークフローは自然にグラフベースであるため、GNNはネットワークの振る舞いを分析し学習するのに適している。 GNNベースのネットワーク侵入検知システム(NIDS)の現在の実装の大部分は、入力トラフィックの量と構造を制限できるラベル付きネットワークトラフィックに大きく依存している。 これらの制約を克服するため, 自己監督プロセスにおけるエッジ特徴とグラフトポロジ構造を利用したGNNによる侵入・異常検出手法であるAnomal-Eを提案する。 このアプローチは、我々の知る限り、GNNを活用した自己教師付きエッジでネットワークフローを利用するネットワーク侵入検出において、最初の成功かつ実践的なアプローチである。 最新の2つのnidsデータセットにおける実験結果は、生の機能よりも異常e埋め込みの利用の改善を示すだけでなく、野生のネットワークトラフィックの検出に異常eが有する可能性も明らかに示している。

This paper investigates Graph Neural Networks (GNNs) application for self-supervised network intrusion and anomaly detection. GNNs are a deep learning approach for graph-based data that incorporate graph structures into learning to generalise graph representations and output embeddings. As network flows are naturally graph-based, GNNs are a suitable fit for analysing and learning network behaviour. The majority of current implementations of GNN-based Network Intrusion Detection Systems (NIDSs) rely heavily on labelled network traffic which can not only restrict the amount and structure of input traffic, but also the NIDSs potential to adapt to unseen attacks. To overcome these restrictions, we present Anomal-E, a GNN approach to intrusion and anomaly detection that leverages edge features and graph topological structure in a self-supervised process. This approach is, to the best our knowledge, the first successful and practical approach to network intrusion detection that utilises network flows in a self-supervised, edge leveraging GNN. Experimental results on two modern benchmark NIDS datasets not only clearly display the improvement of using Anomal-E embeddings rather than raw features, but also the potential Anomal-E has for detection on wild network traffic.
翻訳日:2022-07-15 21:38:32 公開日:2022-07-14
# (参考訳) dexter:電子医療文書から表内容を抽出するエンド・ツー・エンドシステム

DEXTER: An end-to-end system to extract table contents from electronic medical health documents ( http://arxiv.org/abs/2207.06823v1 )

ライセンス: CC BY 4.0
Nandhinee PR, Harinath Krishnamoorthy, Anil Goyal, Sudarsun Santhiappan(参考訳) 本稿では、電子健康記録(EHR)や福利厚生説明(EOB)など、医療医療文書に記載されている表から情報を抽出するエンド・ツー・エンドシステムであるDEXTERを提案する。 DEXTERは4つのサブシステムステージから構成される。 i) 表の検出 二 表型分類 三 細胞の検出及び iv) 細胞内容の抽出。 本稿では,CDeC-Netアーキテクチャを用いた2段階移動学習手法を提案する。 画像サイズに基づくパラメータ化カーネルを用いたテーブル型分類とセル検出のための従来のコンピュータビジョンに基づく手法を行と列の検出のために設計する。 最後に,既存のocrエンジンtessaractを用いて検出されたセルからテキストを抽出する。 本システムを評価するために, 境界, 部分境界, 境界, 色付きテーブルなど, 異なる表構造をカバーする多種多様な文書からなる実世界の医療データセット(Meddata参照)のサンプルを手動でアノテートした。 DeXTERは、アノテートされた実世界の医療データセット上で、市販のAmazon TextractとMicrosoft Azure Form Recognizerシステムより優れていることを実験的に示す。

In this paper, we propose DEXTER, an end to end system to extract information from tables present in medical health documents, such as electronic health records (EHR) and explanation of benefits (EOB). DEXTER consists of four sub-system stages: i) table detection ii) table type classification iii) cell detection; and iv) cell content extraction. We propose a two-stage transfer learning-based approach using CDeC-Net architecture along with Non-Maximal suppression for table detection. We design a conventional computer vision-based approach for table type classification and cell detection using parameterized kernels based on image size for detecting rows and columns. Finally, we extract the text from the detected cells using pre-existing OCR engine Tessaract. To evaluate our system, we manually annotated a sample of the real-world medical dataset (referred to as Meddata) consisting of wide variations of documents (in terms of appearance) covering different table structures, such as bordered, partially bordered, borderless, or coloured tables. We experimentally show that DEXTER outperforms the commercially available Amazon Textract and Microsoft Azure Form Recognizer systems on the annotated real-world medical dataset
翻訳日:2022-07-15 21:20:47 公開日:2022-07-14
# (参考訳) Refign: セマンティックセグメンテーションの逆条件適応のためのアライメントとリファクション

Refign: Align and Refine for Adaptation of Semantic Segmentation to Adverse Conditions ( http://arxiv.org/abs/2207.06825v1 )

ライセンス: CC BY 4.0
David Bruggemann, Christos Sakaridis, Prune Truong, Luc Van Gool(参考訳) 画像に対する高密度画素レベルのセマンティックアノテーションの欠如により、そのような画像のセマンティックセマンティックセグメンテーションにおいて、教師なし領域適応(UDA)に強い関心が寄せられている。 UDAは、通常の条件で訓練されたモデルをターゲットの悪条件領域に適応させる。 一方、駆動シーンを持つ複数のデータセットは、複数の条件にまたがって同じシーンの対応する画像を提供する。 本稿では,これらのクロスドメイン対応を利用した自己学習型UDA手法の汎用拡張であるRefignを提案する。 Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。 ACDCやダークチューリッヒなど,いくつかの悪条件ベンチマークでドメイン適応セマンティックセマンティックセマンティックセグメンテーションを実現するために,両方のステップを合理化するためのカスタムモジュールを設計する。 このアプローチでは、追加のトレーニングパラメータを導入しず、計算オーバーヘッドを最小限に抑え、任意の自己トレーニングベースのudaメソッドを改善するためのドロップイン拡張として使用できる。 コードはhttps://github.com/brdav/refign.comで入手できる。

Due to the scarcity of dense pixel-level semantic annotations for images recorded in adverse visual conditions, there has been a keen interest in unsupervised domain adaptation (UDA) for the semantic segmentation of such images. UDA adapts models trained on normal conditions to the target adverse-condition domains. Meanwhile, multiple datasets with driving scenes provide corresponding images of the same scenes across multiple conditions, which can serve as a form of weak supervision for domain adaptation. We propose Refign, a generic extension to self-training-based UDA methods which leverages these cross-domain correspondences. Refign consists of two steps: (1) aligning the normal-condition image to the corresponding adverse-condition image using an uncertainty-aware dense matching network, and (2) refining the adverse prediction with the normal prediction using an adaptive label correction mechanism. We design custom modules to streamline both steps and set the new state of the art for domain-adaptive semantic segmentation on several adverse-condition benchmarks, including ACDC and Dark Zurich. The approach introduces no extra training parameters, minimal computational overhead -- during training only -- and can be used as a drop-in extension to improve any given self-training-based UDA method. Code is available at https://github.com/brdav/refign.
翻訳日:2022-07-15 21:10:38 公開日:2022-07-14
# (参考訳) iColoriT:視覚変換器を応用したインタラクティブカラー化における局所ヒントの右領域への伝播

iColoriT: Towards Propagating Local Hint to the Right Region in Interactive Colorization by Leveraging Vision Transformer ( http://arxiv.org/abs/2207.06831v1 )

ライセンス: CC BY 4.0
Sanghyeon Lee, Jooyeol Yun, Minho Park(参考訳) Point-Interactive Image Colorizationは、ユーザが特定の場所に色を提供するときのグレースケールイメージのカラー化を目的としている。 ポイントインタラクティブなカラー化手法は、画像全体にユーザが提供する色(すなわちユーザヒント)を適切に伝播させ、ユーザを最小限の労力で適度にカラー化画像を得るのに不可欠である。 しかし、既存のアプローチは、遠方の関連領域にヒントを伝達するために畳み込み層を積み重ねる非効率な設計のため、部分的に着色された結果をもたらすことが多い。 この問題に対処するため,iColoriTは,ユーザヒントを関連領域に伝達し,トランスフォーマーのグローバルな受容領域を活用可能な,新しい点対話型カラー化ビジョントランスフォーマである。 変圧器の自己着脱機構により、icoloritはいくつかの局所的なヒントだけで関連領域を選択的に着色することができる。 提案手法は,デコーダアーキテクチャに取って代わる効率的なアップサンプリング手法であるpixel shufflingを用いて,画像をリアルタイムに着色する。 また, 画素シャッフルによるアーチファクトのアップサンプリング率の増大を緩和するため, 局所安定化層を提案する。 定量的および定性的な結果から,本手法は既存の点間カラー化手法よりも高い性能を示し,ユーザの最小限の努力で正確な色付け画像を生成する。

Point-interactive image colorization aims to colorize grayscale images when a user provides the colors for specific locations. It is essential for point-interactive colorization methods to appropriately propagate user-provided colors (i.e., user hints) in the entire image to obtain a reasonably colorized image with minimal user effort. However, existing approaches often produce partially colorized results due to the inefficient design of stacking convolutional layers to propagate hints to distant relevant regions. To address this problem, we present iColoriT, a novel point-interactive colorization Vision Transformer capable of propagating user hints to relevant regions, leveraging the global receptive field of Transformers. The self-attention mechanism of Transformers enables iColoriT to selectively colorize relevant regions with only a few local hints. Our approach colorizes images in real-time by utilizing pixel shuffling, an efficient upsampling technique that replaces the decoder architecture. Also, in order to mitigate the artifacts caused by pixel shuffling with large upsampling ratios, we present the local stabilizing layer. Extensive quantitative and qualitative results demonstrate that our approach highly outperforms existing methods for point-interactive colorization, producing accurately colorized images with a user's minimal effort.
翻訳日:2022-07-15 20:46:59 公開日:2022-07-14
# (参考訳) 小さなデータセットに基づくニューラルデータ-テキスト生成:大規模言語モデル上での2つの半教師付き学習手法の付加価値の比較

Neural Data-to-Text Generation Based on Small Datasets: Comparing the Added Value of Two Semi-Supervised Learning Approaches on Top of a Large Language Model ( http://arxiv.org/abs/2207.06839v1 )

ライセンス: CC BY 4.0
Chris van der Lee, Thiago Castro Ferreira, Chris Emmery, Travis Wiltshire, Emiel Krahmer(参考訳) 本研究では,テキスト間データ生成のための事前学習モデルと組み合わせた半教師付き学習の効果について検討する。 大規模言語モデルも補足されても,セミ教師付き学習が有効なのかは分かっていない。 本研究は,言語モデルのみを補完するデータ・ツー・テキストシステムと,データ拡張や擬似ラベル半教師付き学習アプローチによって強化された2つのデータ・ツー・テキストシステムを比較して,この質問に答えることを目的とする。 その結果,半教師付き学習は多様性指標のスコアを高くすることがわかった。 出力品質の面では、擬似ラベル方式を用いて言語モデルを用いてデータ間システムのトレーニングセットを拡張することで、テキストの品質スコアが増大するが、データ拡張方式ではトレーニングセット拡張なしでシステムに同様のスコアが得られた。 これらの結果は,言語モデルが存在する場合でも,半教師付き学習アプローチが出力品質と多様性を促進できることを示している。

This study discusses the effect of semi-supervised learning in combination with pretrained language models for data-to-text generation. It is not known whether semi-supervised learning is still helpful when a large-scale language model is also supplemented. This study aims to answer this question by comparing a data-to-text system only supplemented with a language model, to two data-to-text systems that are additionally enriched by a data augmentation or a pseudo-labeling semi-supervised learning approach. Results show that semi-supervised learning results in higher scores on diversity metrics. In terms of output quality, extending the training set of a data-to-text system with a language model using the pseudo-labeling approach did increase text quality scores, but the data augmentation approach yielded similar scores to the system without training set extension. These results indicate that semi-supervised learning approaches can bolster output quality and diversity, even when a language model is also present.
翻訳日:2022-07-15 20:27:59 公開日:2022-07-14
# (参考訳) Covy: ソーシャルディスタンシングにおける乳房検出のためのAIロボット

Covy: An AI-powered Robot for Detection of Breaches in Social Distancing ( http://arxiv.org/abs/2207.06847v1 )

ライセンス: CC BY 4.0
Serge Saaybi, Amjad Yousef Majid, R Venkatesha Prasad, Anis Koubaa, Chris Verhoeven(参考訳) 新型コロナウイルス(COVID-19)などのパンデミックでソーシャルディスタンシングを促進するロボットプラットフォームであるCovyを紹介します。 Covyには新しい複合視覚システムがあり、最大16m離れたところにあるソーシャルディスタンシング違反を検出することができる。 Covyは、Deep Reinforcement Learning(DRL)と確率的ローカライゼーションメソッドを組み合わせたハイブリッドナビゲーションスタックを使用して、周囲を自律的にナビゲートする。 このシステムを構築し,シミュレーション環境と現実環境の両方において,Covyの性能評価を行った。 これらの結果から,ハイブリッドナビゲーションスタックは純粋なDRLベースのソリューションよりも堅牢であることがわかった。

We present Covy -- a robotic platform that promotes social distancing during pandemics like COVID-19. Covy features a novel compound vision system that enables it to detect social distancing breaches up to 16m away. Covy navigates its surroundings autonomously using a hybrid navigation stack that combines Deep Reinforcement Learning (DRL)and a probabilistic localization method. We built the complete system and evaluated Covy's performance through extensive sets of experiments both in simulated and realistic environments. Amongst others, our results show that the hybrid navigation stack is more robust compared to a pure DRL-based solution.
翻訳日:2022-07-15 20:26:42 公開日:2022-07-14
# (参考訳) RSD-GAN: 音声対テキスト攻撃に対する正規化ソボレフ防衛GAN

RSD-GAN: Regularized Sobolev Defense GAN Against Speech-to-Text Adversarial Attacks ( http://arxiv.org/abs/2207.06858v1 )

ライセンス: CC BY 4.0
Mohammad Esmaeilpour, Nourhene Chaalia, Patrick Cardinal(参考訳) 本稿では,最先端音声テキスト転写システムの性能に挑戦するために開発された,様々な敵攻撃に対処する新しい合成ベース防御アルゴリズムを提案する。 本アルゴリズムは,sobolevベースのganを実装し,生成モデル,特に識別器ネットワークの機能を効果的に制御する新しい正規化器を提案する。 被害者のdeepspeech, kaldi, lingvo音声転写システムに対する多数の実験を行った結果, 攻撃対象および非標的攻撃の包括的範囲に対して, 防御的アプローチの顕著な性能が一致した。

This paper introduces a new synthesis-based defense algorithm for counteracting with a varieties of adversarial attacks developed for challenging the performance of the cutting-edge speech-to-text transcription systems. Our algorithm implements a Sobolev-based GAN and proposes a novel regularizer for effectively controlling over the functionality of the entire generative model, particularly the discriminator network during training. Our achieved results upon carrying out numerous experiments on the victim DeepSpeech, Kaldi, and Lingvo speech transcription systems corroborate the remarkable performance of our defense approach against a comprehensive range of targeted and non-targeted adversarial attacks.
翻訳日:2022-07-15 20:16:57 公開日:2022-07-14
# (参考訳) 低リソースキューチュアASR改善のためのデータ拡張

Data Augmentation for Low-Resource Quechua ASR Improvement ( http://arxiv.org/abs/2207.06872v1 )

ライセンス: CC BY 4.0
Rodolfo Zevallos, Nuria Bel, Guillermo C\'ambara, Mireia Farr\'us and Jordi Luque(参考訳) 音声認識(Automatic Speech Recognition, ASR)は、ユーザーが自動化されたシステムと対話するのを助ける新しいサービスの鍵となる要素である。 ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。 しかし、これらの方法の使用は、数百時間から数千時間のオーディオと対応する書き起こしを持つ言語でのみ利用可能である。 いわゆる低リソース言語が,ASRシステムの性能向上に寄与するリソースの可用性を向上するために,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。 本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。 我々は,wav2letter++モデルを用いたquechua用asrの開発実験を行った。 ベースモデルへのアプローチにより,WERを8.73%削減した。 結果として得られたasrモデルは22.75%のwerを得て、99時間のオリジナルリソースと99時間の合成データとテキスト拡張と合成音声ジェネラティクスの組み合わせで訓練された。

Automatic Speech Recognition (ASR) is a key element in new services that helps users to interact with an automated system. Deep learning methods have made it possible to deploy systems with word error rates below 5% for ASR of English. However, the use of these methods is only available for languages with hundreds or thousands of hours of audio and their corresponding transcriptions. For the so-called low-resource languages to speed up the availability of resources that can improve the performance of their ASR systems, methods of creating new resources on the basis of existing ones are being investigated. In this paper we describe our data augmentation approach to improve the results of ASR models for low-resource and agglutinative languages. We carry out experiments developing an ASR for Quechua using the wav2letter++ model. We reduced WER by 8.73% through our approach to the base model. The resulting ASR model obtained 22.75% WER and was trained with 99 hours of original resources and 99 hours of synthetic data obtained with a combination of text augmentation and synthetic speech generati
翻訳日:2022-07-15 20:01:56 公開日:2022-07-14
# (参考訳) ベイズキャップ:凍結ニューラルネットワークの校正不確かさに対するベイズID上限

BayesCap: Bayesian Identity Cap for Calibrated Uncertainty in Frozen Neural Networks ( http://arxiv.org/abs/2207.06873v1 )

ライセンス: CC BY 4.0
Uddeshya Upadhyay, Shyamgopal Karthik, Yanbei Chen, Massimiliano Mancini, Zeynep Akata(参考訳) 高品質な校正不確実性推定は、多くの実世界のアプリケーション、特にディープラーニングベースのデプロイMLシステムにとって不可欠である。 ベイズ深層学習技術は不確実性の推定を可能にするが、大規模データセットでトレーニングすることは高価なプロセスであり、ベイズ以外のモデルと競合するとは限らない。 さらに、すでに訓練され、デプロイされている高性能なディープラーニングモデルの多くは、本質的にベイジアンではない。 これらの問題に対処するために,凍結モデルに対するベイズIDマッピングを学習し,不確実性の推定を可能にするBayesCapを提案する。 bayescapは、元のデータセットのごく一部でトレーニングできるメモリ効率のよい方法であり、予測に校正された不確実性推定を提供することで、事前訓練された非ベイズ型コンピュータビジョンモデルを拡張する。 (i)モデルの性能を阻害し、 (二)スクラッチからモデルを再訓練する費用がかかること。 提案手法は様々なアーキテクチャやタスクに依存しない。 本稿では,画像超解像,デブロアリング,インペイント,医用画像翻訳などの重要な応用など,多種多様なアーキテクチャを用いた多種多様なタスクに対する本手法の有効性を示す。 さらに, 自動走行における深さ推定のような重要なシナリオにおける分布外サンプルの検出に, 導出の不確実性推定を適用する。 コードはhttps://github.com/ExplainableML/BayesCapで入手できる。

High-quality calibrated uncertainty estimates are crucial for numerous real-world applications, especially for deep learning-based deployed ML systems. While Bayesian deep learning techniques allow uncertainty estimation, training them with large-scale datasets is an expensive process that does not always yield models competitive with non-Bayesian counterparts. Moreover, many of the high-performing deep learning models that are already trained and deployed are non-Bayesian in nature and do not provide uncertainty estimates. To address these issues, we propose BayesCap that learns a Bayesian identity mapping for the frozen model, allowing uncertainty estimation. BayesCap is a memory-efficient method that can be trained on a small fraction of the original dataset, enhancing pretrained non-Bayesian computer vision models by providing calibrated uncertainty estimates for the predictions without (i) hampering the performance of the model and (ii) the need for expensive retraining the model from scratch. The proposed method is agnostic to various architectures and tasks. We show the efficacy of our method on a wide variety of tasks with a diverse set of architectures, including image super-resolution, deblurring, inpainting, and crucial application such as medical image translation. Moreover, we apply the derived uncertainty estimates to detect out-of-distribution samples in critical scenarios like depth estimation in autonomous driving. Code is available at https://github.com/ExplainableML/BayesCap.
翻訳日:2022-07-15 19:47:20 公開日:2022-07-14
# (参考訳) semeval-2022タスク11:低資源言語における意味的曖昧な設定における複雑ner

Multilinguals at SemEval-2022 Task 11: Complex NER in Semantically Ambiguous Settings for Low Resource Languages ( http://arxiv.org/abs/2207.06882v1 )

ライセンス: CC BY-SA 4.0
Amit Pandey, Swayatta Daw, Narendra Babu Unnam and Vikram Pudi(参考訳) 事前学習した言語モデルを活用して,中国語とスペイン語の2つの低リソース言語に対する複雑なnerの課題を解決する。 我々はWWM(Whole Word Masking)の手法を用いて、大規模かつ教師なしコーパス上でのマスキング言語モデリング目標の性能を向上させる。 我々は,crf,bilstms,線形分類器を微調整されたbert層上に組み込んだ,複数のニューラルネットワークアーキテクチャを実験する。 我々のモデルはベースラインをかなりのマージンで上回り、最高のパフォーマンスモデルはブラインドテストセットの評価リーダーボードで競争的な立場を得る。

We leverage pre-trained language models to solve the task of complex NER for two low-resource languages: Chinese and Spanish. We use the technique of Whole Word Masking(WWM) to boost the performance of masked language modeling objective on large and unsupervised corpora. We experiment with multiple neural network architectures, incorporating CRF, BiLSTMs, and Linear Classifiers on top of a fine-tuned BERT layer. All our models outperform the baseline by a significant margin and our best performing model obtains a competitive position on the evaluation leaderboard for the blind test set.
翻訳日:2022-07-15 19:25:23 公開日:2022-07-14
# (参考訳) 複雑ネットワークとしての危機:PKKにおける画像の共存と階層性

Insurgency as Complex Network: Image Co-Appearance and Hierarchy in the PKK ( http://arxiv.org/abs/2207.06946v1 )

ライセンス: CC BY 4.0
Ollie Ballinger(参考訳) 紛争の結果に反抗的な集団構造の重要性が認識されるようになってはいるが、実証的な研究はほとんどない。 この問題は、武装集団構造に関するデータのアクセス不能に根ざしているが、反政府勢力はしばしば大量の画像データをインターネットに公開している。 本稿では,深層学習を用いた写真における協調出現に基づくソーシャル・ネットワーク・グラフ作成を自動化し,この豊富なデータ源を利用する新しい手法を開発する。 トルコのクルド人武装組織「PKK」が公開している19,115枚の死亡画像を用いて,同ネットワークにおける個人の中央集中度が反乱集団のランクと密接な相関があることを実証した。

Despite a growing recognition of the importance of insurgent group structure on conflict outcomes, there is very little empirical research thereon. Though this problem is rooted in the inaccessibility of data on militant group structure, insurgents frequently publish large volumes of image data on the internet. In this paper, I develop a new methodology that leverages this abundant but underutilized source of data by automating the creation of a social network graph based on co-appearance in photographs using deep learning. Using a trove of 19,115 obituary images published online by the PKK, a Kurdish militant group in Turkey, I demonstrate that an individual's centrality in the resulting co-appearance network is closely correlated with their rank in the insurgent group.
翻訳日:2022-07-15 19:15:23 公開日:2022-07-14
# (参考訳) 光外挿用屋外シーンの因子化および制御可能な神経再レンダリング

Factorized and Controllable Neural Re-Rendering of Outdoor Scene for Photo Extrapolation ( http://arxiv.org/abs/2207.06899v1 )

ライセンス: CC BY 4.0
Boming Zhao, Bangbang Yang, Zhenyang Li, Zuoyue Li, Guofeng Zhang, Jiashu Zhao, Dawei Yin, Zhaopeng Cui, Hujun Bao(参考訳) 部分的に撮影されたシーンからフルシーンに既存の観光写真を拡大することは、写真アプリケーションにとって望ましい経験の1つだ。 写真の補間はよく研究されているが、写真(セルフィーなど)を狭い視野からより広い視点へと外挿することは、類似のビジュアルスタイルを維持しながら、はるかに困難である。 そこで,本論文では,屋外のインターネット写真集合から光リアリスティック・ノベル・ビューを生成するための因子化ニューラル・リレンダリングモデルを提案する。 具体的には,まず,幾何学,外観,照明の分解におけるあいまいさを扱うために,新しい因子化再レンダリングパイプラインを開発した。 また,インターネット画像における予期せぬ閉塞に対処するための複合訓練戦略を提案する。 さらに,観光写真の外挿時の写真リアリズムを高めるために,狭い撮影画像から外挿したニューラルレンダリング画像へのテクスチャ詳細を自動的に伝達する,外観詳細を補完する新たなリアリズム拡張プロセスを提案する。 屋外シーンにおける実験と写真編集の例では,提案手法がフォトリアリズムと下流アプリケーションの両方において優れた性能を示す。

Expanding an existing tourist photo from a partially captured scene to a full scene is one of the desired experiences for photography applications. Although photo extrapolation has been well studied, it is much more challenging to extrapolate a photo (i.e., selfie) from a narrow field of view to a wider one while maintaining a similar visual style. In this paper, we propose a factorized neural re-rendering model to produce photorealistic novel views from cluttered outdoor Internet photo collections, which enables the applications including controllable scene re-rendering, photo extrapolation and even extrapolated 3D photo generation. Specifically, we first develop a novel factorized re-rendering pipeline to handle the ambiguity in the decomposition of geometry, appearance and illumination. We also propose a composited training strategy to tackle the unexpected occlusion in Internet images. Moreover, to enhance photo-realism when extrapolating tourist photographs, we propose a novel realism augmentation process to complement appearance details, which automatically propagates the texture details from a narrow captured photo to the extrapolated neural rendered image. The experiments and photo editing examples on outdoor scenes demonstrate the superior performance of our proposed method in both photo-realism and downstream applications.
翻訳日:2022-07-15 18:42:14 公開日:2022-07-14
# (参考訳) ネットワーク側飛行遅延予測のための時空間伝搬学習

Spatiotemporal Propagation Learning for Network-Wide Flight Delay Prediction ( http://arxiv.org/abs/2207.06959v1 )

ライセンス: CC BY 4.0
Yuankai Wu, Hongyu Yang, Yi Lin, Hong Liu(参考訳) 複数の空港間での遅延伝搬機構の解明は、航空産業関係者の意思決定において重要な、正確かつ解釈可能な遅延予測の基礎となる。 主な課題は、時空間依存性と遅延伝播に関連する外因性要因を効果的に活用することである。 しかし、以前の作品では限られた時空間パターンしか考慮しておらず、要因は少ない。 遅延予測のためのより包括的伝播モデリングを促進するために,時空間依存獲得に斬新な時空分離グラフ畳み込みネットワークである時空間伝播ネットワーク (stpn) を提案する。 空間的関係モデリングの観点から,近距離と航空機のスケジュールを考慮したマルチグラフ畳み込みモデルを提案する。 時間依存捕獲の側面から,遅延時系列の複数種類の時間依存を明示的に推論し,エンドツーエンドで学習できるマルチヘッド自己追尾機構を提案する。 共同空間学習モデルと時間学習モデルがクロネッカー積の和を生成し,空間的および時間的隣接行列の和に対する時空間依存性を決定づけることを示した。 これにより、STPNは遅延伝搬をモデル化するための空間的および時間的要因のクロストークを可能にする。 さらに、STPNの各層に圧縮励起モジュールを追加し、有意義な時空間特性を増強する。 そこで,本研究では,spnを空港ネットワークにおける多段階事前到着・出発遅延予測に適用する。 本モデルの有効性を検証するために,米国と中国のフライト遅延を含む2つの実世界の遅延データセットを用いて実験を行った。 さらに, STPN が生成した反ファクトは, 説明可能な遅延伝搬パターンを学習することを示す。

Demystifying the delay propagation mechanisms among multiple airports is fundamental to precise and interpretable delay prediction, which is crucial during decision-making for all aviation industry stakeholders. The principal challenge lies in effectively leveraging the spatiotemporal dependencies and exogenous factors related to the delay propagation. However, previous works only consider limited spatiotemporal patterns with few factors. To promote more comprehensive propagation modeling for delay prediction, we propose SpatioTemporal Propagation Network (STPN), a space-time separable graph convolutional network, which is novel in spatiotemporal dependency capturing. From the aspect of spatial relation modeling, we propose a multi-graph convolution model considering both geographic proximity and airline schedule. From the aspect of temporal dependency capturing, we propose a multi-head self-attentional mechanism that can be learned end-to-end and explicitly reason multiple kinds of temporal dependency of delay time series. We show that the joint spatial and temporal learning models yield a sum of the Kronecker product, which factors the spatiotemporal dependence into the sum of several spatial and temporal adjacency matrices. By this means, STPN allows cross-talk of spatial and temporal factors for modeling delay propagation. Furthermore, a squeeze and excitation module is added to each layer of STPN to boost meaningful spatiotemporal features. To this end, we apply STPN to multi-step ahead arrival and departure delay prediction in large-scale airport networks. To validate the effectiveness of our model, we experiment with two real-world delay datasets, including U.S and China flight delays; and we show that STPN outperforms state-of-the-art methods. In addition, counterfactuals produced by STPN show that it learns explainable delay propagation patterns.
翻訳日:2022-07-15 17:59:32 公開日:2022-07-14
# (参考訳) MedFuse:臨床時系列データと胸部X線画像とのマルチモーダル融合

MedFuse: Multi-modal fusion with clinical time-series data and chest X-ray images ( http://arxiv.org/abs/2207.07027v1 )

ライセンス: CC BY 4.0
Nasir Hayat, Krzysztof J. Geras, Farah E. Shamout(参考訳) マルチモーダル融合アプローチは、異なるデータソースからの情報を統合することを目的としている。 サンプルが"ペア化された"モダリティで構成されるオーディオ視覚アプリケーションのような自然なデータセットとは異なり、医療データはしばしば非同期に収集される。 したがって、与えられたサンプルに対する全てのモダリティの存在を必要とすることは、臨床作業には現実的ではなく、トレーニング中のデータセットのサイズを著しく制限する。 本稿では,概念的にシンプルだが有望なLSTMベースの融合モジュールであるMedFuseを提案する。 MIMIC-IVデータセットにおける臨床時系列データとMIMIC-CXRにおける対応する胸部X線画像を用いて、核内死亡率予測と表現型分類のための融合法の評価を行い、新しいベンチマーク結果を導入した。 より複雑なマルチモーダル融合戦略と比較して、MedFuseは完全なペアテストセットにおいて大きなマージンでパフォーマンス改善を提供する。 また、胸部x線画像が欠落しているサンプルを含む部分対のテストセットでも頑健である。 再現性のためのコードを公開し、将来競合するモデルの評価を可能にする。

Multi-modal fusion approaches aim to integrate information from different data sources. Unlike natural datasets, such as in audio-visual applications, where samples consist of "paired" modalities, data in healthcare is often collected asynchronously. Hence, requiring the presence of all modalities for a given sample is not realistic for clinical tasks and significantly limits the size of the dataset during training. In this paper, we propose MedFuse, a conceptually simple yet promising LSTM-based fusion module that can accommodate uni-modal as well as multi-modal input. We evaluate the fusion method and introduce new benchmark results for in-hospital mortality prediction and phenotype classification, using clinical time-series data in the MIMIC-IV dataset and corresponding chest X-ray images in MIMIC-CXR. Compared to more complex multi-modal fusion strategies, MedFuse provides a performance improvement by a large margin on the fully paired test set. It also remains robust across the partially paired test set containing samples with missing chest X-ray images. We release our code for reproducibility and to enable the evaluation of competing models in the future.
翻訳日:2022-07-15 17:37:11 公開日:2022-07-14
# (参考訳) タンパク質量スペクトルのウェーブレット解析による卵巣癌の早期検出

Early Detection of Ovarian Cancer by Wavelet Analysis of Protein Mass Spectra ( http://arxiv.org/abs/2207.07028v1 )

ライセンス: CC BY 4.0
Dixon Vimalajeewa, Scott Alan Bruce, Brani Vidakovic(参考訳) 早期の卵巣癌の高精度かつ効率的な検出は,適切な治療が重要である。 早期診断の研究で調査された第一線モダリティは、タンパク質質量スペクトルから抽出された特徴である。 しかし、この方法はスペクトル応答の特定のサブセットのみを考慮し、診断情報を含むタンパク質の発現レベル間の相互作用を無視する。 本稿では,タンパク質の質量スペクトルを識別的特徴として自動的に検索する新たなモダリティを提案する。 タンパク質質量スペクトルのウェーブレット分解を行い、得られたウェーブレット係数のエネルギーにおける準位減衰率を推定することにより、自己相似性を評価する。 レベルワイドエネルギーは距離分散を用いてロバストに推定され、ローリングウィンドウアプローチにより局所的に推定される。 この結果、がんの存在を示すことができるタンパク質間の相互作用を特徴付けるために使用できる速度の集まりとなる。 識別ディスクリプタは、これらの進化率から選択され、特徴の分類に使用される。 提案するウェーブレットに基づく特徴は、米国国立がん研究所が公表した2つのデータセットを用いて、卵巣癌の早期診断のための既存の文献に提案されている特徴と併用される。 新たなモダリティによるウェーブレットベースの機能を含めると、早期卵巣癌検出の診断性能が向上する。 これは、新しい卵巣癌診断情報を特徴付けるモダリティの提案の能力を示す。

Accurate and efficient detection of ovarian cancer at early stages is critical to ensure proper treatments for patients. Among the first-line modalities investigated in studies of early diagnosis are features distilled from protein mass spectra. This method, however, considers only a specific subset of spectral responses and ignores the interplay among protein expression levels, which can also contain diagnostic information. We propose a new modality that automatically searches protein mass spectra for discriminatory features by considering the self-similar nature of the spectra. Self-similarity is assessed by taking a wavelet decomposition of protein mass spectra and estimating the rate of level-wise decay in the energies of the resulting wavelet coefficients. Level-wise energies are estimated in a robust manner using distance variance, and rates are estimated locally via a rolling window approach. This results in a collection of rates that can be used to characterize the interplay among proteins, which can be indicative of cancer presence. Discriminatory descriptors are then selected from these evolutionary rates and used as classifying features. The proposed wavelet-based features are used in conjunction with features proposed in the existing literature for early stage diagnosis of ovarian cancer using two datasets published by the American National Cancer Institute. Including the wavelet-based features from the new modality results in improvements in diagnostic performance for early-stage ovarian cancer detection. This demonstrates the ability of the proposed modality to characterize new ovarian cancer diagnostic information.
翻訳日:2022-07-15 17:11:56 公開日:2022-07-14
# (参考訳) アメリカ空軍のための一連のAIチャレンジの開発

Developing a Series of AI Challenges for the United States Department of the Air Force ( http://arxiv.org/abs/2207.07033v1 )

ライセンス: CC BY 4.0
Vijay Gadepally, Gregory Angelides, Andrei Barbu, Andrew Bowne, Laura J. Brattain, Tamara Broderick, Armando Cabrera, Glenn Carl, Ronisha Carter, Miriam Cha, Emilie Cowen, Jesse Cummings, Bill Freeman, James Glass, Sam Goldberg, Mark Hamilton, Thomas Heldt, Kuan Wei Huang, Phillip Isola, Boris Katz, Jamie Koerner, Yen-Chen Lin, David Mayo, Kyle McAlpin, Taylor Perron, Jean Piou, Hrishikesh M. Rao, Hayley Reynolds, Kaira Samuel, Siddharth Samsi, Morgan Schmidt, Leslie Shing, Olga Simek, Brandon Swenson, Vivienne Sze, Jonathan Taylor, Paul Tylkin, Mark Veillette, Matthew L Weiss, Allan Wollaber, Sophia Yuditskaya, and Jeremy Kepner(参考訳) 連邦政府の一連のイニシアチブと命令を通じて、米国政府はaiにおけるアメリカのリーダーシップを確保するために協力して努力している。 これらの広範な戦略文書は、アメリカ空軍(daf)のような組織に影響を与えている。 DAF-MIT AI Acceleratorは、AI研究者とDAFのミッション要件の間のギャップを埋めるための、DAFとMITの間のイニシアチブである。 DAF-MIT AI Acceleratorが支援するいくつかのプロジェクトは、多くの連邦AI研究優先順位に対処する公的な課題を開発している。 これらの課題は、大規模なai対応データセットを一般公開し、オープンソースソリューションにインセンティブを与え、さらなる研究を刺激するデュアルユーステクノロジの需要信号を作成することによって、優先順位を目標とする。 本稿では,これらの公的な課題と,その応用が科学的発展にどのように寄与するかについて述べる。

Through a series of federal initiatives and orders, the U.S. Government has been making a concerted effort to ensure American leadership in AI. These broad strategy documents have influenced organizations such as the United States Department of the Air Force (DAF). The DAF-MIT AI Accelerator is an initiative between the DAF and MIT to bridge the gap between AI researchers and DAF mission requirements. Several projects supported by the DAF-MIT AI Accelerator are developing public challenge problems that address numerous Federal AI research priorities. These challenges target priorities by making large, AI-ready datasets publicly available, incentivizing open-source solutions, and creating a demand signal for dual use technologies that can stimulate further research. In this article, we describe these public challenges being developed and how their application contributes to scientific advances.
翻訳日:2022-07-15 16:55:59 公開日:2022-07-14
# (参考訳) ShapleyからPearsonへ:Shapleyバリューによる仮説テスト

From Shapley back to Pearson: Hypothesis Testing via the Shapley Value ( http://arxiv.org/abs/2207.07038v1 )

ライセンス: CC BY 4.0
Jacopo Teneggi, Beepul Bharti, Yaniv Romano and Jeremias Sulam(参考訳) マシンラーニングモデル、特にニューラルネットワークは、金融サービスから公共の安全、医療に至るまで、さまざまな分野の高リスクシナリオにおいて、意思決定を知らせるためにますます使われています。 ニューラルネットワークは多くの設定で顕著なパフォーマンスを達成したが、その複雑な性質は、現実のシナリオにおける信頼性、信頼性、公平性への懸念を引き起こす。 その結果,モデルの予測に影響を及ぼす特徴を明らかにするために,いくつかのアポテリオリ説明法が提案されている。 特に、Shapley値(いくつかの望ましい性質を満たすゲーム理論量)は、機械学習の説明可能性文学で人気を博した。 しかし、より伝統的に、統計的学習における特徴の重要性は条件付き独立によって形式化され、それをテストする標準的な方法は条件付きランダム化テスト(CRT)である。 これまでのところ、解釈可能性と特徴の重要性に関する2つの視点は、別々に検討されてきた。 本研究では,shapleyに基づく説明手法と特徴量に対する条件付き独立性テストが密接な関係にあることを示す。 より正確には、シャプリー係数の評価は、crtに類似するが異なるヌル仮説のために実装されるような条件付き独立性テストの特定の集合の実行に等しいことが証明される。 さらに、得られたゲーム理論値が、そのようなテストの$p$-値を上乗せする。 その結果、制御されたI型誤差で精度の高い統計的意味を持つ大きなシェープリー係数が得られた。

Machine learning models, in particular artificial neural networks, are increasingly used to inform decision making in high-stakes scenarios across a variety of fields--from financial services, to public safety, and healthcare. While neural networks have achieved remarkable performance in many settings, their complex nature raises concerns on their reliability, trustworthiness, and fairness in real-world scenarios. As a result, several a-posteriori explanation methods have been proposed to highlight the features that influence a model's prediction. Notably, the Shapley value--a game theoretic quantity that satisfies several desirable properties--has gained popularity in the machine learning explainability literature. More traditionally, however, feature importance in statistical learning has been formalized by conditional independence, and a standard way to test for it is via Conditional Randomization Tests (CRTs). So far, these two perspectives on interpretability and feature importance have been considered distinct and separate. In this work, we show that Shapley-based explanation methods and conditional independence testing for feature importance are closely related. More precisely, we prove that evaluating a Shapley coefficient amounts to performing a specific set of conditional independence tests, as implemented by a procedure similar to the CRT but for a different null hypothesis. Furthermore, the obtained game-theoretic values upper bound the $p$-values of such tests. As a result, we grant large Shapley coefficients with a precise statistical sense of importance with controlled type I error.
翻訳日:2022-07-15 16:42:06 公開日:2022-07-14
# (参考訳) 畳み込みバイパスはより良い視覚トランスフォーマーアダプターです

Convolutional Bypasses Are Better Vision Transformer Adapters ( http://arxiv.org/abs/2207.07039v1 )

ライセンス: CC0 1.0
Shibo Jie and Zhi-Hong Deng(参考訳) Pretrain-then-finetuneパラダイムはコンピュータビジョンで広く採用されている。 しかし、ViT(Vision Transformer)のサイズが指数関数的に大きくなるにつれて、ストレージのオーバーヘッドが重いため、完全な微調整は禁止される。 言語トランスフォーマー上のパラメータ効率変換学習(PETL)によって動機付けられた最近の研究は、事前訓練されたViTに軽量適応モジュール(アダプタ層やプロンプトトークンなど)を挿入し、事前訓練された重みが凍結されている間にのみこれらのモジュールを微調整する。 しかし、これらのモジュールはもともと言語モデルを微調整するために提案された。 vitにうまく移植できたが、その設計にはビジュアルタスクの事前知識が欠けている。 本稿では,適応モジュールとしてViTに畳み込みバイパス(Convpass)を構築することを提案する。 他のPETL法とは異なり、Convpassは畳み込み層のハードコードによる帰納バイアスの恩恵を受けており、特に低データ構造において視覚的タスクに適している。 VTAB-1kベンチマークと数ショットの学習データセットの実験結果は、Convpassが現在の言語指向適応モジュールより優れており、視覚モデルのための視覚指向適応モジュールを調整する必要があることを示している。

The pretrain-then-finetune paradigm has been widely adopted in computer vision. But as the size of Vision Transformer (ViT) grows exponentially, the full finetuning becomes prohibitive in view of the heavier storage overhead. Motivated by parameter-efficient transfer learning (PETL) on language transformers, recent studies attempt to insert lightweight adaptation modules (e.g., adapter layers or prompt tokens) to pretrained ViT and only finetune these modules while the pretrained weights are frozen. However, these modules were originally proposed to finetune language models. Although ported well to ViT, their design lacks prior knowledge for visual tasks. In this paper, we propose to construct Convolutional Bypasses (Convpass) in ViT as adaptation modules, introducing only a small amount (less than 0.5% of model parameters) of trainable parameters to adapt the large ViT. Different from other PETL methods, Convpass benefits from the hard-coded inductive bias of convolutional layers and thus is more suitable for visual tasks, especially in the low-data regime. Experimental results on VTAB-1k benchmark and few-shot learning datasets demonstrate that Convpass outperforms current language-oriented adaptation modules, demonstrating the necessity to tailor vision-oriented adaptation modules for vision models.
翻訳日:2022-07-15 16:04:27 公開日:2022-07-14
# (参考訳) 対物探索のためのクエリ-最適アルゴリズム

A Query-Optimal Algorithm for Finding Counterfactuals ( http://arxiv.org/abs/2207.07072v1 )

ライセンス: CC BY 4.0
Guy Blanc, Caleb Koch, Jane Lange, Li-Yang Tan(参考訳) 我々は,その性能に関する理論的保証が強い反事実を見つけるアルゴリズムを設計する。 任意の単調モデル $f : x^d \to \{0,1\}$ とインスタンス $x^\star$ に対して、我々のアルゴリズムは \[ {s(f)^{o(\delta_f(x^\star))}\cdot \log d}\] クエリを$f$ とし、$x^\star$: 最寄りのインスタンス $x'$ to $x^\star$ に対して$f(x')\ne f(x^\star)$ を返す。 ここで $s(f)$ はリプシッツ定数の離散的類似である $f$ の感度であり、$\delta_f(x^\star)$ は $x^\star$ から最も近い反事実までの距離である。 以前の最もよく知られたクエリの複雑さは$d^{\,O(\Delta_f(x^\star))}$で、ブルートフォースローカルサーチによって達成できる。 さらに、任意のアルゴリズムのクエリ複雑性に対して、$S(f)^{\Omega(\Delta_f(x^\star))} + \Omega(\log d)$の低い境界を証明し、アルゴリズムの保証が本質的に最適であることを示す。

We design an algorithm for finding counterfactuals with strong theoretical guarantees on its performance. For any monotone model $f : X^d \to \{0,1\}$ and instance $x^\star$, our algorithm makes \[ {S(f)^{O(\Delta_f(x^\star))}\cdot \log d}\] queries to $f$ and returns {an {\sl optimal}} counterfactual for $x^\star$: a nearest instance $x'$ to $x^\star$ for which $f(x')\ne f(x^\star)$. Here $S(f)$ is the sensitivity of $f$, a discrete analogue of the Lipschitz constant, and $\Delta_f(x^\star)$ is the distance from $x^\star$ to its nearest counterfactuals. The previous best known query complexity was $d^{\,O(\Delta_f(x^\star))}$, achievable by brute-force local search. We further prove a lower bound of $S(f)^{\Omega(\Delta_f(x^\star))} + \Omega(\log d)$ on the query complexity of any algorithm, thereby showing that the guarantees of our algorithm are essentially optimal.
翻訳日:2022-07-15 15:49:02 公開日:2022-07-14
# (参考訳) adversarial sign-corrupted isotonic regression

Adversarial Sign-Corrupted Isotonic Regression ( http://arxiv.org/abs/2207.07075v1 )

ライセンス: CC BY 4.0
Shamindra Shrotriya, Matey Neykov(参考訳) 古典的な不定値等張回帰は、真の信号の単調性制約の下で非パラメトリックな推定を伴う。 この生成過程の変種について考察し, 逆符号分解型等張性回帰 (\textt{asci}) と呼ぶ。 この texttt{ASCI} 設定の下では、敵は真のイソトニック応答に完全にアクセスでき、それらをサインダウンする自由がある。 これらの符号分解応答による真の単調信号の推定は、非常に難しい課題である。 特に、符号崩壊は単調性に反するように設計されており、崩壊した応答項間の大きな依存を引き起こす可能性がある。 この意味では、 \texttt{ASCI} 回帰は等方性回帰の逆ストレステストと見なすことができる。 我々のモチベーションは、この敵対的設定下で、モノトーン信号の効率的なロバストな推定が実現可能かどうかを理解することにある。 我々は, \texttt{ascifit} 設定下での3段階推定手順である \texttt{ascifit} を開発した。 \texttt{ASCIFIT}プロシージャは概念的にはシンプルで、既存のソフトウェアで実装しやすく、重要な前処理と後処理の補正に \texttt{PAVA} を適用する。 この手順を定式化し、その理論的な保証を鋭い高確率上界と最小下界という形で証明する。 本研究の成果を詳細なシミュレーションで示す。

Classical univariate isotonic regression involves nonparametric estimation under a monotonicity constraint of the true signal. We consider a variation of this generating process, which we term adversarial sign-corrupted isotonic (\texttt{ASCI}) regression. Under this \texttt{ASCI} setting, the adversary has full access to the true isotonic responses, and is free to sign-corrupt them. Estimating the true monotonic signal given these sign-corrupted responses is a highly challenging task. Notably, the sign-corruptions are designed to violate monotonicity, and possibly induce heavy dependence between the corrupted response terms. In this sense, \texttt{ASCI} regression may be viewed as an adversarial stress test for isotonic regression. Our motivation is driven by understanding whether efficient robust estimation of the monotone signal is feasible under this adversarial setting. We develop \texttt{ASCIFIT}, a three-step estimation procedure under the \texttt{ASCI} setting. The \texttt{ASCIFIT} procedure is conceptually simple, easy to implement with existing software, and consists of applying the \texttt{PAVA} with crucial pre- and post-processing corrections. We formalize this procedure, and demonstrate its theoretical guarantees in the form of sharp high probability upper bounds and minimax lower bounds. We illustrate our findings with detailed simulations.
翻訳日:2022-07-15 15:25:56 公開日:2022-07-14
# (参考訳) パラメータ効率の良いプロンプトチューニングによる一般化と校正型ニューラルテキスト検索

Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers ( http://arxiv.org/abs/2207.07087v1 )

ライセンス: CC BY 4.0
Weng Lam Tam, Xiao Liu, Kaixuan Ji, Lilong Xue, Xingjian Zhang, Yuxiao Dong, Jiahua Liu, Maodi Hu, Jie Tang(参考訳) プロンプトチューニングは、事前トレーニングされたモデルでタスク固有のパラメータをいくつか更新しようとする。 言語理解と生成タスクの両方のパラメータセットの微調整と同等のパフォーマンスを達成している。 そこで本研究では,ニューラルテキスト検索における即時チューニングの問題について検討する。 本稿では,テキスト検索のためのパラメータ効率のよいプロンプトチューニングを提案する。 この戦略は, 微調整に基づく検索手法により, パラメータ非効率性と弱一般化性の2つの問題を緩和できることを示す。 特に、検索モデルのドメイン外ゼロショット一般化を大幅に改善することができる。 モデルパラメータの0.1%だけを更新することで、プロンプトチューニング戦略は、すべてのパラメータが更新される従来の方法よりも優れた一般化性能を達成するのに役立つ。 最後に,検索者のクロストピックな一般化可能性に関する研究を容易にするために,87のトピックで18kのクエリー結果ペアを用いた学術検索データセットをキュレートし,公開する。

Prompt tuning attempts to update few task-specific parameters in pre-trained models. It has achieved comparable performance to fine-tuning of the full parameter set on both language understanding and generation tasks. In this work, we study the problem of prompt tuning for neural text retrievers. We introduce parameter-efficient prompt tuning for text retrieval across in-domain, cross-domain, and cross-topic settings. Through an extensive analysis, we show that the strategy can mitigate the two issues -- parameter-inefficiency and weak generalizability -- faced by fine-tuning based retrieval methods. Notably, it can significantly improve the out-of-domain zero-shot generalization of the retrieval models. By updating only 0.1% of the model parameters, the prompt tuning strategy can help retrieval models achieve better generalization performance than traditional methods in which all parameters are updated. Finally, to facilitate research on retrievers' cross-topic generalizability, we curate and release an academic retrieval dataset with 18K query-results pairs in 87 topics, making it the largest topic-specific one to date.
翻訳日:2022-07-15 15:24:38 公開日:2022-07-14
# 原子性ニューラルネットワークの予測のための不確かさ定量化

Uncertainty quantification for predictions of atomistic neural networks ( http://arxiv.org/abs/2207.06916v1 )

ライセンス: Link先を確認
Luis Itza Vazquez-Salazar, Eric D. Boittier, and M. Meuwly(参考訳) 量子化学参照データにおけるトレーニングニューラルネットワーク(nns)の予測における不確実性定量化の価値を定量的に検討した。 このため、physnet nnのアーキテクチャは好適に修正され、結果として得られたモデルは、キャリブレーションの定量化、予測の質、予測誤差と予測の不確実性との相関性を異なる指標で評価された。 QM9データベースのトレーニング結果と、分布内外のテストセットからのデータ評価結果から、誤差と不確実性は線形関係がないことが示された。 その結果, 2つの同一分子中の二重結合移動が小さい場合であっても, ノイズや冗長性は分子の特性予測を複雑にすることが明らかとなった。 その後、モデルが実際のタウトマー化反応のデータベースに適用された。 特徴空間内のメンバ間の距離と他のパラメータを組み合わせることで、トレーニングデータセット内の冗長な情報は大きなばらつきと小さなエラーにつながり、類似しているが非特異的な情報の存在は大きなエラーを返すが、小さなばらつきを引き起こす。 これは例えば、芳香族分子に結合したニトロ基のいくつかの例を含むにもかかわらず、予測が難しいニトロ含脂肪鎖に対して観察された。 このことはトレーニングデータの構成の重要性を浮き彫りにし、これがMLモデルの予測能力にどのように影響するかについての化学的な洞察を提供する。 最後に、このアプローチは、アクティブラーニング最適化を通じて、ターゲットアプリケーションのための情報ベース化学データベースの改善に使用できる。

The value of uncertainty quantification on predictions for trained neural networks (NNs) on quantum chemical reference data is quantitatively explored. For this, the architecture of the PhysNet NN was suitably modified and the resulting model was evaluated with different metrics to quantify calibration, quality of predictions, and whether prediction error and the predicted uncertainty can be correlated. The results from training on the QM9 database and evaluating data from the test set within and outside the distribution indicate that error and uncertainty are not linearly related. The results clarify that noise and redundancy complicate property prediction for molecules even in cases for which changes - e.g. double bond migration in two otherwise identical molecules - are small. The model was then applied to a real database of tautomerization reactions. Analysis of the distance between members in feature space combined with other parameters shows that redundant information in the training dataset can lead to large variances and small errors whereas the presence of similar but unspecific information returns large errors but small variances. This was, e.g., observed for nitro-containing aliphatic chains for which predictions were difficult although the training set contained several examples for nitro groups bound to aromatic molecules. This underlines the importance of the composition of the training data and provides chemical insight into how this affects the prediction capabilities of a ML model. Finally, the approach put forward can be used for information-based improvement of chemical databases for target applications through active learning optimization.
翻訳日:2022-07-15 15:00:37 公開日:2022-07-14
# 2段階低レイテンシエンドツーエンド音声言語理解

Two-Pass Low Latency End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2207.06670v1 )

ライセンス: Link先を確認
Siddhant Arora, Siddharth Dalmia, Xuankai Chang, Brian Yan, Alan Black, Shinji Watanabe(参考訳) E2E(End-to-end)モデルは、音声言語理解(SLU)システムでますます人気となり、パイプラインベースのアプローチと競合するパフォーマンスを実現し始めている。 しかし、近年の研究では、これらのモデルが与えられた発話の意味的内容が理解できないという同じ意図で、新しい言い回しへの一般化に苦慮していることが示されている。 本研究では,E2E-SLUフレームワーク内にラベルのないテキストデータに基づいて事前学習した言語モデルを組み込んで,強力な意味表現を構築する。 セマンティック情報と音響情報の両方を組み込むことで、推論時間が増加し、音声アシスタントのようなアプリケーションにデプロイする際のレイテンシが高くなる。 本研究では,第1パスにおける音声数秒からの音響情報を用いて低遅延予測を行い,意味表現と音響表現を組み合わせて第2パスにおける高品質な予測を行う2パスSLUシステムを開発した。 検討ネットワークを用いて,音声と第1パス仮説の両方に従属する2パスエンドツーエンド音声認識システムの先行研究から着想を得た。 提案した2パスSLUシステムは、Fluent Speech Commands Challenge SetとSLURPデータセット上で音響ベースSLUモデルより優れ、レイテンシを低減し、ユーザエクスペリエンスを向上させる。 私たちのコードとモデルはespnet-sluツールキットの一部として公開されています。

End-to-end (E2E) models are becoming increasingly popular for spoken language understanding (SLU) systems and are beginning to achieve competitive performance to pipeline-based approaches. However, recent work has shown that these models struggle to generalize to new phrasings for the same intent indicating that models cannot understand the semantic content of the given utterance. In this work, we incorporated language models pre-trained on unlabeled text data inside E2E-SLU frameworks to build strong semantic representations. Incorporating both semantic and acoustic information can increase the inference time, leading to high latency when deployed for applications like voice assistants. We developed a 2-pass SLU system that makes low latency prediction using acoustic information from the few seconds of the audio in the first pass and makes higher quality prediction in the second pass by combining semantic and acoustic representations. We take inspiration from prior work on 2-pass end-to-end speech recognition systems that attends on both audio and first-pass hypothesis using a deliberation network. The proposed 2-pass SLU system outperforms the acoustic-based SLU model on the Fluent Speech Commands Challenge Set and SLURP dataset and reduces latency, thus improving user experience. Our code and models are publicly available as part of the ESPnet-SLU toolkit.
翻訳日:2022-07-15 15:00:12 公開日:2022-07-14
# ディープ対ワイド:自己監督音声モデルのタスク非依存的知識蒸留のための学生アーキテクチャの分析

Deep versus Wide: An Analysis of Student Architectures for Task-Agnostic Knowledge Distillation of Self-Supervised Speech Models ( http://arxiv.org/abs/2207.06867v1 )

ライセンス: Link先を確認
Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka(参考訳) 自己教師付き学習(SSL)は、いくつかの音声下流タスクで高いパフォーマンスを持つ、非常に有望なアプローチであると考えられている。 sslモデルのパラメータは一般に、トレーニングや推論が多くのメモリと計算コストを必要とするほど大きいため、知識蒸留(kd)のような圧縮手法を適用することで、大幅な性能低下を伴わないコンパクトsslモデルを作成することが望ましい。 KDアプローチはSSLモデル構造の深さと幅を縮小することができるが、その深さと幅の変化が小さなフットプリントモデルの内部表現に与える影響についてはほとんど研究されていない。 本稿では,この問題に対処する実証的研究を行う。 本研究では,パラメータ数を一定に保ちながら,構造やkd法を変化させながらsuperbの性能を検証し,モデルアーキテクチャの変化による表現の寄与度を分析する。 実験では、ある深さがコンテンツ指向タスク(例えば、自動音声認識)を正確に解くのに不可欠であることを示し、ある幅は複数の話者指向タスク(例えば、話者識別)で高い性能を達成するのに必要である。 これらの観察に基づいて、従来の研究よりも優れたパフォーマンスを持つより圧縮されたモデルを見出した。

Self-supervised learning (SSL) is seen as a very promising approach with high performance for several speech downstream tasks. Since the parameters of SSL models are generally so large that training and inference require a lot of memory and computational cost, it is desirable to produce compact SSL models without a significant performance degradation by applying compression methods such as knowledge distillation (KD). Although the KD approach is able to shrink the depth and/or width of SSL model structures, there has been little research on how varying the depth and width impacts the internal representation of the small-footprint model. This paper provides an empirical study that addresses the question. We investigate the performance on SUPERB while varying the structure and KD methods so as to keep the number of parameters constant; this allows us to analyze the contribution of the representation introduced by varying the model architecture. Experiments demonstrate that a certain depth is essential for solving content-oriented tasks (e.g. automatic speech recognition) accurately, whereas a certain width is necessary for achieving high performance on several speaker-oriented tasks (e.g. speaker identification). Based on these observations, we identify, for SUPERB, a more compressed model with better performance than previous studies.
翻訳日:2022-07-15 14:59:49 公開日:2022-07-14
# HGCNを用いた視SLAMの半教師付きベクトル量子化

Semi-supervised Vector-Quantization in Visual SLAM using HGCN ( http://arxiv.org/abs/2207.06738v1 )

ライセンス: Link先を確認
Amir Zarringhalam (1), Saeed Shiry Ghidary (2), Ali Mohades Khorasani (3) ((1),(2) and (3), Amirkabir University of Technology)(参考訳) 本稿では,HGCN-FABMAPとHGCN-BoWという2つの半教師付きループ閉鎖検出手法を紹介する。 さらに、アートローカライゼーションSLAMアルゴリズムORB-SLAMの現在の状態の拡張を示す。 HGCN-FABMAP法は,ループ検出決定のためのベイズ確率スキーマを組み込んだオフライン方式で実装されている。 具体的には、ハイパーボリックグラフ畳み込みニューラルネットワーク(HGCN)をSURF特徴グラフ空間上で動作させ、SLAMプロシージャのベクトル量子化部分を実行する。 この部分は以前、hkmeans、kmeans++などのアルゴリズムを使用して教師なしの方法で実行されていた。 通称etc。 HGCNを使用する主な利点は、グラフエッジの数で線形にスケールすることである。 実験の結果、HGCN-FABMAPアルゴリズムはHGCN-ORBよりもはるかに多くのクラスタセントロイドを必要とすることがわかった。 したがって、HGCN-ORBはメモリ消費の観点からより効率的であると考え、HGCN-BoWとHGCN-FABMAPの他のアルゴリズムに対する優位性を結論づける。

In this paper, two semi-supervised appearance based loop closure detection technique, HGCN-FABMAP and HGCN-BoW are introduced. Furthermore an extension to the current state of the art localization SLAM algorithm, ORB-SLAM, is presented. The proposed HGCN-FABMAP method is implemented in an off-line manner incorporating Bayesian probabilistic schema for loop detection decision making. Specifically, we let a Hyperbolic Graph Convolutional Neural Network (HGCN) to operate over the SURF features graph space, and perform vector quantization part of the SLAM procedure. This part previously was performed in an unsupervised manner using algorithms like HKmeans, kmeans++,..etc. The main Advantage of using HGCN, is that it scales linearly in number of graph edges. Experimental results shows that HGCN-FABMAP algorithm needs far more cluster centroids than HGCN-ORB, otherwise it fails to detect loop closures. Therefore we consider HGCN-ORB to be more efficient in terms of memory consumption, also we conclude the superiority of HGCN-BoW and HGCN-FABMAP with respect to other algorithms.
翻訳日:2022-07-15 14:58:42 公開日:2022-07-14
# GeoSegNet:Geometric Encoder-Decoder Modelingによるポイントクラウドセマンティックセマンティックセグメンテーション

GeoSegNet: Point Cloud Semantic Segmentation via Geometric Encoder-Decoder Modeling ( http://arxiv.org/abs/2207.06766v1 )

ライセンス: Link先を確認
Chen Chen, Yisen Wang, Honghua Chen, Xuefeng Yan, Dayong Ren, Yanwen Guo, Haoran Xie, Fu Lee Wang, Mingqiang Wei(参考訳) ポイントクラウドのセマンティクスセグメンテーションは,各ポイントを意味カテゴリーに割り当てることを目的としているが,3dシーン理解には不可欠である。近年の著しい進歩にもかかわらず,既存の手法のほとんどが,オブジェクトレベルの誤分類や境界レベルの曖昧さに苦しんでいる。 本稿では,geosegnetと呼ばれる点雲の幾何構造を深く探究することにより,ロバストな意味セグメンテーションネットワークを提案する。 GeoSegNetはマルチジオメトリベースのエンコーダと境界誘導デコーダで構成される。 エンコーダでは、オブジェクトレベルの特徴を抽出するために、マルチジオメトリの観点から新しい残差幾何モジュールを開発する。 デコーダでは、境界点の幾何学的表現を強化するために、対比境界学習モジュールを導入する。 我々のGeoSegNetは幾何学エンコーダデコーダモデリングの利点を生かして、2つ以上のオブジェクトの交差点(境界)を明確にしながら、オブジェクトのセグメンテーションを効果的に推測することができる。 実験の結果, 提案手法は, 全体のセグメンテーション精度とオブジェクト境界クリア性の観点から, 競合他社よりも明らかに改善されていることがわかった。 コードはhttps://github.com/Chen-yuiyui/GeoSegNetで入手できる。

Semantic segmentation of point clouds, aiming to assign each point a semantic category, is critical to 3D scene understanding.Despite of significant advances in recent years, most of existing methods still suffer from either the object-level misclassification or the boundary-level ambiguity. In this paper, we present a robust semantic segmentation network by deeply exploring the geometry of point clouds, dubbed GeoSegNet. Our GeoSegNet consists of a multi-geometry based encoder and a boundary-guided decoder. In the encoder, we develop a new residual geometry module from multi-geometry perspectives to extract object-level features. In the decoder, we introduce a contrastive boundary learning module to enhance the geometric representation of boundary points. Benefiting from the geometric encoder-decoder modeling, our GeoSegNet can infer the segmentation of objects effectively while making the intersections (boundaries) of two or more objects clear. Experiments show obvious improvements of our method over its competitors in terms of the overall segmentation accuracy and object boundary clearness. Code is available at https://github.com/Chen-yuiyui/GeoSegNet.
翻訳日:2022-07-15 14:57:38 公開日:2022-07-14
# 市販の4種類の視覚-慣性オドメトリーシステムの実証評価

An Empirical Evaluation of Four Off-the-Shelf Proprietary Visual-Inertial Odometry Systems ( http://arxiv.org/abs/2207.06780v1 )

ライセンス: Link先を確認
Jungha Kim, Minkyeong Song, Yeoeun Lee, Moonkyeong Jung, Pyojin Kim(参考訳) 商業用視覚慣性オドメトリー (VIO) システムは, 高精度で一貫したカメラポーズデータを推定するための6自由度(6-DoF)エゴモーショントラッキング手法として, かつ, モーションキャプチャやグローバル位置決めシステムから外部位置を指定せずに操作できる機能として注目されている。 しかし、既存の結果からは、商用VIOプラットフォームが最も安定し、一貫性があり、室内および屋外のロボットアプリケーションに対する状態推定の点で正確であるかどうかは不明である。 apple arkit, google arcore, intel realsense t265, stereolabs zed 2) の4つの人気のある vio システムを評価し,その位置安定性,一貫性,正確性を示した。 我々は,研究コミュニティのためのベンチマーク比較として,完全な結果を示す。

Commercial visual-inertial odometry (VIO) systems have been gaining attention as cost-effective, off-the-shelf six degrees of freedom (6-DoF) ego-motion tracking methods for estimating accurate and consistent camera pose data, in addition to their ability to operate without external localization from motion capture or global positioning systems. It is unclear from existing results, however, which commercial VIO platforms are the most stable, consistent, and accurate in terms of state estimation for indoor and outdoor robotic applications. We assess four popular proprietary VIO systems (Apple ARKit, Google ARCore, Intel RealSense T265, and Stereolabs ZED 2) through a series of both indoor and outdoor experiments where we show their positioning stability, consistency, and accuracy. We present our complete results as a benchmark comparison for the research community.
翻訳日:2022-07-15 14:57:17 公開日:2022-07-14
# 免疫蛍光Capillary Imaging Segmentation の1例

Immunofluorescence Capillary Imaging Segmentation: Cases Study ( http://arxiv.org/abs/2207.06861v1 )

ライセンス: Link先を確認
Runpeng Hou, Ziyuan Ye, Chengyu Yang, Linhao Fu, Chao Liu, and Quanying Liu(参考訳) 整形外科が直面する課題の一つとして, 骨間毛細血管撮影における技術的困難と高コストがあげられる。 セグメンテーション容器と充填キャピラリーは毛細血管の成長に伴う障害を理解するために重要である。 しかし,既存の血管セグメンテーション用データセットは主に体の血管に焦点をあてており,ラベル付き毛細血管画像データセットの欠如は,血管セグメンテーションと毛細血管充填の方法論的発展と応用を著しく制限している。 本稿では, バイオメディカル専門家が注釈を付した155個の2次元キャピラリー画像と19個の大規模高分解能キャピラリー画像からなるベンチマークデータセットIFCIS-155を提案する。 骨間毛細血管のより良い画像を得るため,最先端の免疫蛍光イメージング技術を用いて,骨間毛細血管の豊かな血管形態を強調する。 本研究は,データセットの有効性を検証し,ディープラーニングモデル(UNet/UNet++および修正UNet/UNet++)のベンチマークを行う。 我々の研究は、キャピラリー画像セグメンテーションのためのディープラーニングモデルをトレーニングするためのベンチマークデータセットを提供し、将来のキャピラリー研究のための潜在的ツールを提供する。 IFCIS-155データセットとコードは、すべて \url{https://github.com/ncclabsustech/IFCIS-55}で公開されている。

Nonunion is one of the challenges faced by orthopedics clinics for the technical difficulties and high costs in photographing interosseous capillaries. Segmenting vessels and filling capillaries are critical in understanding the obstacles encountered in capillary growth. However, existing datasets for blood vessel segmentation mainly focus on the large blood vessels of the body, and the lack of labeled capillary image datasets greatly limits the methodological development and applications of vessel segmentation and capillary filling. Here, we present a benchmark dataset, named IFCIS-155, consisting of 155 2D capillary images with segmentation boundaries and vessel fillings annotated by biomedical experts, and 19 large-scale, high-resolution 3D capillary images. To obtain better images of interosseous capillaries, we leverage state-of-the-art immunofluorescence imaging techniques to highlight the rich vascular morphology of interosseous capillaries. We conduct comprehensive experiments to verify the effectiveness of the dataset and the benchmarking deep learning models (\eg UNet/UNet++ and the modified UNet/UNet++). Our work offers a benchmark dataset for training deep learning models for capillary image segmentation and provides a potential tool for future capillary research. The IFCIS-155 dataset and code are all publicly available at \url{https://github.com/ncclabsustech/IFCIS-55}.
翻訳日:2022-07-15 14:56:59 公開日:2022-07-14
# AutoMerge: 都市環境におけるマップの組み立てと平滑化のためのフレームワーク

AutoMerge: A Framework for Map Assembling and Smoothing in City-scale Environments ( http://arxiv.org/abs/2207.06965v1 )

ライセンス: Link先を確認
Peng Yin, Haowen Lai, Shiqi Zhao, Ruijie Fu, Ivan Cisneros, Ruohai Ge, Ji Zhang, Howie Choset and Sebastian Scherer(参考訳) 我々は、多数のマップセグメントを完全なマップに組み立てるためのLiDARデータ処理フレームワークであるAutoMergeを紹介する。 従来の大規模なマップマージ手法は、不正なデータアソシエーションに対して脆弱であり、主にオフラインでしか動作しない。 automergeは、正確なデータ関連付けのためにマルチパースペクティブ融合と適応ループクロージャ検出を利用し、インクリメンタルマージを使用してランダムに与えられた個々の軌道セグメントから大きなマップを組み立て、初期推定を行わない。 さらに、セグメントを組み立てた後、オートマージはマージマップをグローバルに滑らかにするためにファインマッチングおよびポーズグラフ最適化を行う。 都市規模合併(120km)とキャンパス規模反復合併(4.5km×8)について,AutoMergeを実証した。 実験によると オートマージは (i)セグメント検索において,第2,第3の手法を14%,第2の手法を24%上回る。 (ii)大規模地図アセンブリ120kmで同等の3dマッピング精度を達成している。 (iii)時空間の再訪には堅牢である。 われわれの知る限りでは、AutoMergeはGPSを使わずに数百kmのセグメントをマージできる最初のマッピング手法だ。

We present AutoMerge, a LiDAR data processing framework for assembling a large number of map segments into a complete map. Traditional large-scale map merging methods are fragile to incorrect data associations, and are primarily limited to working only offline. AutoMerge utilizes multi-perspective fusion and adaptive loop closure detection for accurate data associations, and it uses incremental merging to assemble large maps from individual trajectory segments given in random order and with no initial estimations. Furthermore, after assembling the segments, AutoMerge performs fine matching and pose-graph optimization to globally smooth the merged map. We demonstrate AutoMerge on both city-scale merging (120km) and campus-scale repeated merging (4.5km x 8). The experiments show that AutoMerge (i) surpasses the second- and third- best methods by 14% and 24% recall in segment retrieval, (ii) achieves comparable 3D mapping accuracy for 120 km large-scale map assembly, (iii) and it is robust to temporally-spaced revisits. To the best of our knowledge, AutoMerge is the first mapping approach that can merge hundreds of kilometers of individual segments without the aid of GPS.
翻訳日:2022-07-15 14:56:32 公開日:2022-07-14
# 経路計画に基づくアルゴリズムによる画像強調ブラックボックス法の説明

Explaining Image Enhancement Black-Box Methods through a Path Planning Based Algorithm ( http://arxiv.org/abs/2207.07092v1 )

ライセンス: Link先を確認
Marco Cotogni, Claudio Cusano(参考訳) 現在、画像から画像への変換法は、自然画像の強化のための最先端技術である。 通常、精度で高いパフォーマンスを示すとしても、アーティファクトの生成や高解像度へのスケーラビリティといったいくつかの制限に悩まされることが多い。 さらに、その主な欠点は、適用された拡張プロセスに関する洞察を最終ユーザに提供することができない、完全にブラックボックスなアプローチである。 本稿では,ブラックボックス制限を克服し,アートエンハンスメント手法の状態によって生成された出力の段階的説明を行うパスプランニングアルゴリズムを提案する。 eXIEと呼ばれるこのアルゴリズムは、A*アルゴリズムの変種を用いて、拡張演算子の等価シーケンスの適用を通じて、他のメソッドの拡張プロセスをエミュレートする。 5kデータセットでトレーニングされた最先端モデルの出力を説明するためにexieを応用し、性能の面で非常に類似した結果が得られる拡張演算子のシーケンスを取得し、最善のアルゴリズムの解釈可能性の低さという膨大な制限を克服した。

Nowadays, image-to-image translation methods, are the state of the art for the enhancement of natural images. Even if they usually show high performance in terms of accuracy, they often suffer from several limitations such as the generation of artifacts and the scalability to high resolutions. Moreover, their main drawback is the completely black-box approach that does not allow to provide the final user with any insight about the enhancement processes applied. In this paper we present a path planning algorithm which provides a step-by-step explanation of the output produced by state of the art enhancement methods, overcoming black-box limitation. This algorithm, called eXIE, uses a variant of the A* algorithm to emulate the enhancement process of another method through the application of an equivalent sequence of enhancing operators. We applied eXIE to explain the output of several state-of-the-art models trained on the Five-K dataset, obtaining sequences of enhancing operators able to produce very similar results in terms of performance and overcoming the huge limitation of poor interpretability of the best performing algorithms.
翻訳日:2022-07-15 14:56:11 公開日:2022-07-14
# 局所化による確率自由推論における辺近似の精度向上

Improving the Accuracy of Marginal Approximations in Likelihood-Free Inference via Localisation ( http://arxiv.org/abs/2207.06655v1 )

ライセンス: Link先を確認
Christopher Drovandi, David J Nott, David T Frazier(参考訳) Likelihood-freeメソッドは、暗黙のモデルに対する推論を行うための必須ツールであり、そこからシミュレートできるが、それに対応する確率は難解である。 しかし、一般的な可能性のない手法は、多数のモデルパラメータに対してうまくスケールしない。 高次元確率自由推論への有望なアプローチは、低次元成分に有益と思われる要約統計のみを条件付けし、ある方法で低次元近似を結合することで低次元辺縁後縁を推定することである。 本稿では,このような低次元近似が,一見直感的な要約統計選択において驚くほど貧弱であることを示す。 本稿では, 原理上, 限界推定に適した理想化低次元要約統計について述べる。 しかし、理想化された選択の直接的な近似は実際には難しい。 そこで我々は,実装や自動化が容易な限界推定手法を提案する。 本手法は, 後部位置についてのみ情報化できる低次元要約統計量の初期選択を前提として, 後部近似を大域的識別性を確保するため, 後部近似をまず粗末に局所化し, 続いて, 低次元要約統計量を用いた高精度な低次元近似に注目する第2ステップにより, 性能を向上する。 その結果,このアプローチの後方のターゲットは,低次元統計値と全要約統計値に基づいて,後方分布の対数プールとして表現できることがわかった。 本手法の優れた性能をいくつかの例に示す。

Likelihood-free methods are an essential tool for performing inference for implicit models which can be simulated from, but for which the corresponding likelihood is intractable. However, common likelihood-free methods do not scale well to a large number of model parameters. A promising approach to high-dimensional likelihood-free inference involves estimating low-dimensional marginal posteriors by conditioning only on summary statistics believed to be informative for the low-dimensional component, and then combining the low-dimensional approximations in some way. In this paper, we demonstrate that such low-dimensional approximations can be surprisingly poor in practice for seemingly intuitive summary statistic choices. We describe an idealized low-dimensional summary statistic that is, in principle, suitable for marginal estimation. However, a direct approximation of the idealized choice is difficult in practice. We thus suggest an alternative approach to marginal estimation which is easier to implement and automate. Given an initial choice of low-dimensional summary statistic that might only be informative about a marginal posterior location, the new method improves performance by first crudely localising the posterior approximation using all the summary statistics to ensure global identifiability, followed by a second step that hones in on an accurate low-dimensional approximation using the low-dimensional summary statistic. We show that the posterior this approach targets can be represented as a logarithmic pool of posterior distributions based on the low-dimensional and full summary statistics, respectively. The good performance of our method is illustrated in several examples.
翻訳日:2022-07-15 14:55:43 公開日:2022-07-14
# 階層的同変精細化による抗体抗原ドッキングと設計

Antibody-Antigen Docking and Design via Hierarchical Equivariant Refinement ( http://arxiv.org/abs/2207.06616v1 )

ライセンス: Link先を確認
Wengong Jin, Regina Barzilay, Tommi Jaakkola(参考訳) 計算抗体の設計は、抗原に結合する抗体を自動生成することを目指している。 結合親和性は、抗体残基(パラトープ)が抗原残基(エピトープ)と密接に相互作用する3d結合界面によって制御される。 したがって、3Dパラトープ-エピトープ複合体(ドッキング)を予測することが、最高のパラトープを見つける鍵となる。 本稿では,パラトープドッキングと設計のための階層的同変改良ネットワーク(hern)と呼ばれる新しいモデルを提案する。 ドッキング中、hernは階層的なメッセージパッシングネットワークを使用して原子の力を予測し、それらを反復的かつ同変的な方法で結合複合体を洗練する。 生成中、自己回帰デコーダはパラトピーを生成し、結合インターフェースの幾何学的表現を構築し、次の残基の選択を導く。 実験の結果,HERNはパラトピードッキングと設計ベンチマークにおいて,最先端のドッキング性能を著しく上回っていることがわかった。

Computational antibody design seeks to automatically create an antibody that binds to an antigen. The binding affinity is governed by the 3D binding interface where antibody residues (paratope) closely interact with antigen residues (epitope). Thus, predicting 3D paratope-epitope complex (docking) is the key to finding the best paratope. In this paper, we propose a new model called Hierarchical Equivariant Refinement Network (HERN) for paratope docking and design. During docking, HERN employs a hierarchical message passing network to predict atomic forces and use them to refine a binding complex in an iterative, equivariant manner. During generation, its autoregressive decoder progressively docks generated paratopes and builds a geometric representation of the binding interface to guide the next residue choice. Our results show that HERN significantly outperforms prior state-of-the-art on paratope docking and design benchmarks.
翻訳日:2022-07-15 14:54:10 公開日:2022-07-14
# 深層学習を用いたオリエンテーション特異的脂質タンパク質指紋の同定

Identifying Orientation-specific Lipid-protein Fingerprints using Deep Learning ( http://arxiv.org/abs/2207.06630v1 )

ライセンス: Link先を確認
Fikret Aydin (1), Konstantia Georgouli (1), Gautham Dharuman (1), James N. Glosli (1), Felice C. Lightstone (1), Helgi I. Ing\'olfsson (1), Peer-Timo Bremer (2), Harsh Bhatia (2) ((1) Physical & Life Sciences, Lawrence Livermore National Laboratory, (2) Center for Applied Scientific Computing, Lawrence Livermore National Laboratory)(参考訳) 細胞膜におけるRASとRAFタンパク質の挙動と局所脂質環境の関係の理解の改善は、がん形成のメカニズムを理解する上で重要である。 本研究では,粗粒分子動力学(MD)シミュレーションから,タンパク質ドメイン周辺の脂質密度に基づいて,RASおよびRAFタンパク質複合体のタンパク質配向状態を予測することによって,この関係を深層学習(DL)を用いて学習する。 dlモデルは6つのタンパク質状態を80%以上の精度で予測できる。 この研究の知見は、タンパク質が脂質環境をどのように調節するかに関する新たな知見を提供し、がん発生に関わるメカニズムにおいてそのような相互作用を制御する新しい治療法を設計するのに役立つかもしれない。

Improved understanding of the relation between the behavior of RAS and RAF proteins and the local lipid environment in the cell membrane is critical for getting insights into the mechanisms underlying cancer formation. In this work, we employ deep learning (DL) to learn this relationship by predicting protein orientational states of RAS and RAS-RAF protein complexes with respect to the lipid membrane based on the lipid densities around the protein domains from coarse-grained (CG) molecular dynamics (MD) simulations. Our DL model can predict six protein states with an overall accuracy of over 80%. The findings of this work offer new insights into how the proteins modulate the lipid environment, which in turn may assist designing novel therapies to regulate such interactions in the mechanisms associated with cancer development.
翻訳日:2022-07-15 14:53:54 公開日:2022-07-14
# ヒストグラム分布試験のための近接最適境界

Near-Optimal Bounds for Testing Histogram Distributions ( http://arxiv.org/abs/2207.06596v1 )

ライセンス: Link先を確認
Cl\'ement L. Canonne, Ilias Diakonikolas, Daniel M. Kane, and Sihan Liu(参考訳) 本研究では,順序領域上の離散確率分布が,指定された数のビンのヒストグラムであるかどうかを調べる。 データの簡潔な近似のための最も一般的なツールの1つ、$[n]$ に対する $k$-histograms は、一連の $k$ 間隔に対して区分的に定数な確率分布である。 未知分布のサンプル$\mathbf{p}$ on $[n]$を与えられた場合、$\mathbf{p}$が$k$-histogramであるのに対して$\varepsilon$-farが$k$-histogramである場合を、全変動距離で区別したい。 私たちの主な結果は、このテスト問題に対して、ほぼ最適で計算効率のよいサンプルアルゴリズムと、(対数係数を含む)サンプル複雑性を低く抑えることです。 具体的には、ヒストグラム検定問題はサンプル複雑性$\widetilde \Theta (\sqrt{nk} / \varepsilon + k / \varepsilon^2 + \sqrt{n} / \varepsilon^2)$であることを示す。

We investigate the problem of testing whether a discrete probability distribution over an ordered domain is a histogram on a specified number of bins. One of the most common tools for the succinct approximation of data, $k$-histograms over $[n]$, are probability distributions that are piecewise constant over a set of $k$ intervals. The histogram testing problem is the following: Given samples from an unknown distribution $\mathbf{p}$ on $[n]$, we want to distinguish between the cases that $\mathbf{p}$ is a $k$-histogram versus $\varepsilon$-far from any $k$-histogram, in total variation distance. Our main result is a sample near-optimal and computationally efficient algorithm for this testing problem, and a nearly-matching (within logarithmic factors) sample complexity lower bound. Specifically, we show that the histogram testing problem has sample complexity $\widetilde \Theta (\sqrt{nk} / \varepsilon + k / \varepsilon^2 + \sqrt{n} / \varepsilon^2)$.
翻訳日:2022-07-15 14:50:59 公開日:2022-07-14
# ランドマーク付ハイパーボリックネットワーク埋め込みのひずみ最小化

Strain-Minimizing Hyperbolic Network Embeddings with Landmarks ( http://arxiv.org/abs/2207.06775v1 )

ライセンス: Link先を確認
Martin Keller-Ressel and Stephanie Nargang(参考訳) L-hydra (landmarked hyperbolic distance recovery and approximation) は、ネットワークベースのデータを双曲空間に埋め込む手法であり、いくつかの「ランドマークノード」への距離測定のみを必要とする。 このランドマークヒューリスティックはL-ヒドラを大規模グラフに適用し、以前に導入された方法を改善する。 数学的正当化として、d-次元双曲空間の点構成が距離測定から単にd+1のランドマークまで完全に回復できることが示される。 また,L-hydra は従来の (非ランドマーク) 手法 "hydra" と同様に, 2段階のひずみ最小化問題を解くことを示した。 実ネットワークデータを用いて、L-hydraは既存の双曲埋め込み法よりも桁違いに高速であり、ノード数で線形にスケールすることを示した。 l-hydraの埋め込みエラーは既存のメソッドのエラーよりも高いが、ランタイムと組み込み品質の両方で既存のメソッドを上回る拡張であるl-hydra+を導入する。

We introduce L-hydra (landmarked hyperbolic distance recovery and approximation), a method for embedding network- or distance-based data into hyperbolic space, which requires only the distance measurements to a few 'landmark nodes'. This landmark heuristic makes L-hydra applicable to large-scale graphs and improves upon previously introduced methods. As a mathematical justification, we show that a point configuration in d-dimensional hyperbolic space can be perfectly recovered (up to isometry) from distance measurements to just d+1 landmarks. We also show that L-hydra solves a two-stage strain-minimization problem, similar to our previous (unlandmarked) method 'hydra'. Testing on real network data, we show that L-hydra is an order of magnitude faster than existing hyperbolic embedding methods and scales linearly in the number of nodes. While the embedding error of L-hydra is higher than the error of existing methods, we introduce an extension, L-hydra+, which outperforms existing methods in both runtime and embedding quality.
翻訳日:2022-07-15 14:50:35 公開日:2022-07-14
# icml 2022 表現発声ワークショップとコンペティション : 発声バーストの認識、生成、パーソナライズ

Proceedings of the ICML 2022 Expressive Vocalizations Workshop and Competition: Recognizing, Generating, and Personalizing Vocal Bursts ( http://arxiv.org/abs/2207.06958v1 )

ライセンス: Link先を確認
Alice Baird, Panagiotis Tzirakis, Gauthier Gidel, Marco Jiralerspong, Eilif B. Muller, Kory Mathewson, Bj\"orn Schuller, Erik Cambria, Dacher Keltner, Alan Cowen(参考訳) これはICML Expressive Vocalization(ExVo)コンペティションの成果である。 exvoコンペティションは、笑い、腹痛、泣き声、そして感情的な表現とコミュニケーションの中心となる非言語的な発声の理解と生成に焦点を当てている。 ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した3つの競合トラックが含まれていた。 最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。 第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。 第3のExVo-FewShotは、参加者がスピーカーアイデンティティを組み込んだ数発の学習を活用して、声のバーストによって伝達される10の感情を認識するモデルを訓練する必要がある。

This is the Proceedings of the ICML Expressive Vocalization (ExVo) Competition. The ExVo competition focuses on understanding and generating vocal bursts: laughs, gasps, cries, and other non-verbal vocalizations that are central to emotional expression and communication. ExVo 2022, included three competition tracks using a large-scale dataset of 59,201 vocalizations from 1,702 speakers. The first, ExVo-MultiTask, requires participants to train a multi-task model to recognize expressed emotions and demographic traits from vocal bursts. The second, ExVo-Generate, requires participants to train a generative model that produces vocal bursts conveying ten different emotions. The third, ExVo-FewShot, requires participants to leverage few-shot learning incorporating speaker identity to train a model for the recognition of 10 emotions conveyed by vocal bursts.
翻訳日:2022-07-15 14:50:18 公開日:2022-07-14
# (参考訳) 視界レンズによるOmni-Vision Representationのベンチマーク

Benchmarking Omni-Vision Representation through the Lens of Visual Realms ( http://arxiv.org/abs/2207.07106v1 )

ライセンス: CC BY 4.0
Yuanhan Zhang, Zhenfei Yin, Jing Shao, Ziwei Liu(参考訳) 特定の視覚領域(例えば、顔、犬、場所)では印象的なパフォーマンスが達成されているが、多くの自然な視覚領域に一般化した全視覚表現は非常に望ましい。 しかし、既存のベンチマークは、オムニビジョンの表現を評価するために偏りがあり非効率であり、これらのベンチマークにはいくつかの特定の領域しか含まれていない。 本稿では,Omni-Realmベンチマーク(OmniBenchmark)を提案する。 21のリアルタイムデータセットと7,372のコンセプト、1,074,346の画像が含まれている。 セマンティックオーバーラップがなければ、これらのデータセットはほとんどの視覚領域を包括的かつ効率よくカバーする。 さらに,新しい教師付きコントラスト学習フレームワークであるrelational contrastive learning (reco)を提案する。 同じ概念から2つのインスタンス -- 典型的な教師付きコントラスト学習フレームワーク -- を近づけるだけでなく、recoは、同じ意味領域から2つのインスタンスを引き寄せ、概念間の意味関係をエンコードし、全局的な表現学習を促進する。 我々は、omnibenchmarkにおけるアーキテクチャ(cnnからトランスフォーマーまで)と学習パラダイム(教師付き学習から自己教師付き学習まで)におけるrecoや他の全視野表現研究の進歩をベンチマークする。 本稿では,ReCoを他の教師付きコントラスト学習法と比較し,今後の研究を促進するために複数の実践的な観察方法を明らかにする。

Though impressive performance has been achieved in specific visual realms (e.g. faces, dogs, and places), an omni-vision representation generalizing to many natural visual domains is highly desirable. But, existing benchmarks are biased and inefficient to evaluate the omni-vision representation -- these benchmarks either only include several specific realms, or cover most realms at the expense of subsuming numerous datasets that have extensive realm overlapping. In this paper, we propose Omni-Realm Benchmark (OmniBenchmark). It includes 21 realm-wise datasets with 7,372 concepts and 1,074,346 images. Without semantic overlapping, these datasets cover most visual realms comprehensively and meanwhile efficiently. In addition, we propose a new supervised contrastive learning framework, namely Relational Contrastive learning (ReCo), for a better omni-vision representation. Beyond pulling two instances from the same concept closer -- the typical supervised contrastive learning framework -- ReCo also pulls two instances from the same semantic realm closer, encoding the semantic relation between concepts, and facilitating omni-vision representation learning. We benchmark ReCo and other advances in omni-vision representation studies that are different in architectures (from CNNs to transformers) and in learning paradigms (from supervised learning to self-supervised learning) on OmniBenchmark. We illustrate the superior of ReCo to other supervised contrastive learning methods and reveal multiple practical observations to facilitate future research.
翻訳日:2022-07-15 14:47:32 公開日:2022-07-14
# E2-AEN: 適応拡張ネットワークによるエンドツーエンドインクリメンタル学習

E2-AEN: End-to-End Incremental Learning with Adaptively Expandable Network ( http://arxiv.org/abs/2207.06754v1 )

ライセンス: Link先を確認
Guimei Cao, Zhanzhan Cheng, Yunlu Xu, Duo Li, Shiliang Pu, Yi Niu and Fei Wu(参考訳) 拡張可能なネットワークは、インクリメンタル学習における破滅的な忘れる問題に対処する上での利点を実証している。 異なるタスクが異なる構造を必要とする可能性があることを考慮し、最近の手法は高度なスキルによって異なるタスクに適応した動的構造を設計する。 彼らのルーチンは、まず拡張可能な構造を探索し、次に新しいタスクを訓練することである。 本稿では,新しいタスクに動的に軽量な構造を生成できるe2-aenと呼ばれるエンドツーエンドの適応拡張ネットワークを提案する。 具体的には、ネットワークには、以前に学習した表現を新しいタスクに拡張し、タスクの干渉を避けるための強力な機能アダプタのシリアルが含まれている。 これらのアダプタは、拡張された構造を刈り取ることができるかどうかを判断する適応ゲートベースのプルーニング戦略を介して制御され、新しいタスクの複雑さに応じてネットワーク構造を動的に変更可能である。 さらに,パラメータの制限された識別特徴をモデルに学習させるため,新しいスパーシティ活性化正規化法を提案する。 E2-AENはコストを削減し、あらゆるフィードフォワードアーキテクチャをエンドツーエンドで構築できる。 分類(cifar, vdd)と検出(coco, voc, iccv2021 sslad challenge)の両方に関する広範な実験により, 提案手法の有効性が実証され, 新たな顕著な結果が得られた。

Expandable networks have demonstrated their advantages in dealing with catastrophic forgetting problem in incremental learning. Considering that different tasks may need different structures, recent methods design dynamic structures adapted to different tasks via sophisticated skills. Their routine is to search expandable structures first and then train on the new tasks, which, however, breaks tasks into multiple training stages, leading to suboptimal or overmuch computational cost. In this paper, we propose an end-to-end trainable adaptively expandable network named E2-AEN, which dynamically generates lightweight structures for new tasks without any accuracy drop in previous tasks. Specifically, the network contains a serial of powerful feature adapters for augmenting the previously learned representations to new tasks, and avoiding task interference. These adapters are controlled via an adaptive gate-based pruning strategy which decides whether the expanded structures can be pruned, making the network structure dynamically changeable according to the complexity of the new tasks. Moreover, we introduce a novel sparsity-activation regularization to encourage the model to learn discriminative features with limited parameters. E2-AEN reduces cost and can be built upon any feed-forward architectures in an end-to-end manner. Extensive experiments on both classification (i.e., CIFAR and VDD) and detection (i.e., COCO, VOC and ICCV2021 SSLAD challenge) benchmarks demonstrate the effectiveness of the proposed method, which achieves the new remarkable results.
翻訳日:2022-07-15 14:23:05 公開日:2022-07-14
# フローベースビデオフレーム合成における近傍対応マッチング

Neighbor Correspondence Matching for Flow-based Video Frame Synthesis ( http://arxiv.org/abs/2207.06763v1 )

ライセンス: Link先を確認
Zhaoyang Jia, Yan Lu, Houqiang Li(参考訳) 補間と外挿からなるビデオフレーム合成は,様々なシナリオに適用可能な重要なビデオ処理技術である。 しかし、既存のほとんどの方法は、特に4Kビデオのような高解像度ビデオでは、小さな物体や大きな動きをうまく扱えない。 このような制限を取り除くため,フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを導入する。 現在のフレームはビデオフレーム合成では利用できないため、NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケール対応を確立する。 さらに, ncmの強力な運動表現能力に基づいて, 不均質な粗粒間スキームにおけるフレーム合成のための中間流の推定法を提案する。 具体的には、粗大モジュールは隣接対応を利用して大きな動きをキャプチャするように設計されているが、細大モジュールはより計算効率が良く、推定プロセスを高速化する。 どちらのモジュールも徐々にトレーニングされ、トレーニングデータセットと実世界のビデオの間の解像度ギャップが排除される。 実験の結果,NCMはいくつかのベンチマークで最先端の性能を達成できた。 さらに、NCMは、ビデオ圧縮などの様々な実践シナリオに適用して、より良い性能を実現することができる。

Video frame synthesis, which consists of interpolation and extrapolation, is an essential video processing technique that can be applied to various scenarios. However, most existing methods cannot handle small objects or large motion well, especially in high-resolution videos such as 4K videos. To eliminate such limitations, we introduce a neighbor correspondence matching (NCM) algorithm for flow-based frame synthesis. Since the current frame is not available in video frame synthesis, NCM is performed in a current-frame-agnostic fashion to establish multi-scale correspondences in the spatial-temporal neighborhoods of each pixel. Based on the powerful motion representation capability of NCM, we further propose to estimate intermediate flows for frame synthesis in a heterogeneous coarse-to-fine scheme. Specifically, the coarse-scale module is designed to leverage neighbor correspondences to capture large motion, while the fine-scale module is more computationally efficient to speed up the estimation process. Both modules are trained progressively to eliminate the resolution gap between training dataset and real-world videos. Experimental results show that NCM achieves state-of-the-art performance on several benchmarks. In addition, NCM can be applied to various practical scenarios such as video compression to achieve better performance.
翻訳日:2022-07-15 14:22:39 公開日:2022-07-14
# 慣性幻覚 - ウェアラブル慣性デバイスが物を見るようになるとき

Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing Things ( http://arxiv.org/abs/2207.06789v1 )

ライセンス: Link先を確認
Alessandro Masullo and Toby Perrett and Tilo Burghardt and Ian Craddock and Dima Damen and Majid Mirmehdi(参考訳) 本稿では、特権情報(LUPI)を用いた学習を生かしたAAL(Ambient Assisted Living)のためのマルチモーダルセンサ融合手法を提案する。 標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。 我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーを扱う。 rgbビデオとスケルトンを特権モダリティとして用いたウェアラブル加速度計装置の慣性データに対する提案モデルを評価し,utd-mhadデータセットでは平均6.6%,バークレーmhadデータセットでは平均5.5%の精度向上を示し,これらのデータセットで慣性のみの識別精度を新たに達成した。 我々はいくつかのアブレーション研究を通じてその枠組みを検証する。

We propose a novel approach to multimodal sensor fusion for Ambient Assisted Living (AAL) which takes advantage of learning using privileged information (LUPI). We address two major shortcomings of standard multimodal approaches, limited area coverage and reduced reliability. Our new framework fuses the concept of modality hallucination with triplet learning to train a model with different modalities to handle missing sensors at inference time. We evaluate the proposed model on inertial data from a wearable accelerometer device, using RGB videos and skeletons as privileged modalities, and show an improvement of accuracy of an average 6.6% on the UTD-MHAD dataset and an average 5.5% on the Berkeley MHAD dataset, reaching a new state-of-the-art for inertial-only classification accuracy on these datasets. We validate our framework through several ablation studies.
翻訳日:2022-07-15 14:22:21 公開日:2022-07-14
# 非教師なしクロスドメインセマンティクスセグメンテーションのためのマルチモダリティ卵巣腫瘍超音波画像データセット

A Multi-Modality Ovarian Tumor Ultrasound Image Dataset for Unsupervised Cross-Domain Semantic Segmentation ( http://arxiv.org/abs/2207.06799v1 )

ライセンス: Link先を確認
Qi Zhao, Shuchang Lyu, Wenpei Bai, Linghan Cai, Binghao Liu, Meijing Wu, Xiubo Sang, Min Yang, Lijiang Chen(参考訳) 卵巣癌は最も有害な婦人科疾患の一つである。 早期の卵巣腫瘍をコンピュータ支援技術で検出することは、効率よく死亡率を下げることができる。 医療標準の改善により、超音波画像は臨床治療に広く応用されている。 しかし,近年の著明な方法は,単発性超音波卵巣腫瘍のセグメント化や認識に主眼を置き,多目的性超音波卵巣腫瘍画像の表現能についての研究が不足している。 そこで本研究では,1469個の超音波画像と170個の造影超音波画像を含むMMOTU(Multi-Modality Ovarian tumor Ultrasound)画像データセットを提案する。 MMOTUに基づいて、主に教師なしクロスドメインセマンティックセグメンテーションタスクに焦点を当てる。 ドメインシフト問題を解決するために,Dual-Scheme Domain-Selected Network (DS$^2$Net) という機能アライメントに基づくアーキテクチャを提案する。 具体的には、まずソースエンコーダとターゲットエンコーダを設計し、ソースとターゲットの2種類の特徴を抽出する。 そこで本研究では,DSM(Domain-Distinct Selected Module)とDUSM(Domain-Universal Selected Module)を提案し,その特徴を2つのスタイル(ソーススタイル,ターゲットスタイル)で抽出する。 最後に、これらの2種類の機能を融合し、ソースデコーダとターゲットデコーダにフィードし、最終的な予測を生成する。 MMOTU画像データセットの大規模な比較実験と解析により,DS$^2$Netは2次元超音波画像とCEUS画像の双方向クロスドメイン適応におけるセグメンテーション性能を向上させることができることが示された。

Ovarian cancer is one of the most harmful gynecological diseases. Detecting ovarian tumors in early stage with computer-aided techniques can efficiently decrease the mortality rate. With the improvement of medical treatment standard, ultrasound images are widely applied in clinical treatment. However, recent notable methods mainly focus on single-modality ultrasound ovarian tumor segmentation or recognition, which means there still lacks of researches on exploring the representation capability of multi-modality ultrasound ovarian tumor images. To solve this problem, we propose a Multi-Modality Ovarian Tumor Ultrasound (MMOTU) image dataset containing 1469 2d ultrasound images and 170 contrast enhanced ultrasonography (CEUS) images with pixel-wise and global-wise annotations. Based on MMOTU, we mainly focus on unsupervised cross-domain semantic segmentation task. To solve the domain shift problem, we propose a feature alignment based architecture named Dual-Scheme Domain-Selected Network (DS$^2$Net). Specifically, we first design source-encoder and target-encoder to extract two-style features of source and target images. Then, we propose Domain-Distinct Selected Module (DDSM) and Domain-Universal Selected Module (DUSM) to extract the distinct and universal features in two styles (source-style or target-style). Finally, we fuse these two kinds of features and feed them into the source-decoder and target-decoder to generate final predictions. Extensive comparison experiments and analysis on MMOTU image dataset show that DS$^2$Net can boost the segmentation performance for bidirectional cross-domain adaptation of 2d ultrasound images and CEUS images.
翻訳日:2022-07-15 14:22:00 公開日:2022-07-14
# 擬似ラベルを用いた半教師付きメタトレーニング

Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning ( http://arxiv.org/abs/2207.06817v1 )

ライセンス: Link先を確認
Xingping Dong, Ling Shao, Shengcai Liao(参考訳) 既存の少数ショット学習(FSL)手法の多くは、メタトレーニングにおいて大量のラベル付きデータを必要とする。 ラベルの要件を軽減するため,FSL では,少数のラベル付きサンプルと未ラベル付きサンプル数を含む半教師付きメタトレーニング設定が提案されている。 しかし、既存の手法では、未ラベル集合の仮定に反する未ラベル集合からのクラス対応サンプル選択が必要となる。 本稿では,実際にラベルのないデータを用いた半教師付きメタトレーニング環境を提案する。 新しい設定では、既存のメソッドのパフォーマンスが顕著に低下する。 ラベル付きデータと真にラベル付きデータの両方をより有効に利用するために、我々は、メタ学習に基づく擬似ラベル付け(plml)と呼ばれる、シンプルで効果的なメタトレーニングフレームワークを提案する。 まず、共通半教師付き学習(ssl)を通じて分類器を訓練し、ラベルなしデータの擬似ラベルを取得する。 次にラベル付きおよび擬似ラベル付きデータから数発のタスクを構築し、構築したタスク上でメタ学習を行い、FSLモデルを学習する。 驚くべきことに、2つのFSLデータセットにわたる広範な実験により、この単純なメタトレーニングフレームワークは、限られたラベル付きデータの下でのFSLの性能劣化を効果的に防止する。 さらに、メタトレーニングの利点により、提案手法は2つの代表的なSSLアルゴリズムによって学習された分類器も改善する。

Most existing few-shot learning (FSL) methods require a large amount of labeled data in meta-training, which is a major limit. To reduce the requirement of labels, a semi-supervised meta-training setting has been proposed for FSL, which includes only a few labeled samples and numbers of unlabeled samples in base classes. However, existing methods under this setting require class-aware sample selection from the unlabeled set, which violates the assumption of unlabeled set. In this paper, we propose a practical semi-supervised meta-training setting with truly unlabeled data. Under the new setting, the performance of existing methods drops notably. To better utilize both the labeled and truly unlabeled data, we propose a simple and effective meta-training framework, called pseudo-labeling based on meta-learning (PLML). Firstly, we train a classifier via common semi-supervised learning (SSL) and use it to obtain the pseudo-labels of unlabeled data. Then we build few-shot tasks from labeled and pseudo-labeled data and run meta-learning over the constructed tasks to learn the FSL model. Surprisingly, through extensive experiments across two FSL datasets, we find that this simple meta-training framework effectively prevents the performance degradation of FSL under limited labeled data. Besides, benefiting from meta-training, the proposed method improves the classifiers learned by two representative SSL algorithms as well.
翻訳日:2022-07-15 14:21:28 公開日:2022-07-14
# 単一点監視による高精度物体検出のためのポイント・ツー・ボックスネットワーク

Point-to-Box Network for Accurate Object Detection via Single Point Supervision ( http://arxiv.org/abs/2207.06827v1 )

ライセンス: Link先を確認
Pengfei Chen, Xuehui Yu, Xumeng Han, Najmul Hassan, Kai Wang, Jiachen Li, Jian Zhao, Humphrey Shi, Zhenjun Han, and Qixiang Ye(参考訳) 単一点監視を用いた物体検出は近年注目を集めている。 本稿では,マルチインスタンス学習(mil)に欠かせない高品質な提案バッグ生成の失敗に対して,このような大きなパフォーマンスギャップを指摘する。 そこで本研究では,オフ・ザ・シェルフ・プロポーザル (otsp) 方式の軽量な代替案を提案するとともに,アンカーのような方法で提案を生成することで,オブジェクト間バランスの取れた提案バッグを構築できるポイント・トゥ・ボックス・ネットワーク (p2bnet) を作成する。 正確な位置情報を完全に調査することで、p2bnetはさらにインスタンスレベルのバッグを構築し、複数のオブジェクトの混合を避ける。 最後に、カスケード方式の粗大化政策を利用して、提案と接地トラス(GT)の間のIoUを改善する。 これらの戦略の恩恵を受け、p2bnetはオブジェクト検出のために高品質のインスタンスレベルバッグを作成できる。 P2BNetは、MS COCOデータセット上の以前の最高のPSOD法と比較して平均平均精度(AP)を50%以上改善する。 また、点監督検出器と境界箱監視検出器の間の性能ギャップを埋める大きな可能性を示す。 コードはgithub.com/ucas-vg/P2BNetでリリースされる。

Object detection using single point supervision has received increasing attention over the years. In this paper, we attribute such a large performance gap to the failure of generating high-quality proposal bags which are crucial for multiple instance learning (MIL). To address this problem, we introduce a lightweight alternative to the off-the-shelf proposal (OTSP) method and thereby create the Point-to-Box Network (P2BNet), which can construct an inter-objects balanced proposal bag by generating proposals in an anchor-like way. By fully investigating the accurate position information, P2BNet further constructs an instance-level bag, avoiding the mixture of multiple objects. Finally, a coarse-to-fine policy in a cascade fashion is utilized to improve the IoU between proposals and ground-truth (GT). Benefiting from these strategies, P2BNet is able to produce high-quality instance-level bags for object detection. P2BNet improves the mean average precision (AP) by more than 50% relative to the previous best PSOD method on the MS COCO dataset. It also demonstrates the great potential to bridge the performance gap between point supervised and bounding-box supervised detectors. The code will be released at github.com/ucas-vg/P2BNet.
翻訳日:2022-07-15 14:21:03 公開日:2022-07-14
# 2次元投影を用いた3次元線形構造の連結化

Enforcing connectivity of 3D linear structures using their 2D projections ( http://arxiv.org/abs/2207.06832v1 )

ライセンス: Link先を確認
Doruk Oner, Hussein Osman, Mateusz Kozinski, Pascal Fua(参考訳) 多くの生物学的および医学的なタスクは、血管や神経突起のような3Dカルビリナー構造を画像から切り離す必要がある。 これは典型的には、これらの構造のトポロジカルな特性を捉えないボクセル的損失関数を最小化することで訓練されたニューラルネットワークを用いて行われる。 その結果、回収された構造物の接続はしばしば間違っており、有用性が低下する。 本稿では,2次元投影におけるトポロジー認識損失の和を最小化し,結果の3次元接続性を改善することを提案する。 これにより、精度を高め、必要な注釈付きトレーニングデータを提供するのに必要なアノテーションの労力を減らすことができる。

Many biological and medical tasks require the delineation of 3D curvilinear structures such as blood vessels and neurites from image volumes. This is typically done using neural networks trained by minimizing voxel-wise loss functions that do not capture the topological properties of these structures. As a result, the connectivity of the recovered structures is often wrong, which lessens their usefulness. In this paper, we propose to improve the 3D connectivity of our results by minimizing a sum of topology-aware losses on their 2D projections. This suffices to increase the accuracy and to reduce the annotation effort required to provide the required annotated training data.
翻訳日:2022-07-15 14:20:41 公開日:2022-07-14
# AIParsing:アンカーレスインスタンスレベルのヒューマンパーシング

AIParsing: Anchor-free Instance-level Human Parsing ( http://arxiv.org/abs/2207.06854v1 )

ライセンス: Link先を確認
Sanyi Zhang, Xiaochun Cao, Guo-Jun Qi, Zhanjie Song, and Jie Zhou(参考訳) ほとんどの最先端のインスタンスレベルの人間解析モデルは、2段階のアンカーベースの検出器を採用するため、ヒューリスティックアンカーボックスの設計やピクセルレベルでの分析の欠如を避けることはできない。 これら2つの問題に対処するため、我々は、アンカーフリーで画素レベルで解決可能なインスタンスレベルのヒューマンパーシングネットワークを設計した。 ボックス予測のためのアンカーフリー検出ヘッドと、人間のセグメンテーションのためのエッジ誘導解析ヘッドの2つの単純なサブネットワークで構成されている。 アンカーフリー検出器ヘッドは画素様の利点を継承し、オブジェクト検出アプリケーションで証明されたハイパーパラメータの感度を効果的に回避する。 この部分認識境界手がかりの導入により、エッジ誘導解析ヘッドは、重複したインスタンスであっても、1つの人間のインスタンスにおいて、隣り合う人間の部分と58個の部分とを区別することができる。 一方、ボックスレベルスコアと部分レベル解析品質を統合した精細化ヘッドを利用して解析結果の品質を向上する。 2つのヒューマンパーシングデータセット(CIHPとLV-MHP-v2.0)と1つのビデオインスタンスレベルのヒューマンパーシングデータセット(VIP)の実験により、我々の手法は最先端のワンステージトップダウンモデルよりも優れたグローバルレベルおよびインスタンスレベルのパフォーマンスを達成することが示された。

Most state-of-the-art instance-level human parsing models adopt two-stage anchor-based detectors and, therefore, cannot avoid the heuristic anchor box design and the lack of analysis on a pixel level. To address these two issues, we have designed an instance-level human parsing network which is anchor-free and solvable on a pixel level. It consists of two simple sub-networks: an anchor-free detection head for bounding box predictions and an edge-guided parsing head for human segmentation. The anchor-free detector head inherits the pixel-like merits and effectively avoids the sensitivity of hyper-parameters as proved in object detection applications. By introducing the part-aware boundary clue, the edge-guided parsing head is capable to distinguish adjacent human parts from among each other up to 58 parts in a single human instance, even overlapping instances. Meanwhile, a refinement head integrating box-level score and part-level parsing quality is exploited to improve the quality of the parsing results. Experiments on two multiple human parsing datasets (i.e., CIHP and LV-MHP-v2.0) and one video instance-level human parsing dataset (i.e., VIP) show that our method achieves the best global-level and instance-level performance over state-of-the-art one-stage top-down alternatives.
翻訳日:2022-07-15 14:19:17 公開日:2022-07-14
# E2FIF:エンドツーエンド全精度情報フローを用いた2値化深部画像の超解像限界のプッシュ

E2FIF: Push the limit of Binarized Deep Imagery Super-resolution using End-to-end Full-precision Information Flow ( http://arxiv.org/abs/2207.06893v1 )

ライセンス: Link先を確認
Zhiqiang Lang, Lei Zhang, Wei Wei(参考訳) binary neural network(bnn)は、パラメータ集約型深層単一画像スーパーレゾリューション(sisr)モデルを、ストレージと計算リソースの制限された実デバイスにデプロイする、有望なソリューションを提供する。 SISRの既存のBNNのほとんどは、重み付けとアクティベーションを二項化することで得られる情報損失を、二項化畳み込みに対するより良い近似によって補償することに集中している。 本研究では,bnnと全精度の差を再検討し,bnnの優れた一般化性能の鍵は,全精度情報フローの保存と,各二元化畳み込み層を通過する正確な勾配流の保持にあると主張する。 そこで本研究では,ネットワーク全体にわたる二項化畳み込み層に完全精度のスキップ接続や変形を導入し,前向きの表現能力と後向き勾配の精度を高め,一般化性能を向上させることを提案する。 さらに重要なのは、新たな計算コストを導入することなく、SISRの既存のBNNバックボーンに適用できることだ。 その有効性を検証するために,4つのベンチマークデータセット上で,SISRの4つのバックボーンを使用して評価し,既存のBNNや一部の4ビットコンペティタよりも明らかに優れたパフォーマンスを報告した。

Binary neural network (BNN) provides a promising solution to deploy parameter-intensive deep single image super-resolution (SISR) models onto real devices with limited storage and computational resources. To achieve comparable performance with the full-precision counterpart, most existing BNNs for SISR mainly focus on compensating the information loss incurred by binarizing weights and activations in the network through better approximations to the binarized convolution. In this study, we revisit the difference between BNNs and their full-precision counterparts and argue that the key for good generalization performance of BNNs lies on preserving a complete full-precision information flow as well as an accurate gradient flow passing through each binarized convolution layer. Inspired by this, we propose to introduce a full-precision skip connection or its variant over each binarized convolution layer across the entire network, which can increase the forward expressive capability and the accuracy of back-propagated gradient, thus enhancing the generalization performance. More importantly, such a scheme is applicable to any existing BNN backbones for SISR without introducing any additional computation cost. To testify its efficacy, we evaluate it using four different backbones for SISR on four benchmark datasets and report obviously superior performance over existing BNNs and even some 4-bit competitors.
翻訳日:2022-07-15 14:18:50 公開日:2022-07-14
# 双方向バッファを用いたリアルタイムストリーミングビデオ

Real-time Streaming Video Denoising with Bidirectional Buffers ( http://arxiv.org/abs/2207.06937v1 )

ライセンス: Link先を確認
Chenyang Qi, Junming Chen, Xin Yang, Qifeng Chen(参考訳) ビデオストリームは、ストレージとデバイスメモリのコストを節約するために継続的に配信される。 ビデオストリームの撮影や送信中に発生するノイズを取り除くために、リアルタイムのデノイジングアルゴリズムが一般的にユーザデバイスで採用されている。 しかし、スライディングウィンドウベースの手法は、複数の入力フレームを単一の出力に供給し、計算効率に欠ける。 最近のマルチアウトプット推論は、双方向の時間的特徴を並列または再帰的なフレームワークで伝達し、クリップの時間的エッジのパフォーマンス低下に苦しむか、オンライン推論ができない。 本稿では,過去と未来の両方の時間的受容領域を有するストリーミングビデオに対して,高忠実度リアルタイムデノイジングを実現するための双方向ストリーミングビデオデノイジング(bsvd)フレームワークを提案する。 オンライン推論のための双方向時間融合は、MoViNetには適用されないと考えられている。 しかし,bsvdのコアモジュールとして,新たな双方向バッファブロックを導入することで,パイプライン型推論が可能となった。 さらに,本手法は簡潔かつ柔軟であり,非盲検・盲検の両方で使用することができる。 我々は,合成ノイズと実雑音の質的,定量的に,最先端のビデオデノゲーションモデルと比較した。 本手法は, 復元率と実行時間において, 従来の手法よりも優れていた。 ソースコードはhttps://github.com/ChenyangQiQi/BSVDで公開されています。

Video streams are delivered continuously to save the cost of storage and device memory. Real-time denoising algorithms are typically adopted on the user device to remove the noise involved during the shooting and transmission of video streams. However, sliding-window-based methods feed multiple input frames for a single output and lack computation efficiency. Recent multi-output inference works propagate the bidirectional temporal feature with a parallel or recurrent framework, which either suffers from performance drops on the temporal edges of clips or can not achieve online inference. In this paper, we propose a Bidirectional Streaming Video Denoising (BSVD) framework, to achieve high-fidelity real-time denoising for streaming videos with both past and future temporal receptive fields. The bidirectional temporal fusion for online inference is considered not applicable in the MoViNet. However, we introduce a novel Bidirectional Buffer Block as the core module of our BSVD, which makes it possible during our pipeline-style inference. In addition, our method is concise and flexible to be utilized in both non-blind and blind video denoising. We compare our model with various state-of-the-art video denoising models qualitatively and quantitatively on synthetic and real noise. Our method outperforms previous methods in terms of restoration fidelity and runtime. Our source code is publicly available at https://github.com/ChenyangQiQi/BSVD
翻訳日:2022-07-15 14:18:25 公開日:2022-07-14
# ビデオオブジェクトセグメンテーションにおける背景の抽出

Tackling Background Distraction in Video Object Segmentation ( http://arxiv.org/abs/2207.06953v1 )

ライセンス: Link先を確認
Suhwan Cho, Heansung Lee, Minhyeok Lee, Chaewon Park, Sungjun Jang, Minjung Kim, Sangyoun Lee(参考訳) 半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定の指定されたオブジェクトを密に追跡することを目的としている。 このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。 このような混乱を抑えるための3つの新しい戦略を提案する。 1) 対象物の一般化特性を得るための時空間的多角化テンプレート構築スキーム 2) 2つの連続するフレーム間の時間的一貫性を利用して空間的距離を逸脱する学習可能な距離標示機能 3) 絡み合ったオブジェクトを含むトレーニングサンプルを提供することで、各オブジェクトにユニークな特徴を持たせるスワップ・アンド・アタッチメントの強化。 すべての公開ベンチマークデータセットにおいて、我々のモデルは、リアルタイムのパフォーマンスであっても、現代の最先端のアプローチに匹敵する性能を達成する。 定性的な結果も既存の手法よりも優れていることを示している。 われわれのアプローチは今後のVOS研究に広く使われるだろう。

Semi-supervised video object segmentation (VOS) aims to densely track certain designated objects in videos. One of the main challenges in this task is the existence of background distractors that appear similar to the target objects. We propose three novel strategies to suppress such distractors: 1) a spatio-temporally diversified template construction scheme to obtain generalized properties of the target objects; 2) a learnable distance-scoring function to exclude spatially-distant distractors by exploiting the temporal consistency between two consecutive frames; 3) swap-and-attach augmentation to force each object to have unique features by providing training samples containing entangled objects. On all public benchmark datasets, our model achieves a comparable performance to contemporary state-of-the-art approaches, even with real-time performance. Qualitative results also demonstrate the superiority of our approach over existing methods. We believe our approach will be widely used for future VOS research.
翻訳日:2022-07-15 14:18:05 公開日:2022-07-14
# ポイントベースヒューマンモデリングのための暗黙テンプレートの学習

Learning Implicit Templates for Point-Based Clothed Human Modeling ( http://arxiv.org/abs/2207.06955v1 )

ライセンス: Link先を確認
Siyou Lin, Hongwen Zhang, Zerong Zheng, Ruizhi Shao and Yebin Liu(参考訳) 衣服のアバターをモデル化するフレームワークである fite について紹介する。 まず,粗い衣服トポロジーを表す暗黙的な表面テンプレートを学習し,その後,そのテンプレートを用いてポイントセットの生成を指導し,さらにシワなどのポーズ依存の衣服変形を捉えた。 私たちのパイプラインには、暗黙的表現と明示的表現の両方の利点、すなわち、様々なトポロジを扱う能力と、詳細を効率的に捉える能力が組み込まれています。 また,ゆるい衣服のテンプレートトレーニングを容易にするための拡散スキンや,予め定義されたUVマップや接続性のないメッシュテンプレートからポーズ情報を抽出するプロジェクションベースのポーズエンコーディングも提案する。 私たちのコードはhttps://github.com/jsnln/fiteで公開されています。

We present FITE, a First-Implicit-Then-Explicit framework for modeling human avatars in clothing. Our framework first learns implicit surface templates representing the coarse clothing topology, and then employs the templates to guide the generation of point sets which further capture pose-dependent clothing deformations such as wrinkles. Our pipeline incorporates the merits of both implicit and explicit representations, namely, the ability to handle varying topology and the ability to efficiently capture fine details. We also propose diffused skinning to facilitate template training especially for loose clothing, and projection-based pose-encoding to extract pose information from mesh templates without predefined UV map or connectivity. Our code is publicly available at https://github.com/jsnln/fite.
翻訳日:2022-07-15 14:17:52 公開日:2022-07-14
# pr-darts: プルーニングベースの差別化可能なアーキテクチャ検索

PR-DARTS: Pruning-Based Differentiable Architecture Search ( http://arxiv.org/abs/2207.06968v1 )

ライセンス: Link先を確認
Hamid Mousavi, Mohammad Loni, Mina Alibeigi, Masoud Daneshtalab(参考訳) エッジデバイスへの畳み込みニューラルネットワーク(CNN)のデプロイは、パフォーマンス要件と利用可能な処理能力の大幅なギャップによって妨げられている。 近年の研究では、cnnの計算オーバーヘッドを削減するネットワークプルーニング手法の開発が進んでいるが、特に高いプルーニング比では、かなりの精度の損失が残っている。 非プラニングネットワーク用に設計されたアーキテクチャがプルーニングネットワークに有効ではないという疑問に対して,新たな検索空間と新たな検索目的を定義することにより、プルーニング手法の検索アーキテクチャを提案する。 そこで本研究では,prunedconvとprunedlinearの2つの演算を提案する。 特に、これらの操作は、刈り取られたネットワークの目的関数を定式化することにより、不安定な勾配の問題を軽減する。 提案する検索目的により,プルーン重み要素に関するアーキテクチャパラメータをトレーニングできる。 CIFAR-10 および ImageNet 上での最先端プルーニングネットワークにおいて,検索したアーキテクチャよりも優れた性能を示した。 ハードウェアの有効性に関して、PR-DARTSはMobileNet-v2の精度を73.44%から81.35%(+7.91%の改善)に向上させ、3.87$\times$より高速に動作させる。

The deployment of Convolutional Neural Networks (CNNs) on edge devices is hindered by the substantial gap between performance requirements and available processing power. While recent research has made large strides in developing network pruning methods for reducing the computing overhead of CNNs, there remains considerable accuracy loss, especially at high pruning ratios. Questioning that the architectures designed for non-pruned networks might not be effective for pruned networks, we propose to search architectures for pruning methods by defining a new search space and a novel search objective. To improve the generalization of the pruned networks, we propose two novel PrunedConv and PrunedLinear operations. Specifically, these operations mitigate the problem of unstable gradients by regularizing the objective function of the pruned networks. The proposed search objective enables us to train architecture parameters regarding the pruned weight elements. Quantitative analyses demonstrate that our searched architectures outperform those used in the state-of-the-art pruning networks on CIFAR-10 and ImageNet. In terms of hardware effectiveness, PR-DARTS increases MobileNet-v2's accuracy from 73.44% to 81.35% (+7.91% improvement) and runs 3.87$\times$ faster.
翻訳日:2022-07-15 14:17:38 公開日:2022-07-14
# 不均衡医用画像分類のためのメトリックラーニングによる学習識別表現

Learning Discriminative Representation via Metric Learning for Imbalanced Medical Image Classification ( http://arxiv.org/abs/2207.06975v1 )

ライセンス: Link先を確認
Chenghua Zeng, Huijuan Lu, Kanghao Chen, Ruixuan Wang, and Wei-Shi Zheng(参考訳) モデルトレーニング中の一般的な疾患と稀な疾患のデータの不均衡は、知的診断システムに共通の疾患に対する予測のバイアスを引き起こすことが多い。 state-of-the-artアプローチでは,クラス不均衡問題を解決するために2段階学習フレームワークを適用し,第1段階は一般特徴抽出器のトレーニングに,第2段階はクラス再バランスのための分類器ヘッドの微調整に重点を置いている。 しかし、既存の2段階のアプローチでは、異なる疾患間のきめ細かな性質を考慮せず、1段階目は自然画像の分類よりも医療画像の分類に効果を欠くことが多い。 本研究では,特徴抽出器がより識別的な特徴表現を抽出するのを助けるために,2段階フレームワークの第1段階にメトリック学習を組み込むことを提案する。 3つの医用画像データセットを主とする大規模な実験により,提案手法は既存の1段階と2段階のアプローチを一貫して上回り,2段階の分類作業において,メートル法学習を効果的なプラグインコンポーネントとして活用できることが示唆された。

Data imbalance between common and rare diseases during model training often causes intelligent diagnosis systems to have biased predictions towards common diseases. The state-of-the-art approaches apply a two-stage learning framework to alleviate the class-imbalance issue, where the first stage focuses on training of a general feature extractor and the second stage focuses on fine-tuning the classifier head for class rebalancing. However, existing two-stage approaches do not consider the fine-grained property between different diseases, often causing the first stage less effective for medical image classification than for natural image classification tasks. In this study, we propose embedding metric learning into the first stage of the two-stage framework specially to help the feature extractor learn to extract more discriminative feature representations. Extensive experiments mainly on three medical image datasets show that the proposed approach consistently outperforms existing onestage and two-stage approaches, suggesting that metric learning can be used as an effective plug-in component in the two-stage framework for fine-grained class-imbalanced image classification tasks.
翻訳日:2022-07-15 14:17:14 公開日:2022-07-14
# objectbox: アンカーフリーオブジェクト検出のためのセンターからボックスへ

ObjectBox: From Centers to Boxes for Anchor-Free Object Detection ( http://arxiv.org/abs/2207.06985v1 )

ライセンス: Link先を確認
Mohsen Zand, Ali Etemad, Michael Greenspan(参考訳) 単段アンカーフリーかつ高一般化可能なオブジェクト検出手法であるObjectBoxを提案する。 既存のアンカーベースおよびアンカーフリー検出器はラベルの割り当てにおいて特定のオブジェクトスケールに偏りが強いため、対象中心位置のみを正のサンプルとして使用し、オブジェクトのサイズや形状に関わらず、全てのオブジェクトを等しく異なる特徴レベルで扱う。 具体的には,対象の中心位置をアンカーフリーな方法で形状および大きさに依存しないアンカーとみなし,各対象に対してあらゆるスケールでの学習を可能にする。 これをサポートするため、新しい回帰対象を、中心セルの位置の2つの角から境界ボックスの4つの辺までの距離として定義する。 さらに、スケール変動オブジェクトを扱うために、異なるサイズのボックスを扱うために、IoUロスを調整した。 その結果、提案するオブジェクト検出器はデータセット間で調整されるデータセット依存のハイパーパラメータを必要としない。 提案手法をMS-COCO 2017およびPASCAL VOC 2012データセット上で評価し,その結果を最先端の手法と比較した。 我々は、ObjectBoxが以前の作業と比べて好適に機能することを観察する。 さらに, 本手法の異なる成分を評価するために, 厳密なアブレーション実験を行った。 私たちのコードは、https://github.com/MohsenZand/ObjectBox.comで利用可能です。

We present ObjectBox, a novel single-stage anchor-free and highly generalizable object detection approach. As opposed to both existing anchor-based and anchor-free detectors, which are more biased toward specific object scales in their label assignments, we use only object center locations as positive samples and treat all objects equally in different feature levels regardless of the objects' sizes or shapes. Specifically, our label assignment strategy considers the object center locations as shape- and size-agnostic anchors in an anchor-free fashion, and allows learning to occur at all scales for every object. To support this, we define new regression targets as the distances from two corners of the center cell location to the four sides of the bounding box. Moreover, to handle scale-variant objects, we propose a tailored IoU loss to deal with boxes with different sizes. As a result, our proposed object detector does not need any dataset-dependent hyperparameters to be tuned across datasets. We evaluate our method on MS-COCO 2017 and PASCAL VOC 2012 datasets, and compare our results to state-of-the-art methods. We observe that ObjectBox performs favorably in comparison to prior works. Furthermore, we perform rigorous ablation experiments to evaluate different components of our method. Our code is available at: https://github.com/MohsenZand/ObjectBox.
翻訳日:2022-07-15 14:16:52 公開日:2022-07-14
# 階層的アグリゲーションによる木構造を考慮した少数ショット画像分類

Tree Structure-Aware Few-Shot Image Classification via Hierarchical Aggregation ( http://arxiv.org/abs/2207.06989v1 )

ライセンス: Link先を確認
Min Zhang and Siteng Huang and Wenbin Li and Donglin Wang(参考訳) 本稿では,プレテキストタスク(例えば,回転や色順変化など)を通じて,少数ショット画像分類のための付加的な特徴表現を学習する方法の問題に焦点をあてる。 プレテキストタスクによって生成されたこの追加知識は、人間のアノテーションによる監督(例えば、FSLタスクのクラスラベル)と異なるため、少数ショット学習(FSL)の性能をさらに向上させることができる。 この問題を解決するために,FSLタスクとプレテキストタスクの関係を学習するだけでなく,プリテキストタスクによって生成された特徴表現を適応的に選択し,FSLタスクの性能を最大化できるプラグイン階層木構造認識(HTS)手法を提案する。 階層木構築コンポーネントとゲート選択集約コンポーネントを導入し、木構造を構築し、ラベル付き画像がいくつかある新しいクラスに迅速に適応できるよりリッチな伝達可能な知識を求める。 広範な実験により、我々のhtsは4つのベンチマークデータセットで新たな最先端性能を達成するために、複数の数ショットメソッドを著しく強化できることが示されました。 コードはhttps://github.com/remimz/hts-eccv22。

In this paper, we mainly focus on the problem of how to learn additional feature representations for few-shot image classification through pretext tasks (e.g., rotation or color permutation and so on). This additional knowledge generated by pretext tasks can further improve the performance of few-shot learning (FSL) as it differs from human-annotated supervision (i.e., class labels of FSL tasks). To solve this problem, we present a plug-in Hierarchical Tree Structure-aware (HTS) method, which not only learns the relationship of FSL and pretext tasks, but more importantly, can adaptively select and aggregate feature representations generated by pretext tasks to maximize the performance of FSL tasks. A hierarchical tree constructing component and a gated selection aggregating component is introduced to construct the tree structure and find richer transferable knowledge that can rapidly adapt to novel classes with a few labeled images. Extensive experiments show that our HTS can significantly enhance multiple few-shot methods to achieve new state-of-the-art performance on four benchmark datasets. The code is available at: https://github.com/remiMZ/HTS-ECCV22.
翻訳日:2022-07-15 14:16:30 公開日:2022-07-14
# 局所フレームセットを用いた点雲登録のオーバーフィットトレーニングによる高精度地中深度画像生成

Accurate Ground-Truth Depth Image Generation via Overfit Training of Point Cloud Registration using Local Frame Sets ( http://arxiv.org/abs/2207.07016v1 )

ライセンス: Link先を確認
Jiwan Kim, Minchang Kim, Yeong-Gil Shin, and Minyoung Chung(参考訳) 正確な3次元知覚は、いくつかのコンピュータビジョンアプリケーションにおいて基本的な課題である。 近年,RGBディープス(RGB-D)カメラは,高効率な深度センシング能力のため,単一視野深度センシング装置として広く採用されている。 しかし、ほとんどのRGB-Dセンサーの奥行き品質は、単一視野環境からの固有のノイズのため、まだ不十分である。 近年,RGB-Dカメラの1視点深度向上に焦点が当てられている。 近年の研究では、一般的に高品質な教師付き深度データセットを用いてネットワークを訓練する深層学習に基づくアプローチが提案されており、地上(gt)深度データセットの品質が精度の高いシステムにとって最も重要な要素であることを示しているが、そのような高品質なgtデータセットを得るのは難しい。 本研究では,RGB-Dストリームデータセットに基づく高品質GT深度生成手法を開発した。 まず,局所空間領域における連続深度フレームを局所フレームセットとして定義した。 次に,教師なしポイントクラウド登録方式を用いて,深度フレームをローカルフレームセット内の特定のフレームにアライメントした。 登録パラメータは、フレームセット毎に単一のgt深度イメージを構築するために主に使用されたオーバーフィットトレーニングスキームに基づいてトレーニングされた。 最後のGT深度データセットは複数のローカルフレームセットを使用して構築され、各ローカルフレームセットは独立して訓練された。 この研究の主な利点は、RGB-Dストリームデータセットのみを用いて、様々な走査環境下で高品質なGT深度データセットを構築することができることである。 さらに,提案手法は,正確な性能評価のための新しいベンチマークGTデータセットとして利用できる。 これまでにベンチマークしたGT深度データセットを用いてGTデータセットを評価し,その手法が最先端の深度向上フレームワークよりも優れていることを示した。

Accurate three-dimensional perception is a fundamental task in several computer vision applications. Recently, commercial RGB-depth (RGB-D) cameras have been widely adopted as single-view depth-sensing devices owing to their efficient depth-sensing abilities. However, the depth quality of most RGB-D sensors remains insufficient owing to the inherent noise from a single-view environment. Recently, several studies have focused on the single-view depth enhancement of RGB-D cameras. Recent research has proposed deep-learning-based approaches that typically train networks using high-quality supervised depth datasets, which indicates that the quality of the ground-truth (GT) depth dataset is a top-most important factor for accurate system; however, such high-quality GT datasets are difficult to obtain. In this study, we developed a novel method for high-quality GT depth generation based on an RGB-D stream dataset. First, we defined consecutive depth frames in a local spatial region as a local frame set. Then, the depth frames were aligned to a certain frame in the local frame set using an unsupervised point cloud registration scheme. The registration parameters were trained based on an overfit-training scheme, which was primarily used to construct a single GT depth image for each frame set. The final GT depth dataset was constructed using several local frame sets, and each local frame set was trained independently. The primary advantage of this study is that a high-quality GT depth dataset can be constructed under various scanning environments using only the RGB-D stream dataset. Moreover, our proposed method can be used as a new benchmark GT dataset for accurate performance evaluations. We evaluated our GT dataset on previously benchmarked GT depth datasets and demonstrated that our method is superior to state-of-the-art depth enhancement frameworks.
翻訳日:2022-07-15 14:15:45 公開日:2022-07-14
# 物体追跡の統一に向けて

Towards Grand Unification of Object Tracking ( http://arxiv.org/abs/2207.07078v1 )

ライセンス: Link先を確認
Bin Yan, Yi Jiang, Peize Sun, Dong Wang, Zehuan Yuan, Ping Luo, and Huchuan Lu(参考訳) 本論文では,単一ネットワーク上で同じモデルパラメータを用いて4つのトラッキング問題(sot, mot, vos, mots)を同時に解決できる統一手法であるunicornを提案する。 オブジェクト追跡問題自体の断片的な定義のため、既存のトラッカーはタスクの1つまたは一部に対処し、特定のタスクの特性を過小評価するように開発されている。 対照的にUnicornは、すべてのトラッキングタスクに同じインプット、バックボーン、埋め込み、ヘッドを採用する、統一されたソリューションを提供する。 追跡ネットワークアーキテクチャと学習パラダイムの偉大な統合を初めて達成しました。 Unicornは、LaSOT、TrackingNet、MOT17、BDD100K、DAVIS16-17、MOTS20、BDD100K MOTSを含む8つのトラッキングデータセットにおいて、タスク固有のデータセットよりもパフォーマンスが優れている。 私たちはUnicornが一般的なビジョンモデルに向けた確かなステップとなると信じています。 コードはhttps://github.com/MasterBin-IIAU/Unicornで入手できる。

We present a unified method, termed Unicorn, that can simultaneously solve four tracking problems (SOT, MOT, VOS, MOTS) with a single network using the same model parameters. Due to the fragmented definitions of the object tracking problem itself, most existing trackers are developed to address a single or part of tasks and overspecialize on the characteristics of specific tasks. By contrast, Unicorn provides a unified solution, adopting the same input, backbone, embedding, and head across all tracking tasks. For the first time, we accomplish the great unification of the tracking network architecture and learning paradigm. Unicorn performs on-par or better than its task-specific counterparts in 8 tracking datasets, including LaSOT, TrackingNet, MOT17, BDD100K, DAVIS16-17, MOTS20, and BDD100K MOTS. We believe that Unicorn will serve as a solid step towards the general vision model. Code is available at https://github.com/MasterBin-IIAU/Unicorn.
翻訳日:2022-07-15 14:15:19 公開日:2022-07-14
# Relighting4D: ビデオで見る人間

Relighting4D: Neural Relightable Human from Videos ( http://arxiv.org/abs/2207.07104v1 )

ライセンス: Link先を確認
Zhaoxi Chen and Ziwei Liu(参考訳) 人間のリライトは非常に望ましいが難しい課題だ。 既存の作業は、ライトステージを使用した高価なワンライト・アット・ア・タイム(OLAT)キャプチャーデータを必要とするか、レンダリングされたボディの視点を自由に変更できないかのいずれかである。 本研究では,未知の照度下で人間の映像のみから自由視点で照らし出すための原則付きフレームワーク,relighting4dを提案する。 私たちの重要な洞察は、人体の時空変化の幾何学と反射は、正常、咬合、拡散、スペクティカルマップの神経場の集合として分解できるということです。 これらのニューラルフィールドは、リフレクタンスを意識した物理ベースのレンダリングにさらに統合され、ニューラルフィールドの各頂点が環境からの光を吸収して反射する。 フレームワーク全体は、正規化のために設計された物理的に情報を得た、自己管理的な方法でビデオから学習することができる。 実データと合成データの両方に関する広範囲な実験は、我々のフレームワークが、自由視点で動的ヒューマンアクタをリフレッシュできることを示しています。

Human relighting is a highly desirable yet challenging task. Existing works either require expensive one-light-at-a-time (OLAT) captured data using light stage or cannot freely change the viewpoints of the rendered body. In this work, we propose a principled framework, Relighting4D, that enables free-viewpoints relighting from only human videos under unknown illuminations. Our key insight is that the space-time varying geometry and reflectance of the human body can be decomposed as a set of neural fields of normal, occlusion, diffuse, and specular maps. These neural fields are further integrated into reflectance-aware physically based rendering, where each vertex in the neural field absorbs and reflects the light from the environment. The whole framework can be learned from videos in a self-supervised manner, with physically informed priors designed for regularization. Extensive experiments on both real and synthetic datasets demonstrate that our framework is capable of relighting dynamic human actors with free-viewpoints.
翻訳日:2022-07-15 14:15:01 公開日:2022-07-14
# XMem: Atkinson-Shiffrinメモリモデルを用いた長期ビデオオブジェクトセグメンテーション

XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model ( http://arxiv.org/abs/2207.07115v1 )

ライセンス: Link先を確認
Ho Kei Cheng and Alexander G. Schwing(参考訳) 我々は,Atkinson-Shiffrinメモリモデルにインスパイアされた特徴記憶を統一した長ビデオ用ビデオオブジェクトセグメンテーションアーキテクチャXMemを提案する。 ビデオオブジェクトセグメンテーションの以前の作業は、通常、1種類のフィーチャーメモリのみを使用する。 1分以上のビデオの場合、単一の機能メモリモデルはメモリ消費と精度を強くリンクする。 対照的に、atkinson-shiffrinモデルに従い、高速に更新された感覚記憶装置、高分解能の作業記憶装置、コンパクトで持続的な長期記憶装置など、複数の独立で深く接続された特徴記憶装置を組み込んだアーキテクチャを開発した。 本稿では,アクティブに使用されるメモリ要素を長期記憶に日常的に統合するメモリ強化アルゴリズムを開発し,メモリの爆発を回避し,長期予測のための性能低下を最小限に抑える。 新しいメモリ読み込みメカニズムと組み合わせることで、XMemは、短いビデオデータセットの最先端のパフォーマンスをはるかに上回り、短いビデオデータセットの最先端メソッド(長ビデオでは動作しない)と同等である。 コードはhttps://hkchengrex.github.io/XMemで入手できる。

We present XMem, a video object segmentation architecture for long videos with unified feature memory stores inspired by the Atkinson-Shiffrin memory model. Prior work on video object segmentation typically only uses one type of feature memory. For videos longer than a minute, a single feature memory model tightly links memory consumption and accuracy. In contrast, following the Atkinson-Shiffrin model, we develop an architecture that incorporates multiple independent yet deeply-connected feature memory stores: a rapidly updated sensory memory, a high-resolution working memory, and a compact thus sustained long-term memory. Crucially, we develop a memory potentiation algorithm that routinely consolidates actively used working memory elements into the long-term memory, which avoids memory explosion and minimizes performance decay for long-term prediction. Combined with a new memory reading mechanism, XMem greatly exceeds state-of-the-art performance on long-video datasets while being on par with state-of-the-art methods (that do not work on long videos) on short-video datasets. Code is available at https://hkchengrex.github.io/XMem
翻訳日:2022-07-15 14:14:43 公開日:2022-07-14
# 文書群対話のためのレイアウト認識情報抽出:データセット,方法,デモ

Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration ( http://arxiv.org/abs/2207.06717v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Bowen Yu, Haiyang Yu, Tingwen Liu, Cheng Fu, Jingyang Li, Chengguang Tang, Jian Sun, Yongbin Li(参考訳) 文書が豊富な人的知識を伝達し、企業で一般的に見られるように、文書化された対話システムの構築が関心を集めている。 一方、文書から情報を理解して取得する方法は、難しい研究課題である。 以前の作品は文書の視覚的な性質を無視して平易なテキストとして扱い、不完全なモダリティをもたらす。 本稿では,視覚的にリッチな文書(vrd)から構造的・意味的知識を抽出し,対話システムにおいて正確な応答を生成するためのレイアウト認識型文書レベル情報抽出データセットであるlieを提案する。 LIEには4,061ページの製品と公式文書から抽出された3つのタスクの62kアノテーションが含まれており、私たちの知る限り最大のVRDベースの情報抽出データセットとなっている。 また,人間のようなレイアウト機能を考慮したトークンベースの言語モデルを拡張するベンチマーク手法を開発した。 経験的な結果は、レイアウトがvrdベースの抽出に不可欠であることを示し、システムデモは、抽出された知識がユーザが関心を持つ回答を見つけるのに役立つことを検証している。

Building document-grounded dialogue systems have received growing interest as documents convey a wealth of human knowledge and commonly exist in enterprises. Wherein, how to comprehend and retrieve information from documents is a challenging research problem. Previous work ignores the visual property of documents and treats them as plain text, resulting in incomplete modality. In this paper, we propose a Layout-aware document-level Information Extraction dataset, LIE, to facilitate the study of extracting both structural and semantic knowledge from visually rich documents (VRDs), so as to generate accurate responses in dialogue systems. LIE contains 62k annotations of three extraction tasks from 4,061 pages in product and official documents, becoming the largest VRD-based information extraction dataset to the best of our knowledge. We also develop benchmark methods that extend the token-based language model to consider layout features like humans. Empirical results show that layout is critical for VRD-based extraction, and system demonstration also verifies that the extracted knowledge can help locate the answers that users care about.
翻訳日:2022-07-15 14:14:26 公開日:2022-07-14
# オートエンコーダ問題のメタラーニング定式化

A Meta-learning Formulation of the Autoencoder Problem ( http://arxiv.org/abs/2207.06676v1 )

ライセンス: Link先を確認
Andrey A. Popov, Arash Sarshar, Austin Chennault, Adrian Sandu(参考訳) 急速に成長する研究領域は、科学応用におけるデータとモデルの次元的低減にオートエンコーダのような機械学習アプローチを使用することである。 オートエンコーダの標準的定式化は、性能を阻害するいくつかの欠陥に苦しむことを示している。 メタラーニング手法を用いて,次元低減タスクを明示的に解く二段階最適化手法としてオートエンコーダ問題を再構成する。 新たな定式化により,正準オートエンコーダで同定された欠陥を正し,それを解決するための実用的な方法を提供し,この定式化の強みを簡単な数値的図解で示している。

A rapidly growing area of research is the use of machine learning approaches such as autoencoders for dimensionality reduction of data and models in scientific applications. We show that the canonical formulation of autoencoders suffers from several deficiencies that can hinder their performance. Using a meta-learning approach, we reformulate the autoencoder problem as a bi-level optimization procedure that explicitly solves the dimensionality reduction task. We prove that the new formulation corrects the identified deficiencies with canonical autoencoders, provide a practical way to solve it, and showcase the strength of this formulation with a simple numerical illustration.
翻訳日:2022-07-15 14:12:36 公開日:2022-07-14
# 条件不変正規化器によるOOD一般化の改善

Improved OOD Generalization via Conditional Invariant Regularizer ( http://arxiv.org/abs/2207.06687v1 )

ライセンス: Link先を確認
Mingyang Yi and Ruoyu Wang and Jiachen Sun and Zhenguo Li and Zhi-Ming Ma(参考訳) 近年,相関シフトによるアウト・オブ・ディストリビューション(OOD)データの一般化が注目されている。 相関シフトは、クラスラベルと相関するスプリアス特性が原因であり、それらの相関はトレーニングデータとテストデータで異なる可能性がある。 このような問題に対して、クラスラベルが与えられた場合、スプリアス属性の条件独立モデルはOOD一般化可能であることを示す。 このような条件付き独立性を測定するために,ood一般化誤差を制御するメトリック条件付きスプリアス変動(csv)が提案されている。 OODの一般化を改善するため,提案したCSVを用いてトレーニングプロセスの正規化を行う。 軽度の仮定の下では、我々の訓練目標は、凸凸でないミニマックス問題として定式化できる。 この問題を解決するために, 証明可能な収束率を持つアルゴリズムを提案する。 OOD一般化の改善におけるアルゴリズムの有効性を検証する。

Recently, generalization on out-of-distribution (OOD) data with correlation shift has attracted great attention. The correlation shift is caused by the spurious attributes that correlate to the class label, as the correlation between them may vary in training and test data. For such a problem, we show that given the class label, the conditionally independent models of spurious attributes are OOD generalizable. Based on this, a metric Conditional Spurious Variation (CSV) which controls OOD generalization error, is proposed to measure such conditional independence. To improve the OOD generalization, we regularize the training process with the proposed CSV. Under mild assumptions, our training objective can be formulated as a nonconvex-concave mini-max problem. An algorithm with provable convergence rate is proposed to solve the problem. Extensive empirical results verify our algorithm's efficacy in improving OOD generalization.
翻訳日:2022-07-15 14:12:25 公開日:2022-07-14
# 動的に進化する明示的記憶を用いた実時間Few-shot連続学習のインメモリ化

In-memory Realization of In-situ Few-shot Continual Learning with a Dynamically Evolving Explicit Memory ( http://arxiv.org/abs/2207.06810v1 )

ライセンス: Link先を確認
Geethan Karunaratne, Michael Hersche, Jovin Langenegger, Giovanni Cherubini, Manuel Le Gallo-Bourdeau, Urs Egger, Kevin Brew, Sam Choi, INJO OK, Mary Claire Silvestre, Ning Li, Nicole Saulnier, Victor Chan, Ishtiaq Ahsan, Vijay Narayanan, Luca Benini, Abu Sebastian, Abbas Rahimi(参考訳) 古いクラスを忘れずに、いくつかのトレーニング例から新しいクラスを継続的に学習するには、必然的に増大するストレージ部分を持つ柔軟なアーキテクチャが必要である。 実行可能なアーキテクチャソリューションのひとつは、定常的なディープニューラルネットワークを動的に進化する明示的メモリ(EM)に密結合することである。 このアーキテクチャの中心として、連続的な学習操作中にエネルギー効率の高いインメモリ計算(IMC)コアを利用するEMユニットを提案する。 EMユニットが複数のトレーニング例を物理的に重畳し、未知のクラスに対応できるように拡張し、位相変化メモリ(PCM)に基づくIMCコア上での動作を用いて推論中に類似性検索を行う方法について初めて示す。 具体的には、PCMデバイスのその場進行結晶化により、いくつかの符号化されたトレーニング例の物理的重ね合わせを実現する。 imcコアで達成された分類精度は、60の古いクラスで40の斬新なクラス(クラス毎にわずか5つの例から)を継続的に学習する場合、cifar-100とminiimagenetの両方の最先端のベースラインモデルと比較すると1.28%--2.5%の範囲に留まっている。

Continually learning new classes from a few training examples without forgetting previous old classes demands a flexible architecture with an inevitably growing portion of storage, in which new examples and classes can be incrementally stored and efficiently retrieved. One viable architectural solution is to tightly couple a stationary deep neural network to a dynamically evolving explicit memory (EM). As the centerpiece of this architecture, we propose an EM unit that leverages energy-efficient in-memory compute (IMC) cores during the course of continual learning operations. We demonstrate for the first time how the EM unit can physically superpose multiple training examples, expand to accommodate unseen classes, and perform similarity search during inference, using operations on an IMC core based on phase-change memory (PCM). Specifically, the physical superposition of a few encoded training examples is realized via in-situ progressive crystallization of PCM devices. The classification accuracy achieved on the IMC core remains within a range of 1.28%--2.5% compared to that of the state-of-the-art full-precision baseline software model on both the CIFAR-100 and miniImageNet datasets when continually learning 40 novel classes (from only five examples per class) on top of 60 old classes.
翻訳日:2022-07-15 14:12:14 公開日:2022-07-14
# Few-Shot LearningにおけるHuman-in-the-Loopシステムの選択機構

Instance Selection Mechanisms for Human-in-the-Loop Systems in Few-Shot Learning ( http://arxiv.org/abs/2207.06835v1 )

ライセンス: Link先を確認
Johannes Jakubik, Benedikt Blumenstiel, Michael V\"ossing, Patrick Hemmer(参考訳) ビジネス分析と機械学習は、コスト集約的なデータ収集とラベル付けのマイナス面とともに、さまざまな業界にとって重要な成功要因になっています。 この課題に対処し、ラベル付きデータの少ない新しいクラスを学習することで、データ収集とラベル付けのコストを削減する。 本稿では,複数発の学習のためのHuman-in-the-loop(HITL)システムを設計し,不確実な予測結果を持つ事例に対する人間の専門知識獲得に使用できる幅広いメカニズムを解析する。 人間の専門知識の獲得は,無意味なラベリング努力により,少数のモデルのパフォーマンスを著しく向上させることが示された。 我々は,コンピュータビジョンと実世界のデータセットのベンチマークデータセットを用いて,様々な実験を行った。 さらに, HITLシステムの費用対効果を, 数発の学習で実証する。 本研究は,機械学習モデルを新しいクラスに効果的に適応する上で,研究者や実践者を支援することを目的としている。

Business analytics and machine learning have become essential success factors for various industries - with the downside of cost-intensive gathering and labeling of data. Few-shot learning addresses this challenge and reduces data gathering and labeling costs by learning novel classes with very few labeled data. In this paper, we design a human-in-the-loop (HITL) system for few-shot learning and analyze an extensive range of mechanisms that can be used to acquire human expert knowledge for instances that have an uncertain prediction outcome. We show that the acquisition of human expert knowledge significantly accelerates the few-shot model performance given a negligible labeling effort. We validate our findings in various experiments on a benchmark dataset in computer vision and real-world datasets. We further demonstrate the cost-effectiveness of HITL systems for few-shot learning. Overall, our work aims at supporting researchers and practitioners in effectively adapting machine learning models to novel classes at reduced costs.
翻訳日:2022-07-15 14:11:51 公開日:2022-07-14
# 高速ガウス過程に対する低精度算術

Low-Precision Arithmetic for Fast Gaussian Processes ( http://arxiv.org/abs/2207.06856v1 )

ライセンス: Link先を確認
Wesley J. Maddox, Andres Potapczynski, Andrew Gordon Wilson(参考訳) 低精度算術は、ニューラルネットワークのトレーニングに変換効果を持ち、計算、メモリ、エネルギーの要求を減らした。 しかし、その期待にもかかわらず、低精度算術はガウス過程(gps)にはほとんど注目されず、主にgpsは低精度で不安定な洗練された線形代数ルーチンを必要とする。 GPを半精度で訓練する際に発生する様々な障害モードについて検討する。 これらの障害モードを回避するために,共役勾配の直交化,混合精度,プレコンディショニングを含む多面的アプローチを提案する。 提案手法は,低精度の共役勾配の数値的安定性と実用性を大幅に向上させ,GPが1つのGPU上で1時間10ドルで180万ドルのデータポイントを訓練することを可能にする。

Low-precision arithmetic has had a transformative effect on the training of neural networks, reducing computation, memory and energy requirements. However, despite its promise, low-precision arithmetic has received little attention for Gaussian processes (GPs), largely because GPs require sophisticated linear algebra routines that are unstable in low-precision. We study the different failure modes that can occur when training GPs in half precision. To circumvent these failure modes, we propose a multi-faceted approach involving conjugate gradients with re-orthogonalization, mixed precision, and preconditioning. Our approach significantly improves the numerical stability and practical performance of conjugate gradients in low-precision over a wide range of settings, enabling GPs to train on $1.8$ million data points in $10$ hours on a single GPU, without any sparse approximations.
翻訳日:2022-07-15 14:11:36 公開日:2022-07-14
# フェデレーション学習のための多レベル分岐正規化

Multi-Level Branched Regularization for Federated Learning ( http://arxiv.org/abs/2207.06936v1 )

ライセンス: Link先を確認
Jinkyu Kim, Geeho Kim and Bohyung Han(参考訳) フェデレーション学習の批判的な課題は、データの不均一性とクライアント間の不均衡であり、ローカルネットワーク間の不整合とグローバルモデルの不安定な収束をもたらす。 この制約を緩和するため,我々は,各局所モデルにおける複数の補助分岐を,複数の異なるレベルでグラフトすることで構築し,オンライン知識蒸留による補助ハイブリッド経路に対応する局所モデルにおける主経路の表現を学習する,新しいアーキテクチャ正規化手法を提案する。 提案手法は,非iid設定においてもグローバルモデルの強固化に有効であり,追加の通信コストを伴わずに様々なフェデレーション学習フレームワークに適用できる。 総合的な実証実験を行い,既存の手法と比較して精度と効率の面で顕著な性能向上を示す。 ソースコードはプロジェクトのページから入手できます。

A critical challenge of federated learning is data heterogeneity and imbalance across clients, which leads to inconsistency between local networks and unstable convergence of global models. To alleviate the limitations, we propose a novel architectural regularization technique that constructs multiple auxiliary branches in each local model by grafting local and global subnetworks at several different levels and that learns the representations of the main pathway in the local model congruent to the auxiliary hybrid pathways via online knowledge distillation. The proposed technique is effective to robustify the global model even in the non-iid setting and is applicable to various federated learning frameworks conveniently without incurring extra communication costs. We perform comprehensive empirical studies and demonstrate remarkable performance gains in terms of accuracy and efficiency compared to existing methods. The source code is available at our project page.
翻訳日:2022-07-15 14:11:21 公開日:2022-07-14
# モデル不変性と一般化の強い相関について

On the Strong Correlation Between Model Invariance and Generalization ( http://arxiv.org/abs/2207.07065v1 )

ライセンス: Link先を確認
Weijian Deng, Stephen Gould, Liang Zheng(参考訳) 一般化と不変性は、あらゆる機械学習モデルの2つの重要な特性である。 一般化は、データ変換のモデル予測の一貫性を測りながら、目に見えないデータを分類するモデルの能力を捉えます。 既存の研究は肯定的な関係を示唆している: 一般化するモデルは、ある視覚的要因に不変であるべきである。 この質的な意味に基づいて、私たちは2つの貢献をします。 まず,画像ラベルに依存しないモデル不変性の簡易かつ合理的な尺度である effective invariance (ei) を導入する。 テストイメージとその変換されたバージョンに関する予測を考えると、EIは予測がどの程度の精度で、どのレベルの信頼度に一致しているかを測定する。 第二に、EIによって計算された不変度スコアを用いて、一般化と不変度の間の大規模定量的相関研究を行い、回転とグレースケール変換に焦点をあてる。 モデル中心の視点から、異なるモデルの一般化と不変性は、分布内および分布外の両方のデータセット上で強い線形関係を示す。 データセット中心の観点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。 これらの主要な発見とは別に、他のマイナーだが興味深い洞察も議論されている。

Generalization and invariance are two essential properties of any machine learning model. Generalization captures a model's ability to classify unseen data while invariance measures consistency of model predictions on transformations of the data. Existing research suggests a positive relationship: a model generalizing well should be invariant to certain visual factors. Building on this qualitative implication we make two contributions. First, we introduce effective invariance (EI), a simple and reasonable measure of model invariance which does not rely on image labels. Given predictions on a test image and its transformed version, EI measures how well the predictions agree and with what level of confidence. Second, using invariance scores computed by EI, we perform large-scale quantitative correlation studies between generalization and invariance, focusing on rotation and grayscale transformations. From a model-centric view, we observe generalization and invariance of different models exhibit a strong linear relationship, on both in-distribution and out-of-distribution datasets. From a dataset-centric view, we find a certain model's accuracy and invariance linearly correlated on different test sets. Apart from these major findings, other minor but interesting insights are also discussed.
翻訳日:2022-07-15 14:10:02 公開日:2022-07-14
# 機械学習分類器のbia緩和に関する包括的調査

Bia Mitigation for Machine Learning Classifiers: A Comprehensive Survey ( http://arxiv.org/abs/2207.07068v1 )

ライセンス: Link先を確認
Max Hort, Zhenpeng Chen, Jie M. Zhang, Federica Sarro, Mark Harman(参考訳) 本稿では,機械学習(ML)モデルにおける公平性を実現するためのバイアス緩和手法を包括的に調査する。 ML分類器のバイアス軽減に関する合計234の論文を収集する。 これらの方法は、その介入手順(前処理、内処理、後処理)とそれらを適用する技術に基づいて区別することができる。 本研究では,既存のバイアス緩和手法を文献上で評価する。 特に、データセット、メトリクス、ベンチマークを検討します。 収集された洞察に基づいて(例えば、最も人気のある公正度測定値は何ですか?バイアス緩和手法の評価に使用されるデータセットはいくつか?)。 我々は,新たなバイアス緩和手法の開発と評価において,実践者を支援することを望む。

This paper provides a comprehensive survey of bias mitigation methods for achieving fairness in Machine Learning (ML) models. We collect a total of 234 publications concerning bias mitigation for ML classifiers. These methods can be distinguished based on their intervention procedure (i.e., pre-processing, in-processing, post-processing) and the technology they apply. We investigate how existing bias mitigation methods are evaluated in the literature. In particular, we consider datasets, metrics and benchmarking. Based on the gathered insights (e.g., what is the most popular fairness metric? How many datasets are used for evaluating bias mitigation methods?). We hope to support practitioners in making informed choices when developing and evaluating new bias mitigation methods.
翻訳日:2022-07-15 14:09:44 公開日:2022-07-14
# ディープメトリックアンサンブル学習によるマイナショット特異的エミッタ同定

Few-Shot Specific Emitter Identification via Deep Metric Ensemble Learning ( http://arxiv.org/abs/2207.06592v1 )

ライセンス: Link先を確認
Yu Wang, Guan Gui, Yun Lin, Hsiao-Chun Wu, Chau Yuen, Fumiyuki Adachi(参考訳) 特定のエミッタ識別(SEI)は、上層認証において最も重要なサプリメントの1つである物理層認証の非常に潜在的な技術である。 SEIは、暗号ではなく、回路差による電波周波数(RF)の特徴に基づいている。 これらの特徴はハードウェア回路の特徴であり、偽造が難しい。 近年,様々な深層学習(DL)に基づく従来のSEI手法が提案され,高度な性能を実現している。 しかし,これらの手法は,大量のrf信号サンプルをトレーニングに使用するクローズセットシナリオに対して提案されており,限られたトレーニングサンプルの条件下では一般的に性能が低下する。 そこで本研究では,自動監視ブロードキャスト(ADS-B)信号による航空機識別のための小ショットSEI(FS-SEI)に着目し,深度計測アンサンブル学習(DMEL)に基づく新しいFS-SEI手法を提案する。 特に,提案手法は特徴埋め込みと分類から成り立っている。 前者は、複雑な値を持つ畳み込みニューラルネットワーク(CVCNN)を用いた計量学習に基づいて、コンパクトなカテゴリ内距離と分離可能なカテゴリ間距離を持つ識別的特徴を抽出し、後者はアンサンブル分類器により実現する。 シミュレーションの結果,1カテゴリあたりのサンプル数が5以上であれば,提案手法の平均精度は98\%以上になることがわかった。 さらに,特徴視覚化は,識別性と一般化の両面で提案手法の利点を示す。 この論文のコードはGitHubからダウンロードできる(https://github.com/BeechburgPieStar/Few-Shot-Specific-Emitter-Identification-via-Deep-Metric-Ensemb le-Learning)。

Specific emitter identification (SEI) is a highly potential technology for physical layer authentication that is one of the most critical supplement for the upper-layer authentication. SEI is based on radio frequency (RF) features from circuit difference, rather than cryptography. These features are inherent characteristic of hardware circuits, which difficult to counterfeit. Recently, various deep learning (DL)-based conventional SEI methods have been proposed, and achieved advanced performances. However, these methods are proposed for close-set scenarios with massive RF signal samples for training, and they generally have poor performance under the condition of limited training samples. Thus, we focus on few-shot SEI (FS-SEI) for aircraft identification via automatic dependent surveillance-broadcast (ADS-B) signals, and a novel FS-SEI method is proposed, based on deep metric ensemble learning (DMEL). Specifically, the proposed method consists of feature embedding and classification. The former is based on metric learning with complex-valued convolutional neural network (CVCNN) for extracting discriminative features with compact intra-category distance and separable inter-category distance, while the latter is realized by an ensemble classifier. Simulation results show that if the number of samples per category is more than 5, the average accuracy of our proposed method is higher than 98\%. Moreover, feature visualization demonstrates the advantages of our proposed method in both discriminability and generalization. The codes of this paper can be downloaded from GitHub(https://github.com/BeechburgPieStar/Few-Shot-Specific-Emitter-Identification-via-Deep-Metric- Ensemble-Learning)
翻訳日:2022-07-15 14:09:33 公開日:2022-07-14
# (参考訳) パーソナライズされたゼロショット心電図不整脈モニタリングシステム : スパース表現に基づくドメイン適応からエネルギー効率の良い異常ビート検出まで

A Personalized Zero-Shot ECG Arrhythmia Monitoring System: From Sparse Representation Based Domain Adaption to Energy Efficient Abnormal Beat Detection for Practical ECG Surveillance ( http://arxiv.org/abs/2207.07089v1 )

ライセンス: CC BY 4.0
Mehmet Yama\c{c}, Mert Duman, \.Ilke Adal{\i}o\u{g}lu, Serkan Kiranyaz, Moncef Gabbouj(参考訳) 本稿では,ウェアラブルモバイルセンサにおける早期不整脈検出のための低コストで高精度なECGモニタリングシステムを提案する。 パーソナライズされた心電図モニタリングのための従来型のアプローチでは、専用分類器のトレーニングには異常と正常な心拍の両方が必要となる。 しかし、パーソナライズされたアルゴリズムがウェアラブルデバイスに埋め込まれている現実のシナリオでは、そのようなトレーニングデータは、心疾患歴のない健康な人には利用できない。 本研究では, (i)スパース辞書学習により得られた健全な信号空間のヌル空間解析を提案し,単純なヌル空間投影法や最小二乗法に基づく分類法が、スパース表現に基づく分類と比較して検出精度を犠牲にすることなく、計算の複雑さをいかに低減できるかを検討する。 (ii)新しいユーザの信号空間に他の既存ユーザの異常信号や正常信号を投影するために、スパース表現に基づくドメイン適応手法を導入することにより、新規ユーザの異常な心拍を伴わずに専用分類器を訓練できる。 したがって、合成異常心拍発生を必要とせずにゼロショット学習を実現することができる。 ベンチマークMIT-BIH ECGデータセットで実施された広範な実験により、このドメイン適応ベースのトレーニングデータジェネレータが単純な1-D CNN分類器で使用される場合、この手法は以前の処理よりも大幅に向上することが示された。 (三)その後、組み合わせて (i)および (ii)性能をさらに向上させるアンサンブル分類器を提案する。 ゼロショット不整脈検出のアプローチでは、平均精度は98.2%、F1スコアは92.8%となる。 最後に、上記のイノベーションを用いて、エネルギー効率の高いECGモニタリング手法を提案する。

This paper proposes a low-cost and highly accurate ECG-monitoring system intended for personalized early arrhythmia detection for wearable mobile sensors. Earlier supervised approaches for personalized ECG monitoring require both abnormal and normal heartbeats for the training of the dedicated classifier. However, in a real-world scenario where the personalized algorithm is embedded in a wearable device, such training data is not available for healthy people with no cardiac disorder history. In this study, (i) we propose a null space analysis on the healthy signal space obtained via sparse dictionary learning, and investigate how a simple null space projection or alternatively regularized least squares-based classification methods can reduce the computational complexity, without sacrificing the detection accuracy, when compared to sparse representation-based classification. (ii) Then we introduce a sparse representation-based domain adaptation technique in order to project other existing users' abnormal and normal signals onto the new user's signal space, enabling us to train the dedicated classifier without having any abnormal heartbeat of the new user. Therefore, zero-shot learning can be achieved without the need for synthetic abnormal heartbeat generation. An extensive set of experiments performed on the benchmark MIT-BIH ECG dataset shows that when this domain adaptation-based training data generator is used with a simple 1-D CNN classifier, the method outperforms the prior work by a significant margin. (iii) Then, by combining (i) and (ii), we propose an ensemble classifier that further improves the performance. This approach for zero-shot arrhythmia detection achieves an average accuracy level of 98.2% and an F1-Score of 92.8%. Finally, a personalized energy-efficient ECG monitoring scheme is proposed using the above-mentioned innovations.
翻訳日:2022-07-15 14:07:16 公開日:2022-07-14
# T-RECX: 早期出力によるTiny-Resource高効率畳み込みニューラルネットワーク

T-RECX: Tiny-Resource Efficient Convolutional Neural Networks with Early-Exit ( http://arxiv.org/abs/2207.06613v1 )

ライセンス: Link先を確認
Nikhil P Ghanathe, Steve Wilton(参考訳) ミリワット規模のエッジデバイス(tinyML)に機械学習(ML)をデプロイすることは、MLとIoTの最近のブレークスルーによって人気を集めている。 しかし、SmallMLの能力は厳格なパワーと計算の制約によって制限されている。 littleMLにおける現代の研究の大部分は、ローエンドデバイスにMLモデルを適合させるためにモデルプルーニングや量子化のようなモデル圧縮技術に焦点を当てている。 しかし, 積極圧縮によりモデル容量と精度が急速に低下するため, 既存の技術によるエネルギー消費と推定時間の改善は限られている。 モデルのキャパシティを保ちながら推論時間や消費電力を削減しようとする別のアプローチは、アーリーエクイットネットワークである。 これらのネットワークは中間分類器をベースラインニューラルネットワークに沿って配置し、中間分類器がその予測に十分な信頼性を示す場合、ニューラルネットワーク計算からの早期離脱を容易にする。 アーリーエグジットネットワークに関するこれまでの研究は、小さなMLアプリケーションで一般的に使用されるもの以外の大きなネットワークに焦点を当てていた。 本稿では,最先端の小型CNNに早期排他性を加えることの課題について論じ,これらの課題に対処する早期排他的アーキテクチャT-RECXを考案する。 さらに,アーリーエクイットが学習したハイレベル表現を活用し,最終出口におけるネットワークオーバー思考の効果を緩和する手法を開発した。 画像分類,キーワードスポッティング,視覚覚醒単語検出のためのベンチマークスイートMLPerfの3つのCNN上でのT-RECXを評価する。 この結果から,T-RECXはベースラインネットワークの精度を向上し,小型CNNの平均推定時間を著しく短縮することがわかった。 T-RECXは、評価モデル全体で1%の精度でFLOPSを平均32.58%削減する。 また,評価した3つのモデルのうち2つのベースラインネットワークの精度も向上する。

Deploying Machine learning (ML) on the milliwatt-scale edge devices (tinyML) is gaining popularity due to recent breakthroughs in ML and IoT. However, the capabilities of tinyML are restricted by strict power and compute constraints. The majority of the contemporary research in tinyML focuses on model compression techniques such as model pruning and quantization to fit ML models on low-end devices. Nevertheless, the improvements in energy consumption and inference time obtained by existing techniques are limited because aggressive compression quickly shrinks model capacity and accuracy. Another approach to improve inference time and/or reduce power while preserving its model capacity is through early-exit networks. These networks place intermediate classifiers along a baseline neural network that facilitate early exit from neural network computation if an intermediate classifier exhibits sufficient confidence in its prediction. Previous work on early-exit networks have focused on large networks, beyond what would typically be used for tinyML applications. In this paper, we discuss the challenges of adding early-exits to state-of-the-art tiny-CNNs and devise an early-exit architecture, T-RECX, that addresses these challenges. In addition, we develop a method to alleviate the effect of network overthinking at the final exit by leveraging the high-level representations learned by the early-exit. We evaluate T-RECX on three CNNs from the MLPerf tiny benchmark suite for image classification, keyword spotting and visual wake word detection tasks. Our results demonstrate that T-RECX improves the accuracy of baseline network and significantly reduces the average inference time of tiny-CNNs. T-RECX achieves 32.58% average reduction in FLOPS in exchange for 1% accuracy across all evaluated models. Also, our techniques increase the accuracy of baseline network in two out of three models we evaluate
翻訳日:2022-07-15 13:41:02 公開日:2022-07-14
# マルチトラック音楽変換器:多変量器を用いた音楽の長期依存学習

Multitrack Music Transformer: Learning Long-Term Dependencies in Music with Diverse Instruments ( http://arxiv.org/abs/2207.06983v1 )

ライセンス: Link先を確認
Hao-Wen Dong, Ke Chen, Shlomo Dubnov, Julian McAuley, Taylor Berg-Kirkpatrick(参考訳) トランスフォーマーモデルによるマルチトラック音楽を生成するための既存のアプローチは、小さな楽器セットか短い音楽セグメントに限られている。 これは、マルチトラック音楽の既存の表現を必要とする長い入力シーケンスのメモリ要件による部分がある。 本研究では,短いシーケンス長を維持しつつ,多様な楽器セットを可能にするコンパクト表現を提案する。 提案した表現を用いて,マルチトラック音楽の長期依存を学習するためのMTMT(Multitrack Music Transformer)を提案する。 主観的リスニングテストでは,提案モデルが2つのベースラインモデルに対して無条件生成の競合品質を達成する。 また,提案モデルでは,ベースラインモデルが生成する2倍の長さのサンプルを生成でき,さらに推論時間の半分でそのサンプルを生成できることを示した。 さらに,音楽的自己注意の分析のための新しい尺度を提案し,学習したモデルが,現在の音符と不協和区間を形成する音符に注意を払わないように学習し,さらに4n拍子の音符を電流から遠ざけるようにした。 最後に,本研究は,より長期のマルチトラック音楽生成と音楽の自己意識向上に向けた新たな研究基盤を提供する。 すべてのソースコードとオーディオサンプルはhttps://salu133445.github.io/mtmt/で確認できる。

Existing approaches for generating multitrack music with transformer models have been limited to either a small set of instruments or short music segments. This is partly due to the memory requirements of the lengthy input sequences necessitated by existing representations for multitrack music. In this work, we propose a compact representation that allows a diverse set of instruments while keeping a short sequence length. Using our proposed representation, we present the Multitrack Music Transformer (MTMT) for learning long-term dependencies in multitrack music. In a subjective listening test, our proposed model achieves competitive quality on unconditioned generation against two baseline models. We also show that our proposed model can generate samples that are twice as long as those produced by the baseline models, and, further, can do so in half the inference time. Moreover, we propose a new measure for analyzing musical self-attentions and show that the trained model learns to pay less attention to notes that form a dissonant interval with the current note, yet attending more to notes that are 4N beats away from current. Finally, our findings provide a novel foundation for future work exploring longer-form multitrack music generation and improving self-attentions for music. All source code and audio samples can be found at https://salu133445.github.io/mtmt/ .
翻訳日:2022-07-15 13:40:30 公開日:2022-07-14
# データを越えた真理を探る。 教師なしの機械学習アプローチ

Seeking the Truth Beyond the Data. An Unsupervised Machine Learning Approach ( http://arxiv.org/abs/2207.06949v1 )

ライセンス: Link先を確認
Dimitrios Saligkaras and Vasileios E. Papageorgiou(参考訳) クラスタリングは教師なしの機械学習手法で、ラベルのない要素やオブジェクトをグループ化して、それらの要素が類似性に応じて分類される確立されたクラスタを構築する。 このプロセスの目的は、データ内のパターンを特定するのに役立つ研究者に有用な支援を提供することです。 大規模なデータベースを扱う場合、そのようなパターンはクラスタリングアルゴリズムの寄与なしには容易には検出できない。 本稿では,最も広く利用されているクラスタリング手法について,適切なパラメータ選択と初期化に関する有用なプレゼンテーションとともに詳しく述べる。 同時に、本論文は、分析されたクラスタリング技術の主要な要素を強調するレビューを示すだけでなく、3つのデータセットに基づくアルゴリズムのクラスタリング効率の比較を強調し、離散的かつ連続的な観察の対決において、精度と複雑さによって、既存の弱点と能力を明らかにする。 得られた結果は,データセットのサイズに応じたクラスタリング手法の適切性に関する貴重な結論を抽出するのに役立つ。

Clustering is an unsupervised machine learning methodology where unlabeled elements/objects are grouped together aiming to the construction of well-established clusters that their elements are classified according to their similarity. The goal of this process is to provide a useful aid to the researcher that will help her/him to identify patterns among the data. Dealing with large databases, such patterns may not be easily detectable without the contribution of a clustering algorithm. This article provides a deep description of the most widely used clustering methodologies accompanied by useful presentations concerning suitable parameter selection and initializations. Simultaneously, this article not only represents a review highlighting the major elements of examined clustering techniques but emphasizes the comparison of these algorithms' clustering efficiency based on 3 datasets, revealing their existing weaknesses and capabilities through accuracy and complexity, during the confrontation of discrete and continuous observations. The produced results help us extract valuable conclusions about the appropriateness of the examined clustering techniques in accordance with the dataset's size.
翻訳日:2022-07-15 13:40:07 公開日:2022-07-14
# 深層ニューラルネットワークを用いた組織学における仮想染色

Virtual stain transfer in histology via cascaded deep neural networks ( http://arxiv.org/abs/2207.06578v1 )

ライセンス: Link先を確認
Xilin Yang, Bijie Bai, Yijie Zhang, Yuzhu Li, Kevin de Haan, Tairan Liu, Aydogan Ozcan(参考訳) 病理診断は組織学的に染色された薄い組織標本を視覚的に検査し、異なる種類の染色を施して様々な組織学的特徴と対比し強調する。 しかし, 破壊的組織化学的染色法は通常不可逆的であり, 同一組織に複数の染色を施すのは非常に困難である。 本稿では, カスケードディープニューラルネットワーク(c-dnn)を用いて, ヘマトキシリンおよびエオシン(h&e)染色組織像を他の種類の組織染色にデジタル変換する仮想染色転移フレームワークを示す。 1つのステンドタイプのみを入力として別のステンドタイプの画像をデジタル出力する単一のニューラルネットワーク構造とは異なり、c-dnnはまず仮想ステンドを使用して自己蛍光顕微鏡画像をh&eに変換し、その後h&eから他のステンドの領域へのステンド転送をカスケード的に行う。 トレーニングフェーズにおけるこのカスケード構造により、H&Eとターゲットの特殊染色の両方の組織化学的に染色された画像データを直接利用することができる。 この利点は、ペアデータ取得の課題を軽減し、h&eから別のステインへの仮想ステンド転送の画質と色精度を向上させる。 腎針核生検組織切片を用いたC-DNN法の有用性を検証し,H&E染色組織像を仮想PAS( periodic acid-Schiff)染色に変換することに成功した。 既存の組織化学的染色スライドを用いた特殊染色の高品質な仮想画像を提供し、高精度な染色から染色への変換を行うことで、デジタル病理学における新たな機会を創出する。

Pathological diagnosis relies on the visual inspection of histologically stained thin tissue specimens, where different types of stains are applied to bring contrast to and highlight various desired histological features. However, the destructive histochemical staining procedures are usually irreversible, making it very difficult to obtain multiple stains on the same tissue section. Here, we demonstrate a virtual stain transfer framework via a cascaded deep neural network (C-DNN) to digitally transform hematoxylin and eosin (H&E) stained tissue images into other types of histological stains. Unlike a single neural network structure which only takes one stain type as input to digitally output images of another stain type, C-DNN first uses virtual staining to transform autofluorescence microscopy images into H&E and then performs stain transfer from H&E to the domain of the other stain in a cascaded manner. This cascaded structure in the training phase allows the model to directly exploit histochemically stained image data on both H&E and the target special stain of interest. This advantage alleviates the challenge of paired data acquisition and improves the image quality and color accuracy of the virtual stain transfer from H&E to another stain. We validated the superior performance of this C-DNN approach using kidney needle core biopsy tissue sections and successfully transferred the H&E-stained tissue images into virtual PAS (periodic acid-Schiff) stain. This method provides high-quality virtual images of special stains using existing, histochemically stained slides and creates new opportunities in digital pathology by performing highly accurate stain-to-stain transformations.
翻訳日:2022-07-15 13:39:48 公開日:2022-07-14
# 合理化トラップに気をつけろ! 言語モデル説明能力が言語精神モデルから逸脱したとき

Beware the Rationalization Trap! When Language Model Explainability Diverges from our Mental Models of Language ( http://arxiv.org/abs/2207.06897v1 )

ライセンス: Link先を確認
Rita Sevastjanova and Mennatallah El-Assady(参考訳) 言語モデルは、人間とは異なる言語を学習し、表現する。 したがって、言語モデル説明可能性の成功を評価するためには、ユーザのメンタルモデルとの違いの影響を検討する必要がある。 In this position paper, we argue that in order to avoid harmful rationalization and achieve truthful understanding of language models, explanation processes must satisfy three main conditions: (1) explanations have to truthfully represent the model behavior, i.e., have a high fidelity; (2) explanations must be complete, as missing information distorts the truth; and (3) explanations have to take the user's mental model into account, progressively verifying a person's knowledge and adapting their understanding. 決定木モデルを導入し,現在の説明が目的を達成できない潜在的な理由を明らかにする。 我々はさらに、複数の視点からモデルを説明するための人間中心の設計の必要性を強調し、ユーザー期待の変化に徐々に説明を適用する。

Language models learn and represent language differently than humans; they learn the form and not the meaning. Thus, to assess the success of language model explainability, we need to consider the impact of its divergence from a user's mental model of language. In this position paper, we argue that in order to avoid harmful rationalization and achieve truthful understanding of language models, explanation processes must satisfy three main conditions: (1) explanations have to truthfully represent the model behavior, i.e., have a high fidelity; (2) explanations must be complete, as missing information distorts the truth; and (3) explanations have to take the user's mental model into account, progressively verifying a person's knowledge and adapting their understanding. We introduce a decision tree model to showcase potential reasons why current explanations fail to reach their objectives. We further emphasize the need for human-centered design to explain the model from multiple perspectives, progressively adapting explanations to changing user expectations.
翻訳日:2022-07-15 13:37:25 公開日:2022-07-14
# ニューロモルフィック音声認識のためのスパイク符号化アルゴリズム

Efficient spike encoding algorithms for neuromorphic speech recognition ( http://arxiv.org/abs/2207.07073v1 )

ライセンス: Link先を確認
Sidi Yaya Arnaud Yarga, Jean Rouat, Sean U. N. Wood(参考訳) spiking neural networks (snn) はニューロモルフィックなプロセッサの実装に非常に効果的であることが知られており、従来のディープラーニングアプローチよりもエネルギー効率と計算遅延の桁違いな改善を達成している。 近年,SNNの文脈への教師付きトレーニングアルゴリズムの適用とともに,アルゴリズムの性能比較が可能となった。 しかし、音声、ビデオ、その他のセンサー由来のデータを含む情報は、通常、snに適さない実値信号として符号化されるため、ネットワークがスパイクタイミング情報を利用することができない。 したがって、実数値信号からスパイクへの効率的なエンコーディングは重要であり、システム全体のパフォーマンスに大きな影響を与えます。 信号をスパイクに効率的にエンコードするには、手元のタスクに関連する情報の保存と、エンコードされたスパイクの密度を考慮する必要がある。 本稿では、話者独立桁分類システム(Delta, Time to First Spike, Leaky Integrate, Fire Neuron and Bens Spiker Algorithm)の文脈における4つのスパイク符号化手法について検討する。 まず, 従来の短時間フーリエ変換とは対照的に, バイオインスパイアされたコクリーグラムを符号化する際に, より少ないスパイクを用いて高い分類精度が得られることを示す。 次に,2つの送信型デルタ変種が,アートディープ畳み込みニューラルネットワークのベースラインと同等の分類結果をもたらすと同時に,符号化ビットレートを減少させることを示した。 最後に,いくつかの符号化手法によって従来のディープラーニングベースラインよりも性能が向上し,さらに,実数値信号の符号化におけるスパイク符号化アルゴリズムの威力を示すとともに,ニューロモルフィック実装は,最先端技術よりも優れていることを示す。

Spiking Neural Networks (SNN) are known to be very effective for neuromorphic processor implementations, achieving orders of magnitude improvements in energy efficiency and computational latency over traditional deep learning approaches. Comparable algorithmic performance was recently made possible as well with the adaptation of supervised training algorithms to the context of SNN. However, information including audio, video, and other sensor-derived data are typically encoded as real-valued signals that are not well-suited to SNN, preventing the network from leveraging spike timing information. Efficient encoding from real-valued signals to spikes is therefore critical and significantly impacts the performance of the overall system. To efficiently encode signals into spikes, both the preservation of information relevant to the task at hand as well as the density of the encoded spikes must be considered. In this paper, we study four spike encoding methods in the context of a speaker independent digit classification system: Send on Delta, Time to First Spike, Leaky Integrate and Fire Neuron and Bens Spiker Algorithm. We first show that all encoding methods yield higher classification accuracy using significantly fewer spikes when encoding a bio-inspired cochleagram as opposed to a traditional short-time Fourier transform. We then show that two Send On Delta variants result in classification results comparable with a state of the art deep convolutional neural network baseline, while simultaneously reducing the encoded bit rate. Finally, we show that several encoding methods result in improved performance over the conventional deep learning baseline in certain cases, further demonstrating the power of spike encoding algorithms in the encoding of real-valued signals and that neuromorphic implementation has the potential to outperform state of the art techniques.
翻訳日:2022-07-15 13:37:12 公開日:2022-07-14
# 物体検出における特徴ピラミッドのブースティングのための変圧器に基づくコンテキスト凝縮

Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection ( http://arxiv.org/abs/2207.06603v1 )

ライセンス: Link先を確認
Zhe Chen, Jing Zhang, Yufei Xu, Dacheng Tao(参考訳) 現在のオブジェクト検出器は、通常、多レベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持ち、異なるレベルの特徴間のギャップを緩和し、より優れた検出性能を達成するために包括的なオブジェクト表現を形成することを目的としている。 しかし、それらは通常、より優れたmff結果を得るために重いクロスレベル接続や反復的な洗練が必要であり、構造が複雑で計算が非効率である。 これらの問題に対処するため、既存のFPがより優れたMFF結果を提供するのに有効であり、計算コストを効果的に削減できる新しい、効率的なコンテキストモデリング機構を提案する。 特に,包括的文脈を分解し,より効率の良い2種類の表現に凝縮できるという新しい洞察を導入する。 2つの表現は局所集中表現とグローバル要約表現を含み、前者は近隣地域からコンテキストキューを抽出することに焦点を当て、後者はグローバルコンテキストキューとして画像シーン全体のキー表現を抽出する。 コンデンスされたコンテキストを収集することにより、トランスフォーマーデコーダを用いて、FPから各ローカル特徴との関係を調べ、それに応じてMFF結果を精査する。 その結果、単純で軽量な Transformer-based Context Condensation (TCC) モジュールが得られた。 挑戦的なMS COCOデータセットの大規模な実験結果によると、TCCは4つの代表的なFPと互換性があり、平均精度で最大7.8%まで検出精度を向上し、GFLOPでは最大20%の複雑さを低減し、最先端のパフォーマンスをより効率的に達成できる。 コードはリリースされる。

Current object detectors typically have a feature pyramid (FP) module for multi-level feature fusion (MFF) which aims to mitigate the gap between features from different levels and form a comprehensive object representation to achieve better detection performance. However, they usually require heavy cross-level connections or iterative refinement to obtain better MFF result, making them complicated in structure and inefficient in computation. To address these issues, we propose a novel and efficient context modeling mechanism that can help existing FPs deliver better MFF results while reducing the computational costs effectively. In particular, we introduce a novel insight that comprehensive contexts can be decomposed and condensed into two types of representations for higher efficiency. The two representations include a locally concentrated representation and a globally summarized representation, where the former focuses on extracting context cues from nearby areas while the latter extracts key representations of the whole image scene as global context cues. By collecting the condensed contexts, we employ a Transformer decoder to investigate the relations between them and each local feature from the FP and then refine the MFF results accordingly. As a result, we obtain a simple and light-weight Transformer-based Context Condensation (TCC) module, which can boost various FPs and lower their computational costs simultaneously. Extensive experimental results on the challenging MS COCO dataset show that TCC is compatible to four representative FPs and consistently improves their detection accuracy by up to 7.8 % in terms of average precision and reduce their complexities by up to around 20% in terms of GFLOPs, helping them achieve state-of-the-art performance more efficiently. Code will be released.
翻訳日:2022-07-15 13:36:14 公開日:2022-07-14
# 連続的顔面運動障害

Continuous Facial Motion Deblurring ( http://arxiv.org/abs/2207.06626v1 )

ライセンス: Link先を確認
Tae Bok Lee, Sujy Han, Yong Seok Heo(参考訳) 本稿では,連続的な顔の動きの遅延を,モーメント制御因子を介して単一の顔画像で再現する,連続的な顔の動きの遅延を再現する新しい枠組みを提案する。 動きブル画像は露光時間中に連続的なシャープモーメントの蓄積信号であるが、既存のほとんどの単一画像ブルリングアプローチは、複数のネットワークとトレーニング段階を用いて固定数のフレームを復元することを目的としている。 この問題に対処するために,1つのネットワークと1つのトレーニング段階を有する単一動画像における連続モーメント遅延を復元するための新しいフレームワークであるGAN(CFMD-GAN)に基づく連続顔動作遅延ネットワークを提案する。 ネットワークトレーニングを安定させるために,顔のドメイン固有の知識を利用して,顔の動きに基づく並べ替えプロセス(FMR)によって決定される順序で連続的なモーメントを復元するように,ジェネレータを訓練する。 さらに,連続的な鋭いモーメントを推定することで,より正確な画像を生成する補助レグレッサーを提案する。 さらに,制御因子として空間的に変形可能な畳み込みとチャネル回りの注意を行う制御適応型(contada)ブロックを導入する。 300VWデータセットの大規模な実験により、提案フレームワークはモーメント制御係数を変化させることで、様々な連続的な出力フレームを生成することを示した。 同一の300vwトレーニングセットでトレーニングしたsingle-to-single image deblurling networkと比較すると,lpips,fid,arcface identity distanceなどの知覚指標において,中心シャープフレームの復元性能が高かった。 提案手法は, 質的および定量的比較において, 既存の1対ビデオデブラリング法を上回っている。

We introduce a novel framework for continuous facial motion deblurring that restores the continuous sharp moment latent in a single motion-blurred face image via a moment control factor. Although a motion-blurred image is the accumulated signal of continuous sharp moments during the exposure time, most existing single image deblurring approaches aim to restore a fixed number of frames using multiple networks and training stages. To address this problem, we propose a continuous facial motion deblurring network based on GAN (CFMD-GAN), which is a novel framework for restoring the continuous moment latent in a single motion-blurred face image with a single network and a single training stage. To stabilize the network training, we train the generator to restore continuous moments in the order determined by our facial motion-based reordering process (FMR) utilizing domain-specific knowledge of the face. Moreover, we propose an auxiliary regressor that helps our generator produce more accurate images by estimating continuous sharp moments. Furthermore, we introduce a control-adaptive (ContAda) block that performs spatially deformable convolution and channel-wise attention as a function of the control factor. Extensive experiments on the 300VW datasets demonstrate that the proposed framework generates a various number of continuous output frames by varying the moment control factor. Compared with the recent single-to-single image deblurring networks trained with the same 300VW training set, the proposed method show the superior performance in restoring the central sharp frame in terms of perceptual metrics, including LPIPS, FID and Arcface identity distance. The proposed method outperforms the existing single-to-video deblurring method for both qualitative and quantitative comparisons.
翻訳日:2022-07-15 13:35:41 公開日:2022-07-14
# EGSDE:エネルギー誘導確率微分方程式による画像間変換

EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations ( http://arxiv.org/abs/2207.06635v1 )

ライセンス: Link先を確認
Min Zhao, Fan Bao, Chongxuan Li, Jun Zhu(参考訳) スコアベース拡散生成モデル (SDGM) は、画像-画像間翻訳 (I2I) においてSOTA FIDの結果を得た。 しかし、既存の手法は、ソースドメインのトレーニングデータを完全に無視しているため、未ペアI2Iのサブ最適化ソリューションに繋がる。 そこで,本研究では,ソース領域とターゲット領域の両方に事前学習されたエネルギー関数を用いたエネルギー誘導確率微分方程式 (egsde) を提案し,現実的で忠実な i2i に対する事前学習された sde の推論過程を導出する。 2つの特徴抽出器上に構築したエネルギー関数を慎重に設計し,ドメインに依存しない特徴を保存し,ドメイン固有の特徴を破棄する。 さらに,3人の専門家(SDEと2人の特徴抽出者に対応する)のそれぞれが忠実さやリアリズムにのみ貢献する専門家の産物としてESGDEの代替的説明を提供する。 経験的に、EGSDEを、広く評価されている3つのI2Iタスクのベースラインを4つのメトリクスで比較する。 EGSDEは既存のSDGMの手法をほぼ全ての設定で一貫して上回るだけでなく、SOTAリアリズムの結果(例えば、キャット・トゥ・ドッグのFID 65.82、ワイルド・トゥ・ドッグのFID 59.75、AFHQのFID 59.75)を、忠実なパフォーマンスを損なうことなく達成している。

Score-based diffusion generative models (SDGMs) have achieved the SOTA FID results in unpaired image-to-image translation (I2I). However, we notice that existing methods totally ignore the training data in the source domain, leading to sub-optimal solutions for unpaired I2I. To this end, we propose energy-guided stochastic differential equations (EGSDE) that employs an energy function pretrained on both the source and target domains to guide the inference process of a pretrained SDE for realistic and faithful unpaired I2I. Building upon two feature extractors, we carefully design the energy function such that it encourages the transferred image to preserve the domain-independent features and discard domainspecific ones. Further, we provide an alternative explanation of the EGSDE as a product of experts, where each of the three experts (corresponding to the SDE and two feature extractors) solely contributes to faithfulness or realism. Empirically, we compare EGSDE to a large family of baselines on three widely-adopted unpaired I2I tasks under four metrics. EGSDE not only consistently outperforms existing SDGMs-based methods in almost all settings but also achieves the SOTA realism results (e.g., FID of 65.82 in Cat to Dog and FID of 59.75 in Wild to Dog on AFHQ) without harming the faithful performance.
翻訳日:2022-07-15 13:35:09 公開日:2022-07-14
# ドメイン適応意味セグメンテーションのための原型的コントラスト適応

Prototypical Contrast Adaptation for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2207.06654v1 )

ライセンス: Link先を確認
Zhengkai Jiang and Yuxi Li and Ceyuan Yang and Peng Gao and Yabiao Wang and Ying Tai and Chengjie Wang(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインでトレーニングされたモデルをラベル付きターゲットドメインに適応させることを目的としている。 本稿では,教師なしドメイン適応セマンティックセマンティックセグメンテーションのための簡易かつ効率的なコントラスト学習手法であるPrototypeal Contrast Adaptation(ProCA)を提案する。 従来のドメイン適応法は、クラス間の構造的関係が不十分に探究され、結果として対象ドメインのアライメントは、もはやソースドメインでなされるほど容易に判別できない可能性があるが、様々なドメインにわたるクラス内表現のアライメントを考えるのみである。 代わりに、ProCAはクラス間の情報をクラスワイドプロトタイプに組み込み、適応のためにクラス中心の分散アライメントを採用する。 クラス中心の分布アライメントを達成するために、正のクラスプロトタイプや他のクラスプロトタイプと同じクラスプロトタイプを考慮して、ProCAは古典的なドメイン適応タスク、すなわち GTA5 $\to$ Cityscapes \text{and} SYNTHIA $\to$ Cityscapes} で最先端のパフォーマンスを達成する。 コードは \href{https://github.com/jiangzhengkai/proca}{proca} で入手できる。

Unsupervised Domain Adaptation (UDA) aims to adapt the model trained on the labeled source domain to an unlabeled target domain. In this paper, we present Prototypical Contrast Adaptation (ProCA), a simple and efficient contrastive learning method for unsupervised domain adaptive semantic segmentation. Previous domain adaptation methods merely consider the alignment of the intra-class representational distributions across various domains, while the inter-class structural relationship is insufficiently explored, resulting in the aligned representations on the target domain might not be as easily discriminated as done on the source domain anymore. Instead, ProCA incorporates inter-class information into class-wise prototypes, and adopts the class-centered distribution alignment for adaptation. By considering the same class prototypes as positives and other class prototypes as negatives to achieve class-centered distribution alignment, ProCA achieves state-of-the-art performance on classical domain adaptation tasks, {\em i.e., GTA5 $\to$ Cityscapes \text{and} SYNTHIA $\to$ Cityscapes}. Code is available at \href{https://github.com/jiangzhengkai/ProCA}{ProCA}
翻訳日:2022-07-15 13:34:42 公開日:2022-07-14
# ユニバーサル適応データ拡張

Universal Adaptive Data Augmentation ( http://arxiv.org/abs/2207.06658v1 )

ライセンス: Link先を確認
Xiaogang Xu, Hengshuang Zhao, Philip Torr(参考訳) 既存のDA(Automatic Data Augmentation)メソッドは、トレーニング中にターゲットモデルの状態に応じてDAのパラメータの更新を無視するか、あるいは不十分な更新戦略を採用する。 本研究では,UADA(Universal Adaptive Data Augmentation)と呼ばれる新しいデータ拡張戦略を設計する。 既存の手法と異なり,UADAは,トレーニング中のDAの勾配情報に基づいてDAのパラメータを適応的に更新する。事前定義されたDA操作セットが与えられた場合,トレーニング中のデータバッチ毎にDA操作の種類と大きさをランダムに決定し,DAのパラメータに関する損失の勾配方向に沿ってDAのパラメータを適応的に更新する。 このようにして、uadaはターゲットネットワークのトレーニング損失を増加させ、ターゲットネットワークはより難しいサンプルから機能を学び、一般化を改善する。 さらに、uadaは非常に一般的であり、画像分類、セマンティックセグメンテーション、オブジェクト検出など、多くのタスクで利用可能である。 CIFAR-10, CIFAR-100, ImageNet, little-ImageNet, Cityscapes, VOC07+12 で多種多様なモデルを用いた大規模な実験を行い, 適応拡張による大幅な性能向上を実証した。

Existing automatic data augmentation (DA) methods either ignore updating DA's parameters according to the target model's state during training or adopt update strategies that are not effective enough. In this work, we design a novel data augmentation strategy called "Universal Adaptive Data Augmentation" (UADA). Different from existing methods, UADA would adaptively update DA's parameters according to the target model's gradient information during training: given a pre-defined set of DA operations, we randomly decide types and magnitudes of DA operations for every data batch during training, and adaptively update DA's parameters along the gradient direction of the loss concerning DA's parameters. In this way, UADA can increase the training loss of the target networks, and the target networks would learn features from harder samples to improve the generalization. Moreover, UADA is very general and can be utilized in numerous tasks, e.g., image classification, semantic segmentation and object detection. Extensive experiments with various models are conducted on CIFAR-10, CIFAR-100, ImageNet, tiny-ImageNet, Cityscapes, and VOC07+12 to prove the significant performance improvements brought by our proposed adaptive augmentation.
翻訳日:2022-07-15 13:33:14 公開日:2022-07-14
# 背景として全動画を強制する:弱い時間的行動局所化のための敵対的学習戦略

Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action Localization ( http://arxiv.org/abs/2207.06659v1 )

ライセンス: Link先を確認
Ziqiang Li, Yongxin Ge, Jiaruo Yu, and Zhongming Chen(参考訳) ビデオレベルラベルでは、弱教師付き時間的行動定位(wtal)は、未トリミングビデオにおける行動の検出と分類にローカライズ・バイ・クラス化パラダイムを適用している。 分類の特徴から、クラス固有の背景スニペットは必然的に不活性化され、wtalの分類器の識別性が向上する。 背景の乱れを軽減するため、既存の手法は、擬似スニペットレベルのアノテーションで背景スニペットをモデル化することで、動作と背景の相違を拡大しようとする。 先行研究とは別として,疑似背景スニペットのマイニングの限界を破る逆学習戦略を提案する。 具体的には、背景分類の損失により、映像全体を背景勾配強化戦略によって背景と見なすことができ、認識モデルを混乱させる。 逆に、前景(アクション)損失は、そのような条件下でのアクションスニペットに集中するようにモデルを導く。 結果として、2つの分類損失の競合は、アクションモデリングの能力を高めるためにモデルを駆動する。 同時に,提案手法に基づく親和性スニペットの時間的関係の構築を容易にし,アクションローカライゼーションの性能を向上させるために,新しい時間的拡張ネットワークを設計する。 最後にthums14とactivitynet1.2に関する広範な実験を行い,提案手法の有効性を実証した。

With video-level labels, weakly supervised temporal action localization (WTAL) applies a localization-by-classification paradigm to detect and classify the action in untrimmed videos. Due to the characteristic of classification, class-specific background snippets are inevitably mis-activated to improve the discriminability of the classifier in WTAL. To alleviate the disturbance of background, existing methods try to enlarge the discrepancy between action and background through modeling background snippets with pseudo-snippet-level annotations, which largely rely on artificial hypotheticals. Distinct from the previous works, we present an adversarial learning strategy to break the limitation of mining pseudo background snippets. Concretely, the background classification loss forces the whole video to be regarded as the background by a background gradient reinforcement strategy, confusing the recognition model. Reversely, the foreground(action) loss guides the model to focus on action snippets under such conditions. As a result, competition between the two classification losses drives the model to boost its ability for action modeling. Simultaneously, a novel temporal enhancement network is designed to facilitate the model to construct temporal relation of affinity snippets based on the proposed strategy, for further improving the performance of action localization. Finally, extensive experiments conducted on THUMOS14 and ActivityNet1.2 demonstrate the effectiveness of the proposed method.
翻訳日:2022-07-15 13:32:49 公開日:2022-07-14
# 誤差最小化関数のための効率的なバックプロパゲーションによる深部点対平面登録

Deep Point-to-Plane Registration by Efficient Backpropagation for Error Minimizing Function ( http://arxiv.org/abs/2207.06661v1 )

ライセンス: Link先を確認
Tatsuya Yatagawa and Yutaka Ohtake and Hiromasa Suzuki(参考訳) 点間距離を最小化する点集合登録の伝統的なアルゴリズムは、点間距離を最小化する点間距離よりも剛性変換をより正確に推定する。 しかし、近年のディープラーニングに基づく手法は、ポイント・ツー・ポイント距離を最小化している。 これらの手法とは対照的に,本研究では,平面間登録における深層学習に基づく最初のアプローチを提案する。 この問題の難しい部分は、点対平面登録の典型的な解は、線形エネルギー関数を最小化することによって得られる小さな変換を蓄積する反復的な過程を必要とすることである。 この反復はバックプロパゲーションに必要な計算グラフのサイズを大幅に増加させ、前方および後方のネットワーク評価を遅くする可能性がある。 この問題を解決するために、推定された剛性変換を入力点雲の関数とみなし、暗黙の関数定理を用いて解析勾配を導出する。 私たちが導入する解析的勾配は、誤差最小化関数(すなわち剛性変換)の取得方法とは無関係なので、剛性変換とその勾配を効率的に計算することができる。 提案手法は,各点間距離の最小化を図り,局所的な点分布を推定した低品質の点群とノイズのある点群であっても,基本手法よりも優れていることを示す。

Traditional algorithms of point set registration minimizing point-to-plane distances often achieve a better estimation of rigid transformation than those minimizing point-to-point distances. Nevertheless, recent deep-learning-based methods minimize the point-to-point distances. In contrast to these methods, this paper proposes the first deep-learning-based approach to point-to-plane registration. A challenging part of this problem is that a typical solution for point-to-plane registration requires an iterative process of accumulating small transformations obtained by minimizing a linearized energy function. The iteration significantly increases the size of the computation graph needed for backpropagation and can slow down both forward and backward network evaluations. To solve this problem, we consider the estimated rigid transformation as a function of input point clouds and derive its analytic gradients using the implicit function theorem. The analytic gradient that we introduce is independent of how the error minimizing function (i.e., the rigid transformation) is obtained, thus allowing us to calculate both the rigid transformation and its gradient efficiently. We implement the proposed point-to-plane registration module over several previous methods that minimize point-to-point distances and demonstrate that the extensions outperform the base methods even with point clouds with noise and low-quality point normals estimated with local point distributions.
翻訳日:2022-07-15 13:32:23 公開日:2022-07-14
# コスト効率の良いエンドツーエンドテキストスポッティングのための動的低分解能蒸留

Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text Spotting ( http://arxiv.org/abs/2207.06694v1 )

ライセンス: Link先を確認
Ying Chen, Liang Qiao1, Zhanzhan Cheng, Shiliang Pu, Yi Niu and Xi Li(参考訳) エンド・ツー・エンドのテキストスポッティングは、グローバルな最適化と実際のアプリケーションに対する高い保守性に利点があるため、最近大きな注目を集めている。 しかし、小さなテキストインスタンスを認識するには画像全体を拡張する必要があるため、計算コストが高いため、入力スケールは常に厳しいトレードオフとなっている。 本稿では,この問題を解決するために,小型ながら認識可能な解像度の異なる画像を推定し,精度と効率のバランスを向上させることを目的とした,コスト効率の高いdld(dynamic low- resolution distillation)テキストスポッティングフレームワークを提案する。 具体的には、推論精度と計算コストの両方で制約される異なる画像の入力解像度を動的に決定する分解能セレクタを採用する。 別の逐次知識蒸留戦略をテキスト認識枝で行い、低精細入力が高精細画像に匹敵する性能を得る。 提案手法はエンド・ツー・エンドを最適化でき、実用性を改善するために現在のテキストスポッティングフレームワークで採用できる。 いくつかのテキストスポッティングベンチマークにおいて、提案手法は低解像度モデルのユーザビリティを大幅に改善することを示す。 コードはhttps://github.com/hikopensource/DAVAR-Lab-OCR/で公開されている。

End-to-end text spotting has attached great attention recently due to its benefits on global optimization and high maintainability for real applications. However, the input scale has always been a tough trade-off since recognizing a small text instance usually requires enlarging the whole image, which brings high computational costs. In this paper, to address this problem, we propose a novel cost-efficient Dynamic Low-resolution Distillation (DLD) text spotting framework, which aims to infer images in different small but recognizable resolutions and achieve a better balance between accuracy and efficiency. Concretely, we adopt a resolution selector to dynamically decide the input resolutions for different images, which is constraint by both inference accuracy and computational cost. Another sequential knowledge distillation strategy is conducted on the text recognition branch, making the low-res input obtains comparable performance to a high-res image. The proposed method can be optimized end-to-end and adopted in any current text spotting framework to improve the practicability. Extensive experiments on several text spotting benchmarks show that the proposed method vastly improves the usability of low-res models. The code is available at https://github.com/hikopensource/DAVAR-Lab-OCR/.
翻訳日:2022-07-15 13:32:00 公開日:2022-07-14
# DavarOCR: OCRとマルチモーダル文書理解のためのツールボックス

DavarOCR: A Toolbox for OCR and Multi-Modal Document Understanding ( http://arxiv.org/abs/2207.06695v1 )

ライセンス: Link先を確認
Liang Qiao, Hui Jiang, Ying Chen, Can Li, Pengfei Li, Zaisheng Li, Baorui Zou, Dashan Guo, Yingda Xu, Yunlu Xu, Zhanzhan Cheng and Yi Niu(参考訳) 本稿では,OCRと文書理解タスクのためのオープンソースツールボックスであるDavarOCRについて述べる。 DavarOCRは現在19の高度なアルゴリズムを実装しており、9つの異なるタスク形式をカバーしている。 DavarOCRは、各アルゴリズムの詳細な使用指示とトレーニングされたモデルを提供する。 以前のオープンソースOCRツールボックスと比較すると、DavarOCRはドキュメント理解の最先端技術のサブタスクを比較的完全にサポートしています。 学術・産業におけるOCR技術の開発と適用を促進するため,我々は,異なるサブドメインのテクノロジーが共有できるモジュールの利用により多くの注意を払っている。 DavarOCRはhttps://github.com/hikopensource/Davar-Lab-OCRで公開されている。

This paper presents DavarOCR, an open-source toolbox for OCR and document understanding tasks. DavarOCR currently implements 19 advanced algorithms, covering 9 different task forms. DavarOCR provides detailed usage instructions and the trained models for each algorithm. Compared with the previous opensource OCR toolbox, DavarOCR has relatively more complete support for the sub-tasks of the cutting-edge technology of document understanding. In order to promote the development and application of OCR technology in academia and industry, we pay more attention to the use of modules that different sub-domains of technology can share. DavarOCR is publicly released at https://github.com/hikopensource/Davar-Lab-OCR.
翻訳日:2022-07-15 13:31:40 公開日:2022-07-14
# SHREC 2022 異種義歯のオンライン検出の追跡

SHREC 2022 Track on Online Detection of Heterogeneous Gestures ( http://arxiv.org/abs/2207.06706v1 )

ライセンス: Link先を確認
Ariel Caputo, Marco Emporio, Andrea Giachetti, Marco Cristani, Guido Borghi, Andrea D'Eusanio, Minh-Quan Le, Hai-Dang Nguyen, Minh-Triet Tran, F. Ambellan, M. Hanik, E. Nava-Yazdani, C. von Tycowicz(参考訳) 本稿では,3dハンドポーズのシーケンスから異種ジェスチャのオンライン認識手法を評価するために組織されたコンテストの結果について述べる。 タスクは、異なるポーズや動きの特徴を特徴とする16クラスの辞書に属するジェスチャーを検出することである。 データセットは、ジェスチャーが重要でない動きとインターリーブされた手追跡データの連続的なシーケンスを特徴としている。 データはhololens 2の指追跡システムを使って、複合現実の対話のリアルなユースケースで収集された。 評価は, 検出性能だけでなく, 遅延と偽陽性にも基づいているため, 提案するアルゴリズムに基づく実用的なインタラクションツールの実現可能性を理解することができる。 コンテストの評価の結果は、認識誤差を減らすためのさらなる研究が必要であることを示し、提案するアルゴリズムの計算コストは十分に低い。

This paper presents the outcomes of a contest organized to evaluate methods for the online recognition of heterogeneous gestures from sequences of 3D hand poses. The task is the detection of gestures belonging to a dictionary of 16 classes characterized by different pose and motion features. The dataset features continuous sequences of hand tracking data where the gestures are interleaved with non-significant motions. The data have been captured using the Hololens 2 finger tracking system in a realistic use-case of mixed reality interaction. The evaluation is based not only on the detection performances but also on the latency and the false positives, making it possible to understand the feasibility of practical interaction tools based on the algorithms proposed. The outcomes of the contest's evaluation demonstrate the necessity of further research to reduce recognition errors, while the computational cost of the algorithms proposed is sufficiently low.
翻訳日:2022-07-15 13:31:32 公開日:2022-07-14
# octupletの損失: 顔認識を画像解像度に堅牢にする

Octuplet Loss: Make Face Recognition Robust to Image Resolution ( http://arxiv.org/abs/2207.06726v1 )

ライセンス: Link先を確認
Martin Knoche, Mohamed Elkadeem, Stefan H\"ormann, Gerhard Rigoll(参考訳) 画像解像度(一般的には画像品質)は、今日の顔認識システムの性能において重要な役割を担っている。 この問題を解決するために,既存の顔認識モデルの微調整による画像解像度に対するロバスト性を改善するために,人気のある三重項損失の新たな組み合わせを提案する。 オークタプレット損失では,高分解能画像と合成低サンプリングの変種との関係を識別ラベルと組み合わせて活用する。 その結果,高解像度画像の性能を著しく悪化させることなく,様々なデータセットにおけるクロスレゾリューション(高解像度)顔認証の性能を著しく向上させることができた。 提案手法をFaceTransformerネットワークに適用することにより,難解なXQLFWデータセット上での顔認証精度が95.12%向上し,LFWデータベースでは99.73%に達した。 また, 顔認証精度の低さは本手法の利点である。 既存のフレームワークにoctupletの損失をシームレスに統合できるように、コードをリリースしています。

Image resolution, or in general, image quality, plays an essential role in the performance of today's face recognition systems. To address this problem, we propose a novel combination of the popular triplet loss to improve robustness against image resolution via fine-tuning of existing face recognition models. With octuplet loss, we leverage the relationship between high-resolution images and their synthetically down-sampled variants jointly with their identity labels. Fine-tuning several state-of-the-art approaches with our method proves that we can significantly boost performance for cross-resolution (high-to-low resolution) face verification on various datasets without meaningfully exacerbating the performance on high-to-high resolution images. Our method applied on the FaceTransformer network achieves 95.12% face verification accuracy on the challenging XQLFW dataset while reaching 99.73% on the LFW database. Moreover, the low-to-low face verification accuracy benefits from our method. We release our code to allow seamless integration of the octuplet loss into existing frameworks.
翻訳日:2022-07-15 13:31:19 公開日:2022-07-14
# ConCL:Dense Prediction Pre-Trainingのための概念コントラスト学習

ConCL: Concept Contrastive Learning for Dense Prediction Pre-training in Pathology Images ( http://arxiv.org/abs/2207.06733v1 )

ライセンス: Link先を確認
Jiawei Yang, Hanbo Chen, Yuan Liang, Junzhou Huang, Lei He, Jianhua Yao(参考訳) 計算病理ワークフローに欠かせない異物検出 自己教師付き学習(SSL)は、このようなアノテーションの多いタスクにアピールする。 濃密な作業のための自然画像の広範なベンチマークにもかかわらず、これらの研究は残念ながら現在の病理学の研究に欠落している。 私たちの論文はこのギャップを狭めるつもりだ。 まず,病理画像の高密度予測タスクに対するssl手法のベンチマークを行った。 次に,高密度事前学習のためのSSLフレームワークであるコントラスト学習(ConCL)を提案する。 我々は、ConCLが異なるソースから提供される概念をどのように実行し、外部セグメンテーションアルゴリズムや従量検出モデルに依存しない単純な依存性のない概念生成手法を提案する。 大規模な実験は、さまざまな設定で以前の最先端SSLメソッドよりもConCLの方が優れていることを示している。 本研究では,病理画像の高密度事前学習の成功に寄与する重要かつ興味深い要素を抽出する。 この作業が有用なデータポイントを提供し、関心のある問題に対するConCL事前トレーニングをコミュニティに促すことを願っています。 コードは利用可能。

Detectingandsegmentingobjectswithinwholeslideimagesis essential in computational pathology workflow. Self-supervised learning (SSL) is appealing to such annotation-heavy tasks. Despite the extensive benchmarks in natural images for dense tasks, such studies are, unfortunately, absent in current works for pathology. Our paper intends to narrow this gap. We first benchmark representative SSL methods for dense prediction tasks in pathology images. Then, we propose concept contrastive learning (ConCL), an SSL framework for dense pre-training. We explore how ConCL performs with concepts provided by different sources and end up with proposing a simple dependency-free concept generating method that does not rely on external segmentation algorithms or saliency detection models. Extensive experiments demonstrate the superiority of ConCL over previous state-of-the-art SSL methods across different settings. Along our exploration, we distll several important and intriguing components contributing to the success of dense pre-training for pathology images. We hope this work could provide useful data points and encourage the community to conduct ConCL pre-training for problems of interest. Code is available.
翻訳日:2022-07-15 13:31:02 公開日:2022-07-14
# trie++: 視覚的にリッチな文書からエンドツーエンドの情報抽出へ

TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents ( http://arxiv.org/abs/2207.06744v1 )

ライセンス: Link先を確認
Zhanzhan Cheng, Peng Zhang, Can Li, Qiao Liang, Yunlu Xu, Pengfei Li, Shiliang Pu, Yi Niu and Fei Wu(参考訳) 近年,視覚的に豊かな資料(チケットや履歴書など)から情報を自動的に抽出することが,商品価値の広さからホットかつ重要な研究課題となっている。 既存のほとんどの方法は、このタスクを、原文書画像からプレーンテキストを取得するテキスト読取部と、キーコンテンツを抽出する情報抽出部とに分割する。 これらの手法は主に第2部の改善に焦点を合わせ、両部は高い相関関係にあることを無視する。 本稿では,テキストの読み出しと情報抽出が高度に設計されたマルチモーダル・コンテクストブロックを介して相互に強化できる,視覚的にリッチな文書からのエンドツーエンド情報抽出フレームワークを提案する。 具体的には、テキスト読み込み部は、ビジュアル、テキスト、レイアウト機能などのマルチモーダル機能を提供する。 マルチモーダルコンテキストブロックは、生成されたマルチモーダル特徴と、事前訓練された言語モデルからの事前知識を融合させて、セマンティック表現を改善する。 情報抽出部は、融合したコンテキスト特徴を有するキーコンテンツを生成する責任を負う。 フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバル最適化が実現できます。 さらに、視覚的に豊かな文書を2次元の4つのカテゴリ、レイアウトとテキストタイプに分類し、グループ化する。 各文書カテゴリについて、我々は、この研究領域が統一評価基準を欠いている問題を改善するための、対応するベンチマーク、実験的な設定、強力なベースラインを提示または推奨する。 提案手法の有効性を実証し,4種類のベンチマーク(固定レイアウトから可変レイアウト,フル構造化テキストから半非構造化テキストまで)を概説した。 データ、ソースコード、モデルが利用可能だ。

Recently, automatically extracting information from visually rich documents (e.g., tickets and resumes) has become a hot and vital research topic due to its widespread commercial value. Most existing methods divide this task into two subparts: the text reading part for obtaining the plain text from the original document images and the information extraction part for extracting key contents. These methods mainly focus on improving the second, while neglecting that the two parts are highly correlated. This paper proposes a unified end-to-end information extraction framework from visually rich documents, where text reading and information extraction can reinforce each other via a well-designed multi-modal context block. Specifically, the text reading part provides multi-modal features like visual, textual and layout features. The multi-modal context block is developed to fuse the generated multi-modal features and even the prior knowledge from the pre-trained language model for better semantic representation. The information extraction part is responsible for generating key contents with the fused context features. The framework can be trained in an end-to-end trainable manner, achieving global optimization. What is more, we define and group visually rich documents into four categories across two dimensions, the layout and text type. For each document category, we provide or recommend the corresponding benchmarks, experimental settings and strong baselines for remedying the problem that this research area lacks the uniform evaluation standard. Extensive experiments on four kinds of benchmarks (from fixed layout to variable layout, from full-structured text to semi-unstructured text) are reported, demonstrating the proposed method's effectiveness. Data, source code and models are available.
翻訳日:2022-07-15 13:30:47 公開日:2022-07-14
# (参考訳) react:リレーショナルクエリによる時間的アクション検出

ReAct: Temporal Action Detection with Relational Queries ( http://arxiv.org/abs/2207.07097v1 )

ライセンス: CC BY 4.0
Dingfeng Shi, Yujie Zhong, Qiong Cao, Jing Zhang, Lin Ma, Jia Li and Dacheng Tao(参考訳) この研究は、detrと同様のアクションクエリを持つエンコーダ-デコーダフレームワークを使用して、時間的アクション検出(tad)を前進させることを目標としている。 しかし、このフレームワークは、DADに直接適用される場合、デコーダにおけるクエリ間関係の探索不足、限られたトレーニングサンプル数による不適切な分類訓練、推論時の信頼性の低い分類スコアなど、いくつかの問題に悩まされている。 そこで本研究では,まず,それらの関係に基づいてクエリ間の注意を誘導する関係的注意機構をデコーダで提案する。 さらに,行動分類の訓練を促進・安定化するために,二つの損失を提案する。 最後に,各アクションクエリの局所化品質を推定し,高品質なクエリを識別する手法を提案する。 提案手法はreactと呼ばれ、thums14の最先端性能を実現し、計算コストは従来の方法よりもはるかに低い。 また,各成分の有効性を検証するため,広範なアブレーション試験を行った。 コードはhttps://github.com/ssste/reactで入手できる。

This work aims at advancing temporal action detection (TAD) using an encoder-decoder framework with action queries, similar to DETR, which has shown great success in object detection. However, the framework suffers from several problems if directly applied to TAD: the insufficient exploration of inter-query relation in the decoder, the inadequate classification training due to a limited number of training samples, and the unreliable classification scores at inference. To this end, we first propose a relational attention mechanism in the decoder, which guides the attention among queries based on their relations. Moreover, we propose two losses to facilitate and stabilize the training of action classification. Lastly, we propose to predict the localization quality of each action query at inference in order to distinguish high-quality queries. The proposed method, named ReAct, achieves the state-of-the-art performance on THUMOS14, with much lower computational costs than previous methods. Besides, extensive ablation studies are conducted to verify the effectiveness of each proposed component. The code is available at https://github.com/sssste/React.
翻訳日:2022-07-15 13:29:22 公開日:2022-07-14
# 距離学習者:モデルトレーニングの前に多様体を組み込む

Distance Learner: Incorporating Manifold Prior to Model Training ( http://arxiv.org/abs/2207.06888v1 )

ライセンス: Link先を確認
Aditya Chetan, Nipun Kwatra(参考訳) 多様体仮説(実世界データは低次元多様体の近くに集中する)は、視覚や音声などの領域に共通する非常に高次元問題における機械学習アルゴリズムの有効性の原理として提案される。 現代のディープニューラルネットワーク(dnn)に先立って、多様体仮説を明示的に取り入れるための複数の方法が提案されている。 本稿では,これをdnnに基づく分類器に組み込むための新しい手法である距離学習器を提案する。 距離学習者は、クラスラベルではなく、各クラスの下位多様体からポイントの距離を予測するように訓練される。 分類のために、距離学習者は最も近い予測クラス多様体に対応するクラスを選択する。 距離学習者は、最も近い多様体への距離がしきい値よりも高い場合、分布から外れた点(どちらのクラスにも及ばない)を特定できる。 提案手法を複数の合成データセット上で評価し,標準分類器と比較して,距離学習者がより意味のある分類境界を学習することを示す。 また, 対角的頑健さの課題に対する本手法の評価を行い, 標準分類器を大差で上回るだけでなく, 最先端の対角訓練によって訓練された分類器と同等に性能を発揮することを示した。

The manifold hypothesis (real world data concentrates near low-dimensional manifolds) is suggested as the principle behind the effectiveness of machine learning algorithms in very high dimensional problems that are common in domains such as vision and speech. Multiple methods have been proposed to explicitly incorporate the manifold hypothesis as a prior in modern Deep Neural Networks (DNNs), with varying success. In this paper, we propose a new method, Distance Learner, to incorporate this prior for DNN-based classifiers. Distance Learner is trained to predict the distance of a point from the underlying manifold of each class, rather than the class label. For classification, Distance Learner then chooses the class corresponding to the closest predicted class manifold. Distance Learner can also identify points as being out of distribution (belonging to neither class), if the distance to the closest manifold is higher than a threshold. We evaluate our method on multiple synthetic datasets and show that Distance Learner learns much more meaningful classification boundaries compared to a standard classifier. We also evaluate our method on the task of adversarial robustness, and find that it not only outperforms standard classifier by a large margin, but also performs at par with classifiers trained via state-of-the-art adversarial training.
翻訳日:2022-07-15 13:11:35 公開日:2022-07-14
# PASHA: プログレッシブなリソース割り当てを備えたHPO

PASHA: Efficient HPO with Progressive Resource Allocation ( http://arxiv.org/abs/2207.06940v1 )

ライセンス: Link先を確認
Ondrej Bohdal, Lukas Balles, Beyza Ermis, C\'edric Archambeau, Giovanni Zappella(参考訳) ハイパーパラメータ最適化(HPO)とニューラルアーキテクチャサーチ(NAS)は、クラス内で最高の機械学習モデルを得るために選択される方法であるが、実際には実行にはコストがかかる。 大規模なデータセットでモデルがトレーニングされると、HPOやNASでモデルをチューニングすることは、効率的なマルチフィデリティメソッドを採用する場合でも、実践者にとって急速に高価になる。 本稿では,限られた計算資源を持つ大規模データセット上で学習した機械学習モデルをチューニングする手法を提案する。 PASHAと呼ばれる我々の手法は、必要に応じてチューニング手順の最大リソースを動的に割り当てることができる。 実験による比較では、PASHAは、ASHAのようなソリューションよりも計算資源をはるかに少なく消費しながら、優れたパフォーマンスのハイパーパラメータ構成とアーキテクチャを特定する。

Hyperparameter optimization (HPO) and neural architecture search (NAS) are methods of choice to obtain the best-in-class machine learning models, but in practice they can be costly to run. When models are trained on large datasets, tuning them with HPO or NAS rapidly becomes prohibitively expensive for practitioners, even when efficient multi-fidelity methods are employed. We propose an approach to tackle the challenge of tuning machine learning models trained on large datasets with limited computational resources. Our approach, named PASHA, is able to dynamically allocate maximum resources for the tuning procedure depending on the need. The experimental comparison shows that PASHA identifies well-performing hyperparameter configurations and architectures while consuming significantly fewer computational resources than solutions like ASHA.
翻訳日:2022-07-15 13:10:53 公開日:2022-07-14
# 低次機能ANOVAモデルへのブースティングによるモデルベースツリーの利用

Using Model-Based Trees with Boosting to Fit Low-Order Functional ANOVA Models ( http://arxiv.org/abs/2207.06950v1 )

ライセンス: Link先を確認
Linwei Hu, Jie Chen, Vijayan N. Nair(参考訳) 低階関数型ANOVA(fANOVA)モデルは、本質的に解釈可能な機械学習の目的のもと、機械学習(ML)コミュニティで再発見された。 Explainable Boosting Machines (Lou et al. 2013) と GAMI-Net (Yang et al. 2021) は、関数的主効果と二階相互作用に適合するMLアルゴリズムである。 我々は,EMMに類似する新しいアルゴリズムであるGAMI-Treeを提案する。 モデルベースツリーをベースラーナーとして使用し、基礎となるインタラクションをキャプチャする上で優れた新しいインタラクションフィルタリング手法を取り入れている。 さらに, 反復学習法は予測性能のよいモデルに収束し, 組込み浄化により, 相互作用が主効果に対して階層的に直交していることを保証する。 このアルゴリズムは広範なチューニングは必要とせず、実装は高速で効率的です。 シミュレーションと実データを用いて,GAMI-Treeの性能と解釈性を比較した。

Low-order functional ANOVA (fANOVA) models have been rediscovered in the machine learning (ML) community under the guise of inherently interpretable machine learning. Explainable Boosting Machines or EBM (Lou et al. 2013) and GAMI-Net (Yang et al. 2021) are two recently proposed ML algorithms for fitting functional main effects and second-order interactions. We propose a new algorithm, called GAMI-Tree, that is similar to EBM, but has a number of features that lead to better performance. It uses model-based trees as base learners and incorporates a new interaction filtering method that is better at capturing the underlying interactions. In addition, our iterative training method converges to a model with better predictive performance, and the embedded purification ensures that interactions are hierarchically orthogonal to main effects. The algorithm does not need extensive tuning, and our implementation is fast and efficient. We use simulated and real datasets to compare the performance and interpretability of GAMI-Tree with EBM and GAMI-Net.
翻訳日:2022-07-15 13:10:38 公開日:2022-07-14
# マグロの学校はどのようにdFADと結びつくのか? エコーサンダーブイを用いた大域パターンの同定に関する研究

How do tuna schools associate to dFADs? A study using echo-sounder buoys to identify global patterns ( http://arxiv.org/abs/2207.07049v1 )

ライセンス: Link先を確認
Manuel Navarro-Garc\'ia and Daniel Precioso and Kathryn Gavira-O'Neill and Alberto Torres-Barr\'an and David Gordo and V\'ictor Gallego and David G\'omez-Ullate(参考訳) 本研究は,熱帯海域を漂流する魚群集装置(dfads)に付着するエコーフォアブイによって収集されたデータに基づき,マグロ学校における漂流物体との関連性を検討するために,機械学習手法を適用した。 2値の出力を用いて、文献で典型的に使用されるメトリクスは、dFADの下でのマグロ全体の集約が考慮されたという事実を考慮に入れられた。 マグロが最初にdFADを植民地化するのに要する時間は、海によって25日から43日の間で変化し、太平洋で最長のソークと植民地化時間が登録された。 マグロ学校における連続滞在時間は,従来の研究結果とほぼ一致し,連続滞在時間(平均5日,7日,9日,11日)よりも短かった。 回帰結果を用いて, 凝集時間と分散時間という2つの新しい指標を推定し, 凝集過程の対称性についてさらなる知見を得た。 全ての海洋において、マグロの集合体がdFADから出発するまでの時間は、マグロの集合体の形成に要する時間よりもそれほど長くなかった。 これらの結果の「生態トラップ」仮説の文脈における価値について考察し、このデータソースを豊かに利用するためのさらなる分析を提案する。

Based on the data gathered by echo-sounder buoys attached to drifting Fish Aggregating Devices (dFADs) across tropical oceans, the current study applies a Machine Learning protocol to examine the temporal trends of tuna schools' association to drifting objects. Using a binary output, metrics typically used in the literature were adapted to account for the fact that the entire tuna aggregation under the dFAD was considered. The median time it took tuna to colonize the dFADs for the first time varied between 25 and 43 days, depending on the ocean, and the longest soak and colonization times were registered in the Pacific Ocean. The tuna schools' Continuous Residence Times were generally shorter than Continuous Absence Times (median values between 5 and 7 days, and 9 and 11 days, respectively), in line with the results found by previous studies. Using a regression output, two novel metrics, namely aggregation time and disaggregation time, were estimated to obtain further insight into the symmetry of the aggregation process. Across all oceans, the time it took for the tuna aggregation to depart from the dFADs was not significantly longer than the time it took for the aggregation to form. The value of these results in the context of the "ecological trap" hypothesis is discussed, and further analyses to enrich and make use of this data source are proposed.
翻訳日:2022-07-15 13:10:19 公開日:2022-07-14
# パーキンソン病診断におけるポーズに基づく震動分類

Pose-based Tremor Classification for Parkinson's Disease Diagnosis from Video ( http://arxiv.org/abs/2207.06828v1 )

ライセンス: Link先を確認
Haozheng Zhang, Edmond S.L. Ho, Xiatian Zhang and Hubert P.H. Shum(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、進行性神経変性疾患であり、振動、ブラジキネジア、硬直、姿勢不安定など様々な運動障害症状を引き起こす。 PDの診断は主に特定の医療検査ではなく臨床経験に依存しており、診断精度は異なる医療専門家の主観的意見や経験に疑問視されているため、約73~84%である。 したがって、より堅牢な診断意思決定を行う臨床医を支援するために、効率的かつ解釈可能な自動PD診断システムが有用である。 そこで本研究では,パーキンソン病はpdの最も主症状の1つであるため,パーキンソン病の震えを分類する。 ウェアラブルセンサを利用する他のコンピュータ支援時間やリソース消費のParkinson's Tremor(PT)分類システムとは異なり,SPAPNetは,安価なPT分類結果をPD警告サインとして提供するために,入力としてカメラ面の人間の動きをコンシューマグレードの非侵襲的なビデオ記録のみを必要とする。 本稿では,新しい注目モジュールと軽量なピラミッドチャネル・スクイージング・フュージョン・アーキテクチャを用いて,関連するPT情報を抽出し,効率よくノイズをフィルタリングする手法を提案する。 この設計は分類性能とシステム解釈性の両方を改善するのに役立つ。 実験の結果,PTを非PTクラスに分類した場合の精度は90.9%,F1スコアは90.6%であった。

Parkinson's disease (PD) is a progressive neurodegenerative disorder that results in a variety of motor dysfunction symptoms, including tremors, bradykinesia, rigidity and postural instability. The diagnosis of PD mainly relies on clinical experience rather than a definite medical test, and the diagnostic accuracy is only about 73-84% since it is challenged by the subjective opinions or experiences of different medical experts. Therefore, an efficient and interpretable automatic PD diagnosis system is valuable for supporting clinicians with more robust diagnostic decision-making. To this end, we propose to classify Parkinson's tremor since it is one of the most predominant symptoms of PD with strong generalizability. Different from other computer-aided time and resource-consuming Parkinson's Tremor (PT) classification systems that rely on wearable sensors, we propose SPAPNet, which only requires consumer-grade non-intrusive video recording of camera-facing human movements as input to provide undiagnosed patients with low-cost PT classification results as a PD warning sign. For the first time, we propose to use a novel attention module with a lightweight pyramidal channel-squeezing-fusion architecture to extract relevant PT information and filter the noise efficiently. This design aids in improving both classification performance and system interpretability. Experimental results show that our system outperforms state-of-the-arts by achieving a balanced accuracy of 90.9% and an F1-score of 90.6% in classifying PT with the non-PT class.
翻訳日:2022-07-15 13:07:54 公開日:2022-07-14
# クラス内制約による深層辞書学習

Deep Dictionary Learning with An Intra-class Constraint ( http://arxiv.org/abs/2207.06841v1 )

ライセンス: Link先を確認
Xia Yuan, Jianping Gou, Baosheng Yu, Jiali Yu and Zhang Yi(参考訳) 近年,deep dictionary learning (ddl) は表現学習や視覚認識に有効であるため,多くの注目を集めている。 しかし、既存のほとんどの手法は教師なしの深層辞書学習に重点を置いており、カテゴリ情報のさらなる探索には失敗している。 ~異なるサンプルのカテゴリ情報を完全に活用するために,視覚分類のためのクラス内制約(ddlic)を用いた新しい深層辞書学習モデルを提案する。 具体的には,中間表現に対するクラス内コンパクト性制約を異なるレベルで設計することにより,クラス内表現が互いに親密になるようにし,最終的には学習表現をより識別する。 ~従来のDDL手法とは異なり、分類段階では、DDLICはトレーニング段階と同じような方法で階層的にグレディ最適化を行う。 4つの画像データセットにおける実験結果から,本手法は最先端手法よりも優れていることが示された。

In recent years, deep dictionary learning (DDL)has attracted a great amount of attention due to its effectiveness for representation learning and visual recognition.~However, most existing methods focus on unsupervised deep dictionary learning, failing to further explore the category information.~To make full use of the category information of different samples, we propose a novel deep dictionary learning model with an intra-class constraint (DDLIC) for visual classification. Specifically, we design the intra-class compactness constraint on the intermediate representation at different levels to encourage the intra-class representations to be closer to each other, and eventually the learned representation becomes more discriminative.~Unlike the traditional DDL methods, during the classification stage, our DDLIC performs a layer-wise greedy optimization in a similar way to the training stage. Experimental results on four image datasets show that our method is superior to the state-of-the-art methods.
翻訳日:2022-07-15 13:07:23 公開日:2022-07-14
# vision bertプリトレーニングのためのブートストラップマスク付きオートエンコーダ

Bootstrapped Masked Autoencoders for Vision BERT Pretraining ( http://arxiv.org/abs/2207.07116v1 )

ライセンス: Link先を確認
Xiaoyi Dong and Jianmin Bao and Ting Zhang and Dongdong Chen and Weiming Zhang and Lu Yuan and Dong Chen and Fang Wen and Nenghai Yu(参考訳) 我々は、vision bertプリトレーニングのための新しいアプローチであるbootmae(bootstrapped masked autoencoders)を提案する。 BootMAEは、オリジナルのマスク付きオートエンコーダ(MAE)を2つのコア設計で改善した。 1) BERT予測対象としてオンライン機能を提供するモーメントエンコーダ 2) BERT事前学習における目標固有情報を記憶するためのエンコーダの圧力を減らそうとするターゲット認識デコーダ。 最初の設計は、事前訓練されたMAEを用いて、マスクされたトークンのBERT予測ターゲットとして特徴を抽出することで、より優れた事前訓練性能が得られるという観察によって動機づけられる。 そこで,従来のMAEエンコーダと平行にモーメントエンコーダを付加し,その表現をBERT予測ターゲットとして用いることで,事前学習性能をブートストラップする。 第2の設計では、ターゲット固有情報を記憶するエンコーダの圧力を低減するために、エンコーダから直接デコーダにターゲット固有情報(例えば、未マッピングパッチの画素値)を導入する。 したがって、エンコーダはbertプリトレーニングの目標であるセマンティクス・モデリングにフォーカスしており、予測対象に関連するアンマストトークンの情報を記憶するためにその容量を浪費する必要はない。 広範な実験を通じて、私たちのBootMAEはImageNet-1Kで8.2\%のTop-1精度をViT-Bバックボーンで達成し、同じ事前学習エポックの下でMAEを+0.8\%以上上回った。 BootMAEはADE20Kのセマンティックセグメンテーションで$+1.0$ mIoUの改善と$+1.3$ボックスAPで$+1.4$マスクAPでCOCOデータセットでオブジェクトの検出とセグメンテーションを改善する。 コードはhttps://github.com/lightdxy/bootmaeでリリースされる。

We propose bootstrapped masked autoencoders (BootMAE), a new approach for vision BERT pretraining. BootMAE improves the original masked autoencoders (MAE) with two core designs: 1) momentum encoder that provides online feature as extra BERT prediction targets; 2) target-aware decoder that tries to reduce the pressure on the encoder to memorize target-specific information in BERT pretraining. The first design is motivated by the observation that using a pretrained MAE to extract the features as the BERT prediction target for masked tokens can achieve better pretraining performance. Therefore, we add a momentum encoder in parallel with the original MAE encoder, which bootstraps the pretraining performance by using its own representation as the BERT prediction target. In the second design, we introduce target-specific information (e.g., pixel values of unmasked patches) from the encoder directly to the decoder to reduce the pressure on the encoder of memorizing the target-specific information. Thus, the encoder focuses on semantic modeling, which is the goal of BERT pretraining, and does not need to waste its capacity in memorizing the information of unmasked tokens related to the prediction target. Through extensive experiments, our BootMAE achieves $84.2\%$ Top-1 accuracy on ImageNet-1K with ViT-B backbone, outperforming MAE by $+0.8\%$ under the same pre-training epochs. BootMAE also gets $+1.0$ mIoU improvements on semantic segmentation on ADE20K and $+1.3$ box AP, $+1.4$ mask AP improvement on object detection and segmentation on COCO dataset. Code is released at https://github.com/LightDXY/BootMAE.
翻訳日:2022-07-15 13:07:10 公開日:2022-07-14
# 選好の変化ごとに異なる:推薦のための時間ダイナミクスを持つニューラルマルチゲスト選好モデル

Every Preference Changes Differently: Neural Multi-Interest Preference Model with Temporal Dynamics for Recommendation ( http://arxiv.org/abs/2207.06652v1 )

ライセンス: Link先を確認
Hui Shi, Yupeng Gu, Yitong Zhou, Bo Zhao, Sicun Gao, Jishen Zhao(参考訳) ユーザ埋め込み(ユーザのベクトル表現)はレコメンデーションシステムにおいて不可欠である。 検索タスクに類似した項目を見つけるためにユーザのための表現を構築するための様々なアプローチが提案されており、産業向けレコメンデーションシステムでも有効であることが証明されている。 近年,各埋め込みが特定のトピックに対するユーザの関心を表すことを期待して,複数の埋め込みをユーザを表現する能力を発見した。 多目的表現では、異なるトピックに対するユーザの好みと、時間とともに好みがどのように変化するかをモデル化することが重要です。 しかし、既存のアプローチでは、各利子に対するユーザーの親和性の推定に失敗したり、不当にすべてのユーザーの興味が時間とともに均等に低下し、候補検索のリコールを損なうと仮定している。 本稿では,ユーザのシーケンシャルなエンゲージメントをより効果的に利用することで,ユーザにとってのマルチ興味を生み出すだけでなく,各埋め込みに対する嗜好を表す重みを自動的に学習し,各関心から候補を比例的に取り出す手法であるmulti-interest preference(mip)モデルを提案する。 本手法の有効性を実証するために,様々な産業規模のデータセットで広範な実験を行った。

User embeddings (vectorized representations of a user) are essential in recommendation systems. Numerous approaches have been proposed to construct a representation for the user in order to find similar items for retrieval tasks, and they have been proven effective in industrial recommendation systems as well. Recently people have discovered the power of using multiple embeddings to represent a user, with the hope that each embedding represents the user's interest in a certain topic. With multi-interest representation, it's important to model the user's preference over the different topics and how the preference change with time. However, existing approaches either fail to estimate the user's affinity to each interest or unreasonably assume every interest of every user fades with an equal rate with time, thus hurting the recall of candidate retrieval. In this paper, we propose the Multi-Interest Preference (MIP) model, an approach that not only produces multi-interest for users by using the user's sequential engagement more effectively but also automatically learns a set of weights to represent the preference over each embedding so that the candidates can be retrieved from each interest proportionally. Extensive experiments have been done on various industrial-scale datasets to demonstrate the effectiveness of our approach.
翻訳日:2022-07-15 13:03:23 公開日:2022-07-14
# ニューラルネットワークのトレーニングと検証のための微分論理

Differentiable Logics for Neural Network Training and Verification ( http://arxiv.org/abs/2207.06741v1 )

ライセンス: Link先を確認
Natalia Slusarz, Ekaterina Komendantskaya, Matthew L. Daggitt, and Robert Stewart(参考訳) 近年のニューラルネットワーク(NN)の普及と、現実のアプリケーションにおけるその普及は、その検証の重要性に注意を向けている。 検証は理論上は難しいことが知られているが、実際には多くの手法が提案されている。 文献では、デフォルトでニューラルネットワークが検証したい論理的制約を満たさないことが観察されている。 適切な手順は、検証する前にその制約を満たすために与えられたNNをトレーニングすることだ。 このアイデアは、トレーニングと検証の間のループを参照して、継続的検証と呼ばれることもある。 通常、制約付きトレーニングは、与えられた形式論理言語を損失関数に変換することで実施される。 これらの損失関数はニューラルネットワークのトレーニングに使用される。 訓練目的のためにこれらの関数は微分可能でなければならないため、これらの翻訳は微分可能論理(DL)と呼ばれる。 これはいくつかの研究課題を提起する。 どんな区別可能な論理が可能でしょうか? dlの特定の選択が連続検証の文脈でどのような違いをもたらすのか? 結果損失関数の観点から見たdlの望ましい基準は何か? この拡張された要約では、これらの質問に答えます。

The rising popularity of neural networks (NNs) in recent years and their increasing prevalence in real-world applications have drawn attention to the importance of their verification. While verification is known to be computationally difficult theoretically, many techniques have been proposed for solving it in practice. It has been observed in the literature that by default neural networks rarely satisfy logical constraints that we want to verify. A good course of action is to train the given NN to satisfy said constraint prior to verifying them. This idea is sometimes referred to as continuous verification, referring to the loop between training and verification. Usually training with constraints is implemented by specifying a translation for a given formal logic language into loss functions. These loss functions are then used to train neural networks. Because for training purposes these functions need to be differentiable, these translations are called differentiable logics (DL). This raises several research questions. What kind of differentiable logics are possible? What difference does a specific choice of DL make in the context of continuous verification? What are the desirable criteria for a DL viewed from the point of view of the resulting loss function? In this extended abstract we will discuss and answer these questions.
翻訳日:2022-07-15 13:03:00 公開日:2022-07-14
# iSATを用いたシグモダルニューラルネットワークの検証

Verification of Sigmoidal Artificial Neural Networks using iSAT ( http://arxiv.org/abs/2207.06755v1 )

ライセンス: Link先を確認
Dominik Grundt (German Aerospace Center e.V.), Sorin Liviu Jurj (German Aerospace Center e.V.), Willem Hagemann (German Aerospace Center e.V.), Paul Kr\"oger (Carl von Ossietzky University Oldenburg), Martin Fr\"anzle (Carl von Ossietzky University Oldenburg)(参考訳) 本稿では,サイバー物理安全クリティカルシステムにおける非線形ニューラルネットワーク(anns)の挙動を検証する手法を提案する。 我々は,SMTソルバiSATにシグモイド関数の専用間隔制約プロパゲータを実装し,iSATで利用可能な基本的な算術的特徴と近似的アプローチを用いて,シグモイド関数を符号化する構成的アプローチと比較した。 実験の結果, 作曲アプローチと作曲アプローチが近似的アプローチを明らかに上回っていることがわかった。 すべてのベンチマークを通じて、専用アプローチは構成アプローチと同等かそれ以上のパフォーマンスを示した。

This paper presents an approach for verifying the behaviour of nonlinear Artificial Neural Networks (ANNs) found in cyber-physical safety-critical systems. We implement a dedicated interval constraint propagator for the sigmoid function into the SMT solver iSAT and compare this approach with a compositional approach encoding the sigmoid function by basic arithmetic features available in iSAT and an approximating approach. Our experimental results show that the dedicated and the compositional approach clearly outperform the approximating approach. Throughout all our benchmarks, the dedicated approach showed an equal or better performance compared to the compositional approach.
翻訳日:2022-07-15 13:02:43 公開日:2022-07-14
# ML科学における漏洩と再現性危機

Leakage and the Reproducibility Crisis in ML-based Science ( http://arxiv.org/abs/2207.07048v1 )

ライセンス: Link先を確認
Sayash Kapoor, Arvind Narayanan(参考訳) 予測と予測のための機械学習(ML)手法の利用は、定量的科学に広く浸透している。 しかしながら、mlベースの科学には、データ漏洩を含む多くの方法論的落とし穴がある。 本稿では,MLに基づく科学における再現性の問題について,体系的に検討する。 データ漏洩は確かに広範な問題であり、重大な再現性障害を引き起こしている。 具体的には、ML手法を採用した研究コミュニティにおける文献調査を通じて、誤りが見つかった17の分野が発見され、329の論文がまとめられ、場合によっては過度に最適化された結論が導かれる。 そこで本研究では,教科書の誤りからオープンリサーチ問題まで,8種類の漏洩の詳細な分類法を提案する。 我々は,MLに基づく科学の基本的な方法論的変化を論じ,漏洩事例を出版前に把握できるようにしている。 そこで本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。 再現性エラーとモデル情報シートの有効性について検討するため,複雑なMLモデルがロジスティック回帰(LR)のような古い統計モデルよりもはるかに優れていると考えられる分野において,再現性調査を行った。 複雑なMLモデルの性能をLRモデルと比較すると,データ漏洩による再現に失敗し,複雑なMLモデルは数十年前のLRモデルより実質上は良好に動作しないことがわかった。 いずれの誤りも論文を読むことで見つけられなかったが、モデルインフォメーションシートは各ケースの漏れを検出することができる。

The use of machine learning (ML) methods for prediction and forecasting has become widespread across the quantitative sciences. However, there are many known methodological pitfalls, including data leakage, in ML-based science. In this paper, we systematically investigate reproducibility issues in ML-based science. We show that data leakage is indeed a widespread problem and has led to severe reproducibility failures. Specifically, through a survey of literature in research communities that adopted ML methods, we find 17 fields where errors have been found, collectively affecting 329 papers and in some cases leading to wildly overoptimistic conclusions. Based on our survey, we present a fine-grained taxonomy of 8 types of leakage that range from textbook errors to open research problems. We argue for fundamental methodological changes to ML-based science so that cases of leakage can be caught before publication. To that end, we propose model info sheets for reporting scientific claims based on ML models that would address all types of leakage identified in our survey. To investigate the impact of reproducibility errors and the efficacy of model info sheets, we undertake a reproducibility study in a field where complex ML models are believed to vastly outperform older statistical models such as Logistic Regression (LR): civil war prediction. We find that all papers claiming the superior performance of complex ML models compared to LR models fail to reproduce due to data leakage, and complex ML models don't perform substantively better than decades-old LR models. While none of these errors could have been caught by reading the papers, model info sheets would enable the detection of leakage in each case.
翻訳日:2022-07-15 13:02:33 公開日:2022-07-14
# 感度境界付きパーソナライズページランクによる差分プライベートグラフ学習

Differentially Private Graph Learning via Sensitivity-Bounded Personalized PageRank ( http://arxiv.org/abs/2207.06944v1 )

ライセンス: Link先を確認
Alessandro Epasto, Vahab Mirrokni, Bryan Perozzi, Anton Tsitsulin, Peilin Zhong(参考訳) パーソナライズされたPageRank(PPR)は、ノードランキング、ラベル付け、グラフ埋め込みといったグラフ表現の教師なし学習の基本的なツールである。 しかし、データプライバシは最近の最も重要な懸念の1つだが、既存のPPRアルゴリズムはユーザーのプライバシを保護するように設計されていない。 PPRは入力グラフエッジに対して非常に敏感であり、一方のエッジの違いはPPRベクトルに大きな変化をもたらし、潜在的にプライベートユーザデータを漏洩させる可能性がある。 本研究では,近似PRを出力し,入力エッジに有意な感度を持つアルゴリズムを提案する。 さらに,入力グラフが大きな度合いを持つ場合,このアルゴリズムは非プライベートなアルゴリズムと類似の精度を達成できることを示す。 我々の感度バウンドPPRは、差分プライベート(DP)PPRランキング、DPノード分類、DPノード埋め込みなど、グラフ学習のいくつかのツールのプライベートアルゴリズムを直接意味している。 理論的解析を補完するため,アルゴリズムの実用性能を実証的に検証した。

Personalized PageRank (PPR) is a fundamental tool in unsupervised learning of graph representations such as node ranking, labeling, and graph embedding. However, while data privacy is one of the most important recent concerns, existing PPR algorithms are not designed to protect user privacy. PPR is highly sensitive to the input graph edges: the difference of only one edge may cause a big change in the PPR vector, potentially leaking private user data. In this work, we propose an algorithm which outputs an approximate PPR and has provably bounded sensitivity to input edges. In addition, we prove that our algorithm achieves similar accuracy to non-private algorithms when the input graph has large degrees. Our sensitivity-bounded PPR directly implies private algorithms for several tools of graph learning, such as, differentially private (DP) PPR ranking, DP node classification, and DP node embedding. To complement our theoretical analysis, we also empirically verify the practical performances of our algorithms.
翻訳日:2022-07-15 13:01:52 公開日:2022-07-14
# 変分不等式の連続時間解析:概観とデシラタ

Continuous-time Analysis for Variational Inequalities: An Overview and Desiderata ( http://arxiv.org/abs/2207.07105v1 )

ライセンス: Link先を確認
Tatjana Chavdarova, Ya-Ping Hsieh, Michael I. Jordan(参考訳) ゼロサムゲーム、多目的エージェント目的、あるいはより一般的には変動不等式(VI)問題を解くアルゴリズムは、一般的な問題に対して不安定である。 機械学習におけるそのような問題を解決する必要性が高まっているため、この不安定性は近年、重要な研究課題として強調されている。 本稿では,広義のVI問題クラスを対象とした手法の分析と設計における連続時間視点の利用の最近の進歩について概説する。 本発表は,単一目的問題と多目的問題との並列性を示し,後者の課題を浮き彫りにする。 また、一般 vis に適用可能なアルゴリズムに対する様々なデシデラタを定式化し、これらのデシデラタの達成は関連する連続時間ダイナミクスの理解から利益を得るかもしれないと主張する。

Algorithms that solve zero-sum games, multi-objective agent objectives, or, more generally, variational inequality (VI) problems are notoriously unstable on general problems. Owing to the increasing need for solving such problems in machine learning, this instability has been highlighted in recent years as a significant research challenge. In this paper, we provide an overview of recent progress in the use of continuous-time perspectives in the analysis and design of methods targeting the broad VI problem class. Our presentation draws parallels between single-objective problems and multi-objective problems, highlighting the challenges of the latter. We also formulate various desiderata for algorithms that apply to general VIs and we argue that achieving these desiderata may profit from an understanding of the associated continuous-time dynamics.
翻訳日:2022-07-15 13:01:34 公開日:2022-07-14
# (参考訳) コミュニケーションを学ぶことによる翻訳の学習

Learning to translate by learning to communicate ( http://arxiv.org/abs/2207.07025v1 )

ライセンス: CC BY 4.0
C.M. Downey, Leo Z. Liu, Xuhui Zhou, Shane Steinert-Threlkeld(参考訳) 我々は、特に低リソース言語において、最新のunsupervised NMTシステムを改善するために、事前訓練された多言語モデルでEmergent Communication(EC)を使用する手法を定式化し、テストする。 テキストのみのコーパスを事前学習するnlpの現在支配的なパラダイムは、強固な自然言語理解システムを生み出すものではなく、根拠付き、目標指向、対話型言語学習の必要性が強調されている。 私たちのアプローチでは、現代の多言語モデル(mbart, liu et. al. 2020)をecイメージ参照ゲームに組み込む。このゲームでは、複数の言語を共有タスク空間にアライメントする、という仮説とともに、多言語世代を視覚基盤タスクに使用するインセンティブを与えます。 我々は2種類のec微調整(steinert-threlkeld et. al. 2022)について述べる。1つは6/8の翻訳においてバックトランスレーションベースのベースラインよりも優れており、ネパール語とシンハラ語の非常に低リソース言語に特に有益である。

We formulate and test a technique to use Emergent Communication (EC) with a pretrained multilingual model to improve on modern Unsupervised NMT systems, especially for low-resource languages. It has been argued that the currently dominant paradigm in NLP of pretraining on text-only corpora will not yield robust natural language understanding systems, and the need for grounded, goal-oriented, and interactive language learning has been highlighted. In our approach, we embed a modern multilingual model (mBART, Liu et. al. 2020) into an EC image-reference game, in which the model is incentivized to use multilingual generations to accomplish a vision-grounded task, with the hypothesis that this will align multiple languages to a shared task space. We present two variants of EC Fine-Tuning (Steinert-Threlkeld et. al. 2022), one of which outperforms a backtranslation-based baseline in 6/8 translation settings, and proves especially beneficial for the very low-resource languages of Nepali and Sinhala.
翻訳日:2022-07-15 12:59:56 公開日:2022-07-14
# 提案なしマスキングによる半教師付き時空間動作検出

Semi-Supervised Temporal Action Detection with Proposal-Free Masking ( http://arxiv.org/abs/2207.07059v1 )

ライセンス: Link先を確認
Sauradip Nag, Xiatian Zhu, Yi-Zhe Song and Tao Xiang(参考訳) 既存の時間的行動検出(TAD)手法は、セグメントレベルのアノテーションを持つ多数のトレーニングデータに依存している。 このようなトレーニングセットの収集と注釈付けは高価であり、スケールできない。 半教師付きTAD(SS-TAD)は、大規模に利用可能なラベルなしビデオを活用することでこの問題を軽減する。 しかし、ss-tadは監督されたtadよりも難しい問題であり、その結果、あまり研究されていない。 従来のSS-TADメソッドは、既存の提案ベースのTADメソッドとSSLメソッドを直接結合する。 シーケンシャルなローカライゼーション(例えば、提案生成)と分類設計のため、エラーの伝播を提案する傾向がある。 この制限を克服するために,提案フリーな時空間マスク(spot)に基づく半教師付き時空間動作検出モデルを提案し,並列局在化(mask生成)と分類アーキテクチャを提案する。 このような斬新な設計は, 経路を切断することで, 局所化と分類の依存性を効果的に排除する。 さらに,予測精度向上のための分類と局所化の相互作用機構と,自己教師付きモデル事前学習のための新しい前文課題について紹介する。 2つの標準ベンチマークでの大規模な実験は、SPOTが最先端の代替品よりも優れていることを示している。 SPOTのPyTorch実装はhttps://github.com/sauradip/SPOTで公開されている。

Existing temporal action detection (TAD) methods rely on a large number of training data with segment-level annotations. Collecting and annotating such a training set is thus highly expensive and unscalable. Semi-supervised TAD (SS-TAD) alleviates this problem by leveraging unlabeled videos freely available at scale. However, SS-TAD is also a much more challenging problem than supervised TAD, and consequently much under-studied. Prior SS-TAD methods directly combine an existing proposal-based TAD method and a SSL method. Due to their sequential localization (e.g, proposal generation) and classification design, they are prone to proposal error propagation. To overcome this limitation, in this work we propose a novel Semi-supervised Temporal action detection model based on PropOsal-free Temporal mask (SPOT) with a parallel localization (mask generation) and classification architecture. Such a novel design effectively eliminates the dependence between localization and classification by cutting off the route for error propagation in-between. We further introduce an interaction mechanism between classification and localization for prediction refinement, and a new pretext task for self-supervised model pre-training. Extensive experiments on two standard benchmarks show that our SPOT outperforms state-of-the-art alternatives, often by a large margin. The PyTorch implementation of SPOT is available at https://github.com/sauradip/SPOT
翻訳日:2022-07-15 12:36:46 公開日:2022-07-14
# 多くの音声モダリティに対する単一自己教師付きモデルによるゼロショットモダリティ伝達

A Single Self-Supervised Model for Many Speech Modalities Enables Zero-Shot Modality Transfer ( http://arxiv.org/abs/2207.07036v1 )

ライセンス: Link先を確認
Wei-Ning Hsu, Bowen Shi(参考訳) 音声視覚音声モデルは、音声のみのモデルよりも優れた性能とロバスト性が得られるが、ラベル付きおよびラベル付されていない音声視覚データの欠如と、モダリティ毎に1つのモデルをデプロイするコストによって、その開発と採用が妨げられる。 本稿では,マルチモーダル・ユニモーダル・スピーチの両面をマスク付きクラスタ予測目標で活用可能な,自己指導型事前学習フレームワークであるu-HuBERTを提案する。 事前学習中にモダリティ・ドロップアウトを利用することで,1つの微調整モデルが,最先端のモダリティ特化モデルよりも同等以上の性能が得られることを示す。 また,音声のみを微調整したモデルでは,音声入力と視覚入力が良好に動作し,音声認識や話者照合のためのゼロショットモダリティ一般化を実現する。 特に1.2%/1.4%/27.2%の音声認識単語誤り率を示す。

While audio-visual speech models can yield superior performance and robustness compared to audio-only models, their development and adoption are hindered by the lack of labeled and unlabeled audio-visual data and the cost to deploy one model per modality. In this paper, we present u-HuBERT, a self-supervised pre-training framework that can leverage both multimodal and unimodal speech with a unified masked cluster prediction objective. By utilizing modality dropout during pre-training, we demonstrate that a single fine-tuned model can achieve performance on par or better than the state-of-the-art modality-specific models. Moreover, our model fine-tuned only on audio can perform well with audio-visual and visual speech input, achieving zero-shot modality generalization for speech recognition and speaker verification. In particular, our single model yields 1.2%/1.4%/27.2% speech recognition word error rate on LRS3 with audio-visual/audio/visual input.
翻訳日:2022-07-15 12:36:01 公開日:2022-07-14
# 不均衡データセット処理のための非対称コントラスト損失

An Asymmetric Contrastive Loss for Handling Imbalanced Datasets ( http://arxiv.org/abs/2207.07080v1 )

ライセンス: Link先を確認
Valentino Vito and Lim Yohanes Stefanus(参考訳) コントラスト学習(con contrastive learning)は、サンプルを他の類似したサンプルと対比して、それらを密接に結合し、特徴空間にクラスタを形成する表現学習手法である。 学習プロセスは典型的には2段階のトレーニングアーキテクチャを用いて行われ、特徴学習には対照的な損失(CL)を用いる。 対照的な学習は、不均衡なデータセットを扱うことに非常に成功していることが示されている。 しかし、以前の研究では、不均衡なデータセットに対するCLを特に修正していない。 本研究では、クラス不均衡の問題を直接解決するために、ACLと呼ばれる非対称なCLを導入する。 さらに、ACLとFCLの両方のさらなる一般化として、非対称焦点コントラスト損失(AFCL)を提案する。 FMNISTとISIC 2018の不均衡データセットの結果、AFCLは重み付けと非重み付けの両方の分類精度でCLとFCLを上回っていることが示された。 虫垂では、エントロピーに関する完全な公理的な治療と完全な証明を提供する。

Contrastive learning is a representation learning method performed by contrasting a sample to other similar samples so that they are brought closely together, forming clusters in the feature space. The learning process is typically conducted using a two-stage training architecture, and it utilizes the contrastive loss (CL) for its feature learning. Contrastive learning has been shown to be quite successful in handling imbalanced datasets, in which some classes are overrepresented while some others are underrepresented. However, previous studies have not specifically modified CL for imbalanced datasets. In this work, we introduce an asymmetric version of CL, referred to as ACL, in order to directly address the problem of class imbalance. In addition, we propose the asymmetric focal contrastive loss (AFCL) as a further generalization of both ACL and focal contrastive loss (FCL). Results on the FMNIST and ISIC 2018 imbalanced datasets show that AFCL is capable of outperforming CL and FCL in terms of both weighted and unweighted classification accuracies. In the appendix, we provide a full axiomatic treatment on entropy, along with complete proofs.
翻訳日:2022-07-15 12:35:42 公開日:2022-07-14
# ヒューマン言語技術におけるバイアス評価の技術的障壁を克服するツール

A tool to overcome technical barriers for bias assessment in human language technologies ( http://arxiv.org/abs/2207.06591v1 )

ライセンス: Link先を確認
Laura Alonso Alemany, Luciana Benotti, Luc\'ia Gonz\'alez, Jorge S\'anchez, Beatriz Busaniche, Alexia Halvorsen, Mat\'ias Bordone(参考訳) 言語の自動処理は、私たちの生活で広く普及し、メッセージやメールの単語選択、読みの翻訳、会話の完全化など、意思決定において中心的な役割を担っています。 単語埋め込みは、現代の自然言語処理システムの主要なコンポーネントである。 それらは、多くのアプリケーションのパフォーマンスを高める言葉の表現を提供し、意味の接点として機能する。 単語埋め込みは原文からの単語の意味の類似を捉えているように見えるが、同時にステレオタイプや社会バイアスを蒸留し、最終的に最終的な応用へと伝達する。 このような偏見は差別的である。 これらのバイアスを検出して軽減し、自動化プロセスの差別的行動を防止することが非常に重要である。 現在、単語埋め込みのバイアスを検出し軽減するためのツールやテクニックは数多く存在するが、技術スキルを持たない人々の関与には多くの障壁がある。 バイアスの専門家の多くは、社会科学者でも、バイアスが有害な状況について深い知識を持っている人でも、そのようなスキルを持っておらず、技術的な障壁のためにバイアス検出のプロセスに携わることができない。 私たちは既存のツールの障壁を研究し、さまざまな種類のユーザでその可能性と限界を探求しました。 本研究では,これらの技術の監査を希望する専門家,科学者,一般市民の要求に対処するための,技術的障壁の低減と探索力の提供を目的としたツールの開発を提案する。

Automatic processing of language is becoming pervasive in our lives, often taking central roles in our decision making, like choosing the wording for our messages and mails, translating our readings, or even having full conversations with us. Word embeddings are a key component of modern natural language processing systems. They provide a representation of words that has boosted the performance of many applications, working as a semblance of meaning. Word embeddings seem to capture a semblance of the meaning of words from raw text, but, at the same time, they also distill stereotypes and societal biases which are subsequently relayed to the final applications. Such biases can be discriminatory. It is very important to detect and mitigate those biases, to prevent discriminatory behaviors of automated processes, which can be much more harmful than in the case of humans because their of their scale. There are currently many tools and techniques to detect and mitigate biases in word embeddings, but they present many barriers for the engagement of people without technical skills. As it happens, most of the experts in bias, either social scientists or people with deep knowledge of the context where bias is harmful, do not have such skills, and they cannot engage in the processes of bias detection because of the technical barriers. We have studied the barriers in existing tools and have explored their possibilities and limitations with different kinds of users. With this exploration, we propose to develop a tool that is specially aimed to lower the technical barriers and provide the exploration power to address the requirements of experts, scientists and people in general who are willing to audit these technologies.
翻訳日:2022-07-15 12:35:22 公開日:2022-07-14
# 可変自己回帰列モデルを用いたシーンテキスト認識

Scene Text Recognition with Permuted Autoregressive Sequence Models ( http://arxiv.org/abs/2207.06966v1 )

ライセンス: Link先を確認
Darwin Bautista, Rowel Atienza(参考訳) コンテキスト対応STRメソッドは通常、内部自己回帰言語モデル(LM)を使用する。 ARモデルの本質的な制限は、外部LMを使用する2段階の手法を動機づけた。 入力画像上の外部LMの条件付き独立性は、誤って正しい予測を正し、重大な非効率をもたらす可能性がある。 提案手法であるPARSeqは、置換言語モデリングを用いて、共有重み付き内部AR LMのアンサンブルを学習する。 コンテキストフリーな非ARとコンテキスト対応ARの推論を統一し、双方向コンテキストを用いた反復的改善を行う。 合成トレーニングデータを使用することで、PARSeqはSTRベンチマーク(91.9%の精度)とより困難なデータセットを達成している。 実データでトレーニングすると、新たなsota結果(96.0%精度)が確立される。 PARSeqは、単純で統一された構造と並列トークン処理のため、パラメータカウント、FLOPS、レイテンシーに対して最適である。 注意が広く使われているため、現実世界のイメージに共通する任意指向のテキストに頑健である。 コード、トレーニング済みのウェイト、データはhttps://github.com/baudm/parseq.com/で入手できる。

Context-aware STR methods typically use internal autoregressive (AR) language models (LM). Inherent limitations of AR models motivated two-stage methods which employ an external LM. The conditional independence of the external LM on the input image may cause it to erroneously rectify correct predictions, leading to significant inefficiencies. Our method, PARSeq, learns an ensemble of internal AR LMs with shared weights using Permutation Language Modeling. It unifies context-free non-AR and context-aware AR inference, and iterative refinement using bidirectional context. Using synthetic training data, PARSeq achieves state-of-the-art (SOTA) results in STR benchmarks (91.9% accuracy) and more challenging datasets. It establishes new SOTA results (96.0% accuracy) when trained on real data. PARSeq is optimal on accuracy vs parameter count, FLOPS, and latency because of its simple, unified structure and parallel token processing. Due to its extensive use of attention, it is robust on arbitrarily-oriented text which is common in real-world images. Code, pretrained weights, and data are available at: https://github.com/baudm/parseq.
翻訳日:2022-07-15 12:34:57 公開日:2022-07-14
# 時空間ドロップアウトトランスを用いたディープフェイク映像検出

Deepfake Video Detection with Spatiotemporal Dropout Transformer ( http://arxiv.org/abs/2207.06612v1 )

ライセンス: Link先を確認
Daichi Zhang, Fanzhao Lin, Yingying Hua, Pengju Wang, Dan Zeng, Shiming Ge(参考訳) ディープフェイク技術の悪用は近年深刻な懸念を招いているが、各フレームの高フォトリアリスティックな合成により、ディープフェイクビデオの検出方法が依然として課題となっている。 既存の画像レベルのアプローチは、しばしば単一のフレームに集中し、ディープフェイクビデオに隠された時空間的手がかりを無視する。 ビデオレベルの検出器の鍵は、ディープフェイクビデオで異なるフレームにまたがる局所的な顔領域に分布する時空間的不整合を完全に活用することである。 そこで,本稿では,時空間ドロップアウトトランスによるディープフェイク映像検出を容易にするパッチレベル手法を提案する。 このアプローチでは、各入力ビデオをパッチの袋に再編成し、視覚トランスフォーマーに供給することで堅牢な表現を実現している。 具体的には,パッチレベルの時空間的手がかりを十分に探究し,モデルのロバスト性と一般化能力をさらに高めるための効果的なデータ拡張を行う時空間的ドロップアウト操作を提案する。 操作は柔軟で、既存の視覚変換器に簡単に接続できる。 強靭性, 一般化性, 表現能力を有する25の最先端技術に対するアプローチの有効性を実証した。

While the abuse of deepfake technology has caused serious concerns recently, how to detect deepfake videos is still a challenge due to the high photo-realistic synthesis of each frame. Existing image-level approaches often focus on single frame and ignore the spatiotemporal cues hidden in deepfake videos, resulting in poor generalization and robustness. The key of a video-level detector is to fully exploit the spatiotemporal inconsistency distributed in local facial regions across different frames in deepfake videos. Inspired by that, this paper proposes a simple yet effective patch-level approach to facilitate deepfake video detection via spatiotemporal dropout transformer. The approach reorganizes each input video into bag of patches that is then fed into a vision transformer to achieve robust representation. Specifically, a spatiotemporal dropout operation is proposed to fully explore patch-level spatiotemporal cues and serve as effective data augmentation to further enhance model's robustness and generalization ability. The operation is flexible and can be easily plugged into existing vision transformers. Extensive experiments demonstrate the effectiveness of our approach against 25 state-of-the-arts with impressive robustness, generalizability, and representation ability.
翻訳日:2022-07-15 12:34:42 公開日:2022-07-14
# UAVリモートセンシング画像を用いた深層学習によるトウモロコシ畑の自発的綿花の検出

Detecting Volunteer Cotton Plants in a Corn Field with Deep Learning on UAV Remote-Sensing Imagery ( http://arxiv.org/abs/2207.06673v1 )

ライセンス: Link先を確認
Pappu Kumar Yadav, J. Alex Thomasson, Robert Hardin, Stephen W. Searcy, Ulisses Braga-Neto, Sorin C. Popescu, Daniel E. Martin, Roberto Rodriguez, Karem Meza, Juan Enciso, Jorge Solorzano Diaz, Tianyi Wang(参考訳) アメリカの綿花産業にとって深刻な害虫であり、1800年代後半にメキシコからアメリカ合衆国に入って以来、160億米ドル以上の損害を被った。 この害虫はほぼ根絶されているが、テキサス州南部は依然としてこの問題に直面しており、綿花が一年中栽培できる亜熱帯気候のため、毎年害虫の復活に近づいている。 トウモロコシのような季節間作物の畑で生育するボランティアコットン(vc)植物は、ピンヘッドスクエアステージ(5-6リーフステージ)に達するとこれらの害虫の宿主として機能するので、検出、配置、破壊、散布する必要がある。 本稿では,無人航空機システム (uas) が収集した3つのバンド空中画像から,yolov3を用いてトウモロコシ畑のvcプラントを検出する。 本論文の目的は次のとおりである。 (i)UASが収集したRGB(赤、緑、青)空中画像を用いてトウモロコシ畑のVC検出にYOLOv3を使用できるかどうかを判定する。 (i)平均精度(AP)、平均精度(mAP)、F1スコア(95%信頼度)に基づく3種類の画像(320 x 320, S1, 416 x 416, S2, 512 x 512, S3ピクセル)におけるYOLOv3の挙動を調べた。 3つのスケールでmAPに有意差はなかったが、APではS1とS3(p = 0.04)とS2とS3(p = 0.02)の間に有意な差が認められた。 s2 と s3 の f1-score にも有意差が認められた(p = 0.02)。 3つのスケールでmAPに大きな違いがないことは、トレーニングされたYOLOv3モデルが、VC検出およびスプレーアプリケーションをほぼリアルタイムに、コンピュータビジョンベースの遠隔操縦型航空アプリケーションシステム(RPAAS)で使用できることを示している。

The cotton boll weevil, Anthonomus grandis Boheman is a serious pest to the U.S. cotton industry that has cost more than 16 billion USD in damages since it entered the United States from Mexico in the late 1800s. This pest has been nearly eradicated; however, southern part of Texas still faces this issue and is always prone to the pest reinfestation each year due to its sub-tropical climate where cotton plants can grow year-round. Volunteer cotton (VC) plants growing in the fields of inter-seasonal crops, like corn, can serve as hosts to these pests once they reach pin-head square stage (5-6 leaf stage) and therefore need to be detected, located, and destroyed or sprayed . In this paper, we present a study to detect VC plants in a corn field using YOLOv3 on three band aerial images collected by unmanned aircraft system (UAS). The two-fold objectives of this paper were : (i) to determine whether YOLOv3 can be used for VC detection in a corn field using RGB (red, green, and blue) aerial images collected by UAS and (ii) to investigate the behavior of YOLOv3 on images at three different scales (320 x 320, S1; 416 x 416, S2; and 512 x 512, S3 pixels) based on average precision (AP), mean average precision (mAP) and F1-score at 95% confidence level. No significant differences existed for mAP among the three scales, while a significant difference was found for AP between S1 and S3 (p = 0.04) and S2 and S3 (p = 0.02). A significant difference was also found for F1-score between S2 and S3 (p = 0.02). The lack of significant differences of mAP at all the three scales indicated that the trained YOLOv3 model can be used on a computer vision-based remotely piloted aerial application system (RPAAS) for VC detection and spray application in near real-time.
翻訳日:2022-07-15 12:33:11 公開日:2022-07-14
# 単眼的ポーズ推定に対する敵意攻撃

Adversarial Attacks on Monocular Pose Estimation ( http://arxiv.org/abs/2207.07032v1 )

ライセンス: Link先を確認
Hemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz(参考訳) ディープラーニングの進歩はコンピュータビジョンの着実に進歩し、オブジェクト検出やセマンティックセグメンテーションといったタスクの精度が向上した。 それでもディープニューラルネットワークは、敵の攻撃に対して脆弱であり、信頼性の高いデプロイメントにおいて課題となる。 ロボット工学と高度な運転支援システムの3dシーン理解における2つの顕著なタスクは、単眼深度とポーズ推定であり、しばしば教師なしの方法で一緒に学習される。 対人攻撃が単眼深度推定に与える影響を評価する研究は存在するが、対人摂動の体系的な実証と分析は欠如している。 加法的な摂動は, 軌道ドリフトを増大させるために予測を変化させるだけでなく, 破滅的にその形状を変化させる。 また,単眼深度を対象とする対向摂動とポーズ推定ネットワークの関係や,異なるアーキテクチャと損失を持つ他のネットワークへの摂動の伝達可能性についても検討した。 実験により, 発生した摂動が相対回転および翻訳予測において顕著な誤差を生じ, ネットワークの脆弱性を解明した。

Advances in deep learning have resulted in steady progress in computer vision with improved accuracy on tasks such as object detection and semantic segmentation. Nevertheless, deep neural networks are vulnerable to adversarial attacks, thus presenting a challenge in reliable deployment. Two of the prominent tasks in 3D scene-understanding for robotics and advanced drive assistance systems are monocular depth and pose estimation, often learned together in an unsupervised manner. While studies evaluating the impact of adversarial attacks on monocular depth estimation exist, a systematic demonstration and analysis of adversarial perturbations against pose estimation are lacking. We show how additive imperceptible perturbations can not only change predictions to increase the trajectory drift but also catastrophically alter its geometry. We also study the relation between adversarial perturbations targeting monocular depth and pose estimation networks, as well as the transferability of perturbations to other networks with different architectures and losses. Our experiments show how the generated perturbations lead to notable errors in relative rotation and translation predictions and elucidate vulnerabilities of the networks.
翻訳日:2022-07-15 12:32:32 公開日:2022-07-14
# マルチモーダル空間整流器による自己中心的情景理解

Egocentric Scene Understanding via Multimodal Spatial Rectifier ( http://arxiv.org/abs/2207.07077v1 )

ライセンス: Link先を確認
Tien Do, Khiem Vuong, Hyun Soo Park(参考訳) 本稿では,エゴセントリックなシーン理解の問題,すなわち,エゴセントリックなイメージから深度や表面の正常さを予測することを検討する。 自我中心的情景理解は前例のない課題である:(1)大きな頭部の動きのために、既存の幾何学的予測が適用されないノンカノニカルな視点(すなわち傾き画像)から画像を取り出す;(2)手を含む動的前景は視覚シーンの多さを構成する。 これらの課題は、静的シーンのアップライトイメージで構成されるScanNetやNYUv2といった大規模な屋内データセットから学んだ既存のモデルのパフォーマンスを制限する。 本稿では,エゴセントリック画像を参照方向の集合に安定化させ,コヒーレントな視覚表現を学習する多モード空間整形器を提案する。 自己中心像に対して過大な遠近感を与えるユニモーダル空間整流器とは異なり、マルチモーダル空間整流器は視点整流器の影響を最小化する複数の方向から学習する。 ダイナミックフォアグラウンドオブジェクトの視覚的表現を学ぶために,500k以上の同期rgbdフレームと重力方向からなるedina(egocentric depth on everyday indoor activities)と呼ばれる新しいデータセットを提案する。 マルチモーダル空間整形器とEDINAデータセットを併用した単視点深度と表面正規度推定法は,EDINAデータセットだけでなく,FPHAやEPIC-KITCHENSなどの一般的なエゴセントリックデータセットよりも有意に優れていた。

In this paper, we study a problem of egocentric scene understanding, i.e., predicting depths and surface normals from an egocentric image. Egocentric scene understanding poses unprecedented challenges: (1) due to large head movements, the images are taken from non-canonical viewpoints (i.e., tilted images) where existing models of geometry prediction do not apply; (2) dynamic foreground objects including hands constitute a large proportion of visual scenes. These challenges limit the performance of the existing models learned from large indoor datasets, such as ScanNet and NYUv2, which comprise predominantly upright images of static scenes. We present a multimodal spatial rectifier that stabilizes the egocentric images to a set of reference directions, which allows learning a coherent visual representation. Unlike unimodal spatial rectifier that often produces excessive perspective warp for egocentric images, the multimodal spatial rectifier learns from multiple directions that can minimize the impact of the perspective warp. To learn visual representations of the dynamic foreground objects, we present a new dataset called EDINA (Egocentric Depth on everyday INdoor Activities) that comprises more than 500K synchronized RGBD frames and gravity directions. Equipped with the multimodal spatial rectifier and the EDINA dataset, our proposed method on single-view depth and surface normal estimation significantly outperforms the baselines not only on our EDINA dataset, but also on other popular egocentric datasets, such as First Person Hand Action (FPHA) and EPIC-KITCHENS.
翻訳日:2022-07-15 12:32:14 公開日:2022-07-14
# 深部物体解析によるファインショット認識

Fine-grained Few-shot Recognition by Deep Object Parsing ( http://arxiv.org/abs/2207.07110v1 )

ライセンス: Link先を確認
Pengkai Zhu, Ruizhao Zhu, Samarth Mishra, Venkatesh Saligrama(参考訳) 私たちのフレームワークでは、オブジェクトはK個の異なる部分またはユニットで構成されており、K個のパーツを推論することでテストインスタンスを解析します。 我々は,そのアクティブテンプレートと,その部分位置の相対幾何学を,提示された数ショットのインスタンスと比較することにより,テストインスタンスを認識する。 畳み込みバックボーンの上部にある部分テンプレートを学習するためのエンドツーエンドトレーニング手法を提案する。 オリエンテーション、ポーズ、サイズといった視覚的な歪みと戦うために、マルチスケールテンプレートを学び、テスト時にインスタンスを解析してマッチさせます。 本手法は最先端技術と競合し,解析によって解釈可能性も向上することを示す。

In our framework, an object is made up of K distinct parts or units, and we parse a test instance by inferring the K parts, where each part occupies a distinct location in the feature space, and the instance features at this location, manifest as an active subset of part templates shared across all instances. We recognize test instances by comparing its active templates and the relative geometry of its part locations against those of the presented few-shot instances. We propose an end-to-end training method to learn part templates on-top of a convolutional backbone. To combat visual distortions such as orientation, pose and size, we learn multi-scale templates, and at test-time parse and match instances across these scales. We show that our method is competitive with the state-of-the-art, and by virtue of parsing enjoys interpretability as well.
翻訳日:2022-07-15 12:31:40 公開日:2022-07-14
# リカレントメモリ変換器

Recurrent Memory Transformer ( http://arxiv.org/abs/2207.06881v1 )

ライセンス: Link先を確認
Aydar Bulatov, Yuri Kuratov and Mikhail S. Burtsev(参考訳) トランスフォーマーベースのモデルは、複数のドメインやタスクで有効性を示す。 セルフアテンションにより、すべてのシーケンス要素からの情報をコンテキスト認識表現に結合することができる。 しかし、大域的および局所的な情報は、主に同じ要素単位の表現に格納する必要がある。 さらに、入力列の長さは自己アテンションの二次計算複雑性によって制限される。 本研究では,メモリ拡張セグメントレベルリカレントトランス(Recurrent Memory Transformer)を提案する。 メモリは、ローカルおよびグローバル情報を保存および処理し、繰り返しの助けを借りて長いシーケンスのセグメント間で情報を渡すことができる。 入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変化のないメモリ機構を実装します。 その後、transformerはメモリ操作とシーケンス表現処理の両方を制御するように訓練される。 実験の結果、より小さなメモリサイズの言語モデリングではtransformer-xlと同等の性能を示し、長いシーケンス処理を必要とするタスクではそれよりも優れていた。 Tr-XLにメモリトークンを追加することで、パフォーマンスが向上することを示す。 これにより、リカレントメモリトランスフォーマーは、長期依存の学習とアルゴリズムタスクや推論のようなメモリ処理の汎用目的を必要とするアプリケーションにとって、有望なアーキテクチャとなる。

Transformer-based models show their effectiveness across multiple domains and tasks. The self-attention allows to combine information from all sequence elements into context-aware representations. However, global and local information has to be stored mostly in the same element-wise representations. Moreover, the length of an input sequence is limited by quadratic computational complexity of self-attention. In this work, we propose and study a memory-augmented segment-level recurrent Transformer (Recurrent Memory Transformer). Memory allows to store and process local and global information as well as to pass information between segments of the long sequence with the help of recurrence. We implement a memory mechanism with no changes to Transformer model by adding special memory tokens to the input or output sequence. Then Transformer is trained to control both memory operations and sequence representations processing. Results of experiments show that our model performs on par with the Transformer-XL on language modeling for smaller memory sizes and outperforms it for tasks that require longer sequence processing. We show that adding memory tokens to Tr-XL is able to improve it performance. This makes Recurrent Memory Transformer a promising architecture for applications that require learning of long-term dependencies and general purpose in memory processing, such as algorithmic tasks and reasoning.
翻訳日:2022-07-15 12:31:27 公開日:2022-07-14
# 自信を持った適応言語モデリング

Confident Adaptive Language Modeling ( http://arxiv.org/abs/2207.07061v1 )

ライセンス: Link先を確認
Tal Schuster, Adam Fisch, Jai Gupta, Mostafa Dehghani, Dara Bahri, Vinh Q. Tran, Yi Tay, Donald Metzler(参考訳) Transformerベースの大規模言語モデル(LLM)の最近の進歩は、多くのタスクで大幅なパフォーマンス向上をもたらした。 これらの利益は、モデルのサイズが劇的に増加し、推論時に遅くてコストがかかる可能性がある。 しかし実際には、LSMの一連の世代は様々な難易度から構成されている。 ある予測はモデルの全容量から真に恩恵を受けるが、他の連続はより自明であり、計算を減らして解ける。 本研究では,入力と生成の時間ステップ毎に異なる計算量を動的に割り当てるフレームワークであるcalm(slanced adaptive language modeling)を提案する。 早期の出口復号には,(1)どの信頼度対策を使用するか,(2)シーケンスレベルの制約を局所的な出口決定に結びつける,(3)以前のトークンの早期出口による隠れた表現の欠如に復帰する,など,いくつかの課題がある。 3つの多様なテキスト生成タスクに関する理論的分析と経験的実験を通じて、計算速度を最大$\times 3$まで削減し、高いパフォーマンスを維持するためのフレームワークの有効性を実証した。

Recent advances in Transformer-based large language models (LLMs) have led to significant performance improvements across many tasks. These gains come with a drastic increase in the models' size, potentially leading to slow and costly use at inference time. In practice, however, the series of generations made by LLMs is composed of varying levels of difficulty. While certain predictions truly benefit from the models' full capacity, other continuations are more trivial and can be solved with reduced compute. In this work, we introduce Confident Adaptive Language Modeling (CALM), a framework for dynamically allocating different amounts of compute per input and generation timestep. Early exit decoding involves several challenges that we address here, such as: (1) what confidence measure to use; (2) connecting sequence-level constraints to local per-token exit decisions; and (3) attending back to missing hidden representations due to early exits in previous tokens. Through theoretical analysis and empirical experiments on three diverse text generation tasks, we demonstrate the efficacy of our framework in reducing compute -- potential speedup of up to $\times 3$ -- while provably maintaining high performance.
翻訳日:2022-07-15 12:31:07 公開日:2022-07-14
# (参考訳) ツリーフォーマーによる木の形成

Forming Trees with Treeformers ( http://arxiv.org/abs/2207.06960v1 )

ライセンス: CC BY 4.0
Nilay Patel and Jeffrey Flanigan(参考訳) トランスフォーマーやlstmのような一般的なモデルはトークンを情報単位として使用する。 すなわち、各トークンはベクトル表現に符号化され、それらのベクトルは直接計算に使用される。 しかし、人間はしばしば構成要素のトークンではなくトークンのスパン(つまりフレーズ)を考える。 本稿では、CKYアルゴリズムとTransformerにインスパイアされたアーキテクチャであるTreeformerを紹介し、合成演算子とプール関数を学習し、句や文の階層的エンコーディングを構築する。 本研究では, 機械翻訳, 抽象要約, 各種自然言語理解タスクにおいて, 階層構造をトランスフォーマーに組み込むことの利点を実証し, ベースライントランスフォーマーに比べ, 大幅な改善を示した。

Popular models such as Transformers and LSTMs use tokens as its unit of information. That is, each token is encoded into a vector representation, and those vectors are used directly in a computation. However, humans frequently consider spans of tokens (i.e., phrases) instead of their constituent tokens. In this paper we introduce Treeformer, an architecture inspired by the CKY algorithm and Transformer which learns a composition operator and pooling function in order to construct hierarchical encodings for phrases and sentences. Our extensive experiments demonstrate the benefits of incorporating a hierarchical structure into the Transformer, and show significant improvements compared to a baseline Transformer in machine translation, abstractive summarization, and various natural language understanding tasks.
翻訳日:2022-07-15 12:29:48 公開日:2022-07-14
# (参考訳) Pixelによる言語モデリング

Language Modelling with Pixels ( http://arxiv.org/abs/2207.06991v1 )

ライセンス: CC BY 4.0
Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott(参考訳) 言語モデルは入力の有限セット上で定義され、サポート対象言語の数を拡大しようとすると語彙的ボトルネックが生じる。 このボトルネックに取り組むと、埋め込み行列で表現できるものと出力層での計算問題との間にトレードオフが生じる。 本稿では,画素ベースの言語エンコーダであるpixelについて述べる。 PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、正書法的な類似性やピクセルの共活性化に基づく言語間の表現の転送を可能にする。 PIXELはトークン上の分布を予測するのではなく、マスクされたパッチのピクセルを再構築するように訓練されている。 我々は、BERTと同じ英語データに基づいて86MパラメータPIXELモデルを事前学習し、様々な非ラテン文字を含む様々な言語で構文的および意味的タスクを評価する。 PIXELは、事前学習データには見つからないスクリプトの構文および意味処理タスクにおいてBERTを大幅に上回るが、ラテン文字で作業する場合、PIXELはBERTよりもわずかに弱い。 さらに、PIXELはBERTよりもノイズの多いテキスト入力に対して堅牢であり、ピクセルによる言語モデリングの利点をさらに確認する。

Language models are defined over a finite set of inputs, which creates a vocabulary bottleneck when we attempt to scale the number of supported languages. Tackling this bottleneck results in a trade-off between what can be represented in the embedding matrix and computational issues in the output layer. This paper introduces PIXEL, the Pixel-based Encoder of Language, which suffers from neither of these issues. PIXEL is a pretrained language model that renders text as images, making it possible to transfer representations across languages based on orthographic similarity or the co-activation of pixels. PIXEL is trained to reconstruct the pixels of masked patches, instead of predicting a distribution over tokens. We pretrain the 86M parameter PIXEL model on the same English data as BERT and evaluate on syntactic and semantic tasks in typologically diverse languages, including various non-Latin scripts. We find that PIXEL substantially outperforms BERT on syntactic and semantic processing tasks on scripts that are not found in the pretraining data, but PIXEL is slightly weaker than BERT when working with Latin scripts. Furthermore, we find that PIXEL is more robust to noisy text inputs than BERT, further confirming the benefits of modelling language with pixels.
翻訳日:2022-07-15 12:16:24 公開日:2022-07-14
# 良性、気質、または壊滅性:過剰適合の分類

Benign, Tempered, or Catastrophic: A Taxonomy of Overfitting ( http://arxiv.org/abs/2207.06569v1 )

ライセンス: Link先を確認
Neil Mallinar, James B. Simon, Amirhesam Abedsoltan, Parthe Pandit, Mikhail Belkin, Preetum Nakkiran(参考訳) 過パラメータニューラルネットワークの実用的成功は、そのトレーニングデータに完全に適合する補間法に関する最近の科学的研究の動機となっている。 ニューラルネットワークを含むある種の補間法は、統計的学習理論からの標準的な直観に反し、破滅的に悪いテスト性能を伴わずにノイズの多いトレーニングデータを適合させることができる。 これを説明するために、最近の研究の成果である$\textit{benign overfitting}$が研究されている。 この研究では、良性過剰フィッティングは指導的で実りあるが、ニューラルネットワークのような多くの実際の補間手法は、$\textit{do not fit benignly}$: トレーニングセットの控えめなノイズはテスト時に非ゼロ(しかし無限ではない)の過剰なリスクを引き起こし、これらのモデルが良性でも破滅的でもむしろ中間的な体制に落ちることを暗示している。 我々はこの中間体制を $\textit{tempered overfitting}$ と呼び、その体系的研究を開始する。 我々はまず、この現象をカーネル(リッジ)回帰(KR)の文脈で探求し、3つの挙動のそれぞれを示すリッジパラメータとカーネル固有スペクトルの条件を求める。 LaplaceカーネルやReLUニューラルタンジェントカーネルを含むパワーロースペクトルを持つカーネルは、過度なオーバーフィットを示す。 そして、我々の分類学のレンズを通してディープニューラルネットワークを経験的に研究し、補間訓練を受けた人は誘惑され、早期に停止した人は良心的であることがわかった。 私たちの仕事が、現代学習の過剰性に対するより洗練された理解につながることを願っています。

The practical success of overparameterized neural networks has motivated the recent scientific study of interpolating methods, which perfectly fit their training data. Certain interpolating methods, including neural networks, can fit noisy training data without catastrophically bad test performance, in defiance of standard intuitions from statistical learning theory. Aiming to explain this, a body of recent work has studied $\textit{benign overfitting}$, a phenomenon where some interpolating methods approach Bayes optimality, even in the presence of noise. In this work we argue that while benign overfitting has been instructive and fruitful to study, many real interpolating methods like neural networks $\textit{do not fit benignly}$: modest noise in the training set causes nonzero (but non-infinite) excess risk at test time, implying these models are neither benign nor catastrophic but rather fall in an intermediate regime. We call this intermediate regime $\textit{tempered overfitting}$, and we initiate its systematic study. We first explore this phenomenon in the context of kernel (ridge) regression (KR) by obtaining conditions on the ridge parameter and kernel eigenspectrum under which KR exhibits each of the three behaviors. We find that kernels with powerlaw spectra, including Laplace kernels and ReLU neural tangent kernels, exhibit tempered overfitting. We then empirically study deep neural networks through the lens of our taxonomy, and find that those trained to interpolation are tempered, while those stopped early are benign. We hope our work leads to a more refined understanding of overfitting in modern learning.
翻訳日:2022-07-15 12:14:50 公開日:2022-07-14
# グラフニューラルネットワークを用いたサブグラフ周波数分布推定

Subgraph Frequency Distribution Estimation using Graph Neural Networks ( http://arxiv.org/abs/2207.06684v1 )

ライセンス: Link先を確認
Zhongren Chen, Xinyue Xu, Shengyi Jiang, Hao Wang and Lu Mi(参考訳) 小さなサブグラフ(グラフレット)は、大きなネットワークの基本単位を記述する上で重要な特徴である。 サブグラフ周波数分布の計算は生物学や工学を含む複数の領域で広く応用されている。 残念ながら、このタスクの本質的な複雑さのため、既存のメソッドのほとんどは計算集約的で非効率です。 本稿では,グラフニューラルネットワークを用いてサブグラフを効率的にサンプリングし,周波数分布を推定する新しい表現学習フレームワークgnnを提案する。 我々のフレームワークは、ノード、サブグラフ、グラフの階層的な埋め込みを学習する推論モデルと生成モデルを含む。 学習されたモデルと埋め込みにより、サブグラフは高度にスケーラブルで並列にサンプリングされ、それらのサンプルされたサブグラフに基づいて周波数分布推定が行われる。 最終的に,本手法は既存の手法に比べて3桁の精度と大幅な高速化を実現している。

Small subgraphs (graphlets) are important features to describe fundamental units of a large network. The calculation of the subgraph frequency distributions has a wide application in multiple domains including biology and engineering. Unfortunately due to the inherent complexity of this task, most of the existing methods are computationally intensive and inefficient. In this work, we propose GNNS, a novel representational learning framework that utilizes graph neural networks to sample subgraphs efficiently for estimating their frequency distribution. Our framework includes an inference model and a generative model that learns hierarchical embeddings of nodes, subgraphs, and graph types. With the learned model and embeddings, subgraphs are sampled in a highly scalable and parallel way and the frequency distribution estimation is then performed based on these sampled subgraphs. Eventually, our methods achieve comparable accuracy and a significant speedup by three orders of magnitude compared to existing methods.
翻訳日:2022-07-15 12:14:20 公開日:2022-07-14
# 推論に人間のようなコンテンツ効果を示す言語モデル

Language models show human-like content effects on reasoning ( http://arxiv.org/abs/2207.07051v1 )

ライセンス: Link先を確認
Ishita Dasgupta, Andrew K. Lampinen, Stephanie C. Y. Chan, Antonia Creswell, Dharshan Kumaran, James L. McClelland, Felix Hill(参考訳) 抽象推論はインテリジェントシステムにとって重要な能力である。 大規模言語モデルは抽象推論タスクで上述の処理性能を達成するが、多くの不完全性を示す。 しかし、人間の抽象的推論もまた不完全であり、推論問題の内容に関する知識や信念に依存している。 例えば、人間は抽象的な属性に関する任意の規則よりも、日常の状況に根ざした論理的な規則についてより確実に推論する。 言語モデルのトレーニング体験も同様に、人間の知識と信念を反映した事前の期待を彼らに与えている。 したがって、言語モデルが抽象的推論問題に人間のようなコンテンツ効果をもたらすと仮定した。 この仮説を3つの論理推論タスク(自然言語推論、syllogismの論理的妥当性の判断、wason selection task(wason, 1968))にまたがって検討した。 アートの大規模言語モデル(70億から70億のパラメータを持つHoffman氏、2022年)の状況は、人間のように、人間のように、非現実的で抽象的なものよりも、より効果的に、信じられる状況について推論する。 本研究は,これらの認知的効果と言語モデルの性能に寄与する要因の両方を理解することにつながる。

Abstract reasoning is a key ability for an intelligent system. Large language models achieve above-chance performance on abstract reasoning tasks, but exhibit many imperfections. However, human abstract reasoning is also imperfect, and depends on our knowledge and beliefs about the content of the reasoning problem. For example, humans reason much more reliably about logical rules that are grounded in everyday situations than arbitrary rules about abstract attributes. The training experiences of language models similarly endow them with prior expectations that reflect human knowledge and beliefs. We therefore hypothesized that language models would show human-like content effects on abstract reasoning problems. We explored this hypothesis across three logical reasoning tasks: natural language inference, judging the logical validity of syllogisms, and the Wason selection task (Wason, 1968). We find that state of the art large language models (with 7 or 70 billion parameters; Hoffman et al., 2022) reflect many of the same patterns observed in humans across these tasks -- like humans, models reason more effectively about believable situations than unrealistic or abstract ones. Our findings have implications for understanding both these cognitive effects, and the factors that contribute to language model performance.
翻訳日:2022-07-15 12:14:08 公開日:2022-07-14
# グローバルセグメンテーションマスク学習による時間的行動検出

Temporal Action Detection with Global Segmentation Mask Learning ( http://arxiv.org/abs/2207.06580v1 )

ライセンス: Link先を確認
Sauradip Nag, Xiatian Zhu, Yi-Zhe Song and Tao Xiang(参考訳) 既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。 これにより、提案生成および/またはプロポーザル毎のアクションインスタンス評価と結果の高い計算コストによる複雑なモデル設計が導かれる。 本研究では,グローバルセグメンテーションマスク(TAGS)を用いた提案のない時間行動検出モデルを提案する。 当社の中核となるアイデアは、各アクションインスタンスのグローバルセグメンテーションマスクを、全ビデオ長さで共同学習することです。 タグモデルは,提案しない動作インスタンスの局所開始点と終了点を直接検出するために,グローバル時間表現学習に着目した従来の提案手法とは大きく異なる。 さらに、TAGSは個々の提案レベルでローカルではなく、直感的にTADをモデル化することで、計算コストの低いよりシンプルなモデルアーキテクチャを必要とする。 大規模な実験により、TAGSはよりシンプルな設計にもかかわらず、既存のTAD法よりも優れており、2つのベンチマークで新しい最先端性能を実現していることが示された。 重要なのは、トレーニングが約20倍、推論が約1.6倍高速であることです。 TAGSのPyTorch実装はhttps://github.com/sauradip/TAGSで公開しています。

Existing temporal action detection (TAD) methods rely on generating an overwhelmingly large number of proposals per video. This leads to complex model designs due to proposal generation and/or per-proposal action instance evaluation and the resultant high computational cost. In this work, for the first time, we propose a proposal-free Temporal Action detection model with Global Segmentation mask (TAGS). Our core idea is to learn a global segmentation mask of each action instance jointly at the full video length. The TAGS model differs significantly from the conventional proposal-based methods by focusing on global temporal representation learning to directly detect local start and end points of action instances without proposals. Further, by modeling TAD holistically rather than locally at the individual proposal level, TAGS needs a much simpler model architecture with lower computational cost. Extensive experiments show that despite its simpler design, TAGS outperforms existing TAD methods, achieving new state-of-the-art performance on two benchmarks. Importantly, it is ~ 20x faster to train and ~1.6x more efficient for inference. Our PyTorch implementation of TAGS is available at https://github.com/sauradip/TAGS .
翻訳日:2022-07-15 12:13:31 公開日:2022-07-14
# (参考訳) 主観的緩和による組合せ最適化のための教師なし学習

Unsupervised Learning for Combinatorial Optimization with Principled Objective Relaxation ( http://arxiv.org/abs/2207.05984v2 )

ライセンス: CC BY 4.0
Haoyu Wang, Nan Wu, Hang Yang, Cong Hao, Pan Li(参考訳) 組合せ最適化(co)問題を解決するために機械学習を使うことは、特にデータがラベルされていない場合、難しい。 本研究は,CO問題に対する教師なし学習フレームワークを提案する。 私たちのフレームワークは、標準的な緩和プラスラウンドアプローチに従っており、緩和されたソリューションをパラメータ化するためにニューラルネットワークを採用しています。 我々の重要な貢献は、緩和された目的がエントリーワイドな凹凸を満たすならば、低い最適化損失は最終積分解の品質を保証するという観察である。 この観察は、erdosの確率的手法に触発された以前のフレームワークの適用可能性を大きく広げる。 特に、この観察は、事前にモデル化する必要がある間、目的が明示的に与えられていないアプリケーションにおける客観的モデルの設計を導くことができる。 我々は,回路設計における資源配分と近似計算を含む2つの実世界の応用を,合成グラフ最適化問題の解法により評価する。 我々のフレームワークは,na\"{i}ve緩和,強化学習,Gumbel-softmaxトリックに基づくベースラインよりも優れています。

Using machine learning to solve combinatorial optimization (CO) problems is challenging, especially when the data is unlabeled. This work proposes an unsupervised learning framework for CO problems. Our framework follows a standard relaxation-plus-rounding approach and adopts neural networks to parameterize the relaxed solutions so that simple back-propagation can train the model end-to-end. Our key contribution is the observation that if the relaxed objective satisfies entry-wise concavity, a low optimization loss guarantees the quality of the final integral solutions. This observation significantly broadens the applicability of the previous framework inspired by Erdos' probabilistic method. In particular, this observation can guide the design of objective models in applications where the objectives are not given explicitly while requiring being modeled in prior. We evaluate our framework by solving a synthetic graph optimization problem, and two real-world applications including resource allocation in circuit design and approximate computing. Our framework largely outperforms the baselines based on na\"{i}ve relaxation, reinforcement learning, and Gumbel-softmax tricks.
翻訳日:2022-07-15 12:11:16 公開日:2022-07-14
# (参考訳) Brick Tic-Tac-Toe:AlphaZeroの新たな試験環境への一般化可能性を探る

Brick Tic-Tac-Toe: Exploring the Generalizability of AlphaZero to Novel Test Environments ( http://arxiv.org/abs/2207.05991v2 )

ライセンス: CC BY 4.0
John Tan Chong Min, Mehul Motani(参考訳) 従来の強化学習(RL)環境は通常、トレーニングとテストの両方のフェーズで同じです。 したがって、現在のRL法は、概念的には似ているが、その方法が訓練されたものとは異なっているテスト環境に対して、ほとんど一般化できない。 新たなテスト環境に一般化できるアルゴリズムに向けてRL研究を推し進めるため,テスト環境におけるレンガの位置がトレーニング環境と異なるBrick Tic-Tac-Toe(BTTT)テストベッドを紹介した。 bttt環境でのラウンドロビントーナメントを用いて、モンテカルロ木探索(mcts)やミニマックスのような伝統的なrl状態探索アプローチがalphazeroよりも新しいテスト環境に一般化可能であることを示す。 alphazeroは、go、チェス、shogiなどの環境で超人的なパフォーマンスを実現することが示されており、新しいテスト環境ではうまく機能すると考えることができるため、これは驚くべきことです。 以上の結果から,BTTTは単純ではあるがAlphaZeroの一般化可能性を探るには十分であることがわかった。 MCTSのルックアヘッドイテレーションの増加はAlphaZeroが新しいテスト環境に一般化するには不十分であることがわかった。 むしろ、さまざまなトレーニング環境の増加は、可能なすべての起動ブロック構成の一般化性を徐々に改善するのに役立つ。

Traditional reinforcement learning (RL) environments typically are the same for both the training and testing phases. Hence, current RL methods are largely not generalizable to a test environment which is conceptually similar but different from what the method has been trained on, which we term the novel test environment. As an effort to push RL research towards algorithms which can generalize to novel test environments, we introduce the Brick Tic-Tac-Toe (BTTT) test bed, where the brick position in the test environment is different from that in the training environment. Using a round-robin tournament on the BTTT environment, we show that traditional RL state-search approaches such as Monte Carlo Tree Search (MCTS) and Minimax are more generalizable to novel test environments than AlphaZero is. This is surprising because AlphaZero has been shown to achieve superhuman performance in environments such as Go, Chess and Shogi, which may lead one to think that it performs well in novel test environments. Our results show that BTTT, though simple, is rich enough to explore the generalizability of AlphaZero. We find that merely increasing MCTS lookahead iterations was insufficient for AlphaZero to generalize to some novel test environments. Rather, increasing the variety of training environments helps to progressively improve generalizability across all possible starting brick configurations.
翻訳日:2022-07-15 11:29:13 公開日:2022-07-14
# (参考訳) 入出力変圧器による参加者行動の推測と予測

Entry-Flipped Transformer for Inference and Prediction of Participant Behavior ( http://arxiv.org/abs/2207.06235v2 )

ライセンス: CC BY 4.0
Bo Hu and Tat-Jen Cham(参考訳) チームスポーツや振付ダンスなどのグループ活動には、参加者間の密接な相互作用が含まれる。 本稿では,このような条件下での動作経路や行動の観点から,参加者の行動の推測と予測のタスクについて検討する。 対象参加者が他の参加者の行動にどう反応するかを推定する方法に問題を絞り込む。 我々のキーとなる考え方は、フレームワイド推論と予測においてエラー蓄積に頑健な方法で参加者間の時空間関係をモデル化することである。 本研究では,空間領域と時間領域の両方において,注意機構によって参加者の関係をモデル化する新しいエントリーフライプトランス(ef-transformer)を提案する。 典型的な変圧器とは違って,クエリ,キー,値入力の順序を反転させることで,現在のフレームにおける観測特徴の重要性と忠実度を高めることで,誤り蓄積の問題に取り組む。 比較実験の結果,ef-transformerは,新たに収集したテニスダブルスデータセット,ceilidhダンスデータセット,歩行者データセットにおいて,最高のパフォーマンスを達成できた。 さらに, EF-Transformerは, 蓄積したエラーを抑え, 誤推定から回復するのに優れていることを示す。

Some group activities, such as team sports and choreographed dances, involve closely coupled interaction between participants. Here we investigate the tasks of inferring and predicting participant behavior, in terms of motion paths and actions, under such conditions. We narrow the problem to that of estimating how a set target participants react to the behavior of other observed participants. Our key idea is to model the spatio-temporal relations among participants in a manner that is robust to error accumulation during frame-wise inference and prediction. We propose a novel Entry-Flipped Transformer (EF-Transformer), which models the relations of participants by attention mechanisms on both spatial and temporal domains. Unlike typical transformers, we tackle the problem of error accumulation by flipping the order of query, key, and value entries, to increase the importance and fidelity of observed features in the current frame. Comparative experiments show that our EF-Transformer achieves the best performance on a newly-collected tennis doubles dataset, a Ceilidh dance dataset, and two pedestrian datasets. Furthermore, it is also demonstrated that our EF-Transformer is better at limiting accumulated errors and recovering from wrong estimations.
翻訳日:2022-07-15 11:10:31 公開日:2022-07-14
# 非剛体構造における運動からの有機優先

Organic Priors in Non-Rigid Structure from Motion ( http://arxiv.org/abs/2207.06262v2 )

ライセンス: Link先を確認
Suryansh Kumar, Luc Van Gool(参考訳) 本稿では,従来の非剛体構造における有機前駆体(NRSfM)の使用を提唱する。 有機前駆体では、NRSfM行列分解理論に固有の重要な中間的事前情報を意味する。 このような先行性は分解行列に存在することが示されており、驚くべきことに既存の手法はそれらを無視している。 この論文の主な貢献は、nrsfmを解決するためにそのような有機前駆体を効果的に活用できる、単純で方法論的で実用的な方法を提案することである。 提案手法は, 人気のあるもの以外の低位形状を仮定せず, 直交射影下でのnrsfmに対する信頼性の高い解を与える。 本研究により, 有機前駆体のアクセシビリティは, カメラの運動と形状変形型に依存しないことが明らかとなった。 さらに、この論文はNRSfMの因子分解(形状と運動の両方)についての洞察を提供し、NRSfMの1回転平均化の利点を示す最初のアプローチである。 さらに, 提案手法を用いて, 動作と非剛性3次元形状を効果的に復元する方法を概説し, 先行自由度NRSfMの性能を著しく向上させる結果を示した。 最後に,提案手法の利点を,複数のベンチマークデータセットに対する広範な実験と評価を通じて示す。

This paper advocates the use of organic priors in classical non-rigid structure from motion (NRSfM). By organic priors, we mean invaluable intermediate prior information intrinsic to the NRSfM matrix factorization theory. It is shown that such priors reside in the factorized matrices, and quite surprisingly, existing methods generally disregard them. The paper's main contribution is to put forward a simple, methodical, and practical method that can effectively exploit such organic priors to solve NRSfM. The proposed method does not make assumptions other than the popular one on the low-rank shape and offers a reliable solution to NRSfM under orthographic projection. Our work reveals that the accessibility of organic priors is independent of the camera motion and shape deformation type. Besides that, the paper provides insights into the NRSfM factorization -- both in terms of shape and motion -- and is the first approach to show the benefit of single rotation averaging for NRSfM. Furthermore, we outline how to effectively recover motion and non-rigid 3D shape using the proposed organic prior based approach and demonstrate results that outperform prior-free NRSfM performance by a significant margin. Finally, we present the benefits of our method via extensive experiments and evaluations on several benchmark datasets.
翻訳日:2022-07-15 10:52:52 公開日:2022-07-14
# 創発的行動の枠組みとしての多エージェント強化学習におけるリレーショナルネットワーク

Reward-Sharing Relational Networks in Multi-Agent Reinforcement Learning as a Framework for Emergent Behavior ( http://arxiv.org/abs/2207.05886v2 )

ライセンス: Link先を確認
Hossein Haeri, Reza Ahmadzadeh, Kshitij Jerath(参考訳) 本研究では,ユーザ定義リレーショナルネットワークを通じて「社会的」相互作用をMARLセットアップに統合し,エージェントとエージェントの関係が創発的行動の発生に与える影響を検討する。 社会学と神経科学からの洞察を生かして、我々の提案するフレームワークは、ネットワークエッジウェイトが、あるエージェントが別のエージェントの成功(または「ケア」)にどれだけ投資されているかを測定する尺度として機能する、Reward-Sharing Relational Networks(RSRN)という概念を用いてエージェント関係をモデル化する。 RSRN相互作用重み関数の関数としてリレーショナル報酬を構築し,マルチエージェント強化学習アルゴリズムを用いてマルチエージェントシステムを一括訓練する。 システムの性能は、異なるリレーショナルネットワーク構造(例えば、利己的、コミュニティタリアン、権威主義的ネットワーク)を持つ3エージェントシナリオでテストされる。 その結果,報酬共有関係ネットワークは学習行動に大きな影響を与えることがわかった。 我々は、RSRNが、異なる関係ネットワークが、しばしばそのようなネットワークの侵入された社会学的理解と類似した、異なる創発的行動を生み出す枠組みとして機能できると仮定する。

In this work, we integrate `social' interactions into the MARL setup through a user-defined relational network and examine the effects of agent-agent relations on the rise of emergent behaviors. Leveraging insights from sociology and neuroscience, our proposed framework models agent relationships using the notion of Reward-Sharing Relational Networks (RSRN), where network edge weights act as a measure of how much one agent is invested in the success of (or `cares about') another. We construct relational rewards as a function of the RSRN interaction weights to collectively train the multi-agent system via a multi-agent reinforcement learning algorithm. The performance of the system is tested for a 3-agent scenario with different relational network structures (e.g., self-interested, communitarian, and authoritarian networks). Our results indicate that reward-sharing relational networks can significantly influence learned behaviors. We posit that RSRN can act as a framework where different relational networks produce distinct emergent behaviors, often analogous to the intuited sociological understanding of such networks.
翻訳日:2022-07-15 10:52:33 公開日:2022-07-14
# (参考訳) DeepTIMe: 時系列予測のためのDeep Time-Indexメタラーニング

DeepTIMe: Deep Time-Index Meta-Learning for Non-Stationary Time-Series Forecasting ( http://arxiv.org/abs/2207.06046v2 )

ライセンス: CC BY 4.0
Gerald Woo, Chenghao Liu, Doyen Sahoo, Akshat Kumar, Steven Hoi(参考訳) ディープラーニングは時系列予測に積極的に適用されており、新しい自己回帰型モデルアーキテクチャが溢れている。 しかし、連続信号関数がスムーズな表現に繋がるような時間インデックスベースのモデルの魅力的な性質にもかかわらず、それらにはほとんど注意が払われていない。 実際、ナイーブな時間インデックスベースモデルは、古典的な時間インデックスベースモデルの手動で定義された関数表現よりもはるかに表現的だが、それらは帰納的バイアスの欠如と時系列の非定常性のために予測には不十分である。 本稿では,これらの制約を克服し,効率良く正確な予測モデルとなる,メタラーニングによる深い時間インデックスモデルであるdeeptimeを提案する。 実世界のデータセットに関する大規模な実験は、我々の手法が最先端の手法で競合する結果を得ることを示した。 コードはhttps://github.com/salesforce/DeepTIMeで入手できる。

Deep learning has been actively applied to time-series forecasting, leading to a deluge of new autoregressive model architectures. Yet, despite the attractive properties of time-index based models, such as being a continuous signal function over time leading to smooth representations, little attention has been given to them. Indeed, while naive deep time-index based models are far more expressive than the manually predefined function representations of classical time-index based models, they are inadequate for forecasting due to the lack of inductive biases, and the non-stationarity of time-series. In this paper, we propose DeepTIMe, a deep time-index based model trained via a meta-learning formulation which overcomes these limitations, yielding an efficient and accurate forecasting model. Extensive experiments on real world datasets demonstrate that our approach achieves competitive results with state-of-the-art methods, and is highly efficient. Code is available at https://github.com/salesforce/DeepTIMe.
翻訳日:2022-07-15 10:51:23 公開日:2022-07-14
# 放射線誘導グローバルローカ変換器による胸部X線診断

Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays ( http://arxiv.org/abs/2207.04394v3 )

ライセンス: Link先を確認
Yan Han, Gregory Holste, Ying Ding, Ahmed Tewfik, Yifan Peng, and Zhangyang Wang(参考訳) 医療画像の自動解析のためのディープラーニング手法が最近成功する以前、実践者は医療画像の局所的なパッチを定量的に記述するために手作りの放射線学的特徴を使用していた。 しかし, 診断的放射線学的特徴の抽出は, 正確な病理組織局在に依存するため, 実世界では獲得が困難である。 疾患の分類や胸部x線からの局在化の進歩にもかかわらず、多くのアプローチは臨床で不正なドメイン知識を取り入れられていない。 これらの理由から,Radiomics-Guided Transformer (RGT) を提案する。このトランスフォーマは,<textit{global} 画像情報を \textit{local} 知識誘導無線情報と融合し,正確な心肺疾患の局在と分類を行う。 RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。 rgtは、画像ブランチの学習されたセルフアテンションを用いて、放射線ブランチによってさらに処理される放射線特徴を計算するための境界ボックスを抽出し、学習画像と放射線特徴を融合してクロスアテンション層を介して相互に相互作用させる。 このようにして、RGTは画像レベルの疾患ラベルのみを用いて、正確な病理局在をブートストラップできる新しいエンドツーエンドフィードバックループを利用する。 NIH ChestXRayデータセットの実験では、RGTは、弱制御された疾患の局所化(様々な交叉対ユニオン閾値の平均マージン 3.6 %)と分類(レシーバーの操作特性曲線の下での平均領域 1.1 % )において、以前よりも優れていたことが示されている。 私たちは、コードと事前トレーニング済みのモデルを、 \url{https://github.com/VITA-Group/chext}で公開しています。

Before the recent success of deep learning methods for automated medical image analysis, practitioners used handcrafted radiomic features to quantitatively describe local patches of medical images. However, extracting discriminative radiomic features relies on accurate pathology localization, which is difficult to acquire in real-world settings. Despite advances in disease classification and localization from chest X-rays, many approaches fail to incorporate clinically-informed domain knowledge. For these reasons, we propose a Radiomics-Guided Transformer (RGT) that fuses \textit{global} image information with \textit{local} knowledge-guided radiomics information to provide accurate cardiopulmonary pathology localization and classification \textit{without any bounding box annotations}. RGT consists of an image Transformer branch, a radiomics Transformer branch, and fusion layers that aggregate image and radiomic information. Using the learned self-attention of its image branch, RGT extracts a bounding box for which to compute radiomic features, which are further processed by the radiomics branch; learned image and radiomic features are then fused and mutually interact via cross-attention layers. Thus, RGT utilizes a novel end-to-end feedback loop that can bootstrap accurate pathology localization only using image-level disease labels. Experiments on the NIH ChestXRay dataset demonstrate that RGT outperforms prior works in weakly supervised disease localization (by an average margin of 3.6\% over various intersection-over-union thresholds) and classification (by 1.1\% in average area under the receiver operating characteristic curve). We publicly release our codes and pre-trained models at \url{https://github.com/VITA-Group/chext}.
翻訳日:2022-07-15 10:28:18 公開日:2022-07-14
# 機械視による廃銅粒度評価システム

A Waste Copper Granules Rating System Based on Machine Vision ( http://arxiv.org/abs/2207.04575v2 )

ライセンス: Link先を確認
Kaikai Zhao, Yajie Cui, Zhaoxiang Liu, and Shiguo Lian(参考訳) 廃銅顆粒リサイクルの分野において, 技術者は廃銅顆粒中のあらゆる種類の不純物を識別し, 評価前の経験に依存する質量比率を推定できるべきである。 この手動評価法は、客観性と包括性に欠ける費用がかかる。 そこで本研究では, 機械視と深層学習に基づく廃銅粒度評価システムを提案する。 まず,評価タスクを2次元画像認識および純度回帰タスクに定式化する。 次に, 2段階の畳み込みレーティングネットワークを設計し, 廃棄物銅顆粒の質量純度と評価レベルを算出する。 評価ネットワークにはセグメンテーションネットワークと純度回帰ネットワークが含まれており、それぞれ、廃銅顆粒のセグメンテーションヒートマップと純度結果を算出する。 拡張データセット上で評価ネットワークをトレーニングした後、実廃銅顆粒実験により、提案したネットワークの有効性と優位性を示す。 具体的には, 精度, 有効性, 頑健性, 客観性の観点から, マニュアル方式よりも優れている。

In the field of waste copper granules recycling, engineers should be able to identify all different sorts of impurities in waste copper granules and estimate their mass proportion relying on experience before rating. This manual rating method is costly, lacking in objectivity and comprehensiveness. To tackle this problem, we propose a waste copper granules rating system based on machine vision and deep learning. We firstly formulate the rating task into a 2D image recognition and purity regression task. Then we design a two-stage convolutional rating network to compute the mass purity and rating level of waste copper granules. Our rating network includes a segmentation network and a purity regression network, which respectively calculate the semantic segmentation heatmaps and purity results of the waste copper granules. After training the rating network on the augmented datasets, experiments on real waste copper granules demonstrate the effectiveness and superiority of the proposed network. Specifically, our system is superior to the manual method in terms of accuracy, effectiveness, robustness, and objectivity.
翻訳日:2022-07-15 10:27:44 公開日:2022-07-14
# 対訳 ロバストオブジェクト検出器

Adversarially-Aware Robust Object Detector ( http://arxiv.org/abs/2207.06202v2 )

ライセンス: Link先を確認
Ziyi Dong, Pengxu Wei, Liang Lin(参考訳) オブジェクト検出は、基本的なコンピュータビジョンタスクとして、ディープニューラルネットワークの出現によって驚くべき進歩を遂げた。 それにもかかわらず、様々な現実のシナリオにおける実用的応用に対する敵意攻撃に抵抗する物体検出器の敵意の強固さを探求する研究は少ない。 検出器は、目立たない摂動、クリーンな画像のパフォーマンスが急落し、敵画像のパフォーマンスが著しく低下するなど、大きな課題を抱えている。 本研究では,物体検出における対向ロバスト性に関するモデルトレーニングを実証的に検討する。 この問題を緩和するために、クリーンで対角的な画像のモデル学習のために、逆向きに認識する畳み込みに基づくRobust Detector (RobustDet)を提案する。 RobustDetはまた、信頼できる堅牢性を確保するために、Adversarial Image Discriminator (AID)とConsistent Features with Reconstruction (CFR)も採用している。 PASCAL VOCとMS-COCOの広範囲にわたる実験により,我々のモデルは,クリーン画像における検出能力を維持しながら,効果的に勾配を歪曲し,検出ロバスト性を著しく向上することを示した。

Object detection, as a fundamental computer vision task, has achieved a remarkable progress with the emergence of deep neural networks. Nevertheless, few works explore the adversarial robustness of object detectors to resist adversarial attacks for practical applications in various real-world scenarios. Detectors have been greatly challenged by unnoticeable perturbation, with sharp performance drop on clean images and extremely poor performance on adversarial images. In this work, we empirically explore the model training for adversarial robustness in object detection, which greatly attributes to the conflict between learning clean images and adversarial images. To mitigate this issue, we propose a Robust Detector (RobustDet) based on adversarially-aware convolution to disentangle gradients for model learning on clean and adversarial images. RobustDet also employs the Adversarial Image Discriminator (AID) and Consistent Features with Reconstruction (CFR) to ensure a reliable robustness. Extensive experiments on PASCAL VOC and MS-COCO demonstrate that our model effectively disentangles gradients and significantly enhances the detection robustness with maintaining the detection ability on clean images.
翻訳日:2022-07-15 10:27:27 公開日:2022-07-14
# シーングラフにおける逐次操作計画

Sequential Manipulation Planning on Scene Graph ( http://arxiv.org/abs/2207.04364v3 )

ライセンス: Link先を確認
Ziyuan Jiao, Yida Niu, Zeyu Zhang, Song-Chun Zhu, Yixin Zhu, Hangxin Liu(参考訳) 3次元シーングラフ表現であるコンタクトグラフ+(cg+)を考案し,逐次的なタスク計画を行う。 述語的属性を付加したこの接触グラフに基づく表現は、簡潔な幾何学情報と有効なロボットとシーンの相互作用でシーンレイアウトを抽象化する。 接触グラフに自然に指定された目標構成は、確率的最適化法を用いて遺伝的アルゴリズムによって生成することができる。 タスクプランは、初期接触グラフと目標設定との間のグラフ編集距離(GED)を計算して初期化され、ロボットの動作に対応するグラフ編集操作を生成する。 我々は,グラフ編集作業の時間的実現性を制限する制約を課し,有効なタスクと動作対応を確保することでタスク計画の確定を図った。 一連のシミュレーションと実験において、ロボットは、計画ドメイン定義言語(PDDL)のような従来の計画言語を用いて特定し難い複雑な逐次的オブジェクト再構成タスクを完了し、コンタクトグラフ上でロボットシーケンシャルタスク計画の可能性と可能性を示す。

We devise a 3D scene graph representation, contact graph+ (cg+), for efficient sequential task planning. Augmented with predicate-like attributes, this contact graph-based representation abstracts scene layouts with succinct geometric information and valid robot-scene interactions. Goal configurations, naturally specified on contact graphs, can be produced by a genetic algorithm with a stochastic optimization method. A task plan is then initialized by computing the Graph Editing Distance (GED) between the initial contact graphs and the goal configurations, which generates graph edit operations corresponding to possible robot actions. We finalize the task plan by imposing constraints to regulate the temporal feasibility of graph edit operations, ensuring valid task and motion correspondences. In a series of simulations and experiments, robots successfully complete complex sequential object rearrangement tasks that are difficult to specify using conventional planning language like Planning Domain Definition Language (PDDL), demonstrating the high feasibility and potential of robot sequential task planning on contact graph.
翻訳日:2022-07-15 10:27:04 公開日:2022-07-14
# 物体内MR画像登録のための協調量子化埋め込み

Collaborative Quantization Embeddings for Intra-Subject Prostate MR Image Registration ( http://arxiv.org/abs/2207.06189v2 )

ライセンス: Link先を確認
Ziyi Shen, Qianye Yang, Yuming Shen, Francesco Giganti, Vasilis Stavrinides, Richard Fan, Caroline Moore, Mirabela Rusu, Geoffrey Sonn, Philip Torr, Dean Barratt, Yipeng Hu(参考訳) 前立腺癌患者の縦型mr画像の形態変化の定量には画像登録が有用である。 本稿では,高度に可変かつ限られたトレーニングデータを持つこの難易度臨床応用のための,学習ベース登録アルゴリズムの改良について述べる。 まず,訓練された登録ネットワークの深い層においてボトルネックとして一般的に見られるものよりも,潜在空間をはるかに低次元の空間にクラスター化することができることを報告する。 そこで本研究では,階層的な量子化手法を提案し,学習した特徴ベクトルを制約付き辞書を用いて識別し,登録ネットワークの一般化を改善する。 さらに、新しいコラボレーティブ辞書を独立に最適化し、潜在量子化空間において、腺または他の関心領域のセグメンテーションのような追加の事前情報を組み込む。 前立腺癌86例の実際の臨床像216例から, 両成分の有効性について検討した。 登録精度の向上は, 腺上のDiceと対応するランドマーク上のターゲット登録誤差の両面で統計的に有意であり, 後者は5.46mm, 定量化せずにベースラインから28.7\%向上した。 また, 実験結果から, トレーニングデータとテストデータの間には, 性能の違いが最小化されていることがわかった。

Image registration is useful for quantifying morphological changes in longitudinal MR images from prostate cancer patients. This paper describes a development in improving the learning-based registration algorithms, for this challenging clinical application often with highly variable yet limited training data. First, we report that the latent space can be clustered into a much lower dimensional space than that commonly found as bottleneck features at the deep layer of a trained registration network. Based on this observation, we propose a hierarchical quantization method, discretizing the learned feature vectors using a jointly-trained dictionary with a constrained size, in order to improve the generalisation of the registration networks. Furthermore, a novel collaborative dictionary is independently optimised to incorporate additional prior information, such as the segmentation of the gland or other regions of interest, in the latent quantized space. Based on 216 real clinical images from 86 prostate cancer patients, we show the efficacy of both the designed components. Improved registration accuracy was obtained with statistical significance, in terms of both Dice on gland and target registration error on corresponding landmarks, the latter of which achieved 5.46 mm, an improvement of 28.7\% from the baseline without quantization. Experimental results also show that the difference in performance was indeed minimised between training and testing data.
翻訳日:2022-07-15 10:26:45 公開日:2022-07-14