このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211003となっている論文です。

PDF登録状況(公開日: 20211003)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 音楽プレイリストのタイトル生成 : 機械翻訳アプローチ [全文訳有]

Music Playlist Title Generation: A Machine-Translation Approach ( http://arxiv.org/abs/2110.07354v1 )

ライセンス: CC BY 4.0
SeungHeon Doh, Junwon Lee, Juhan Nam(参考訳) 楽曲の集合からプレイリストのタイトルを自動的に生成する機械翻訳手法を提案する。 トラックIDのシーケンスを入力として、プレイリストタイトル内の単語列を出力として、リカレントニューラルネットワーク(RNN)とトランスフォーマーに基づくシーケンス・ツー・シーケンス・フレームワークを音楽データに適用する。 プレイリスト中の楽曲の秩序な性質を考慮し、入力シーケンスの順序を除去する2つの手法を提案する。 1つはシャッフルによるデータ拡張であり、もう1つは位置エンコーディングを削除している。 また、既存のプレイリストデータセットを再編成し、フレーズレベルのプレイリストのタイトルを生成する。 その結果、Transformerモデルは一般的にRNNモデルよりも優れていた。 また、入力シーケンスの順序の削除により、さらに性能が向上する。

We propose a machine-translation approach to automatically generate a playlist title from a set of music tracks. We take a sequence of track IDs as input and a sequence of words in a playlist title as output, adapting the sequence-to-sequence framework based on Recurrent Neural Network (RNN) and Transformer to the music data. Considering the orderless nature of music tracks in a playlist, we propose two techniques that remove the order of the input sequence. One is data augmentation by shuffling and the other is deleting the positional encoding. We also reorganize the existing music playlist datasets to generate phrase-level playlist titles. The result shows that the Transformer models generally outperform the RNN model. Also, removing the order of input sequence improves the performance further.
翻訳日:2021-10-17 15:11:07 公開日:2021-10-03
# 地すべり感受性のブロックワイズ予測のための中間表現のメタラーニング

Meta-learning an Intermediate Representation for Few-shot Block-wise Prediction of Landslide Susceptibility ( http://arxiv.org/abs/2110.04922v1 )

ライセンス: Link先を確認
Li Chen, Yulin Ding, Han Hu, Qing Zhu, Haowei Zeng, Haojia Yu, Qisen Shang, Yongfei Song(参考訳) 地すべり感受性マップ (LSM) の予測は, リスク認識と防災に不可欠である。 データ駆動予測手法が成功したにもかかわらず、現在のデータ駆動手法は一般的に、ターゲット領域全体のLSMを予測するために単一のグローバルモデルを適用する。 しかし, 複雑な状況, 特に大規模地域では, 各地域は異なる地すべり発生環境を有しており, それぞれのモデルで個別に予測すべきである,と論じる。 本研究では, 対象シナリオを, 地形因子を用いた個別分析のためのブロックに分割した。 しかし、単に各ブロック内で限られたサンプルを使用してトレーニングとテストを行うだけでは、textit{overfitting} の悪影響のため、十分な LSM 予測ができない。 そこで本研究では, lsmタスクから情報を取り出すのに優れたメタ学習パラダイムを用いて中間表現を訓練し, 熟達度の向上を図る。 我々は、入力特徴の変化に敏感なLSMタスクには、より一般的な概念が存在するという仮説に基づいてこれを選択した。 したがって、中間表現を用いることで、モデルを異なるブロックに適応したり、模範的なサンプルがほとんどないタスクに適応させることができる。 2つの実験領域における実験結果から,大規模シナリオにおけるブロックワイズ解析の有効性が示され,提案手法の最大数ショット適応性能が明らかにされた。

Predicting a landslide susceptibility map (LSM) is essential for risk recognition and disaster prevention. Despite the successful application of data-driven prediction approaches, current data-driven methods generally apply a single global model to predict the LSM for an entire target region. However, we argue that, in complex circumstances, especially in large-scale areas, each part of the region holds different landslide-inducing environments, and therefore, should be predicted individually with respective models. In this study, target scenarios were segmented into blocks for individual analysis using topographical factors. But simply conducting training and testing using limited samples within each block is hardly possible for a satisfactory LSM prediction, due to the adverse effect of \textit{overfitting}. To solve the problems, we train an intermediate representation by the meta-learning paradigm, which is superior for capturing information from LSM tasks in order to generalize proficiently. We chose this based on the hypothesis that there are more general concepts among LSM tasks that are sensitive to variations in input features. Thus, using the intermediate representation, we can easily adapt the model for different blocks or even unseen tasks using few exemplar samples. Experimental results on two study areas demonstrated the validity of our block-wise analysis in large scenarios and revealed the top few-shot adaption performances of the proposed methods.
翻訳日:2021-10-17 05:12:19 公開日:2021-10-03
# リアルタイムソーシャルメディア画像ストリームにおける地すべり検出

Landslide Detection in Real-Time Social Media Image Streams ( http://arxiv.org/abs/2110.04080v1 )

ライセンス: Link先を確認
Ferda Ofli, Muhammad Imran, Umair Qazi, Julien Roch, Catherine Pennington, Vanessa J. Banks, Remy Bossu(参考訳) グローバルなデータ在庫の欠如は、しばしば致命的かつコストがかかる地すべりの危険性に対する科学的モデリングと対応を妨げる。 この制限を緩和するために、新しいアプローチは、積極的な参加を必要とする市民科学に基づく解決策を提案する。 しかし, 従来のデータソースとして, 近年, 多くの災害対応・管理研究にソーシャルメディアが利用されている。 この傾向に触発されて,我々は,人工知能(AI)技術を活用した地すべり関連情報の自動マイニングにソーシャルメディアデータを活用することを提案する。 具体的には,ソーシャルメディア画像ストリームの地すべりをリアルタイムに検出する,最先端のコンピュータビジョンモデルを開発した。 この目的のために,専門家がラベル付けした大規模地すべり画像データセットを作成し,広範なモデルトレーニング実験を行う。 実験結果から, 提案手法をオンラインに展開することで, 地すべり感受性マップと緊急対応を支援することを示唆した。

Lack of global data inventories obstructs scientific modeling of and response to landslide hazards which are oftentimes deadly and costly. To remedy this limitation, new approaches suggest solutions based on citizen science that requires active participation. However, as a non-traditional data source, social media has been increasingly used in many disaster response and management studies in recent years. Inspired by this trend, we propose to capitalize on social media data to mine landslide-related information automatically with the help of artificial intelligence (AI) techniques. Specifically, we develop a state-of-the-art computer vision model to detect landslides in social media image streams in real time. To that end, we create a large landslide image dataset labeled by experts and conduct extensive model training experiments. The experimental results indicate that the proposed model can be deployed in an online fashion to support global landslide susceptibility maps and emergency response.
翻訳日:2021-10-17 05:11:56 公開日:2021-10-03
# 神経常微分方程式を用いた自動多凸ひずみエネルギー関数

Automatically Polyconvex Strain Energy Functions using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2110.03774v1 )

ライセンス: Link先を確認
Vahidullah Tac, Francisco S. Costabal, Adrian Buganza Tepole(参考訳) データ駆動手法は、従来の材料モデリングよりもユニークな利点があるため、計算力学の重要な部分になりつつある。 ディープニューラルネットワークは、閉形式近似の制約なしに複雑な物質応答を学習することができる。 しかし、あらゆる物質モデルが従わなければならない物理に基づく数学的要求を課すことは、データ駆動アプローチにとって容易ではない。 本研究では,ニューラル常微分方程式(N-ODEs)と呼ばれる新しいニューラルネットワークのクラスを用いて,変形勾配に対するひずみエネルギー関数の多凸性を自動的に満足するデータ駆動材料モデルを開発する。 通常の微分方程式の性質を利用して、右コーシー・グリーン変形テンソルの不変量に対してひずみエネルギー関数の微分を近似する単調関数を生成する。 誘導体の単調性はエネルギーの凸性を保証する。 n-ode 材料モデルは, 閉じた形状の材料モデルから生成された合成データを取り込むことができ, 高度に非線形で異方性の物質である皮膚に関する実験データに対して, 従来のモデルよりも優れる。 また,有限要素シミュレーションにおけるN-ODE物質モデルの利用について述べる。 フレームワークは一般的なもので、大きな種類の材料をモデル化するのに使用することができる。 ここでは超弾性に焦点をあてるが、ポリ凸ひずみエネルギーは粘性や塑性変形といった他の問題に対する中核構造ブロックである。 計算力学におけるデータ駆動手法のさらなる実現を期待する。

Data-driven methods are becoming an essential part of computational mechanics due to their unique advantages over traditional material modeling. Deep neural networks are able to learn complex material response without the constraints of closed-form approximations. However, imposing the physics-based mathematical requirements that any material model must comply with is not straightforward for data-driven approaches. In this study, we use a novel class of neural networks, known as neural ordinary differential equations (N-ODEs), to develop data-driven material models that automatically satisfy polyconvexity of the strain energy function with respect to the deformation gradient, a condition needed for the existence of minimizers for boundary value problems in elasticity. We take advantage of the properties of ordinary differential equations to create monotonic functions that approximate the derivatives of the strain energy function with respect to the invariants of the right Cauchy-Green deformation tensor. The monotonicity of the derivatives guarantees the convexity of the energy. The N-ODE material model is able to capture synthetic data generated from closed-form material models, and it outperforms conventional models when tested against experimental data on skin, a highly nonlinear and anisotropic material. We also showcase the use of the N-ODE material model in finite element simulations. The framework is general and can be used to model a large class of materials. Here we focus on hyperelasticity, but polyconvex strain energies are a core building block for other problems in elasticity such as viscous and plastic deformations. We therefore expect our methodology to further enable data-driven methods in computational mechanics
翻訳日:2021-10-17 05:10:21 公開日:2021-10-03
# RC構造:MIMO-OFDM検出のための構造ベースニューラルネットワークアプローチ

RC-Struct: A Structure-based Neural Network Approach for MIMO-OFDM Detection ( http://arxiv.org/abs/2110.02219v1 )

ライセンス: Link先を確認
Jiarui Xu, Zhou Zhou, Lianjun Li, Lizhong Zheng, and Lingjia Liu(参考訳) 本稿では,MIMO-OFDMシンボル検出のための構造ベースニューラルネットワークアーキテクチャであるRC-Structを提案する。 RC構造は、貯水池計算(RC)を通してMIMO-OFDM信号の時間構造を利用する。 バイナリ分類器は、システムの反復的な星座構造を利用して、マルチクラス検出を行う。 RCの組み込みにより、RC-Structは純粋にオンライン形式で学習でき、それぞれのOFDMサブフレームに極めて限られたパイロットシンボルを持つ。 バイナリ分類器は、貴重なオンライントレーニングシンボルの効率的な利用を可能にし、複雑さを大幅に増大させることなく、高次変調を簡単に拡張することができる。 実験の結果,RC-Structは従来のモデルに基づくシンボル検出手法と,ビット誤り率(BER)の観点からの最先端の学習戦略の両方に優れていた。 既存の手法よりもRC-Structの利点は、ランクとリンクの適応が採用されるとより重要になる。 紹介されたRC-Structは、5Gと5G Beyondの通信ドメイン知識と学習ベースの受信処理の組み合わせに光を当てている。

In this paper, we introduce a structure-based neural network architecture, namely RC-Struct, for MIMO-OFDM symbol detection. The RC-Struct exploits the temporal structure of the MIMO-OFDM signals through reservoir computing (RC). A binary classifier leverages the repetitive constellation structure in the system to perform multi-class detection. The incorporation of RC allows the RC-Struct to be learned in a purely online fashion with extremely limited pilot symbols in each OFDM subframe. The binary classifier enables the efficient utilization of the precious online training symbols and allows an easy extension to high-order modulations without a substantial increase in complexity. Experiments show that the introduced RC-Struct outperforms both the conventional model-based symbol detection approaches and the state-of-the-art learning-based strategies in terms of bit error rate (BER). The advantages of RC-Struct over existing methods become more significant when rank and link adaptation are adopted. The introduced RC-Struct sheds light on combining communication domain knowledge and learning-based receive processing for 5G and 5G Beyond.
翻訳日:2021-10-07 14:10:21 公開日:2021-10-03
# Dirichlet Posterior Smpling の差分プライバシー

Differential Privacy of Dirichlet Posterior Sampling ( http://arxiv.org/abs/2110.01984v1 )

ライセンス: Link先を確認
Donlapark Ponnoprat(参考訳) ラプラス分布やガウス分布以外にも、ランダムドローのプライバシー保護性の観点からはよく理解されていない多くの確率分布があり、そのうちの1つはディリクレ分布である。 本研究では,ディリクレ後方分布から1つのドローを解放する固有のプライバシについて検討する。 指数関数的家族からの後方サンプリングの差分プライバシーに関する一般的な理論を提供する以前の研究の補足として、この研究は特にディリクレ後方サンプリングとそのプライバシー保証に焦点を当てている。 集中的ディファレンシャルプライバシー(tcdp)の概念により、ディリクレ後方サンプリングの単純なプライバシ保証を導出することができ、様々な設定でその有用性を効果的に分析することができる。 具体的には,ベイジアンタスクで一般的である多項ディリクレサンプリングと正規化ヒストグラムのプライベートリリースの精度保証を実証する。 さらに, 状態遷移確率に対するディリクレサンプリングを改良することにより, ベイズ強化学習を微分プライベートにすることが可能である。

Besides the Laplace distribution and the Gaussian distribution, there are many more probability distributions which is not well-understood in terms of privacy-preserving property of a random draw -- one of which is the Dirichlet distribution. In this work, we study the inherent privacy of releasing a single draw from a Dirichlet posterior distribution. As a complement to the previous study that provides general theories on the differential privacy of posterior sampling from exponential families, this study focuses specifically on the Dirichlet posterior sampling and its privacy guarantees. With the notion of truncated concentrated differential privacy (tCDP), we are able to derive a simple privacy guarantee of the Dirichlet posterior sampling, which effectively allows us to analyze its utility in various settings. Specifically, we prove accuracy guarantees of private Multinomial-Dirichle t sampling, which is prevalent in Bayesian tasks, and private release of a normalized histogram. In addition, with our results, it is possible to make Bayesian reinforcement learning differentially private by modifying the Dirichlet sampling for state transition probabilities.
翻訳日:2021-10-06 14:28:30 公開日:2021-10-03
# 物理シミュレーションにおける高効率・高精度衝突のためのニューラルインプリシト表面

Neural Implicit Surfaces for Efficient and Accurate Collisions in Physically Based Simulations ( http://arxiv.org/abs/2110.01614v1 )

ライセンス: Link先を確認
Hugo Bertiche, Meysam Madadi and Sergio Escalera(参考訳) コンピュータグラフィックスコミュニティの現在のトレンドは、物理ベースのシミュレーションを加速するためにGPUの膨大な並列計算パワーを活用することを提案する。 衝突検出と解決はこのプロセスの基本的な部分である。 また、物理的シミュレーションにおいて最も重要なボトルネックであり、シーン内の頂点数が増加すると容易に難解になる。 ブルートフォースアプローチは計算時間とメモリフットプリントの両方において二次的な成長をもたらす。 並列化はGPUでは簡単だが、その複雑さはそのようなアプローチの使用を妨げている。 BVHのような加速構造は、個々の点問合せに対して対数計算時間を達成するためにしばしば用いられる。 それにもかかわらず、メモリフットプリントも急速に増加し、GPUでの並列化は分岐の性質に問題がある。 本研究では,物理シミュレーションにおける衝突処理のための深層学習を通して学習した暗黙の表面表現を提案する。 提案アーキテクチャは,O(n) あるいは O(1) の複雑な単一点クエリを持ち,並列化の問題はない。 より具体的には、物理的シミュレーションにおいて、これがいかに正確で効率的な衝突処理を可能にするかを示す。 実験では、最大100万ポイントを300ミリ秒でクエリします。

Current trends in the computer graphics community propose leveraging the massive parallel computational power of GPUs to accelerate physically based simulations. Collision detection and solving is a fundamental part of this process. It is also the most significant bottleneck on physically based simulations and it easily becomes intractable as the number of vertices in the scene increases. Brute force approaches carry a quadratic growth in both computational time and memory footprint. While their parallelization is trivial in GPUs, their complexity discourages from using such approaches. Acceleration structures -- such as BVH -- are often applied to increase performance, achieving logarithmic computational times for individual point queries. Nonetheless, their memory footprint also grows rapidly and their parallelization in a GPU is problematic due to their branching nature. We propose using implicit surface representations learnt through deep learning for collision handling in physically based simulations. Our proposed architecture has a complexity of O(n) -- or O(1) for a single point query -- and has no parallelization issues. We will show how this permits accurate and efficient collision handling in physically based simulations, more specifically, for cloth. In our experiments, we query up to 1M points in 300 milliseconds.
翻訳日:2021-10-06 14:01:12 公開日:2021-10-03
# SDR: 副次的文書表現を用いた高能率ニューラルリグレード

SDR: Efficient Neural Re-ranking using Succinct Document Representation ( http://arxiv.org/abs/2110.02065v1 )

ライセンス: Link先を確認
Nachshon Cohen, Amit Portnoy, Besnik Fetahu, and Amir Ingber(参考訳) BERTベースのランキングモデルは、様々な情報検索タスクにおいて優れたパフォーマンスを達成している。 しかし、大量のパラメータと複雑な自己注意操作は、かなりの遅延オーバーヘッドとなる。 これを改善するために、近年の研究では、中間文書表現の事前計算を可能にする遅延処理アーキテクチャを提案する。 それでも、即時レイテンシの問題を解決したこれらのメソッドは、ストレージコストとネットワークフェッチレイテンシを導入し、実運用システムへの導入を制限した。 そこで本研究では,SDR(Succinct Document Representation)方式を提案する。 本手法は, 文書の符号化と復号の両方において, 文書のテキスト内容を利用する新しいオートエンコーダアーキテクチャを用いて, トークン表現の次元を削減する。 このトークンエンコーディングステップの後、現代的な量子化技術を用いて、ドキュメント表現全体のサイズをさらに削減します。 MSMARCOデータセットのパス再評価により, 圧縮文書表現を用いた既存手法と比較して, 高い効率性を示し, 4x-11.6倍の圧縮率を実現した。

BERT based ranking models have achieved superior performance on various information retrieval tasks. However, the large number of parameters and complex self-attention operation come at a significant latency overhead. To remedy this, recent works propose late-interaction architectures, which allow pre-computation of intermediate document representations, thus reducing the runtime latency. Nonetheless, having solved the immediate latency issue, these methods now introduce storage costs and network fetching latency, which limits their adoption in real-life production systems. In this work, we propose the Succinct Document Representation (SDR) scheme that computes \emph{highly compressed} intermediate document representations, mitigating the storage/network issue. Our approach first reduces the dimension of token representations by encoding them using a novel autoencoder architecture that uses the document's textual content in both the encoding and decoding phases. After this token encoding step, we further reduce the size of entire document representations using a modern quantization technique. Extensive evaluations on passage re-reranking on the MSMARCO dataset show that compared to existing approaches using compressed document representations, our method is highly efficient, achieving 4x-11.6x better compression rates for the same ranking quality.
翻訳日:2021-10-06 13:58:58 公開日:2021-10-03
# (参考訳) disarranged zone learning (dzl) : 冠動脈造影法による非教師なし・動的自動狭窄認識法 [全文訳有]

Disarranged Zone Learning (DZL): An unsupervised and dynamic automatic stenosis recognition methodology based on coronary angiography ( http://arxiv.org/abs/2110.00896v1 )

ライセンス: CC BY 4.0
Yanan Dai, Pengxiong Zhu, Bangde Xue, Yun Ling, Xibao Shi, Liang Geng, Qi Zhang, Jun Liu(参考訳) 冠動脈造影における狭窄を自動的に認識するDisarranged Zone Learning(DZL)を新たに提案した。 提案手法はまず,映像中のフレームを無秩序化し,次に有効領域を生成し,最後にエンコーダ・デコーダモデルを用いて不規則なフレームを復元する能力を学ぶ。 本研究のブレークスルーは,冠動脈狭窄状態の指標であるシーケンス強度(回復困難度)を発見・検証することである。 したがって、DZLの予測精度は冠動脈狭窄の指標の近似として用いられる。 DZLは教師なしの方法論であり、ラベルエンジニアリングの努力は必要とせず、DZLのサブGRUモデルは自己監督的なアプローチとして機能する。 そのため、DZLは理論上、膨大な量の冠状血管造影を用いて、面倒なデータラベリングなしに学習し、パフォーマンスを向上させることができる。 dzlがビデオ全体を動的に利用するため、dzlを実行するためのデータプリプロセッシングプリコンディションは存在せず、冠動脈造影のデータの多様性を克服する実装と一般化が容易である。 総合的な平均精度スコアは0.93、AUCは0.8である。 最も高いセグメント化平均精度スコアは 0.98 であり、最もセグメント化された auc は冠動脈閉塞指標 0.87 である。 最後に、DZL方法論を実装するためのソフトウェアデモを開発した。

We proposed a novel unsupervised methodology named Disarranged Zone Learning (DZL) to automatically recognize stenosis in coronary angiography. The methodology firstly disarranges the frames in a video, secondly it generates an effective zone and lastly trains an encoder-decoder GRU model to learn the capability to recover disarranged frames. The breakthrough of our study is to discover and validate the Sequence Intensity (Recover Difficulty) is a measure of Coronary Artery Stenosis Status. Hence, the prediction accuracy of DZL is used as an approximator of coronary stenosis indicator. DZL is an unsupervised methodology and no label engineering effort is needed, the sub GRU model in DZL works as a self-supervised approach. So DZL could theoretically utilize infinitely huge amounts of coronary angiographies to learn and improve performance without laborious data labeling. There is no data preprocessing precondition to run DZL as it dynamically utilizes the whole video, hence it is easy to be implemented and generalized to overcome the data heterogeneity of coronary angiography. The overall average precision score achieves 0.93, AUC achieves 0.8 for this pure methodology. The highest segmented average precision score is 0.98 and the highest segmented AUC is 0.87 for coronary occlusion indicator. Finally, we developed a software demo to implement DZL methodology.
翻訳日:2021-10-06 08:21:31 公開日:2021-10-03
# (参考訳) 新しい深度適応ぼかしと活性化関数を用いたアンチエイリアシング深部画像分類器 [全文訳有]

Anti-aliasing Deep Image Classifiers using Novel Depth Adaptive Blurring and Activation Function ( http://arxiv.org/abs/2110.00899v1 )

ライセンス: CC BY 4.0
Md Tahmid Hossain, Shyh Wei Teng, Ferdous Sohel, Guojun Lu(参考訳) 深層畳み込みネットワークは画像の翻訳やシフトに対して脆弱であり、例えば、マックスプールやストレート畳み込みといった一般的なダウンサンプリング層が原因である。 これらの操作はナイキストサンプリングレートに違反し、エイリアスを引き起こす。 教科書の解決策は、ダウンサンプリング前の低パスフィルタリング(ブルーリング)であり、ディープネットワークにも役立つ。 それでも、ReLUのような非線形単位はしばしば問題を再導入し、ぼやけているだけでは十分でないことを示唆している。 本稿では,まずフーリエ変換による深部特徴の分析を行い,単調なぼけよりも奥行き適応ぼかしの方が効果的であることを示す。 この目的のために、既存のダウンサンプリングメソッドを置き換える方法について概説する。 第2に,低域通過フィルタを内蔵した新しいアクティベーション関数を導入して,問題を再現れるのを防ぐ。 実験から、回転、スケール、ノイズなど、他の形態の変換や腐敗の一般化を観察する。 我々は,(1)画像翻訳,(2)逆攻撃,(2)$\ell_{p}$bounded,unbounded,( 3)データ破損と摂動の3つの困難な条件下で評価を行った。 各設定において,本手法は最先端の結果を達成し,各種ベンチマークデータセットのクリーンな精度を向上させる。

Deep convolutional networks are vulnerable to image translation or shift, partly due to common down-sampling layers, e.g., max-pooling and strided convolution. These operations violate the Nyquist sampling rate and cause aliasing. The textbook solution is low-pass filtering (blurring) before down-sampling, which can benefit deep networks as well. Even so, non-linearity units, such as ReLU, often re-introduce the problem, suggesting that blurring alone may not suffice. In this work, first, we analyse deep features with Fourier transform and show that Depth Adaptive Blurring is more effective, as opposed to monotonic blurring. To this end, we outline how this can replace existing down-sampling methods. Second, we introduce a novel activation function -- with a built-in low pass filter, to keep the problem from reappearing. From experiments, we observe generalisation on other forms of transformations and corruptions as well, e.g., rotation, scale, and noise. We evaluate our method under three challenging settings: (1) a variety of image translations; (2) adversarial attacks -- both $\ell_{p}$ bounded and unbounded; and (3) data corruptions and perturbations. In each setting, our method achieves state-of-the-art results and improves clean accuracy on various benchmark datasets.
翻訳日:2021-10-06 08:10:40 公開日:2021-10-03
# (参考訳) GROWN: 継続的な学習に必要なときだけ成長する [全文訳有]

GROWN: GRow Only When Necessary for Continual Learning ( http://arxiv.org/abs/2110.00908v1 )

ライセンス: CC BY 4.0
Li Yang, Sen Lin, Junshan Zhang, Deliang Fan(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、新しいタスクを学ぶ際に、以前のタスクに関する知識を忘れてしまう。 この問題に対処するために,新しいタスクを逐次学習し,古いタスクから新しいタスクへの知識伝達を忘れることなく行う継続的学習が開発されている。 最近の構造に基づく学習手法では、忘れる問題を緩和する能力を示しているが、これらの手法は冗長なフルサイズネットワークから始まり、各タスクのネットワーク構造を徐々に成長させ、探索するために複雑な学習プロセスを必要とする。 この問題に対処し,新しいタスクのための効率的なネットワーク拡張を実現するため,我々はまず学習可能なスパース成長法を開発し,従来の構造ベース手法におけるpruning/searchingステップを取り除いた。 そこで我々は,この学習可能なスパース成長法に基づいて,必要時にのみモデルを動的に成長させる,新しいエンドツーエンド連続学習フレームワーク grown を提案する。 これまでのすべての構造ベースの方法とは異なり、GROWNはフルサイズのものではなく、小さなシードネットワークから始まる。 我々は,複数のデータセット上のGROWNを最先端手法に対して検証し,精度とモデルサイズの両方において優れた性能を示す。 例えば、CIFAR-100 Superclass 20タスク設定における現在のSOTA結果と比較すると、平均1.0\%の精度向上を実現している。

Catastrophic forgetting is a notorious issue in deep learning, referring to the fact that Deep Neural Networks (DNN) could forget the knowledge about earlier tasks when learning new tasks. To address this issue, continual learning has been developed to learn new tasks sequentially and perform knowledge transfer from the old tasks to the new ones without forgetting. While recent structure-based learning methods show the capability of alleviating the forgetting problem, these methods start from a redundant full-size network and require a complex learning process to gradually grow-and-prune or search the network structure for each task, which is inefficient. To address this problem and enable efficient network expansion for new tasks, we first develop a learnable sparse growth method eliminating the additional pruning/searching step in previous structure-based methods. Building on this learnable sparse growth method, we then propose GROWN, a novel end-to-end continual learning framework to dynamically grow the model only when necessary. Different from all previous structure-based methods, GROWN starts from a small seed network, instead of a full-sized one. We validate GROWN on multiple datasets against state-of-the-art methods, which shows superior performance in both accuracy and model size. For example, we achieve 1.0\% accuracy gain on average compared to the current SOTA results on CIFAR-100 Superclass 20 tasks setting.
翻訳日:2021-10-06 07:46:32 公開日:2021-10-03
# (参考訳) アテンションモジュールは4次元fMRIデコードニューラルネットワークの性能と解釈性を改善する [全文訳有]

Attention module improves both performance and interpretability of 4D fMRI decoding neural network ( http://arxiv.org/abs/2110.00920v1 )

ライセンス: CC BY 4.0
Zhoufan Jiang, Yanming Wang, ChenWei Shi, Yueyang Wu, Rongjie Hu, Shishuo Chen, Sheng Hu, Xiaoxiao Wang, Bensheng Qiu(参考訳) 神経画像信号から脳の認知状態を復号することは神経科学において重要なトピックである。 近年、ディープニューラルネットワーク(DNN)は、複数の脳状態復号化のために採用され、優れたパフォーマンスを実現している。 しかし、DNNのブラックボックスをどう解釈するかというオープンな問題は未解決のままである。 機械学習の進歩に乗じて、我々は注目モジュールを脳デコーダに統合し、DNNチャネルの深い解釈を容易にする。 また,fMRI信号内の時間空間相互作用を抽出する4次元畳み込み操作も行った。 実験により、提案モデルは非常に高い精度(97.4%)を得て、ヒトコネクトームプロジェクト(hcp)データセットから得られた7つの異なるタスクベンチマークを上回った。 可視化分析により,奥行きを持つタスク固有マスクの階層的出現がさらに示された。 最後に、モデルは、HCP内の個々の特性を回帰し、BOLD5000データセットから画像をそれぞれ分類するために再訓練された。 転送学習も優れたパフォーマンスを達成します。 さらなる可視化分析により、トランスファー学習後、低レベルアテンションマスクはソースドメインに類似し、高レベルアテンションマスクは適応的に変化した。 その結果,提案する注意モジュール付き4次元モデルが良好に機能し,その後の研究に役立つdnnの解釈が容易になった。

Decoding brain cognitive states from neuroimaging signals is an important topic in neuroscience. In recent years, deep neural networks (DNNs) have been recruited for multiple brain state decoding and achieved good performance. However, the open question of how to interpret the DNN black box remains unanswered. Capitalizing on advances in machine learning, we integrated attention modules into brain decoders to facilitate an in-depth interpretation of DNN channels. A 4D convolution operation was also included to extract temporo-spatial interaction within the fMRI signal. The experiments showed that the proposed model obtains a very high accuracy (97.4%) and outperforms previous researches on the 7 different task benchmarks from the Human Connectome Project (HCP) dataset. The visualization analysis further illustrated the hierarchical emergence of task-specific masks with depth. Finally, the model was retrained to regress individual traits within the HCP and to classify viewing images from the BOLD5000 dataset, respectively. Transfer learning also achieves good performance. A further visualization analysis shows that, after transfer learning, low-level attention masks remained similar to the source domain, whereas high-level attention masks changed adaptively. In conclusion, the proposed 4D model with attention module performed well and facilitated interpretation of DNNs, which is helpful for subsequent research.
翻訳日:2021-10-06 07:33:22 公開日:2021-10-03
# (参考訳) グラフ検索のためのディープニューラルマッチングモデル [全文訳有]

Deep Neural Matching Models for Graph Retrieval ( http://arxiv.org/abs/2110.00925v1 )

ライセンス: CC BY 4.0
Chitrank Gupta, Yash Jain(参考訳) Graph Retrievalはこの数年間、継続的な関心と進歩を目撃してきた。 本稿では、グラフマッチングとグラフのコーパスからの類似グラフ検索のためのニューラルネットワークベースのアプローチに焦点を当てる。 2つのグラフ間の類似性をソフトに予測する手法を検討する。 その後、特定のベースライン(最短パスカーネル)のパワーを計測し、製品グラフのランダムウォーク設定でモデル化し、より一般化するようにします。

Graph Retrieval has witnessed continued interest and progress in the past few years. In thisreport, we focus on neural network based approaches for Graph matching and retrieving similargraphs from a corpus of graphs. We explore methods which can soft predict the similaritybetween two graphs. Later, we gauge the power of a particular baseline (Shortest Path Kernel)and try to model it in our product graph random walks setting while making it more generalised.
翻訳日:2021-10-06 07:21:50 公開日:2021-10-03
# (参考訳) ニューラルネットワークトレーニングのためのスケジューリング最適化手法 [全文訳有]

Scheduling Optimization Techniques for Neural Network Training ( http://arxiv.org/abs/2110.00929v1 )

ライセンス: CC BY 4.0
Hyungjun Oh, Hyungjun Oh, HyeongJu Kim, Jiwon Seo(参考訳) ニューラルネットワークのトレーニングには大量の計算が必要であるため、アクセラレーションにはGPUがよく使用される。 本稿では,ニューラルネットワークトレーニングの効果的なスケジューリング手法であるアウト・オブ・オーダー(ooo)バックプロップを提案する。 勾配計算の依存関係を活用することで、ooo backpropは実行をリオーダーしてGPUリソースを最大限活用することができる。 単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、oooバックプロップを適用して重要な操作を優先順位付けすることにより、一般的に改善可能であることを示す。 我々は,ooobackpropに基づく3つのスケジューリングアルゴリズムを提案する。 シングルGPUトレーニングでは、カーネルの起動オーバーヘッドを隠すために、マルチストリームのアウトオブオーダ計算をスケジュールします。 In data-parallel training, we reorder the gradient computations to maximize the overlapping of computation and parameter communication; in pipeline-parallel training, we prioritize critical gradient computations to reduce the pipeline stalls.We evaluate our optimizations with twelve neural networks including a light-weight computer vision model (MobileNet) and largeNLP models (BERT and GPT-3) with up to forty eight V100 GPUs.Our scheduling algorithms effectively improve the performance of single-GPU training as well as data- and pipeline-parallel training.Compared to the respective state of the art training systems, the throughput is substantially improved for single-GPU, data-parallel, and pipeline-parallel training.

Neural network training requires a large amount of computation and thus GPUs are often used for the acceleration. While they improve the performance, GPUs are underutilized during the training.This paper proposes out-of-order (ooo) backprop, an effective scheduling technique for neural network training. By exploiting the dependencies of gradient computations, ooo backprop enables to reorder their executions to make the most of the GPU resources. We show that the GPU utilization in single-GPU, data-parallel, and pipeline-parallel training can be commonly improve by applying ooo back-prop and prioritizing critical operations. We propose three scheduling algorithms based on ooo backprop. For single-GPU training, we schedule with multi-stream out-of-order computation to mask the kernel launch overhead. In data-parallel training, we reorder the gradient computations to maximize the overlapping of computation and parameter communication; in pipeline-parallel training, we prioritize critical gradient computations to reduce the pipeline stalls.We evaluate our optimizations with twelve neural networks including a light-weight computer vision model (MobileNet) and largeNLP models (BERT and GPT-3) with up to forty eight V100 GPUs.Our scheduling algorithms effectively improve the performance of single-GPU training as well as data- and pipeline-parallel training.Compared to the respective state of the art training systems, the throughput is substantially improved for single-GPU, data-parallel, and pipeline-parallel training.
翻訳日:2021-10-06 07:12:49 公開日:2021-10-03
# (参考訳) 高齢者の薬物摂取支援のためのチャットボットへのサブトラクションマウンテンクラスタリングアルゴリズムの適用 [全文訳有]

Subtractive mountain clustering algorithm applied to a chatbot to assist elderly people in medication intake ( http://arxiv.org/abs/2110.00933v1 )

ライセンス: CC BY 4.0
Neuza Clar and Paulo A. Salgado and T-P Azevedo Perdico\'ulis(参考訳) 高齢者の薬物摂取の誤差は非常に多い。 この主な原因の1つは、情報の保持能力の喪失である。 高齢化に必要な薬の摂取量は、もう1つの制限要因である。 高齢者が薬を服用するのを助けるための対話型援助システムの設計、好ましくは自然言語の使用が求められている。 教師なし学習モデルに含まれる減算的クラスタアルゴリズムに基づくチャットボットは、自然言語の処理が、高齢者が特定の薬物について自分自身に答えることができるチャットボットを構築する上で必要なステップであるため、選択されたソリューションである。 本研究では,自然言語処理の問題に対して,減算的マウンテンクラスタリングアルゴリズムを適用した。 このアルゴリズムバージョンでは、単語の集合をクラスタに関連付けることができる。 最も関連する単語であるクラスタの中心を見つけると、他の単語はすべて、言語処理領域に適応した定義されたメトリックに従って集約される。 関連する格納された情報はすべてアルゴリズムによって処理され、質問も処理される。 テキストの正しい処理により、チャットボットは、ポーズされたクエリに関連する回答を生成することができる。 本手法を検証するために,薬物のパッケージ挿入を利用可能な情報として使用し,関連する質問を定式化する。

Errors in medication intake among elderly people are very common. One of the main causes for this is their loss of ability to retain information. The high amount of medicine intake required by the advanced age is another limiting factor. Thence, the design of an interactive aid system, preferably using natural language, to help the older population with medication is in demand. A chatbot based on a subtractive cluster algorithm, included in unsupervised learned models, is the chosen solution since the processing of natural languages is a necessary step in view to construct a chatbot able to answer questions that older people may pose upon themselves concerning a particular drug. In this work, the subtractive mountain clustering algorithm has been adapted to the problem of natural languages processing. This algorithm version allows for the association of a set of words into clusters. After finding the centre of every cluster -- the most relevant word, all the others are aggregated according to a defined metric adapted to the language processing realm. All the relevant stored information is processed, as well as the questions, by the algorithm. The correct processing of the text enables the chatbot to produce answers that relate to the posed queries. To validate the method, we use the package insert of a drug as the available information and formulate associated questions.
翻訳日:2021-10-06 06:47:49 公開日:2021-10-03
# (参考訳) PL-EESR:知覚損失に基づくエンドツーエンドロバスト話者表現抽出 [全文訳有]

PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation Extraction ( http://arxiv.org/abs/2110.00940v1 )

ライセンス: CC BY 4.0
Yi Ma and Kong Aik Lee and Ville Hautamaki and Haizhou Li(参考訳) 音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。 しかし、過剰な抑制は音声の歪みと話者情報損失を引き起こし、話者埋め込み抽出の性能を低下させる。 そこで本稿では,この問題を解決するために,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークpl-eesrを提案する。 この枠組みは、話者識別タスクのフィードバックと、生音声信号とその雑音バージョン間の高レベルの知覚偏差に基づいて最適化される。 騒音環境とクリーン環境の両方で話者検証を行い,システムの評価を行った。 本手法は, ベースラインと比較して, クリーン環境とノイズ環境の両方において良好な性能を示すため, 話者相対情報の向上だけでなく, 歪みの付加も回避できる。

Speech enhancement aims to improve the perceptual quality of the speech signal by suppression of the background noise. However, excessive suppression may lead to speech distortion and speaker information loss, which degrades the performance of speaker embedding extraction. To alleviate this problem, we propose an end-to-end deep learning framework, dubbed PL-EESR, for robust speaker representation extraction. This framework is optimized based on the feedback of the speaker identification task and the high-level perceptual deviation between the raw speech signal and its noisy version. We conducted speaker verification tasks in both noisy and clean environment respectively to evaluate our system. Compared to the baseline, our method shows better performance in both clean and noisy environments, which means our method can not only enhance the speaker relative information but also avoid adding distortions.
翻訳日:2021-10-06 06:35:42 公開日:2021-10-03
# (参考訳) 乳癌検出のための人工知能:トレンドと方向性

Artificial Intelligence For Breast Cancer Detection: Trends & Directions ( http://arxiv.org/abs/2110.00942v1 )

ライセンス: CC BY 4.0
Shahid Munir Shah, Rizwan Ahmed Khan, Sheeraz Arif and Unaiza Sajid(参考訳) 過去10年間で、コンピュータービジョンと人工知能(AI)の分野で働く研究者たちは、乳がんの検出だけでなく、乳がんのステージも特定する自動化フレームワークの開発に力を注いでいる。 この方向に研究活動が急増したのは、主に、堅牢なAIアルゴリズム(深層学習)の出現、堅牢で複雑なAIアルゴリズムをトレーニング可能なハードウェアの可用性、AIアルゴリズムのトレーニングに必要な十分なデータセットのアクセシビリティが原因である。 乳がん検出のタスクを自動化するために研究者が利用した様々な画像モダリティは、マンモグラム、超音波、磁気共鳴画像、病理画像、またはそれらの組み合わせである。 本稿では,これらの画像モダリティを分析し,その強みと限界を提示し,研究目的のデータセットにアクセス可能なリソースを列挙する。 この記事では,過去10年間に提案されてきたAIとコンピュータビジョンに基づく最先端の手法を要約し,様々な画像モダリティを用いて乳癌を検出する。 一般的に, 乳がん検診では, 乳がん検診を前提とした第一検査として, 乳房画像検査法が広く用いられているため, 乳がん検診の結果を報告したフレームワークのレビューに焦点をあてた。 マンモグラムイメージングのモダリティにフォーカスする第2の理由は、ラベル付きデータセットが利用可能であることだ。 データセットの可用性は、aiベースのフレームワークの開発において最も重要な側面の1つであり、そのようなアルゴリズムはデータに飢えており、一般的にデータセットの品質は、aiベースのアルゴリズムのパフォーマンスに影響する。 一言で言えば,本研究論文は,乳房自動画像解析の分野における研究コミュニティの第一の資源として機能する。

In the last decade, researchers working in the domain of computer vision and Artificial Intelligence (AI) have beefed up their efforts to come up with the automated framework that not only detects but also identifies stage of breast cancer. The reason for this surge in research activities in this direction are mainly due to advent of robust AI algorithms (deep learning), availability of hardware that can train those robust and complex AI algorithms and accessibility of large enough dataset required for training AI algorithms. Different imaging modalities that have been exploited by researchers to automate the task of breast cancer detection are mammograms, ultrasound, magnetic resonance imaging, histopathological images or any combination of them. This article analyzes these imaging modalities and presents their strengths, limitations and enlists resources from where their datasets can be accessed for research purpose. This article then summarizes AI and computer vision based state-of-the-art methods proposed in the last decade, to detect breast cancer using various imaging modalities. Generally, in this article we have focused on to review frameworks that have reported results using mammograms as it is most widely used breast imaging modality that serves as first test that medical practitioners usually prescribe for the detection of breast cancer. Second reason of focusing on mammogram imaging modalities is the availability of its labeled datasets. Datasets availability is one of the most important aspect for the development of AI based frameworks as such algorithms are data hungry and generally quality of dataset affects performance of AI based algorithms. In a nutshell, this research article will act as a primary resource for the research community working in the field of automated breast imaging analysis.
翻訳日:2021-10-06 06:24:37 公開日:2021-10-03
# (参考訳) LexGLUE: 英語の法言語理解のためのベンチマークデータセット [全文訳有]

LexGLUE: A Benchmark Dataset for Legal Language Understanding in English ( http://arxiv.org/abs/2110.00976v1 )

ライセンス: CC BY 4.0
Ilias Chalkidis, Abhik Jana, Dirk Hartung, Michael Bommarito, Ion Androutsopoulos, Daniel Martin Katz, and Nikolaos Aletras(参考訳) 法律、法律の解釈、法的議論、合意などは通常、書面で表現され、法文の膨大なコーパスが生み出される。 彼らの分析は、法律実務の中心にあり、これらのコレクションのサイズが大きくなるにつれて、ますます精巧になっていく。 自然言語理解(NLU)技術は、これらの取り組みにおける法的実践者を支援する貴重なツールとなり得る。 しかし、それらの有用性は、現在の最先端モデルが法域内の様々なタスクにまたがって一般化できるかどうかに大きく依存する。 現在公開されているこの疑問に答えるために、我々は、さまざまな法的NLUタスクの集合にわたるモデルパフォーマンスを評価するデータセットの集合であるLexGLUEベンチマーク(LexGLUE)を紹介する。 また,複数タスクにまたがる性能改善が一貫して実現されていることを示す,いくつかの汎用的および法的なモデルの評価と分析も提供する。

Law, interpretations of law, legal arguments, agreements, etc. are typically expressed in writing, leading to the production of vast corpora of legal text. Their analysis, which is at the center of legal practice, becomes increasingly elaborate as these collections grow in size. Natural language understanding (NLU) technologies can be a valuable tool to support legal practitioners in these endeavors. Their usefulness, however, largely depends on whether current state-of-the-art models can generalize across various tasks in the legal domain. To answer this currently open question, we introduce the Legal General Language Understanding Evaluation (LexGLUE) benchmark, a collection of datasets for evaluating model performance across a diverse set of legal NLU tasks in a standardized way. We also provide an evaluation and analysis of several generic and legal-oriented models demonstrating that the latter consistently offer performance improvements across multiple tasks.
翻訳日:2021-10-06 06:21:38 公開日:2021-10-03
# (参考訳) SecFL:TEEを用いた秘密のフェデレーション学習 [全文訳有]

SecFL: Confidential Federated Learning using TEEs ( http://arxiv.org/abs/2110.00981v1 )

ライセンス: CC BY 4.0
Do Le Quoc and Christof Fetzer(参考訳) Federated Learning(FL)は、複数のクライアントが、ローカルのトレーニングデータセットを共有することなく、クライアントからさまざまなデータセットの恩恵を受けるようにモデルを共同でトレーニングすることを可能にする、新興機械学習パラダイムである。 FLはデータプライバシのリスクを軽減する。 残念ながら、FLはプライバシとセキュリティに関するいくつかの問題が存在する。 まず、共有トレーニングパラメータから機密情報を漏洩させることができる。 第二に、悪意のあるクライアントは互いに衝突して、通常のクライアントからデータやモデルを盗んだり、グローバルなトレーニングモデルを破壊したりすることができる。 これらの課題に対処するため,TEE(Trusted Execution Environments)を活用した秘密のフェデレーション学習フレームワークであるSecFLを提案する。 SecFLはTEEエンクレーブ内のグローバルおよびローカルなトレーニングを実行し、特権アクセスを持つ強力な敵に対する計算の機密性と完全性を保証する。 SecFLは、クライアントがグローバルなトレーニング計算だけでなく、相互にローカルなトレーニング計算を証明できるように、TEEが提供するリモートテストに依存する、透過的なリモートテストメカニズムを提供する。 したがって、すべての悪意のあるクライアントはリモート検査機構を使って検出できる。

Federated Learning (FL) is an emerging machine learning paradigm that enables multiple clients to jointly train a model to take benefits from diverse datasets from the clients without sharing their local training datasets. FL helps reduce data privacy risks. Unfortunately, FL still exist several issues regarding privacy and security. First, it is possible to leak sensitive information from the shared training parameters. Second, malicious clients can collude with each other to steal data, models from regular clients or corrupt the global training model. To tackle these challenges, we propose SecFL - a confidential federated learning framework that leverages Trusted Execution Environments (TEEs). SecFL performs the global and local training inside TEE enclaves to ensure the confidentiality and integrity of the computations against powerful adversaries with privileged access. SecFL provides a transparent remote attestation mechanism, relying on the remote attestation provided by TEEs, to allow clients to attest the global training computation as well as the local training computation of each other. Thus, all malicious clients can be detected using the remote attestation mechanisms.
翻訳日:2021-10-06 05:51:05 公開日:2021-10-03
# (参考訳) モチーフに基づくグラフ自己監督学習による分子特性予測 [全文訳有]

Motif-based Graph Self-Supervised Learning forMolecular Property Prediction ( http://arxiv.org/abs/2110.00987v1 )

ライセンス: CC BY-SA 4.0
Zaixi Zhang, Qi Liu, Hao Wang, Chengqiang Lu, Chee-Kong Lee(参考訳) 近年,データ駆動法による分子特性の予測が注目されている。 特にグラフニューラルネットワーク(GNN)は、様々な分子生成や予測タスクにおいて顕著な成功を収めている。 ラベル付きデータが不足している場合には、GNNを未ラベルの分子データで事前訓練して、特定のタスクのために微調整される前に、まず一般的な意味と構造情報を学習することができる。 しかし、既存のGNN用の自己教師付き事前トレーニングフレームワークのほとんどは、ノードレベルまたはグラフレベルタスクのみに焦点を当てている。 これらのアプローチは、サブグラフやグラフモチーフでリッチな情報をキャプチャできない。 例えば、官能基(分子グラフにしばしば現れる部分グラフ)は、しばしば分子の性質を示す情報を持っている。 このギャップを埋めるために,gnnのための新しい自己教師付きモチーフ生成フレームワークを導入することで,モチーフベースのグラフ自己教師付き学習(mgssl)を提案する。 まず,分子グラフからモチーフ抽出を行うために,再合成に基づくアルゴリズムBRICSと,モチーフ語彙のサイズを制御するための追加規則を利用する分子断片化法を設計する。 第2に、GNNにトポロジ的およびラベル的予測を依頼する一般的なモチーフに基づく生成事前学習フレームワークを設計する。 この生成フレームワークは、幅優先または深さ優先の2つの異なる方法で実装することができる。 最後に,分子グラフのマルチスケール情報を考慮し,マルチレベル自己教師型事前学習を導入する。 様々なダウンストリームベンチマークタスクに対する大規模な実験により、我々の手法は最先端のベースラインを全て上回ります。

Predicting molecular properties with data-driven methods has drawn much attention in recent years. Particularly, Graph Neural Networks (GNNs) have demonstrated remarkable success in various molecular generation and prediction tasks. In cases where labeled data is scarce, GNNs can be pre-trained on unlabeled molecular data to first learn the general semantic and structural information before being fine-tuned for specific tasks. However, most existing self-supervised pre-training frameworks for GNNs only focus on node-level or graph-level tasks. These approaches cannot capture the rich information in subgraphs or graph motifs. For example, functional groups (frequently-occurred subgraphs in molecular graphs) often carry indicative information about the molecular properties. To bridge this gap, we propose Motif-based Graph Self-supervised Learning (MGSSL) by introducing a novel self-supervised motif generation framework for GNNs. First, for motif extraction from molecular graphs, we design a molecule fragmentation method that leverages a retrosynthesis-based algorithm BRICS and additional rules for controlling the size of motif vocabulary. Second, we design a general motif-based generative pre-training framework in which GNNs are asked to make topological and label predictions. This generative framework can be implemented in two different ways, i.e., breadth-first or depth-first. Finally, to take the multi-scale information in molecular graphs into consideration, we introduce a multi-level self-supervised pre-training. Extensive experiments on various downstream benchmark tasks show that our methods outperform all state-of-the-art baselines.
翻訳日:2021-10-06 05:44:33 公開日:2021-10-03
# (参考訳) キーポイントコミュニティ [全文訳有]

Keypoint Communities ( http://arxiv.org/abs/2110.00988v1 )

ライセンス: CC BY 4.0
Duncan Zauss, Sven Kreiss, Alexandre Alahi(参考訳) 本稿では,人間や物体上の100以上のキーポイントを共同で検出する高速ボトムアップ手法を提案する。 人間またはオブジェクトに属するすべてのキーポイント -- ポーズ -- をグラフとしてモデル化し、コミュニティ検出からの洞察を活用してキーポイントの独立性を定量化します。 ポーズの異なる部分にトレーニングウェイトを割り当てるために、グラフ集中度尺度を使用します。 提案手法は,キーポイントが近隣とどの程度密に繋がっているかを定量化する。 提案手法は,顔,手,足に細粒度のキーポイントアノテーションを付加した人間のポーズ推定手法を,合計で133個のキーポイントで比較した。 また,本手法がカーポーズに一般化することを示す。

We present a fast bottom-up method that jointly detects over 100 keypoints on humans or objects, also referred to as human/object pose estimation. We model all keypoints belonging to a human or an object -- the pose -- as a graph and leverage insights from community detection to quantify the independence of keypoints. We use a graph centrality measure to assign training weights to different parts of a pose. Our proposed measure quantifies how tightly a keypoint is connected to its neighborhood. Our experiments show that our method outperforms all previous methods for human pose estimation with fine-grained keypoint annotations on the face, the hands and the feet with a total of 133 keypoints. We also show that our method generalizes to car poses.
翻訳日:2021-10-06 05:29:00 公開日:2021-10-03
# (参考訳) EAR-U-Net:CTにおける自動肝セグメンテーションのための高効率ネットとアテンションベース残留U-Net [全文訳有]

EAR-U-Net: EfficientNet and attention-based residual U-Net for automatic liver segmentation in CT ( http://arxiv.org/abs/2110.01014v1 )

ライセンス: CC BY 4.0
Jinke Wang (1 and 2), Xiangyang Zhang (1), Peiqing Lv (1), Lubiao Zhou (1), Haiying Wang (1) ((1) School of Automation, Harbin University of Science and Technology, Harbin, 150080, China, (2) Rongcheng College, Harbin University of Science and Technology, Rongcheng, 264300, China)(参考訳) 目的:本論文では,EfficientNetB4,アテンションゲート,残留学習技術を活用したEAR-U-Netという新しいネットワークフレームワークを提案する。 方法:提案手法はU-Netフレームワークに基づいている。 まず、エンコーダとしてEfficientNetB4を使用し、エンコーダの段階でより多くの特徴情報を抽出する。 そして、スキップ接続に注目ゲートを導入し、無関係な領域を排除し、特定のセグメンテーションタスクの特徴を強調する。 最後に、勾配消滅の問題を緩和するため、復号器の従来の畳み込みを残留ブロックに置き換え、セグメンテーション精度を向上させる。 結果: 提案手法をLiTS17およびSLiver07データセット上で検証し, FCN, U-Net, Attention U-Net, Attention Res-U-Netなどの古典的ネットワークと比較した。 Sliver07の評価において,提案手法は5つの標準指標で最高のセグメンテーション性能を達成した。 一方、LiTS17評価では、RVDに若干劣る以外は、最高の性能が得られる。 また,MIICCIA-LiTS17チャレンジにも参加し,ケースごとのDiceスコアは0.952。 結論: 提案手法の質的定量的評価は, 肝分画における有用性を示し, コンピュータ支援肝分画における有用性を示した。

Purpose: This paper proposes a new network framework called EAR-U-Net, which leverages EfficientNetB4, attention gate, and residual learning techniques to achieve automatic and accurate liver segmentation. Methods: The proposed method is based on the U-Net framework. First, we use EfficientNetB4 as the encoder to extract more feature information during the encoding stage. Then, an attention gate is introduced in the skip connection to eliminate irrelevant regions and highlight features of a specific segmentation task. Finally, to alleviate the problem of gradient vanishment, we replace the traditional convolution of the decoder with a residual block to improve the segmentation accuracy. Results: We verified the proposed method on the LiTS17 and SLiver07 datasets and compared it with classical networks such as FCN, U-Net, Attention U-Net, and Attention Res-U-Net. In the Sliver07 evaluation, the proposed method achieved the best segmentation performance on all five standard metrics. Meanwhile, in the LiTS17 assessment, the best performance is obtained except for a slight inferior on RVD. Moreover, we also participated in the MICCIA-LiTS17 challenge, and the Dice per case score was 0.952. Conclusion: The proposed method's qualitative and quantitative results demonstrated its applicability in liver segmentation and proved its good prospect in computer-assisted liver segmentation.
翻訳日:2021-10-06 05:17:48 公開日:2021-10-03
# (参考訳) AIを用いたビデオ再生スタイル予測のための時空間ビデオ表現学習 [全文訳有]

Spatio-Temporal Video Representation Learning for AI Based Video Playback Style Prediction ( http://arxiv.org/abs/2110.01015v1 )

ライセンス: CC BY 4.0
Rishubh Parihar, Gaurav Ramola, Ranajit Saha, Ravi Kini, Aniket Rege, Sudha Velusamy(参考訳) スマートフォンが生み出すビデオコンテンツの増加は、電力制約のあるデバイスでビデオを編集し、拡張するためのインテリジェントな技術を要求する。 アクション認識やローカライゼーションなどのビデオ理解タスクに最適なアルゴリズムのほとんどは、正確な予測を行うために、豊富な時空間表現に依存している。 時空間表現の効果的な学習には,映像中の物体の動きパターンを理解することが重要である。 本稿では,動作型分類による物体の動きの理解のための新しいアプローチを提案する。 提案するモーションタイプ分類器は,映像中の物体の軌跡に基づいて動画のモーションタイプを予測する。 我々の分類器は、以下の5つの原始運動クラス(線形、射影、発振、局所、ランダム)から与えられた動画のモーションタイプを割り当てる。 動作型分類から学習した表現が,映像検索の課題である下流作業に有効であることを示す。 さらに,動作型分類器の予測に基づくビデオ再生スタイルの推薦システムを提案する。

Ever-increasing smartphone-generated video content demands intelligent techniques to edit and enhance videos on power-constrained devices. Most of the best performing algorithms for video understanding tasks like action recognition, localization, etc., rely heavily on rich spatio-temporal representations to make accurate predictions. For effective learning of the spatio-temporal representation, it is crucial to understand the underlying object motion patterns present in the video. In this paper, we propose a novel approach for understanding object motions via motion type classification. The proposed motion type classifier predicts a motion type for the video based on the trajectories of the objects present. Our classifier assigns a motion type for the given video from the following five primitive motion classes: linear, projectile, oscillatory, local and random. We demonstrate that the representations learned from the motion type classification generalizes well for the challenging downstream task of video retrieval. Further, we proposed a recommendation system for video playback style based on the motion type classifier predictions.
翻訳日:2021-10-06 05:00:38 公開日:2021-10-03
# (参考訳) DARDet:空中画像用高密度アンカーレス回転物体検出器 [全文訳有]

DARDet: A Dense Anchor-free Rotated Object Detector in Aerial Images ( http://arxiv.org/abs/2110.01025v1 )

ライセンス: CC BY 4.0
Feng Zhang, Xueying Wang, Shilin Zhou, Yingqian Wang(参考訳) 空中画像における回転物体検出は、幅広い用途に注目が集まっている。 しかし, スケール, 回転, アスペクト比, および密集した目標が多様であることから, 課題でもある。 既存の手法の多くは、スケール、角度、アスペクト比の異なる多数の事前定義されたアンカーに大きく依存しており、距離損失に最適化されている。 したがって,これらの手法は過パラメータのアンカーに敏感であり,境界の不連続による性能劣化に容易に悩まされる。 そこで本研究では,空中画像における回転物体検出のための高密度アンカーフリー回転物体検出器(DARDet)を提案する。 私たちのdardetは、フィーチャーマップの前景ピクセルの回転ボックスの5つのパラメータを直接予測します。 我々はアライメント畳み込みモジュールを設計し,アライメント特徴を抽出し,高精度かつ安定な回帰のためのpiou損失を導入する。 本手法は,高効率を保ちながら,一般的に使用されている3つの空中オブジェクトデータセット(DOTA,HRSC2016,UCAS- AOD)の最先端性能を実現する。 コードはhttps://github.com/z f020114/dardetで入手できる。

Rotated object detection in aerial images has received increasing attention for a wide range of applications. However, it is also a challenging task due to the huge variations of scale, rotation, aspect ratio, and densely arranged targets. Most existing methods heavily rely on a large number of pre-defined anchors with different scales, angles, and aspect ratios, and are optimized with a distance loss. Therefore, these methods are sensitive to anchor hyper-parameters and easily suffer from performance degradation caused by boundary discontinuity. To handle this problem, in this paper, we propose a dense anchor-free rotated object detector (DARDet) for rotated object detection in aerial images. Our DARDet directly predicts five parameters of rotated boxes at each foreground pixel of feature maps. We design a new alignment convolution module to extracts aligned features and introduce a PIoU loss for precise and stable regression. Our method achieves state-of-the-art performance on three commonly used aerial objects datasets (i.e., DOTA, HRSC2016, and UCAS-AOD) while keeping high efficiency. Code is available at https://github.com/z f020114/DARDet.
翻訳日:2021-10-06 04:49:57 公開日:2021-10-03
# (参考訳) 自律運転におけるエンド・ツー・エンド学習のための周縁調整応答分布 [全文訳有]

Marginally calibrated response distributions for end-to-end learning in autonomous driving ( http://arxiv.org/abs/2110.01050v1 )

ライセンス: CC BY 4.0
Clara Hoffmann and Nadja Klein(参考訳) エンド・ツー・エンドの自動運転学習者は、先行する道路の画像から瞬時に操舵角度を予測するディープニューラルネットワークである。 これらの学習者は、安全要件を満たし、高い不確実性のある領域における手動制御への切り替えを開始するために、予測に対する確実な不確実性推定を提供する必要がある。 しかし、エンド・ツー・エンド学習者は、分布予測は、予測中にトレーニング時間や追加の計算リソースの増加と関連しているため、ポイント予測のみを提供する。 この欠点に対処するために,klein,nott,smith (2021) の暗黙のコプラ神経線形モデルに対する効率的かつスケーラブルな近似推論を行い,エンド・ツー・エンド学習者の予測の不確かさを定量化する。 その結果, ステアリング角度の平均値は, ステアリング角度の平均値と, ステアリング角度の平均値に等しいことがわかった。 大きな$n$レジームへのスケーラビリティを確保するため、ハミルトニアンモンテカルロによる計算集約的正確な推論の代替として、変分推論に基づく効率的な推定法を開発した。 comma2k19データセットを用いて高速道路走行訓練を行った2人のエンド・ツー・エンド学習者を対象に,変分アプローチの精度と速度をハミルトニアンモンテカルロと比較した。 暗黙のコプラ神経線形モデルは正確な校正と高品質の予測間隔を提供し、自信過剰な学習者を特定することができる。 提案手法は,エンドツーエンド学習者がどのステアリング動作を有効とみなすかを理解するために,予測密度を用いることで,ブラックボックスのエンド・ツー・エンド学習者の説明可能性にも寄与する。

End-to-end learners for autonomous driving are deep neural networks that predict the instantaneous steering angle directly from images of the ahead-lying street. These learners must provide reliable uncertainty estimates for their predictions in order to meet safety requirements and initiate a switch to manual control in areas of high uncertainty. Yet end-to-end learners typically only deliver point predictions, since distributional predictions are associated with large increases in training time or additional computational resources during prediction. To address this shortcoming we investigate efficient and scalable approximate inference for the implicit copula neural linear model of Klein, Nott and Smith (2021) in order to quantify uncertainty for the predictions of end-to-end learners. The result are densities for the steering angle that are marginally calibrated, i.e.~the average of the estimated densities equals the empirical distribution of steering angles. To ensure the scalability to large $n$ regimes, we develop efficient estimation based on variational inference as a fast alternative to computationally intensive, exact inference via Hamiltonian Monte Carlo. We demonstrate the accuracy and speed of the variational approach in comparison to Hamiltonian Monte Carlo on two end-to-end learners trained for highway driving using the comma2k19 data set. The implicit copula neural linear model delivers accurate calibration, high-quality prediction intervals and allows to identify overconfident learners. Our approach also contributes to the explainability of black-box end-to-end learners, since predictive densities can be used to understand which steering actions the end-to-end learner sees as valid.
翻訳日:2021-10-06 04:37:06 公開日:2021-10-03
# (参考訳) メディア・インフォメーションのための画像認証フレームワークの新しいアプローチ [全文訳有]

A New Approach for Image Authentication Framework for Media Forensics Purpose ( http://arxiv.org/abs/2110.01065v1 )

ライセンス: CC BY 4.0
Ahmad M Nagm, Khaled Y Youssef, Mohammad I Youssef(参考訳) 医療、海洋学、探査処理、安全保障目的、軍事分野、天文学、犯罪者の証拠など多くの分野でデジタルメディアが広く普及するにつれて、デジタル画像は、デジタル画像による情報を運ぶことの重要性に応じて、異なる評価値を持つようになる。 デジタル画像の操作性が(適切なコンピュータソフトウェアによって)容易であることから、法廷で法医学的証拠としてデジタル画像を使用する陪審員が、特に、デジタル画像が被疑者と犯罪者の関係を示す主要な証拠である場合、疑わしい。 明らかに、修正や複製のような不正なプロセスを検出し、犯罪の権利を保証するための証拠の保護を強化するためのデータ原性保護法の重要性を示す。 本稿では,デジタル画像認証と独自性識別技術と関連する方法論,アルゴリズム,プロトコルをカメラで捉えた画像に適用するための,新たなデジタル法医学的セキュリティフレームワークを提案する。 このアプローチは、調査中の画像の不正な修正を示すrgbイメージにシークレットコードを組み込むことに依存する。 シークレットコード生成は主に2つのパラメータタイプ、すなわち画像の特徴とデバイス識別子のキャプチャに依存する。 本稿では、アーキテクチャフレームワークを、関連するプロトコル、アルゴリズム、方法論とともに分析し、説明し、議論する。 また、画像ベンチマークや品質テスト技術に加えて、シークレットコードの推論と挿入のテクニックも分析して議論します。

With the increasing widely spread digital media become using in most fields such as medical care, Oceanography, Exploration processing, security purpose, military fields and astronomy, evidence in criminals and more vital fields and then digital Images become have different appreciation values according to what is important of carried information by digital images. Due to the easy manipulation property of digital images (by proper computer software) makes us doubtful when are juries using digital images as forensic evidence in courts, especially, if the digital images are main evidence to demonstrate the relationship between suspects and the criminals. Obviously, here demonstrate importance of data Originality Protection methods to detect unauthorized process like modification or duplication and then enhancement protection of evidence to guarantee rights of incriminatory. In this paper, we shall introduce a novel digital forensic security framework for digital image authentication and originality identification techniques and related methodologies, algorithms and protocols that are applied on camera captured images. The approach depends on implanting secret code into RGB images that should indicate any unauthorized modification on the image under investigation. The secret code generation depends mainly on two main parameter types, namely the image characteristics and capturing device identifier. In this paper, the architecture framework will be analyzed, explained and discussed together with the associated protocols, algorithms and methodologies. Also, the secret code deduction and insertion techniques will be analyzed and discussed, in addition to the image benchmarking and quality testing techniques.
翻訳日:2021-10-06 04:05:20 公開日:2021-10-03
# (参考訳) 二元フィードバックを用いた文脈探索のためのアクティブラーニング [全文訳有]

Active Learning for Contextual Search with Binary Feedbacks ( http://arxiv.org/abs/2110.01072v1 )

ライセンス: CC BY 4.0
Chen, Xi and Liu, Quanquan and Wang, Yining(参考訳) 本稿では,プライスオークション,パーソナライズされた医学実験,機能ベースの価格実験などの応用を動機とする文脈検索における学習問題について検討する。 特に、到着するコンテキストベクトルのシーケンスに対して、各コンテキストが基礎となる値に関連付けられている場合、意思決定者は特定のポイントでクエリを行うか、コンテキストをスキップする。 意思決定者は、クエリポイントとコンテキストに関連する値の関係について、バイナリフィードバックだけを観察します。 本研究では,最小クエリ数で文脈の平均値関数を学習することを目的としたpac学習環境について検討する。 そこで本研究では,この課題に対処するために,マージンベースアクティブラーニング法を併用した三分割探索手法を提案する。 我々は,アルゴリズムが$O(1/\varepsilon^2)$クエリを作成すれば,$\epsilon$-estimati on精度が得られることを示した。 このサンプルの複雑さは、少なくとも$\Omega(1/\varepsilo n^4)$の受動的設定において必要とされるサンプルの複雑さを著しく減少させる。

In this paper, we study the learning problem in contextual search, which is motivated by applications such as first-price auction, personalized medicine experiments, and feature-based pricing experiments. In particular, for a sequence of arriving context vectors, with each context associated with an underlying value, the decision-maker either makes a query at a certain point or skips the context. The decision-maker will only observe the binary feedback on the relationship between the query point and the value associated with the context. We study a PAC learning setting, where the goal is to learn the underlying mean value function in context with a minimum number of queries. To address this challenge, we propose a tri-section search approach combined with a margin-based active learning method. We show that the algorithm only needs to make $O(1/\varepsilon^2)$ queries to achieve an $\epsilon$-estimatio n accuracy. This sample complexity significantly reduces the required sample complexity in the passive setting, at least $\Omega(1/\varepsilo n^4)$.
翻訳日:2021-10-06 03:51:36 公開日:2021-10-03
# (参考訳) 並列アクターと学習者:スケーラブルなRL実装を生成するフレームワーク [全文訳有]

Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations ( http://arxiv.org/abs/2110.01101v1 )

ライセンス: CC BY 4.0
Chi Zhang, Sanmukh Rao Kuppannagari, Viktor K Prasanna(参考訳) 強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。 しかし、RLエージェントの訓練は非常に時間がかかる。 現在の実装では、不規則なメモリアクセスや同期オーバーヘッドなどの問題によりパフォーマンスが低下している。 本研究では,マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。 Replay Bufferは、環境相互作用から得られたサンプルの保存と学習プロセスのためのサンプリングを容易にするRLアルゴリズムの重要なコンポーネントである。 我々は、非同期並列挿入、サンプリング、優先度更新をサポートする$k$-ary sum treeに基づく優先順位付きリプレイバッファの新しいデータ構造を定義した。 不規則なメモリアクセスの課題に対処するために,sumツリーのノードを格納し,キャッシュミス数を削減する新しいデータレイアウトを提案する。 さらに,リプレイバッファの同期オーバーヘッドを低減するための‘textit{lazy writing} 機構を提案する。 本フレームワークでは,並列アクタを用いて環境相互作用によるデータ収集を行い,並列学習者が収集したデータを用いて確率勾配降下を行う。 我々のフレームワークは、DQN、DDPG、TD3、SACなど、幅広い強化学習アルゴリズムをサポートしている。 OpenAIベンチマークを用いて、CPU+GPUプラットフォーム上で実験を行うことにより、RLアルゴリズムの高速化における我々のフレームワークの有効性を示す。 その結果,本手法の性能はコア数に比例して線形に拡張できることがわかった。 ベースラインアプローチと比較して、収束時間を3.1x$\sim$10.8x削減する。 リプレイバッファの実装を既存のオープンソースの強化学習フレームワークにプラグインすることで、シーケンシャルな実行のために1.1x$\sim$2.1xのスピードアップを実現します。

Reinforcement Learning (RL) has achieved significant success in application domains such as robotics, games, health care and others. However, training RL agents is very time consuming. Current implementations exhibit poor performance due to challenges such as irregular memory accesses and synchronization overheads. In this work, we propose a framework for generating scalable reinforcement learning implementations on multicore systems. Replay Buffer is a key component of RL algorithms which facilitates storage of samples obtained from environmental interactions and their sampling for the learning process. We define a new data structure for prioritized replay buffer based on $K$-ary sum tree that supports asynchronous parallel insertions, sampling, and priority updates. To address the challenge of irregular memory accesses, we propose a novel data layout to store the nodes of the sum tree that reduces the number of cache misses. Additionally, we propose \textit{lazy writing} mechanism to reduce synchronization overheads of the replay buffer. Our framework employs parallel actors to concurrently collect data via environmental interactions, and parallel learners to perform stochastic gradient descent using the collected data. Our framework supports a wide range of reinforcement learning algorithms including DQN, DDPG, TD3, SAC, etc. We demonstrate the effectiveness of our framework in accelerating RL algorithms by performing experiments on CPU + GPU platform using OpenAI benchmarks. Our results show that the performance of our approach scales linearly with the number of cores. Compared with the baseline approaches, we reduce the convergence time by 3.1x$\sim$10.8x. By plugging our replay buffer implementation into existing open source reinforcement learning frameworks, we achieve 1.1x$\sim$2.1x speedup for sequential executions.
翻訳日:2021-10-06 03:00:16 公開日:2021-10-03
# (参考訳) TinyFedTL:Tinyデバイス上でのフェデレーショントランスファー学習 [全文訳有]

TinyFedTL: Federated Transfer Learning on Tiny Devices ( http://arxiv.org/abs/2110.01107v1 )

ライセンス: CC BY 4.0
Kavya Kopparapu, Eric Lin(参考訳) TinyMLは、データがどこにでもある時代に人気を博している。 しかし、ほとんどの需要にあるデータは、厳格なプライバシーとセキュリティ保証の対象となる。 さらに、TinyMLハードウェアの現実世界への展開には、従来のMLでは対応できないメモリと通信の制約がかなりある。 このような課題を踏まえ,資源制約型マイクロコントローラ上でのフェデレーション転送学習を初めて実装したtinyfedtlを提案する。

TinyML has rose to popularity in an era where data is everywhere. However, the data that is in most demand is subject to strict privacy and security guarantees. In addition, the deployment of TinyML hardware in the real world has significant memory and communication constraints that traditional ML fails to address. In light of these challenges, we present TinyFedTL, the first implementation of federated transfer learning on a resource-constrained microcontroller.
翻訳日:2021-10-06 02:37:45 公開日:2021-10-03
# (参考訳) ニューラルネットワーク動的モデルによる安全制御 [全文訳有]

Safe Control with Neural Network Dynamic Models ( http://arxiv.org/abs/2110.01110v1 )

ライセンス: CC BY 4.0
Tianhao Wei and Changliu Liu(参考訳) 自律ロボットシステムでは安全が重要である。 安全な制御法は、安全な集合(状態空間の部分集合)の前方不変性を保証する。 制御-ファイン解析力学モデルを用いて安全な制御法則を導出する方法について、広く研究されている。 しかし、複雑な環境やタスクでは、システムの原理的な分析モデルを得ることは困難で時間がかかります。 このような状況では、データ駆動学習が広く使われ、学習されたモデルはニューラルネットワークにエンコードされる。 ニューラル・ネットワーク・ダイナミック・モデル(nndm)を用いた安全な制御則を形式的に導出する方法は、これらのブラックボックス関数を扱う計算的に扱いやすい方法が欠如しているため、まだ不明である。 実際、安全上の制約なしにNNDMの目的を最小化するコントロールを見つけることは、まだ難しい。 本研究では,nndmの安全制御則を導出する最初の手法であるmind-sis (mixed integer for neural network dynamic model with safety index synthesis)を提案する。 この方法は2つの部分を含む。 1) sis: 進化的手法を用いた安全指数(バリア関数とも呼ばれる)のオフライン合成のためのアルゴリズム 2) MIND: 最適かつ安全な制御信号のオンライン計算アルゴリズムで, 計算効率のよいニューラルネットワーク符号化を用いて, 制約付き最適化を解く。 MIND-SISが前方不変性と有限収束を保証することが理論的に証明されている。 また,MIND-SISがNNDMの安全かつ最適な制御を実現することを数値的に検証した。 私たちの実験では、最適性ギャップは10^{-8}$未満で、安全性制約違反は0$です。

Safety is critical in autonomous robotic systems. A safe control law ensures forward invariance of a safe set (a subset in the state space). It has been extensively studied regarding how to derive a safe control law with a control-affine analytical dynamic model. However, in complex environments and tasks, it is challenging and time-consuming to obtain a principled analytical model of the system. In these situations, data-driven learning is extensively used and the learned models are encoded in neural networks. How to formally derive a safe control law with Neural Network Dynamic Models (NNDM) remains unclear due to the lack of computationally tractable methods to deal with these black-box functions. In fact, even finding the control that minimizes an objective for NNDM without any safety constraint is still challenging. In this work, we propose MIND-SIS (Mixed Integer for Neural network Dynamic model with Safety Index Synthesis), the first method to derive safe control laws for NNDM. The method includes two parts: 1) SIS: an algorithm for the offline synthesis of the safety index (also called as barrier function), which uses evolutionary methods and 2) MIND: an algorithm for online computation of the optimal and safe control signal, which solves a constrained optimization using a computationally efficient encoding of neural networks. It has been theoretically proved that MIND-SIS guarantees forward invariance and finite convergence. And it has been numerically validated that MIND-SIS achieves safe and optimal control of NNDM. From our experiments, the optimality gap is less than $10^{-8}$, and the safety constraint violation is $0$.
翻訳日:2021-10-06 02:29:24 公開日:2021-10-03
# (参考訳) プリンシパルアジェント平均フィールドゲームのための深層学習 [全文訳有]

Deep Learning for Principal-Agent Mean Field Games ( http://arxiv.org/abs/2110.01127v1 )

ライセンス: CC BY-SA 4.0
Steven Campbell, Yichao Chen, Arvind Shrivats, Sebastian Jaimungal(参考訳) そこで本研究では,これまで研究されていない問題のクラスであり,標準数値法では難しい問題となっている,市場開拓条件を持つ主エージェント平均場ゲームを解くための深層学習アルゴリズムを開発した。 エージェントがプリンシパルのペナルティ関数に従ってnash平衡を形成し、プリンシパルが結果の平衡を評価する。 内部問題のnash平衡は、mckean-vlasov forward-backward sdesのために修正された深後方確率微分方程式 (bsde) の変種を用いて得られる。 外部問題の損失は、ペナルティ関数の空間をサンプリングすることによってニューラルネットワークによりさらに近似される。 我々は,再生可能エネルギー認証(REC)市場において,クリーンエネルギー生産能力の貸借,RECの取引,長期的生産能力の拡大により市場を最大限の利益でナビゲートすることのできる,スタイル化されたPA問題に適用する。 数値計算の結果,アルゴリズムの有効性が示され,これらの市場の平均場限界における最適pa相互作用の性質に関する興味深い知見が得られた。

Here, we develop a deep learning algorithm for solving Principal-Agent (PA) mean field games with market-clearing conditions -- a class of problems that have thus far not been studied and one that poses difficulties for standard numerical methods. We use an actor-critic approach to optimization, where the agents form a Nash equilibria according to the principal's penalty function, and the principal evaluates the resulting equilibria. The inner problem's Nash equilibria is obtained using a variant of the deep backward stochastic differential equation (BSDE) method modified for McKean-Vlasov forward-backward SDEs that includes dependence on the distribution over both the forward and backward processes. The outer problem's loss is further approximated by a neural net by sampling over the space of penalty functions. We apply our approach to a stylized PA problem arising in Renewable Energy Certificate (REC) markets, where agents may rent clean energy production capacity, trade RECs, and expand their long-term capacity to navigate the market at maximum profit. Our numerical results illustrate the efficacy of the algorithm and lead to interesting insights into the nature of optimal PA interactions in the mean-field limit of these markets.
翻訳日:2021-10-06 01:56:53 公開日:2021-10-03
# learn then test: リスク制御を達成するための予測アルゴリズムの校正

Learn then Test: Calibrating Predictive Algorithms to Achieve Risk Control ( http://arxiv.org/abs/2110.01052v1 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos and Stephen Bates and Emmanuel J. Cand\`es and Michael I. Jordan and Lihua Lei(参考訳) 本稿では,機械学習モデルを校正するフレームワークであるLearn then Test(LTT)を紹介し,基礎となるモデルや(未知)データ生成分布に関わらず,その予測が明示的かつ有限サンプルな統計的保証を満たすようにした。 このフレームワークは、例えば、マルチラベル分類における偽発見率制御、インスタンスセグメンテーションにおける相互結合制御、そして分類や回帰における異常検出のタイプ1エラーと信頼度セットカバレッジの同時制御に対処する。 これを達成するために、私たちは技術的な課題、すなわち、必ずしも単調ではない任意のリスクのコントロールを解決します。 我々の主な洞察は、リスク制御問題を複数の仮説テストとして再編成し、従来の文献とは異なるテクニックと数学的議論を可能にすることである。 コンピュータビジョンの詳細な実例を用いて,複数のコア機械学習タスクに対する新しいキャリブレーション手法を提案する。

We introduce Learn then Test (LTT), a framework for calibrating machine learning models so that their predictions satisfy explicit, finite-sample statistical guarantees regardless of the underlying model and (unknown) data-generating distribution. The framework addresses, among other examples, false discovery rate control in multi-label classification, intersection-over-un ion control in instance segmentation, and the simultaneous control of the type-1 error of outlier detection and confidence set coverage in classification or regression. To accomplish this, we solve a key technical challenge: the control of arbitrary risks that are not necessarily monotonic. Our main insight is to reframe the risk-control problem as multiple hypothesis testing, enabling techniques and mathematical arguments different from those in the previous literature. We use our framework to provide new calibration methods for several core machine learning tasks with detailed worked examples in computer vision.
翻訳日:2021-10-05 16:01:59 公開日:2021-10-03
# 頑健な視覚質問応答のための対物サンプル合成と学習

Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering ( http://arxiv.org/abs/2110.01013v1 )

ライセンス: Link先を確認
Long Chen, Yuhang Zheng, Yulei Niu, Hanwang Zhang, Jun Xiao(参考訳) 今日のVQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にあり、異なるQA分布を持つテストセットに一般化することができない。 これらの言語バイアスを軽減するため、近年のVQA研究は、ターゲットとするVQAモデルのトレーニングを規則化し、アウト・オブ・ディストリビューションテストのための診断ベンチマークで優位な性能を達成するための補助的な質問専用モデルを導入している。 しかし、複雑なモデル設計のため、これらのアンサンブルに基づく手法は理想的VQAモデルの2つの必要不可欠な特性を持つことができない。 1) 視覚的説明可能: モデルは意思決定を行う際に適切な視覚領域に依存するべきである。 2) 質問感応性: モデルは質問の言語的変化に敏感であるべきである。 そこで本研究では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。 CSSTでトレーニングした後、VQAモデルはすべての重要なオブジェクトと単語に集中せざるを得なくなり、視覚的に説明可能な能力と質問に敏感な能力の両方が大幅に改善される。 具体的には、CSSTは2つの部分からなる: 対実サンプル合成(CSS)と対実サンプル訓練(CST)。 cssは、質問中の画像や単語の重要なオブジェクトを慎重にマスキングし、疑似地上回答を割り当てることで、偽のサンプルを生成する。 cstは、両方の補完的なサンプルでvqaモデルを訓練するだけでなく、vqaモデルに元のサンプルと表面的に類似した反事実を区別するよう促す。 CSTトレーニングを容易にするために、VQAに対する教師付きコントラスト損失の2つのバリエーションを提案し、CSSに基づく効果的な正と負のサンプル選択機構を設計する。 大規模な実験はCSSTの有効性を示した。 特に、LMH+SARのモデル上に構築することで、OODベンチマークで記録破りのパフォーマンスを達成する。

Today's VQA models still tend to capture superficial linguistic correlations in the training set and fail to generalize to the test set with different QA distributions. To reduce these language biases, recent VQA works introduce an auxiliary question-only model to regularize the training of targeted VQA model, and achieve dominating performance on diagnostic benchmarks for out-of-distribution testing. However, due to complex model design, these ensemble-based methods are unable to equip themselves with two indispensable characteristics of an ideal VQA model: 1) Visual-explainable: The model should rely on the right visual regions when making decisions. 2) Question-sensitive: The model should be sensitive to the linguistic variations in questions. To this end, we propose a novel model-agnostic Counterfactual Samples Synthesizing and Training (CSST) strategy. After training with CSST, VQA models are forced to focus on all critical objects and words, which significantly improves both visual-explainable and question-sensitive abilities. Specifically, CSST is composed of two parts: Counterfactual Samples Synthesizing (CSS) and Counterfactual Samples Training (CST). CSS generates counterfactual samples by carefully masking critical objects in images or words in questions and assigning pseudo ground-truth answers. CST not only trains the VQA models with both complementary samples to predict respective ground-truth answers, but also urges the VQA models to further distinguish the original samples and superficially similar counterfactual ones. To facilitate the CST training, we propose two variants of supervised contrastive loss for VQA, and design an effective positive and negative sample selection mechanism based on CSS. Extensive experiments have shown the effectiveness of CSST. Particularly, by building on top of model LMH+SAR, we achieve record-breaking performance on all OOD benchmarks.
翻訳日:2021-10-05 16:01:25 公開日:2021-10-03
# EHRデータを用いた臨床イベント予測に必要なのは, シンプルなリカレントニューラルネットワークのみ

Simple Recurrent Neural Networks is all we need for clinical events predictions using EHR data ( http://arxiv.org/abs/2110.00998v1 )

ライセンス: Link先を確認
Laila Rasmy, Jie Zhu, Zhiheng Li, Xin Hao, Hong Thoai Tran, Yujia Zhou, Firat Tiryaki, Yang Xiang, Hua Xu, Degui Zhi(参考訳) 近年,EHR(Electronic Health Record)データを用いた臨床イベントの予測にディープラーニングモデルを応用することに大きな関心が寄せられている。 EHRデータでは、患者の履歴はしばしば訪問のシーケンスとして表現され、各訪問には複数のイベントが含まれている。 その結果、リカレントニューラルネットワーク(RNN)のようなシーケンスモデリングのために開発されたディープラーニングモデルは、EHRベースの臨床イベント予測モデルのための一般的なアーキテクチャである。 文献では様々なRNNモデルが提案されているが、複雑なアーキテクチャの革新が優れた予測性能を提供するかどうかは不明である。 この分野を前進させるためには、様々な手法の厳密な評価が必要である。 本研究では,ERHデータモデリングにおけるRNNアーキテクチャの徹底的なベンチマークを行った。 心不全の発症リスクと入院患者の早期退院リスクの2つの予測課題を用いた。 GRUやLSTMなどの単純なゲート付きRNNモデルでは,自然言語処理(NLP)領域の発見と類似したベイズ最適化が適切に調整された場合,しばしば競合する結果が得られることがわかった。 再現性のため、コードベースはhttps://github.com/z higroup/pytorch_ehrで共有されます。

Recently, there is great interest to investigate the application of deep learning models for the prediction of clinical events using electronic health records (EHR) data. In EHR data, a patient's history is often represented as a sequence of visits, and each visit contains multiple events. As a result, deep learning models developed for sequence modeling, like recurrent neural networks (RNNs) are common architecture for EHR-based clinical events predictive models. While a large variety of RNN models were proposed in the literature, it is unclear if complex architecture innovations will offer superior predictive performance. In order to move this field forward, a rigorous evaluation of various methods is needed. In this study, we conducted a thorough benchmark of RNN architectures in modeling EHR data. We used two prediction tasks: the risk for developing heart failure and the risk of early readmission for inpatient hospitalization. We found that simple gated RNN models, including GRUs and LSTMs, often offer competitive results when properly tuned with Bayesian Optimization, which is in line with similar to findings in the natural language processing (NLP) domain. For reproducibility, Our codebase is shared at https://github.com/Z hiGroup/pytorch_ehr.
翻訳日:2021-10-05 15:59:49 公開日:2021-10-03
# クローズドフォームオンライン学習のためのカルマンベイズニューラルネットワーク

Kalman Bayesian Neural Networks for Closed-form Online Learning ( http://arxiv.org/abs/2110.00944v1 )

ライセンス: Link先を確認
Philipp Wagner, Xinyang Wu, Marco F. Huber(参考訳) 標準的なニューラルネットワークで計算された点推定と比較すると、ベイジアンニューラルネットワーク(BNN)は出力予測とモデルパラメータ、すなわち重みの確率分布を提供する。 しかしながら、BNNの重み分布のトレーニングは、基礎となるベイズ推定問題の抽出可能性のため、より複雑であり、効率的な近似を必要とする。 本稿では,閉形式ベイズ推論によるbnn学習のための新しい手法を提案する。 この目的のために、出力の予測分布の計算と重み分布の更新は、重みをガウス確率変数としてモデル化したベイズフィルタリングおよび平滑化問題として扱われる。 これにより、勾配降下のないシーケンシャル/オンライン方式でネットワークパラメータをトレーニングするためのクローズドフォーム表現が可能になる。 いくつかのUCIデータセット上で本手法を実証し,その技術状況と比較する。

Compared to point estimates calculated by standard neural networks, Bayesian neural networks (BNN) provide probability distributions over the output predictions and model parameters, i.e., the weights. Training the weight distribution of a BNN, however, is more involved due to the intractability of the underlying Bayesian inference problem and thus, requires efficient approximations. In this paper, we propose a novel approach for BNN learning via closed-form Bayesian inference. For this purpose, the calculation of the predictive distribution of the output and the update of the weight distribution are treated as Bayesian filtering and smoothing problems, where the weights are modeled as Gaussian random variables. This allows closed-form expressions for training the network's parameters in a sequential/online fashion without gradient descent. We demonstrate our method on several UCI datasets and compare it to the state of the art.
翻訳日:2021-10-05 15:57:59 公開日:2021-10-03
# 状態の離散化による教師なしのビデオゲームプレイスタイルメトリック

An Unsupervised Video Game Playstyle Metric via State Discretization ( http://arxiv.org/abs/2110.00950v1 )

ライセンス: Link先を確認
Chiu-Chou Lin, Wei-Chen Chiu and I-Chen Wu(参考訳) ビデオゲームでは、通常、異なるプレイヤーが独自のプレースタイルを持つ。 最近、プレイの強さに関するビデオゲームAIに大きな改善が加えられている。 しかし、過去のプレイヤーの行動分析では、ゲーム環境支援によるヒューリスティックなルールや行動特徴が使われており、開発者は様々なプレイスタイルを識別する特徴を定義できなくなった。 本稿では,ゲーム中のプレイスタイルに関する事前の仕様を使わずに,ゲーム観察とアクションから直接ビデオゲームのプレイスタイルを示す最初の指標を提案する。 提案手法は,これらの離散状態からプレイスタイルを表現できるように,ゲーム観測を潜在離散状態にマッピングする離散表現を学習する新しい手法に基づいて構築される。 すなわち,同じ状態に整列したゲーム観測に基づいて,プレイスタイル距離を測定する。 TORCS, RGSK, 7つのAtariゲーム、ルールベースのAIボット、学習ベースのAIボット、人間プレイヤーなど、さまざまなエージェントの実験において、我々のメトリックの高いプレイスタイルの精度を示す。

On playing video games, different players usually have their own playstyles. Recently, there have been great improvements for the video game AIs on the playing strength. However, past researches for analyzing the behaviors of players still used heuristic rules or the behavior features with the game-environment support, thus being exhausted for the developers to define the features of discriminating various playstyles. In this paper, we propose the first metric for video game playstyles directly from the game observations and actions, without any prior specification on the playstyle in the target game. Our proposed method is built upon a novel scheme of learning discrete representations that can map game observations into latent discrete states, such that playstyles can be exhibited from these discrete states. Namely, we measure the playstyle distance based on game observations aligned to the same states. We demonstrate high playstyle accuracy of our metric in experiments on some video game platforms, including TORCS, RGSK, and seven Atari games, and for different agents including rule-based AI bots, learning-based AI bots, and human players.
翻訳日:2021-10-05 15:57:45 公開日:2021-10-03
# 弱め補正画像分割に先立つ境界箱の厚さ

Bounding Box Tightness Prior for Weakly Supervised Image Segmentation ( http://arxiv.org/abs/2110.00934v1 )

ライセンス: Link先を確認
Juan Wang and Bin Xia(参考訳) 本稿では,厳密な境界ボックスアノテーションを用いた画像分割手法を提案する。 一般化された多重インスタンス学習(MIL)と滑らかな最大近似を提案し、境界ボックスのタイツネスを終端的な方法でディープニューラルネットワークに統合する。 一般化されたMILでは、正の袋は異なる角度の平行交差線で定義され、負の袋は任意の境界ボックスの外側の個々のピクセルとして定義される。 滑らかな最大近似の2つの変種、すなわち $\alpha$-softmax 関数と $\alpha$-quasimax 関数は、バッグ予測の最大関数によってもたらされる数値不安定性を克服するために利用される。 提案手法は2つのpubic medical datasetでdice係数を用いて評価した。 その結果、最先端の手法よりも優れた結果が得られた。 コードは \url{https://github.com/w angjuan313/wsis-boun dingbox} で入手できる。

This paper presents a weakly supervised image segmentation method that adopts tight bounding box annotations. It proposes generalized multiple instance learning (MIL) and smooth maximum approximation to integrate the bounding box tightness prior into the deep neural network in an end-to-end manner. In generalized MIL, positive bags are defined by parallel crossing lines with a set of different angles, and negative bags are defined as individual pixels outside of any bounding boxes. Two variants of smooth maximum approximation, i.e., $\alpha$-softmax function and $\alpha$-quasimax function, are exploited to conquer the numeral instability introduced by maximum function of bag prediction. The proposed approach was evaluated on two pubic medical datasets using Dice coefficient. The results demonstrate that it outperforms the state-of-the-art methods. The codes are available at \url{https://github.com/w angjuan313/wsis-boun dingbox}.
翻訳日:2021-10-05 15:54:52 公開日:2021-10-03
# ファウンダス撮影におけるタイトバウンディングボックススーパービジョンによるカップ・ディスク比の高精度測定

Accurate Cup-to-Disc Ratio Measurement with Tight Bounding Box Supervision in Fundus Photography ( http://arxiv.org/abs/2110.00943v1 )

ライセンス: Link先を確認
Juan Wang and Bin Xia(参考訳) CDRは緑内障の診断において最も重要な指標の1つである。 本研究は,高コストで完全教師付き学習定式化を行うのと異なり,厳密なバウンディングボックス管理のみを用いた底面画像における正確なCDR測定の実現可能性について検討する。 そこで本研究では,CDR計測を高精度に行うための2タスクネットワークを開発し,画像分割を弱教師付きで行う。 この弱教師付きイメージセグメンテーションタスクは、一般化された複数インスタンス学習定式化と滑らかな最大近似に基づいて実装され、バウンディングボックス回帰タスクは、元の画像解像度で単一のスケールでクラス固有のバウンディングボックス予測を出力する。 正確なバウンディングボックス予測を実現するために,クラス固有のバウンディングボックス正規化器と期待の交叉オーバーユニオンを提案する。 実験では,CDR誤差とF1スコアを用いた1200枚の画像を用いたCDR測定と画像分割のためのダイス係数を用いて,提案手法の評価を行った。 提案手法の性能を個々の学年と比較するために, グレーダスタディを行った。 その結果,提案手法は,CDR計測のための画素ワイドアノテーションを用いたフル教師付き画像分割(FSIS)手法により得られた最先端性能よりも優れており,個々の学年よりも優れていた。 また、光学カップとディスクセグメンテーションのためのfsisから得られた最新技術に近いパフォーマンスも、個々のグレードラーに似ています。 コードは \url{https://github.com/w angjuan313/cdrnet} で入手できる。

The cup-to-disc ratio (CDR) is one of the most significant indicator for glaucoma diagnosis. Different from the use of costly fully supervised learning formulation with pixel-wise annotations in the literature, this study investigates the feasibility of accurate CDR measurement in fundus images using only tight bounding box supervision. For this purpose, we develop a two-task network for accurate CDR measurement, one for weakly supervised image segmentation, and the other for bounding-box regression. The weakly supervised image segmentation task is implemented based on generalized multiple instance learning formulation and smooth maximum approximation, and the bounding-box regression task outputs class-specific bounding box prediction in a single scale at the original image resolution. To get accurate bounding box prediction, a class-specific bounding-box normalizer and an expected intersection-over-un ion are proposed. In the experiments, the proposed approach was evaluated by a testing set with 1200 images using CDR error and F1 score for CDR measurement and dice coefficient for image segmentation. A grader study was conducted to compare the performance of the proposed approach with those of individual graders. The results demonstrate that the proposed approach outperforms the state-of-the-art performance obtained from the fully supervised image segmentation (FSIS) approach using pixel-wise annotation for CDR measurement, which is also better than those of individual graders. It also gets performance close to the state-of-the-art obtained from FSIS for optic cup and disc segmentation, similar to those of individual graders. The codes are available at \url{https://github.com/w angjuan313/CDRNet}.
翻訳日:2021-10-05 15:54:37 公開日:2021-10-03
# 因果関係によるモデルロバスト性および公正性の向上:正規化アプローチ

Enhancing Model Robustness and Fairness with Causality: A Regularization Approach ( http://arxiv.org/abs/2110.00911v1 )

ライセンス: Link先を確認
Zhao Wang, Kai Shu, Aron Culotta(参考訳) 最近の研究は、モデルの堅牢性と公正性を脅かす統計機械学習モデルにおいて、急激な相関や意図しないバイアスのリスクを懸念している。 本稿では,モデルトレーニング中に因果知識を統合するための単純かつ直感的な正規化手法を提案し,因果的特徴を強調し,非強調的特徴を強調することで,堅牢で公平なモデルを構築する。 具体的には,因果推論の非事実的枠組みに触発された原則を用いて,まず因果的特徴と散発的特徴を手作業で識別する。 次に,因果的特徴と散発的特徴を別々にペナリゼーションする正規化手法を提案する。 それぞれの特徴に対するペナルティの強さを調整することで、因果的特徴に依存し、非因果的特徴に依存しない予測モデルを構築する。 複数のメトリクスを持つ3つのデータセットに対して、モデルの堅牢性と公正性を評価する実験を行う。 実験の結果,因果意識を持つ新しいモデルは,反事実テキストに対するモデルのロバスト性が著しく向上し,敏感な属性に対するモデルの公平性が向上した。

Recent work has raised concerns on the risk of spurious correlations and unintended biases in statistical machine learning models that threaten model robustness and fairness. In this paper, we propose a simple and intuitive regularization approach to integrate causal knowledge during model training and build a robust and fair model by emphasizing causal features and de-emphasizing spurious features. Specifically, we first manually identify causal and spurious features with principles inspired from the counterfactual framework of causal inference. Then, we propose a regularization approach to penalize causal and spurious features separately. By adjusting the strength of the penalty for each type of feature, we build a predictive model that relies more on causal features and less on non-causal features. We conduct experiments to evaluate model robustness and fairness on three datasets with multiple metrics. Empirical results show that the new models built with causal awareness significantly improve model robustness with respect to counterfactual texts and model fairness with respect to sensitive attributes.
翻訳日:2021-10-05 15:52:48 公開日:2021-10-03
# チェックポイントによるニューラルネットワークの強化

Boost Neural Networks by Checkpoints ( http://arxiv.org/abs/2110.00959v1 )

ライセンス: Link先を確認
Feng Wang, Guoyizhe Wei, Qiao Liu, Jinxiang Ou, Xian Wei, Hairong Lv(参考訳) 複数のディープニューラルネットワーク(DNN)をトレーニングし、その出力を平均化することは、予測性能を改善するための簡単な方法である。 それでも、乗算訓練コストは、このアンサンブル法が実用的かつ効率的であることを防ぐ。 最近のいくつかの研究は、単一のネットワークをトレーニングするのと同じ計算コストを必要とするDNNのチェックポイントの保存とアンサンブルを試みている。 しかし,これらの手法は,チェックポイントの多様性の低いことや,採用した循環学習率による分岐リスクが高いことによる限界精度の向上に悩まされている。 本稿では,モデルの収束を加速し,チェックポイントの多様性を最大化するためにブースティングスキームを利用する,新しいチェックポイントをアンサンブルする手法を提案する。 指数損失を減少させることで収束することを理論的に証明する。 実験により,提案したアンサンブルは単一モデルと既存のアンサンブルよりも精度と効率が良いことを示す。 同じトレーニング予算で、cifar-100では4.16%、resnet-110アーキテクチャでは6.96%のエラーが達成される。 さらに,本手法の適応標本重み付けは,不均衡なクラス分布に対処するための有効な解となる。 実験では、不均衡データセットの1つの efficientnet-b0よりも最大5.2%高い精度が得られる。

Training multiple deep neural networks (DNNs) and averaging their outputs is a simple way to improve the predictive performance. Nevertheless, the multiplied training cost prevents this ensemble method to be practical and efficient. Several recent works attempt to save and ensemble the checkpoints of DNNs, which only requires the same computational cost as training a single network. However, these methods suffer from either marginal accuracy improvements due to the low diversity of checkpoints or high risk of divergence due to the cyclical learning rates they adopted. In this paper, we propose a novel method to ensemble the checkpoints, where a boosting scheme is utilized to accelerate model convergence and maximize the checkpoint diversity. We theoretically prove that it converges by reducing exponential loss. The empirical evaluation also indicates our proposed ensemble outperforms single model and existing ensembles in terms of accuracy and efficiency. With the same training budget, our method achieves 4.16% lower error on Cifar-100 and 6.96% on Tiny-ImageNet with ResNet-110 architecture. Moreover, the adaptive sample weights in our method make it an effective solution to address the imbalanced class distribution. In the experiments, it yields up to 5.02% higher accuracy over single EfficientNet-B0 on the imbalanced datasets.
翻訳日:2021-10-05 15:52:32 公開日:2021-10-03
# 異なる物体とグリッパーのポーズ距離推定による高精度物体配置

Precise Object Placement with Pose Distance Estimations for Different Objects and Grippers ( http://arxiv.org/abs/2110.00992v1 )

ライセンス: Link先を確認
Kilian Kleeberger, Jonathan Schnitzler, Muhammad Usman Khalid, Richard Bormann, Werner Kraus, Marco F. Huber(参考訳) 本稿では,複数のグリッパを用いた各種剛体物体の把握と正確な配置を行うための新しい手法を提案する。 提案手法では,複数の6Dオブジェクトが対象クラスとともにポーズし,対象からのポーズ距離を推定し,ニューラルネットワークの1つの前方通過で自動的に取得された各グリップポーズに対する対象位置のポーズ距離を推定する。 モデル知識をシステムに組み込むことで,最先端のモデルフリーアプローチよりも,把握のための成功率が高い。 さらに,提案手法は,従来のモデルに基づく作業よりもはるかに高精度な物体配置を実現する。

This paper introduces a novel approach for the grasping and precise placement of various known rigid objects using multiple grippers within highly cluttered scenes. Using a single depth image of the scene, our method estimates multiple 6D object poses together with an object class, a pose distance for object pose estimation, and a pose distance from a target pose for object placement for each automatically obtained grasp pose with a single forward pass of a neural network. By incorporating model knowledge into the system, our approach has higher success rates for grasping than state-of-the-art model-free approaches. Furthermore, our method chooses grasps that result in significantly more precise object placements than prior model-based work.
翻訳日:2021-10-05 15:45:57 公開日:2021-10-03
# データサイエンスのための人間中心AI:システム的アプローチ

Human-Centered AI for Data Science: A Systematic Approach ( http://arxiv.org/abs/2110.01108v1 )

ライセンス: Link先を確認
Dakuo Wang, Xiaojuan Ma, April Yi Wang(参考訳) 人間中心型AI(Human-Centered AI, HCAI)は、AI技術の設計と実装を目的とした研究活動である。 本稿では,データサイエンス(DS)に関する一連の研究プロジェクトを用いてHCAIにアプローチする方法を事例研究として紹介する。 DSワークをサポートするために構築されたAI技術は、まとめてAutoMLシステムと呼ばれ、彼らの目標はDSワークフローの一部を自動化することである。 本稿では,HCAIシステムの実装方法として,3段階の体系的研究手法(すなわち,探索,構築,統合)と4つの実践的方法を紹介する。 私たちは、私たちの仕事は、より優れた成果と経験を達成するために、AIと人間が相補的で必要不可欠な役割を担えるDSおよびそれ以上のためのヒューマンAIコラボレーションの究極の未来に向けた基盤である、と論じています。

Human-Centered AI (HCAI) refers to the research effort that aims to design and implement AI techniques to support various human tasks, while taking human needs into consideration and preserving human control. In this short position paper, we illustrate how we approach HCAI using a series of research projects around Data Science (DS) works as a case study. The AI techniques built for supporting DS works are collectively referred to as AutoML systems, and their goals are to automate some parts of the DS workflow. We illustrate a three-step systematical research approach(i.e., explore, build, and integrate) and four practical ways of implementation for HCAI systems. We argue that our work is a cornerstone towards the ultimate future of Human-AI Collaboration for DS and beyond, where AI and humans can take complementary and indispensable roles to achieve a better outcome and experience.
翻訳日:2021-10-05 15:45:18 公開日:2021-10-03
# シャープおよびファジィ設計下における回帰不連続/リンクの階層的ガウス過程モデル

Hierarchical Gaussian Process Models for Regression Discontinuity/Kink under Sharp and Fuzzy Designs ( http://arxiv.org/abs/2110.00921v1 )

ライセンス: Link先を確認
Ximing Wu(参考訳) 回帰不連続性(rd/rk)を利用した因果推論のための非パラメトリックベイズ推定器を提案する。 我々の推定値はガウス過程(gp)の回帰と分類に基づいている。 GP法は、微分推定と不確実性評価の観点から有利な強力な確率論的モデリング手法であり、RD/RKモデルのRK推定と推定を容易にする。 これらの推定器は、中間ベイズニューラルネットワーク層を持つ階層型GPモデルに拡張され、ハイブリッドディープラーニングモデルとして特徴付けられる。 モンテカルロシミュレーションにより、我々の推定器は、精度、カバレッジ、間隔長の点で競合する推定器よりもよく、しばしばよく機能することを示した。 階層gpモデルは一層gpモデルを大幅に改善する。 提案した推定器の実証的応用を提供する。

We propose nonparametric Bayesian estimators for causal inference exploiting Regression Discontinuity/Kink (RD/RK) under sharp and fuzzy designs. Our estimators are based on Gaussian Process (GP) regression and classification. The GP methods are powerful probabilistic modeling approaches that are advantageous in terms of derivative estimation and uncertainty qualification, facilitating RK estimation and inference of RD/RK models. These estimators are extended to hierarchical GP models with an intermediate Bayesian neural network layer and can be characterized as hybrid deep learning models. Monte Carlo simulations show that our estimators perform similarly and often better than competing estimators in terms of precision, coverage and interval length. The hierarchical GP models improve upon one-layer GP models substantially. An empirical application of the proposed estimators is provided.
翻訳日:2021-10-05 15:43:36 公開日:2021-10-03
# 植木

Treeging ( http://arxiv.org/abs/2110.01053v1 )

ライセンス: Link先を確認
Gregory L. Watson, Michael Jerrett, Colleen E. Reid, Donatello Telesca(参考訳) 木組みは回帰木の柔軟な平均構造と、アンサンブル予測アルゴリズムのベース学習者へのクリグの共分散に基づく予測戦略を組み合わせる。 その結果,(1)独立分散データを仮定するフレキシブルな平均構造(しばしば機械学習アルゴリズム)を持つモデル,(2)リッチな共分散構造と単純な平均構造を持つkriging or gaussian process (gp)予測モデルという2つの主要なタイプの空間的および時空間的予測モデルの強みを組み合わせることができた。 本研究では,広範に多様な空間的および時空間的シミュレーションシナリオにおけるトリーイングの予測精度について検討し,通常のクリギング,ランダムフォレスト,通常のクリギングベース学習者のアンサンブルと比較した。 木はボード全体でよく機能するが、クリギングは依存が弱かったり、急激な共変種の存在で苦しめられ、無作為な森林は共変種が情報に乏しいときに苦しむ。 トリーギングは、いくつかのケーススタディにおいて、大気汚染物質(オゾンおよびPM$_{2.5}$)の予測において、これらの競合よりも優れている。 本研究では,学習者数と学習データサンプリング率の調整パラメータに対する感度について検討し,無作為な森林の直感に追従した。 拡張性に関する議論は、GP(Expedite kriging)を高速化する共分散近似手法も同様に、ツリーングに応用できることに言及する。

Treeging combines the flexible mean structure of regression trees with the covariance-based prediction strategy of kriging into the base learner of an ensemble prediction algorithm. In so doing, it combines the strengths of the two primary types of spatial and space-time prediction models: (1) models with flexible mean structures (often machine learning algorithms) that assume independently distributed data, and (2) kriging or Gaussian Process (GP) prediction models with rich covariance structures but simple mean structures. We investigate the predictive accuracy of treeging across a thorough and widely varied battery of spatial and space-time simulation scenarios, comparing it to ordinary kriging, random forest and ensembles of ordinary kriging base learners. Treeging performs well across the board, whereas kriging suffers when dependence is weak or in the presence of spurious covariates, and random forest suffers when the covariates are less informative. Treeging also outperforms these competitors in predicting atmospheric pollutants (ozone and PM$_{2.5}$) in several case studies. We examine sensitivity to tuning parameters (number of base learners and training data sampling proportion), finding they follow the familiar intuition of their random forest counterparts. We include a discussion of scaleability, noting that any covariance approximation techniques that expedite kriging (GP) may be similarly applied to expedite treeging.
翻訳日:2021-10-05 15:43:23 公開日:2021-10-03
# 3次元点クラウドコピー検出のためのロバストスキーム

A Robust Scheme for 3D Point Cloud Copy Detection ( http://arxiv.org/abs/2110.00972v1 )

ライセンス: Link先を確認
Jiaqi Yang, Xuequan Lu, and Wenzhi Chen(参考訳) 既存の3D幾何コピー検出研究は、3D透かしに焦点をあてており、まず「透かし」を埋め込んで、追加した透かしを検出する。 しかし、この種の手法はストレートフォワードではなく、クロップやノイズなどの攻撃に対するロバスト性が低い可能性がある。 本稿では,複数の操作(例:類似性変換,平滑化)が存在する場合,ある点雲が別の点雲に盗作されているか,あるいは複製されているかを判断する,基礎的かつ実用的な研究課題に着目する。 我々はこの問題に対処するための新しい手法を提案する。 まず、2つの点の雲を整列させ、それらの類似度距離を計算する。 我々は類似性を計算するために3つの異なる尺度を設計する。 手法を高速化する2つの戦略も導入する。 包括的実験と比較により,2つの3次元点雲の類似度を推定する手法の有効性と頑健性が示された。

Most existing 3D geometry copy detection research focused on 3D watermarking, which first embeds ``watermarks'' and then detects the added watermarks. However, this kind of methods is non-straightforward and may be less robust to attacks such as cropping and noise. In this paper, we focus on a fundamental and practical research problem: judging whether a point cloud is plagiarized or copied to another point cloud in the presence of several manipulations (e.g., similarity transformation, smoothing). We propose a novel method to address this critical problem. Our key idea is first to align the two point clouds and then calculate their similarity distance. We design three different measures to compute the similarity. We also introduce two strategies to speed up our method. Comprehensive experiments and comparisons demonstrate the effectiveness and robustness of our method in estimating the similarity of two given 3D point clouds.
翻訳日:2021-10-05 15:41:58 公開日:2021-10-03
# RAP-Net: 降雨予報のためのリージョンアテンション予測ネットワーク

RAP-Net: Region Attention Predictive Network for Precipitation Nowcasting ( http://arxiv.org/abs/2110.01035v1 )

ライセンス: Link先を確認
Chuyao Luo, ZhengZhang, Rui Ye, Xutao Li and Yunming Ye(参考訳) 豪雨による自然災害は、しばしば生命と財産に大きな損失を被る。 これを避けるため、降水流しの作業が差し迫っている。 この問題を解決するために、将来のレーダエコー画像を予測するための深層学習法が提案され、予測された地図が降雨分布を変換した。 時空間系列予測法では畳み込みと再帰ニューラルネットワークを組み合わせたconvrnn構造を適用する。 ConvRNNによる改善は目覚ましい成功を収めたが、これらの手法は局地的特徴とグローバルな空間的特徴の両方を同時に捉えることを無視し、豪雨の地域での流速を低下させる。 この問題に対処するため,我々は地域意識ブロック (RAB) を提案し,それをConvRNNに組み込み,降雨量の多い地域での予測を強化する。 さらに、ConvRNNモデルはパラメータが制限された長い履歴表現を記憶することが難しい。 そこで本研究では,リコール注意機構(RAM)を提案する。 より長い時間的情報を保存することで、特に中間降雨強度において、RAMは予測に寄与する。 提案するモデル領域注意予測ネットワーク(rap-net)が最先端手法を上回っていることを示す。

Natural disasters caused by heavy rainfall often cost huge loss of life and property. To avoid it, the task of precipitation nowcasting is imminent. To solve the problem, increasingly deep learning methods are proposed to forecast future radar echo images and then the predicted maps have converted the distribution of rainfall. The prevailing spatiotemporal sequence prediction methods apply ConvRNN structure which combines the Convolution and Recurrent neural network. Although improvements based on ConvRNN achieve remarkable success, these methods ignore capturing both local and global spatial features simultaneously, which degrades the nowcasting in the region of heavy rainfall. To address this issue, we proposed the Region Attention Block (RAB) and embed it into ConvRNN to enhance the forecast in the area with strong rainfall. Besides, the ConvRNN models are hard to memory longer history representations with limited parameters. Considering it, we propose Recall Attention Mechanism (RAM) to improve the prediction. By preserving longer temporal information, RAM contributes to the forecasting, especially in the middle rainfall intensity. The experiments show that the proposed model Region Attention Predictive Network (RAP-Net) has outperformed the state-of-art method.
翻訳日:2021-10-05 15:41:42 公開日:2021-10-03
# 高周波・ゼロ周波n-gramの統一度比推定

Unified Likelihood Ratio Estimation for High- to Zero-frequency N-grams ( http://arxiv.org/abs/2110.00946v1 )

ライセンス: Link先を確認
Masato Kikuchi and Kento Kawakami and Kazuho Watanabe and Mitsuo Yoshida and Kyoji Umemura(参考訳) 確率的データ処理に一般的に使用される同値比(LR)は、サンプルから得られる個々の要素の周波数数に基づいて推定されることが多い。 自然言語処理では、要素は$N$-gramと呼ばれる$N$アイテムの連続配列であり、各項目は単語や文字などである。 本稿では,N$-gramの周波数情報に基づいてLRを推定する。 n$-gram周波数のみを使用するナイーブな推定手法は、低周波数 (rare) $n$-gramsに敏感であり、ゼロ周波数 (observed) $n$-gramsには適用できない。 これらの問題に対処するために、N$-gramをアイテム単位に分解し、元の$N$-gram周波数とともにそれらの周波数を適用する方法を提案する。 本手法は単位周波数を用いて非観測値のN$-gramを推定できる。 単位周波数のみがアイテム間の依存関係を無視するが、本手法は特定の項目が実際に共起することが多いという事実を生かして、関連する$N$-gramの周波数を用いて依存関係を維持する。 また,希少なn$-gramに対するロバストな推定を実現するための正規化も導入する。 実験の結果,本手法は両問題の解決に有効であり,依存関係を効果的に制御できることがわかった。

Likelihood ratios (LRs), which are commonly used for probabilistic data processing, are often estimated based on the frequency counts of individual elements obtained from samples. In natural language processing, an element can be a continuous sequence of $N$ items, called an $N$-gram, in which each item is a word, letter, etc. In this paper, we attempt to estimate LRs based on $N$-gram frequency information. A naive estimation approach that uses only $N$-gram frequencies is sensitive to low-frequency (rare) $N$-grams and not applicable to zero-frequency (unobserved) $N$-grams; these are known as the low- and zero-frequency problems, respectively. To address these problems, we propose a method for decomposing $N$-grams into item units and then applying their frequencies along with the original $N$-gram frequencies. Our method can obtain the estimates of unobserved $N$-grams by using the unit frequencies. Although using only unit frequencies ignores dependencies between items, our method takes advantage of the fact that certain items often co-occur in practice and therefore maintains their dependencies by using the relevant $N$-gram frequencies. We also introduce a regularization to achieve robust estimation for rare $N$-grams. Our experimental results demonstrate that our method is effective at solving both problems and can effectively control dependencies.
翻訳日:2021-10-05 15:39:46 公開日:2021-10-03
# Project Debater API: AIグランドチャレンジの分解

Project Debater APIs: Decomposing the AI Grand Challenge ( http://arxiv.org/abs/2110.01029v1 )

ライセンス: Link先を確認
Roy Bar-Haim, Yoav Kantor, Elad Venezian, Yoav Katz, Noam Slonim(参考訳) 2019年にProject Debaterは、複雑なトピックに関する人間のエキスパートを議論できる最初のAIシステムとして公開された。 ライブディスカッションに参加するには様々なスキルが必要だが、Project Debaterはコンポーネントのコレクションとして開発され、それぞれが特定のサブタスクを実行するように設計されている。 Project Debater APIはこれらの機能の多くと、最近開発されたものへのアクセスを提供する。 この多種多様なWebサービスは、学術的利用のために公開されており、コアNLPサービス、引数マイニングと分析機能、コンテンツ要約のための高レベルのサービスを含んでいる。 これらのAPIとそのパフォーマンスを説明し、実用的なソリューションの構築にどのように使用できるかを示す。 特に,調査回答やユーザレビューなどのテキストの集合において,主要なポイントとその頻度を識別する新しい技術であるキーポイント分析に注目する。

Project Debater was revealed in 2019 as the first AI system that can debate human experts on complex topics. Engaging in a live debate requires a diverse set of skills, and Project Debater has been developed accordingly as a collection of components, each designed to perform a specific subtask. Project Debater APIs provide access to many of these capabilities, as well as to more recently developed ones. This diverse set of web services, publicly available for academic use, includes core NLP services, argument mining and analysis capabilities, and higher-level services for content summarization. We describe these APIs and their performance, and demonstrate how they can be used for building practical solutions. In particular, we will focus on Key Point Analysis, a novel technology that identifies the main points and their prevalence in a collection of texts such as survey responses and user reviews.
翻訳日:2021-10-05 15:39:22 公開日:2021-10-03
# 多文書キーフレーズ抽出:文献レビューと最初のデータセット

Multi-Document Keyphrase Extraction: A Literature Review and the First Dataset ( http://arxiv.org/abs/2110.01073v1 )

ライセンス: Link先を確認
Ori Shapira, Ramakanth Pasunuru, Ido Dagan, Yael Amsterdamer(参考訳) キーフレーズ抽出は、多くの手法と豊富なデータセットとともに、単一の文書設定内で包括的な研究がなされている。 対照的に、複数文書のキーフレーズ抽出は、文書の集合の記述や要約における使用に有用であるにもかかわらず、あまり研究されていない。 さらに、マルチドキュメントのキーフレーズ抽出のためのデータセットは存在せず、タスクの進捗を妨げる。 マルチテキスト処理の最近の進歩により、タスクの追求がさらに魅力的な課題となっている。 この取り組みを開始するために、我々は、新しいベンチマークとして使える最初の文献レビューとタスクのための最初のデータセットであるmk-duc-01を紹介する。 データからいくつかのキーフレーズ抽出ベースラインをテストし,結果を示す。

Keyphrase extraction has been comprehensively researched within the single-document setting, with an abundance of methods and a wealth of datasets. In contrast, multi-document keyphrase extraction has been infrequently studied, despite its utility for describing sets of documents, and its use in summarization. Moreover, no dataset existed for multi-document keyphrase extraction, hindering the progress of the task. Recent advances in multi-text processing make the task an even more appealing challenge to pursue. To initiate this pursuit, we present here the first literature review and the first dataset for the task, MK-DUC-01, which can serve as a new benchmark. We test several keyphrase extraction baselines on our data and show their results.
翻訳日:2021-10-05 15:39:09 公開日:2021-10-03
# 計算論における説得の理解に向けて

Towards Understanding Persuasion in Computational Argumentation ( http://arxiv.org/abs/2110.01078v1 )

ライセンス: Link先を確認
Esin Durmus(参考訳) 議論における意見形成と説得は、議論そのもの、議論の源、聴衆の特性の3つの主要な要因によって影響を受ける。 議論の解釈と生成に関する洞察を得るためには,それぞれの役割と両者の相互作用を理解することが重要である。 談話とオーディエンス特性の両方を考慮に入れた効果的な議論生成システムを構築するためには,特に重要である。 このようなパーソナライズされた議論生成システムを持つことは、個人を異なる視点にさらし、問題に対してより公平でインフォームドな決定を下すのに役立つだろう。 社会科学と心理学の研究は、ソース効果とオーディエンス効果が説得過程の重要な要素であることを示しているが、計算説得の研究のほとんどは説得言語の特徴を理解することだけに焦点を当てている。 本論では, 情報源, 聴衆, 言語が計算的説得に与える影響を理解するためにいくつかの貢献を行う。 まず,広範囲なユーザ情報を有する大規模データセットを導入し,その効果について検討する。 次に,議論の知覚における聴衆の先行的信念の役割を理解するモデルを提案する。 また,オンライン議論におけるユーザの成功を理解する上で,ソーシャルインタラクションとエンゲージメントの役割についても検討した。 ユーザの事前の信念や社会的相互作用は,説得の成功を予測する上で重要な役割を担っている。 最後に、議論の影響を予測するために文脈情報を取り込むことの重要性を考察し、引数のテキストのみをエンコードするよりも改善を示す。

Opinion formation and persuasion in argumentation are affected by three major factors: the argument itself, the source of the argument, and the properties of the audience. Understanding the role of each and the interplay between them is crucial for obtaining insights regarding argument interpretation and generation. It is particularly important for building effective argument generation systems that can take both the discourse and the audience characteristics into account. Having such personalized argument generation systems would be helpful to expose individuals to different viewpoints and help them make a more fair and informed decision on an issue. Even though studies in Social Sciences and Psychology have shown that source and audience effects are essential components of the persuasion process, most research in computational persuasion has focused solely on understanding the characteristics of persuasive language. In this thesis, we make several contributions to understand the relative effect of the source, audience, and language in computational persuasion. We first introduce a large-scale dataset with extensive user information to study these factors' effects simultaneously. Then, we propose models to understand the role of the audience's prior beliefs on their perception of arguments. We also investigate the role of social interactions and engagement in understanding users' success in online debating over time. We find that the users' prior beliefs and social interactions play an essential role in predicting their success in persuasion. Finally, we explore the importance of incorporating contextual information to predict argument impact and show improvements compared to encoding only the text of the arguments.
翻訳日:2021-10-05 15:38:57 公開日:2021-10-03
# 事前学習モデルにおける抑うつ性バイアス低減のための逆例生成

Adversarial Examples Generation for Reducing Implicit Gender Bias in Pre-trained Models ( http://arxiv.org/abs/2110.01094v1 )

ライセンス: Link先を確認
Wenqian Ye, Fei Xu, Yaojia Huang, Cassie Huang, Ji A(参考訳) ここ数年、BERT、GPTなどの文脈適応型事前学習ニューラルネットワークモデルは、様々なNLPタスクにおいて顕著な増加を示している。 既存の事前学習モデルの堅牢性を高めるために、データ強化や逆学習を行うための逆例の生成と評価を行う。 一方、モデルに埋め込まれたジェンダーバイアスは、実用的なアプリケーションでは深刻な問題であるように見える。 多くの研究は、単語レベルの情報(例えば、性別のステレオタイプな職業)によって生じるジェンダーバイアスをカバーしている。 本稿では,文レベルで暗黙のジェンダーバイアスを自動生成する手法と,性別バイアスを計測する指標を提案する。 本手法で生成したサンプルは精度で評価される。 このメトリクスは、事前訓練されたモデルからサンプルの生成をガイドするために使用される。 そのため、これらの例は事前訓練されたモデルへの攻撃に使用できる。 最後に, 今後の研究におけるジェンダーバイアス低減事例の評価効果について検討した。

Over the last few years, Contextualized Pre-trained Neural Language Models, such as BERT, GPT, have shown significant gains in various NLP tasks. To enhance the robustness of existing pre-trained models, one way is adversarial examples generation and evaluation for conducting data augmentation or adversarial learning. In the meanwhile, gender bias embedded in the models seems to be a serious problem in practical applications. Many researches have covered the gender bias produced by word-level information(e.g. gender-stereotypical occupations), while few researchers have investigated the sentence-level cases and implicit cases. In this paper, we proposed a method to automatically generate implicit gender bias samples at sentence-level and a metric to measure gender bias. Samples generated by our method will be evaluated in terms of accuracy. The metric will be used to guide the generation of examples from Pre-trained models. Therefore, those examples could be used to impose attacks on Pre-trained Models. Finally, we discussed the evaluation efficacy of our generated examples on reducing gender bias for future research.
翻訳日:2021-10-05 15:38:34 公開日:2021-10-03
# 時間表現理解のための言語モデル探索

Probing Language Models for Understanding of Temporal Expressions ( http://arxiv.org/abs/2110.01113v1 )

ライセンス: Link先を確認
Shivin Thukral, Kunal Kukreja, Christian Kavouras(参考訳) 時間的表現の理解に基づいてNLIモデルを評価することができる3つの自然言語推論(NLI)課題セットを提案する。 より具体的には、これらのモデルを3つの時間的特性に対して探索する。 (a)時間内の点間の順序 b) 時間内の2点間の期間 (c)異なる単位で指定された時間の大きさの関係 MNLIで微調整された大規模言語モデルでは,時間内の点間の順序に対する基本的な認識がある程度あるが,時間的表現の関係を十分に理解していない。

We present three Natural Language Inference (NLI) challenge sets that can evaluate NLI models on their understanding of temporal expressions. More specifically, we probe these models for three temporal properties: (a) the order between points in time, (b) the duration between two points in time, (c) the relation between the magnitude of times specified in different units. We find that although large language models fine-tuned on MNLI have some basic perception of the order between points in time, at large, these models do not have a thorough understanding of the relation between temporal expressions.
翻訳日:2021-10-05 15:38:18 公開日:2021-10-03
# ハード・ソコバン・プランニング・インスタンスを解き明かす新しいカリキュラム戦略

A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning Instances ( http://arxiv.org/abs/2110.00898v1 )

ライセンス: Link先を確認
Dieqiao Feng, Carla P. Gomes, Bart Selman(参考訳) 近年,Go,Chess,ビデオゲーム,ロボット制御といったタスクにおいて,深層強化学習(RL)が著しく進歩しているのを目の当たりにしている。 それでも、AI計画のような他の組合せ領域は、まだRLアプローチにかなりの課題を提起している。 これらの領域における重要な困難は、最小解長が増加するにつれて正の報酬信号が指数関数的に希薄になることである。 したがって、RLアプローチはトレーニング信号を失う。 単一のハードインスタンスを解決するために設計されたカリキュラム駆動学習アプローチを使用することで、近年は有望な進歩を遂げている。 我々は,我々の量子運動量戦略によって導かれる様々なタスク複雑性のラベル付けされていないトレーニングインスタンスのプールから動的に選択する,新しいカリキュラム手法を提案する。 タスクの難易度が最終的な学習結果にどのように影響するかを示す。 特に、インスタンスプールのサイズが大きくなるにつれて、‘硬度ギャップ’が減少し、よりスムーズな自動カリキュラムベースの学習プロセスが実現します。 私たちの自動カリキュラムアプローチは、以前のアプローチを劇的に改善します。 本稿では,従来のpspace完全計画問題であるsokobanについて,特殊解法においても大きな課題を示す。 我々のRLエージェントは、これまでの最先端のSokobanソルバには届かない難問を解決できる。 特に,提案手法では,数百ステップを要する計画を明らかにすることができるが,従来の検索手法では,そのような問題を解くのに長年の計算時間を要する。 さらに、キュリオシティ駆動の探索戦略とグラフニューラルネット表現との複雑な組み合わせにより、RL性能をさらに向上させることができることを示す。

In recent years, we have witnessed tremendous progress in deep reinforcement learning (RL) for tasks such as Go, Chess, video games, and robot control. Nevertheless, other combinatorial domains, such as AI planning, still pose considerable challenges for RL approaches. The key difficulty in those domains is that a positive reward signal becomes {\em exponentially rare} as the minimal solution length increases. So, an RL approach loses its training signal. There has been promising recent progress by using a curriculum-driven learning approach that is designed to solve a single hard instance. We present a novel {\em automated} curriculum approach that dynamically selects from a pool of unlabeled training instances of varying task complexity guided by our {\em difficulty quantum momentum} strategy. We show how the smoothness of the task hardness impacts the final learning results. In particular, as the size of the instance pool increases, the ``hardness gap'' decreases, which facilitates a smoother automated curriculum based learning process. Our automated curriculum approach dramatically improves upon the previous approaches. We show our results on Sokoban, which is a traditional PSPACE-complete planning problem and presents a great challenge even for specialized solvers. Our RL agent can solve hard instances that are far out of reach for any previous state-of-the-art Sokoban solver. In particular, our approach can uncover plans that require hundreds of steps, while the best previous search methods would take many years of computing time to solve such instances. In addition, we show that we can further boost the RL performance with an intricate coupling of our automated curriculum approach with a curiosity-driven search strategy and a graph neural net representation.
翻訳日:2021-10-05 15:36:20 公開日:2021-10-03
# 画像の地図への変換

Translating Images into Maps ( http://arxiv.org/abs/2110.00966v1 )

ライセンス: Link先を確認
Avishkar Saha, Oscar Mendez Maldonado, Chris Russell, Richard Bowden(参考訳) 我々は、画像から世界トップダウンのビューへの変換を翻訳問題として、瞬時マッピングにアプローチする。 本研究では, トランスフォーマーネットワークの新たな形態を用いて, 画像やビデオから直接, 世界の上空マップや鳥眼ビュー(BEV)に, 単一のエンドツーエンドネットワークでマップできることを示す。 画像中の垂直走査線と、頭上地図内のカメラ位置を通る光線との1-1対応を仮定する。 これにより、画像からシーケンス間変換の集合としてマップ生成を定式化できます。 問題を翻訳として使用すると、各ピクセルの役割を解釈する際に、ネットワークは画像のコンテキストを使用することができる。 この制約付き定式化は、この問題の強い物理的根拠に基づくもので、水平方向のみに畳み込みがある制限された変圧器ネットワークにつながる。 この構造により、トレーニング時にデータの効率的な利用が可能になり、nuScenesデータセットとArgoverseデータセットの既存の最高の実行方法に対する15%と30%の相対的なゲインを含む3つの大規模データセットの即時マッピングのための最先端結果が得られる。 コードはhttps://github.com/a vishkarsaha/translat ing-images-into-maps で利用可能です。

We approach instantaneous mapping, converting images to a top-down view of the world, as a translation problem. We show how a novel form of transformer network can be used to map from images and video directly to an overhead map or bird's-eye-view (BEV) of the world, in a single end-to-end network. We assume a 1-1 correspondence between a vertical scanline in the image, and rays passing through the camera location in an overhead map. This lets us formulate map generation from an image as a set of sequence-to-sequence translations. Posing the problem as translation allows the network to use the context of the image when interpreting the role of each pixel. This constrained formulation, based upon a strong physical grounding of the problem, leads to a restricted transformer network that is convolutional in the horizontal direction only. The structure allows us to make efficient use of data when training, and obtains state-of-the-art results for instantaneous mapping of three large-scale datasets, including a 15% and 30% relative gain against existing best performing methods on the nuScenes and Argoverse datasets, respectively. We make our code available on https://github.com/a vishkarsaha/translat ing-images-into-maps .
翻訳日:2021-10-05 15:33:54 公開日:2021-10-03
# 低光画像/映像強調のための意味誘導ゼロショット学習

Semantic-Guided Zero-Shot Learning for Low-Light Image/Video Enhancement ( http://arxiv.org/abs/2110.00970v1 )

ライセンス: Link先を確認
Shen Zheng, Gaurav Gupta(参考訳) 低照度画像は人間の知覚とコンピュータビジョンアルゴリズムの両方に挑戦する。 リアルタイム検出やセグメンテーションタスクなどのコンピュータビジョンアプリケーションにおいて,低照度画像を啓蒙するアルゴリズムを堅牢にすることが重要である。 本稿では,ペア画像,非ペアデータセット,セグメンテーションアノテーションの欠如を訓練した,セマンティック誘導型ゼロショット低光強調ネットワークを提案する。 まず,奥行き分離可能な畳み込みを用いた効率的な拡張係数抽出ネットワークを設計する。 第2に,低光度画像の漸進的向上のための再帰的画像強調ネットワークを提案する。 最後に,意味情報を保存するための教師なしセマンティックセグメンテーションネットワークを導入する。 様々なベンチマークデータセットと低照度ビデオに関する広範な実験は、我々のモデルが以前の最先端技術よりも質的かつ定量的に優れていることを示している。 提案手法の低照度検出とセグメンテーションの利点についても検討する。

Low-light images challenge both human perceptions and computer vision algorithms. It is crucial to make algorithms robust to enlighten low-light images for computational photography and computer vision applications such as real-time detection and segmentation tasks. This paper proposes a semantic-guided zero-shot low-light enhancement network which is trained in the absence of paired images, unpaired datasets, and segmentation annotation. Firstly, we design an efficient enhancement factor extraction network using depthwise separable convolution. Secondly, we propose a recurrent image enhancement network for progressively enhancing the low-light image. Finally, we introduce an unsupervised semantic segmentation network for preserving the semantic information. Extensive experiments on various benchmark datasets and a low-light video demonstrate that our model outperforms the previous state-of-the-art qualitatively and quantitatively. We further discuss the benefits of the proposed method for low-light detection and segmentation.
翻訳日:2021-10-05 15:33:31 公開日:2021-10-03
# 野生画像からの3次元人体形状とポーズ推定のための階層的運動確率分布

Hierarchical Kinematic Probability Distributions for 3D Human Shape and Pose Estimation from Images in the Wild ( http://arxiv.org/abs/2110.00990v1 )

ライセンス: Link先を確認
Akash Sengupta, Ignas Budvytis, Roberto Cipolla(参考訳) 本稿では,RGB画像からの3次元人体形状とポーズ推定の問題に対処する。 これはしばしば不適切な問題であり、複数のプラプティブルな3Dボディは入力に存在する視覚的証拠と一致しうる。 したがって、単一の3次元再構成ではなく、入力画像に3次元の身体形状とポーズの分布を推定することが望ましい。 深層ニューラルネットワークを用いて,人体のキネマティックな木構造を利用した相対的3次元関節回転行列(すなわち身体ポーズ)上の階層的マトリックス・フィッシュ分布と,smpl体形状パラメータ上のガウス分布を推定する。 さらに、入力画像の視覚的証拠に一致した予測形状とポーズ分布を確実にするため、画像平面上に投影された2次元接地座標と予測分布からのサンプルとの再投影損失を課すために、異種拒絶サンプルを実装した。 提案手法は,SSP-3Dおよび3DPWデータセット上での3次元形状の計測値と競合し,また,3次元形状上の構造的確率分布とポーズを出力し,予測の不確かさを有意に定量化し,複数の有意な3次元再構成をサンプリングし,与えられた入力画像を説明する。 コードはhttps://github.com/a kashsengupta 1997/HierarchicalPro babilistic3DHumanで入手できる。

This paper addresses the problem of 3D human body shape and pose estimation from an RGB image. This is often an ill-posed problem, since multiple plausible 3D bodies may match the visual evidence present in the input - particularly when the subject is occluded. Thus, it is desirable to estimate a distribution over 3D body shape and pose conditioned on the input image instead of a single 3D reconstruction. We train a deep neural network to estimate a hierarchical matrix-Fisher distribution over relative 3D joint rotation matrices (i.e. body pose), which exploits the human body's kinematic tree structure, as well as a Gaussian distribution over SMPL body shape parameters. To further ensure that the predicted shape and pose distributions match the visual evidence in the input image, we implement a differentiable rejection sampler to impose a reprojection loss between ground-truth 2D joint coordinates and samples from the predicted distributions, projected onto the image plane. We show that our method is competitive with the state-of-the-art in terms of 3D shape and pose metrics on the SSP-3D and 3DPW datasets, while also yielding a structured probability distribution over 3D body shape and pose, with which we can meaningfully quantify prediction uncertainty and sample multiple plausible 3D reconstructions to explain a given input image. Code is available at https://github.com/a kashsengupta1997/Hie rarchicalProbabilist ic3DHuman .
翻訳日:2021-10-05 15:33:20 公開日:2021-10-03
# Aucmedi Frameworkを用いたウイルス肺炎X線画像の分類

Classification of Viral Pneumonia X-ray Images with the Aucmedi Framework ( http://arxiv.org/abs/2110.01017v1 )

ライセンス: Link先を確認
Pia Schneider, Dominik M\"uller and Frank Kramer(参考訳) この研究では、AUCMEDI-Frameworkを使用して、深層ニューラルネットワークをトレーニングし、胸部X線画像を正常またはウイルス性肺炎として分類する。 k=3の層状k折りクロスバリデーションを用いて検証セットを生成し、各折りたたみモデルの評価とアンサンブルの評価のためにデータの15%を別々に設定する。 異なる折りたたみの予測からランダムフォレスト・アンサンブルとソフト・メジャー・ヴォート・アンサンブルが構築される。 個々の折り目とアンサンブルの評価指標(分類報告、マクロf1スコア、融合行列、ROC曲線)は、分類器がうまく機能することを示している。 最後に、grad-camとlime explainedable artificial intelligence (xai)アルゴリズムを使用して、予測に最も重要な画像特徴を視覚化する。 Grad-CAMでは、平均XAI熱マップを計算するために、3つの折りたたみ体の熱マップが全画像に対してさらに平均化される。 多くの画像の異なる折りたたみ体の熱マップはわずかに異なるため、平均化手順はうまく機能する。 しかし、XAIが特徴とする特徴の質を評価できるのは医療専門家のみである。 評価指標とpcrなどの標準手順の指標との比較も重要である。 さらなる制限について論じる。

In this work we use the AUCMEDI-Framework to train a deep neural network to classify chest X-ray images as either normal or viral pneumonia. Stratified k-fold cross-validation with k=3 is used to generate the validation-set and 15% of the data are set aside for the evaluation of the models of the different folds and ensembles each. A random-forest ensemble as well as a Soft-Majority-Vote ensemble are built from the predictions of the different folds. Evaluation metrics (Classification-Repo rt, macro f1-scores, Confusion-Matrices, ROC-Curves) of the individual folds and the ensembles show that the classifier works well. Finally Grad-CAM and LIME explainable artificial intelligence (XAI) algorithms are applied to visualize the image features that are most important for the prediction. For Grad-CAM the heatmaps of the three folds are furthermore averaged for all images in order to calculate a mean XAI-heatmap. As the heatmaps of the different folds for most images differ only slightly this averaging procedure works well. However, only medical professionals can evaluate the quality of the features marked by the XAI. A comparison of the evaluation metrics with metrics of standard procedures such as PCR would also be important. Further limitations are discussed.
翻訳日:2021-10-05 15:32:55 公開日:2021-10-03
# 記憶変調によるユニバーサル顔復元

Universal Face Restoration With Memorized Modulation ( http://arxiv.org/abs/2110.01033v1 )

ライセンス: Link先を確認
Jia Li, Huaibo Huang, Xiaofei Jia, Ran He(参考訳) ブラインドフェース修復(BFR)は劣化パターンの不確実性のため難しい問題である。 本稿では,多種多様な劣化シーンと異種領域における普遍的BFRのためのRelete with Memorized Modulation (RMM)フレームワークを提案する。 ランダムノイズと教師なしウェーブレットメモリを適用し,各層とインスタンスレベルの注意欠陥を考慮し,フェイスエンハンスメントジェネレータを適応的に変調する。 具体的には、訓練段階では、低レベル空間特徴埋め込み、高分解能画像のウェーブレット変換により得られたウェーブレットメモリ埋め込み、及び不連続な高レベルノイズ埋め込みを、層正規化、インスタンス正規化、元の特徴マップから生成される注意マップのガイダンスと一体化する。 これら3つの埋め込みは、それぞれ、空間的内容、高周波テクスチャ詳細、学習可能な普遍的プリエントと、他のブラインド画像劣化パターンに関連付けられる。 低解像度画像の空間的特徴と対応するウェーブレットスタイルのコードをそれぞれメモリユニットにキーと値として格納する。 テスト段階では、対応する空間キーが推論画像と最も一致するウェーブレットメモリ値を検索して、ジェネレータを変調する。 さらに、ランダムノイズから得られる普遍的な事前学習は、変調ネットワークのトレーニングによって記憶されている。 実験の結果,提案手法は最先端手法に比べて優れており,野生での一般化も良好であることがわかった。

Blind face restoration (BFR) is a challenging problem because of the uncertainty of the degradation patterns. This paper proposes a Restoration with Memorized Modulation (RMM) framework for universal BFR in diverse degraded scenes and heterogeneous domains. We apply random noise as well as unsupervised wavelet memory to adaptively modulate the face-enhancement generator, considering attentional denormalization in both layer and instance levels. Specifically, in the training stage, the low-level spatial feature embedding, the wavelet memory embedding obtained by wavelet transformation of the high-resolution image, as well as the disentangled high-level noise embeddings are integrated, with the guidance of attentional maps generated from layer normalization, instance normalization, and the original feature map. These three embeddings are respectively associated with the spatial content, high-frequency texture details, and a learnable universal prior against other blind image degradation patterns. We store the spatial feature of the low-resolution image and the corresponding wavelet style code as key and value in the memory unit, respectively. In the test stage, the wavelet memory value whose corresponding spatial key is the most matching with that of the inferred image is retrieved to modulate the generator. Moreover, the universal prior learned from the random noise has been memorized by training the modulation network. Experimental results show the superiority of the proposed method compared with the state-of-the-art methods, and a good generalization in the wild.
翻訳日:2021-10-05 15:32:34 公開日:2021-10-03
# 深層学習モデルの進歩的伝達と推論

Progressive Transmission and Inference of Deep Learning Models ( http://arxiv.org/abs/2110.00916v1 )

ライセンス: Link先を確認
Youngsoo Lee, Sangdoo Yun, Yeonghun Kim, Sunghee Choi(参考訳) 現代の画像ファイルは通常、徐々に送信され、イメージ全体をダウンロードする前にプレビューを提供し、遅いネットワーク接続に対処するためにユーザーエクスペリエンスを改善した。 本稿では,同様の目的から,特にサーバから事前訓練されたディープラーニングモデルが送信され,ユーザデバイス(例えばwebブラウザやモバイル)で実行されるシナリオに対処するために,ディープラーニングモデルのためのプログレッシブトランスミッションフレームワークを提案する。 プログレッシブトランスミッションは,ファイル配信の途中で近似モデルを推定し,許容可能な中間出力を迅速に提供する。 サーバ側では、ディープラーニングモデルを分割してユーザデバイスに順次送信する。 そして、分割された部品を段階的に連結し、ユーザデバイス上で近似モデルを構築する。 実験の結果, モデル精度を維持しつつ, モデルサイズや送信時間を大きくすることなく, 計算効率が向上した。 さらに,提案手法は,特に遅い接続で近似モデルを提供することで,ユーザエクスペリエンスを向上させることができることを示す。

Modern image files are usually progressively transmitted and provide a preview before downloading the entire image for improved user experience to cope with a slow network connection. In this paper, with a similar goal, we propose a progressive transmission framework for deep learning models, especially to deal with the scenario where pre-trained deep learning models are transmitted from servers and executed at user devices (e.g., web browser or mobile). Our progressive transmission allows inferring approximate models in the middle of file delivery, and quickly provide an acceptable intermediate outputs. On the server-side, a deep learning model is divided and progressively transmitted to the user devices. Then, the divided pieces are progressively concatenated to construct approximate models on user devices. Experiments show that our method is computationally efficient without increasing the model size and total transmission time while preserving the model accuracy. We further demonstrate that our method can improve the user experience by providing the approximate models especially in a slow connection.
翻訳日:2021-10-05 15:26:21 公開日:2021-10-03
# グラフポインタニューラルネットワーク

Graph Pointer Neural Networks ( http://arxiv.org/abs/2110.00973v1 )

ライセンス: Link先を確認
Tianmeng Yang, Yujing Wang, Zhihan Yue, Yaming Yang, Yunhai Tong, Jing Bai(参考訳) グラフニューラルネットワーク(GNN)は、グラフベースの様々なアプリケーションにおいて利点を示している。 ほとんどの既存のGNNはグラフ構造の強いホモフィリーを仮定し、各ノードの表現を学ぶために近傍の置換不変局所集合を適用する。 しかし、近隣のほとんどのノードが異なるラベルや特徴を持ち、関連するノードが遠い異種グラフに一般化することができない。 近年の研究では、中央ノードの隠された表現(マルチホップベースのアプローチ)を複数組み合わせたり、注意スコア(ランキングベースのアプローチ)に基づいて近隣ノードをソートすることでこの問題に対処しようとする研究はほとんどない。 その結果、これらのアプローチにはいくつかの明らかな制限がある。 一方で、マルチホップベースのアプローチは、関連するノードを多数のマルチホップ近傍と明確に区別しないため、過度にスムースな問題を引き起こしている。 一方、ランキングベースモデルでは、終端タスクとノードランキングを協調最適化せず、結果として準最適解が得られる。 本稿では,上記の課題に対処するため,GPNN(Graph Pointer Neural Networks)を提案する。 ポインターネットワークを利用して,多数のマルチホップ近傍から最も関連性の高いノードを選択し,中央ノードとの関係に応じて順序列を構成する。 1D畳み込みはノードシーケンスから高レベルの特徴を抽出するために適用される。 GPNNのポインタネットワークベースのローダは、エンドツーエンドで他の部分と共同最適化される。 ヘテロフレンドリグラフを用いた6つのパブリックノード分類データセットについて,広範な実験を行った。 その結果,gpnnは最先端手法の分類性能を大幅に向上させた。 さらに,無関係な隣人をフィルタリングし,過度なスムーシングを減らした上で,提案するGPNNの特権も明らかにした。

Graph Neural Networks (GNNs) have shown advantages in various graph-based applications. Most existing GNNs assume strong homophily of graph structure and apply permutation-invarian t local aggregation of neighbors to learn a representation for each node. However, they fail to generalize to heterophilic graphs, where most neighboring nodes have different labels or features, and the relevant nodes are distant. Few recent studies attempt to address this problem by combining multiple hops of hidden representations of central nodes (i.e., multi-hop-based approaches) or sorting the neighboring nodes based on attention scores (i.e., ranking-based approaches). As a result, these approaches have some apparent limitations. On the one hand, multi-hop-based approaches do not explicitly distinguish relevant nodes from a large number of multi-hop neighborhoods, leading to a severe over-smoothing problem. On the other hand, ranking-based models do not joint-optimize node ranking with end tasks and result in sub-optimal solutions. In this work, we present Graph Pointer Neural Networks (GPNN) to tackle the challenges mentioned above. We leverage a pointer network to select the most relevant nodes from a large amount of multi-hop neighborhoods, which constructs an ordered sequence according to the relationship with the central node. 1D convolution is then applied to extract high-level features from the node sequence. The pointer-network-base d ranker in GPNN is joint-optimized with other parts in an end-to-end manner. Extensive experiments are conducted on six public node classification datasets with heterophilic graphs. The results show that GPNN significantly improves the classification performance of state-of-the-art methods. In addition, analyses also reveal the privilege of the proposed GPNN in filtering out irrelevant neighbors and reducing over-smoothing.
翻訳日:2021-10-05 15:26:06 公開日:2021-10-03
# dr.aid: 分散コラボレーションのためのデータガバナンスルールコンプライアンスを自動化したサポート

Dr.Aid: Supporting Data-governance Rule Compliance for Decentralized Collaboration in an Automated Way ( http://arxiv.org/abs/2110.01056v1 )

ライセンス: Link先を確認
Rui Zhao, Malcolm Atkinson, Petros Papapanagiotou, Federica Magnoni, Jacques Fleuriot(参考訳) 制度的な境界を越えての協力が広まりつつある。 しばしばガバナンスルールを持つデータを共有するフェデレーションや、使用を制限する外部規制に依存します。 しかし、データガバナンスルール(別名、データ利用ポリシー)の扱いは、手動、時間的、エラーを起こし、コラボレーションが課題や機会に対処し、市民科学を阻害し、データプロバイダのコンプライアンスに対する信頼を低下させる速度を制限する。 コンプライアンス処理を容易にする自動化システムを使用することで、このような非ミッション作業に必要な時間を大幅に削減し、コラボレーションの加速と生産性の向上を実現します。 我々は、個人、組織、フェデレーションがデータ規則に準拠するのを助けるフレームワークであるDr.Aidを提案し、プロセス間でデータが渡され、派生データが発生するにつれて、どのルールが適用可能かを自動化を用いて追跡する。 形式言語を使ってデータガバランスルールをエンコードし、分散されたコンテキストでマルチ入出力データフローグラフ上で推論を行う。 我々は,サイクロン追跡と地震モデルのユーザと連携して,緩和と緊急対応を支援することで,その電力と実用性をテストする。 我々は、彼らが使用しているツールやシステムの詳細からDr.Aidを分離するために、標準成果トレースを問い合わせる。 多様な分野からの実生活データ利用ポリシーをエンコードすることで,3つの側面からモデルを評価し,実世界の利用能力と従来のフレームワークと比較して利点を示す。 このアプローチは、よりアジャイルで、より生産的で、より信頼に値するコラボレーションにつながり、このアプローチを段階的に採用できることを示しています。 これにより、より適切なデータポリシーが新しい形のコラボレーションを開放できるようになる。

Collaboration across institutional boundaries is widespread and increasing today. It depends on federations sharing data that often have governance rules or external regulations restricting their use. However, the handling of data governance rules (aka. data-use policies) remains manual, time-consuming and error-prone, limiting the rate at which collaborations can form and respond to challenges and opportunities, inhibiting citizen science and reducing data providers' trust in compliance. Using an automated system to facilitate compliance handling reduces substantially the time needed for such non-mission work, thereby accelerating collaboration and improving productivity. We present a framework, Dr.Aid, that helps individuals, organisations and federations comply with data rules, using automation to track which rules are applicable as data is passed between processes and as derived data is generated. It encodes data-governance rules using a formal language and performs reasoning on multi-input-multi-ou tput data-flow graphs in decentralised contexts. We test its power and utility by working with users performing cyclone tracking and earthquake modelling to support mitigation and emergency response. We query standard provenance traces to detach Dr.Aid from details of the tools and systems they are using, as these inevitably vary across members of a federation and through time. We evaluate the model in three aspects by encoding real-life data-use policies from diverse fields, showing its capability for real-world usage and its advantages compared with traditional frameworks. We argue that this approach will lead to more agile, more productive and more trustworthy collaborations and show that the approach can be adopted incrementally. This, in-turn, will allow more appropriate data policies to emerge opening up new forms of collaboration.
翻訳日:2021-10-05 15:22:29 公開日:2021-10-03
# 自己教師付き学習を用いたマルチタスク音声活性化フレームワーク

Multi-task Voice-Activated Framework using Self-supervised Learning ( http://arxiv.org/abs/2110.01077v1 )

ライセンス: Link先を確認
Shehzeen Hussain, Van Nguyen, Shuhua Zhang, Erik Visser(参考訳) wav2vec 2.0のような自己教師型学習手法は,音声認識に有用な未記述音声データから音声表現を学習する上で有望な結果を示した。 これらの表現はタスク固有の監督なしに学習されるため、話者検証、キーワードスポッティング、感情分類などの他の音声活性化タスクにも有用である。 本研究では,音声アクティベートタスクに事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。 我々は,wav2vec 2.0の文脈化音声表現に基づいて,与えられたタスクを解決するための表現を適応する下流ネットワークアーキテクチャを開発する。 最後に,共有トランスフォーマーバックボーンを用いて,複数の音声アクティベートタスクに対してネットワークパラメータを共同で最適化することにより,マルチタスク学習を実現するためのフレームワークを拡張した。 我々の単一およびマルチタスクのフレームワークは、話者検証とキーワードスポッティングベンチマークで最先端の結果を得る。 我々の最高のパフォーマンスモデルは、VoxCeleb2とVoxCeleb1でそれぞれトレーニングされたVoxCeleb1テストセットで1.98%と3.15%のEERを達成する。

Self-supervised learning methods such as wav2vec 2.0 have shown promising results in learning speech representations from unlabelled and untranscribed speech data that are useful for speech recognition. Since these representations are learned without any task-specific supervision, they can also be useful for other voice-activated tasks like speaker verification, keyword spotting, emotion classification etc. In our work, we propose a general purpose framework for adapting a pre-trained wav2vec 2.0 model for different voice-activated tasks. We develop downstream network architectures that operate on the contextualized speech representations of wav2vec 2.0 to adapt the representations for solving a given task. Finally, we extend our framework to perform multi-task learning by jointly optimizing the network parameters on multiple voice activated tasks using a shared transformer backbone. Both of our single and multi-task frameworks achieve state-of-the-art results in speaker verification and keyword spotting benchmarks. Our best performing models achieve 1.98% and 3.15% EER on VoxCeleb1 test set when trained on VoxCeleb2 and VoxCeleb1 respectively, and 98.23% accuracy on Google Speech Commands v1.0 keyword spotting dataset.
翻訳日:2021-10-05 15:21:19 公開日:2021-10-03
# 3次元足跡雲における解剖学的ランドマークの局在

Anatomical Landmarks Localization for 3D Foot Point Clouds ( http://arxiv.org/abs/2110.00937v1 )

ライセンス: Link先を確認
Sheldon Fung, Xuequan Lu, Mantas Mykolaitis, Gediminas Kostkevicius, Domantas Ozerenskis(参考訳) 3D解剖学的ランドマークは、健康研究において重要な役割を果たす。 そのため、自動予測/ローカライゼーションが重要なタスクとなる。 本稿では,3次元解剖学的ランドマーク予測のための変形法を提案する。 臨床医が注釈を付ける解剖学的ランドマークを持つソースモデルを利用し、このモデルがターゲットモデルに不規則に一致するように変形する。 最適化には2つの制約が導入され、それぞれアライメントと滑らかさに責任がある。 実験はデータセット上で行われ,本手法のロバスト性を示すとともに,ほとんどのケースにおいて最先端技術よりも優れた性能が得られることを示す。

3D anatomical landmarks play an important role in health research. Their automated prediction/localizat ion thus becomes a vital task. In this paper, we introduce a deformation method for 3D anatomical landmarks prediction. It utilizes a source model with anatomical landmarks which are annotated by clinicians, and deforms this model non-rigidly to match the target model. Two constraints are introduced in the optimization, which are responsible for alignment and smoothness, respectively. Experiments are performed on our dataset and the results demonstrate the robustness of our method, and show that it yields better performance than the state-of-the-art techniques in most cases.
翻訳日:2021-10-05 15:19:10 公開日:2021-10-03
# 縦断CTによるCOVID-19感染定量のためのインタラクティブセグメンテーション

Interactive Segmentation for COVID-19 Infection Quantification on Longitudinal CT scans ( http://arxiv.org/abs/2110.00948v1 )

ライセンス: Link先を確認
Michelle Xiao-Lin Foo, Seong Tae Kim, Magdalini Paschali, Leili Goli, Egon Burian, Marcus Makowski, Rickmer Braren, Nassir Navab, Thomas Wendler(参考訳) 病状進行と治療に対する反応を正確に評価するためには,複数の時点にまたがる患者のCTスキャンの連続的セグメンテーションが不可欠である。 既存の医療画像の自動およびインタラクティブセグメンテーションモデルは、単一の時点(静的)のデータのみを使用する。 しかし、以前の時点からの貴重なセグメンテーション情報は、患者のフォローアップスキャンのセグメンテーションを助けるためにはあまり使われない。 また、完全自動セグメンテーション技術は、臨床使用のためにさらなる編集を必要とする結果をもたらすことが多い。 本研究では,利用可能な全ての過去の情報を十分に活用し,フォローアップスキャンのセグメント化を洗練するインタラクティブセグメンテーションのための新しい単一ネットワークモデルを提案する。 第1のセグメンテーションラウンドでは、2つの時点(ターゲットと参照)から3dの医療画像を取り込んだスライスとして、追加の参照時点セグメンテーションをガイドとして、ターゲットスキャンをセグメンテーションする。 その後のセグメンテーション改良ラウンドでは、セグメンテーションを補正するスクリブル形式のユーザフィードバックと、ターゲットの以前のセグメンテーション結果がモデルに付加される。 これにより、以前の精錬ラウンドからのセグメンテーション情報が保持される。 施設内における多クラス縦断型COVID-19データセットの実験結果から、提案モデルが静的バージョンより優れており、患者のフォローアップスキャンでCOVID-19感染の局所化を支援できることが判明した。

Consistent segmentation of COVID-19 patient's CT scans across multiple time points is essential to assess disease progression and response to therapy accurately. Existing automatic and interactive segmentation models for medical images only use data from a single time point (static). However, valuable segmentation information from previous time points is often not used to aid the segmentation of a patient's follow-up scans. Also, fully automatic segmentation techniques frequently produce results that would need further editing for clinical use. In this work, we propose a new single network model for interactive segmentation that fully utilizes all available past information to refine the segmentation of follow-up scans. In the first segmentation round, our model takes 3D volumes of medical images from two-time points (target and reference) as concatenated slices with the additional reference time point segmentation as a guide to segment the target scan. In subsequent segmentation refinement rounds, user feedback in the form of scribbles that correct the segmentation and the target's previous segmentation results are additionally fed into the model. This ensures that the segmentation information from previous refinement rounds is retained. Experimental results on our in-house multiclass longitudinal COVID-19 dataset show that the proposed model outperforms its static version and can assist in localizing COVID-19 infections in patient's follow-up scans.
翻訳日:2021-10-05 15:19:01 公開日:2021-10-03
# 玉ねぎピーリングアプローチとターン機能を用いた指紋照合

Fingerprint Matching using the Onion Peeling Approach and Turning Function ( http://arxiv.org/abs/2110.00958v1 )

ライセンス: Link先を確認
Nazanin Padkan, B. Sadeghi Bigham, Mohammad Reza Faraji(参考訳) フィンガープリントは最も人気があり堅牢な生体認証特性の1つであり、個人を識別するための自動識別と検証システムに利用できる。 指紋照合は指紋認識システムにおいて不可欠で困難な問題である。 ほとんどの指紋マッチングアルゴリズムはminutiaeベースである。 指紋のマイナス値は、その不連続性によって決定できる。 リッジエンディングとリッジ分岐は、ほとんどの指紋マッチングアルゴリズムでよく使われる2つのminutiaeである。 本稿では,タマネギ剥離法を用いて,新しいminutiaeベースの指紋照合法を提案する。 提案手法では,一致点を求めるために指紋をアライメントする。 そして、一致するマイナス点のネスト凸多角形を構築し、回転関数距離によってピア対ピア多角形の比較を行う。 オニオン剥離法における簡便さ, 正確性, 低時間の複雑さは, 指紋マッチングの標準的な方法となる重要な3つの要因である。 提案アルゴリズムの性能はデータベース $fvc2002$ で評価される。 その結果、同じ指の指紋は異なる指よりもスコアが高いことがわかった。 それらの層数の違いが2ドル以上であること、および0.15未満の微妙なマッチングスコアが無視されるため、より良い結果が得られる。

Fingerprint, as one of the most popular and robust biometric traits, can be used in automatic identification and verification systems to identify individuals. Fingerprint matching is a vital and challenging issue in fingerprint recognition systems. Most fingerprint matching algorithms are minutiae-based. The minutiae in fingerprints can be determined by their discontinuity. Ridge ending and ridge bifurcation are two frequently used minutiae in most fingerprint-based matching algorithms. This paper presents a new minutiae-based fingerprint matching using the onion peeling approach. In the proposed method, fingerprints are aligned to find the matched minutiae points. Then, the nested convex polygons of matched minutiae points are constructed and the comparison between peer-to-peer polygons is performed by the turning function distance. Simplicity, accuracy, and low time complexity of the Onion peeling approach are three important factors that make it a standard method for fingerprint matching purposes. The performance of the proposed algorithm is evaluated on the database $FVC2002$. The results show that fingerprints of the same fingers have higher scores than different fingers. Since the fingerprints that the difference between the number of their layers is more than $2$ and the minutiae matching score lower than 0.15 are ignored, the better results are obtained.
翻訳日:2021-10-05 15:18:40 公開日:2021-10-03
# 低光画像強調のための適応展開全変分ネットワーク

Adaptive Unfolding Total Variation Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2110.00984v1 )

ライセンス: Link先を確認
Chuanjun Zheng, Daming Shi, Wentian Shi(参考訳) 現実の低照度画像は、2つの大きな劣化、すなわち避けられないノイズと視界の低下に悩まされる。 ノイズは異なるレベルを示すため、生のバイエル空間から低光度画像を強調する最近の研究でその推定が実装されている。 sRGB色空間に関しては、画像処理パイプラインの影響によりノイズ推定がより複雑になる。 それでも、sRGB空間の既存の拡張アルゴリズムのほとんどは、低可視性の問題にのみ焦点をあてたり、仮説的雑音レベルの下でノイズを抑えることで、ロバスト性の欠如により非現実的となった。 この問題に対処するため,本研究では,モデルベースデノナイジング法において,全変分正則化を用いてバランスパラメータを学習することにより,実sRGB低照度画像からの雑音レベルを近似する適応展開全変分ネットワーク(UTVNet)を提案する。 一方,スムースネスと忠実度制約の推論を提供するために,対応する最小化プロセスを展開することで,雑音レベルマップを学習する。 ノイズレベルマップに導かれたutvnetは、より細かいディテールを復元でき、実際に撮影された低照度シーンでノイズを抑えることができます。 実世界の低照度画像に対する大規模な実験は、最先端の手法よりもUTVNetの優れた性能を示している。

Real-world low-light images suffer from two main degradations, namely, inevitable noise and poor visibility. Since the noise exhibits different levels, its estimation has been implemented in recent works when enhancing low-light images from raw Bayer space. When it comes to sRGB color space, the noise estimation becomes more complicated due to the effect of the image processing pipeline. Nevertheless, most existing enhancing algorithms in sRGB space only focus on the low visibility problem or suppress the noise under a hypothetical noise level, leading them impractical due to the lack of robustness. To address this issue,we propose an adaptive unfolding total variation network (UTVNet), which approximates the noise level from the real sRGB low-light image by learning the balancing parameter in the model-based denoising method with total variation regularization. Meanwhile, we learn the noise level map by unrolling the corresponding minimization process for providing the inferences of smoothness and fidelity constraints. Guided by the noise level map, our UTVNet can recover finer details and is more capable to suppress noise in real captured low-light scenes. Extensive experiments on real-world low-light images clearly demonstrate the superior performance of UTVNet over state-of-the-art methods.
翻訳日:2021-10-05 15:18:21 公開日:2021-10-03
# AI指向電力系統過渡安定シミュレーションの探索

Exploration of AI-Oriented Power System Transient Stability Simulations ( http://arxiv.org/abs/2110.00931v1 )

ライセンス: Link先を確認
Tannan Xiao, Ying Chen, Jianquan Wang, Shaowei Huang, Weilin Tong, Tirui He(参考訳) 人工知能(AI)は過去5年間で大きな進歩を遂げ、電力系統の分析と制御において、より重要な役割を担っている。 将来の電力系統の過渡安定シミュレーションがAIと深く統合されることは予測できる。 しかし、既存の電力系統の動的シミュレーションツールは、十分なAIフレンドリではない。 本稿では,ai指向の電力系統過渡安定シミュレータの汎用設計を提案する。 フレキシブルなアプリケーションプログラミングインタフェースを備えた並列シミュレータで、シミュレータは高速なシミュレーション速度、ニューラルネットワークのサポート性、ネットワークトポロジアクセシビリティを有する。 この設計のプロトタイプが実装され、以前実現したシミュレータに基づいて公開された。 このai指向シミュレータのテストは、複数のシナリオで実行され、シミュレータの設計と実装が合理的でaiフレンドリーで、高い効率であることを証明する。

Artificial Intelligence (AI) has made significant progress in the past 5 years and is playing a more and more important role in power system analysis and control. It is foreseeable that the future power system transient stability simulations will be deeply integrated with AI. However, the existing power system dynamic simulation tools are not AI-friendly enough. In this paper, a general design of an AI-oriented power system transient stability simulator is proposed. It is a parallel simulator with a flexible application programming interface so that the simulator has rapid simulation speed, neural network supportability, and network topology accessibility. A prototype of this design is implemented and made public based on our previously realized simulator. Tests of this AI-oriented simulator are carried out under multiple scenarios, which proves that the design and implementation of the simulator are reasonable, AI-friendly, and highly efficient.
翻訳日:2021-10-05 15:16:06 公開日:2021-10-03
# xfair: 保護属性のモデルベースリバランスによる公平性の向上

xFAIR: Better Fairness via Model-based Rebalancing of Protected Attributes ( http://arxiv.org/abs/2110.01109v1 )

ライセンス: Link先を確認
Kewen Peng, Joymallya Chakraborty, Tim Menzies(参考訳) 機械学習ソフトウェアは、特定の保護された社会グループ(例えば、性別、民族などに基づくグループ)に対して不適切に識別するモデルを生成することができる。 これらの結果に触発され、ソフトウェア工学研究者はこれらの差別効果を緩和する多くの方法を提案した。 これらの手法は偏見を緩和するのに有効であるが、偏見の原因を説明できるものはほとんどない。 本稿では,バイアス軽減と原因説明の両立が可能なモデルベース外挿法であるxfairを提案する。 当社のxFAIRアプローチでは、保護された属性は、他の独立した変数から学んだモデルによって表現されます。 次に,保護属性の分布の再バランスを通じて,分類モデルの偏りのある予測を相殺することを目的とした,relabel保護属性の補間モデルを用いた。 この実験により,xFAIRcanは,従来のモデル性能を損なうことなく,ベンチマーク法により,グループと個体の公平性(測定値)を著しく向上することを示した。 さらに、他のインスタンスベースのリバランス手法と比較すると、モデルベースのアプローチは実行速度が速く、スケーラビリティも向上しています。

Machine learning software can generate models that inappropriately discriminate against specific protected social groups (e.g., groups based on gender, ethnicity, etc). Motivated by those results, software engineering researchers have proposed many methods for mitigating those discriminatory effects. While those methods are effective in mitigating bias, few of them can provide explanations on what is the cause of bias. Here we propose xFAIR, a model-based extrapolation method, that is capable of both mitigating bias and explaining the cause. In our xFAIR approach, protected attributes are represented by models learned from the other independent variables (and these models offer extrapolations over the space between existing examples). We then use the extrapolation models to relabel protected attributes, which aims to offset the biased predictions of the classification model via rebalancing the distribution of protected attributes. The experiments of this paper show that, without compromising(origina l) model performance,xFAIRcan achieve significantly better group and individual fairness (as measured in different metrics)than benchmark methods. Moreover, when compared to another instance-based rebalancing method, our model-based approach shows faster runtime and thus better scalability
翻訳日:2021-10-05 15:13:53 公開日:2021-10-03
# 空間画像ステガナリシスのためのグラフ表現学習

Graph Representation Learning for Spatial Image Steganalysis ( http://arxiv.org/abs/2110.00957v1 )

ライセンス: Link先を確認
Qiyun Liu and Hanzhou Wu(参考訳) 本稿では,空間像ステガナリシスのためのグラフ表現学習アーキテクチャを提案する。このアーキテクチャは,表層画像から得られた隠れグラフの特徴の統計的特性を必然的に歪めてしまうという仮定によって動機付けられている。 詳細なアーキテクチャでは、各イメージをグラフに変換し、ノードがイメージのパッチを表し、エッジがパッチ間のローカルな関連を示しています。 各ノードは、浅い畳み込みニューラルネットワーク(CNN)構造によって対応するパッチから決定される特徴ベクトルに関連付けられる。 注意ネットワークにグラフを供給することにより、効率的なステガナリシスのための識別的特徴を学習することができる。 実験により, 報告されたアーキテクチャは, ステガナリシスにおけるグラフ学習の可能性を示すベンチマークCNNモデルと比較して, 競争性能が向上していることが示された。

In this paper, we introduce a graph representation learning architecture for spatial image steganalysis, which is motivated by the assumption that steganographic modifications unavoidably distort the statistical characteristics of the hidden graph features derived from cover images. In the detailed architecture, we translate each image to a graph, where nodes represent the patches of the image and edges indicate the local associations between the patches. Each node is associated with a feature vector determined from the corresponding patch by a shallow convolutional neural network (CNN) structure. By feeding the graph to an attention network, the discriminative features can be learned for efficient steganalysis. Experiments indicate that the reported architecture achieves a competitive performance compared to the benchmark CNN model, which has shown the potential of graph learning for steganalysis.
翻訳日:2021-10-05 15:09:36 公開日:2021-10-03
# 反復的半教師付き学習のための情報理論一般化境界

Information-Theoreti c Generalization Bounds for Iterative Semi-Supervised Learning ( http://arxiv.org/abs/2110.00926v1 )

ライセンス: Link先を確認
Haiyun He, Hanshu Yan, Vincent Y. F. Tan(参考訳) 我々は、モデルパラメータを段階的に洗練するために、大量の未ラベルデータに対して擬似ラベルを反復的に生成する反復半教師付き学習(SSL)アルゴリズムを検討する。 特に,情報理論の原理を用いて反復型SSLアルゴリズムの一般化誤差の振る舞いを理解することを目的とする。 数値的な評価に適する境界を得るためには、まず単純なモデル、すなわち二元ガウス混合モデルで作業する。 我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。 単純なモデルに関する理論的結果は、MNIST や CIFAR などのベンチマークデータセットの広範な実験によって裏付けられ、一般化誤差は擬似ラベリングを繰り返した後に改善されるが、その後飽和する。

We consider iterative semi-supervised learning (SSL) algorithms that iteratively generate pseudo-labels for a large amount unlabelled data to progressively refine the model parameters. In particular, we seek to understand the behaviour of the {\em generalization error} of iterative SSL algorithms using information-theoreti c principles. To obtain bounds that are amenable to numerical evaluation, we first work with a simple model -- namely, the binary Gaussian mixture model. Our theoretical results suggest that when the class conditional variances are not too large, the upper bound on the generalization error decreases monotonically with the number of iterations, but quickly saturates. The theoretical results on the simple model are corroborated by extensive experiments on several benchmark datasets such as the MNIST and CIFAR datasets in which we notice that the generalization error improves after several pseudo-labelling iterations, but saturates afterwards.
翻訳日:2021-10-05 15:05:58 公開日:2021-10-03
# 情報誘発がクラスタリングを満たす

Information Elicitation Meets Clustering ( http://arxiv.org/abs/2110.00952v1 )

ライセンス: Link先を確認
Yuqing Kong(参考訳) 人々の主観的評価を集約したい状況では、多くの低益な人々が真の品質に関わらず常に「良い」と報告する場合、複数の投票は意味がない。 「意外に人気がある」という手法は、前よりも意外な答えを選び、ある程度この問題に対処する。 しかし、それでも人々の戦略に完全には耐えられていない。 ここでは,少数の多目的質問(マルチタスク,大規模グループ)に対して,多数の人が回答を求められる状況において,人々の戦略に頑健な情報集約手法を提案する。 興味深いことに、この方法は回転する「驚くほど人気」と見なすことができる。 それは、新しいクラスタリング法、決定行列最大化(dmi)-クラスタリング、および基底を持たない情報誘発をクラスタリング問題と見なすことができるという重要な概念に基づいている。 DMIクラスタリング(英: DMI-clustering)は、クラスタサイズの積を乗算する各クラスタの平均値からなる単純度を最大化する一般的なクラスタリング手法である。 dmiクラスタ化はすべてのデータポイントの非退化アフィン変換に不変であることを示す。 データポイントの次元が一定であれば、DMIクラスタリングは多項式時間で解くことができる。 一般に、dmiクラスタ化のための単純なヒューリスティックは、ロイドのk平均に対するアルゴリズムと非常によく似ている。 さらに, 単一タスク設定におけるクラスタリングの考え方を適用し, スペクトル法を用いて, 群集から導出される第2のモーメント情報を利用する新しい集約手法を提案する。

In the setting where we want to aggregate people's subjective evaluations, plurality vote may be meaningless when a large amount of low-effort people always report "good" regardless of the true quality. "Surprisingly popular" method, picking the most surprising answer compared to the prior, handle this issue to some extent. However, it is still not fully robust to people's strategies. Here in the setting where a large number of people are asked to answer a small number of multi-choice questions (multi-task, large group), we propose an information aggregation method that is robust to people's strategies. Interestingly, this method can be seen as a rotated "surprisingly popular". It is based on a new clustering method, Determinant MaxImization (DMI)-clustering, and a key conceptual idea that information elicitation without ground-truth can be seen as a clustering problem. Of independent interest, DMI-clustering is a general clustering method that aims to maximize the volume of the simplex consisting of each cluster's mean multiplying the product of the cluster sizes. We show that DMI-clustering is invariant to any non-degenerate affine transformation for all data points. When the data point's dimension is a constant, DMI-clustering can be solved in polynomial time. In general, we present a simple heuristic for DMI-clustering which is very similar to Lloyd's algorithm for k-means. Additionally, we also apply the clustering idea in the single-task setting and use the spectral method to propose a new aggregation method that utilizes the second-moment information elicited from the crowds.
翻訳日:2021-10-05 15:05:44 公開日:2021-10-03
# (参考訳) 多粒子力学系によるトランスフォーマーアーキテクチャの再設計 [全文訳有]

Redesigning the Transformer Architecture with Insights from Multi-particle Dynamical Systems ( http://arxiv.org/abs/2109.15142v2 )

ライセンス: CC BY 4.0
Subhabrata Dutta, Tanya Gautam, Soumen Chakrabarti and Tanmoy Chakraborty(参考訳) Transformerとその変種は、多くの異なる領域における効率的なシーケンス学習者であることが証明されている。 驚くべき成功にもかかわらず、重要な問題は、(10^7$から10^{11}$まで)訓練しなければならない膨大なパラメータと、ドット製品への注意の二次的な複雑さである。 本研究では,Transformerの2つの中心成分であるマルチヘッド自己アテンションとポイントワイドフィードフォワード変換をパラメータ空間と計算複雑性で近似する問題について検討する。 我々は,従来の微分方程式の数値解法として,ディープニューラルネットワークを解析する最近の発展の上に構築する。 変圧器の段差と複数の相互作用粒子の力学系の進化の類似性を利用して、時間的進化スキームTransEvolveを定式化し、複数の積層層にコストのかかるドット積の注意をバイパスする。 我々は、よく知られたエンコーダデコーダとエンコーダのみのタスクでTransEvolveで徹底的な実験を行う。 近似の程度(あるいは逆のパラメータ減少の程度)がタスクによって性能に異なる影響を与えることを観察する。 エンコーダ/デコーダのシステムでは、TransEvolveはオリジナルのTransformerに匹敵するパフォーマンスを提供するが、エンコーダのみのタスクではTransformerよりも連続的にパフォーマンスが向上する。

The Transformer and its variants have been proven to be efficient sequence learners in many different domains. Despite their staggering success, a critical issue has been the enormous number of parameters that must be trained (ranging from $10^7$ to $10^{11}$) along with the quadratic complexity of dot-product attention. In this work, we investigate the problem of approximating the two central components of the Transformer -- multi-head self-attention and point-wise feed-forward transformation, with reduced parameter space and computational complexity. We build upon recent developments in analyzing deep neural networks as numerical solvers of ordinary differential equations. Taking advantage of an analogy between Transformer stages and the evolution of a dynamical system of multiple interacting particles, we formulate a temporal evolution scheme, TransEvolve, to bypass costly dot-product attention over multiple stacked layers. We perform exhaustive experiments with TransEvolve on well-known encoder-decoder as well as encoder-only tasks. We observe that the degree of approximation (or inversely, the degree of parameter reduction) has different effects on the performance, depending on the task. While in the encoder-decoder regime, TransEvolve delivers performances comparable to the original Transformer, in encoder-only tasks it consistently outperforms Transformer along with several subsequent variants.
翻訳日:2021-10-05 11:39:29 公開日:2021-10-03