このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220602となっている論文です。

PDF登録状況(公開日: 20220602)

TitleAuthorsAbstract論文公表日・翻訳日
# 重み付き関節分布によるマルチソース領域適応

Multi-source Domain Adaptation via Weighted Joint Distributions Optimal Transport ( http://arxiv.org/abs/2006.12938v2 )

ライセンス: Link先を確認
Rosanna Turrisi, R\'emi Flamary, Alain Rakotomamonjy, Massimiliano Pontil(参考訳) 複数のラベル付きソースデータセットからの知識を用いたラベルなしターゲットデータセットへのドメイン適応の問題がますます重要になっている。 重要な課題は、ソース間、およびソースとターゲットドメイン間の共変量とターゲットシフトを克服するアプローチを設計することである。 本稿では,この問題を新たな視点から解決する。ソース領域とターゲット領域の間の潜在表現不変量を求める代わりに,対象タスクに対する重み付けを調整し,ソース分布の多様性を利用する。 Weighted Joint Distribution Optimal Transport (WJDOT) と名付けられた本手法は,ソース分布とターゲット分布の最適輸送に基づくアライメントと,ソース分布の再重み付けを同時に実現する。 本手法の理論的側面を考察し,概念的に単純なアルゴリズムを提案する。 数値実験により,提案手法はシミュレーションおよび実生活データセットの最先端性能を実現することを示す。

The problem of domain adaptation on an unlabeled target dataset using knowledge from multiple labelled source datasets is becoming increasingly important. A key challenge is to design an approach that overcomes the covariate and target shift both among the sources, and between the source and target domains. In this paper, we address this problem from a new perspective: instead of looking for a latent representation invariant between source and target domains, we exploit the diversity of source distributions by tuning their weights to the target task at hand. Our method, named Weighted Joint Distribution Optimal Transport (WJDOT), aims at finding simultaneously an Optimal Transport-based alignment between the source and target distributions and a re-weighting of the sources distributions. We discuss the theoretical aspects of the method and propose a conceptually simple algorithm. Numerical experiments indicate that the proposed method achieves state-of-the-art performance on simulated and real-life datasets.
翻訳日:2022-11-17 22:08:26 公開日:2022-06-02
# meet masks: 新たなマルチクラス化の検証アプローチ

Meet MASKS: A novel Multi-Classifier's verification approach ( http://arxiv.org/abs/2007.10090v3 )

ライセンス: Link先を確認
Amirhoshang Hoseinpour Dehkordi, Majid Alizadeh, Ali Movaghar(参考訳) 本研究では,分類器に対する新しいアンサンブル手法を提案する。 複数分類器の統合により,より優れた誤り除去のための検証手法を開発した。 複数の分類器からなるマルチエージェントシステムは、安全特性の満足度を検証するために設計されている。 分散知識の集約に関する推論を検討するために,論理モデルが提案されている。 事前定義された特性を検証するため、マルチエージェントシステムの知識共有アルゴリズム(MASKS)が策定・開発されている。 厳密な評価として,このモデルをFashion-MNIST,MNIST,Fruit-360データセットに適用した。

In this study, a new ensemble approach for classifiers is introduced. A verification method for better error elimination is developed through the integration of multiple classifiers. A multi-agent system comprised of multiple classifiers is designed to verify the satisfaction of the safety property. In order to examine the reasoning concerning the aggregation of the distributed knowledge, a logical model has been proposed. To verify predefined properties, a Multi-Agent Systems' Knowledge-Sharing algorithm (MASKS) has been formulated and developed. As a rigorous evaluation, we applied this model to the Fashion-MNIST, MNIST, and Fruit-360 datasets, where it reduced the error rate to approximately one-tenth of the individual classifiers.
翻訳日:2022-11-14 05:55:14 公開日:2022-06-02
# ギャップのブリッジ:ニューラルネットワークバイナリ分類器の訓練と評価を統一する

Bridging the Gap: Unifying the Training and Evaluation of Neural Network Binary Classifiers ( http://arxiv.org/abs/2009.01367v3 )

ライセンス: Link先を確認
Nathan Tsoi, Kate Candon, Deyuan Li, Yofti Milkessa, Marynel V\'azquez(参考訳) ニューラルネットワークバイナリ分類器は、精度や$F_1$-Scoreなどのメトリクスで評価されることが多いが、一般的にはクロスエントロピー目的で訓練されている。 このトレーニングと評価のギャップにどのように対処すればよいのか? ある種の混乱行列に基づくメトリクスを最適化するために特定のテクニックが採用されているが、場合によっては他のメトリクスにテクニックを一般化することは困難または不可能である。 混乱マトリクスベースのメトリクスによるネットワーク最適化には、逆学習手法も提案されているが、一般的なトレーニング方法よりもはるかに遅い傾向がある。 本研究では,Heaviside関数の微分可能近似と,ソフトセットを用いた典型的な混乱行列値の確率的ビューを組み合わせたニューラルネットワークバイナリ分類器の学習手法を提案する。 我々の理論解析は,ソフトセットを用いた$F_1$-Scoreなどの評価基準を最適化するために我々の手法を用いることの利点を示し,いくつかの領域におけるアプローチの有効性を示す。

While neural network binary classifiers are often evaluated on metrics such as Accuracy and $F_1$-Score, they are commonly trained with a cross-entropy objective. How can this training-evaluation gap be addressed? While specific techniques have been adopted to optimize certain confusion matrix based metrics, it is challenging or impossible in some cases to generalize the techniques to other metrics. Adversarial learning approaches have also been proposed to optimize networks via confusion matrix based metrics, but they tend to be much slower than common training methods. In this work, we propose a unifying approach to training neural network binary classifiers that combines a differentiable approximation of the Heaviside function with a probabilistic view of the typical confusion matrix values using soft sets. Our theoretical analysis shows the benefit of using our method to optimize for a given evaluation metric, such as $F_1$-Score, with soft sets, and our extensive experiments show the effectiveness of our approach in several domains.
翻訳日:2022-10-22 18:44:03 公開日:2022-06-02
# ゼロサム確率ゲームにおける架空の遊び

Fictitious play in zero-sum stochastic games ( http://arxiv.org/abs/2010.04223v6 )

ライセンス: Link先を確認
Muhammed O. Sayin, Francesca Parise and Asuman Ozdaglar(参考訳) 本稿では,古典的架空の遊びとQ-ラーニングを融合した新しい架空の遊び力学の変種を確率ゲームに適用し,その収束特性を2プレイヤーゼロサム確率ゲームで解析する。 我々のダイナミクスは、プレイヤーが相手の戦略とそれ自身の継続報酬(q関数)に対する信念を形成し、推定された継続報酬を用いて欲深いベストレスポンスをプレイすることである。 プレイヤーは相手の行動の観察から信念を更新する。 学習力学の重要な特性は、Q関数に関する信念の更新が戦略に関する信念の更新よりも遅い時間スケールで起こることである。 モデルベースとモデルフリーのケース(プレイヤーの支払い関数と状態遷移確率の知識がない)の両方において、戦略の信念はゼロサム確率ゲームの定常混合ナッシュ均衡に収束する。

We present a novel variant of fictitious play dynamics combining classical fictitious play with Q-learning for stochastic games and analyze its convergence properties in two-player zero-sum stochastic games. Our dynamics involves players forming beliefs on the opponent strategy and their own continuation payoff (Q-function), and playing a greedy best response by using the estimated continuation payoffs. Players update their beliefs from observations of opponent actions. A key property of the learning dynamics is that update of the beliefs on Q-functions occurs at a slower timescale than update of the beliefs on strategies. We show both in the model-based and model-free cases (without knowledge of player payoff functions and state transition probabilities), the beliefs on strategies converge to a stationary mixed Nash equilibrium of the zero-sum stochastic game.
翻訳日:2022-10-09 13:16:28 公開日:2022-06-02
# 顕微鏡画像再構成のための拡張等変アテンションネットワーク

Augmented Equivariant Attention Networks for Microscopy Image Reconstruction ( http://arxiv.org/abs/2011.03633v4 )

ライセンス: Link先を確認
Yaochen Xie, Yu Ding, Shuiwang Ji(参考訳) 高品質または高解像度の電子顕微鏡(EM)と蛍光顕微鏡(FM)の画像を取るのに時間と費用がかかる。 これらの画像を取ることは、サンプルに対してさらに侵入的になり、長時間または激しい露光の後、サンプルの微妙さを損なう可能性がある。 深層学習の進歩により、様々な種類の顕微鏡画像再構成のための画像-画像変換タスクを実行し、物理的に取得された低品質の画像から高品質の画像を生成する。 実験的に取得した顕微鏡画像のペア上で画像間変換モデルをトレーニングする場合、画像間の依存関係と画像間で共有される共通特徴をキャプチャできないため、以前のモデルはパフォーマンス損失に悩まされる。 画像分類タスクにおける共有特徴を生かした既存の手法は、空間的置換の下での同値性維持に失敗するため、画像再構成タスクには適切に適用できない。 これらの制限に対処するために,画像間依存性をキャプチャする能力が向上し,同値性を維持しつつ,拡張同変注意ネットワーク(aeanets)を提案する。 提案されたAEANetsは、トレーニング中の共有参照とバッチアウェアアテンションであるアテンションメカニズムの2つの拡張を通じて、イメージ間の依存関係と共有機能をキャプチャする。 提案手法の等価性は理論的に導出し,ベースライン法よりも定量的および視覚的結果に一貫した優位性を実験的に示す。

It is time-consuming and expensive to take high-quality or high-resolution electron microscopy (EM) and fluorescence microscopy (FM) images. Taking these images could be even invasive to samples and may damage certain subtleties in the samples after long or intense exposures, often necessary for achieving high-quality or high resolution in the first place. Advances in deep learning enable us to perform image-to-image transformation tasks for various types of microscopy image reconstruction, computationally producing high-quality images from the physically acquired low-quality ones. When training image-to-image transformation models on pairs of experimentally acquired microscopy images, prior models suffer from performance loss due to their inability to capture inter-image dependencies and common features shared among images. Existing methods that take advantage of shared features in image classification tasks cannot be properly applied to image reconstruction tasks because they fail to preserve the equivariance property under spatial permutations, something essential in image-to-image transformation. To address these limitations, we propose the augmented equivariant attention networks (AEANets) with better capability to capture inter-image dependencies, while preserving the equivariance property. The proposed AEANets captures inter-image dependencies and shared features via two augmentations on the attention mechanism, which are the shared references and the batch-aware attention during training. We theoretically derive the equivariance property of the proposed augmented attention model and experimentally demonstrate its consistent superiority in both quantitative and visual results over the baseline methods.
翻訳日:2022-09-29 05:08:08 公開日:2022-06-02
# (参考訳) 次世代衛星ネットワークのための人工知能技術

Artificial Intelligence Techniques for Next-Generation Mega Satellite Networks ( http://arxiv.org/abs/2207.00414v1 )

ライセンス: CC BY 4.0
Bassel Al Homssi, Kosta Dakic, Ke Wang, Tansu Alpcan, Ben Allen, Sithamparanathan Kandeepan, Akram Al-Hourani, and Walid Saad(参考訳) 宇宙通信、特にメガ衛星ネットワークは、宇宙打ち上げ、エレクトロニクス、処理能力、小型化の大きな進歩により、次世代ネットワークの魅力ある候補として再燃した。 しかし、メガ衛星ネットワークは、軌道速度、衛星間リンク、短距離通過、衛星フットプリントなどのダイナミックでユニークな特徴のために、従来のモデルでは真に捉えられない多くの基盤的および相互接続のプロセスに依存している。 したがって、ネットワークがリンク内で急速に変化する条件に積極的に適応できるように、新しいアプローチが必要である。 人工知能(AI)は、これらのプロセスを捕捉し、その振る舞いを分析し、ネットワーク上での効果をモデル化する経路を提供する。 本稿では,統合衛星ネットワーク,特にメガ衛星ネットワーク通信におけるai技術の適用について紹介する。 メガ衛星ネットワークのユニークな特徴と、現在の通信インフラへの統合に伴う全体的な課題を詳述している。 さらに、このアーティクルは、コミュニケーションリンクのさまざまなレイヤにわたる最先端のAI技術に関する洞察を提供する。 これは、高度にダイナミックな無線チャネルの予測、スペクトル検出と分類、信号検出と復調、衛星間リンクと衛星アクセスネットワークの最適化、ネットワークセキュリティのためのaiの適用を含む。 さらに,今後のパラダイムと,それらの機構の実用ネットワークへのマッピングについて概説する。

Space communications, particularly mega satellite networks, re-emerged as an appealing candidate for next generation networks due to major advances in space launching, electronics, processing power, and miniaturization. However, mega satellite networks rely on numerous underlying and intertwined processes that cannot be truly captured using conventionally used models, due to their dynamic and unique features such as orbital speed, inter-satellite links, short time pass, and satellite footprint, among others. Hence, new approaches are needed to enable the network to proactively adjust to the rapidly varying conditions associated within the link. Artificial intelligence (AI) provides a pathway to capture these processes, analyze their behavior, and model their effect on the network. This article introduces the application of AI techniques for integrated terrestrial satellite networks, particularly mega satellite network communications. It details the unique features of mega satellite networks, and the overarching challenges concomitant with their integration into the current communication infrastructure. Moreover, the article provides insights into state-of-the-art AI techniques across various layers of the communication link. This entails applying AI for forecasting the highly dynamic radio channel, spectrum sensing and classification, signal detection and demodulation, inter-satellite link and satellite access network optimization, and network security. Moreover, future paradigms and the mapping of these mechanisms onto practical networks are outlined.
翻訳日:2022-07-10 18:12:33 公開日:2022-06-02
# (参考訳) 教師付き学習法を用いた航空機の操縦状態予測

Prediction of Maneuvering Status for Aerial Vehicles using Supervised Learning Methods ( http://arxiv.org/abs/2206.10303v1 )

ライセンス: CC BY 4.0
Abhishek Gupta, Sarvesh Thustu, Riti Thakor, Saniya Patil, Raunak Joshi, Ronald Melvin Laban(参考訳) 航空車両は緯度、経度、緯度に基づくガイド付きアプローチに従う。 この情報は、軌道に沿った航空機の操縦状況を計算するのに使うことができる。 これはバイナリ分類の問題であり、機械学習はそのような問題を解決するために利用することができる。 本稿では, 線形, 距離, 識別分析, ブースティング・アンサンブルによる学習手法を用いて, 操作状態の導出とその予測手法を提案する。 我々は, 操作状態の予測に適切なアルゴリズムを凝縮した比較を行うため, 結果セクションのラインに沿って様々な指標を提供する。

Aerial Vehicles follow a guided approach based on Latitude, Longitude and Altitude. This information can be used for calculating the status of maneuvering for the aerial vehicles along the line of trajectory. This is a binary classification problem and Machine Learning can be leveraged for solving such problem. In this paper we present a methodology for deriving maneuvering status and its prediction using Linear, Distance Metric, Discriminant Analysis and Boosting Ensemble supervised learning methods. We provide various metrics along the line in the results section that give condensed comparison of the appropriate algorithm for prediction of the maneuvering status.
翻訳日:2022-06-27 03:16:45 公開日:2022-06-02
# (参考訳) 携帯電話データと興味に基づくセグメンテーションを用いた電気自動車の公共料金需要の推定

Estimation of Electric Vehicle Public Charging Demand using Cellphone Data and Points of Interest-based Segmentation ( http://arxiv.org/abs/2206.11065v1 )

ライセンス: CC BY 4.0
Victor Radermecker and Lieselot Vanhaverbeke(参考訳) 道路の電気化競争が始まり、ドライバーが燃料駆動の車両から電気自動車に乗り換えるよう促すには、堅牢な電気自動車(EV)充電インフラが必要である。 本稿では,革新的なEV充電需要推定とセグメンテーション手法を提案する。 まず,セルシグナリングデータを用いて,近傍の粒度の帯電需要を推定する。 第2に,全充電要求を,通常充電,半急速充電,高速充電といった異なる充電技術に分割するセグメンテーションモデルを提案する。 セグメンテーションモデルは、市の関心点に基づいたアプローチであり、都市計画に適用できる有用な傾向を導出する最先端の手法である。 ブリュッセル市の事例研究が提案されている。

The race for road electrification has started, and convincing drivers to switch from fuel-powered vehicles to electric vehicles requires robust Electric Vehicle (EV) charging infrastructure. This article proposes an innovative EV charging demand estimation and segmentation method. First, we estimate the charging demand at a neighborhood granularity using cellular signaling data. Second, we propose a segmentation model to partition the total charging needs among different charging technology: normal, semi-rapid, and fast charging. The segmentation model, an approach based on the city's points of interest, is a state-of-the-art method that derives useful trends applicable to city planning. A case study for the city of Brussels is proposed.
翻訳日:2022-06-27 03:11:14 公開日:2022-06-02
# 粒子群最適化のための強化学習に基づくパラメータ適応法

Reinforcement learning based parameters adaption method for particle swarm optimization ( http://arxiv.org/abs/2206.00835v1 )

ライセンス: Link先を確認
Yin ShiYuan(参考訳) Particle Swarm Optimization (PSO) は、様々な最適化問題の解法において優れた性能を示す最適化アルゴリズムである。 しかし、psoは通常、収束が遅い。 本稿では、PSOの係数を制御するネットワークを設計し、PSOの収束性を高めるために強化学習に基づくオンラインパラメータ適応法(RLAM)を開発した。 さらに、RLAMに基づいて、新しいRLPSOを設計する。 RLAM と RLPSO の性能を調べるため,他のオンライン適応法や PSO 変種と比較して,28 CEC 2013 ベンチマーク関数の実験を行った。 報告された計算結果から,提案したRLAMは効率的かつ有効であり,提案したRLPSOは最先端のPSOよりも優れていることが示された。

Particle swarm optimization (PSO) is a well-known optimization algorithm that shows good performance in solving different optimization problems. However, PSO usually suffers from slow convergence. In this article, a reinforcement learning-based online parameters adaption method(RLAM) is developed to enhance PSO in convergence by designing a network to control the coefficients of PSO. Moreover, based on RLAM, a new RLPSO is designed. In order to investigate the performance of RLAM and RLPSO, experiments on 28 CEC 2013 benchmark functions are carried out when comparing with other online adaption method and PSO variants. The reported computational results show that the proposed RLAM is efficient and effictive and that the the proposed RLPSO is more superior compared with several state-of-the-art PSO variants.
翻訳日:2022-06-26 14:43:40 公開日:2022-06-02
# 局所ニューロモジュレータによる任意の時間パンを介する生物学的に可哀想なバックプロパゲーション

Biologically-plausible backpropagation through arbitrary timespans via local neuromodulators ( http://arxiv.org/abs/2206.01338v1 )

ライセンス: Link先を確認
Yuhan Helena Liu, Stephen Smith, Stefan Mihalas, Eric Shea-Brown, and Uygar S\"umb\"ul(参考訳) バックプロパゲーションに基づく勾配降下によって重要なパラメータが調整されるリカレントニューラルネットワークモデルの成功は、生物学的神経ネットワークが対応するシナプス的信用代入問題をどう解決するかという多くの考えを刺激した。 しかし、生物学的ネットワークが時間を通じて必要なバックプロパゲーションを実現する方法については、生物学的シナプスネットワークのシグナリングアーキテクチャの制約が広く認識されているため、合意が得られていない。 本稿では,神経ペプチドなどの局所的な神経調節因子のシナプス外拡散は,生物学的な可能性の範囲内にあるバックプロパゲーションの有効な方法をもたらす可能性があることを示唆する。 既存の時間的トランケーションに基づく勾配近似を超えて、近似勾配に基づく更新ルールであるModPropは任意の時間ステップで信用情報を伝搬する。 modpropは、変調信号が、因果的、時間不変、シナプス型特異的フィルタータップによって、それらの適性トレースを畳み込み、受信細胞に作用することを示唆している。 ModProp学習の数学的解析は、ベンチマーク時間的タスクのシミュレーション結果とともに、既存の生物学的に証明可能な時間的信用代入規則よりもModPropの利点を実証する。 これらの結果は、より長い時間軸上の反復的相互作用に関連する信用情報を伝達する潜在的神経機構を示唆する。 最後に、modpropのin-silico実装を導出し、時間を通じてバックプロパゲーションに代わる低複雑さで因果的な代替として機能する。

The spectacular successes of recurrent neural network models where key parameters are adjusted via backpropagation-based gradient descent have inspired much thought as to how biological neuronal networks might solve the corresponding synaptic credit assignment problem. There is so far little agreement, however, as to how biological networks could implement the necessary backpropagation through time, given widely recognized constraints of biological synaptic network signaling architectures. Here, we propose that extra-synaptic diffusion of local neuromodulators such as neuropeptides may afford an effective mode of backpropagation lying within the bounds of biological plausibility. Going beyond existing temporal truncation-based gradient approximations, our approximate gradient-based update rule, ModProp, propagates credit information through arbitrary time steps. ModProp suggests that modulatory signals can act on receiving cells by convolving their eligibility traces via causal, time-invariant and synapse-type-specific filter taps. Our mathematical analysis of ModProp learning, together with simulation results on benchmark temporal tasks, demonstrate the advantage of ModProp over existing biologically-plausible temporal credit assignment rules. These results suggest a potential neuronal mechanism for signaling credit information related to recurrent interactions over a longer time horizon. Finally, we derive an in-silico implementation of ModProp that could serve as a low-complexity and causal alternative to backpropagation through time.
翻訳日:2022-06-26 14:43:27 公開日:2022-06-02
# (参考訳) 心房頻拍における心内心電図分類のための深層学習ネットワーク

A Deep Learning Network for the Classification of Intracardiac Electrograms in Atrial Tachycardia ( http://arxiv.org/abs/2206.07515v1 )

ライセンス: CC BY 4.0
Zerui Chen, Sonia Xhyn Teo, Andrie Ochtman, Shier Nee Saw, Nicholas Cheng, Eric Tien Siang Lim, Murphy Lyu, Hwee Kuan Lee(参考訳) 心房頻拍に対するカテーテルアブレーション治療の成功を可能にする重要な技術は、すべての心内心電図(egm)信号の手動局所活性化時間(lat)アノテーションに依存する活性化マッピングである。 これは信号のアクティベーションピークを特定するのが困難であるため、時間がかかりエラーが発生しやすい手順である。 本研究は, latアノテーションパイプラインの一部である正規, 異常, 未分類の3種類のegm信号の自動分類のための深層学習アプローチを提案し, latの手動アノテーションの必要性を回避することに貢献する。 CNN-LSTMモデルであるDeep Learning Networkは、畳み込みニューラルネットワーク(CNN)層と長い短期記憶(LSTM)層を組み合わせたハイブリッドネットワークアーキテクチャである。 1452例の3D心筋マッピングを施行した計9例のEMG信号を用いて,本モデルの訓練,検証,試験を行った。 以上の結果から,cnn-lstmモデルは平衡データセットの精度81%を達成した。 比較のために、同じバランスデータセットに対して67%の精度を達成するルールベースの決定木モデルを開発した。 本研究は,egm信号が複雑であるため,決定木モデルによって提案される明示的な規則群を用いたegm信号の解析が適切でないことを解明する。 一方、CNN-LSTMモデルでは、信号内の複雑な固有の特徴を学習し、EGM信号の識別に有用な特徴を特定することができる。

A key technology enabling the success of catheter ablation treatment for atrial tachycardia is activation mapping, which relies on manual local activation time (LAT) annotation of all acquired intracardiac electrogram (EGM) signals. This is a time-consuming and error-prone procedure, due to the difficulty in identifying the signal activation peaks for fractionated signals. This work presents a Deep Learning approach for the automated classification of EGM signals into three different types: normal, abnormal, and unclassified, which forms part of the LAT annotation pipeline, and contributes towards bypassing the need for manual annotations of the LAT. The Deep Learning network, the CNN-LSTM model, is a hybrid network architecture which combines convolutional neural network (CNN) layers with long short-term memory (LSTM) layers. 1452 EGM signals from a total of 9 patients undergoing clinically-indicated 3D cardiac mapping were used for the training, validation and testing of our models. From our findings, the CNN-LSTM model achieved an accuracy of 81% for the balanced dataset. For comparison, we separately developed a rule-based Decision Trees model which attained an accuracy of 67% for the same balanced dataset. Our work elucidates that analysing the EGM signals using a set of explicitly specified rules as proposed by the Decision Trees model is not suitable as EGM signals are complex. The CNN-LSTM model, on the other hand, has the ability to learn the complex, intrinsic features within the signals and identify useful features to differentiate the EGM signals.
翻訳日:2022-06-20 00:18:03 公開日:2022-06-02
# 高歪み率の圧縮支援フェデレーション学習のための資源配分

Resource Allocation for Compression-aided Federated Learning with High Distortion Rate ( http://arxiv.org/abs/2206.06976v1 )

ライセンス: Link先を確認
Xuan-Tung Nguyen, Minh-Duong Nguyen, Quoc-Viet Pham, Vinh-Quang Do, Won-Joo Hwang(参考訳) 近年,連合学習(fl)におけるコミュニケーション負担(モデル量子化,データスパース化,モデル圧縮など)に取り組むための研究が数多く行われている。 しかし、FLにおける通信効率を高める既存の手法は、通信効率とグローバル収束率との間にかなりのトレードオフをもたらす。 圧縮支援FLの最適化問題を定式化し, 歪み率, 参加IoTデバイス数, 収束率の関係を把握した。 その後、FL収束の総伝送時間を最小化することが目的である。 問題は凸ではないので,サブプロブレムに分解することを提案する。 FLモデルの特性に基づいて、まずFLプロセスに参加するIoTデバイスの数を決定する。 そして、連立ゲームに基づいて無線リソースを効率よく割り当てることで、IoTデバイスとサーバ間の通信を最適化する。 理論解析の結果,iotデバイス数を積極的に制御することで,通信効率を維持しつつ圧縮支援flのトレーニングの相違を回避できることがわかった。

Recently, a considerable amount of works have been made to tackle the communication burden in federated learning (FL) (e.g., model quantization, data sparsification, and model compression). However, the existing methods, that boost the communication efficiency in FL, result in a considerable trade-off between communication efficiency and global convergence rate. We formulate an optimization problem for compression-aided FL, which captures the relationship between the distortion rate, number of participating IoT devices, and convergence rate. Following that, the objective function is to minimize the total transmission time for FL convergence. Because the problem is non-convex, we propose to decompose it into sub-problems. Based on the property of a FL model, we first determine the number of IoT devices participating in the FL process. Then, the communication between IoT devices and the server is optimized by efficiently allocating wireless resources based on a coalition game. Our theoretical analysis shows that, by actively controlling the number of participating IoT devices, we can avoid the training divergence of compression-aided FL while maintaining the communication efficiency.
翻訳日:2022-06-19 23:36:31 公開日:2022-06-02
# フィードフォワードニューラルアーキテクチャ空間の局所オプティマスネットワーク解析

A Local Optima Network Analysis of the Feedforward Neural Architecture Space ( http://arxiv.org/abs/2206.06903v1 )

ライセンス: Link先を確認
Isak Potgieter, Christopher W. Cleghorn and Anna S. Bosman(参考訳) 本研究は,ニューラルネットワークの空間を特徴づけ,可視化するために,候補解の適合景観の微分である局所最適ネットワーク(LON)解析を用いて検討する。 最大3層、それぞれ10個のニューロンを持つfeedforwardニューラルネットワークアーキテクチャの探索空間は、データセットの選択において、トレーニングされたモデルパフォーマンスを評価することによって、完全に列挙される。 抽出されたlonは、データセットにまたがって異種であるが、すべて単純なグローバル構造を示し、1つのケースを除いて単一のグローバルファンネルを持つ。 これらの結果は、LONが神経アーキテクチャを解析し最適化する実行可能なパラダイムを提供する可能性があることを早期に示している。

This study investigates the use of local optima network (LON) analysis, a derivative of the fitness landscape of candidate solutions, to characterise and visualise the neural architecture space. The search space of feedforward neural network architectures with up to three layers, each with up to 10 neurons, is fully enumerated by evaluating trained model performance on a selection of data sets. Extracted LONs, while heterogeneous across data sets, all exhibit simple global structures, with single global funnels in all cases but one. These results yield early indication that LONs may provide a viable paradigm by which to analyse and optimise neural architectures.
翻訳日:2022-06-19 23:04:25 公開日:2022-06-02
# (参考訳) 時空間文脈を用いた会話グループ検出

Conversation Group Detection With Spatio-Temporal Context ( http://arxiv.org/abs/2206.02559v1 )

ライセンス: CC BY 4.0
Stephanie Tan, David M.J. Tax, Hayley Hung(参考訳) 本研究では,カクテルパーティーやネットワークイベントなどの社会的シナリオにおける会話グループを,オーバーヘッドカメラ記録から検出するためのアプローチを提案する。 本研究では,人間の行動信号の時間的ダイナミクスに反映される対人動態において,周囲の空間的文脈を活用できるような学習課題として,会話グループの検出と,その内在する時間的文脈を仮定する。 これはLSTMに基づく動的深層学習モデルから成り、同じ会話グループに2人がどれだけの確率でいるかを示す連続的なペアワイズ親和性値を予測するアプローチである。 関係性やグループメンバーシップは、グループメンバーシップの根拠の真理が二元であるにもかかわらず、瞬時に発生しないため、これらの親和性は時間的にも連続する。 予測親和性値を用いて、支配的集合抽出に基づくグラフクラスタリング手法を適用し、会話グループを特定する。 提案手法を,複数のソーシャルインタラクションデータセット上で確立された手法に対してベンチマークする。 提案手法により,会話グループラベルの時間的粒度が高いデータにおけるグループ検出性能が向上することを示した。 さらに,対話グループの検出に関して,予測された親和性値の分析を行う。 最後に,特定の予測地平線に対するグループメンバシップ予測のための予測フレームワークにおいて,予測親和性値の有用性を示す。

In this work, we propose an approach for detecting conversation groups in social scenarios like cocktail parties and networking events, from overhead camera recordings. We posit the detection of conversation groups as a learning problem that could benefit from leveraging the spatial context of the surroundings, and the inherent temporal context in interpersonal dynamics which is reflected in the temporal dynamics in human behavior signals, an aspect that has not been addressed in recent prior works. This motivates our approach which consists of a dynamic LSTM-based deep learning model that predicts continuous pairwise affinity values indicating how likely two people are in the same conversation group. These affinity values are also continuous in time, since relationships and group membership do not occur instantaneously, even though the ground truths of group membership are binary. Using the predicted affinity values, we apply a graph clustering method based on Dominant Set extraction to identify the conversation groups. We benchmark the proposed method against established methods on multiple social interaction datasets. Our results showed that the proposed method improves group detection performance in data that has more temporal granularity in conversation group labels. Additionally, we provide an analysis in the predicted affinity values in relation to the conversation group detection. Finally, we demonstrate the usability of the predicted affinity values in a forecasting framework to predict group membership for a given forecast horizon.
翻訳日:2022-06-12 21:08:37 公開日:2022-06-02
# (参考訳) UAS画像とコンピュータビジョンを用いたトウモロコシのサイト特異的雑草制御

Using UAS Imagery and Computer Vision to Support Site-Specific Weed Control in Corn ( http://arxiv.org/abs/2206.01734v1 )

ライセンス: CC BY 4.0
Ranjan Sapkota, Paulo Flores(参考訳) 現在、トウモロコシ畑における雑草防除は、雑草の空間分布情報を考慮せず、大量の化学除草剤を使用する除草剤の毛布適用によって行われている。 化学物質の量を減らすために,ドローンによる高解像度画像とコンピュータビジョン技術を用いて,トウモロコシの部位特異的雑草制御を行った。

Currently, weed control in a corn field is performed by a blanket application of herbicides that do not consider spatial distribution information of weeds and also uses an extensive amount of chemical herbicides. To reduce the amount of chemicals, we used drone-based high-resolution imagery and computer-vision techniques to perform site-specific weed control in corn.
翻訳日:2022-06-12 20:44:22 公開日:2022-06-02
# (参考訳) トランスファー・ラーニングを用いた脳腫瘍検出のための最先端畳み込みニューラルネットワークの挙動の検討

Examining the behaviour of state-of-the-art convolutional neural networks for brain tumor detection with and without transfer learning ( http://arxiv.org/abs/2206.01735v1 )

ライセンス: CC BY 4.0
Md. Atik Ahamed, Rabeya Tus Sadia(参考訳) 悪性腫瘍と診断し、腫瘍の種類を決定することは、脳腫瘍診断の重要な要素である。 本研究では,最先端cnnモデルを用いた2種類のデータセットについて検討した。 1つのデータセット(バイナリー)は正常および腫瘍タイプの画像を持ち、もう1つの(マルチクラス)はグリオーマ、髄膜腫または下垂体に分類される腫瘍の全ての画像を提供する。 これらのデータセットでは,imagenetから事前学習した重みから転送学習を行い,重みをランダムに初期化する実験を行った。 実験環境は、公平な比較を行うために、本研究の全てのモデルに等価である。 両方のデータセットにおいて、検証セットは、列車データが60%、残りが40%であるすべてのモデルで同じである。 この研究で提案された手法により、EfficientNet-B5アーキテクチャは、バイナリ分類データセットのすべての最先端モデルを99.75%と98.61%の精度でパフォーマンスする。 本研究は,異なる重み初期化手法における検証損失の収束挙動も示す。

Distinguishing normal from malignant and determining the tumor type are critical components of brain tumor diagnosis. Two different kinds of dataset are investigated using state-of-the-art CNN models in this research work. One dataset(binary) has images of normal and tumor types, while another(multi-class) provides all images of tumors classified as glioma, meningioma, or pituitary. The experiments were conducted in these dataset with transfer learning from pre-trained weights from ImageNet as well as initializing the weights randomly. The experimental environment is equivalent for all models in this study in order to make a fair comparison. For both of the dataset, the validation set are same for all the models where train data is 60% while the rest is 40% for validation. With the proposed techniques in this research, the EfficientNet-B5 architecture outperforms all the state-of-the-art models in the binary-classification dataset with the accuracy of 99.75% and 98.61% accuracy for the multi-class dataset. This research also demonstrates the behaviour of convergence of validation loss in different weight initialization techniques.
翻訳日:2022-06-12 20:43:30 公開日:2022-06-02
# (参考訳) ソーシャルダイナミクスを理解する2つの方法:空間と時間における局所性に依存するreddit r/placeにおけるオブジェクトの創発性の解析

Two Ways of Understanding Social Dynamics: Analyzing the Predictability of Emergent of Objects in Reddit r/place Dependent on Locality in Space and Time ( http://arxiv.org/abs/2206.03563v1 )

ライセンス: CC BY 4.0
Alyssa M Adams, Javier Fernandez, Olaf Witkowski(参考訳) 近年、相互作用するエージェントにおける社会的ダイナミクスの研究は、統計的および数学的アプローチの精度、透明性、拡張性、複製性を提供しながら、質的な作業の豊かさをもたらすコンピュータモデルの力によって促進されている。 社会力学の研究のための特別な現象のセットは、Webコラボレーティブプラットフォームである。 Reddit上で2017年に行われた共同ソーシャル実験であるr/placeは、1000ピクセル×1000ピクセルのオンラインキャンバスを共有し、72時間以上にわたって100万以上の記録ユーザーによって編集された。 本稿では, この実験のダイナミクスを分析するために, 2つの手法を設計, 比較した。 最初の方法は,キャンバス画像を生成するための2次元セルオートマタライクなルールセットと,それらのルールが時間とともにどのように変化するかを近似することであった。 第2の方法は、キャンバスの複雑な結果を生成するために、生成規則に近似した畳み込みニューラルネットワーク(CNN)で構成された。 この結果から,r/placeの時間と空間における異なるオブジェクトの予測可能性に対するコンテキストサイズ依存の相違が示唆された。 また、社会的実験の途中で統計的に行動規則を推測するのが困難であることや、ユーザーインタラクションが終了するまで低下しなかったことも示している。 ルールベースと統計的cnnベースの2つのアプローチの組み合わせは、ソーシャルダイナミクスの分析のさまざまな側面を強調する能力を示しています。

Lately, studying social dynamics in interacting agents has been boosted by the power of computer models, which bring the richness of qualitative work, while offering the precision, transparency, extensiveness, and replicability of statistical and mathematical approaches. A particular set of phenomena for the study of social dynamics is Web collaborative platforms. A dataset of interest is r/place, a collaborative social experiment held in 2017 on Reddit, which consisted of a shared online canvas of 1000 pixels by 1000 pixels co-edited by over a million recorded users over 72 hours. In this paper, we designed and compared two methods to analyze the dynamics of this experiment. Our first method consisted in approximating the set of 2D cellular-automata-like rules used to generate the canvas images and how these rules change over time. The second method consisted in a convolutional neural network (CNN) that learned an approximation to the generative rules in order to generate the complex outcomes of the canvas. Our results indicate varying context-size dependencies for the predictability of different objects in r/place in time and space. They also indicate a surprising peak in difficulty to statistically infer behavioral rules towards the middle of the social experiment, while user interactions did not drop until before the end. The combination of our two approaches, one rule-based and the other statistical CNN-based, shows the ability to highlight diverse aspects of analyzing social dynamics.
翻訳日:2022-06-12 20:36:08 公開日:2022-06-02
# (参考訳) maxstyle:ロバストな医用画像セグメンテーションのためのadversarial style composition

MaxStyle: Adversarial Style Composition for Robust Medical Image Segmentation ( http://arxiv.org/abs/2206.01737v1 )

ライセンス: CC BY 4.0
Chen Chen, Zeju Li, Cheng Ouyang, Matt Sinclair, Wenjia Bai, Daniel Rueckert(参考訳) 畳み込みニューラルネットワーク(cnns)は、トレーニングとテストセットが同じドメインにあるベンチマークデータセットにおいて、顕著なセグメンテーション精度を達成しているが、そのパフォーマンスは、多くの臨床シナリオにおいてcnnの展開を妨げる未発見領域で著しく低下する可能性がある。 既存の作業の多くは、トレーニングのためにマルチドメインデータセットを収集することで、モデル・オブ・ドメイン(ood)の堅牢性を改善する。 本研究では,単一ドメインのデータセットのみを使用して,モデルのロバスト性を改善することに注力する。 我々は,OODモデルの性能向上のためのスタイル拡張の有効性を最大化するMaxStyleという新しいデータ拡張フレームワークを提案する。 補助的なスタイル拡張イメージデコーダをセグメンテーションネットワークに接続し、ロバストな特徴学習とデータ拡張を行う。 重要なことは、MaxStyleは、画像スタイルの多様性と硬さを改善して、ノイズでスタイル空間を拡大し、敵対的訓練を通じて潜伏した特徴の最悪のスタイル構成を探索することによって、データを強化することである。 複数の公開心臓および前立腺mrデータセットに関する広範囲な実験により、maxstyleは、低訓練データと高訓練データの両方で、複数の異なる未発見のサイトと未知の画像シーケンスにまたがる共通分散シフトと同様に、未発見の腐敗に対する分散のロバスト性が大幅に改善されることを実証した。 コードはhttps://github.com/cherise215/MaxStyleにある。

Convolutional neural networks (CNNs) have achieved remarkable segmentation accuracy on benchmark datasets where training and test sets are from the same domain, yet their performance can degrade significantly on unseen domains, which hinders the deployment of CNNs in many clinical scenarios. Most existing works improve model out-of-domain (OOD) robustness by collecting multi-domain datasets for training, which is expensive and may not always be feasible due to privacy and logistical issues. In this work, we focus on improving model robustness using a single-domain dataset only. We propose a novel data augmentation framework called MaxStyle, which maximizes the effectiveness of style augmentation for model OOD performance. It attaches an auxiliary style-augmented image decoder to a segmentation network for robust feature learning and data augmentation. Importantly, MaxStyle augments data with improved image style diversity and hardness, by expanding the style space with noise and searching for the worst-case style composition of latent features via adversarial training. With extensive experiments on multiple public cardiac and prostate MR datasets, we demonstrate that MaxStyle leads to significantly improved out-of-distribution robustness against unseen corruptions as well as common distribution shifts across multiple, different, unseen sites and unknown image sequences under both low- and high-training data settings. The code can be found at https://github.com/cherise215/MaxStyle.
翻訳日:2022-06-12 20:25:25 公開日:2022-06-02
# KPGT:分子特性予測のための知識誘導型グラフトランスの事前学習

KPGT: Knowledge-Guided Pre-training of Graph Transformer for Molecular Property Prediction ( http://arxiv.org/abs/2206.03364v1 )

ライセンス: Link先を確認
Han Li, Dan Zhao and Jianyang Zeng(参考訳) 分子特性予測のための正確なディープラーニングモデルの設計は、薬物や物質の発見においてますます重要な役割を果たす。 近年,ラベル付き分子の不足により,分子グラフの一般化および伝達可能な表現を学習するための自己教師付き学習法が注目されている。 本稿では,既存の自己教師型学習手法が,分子特性予測,すなわち未定義の事前学習タスクと限定モデル能力において望ましい性能を得るのを妨げる2つの大きな問題が存在することを論じる。 この目的のために、分子グラフ表現学習のための新しい自己教師型学習フレームワークであるKPGT(Knowledge-guided Pre-training of Graph Transformer)を導入し、上記の問題を緩和し、下流の分子特性予測タスクの性能を向上させる。 より具体的には、まずLine Graph Transformer (LiGhT) という高容量モデルを紹介し、これは化学結合の重要性を強調し、主に分子グラフの構造情報をモデル化するために設計されている。 次に, 分子の知識を活用し, 大規模非ラベル分子グラフから豊富な構造的, 意味的情報を取り出すための知識誘導事前学習戦略を提案する。 大規模計算実験により、KPGTはいくつかの分子特性予測タスクにおける現在の最先端手法よりも優れた性能を提供できることが示された。

Designing accurate deep learning models for molecular property prediction plays an increasingly essential role in drug and material discovery. Recently, due to the scarcity of labeled molecules, self-supervised learning methods for learning generalizable and transferable representations of molecular graphs have attracted lots of attention. In this paper, we argue that there exist two major issues hindering current self-supervised learning methods from obtaining desired performance on molecular property prediction, that is, the ill-defined pre-training tasks and the limited model capacity. To this end, we introduce Knowledge-guided Pre-training of Graph Transformer (KPGT), a novel self-supervised learning framework for molecular graph representation learning, to alleviate the aforementioned issues and improve the performance on the downstream molecular property prediction tasks. More specifically, we first introduce a high-capacity model, named Line Graph Transformer (LiGhT), which emphasizes the importance of chemical bonds and is mainly designed to model the structural information of molecular graphs. Then, a knowledge-guided pre-training strategy is proposed to exploit the additional knowledge of molecules to guide the model to capture the abundant structural and semantic information from large-scale unlabeled molecular graphs. Extensive computational tests demonstrated that KPGT can offer superior performance over current state-of-the-art methods on several molecular property prediction tasks.
翻訳日:2022-06-12 09:40:38 公開日:2022-06-02
# スパースX線データを用いた3次元特徴検出のための機械学習

Machine Learning for Detection of 3D Features using sparse X-ray data ( http://arxiv.org/abs/2206.02564v1 )

ライセンス: Link先を確認
Bradley T. Wolfe, Michael J. Falato, Xinhua Zhang, Nga T. T. Nguyen-Fotiadis, J.P. Sauppe, P. M. Kozlowski, P. A. Keiter, R. E. Reinovsky, S. A. Batha, and Zhehui Wang(参考訳) 多くの慣性凝縮核融合実験では、中性子収率やその他のパラメータは1次元モデルと2次元モデルで完全に説明できない。 この矛盾は、重要な3次元効果が存在することを示唆している。 これらの影響の源には、殻と殻の界面の欠陥、カプセルの充填管、二重シェルターゲットの関節機能が含まれる。 物質を透過する能力のため、X線は物体の内部構造を捉えるために用いられる。 計算トモグラフィーのような手法は、物体の3次元モデルを再構築するために数百の投影からx線ラジオグラフを使用する。 国立点火施設やomega-60のような実験環境では、これらのビューの可利用性は乏しく、多くの場合、1行の視線しか持たない。 スパースビューからの3次元物体の数学的再構成は不適切な逆問題である。 このような問題は、通常、事前情報を利用して解決される。 ニューラルネットワークは、従来の情報をエンコードし活用できるため、3D再構成のタスクに使われてきた。 実験データから5ダースの異なる畳み込みニューラルネットワークを用いて, icfインロージョンの異なる3次元表現を生成する。 我々は,高分解能再構成を実現するために,ニューラルネットワークを訓練するために深層監視を利用する。 これらの表現は、腹腔、内殻、および殻半球間の関節などのカプセルの3次元的特徴を追跡するために用いられる。 機械学習は、様々な先行技術によって補完され、ICFやX線ラジオグラフィー全般において3次元再構成の有望な方法である。

In many inertial confinement fusion experiments, the neutron yield and other parameters cannot be completely accounted for with one and two dimensional models. This discrepancy suggests that there are three dimensional effects which may be significant. Sources of these effects include defects in the shells and shell interfaces, the fill tube of the capsule, and the joint feature in double shell targets. Due to their ability to penetrate materials, X-rays are used to capture the internal structure of objects. Methods such as Computational Tomography use X-ray radiographs from hundreds of projections in order to reconstruct a three dimensional model of the object. In experimental environments, such as the National Ignition Facility and Omega-60, the availability of these views is scarce and in many cases only consist of a single line of sight. Mathematical reconstruction of a 3D object from sparse views is an ill-posed inverse problem. These types of problems are typically solved by utilizing prior information. Neural networks have been used for the task of 3D reconstruction as they are capable of encoding and leveraging this prior information. We utilize half a dozen different convolutional neural networks to produce different 3D representations of ICF implosions from the experimental data. We utilize deep supervision to train a neural network to produce high resolution reconstructions. We use these representations to track 3D features of the capsules such as the ablator, inner shell, and the joint between shell hemispheres. Machine learning, supplemented by different priors, is a promising method for 3D reconstructions in ICF and X-ray radiography in general.
翻訳日:2022-06-07 18:00:35 公開日:2022-06-02
# RIDDLE:Range Image Deep Delta Encodingによるライダーデータ圧縮

RIDDLE: Lidar Data Compression with Range Image Deep Delta Encoding ( http://arxiv.org/abs/2206.01738v1 )

ライセンス: Link先を確認
Xuanyu Zhou, Charles R. Qi, Yin Zhou, Dragomir Anguelov(参考訳) lidarは、自動運転や拡張現実で広く使われている深度測定センサーである。 しかし、ライダーが生成する大量のデータは、データストレージと送信のコストが高くなる可能性がある。 lidarデータは3dポイントクラウドとレンジイメージの2つの交換可能な表現として表現できるが、ほとんどの以前の作業は一般的な3dポイントクラウドの圧縮に焦点を当てている。 本研究では, 距離画像を直接圧縮することで, 非投影点雲を圧縮することに比べ, ライダー走査パターンを活用できることを示す。 RIDDLE (Range Image Deep DeLta Encoding) と呼ばれる新しいデータ駆動レンジ画像圧縮アルゴリズムを提案する。 コアとなるのは、現在のスキャンと過去のスキャンの両方(球面座標と時間からなる4Dポイント雲として表される)のコンテキストレーザーショットに基づいて、ラスター走査順序で次のピクセル値を予測するディープモデルである。 予測と元の値の間のデルタはエントロピー符号化によって圧縮できる。 Waymo Open Dataset と KITTI を用いて評価した結果, 広範に使用されている点群と範囲画像圧縮アルゴリズム, および最近のディープ手法と比較して, 圧縮速度(同じ歪み下で)が大幅に向上したことを示す。

Lidars are depth measuring sensors widely used in autonomous driving and augmented reality. However, the large volume of data produced by lidars can lead to high costs in data storage and transmission. While lidar data can be represented as two interchangeable representations: 3D point clouds and range images, most previous work focus on compressing the generic 3D point clouds. In this work, we show that directly compressing the range images can leverage the lidar scanning pattern, compared to compressing the unprojected point clouds. We propose a novel data-driven range image compression algorithm, named RIDDLE (Range Image Deep DeLta Encoding). At its core is a deep model that predicts the next pixel value in a raster scanning order, based on contextual laser shots from both the current and past scans (represented as a 4D point cloud of spherical coordinates and time). The deltas between predictions and original values can then be compressed by entropy encoding. Evaluated on the Waymo Open Dataset and KITTI, our method demonstrates significant improvement in the compression rate (under the same distortion) compared to widely used point cloud and range image compression algorithms as well as recent deep methods.
翻訳日:2022-06-07 17:15:33 公開日:2022-06-02
# 対人RAW:撮像パイプラインに対する画像スケーリング攻撃

Adversarial RAW: Image-Scaling Attack Against Imaging Pipeline ( http://arxiv.org/abs/2206.01733v1 )

ライセンス: Link先を確認
Junjian Li, Honglong Chen(参考訳) ディープラーニング技術は、コンピュータビジョンの開発のバックボーンとなっている。 さらなる探索により、ディープニューラルネットワークは、よく設計された敵攻撃に対して脆弱であることが判明した。 ビジョンデバイスの多くは、raw-to-rgb変換を実装し、効率的な画像処理のためにデータプリプロセッシングモジュールに組み込まれるイメージ信号処理(isp)パイプラインを備えている。 実際、ISPパイプラインは、データ前処理が攻撃パターンを破壊する可能性がある間、キャプチャ後のイメージに敵の振る舞いを導入することができる。 しかし、既存の攻撃はISPパイプラインとデータ前処理の両方の影響を考慮していない。 本稿では,ispパイプラインをターゲットとした画像スケーリング攻撃を,特定のサイズ画像にスケールした後に全く異なる外観を示す攻撃画像に変換する手法を提案する。 まず, 逆RAWの生成過程において, グラデーション可能なISPパイプライン, すなわち, グラデーション情報を直接利用して攻撃を開始する方法を考える。 さらに,RAW-RGB変換をよく学習するプロキシモデルを勾配オーラクルとして提案する,勾配不利用可能なISPパイプラインについても検討する。 広範な実験により,提案手法は標的ispパイプラインに対して高い攻撃率で敵の生データを生成することができることが示された。

Deep learning technologies have become the backbone for the development of computer vision. With further explorations, deep neural networks have been found vulnerable to well-designed adversarial attacks. Most of the vision devices are equipped with image signal processing (ISP) pipeline to implement RAW-to-RGB transformations and embedded into data preprocessing module for efficient image processing. Actually, ISP pipeline can introduce adversarial behaviors to post-capture images while data preprocessing may destroy attack patterns. However, none of the existing adversarial attacks takes into account the impacts of both ISP pipeline and data preprocessing. In this paper, we develop an image-scaling attack targeting on ISP pipeline, where the crafted adversarial RAW can be transformed into attack image that presents entirely different appearance once being scaled to a specific-size image. We first consider the gradient-available ISP pipeline, i.e., the gradient information can be directly used in the generation process of adversarial RAW to launch the attack. To make the adversarial attack more applicable, we further consider the gradient-unavailable ISP pipeline, in which a proxy model that well learns the RAW-to-RGB transformations is proposed as the gradient oracles. Extensive experiments show that the proposed adversarial attacks can craft adversarial RAW data against the target ISP pipelines with high attack rates.
翻訳日:2022-06-07 15:20:22 公開日:2022-06-02
# 実像復元のための複合マルチブランチ機能融合

Compound Multi-branch Feature Fusion for Real Image Restoration ( http://arxiv.org/abs/2206.02748v1 )

ライセンス: Link先を確認
Chi-Mao Fan, Tsung-Jung Liu, Kuan-Hsien Liu(参考訳) 画像復元は困難かつ不適切な問題であり、長年の課題であった。 しかし, 学習に基づく復元手法の多くは, 一般化の欠如を意味する1つの劣化型をターゲットにしている。 本稿では,人間の視覚系(網膜神経節細胞)に触発されたマルチブランチ修復モデルを提案する。 実験により、CMFNetと呼ばれる提案されたマルチブランチアーキテクチャは、画像デハジング、デラインドロップ、デブロアリングを含む4つのデータセットで競合する性能を持つことが示された。 3つの復元タスクのソースコードと事前トレーニングされたモデルは、https://github.com/fanchimao/cmfnetで入手できる。

Image restoration is a challenging and ill-posed problem which also has been a long-standing issue. However, most of learning based restoration methods are proposed to target one degradation type which means they are lack of generalization. In this paper, we proposed a multi-branch restoration model inspired from the Human Visual System (i.e., Retinal Ganglion Cells) which can achieve multiple restoration tasks in a general framework. The experiments show that the proposed multi-branch architecture, called CMFNet, has competitive performance results on four datasets, including image dehazing, deraindrop, and deblurring, which are very common applications for autonomous cars. The source code and pretrained models of three restoration tasks are available at https://github.com/FanChiMao/CMFNet.
翻訳日:2022-06-07 15:16:56 公開日:2022-06-02
# インスタンスセグメンテーションモデルのロバスト性評価と逆行訓練

Robustness Evaluation and Adversarial Training of an Instance Segmentation Model ( http://arxiv.org/abs/2206.02539v1 )

ライセンス: Link先を確認
Jacob Bond and Andrew Lingg(参考訳) 非分類モデルのロバスト性を評価するため,任意の関数のロバスト性を定量的に評価する方法として,確率的局所同値性(probabilistic local equivalence)を提案する。 さらに,非分類器に対する対人訓練の効果を把握し,トレーニング分布に性能を低下させることなく得られるロバスト性のレベルを調べるために,インスタンスセグメンテーションネットワークのトレーニングに対するTRADESのロバストロスとともに,Fast is Better than Freeの対人トレーニングを適用した。 この方向では、TuSimpleレーン検出チャレンジにおいて、対称ベストダイススコア0.85を達成でき、標準学習ネットワークのスコア0.82を上回った。 さらに、標準学習ネットワークの0.49のスコアとは対照的に、操作された入力に対して0.49のF値を得ることができた。 確率論的局所同値性は, 標準学習モデルと逆学習モデルとの区別に成功し, 逆学習モデルの堅牢性向上の別の見方を提供する。

To evaluate the robustness of non-classifier models, we propose probabilistic local equivalence, based on the notion of randomized smoothing, as a way to quantitatively evaluate the robustness of an arbitrary function. In addition, to understand the effect of adversarial training on non-classifiers and to investigate the level of robustness that can be obtained without degrading performance on the training distribution, we apply Fast is Better than Free adversarial training together with the TRADES robust loss to the training of an instance segmentation network. In this direction, we were able to achieve a symmetric best dice score of 0.85 on the TuSimple lane detection challenge, outperforming the standardly-trained network's score of 0.82. Additionally, we were able to obtain an F-measure of 0.49 on manipulated inputs, in contrast to the standardly-trained network's score of 0. We show that probabilisitic local equivalence is able to successfully distinguish between standardly-trained and adversarially-trained models, providing another view of the improved robustness of the adversarially-trained models.
翻訳日:2022-06-07 14:42:29 公開日:2022-06-02
# 医用画像分割・検出のための適応型adversarial trainingによるdnnの適応的ロバスト性向上

Adaptive Adversarial Training to Improve Adversarial Robustness of DNNs for Medical Image Segmentation and Detection ( http://arxiv.org/abs/2206.01736v1 )

ライセンス: Link先を確認
Linhai Ma and Liang Liang(参考訳) 深層ニューラルネットワーク(dnn)に基づく最近の手法は、セグメンテーション、ランドマーク検出、オブジェクト検出という3つの基本的なタスクを含む医療画像解析において高い精度に達している。 DNNは敵の攻撃に弱いことが知られており、DNNの敵の堅牢性は訓練データ(すなわち敵の訓練)に敵のノイズを加えることで改善できる。 本研究では,dnnトレーニングにおいて一定のレベルのノイズを発生させ,高いノイズレベルがモデル性能の大幅な低下につながる可能性があり,低ノイズレベルがほとんど影響しないため,適切なノイズレベルを選択することが困難であることを示す。 そこで本研究では,各トレーニングサンプルに対して動的に調整された適応対向雑音を生成する適応対向学習法AMAT(Adaptive-margin adversarial training)を考案した。 AMAT法を3つの基本課題の最先端DNNに適用し、5つの公開データセットを用いて検討した。 実験の結果, AMAT法はノイズデータとクリーンデータの予測精度において, SAT法よりも高い性能を示した。 ソースコードの著者に連絡してください。

Recent methods based on Deep Neural Networks (DNNs) have reached high accuracy for medical image analysis, including the three basic tasks: segmentation, landmark detection, and object detection. It is known that DNNs are vulnerable to adversarial attacks, and the adversarial robustness of DNNs could be improved by adding adversarial noises to training data (i.e., adversarial training). In this study, we show that the standard adversarial training (SAT) method has a severe issue that limits its practical use: it generates a fixed level of noise for DNN training, and it is difficult for the user to choose an appropriate noise level, because a high noise level may lead to a large reduction in model performance, and a low noise level may have little effect. To resolve this issue, we have designed a novel adaptive-margin adversarial training (AMAT) method that generates adaptive adversarial noises for DNN training, which are dynamically tailored for each individual training sample. We have applied our AMAT method to state-of-the-art DNNs for the three basic tasks, using five publicly available datasets. The experimental results demonstrate that our AMAT method outperforms the SAT method in adversarial robustness on noisy data and prediction accuracy on clean data. Please contact the author for the source code.
翻訳日:2022-06-07 14:17:40 公開日:2022-06-02
# 画像を用いた物体位置推定のための3次元コントラスト知識蒸留法

3D-Augmented Contrastive Knowledge Distillation for Image-based Object Pose Estimation ( http://arxiv.org/abs/2206.02531v1 )

ライセンス: Link先を確認
Zhidan Liu, Zhen Xing, Xiangdong Zhou, Yijiang Chen, Guichun Zhou(参考訳) 実際のアプリケーションでは、オブジェクトの形状はしばしば利用できないか、写真のように簡単に撮れないため、画像ベースのオブジェクトのポーズ推定は驚くべきように聞こえる。 ある程度の利点はあるが、3d視覚学習問題における未探索の形状情報は「ジャイドの爪」のように見える。 本稿では,3次元形状をトレーニングプロセスで活用し,テストは依然として純粋に画像ベースである,合理的な新しい設定でこの問題に対処する。 マルチモーダル手法で学習した3D知識を活用し,カテゴリに依存しないオブジェクトポーズ推定のための画像ベース手法の性能を向上させる。 具体的には,マルチモーダルモデルから画像ベースモデルへ3次元画像表現を効果的に転送する,新しいコントラスト知識蒸留フレームワークを提案する。 比較学習を知識蒸留の2段階の学習手順に統合し,これら2つの手法を交叉モーダルタスクに組み合わせるための高度な解法を定式化する。 提案手法の有効性を実証し,既存のカテゴリに依存しない画像ベース手法と比較して実験結果(ObjectNet3Dデータセットで最大5%改善)を報告する。

Image-based object pose estimation sounds amazing because in real applications the shape of object is oftentimes not available or not easy to take like photos. Although it is an advantage to some extent, un-explored shape information in 3D vision learning problem looks like "flaws in jade". In this paper, we deal with the problem in a reasonable new setting, namely 3D shape is exploited in the training process, and the testing is still purely image-based. We enhance the performance of image-based methods for category-agnostic object pose estimation by exploiting 3D knowledge learned by a multi-modal method. Specifically, we propose a novel contrastive knowledge distillation framework that effectively transfers 3D-augmented image representation from a multi-modal model to an image-based model. We integrate contrastive learning into the two-stage training procedure of knowledge distillation, which formulates an advanced solution to combine these two approaches for cross-modal tasks. We experimentally report state-of-the-art results compared with existing category-agnostic image-based methods by a large margin (up to +5% improvement on ObjectNet3D dataset), demonstrating the effectiveness of our method.
翻訳日:2022-06-07 14:04:17 公開日:2022-06-02
# (参考訳) てんかん不確実性の過剰リスク解析と変分推論への応用

Excess risk analysis for epistemic uncertainty with application to variational inference ( http://arxiv.org/abs/2206.01606v1 )

ライセンス: CC BY 4.0
Futoshi Futami, Tomoharu Iwata, Naonori Ueda, Issei Sato, Masashi Sugiyama(参考訳) ベイズ推論における教師あり学習の認識の不確実性(EU)を過剰リスクに着目して分析する。 既存の解析は、正しいモデルと正確なベイズ後方分布を仮定するベイズ設定に限定されている。 したがって、変分推論のような現代のベイズアルゴリズムに既存の理論を適用することはできない。 そこで本研究では, 未知の分布からデータを生成する, 頻繁性設定における新しいeu解析を提案する。 一般化能力と、予測分布の分散やエントロピーなど、広く使用されているEUの測定値との関係を示す。 次に,その収束挙動を理論的に示す。 最後に,PAC-ベイジアン理論に基づく予測とEU評価性能を直接制御する新しい変分推論を提案する。 数値実験により,本アルゴリズムは既存の手法よりもEUの評価を大幅に改善することが示された。

We analyze the epistemic uncertainty (EU) of supervised learning in Bayesian inference by focusing on the excess risk. Existing analysis is limited to the Bayesian setting, which assumes a correct model and exact Bayesian posterior distribution. Thus we cannot apply the existing theory to modern Bayesian algorithms, such as variational inference. To address this, we present a novel EU analysis in the frequentist setting, where data is generated from an unknown distribution. We show a relation between the generalization ability and the widely used EU measurements, such as the variance and entropy of the predictive distribution. Then we show their convergence behaviors theoretically. Finally, we propose new variational inference that directly controls the prediction and EU evaluation performances based on the PAC-Bayesian theory. Numerical experiments show that our algorithm significantly improves the EU evaluation over the existing methods.
翻訳日:2022-06-07 08:51:33 公開日:2022-06-02
# (参考訳) 音声から大うつ病の重症度を検出する:新しいハード・トレーニング法

Detecting the Severity of Major Depressive Disorder from Speech: A Novel HARD-Training Methodology ( http://arxiv.org/abs/2206.01542v1 )

ライセンス: CC BY 4.0
Edward L. Campbell, Judith Dineley, Pauline Conde, Faith Matcham, Femke Lamers, Sara Siddi, Laura Docio-Fernandez, Carmen Garcia-Mateo, Nicholas Cummins and the RADAR-CNS Consortium(参考訳) メジャー・うつ病(Major Depressive Disorder、MDD)は、社会経済的コストの高い世界的メンタルヘルス問題である。 したがって、MDDの予測と自動検出は社会に大きな影響を与える可能性がある。 非侵襲的で信号の収集が容易な音声は、MDDの診断と評価に役立つ有望なマーカーである。 この観点からは,大うつ病(radar-mdd)研究プログラムにおける遠隔診断の一環として,音声サンプルを収集した。 RADAR-MDDは、スペイン、イギリス、オランダにおけるMDDの歴史を持つ個人のコホートから、スピーチやその他のデジタルバイオマーカーを収集する観察的コホート研究である。 本稿では, RAAR-MDD音声コーパスを, 局所的な注意機構を持つシーケンス・ツー・シーケンスモデルの有効性を, 2階層の抑うつ重度分類パラダイムで検証するための実験的枠組みとして用いた。 また,新しいトレーニング手法であるHARD-Trainingを提案する。 モデル学習のためのより曖昧なサンプルの選択に基づく方法論であり、カリキュラム学習パラダイムに触発されたものである。 HARD-Training は平均 8.6% の増分で連続的に改善し,使用する2つの音声誘発タスクと RADAR-MDD 音声コーパスの各収集部位の分類器の性能が向上した。 本手法では, 言語によらずMDDの重大度を効果的に検出することができた。 最後に,潜在的なアルゴリズムバイアスに対する意識を高める必要性を認識し,性別別に結果のさらなる分析を行う。

Major Depressive Disorder (MDD) is a common worldwide mental health issue with high associated socioeconomic costs. The prediction and automatic detection of MDD can, therefore, make a huge impact on society. Speech, as a non-invasive, easy to collect signal, is a promising marker to aid the diagnosis and assessment of MDD. In this regard, speech samples were collected as part of the Remote Assessment of Disease and Relapse in Major Depressive Disorder (RADAR-MDD) research programme. RADAR-MDD was an observational cohort study in which speech and other digital biomarkers were collected from a cohort of individuals with a history of MDD in Spain, United Kingdom and the Netherlands. In this paper, the RADAR-MDD speech corpus was taken as an experimental framework to test the efficacy of a Sequence-to-Sequence model with a local attention mechanism in a two-class depression severity classification paradigm. Additionally, a novel training method, HARD-Training, is proposed. It is a methodology based on the selection of more ambiguous samples for the model training, and inspired by the curriculum learning paradigm. HARD-Training was found to consistently improve - with an average increment of 8.6% - the performance of our classifiers for both of two speech elicitation tasks used and each collection site of the RADAR-MDD speech corpus. With this novel methodology, our Sequence-to-Sequence model was able to effectively detect MDD severity regardless of language. Finally, recognising the need for greater awareness of potential algorithmic bias, we conduct an additional analysis of our results separately for each gender.
翻訳日:2022-06-07 08:48:59 公開日:2022-06-02
# (参考訳) エッジ上のリアルタイムポートレートスティル化

Real-Time Portrait Stylization on the Edge ( http://arxiv.org/abs/2206.01244v1 )

ライセンス: CC BY 4.0
Yanyu Li, Xuan Shen, Geng Yuan, Jiexiong Guan, Wei Niu, Hao Tang, Bin Ren, Yanzhi Wang(参考訳) 本研究は,リアルタイムのポートレートスタイライゼーション,特に携帯端末上での自画像のマンガやアニメスタイルへの翻訳を実演する。 本稿では,遅延駆動型微分可能なアーキテクチャ探索手法を提案する。 このフレームワークでは,生成モデル上で10\times$計算量を削減し,モバイルgpuを用いた市販スマートフォン上でリアルタイムビデオスタイライゼーションを実現する。

In this work we demonstrate real-time portrait stylization, specifically, translating self-portrait into cartoon or anime style on mobile devices. We propose a latency-driven differentiable architecture search method, maintaining realistic generative quality. With our framework, we obtain $10\times$ computation reduction on the generative model and achieve real-time video stylization on off-the-shelf smartphone using mobile GPUs.
翻訳日:2022-06-07 08:26:19 公開日:2022-06-02
# (参考訳) 表現性と学習性:自己指導型学習評価のための統一的視点

Expressiveness and Learnability: A Unifying View for Evaluating Self-Supervised Learning ( http://arxiv.org/abs/2206.01251v1 )

ライセンス: CC BY 4.0
Yuchen Lu, Zhen Liu, Aristide Baratin, Romain Laroche, Aaron Courville, Alessandro Sordoni(参考訳) 本稿では,教師付きラベルにアクセスせずに自己教師付き学習(SSL)モデルの表現品質を解析し,アーキテクチャや学習アルゴリズム,データ操作などに依存しない統一的な視点を提案する。 表現は表現力と学習力のレンズを通して評価できると主張する。 本稿では、内在次元(ID)を用いて表現性を評価し、クラスタ学習性(CL)を導入して学習性を評価することを提案する。 表象をk-meansにクラスタリングして得られるラベルを予測するように訓練されたkn分類器の学習速度としてclを測定する。 したがって、CLとIDを単一の予測子に結合する: CLID。 SSLアルゴリズムの多種多様なファミリーによる大規模な実証研究を通じて、CLIDは、他の競合する最近の評価手法よりも分布内モデルの性能と相関することがわかった。 また、CLIDはいくつかの分類タスクにおけるSSLモデルの転送性能の予測器として機能し、競合するベースラインに関して改善をもたらす。

We propose a unifying view to analyze the representation quality of self-supervised learning (SSL) models without access to supervised labels, while being agnostic to the architecture, learning algorithm or data manipulation used during training. We argue that representations can be evaluated through the lens of expressiveness and learnability. We propose to use the Intrinsic Dimension (ID) to assess expressiveness and introduce Cluster Learnability (CL) to assess learnability. CL is measured as the learning speed of a KNN classifier trained to predict labels obtained by clustering the representations with K-means. We thus combine CL and ID into a single predictor: CLID. Through a large-scale empirical study with a diverse family of SSL algorithms, we find that CLID better correlates with in-distribution model performance than other competing recent evaluation schemes. We also benchmark CLID on out-of-domain generalization, where CLID serves as a predictor of the transfer performance of SSL models on several classification tasks, yielding improvements with respect to the competing baselines.
翻訳日:2022-06-07 08:19:06 公開日:2022-06-02
# (参考訳) どの説明を選ぶべきか? ポストホックな説明を特徴付ける関数近似的視点

Which Explanation Should I Choose? A Function Approximation Perspective to Characterizing Post hoc Explanations ( http://arxiv.org/abs/2206.01254v1 )

ライセンス: CC BY 4.0
Tessa Han, Suraj Srinivas, Himabindu Lakkaraju(参考訳) ポストホックモデル説明法が多用されているにもかかわらず、これらの手法の基本的な特性と振る舞いと、各手法が有効である条件はよく分かっていない。 本研究では、これらのギャップを埋め、根本的な問題に対処する: 与えられた状況でどの説明方法を使うべきか? そこで我々は,関数近似の観点を採用し,局所関数近似(LFA)フレームワークを定式化する。 一般的な説明法はこのフレームワークの例であり、異なる損失関数を用いて異なる地区で基礎となるモデルの関数近似を行う。 提案手法は,すべての近隣地域において最適に実行できないこと,メソッド間の選択を求めること,などが証明されている。 提案手法を選択するために,モデルが説明関数クラスのメンバーである場合に,基礎となるモデルを復元した場合に有効となる方法を考えることにより,関数近似の観点に基づく指導原理を定式化した。 次に, 一般的な説明方法が有効である条件を分析し, 説明方法の中から選択を推奨し, 新たな説明方法を作成する。 最後に,様々な実世界のデータセット,モデルクラス,予測タスクを用いて理論的結果を実証的に検証する。 多様な説明方法を統一する原理的数学的枠組みを提供することにより,これらの手法の挙動と相互関係を特徴付け,説明方法の選択を導き,新たな説明手法の作成への道を開く。

Despite the plethora of post hoc model explanation methods, the basic properties and behavior of these methods and the conditions under which each one is effective are not well understood. In this work, we bridge these gaps and address a fundamental question: Which explanation method should one use in a given situation? To this end, we adopt a function approximation perspective and formalize the local function approximation (LFA) framework. We show that popular explanation methods are instances of this framework, performing function approximations of the underlying model in different neighborhoods using different loss functions. We introduce a no free lunch theorem for explanation methods which demonstrates that no single method can perform optimally across all neighbourhoods and calls for choosing among methods. To choose among methods, we set forth a guiding principle based on the function approximation perspective, considering a method to be effective if it recovers the underlying model when the model is a member of the explanation function class. Then, we analyze the conditions under which popular explanation methods are effective and provide recommendations for choosing among explanation methods and creating new ones. Lastly, we empirically validate our theoretical results using various real world datasets, model classes, and prediction tasks. By providing a principled mathematical framework which unifies diverse explanation methods, our work characterizes the behaviour of these methods and their relation to one another, guides the choice of explanation methods, and paves the way for the creation of new ones.
翻訳日:2022-06-07 07:57:43 公開日:2022-06-02
# (参考訳) 絡み合った残差写像

Entangled Residual Mappings ( http://arxiv.org/abs/2206.01261v1 )

ライセンス: CC BY-SA 4.0
Mathias Lechner, Ramin Hasani, Zahra Babaiee, Radu Grosu, Daniela Rus, Thomas A. Henzinger, Sepp Hochreiter(参考訳) 残像マッピングは、第1層における表現学習と、上位層における反復的特徴改善を実行することが示されている。 この相互作用は、勾配標準に対する安定化効果と相まって、非常に深いネットワークを訓練することができる。 本稿では,さらに一歩進めて,残差接続の構造を一般化し,反復学習表現におけるその役割を評価するために,絡み合った残差写像を導入する。 絡み合った残余写像は、アイデンティティスキップ接続を、固有値、構造、ジャコビアンノルムといった重要な属性をアイデンティティマッピングと共有する直交、スパース、構造相関行列のような特別な絡み合った写像に置き換える。 絡み合ったマッピングは、様々な深層モデルにまたがる特徴の反復的な洗練を保ちながら、注意に基づくモデルやリカレントニューラルネットワークとは異なる畳み込みネットワークにおける表現学習プロセスに影響を及ぼすことを示した。 一般に、CNNやVision Transformersの絡み合ったスパースマッピングは、直交写像が性能を損なう一方、一般化に役立つ。 リカレントネットワークの場合、直交残差写像は時間不変タスクの精度を低下させる時間不変シーケンスの帰納バイアスを形成する。

Residual mappings have been shown to perform representation learning in the first layers and iterative feature refinement in higher layers. This interplay, combined with their stabilizing effect on the gradient norms, enables them to train very deep networks. In this paper, we take a step further and introduce entangled residual mappings to generalize the structure of the residual connections and evaluate their role in iterative learning representations. An entangled residual mapping replaces the identity skip connections with specialized entangled mappings such as orthogonal, sparse, and structural correlation matrices that share key attributes (eigenvalues, structure, and Jacobian norm) with identity mappings. We show that while entangled mappings can preserve the iterative refinement of features across various deep models, they influence the representation learning process in convolutional networks differently than attention-based models and recurrent neural networks. In general, we find that for CNNs and Vision Transformers entangled sparse mapping can help generalization while orthogonal mappings hurt performance. For recurrent networks, orthogonal residual mappings form an inductive bias for time-variant sequences, which degrades accuracy on time-invariant tasks.
翻訳日:2022-06-07 07:23:09 公開日:2022-06-02
# (参考訳) 対称ニューラルネットワークにおける指数分離

Exponential Separations in Symmetric Neural Networks ( http://arxiv.org/abs/2206.01266v1 )

ライセンス: CC BY 4.0
Aaron Zweig, Joan Bruna(参考訳) 本稿では,対称ニューラルネットワークアーキテクチャの新たな分離について述べる。 具体的には、リレーショナル・ネットワーク~\parencite{santoro2017simple}アーキテクチャをdeepsets~\parencite{zaheer2017deep}アーキテクチャの自然な一般化と考え、それらの表現的ギャップを考察する。 解析的アクティベーション関数の制限の下では、次元$D$の要素を持つ大きさの集合に作用する対称関数を構築し、これは以前のアーキテクチャによって効率的に近似できるが、後者では$N$と$D$の幅指数を必要とする。

In this work we demonstrate a novel separation between symmetric neural network architectures. Specifically, we consider the Relational Network~\parencite{santoro2017simple} architecture as a natural generalization of the DeepSets~\parencite{zaheer2017deep} architecture, and study their representational gap. Under the restriction to analytic activation functions, we construct a symmetric function acting on sets of size $N$ with elements in dimension $D$, which can be efficiently approximated by the former architecture, but provably requires width exponential in $N$ and $D$ for the latter.
翻訳日:2022-06-07 06:59:20 公開日:2022-06-02
# (参考訳) MMTM:数学語問題に対するマルチタスクマルチデコーダ変換器

MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems ( http://arxiv.org/abs/2206.01268v1 )

ライセンス: CC BY-SA 4.0
Keyur Faldu, Amit Sheth, Prashant Kikani, Darshan Patel(参考訳) 近年,表現木を予測して数学語問題を解くために,新しいニューラルネットワークが生み出されている。 これらのアーキテクチャは、グラフ関係とツリーデコーダを組み合わせたエンコーダを含む、seq2seqモデルから変化した。 これらのモデルは、様々なMWPデータセットで優れた性能を得るが、敵のチャレンジデータセットであるSVAMPに適用すると、性能が良くない。 本稿では,事前学習時にマルチタスクとマルチデコーダを利用する新しいモデルMMTMを提案する。 プレオーダー、インオーダー、ポストオーダーの式ツリーのトラバースを使用してラベルを導出し、マルチタスクフレームワークでタスク固有のデコーダを使用する。 我々は,ローバータモデルから低次元のトランスフォーマーアーキテクチャを活用し,重みを初期化する。 MMTMモデルは,Seq2Seq,GTS,Graph2Treeから得られたアートベースラインモデルの最高の状態を,対角的課題データセットSVAMPで19.4%向上させることで,より優れた数学的推論能力と一般化性を実現する。

Recently, quite a few novel neural architectures were derived to solve math word problems by predicting expression trees. These architectures varied from seq2seq models, including encoders leveraging graph relationships combined with tree decoders. These models achieve good performance on various MWPs datasets but perform poorly when applied to an adversarial challenge dataset, SVAMP. We present a novel model MMTM that leverages multi-tasking and multi-decoder during pre-training. It creates variant tasks by deriving labels using pre-order, in-order and post-order traversal of expression trees, and uses task-specific decoders in a multi-tasking framework. We leverage transformer architectures with lower dimensionality and initialize weights from RoBERTa model. MMTM model achieves better mathematical reasoning ability and generalisability, which we demonstrate by outperforming the best state of the art baseline models from Seq2Seq, GTS, and Graph2Tree with a relative improvement of 19.4% on an adversarial challenge dataset SVAMP.
翻訳日:2022-06-07 06:58:18 公開日:2022-06-02
# (参考訳) 重り付き確率勾配の最小方形におけるアルゴリズム安定性

Algorithmic Stability of Heavy-Tailed Stochastic Gradient Descent on Least Squares ( http://arxiv.org/abs/2206.01274v1 )

ライセンス: CC0 1.0
Anant Raj, Melih Barsbey, Mert G\"urb\"uzbalaban, Lingjiong Zhu and Umut \c{S}im\c{s}ekli(参考訳) 近年の研究では、重い尾は確率的最適化において出現し、尾の重みは一般化誤差と関連があることが示されている。 これらの研究は、現代における一般化行動の興味深い側面に光を当ててきたが、実際には検証が難しい強い位相的および統計的正則性の仮定に依存していた。 さらに、重尾と一般化の関係は、既存の理論の結論とは対照的に、実際には必ずしも単調であるとは限らないことが実証的に示されている。 本研究では,確率勾配降下(SGD)のテール挙動と一般化特性を,アルゴリズム的安定性のレンズを通して新たなリンクを確立する。 二次最適化問題を考えると,重み付き確率微分方程式をsgdに現れる重み付き振舞いのモデル化の指標として用いる。 次に、一様安定性境界を証明し、以下の結果を明らかにする。 (i) エキゾチックな仮定をすることなく、安定度が2乗損失の$x\mapsto x^2$ で測定された場合、sgd は安定しないが、安定度がサロゲート損失 $x\mapsto |x|^p$ で測定されても安定になることを示した。 (ii) データのばらつきによっては、このしきい値よりもテールが軽い限り、テールが重くなるにつれて一般化誤差が減少する'emph{`threshold of Heavy-tailedness'} が存在する。 これは、重い尾と一般化の関係が全体単調ではないことを示唆する。 3) 均一安定性の低いバウンドが一致することを証明し, テールの重みの点で我々のバウンドがきついことを示唆する。 我々は、合成および実際のニューラルネットワーク実験で理論を支持する。

Recent studies have shown that heavy tails can emerge in stochastic optimization and that the heaviness of the tails has links to the generalization error. While these studies have shed light on interesting aspects of the generalization behavior in modern settings, they relied on strong topological and statistical regularity assumptions, which are hard to verify in practice. Furthermore, it has been empirically illustrated that the relation between heavy tails and generalization might not always be monotonic in practice, contrary to the conclusions of existing theory. In this study, we establish novel links between the tail behavior and generalization properties of stochastic gradient descent (SGD), through the lens of algorithmic stability. We consider a quadratic optimization problem and use a heavy-tailed stochastic differential equation as a proxy for modeling the heavy-tailed behavior emerging in SGD. We then prove uniform stability bounds, which reveal the following outcomes: (i) Without making any exotic assumptions, we show that SGD will not be stable if the stability is measured with the squared-loss $x\mapsto x^2$, whereas it in turn becomes stable if the stability is instead measured with a surrogate loss $x\mapsto |x|^p$ with some $p<2$. (ii) Depending on the variance of the data, there exists a \emph{`threshold of heavy-tailedness'} such that the generalization error decreases as the tails become heavier, as long as the tails are lighter than this threshold. This suggests that the relation between heavy tails and generalization is not globally monotonic. (iii) We prove matching lower-bounds on uniform stability, implying that our bounds are tight in terms of the heaviness of the tails. We support our theory with synthetic and real neural network experiments.
翻訳日:2022-06-07 06:47:08 公開日:2022-06-02
# (参考訳) Even-Odd Permutations Identity のマルチセット版

A Multiset Version of Even-Odd Permutations Identity ( http://arxiv.org/abs/2206.01291v1 )

ライセンス: CC BY 4.0
Hossein Teimoori Faal(参考訳) 本稿では、偶数の置換等式を持つ多重集合の類似の新たな単射証明を与える。 このマルチセット版は、統計物理学における2次元イジングモデルの組合せ解に関連する平面グラフの経路上の同一性に関するファインマン予想のシャーマンの証明における鍵組合せ補題である元のコイン配列補題と等価である。

In this paper, we give a new bijective proof of a multiset analogue of even-odd permutations identity. This multiset version is equivalent to the original coin arrangements lemma which is a key combinatorial lemma in the Sherman's Proof of a conjecture of Feynman about an identity on paths in planar graphs related to combinatorial solution of two dimensional Ising model in statistical physics.
翻訳日:2022-06-07 06:45:25 公開日:2022-06-02
# (参考訳) Rashomon Capacity:確率的分類における予測的多重性尺度

Rashomon Capacity: A Metric for Predictive Multiplicity in Probabilistic Classification ( http://arxiv.org/abs/2206.01295v1 )

ライセンス: CC BY 4.0
Hsiang Hsu and Flavio du Pin Calmon(参考訳) 予測多重性(predictive multiplicity)は、ほぼ識別不能な平均性能を持つ分類モデルが、個々のサンプルに矛盾する予測を割り当てるときに発生する。 結果の応用における意思決定(例えば、貸与、教育、刑事司法)に使用される場合、予測的多重性に留意せずに開発されたモデルは、特定の個人に対して不正かつ任意の決定をもたらす可能性がある。 ラショモン容量と呼ばれる確率的分類における予測多重度の新しい尺度を導入する。 予測多重性の先行指標は、しきい値(すなわち0-1)の予測クラスを出力する分類器に焦点を当てている。 対照的に、Rashomon Capacityは確率的分類器に適用され、個々のサンプルに対してより微妙なスコアのバリエーションをキャプチャする。 我々は,ラショモン能力の厳格な導出を行い,その直感的アピールを議論し,実際どのように推定するかを実証する。 ラショモン・キャパシティは利害関係者に矛盾するモデルを開示するための原則的戦略をもたらすことを示す。 数値実験により,ラショモン容量がニューラルネットワークを含む各種データセットおよび学習モデルにおける予測多重性をどのように捉えるかを示す。 この論文で導入されたツールは、データサイエンティストがモデル展開前に予測多重性を計測し、報告し、最終的に解決するのに役立つ。

Predictive multiplicity occurs when classification models with nearly indistinguishable average performances assign conflicting predictions to individual samples. When used for decision-making in applications of consequence (e.g., lending, education, criminal justice), models developed without regard for predictive multiplicity may result in unjustified and arbitrary decisions for specific individuals. We introduce a new measure of predictive multiplicity in probabilistic classification called Rashomon Capacity. Prior metrics for predictive multiplicity focus on classifiers that output thresholded (i.e., 0-1) predicted classes. In contrast, Rashomon Capacity applies to probabilistic classifiers, capturing more nuanced score variations for individual samples. We provide a rigorous derivation for Rashomon Capacity, argue its intuitive appeal, and demonstrate how to estimate it in practice. We show that Rashomon Capacity yields principled strategies for disclosing conflicting models to stakeholders. Our numerical experiments illustrate how Rashomon Capacity captures predictive multiplicity in various datasets and learning models, including neural networks. The tools introduced in this paper can help data scientists measure, report, and ultimately resolve predictive multiplicity prior to model deployment.
翻訳日:2022-06-07 06:35:15 公開日:2022-06-02
# (参考訳) 制約のある専門家によるソフト制約の学習

Learning Soft Constraints From Constrained Expert Demonstrations ( http://arxiv.org/abs/2206.01311v1 )

ライセンス: CC BY 4.0
Ashish Gaurav, Kasra Rezaee, Guiliang Liu, Pascal Poupart(参考訳) 逆強化学習(IRL)法は、専門家データが報酬関数を最適化するエージェントによって生成されると仮定する。 しかし、多くの設定では、エージェントはいくつかの制約を受ける報酬関数を最適化することができ、そこでは制約は、単に報酬関数で表現するのが難しい振る舞いを誘導する。 我々は,報酬関数が与えられ,制約が不明な設定を考えるとともに,これらの制約を専門家データから適切に回収できる手法を提案する。 これまでの研究は厳しい制約の回復に重点を置いていたが,本手法はエージェントが各エピソード平均で満足する累積ソフト制約を回復することができる。 IRL方式では,エージェントの動作が専門家の行動と一致するまで,制約関数を制約付き最適化手順によって反復的に調整することで,この問題を解決する。 定式化の単純さにもかかわらず,本手法は良好な結果が得られる。 我々は、合成環境と実世界高速道路運転データに対するアプローチを実証する。

Inverse reinforcement learning (IRL) methods assume that the expert data is generated by an agent optimizing some reward function. However, in many settings, the agent may optimize a reward function subject to some constraints, where the constraints induce behaviors that may be otherwise difficult to express with just a reward function. We consider the setting where the reward function is given, and the constraints are unknown, and propose a method that is able to recover these constraints satisfactorily from the expert data. While previous work has focused on recovering hard constraints, our method can recover cumulative soft constraints that the agent satisfies on average per episode. In IRL fashion, our method solves this problem by adjusting the constraint function iteratively through a constrained optimization procedure, until the agent behavior matches the expert behavior. Despite the simplicity of the formulation, our method is able to obtain good results. We demonstrate our approach on synthetic environments and real world highway driving data.
翻訳日:2022-06-07 06:04:19 公開日:2022-06-02
# (参考訳) 不確実性モデリングによる領域適応のためのunbiased transferabilityの学習

Learning Unbiased Transferability for Domain Adaptation by Uncertainty Modeling ( http://arxiv.org/abs/2206.01319v1 )

ライセンス: CC BY 4.0
Jian Hu, Haowen Zhong, Junchi Yan, Shaogang Gong, Guile Wu, Fei Yang(参考訳) ドメイン適応(da)は、ラベル付きソースドメインから学んだ知識をラベル付きまたはラベル付きでないが関連するターゲットドメインに転送することを目的としている。 理想的には、ソースとターゲットの分布は、偏りのない知識伝達を達成するために等しく一致すべきである。 しかし、ソースドメインとターゲットドメインのアノテートされたデータ量との間に大きな不均衡があるため、通常はターゲットの分布のみをソースドメインにアノテートし、不要なソース固有の知識をターゲットドメイン、すなわちバイアスドドメイン適応に適応させる。 この問題を解決するため,本研究では, ドメイン適応における転送可能性推定問題を探索し, 非侵襲的不偏移変量推定プラグイン (UTEP) を提案する。 DAにおける非バイアス伝達可能性学習における提案手法の有効性を理論的に解析する。 さらに,不均衡なアノテートデータの影響を緩和するために,対象領域におけるラベルなしサンプルの擬似ラベル選択における推定不確実性を利用して,領域間の境界分布と条件分布のアライメントを改善する。 daベンチマークデータセットの多種多様な実験結果から,提案手法を様々なadversarial-based da法に容易に組み込むことができ,最先端のパフォーマンスが得られた。

Domain adaptation (DA) aims to transfer knowledge learned from a labeled source domain to an unlabeled or a less labeled but related target domain. Ideally, the source and target distributions should be aligned to each other equally to achieve unbiased knowledge transfer. However, due to the significant imbalance between the amount of annotated data in the source and target domains, usually only the target distribution is aligned to the source domain, leading to adapting unnecessary source specific knowledge to the target domain, i.e., biased domain adaptation. To resolve this problem, in this work, we delve into the transferability estimation problem in domain adaptation and propose a non-intrusive Unbiased Transferability Estimation Plug-in (UTEP) by modeling the uncertainty of a discriminator in adversarial-based DA methods to optimize unbiased transfer. We theoretically analyze the effectiveness of the proposed approach to unbiased transferability learning in DA. Furthermore, to alleviate the impact of imbalanced annotated data, we utilize the estimated uncertainty for pseudo label selection of unlabeled samples in the target domain, which helps achieve better marginal and conditional distribution alignments between domains. Extensive experimental results on a high variety of DA benchmark datasets show that the proposed approach can be readily incorporated into various adversarial-based DA methods, achieving state-of-the-art performance.
翻訳日:2022-06-07 05:31:25 公開日:2022-06-02
# (参考訳) ReLAY:人工眼を用いたEyeLink 1000のロボット型EyeLinkアナルシス

RELAY: Robotic EyeLink AnalYsis of the EyeLink 1000 using an Artificial Eye ( http://arxiv.org/abs/2206.01327v1 )

ライセンス: CC BY 4.0
Anna-Maria Fel{\ss}berg, Dominykas Strazdas(参考訳) 暗黒における視覚誘導ササードのピーク速度は、光で作られたササードよりも最大で10~\%遅いと広く仮定されている。 周囲の明るさ条件の影響を疑問視する研究は、影響があるかどうか、そうであるかどうかなど、様々な結論を導いた。 この問題は、照明条件自体が異なる測定ピーク速度のみに寄与するものではなく、サッケードや異なる視線位置における変形による瞳孔サイズの推定と相まって、複雑な性質である。 ビデオベースの視線追跡自体の測定技術でさえ、重要な役割を果たす可能性がある。 この課題を解明するために、最も一般的な眼球追跡装置であるEyeLink 1000を用いて、3つの異なる輝度条件下で、所定のピーク速度 \&振幅のヒトササードを模倣するステッパーモータ駆動人工眼を構築した。 目的は瞳孔と明るさを制御することであった。 われわれの装置では、eyelink 1000の全体的な精度と精度を確認した。 さらに, 瞳孔径やピーク速度など, 明るさ条件の変化に関して, 瞳孔による眼球追跡には人工物が存在しないことが判明した。 私たちが発見したのは、異なる視線方向の関数として測定された瞳孔の大きさの体系的、小さい、しかし重要な変化だった。

There is a widespread assumption that the peak velocities of visually guided saccades in the dark are up to 10~\% slower than those made in the light. Studies that questioned the impact of the surrounding brightness conditions, come to differing conclusions, whether they have an influence or not and if so, in which manner. The problem is of a complex nature as the illumination condition itself may not contribute to different measured peak velocities solely but in combination with the estimation of the pupil size due to its deformation during saccades or different gaze positions. Even the measurement technique of video-based eye tracking itself could play a significant role. To investigate this issue, we constructed a stepper motor driven artificial eye with fixed pupil size to mimic human saccades with predetermined peak velocity \& amplitudes under three different brightness conditions with the EyeLink 1000, one of the most common used eye trackers. The aim was to control the pupil and brightness. With our device, an overall good accuracy and precision of the EyeLink 1000 could be confirmed. Furthermore, we could find that there is no artifact for pupil based eye tracking in relation to changing brightness conditions, neither for the pupil size nor for the peak velocities. What we found, was a systematic, small, yet significant change of the measured pupil sizes as a function of different gaze directions.
翻訳日:2022-06-07 05:30:19 公開日:2022-06-02
# (参考訳) 知識領域間の検索による科学的創造性の向上

Augmenting Scientific Creativity with Retrieval across Knowledge Domains ( http://arxiv.org/abs/2206.01328v1 )

ライセンス: CC BY 4.0
Hyeonsu B. Kang and Sheshera Mysore and Kevin Huang and Haw-Shiuan Chang and Thorben Prein and Andrew McCallum and Aniket Kittur and Elsa Olivetti(参考訳) 科学者自身以外の領域におけるアイデアの露出は、既存の研究問題を新しい方法で改革し、既存のソリューションのアイデアに対する新しいアプリケーションドメインを発見することの恩恵を受けるかもしれない。 学術検索エンジンのパフォーマンス向上は、科学者が慣れ親しんでいるかもしれないドメインの関連する進歩を効率的に特定するのに役立つが、そのようなドメインの多様なアイデアを探究する助けにはなり得ないかもしれない。 本稿では,フレキシブルなクエリ仕様によるクロスドメイン探索におけるエンドユーザー能力の向上を目的としたシステム設計について検討する。 そこで,本研究では,利用者が興味を持つテキストコアの一部を要約紙から選択し,利用者が選択したコアと類似度が高いがドメインによって異なる文書を検索できる探索型検索システムを開発した。 さらに、エンドユーザーは特定のドメインクラスタに‘zoom in’して、より多くの論文を取得し、クラスタ内の微妙な違いを理解することができる。 研究者らによるケーススタディは、クロスドメイン探索とインスピレーションを促進することを目的としたシステムにおける機会と設計の意味を明らかにする。

Exposure to ideas in domains outside a scientist's own may benefit her in reformulating existing research problems in novel ways and discovering new application domains for existing solution ideas. While improved performance in scholarly search engines can help scientists efficiently identify relevant advances in domains they may already be familiar with, it may fall short of helping them explore diverse ideas \textit{outside} such domains. In this paper we explore the design of systems aimed at augmenting the end-user ability in cross-domain exploration with flexible query specification. To this end, we develop an exploratory search system in which end-users can select a portion of text core to their interest from a paper abstract and retrieve papers that have a high similarity to the user-selected core aspect but differ in terms of domains. Furthermore, end-users can `zoom in' to specific domain clusters to retrieve more papers from them and understand nuanced differences within the clusters. Our case studies with scientists uncover opportunities and design implications for systems aimed at facilitating cross-domain exploration and inspiration.
翻訳日:2022-06-07 05:11:30 公開日:2022-06-02
# (参考訳) 等分散を用いた低光画像の長時間誤差制御と映像強調

Long Scale Error Control in Low Light Image and Video Enhancement Using Equivariance ( http://arxiv.org/abs/2206.01334v1 )

ライセンス: CC BY 4.0
Sara Aghajanzadeh and David Forsyth(参考訳) 暗黒で得られた画像フレームは特別です。 定数で乗算しても画像は復元されない。 ショットノイズ、量子化効果、カメラ非直線性は、色と相対的な光レベルが低いことを意味する。 現在の手法では、実際の暗黒画像ペアを用いてマッピングを学習する。 これらは非常に捕獲が難しい。 最近の論文では、シミュレーションされたデータペアは、大量のシミュレーションデータの取得が容易であるため、復元の真の改善をもたらすことが示されている。 本稿では,等分散を尊重する -- 復元された画素の色は同じでなければならないが,画像は切り取られている -- が,修復のためのアートの状態を本当に改善することを示す。 再現性を向上させるために,スケール選択機構が利用できることを示す。 最後に,本手法がビデオ復元にも改善をもたらすことを示す。 我々の方法は定量的にも質的にも評価される。

Image frames obtained in darkness are special. Just multiplying by a constant doesn't restore the image. Shot noise, quantization effects and camera non-linearities mean that colors and relative light levels are estimated poorly. Current methods learn a mapping using real dark-bright image pairs. These are very hard to capture. A recent paper has shown that simulated data pairs produce real improvements in restoration, likely because huge volumes of simulated data are easy to obtain. In this paper, we show that respecting equivariance -- the color of a restored pixel should be the same, however the image is cropped -- produces real improvements over the state of the art for restoration. We show that a scale selection mechanism can be used to improve reconstructions. Finally, we show that our approach produces improvements on video restoration as well. Our methods are evaluated both quantitatively and qualitatively.
翻訳日:2022-06-07 04:56:22 公開日:2022-06-02
# (参考訳) コード生成ツールは(ほとんど)無償ですか? コードによるマイナショット・事前学習言語モデルの検討

Code Generation Tools (Almost) for Free? A Study of Few-Shot, Pre-Trained Language Models on Code ( http://arxiv.org/abs/2206.01335v1 )

ライセンス: CC BY 4.0
Patrick Barei{\ss}, Beatriz Souza, Marcelo d'Amorim, Michael Pradel(参考訳) 大規模な事前学習された言語モデルによる少数ショット学習は、コードに関する質問に答える強力な方法であり、例えば、与えられたコード例を完成する方法、スクラッチからコードスニペットを生成する方法などです。 これらのモデルの成功は、広範囲のコード生成ツール構築の基盤として機能できるかという疑問を提起する。 伝統的に、これらのツールは各タスクごとに手動で個別に構築される。 代わりに、少数のショット学習は、期待されるツールの振る舞いのサンプルや自然言語記述を単に提供することによって、単一の事前学習された言語モデルから異なるツールを得ることができる。 本稿では,現在最先端の事前訓練済みの言語モデルであるCodexがこの目的をどの程度果たすかを検討する。 従来のツールがターゲットとする3つのコード操作とコード生成タスクについて検討する。 (i)コード変異 (ii)自然言語文書からoracle生成をテストすること、及び (iii)テストケース生成。 各タスクについて、手作業で構築したツールと比較します。 その結果、モデルベースのツールが補完する(コード変異)か、同等である(テストオラクル生成)か、あるいは従来のツールよりも優れている(テストケース生成)ことを示し、それを開発する努力をはるかに少なくしている。 モデルベースツールの異なる変種の有効性を比較することで、モデルに対して適切な入力("prompt")を設計する方法と、モデルのサイズにどのような影響があるのかを洞察する。 例えば、コード生成タスクの小さな自然言語記述を提供することは、予測を改善するための簡単な方法である。 全体として、少数ショット言語モデルは驚くほど効果的だと結論付けていますが、より多様なタスクの促進や対処方法を探求するなど、さらに多くの作業がなされています。

Few-shot learning with large-scale, pre-trained language models is a powerful way to answer questions about code, e.g., how to complete a given code example, or even generate code snippets from scratch. The success of these models raises the question whether they could serve as a basis for building a wide range code generation tools. Traditionally, such tools are built manually and separately for each task. Instead, few-shot learning may allow to obtain different tools from a single pre-trained language model by simply providing a few examples or a natural language description of the expected tool behavior. This paper studies to what extent a state-of-the-art, pre-trained language model of code, Codex, may serve this purpose. We consider three code manipulation and code generation tasks targeted by a range of traditional tools: (i) code mutation; (ii) test oracle generation from natural language documentation; and (iii) test case generation. For each task, we compare few-shot learning to a manually built tool. Our results show that the model-based tools complement (code mutation), are on par (test oracle generation), or even outperform their respective traditionally built tool (test case generation), while imposing far less effort to develop them. By comparing the effectiveness of different variants of the model-based tools, we provide insights on how to design an appropriate input ("prompt") to the model and what influence the size of the model has. For example, we find that providing a small natural language description of the code generation task is an easy way to improve predictions. Overall, we conclude that few-shot language models are surprisingly effective, yet there is still more work to be done, such as exploring more diverse ways of prompting and tackling even more involved tasks.
翻訳日:2022-06-07 04:43:54 公開日:2022-06-02
# (参考訳) 安定非線形制御のためのモデルベースアドバイザを用いたブラックボックスポリシの取得

Equipping Black-Box Policies with Model-Based Advice for Stable Nonlinear Control ( http://arxiv.org/abs/2206.01341v1 )

ライセンス: CC BY 4.0
Tongxin Li, Ruixiao Yang, Guannan Qu, Yiheng Lin, Steven Low and Adam Wierman(参考訳) 機械学習型ブラックボックスポリシーは非線形制御問題に対してユビキタスである。 一方、これらの問題に対して、例えば非線形力学の線形近似から粗いモデル情報が得られることが多い。 単一軌道上の非線形制御に対するモデルベースアドバイスを用いたブラックボックス制御ポリシの装備問題について検討する。 まず, ブラックボックス政策と線形モデルに基づく政策のナイーブ凸結合は, 両者が安定していても不安定になる可能性を示す。 次に,ブラックボックスポリシーの信頼度を示す係数 $\lambda$ を用いて適応的な$\lambda$-confidentポリシーを提案し,その安定性を証明する。 さらに、有界非線形性により、ブラックボックスポリシーが最適に近い場合に、適応的$\lambda$-confidentポリシーが有界競合比を達成することを示す。 最後に,適応型$\lambda$-confidentポリシーを実装し,covid-19によるデータバイアスを伴う現実の電気自動車(ev)充電問題とカートポール問題に関するケーススタディでの有効性を検証するオンライン学習手法を提案する。

Machine-learned black-box policies are ubiquitous for nonlinear control problems. Meanwhile, crude model information is often available for these problems from, e.g., linear approximations of nonlinear dynamics. We study the problem of equipping a black-box control policy with model-based advice for nonlinear control on a single trajectory. We first show a general negative result that a naive convex combination of a black-box policy and a linear model-based policy can lead to instability, even if the two policies are both stabilizing. We then propose an adaptive $\lambda$-confident policy, with a coefficient $\lambda$ indicating the confidence in a black-box policy, and prove its stability. With bounded nonlinearity, in addition, we show that the adaptive $\lambda$-confident policy achieves a bounded competitive ratio when a black-box policy is near-optimal. Finally, we propose an online learning approach to implement the adaptive $\lambda$-confident policy and verify its efficacy in case studies about the CartPole problem and a real-world electric vehicle (EV) charging problem with data bias due to COVID-19.
翻訳日:2022-06-07 04:19:21 公開日:2022-06-02
# (参考訳) コントラスト学習のトレーニングダイナミクスにおける非線形性の役割の理解

Understanding the Role of Nonlinearity in Training Dynamics of Contrastive Learning ( http://arxiv.org/abs/2206.01342v1 )

ライセンス: CC BY 4.0
Yuandong Tian(参考訳) 自己教師付き学習(SSL)の実証的な成功は、深い非線形モデルの使用に大きく依存しているが、SSLを理解するための理論的研究の多くは、まだ線形モデルに重点を置いている。 本稿では,一層および二層非線形ネットワーク上でのコントラスト学習(cl)のトレーニングダイナミクスにおける非線形性の役割について検討する。 理論的には,(1)非線形性の存在は,データ分布から特定のパターンに対応する1層設定においても多くの局所的オプティマをもたらし,一方,線形活性化では1つの主要なパターンしか学習できないこと,(2)非線形性は特殊重みを多様なパターンに導くこと,すなわち線形活性化ができないことが証明されている。 これらの結果は, 多数のパラメータを持つモデルが, 非線形性によって誘導される局所的最適性を見出すための<emph{brute-force} 方法とみなすことができることを示唆している。 さらに,2層構成では,グローバルレベルパターンの観点から識別可能な局所パターンを優先的に学習し,学習過程をさらに特徴づける,emph{global modulation} も発見する。 シミュレーションは理論的な結果を検証する。

While the empirical success of self-supervised learning (SSL) heavily relies on the usage of deep nonlinear models, many theoretical works proposed to understand SSL still focus on linear ones. In this paper, we study the role of nonlinearity in the training dynamics of contrastive learning (CL) on one and two-layer nonlinear networks with homogeneous activation $h(x) = h'(x)x$. We theoretically demonstrate that (1) the presence of nonlinearity leads to many local optima even in 1-layer setting, each corresponding to certain patterns from the data distribution, while with linear activation, only one major pattern can be learned; and (2) nonlinearity leads to specialized weights into diverse patterns, a behavior that linear activation is proven not capable of. These findings suggest that models with lots of parameters can be regarded as a \emph{brute-force} way to find these local optima induced by nonlinearity, a possible underlying reason why empirical observations such as the lottery ticket hypothesis hold. In addition, for 2-layer setting, we also discover \emph{global modulation}: those local patterns discriminative from the perspective of global-level patterns are prioritized to learn, further characterizing the learning process. Simulation verifies our theoretical findings.
翻訳日:2022-06-07 04:18:07 公開日:2022-06-02
# (参考訳) hex:深層強化学習によるヒューマン・イン・ザ・ループ説明可能性

HEX: Human-in-the-loop Explainability via Deep Reinforcement Learning ( http://arxiv.org/abs/2206.01343v1 )

ライセンス: CC BY 4.0
Michael T. Lash(参考訳) 意思決定コンテキストにおける機械学習(ml)モデルの使用、特にハイステイクな意思決定で使用されるものは、マシンではなく、最終的にそのようなシステムを用いた決定の結果に責任を負わなければならないため、問題と危機に陥っている。 機械学習の説明可能性(MLX)は、意思決定者に予測固有の理論的根拠を提供することを約束する。 しかし、この重要なHuman-in-the-loop (HITL)コンポーネントを明示的に考慮する作業はほとんどない。 本研究では,MLXの深層強化学習手法であるHEXを提案する。 HEXは、任意の分類モデルから決定者固有の説明提供ポリシーを合成するために、0不信射影を取り入れている。 HEXは、フェデレート学習など、限られたまたは少ないトレーニングデータシナリオで動作するように構築されている。 我々の定式化は、多くのモデルに依存しないMLX手法の欠点である基礎となるトレーニングデータよりも、問題となるMLモデルの決定境界を明示的に考慮している。 提案手法は,限られたデータシナリオで使用するためのモデル決定境界を明示的にキャプチャするHITL MLXポリシーを合成する。

The use of machine learning (ML) models in decision-making contexts, particularly those used in high-stakes decision-making, are fraught with issue and peril since a person - not a machine - must ultimately be held accountable for the consequences of the decisions made using such systems. Machine learning explainability (MLX) promises to provide decision-makers with prediction-specific rationale, assuring them that the model-elicited predictions are made for the right reasons and are thus reliable. Few works explicitly consider this key human-in-the-loop (HITL) component, however. In this work we propose HEX, a human-in-the-loop deep reinforcement learning approach to MLX. HEX incorporates 0-distrust projection to synthesize decider specific explanation-providing policies from any arbitrary classification model. HEX is also constructed to operate in limited or reduced training data scenarios, such as those employing federated learning. Our formulation explicitly considers the decision boundary of the ML model in question, rather than the underlying training data, which is a shortcoming of many model-agnostic MLX methods. Our proposed methods thus synthesize HITL MLX policies that explicitly capture the decision boundary of the model in question for use in limited data scenarios.
翻訳日:2022-06-07 03:32:44 公開日:2022-06-02
# シーケンス最適化cnnモデルを用いた点雲列のロスレス圧縮

Lossless Compression of Point Cloud Sequences Using Sequence Optimized CNN Models ( http://arxiv.org/abs/2206.01297v1 )

ライセンス: Link先を確認
Emre Can Kaya and Ioan Tabus(参考訳) そこで我々は, 圧縮対象の列の複数のフレームに対して, 符号化分布を推定する畳み込みニューラルネットワーク(CNN)を最適化する, 点雲列の幾何を符号化する新しいパラダイムを提案する。 我々は軽量なCNN構造を採用し、符号化プロセスの一部としてトレーニングを行い、ビットストリームの一部としてCNNパラメータが送信される。 新たに提案されたエンコーディング方式は、各ポイントクラウドのoctree表現上で動作し、各octree解決層を連続してエンコードする。 各オクツリー分解層において、ボクセルグリッドを断面(各区間は選択された座標軸に垂直)にトラバースし、各区間では2対2のボクセルのグループの占有を1つの算術符号演算で同時に符号化する。 オクツリーの現在の解像度層と低い解像度層における隣接するボクセルの占有状況に関する情報に基づいて、2つのボクセル群毎に条件符号化分布のコンテキストを定義する。 CNNは、全てのボクセル群の占有パターンの確率分布を4つのフェーズで1つのセクションから推定する。 新しいフェーズごとに、コンテキストは前フェーズでエンコードされた占有率で更新され、各フェーズは並列に確率を推定し、並列処理とコンテキストのインフォメーションの間の合理的なトレードオフを提供する。 CNNのトレーニング時間は、残りのエンコーディングステップで費やされた時間に匹敵する。 ビットレートと符号化復号時間は、最近公開された圧縮スキームと好適に比較される。

We propose a new paradigm for encoding the geometry of point cloud sequences, where the convolutional neural network (CNN) which estimates the encoding distributions is optimized on several frames of the sequence to be compressed. We adopt lightweight CNN structures, we perform training as part of the encoding process, and the CNN parameters are transmitted as part of the bitstream. The newly proposed encoding scheme operates on the octree representation for each point cloud, encoding consecutively each octree resolution layer. At every octree resolution layer, the voxel grid is traversed section-by-section (each section being perpendicular to a selected coordinate axis) and in each section the occupancies of groups of two-by-two voxels are encoded at once, in a single arithmetic coding operation. A context for the conditional encoding distribution is defined for each two-by-two group of voxels, based on the information available about the occupancy of neighbor voxels in the current and lower resolution layers of the octree. The CNN estimates the probability distributions of occupancy patterns of all voxel groups from one section in four phases. In each new phase the contexts are updated with the occupancies encoded in the previous phase, and each phase estimates the probabilities in parallel, providing a reasonable trade-off between the parallelism of processing and the informativeness of the contexts. The CNN training time is comparable to the time spent in the remaining encoding steps, leading to competitive overall encoding times. Bitrates and encoding-decoding times compare favorably with those of recently published compression schemes.
翻訳日:2022-06-06 15:31:20 公開日:2022-06-02
# モデル予測電力系統制御のためのデータ駆動線形クープマン埋め込み

Data-Driven Linear Koopman Embedding for Model-Predictive Power System Control ( http://arxiv.org/abs/2206.01272v1 )

ライセンス: Link先を確認
Ramij R. Hossain, Rahmat Adesunkanmi, Ratnesh Kumar(参考訳) 本稿では,MPC(モデル予測制御)が動作する高次元線形空間へのシステムダイナミクスのデータ駆動リフトにより,電力系統におけるモデル予測緊急電圧規制のための線形クープマン埋め込みを行い,実運用システムにおけるMPC計算の高速化を図る。 我々は,反応制御を受ける電圧ダイナミクスの線形埋め込みのための"em koopman-inspired deep neural network} (kdnn)アーキテクチャを開発した。 線形埋め込みを目的としたKDNNのトレーニングは、様々な応用制御入力および負荷条件下でのシミュレートされた電圧トラジェクトリを用いて行われる。 提案するフレームワークは,入力/出力データから,ニューラルネットワーク(nn)を高次元に,線形ダイナミクスを高次元に,nnをオリジナル空間に投影する,という3つの変換によって,基礎となるシステムダイナミクスを学習する。 このアプローチは、高次元線型空間への持ち上げを目的とした基底関数のアドホック選択の負担を軽減する。 mpcは線形ダイナミクス上で計算され、制御計算はスケーラブルかつリアルタイムに行われる。

This paper presents a linear Koopman embedding for model predictive emergency voltage regulation in power systems, by way of a data-driven lifting of the system dynamics into a higher dimensional linear space over which the MPC (model predictive control) is exercised, thereby scaling as well as expediting the MPC computation for its real-time implementation for practical systems. We develop a {\em Koopman-inspired deep neural network} (KDNN) architecture for the linear embedding of the voltage dynamics subjected to reactive controls. The training of the KDNN for the purposes of linear embedding is done using the simulated voltage trajectories under a variety of applied control inputs and load conditions. The proposed framework learns the underlying system dynamics from the input/output data in the form of a triple of transforms: A Neural Network (NN)-based lifting to a higher dimension, a linear dynamics within that higher dynamics, and an NN-based projection to original space. This approach alleviates the burden of an ad-hoc selection of the basis functions for the purposes of lifting to higher dimensional linear space. The MPC is computed over the linear dynamics, making the control computation scalable and also real-time.
翻訳日:2022-06-06 15:27:55 公開日:2022-06-02
# 準動翼UAVにおける等変強化学習

Equivariant Reinforcement Learning for Quadrotor UAV ( http://arxiv.org/abs/2206.01233v1 )

ライセンス: Link先を確認
Beomyeol Yu and Taeyoung Lee(参考訳) 本稿では,四角形無人航空機のための等変強化学習フレームワークを提案する。 強化学習の成功には環境との多くの相互作用が必要であり、特に利用可能な計算資源が限られている場合や、信頼できるシミュレーションモデルがない場合、その適用を妨げている。 本研究では,トレーニングに必要な状態の次元を1つ減らすことにより,強化学習のサンプリング効率が大幅に向上するように,四進数力学の等分散特性を同定した。 これはTD3とSACの一般的な強化学習手法の数値例で示される。

This paper presents an equivariant reinforcement learning framework for quadrotor unmanned aerial vehicles. Successful training of reinforcement learning often requires numerous interactions with the environments, which hinders its applicability especially when the available computational resources are limited, or when there is no reliable simulation model. We identified an equivariance property of the quadrotor dynamics such that the dimension of the state required in the training is reduced by one, thereby improving the sampling efficiency of reinforcement learning substantially. This is illustrated by numerical examples with popular reinforcement learning techniques of TD3 and SAC.
翻訳日:2022-06-06 15:27:04 公開日:2022-06-02
# 確率的勾配降下は平坦解を好む効率的な景観依存正規化をもたらす

Stochastic gradient descent introduces an effective landscape-dependent regularization favoring flat solutions ( http://arxiv.org/abs/2206.01246v1 )

ライセンス: Link先を確認
Ning Yang, Chao Tang, Yuhai Tu(参考訳) 一般化は、ディープラーニング(DL)における最も重要な問題の1つである。 ニューラルネットワークの過パラメータ構造では、トレーニングデータに等しく適合する低損失ソリューションが数多く存在する。 鍵となる問題は、どのソリューションがより一般化できるかだ。 実験により, 溶液における損失景観の平坦性と一般化性との間には強い相関関係がみられ, 確率勾配降下(SGD)は平坦な溶液の発見に不可欠であることがわかった。 SGDが学習システムをフラットな解へと駆動する方法を理解するため、損失ランドスケープが連続的に縮退する(あるいは縮退に近い)ミニマを持つ単純なモデルを構築した。 基礎となる確率学習力学のFokker-Planck方程式を解くことで、SGDノイズは強い異方性のため、平坦性によって減少し、学習速度とバッチ・ツー・バッチのばらつきによって増加する全体的な強度を有する追加の効果的な損失項を導入することを示した。 ランドスケープ依存型sgd-lossの追加は退化を損なっており、平坦な解を見つけるための効果的な正規化として機能する。 さらに、より強いSGDノイズは、平坦解への収束時間を短縮する。 しかし,sgdノイズの上限を同定し,sgdノイズの収束に失敗していることを示す。 この結果は,SGDの一般化に果たす役割を解明するだけでなく,多変量なく効率的に学習するためのハイパーパラメータ選択に重要な意味を持つ可能性がある。

Generalization is one of the most important problems in deep learning (DL). In the overparameterized regime in neural networks, there exist many low-loss solutions that fit the training data equally well. The key question is which solution is more generalizable. Empirical studies showed a strong correlation between flatness of the loss landscape at a solution and its generalizability, and stochastic gradient descent (SGD) is crucial in finding the flat solutions. To understand how SGD drives the learning system to flat solutions, we construct a simple model whose loss landscape has a continuous set of degenerate (or near degenerate) minima. By solving the Fokker-Planck equation of the underlying stochastic learning dynamics, we show that due to its strong anisotropy the SGD noise introduces an additional effective loss term that decreases with flatness and has an overall strength that increases with the learning rate and batch-to-batch variation. We find that the additional landscape-dependent SGD-loss breaks the degeneracy and serves as an effective regularization for finding flat solutions. Furthermore, a stronger SGD noise shortens the convergence time to the flat solutions. However, we identify an upper bound for the SGD noise beyond which the system fails to converge. Our results not only elucidate the role of SGD for generalization they may also have important implications for hyperparameter selection for learning efficiently without divergence.
翻訳日:2022-06-06 15:26:55 公開日:2022-06-02
# 深層学習アーキテクチャによるマイクロ波プラズマ相互作用の2次元シミュレーション

Deep Learning Architecture Based Approach For 2D-Simulation of Microwave Plasma Interaction ( http://arxiv.org/abs/2206.01263v1 )

ライセンス: Link先を確認
Mihir Desai, Pratik Ghosh, Ahlad Kumar and Bhaskar Chaudhury(参考訳) 本稿では,マイクロ波-プラズマ相互作用シミュレーションのための畳み込みニューラルネットワーク(CNN)に基づく深層学習モデルを提案する。 透過・吸収・反射に関連する複雑なプラズマ媒体のマイクロ波伝搬特性は、主に電磁(EM)波周波数と電子プラズマ周波数の比とプラズマ密度分布に依存する。 一定周波数(1ghz)の平面em波の散乱と、ガウス密度プロファイルの異なるプラズマ媒体への振幅入射(1\times 10^{17}-1\times 10^{22}{m^{-3}}$)が検討されている。 2D-FDTD (Finite Different Time Domain) を用いたマイクロ波プラズマ相互作用に関するトレーニングデータを生成する。 訓練された深層学習モデルは、異なるプラズマプロファイル上の1ghz入射マイクロ波の散乱電界値を2\%未満で再現するために使用される。 モデルの訓練,評価,評価を行うための,完全なディープラーニング(DL)ベースのパイプラインを提案する。 ネットワークの結果を,SSIM指数,平均誤差,平均二乗誤差などの様々な指標を用いて比較し,FDTDベースのEMソルバから得られた物理データと比較した。 我々の知る限り、これは複雑なマイクロ波プラズマ相互作用のシミュレーションのためのDLベースのアプローチを探求する最初の試みである。 本研究で提案する深層学習手法は, 既存の計算手法と比較してかなり高速であり, マイクロ波プラズマ相互作用をリアルタイムに検証するための新しい, 予測的, 代替的な計算手法として利用できる。

This paper presents a convolutional neural network (CNN)-based deep learning model, inspired from UNet with series of encoder and decoder units with skip connections, for the simulation of microwave-plasma interaction. The microwave propagation characteristics in complex plasma medium pertaining to transmission, absorption and reflection primarily depends on the ratio of electromagnetic (EM) wave frequency and electron plasma frequency, and the plasma density profile. The scattering of a plane EM wave with fixed frequency (1 GHz) and amplitude incident on a plasma medium with different gaussian density profiles (in the range of $1\times 10^{17}-1\times 10^{22}{m^{-3}}$) have been considered. The training data associated with microwave-plasma interaction has been generated using 2D-FDTD (Finite Difference Time Domain) based simulations. The trained deep learning model is then used to reproduce the scattered electric field values for the 1GHz incident microwave on different plasma profiles with error margin of less than 2\%. We propose a complete deep learning (DL) based pipeline to train, validate and evaluate the model. We compare the results of the network, using various metrics like SSIM index, average percent error and mean square error, with the physical data obtained from well-established FDTD based EM solvers. To the best of our knowledge, this is the first effort towards exploring a DL based approach for the simulation of complex microwave plasma interaction. The deep learning technique proposed in this work is significantly fast as compared to the existing computational techniques, and can be used as a new, prospective and alternative computational approach for investigating microwave-plasma interaction in a real time scenario.
翻訳日:2022-06-06 15:26:32 公開日:2022-06-02
# 異種環境における基礎モデルの分散学習

Decentralized Training of Foundation Models in Heterogeneous Environments ( http://arxiv.org/abs/2206.01288v1 )

ライセンス: Link先を確認
Binhang Yuan, Yongjun He, Jared Quincy Davis, Tianyi Zhang, Tri Dao, Beidi Chen, Percy Liang, Christopher Re, Ce Zhang(参考訳) GPT-3やPaLMといったトレーニング基盤モデルは非常に高価で、数ヶ月にわたって数万のGPUが継続的に動作している場合が多い。 これらのモデルは、高速で均一な相互接続を備えた特殊なクラスタで訓練され、データ並列性とモデル/パイプライン並列性の両方をサポートする慎重に設計されたソフトウェアシステムを使用する。 このような専用クラスタは費用がかかり、入手が困難である。 代わりに、より多くの分散化、異質化、低帯域幅の相互接続計算を利用できますか? 異質で分散化された設定を調査する以前の作業は、純粋にデータ並列でトレーニングできる比較的小さなモデルに重点を置いていた。 megatronのようなモデル並列基礎モデルのトレーニングのための最先端のスキームは、均質なデータセンターの設定のみを考慮する。 本稿では,異種ネットワーク上の分散環境において,モデル並列性を持つ大規模基礎モデルのトレーニングを初めて行った。 私たちの重要な技術的貢献は、基盤モデルのトレーニングにおいて異なる計算「タスクレット」を、遅い異種ネットワークで接続された分散gpuデバイスのグループに割り当てるスケジューリングアルゴリズムです。 形式的コストモデルを提供し,最適割当戦略を求めるための効率的な進化アルゴリズムを提案する。 実世界のネットワーク計測を模擬した地理的分散デバイス上での学習シナリオを示す広範な実験を行う。 最も極端なケースは、3大陸にまたがる8つの異なる都市で、我々のアプローチは従来の最先端のトレーニングシステム(Megatron)よりも4.8倍高速です。

Training foundation models, such as GPT-3 and PaLM, can be extremely expensive, often involving tens of thousands of GPUs running continuously for months. These models are typically trained in specialized clusters featuring fast, homogeneous interconnects and using carefully designed software systems that support both data parallelism and model/pipeline parallelism. Such dedicated clusters can be costly and difficult to obtain. Can we instead leverage the much greater amount of decentralized, heterogeneous, and lower-bandwidth interconnected compute? Previous works examining the heterogeneous, decentralized setting focus on relatively small models that can be trained in a purely data parallel manner. State-of-the-art schemes for model parallel foundation model training, such as Megatron, only consider the homogeneous data center setting. In this paper, we present the first study of training large foundation models with model parallelism in a decentralized regime over a heterogeneous network. Our key technical contribution is a scheduling algorithm that allocates different computational "tasklets" in the training of foundation models to a group of decentralized GPU devices connected by a slow heterogeneous network. We provide a formal cost model and further propose an efficient evolutionary algorithm to find the optimal allocation strategy. We conduct extensive experiments that represent different scenarios for learning over geo-distributed devices simulated using real-world network measurements. In the most extreme case, across 8 different cities spanning 3 continents, our approach is 4.8X faster than prior state-of-the-art training systems (Megatron).
翻訳日:2022-06-06 15:26:03 公開日:2022-06-02
# 混合報酬と遅延報酬による強化学習による漸進性入札

Incrementality Bidding via Reinforcement Learning under Mixed and Delayed Rewards ( http://arxiv.org/abs/2206.01293v1 )

ライセンス: Link先を確認
Ashwinkumar Badanidiyuru, Zhe Feng, Tianxi Li, Haifeng Xu(参考訳) インクリメンタリティ(インクリメンタリティ、英語: Incrementality)は、オンライン広告プラットフォームの広告主にとって、潜在的な顧客(例えばインターネットプラットフォームのユーザー)に広告を表示することの因果効果を測定するために用いられる。 本稿では,広告主が事前にインクリメンタルなパラメータを把握して,オンライン方式で入札順序を最適化する方法の問題点について検討する。 この問題のオフライン版を、特別な構造化エピソディックマルコフ決定プロセス(mdp)として定式化し、オンライン学習に対応するために、最大$\widetilde{o}(h^2\sqrt{t})$を後悔する新しい強化学習(rl)アルゴリズムを提案し、ラウンド数$h$とエピソード数$t$に依存するが、アクション数(すなわち入札)には依存しない。 我々の学習問題と標準rl問題との根本的な違いは、変換の漸進性から得られる報奨フィードバックが \emph{mixed} と \emph{delayed} である。 このような困難に対処するために,我々は,新しいペアワイズモーメントマッチングアルゴリズムを提案し,解析し,変換インクリメンタル性を学ぶ。

Incrementality, which is used to measure the causal effect of showing an ad to a potential customer (e.g. a user in an internet platform) versus not, is a central object for advertisers in online advertising platforms. This paper investigates the problem of how an advertiser can learn to optimize the bidding sequence in an online manner \emph{without} knowing the incrementality parameters in advance. We formulate the offline version of this problem as a specially structured episodic Markov Decision Process (MDP) and then, for its online learning counterpart, propose a novel reinforcement learning (RL) algorithm with regret at most $\widetilde{O}(H^2\sqrt{T})$, which depends on the number of rounds $H$ and number of episodes $T$, but does not depend on the number of actions (i.e., possible bids). A fundamental difference between our learning problem from standard RL problems is that the realized reward feedback from conversion incrementality is \emph{mixed} and \emph{delayed}. To handle this difficulty we propose and analyze a novel pairwise moment-matching algorithm to learn the conversion incrementality, which we believe is of independent of interest.
翻訳日:2022-06-06 15:25:38 公開日:2022-06-02
# 保証付きアクティベーション圧縮を用いた低速ネットワーク上の微調整言語モデル

Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees ( http://arxiv.org/abs/2206.01299v1 )

ライセンス: Link先を確認
Jue Wang, Binhang Yuan, Luka Rimanic, Yongjun He, Tri Dao, Beidi Chen, Christopher Re, Ce Zhang(参考訳) 通信圧縮は、遅いネットワーク上の通信ボトルネックを軽減するために、現代の分散学習システムにとって重要な技術である。 近年、データ並列型トレーニングのための勾配圧縮の研究が集中的に行われているが、パイプライン並列性で訓練されたモデルのアクティベーションを圧縮することは依然として未解決の問題である。 本稿では,通信効率のよいパイプライン並列化学習のための新しいアクティベーション圧縮アルゴリズムAC-SGDを提案する。 以前のアクティベーション圧縮の取り組みとは異なり、アクティベーション値を直接圧縮するのではなく、AC-SGDはアクティベーションの変化を圧縮する。 This allows us to show, to the best of our knowledge for the first time, that one can still achieve $O(1/\sqrt{T})$ convergence rate for non-convex objectives under activation compression, without making assumptions on gradient unbiasedness that do not hold for deep learning models with non-linear activation functions.We then show that AC-SGD can be optimized and implemented efficiently, without additional end-to-end runtime overhead.We evaluated AC-SGD to fine-tune language models with up to 1.5 billion parameters, compressing activations to 2-4 bits.AC-SGD provides up to 4.3X end-to-end speed-up in slower networks, without sacrificing model quality. さらに,ac-sgdを最先端の勾配圧縮アルゴリズムと組み合わせることで,"エンドツーエンド通信圧縮"を可能にすることを示す。モデル勾配,フォワードアクティベーション,後方勾配を含むマシン間の通信はすべて,モデル品質を犠牲にすることなく,最大4.9倍のエンドツーエンド速度アップを提供する。

Communication compression is a crucial technique for modern distributed learning systems to alleviate their communication bottlenecks over slower networks. Despite recent intensive studies of gradient compression for data parallel-style training, compressing the activations for models trained with pipeline parallelism is still an open problem. In this paper, we propose AC-SGD, a novel activation compression algorithm for communication-efficient pipeline parallelism training over slow networks. Different from previous efforts in activation compression, instead of compressing activation values directly, AC-SGD compresses the changes of the activations. This allows us to show, to the best of our knowledge for the first time, that one can still achieve $O(1/\sqrt{T})$ convergence rate for non-convex objectives under activation compression, without making assumptions on gradient unbiasedness that do not hold for deep learning models with non-linear activation functions.We then show that AC-SGD can be optimized and implemented efficiently, without additional end-to-end runtime overhead.We evaluated AC-SGD to fine-tune language models with up to 1.5 billion parameters, compressing activations to 2-4 bits.AC-SGD provides up to 4.3X end-to-end speed-up in slower networks, without sacrificing model quality. Moreover, we also show that AC-SGD can be combined with state-of-the-art gradient compression algorithms to enable "end-to-end communication compression: All communications between machines, including model gradients, forward activations, and backward gradients are compressed into lower precision.This provides up to 4.9X end-to-end speed-up, without sacrificing model quality.
翻訳日:2022-06-06 15:25:13 公開日:2022-06-02
# 機械学習モデリング攻撃に対する成分差分チャレンジXOR PUFの新しいセキュリティ境界

A New Security Boundary of Component Differentially Challenged XOR PUFs Against Machine Learning Modeling Attacks ( http://arxiv.org/abs/2206.01314v1 )

ライセンス: Link先を確認
Gaoxiang Li, Khalid T. Mursi, Ahmad O. Aseeri, Mohammed S. Alkatheiri and Yu Zhuang(参考訳) Physical Unclonable Function (PUF)は、リソース制約されたネットワークノードに対するセキュリティプリミティブである。 XOR Arbiter PUF(XOR PUF)は、おそらく最も軽量な遅延ベースのPUFであるArbiter PUFの安全性を改善するために開発されたPUFである。 近年,強力な機械学習攻撃手法が発見され,従来型の機械学習攻撃法に対して高度に安全であった大型xpufを容易に破ることができた。 コンポーネント差分XPUF(CDC-XPUF)は、異なるコンポーネントPUFを持つXPUFである。 研究は、コンポーネントパフが同じ課題を負う従来のxpufsよりも、機械学習攻撃に対してより安全であることを示した。 しかし、これらの研究はいずれも初期の機械学習攻撃法に基づいており、CDC-XPUFが最近発見された強力な攻撃法の下で安全であるかどうかは不明である。 本稿では,XPUFを攻撃するための2つの最も強力な機械学習手法を,CDC-XPUFの2つの手法のパラメータを微調整することによって適用する。 fpga (field-programmable gate array) 上に実装したpufデータとsiliconデータの両方を用いた攻撃実験を行い, 従来セキュアであった特定の回路パラメータ値のcdc-xpufsは, 新たな攻撃手法ではもはや安全ではなく, 他の回路パラメータ値のcdc-xpufsは安全であることを示した。 これにより、PUF回路パラメータ空間のセキュア領域と安全領域の境界を再定義し、PUF製造者とIoTセキュリティアプリケーション開発者に対して、安全なパラメータ値を持つPUFを選択する上で貴重な情報を提供する。

Physical Unclonable Functions (PUFs) are promising security primitives for resource-constrained network nodes. The XOR Arbiter PUF (XOR PUF or XPUF) is an intensively studied PUF invented to improve the security of the Arbiter PUF, probably the most lightweight delay-based PUF. Recently, highly powerful machine learning attack methods were discovered and were able to easily break large-sized XPUFs, which were highly secure against earlier machine learning attack methods. Component-differentially-challenged XPUFs (CDC-XPUFs) are XPUFs with different component PUFs receiving different challenges. Studies showed they were much more secure against machine learning attacks than the conventional XPUFs, whose component PUFs receive the same challenge. But these studies were all based on earlier machine learning attack methods, and hence it is not clear if CDC-XPUFs can remain secure under the recently discovered powerful attack methods. In this paper, the two current most powerful two machine learning methods for attacking XPUFs are adapted by fine-tuning the parameters of the two methods for CDC-XPUFs. Attack experiments using both simulated PUF data and silicon data generated from PUFs implemented on field-programmable gate array (FPGA) were carried out, and the experimental results showed that some previously secure CDC-XPUFs of certain circuit parameter values are no longer secure under the adapted new attack methods, while many more CDC-XPUFs of other circuit parameter values remain secure. Thus, our experimental attack study has re-defined the boundary between the secure region and the insecure region of the PUF circuit parameter space, providing PUF manufacturers and IoT security application developers with valuable information in choosing PUFs with secure parameter values.
翻訳日:2022-06-06 15:24:48 公開日:2022-06-02
# 脳波の解釈不能領域適応のためのSPDドメイン特異的バッチ正規化

SPD domain-specific batch normalization to crack interpretable unsupervised domain adaptation in EEG ( http://arxiv.org/abs/2206.01323v1 )

ライセンス: Link先を確認
Reinmar J Kobler, Jun-ichiro Hirayama, Qibin Zhao, Motoaki Kawanabe(参考訳) 脳波(eeg)は、ミリ秒の解像度で非侵襲的に神経細胞のダイナミクスにアクセスし、神経科学や医療において有効な方法である。 しかし、現在のEEG技術は、高価な監督された再校正なしにドメイン(セッションと主題)間でうまく一般化しないため、その実用性は限られている。 現代の手法では、このトランスファーラーニング(TL)問題をマルチソース/ターゲット非教師付きドメイン適応(UDA)問題として、深層学習や浅いリーマン幾何学的アライメント手法で対処している。 どちらの方向も、対称正定値 (SPD) 多様体上の接空間写像 (TSM) に基づく最先端の領域固有法のパフォーマンスギャップを一貫して埋めることに失敗した。 本稿では,エンド・ツー・エンドでドメイン不変なtsmモデルを初めて学習できる理論ベースの機械学習フレームワークを提案する。 そこで本研究では,spd領域特異的運動量バッチ正規化(spddsmbn)を示す,幾何学的深層学習のための新しい構築ブロックを提案する。 SPDDSMBNレイヤはドメイン固有のSPD入力をドメイン不変のSPD出力に変換することができ、マルチソース/ターゲットおよびオンラインUDAシナリオに容易に適用できる。 6種類の脳波脳-コンピュータ・インタフェース(BCI)データセットを用いた広範囲な実験において,TSMNetを表わすシンプルな,本質的に解釈可能なネットワークアーキテクチャを用いて,セッション間およびオブジェクト間TLにおける最先端の性能を得る。

Electroencephalography (EEG) provides access to neuronal dynamics non-invasively with millisecond resolution, rendering it a viable method in neuroscience and healthcare. However, its utility is limited as current EEG technology does not generalize well across domains (i.e., sessions and subjects) without expensive supervised re-calibration. Contemporary methods cast this transfer learning (TL) problem as a multi-source/-target unsupervised domain adaptation (UDA) problem and address it with deep learning or shallow, Riemannian geometry aware alignment methods. Both directions have, so far, failed to consistently close the performance gap to state-of-the-art domain-specific methods based on tangent space mapping (TSM) on the symmetric positive definite (SPD) manifold. Here, we propose a theory-based machine learning framework that enables, for the first time, learning domain-invariant TSM models in an end-to-end fashion. To achieve this, we propose a new building block for geometric deep learning, which we denote SPD domain-specific momentum batch normalization (SPDDSMBN). A SPDDSMBN layer can transform domain-specific SPD inputs into domain-invariant SPD outputs, and can be readily applied to multi-source/-target and online UDA scenarios. In extensive experiments with 6 diverse EEG brain-computer interface (BCI) datasets, we obtain state-of-the-art performance in inter-session and -subject TL with a simple, intrinsically interpretable network architecture, which we denote TSMNet.
翻訳日:2022-06-06 15:24:17 公開日:2022-06-02
# 周期境界条件をもつ高次元拡散方程式に対する圧縮フーリエコロケーション法

Compressive Fourier collocation methods for high-dimensional diffusion equations with periodic boundary conditions ( http://arxiv.org/abs/2206.01255v1 )

ライセンス: Link先を確認
Weiqi Wang, Simone Brugiapaglia(参考訳) 高次元偏微分方程式(英: High-dimensional partial Differential Equations, PDE)は、ファイナンスから計算化学まで多岐にわたる数学モデリングツールである。 しかしながら、これらのPDEを解くための標準的な数値手法は、一般に次元の呪いの影響を受けている。 本研究では,周期境界条件を持つ高次元領域上で定義される定常拡散方程式に着目しながら,この問題に取り組む。 高次元におけるスパース関数近似の最近の進歩に触発されて, 圧縮フーリエコロケーションと呼ばれる新しい手法を提案する。 圧縮センシングとスペクトルコロケーションのアイデアを組み合わせることで,構造化コロケーショングリッドをモンテカルロサンプリングに置き換え,直交マッチング追従法や$\ell^1$最小化法などのスパースリカバリ技術を用いてpde溶液のフーリエ係数を近似する。 提案手法の近似誤差が解に対する(フーリエ基底に関して)最良の$s$項近似に匹敵することを示す厳密な理論解析を行う。 最近導入された有界リース系におけるランダムサンプリングの枠組みを用いて, 圧縮フーリエコロケーション法は, 拡散係数の正則性に関する十分な条件下でのコロケーション点数に対して, 次元の呪いを緩和することを示した。 また, 分散解と圧縮解の近似法について, 精度と安定性を示す数値実験を行った。

High-dimensional Partial Differential Equations (PDEs) are a popular mathematical modelling tool, with applications ranging from finance to computational chemistry. However, standard numerical techniques for solving these PDEs are typically affected by the curse of dimensionality. In this work, we tackle this challenge while focusing on stationary diffusion equations defined over a high-dimensional domain with periodic boundary conditions. Inspired by recent progress in sparse function approximation in high dimensions, we propose a new method called compressive Fourier collocation. Combining ideas from compressive sensing and spectral collocation, our method replaces the use of structured collocation grids with Monte Carlo sampling and employs sparse recovery techniques, such as orthogonal matching pursuit and $\ell^1$ minimization, to approximate the Fourier coefficients of the PDE solution. We conduct a rigorous theoretical analysis showing that the approximation error of the proposed method is comparable with the best $s$-term approximation (with respect to the Fourier basis) to the solution. Using the recently introduced framework of random sampling in bounded Riesz systems, our analysis shows that the compressive Fourier collocation method mitigates the curse of dimensionality with respect to the number of collocation points under sufficient conditions on the regularity of the diffusion coefficient. We also present numerical experiments that illustrate the accuracy and stability of the method for the approximation of sparse and compressible solutions.
翻訳日:2022-06-06 15:20:27 公開日:2022-06-02
# バイアスドモンテカルロサンプリングを用いた制限ボルツマンマシンの学習

Learning a Restricted Boltzmann Machine using biased Monte Carlo sampling ( http://arxiv.org/abs/2206.01310v1 )

ライセンス: Link先を確認
Nicolas B\'ereux, Aur\'elien Decelle, Cyril Furtlehner, Beatriz Seoane(参考訳) 制限ボルツマンマシンは、複雑なデータセットをエンコードできるシンプルで強力な生成モデルである。 彼らの利点にもかかわらず、実際にはトレーニングはしばしば不安定であり、ダイナミクスが非常に遅い時間依存によって阻害されるため、彼らの品質を評価するのは難しい。 この状況は、訓練されたモデルをエルゴディカルにサンプリングするために必要な時間が計算的に禁じられるような、低次元のクラスタデータセットを扱う際に重要となる。 本研究では,このモンテカルロ混合時間のばらつきが,第1次相転移の近傍で物理学で見られるような相共存現象と関連していることを示す。 本稿では,マルコフ連鎖モンテカルロ法による平衡分布のサンプリングを,特にテザードモンテカルロ法(TMC)を用いて劇的に加速させることができることを示す。 このサンプリング手法は、与えられたトレーニングモデルの品質評価と、合理的な時間内に新しいサンプルを生成する問題を効率的に解決する。 さらに,このサンプリング手法を用いて,トレーニング中のログ類似度勾配の計算も改善できることを示し,人工クラスタ化データセットを用いたRAMのトレーニングにおいて劇的な改善がもたらされた。 実際の低次元データセットを扱う場合、この新しいトレーニング手順は、通常のPCDレシピよりもはるかに高速な緩和ダイナミクスを持つRBMモデルに適合する。 また, TMC サンプリングは, RBM の自由エネルギー分布の復元に有効であり, 与えられたモデルの確率分布を計算し, 遅いPCD 訓練モデル上での新しい非相関サンプルの生成を改善するのに極めて有用であることを示した。

Restricted Boltzmann Machines are simple and powerful generative models capable of encoding any complex dataset. Despite all their advantages, in practice, trainings are often unstable, and it is hard to assess their quality because dynamics are hampered by extremely slow time-dependencies. This situation becomes critical when dealing with low-dimensional clustered datasets, where the time needed to sample ergodically the trained models becomes computationally prohibitive. In this work, we show that this divergence of Monte Carlo mixing times is related to a phase coexistence phenomenon, similar to that encountered in Physics in the vicinity of a first order phase transition. We show that sampling the equilibrium distribution via Markov Chain Monte Carlo can be dramatically accelerated using biased sampling techniques, in particular, the Tethered Monte Carlo method (TMC). This sampling technique solves efficiently the problem of evaluating the quality of a given trained model and the generation of new samples in reasonable times. In addition, we show that this sampling technique can be exploited to improve the computation of the log-likelihood gradient during the training too, which produces dramatic improvements when training RBMs with artificial clustered datasets. When dealing with real low-dimensional datasets, this new training procedure fits RBM models with significantly faster relaxational dynamics than those obtained with standard PCD recipes. We also show that TMC sampling can be used to recover free-energy profile of the RBM, which turns out to be extremely useful to compute the probability distribution of a given model and to improve the generation of new decorrelated samples on slow PCD trained models.
翻訳日:2022-06-06 15:19:59 公開日:2022-06-02
# PNODE:高次随伴微分に基づくメモリ効率ニューラルODEフレームワーク

PNODE: A memory-efficient neural ODE framework based on high-level adjoint differentiation ( http://arxiv.org/abs/2206.01298v1 )

ライセンス: Link先を確認
Hong Zhang, Wenjun Zhao(参考訳) ニューラル常微分方程式(ニューラルODE)は動的システムとディープラーニングを橋渡しする新しいネットワークアーキテクチャとして登場した。 しかし、バニラ神経回路における連続随伴法で得られる勾配は逆精度ではない。 他のアプローチでは、深層計算グラフによる過剰なメモリ要求や時間積分方式の選択に悩まされ、大規模な複雑な力学系への応用を妨げている。 メモリ効率と柔軟性を損なうことなく正確な勾配を実現するために,高レベル離散随伴アルゴリズムの微分に基づくニューラルODEフレームワークPNODEを提案する。 離散随伴時間積分器とこれらの積分器に適した高度なチェックポイント戦略を利用することで、PNODEは勾配を一貫して正確に計算しながら、メモリと計算コストのバランスをとることができる。 当社はpytorchとpetscをベースにしたオープンソース実装を提供しており、最も一般的に使用されているポータブルでスケーラブルな科学計算ライブラリの1つです。 画像分類と連続正規化フロー問題に関する広範囲な数値実験により,その性能を実証する。 PNODEは他の逆精度の手法と比較してメモリ効率が最も高いことを示す。 画像分類問題では、PNODEはバニラニューラルODEの最大2倍、既存の逆精度法よりも最大2.3倍高速である。 また,pnodeでは,強固な動的システムに必要な暗黙的時間積分法が利用できることを示した。

Neural ordinary differential equations (neural ODEs) have emerged as a novel network architecture that bridges dynamical systems and deep learning. However, the gradient obtained with the continuous adjoint method in the vanilla neural ODE is not reverse-accurate. Other approaches suffer either from excessive memory requirement due to deep computational graphs or from limited choices for the time integration scheme, hampering their application to large-scale complex dynamical systems. To achieve accurate gradients without compromising memory efficiency and flexibility, we present a new neural ODE framework, PNODE, based on high-level discrete adjoint algorithmic differentiation. By leveraging discrete adjoint time integrators and advanced checkpointing strategies tailored for these integrators, PNODE can provide a balance between memory and computational costs, while computing the gradients consistently and accurately. We provide an open-source implementation based on PyTorch and PETSc, one of the most commonly used portable, scalable scientific computing libraries. We demonstrate the performance through extensive numerical experiments on image classification and continuous normalizing flow problems. We show that PNODE achieves the highest memory efficiency when compared with other reverse-accurate methods. On the image classification problems, PNODE is up to two times faster than the vanilla neural ODE and up to 2.3 times faster than the best existing reverse-accurate method. We also show that PNODE enables the use of the implicit time integration methods that are needed for stiff dynamical systems.
翻訳日:2022-06-06 14:40:55 公開日:2022-06-02
# 資源配分の認知的計画

Deceptive Planning for Resource Allocation ( http://arxiv.org/abs/2206.01306v1 )

ライセンス: Link先を確認
Yagiz Savas, Mustafa O. Karabag, Brian M. Sadler, Ufuk Topcu(参考訳) 我々は、敵環境をナビゲートする自律エージェントのチームが、目標とする場所のセットにリソースを割り当てることで、タスクを達成することを目指している。 環境の敵は自律チームの行動を観察し、目標を推測し、自身のリソースを目標の場所に配置する。 そこで本研究では,自律的なチームの密度を制御し,目的について敵を騙し,最終的な資源配分を達成するための戦略を策定する。 まず,最大エントロピーの原理に基づく予測アルゴリズムを開発し,敵が期待するチームの振る舞いを表現する。 そして,Kulback-Leibler の発散による誤認性を測定することで,デコイアロケーション戦略に対する振る舞いを誇張したり,最終的なアロケーション戦略に関する曖昧さを創り出すことで,敵を欺く凸最適化に基づく計画アルゴリズムを開発する。 最後に,数値シミュレーションによる提案アルゴリズムの性能について述べる。

We consider a team of autonomous agents that navigate in an adversarial environment and aim to achieve a task by allocating their resources over a set of target locations. The adversaries in the environment observe the autonomous team's behavior to infer their objective and counter-allocate their own resources to the target locations. In this setting, we develop strategies for controlling the density of the autonomous team so that they can deceive the adversaries regarding their objective while achieving the desired final resource allocation. We first develop a prediction algorithm, based on the principle of maximum entropy, to express the team's behavior expected by the adversaries. Then, by measuring the deceptiveness via Kullback-Leibler divergence, we develop convex optimization-based planning algorithms that deceives adversaries by either exaggerating the behavior towards a decoy allocation strategy or creating ambiguity regarding the final allocation strategy. Finally, we illustrate the performance of the proposed algorithms through numerical simulations.
翻訳日:2022-06-06 14:36:34 公開日:2022-06-02
# クラウドソースデモグラフィック情報による大規模物体認識の公平性向上

Improving Fairness in Large-Scale Object Recognition by CrowdSourced Demographic Information ( http://arxiv.org/abs/2206.01326v1 )

ライセンス: Link先を確認
Zu Kim and Andr\'e Araujo and Bingyi Cao and Cam Askew and Jack Sim and Mike Green and N'Mah Fodiatu Yilla and Tobias Weyand(参考訳) 機械学習では倫理的な問題に対する意識が高まり、公平性が重要な研究テーマとなっている。 コンピュータビジョンにおけるフェアネスの取り組みは、人種、肌の色、年齢などの身体的属性による差別を、特定の人口集団の視覚的表現を増大させることによって防止することに焦点を当てている。 MLフェアネスの取り組みは、オブジェクト認識にも拡張されるべきである。 建物、アートワーク、食品、衣服は、人間の文化を定義する対象の例である。 機械学習データセットでこれらのオブジェクトを公平に表現すると、特定の文化に対する偏りが少なく、異なる伝統や価値観を包含するモデルにつながります。 オブジェクト認識のための研究データセットは数多く存在するが、どのクラスを含めるべきか、あるいはクラスごとにどれだけのトレーニングデータを集めるべきかを慎重に検討していない。 これに対処するため、私たちは、貢献者の人口構成をクラウドソーシングすることに基づいて、単純で一般的なアプローチを提案します。 我々は、ランドマーク認識ドメインにその適用例を示し、詳細な分析と、最終的な公正なランドマークランキングを提示した。 我々は、既存のデータセットと比較して世界をより公平にカバーする分析を行う。 この評価データセットは、2021年のgoogle landmark challengeで使用された。

There has been increasing awareness of ethical issues in machine learning, and fairness has become an important research topic. Most fairness efforts in computer vision have been focused on human sensing applications and preventing discrimination by people's physical attributes such as race, skin color or age by increasing visual representation for particular demographic groups. We argue that ML fairness efforts should extend to object recognition as well. Buildings, artwork, food and clothing are examples of the objects that define human culture. Representing these objects fairly in machine learning datasets will lead to models that are less biased towards a particular culture and more inclusive of different traditions and values. There exist many research datasets for object recognition, but they have not carefully considered which classes should be included, or how much training data should be collected per class. To address this, we propose a simple and general approach, based on crowdsourcing the demographic composition of the contributors: we define fair relevance scores, estimate them, and assign them to each class. We showcase its application to the landmark recognition domain, presenting a detailed analysis and the final fairer landmark rankings. We present analysis which leads to a much fairer coverage of the world compared to existing datasets. The evaluation dataset was used for the 2021 Google Landmark Challenges, which was the first of a kind with an emphasis on fairness in generic object recognition.
翻訳日:2022-06-06 14:04:58 公開日:2022-06-02
# 局所リプシッツ連続勾配を用いた凸最適化の高速化一階法

Accelerated first-order methods for convex optimization with locally Lipschitz continuous gradient ( http://arxiv.org/abs/2206.01209v1 )

ライセンス: Link先を確認
Zhaosong Lu and Sanyou Mei(参考訳) 本稿では,局所リプシッツ連続勾配 (llcg) を用いた凸最適化のための高速化一階法を開発した。 特に,まず非拘束凸最適化をLLCGで検討し,それを解決するための加速近位勾配(APG)法を提案する。 提案するapg法には検証可能な終端基準が与えられ、unconstrained convex と strong convex optimization problem の $\varepsilon$-residual solution を求めるために、${\cal o}(\varepsilon^{-1/2}\log \varepsilon^{-1})$ と ${\cal o}(\log \varepsilon^{-1})$ の演算複雑性が与えられる。 そこで本研究では,llgを用いた制約付き凸最適化について検討し,本提案手法の1つを適用し,それを解決するための一階の近位拡張ラグランジアン法を提案する。 得られた方法は検証可能な終了基準を備えており、拘束された凸と強い凸最適化問題の$\varepsilon$-kkt解を求めるための${\cal o}(\varepsilon^{-1}\log \varepsilon^{-1})$と${\cal o}(\varepsilon^{-1/2}\log \varepsilon^{-1})$の操作複雑性をそれぞれ享受する。 本論文では,凸度パラメータに関する知識が要求される以外,パラメータフリーあるいはほぼパラメータフリーである。 私たちの知る限りでは、llcgによる凸最適化のための複雑性保証付き1次加速法について、先行研究は行われなかった。 本論文で得られた複雑さはすべて全く新しいものである。

In this paper we develop accelerated first-order methods for convex optimization with locally Lipschitz continuous gradient (LLCG), which is beyond the well-studied class of convex optimization with Lipschitz continuous gradient. In particular, we first consider unconstrained convex optimization with LLCG and propose accelerated proximal gradient (APG) methods for solving it. The proposed APG methods are equipped with a verifiable termination criterion and enjoy an operation complexity of ${\cal O}(\varepsilon^{-1/2}\log \varepsilon^{-1})$ and ${\cal O}(\log \varepsilon^{-1})$ for finding an $\varepsilon$-residual solution of an unconstrained convex and strongly convex optimization problem, respectively. We then consider constrained convex optimization with LLCG and propose an first-order proximal augmented Lagrangian method for solving it by applying one of our proposed APG methods to approximately solve a sequence of proximal augmented Lagrangian subproblems. The resulting method is equipped with a verifiable termination criterion and enjoys an operation complexity of ${\cal O}(\varepsilon^{-1}\log \varepsilon^{-1})$ and ${\cal O}(\varepsilon^{-1/2}\log \varepsilon^{-1})$ for finding an $\varepsilon$-KKT solution of a constrained convex and strongly convex optimization problem, respectively. All the proposed methods in this paper are parameter-free or almost parameter-free except that the knowledge on convexity parameter is required. To the best of our knowledge, no prior studies were conducted to investigate accelerated first-order methods with complexity guarantees for convex optimization with LLCG. All the complexity results obtained in this paper are entirely new.
翻訳日:2022-06-06 14:01:50 公開日:2022-06-02
# ランダム森林変数重要度尺度の逐次置換試験

Sequential Permutation Testing of Random Forest Variable Importance Measures ( http://arxiv.org/abs/2206.01284v1 )

ライセンス: Link先を確認
Alexander Hapfelmeier, Roman Hornung, Bernhard Haller(参考訳) ランダム森林(RF)変動重要度尺度(VIMP)の仮説テストは現在も進行中の研究の対象となっている。 近年の進展の中で、分布仮定は経験的証拠に基づくパラメトリックテストに対するヒューリスティックなアプローチが提案されている。 規則性条件下での他の公式な試験は解析的に導かれた。 しかし、これらの手法は計算コストがかかり、実際は実現不可能である。 この問題は、非パラメトリックな置換テストでも発生し、これは分布自由であり、任意の種類のRFやVIMPに適用できる。 この利点を活かし, 逐次置換テストと逐次p値推定を用いて, 従来の置換テストに伴う高い計算コストを削減することを提案する。 広く普及している順列 vimp は実用的かつ関連する応用例である。 シミュレーション実験の結果、逐次テストの理論的性質、すなわち、タイプiの誤差確率を名目レベルで制御し、従来の置換試験に比べてかなり少ない置換率で高い電力を維持できることが確認された。 本手法の数値安定性を2つの応用研究で検討した。 要約すると、理論上VIMPの逐次置換試験は計算コストを大幅に削減できる。 出願の勧告が下される。 それぞれの実装は、付随するRパッケージ$rfvimptest$を通じて提供される。 このアプローチは、任意の種類の予測モデルにも容易に適用できる。

Hypothesis testing of random forest (RF) variable importance measures (VIMP) remains the subject of ongoing research. Among recent developments, heuristic approaches to parametric testing have been proposed whose distributional assumptions are based on empirical evidence. Other formal tests under regularity conditions were derived analytically. However, these approaches can be computationally expensive or even practically infeasible. This problem also occurs with non-parametric permutation tests, which are, however, distribution-free and can generically be applied to any type of RF and VIMP. Embracing this advantage, it is proposed here to use sequential permutation tests and sequential p-value estimation to reduce the high computational costs associated with conventional permutation tests. The popular and widely used permutation VIMP serves as a practical and relevant application example. The results of simulation studies confirm that the theoretical properties of the sequential tests apply, that is, the type-I error probability is controlled at a nominal level and a high power is maintained with considerably fewer permutations needed in comparison to conventional permutation testing. The numerical stability of the methods is investigated in two additional application studies. In summary, theoretically sound sequential permutation testing of VIMP is possible at greatly reduced computational costs. Recommendations for application are given. A respective implementation is provided through the accompanying R package $rfvimptest$. The approach can also be easily applied to any kind of prediction model.
翻訳日:2022-06-06 14:01:09 公開日:2022-06-02
# ファジィ粒度近似分類器

Fuzzy granular approximation classifier ( http://arxiv.org/abs/2206.01240v1 )

ライセンス: Link先を確認
Marko Palangeti\'c, Chris Cornelis, Salvatore Greco, Roman S{\l}owi\'nski(参考訳) 本稿では,新しいファジィ粒度近似分類器(FGAC)を紹介する。 分類器は、以前に導入されたグラニュラー近似の概念とその多クラス分類ケースに基づいている。 分類器はインスタンスベースであり、その最大の利点は、その局所的な透明性である。 まず,二項分類ケースと多クラス分類ケースのfgacを開発し,順序重み付き平均 (owa) 演算子を含むその変動について考察する。 FGACのこれらのバリエーションは、他の局所的なML手法と経験的に比較される。 最後に、FGACの透明性と、他の局所的な透過的手法に対する優位性について論じる。 FGACは、他の局所的透明MLモデルと類似した予測性能を持つが、その透明性は特定の場合において優れていると結論付けている。

In this article, a new Fuzzy Granular Approximation Classifier (FGAC) is introduced. The classifier is based on the previously introduced concept of the granular approximation and its multi-class classification case. The classifier is instance-based and its biggest advantage is its local transparency i.e., the ability to explain every individual prediction it makes. We first develop the FGAC for the binary classification case and the multi-class classification case and we discuss its variation that includes the Ordered Weighted Average (OWA) operators. Those variations of the FGAC are then empirically compared with other locally transparent ML methods. At the end, we discuss the transparency of the FGAC and its advantage over other locally transparent methods. We conclude that while the FGAC has similar predictive performance to other locally transparent ML models, its transparency can be superior in certain cases.
翻訳日:2022-06-06 13:59:25 公開日:2022-06-02
# エンドツーエンドオブジェクト検出で期待できるクエリは何か?

What Are Expected Queries in End-to-End Object Detection? ( http://arxiv.org/abs/2206.01232v1 )

ライセンス: Link先を確認
Shilong Zhang, Xinjiang Wang, Jiaqi Wang, Jiangmiao Pang and Kai Chen(参考訳) DETRの出現後、エンドツーエンドのオブジェクト検出が急速に進行する。 detrは、多くの従来の検出器の濃密な候補ボックスを置き換える、スパースクエリのセットを使用する。 比較として、スパースクエリは、密度の高いプリエントとして高いリコールを保証することができない。 しかし、現在のフレームワークではクエリを密集させることは簡単ではない。 計算コストが大きいだけでなく、最適化も難しい。 スパースクエリと密接なクエリの両方が不完全であるので、\emph{end-to-endオブジェクト検出で期待クエリは何か? 本稿では,Dense Distinct Queries (DDQ) が期待されるクエリであることを示す。 具体的には、濃密なクエリを生成するために、フレームワークに濃密なプリエントを導入する。 これらのクエリには、重複したクエリ削除前プロセスを適用することで、互いに区別することができる。 密接な異なるクエリは、最後にスパース出力を得るために反復的に処理される。 DDQはより強く、より堅牢で、より早く収束することを示す。 MS COCO検出データセットでは、12エポックで44.5 APを得る。 ddqはまた、さまざまなデータセット上のオブジェクト検出とインスタンスセグメンテーションタスクの両方の以前のメソッドを上回っているため、堅牢である。 DDQは従来の高密度な先行と最近のエンドツーエンド検出器の利点をブレンドする。 新しいベースラインとして機能し、研究者に従来の方法とエンドツーエンド検出器の相補性を再検討するよう促すことを期待しています。 ソースコードは \url{https://github.com/jshilong/DDQ} で公開されている。

End-to-end object detection is rapidly progressed after the emergence of DETR. DETRs use a set of sparse queries that replace the dense candidate boxes in most traditional detectors. In comparison, the sparse queries cannot guarantee a high recall as dense priors. However, making queries dense is not trivial in current frameworks. It not only suffers from heavy computational cost but also difficult optimization. As both sparse and dense queries are imperfect, then \emph{what are expected queries in end-to-end object detection}? This paper shows that the expected queries should be Dense Distinct Queries (DDQ). Concretely, we introduce dense priors back to the framework to generate dense queries. A duplicate query removal pre-process is applied to these queries so that they are distinguishable from each other. The dense distinct queries are then iteratively processed to obtain final sparse outputs. We show that DDQ is stronger, more robust, and converges faster. It obtains 44.5 AP on the MS COCO detection dataset with only 12 epochs. DDQ is also robust as it outperforms previous methods on both object detection and instance segmentation tasks on various datasets. DDQ blends advantages from traditional dense priors and recent end-to-end detectors. We hope it can serve as a new baseline and inspires researchers to revisit the complementarity between traditional methods and end-to-end detectors. The source code is publicly available at \url{https://github.com/jshilong/DDQ}.
翻訳日:2022-06-06 13:59:11 公開日:2022-06-02
# PETRv2:マルチカメラ画像からの3D知覚のための統一フレームワーク

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images ( http://arxiv.org/abs/2206.01256v1 )

ライセンス: Link先を確認
Yingfei Liu, Junjie Yan, Fan Jia, Shuailin Li, Qi Gao, Tiancai Wang, Xiangyu Zhang, Jian Sun(参考訳) 本稿では,マルチビュー画像からの3次元知覚のための統合フレームワーク petrv2 を提案する。 PETRをベースとしたPETRv2では,従来のフレームの時間的情報を用いて3次元物体検出を促進する時間的モデリングの有効性について検討している。 具体的には,PETRの3次元位置埋め込み(3次元PE)を時間的モデリングのために拡張する。 3次元PEは、異なるフレームのオブジェクト位置の時間的アライメントを達成する。 さらに、3次元PEのデータ適応性を向上させるために、特徴誘導位置エンコーダを導入する。 PETRv2は、高品質なBEVセグメンテーションをサポートするため、セグメンテーションクエリセットを追加することで、シンプルだが効果的なソリューションを提供する。 各セグメンテーションクエリは、BEVマップの特定のパッチをセグメンテーションする責任がある。 PETRv2は3Dオブジェクト検出とBEVセグメンテーションの最先端性能を実現する。 PETRフレームワーク上で詳細なロバスト性解析を行う。 PETRv2が3D知覚の統一フレームワークとして機能することを願っている。

In this paper, we propose PETRv2, a unified framework for 3D perception from multi-view images. Based on PETR, PETRv2 explores the effectiveness of temporal modeling, which utilizes the temporal information of previous frames to boost 3D object detection. More specifically, we extend the 3D position embedding (3D PE) in PETR for temporal modeling. The 3D PE achieves the temporal alignment on object position of different frames. A feature-guided position encoder is further introduced to improve the data adaptability of 3D PE. To support for high-quality BEV segmentation, PETRv2 provides a simply yet effective solution by adding a set of segmentation queries. Each segmentation query is responsible for segmenting one specific patch of BEV map. PETRv2 achieves state-of-the-art performance on 3D object detection and BEV segmentation. Detailed robustness analysis is also conducted on PETR framework. We hope PETRv2 can serve as a unified framework for 3D perception.
翻訳日:2022-06-06 13:58:54 公開日:2022-06-02
# ポイント2NeRF:3次元点雲からのニューラル放射場の生成

Points2NeRF: Generating Neural Radiance Fields from 3D point cloud ( http://arxiv.org/abs/2206.01290v1 )

ライセンス: Link先を確認
D. Zimny, T. Trzci\'nski, P. Spurek(参考訳) LIDARや様々な深度カメラなどの3D視覚情報のための現代の登録装置は、データを3Dポイントクラウドとしてキャプチャする。 逆に、そのような雲はサイズと複雑さのため処理が難しい。 既存のメソッドは、メッシュをポイントクラウドに適合させ、代わりにレンダリングすることで、この問題に対処する。 しかしこのアプローチは、結果として生じる視覚化の忠実さを低下させ、コンピュータグラフィックスアプリケーションで重要なオブジェクトの色情報を見逃してしまう。 本研究では,3次元物体をNeRF(Neural Radiance Fields)として表現することで,この課題を軽減することを提案する。 我々は、ハイパーネットワークのパラダイムを活用し、モデルをトレーニングし、関連するカラー値を持つ3Dポイント・クラウドを取り、入力された2D画像から3Dオブジェクトを再構成するNeRFネットワークの重みを返す。 提案手法は,3次元オブジェクトの効率的な表現を提供し,NeRFの条件付けや,学習対象以外の一般化の改善など,既存のアプローチに対していくつかの利点を提供している。 後者も経験的評価の結果で確認した。

Contemporary registration devices for 3D visual information, such as LIDARs and various depth cameras, capture data as 3D point clouds. In turn, such clouds are challenging to be processed due to their size and complexity. Existing methods address this problem by fitting a mesh to the point cloud and rendering it instead. This approach, however, leads to the reduced fidelity of the resulting visualization and misses color information of the objects crucial in computer graphics applications. In this work, we propose to mitigate this challenge by representing 3D objects as Neural Radiance Fields (NeRFs). We leverage a hypernetwork paradigm and train the model to take a 3D point cloud with the associated color values and return a NeRF network's weights that reconstruct 3D objects from input 2D images. Our method provides efficient 3D object representation and offers several advantages over the existing approaches, including the ability to condition NeRFs and improved generalization beyond objects seen in training. The latter we also confirmed in the results of our empirical evaluation.
翻訳日:2022-06-06 13:58:39 公開日:2022-06-02
# H-EMD:階層型地球モーバーのインスタンス分割距離法

H-EMD: A Hierarchical Earth Mover's Distance Method for Instance Segmentation ( http://arxiv.org/abs/2206.01309v1 )

ライセンス: Link先を確認
Peixian Liang, Yizhe Zhang, Yifan Ding, Jianxu Chen, Chinedu S. Madukoma, Tim Weninger, Joshua D. Shrout, Danny Z. Chen(参考訳) 深層学習(DL)に基づくセマンティックセマンティックセマンティクス法は,バイオメディカル画像セマンティクスにおいて優れた性能を達成し,リッチなインスタンス情報の抽出と良好なインスタンスセマンティクスの実現を可能にした。 新しいdlセマンティクスセグメンテーションモデルの開発には多くの努力がなされたが、最良のインスタンスセグメンテーションを達成するためにそれらの確率マップを効果的に探索する方法に関して、あまり注目されなかった。 dl意味セグメンテーションモデルによる確率マップは、多くの可能なインスタンス候補を生成するために利用することができ、それらから出力インスタンスとして「最適化」候補のセットを選択することで、正確なインスタンスセグメンテーションを実現することができる。 さらに、生成されたインスタンス候補は、適切に構成された階層構造(フォレスト)を形成し、最適化された方法でインスタンスを選択することができる。 そこで本研究では, バイオメディカル2D+タイムビデオと3D画像のセグメンテーションにおいて, セグメンテーション生成確率マップと一貫したインスタンス選択を組み込んだ, H-EMD (hierarchical earth mover's distance) という新しいフレームワークを提案する。 H-EMDは2つの主要なステージを含む。 1) インスタンス候補生成: 森林構造において多数のインスタンス候補を生成して、確率マップにおけるインスタンス構造情報を取得する。 (2) インスタンス候補選択: 最終的なインスタンスセグメンテーションのための候補セットからインスタンスを選択する。 我々は,地球移動者の距離(emd)に基づく最適化問題として,インスタンス候補フォレスト上のキーインスタンス選択問題を定式化し,整数線形計画を用いて解く。 8つのバイオメディカルビデオまたは3Dデータセットに対する大規模な実験により、H-EMDはDLセマンティックセグメンテーションモデルを一貫して強化し、最先端の手法と非常に競合することを示した。

Deep learning (DL) based semantic segmentation methods have achieved excellent performance in biomedical image segmentation, producing high quality probability maps to allow extraction of rich instance information to facilitate good instance segmentation. While numerous efforts were put into developing new DL semantic segmentation models, less attention was paid to a key issue of how to effectively explore their probability maps to attain the best possible instance segmentation. We observe that probability maps by DL semantic segmentation models can be used to generate many possible instance candidates, and accurate instance segmentation can be achieved by selecting from them a set of "optimized" candidates as output instances. Further, the generated instance candidates form a well-behaved hierarchical structure (a forest), which allows selecting instances in an optimized manner. Hence, we propose a novel framework, called hierarchical earth mover's distance (H-EMD), for instance segmentation in biomedical 2D+time videos and 3D images, which judiciously incorporates consistent instance selection with semantic-segmentation-generated probability maps. H-EMD contains two main stages. (1) Instance candidate generation: capturing instance-structured information in probability maps by generating many instance candidates in a forest structure. (2) Instance candidate selection: selecting instances from the candidate set for final instance segmentation. We formulate a key instance selection problem on the instance candidate forest as an optimization problem based on the earth mover's distance (EMD), and solve it by integer linear programming. Extensive experiments on eight biomedical video or 3D datasets demonstrate that H-EMD consistently boosts DL semantic segmentation models and is highly competitive with state-of-the-art methods.
翻訳日:2022-06-06 13:58:20 公開日:2022-06-02
# RACA:マルチエージェント深層強化学習におけるアドホック連携のための関係認識型クレジットアサインメント

RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2206.01207v1 )

ライセンス: Link先を確認
Hao Chen, Guangkai Yang, Junge Zhang, Qiyue Yin, Kaiqi Huang(参考訳) 近年、強化学習は、クレジット割り当て問題など、マルチエージェントドメインにおけるいくつかの課題に直面している。 価値関数の分解は、分散実行(CTDE)パラダイムによる集中的なトレーニングの下で、クレジット代入問題を処理するための有望な方法として現れます。 しかし、既存の値関数の分解方法は、テスト時にチームメイトの新しい構成に適応するアドホックな協調には対応できない。 具体的には、これらの手法はエージェント間の関係を明示的に利用せず、入力の異なるサイズに適応できない。 これらの制約に対処するため、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAはグラフベースの関係エンコーダを利用してエージェント間のトポロジ構造を符号化する。 さらにracaは、一定の数のパラメータを持つ任意の数のチームメイトに一般化できる注意に基づく観察抽象化メカニズムを利用している。 実験により,starcraftiiマイクロマネジメントベンチマークおよびアドホック協調シナリオのベースライン手法を上回った。

In recent years, reinforcement learning has faced several challenges in the multi-agent domain, such as the credit assignment issue. Value function factorization emerges as a promising way to handle the credit assignment issue under the centralized training with decentralized execution (CTDE) paradigm. However, existing value function factorization methods cannot deal with ad-hoc cooperation, that is, adapting to new configurations of teammates at test time. Specifically, these methods do not explicitly utilize the relationship between agents and cannot adapt to different sizes of inputs. To address these limitations, we propose a novel method, called Relation-Aware Credit Assignment (RACA), which achieves zero-shot generalization in ad-hoc cooperation scenarios. RACA takes advantage of a graph-based relation encoder to encode the topological structure between agents. Furthermore, RACA utilizes an attention-based observation abstraction mechanism that can generalize to an arbitrary number of teammates with a fixed number of parameters. Experiments demonstrate that our method outperforms baseline methods on the StarCraftII micromanagement benchmark and ad-hoc cooperation scenarios.
翻訳日:2022-06-06 13:33:15 公開日:2022-06-02
# データダイエットの宝くじ: スパーストレーニング可能なネットワークで初期化を見つける

Lottery Tickets on a Data Diet: Finding Initializations with Sparse Trainable Networks ( http://arxiv.org/abs/2206.01278v1 )

ライセンス: Link先を確認
Mansheej Paul, Brett W. Larsen, Surya Ganguli, Jonathan Frankle, Gintare Karolina Dziugaite(参考訳) 反復的なマグニチュードプルーニング(IMP; Frankle et al. 2020)に関する顕著な観察によると、$\unicode{x2014}$は、数百ステップの高密度トレーニングの後、$\unicode{x2014}$は、高密度ネットワークと同じ精度でトレーニングできるスパースサブネットワークを見つけることができる。 しかし、ステップ0、すなわちランダム初期化では、同じことが成立しない。 本研究では、この事前学習の初期段階が、データ分布のレンズとロスランドスケープの幾何学の両方を通してIMPの優れた初期化につながるかを理解する。 経験的に、トレーニング済みのイテレーションの数を一定に保ち、(ランダムに選択された)少数のデータでトレーニングし、IMPの等しく良い初期化が得られることを観察する。 トレーニングデータのみを事前トレーニングすることで、完全なデータセットやランダムに選択されたサブセットと比較して、IMPの優れた初期化を見つけるために必要なステップの数を減らすことができる。 最後に,imp性能を予測している高密度ネットワークの損失景観の新たな特性を同定し,特に,高密度ネットワークで線形モードが接続されている例が,impの適切な初期化とよく相関することを示す。 これらの結果を組み合わせることで、IMPの初期段階トレーニングが果たす役割に関する新たな洞察が得られる。

A striking observation about iterative magnitude pruning (IMP; Frankle et al. 2020) is that $\unicode{x2014}$ after just a few hundred steps of dense training $\unicode{x2014}$ the method can find a sparse sub-network that can be trained to the same accuracy as the dense network. However, the same does not hold at step 0, i.e. random initialization. In this work, we seek to understand how this early phase of pre-training leads to a good initialization for IMP both through the lens of the data distribution and the loss landscape geometry. Empirically we observe that, holding the number of pre-training iterations constant, training on a small fraction of (randomly chosen) data suffices to obtain an equally good initialization for IMP. We additionally observe that by pre-training only on "easy" training data, we can decrease the number of steps necessary to find a good initialization for IMP compared to training on the full dataset or a randomly chosen subset. Finally, we identify novel properties of the loss landscape of dense networks that are predictive of IMP performance, showing in particular that more examples being linearly mode connected in the dense network correlates well with good initializations for IMP. Combined, these results provide new insight into the role played by the early phase training in IMP.
翻訳日:2022-06-06 12:47:37 公開日:2022-06-02
# 部分可観測マルコフゲームのサンプル効率強化学習

Sample-Efficient Reinforcement Learning of Partially Observable Markov Games ( http://arxiv.org/abs/2206.01315v1 )

ライセンス: Link先を確認
Qinghua Liu, Csaba Szepesv\'ari, Chi Jin(参考訳) 本稿では,マルチエージェント強化学習(marl)の課題を部分的可観測性の下で検討する。 本稿では,これらの課題を,IEFG(Imperfect Information Extensive-Form Games)の標準モデルよりもはるかに大きいPOMG(Partially Observable Markov Games)の一般モデルの下で研究する。 我々は、サンプル効率の学習が抽出可能なPOMGの豊富なサブクラス、すなわち弱いPOMGを識別する。 自己プレイ設定において, エージェント数が小さい場合の多項式数において, 近似ナッシュ平衡, 相関平衡, 弱相関平衡, および弱相関平衡を求めるには, 楽観性と最大度推定(mle)を組み合わせた単純なアルゴリズムが十分であることを示す。 対戦相手との対戦設定において,我々の楽観的mleアルゴリズムの変種は,最適最大化ポリシーと比較された場合,サブリニアな後悔が得られることを示す。 我々の知る限り、この研究はPOMGを学習するためのサンプル効率の第一線を提供する。

This paper considers the challenging tasks of Multi-Agent Reinforcement Learning (MARL) under partial observability, where each agent only sees her own individual observations and actions that reveal incomplete information about the underlying state of system. This paper studies these tasks under the general model of multiplayer general-sum Partially Observable Markov Games (POMGs), which is significantly larger than the standard model of Imperfect Information Extensive-Form Games (IIEFGs). We identify a rich subclass of POMGs -- weakly revealing POMGs -- in which sample-efficient learning is tractable. In the self-play setting, we prove that a simple algorithm combining optimism and Maximum Likelihood Estimation (MLE) is sufficient to find approximate Nash equilibria, correlated equilibria, as well as coarse correlated equilibria of weakly revealing POMGs, in a polynomial number of samples when the number of agents is small. In the setting of playing against adversarial opponents, we show that a variant of our optimistic MLE algorithm is capable of achieving sublinear regret when being compared against the optimal maximin policies. To our best knowledge, this work provides the first line of sample-efficient results for learning POMGs.
翻訳日:2022-06-06 12:47:09 公開日:2022-06-02
# (参考訳) リプレイ推定によるミニマックス最適オンライン模倣学習

Minimax Optimal Online Imitation Learning via Replay Estimation ( http://arxiv.org/abs/2205.15397v2 )

ライセンス: CC BY-SA 4.0
Gokul Swamy, Nived Rajaraman, Matthew Peng, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu, Jiantao Jiao, Kannan Ramchandran(参考訳) オンラインの模倣学習は、環境や正確なシミュレータへのアクセスを前提として、専門家のデモンストレーションを最もうまく模倣する方法の問題である。 先行研究では、無限サンプルレジームでは、正確なモーメントマッチングがエキスパートポリシーと等価性を達成することが示されている。 しかし、有限サンプルモデルでは、たとえ最適化エラーがなくても、経験的ばらつきは、動作のクローン化に$h^2 / n$、オンラインモーメントマッチングに$h / \sqrt{n}$、ただし$h$は水平であり、$n$はエキスパートデータセットのサイズである。 確率的シミュレータでキャッシュされたエキスパートアクションを繰り返し実行することにより、よりスムーズな専門家訪問分布推定を計算し、この経験的分散を低減させる手法を提案する。 一般関数近似の存在下では、オフライン分類におけるパラメータ推定誤差(すなわち、エキスパートポリシーの学習)に対する我々のアプローチの性能ギャップを低減するメタ定理を証明した。 表の設定や線形関数近似では、我々のメタ定理は、我々のアプローチによって引き起こされた性能ギャップが最適$\widetilde{O} \left(\min({H^{3/2}} / {N}, {H} / {\sqrt{N}} \right)$依存性を達成することを示す。 いくつかの連続的な制御タスクに対して、アプローチの複数のインスタンス化を実装し、さまざまなデータセットサイズでポリシーパフォーマンスを大幅に改善できることに気付きました。

Online imitation learning is the problem of how best to mimic expert demonstrations, given access to the environment or an accurate simulator. Prior work has shown that in the infinite sample regime, exact moment matching achieves value equivalence to the expert policy. However, in the finite sample regime, even if one has no optimization error, empirical variance can lead to a performance gap that scales with $H^2 / N$ for behavioral cloning and $H / \sqrt{N}$ for online moment matching, where $H$ is the horizon and $N$ is the size of the expert dataset. We introduce the technique of replay estimation to reduce this empirical variance: by repeatedly executing cached expert actions in a stochastic simulator, we compute a smoother expert visitation distribution estimate to match. In the presence of general function approximation, we prove a meta theorem reducing the performance gap of our approach to the parameter estimation error for offline classification (i.e. learning the expert policy). In the tabular setting or with linear function approximation, our meta theorem shows that the performance gap incurred by our approach achieves the optimal $\widetilde{O} \left( \min({H^{3/2}} / {N}, {H} / {\sqrt{N}} \right)$ dependency, under significantly weaker assumptions compared to prior work. We implement multiple instantiations of our approach on several continuous control tasks and find that we are able to significantly improve policy performance across a variety of dataset sizes.
翻訳日:2022-06-04 09:57:09 公開日:2022-06-02
# (参考訳) Applied Federated Learning:プライバシ意識設定におけるロバストで効率的な学習のためのアーキテクチャ設計

Applied Federated Learning: Architectural Design for Robust and Efficient Learning in Privacy Aware Settings ( http://arxiv.org/abs/2206.00807v1 )

ライセンス: CC BY 4.0
Branislav Stojkovic, Jonathan Woodbridge, Zhihan Fang, Jerry Cai, Andrey Petrov, Sathya Iyer, Daoyu Huang, Patrick Yau, Arvind Sastha Kumar, Hitesh Jawa, Anamita Guha(参考訳) 古典的な機械学習パラダイムは、機械学習の実践者がデータを前処理し、特徴を計算し、モデルをチューニングし、パフォーマンスを評価する中央の場所で、ユーザーデータの集約を必要とする。 このアプローチの利点は、ハイパフォーマンスハードウェア(gpuなど)と、モデルパフォーマンスを改善するために深層データ分析を行う機械学習実践者の能力を活用することだ。 しかし、これらのアドバンテージはデータプライバシのコストがかかる可能性がある。 ユーザデータは、モデル開発のために集中型サーバに収集、集約、保存される。 データの集中化は、内部および外部のセキュリティインシデントのリスクの増大や、偶発的なデータ誤用などのリスクを引き起こす。 差分プライバシによるフェデレーション学習は、ML学習ステップをユーザのデバイスに導入することにより、サーバ側の集中化落とし穴を回避するように設計されている。 学習は、各モバイルデバイスがモデルのローカルコピー上でトレーニングループを実行するような連合的な方法で行われる。 オンデバイスモデルからの更新は、暗号化された通信とディファレンシャルプライバシを通じてサーバに送信され、グローバルモデルを改善する。 このパラダイムでは、ユーザーの個人データはデバイス上に残される。 驚いたことに、この方法でのモデルトレーニングは、モデルパフォーマンスの低下をかなり最小限にします。 しかしながら、フェデレーション学習には、分散性、異種計算環境、データの可視性の欠如など、他にも多くの課題がある。 本稿では,これらの課題を概説し,メタスケールでのフェデレーション学習を実現するためのアーキテクチャ設計ソリューションについて概説する。

The classical machine learning paradigm requires the aggregation of user data in a central location where machine learning practitioners can preprocess data, calculate features, tune models and evaluate performance. The advantage of this approach includes leveraging high performance hardware (such as GPUs) and the ability of machine learning practitioners to do in depth data analysis to improve model performance. However, these advantages may come at a cost to data privacy. User data is collected, aggregated, and stored on centralized servers for model development. Centralization of data poses risks, including a heightened risk of internal and external security incidents as well as accidental data misuse. Federated learning with differential privacy is designed to avoid the server-side centralization pitfall by bringing the ML learning step to users' devices. Learning is done in a federated manner where each mobile device runs a training loop on a local copy of a model. Updates from on-device models are sent to the server via encrypted communication and through differential privacy to improve the global model. In this paradigm, users' personal data remains on their devices. Surprisingly, model training in this manner comes at a fairly minimal degradation in model performance. However, federated learning comes with many other challenges due to its distributed nature, heterogeneous compute environments and lack of data visibility. This paper explores those challenges and outlines an architectural design solution we are exploring and testing to productionize federated learning at Meta scale.
翻訳日:2022-06-04 02:06:51 公開日:2022-06-02
# (参考訳) オブジェクト分類から美学評価への蒸留知識

Distilling Knowledge from Object Classification to Aesthetics Assessment ( http://arxiv.org/abs/2206.00809v1 )

ライセンス: CC BY 4.0
Jingwen Hou, Henghui Ding, Weisi Lin, Weide Liu, Yuming Fang(参考訳) 本研究は,画像美学評価(IAA)の主要なジレンマが,審美ラベルの抽象的性質に由来することを指摘する。 すなわち、様々な異なる内容が同一の美的ラベルに対応することができる。 一方,推測中,IAAモデルでは,異なる内容と同一の審美ラベルを関連付ける必要がある。 一方,iaaモデルでは,審美ラベルは特定の内容に直接関連しないため,審美ラベルの監督だけで異なる内容を識別することは困難である。 このジレンマに対処するために,複数の事前学習対象分類(POC)モデルから多様な画像内容のセマンティック・パターンの知識をIAAモデルに抽出することを提案する。 複数のpocモデルの組み合わせによって、様々な画像内容に関する十分な知識が得られれば、iaaモデルは、さまざまな異なるコンテンツと限られた数の美的ラベルを関連付ける学習が容易になる。 蒸留知識でエンドツーエンドのシングルバックボーンIAAモデルを監督することにより、ISAモデルの性能はSRCCで4.8%向上した。 画像の特定カテゴリにおいて,提案手法によるsrccの改善は最大7.2%まで達成できる。 また,本手法は従来のIAA法よりも優れていた。

In this work, we point out that the major dilemma of image aesthetics assessment (IAA) comes from the abstract nature of aesthetic labels. That is, a vast variety of distinct contents can correspond to the same aesthetic label. On the one hand, during inference, the IAA model is required to relate various distinct contents to the same aesthetic label. On the other hand, when training, it would be hard for the IAA model to learn to distinguish different contents merely with the supervision from aesthetic labels, since aesthetic labels are not directly related to any specific content. To deal with this dilemma, we propose to distill knowledge on semantic patterns for a vast variety of image contents from multiple pre-trained object classification (POC) models to an IAA model. Expecting the combination of multiple POC models can provide sufficient knowledge on various image contents, the IAA model can easier learn to relate various distinct contents to a limited number of aesthetic labels. By supervising an end-to-end single-backbone IAA model with the distilled knowledge, the performance of the IAA model is significantly improved by 4.8% in SRCC compared to the version trained only with ground-truth aesthetic labels. On specific categories of images, the SRCC improvement brought by the proposed method can achieve up to 7.2%. Peer comparison also shows that our method outperforms 10 previous IAA methods.
翻訳日:2022-06-04 01:59:24 公開日:2022-06-02
# (参考訳) NIPQ:自動DNN最適化のためのノイズ注入擬似量子化

NIPQ: Noise Injection Pseudo Quantization for Automated DNN Optimization ( http://arxiv.org/abs/2206.00820v1 )

ライセンス: CC BY 4.0
Sein Park, Junhyuk So, Juncheol Shin, and Eunhyeok Park(参考訳) 計算コストとメモリフットプリントの観点からのニューラルネットワークの最適化は、エッジデバイスへの実用的な展開に不可欠である。 本研究では,ノイズ注入擬似量子化(nipq)と呼ばれる新しい量子化アウェアトレーニング(qat)方式を提案する。 NIPQは擬似量子化ノイズ(PQN)に基づいて実装されており、いくつかの利点がある。 まず、アクティベーションとウェイトの両方を統一されたフレームワークに基づいて定量化できる。 次に、量子化のハイパーパラメータ(例えば、層状ビット幅と量子化間隔)を自動的にチューニングする。 第3に、QAT以降、ネットワークは量子化に対して堅牢であるため、実際にデプロイするのが簡単になる。 提案アルゴリズムの優位性を検証するため,様々な視覚応用に対して広範囲な解析と多彩な実験を行う。 包括的実験により,提案アルゴリズムの優れた性能をいくつかの点で検証した。

The optimization of neural networks in terms of computation cost and memory footprint is crucial for their practical deployment on edge devices. In this work, we propose a novel quantization-aware training (QAT) scheme called noise injection pseudo quantization (NIPQ). NIPQ is implemented based on pseudo quantization noise (PQN) and has several advantages. First, both activation and weight can be quantized based on a unified framework. Second, the hyper-parameters of quantization (e.g., layer-wise bit-width and quantization interval) are automatically tuned. Third, after QAT, the network has robustness against quantization, thereby making it easier to deploy in practice. To validate the superiority of the proposed algorithm, we provide extensive analysis and conduct diverse experiments for various vision applications. Our comprehensive experiments validate the outstanding performance of the proposed algorithm in several aspects.
翻訳日:2022-06-04 01:28:34 公開日:2022-06-02
# (参考訳) 繰り返し学習率を用いた学習時間と精度の高速ベンチマーク

Fast Benchmarking of Accuracy vs. Training Time with Cyclic Learning Rates ( http://arxiv.org/abs/2206.00832v1 )

ライセンス: CC BY 4.0
Jacob Portes, Davis Blalock, Cory Stephenson, Jonathan Frankle(参考訳) ベンチマーク ニューラルネットワークの精度とトレーニング時間のトレードオフは計算コストが高い。 ここでは,1回のトレーニングでトレードオフ曲線を構築するために,乗法的循環学習率スケジュールをいかに利用できるかを示す。 blurpool,channel last, label smoothing,mixupなどのトレーニング手法の組み合わせに対して,循環的トレードオフ曲線を生成し,これらの循環的トレードオフ曲線を用いてネットワークトレーニング効率に対するアルゴリズム的選択の影響を評価する方法を強調した。

Benchmarking the tradeoff between neural network accuracy and training time is computationally expensive. Here we show how a multiplicative cyclic learning rate schedule can be used to construct a tradeoff curve in a single training run. We generate cyclic tradeoff curves for combinations of training methods such as Blurpool, Channels Last, Label Smoothing and MixUp, and highlight how these cyclic tradeoff curves can be used to evaluate the effects of algorithmic choices on network training efficiency.
翻訳日:2022-06-04 01:04:34 公開日:2022-06-02
# (参考訳) 微分プライベート最適化における定点収束の高速化

Faster Rates of Convergence to Stationary Points in Differentially Private Optimization ( http://arxiv.org/abs/2206.00846v1 )

ライセンス: CC BY 4.0
Raman Arora, Raef Bassily, Tom\'as Gonz\'alez, Crist\'obal Guzm\'an, Michael Menart, Enayat Ullah(参考訳) リプシッツの定常点と滑らかな関数を$(\varepsilon,\delta)$-differential privacy (DP)の下で有限サムと確率の両方で近似する問題について検討する。 点 $\widehat{w}$ は関数 $f:\mathbb{r}^d\rightarrow\mathbb{r}$ if $\|\nabla f(\widehat{w})\|\leq \alpha$ の$\alpha$-stationary point と呼ばれる。 有限サム設定において、$n$ がサンプル数である有限サム設定において、$\tilde{o}\big(\big[\frac{\sqrt{d}}{n\varepsilon}\big]^{2/3}\big)$-定常点を求める新しい効率的なアルゴリズムを提供する。 これは、以前の最高レート$\tilde{o}\big(\big[\frac{\sqrt{d}}{n\varepsilon}\big]^{1/2}\big)$で改善される。 また, 人口リスクの近似定常点を求めることを目的として, 確率的最適化設定における既存レートを改良する新しい構成法を提案する。 我々の構成は、$\tilde{O}\big(\frac{1}{n^{1/3}} + \big[\frac{\sqrt{d}}{n\varepsilon}\big]^{1/2}\big)$-stationary point of the population risk in time linear in $n$である。 さらに、凸性のさらなる仮定の下で、人口リスクの定常点(ポリログ因子まで)を見つけるためのサンプルの複雑さを完全に特徴づけ、人口定常性の最適率は$\tilde \Theta\big(\frac{1}{\sqrt{n}}+\frac{\sqrt{d}}{n\varepsilon}\big)$であることを示す。 最後に, 一般線形モデル (GLM) の集団定常性について, $rank$ が設計行列のランクである場合, $O\big(\frac{1}{\sqrt{n}}+\min\big(\big[\frac{\sqrt{rank}}{n\varepsilon}\big]^{2/3},\frac{1}{(n\varepsilon)^{2/5}}\big)\big)$ であることを示す。

We study the problem of approximating stationary points of Lipschitz and smooth functions under $(\varepsilon,\delta)$-differential privacy (DP) in both the finite-sum and stochastic settings. A point $\widehat{w}$ is called an $\alpha$-stationary point of a function $F:\mathbb{R}^d\rightarrow\mathbb{R}$ if $\|\nabla F(\widehat{w})\|\leq \alpha$. We provide a new efficient algorithm that finds an $\tilde{O}\big(\big[\frac{\sqrt{d}}{n\varepsilon}\big]^{2/3}\big)$-stationary point in the finite-sum setting, where $n$ is the number of samples. This improves on the previous best rate of $\tilde{O}\big(\big[\frac{\sqrt{d}}{n\varepsilon}\big]^{1/2}\big)$. We also give a new construction that improves over the existing rates in the stochastic optimization setting, where the goal is to find approximate stationary points of the population risk. Our construction finds a $\tilde{O}\big(\frac{1}{n^{1/3}} + \big[\frac{\sqrt{d}}{n\varepsilon}\big]^{1/2}\big)$-stationary point of the population risk in time linear in $n$. Furthermore, under the additional assumption of convexity, we completely characterize the sample complexity of finding stationary points of the population risk (up to polylog factors) and show that the optimal rate on population stationarity is $\tilde \Theta\big(\frac{1}{\sqrt{n}}+\frac{\sqrt{d}}{n\varepsilon}\big)$. Finally, we show that our methods can be used to provide dimension-independent rates of $O\big(\frac{1}{\sqrt{n}}+\min\big(\big[\frac{\sqrt{rank}}{n\varepsilon}\big]^{2/3},\frac{1}{(n\varepsilon)^{2/5}}\big)\big)$ on population stationarity for Generalized Linear Models (GLM), where $rank$ is the rank of the design matrix, which improves upon the previous best known rate.
翻訳日:2022-06-04 00:53:33 公開日:2022-06-02
# (参考訳) TSTR: 表現するには短すぎます。詳細を要約してください! 導入ガイド付き拡張要約生成

TSTR: Too Short to Represent, Summarize with Details! Intro-Guided Extended Summary Generation ( http://arxiv.org/abs/2206.00847v1 )

ライセンス: CC BY 4.0
Sajad Sotudeh, Nazli Goharian(参考訳) arxivやpubmed data collectionのような多くの科学論文は、50-1000語の長さと約200語の長さの異なる抽象概念を持ち、より長い抽象概念は、典拠の論文についてより多くの情報を伝える。 近年まで、科学要約研究は、科学要約に使われる既存のデータセットに従って、短く抽象的な要約を生成することに重点を置いてきた。 科学的文書のように、ソーステキストが比較的長い形式である領域では、そのような要約は、一般的で粗い概要を越えて、ソース文書から突出した情報を提供することはできない。 この問題に取り組む最近の関心は、400-600ワードの人間が書いた要約を含む科学データセットarxiv-longとpubmed-longのキュレーションの動機となった。 拡張された要約は、粗い情報以上の詳細を提供しながら、読み出しを高速化する。 本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。 既存の2つの大規模拡張要約データセットの評価は、強いベースラインや最先端と比較して、ルージュと平均ルージュ(F1)スコアの統計的に有意な改善を示している。 包括的な人間評価は、結合性と完全性の観点から、私たちの生成した拡張要約を好む。

Many scientific papers such as those in arXiv and PubMed data collections have abstracts with varying lengths of 50-1000 words and average length of approximately 200 words, where longer abstracts typically convey more information about the source paper. Up to recently, scientific summarization research has typically focused on generating short, abstract-like summaries following the existing datasets used for scientific summarization. In domains where the source text is relatively long-form, such as in scientific documents, such summary is not able to go beyond the general and coarse overview and provide salient information from the source document. The recent interest to tackle this problem motivated curation of scientific datasets, arXiv-Long and PubMed-Long, containing human-written summaries of 400-600 words, hence, providing a venue for research in generating long/extended summaries. Extended summaries facilitate a faster read while providing details beyond coarse information. In this paper, we propose TSTR, an extractive summarizer that utilizes the introductory information of documents as pointers to their salient information. The evaluations on two existing large-scale extended summarization datasets indicate statistically significant improvement in terms of Rouge and average Rouge (F1) scores (except in one case) as compared to strong baselines and state-of-the-art. Comprehensive human evaluations favor our generated extended summaries in terms of cohesion and completeness.
翻訳日:2022-06-04 00:51:53 公開日:2022-06-02
# (参考訳) mentsum: メンタルヘルスオンライン投稿の要約を探るためのリソース

MentSum: A Resource for Exploring Summarization of Mental Health Online Posts ( http://arxiv.org/abs/2206.00856v1 )

ライセンス: CC BY 4.0
Sajad Sotudeh, Nazli Goharian, Zachary Young(参考訳) メンタルヘルスは世界中の公衆衛生にとって重要な課題である。 オンラインプラットフォームの人気が高まる中、多くの人はプラットフォームを使ってメンタルヘルスの状況を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求める。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなどでは、ユーザーが匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。 ポストの長さは異なるが、カウンセラーによる高速処理のための短いが情報的な要約を提供することは有益である。 メンタルヘルスのオンライン投稿を要約する研究を容易にするために、メンサム(mentsum)というメンタルヘルス要約データセットを導入し、redditから24万以上のユーザー投稿を注意深く選択し、その短いユーザー記述要約(tldrと呼ばれる)を43のメンタルヘルスサブredditから英語で導入した。 このドメイン固有のデータセットは、redditで短い要約を生成するだけでなく、リーチアウトのような専用のメンタルヘルスフォーラムで投稿の要約を生成することにも興味がある。 さらに,抽出的および抽象的要約ベースラインをルージュスコアの観点で評価し,最後に,ユーザ記述要約とシステム生成要約の両方について詳細な人的評価を行い,本研究の課題を浮き彫りにした。

Mental health remains a significant challenge of public health worldwide. With increasing popularity of online platforms, many use the platforms to share their mental health conditions, express their feelings, and seek help from the community and counselors. Some of these platforms, such as Reachout, are dedicated forums where the users register to seek help. Others such as Reddit provide subreddits where the users publicly but anonymously post their mental health distress. Although posts are of varying length, it is beneficial to provide a short, but informative summary for fast processing by the counselors. To facilitate research in summarization of mental health online posts, we introduce Mental Health Summarization dataset, MentSum, containing over 24k carefully selected user posts from Reddit, along with their short user-written summary (called TLDR) in English from 43 mental health subreddits. This domain-specific dataset could be of interest not only for generating short summaries on Reddit, but also for generating summaries of posts on the dedicated mental health forums such as Reachout. We further evaluate both extractive and abstractive state-of-the-art summarization baselines in terms of Rouge scores, and finally conduct an in-depth human evaluation study of both user-written and system-generated summaries, highlighting challenges in this research.
翻訳日:2022-06-04 00:35:41 公開日:2022-06-02
# (参考訳) 拡大ライセンスプレート認識のための異方性生成ネットワークと統一データセット

Disentangled Generation Network for Enlarged License Plate Recognition and A Unified Dataset ( http://arxiv.org/abs/2206.00859v1 )

ライセンス: CC BY 4.0
Chenglong Li, Xiaobin Yang, Guohao Wang, Aihua Zheng, Chang Tan, Ruoran Jia, and Jin Tang(参考訳) ライセンスプレートの認識は多くの実用化において重要な役割を担っているが、大型車両のライセンスプレートは、低分解能、汚染、低照度、閉塞などの要因により認識が困難である。 上記の要因を克服するため、運送管理部門は一般的に車両後部に拡大したナンバープレートを導入する。 しかし、拡大されたライセンスプレートは、位置、サイズ、スタイルが非標準であるため、多様性が高い。 さらに、背景領域には、ナンバープレート文字の認識を著しく乱す様々なノイズ情報が含まれている。 現存する研究は、この困難な問題を研究していない。 本研究では,まず,拡大したライセンスプレート認識問題に対処し,9342枚の画像を含むデータセットを作成し,実際のシーンの課題のほとんどをカバーする。 しかし、作成したデータでは、ライセンスプレートを広く認識する深い方法の訓練にはまだ不十分であり、大規模なトレーニングデータの構築は非常に時間がかかり、高い労働コストがかかる。 そこで本研究では,テキスト生成と背景生成をエンドツーエンドに切り離し,多様性と整合性を効果的に確保し,堅牢な拡張ライセンスプレート認識を実現するための,DGNet(Disentangled Generation Network)に基づくタスクレベル・アンタングル生成フレームワークを提案する。 作成したデータセットに対する大規模な実験を行い,提案手法の有効性を3つの代表的なテキスト認識フレームワークで示す。

License plate recognition plays a critical role in many practical applications, but license plates of large vehicles are difficult to be recognized due to the factors of low resolution, contamination, low illumination, and occlusion, to name a few. To overcome the above factors, the transportation management department generally introduces the enlarged license plate behind the rear of a vehicle. However, enlarged license plates have high diversity as they are non-standard in position, size, and style. Furthermore, the background regions contain a variety of noisy information which greatly disturbs the recognition of license plate characters. Existing works have not studied this challenging problem. In this work, we first address the enlarged license plate recognition problem and contribute a dataset containing 9342 images, which cover most of the challenges of real scenes. However, the created data are still insufficient to train deep methods of enlarged license plate recognition, and building large-scale training data is very time-consuming and high labor cost. To handle this problem, we propose a novel task-level disentanglement generation framework based on the Disentangled Generation Network (DGNet), which disentangles the generation into the text generation and background generation in an end-to-end manner to effectively ensure diversity and integrity, for robust enlarged license plate recognition. Extensive experiments on the created dataset are conducted, and we demonstrate the effectiveness of the proposed approach in three representative text recognition frameworks.
翻訳日:2022-06-04 00:15:45 公開日:2022-06-02
# (参考訳) Fokker-Planck方程式の自己整合性

Self-Consistency of the Fokker-Planck Equation ( http://arxiv.org/abs/2206.00860v1 )

ライセンス: CC BY 4.0
Zebang Shen, Zhenfu Wang, Satyen Kale, Alejandro Ribeiro, Aim Karbasi, Hamed Hassani(参考訳) フォッカー・プランク方程式 (Fokker-Planck equation, FPE) は、It\^o 過程の密度進化を制御した偏微分方程式であり、統計物理学や機械学習の文献において非常に重要である。 FPEは、時間変化速度場によって密度の変化が完全に決定される連続性方程式とみなすことができる。 重要なことに、この速度場は電流密度関数にも依存する。 その結果、接地速度場は、我々が自己矛盾と呼ぶ性質である固定点方程式の解であることが示される。 本稿では,この概念を応用して仮説速度場のポテンシャル関数を設計し,その関数が訓練中にゼロに減少すると,仮説速度場が生成する密度の軌跡がwasserstein-2感覚でfpeの解に収束することを示す。 提案するポテンシャル関数は、パラメータに対する確率勾配を効率的に計算できるため、ニューラルネットワークに基づくパラメータ化に適応できる。 ニューラル正規微分方程式のようなパラメータ化モデルが訓練されると、FPEへの全軌道を生成することができる。

The Fokker-Planck equation (FPE) is the partial differential equation that governs the density evolution of the It\^o process and is of great importance to the literature of statistical physics and machine learning. The FPE can be regarded as a continuity equation where the change of the density is completely determined by a time varying velocity field. Importantly, this velocity field also depends on the current density function. As a result, the ground-truth velocity field can be shown to be the solution of a fixed-point equation, a property that we call self-consistency. In this paper, we exploit this concept to design a potential function of the hypothesis velocity fields, and prove that, if such a function diminishes to zero during the training procedure, the trajectory of the densities generated by the hypothesis velocity fields converges to the solution of the FPE in the Wasserstein-2 sense. The proposed potential function is amenable to neural-network based parameterization as the stochastic gradient with respect to the parameter can be efficiently computed. Once a parameterized model, such as Neural Ordinary Differential Equation is trained, we can generate the entire trajectory to the FPE.
翻訳日:2022-06-03 23:56:21 公開日:2022-06-02
# (参考訳) efficientnerf:効率的な神経放射場

EfficientNeRF: Efficient Neural Radiance Fields ( http://arxiv.org/abs/2206.00878v1 )

ライセンス: CC BY 4.0
Tao Hu, Shu Liu, Yilun Chen, Tiancheng Shen, Jiaya Jia(参考訳) ニューラル・ラミアンス・フィールド(nerf)は、3dシーンの高画質表現のために様々なタスクに多用されている。 シーン毎のトレーニング時間とイメージ毎のテスト時間が必要です。 本稿では,3Dシーンを表現し,新しい映像を合成するために,効率の良いNeRF法としてEfficientNeRFを提案する。 トレーニングやテストのプロセスを加速するいくつかの方法が存在するが、両方のフェーズを同時に行う時間を減らすことは依然として困難である。 サンプル点の密度分布と重量分布を解析し, 粗い点と細い点における有効およびピボットサンプリングを提案し, サンプリング効率を著しく向上させる。 さらに,レンダリング速度を高速化するため,テスト中にシーン全体をキャッシュする新しいデータ構造を設計する。 全体として,本手法は,88%以上のトレーニング時間を短縮し,200FPS以上のレンダリング速度を達成できるが,競争精度は高い。 実験により,本手法は実世界におけるNeRFの実用性を促進し,多くの応用が可能であることを証明した。

Neural Radiance Fields (NeRF) has been wildly applied to various tasks for its high-quality representation of 3D scenes. It takes long per-scene training time and per-image testing time. In this paper, we present EfficientNeRF as an efficient NeRF-based method to represent 3D scene and synthesize novel-view images. Although several ways exist to accelerate the training or testing process, it is still difficult to much reduce time for both phases simultaneously. We analyze the density and weight distribution of the sampled points then propose valid and pivotal sampling at the coarse and fine stage, respectively, to significantly improve sampling efficiency. In addition, we design a novel data structure to cache the whole scene during testing to accelerate the rendering speed. Overall, our method can reduce over 88\% of training time, reach rendering speed of over 200 FPS, while still achieving competitive accuracy. Experiments prove that our method promotes the practicality of NeRF in the real world and enables many applications.
翻訳日:2022-06-03 23:27:06 公開日:2022-06-02
# (参考訳) Isoperimetry 下のサンプリングアルゴリズムによるフェデレーション学習

Federated Learning with a Sampling Algorithm under Isoperimetry ( http://arxiv.org/abs/2206.00920v1 )

ライセンス: CC BY 4.0
Lukang Sun, Adil Salim, Peter Richt\'arik(参考訳) フェデレーション学習は、トレーニングデータを所有している複数のデバイスに機械学習アルゴリズムのトレーニングを効率的に分散するために、一連のテクニックを使用する。 これらのテクニックは、デバイスと中央サーバ間の通信コスト - 主なボトルネック -- を削減することに依存している。 フェデレーション学習アルゴリズムは通常、コミュニケーション(および他の)制約によるトレーニング損失を最小限にするためのアルゴリズムである。 そこで本研究では,学習課題に対してベイズ的アプローチを採り入れ,Langevinアルゴリズムの通信効率のよい変種を提案する。 後者のアプローチはより強固で、最適化よりも \textit{a posteriori} 分布に関する知識を提供する。 対象の分布が強く対数凹であると考えることなく,アルゴリズムを解析する。 代わりに、非凸性を可能にするより弱い対数ソボレフ不等式を仮定する。

Federated learning uses a set of techniques to efficiently distribute the training of a machine learning algorithm across several devices, who own the training data. These techniques critically rely on reducing the communication cost -- the main bottleneck -- between the devices and a central server. Federated learning algorithms usually take an optimization approach: they are algorithms for minimizing the training loss subject to communication (and other) constraints. In this work, we instead take a Bayesian approach for the training task, and propose a communication-efficient variant of the Langevin algorithm to sample a posteriori. The latter approach is more robust and provides more knowledge of the \textit{a posteriori} distribution than its optimization counterpart. We analyze our algorithm without assuming that the target distribution is strongly log-concave. Instead, we assume the weaker log Sobolev inequality, which allows for nonconvexity.
翻訳日:2022-06-03 23:12:18 公開日:2022-06-02
# (参考訳) NeuralSympCheck: 論理正規化を用いた症状チェックと疾患診断ニューラルモデル

NeuralSympCheck: A Symptom Checking and Disease Diagnostic Neural Model with Logic Regularization ( http://arxiv.org/abs/2206.00906v1 )

ライセンス: CC BY 4.0
Aleksandr Nesterov, Bulat Ibragimov, Dmitriy Umerenkov, Artem Shelmanov, Galina Zubkova and Vladimir Kokh(参考訳) 症状検査システムは,患者に症状を診察し,症状の迅速かつ手頃な医療評価を行う。 ベイズ法、決定木、情報ゲイン法に基づく基本的な症状チェックシステムは、訓練が容易であり、重要な計算資源を必要としない。 しかし、その欠点は、提案された症状の関連性が低く、診断の質が不十分である。 これらのタスクの最良の結果は強化学習モデルによって達成される。 それらの弱点は、そのようなシステムの開発と訓練の難しさと、大きくてまばらな決定空間を持つ場合に限定的な適用性である。 本稿では,神経モデルの教師付き学習と,異なる手法の利点を組み合わせた論理正規化に基づく新しいアプローチを提案する。 実データおよび合成データを用いた実験により,本手法は,診断回数や症状が大きい場合の診断精度において,既存の手法よりも優れていることが示された。

The symptom checking systems inquire users for their symptoms and perform a rapid and affordable medical assessment of their condition. The basic symptom checking systems based on Bayesian methods, decision trees, or information gain methods are easy to train and do not require significant computational resources. However, their drawbacks are low relevance of proposed symptoms and insufficient quality of diagnostics. The best results on these tasks are achieved by reinforcement learning models. Their weaknesses are the difficulty of developing and training such systems and limited applicability to cases with large and sparse decision spaces. We propose a new approach based on the supervised learning of neural models with logic regularization that combines the advantages of the different methods. Our experiments on real and synthetic data show that the proposed approach outperforms the best existing methods in the accuracy of diagnosis when the number of diagnoses and symptoms is large.
翻訳日:2022-06-03 22:21:16 公開日:2022-06-02
# (参考訳) ボスニア・ヘルツェゴビナ、クロアチア、セルビアの議会討論会のパラジェントbcsデータセット

The ParlaSent-BCS dataset of sentiment-annotated parliamentary debates from Bosnia-Herzegovina, Croatia, and Serbia ( http://arxiv.org/abs/2206.00929v1 )

ライセンス: CC BY-SA 4.0
Michal Mochtak, Peter Rupnik, Nikola Ljube\v{s}i\v{c}(参考訳) 議会の議論における感情表現は、ソーシャルメディアや製品レビューとは大きく異なると考えられている。 本稿では,政治談話における感情の極性を検出するためにアノテートされた文のデータセットを用いて,議会討論に関する新たな研究を付け加える。 我々は、クロアチア、ボスニア・ヘルツェゴビナ、セルビアの3つの南東ヨーロッパの議会の手続きから、アノテーションの文をサンプリングした。 議事録における感情の検出のための分類モデルの訓練を目的とした6段階のスキーマをデータに適用する。 アノテーション間の合意を測るクリッペンドルフのアルファは6レベルのアノテーションスキーマの0.6から3レベルのスキーマの0.75、そして2レベルのスキーマの0.83まで様々である。 データセットの初期実験では、トランスフォーマーモデルの方がより単純なアーキテクチャを使用するモデルよりもはるかに優れた性能を示している。 さらに,これら3つの言語の類似性にかかわらず,異なる言語間の性能の違いを観察する。 議会固有の訓練と評価を実行することは、議会間での異なるパフォーマンスの主な理由は、アノテータのパフォーマンスでは観察できない自動分類タスクの複雑さであると考えられる。 言語距離は、アノテータでも自動分類性能でも役に立たないように見える。 パーミッシブライセンスの下でデータセットと最高のパフォーマンスモデルをリリースする。

Expression of sentiment in parliamentary debates is deemed to be significantly different from that on social media or in product reviews. This paper adds to an emerging body of research on parliamentary debates with a dataset of sentences annotated for detection sentiment polarity in political discourse. We sample the sentences for annotation from the proceedings of three Southeast European parliaments: Croatia, Bosnia-Herzegovina, and Serbia. A six-level schema is applied to the data with the aim of training a classification model for the detection of sentiment in parliamentary proceedings. Krippendorff's alpha measuring the inter-annotator agreement ranges from 0.6 for the six-level annotation schema to 0.75 for the three-level schema and 0.83 for the two-level schema. Our initial experiments on the dataset show that transformer models perform significantly better than those using a simpler architecture. Furthermore, regardless of the similarity of the three languages, we observe differences in performance across different languages. Performing parliament-specific training and evaluation shows that the main reason for the differing performance between parliaments seems to be the different complexity of the automatic classification task, which is not observable in annotator performance. Language distance does not seem to play any role neither in annotator nor in automatic classification performance. We release the dataset and the best-performing model under permissive licences.
翻訳日:2022-06-03 18:02:37 公開日:2022-06-02
# (参考訳) ディープニューラルネットワークは高次元、雑音、非線形逆問題を安定して解くことができる

Deep neural networks can stably solve high-dimensional, noisy, non-linear inverse problems ( http://arxiv.org/abs/2206.00934v1 )

ライセンス: CC BY 4.0
Andr\'es Felipe Lerma Pineda and Philipp Christian Petersen(参考訳) 本研究では,ノイズデータのみを利用可能とするニューラルネットワークを用いた逆問題の解を再構成する問題について検討する。 問題は連続可逆でない無限次元のフォワード作用素でモデル化できると仮定する。 そして、このフォワード作用素を有限次元空間に制限し、逆はリプシッツ連続である。 逆作用素に対しては、関数のロバスト-ノイズ近似であるニューラルネットワークが存在することを実証する。 また,これらのニューラルネットワークは,適切な摂動訓練データから学習できることを示す。 我々は,このアプローチが実用的関心の幅広い逆問題に対して許容できることを示す。 理論的発見を支持する数値的な例が与えられる。

We study the problem of reconstructing solutions of inverse problems with neural networks when only noisy data is available. We assume the problem can be modeled with an infinite-dimensional forward operator that is not continuously invertible. Then, we restrict this forward operator to finite-dimensional spaces so that the inverse is Lipschitz continuous. For the inverse operator, we demonstrate that there exists a neural network which is a robust-to-noise approximation of the function. In addition, we show that these neural networks can be learned from appropriately perturbed training data. We demonstrate the admissibility of this approach to a wide range of inverse problems of practical interest. Numerical examples are given that support the theoretical findings.
翻訳日:2022-06-03 17:49:02 公開日:2022-06-02
# (参考訳) FV-upatches:指静脈認識における普遍性向上

FV-UPatches: Enhancing Universality in Finger Vein Recognition ( http://arxiv.org/abs/2206.01061v1 )

ライセンス: CC BY 4.0
Ziyan Chen, Jiazhen Liu, Changwen Cao, Changlong Jin and Hakil Kim(参考訳) 近年,多くの深層学習モデルが指静脈認識に導入されている。 しかし、これらのソリューションはデータ依存に苦しめられ、モデル一般化を達成するのが困難である。 この問題に対処するために,我々はドメイン適応の考え方に触発され,限られたデータでトレーニングしながら一般化を実現するユニバーサルラーニングベースのフレームワークを提案する。 データ分布の違いを低減するため、圧縮されたU-Netをドメインマッパーとして導入し、関心画像の生領域を対象領域にマッピングする。 集中対象ドメインは、局所ディスクリプタモデルsosnetを使用して、マッチングペアの類似度を測定するディスクリプタにパッチを埋め込む、後のマッチングのための統一的な機能空間である。 提案するフレームワークでは、ドメインマッパーは特定の抽出関数に近似するので、トレーニングは限られたデータで一度の努力に過ぎません。 さらに、ローカルディスクリプタモデルは、非フィンガーベイン画像の公開データセットに基づいて十分に代表されるように訓練することができる。 パイプライン全体を通じてフレームワークを十分に一般化し、普遍性を高め、データ収集、チューニング、再トレーニングのコストを削減するのに役立つ。 5つの公開データセットにおける最先端(SOTA)のパフォーマンスに匹敵する実験結果から,提案フレームワークの有効性が証明された。 さらに、他の静脈ベースの生体認証にも応用可能性を示す。

Many deep learning-based models have been introduced in finger vein recognition in recent years. These solutions, however, suffer from data dependency and are difficult to achieve model generalization. To address this problem, we are inspired by the idea of domain adaptation and propose a universal learning-based framework, which achieves generalization while training with limited data. To reduce differences between data distributions, a compressed U-Net is introduced as a domain mapper to map the raw region of interest image onto a target domain. The concentrated target domain is a unified feature space for the subsequent matching, in which a local descriptor model SOSNet is employed to embed patches into descriptors measuring the similarity of matching pairs. In the proposed framework, the domain mapper is an approximation to a specific extraction function thus the training is only a one-time effort with limited data. Moreover, the local descriptor model can be trained to be representative enough based on a public dataset of non-finger-vein images. The whole pipeline enables the framework to be well generalized, making it possible to enhance universality and helps to reduce costs of data collection, tuning and retraining. The comparable experimental results to state-of-the-art (SOTA) performance in five public datasets prove the effectiveness of the proposed framework. Furthermore, the framework shows application potential in other vein-based biometric recognition as well.
翻訳日:2022-06-03 17:48:03 公開日:2022-06-02
# (参考訳) 実用的対向多価等角予測

Practical Adversarial Multivalid Conformal Prediction ( http://arxiv.org/abs/2206.01067v1 )

ライセンス: CC BY 4.0
Osbert Bastani, Varun Gupta, Christopher Jung, Georgy Noarov, Ramya Ramalingam, Aaron Roth(参考訳) そこで本研究では,逐次予測のための簡便で汎用的な共形予測手法を提案する。 これは計算量的に軽量であり(分割された共形予測に匹敵する)、保持された検証セットを必要としないため、すべてのデータが共形スコアを導出するモデルのトレーニングに使用できる。 それは2つの点で限界範囲のカバレッジ保証よりも強い。 まず、コンフォメーションスコアから予測セットを形成するのに使用されるしきい値に対して、適切な経験的カバレッジを持つしきい値校正予測セットを与える。 第二に、ユーザは機能空間の任意のサブセット(おそらくは交差する)のコレクションを指定でき、カバレッジ保証はこれらのサブセットのメンバシップの条件も保持する。 アルゴリズムMVPは、MultiValid Predictionの略です。 我々は理論と広範な経験的評価のセットを与える。

We give a simple, generic conformal prediction method for sequential prediction that achieves target empirical coverage guarantees against adversarially chosen data. It is computationally lightweight -- comparable to split conformal prediction -- but does not require having a held-out validation set, and so all data can be used for training models from which to derive a conformal score. It gives stronger than marginal coverage guarantees in two ways. First, it gives threshold calibrated prediction sets that have correct empirical coverage even conditional on the threshold used to form the prediction set from the conformal score. Second, the user can specify an arbitrary collection of subsets of the feature space -- possibly intersecting -- and the coverage guarantees also hold conditional on membership in each of these subsets. We call our algorithm MVP, short for MultiValid Prediction. We give both theory and an extensive set of empirical evaluations.
翻訳日:2022-06-03 17:34:08 公開日:2022-06-02
# (参考訳) 部分観測型強化学習のためのDeep Transformer Q-Networks

Deep Transformer Q-Networks for Partially Observable Reinforcement Learning ( http://arxiv.org/abs/2206.01078v1 )

ライセンス: CC BY 4.0
Kevin Esslinger, Robert Platt, Christopher Amato(参考訳) 実世界の強化学習タスクは、観測結果が世界の真の状態の部分的あるいは騒々しい見方しか与えない部分的な可観測性を含むことが多い。 このようなタスクは一般的に、エージェントが複数の過去の観測にアクセスできるような何らかのメモリを必要とする。 メモリを組み込む一般的な方法は、エージェントの履歴にアクセスするためにリカレントニューラルネットワークを使用することである。 しかし、強化学習における繰り返し発生するニューラルネットワークは、しばしば脆弱で訓練が難しく、破滅的な忘れがちであり、結果として完全に失敗することがある。 本研究では,トランスフォーマーとセルフアテンションを利用してエージェントの履歴をエンコードする新しいアーキテクチャであるdeep transformer q-networks (dtqn)を提案する。 DTQNはモジュール的に設計されており、その結果をベースモデルに対するいくつかの変更と比較する。 本実験は,従来の再帰的手法よりも高速かつ安定に部分的に観測可能なタスクを解くことができることを示す。

Real-world reinforcement learning tasks often involve some form of partial observability where the observations only give a partial or noisy view of the true state of the world. Such tasks typically require some form of memory, where the agent has access to multiple past observations, in order to perform well. One popular way to incorporate memory is by using a recurrent neural network to access the agent's history. However, recurrent neural networks in reinforcement learning are often fragile and difficult to train, susceptible to catastrophic forgetting and sometimes fail completely as a result. In this work, we propose Deep Transformer Q-Networks (DTQN), a novel architecture utilizing transformers and self-attention to encode an agent's history. DTQN is designed modularly, and we compare results against several modifications to our base model. Our experiments demonstrate the transformer can solve partially observable tasks faster and more stably than previous recurrent approaches.
翻訳日:2022-06-03 17:33:02 公開日:2022-06-02
# (参考訳) 深部特徴抽出とアンサンブル学習を用いた機械学習による肺・大腸癌の検出

Machine Learning-based Lung and Colon Cancer Detection using Deep Feature Extraction and Ensemble Learning ( http://arxiv.org/abs/2206.01088v1 )

ライセンス: CC BY 4.0
Md. Alamin Talukder, Md. Manowarul Islam, Md Ashraf Uddin, Arnisha Akhter, Khondokar Fida Hasan, Mohammad Ali Moni(参考訳) がんは遺伝病と様々な生化学的異常の組み合わせによって引き起こされる致命的な疾患である。 肺癌と大腸癌は、ヒトの死因と障害の主な2つとして現れている。 このような悪性腫瘍の病理組織学的検出は、通常、最善の行動経路を決定する上で最も重要な要素である。 両側の疾患の早期発見は死亡率を著しく低下させる。 機械学習とディープラーニングの技術は、がん検出のスピードアップに役立ち、研究者は膨大な数の患者を短時間で、かつ低コストで研究することができる。 本研究では,肺がんと大腸癌を効率よく同定するハイブリッドアンサンブル特徴抽出モデルを提案する。 深い特徴抽出とアンサンブル学習と、がん画像データセットのための高性能なフィルタリングを統合する。 本モデルは病理組織学的(lc25000)肺および結腸データセット上で評価される。 研究によると、このハイブリッドモデルは、それぞれ99.05%、100%、99.30%の精度で、肺がん、結腸がん、(肺がん、大腸がん)癌を検出することができる。 本研究は,提案手法が既存モデルより有意に優れていることを示す。 したがって、これらのモデルはがんの診断において医師を支援するために診療所に適用することができる。

Cancer is a fatal disease caused by a combination of genetic diseases and a variety of biochemical abnormalities. Lung and colon cancer have emerged as two of the leading causes of death and disability in humans. The histopathological detection of such malignancies is usually the most important component in determining the best course of action. Early detection of the ailment on either front considerably decreases the likelihood of mortality. Machine learning and deep learning techniques can be utilized to speed up such cancer detection, allowing researchers to study a large number of patients in a much shorter amount of time and at a lower cost. In this research work, we introduced a hybrid ensemble feature extraction model to efficiently identify lung and colon cancer. It integrates deep feature extraction and ensemble learning with high-performance filtering for cancer image datasets. The model is evaluated on histopathological (LC25000) lung and colon datasets. According to the study findings, our hybrid model can detect lung, colon, and (lung and colon) cancer with accuracy rates of 99.05%, 100%, and 99.30%, respectively. The study's findings show that our proposed strategy outperforms existing models significantly. Thus, these models could be applicable in clinics to support the doctor in the diagnosis of cancers.
翻訳日:2022-06-03 17:13:33 公開日:2022-06-02
# (参考訳) 機械学習とエージェントベースモデリングを組み合わせるバイオメディカルシステムの研究

Combining Machine Learning and Agent-Based Modeling to Study Biomedical Systems ( http://arxiv.org/abs/2206.01092v1 )

ライセンス: CC BY 4.0
Nikita Sivakumar, Cameron Mura, Shayn M. Peirce(参考訳) エージェントベースモデリング(abm)は、構成要素間の相互作用を通じて複雑なシステムをシミュレートするための確立されたパラダイムである。 機械学習(機械学習、ML)は、統計アルゴリズムがシステム行動の事前理論を課すことなく、独自のデータから「学習」する手法を指す。 生物系(分子、細胞、生物全体)は、多数の実体から構成され、多くの時空間スケールにまたがる複雑な相互作用の網によって支配され、非線型性、確率性、実体間の複雑な結合を示す。 このような系の巨視的性質と集団動力学は連続体モデリングと平均場形式論によって捉えるのが困難である。 abmは、システム内の個々のエンティティ(エージェント)に適用される、明確に定義された一連の「ルール」を簡単に提案し、テストできるようにすることで、これらの困難を緩和する「ボトムアップ」アプローチを取る。 システムを評価し、離散時間ステップ上でその状態を伝達することで、システムを効果的にシミュレートし、可観測性を計算し、システム特性を分析することができる。 ABMを統治するルールは、実験データから抽象化や定式化が難しいため、MLを使用して最適なシステム固有のABMルールを推測する機会がある。 このようなルールセットが考案されると、AMM計算は豊富なデータを生成することができ、例えばMLはシステムの確率的性質を有意義に記述する統計測度を探索するためにも応用できる。 他の方向(ABMからMLまで)のシナジーの例として、ABMシミュレーションはMLアルゴリズムを訓練するための現実的なデータセットを生成することができる(正規化など)。 このような方法では、様々な相乗的 ABM$\rightleftharpoons$ML ループを想像できる。 本総説では, ABM と ML が細胞内から集団レベルの疫学まで空間スケールにどのように統合されているのかを概説する。

Agent-based modeling (ABM) is a well-established paradigm for simulating complex systems via interactions between constituent entities. Machine learning (ML) refers to approaches whereby statistical algorithms 'learn' from data on their own, without imposing a priori theories of system behavior. Biological systems -- from molecules, to cells, to entire organisms -- consist of vast numbers of entities, governed by complex webs of interactions that span many spatiotemporal scales and exhibit nonlinearity, stochasticity and intricate coupling between entities. The macroscopic properties and collective dynamics of such systems are difficult to capture via continuum modelling and mean-field formalisms. ABM takes a 'bottom-up' approach that obviates these difficulties by enabling one to easily propose and test a set of well-defined 'rules' to be applied to the individual entities (agents) in a system. Evaluating a system and propagating its state over discrete time-steps effectively simulates the system, allowing observables to be computed and system properties to be analyzed. Because the rules that govern an ABM can be difficult to abstract and formulate from experimental data, there is an opportunity to use ML to help infer optimal, system-specific ABM rules. Once such rule-sets are devised, ABM calculations can generate a wealth of data, and ML can be applied there too -- e.g., to probe statistical measures that meaningfully describe a system's stochastic properties. As an example of synergy in the other direction (from ABM to ML), ABM simulations can generate realistic datasets for training ML algorithms (e.g., for regularization, to mitigate overfitting). In these ways, one can envision various synergistic ABM$\rightleftharpoons$ML loops. This review summarizes how ABM and ML have been integrated in contexts that span spatial scales from the cellular to population-level scale epidemiology.
翻訳日:2022-06-03 17:12:28 公開日:2022-06-02
# (参考訳) DTCWT-SVDによるフレームレート変換に耐性のあるビデオ透かし

A DTCWT-SVD Based Video Watermarking resistant to frame rate conversion ( http://arxiv.org/abs/2206.01094v1 )

ライセンス: CC BY 4.0
Yifei Wang, Qichao Ying, Zhenxing Qian, Sheng Li and Xinpeng Zhang(参考訳) ビデオは、違法かつ金銭的使用のために、攻撃者によって簡単に改ざんされ、コピーされ、再配布される。 このような行動はコンテンツ所有者の興味を著しく損なう。 著作権保護のためのデジタルビデオ透かしにおける大きな取り組みにもかかわらず、信号攻撃、幾何学的攻撃、時間同期攻撃を含むビデオ伝送の典型的な歪みは、組込み信号を簡単に消去することができる。 中でも、フレームドロップ、フレーム挿入、フレームレート変換を含む時間同期攻撃が最も多い攻撃の1つである。 本稿では,フレームレート変換に耐性のあるDual-Tree Cosine Wavelet Transformation (DTCWT) とSingular Value Decomposition (SVD) を併用した新しいビデオ透かしを提案する。 まず, dtcwt変換後のsvd分解を適用することで, 候補係数の組を抽出する。 次に,候補係数の形状を調整することで,透かしの埋め込みをシミュレートする。 最後に、時間的非同期攻撃に対する中程度の時間的冗長性を含むグループレベルの透かしを行う。 広範な実験結果から,提案手法は時間的非同期攻撃に対する耐性が高く,既存のブラインドビデオ透かし方式よりも優れた性能を示す。

Videos can be easily tampered, copied and redistributed by attackers for illegal and monetary usage. Such behaviors severely jeopardize the interest of content owners. Despite huge efforts made in digital video watermarking for copyright protection, typical distortions in video transmission including signal attacks, geometric attacks and temporal synchronization attacks can still easily erase the embedded signal. Among them, temporal synchronization attacks which include frame dropping, frame insertion and frame rate conversion is one of the most prevalent attacks. To address this issue, we present a new video watermarking based on joint Dual-Tree Cosine Wavelet Transformation (DTCWT) and Singular Value Decomposition (SVD), which is resistant to frame rate conversion. We first extract a set of candidate coefficient by applying SVD decomposition after DTCWT transform. Then, we simulate the watermark embedding by adjusting the shape of candidate coefficient. Finally, we perform group-level watermarking that includes moderate temporal redundancy to resist temporal desynchronization attacks. Extensive experimental results show that the proposed scheme is more resilient to temporal desynchronization attacks and performs better than the existing blind video watermarking schemes.
翻訳日:2022-06-03 17:11:04 公開日:2022-06-02
# (参考訳) クリーンラベルバックドア攻撃に対する時間的クロミナンストリガーによる反スプーフ再ブロードキャスト検出

A temporal chrominance trigger for clean-label backdoor attack against anti-spoof rebroadcast detection ( http://arxiv.org/abs/2206.01102v1 )

ライセンス: CC BY 4.0
Wei Guo, Benedetta Tondi, Mauro Barni(参考訳) 本稿では,ディープラーニング(DL)ベースのモデルに対するステルスなクリーンラベルビデオバックドアアタックを提案し,ビデオ再放送アタック(rebroadcast attack)という,特定の種類のスプーフィングアタックを検出する。 注入されたバックドアは、正常な状態におけるスプーフィング検出には影響しないが、特定のトリガー信号が存在する場合に誤分類を引き起こす。 提案したバックドアは、ビデオシーケンスの平均色調を変化させる時間的トリガーに依存している。 バックドア信号は、トリガーの視認性を低減するために人間の視覚系(hvs)の特異性を考慮して設計され、バックドアのステルス性が増大する。 難易度の高いクリーンラベルのシナリオでは,ネットワークにトリガーの存在を強制的に確認するために,いわゆるOPS(Outlier Poisoning Strategy)に従って,バックドアの注入に使用される有毒なサンプルを選択する。 opsによると、トリガ信号はトレーニングサンプルに挿入され、ネットワークの分類がより困難になる。 提案したバックドア攻撃の有効性と一般性は、異なるデータセットと反スポーフィング再ブロードキャスト検出アーキテクチャで実験的に検証される。

We propose a stealthy clean-label video backdoor attack against Deep Learning (DL)-based models aiming at detecting a particular class of spoofing attacks, namely video rebroadcast attacks. The injected backdoor does not affect spoofing detection in normal conditions, but induces a misclassification in the presence of a specific triggering signal. The proposed backdoor relies on a temporal trigger altering the average chrominance of the video sequence. The backdoor signal is designed by taking into account the peculiarities of the Human Visual System (HVS) to reduce the visibility of the trigger, thus increasing the stealthiness of the backdoor. To force the network to look at the presence of the trigger in the challenging clean-label scenario, we choose the poisoned samples used for the injection of the backdoor following a so-called Outlier Poisoning Strategy (OPS). According to OPS, the triggering signal is inserted in the training samples that the network finds more difficult to classify. The effectiveness of the proposed backdoor attack and its generality are validated experimentally on different datasets and anti-spoofing rebroadcast detection architectures.
翻訳日:2022-06-03 17:02:08 公開日:2022-06-02
# (参考訳) 物理学インフォームドu-netを用いた超解法2次元応力テンソル場の解析

Super-resolving 2D stress tensor field conserving equilibrium constraints using physics informed U-Net ( http://arxiv.org/abs/2206.01122v1 )

ライセンス: CC BY 4.0
Kazuo Yonekura, Kento Maruoka, Kyoku Tyou, Katsuyuki Suzuki(参考訳) 有限要素解析では、多数の格子を用いることは正確な結果を得るために重要であるが、資源消費の課題である。 実時間シミュレーションと最適化を目指して,限られた資源内で詳細な格子解析結果を得ることが望まれる。 本稿では, PI-UNetと呼ばれるU-Netベースニューラルネットワークを用いて, 低分解能輪郭プロットから高分解能応力テンソル場を予測する超解像手法を提案する。 さらに,本モデルでは,平衡制約の残差を最小化し,物理的に妥当な解を導出する。 提案するネットワークは単純な形状のfem結果を用いて訓練され、一般化能力を評価するために複雑なリアルな形状で検証される。 ESRGANは画像超解像の標準モデルであるが、提案したU-Netベースモデルはストレステンソル予測タスクにおいてESRGANモデルより優れている。

In a finite element analysis, using a large number of grids is important to obtain accurate results, but is a resource-consuming task. Aiming to real-time simulation and optimization, it is desired to obtain fine grid analysis results within a limited resource. This paper proposes a super-resolution method that predicts a stress tensor field in a high-resolution from low-resolution contour plots by utilizing a U-Net-based neural network which is called PI-UNet. In addition, the proposed model minimizes the residual of the equilibrium constraints so that it outputs a physically reasonable solution. The proposed network is trained with FEM results of simple shapes, and is validated with a complicated realistic shape to evaluate generalization capability. Although ESRGAN is a standard model for image super-resolution, the proposed U-Net based model outperforms ESRGAN model in the stress tensor prediction task.
翻訳日:2022-06-03 16:39:34 公開日:2022-06-02
# (参考訳) 確率的分類における予測多重性

Predictive Multiplicity in Probabilistic Classification ( http://arxiv.org/abs/2206.01131v1 )

ライセンス: CC BY 4.0
Jamelle Watson-Daniels, David C. Parkes and Berk Ustun(参考訳) 予測タスクでは、ほぼ等しく機能する複数のモデルが存在するかもしれない。 この多重性は、通常、機械学習モデルを開発、デプロイする方法を複雑にします。 確率的分類における多重度が予測(すなわち予測多重度)に与える影響について検討する。 本稿では,この設定に対する新たな対策と,ロジスティック回帰のような凸型リスク最小化問題に対する最適化手法を提案する。 我々は,予測多重性が発生する理由を考察するために,この手法を適用した。 実世界のリスクアセスメントタスクにおける予測重複の発生率と発生率について検討する。 その結果,乗算性をもっと広く報告する必要性が強調された。

For a prediction task, there may exist multiple models that perform almost equally well. This multiplicity complicates how we typically develop and deploy machine learning models. We study how multiplicity affects predictions -- i.e., predictive multiplicity -- in probabilistic classification. We introduce new measures for this setting and present optimization-based methods to compute these measures for convex empirical risk minimization problems like logistic regression. We apply our methodology to gain insight into why predictive multiplicity arises. We study the incidence and prevalence of predictive multiplicity in real-world risk assessment tasks. Our results emphasize the need to report multiplicity more widely.
翻訳日:2022-06-03 16:29:03 公開日:2022-06-02
# (参考訳) 多視点アクティブファイングラインド認識

Multi-View Active Fine-Grained Recognition ( http://arxiv.org/abs/2206.01153v1 )

ライセンス: CC BY 4.0
Ruoyi Du, Wenqing Yu, Heqing Wang, Dongliang Chang, Ting-En Lin, Yongbin Li, Zhanyu Ma(参考訳) 何十年もの間、きめ細かい視覚分類(FGVC)が開発されてきたため、関連する素晴らしい作品が重要な方向を明らかにした。 しかし、静的な画像内の視覚的内容を特定するのと異なり、実世界の物体を認識するために、識別情報は、見える地域だけでなく、他の見えない視点にも隠されている。 言い換えると、全体と区別可能な部分に焦点を当てることに加えて、効率的で正確な認識には、キーパースペクティブを少しの目で推測する必要がある。例えば、正面を見れば「ベンツ amg gt」を認識でき、排気管を見れば、どの年のモデルであるかがわかる。 本稿では, 現実に遡って, 能動微粒化認識(AFGR)の課題を提起し, 3つのステップで研究を完了した。 i) テストベッドとして階層的で多視点、きめ細かい車両データセットを収集する。 (II) 異なる視点がFGVCと異なるカテゴリーの異なる識別的視点に異なる視点で寄与することを検証するための簡易な実験が設計されている。 (iii)アクティブビュー選択による効率的な認識を実現するために、ポリシーグレードに基づくフレームワークが採用されている。 総合実験により、提案手法は従来のFGVC法や高度なニューラルネットワークよりも優れた性能効率のトレードオフをもたらすことが示された。

As fine-grained visual classification (FGVC) being developed for decades, great works related have exposed a key direction -- finding discriminative local regions and revealing subtle differences. However, unlike identifying visual contents within static images, for recognizing objects in the real physical world, discriminative information is not only present within seen local regions but also hides in other unseen perspectives. In other words, in addition to focusing on the distinguishable part from the whole, for efficient and accurate recognition, it is required to infer the key perspective with a few glances, e.g., people may recognize a "Benz AMG GT" with a glance of its front and then know that taking a look at its exhaust pipe can help to tell which year's model it is. In this paper, back to reality, we put forward the problem of active fine-grained recognition (AFGR) and complete this study in three steps: (i) a hierarchical, multi-view, fine-grained vehicle dataset is collected as the testbed, (ii) a simple experiment is designed to verify that different perspectives contribute differently for FGVC and different categories own different discriminative perspective, (iii) a policy-gradient-based framework is adopted to achieve efficient recognition with active view selection. Comprehensive experiments demonstrate that the proposed method delivers a better performance-efficient trade-off than previous FGVC methods and advanced neural networks.
翻訳日:2022-06-03 16:07:31 公開日:2022-06-02
# (参考訳) DE-Net: 動的テキスト誘導画像編集支援ネットワーク

DE-Net: Dynamic Text-guided Image Editing Adversarial Networks ( http://arxiv.org/abs/2206.01160v1 )

ライセンス: CC BY 4.0
Ming Tao, Bing-Kun Bao, Hao Tang, Fei Wu, Longhui Wei, Qi Tian(参考訳) テキスト誘導画像編集モデルは顕著な結果を示した。 しかし、問題は2つある。 まず、様々な編集要件(色変更、テクスチャ変更、コンテンツの追加、削除など)に固定的な操作モジュールを使用し、過剰な編集や不十分な編集に繋がる。 第2に、テキスト要求部分とテキスト関連部分を明確に区別しないため、不正確な編集につながる。 これらの制限を解決するために 提案します (i)様々な編集要件に対して動的に空間的・チャネル的操作を組み合わせる動的編集ブロック(デブロック)。 (ii)テキスト及び視覚特徴の推論に応じてデブロックの組合せ重みを予測する組合せ重み予測器(cwp)。 (iii)動的テキスト適応畳み込みブロック(dcblock)は、テキスト要求部分とテキスト関連部分とを区別するために、ソース画像の特徴をクエリする。 広範な実験によって、de-netは優れたパフォーマンスを達成し、ソースイメージをより効果的かつ正確に操作できることが示されました。 コードは \url{https://github.com/tobran/DE-Net} で入手できる。

Text-guided image editing models have shown remarkable results. However, there remain two problems. First, they employ fixed manipulation modules for various editing requirements (e.g., color changing, texture changing, content adding and removing), which result in over-editing or insufficient editing. Second, they do not clearly distinguish between text-required parts and text-irrelevant parts, which leads to inaccurate editing. To solve these limitations, we propose: (i) a Dynamic Editing Block (DEBlock) which combines spatial- and channel-wise manipulations dynamically for various editing requirements. (ii) a Combination Weights Predictor (CWP) which predicts the combination weights for DEBlock according to the inference on text and visual features. (iii) a Dynamic text-adaptive Convolution Block (DCBlock) which queries source image features to distinguish text-required parts and text-irrelevant parts. Extensive experiments demonstrate that our DE-Net achieves excellent performance and manipulates source images more effectively and accurately. Code is available at \url{https://github.com/tobran/DE-Net}.
翻訳日:2022-06-03 15:48:50 公開日:2022-06-02
# (参考訳) 視覚変換器の関連マップの最適化によるロバスト化

Optimizing Relevance Maps of Vision Transformers Improves Robustness ( http://arxiv.org/abs/2206.01161v1 )

ライセンス: CC BY 4.0
Hila Chefer, Idan Schwartz, Lior Wolf(参考訳) 視覚分類モデルは、しばしば画像の背景に依存し、前景を無視し、分布の変化に対する頑健さを損なうことが観察されている。 この欠点を軽減するために,モデルの関連性信号を監視し,モデルが前景オブジェクトに集中するように操作することを提案する。 これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。 具体的には モデルの関連性マップを奨励し (i)背景領域に低い関連性を割り当てる (ii)前景からできるだけ多くの情報を考えること、及び (iii)高い自信をもって決定を行うことを奨励する。 Vision Transformer (ViT) モデルに適用すると、ドメインシフトに対する堅牢性の顕著な改善が観察される。 さらに、VTモデル自体の自己監督型からフォアグラウンドマスクを自動的に取得することができるため、追加の監視は不要である。

It has been observed that visual classification models often rely mostly on the image background, neglecting the foreground, which hurts their robustness to distribution changes. To alleviate this shortcoming, we propose to monitor the model's relevancy signal and manipulate it such that the model is focused on the foreground object. This is done as a finetuning step, involving relatively few samples consisting of pairs of images and their associated foreground masks. Specifically, we encourage the model's relevancy map (i) to assign lower relevance to background regions, (ii) to consider as much information as possible from the foreground, and (iii) we encourage the decisions to have high confidence. When applied to Vision Transformer (ViT) models, a marked improvement in robustness to domain shifts is observed. Moreover, the foreground masks can be obtained automatically, from a self-supervised variant of the ViT model itself; therefore no additional supervision is required.
翻訳日:2022-06-03 15:32:51 公開日:2022-06-02
# (参考訳) 逆MDPモデルの特異性と複雑さ

Uniqueness and Complexity of Inverse MDP Models ( http://arxiv.org/abs/2206.01192v1 )

ライセンス: CC BY 4.0
Marcus Hutter and Steven Hansen(参考訳) 3つのステップで状態 s"(状態 s から)に到達する原因となったアクションシーケンス aa'a" は何か? このような疑問に取り組むことは因果推論や強化学習において重要である。 逆 "MDP" モデル p(aa'a"|ss"') はそれらに対応するために用いられる。 伝統的な「前方」の見方では、遷移 "matrix" p(s'|sa) とポリシー {\pi}(a|s) は「全て」を一意に決定する: 全体の力学 p(as'a's"a"...|s) とそれとともに、作用条件状態プロセス p(s's"...|saa'a) 、多段階逆モデル p(a'a"...|ss^i) などである。 後者が我々の主要な関心事である場合、フォワードの場合と類似する自然な質問は、1-ステップ逆モデル p(a|ss') + policy {\pi}(a|s) が多段逆モデルあるいは全体のダイナミクスを決定するかどうかである。 言い換えれば、フォワードモデルは逆モデルから推測されるか、あるいはサイドステップでもよい。 この研究は、この問題とそのバリエーション、およびこれに対する効率的な決定/推論アルゴリズムが存在するかどうかに対処する。

What is the action sequence aa'a" that was likely responsible for reaching state s"' (from state s) in 3 steps? Addressing such questions is important in causal reasoning and in reinforcement learning. Inverse "MDP" models p(aa'a"|ss"') can be used to answer them. In the traditional "forward" view, transition "matrix" p(s'|sa) and policy {\pi}(a|s) uniquely determine "everything": the whole dynamics p(as'a's"a"...|s), and with it, the action-conditional state process p(s's"...|saa'a"), the multi-step inverse models p(aa'a"...|ss^i), etc. If the latter is our primary concern, a natural question, analogous to the forward case is to which extent 1-step inverse model p(a|ss') plus policy {\pi}(a|s) determine the multi-step inverse models or even the whole dynamics. In other words, can forward models be inferred from inverse models or even be side-stepped. This work addresses this question and variations thereof, and also whether there are efficient decision/inference algorithms for this.
翻訳日:2022-06-03 15:30:42 公開日:2022-06-02
# 因果構造学習 : 組合せ的視点

Causal Structure Learning: a Combinatorial Perspective ( http://arxiv.org/abs/2206.01152v1 )

ライセンス: Link先を確認
Chandler Squires and Caroline Uhler(参考訳) 本稿では,データから因果構造を学習するためのアプローチについて論じる。 特に、有向非巡回グラフ(dag)と様々な一般化を学習するためのアプローチに注目し、ある変数が利用可能なデータでは観測できないようにする。 因果構造学習の2つの基本的な組合せ的側面に特に注目する。 まず,因果グラフ上の探索空間の構造について考察する。 第2に,因果グラフ上の同値類の構造,すなわち観測データだけで何が学べるかを表すグラフの集合と,これらの同値クラスが介入データを追加することでどのように洗練されるかについて議論する。

In this review, we discuss approaches for learning causal structure from data, also called causal discovery. In particular, we focus on approaches for learning directed acyclic graphs (DAGs) and various generalizations which allow for some variables to be unobserved in the available data. We devote special attention to two fundamental combinatorial aspects of causal structure learning. First, we discuss the structure of the search space over causal graphs. Second, we discuss the structure of equivalence classes over causal graphs, i.e., sets of graphs which represent what can be learned from observational data alone, and how these equivalence classes can be refined by adding interventional data.
翻訳日:2022-06-03 15:29:32 公開日:2022-06-02
# (参考訳) EfficientFormer: MobileNet Speedにおけるビジョントランスフォーマー

EfficientFormer: Vision Transformers at MobileNet Speed ( http://arxiv.org/abs/2206.01191v1 )

ライセンス: CC BY 4.0
Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren(参考訳) Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 しかし、膨大な数のパラメータとモデル設計(注意機構など)のため、ViTベースのモデルは一般的に軽量な畳み込みネットワークよりも遅い。 したがって、リアルタイムアプリケーションへのViTの展開は、特にモバイルデバイスのようなリソース制約のあるハードウェアにおいて特に困難である。 近年,ネットワークアーキテクチャ検索やMobileNetブロックを用いたハイブリッド設計によるViTの計算複雑性の低減が試みられているが,推論速度はまだ不十分である。 トランスフォーマーはMobileNetと同じくらい高速に動作し、ハイパフォーマンスを実現することができるのか? そこで我々はまず,ViTベースのモデルで使用されるネットワークアーキテクチャと演算子を再検討し,非効率な設計を同定する。 次に、設計パラダイムとして、次元一貫性のある純粋なトランスフォーマー(mobilenetブロックなし)を導入する。 最後に、遅延駆動スリム化を行い、 efficientformerと呼ばれる一連のファイナルモデルを取得します。 大規模な実験は、モバイルデバイスのパフォーマンスと速度におけるEfficientFormerの優位性を示している。 最も高速なモデルであるEfficientFormer-L1は、iPhone 12(CoreMLでコンパイルされた)で1.6msの遅延でImageNet-1Kで79.2%のTop-1精度を実現し、MobileNetV2 (1.7ms, 71.8%のTop-1)よりさらに高速で、最大のモデルであるEfficientFormer-L7は7.0msのレイテンシで83.3%の精度を得る。 我々の研究は、適切な設計のトランスフォーマーが高性能を維持しながらモバイルデバイス上で極めて低レイテンシに到達できることを証明している。

Vision Transformers (ViT) have shown rapid progress in computer vision tasks, achieving promising results on various benchmarks. However, due to the massive number of parameters and model design, e.g., attention mechanism, ViT-based models are generally times slower than lightweight convolutional networks. Therefore, the deployment of ViT for real-time applications is particularly challenging, especially on resource-constrained hardware such as mobile devices. Recent efforts try to reduce the computation complexity of ViT through network architecture search or hybrid design with MobileNet block, yet the inference speed is still unsatisfactory. This leads to an important question: can transformers run as fast as MobileNet while obtaining high performance? To answer this, we first revisit the network architecture and operators used in ViT-based models and identify inefficient designs. Then we introduce a dimension-consistent pure transformer (without MobileNet blocks) as design paradigm. Finally, we perform latency-driven slimming to get a series of final models dubbed EfficientFormer. Extensive experiments show the superiority of EfficientFormer in performance and speed on mobile devices. Our fastest model, EfficientFormer-L1, achieves 79.2% top-1 accuracy on ImageNet-1K with only 1.6 ms inference latency on iPhone 12 (compiled with CoreML), which is even a bit faster than MobileNetV2 (1.7 ms, 71.8% top-1), and our largest model, EfficientFormer-L7, obtains 83.3% accuracy with only 7.0 ms latency. Our work proves that properly designed transformers can reach extremely low latency on mobile devices while maintaining high performance
翻訳日:2022-06-03 15:25:51 公開日:2022-06-02
# リターン条件付き教師あり学習はいつオフライン強化学習に有効か?

When does return-conditioned supervised learning work for offline reinforcement learning? ( http://arxiv.org/abs/2206.01079v1 )

ライセンス: Link先を確認
David Brandfonbrener, Alberto Bietti, Jacob Buckman, Romain Laroche, Joan Bruna(参考訳) 最近のいくつかの研究は、return-conditioned supervised learning(rcsl)と呼ぶオフライン強化学習(rl)問題のためのアルゴリズムのクラスを提案している。 RCSLアルゴリズムは、状態と軌道の戻りの両方に条件付けられた動作の分布を学習する。 そして、高いリターンを達成することを条件にポリシーを定義する。 本稿では,RCSLの能力と限界に関する厳密な研究について述べる。 RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定の集合の下で最適なポリシーを返す。 これらの仮定の必要性とrcslの限界を説明するmdpとデータセットの具体例を提供する。 最後に,これらの制約が,d4rlベンチマークから,単純なポイントマス環境やデータセットで実証的な実験を行うことによって,実際に問題を引き起こすという実証的な証拠を示す。

Several recent works have proposed a class of algorithms for the offline reinforcement learning (RL) problem that we will refer to as return-conditioned supervised learning (RCSL). RCSL algorithms learn the distribution of actions conditioned on both the state and the return of the trajectory. Then they define a policy by conditioning on achieving high return. In this paper, we provide a rigorous study of the capabilities and limitations of RCSL, something which is crucially missing in previous work. We find that RCSL returns the optimal policy under a set of assumptions that are stronger than those needed for the more traditional dynamic programming-based algorithms. We provide specific examples of MDPs and datasets that illustrate the necessity of these assumptions and the limits of RCSL. Finally, we present empirical evidence that these limitations will also cause issues in practice by providing illustrative experiments in simple point-mass environments and on datasets from the D4RL benchmark.
翻訳日:2022-06-03 15:02:01 公開日:2022-06-02
# 深部オフライン強化学習への明示的不確かさ推定の導入

Incorporating Explicit Uncertainty Estimates into Deep Offline Reinforcement Learning ( http://arxiv.org/abs/2206.01085v1 )

ライセンス: Link先を確認
David Brandfonbrener, Remi Tachet des Combes, Romain Laroche(参考訳) オフライン強化学習における理論上の最も動機付けられた作業は、正確な不確実性推定を必要とする。 この要件は、その仕事から導出されるアルゴリズムを、そのような推定が存在する表式および線形設定に制限する。 本研究では,spibbファミリをより大きな状態空間と動作空間に拡張した,オフライン強化学習アルゴリズムであるdeep-spibbに,スケーラブルな不確実性推定を組み込む新しい手法を提案する。 我々は、ディープラーニングコミュニティからの不確実性推定に最近のイノベーションを使用し、よりスケーラブルな不確実性推定を深SPIBBにプラグインする。 これらの不確実性の推定は表式の場合と同じ理論的保証を許さないが、不確実性を取り込むためのspibbメカニズムは、不確実性を値関数のペナルティとして取り入れる悲観的アプローチよりも堅牢で柔軟であると主張する。 我々はこれを実証的に捉え、ディープSPIBBが、同じ不確実性の推定値にアクセスして悲観主義に基づくアプローチを上回り、少なくとも複数の環境やデータセットにまたがる様々な強力なベースラインと同等に実行することを示す。

Most theoretically motivated work in the offline reinforcement learning setting requires precise uncertainty estimates. This requirement restricts the algorithms derived in that work to the tabular and linear settings where such estimates exist. In this work, we develop a novel method for incorporating scalable uncertainty estimates into an offline reinforcement learning algorithm called deep-SPIBB that extends the SPIBB family of algorithms to environments with larger state and action spaces. We use recent innovations in uncertainty estimation from the deep learning community to get more scalable uncertainty estimates to plug into deep-SPIBB. While these uncertainty estimates do not allow for the same theoretical guarantees as in the tabular case, we argue that the SPIBB mechanism for incorporating uncertainty is more robust and flexible than pessimistic approaches that incorporate the uncertainty as a value function penalty. We bear this out empirically, showing that deep-SPIBB outperforms pessimism based approaches with access to the same uncertainty estimates and performs at least on par with a variety of other strong baselines across several environments and datasets.
翻訳日:2022-06-03 15:01:44 公開日:2022-06-02
# squeezeformer:自動音声認識のための効率的なトランスフォーマー

Squeezeformer: An Efficient Transformer for Automatic Speech Recognition ( http://arxiv.org/abs/2206.00888v1 )

ライセンス: Link先を確認
Sehoon Kim, Amir Gholami, Albert Shaw, Nicholas Lee, Karttikeya Mangalam, Jitendra Malik, Michael W. Mahoney, Kurt Keutzer(参考訳) 最近提案されたConformerモデルは、局所的特徴とグローバル的特徴の両方をキャプチャするハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルとなっている。 しかし、一連の系統的な研究により、コンフォーマーアーキテクチャの設計選択が最適ではないことが判明した。 コンフォーマーのマクロおよびマイクロアーキテクチャの両方の設計選択を再検討した後、同じトレーニングスキーム下での最先端のASRモデルよりも一貫して優れたSqueezeformerモデルを提案する。 特にマクロ構造に対して、Squeezeformerは組み込む。 (i)時間的u-net構造は、長いシーケンスにおけるマルチヘッドアテンションモジュールのコストを削減し、また、 (ii) フィードフォワードモジュールの単純なブロック構造であり、コンフォーマーで提案されたマカロン構造の代わりに、マルチヘッドアテンションや畳み込みモジュールが続く。 さらに、マイクロアーキテクチャ、Squeezeformerについて (i)畳み込みブロックの活性化を単純化する。 (ii)冗長層正規化操作を除去し、 (iii)入力信号を効率よくサブサンプリングするために、効率的な奥行きサンプリング層を組み込む。 Squeezeformerは、外部言語モデルなしでLibrispeechテストで7.5%、6.5%、および6.0%の単語エラー率の最先端結果を達成する。 これは、同じFLOP数のコンフォーマーCTCよりも3.1%、1.4%、0.6%良い。 私たちのコードはオープンソースで、オンラインで利用可能です。

The recently proposed Conformer model has become the de facto backbone model for various downstream speech tasks based on its hybrid attention-convolution architecture that captures both local and global features. However, through a series of systematic studies, we find that the Conformer architecture's design choices are not optimal. After reexamining the design choices for both the macro and micro-architecture of Conformer, we propose the Squeezeformer model, which consistently outperforms the state-of-the-art ASR models under the same training schemes. In particular, for the macro-architecture, Squeezeformer incorporates (i) the Temporal U-Net structure, which reduces the cost of the multi-head attention modules on long sequences, and (ii) a simpler block structure of feed-forward module, followed up by multi-head attention or convolution modules, instead of the Macaron structure proposed in Conformer. Furthermore, for the micro-architecture, Squeezeformer (i) simplifies the activations in the convolutional block, (ii) removes redundant Layer Normalization operations, and (iii) incorporates an efficient depth-wise downsampling layer to efficiently sub-sample the input signal. Squeezeformer achieves state-of-the-art results of 7.5%, 6.5%, and 6.0% word-error-rate on Librispeech test-other without external language models. This is 3.1%, 1.4%, and 0.6% better than Conformer-CTC with the same number of FLOPs. Our code is open-sourced and available online.
翻訳日:2022-06-03 15:00:58 公開日:2022-06-02
# 正規化流を用いたsrgbカメラノイズのモデル化

Modeling sRGB Camera Noise with Normalizing Flows ( http://arxiv.org/abs/2206.00812v1 )

ライセンス: Link先を確認
Shayan Kousha, Ali Maleky, Michael S. Brown, Marcus A. Brubaker(参考訳) 低レベルコンピュータビジョンの基本課題はノイズモデリングと低減である。 特にスマートフォンのカメラでは、目に見えるノイズを示す小さなセンサーに依存している。 最近、ニューラルネットワークによるカメラノイズモデルを改善するために、データ駆動アプローチの利用への関心が再び高まっている。 これらのデータ駆動アプローチは、カメラのイメージ信号プロセッサ(ISP)によって処理される前の原センサー画像に存在するノイズをターゲットとする。 raw-rgbドメインのモデリングノイズは、カメラ内デノイジングアルゴリズムの改善とテストに有用であるが、raw-rgbドメインイメージが使用できない場合には、カメラのispがデノイジンを適用せず、追加デノイジンが望まれる状況もある。 このような場合、センサノイズはISPを介して標準RGB(sRGB)で符号化された最終レンダリング画像に伝搬する。 ISP上の非線形ステップは、sRGBドメインのより複雑なノイズ分布を決定づけ、既存の生ドメインノイズモデルでは、sRGBのノイズ分布を捉えることができない。 本稿では,様々なisoレベルにおいてsrgb画像に見られる複雑な雑音分布を学習できる流れの正規化に基づく新しいsrgb領域雑音モデルを提案する。 流れに基づくノーマライズ手法は,ノイズモデリングや合成タスクにおいて,他のモデルよりも大きなマージンを持つ。 また,ノイズモデルを用いて合成した雑音画像に基づいて訓練した画像復調器は,ベースラインモデルから学習したノイズに優れることを示した。

Noise modeling and reduction are fundamental tasks in low-level computer vision. They are particularly important for smartphone cameras relying on small sensors that exhibit visually noticeable noise. There has recently been renewed interest in using data-driven approaches to improve camera noise models via neural networks. These data-driven approaches target noise present in the raw-sensor image before it has been processed by the camera's image signal processor (ISP). Modeling noise in the RAW-rgb domain is useful for improving and testing the in-camera denoising algorithm; however, there are situations where the camera's ISP does not apply denoising or additional denoising is desired when the RAW-rgb domain image is no longer available. In such cases, the sensor noise propagates through the ISP to the final rendered image encoded in standard RGB (sRGB). The nonlinear steps on the ISP culminate in a significantly more complex noise distribution in the sRGB domain and existing raw-domain noise models are unable to capture the sRGB noise distribution. We propose a new sRGB-domain noise model based on normalizing flows that is capable of learning the complex noise distribution found in sRGB images under various ISO levels. Our normalizing flows-based approach outperforms other models by a large margin in noise modeling and synthesis tasks. We also show that image denoisers trained on noisy images synthesized with our noise model outperforms those trained with noise from baselines models.
翻訳日:2022-06-03 15:00:32 公開日:2022-06-02
# xView3-SAR:合成開口画像を用いた暗黒漁業活動の検出

xView3-SAR: Detecting Dark Fishing Activity Using Synthetic Aperture Imagery ( http://arxiv.org/abs/2206.00897v1 )

ライセンス: Link先を確認
Fernando Paolo, Tsu-ting Tim Lin, Ritwik Gupta, Bryce Goodman, Nirav Patel, Daniel Kuster, David Kroodsma, Jared Dunnmon(参考訳) 世界の漁業は海洋資源や生態系に大きな脅威をもたらす。 監視システム(「暗黒船」として知られる)を回避する船を識別することは、海洋環境の健康管理と確保の鍵となる。 衛星を用いた合成開口レーダ(sar)画像と現代の機械学習(ml)の台頭により、全天候条件下で、昼夜暗容器の検出を自動化できるようになった。 しかし、SAR画像はドメイン固有の治療を必要としており、MLコミュニティには広くアクセスできない。 さらに、オブジェクト(vessels)は小さく、ばらばらで、従来のコンピュータビジョンアプローチに挑戦している。 本稿では,SARから船体を検出し,特徴付けるMLモデルをトレーニングするためのラベル付きデータセットについて述べる。 xView3-SARは、Sentinel-1ミッションの1,000枚近い分析可能なSAR画像で構成され、それぞれ平均29,400×24,400ピクセルである。 画像は自動解析と手動解析を組み合わせて注釈付けされる。 SAR画像に付随する共位置浴量計と風状態ラスター。 我々は, xView3-SAR を用いた大規模な船体検知とキャラクタリゼーションのための国際コンペである xView3 Computer Vision Challenge の結果の概要を述べる。 データ(https://iu.xview.us/)とコード(https://github.com/DIUx-xView)を公開します。

Unsustainable fishing practices worldwide pose a major threat to marine resources and ecosystems. Identifying vessels that evade monitoring systems -- known as "dark vessels" -- is key to managing and securing the health of marine environments. With the rise of satellite-based synthetic aperture radar (SAR) imaging and modern machine learning (ML), it is now possible to automate detection of dark vessels day or night, under all-weather conditions. SAR images, however, require domain-specific treatment and is not widely accessible to the ML community. Moreover, the objects (vessels) are small and sparse, challenging traditional computer vision approaches. We present the largest labeled dataset for training ML models to detect and characterize vessels from SAR. xView3-SAR consists of nearly 1,000 analysis-ready SAR images from the Sentinel-1 mission that are, on average, 29,400-by-24,400 pixels each. The images are annotated using a combination of automated and manual analysis. Co-located bathymetry and wind state rasters accompany every SAR image. We provide an overview of the results from the xView3 Computer Vision Challenge, an international competition using xView3-SAR for ship detection and characterization at large scale. We release the data (https://iuu.xview.us/) and code (https://github.com/DIUx-xView) to support ongoing development and evaluation of ML approaches for this important application.
翻訳日:2022-06-03 14:58:36 公開日:2022-06-02
# 映像からの物理物体特性の予測

Predicting Physical Object Properties from Video ( http://arxiv.org/abs/2206.00930v1 )

ライセンス: Link先を確認
Martin Link, Max Schwarz, Sven Behnke(参考訳) 本稿では,映像から物体の物理特性を推定する新しい手法を提案する。 我々のアプローチは物理エンジンと補正推定器で構成される。 最初の観測状態から始めて、オブジェクトの振舞いは時間内にシミュレーションされる。 シミュレーションおよび観測された動作に基づいて、補正推定器は、各オブジェクトの洗練された物理パラメータを決定する。 精度を高めるために反復することができる。 私たちのアプローチは、任意の(必ずしも微分可能ではない)物理エンジンと補正推定器の使用を可能にするため、汎用的です。 後者については、勾配なしハイパーパラメータ最適化と深い畳み込みニューラルネットワークの両方を評価する。 ビン状況に着目したシミュレーション2次元シナリオにおいて,学習手法のより高速で堅牢な収束を示す。

We present a novel approach to estimating physical properties of objects from video. Our approach consists of a physics engine and a correction estimator. Starting from the initial observed state, object behavior is simulated forward in time. Based on the simulated and observed behavior, the correction estimator then determines refined physical parameters for each object. The method can be iterated for increased precision. Our approach is generic, as it allows for the use of an arbitrary - not necessarily differentiable - physics engine and correction estimator. For the latter, we evaluate both gradient-free hyperparameter optimization and a deep convolutional neural network. We demonstrate faster and more robust convergence of the learned method in several simulated 2D scenarios focusing on bin situations.
翻訳日:2022-06-03 14:58:12 公開日:2022-06-02
# bhattacharyya係数に基づく雑音モデルに基づくランダムウォーカー画像のセグメンテーション

A Bhattacharyya Coefficient-Based Framework for Noise Model-Aware Random Walker Image Segmentation ( http://arxiv.org/abs/2206.00947v1 )

ライセンス: Link先を確認
Dominik Drees, Florian Eilers, Ang Bian, Xiaoyi Jiang(参考訳) インタラクティブな画像セグメンテーションの方法として、ランダムウォーカーアルゴリズムがある。 このセグメンテーション手法に関するかなりの研究が近年も続けられており、多くの応用がなされている。 これらの手法は、セグメンテーション性能に強く影響するパラメータに依存する単純なガウス重み関数を用いることで一般的である。 本研究では,確率的モデリングに基づく重み関数の導出フレームワークを提案する。 このフレームワークは、ほぼどんなよく定義されたノイズモデルにも対処できる。 クリティカルパラメータを排除し、時間を要するパラメータ探索を回避する。 一般的なノイズタイプの特定の重み関数を導出し、合成データおよび異なる生体医用画像データ(nyu fastmriデータセットから得られたmri画像、fim技術で取得した幼虫画像)において優れた性能を示す。 私たちのフレームワークは、グラフカットアルゴリズムとその拡張など、他の複数のアプリケーションでも使用できます。

One well established method of interactive image segmentation is the random walker algorithm. Considerable research on this family of segmentation methods has been continuously conducted in recent years with numerous applications. These methods are common in using a simple Gaussian weight function which depends on a parameter that strongly influences the segmentation performance. In this work we propose a general framework of deriving weight functions based on probabilistic modeling. This framework can be concretized to cope with virtually any well-defined noise model. It eliminates the critical parameter and thus avoids time-consuming parameter search. We derive the specific weight functions for common noise types and show their superior performance on synthetic data as well as different biomedical image data (MRI images from the NYU fastMRI dataset, larvae images acquired with the FIM technique). Our framework can also be used in multiple other applications, e.g., the graph cut algorithm and its extensions.
翻訳日:2022-06-03 14:58:03 公開日:2022-06-02
# StopNet: 都市自動運転のためのスケーラブルな軌道と運転予測

StopNet: Scalable Trajectory and Occupancy Prediction for Urban Autonomous Driving ( http://arxiv.org/abs/2206.00991v1 )

ライセンス: Link先を確認
Jinkyu Kim, Reza Mahjourian, Scott Ettinger, Mayank Bansal, Brandyn White, Ben Sapp, Dragomir Anguelov(参考訳) 本研究では,都市部における自律走行の遅延要件を満たす動き予測(挙動予測)手法を提案する。 全シーンのスパース入力表現により、StopNetは、信頼できるレイテンシを持つ数百の道路エージェントの軌跡を予測できる。 交通路の予測に加えて,都市環境に適した相補的出力表現である全シーン確率占有格子の予測にも有効である。 占有グリッドにより、AVは個々の軌跡を処理せずに、エージェントのグループの振る舞いをまとめて推論することができる。 3つのデータセットに対する計算と精度の観点から,スパース入力表現とモデルの有効性を実証する。 さらに,一貫性のある軌道と占有率予測のコトレーニングにより,標準メトリクスによる最先端のパフォーマンスが向上することを示す。

We introduce a motion forecasting (behavior prediction) method that meets the latency requirements for autonomous driving in dense urban environments without sacrificing accuracy. A whole-scene sparse input representation allows StopNet to scale to predicting trajectories for hundreds of road agents with reliable latency. In addition to predicting trajectories, our scene encoder lends itself to predicting whole-scene probabilistic occupancy grids, a complementary output representation suitable for busy urban environments. Occupancy grids allow the AV to reason collectively about the behavior of groups of agents without processing their individual trajectories. We demonstrate the effectiveness of our sparse input representation and our model in terms of computation and accuracy over three datasets. We further show that co-training consistent trajectory and occupancy predictions improves upon state-of-the-art performance under standard metrics.
翻訳日:2022-06-03 14:57:47 公開日:2022-06-02
# sar画像用ganを用いたデュアルフュージョンセマンティクスセグメンテーションフレームワーク

A Dual-fusion Semantic Segmentation Framework With GAN For SAR Images ( http://arxiv.org/abs/2206.01096v1 )

ライセンス: Link先を確認
Donghui Li, Jia Liu, Fang Liu, Wenhua Zhang, Andi Zhang, Wenfei Gao, Jiao Shi(参考訳) ディープラーニングに基づくセマンティックセグメンテーションは、リモートセンシングイメージセグメンテーションで一般的な方法の1つである。 本稿では,合成開口レーダ(SAR)画像セグメンテーションを実現するために,広く使用されているエンコーダデコーダアーキテクチャに基づくネットワークを提案する。 光画像のより優れた表現能力により、多数のSARおよび光画像によって訓練された生成反転ネットワーク(GAN)を介して生成された光画像とSAR画像を統合することを提案する。 これらの光学画像は元のSAR画像の拡張として利用することができ、セグメンテーションの堅牢な結果が得られる。 そして、ganによって生成された光学画像と対応する実画像とを縫合する。 ステッチされたデータに続くアテンションモジュールを使用して、オブジェクトの表現を強化する。 実験の結果,本手法は他の一般的な手法と比較して効率的であることが判明した。

Deep learning based semantic segmentation is one of the popular methods in remote sensing image segmentation. In this paper, a network based on the widely used encoderdecoder architecture is proposed to accomplish the synthetic aperture radar (SAR) images segmentation. With the better representation capability of optical images, we propose to enrich SAR images with generated optical images via the generative adversative network (GAN) trained by numerous SAR and optical images. These optical images can be used as expansions of original SAR images, thus ensuring robust result of segmentation. Then the optical images generated by the GAN are stitched together with the corresponding real images. An attention module following the stitched data is used to strengthen the representation of the objects. Experiments indicate that our method is efficient compared to other commonly used methods
翻訳日:2022-06-03 14:57:34 公開日:2022-06-02
# noise2noiseflow:クリーンな画像のない現実的なカメラノイズモデリング

Noise2NoiseFlow: Realistic Camera Noise Modeling without Clean Images ( http://arxiv.org/abs/2206.01103v1 )

ライセンス: Link先を確認
Ali Maleky, Shayan Kousha, Michael S. Brown, Marcus A. Brubaker(参考訳) 画像ノイズモデリングはコンピュータビジョンにおける多くの応用において長年の課題である。 信号独立な付加的な白色ガウスノイズやヘテロセダスティックガウスノイズモデル(カメラノイズレベル関数)といった単純なモデルを提案する初期の試みは、カメラセンサノイズの複雑な振る舞いを学習するには不十分である。 近年、より複雑な学習ベースモデルが提案され、ノイズ合成や雑音発生などの下流タスクにより良い結果をもたらす。 しかし、それらの教師付きデータ(すなわちペアのクリーン画像)への依存は、地上画像を生成する際の課題を考えると、限界要因である。 本稿では,ノイズ/クリーンなペア画像データではなく,ノイズのペア画像にのみ依存しながら,ノイズモデルと雑音を同時に訓練するためのフレームワークを提案する。 この枠組みをノイズフローアーキテクチャのトレーニングに適用する。 ノイズ合成と密度推定の結果,我々のフレームワークは従来の信号処理に基づくノイズモデルよりも優れており,教師付きノイズモデルと同等であることがわかった。 トレーニングされたデノイザーは、教師付きおよび弱教師付きベースラインデノイジングアプローチの両方で大幅に改善される。 その結果, 騒音モデルと除音器の連成訓練により, 除音器の大幅な改善が得られた。

Image noise modeling is a long-standing problem with many applications in computer vision. Early attempts that propose simple models, such as signal-independent additive white Gaussian noise or the heteroscedastic Gaussian noise model (a.k.a., camera noise level function) are not sufficient to learn the complex behavior of the camera sensor noise. Recently, more complex learning-based models have been proposed that yield better results in noise synthesis and downstream tasks, such as denoising. However, their dependence on supervised data (i.e., paired clean images) is a limiting factor given the challenges in producing ground-truth images. This paper proposes a framework for training a noise model and a denoiser simultaneously while relying only on pairs of noisy images rather than noisy/clean paired image data. We apply this framework to the training of the Noise Flow architecture. The noise synthesis and density estimation results show that our framework outperforms previous signal-processing-based noise models and is on par with its supervised counterpart. The trained denoiser is also shown to significantly improve upon both supervised and weakly supervised baseline denoising approaches. The results indicate that the joint training of a denoiser and a noise model yields significant improvements in the denoiser.
翻訳日:2022-06-03 14:57:21 公開日:2022-06-02
# 正確性を超えたバイオプルーシブル・タイムリークレジット割当ルールの一般化特性

Beyond accuracy: generalization properties of bio-plausible temporal credit assignment rules ( http://arxiv.org/abs/2206.00823v1 )

ライセンス: Link先を確認
Yuhan Helena Liu, Arna Ghosh, Blake A. Richards, Eric Shea-Brown and Guillaume Lajoie(参考訳) 脳がどのように学習するかを明らかにするために、進行中の研究は、リカレントニューラルネットワーク(RNN)をトレーニングするための勾配降下アルゴリズムの生物学的に証明可能な近似を求める。 しかし、タスクの精度を超えて、そのような学習規則が、非生物学的に証明可能な解とは異なる一般化のレベルを示す解に収束するかどうかは不明である。 ロスランドスケープ曲率に基づく深層学習理論の結果を活用し、:生物学的に可視な勾配近似は一般化にどのように影響するか? 我々はまず,rnnのトレーニングにおける最先端の生物学的評価可能な学習ルールが,真の勾配に従う機械学習と比べ,より悪い,より可変的な一般化性能を示すことを実証する。 次に,このような一般化性能がロスランドスケープ曲率と有意な相関があることを確認し,生物学的に評価可能な学習規則がシナプス重み空間の高曲率領域に接近する傾向を示した。 力学系の道具を用いて理論的な議論を導き、この現象を説明する定理を示す。 これは我々の数値結果を予測し、生物学的に評価可能な規則がより悪くより可変な一般化性をもたらす理由を説明する。 最後に、この効果を和らげるために脳が使う可能性のある治療法を提案する。 私たちの知る限りでは、私たちの分析は、人工的と生物学的に賞賛できる学習ルールの間のこの一般化のギャップの理由を特定する最初の方法です。

To unveil how the brain learns, ongoing work seeks biologically-plausible approximations of gradient descent algorithms for training recurrent neural networks (RNNs). Yet, beyond task accuracy, it is unclear if such learning rules converge to solutions that exhibit different levels of generalization than their nonbiologically-plausible counterparts. Leveraging results from deep learning theory based on loss landscape curvature, we ask: how do biologically-plausible gradient approximations affect generalization? We first demonstrate that state-of-the-art biologically-plausible learning rules for training RNNs exhibit worse and more variable generalization performance compared to their machine learning counterparts that follow the true gradient more closely. Next, we verify that such generalization performance is correlated significantly with loss landscape curvature, and we show that biologically-plausible learning rules tend to approach high-curvature regions in synaptic weight space. Using tools from dynamical systems, we derive theoretical arguments and present a theorem explaining this phenomenon. This predicts our numerical results, and explains why biologically-plausible rules lead to worse and more variable generalization properties. Finally, we suggest potential remedies that could be used by the brain to mitigate this effect. To our knowledge, our analysis is the first to identify the reason for this generalization gap between artificial and biologically-plausible learning rules, which can help guide future investigations into how the brain learns solutions that generalize.
翻訳日:2022-06-03 14:56:59 公開日:2022-06-02
# Feldmanの2本腕バンディット問題におけるコンジェクチャの確認

A Confirmation of a Conjecture on the Feldman's Two-armed Bandit Problem ( http://arxiv.org/abs/2206.00821v1 )

ライセンス: Link先を確認
Zengjing Chen, Yiwei Lin, Jichen Zhang(参考訳) ミオピック戦略は、盗賊問題を研究する上で最も重要な戦略の1つである。 本稿では,feldman が提案した二本腕バンディット問題について考察する。 一般分布と実用関数により、筋電図戦略の最適性に必要かつ十分な条件が得られる。 応用として、ミオピック戦略が勝利数を確率的に最大化するベルヌーイの両腕バンディット問題に対するヌーイヘドとロスの予想を解くことができる。

Myopic strategy is one of the most important strategies when studying bandit problems. In this paper, we consider the two-armed bandit problem proposed by Feldman. With general distributions and utility functions, we obtain a necessary and sufficient condition for the optimality of the myopic strategy. As an application, we could solve Nouiehed and Ross's conjecture for Bernoulli two-armed bandit problems that myopic strategy stochastically maximizes the number of wins.
翻訳日:2022-06-03 14:56:30 公開日:2022-06-02
# 小さくて局所的なデータセットからコード要約を学ぶ

Learning code summarization from a small and local dataset ( http://arxiv.org/abs/2206.00804v1 )

ライセンス: Link先を確認
Toufique Ahmed and Premkumar Devanbu(参考訳) ファンデーションモデル(CodeBERT、GraphCodeBERT、CodeT5)は多くのソフトウェアエンジニアリングタスクでうまく機能する。 これらのモデルは、何十億ものコードトークンを持つ事前トレーニング(自己監視を使用して)され、その後、多くのプロジェクトから引き出された数十万のラベル付き例で微調整される。 しかし、ソフトウェア現象は非常にプロジェクト固有のものである。 語彙、その他の現象はプロジェクトごとに大きく異なる。 したがって、プロジェクト固有のデータのトレーニングと、同じプロジェクトでのテストは、有望なアイデアです。 この仮説は、例えば、トレーニングテストのリークを防ぐために、時系列設定で慎重に評価する必要がある。 我々は、同プロジェクトトレーニング、クロスプロジェクトトレーニング、特にサンプル効率のよいモデル(したがって限定サンプルの同プロジェクト環境での学習に適したプリマファシエ)のトレーニング、およびマキシマリストハイブリッドアプローチなど、いくつかのモデルとトレーニングアプローチを比較し、まず多くの言語で多くのプロジェクトで微調整を行い、その後同じプロジェクトでトレーニングする。 マキシマリストのハイブリッド設定は、JavaとPythonの両方の多くの異なるプロジェクトにおいて、最先端技術よりも一貫性があり、実質的な利益をもたらします。

Foundation models (e.g., CodeBERT, GraphCodeBERT, CodeT5) work well for many software engineering tasks. These models are pre-trained (using self-supervision) with billions of code tokens, and then fine-tuned with hundreds of thousands of labeled examples, typically drawn from many projects. However, software phenomena can be very project-specific. Vocabulary, and other phenomena vary substantially with each project. Thus, training on project-specific data, and testing on the same project, is a promising idea. This hypothesis has to be evaluated carefully, e.g., in a time-series setting, to prevent training-test leakage. We compare several models and training approaches, including same-project training, cross-project training, training a model especially designed to be sample efficient (and thus prima facie well-suited for learning in a limited-sample same-project setting) and a maximalist hybrid approach, fine-tuning first on many projects in many languages and then training on the same-project. We find that the maximalist hybrid setting provides consistent, substantial gains over the state-of-the-art, on many different projects in both Java and Python.
翻訳日:2022-06-03 14:54:21 公開日:2022-06-02
# バンディットフィードバックによる動的構造推定

Dynamic Structure Estimation from Bandit Feedback ( http://arxiv.org/abs/2206.00861v1 )

ライセンス: Link先を確認
Motoya Ohnishi, Isao Ishikawa, Yuko Kuroki, Masahiro Ikeda(参考訳) 本稿では,基礎となる力学系の構造推定法を提案する。 サブガウシアンノイズにより汚染されたバンディットフィードバックから動的構造を推定する問題に取り組む。 特に、ユークリッド空間における周期的に振る舞う離散力学系に注目し、周期構造の全情報の特定の取得可能な部分集合を注意深く同定する。 次に、周期構造推定に束縛されたサンプル複雑性を導出する。 理論的には、指数和に対する漸近的な結果を用いてノイズ効果を効果的に平均し、情報を消失させるのを防ぐ。 線形系では、ワイル和を用いることでさらに固有構造を抽出することができる。 我々の理論的な主張は、セルラーオートマタを含むおもちゃの例のシミュレーションで実験的に検証されている。

This work present novel method for structure estimation of an underlying dynamical system. We tackle problems of estimating dynamic structure from bandit feedback contaminated by sub-Gaussian noise. In particular, we focus on periodically behaved discrete dynamical system in the Euclidean space, and carefully identify certain obtainable subset of full information of the periodic structure. We then derive a sample complexity bound for periodic structure estimation. Technically, asymptotic results for exponential sums are adopted to effectively average out the noise effects while preventing the information to be estimated from vanishing. For linear systems, the use of the Weyl sum further allows us to extract eigenstructures. Our theoretical claims are experimentally validated on simulations of toy examples, including Cellular Automata.
翻訳日:2022-06-03 14:53:58 公開日:2022-06-02
# 安全を脅かす俳優の注意:積極的に安全の危険を緩和する

Watch Out for the Safety-Threatening Actors: Proactively Mitigating Safety Hazards ( http://arxiv.org/abs/2206.00886v1 )

ライセンス: Link先を確認
Saurabh Jha and Shengkun Cui and Zbigniew Kalbarczyk and Ravishankar K. Iyer(参考訳) 自動運転車のような自動運転車(AV)の実証が成功したにもかかわらず、AVの安全性を確保することは難しい課題である。 一部の俳優はavの運転決定に他よりも影響を与えているが、現在のアプローチは各俳優に同じ注意を払っている。 AVの決定に対するアクターの影響は、AVにとって安全な航法選択の回数を減らす能力によって特徴づけられる。 本研究では,AVの安全性に影響を及ぼす道路上の各アクターの重要性を推定するために,反実的推論を用いた安全脅威指標(STI)を提案する。 私たちはこの指標を使います (i)既存の現実世界のデータセットを特徴付けて、希少な危険シナリオを特定することと、そのようなシナリオにおける既存のコントローラのパフォーマンスの劣悪さを特定すること。 (II)アクターがAVに課す安全リスクを積極的に軽減するRLベースの安全対策コントローラを設計する。 本手法は, 希少な危険シナリオにおける最先端のAVエージェントの事故発生率を70%以上削減する。

Despite the successful demonstration of autonomous vehicles (AVs), such as self-driving cars, ensuring AV safety remains a challenging task. Although some actors influence an AV's driving decisions more than others, current approaches pay equal attention to each actor on the road. An actor's influence on the AV's decision can be characterized in terms of its ability to decrease the number of safe navigational choices for the AV. In this work, we propose a safety threat indicator (STI) using counterfactual reasoning to estimate the importance of each actor on the road with respect to its influence on the AV's safety. We use this indicator to (i) characterize the existing real-world datasets to identify rare hazardous scenarios as well as the poor performance of existing controllers in such scenarios; and (ii) design an RL based safety mitigation controller to proactively mitigate the safety hazards those actors pose to the AV. Our approach reduces the accident rate for the state-of-the-art AV agent(s) in rare hazardous scenarios by more than 70%.
翻訳日:2022-06-03 14:53:48 公開日:2022-06-02
# 重音を伴う変分不等式に対するクラッピング確率法

Clipped Stochastic Methods for Variational Inequalities with Heavy-Tailed Noise ( http://arxiv.org/abs/2206.01095v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Marina Danilova, David Dobre, Pavel Dvurechensky, Alexander Gasnikov, Gauthier Gidel(参考訳) 滑らかなミニマックス問題の解法としてSGDA(Stochastic Extragradient)やSGDA(Stochastic Gradient Descent-Ascent)のような確率的一階述語法や、より一般的には変分不等式問題(VIP)が近年注目を集めている。 しかし、確率的手法の実際の挙動をより正確に反映する高確率収束境界は知られているが、ほとんどの収束結果が期待されている。 さらに、唯一知られている高確率複雑性の結果は、制限付きサブガウシアンノイズと有界領域推定の下で導出されている。 (『juditsky et al.』2011年) 本研究では,非ガウス雑音と非有界領域を用いた単調・非単調VIPの確率的解法における信頼度に対数的依存を持つ最初の高確率複雑性結果を示す。 モノトンの場合,この結果は光尾の場合 (Juditsky et al., 2011) で最もよく知られたものと一致し, 負のコモノトン, 準強いモノトン, および/または星のコヒーレンシブ問題のような非モノトン問題に対する新規である。 クリッピングによりSEGおよびSGDAを解析し,これらの結果を得た。 さらに,多くの実用的なGAN定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。

Stochastic first-order methods such as Stochastic Extragradient (SEG) or Stochastic Gradient Descent-Ascent (SGDA) for solving smooth minimax problems and, more generally, variational inequality problems (VIP) have been gaining a lot of attention in recent years due to the growing popularity of adversarial formulations in machine learning. However, while high-probability convergence bounds are known to reflect the actual behavior of stochastic methods more accurately, most convergence results are provided in expectation. Moreover, the only known high-probability complexity results have been derived under restrictive sub-Gaussian (light-tailed) noise and bounded domain Assump. [Juditsky et al., 2011]. In this work, we prove the first high-probability complexity results with logarithmic dependence on the confidence level for stochastic methods for solving monotone and structured non-monotone VIPs with non-sub-Gaussian (heavy-tailed) noise and unbounded domains. In the monotone case, our results match the best-known ones in the light-tails case [Juditsky et al., 2011], and are novel for structured non-monotone problems such as negative comonotone, quasi-strongly monotone, and/or star-cocoercive ones. We achieve these results by studying SEG and SGDA with clipping. In addition, we numerically validate that the gradient noise of many practical GAN formulations is heavy-tailed and show that clipping improves the performance of SEG/SGDA.
翻訳日:2022-06-03 14:53:32 公開日:2022-06-02
# フェデレーションミニマックス学習のための線形収束型通信効率アルゴリズム

A Communication-efficient Algorithm with Linear Convergence for Federated Minimax Learning ( http://arxiv.org/abs/2206.01132v1 )

ライセンス: Link先を確認
Zhenyu Sun, Ermin Wei(参考訳) 本稿では,GAN(Generative Adversarial Networks)を含む,統計学習やゲーム理論における多くの興味深い応用をモデル化した大規模マルチエージェントミニマックス最適化問題について検討する。 全体的な目的は、エージェントのプライベートなローカルな目的関数の総和である。 まず, 統計的サンプルを用いて, 全体目標が真の個体群ミニマックスリスクに近似する, 経験的ミニマックス問題 (experience minimax problem) を考察した。 我々はラデマッハ複雑性解析を通じて,この目的を学習するための一般化境界を提供する。 次に、エージェントがローカル計算を実行し、中央サーバと通信できるフェデレーション設定に焦点を当てる。 既存のフェデレートされたミニマックスアルゴリズムは、局所確率勾配上昇(SGDA)を除いて、イテレーション毎の通信を必要とするか、性能保証が欠如している。 局所sgdaを勾配雑音のない理想条件で解析することにより, 一般に, 定常ステップによる完全収束を保証できず, 収束速度が遅いことを示す。 この問題に対処するため,グラディエントトラッキング(GT)に基づく改良型Federated (Fed) Gradient Descent Ascent (GDA)法であるFedGDA-GTを提案する。 局所的な目的がリプシッツの滑らかかつ強凸-強対流であるとき、FedGDA-GTは、集中型GDA法の時間的複雑さに一致する$\mathcal{O}(\log (1/\epsilon))$ラウンドで、大域的な$\epsilon$-approximationソリューションへと線形に収束することが証明される。 最後に,FedGDA-GTがローカルSGDAより優れていることを示す。

In this paper, we study a large-scale multi-agent minimax optimization problem, which models many interesting applications in statistical learning and game theory, including Generative Adversarial Networks (GANs). The overall objective is a sum of agents' private local objective functions. We first analyze an important special case, empirical minimax problem, where the overall objective approximates a true population minimax risk by statistical samples. We provide generalization bounds for learning with this objective through Rademacher complexity analysis. Then, we focus on the federated setting, where agents can perform local computation and communicate with a central server. Most existing federated minimax algorithms either require communication per iteration or lack performance guarantees with the exception of Local Stochastic Gradient Descent Ascent (SGDA), a multiple-local-update descent ascent algorithm which guarantees convergence under a diminishing stepsize. By analyzing Local SGDA under the ideal condition of no gradient noise, we show that generally it cannot guarantee exact convergence with constant stepsizes and thus suffers from slow rates of convergence. To tackle this issue, we propose FedGDA-GT, an improved Federated (Fed) Gradient Descent Ascent (GDA) method based on Gradient Tracking (GT). When local objectives are Lipschitz smooth and strongly-convex-strongly-concave, we prove that FedGDA-GT converges linearly with a constant stepsize to global $\epsilon$-approximation solution with $\mathcal{O}(\log (1/\epsilon))$ rounds of communication, which matches the time complexity of centralized GDA method. Finally, we numerically show that FedGDA-GT outperforms Local SGDA.
翻訳日:2022-06-03 14:52:55 公開日:2022-06-02
# (参考訳) プルーニング・アズ・サーチ:チャネルプルーニングと構造パラメータ化による効率的なニューラルネットワーク探索

Pruning-as-Search: Efficient Neural Architecture Search via Channel Pruning and Structural Reparameterization ( http://arxiv.org/abs/2206.01198v1 )

ライセンス: CC BY 4.0
Yanyu Li, Pu Zhao, Geng Yuan, Xue Lin, Yanzhi Wang, Xin Chen(参考訳) ニューラルネットワークサーチ(NAS)とネットワークプルーニングは、効率的なAI技術として広く研究されているが、まだ完璧ではない。 NASは網羅的なアーキテクチャ探索を行い、膨大な検索コストを発生させる。 (構造化) プルーニングは単にモデル次元を縮小することができるが、層ごとの間隔を自動的に最適に決定する方法は不明である。 本研究では,レイヤ幅最適化の問題を再考し,所望のサブネットワークを自動かつ効率的に検索するPruning-as-Search (PaS)を提案する。 具体的には、勾配勾配からプルーニングポリシーを直接学習するために、深さワイドなバイナリ畳み込みを追加する。 構造的パラメータ化とPaSを組み合わせることで,各ステージではなく各レイヤに対して任意の幅の柔軟性を実現する,VGGライクで軽量なネットワークの新たなファミリーを探索することができた。 実験結果から,imagenet-1000 分類タスクの予測速度が約$1.0\%$ top-1 の精度で先行技術を上回ることがわかった。 さらに,インスタンス分割や画像翻訳などの複雑なタスクにおける幅探索の有効性を示す。 コードとモデルはリリースされている。

Neural architecture search (NAS) and network pruning are widely studied efficient AI techniques, but not yet perfect. NAS performs exhaustive candidate architecture search, incurring tremendous search cost. Though (structured) pruning can simply shrink model dimension, it remains unclear how to decide the per-layer sparsity automatically and optimally. In this work, we revisit the problem of layer-width optimization and propose Pruning-as-Search (PaS), an end-to-end channel pruning method to search out desired sub-network automatically and efficiently. Specifically, we add a depth-wise binary convolution to learn pruning policies directly through gradient descent. By combining the structural reparameterization and PaS, we successfully searched out a new family of VGG-like and lightweight networks, which enable the flexibility of arbitrary width with respect to each layer instead of each stage. Experimental results show that our proposed architecture outperforms prior arts by around $1.0\%$ top-1 accuracy under similar inference speed on ImageNet-1000 classification task. Furthermore, we demonstrate the effectiveness of our width search on complex tasks including instance segmentation and image translation. Code and models are released.
翻訳日:2022-06-03 14:51:23 公開日:2022-06-02
# 複雑なシーン生成のためのモデリング画像合成

Modeling Image Composition for Complex Scene Generation ( http://arxiv.org/abs/2206.00923v1 )

ライセンス: Link先を確認
Zuopeng Yang, Daqing Liu, Chaoyue Wang, Jie Yang, Dacheng Tao(参考訳) 本稿では,複雑なシーンに含まれるテクスチャ,構造,関係を正確にモデル化することにより,映像のレイアウト・画像生成に挑戦する手法を提案する。 本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。 画素レベル・パッチレベルとオブジェクトレベル・パッチレベルをモデリングする既存のCNNベースおよびトランスフォーマーベース生成モデルと比較して、提案手法は空間レイアウトで指定された高関連トークンのみに着目して現在のパッチトークンを予測し、トレーニング中の曖昧さを実現する。 さらに,提案するtwfaはトレーニング中のデータ効率を著しく向上させるため,訓練されたtwfaに基づく最初の数ショット複合シーン生成戦略を提案する。 総合実験の結果, 定量的指標と質的視覚リアリズムの両方を, 最先端のcnn法とトランスフォーマー法で大幅に向上させた。 コードはhttps://github.com/JohnDreamer/TwFA.comで入手できる。

We present a method that achieves state-of-the-art results on challenging (few-shot) layout-to-image generation tasks by accurately modeling textures, structures and relationships contained in a complex scene. After compressing RGB images into patch tokens, we propose the Transformer with Focal Attention (TwFA) for exploring dependencies of object-to-object, object-to-patch and patch-to-patch. Compared to existing CNN-based and Transformer-based generation models that entangled modeling on pixel-level&patch-level and object-level&patch-level respectively, the proposed focal attention predicts the current patch token by only focusing on its highly-related tokens that specified by the spatial layout, thereby achieving disambiguation during training. Furthermore, the proposed TwFA largely increases the data efficiency during training, therefore we propose the first few-shot complex scene generation strategy based on the well-trained TwFA. Comprehensive experiments show the superiority of our method, which significantly increases both quantitative metrics and qualitative visual realism with respect to state-of-the-art CNN-based and transformer-based methods. Code is available at https://github.com/JohnDreamer/TwFA.
翻訳日:2022-06-03 14:37:22 公開日:2022-06-02
# FACM: 逆サンプルに対する中間層特徴を持つディープニューラルネットワークの出力を補正する

FACM: Correct the Output of Deep Neural Network with Middle Layers Features against Adversarial Samples ( http://arxiv.org/abs/2206.00924v1 )

ライセンス: Link先を確認
Xiangyuan Yang, Jie Lin, Hanlin Zhang, Xinyu Yang, Peng Zhao(参考訳) ディープニューラルネットワーク(DNN)に対する強力な敵対的攻撃では、DNNの最終特徴層が敵のサンプルによって完全に破壊されている場合にのみDNNの出力が誤分類されるが、我々の研究は、DNNの中間特徴層がこれらの敵の攻撃において元の正規カテゴリーの有効特徴を抽出できることを発見した。 そこで本論文では, DNNの中間層から抽出したDNNの出力を補正することにより, DNNに対するDNNの堅牢性を高めるために, 中間層である$\bold{F}$eature layer $\bold{A}$nalysis and $\bold{C}$onditional $\bold{M}$atching Prediction Distribution (FACM)モデルを提案する。 特に,中間の$\bold{F}$eature layer $\bold{A}$nalysis (FA) モジュール,条件整合予測分布 (CMPD) モジュール,および出力決定モジュールをFACMモデルに含め,対向サンプルの分類を協調的に補正する。 実験の結果,我々のFACMモデルは様々な攻撃に対して自然に訓練されたモデルのロバスト性を著しく改善でき,また,FAPDモジュールではなくFAモジュールと出力決定モジュールを含むブラックボックス攻撃に対する敵に訓練されたモデルのロバスト性を著しく向上させることができることがわかった。

In the strong adversarial attacks against deep neural network (DNN), the output of DNN will be misclassified if and only if the last feature layer of the DNN is completely destroyed by adversarial samples, while our studies found that the middle feature layers of the DNN can still extract the effective features of the original normal category in these adversarial attacks. To this end, in this paper, a middle $\bold{F}$eature layer $\bold{A}$nalysis and $\bold{C}$onditional $\bold{M}$atching prediction distribution (FACM) model is proposed to increase the robustness of the DNN against adversarial samples through correcting the output of DNN with the features extracted by the middle layers of DNN. In particular, the middle $\bold{F}$eature layer $\bold{A}$nalysis (FA) module, the conditional matching prediction distribution (CMPD) module and the output decision module are included in our FACM model to collaboratively correct the classification of adversarial samples. The experiments results show that, our FACM model can significantly improve the robustness of the naturally trained model against various attacks, and our FA model can significantly improve the robustness of the adversarially trained model against white-box attacks with weak transferability and black box attacks where FA model includes the FA module and the output decision module, not the CMPD module.
翻訳日:2022-06-03 14:36:57 公開日:2022-06-02
# CVM-Cervix: CNN、Visual Transformer、Multilayer Perceptronを用いたハイブリッドCervical Pap-Smear画像分類フレームワーク

CVM-Cervix: A Hybrid Cervical Pap-Smear Image Classification Framework Using CNN, Visual Transformer and Multilayer Perceptron ( http://arxiv.org/abs/2206.00971v1 )

ライセンス: Link先を確認
Wanli Liu, Chen Li, Ning Xu, Tao Jiang, Md Mamunur Rahaman, Hongzan Sun, Xiangchen Wu, Weiming Hu, Haoyuan Chen, Changhao Sun, Yudong Yao, Marcin Grzegorzek(参考訳) 子宮頸癌は世界で7番目に多いがんであり、女性では4番目に多いがんである。 頸部細胞病理画像分類は子宮頸癌診断の重要な方法である。 細胞病理画像の手動スクリーニングは時間がかかり、エラーが発生しやすい。 自動コンピュータ支援診断システムの出現はこの問題を解決する。 本稿では, 深層学習に基づくCVM-Cervixというフレームワークを提案する。 papスライドを迅速かつ正確に解析することができる。 CVM-Cervixはまず、局所的特徴抽出のための畳み込みニューラルネットワークモジュールとVisual Transformerモジュールを提案し、次に、最終分類のための局所的特徴と大域的特徴を融合する多層パーセプトロンモジュールを設計する。 頚部パップスメア画像分類における提案する cvm-cervix の有効性と可能性について検討した。 また, 臨床作業の実用的ニーズに応じて, 軽量な後処理を行い, モデル圧縮を行う。

Cervical cancer is the seventh most common cancer among all the cancers worldwide and the fourth most common cancer among women. Cervical cytopathology image classification is an important method to diagnose cervical cancer. Manual screening of cytopathology images is time-consuming and error-prone. The emergence of the automatic computer-aided diagnosis system solves this problem. This paper proposes a framework called CVM-Cervix based on deep learning to perform cervical cell classification tasks. It can analyze pap slides quickly and accurately. CVM-Cervix first proposes a Convolutional Neural Network module and a Visual Transformer module for local and global feature extraction respectively, then a Multilayer Perceptron module is designed to fuse the local and global features for the final classification. Experimental results show the effectiveness and potential of the proposed CVM-Cervix in the field of cervical Pap smear image classification. In addition, according to the practical needs of clinical work, we perform a lightweight post-processing to compress the model.
翻訳日:2022-06-03 14:36:22 公開日:2022-06-02
# マッピングはリアルなポイントゴーアナビゲーションに必要か?

Is Mapping Necessary for Realistic PointGoal Navigation? ( http://arxiv.org/abs/2206.00997v1 )

ライセンス: Link先を確認
Ruslan Partsey, Erik Wijmans, Naoki Yokoyama, Oles Dobosevych, Dhruv Batra, Oleksandr Maksymets(参考訳) 自律エージェントは明示的なマップを構築することなく、新しい環境をナビゲートできるのか? PointGoalナビゲーションのタスク('Go to $\Delta x$, $\Delta y$')の理想的な設定(RGB-Dとアクティベーションノイズなし、完璧なGPS+Compass)では、大規模な強化学習でトレーニングされたタスク非依存のコンポーネント(CNNとRNN)で構成されるマップレスニューラルネットワークが、標準データセット(Gibson)で100%の成功を達成する。 しかし、現実的な環境でのPointNav(RGB-Dとアクティベーションノイズなし、GPS+コンパスなし)にとっては、これはオープンな質問だ。 このタスクの最も強い成果は71.7%の成功である。 まず、GPS+Compassの欠如という、パフォーマンス低下の主な原因(おそらくは唯一のこと)を特定します。 RGB-Dセンシングとアクティベーションノイズに直面する完璧なGPS+コンパスを持つエージェントは、99.8%の成功(Gibson-v2 val)を達成する。 このことは、(ミームを言い換えれば)堅牢な視覚計測が、現実的なPointNavに必要なすべてであることを示唆している。 運用仮説として、データセットとモデルサイズをスケールし、人間のアノテーションのないデータ拡張技術を開発し、視覚計測のためのモデルをトレーニングします。 我々は,ハビタブル・リアルなpointnavチャレンジを71%から94%成功(+32,4%相対)、53%から74%spl(+39,6%相対)に進める。 当社のアプローチではデータセットの飽和や“解決”は行いませんが、この強力な改善と(locobotへの)ゼロショットsim2実数転送の約束が組み合わさることで、現実的な設定であっても、明示的なマッピングはナビゲーションに必要ではないという仮説と一致した証拠が得られます。

Can an autonomous agent navigate in a new environment without building an explicit map? For the task of PointGoal navigation ('Go to $\Delta x$, $\Delta y$') under idealized settings (no RGB-D and actuation noise, perfect GPS+Compass), the answer is a clear 'yes' - map-less neural models composed of task-agnostic components (CNNs and RNNs) trained with large-scale reinforcement learning achieve 100% Success on a standard dataset (Gibson). However, for PointNav in a realistic setting (RGB-D and actuation noise, no GPS+Compass), this is an open question; one we tackle in this paper. The strongest published result for this task is 71.7% Success. First, we identify the main (perhaps, only) cause of the drop in performance: the absence of GPS+Compass. An agent with perfect GPS+Compass faced with RGB-D sensing and actuation noise achieves 99.8% Success (Gibson-v2 val). This suggests that (to paraphrase a meme) robust visual odometry is all we need for realistic PointNav; if we can achieve that, we can ignore the sensing and actuation noise. With that as our operating hypothesis, we scale the dataset and model size, and develop human-annotation-free data-augmentation techniques to train models for visual odometry. We advance the state of art on the Habitat Realistic PointNav Challenge from 71% to 94% Success (+32, 4% relative) and 53% to 74% SPL (+39, 6% relative). While our approach does not saturate or 'solve' this dataset, this strong improvement combined with promising zero-shot sim2real transfer (to a LoCoBot) provides evidence consistent with the hypothesis that explicit mapping may not be necessary for navigation, even in a realistic setting.
翻訳日:2022-06-03 14:36:03 公開日:2022-06-02
# 映像行動予測のための統一再帰モデル

Unified Recurrence Modeling for Video Action Anticipation ( http://arxiv.org/abs/2206.01009v1 )

ライセンス: Link先を確認
Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Simon See, Oswald Lanz(参考訳) 現在の状況の証拠に基づく将来の出来事を予測することは、人間の本質的なスキルであり、あらゆる意思決定の結果を予測する鍵である。 例えば、人工視覚では、それに関連する将来のビデオフレームを観察することなく、それが起こる前に次の人間の行動を予測したい。 行動予測のためのコンピュータビジョンモデルは、標的行動の前兆の微妙な証拠を収集することが期待される。 先行研究において、繰り返しモデリングは、しばしばより良いパフォーマンスをもたらすが、強い時間的推論は合理的な予測の鍵となる要素であると仮定される。 そこで本研究では,メッセージパッシングフレームワークによる映像行動予測のための統一的再帰モデルを提案する。 時空における情報の流れは頂点とエッジの相互作用によって記述することができ、各入射フレームの頂点の変化は基礎となるダイナミクスを反映している。 我々のモデルはメッセージパッシング関数のビルディングブロックとして自己注意を利用する。 さらに,頂点間の接続性を改善するために,エンドツーエンドで最適化可能なさまざまなエッジ学習戦略を導入する。 実験結果から,提案手法はEPIC-Kitchenデータセットの大規模化に優れていた。

Forecasting future events based on evidence of current conditions is an innate skill of human beings, and key for predicting the outcome of any decision making. In artificial vision for example, we would like to predict the next human action before it happens, without observing the future video frames associated to it. Computer vision models for action anticipation are expected to collect the subtle evidence in the preamble of the target actions. In prior studies recurrence modeling often leads to better performance, the strong temporal inference is assumed to be a key element for reasonable prediction. To this end, we propose a unified recurrence modeling for video action anticipation via message passing framework. The information flow in space-time can be described by the interaction between vertices and edges, and the changes of vertices for each incoming frame reflects the underlying dynamics. Our model leverages self-attention as the building blocks for each of the message passing functions. In addition, we introduce different edge learning strategies that can be end-to-end optimized to gain better flexibility for the connectivity between vertices. Our experimental results demonstrate that our proposed method outperforms previous works on the large-scale EPIC-Kitchen dataset.
翻訳日:2022-06-03 14:35:22 公開日:2022-06-02
# 潜在カテゴリからの学習によるロングテール認識

Long-tailed Recognition by Learning from Latent Categories ( http://arxiv.org/abs/2206.01010v1 )

ライセンス: Link先を確認
Weide Liu, Zhonghua Wu, Yiming Wang, Henghui Ding, Fayao Liu, Jie Lin and Guosheng Lin(参考訳) 本研究では,長い尾を持つ画像認識の課題に対処する。 従来のロングテール認識手法は、モデルトレーニング中にテールクラスに注意を向けるために、テールクラスのデータ拡張や再バランス戦略に重点を置いていた。 しかし、テールクラスのトレーニング画像が限られているため、テールクラスの画像の多様性は依然として制限されており、特徴表現が不十分である。 本研究は,頭部と尾部の共通潜時特徴が,より優れた特徴表現を与えるために利用できることを仮定する。 そこで我々はLCReg法(Latent Categories based long-tail Recognition)を提案する。 具体的には、頭と尾のクラス間で共有されるクラスに依存しない潜伏特徴のセットを学ぶことを提案する。 次に,潜在機能に意味的データ拡張を適用することにより,暗黙的にトレーニングサンプルの多様性を高める。 5つのロングテール画像認識データセットに関する広範囲な実験により,提案手法が従来の手法を大幅に上回ることができ,最新の結果が得られることを示した。

In this work, we address the challenging task of long-tailed image recognition. Previous long-tailed recognition methods commonly focus on the data augmentation or re-balancing strategy of the tail classes to give more attention to tail classes during the model training. However, due to the limited training images for tail classes, the diversity of tail class images is still restricted, which results in poor feature representations. In this work, we hypothesize that common latent features among the head and tail classes can be used to give better feature representation. Motivated by this, we introduce a Latent Categories based long-tail Recognition (LCReg) method. Specifically, we propose to learn a set of class-agnostic latent features shared among the head and tail classes. Then, we implicitly enrich the training sample diversity via applying semantic data augmentation to the latent features. Extensive experiments on five long-tailed image recognition datasets demonstrate that our proposed LCReg is able to significantly outperform previous methods and achieve state-of-the-art results.
翻訳日:2022-06-03 14:35:04 公開日:2022-06-02
# ビデオ質問応答のための構造化2ストリーム注意ネットワーク

Structured Two-stream Attention Network for Video Question Answering ( http://arxiv.org/abs/2206.01017v1 )

ライセンス: Link先を確認
Lianli Gao, Pengpeng Zeng, Jingkuan Song, Yuan-Fang Li, Wu Liu, Tao Mei, Heng Tao Shen(参考訳) 現在まで、視覚的質問応答(VQA)(画像QAとビデオQA)は、特にビデオQAにおいて、視覚と言語理解の聖杯である。 画像領域の細部とそれに対応する質問との関係を主に理解することに焦点を当てた画像QAと比較して、ビデオQAは、ビデオの空間的・長距離時間構造と、正確な回答を提供するためのテキストの両方を共同で推論するモデルを必要とする。 本稿では,構造化された2ストリームアテンションネットワークであるstaを提案することで,ビデオのコンテンツに関する自由形式あるいは開放型自然言語質問に答えることによって,ビデオqaの問題に具体的に取り組む。 まず,構造化セグメントコンポーネントを用いて,映像中のリッチな長距離時間構造を推定し,テキスト特徴をエンコードする。 そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。 最後に、構造化された2ストリーム融合コンポーネントは、クエリとビデオ認識コンテキスト表現の異なるセグメントを組み込んで、回答を推測する。 大規模ビデオQAデータセットであるtextit{TGIF-QA} を用いた実験により,提案手法は最も優れた手法(つまり,ビデオ入力の1つの表現)を13.0%,13.5%,11.0%,0.3 for Action,Trans。 、TrameQA、Countタスク。 また、Action, Transで最高の競争相手(つまり2つの表現)を上回っている。 トラメカタスクは4.1%,4.7%,5.1%増加した。

To date, visual question answering (VQA) (i.e., image QA and video QA) is still a holy grail in vision and language understanding, especially for video QA. Compared with image QA that focuses primarily on understanding the associations between image region-level details and corresponding questions, video QA requires a model to jointly reason across both spatial and long-range temporal structures of a video as well as text to provide an accurate answer. In this paper, we specifically tackle the problem of video QA by proposing a Structured Two-stream Attention network, namely STA, to answer a free-form or open-ended natural language question about the content of a given video. First, we infer rich long-range temporal structures in videos using our structured segment component and encode text features. Then, our structured two-stream attention component simultaneously localizes important visual instance, reduces the influence of background video and focuses on the relevant text. Finally, the structured two-stream fusion component incorporates different segments of query and video aware context representation and infers the answers. Experiments on the large-scale video QA dataset \textit{TGIF-QA} show that our proposed method significantly surpasses the best counterpart (i.e., with one representation for the video input) by 13.0%, 13.5%, 11.0% and 0.3 for Action, Trans., TrameQA and Count tasks. It also outperforms the best competitor (i.e., with two representations) on the Action, Trans., TrameQA tasks by 4.1%, 4.7%, and 5.1%.
翻訳日:2022-06-03 14:34:49 公開日:2022-06-02
# プレフィックス条件付言語とラベルスーパービジョン

Prefix Conditioning Unifies Language and Label Supervision ( http://arxiv.org/abs/2206.01125v1 )

ライセンス: Link先を確認
Kuniaki Saito, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee, Kate Saenko, Tomas Pfister(参考訳) 視覚言語によるコントラスト学習は,大量の画像キャプションペアデータを活用することによって,新たな学習パラダイムを提案する。 キャプション監督は、強力なゼロショット画像認識性能を実現する語彙の広範なカバレッジを提供する。 一方、ラベル管理は、ラベル指向で稀なカテゴリをカバーできる、よりターゲット的な視覚表現を学習する。 コントラストイメージキャプチャ事前学習における2種類の監督の相補的利点を得るために,最近,クラスラベルをプロンプトと呼ばれる予め定義されたテンプレートで文に変換する手法が提案されている。 しかし、実際のキャプションとプロンプト文の単純な統一は、言語エンコーダでテキストの分配シフトを適切に処理できないため、学習の複雑化につながる可能性がある。 本研究では,入力文の種類(例:キャプションまたはプロンプト)を学習時に言語エンコーダに通知する接頭辞トークンを用いて,これらの2種類の指導をシンプルかつ効果的に統一する手法を提案する。 提案手法は汎用的であり,CLIPやUniCLなどの既存のVL事前学習目標に容易に統合できる。 実験では,この簡易な手法により,事前学習したモデルのゼロショット画像認識精度が劇的に向上することを示す。

Vision-language contrastive learning suggests a new learning paradigm by leveraging a large amount of image-caption-pair data. The caption supervision excels at providing wide coverage in vocabulary that enables strong zero-shot image recognition performance. On the other hand, label supervision offers to learn more targeted visual representations that are label-oriented and can cover rare categories. To gain the complementary advantages of both kinds of supervision for contrastive image-caption pre-training, recent works have proposed to convert class labels into a sentence with pre-defined templates called prompts. However, a naive unification of the real caption and the prompt sentences could lead to a complication in learning, as the distribution shift in text may not be handled properly in the language encoder. In this work, we propose a simple yet effective approach to unify these two types of supervision using prefix tokens that inform a language encoder of the type of the input sentence (e.g., caption or prompt) at training time. Our method is generic and can be easily integrated into existing VL pre-training objectives such as CLIP or UniCL. In experiments, we show that this simple technique dramatically improves the performance in zero-shot image recognition accuracy of the pre-trained model.
翻訳日:2022-06-03 14:34:18 公開日:2022-06-02
# トランスフォーマーによる医療画像変換? キー特性, 現状, 今後の展望の比較検討

Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives ( http://arxiv.org/abs/2206.01136v1 )

ライセンス: Link先を確認
Jun Li, Junyu Chen, Yucheng Tang, Bennett A. Landman and S. Kevin Zhou(参考訳) ディープラーニングの最新の技術進歩であるtransformerは、自然言語処理やコンピュータビジョンで普及している。 医療画像はコンピュータビジョンに類似しているため、医療画像におけるトランスフォーマーの現状を問うと、質問は自然である: トランスフォーマーモデルは医療画像に変換できるか? 本稿では,調査に対する回答を試みる。 本稿では,トランスフォーマーの基礎,特に畳み込みニューラルネットワーク(CNN)と比較し,トランスフォーマーを特徴付ける重要な定義特性を強調した上で,医用画像の分割,認識,検出,登録,再構築,拡張といった領域で現在行われている研究の進展を示す,最先端のトランスフォーマーベースのアプローチについて概説する。 特に,トランスフォーマーとcnnの比較から主に派生したトランスフォーマーのキー定義特性と,トランスフォーマーとcnnを組み合わせる方法を特定するアーキテクチャに基づいて,読者がレビュー対象のアプローチの背後にある理論的根拠を最善に理解するのに役立つ点を特徴とする。 我々は今後の展望について議論する。

Transformer, the latest technological advance of deep learning, has gained prevalence in natural language processing or computer vision. Since medical imaging bear some resemblance to computer vision, it is natural to inquire about the status quo of Transformers in medical imaging and ask the question: can the Transformer models transform medical imaging? In this paper, we attempt to make a response to the inquiry. After a brief introduction of the fundamentals of Transformers, especially in comparison with convolutional neural networks (CNNs), and highlighting key defining properties that characterize the Transformers, we offer a comprehensive review of the state-of-the-art Transformer-based approaches for medical imaging and exhibit current research progresses made in the areas of medical image segmentation, recognition, detection, registration, reconstruction, enhancement, etc. In particular, what distinguishes our review lies in its organization based on the Transformer's key defining properties, which are mostly derived from comparing the Transformer and CNN, and its type of architecture, which specifies the manner in which the Transformer and CNN are combined, all helping the readers to best understand the rationale behind the reviewed approaches. We conclude with discussions of future perspectives.
翻訳日:2022-06-03 14:33:55 公開日:2022-06-02
# 弱境界ボックススーパービジョンによる3次元シーンのセマンティック・インスタンス・セグメンテーション

Semantic Instance Segmentation of 3D Scenes Through Weak Bounding Box Supervision ( http://arxiv.org/abs/2206.01203v1 )

ライセンス: Link先を確認
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll(参考訳) 現在の3Dセグメンテーション手法は、大規模なポイントクラウドデータセットに大きく依存している。 ポイント毎の密接なアノテーションの必要性を回避する試みはほとんど行われていない。 本稿では,弱教師付き3dインスタンスセマンティクスセグメンテーションについて検討する。 キーとなるアイデアは、3Dバウンディングボックスラベルを活用することです。 実際,弱境界ボックスラベルのみを用いて高密度セグメンテーションモデルを訓練することは可能である。 提案手法の中核であるbox2maskは,従来のハフ投票に触発された,バウンディングボックスパラメータを直接投票する深層モデルと,バウンディングボックス投票に限定したクラスタリング手法である。 これは一般的に使われるセンター投票以上のもので、境界ボックスアノテーションを十分に活用しない。 scannetテストでは,弱教師付きモデルが他の弱教師付きアプローチ (+18 map50) において有意な性能を達成している。 注目すべきは、完全な教師付きモデルの97%のパフォーマンスを達成することだ。 提案手法の実用性を証明するため,最近リリースされたARKitScenesデータセットに3Dバウンディングボックスのみをアノテートしたセグメンテーション結果を示し,初めて説得力のある3Dインスタンスセグメンテーション結果を得る。

Current 3D segmentation methods heavily rely on large-scale point-cloud datasets, which are notoriously laborious to annotate. Few attempts have been made to circumvent the need for dense per-point annotations. In this work, we look at weakly-supervised 3D instance semantic segmentation. The key idea is to leverage 3D bounding box labels which are easier and faster to annotate. Indeed, we show that it is possible to train dense segmentation models using only weak bounding box labels. At the core of our method, Box2Mask, lies a deep model, inspired by classical Hough voting, that directly votes for bounding box parameters, and a clustering method specifically tailored to bounding box votes. This goes beyond commonly used center votes, which would not fully exploit the bounding box annotations. On ScanNet test, our weakly supervised model attains leading performance among other weakly supervised approaches (+18 mAP50). Remarkably, it also achieves 97% of the performance of fully supervised models. To prove the practicality of our approach, we show segmentation results on the recently released ARKitScenes dataset which is annotated with 3D bounding boxes only, and obtain, for the first time, compelling 3D instance segmentation results.
翻訳日:2022-06-03 14:32:25 公開日:2022-06-02
# 自己監督型視覚表現学習のためのシームズ画像モデリング

Siamese Image Modeling for Self-Supervised Vision Representation Learning ( http://arxiv.org/abs/2206.01204v1 )

ライセンス: Link先を確認
Chenxin Tao, Xizhou Zhu, Gao Huang, Yu Qiao, Xiaogang Wang, Jifeng Dai(参考訳) 自己教師付き学習(ssl)は、さまざまなダウンストリームビジョンタスクにおいて優れたパフォーマンスを提供します。 2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。 IDは、機能崩壊を避けながら、同じイメージから異なるビューの表現をまとめます。 線形プローブではよく機能するが、検出性能は劣る。 一方、MIMは、マスク画像が与えられたオリジナルコンテンツを再構成する。 密度予測では優れるが、線形探索ではうまく機能しない。 それらの区別は、意味的アライメントまたは空間感度の表現要求を無視して生じる。 具体的には,(1)意味的アライメントにより,意味論的に類似した視点を近接表現に投影する必要があること,(2)空間的感度は画像内の局所構造をモデル化する必要があること,の2点を考察した。 そのため、画像内容の条件分布をモデル化するため、マスキング画像による密表現の予測が有用である。 これらの分析により,同画像からの別のマスキングビューに基づいて,拡張ビューの濃密な表現を予測できるシメス画像モデリング(SIM)を提案する。 本手法は2つの枝を持つシームズネットワークを用いる。 オンラインブランチは、第1のビューをエンコードし、これら2つのビュー間の相対的な位置に応じて第2のビューの表現を予測する。 ターゲットブランチは、第2のビューをエンコードしてターゲットを生成する。 このようにして,IDとMIMを用いて線形探索と密度予測をそれぞれ同等に行うことができる。 また, 線形探索結果が大域的損失を伴わずに得られることを示す。 コードは解放される。

Self-supervised learning (SSL) has delivered superior performance on a variety of downstream vision tasks. Two main-stream SSL frameworks have been proposed, i.e., Instance Discrimination (ID) and Masked Image Modeling (MIM). ID pulls together the representations of different views from the same image, while avoiding feature collapse. It does well on linear probing but is inferior in detection performance. On the other hand, MIM reconstructs the original content given a masked image. It excels at dense prediction but fails to perform well on linear probing. Their distinctions are caused by neglecting the representation requirements of either semantic alignment or spatial sensitivity. Specifically, we observe that (1) semantic alignment demands semantically similar views to be projected into nearby representation, which can be achieved by contrasting different views with strong augmentations; (2) spatial sensitivity requires to model the local structure within an image. Predicting dense representations with masked image is therefore beneficial because it models the conditional distribution of image content. Driven by these analysis, we propose Siamese Image Modeling (SIM), which predicts the dense representations of an augmented view, based on another masked view from the same image but with different augmentations. Our method uses a Siamese network with two branches. The online branch encodes the first view, and predicts the second view's representation according to the relative positions between these two views. The target branch produces the target by encoding the second view. In this way, we are able to achieve comparable linear probing and dense prediction performances with ID and MIM, respectively. We also demonstrate that decent linear probing result can be obtained without a global loss. Code shall be released.
翻訳日:2022-06-03 14:32:02 公開日:2022-06-02
# インスタンス依存型部分ラベル学習のためのプログレッシブ・パーフィケーション

Progressive Purification for Instance-Dependent Partial Label Learning ( http://arxiv.org/abs/2206.00830v1 )

ライセンス: Link先を確認
Ning Xu, Jiaqi Lv, Biao Liu, Congyu Qiao, and Xin Geng(参考訳) 部分ラベル学習 (Partial label learning, PLL) は、部分ラベル(PL)を持つインスタンスから複数のクラス分類器を訓練することを目的としている。 近年、PLのインスタンス非依存生成プロセスが広く研究され、PLLにおける実用的および理論的進歩が数多くなされているのに対して、PLの実用的設定には比較的注意が払われていない、すなわち、PLは真のラベルだけでなく、インスタンス自体にも依存している。 本稿では,POPが学習モデルを更新し,各PLをモデル学習の次のエポックに利用し,偽の候補ラベルを段階的に移動させることにより,理論的に基礎的かつ実用的な手法であるPrOgressive Purification(POP)を提案する。 理論的には、popはモデルが信頼できる領域を適切に拡大し、最終的にベイズ最適分類器を軽度な仮定で近似することを証明する。技術的には、popは任意の損失で柔軟であり、ディープネットワークと互換性があるため、以前の高度なpll損失を組み込むことができ、パフォーマンスが大幅に向上することが多い。

Partial label learning (PLL) aims to train multi-class classifiers from instances with partial labels (PLs)-a PL for an instance is a set of candidate labels where a fixed but unknown candidate is the true label. In the last few years, the instance-independent generation process of PLs has been extensively studied, on the basis of which many practical and theoretical advances have been made in PLL, whereas relatively less attention has been paid to the practical setting of instance-dependent PLs, namely, the PL depends not only on the true label but the instance itself. In this paper, we propose a theoretically grounded and practically effective approach called PrOgressive Purification (POP) for instance-dependent PLL: in each epoch, POP updates the learning model while purifying each PL for the next epoch of the model training by progressively moving out false candidate labels. Theoretically, we prove that POP enlarges the region appropriately fast where the model is reliable, and eventually approximates the Bayes optimal classifier with mild assumptions; technically, POP is flexible with arbitrary losses and compatible with deep networks, so that the previous advanced PLL losses can be embedded in it and the performance is often significantly improved.
翻訳日:2022-06-03 14:28:16 公開日:2022-06-02
# フィードバックグラフを用いたオンライン学習のためのほぼ最適両世界の最適アルゴリズム

Nearly Optimal Best-of-Both-Worlds Algorithms for Online Learning with Feedback Graphs ( http://arxiv.org/abs/2206.00873v1 )

ライセンス: Link先を確認
Shinji Ito, Taira Tsuchiya, Junya Honda(参考訳) 本研究では,一般有向フィードバックグラフを用いたオンライン学習について考察する。 この問題に対して,確率的環境に対する多対数的後悔境界だけでなく,敵対的環境に対するほぼ厳密な後悔境界を実現するベスト・オブ・ザ・ワールドズアルゴリズムを提案する。 alon et alのように。 2015] は、厳密な後悔の限界がフィードバックグラフの構造に依存することを示した: \textit{strongly observable} グラフは、$\tilde{\theta}( \alpha^{1/2} t^{1/2} )$ のミニマックス後悔を与えるが、 \textit{weakly observable} グラフは$\tilde{\theta}( \delta^{1/3} t^{2/3} )$ のミニマックス後悔を誘導する。 強可観測グラフに対する提案アルゴリズムは、逆向き環境に対しては$\tilde{O}( \alpha^{1/2} T^{1/2} )$、確率的環境においては$ {O} ( \frac{\alpha (\ln T)^3 }{\Delta_{\min}} ) $ の残差を持つ。 この結果は、erez氏とkoren氏[2021]によって提起されたオープン質問を解決している。 また,逆境環境に対して$\tilde{o}( \delta^{1/3}t^{2/3})$と確率環境に対する多対数的後悔を得られる弱可観測グラフのアルゴリズムを提供する。 提案アルゴリズムは、学習率の更新ルールを新たに設計した後続のリーダアプローチに基づいている。

This study considers online learning with general directed feedback graphs. For this problem, we present best-of-both-worlds algorithms that achieve nearly tight regret bounds for adversarial environments as well as poly-logarithmic regret bounds for stochastic environments. As Alon et al. [2015] have shown, tight regret bounds depend on the structure of the feedback graph: \textit{strongly observable} graphs yield minimax regret of $\tilde{\Theta}( \alpha^{1/2} T^{1/2} )$, while \textit{weakly observable} graphs induce minimax regret of $\tilde{\Theta}( \delta^{1/3} T^{2/3} )$, where $\alpha$ and $\delta$, respectively, represent the independence number of the graph and the domination number of a certain portion of the graph. Our proposed algorithm for strongly observable graphs has a regret bound of $\tilde{O}( \alpha^{1/2} T^{1/2} ) $ for adversarial environments, as well as of $ {O} ( \frac{\alpha (\ln T)^3 }{\Delta_{\min}} ) $ for stochastic environments, where $\Delta_{\min}$ expresses the minimum suboptimality gap. This result resolves an open question raised by Erez and Koren [2021]. We also provide an algorithm for weakly observable graphs that achieves a regret bound of $\tilde{O}( \delta^{1/3}T^{2/3} )$ for adversarial environments and poly-logarithmic regret for stochastic environments. The proposed algorithms are based on the follow-the-perturbed-leader approach combined with newly designed update rules for learning rates.
翻訳日:2022-06-03 14:27:52 公開日:2022-06-02
# グラフ学習による近似ネットワークモチーフマイニング

Approximate Network Motif Mining Via Graph Learning ( http://arxiv.org/abs/2206.01008v1 )

ライセンス: Link先を確認
Carlos Oliver, Dexiong Chen, Vincent Mallet, Pericles Philippopoulos, Karsten Borgwardt(参考訳) ネットワークモチーフとしても知られる頻繁で構造的な部分グラフは多くのグラフデータセットの貴重な特徴である。 しかし、任意のデータセット(モチーフマイニング)でモチーフ集合を識別する計算の複雑さは、多くの実世界のデータセットでの使用を制限している。 データセットの統計特性を自動で活用することにより、機械学習アプローチは組合せ複雑性を伴ういくつかのタスクにおいて有望であることが示され、ネットワークモチーフマイニングの候補となる。 本研究では,モチーフマイニングを目的とした機械学習手法の開発を促進する。 ノードラベリングタスクとしてモチーフマイニング問題の定式化を提案する。 さらに,モチーフ数,サイズ,トポロジ,不足など,モデルがモチーフ発見のさまざまな側面を捉える能力をテストするためのベンチマークデータセットと評価指標を構築した。 次に,本研究は,本課題を完全微分可能な方法で解こうとする最初の試みであるモチーフイスタを提案する。 最後に,この学習環境がグラフ分類タスクの汎用データマイニングと解釈可能な特徴抽出に同時に適用可能であることを示す。

Frequent and structurally related subgraphs, also known as network motifs, are valuable features of many graph datasets. However, the high computational complexity of identifying motif sets in arbitrary datasets (motif mining) has limited their use in many real-world datasets. By automatically leveraging statistical properties of datasets, machine learning approaches have shown promise in several tasks with combinatorial complexity and are therefore a promising candidate for network motif mining. In this work we seek to facilitate the development of machine learning approaches aimed at motif mining. We propose a formulation of the motif mining problem as a node labelling task. In addition, we build benchmark datasets and evaluation metrics which test the ability of models to capture different aspects of motif discovery such as motif number, size, topology, and scarcity. Next, we propose MotiFiesta, a first attempt at solving this problem in a fully differentiable manner with promising results on challenging baselines. Finally, we demonstrate through MotiFiesta that this learning setting can be applied simultaneously to general-purpose data mining and interpretable feature extraction for graph classification tasks.
翻訳日:2022-06-03 14:27:09 公開日:2022-06-02
# (参考訳) 特徴空間における騒音分布の形状に依存するラベル雑音に対するロバスト性

Robustness to Label Noise Depends on the Shape of the Noise Distribution in Feature Space ( http://arxiv.org/abs/2206.01106v1 )

ライセンス: CC BY 4.0
Diane Oyen, Michal Kucer, Nick Hengartner, Har Simrat Singh(参考訳) 機械学習の分類器は、経験的および理論的に、特定の条件下でノイズをラベルすることに対して堅牢であることが実証されている。 ラベルノイズを特徴空間上の分布としてモデル化することにより,この典型的な仮定を超えて一般化する理論的枠組みを提案する。 提案手法では,雑音分布の大きさと形状の両方が後続度に影響を与え,ノイズ分布の形状は,雑音が決定境界が移動可能な特徴空間に集中する場合,分類性能に強い影響を与えることを示した。 一様ラベルノイズ(特徴やクラスラベルに依存しない)の特別な場合について、ノイズサンプルの比率が$\frac{c-1}{c}$(例えば10クラスの90%)を超えるまで、$c$クラスのベイズ最適分類器はラベルノイズに対して頑健であることを示す。 しかし、クラス依存のラベルノイズ(クラスラベルが与えられた特徴に依存しない)の特別な場合、チップングポイントは50%以下である。 最も重要なことは、ノイズ分布が決定境界(ラベルノイズは特徴空間に直接依存する)をターゲットにしている場合、小さな雑音でも分類の堅牢性は低下する可能性があることである。 近年のラベルノイズ緩和手法の評価においても,特徴量に依存するラベルノイズの精度が低下している。 これらの結果は、ノイズ分布が特徴空間において均一である場合、機械学習がラベルノイズをうまく処理する理由を説明しているが、決定境界が移動可能な特徴空間の領域に集中する場合、ラベルノイズを克服することが困難であることを示している。

Machine learning classifiers have been demonstrated, both empirically and theoretically, to be robust to label noise under certain conditions -- notably the typical assumption is that label noise is independent of the features given the class label. We provide a theoretical framework that generalizes beyond this typical assumption by modeling label noise as a distribution over feature space. We show that both the scale and the shape of the noise distribution influence the posterior likelihood; and the shape of the noise distribution has a stronger impact on classification performance if the noise is concentrated in feature space where the decision boundary can be moved. For the special case of uniform label noise (independent of features and the class label), we show that the Bayes optimal classifier for $c$ classes is robust to label noise until the ratio of noisy samples goes above $\frac{c-1}{c}$ (e.g. 90% for 10 classes), which we call the tipping point. However, for the special case of class-dependent label noise (independent of features given the class label), the tipping point can be as low as 50%. Most importantly, we show that when the noise distribution targets decision boundaries (label noise is directly dependent on feature space), classification robustness can drop off even at a small scale of noise. Even when evaluating recent label-noise mitigation methods we see reduced accuracy when label noise is dependent on features. These findings explain why machine learning often handles label noise well if the noise distribution is uniform in feature-space; yet it also points to the difficulty of overcoming label noise when it is concentrated in a region of feature space where a decision boundary can move.
翻訳日:2022-06-03 14:24:42 公開日:2022-06-02
# 学習型変換型Deep Tensor Low-Rank Network(DTLR-Net)を用いた動的MRI

Dynamic MRI using Learned Transform-based Deep Tensor Low-Rank Network (DTLR-Net) ( http://arxiv.org/abs/2206.00850v1 )

ライセンス: Link先を確認
Yinghao Zhang, Peng Li, Yue Hu(参考訳) 低ランク行列は, 動的MR画像再構成に利用され, 良好な性能を得たが, 最近では3次元動的MRデータセットの強力な代替表現として低ランクテンソルモデルが登場している。 本稿では,心臓の動的mr画像より前のテンソル低ランクを学習し,モデルに基づく深層学習ネットワークを提案する。 動的データセットをローランクテンソルとして直接表現するのではなく,変換領域におけるテンソル低ランク特性を利用する学習変換演算子を提案する。 特に、t-SVDテンソル分解を単位変換されたt-SVDに一般化することにより、変換テンソル核ノルム(TTNN)を定義し、テンソル低ランク化を強制する。 これにより、TTNN正規化最適化問題を用いて動的MRI再構成問題を定式化する。 コストの最小化に使用されるADMMに基づく反復アルゴリズムをディープネットワークに展開し、畳み込みニューラルネットワーク(CNN)を用いて変換を学習し、特徴領域の再構成品質を向上する。 心血管MRIの再建実験の結果, 提案手法は最先端のアルゴリズムと比較して, 回復率を向上できることが示された。

While low-rank matrix prior has been exploited in dynamic MR image reconstruction and has obtained satisfying performance, low-rank tensors models have recently emerged as powerful alternative representations for three-dimensional dynamic MR datasets. In this paper, we introduce a model-based deep learning network by learning the tensor low-rank prior of the cardiac dynamic MR images. Instead of representing the dynamic dataset as a low-rank tensor directly, we propose a learned transformation operator to exploit the tensor low-rank property in a transform domain. In particular, by generalizing the t-SVD tensor decomposition into a unitary transformed t-SVD, we define a transformed tensor nuclear norm (TTNN) to enforce the tensor low-rankness. The dynamic MRI reconstruction problem is thus formulated using a TTNN regularized optimization problem. An iterative algorithm based on ADMM used to minimize the cost is unrolled into a deep network, where the transform is learned using convolutional neural networks (CNNs) to promote the reconstruction quality in the feature domain. Experimental results on cardiac cine MRI reconstruction demonstrate that the proposed framework is able to provide improved recovery results compared with the state-of-the-art algorithms.
翻訳日:2022-06-03 14:05:08 公開日:2022-06-02
# 出血の眼底撮影における従来モデルと深部特徴モデルの比較

Comparing Conventional and Deep Feature Models for Classifying Fundus Photography of Hemorrhages ( http://arxiv.org/abs/2206.01118v1 )

ライセンス: Link先を確認
Tamoor Aziz, Chalie Charoenlarpnopparut, Srijidtra Mahapakulchai(参考訳) 糖尿病網膜症(英: Diabetic retinopathy)は、異常を生じ、視覚障害を引き起こす眼疾患である。 本研究は出血検出法を用いて従来型と深部型の分類を比較検討した。 特に、血管に繋がる出血、または網膜境界に居住し、困難を報告している。 当初、適応輝度調整とコントラスト強調は劣化画像を補正する。 ガウシアンマッチングフィルタ,エントロピー閾値,形態学的操作により出血の予測的位置を推定する。 出血は局所的な強度のばらつきに基づく新しいテクニックによって区分される。 特徴を従来の手法と深層モデルで抽出してサポートベクターマシンを訓練し,評価した。 各モデルの評価基準は有望だが, 比較的深層モデルの方が従来の特徴よりも有効であることが示唆された。

Diabetic retinopathy is an eye-related pathology creating abnormalities and causing visual impairment, proper treatment of which requires identifying irregularities. This research uses a hemorrhage detection method and compares classification of conventional and deep features. Especially, method identifies hemorrhage connected with blood vessels or reside at retinal border and reported challenging. Initially, adaptive brightness adjustment and contrast enhancement rectify degraded images. Prospective locations of hemorrhages are estimated by a Gaussian matched filter, entropy thresholding, and morphological operation. Hemorrhages are segmented by a novel technique based on regional variance of intensities. Features are then extracted by conventional methods and deep models for training support vector machines, and results evaluated. Evaluation metrics for each model are promising, but findings suggest that comparatively, deep models are more effective than conventional features.
翻訳日:2022-06-03 14:04:47 公開日:2022-06-02
# 意図しないニューラルデータセットの深層学習

Deep Learning on Implicit Neural Datasets ( http://arxiv.org/abs/2206.01178v1 )

ライセンス: Link先を確認
Clinton J. Wang and Polina Golland(参考訳) Inlicit Neural representations (INR) は、連続データを保存するための高速で軽量なツールとなっているが、これまでのところ、INRをデータ表現として直接学習する一般的な方法は存在しない。 グリッドベースの機能や操作に逆戻りすることなく、任意のタイプのinrsで直接学習や推論を行うための原則付きディープラーニングフレームワークを導入する。 InR-Netsは、低差分シーケンスでINRを評価し、ネットワーク全体の準モンテカルロ(QMC)統合を可能にする。 我々は INR-Nets が $L^2$ 関数の間の写像の大きなクラスにおける普遍近似であることを証明した。 さらに、INR-Net は経験的測度の下で収束勾配を持ち、バックプロパゲーションを可能にする。 inr-netを離散ネットワークの連続的一般化として設計し,事前学習モデルを用いて初期化可能とした。 InR$\to$label)タスクとセグメンテーション(INR$\to$INR)タスクによるINR-Netの学習を実演する。

Implicit neural representations (INRs) have become fast, lightweight tools for storing continuous data, but to date there is no general method for learning directly with INRs as a data representation. We introduce a principled deep learning framework for learning and inference directly with INRs of any type without reverting to grid-based features or operations. Our INR-Nets evaluate INRs on a low discrepancy sequence, enabling quasi-Monte Carlo (QMC) integration throughout the network. We prove INR-Nets are universal approximators on a large class of maps between $L^2$ functions. Additionally, INR-Nets have convergent gradients under the empirical measure, enabling backpropagation. We design INR-Nets as a continuous generalization of discrete networks, enabling them to be initialized with pre-trained models. We demonstrate learning of INR-Nets on classification (INR$\to$label) and segmentation (INR$\to$INR) tasks.
翻訳日:2022-06-03 14:04:32 公開日:2022-06-02
# 局所リプシッツ連続性の下での単調包有物の主双対外挿法と変分不等式、円錐制約サドル点、凸錐最適化問題への応用

Primal-dual extrapolation methods for monotone inclusions under local Lipschitz continuity with applications to variational inequality, conic constrained saddle point, and convex conic optimization problems ( http://arxiv.org/abs/2206.00973v1 )

ライセンス: Link先を確認
Zhaosong Lu and Sanyou Mei(参考訳) 本稿では, 2 つの単調作用素の和で 0 を見つけ, 1 を極大単調,もう 1 を局所リプシッツ連続とする構造的単調包含問題 (mi) のクラスを考える。 特に,まず,各パラメータをバックトラックライン探索方式により適応的に更新する点と演算子外挿手法を用いて,古典的前方後方分割法を改良することにより,構造化された強mi問題を解くためのpde(primal-dual extrapolation)法を提案する。 提案手法は, ほぼパラメータフリーであり, 検証可能な終端基準を備えており, 1 つの演算子と他の演算子の分解剤のみからなる基本演算量から, 構成された強い MI 問題の$\epsilon$-Residual解を求めると, 演算複雑性が$$${\cal O}(\log \epsilon^{-1})$となる。 次に、上記のPDE法を適用して、構造化された非強MI問題を解くための別のPDE法を提案する。 得られたPDE法はパラメータフリーで、検証可能な終端基準を備え、構造化された非強MI問題の$\epsilon$-residual解を求めるために$${\cal O}(\epsilon^{-1}\log \epsilon^{-1})$の演算複雑性を享受する。 その結果、円錐最適化、円錐制約サドル点、変分不等式問題に対して後者のPDE法を適用し、局所リプシッツ連続性の下でのこれらの解の$\epsilon$-KKT あるいは $\epsilon$-Residual を求める複雑性結果を得る。 我々の知る限りでは、局所的なリプシッツ連続性の下で上記の問題を解決するための複雑さを保証した手法を検討する以前の研究は行われなかった。 本論文で得られた複雑さはすべて全く新しいものである。

In this paper we consider a class of structured monotone inclusion (MI) problems that consist of finding a zero in the sum of two monotone operators, in which one is maximal monotone while another is locally Lipschitz continuous. In particular, we first propose a primal-dual extrapolation (PDE) method for solving a structured strongly MI problem by modifying the classical forward-backward splitting method by using a point and operator extrapolation technique, in which the parameters are adaptively updated by a backtracking line search scheme. The proposed PDE method is almost parameter-free, equipped with a verifiable termination criterion, and enjoys an operation complexity of ${\cal O}(\log \epsilon^{-1})$, measured by the amount of fundamental operations consisting only of evaluations of one operator and resolvent of another operator, for finding an $\epsilon$-residual solution of the structured strongly MI problem. We then propose another PDE method for solving a structured non-strongly MI problem by applying the above PDE method to approximately solve a sequence of structured strongly MI problems. The resulting PDE method is parameter-free, equipped with a verifiable termination criterion, and enjoys an operation complexity of ${\cal O}(\epsilon^{-1}\log \epsilon^{-1})$ for finding an $\epsilon$-residual solution of the structured non-strongly MI problem. As a consequence, we apply the latter PDE method to convex conic optimization, conic constrained saddle point, and variational inequality problems, and obtain complexity results for finding an $\epsilon$-KKT or $\epsilon$-residual solution of them under local Lipschitz continuity. To the best of our knowledge, no prior studies were conducted to investigate methods with complexity guarantees for solving the aforementioned problems under local Lipschitz continuity. All the complexity results obtained in this paper are entirely new.
翻訳日:2022-06-03 14:04:17 公開日:2022-06-02
# スコアベース生成モデルによるマニフォールドの検出

Score-Based Generative Models Detect Manifolds ( http://arxiv.org/abs/2206.01018v1 )

ライセンス: Link先を確認
Jakiw Pidstrigach(参考訳) スコアベース生成モデル(SGM)は、中間分布のスコア$\nabla \log p_t$と前処理の最終分布$p_T$を近似する必要がある。 これらの近似の効果の理論的基盤はまだ不足している。 我々は、sgm が基礎となる(低次元)データ多様体 $\mathcal{m}$ からサンプルを生成できる正確な条件を見つける。 これにより、SGMが“正しい種類のサンプル”を生成できることが保証されます。 例えば、$\mathcal{m}$ を顔の画像のサブセットとすると、sgm が堅牢に顔の画像を生成する条件が見つかる。 さらに、この分析は、SGMの一般化特性を理解するための最初のステップである:$\mathcal{M}$をすべてのトレーニングサンプルの集合とすると、SGMがそのトレーニングデータをいつ記憶するかを正確に記述する。

Score-based generative models (SGMs) need to approximate the scores $\nabla \log p_t$ of the intermediate distributions as well as the final distribution $p_T$ of the forward process. The theoretical underpinnings of the effects of these approximations are still lacking. We find precise conditions under which SGMs are able to produce samples from an underlying (low-dimensional) data manifold $\mathcal{M}$. This assures us that SGMs are able to generate the "right kind of samples". For example, taking $\mathcal{M}$ to be the subset of images of faces, we find conditions under which the SGM robustly produces an image of a face, even though the relative frequencies of these images might not accurately represent the true data generating distribution. Moreover, this analysis is a first step towards understanding the generalization properties of SGMs: Taking $\mathcal{M}$ to be the set of all training samples, our results provide a precise description of when the SGM memorizes its training data.
翻訳日:2022-06-03 14:03:32 公開日:2022-06-02
# ゼロショット言語間乱用言語検出のための転送言語選択

Transfer Language Selection for Zero-Shot Cross-Lingual Abusive Language Detection ( http://arxiv.org/abs/2206.00962v1 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski, Fumito Masui, Masaki Arata, Gniewosz Leliwa, Michal Wroczynski(参考訳) 自動乱用言語検出のためのトランスファー言語の選択について検討する。 各言語用のデータセットを作成する代わりに,ゼロショット乱用言語検出のための言語間転送学習の有効性を示す。 これにより、高リソース言語の既存のデータを使用して、低リソース言語のより良い検出システムを構築することができます。 私たちのデータセットは、3つの言語ファミリーから7つの異なる言語からのものです。 我々は言語間の距離を複数の言語類似度尺度を用いて測定し、特に言語構造の世界アトラスを定量化する。 言語的類似性と分類器の性能には相関関係があることが示される。 この発見により、ゼロショット乱用言語検出のための最適な転送言語を選択できる。

We study the selection of transfer languages for automatic abusive language detection. Instead of preparing a dataset for every language, we demonstrate the effectiveness of cross-lingual transfer learning for zero-shot abusive language detection. This way we can use existing data from higher-resource languages to build better detection systems for low-resource languages. Our datasets are from seven different languages from three language families. We measure the distance between the languages using several language similarity measures, especially by quantifying the World Atlas of Language Structures. We show that there is a correlation between linguistic similarity and classifier performance. This discovery allows us to choose an optimal transfer language for zero shot abusive language detection.
翻訳日:2022-06-03 14:01:32 公開日:2022-06-02
# agi評価のための人工オープンワールド:概念設計

Artificial Open World for Evaluating AGI: a Conceptual Design ( http://arxiv.org/abs/2206.01044v1 )

ライセンス: Link先を確認
Bowen Xu, Quansheng Ren(参考訳) AGI(Artificial General Intelligence)の評価は、長い間議論され解決されていない重要な問題である。 狭義のAIの研究では、その分野の研究者が特定の問題と認知の1つまたはいくつかの側面に焦点を当てており、評価基準が明確に定義されているため、これは深刻な問題とは思えない。 対照的に、AGIエージェントは、エージェントと開発者の両方が説明しない問題を解決するべきです。 しかし、一度開発者がエージェントをテストしてデバッグすると、未報告の問題は遭遇する問題となり、結果として、その問題はエージェントではなく彼らの経験をある程度活用して開発者によって解決される。 この対立は、私たちが開発者の経験の罠と呼ぶように、この種の問題が認識される基準になることはおそらく困難である。 本稿では,このトラップから飛び出すことを目的とした,Artificial Open Worldという評価手法を提案する。 直感的に言えば、実際の世界の経験のほとんどは人工世界に適用される必要はなく、開発者がテスト前に世界を理解して問題解決することができないように、世界は何らかの意味で開放されるべきである。 世界は現実の世界と同じような方法で生成され、一般的な問題形式が提案されている。 研究の進捗を定量化する指標が提案されている。 本稿では,人工オープンワールドの概念設計について述べるが,形式化と実装は将来に委ねられている。

How to evaluate Artificial General Intelligence (AGI) is a critical problem that is discussed and unsolved for a long period. In the research of narrow AI, this seems not a severe problem, since researchers in that field focus on some specific problems as well as one or some aspects of cognition, and the criteria for evaluation are explicitly defined. By contrast, an AGI agent should solve problems that are never-encountered by both agents and developers. However, once a developer tests and debugs the agent with a problem, the never-encountered problem becomes the encountered problem, as a result, the problem is solved by the developers to some extent, exploiting their experience, rather than the agents. This conflict, as we call the trap of developers' experience, leads to that this kind of problems is probably hard to become an acknowledged criterion. In this paper, we propose an evaluation method named Artificial Open World, aiming to jump out of the trap. The intuition is that most of the experience in the actual world should not be necessary to be applied to the artificial world, and the world should be open in some sense, such that developers are unable to perceive the world and solve problems by themselves before testing, though after that they are allowed to check all the data. The world is generated in a similar way as the actual world, and a general form of problems is proposed. A metric is proposed aiming to quantify the progress of research. This paper describes the conceptual design of the Artificial Open World, though the formalization and the implementation are left to the future.
翻訳日:2022-06-03 14:01:23 公開日:2022-06-02
# MISSU: 自己蒸留トランスUNetによる3次元医用画像セグメンテーション

MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet ( http://arxiv.org/abs/2206.00902v1 )

ライセンス: Link先を確認
Nan Wang, Shaohui Lin, Xiaoxiao Li, Ke Li, Yunhang Shen, Yue Gao, Lizhuang Ma(参考訳) U-Netは医療画像セグメンテーションで大きな成功を収めた。 それでも、グローバルな(長距離の)コンテキスト相互作用とエッジ・ディテール保存に制限を受ける可能性がある。 対照的にTransformerは、エンコーダに自己保持機構を活用することで、長距離依存関係をキャプチャする能力に優れています。 Transformerは抽出した特徴マップの長距離依存性をモデル化するために生まれたが、高解像度の3D特徴マップを処理する際には、計算量と空間的複雑さが極端に複雑である。 これにより,効率的なトランスフォーマーベースUNetモデルを設計し,医用画像分割タスクにおけるトランスフォーマーベースのネットワークアーキテクチャの実現可能性について検討する。 そこで我々は,グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する医療画像セグメンテーションのためのトランスフォーマーベースのUNetを提案する。 一方, 局所的多スケール核融合ブロックは, 自己蒸留によってエンコーダのスキッピング接続の細部詳細を精細化するために, 訓練中にのみ計算され, 最小のオーバーヘッドで推論により除去された。 brats 2019とchaosデータセットに関する広範な実験では、以前の最先端メソッドよりも優れたパフォーマンスを実現しています。 コードとモデルは \url{https://github.com/wangn123/MISSU.git} で入手できる。

U-Nets have achieved tremendous success in medical image segmentation. Nevertheless, it may suffer limitations in global (long-range) contextual interactions and edge-detail preservation. In contrast, Transformer has an excellent ability to capture long-range dependencies by leveraging the self-attention mechanism into the encoder. Although Transformer was born to model the long-range dependency on the extracted feature maps, it still suffers from extreme computational and spatial complexities in processing high-resolution 3D feature maps. This motivates us to design the efficiently Transformer-based UNet model and study the feasibility of Transformer-based network architectures for medical image segmentation tasks. To this end, we propose to self-distill a Transformer-based UNet for medical image segmentation, which simultaneously learns global semantic information and local spatial-detailed features. Meanwhile, a local multi-scale fusion block is first proposed to refine fine-grained details from the skipped connections in the encoder by the main CNN stem through self-distillation, only computed during training and removed at inference with minimal overhead. Extensive experiments on BraTS 2019 and CHAOS datasets show that our MISSU achieves the best performance over previous state-of-the-art methods. Code and models are available at \url{https://github.com/wangn123/MISSU.git}
翻訳日:2022-06-03 13:59:41 公開日:2022-06-02
# (参考訳) グラフ予測のための可逆ニューラルネットワーク

Invertible Neural Networks for Graph Prediction ( http://arxiv.org/abs/2206.01163v1 )

ライセンス: CC BY 4.0
Chen Xu, Xiuyuan Cheng, Yao Xie(参考訳) 本研究では,ディープインバータブルニューラルネットワークを用いた条件付き生成手法を提案する。 これは、最も可能性の高い入力を、与えられた結果に対して$x$で推測することを目的とした問題である。 我々は,グラフデータ上のノード特徴の生成に主眼を置いているため,この手法をiGNN (textit{invertible graph neural network) と呼ぶ。 提案手法の特筆すべき点は, ネットワークトレーニング中, フローの正規化における典型的な損失目標を再検討し, トレーニングプロセスを容易にするために Wasserstein-2 正規化を検討することである。 アルゴリズム的に、私たちはエンドツーエンドのトレーニングアプローチを採用しています。私たちの目標は、1つのモデルを通して、前方および後方のプロセスにおける予測と生成に対処することです。 理論的には、真の写像の識別可能性、写像の存在と可逆性、および写像の学習におけるiGNNの表現性について特徴づける。 実験により、シミュレーションと実データの両方でiGNNの性能を検証する。 我々は、iGNNが高次元および/または非凸データ上で競合する条件生成ベンチマークよりも明確な改善を示すという広範な数値実験を通して示す。

In this work, we address conditional generation using deep invertible neural networks. This is a type of problem where one aims to infer the most probable inputs $X$ given outcomes $Y$. We call our method \textit{invertible graph neural network} (iGNN) due to the primary focus on generating node features on graph data. A notable feature of our proposed methods is that during network training, we revise the typically-used loss objective in normalizing flow and consider Wasserstein-2 regularization to facilitate the training process. Algorithmic-wise, we adopt an end-to-end training approach since our objective is to address prediction and generation in the forward and backward processes at once through a single model. Theoretically, we characterize the conditions for identifiability of a true mapping, the existence and invertibility of the mapping, and the expressiveness of iGNN in learning the mapping. Experimentally, we verify the performance of iGNN on both simulated and real-data datasets. We demonstrate through extensive numerical experiments that iGNN shows clear improvement over competing conditional generation benchmarks on high-dimensional and/or non-convex data.
翻訳日:2022-06-03 13:58:09 公開日:2022-06-02
# スパース摂動を用いた弱教師付き表現学習

Weakly Supervised Representation Learning with Sparse Perturbations ( http://arxiv.org/abs/2206.01101v1 )

ライセンス: Link先を確認
Kartik Ahuja, Jason Hartford, Yoshua Bengio(参考訳) 表現学習の理論は、最小限のドメイン知識を持つデータ生成プロセスを確実に逆転させる手法を構築することを目的としている。 従来のほとんどのアプローチは、証明可能な識別保証を提供するために、潜伏変数に対する強い分布仮定と弱い監督(タイムスタンプのような外部情報)を必要とする。 本研究は,潜伏変数のスパース摂動によって生じる観測から,弱い監督が得られている場合,例えば,個別のスプライトを移動させる強化学習環境における画像は,未知の連続潜伏分布下で識別可能であることを示す。 摂動が相互に排他的な潜在項のブロックにのみ適用される場合、それらのブロックまでの潜在項を識別する。 また、これらの摂動ブロックが重なり合う場合、摂動間で共有される最小のブロックまでの潜伏を識別する。 したがって、1つの潜在変数のみに交差するブロックがある場合、そのような潜在変数は置換とスケーリングまで識別される。 本稿では,この理論に基づく自然推定手法を提案し,低次元合成および画像ベース実験について述べる。

The theory of representation learning aims to build methods that provably invert the data generating process with minimal domain knowledge or any source of supervision. Most prior approaches require strong distributional assumptions on the latent variables and weak supervision (auxiliary information such as timestamps) to provide provable identification guarantees. In this work, we show that if one has weak supervision from observations generated by sparse perturbations of the latent variables--e.g. images in a reinforcement learning environment where actions move individual sprites--identification is achievable under unknown continuous latent distributions. We show that if the perturbations are applied only on mutually exclusive blocks of latents, we identify the latents up to those blocks. We also show that if these perturbation blocks overlap, we identify latents up to the smallest blocks shared across perturbations. Consequently, if there are blocks that intersect in one latent variable only, then such latents are identified up to permutation and scaling. We propose a natural estimation procedure based on this theory and illustrate it on low-dimensional synthetic and image-based experiments.
翻訳日:2022-06-03 13:55:45 公開日:2022-06-02
# Sparse Mixed Linear Regression with Guarantees: Taming a Invex Relaxation with Intractable Problem with Invex Relaxation

Sparse Mixed Linear Regression with Guarantees: Taming an Intractable Problem with Invex Relaxation ( http://arxiv.org/abs/2206.01167v1 )

ライセンス: Link先を確認
Adarsh Barik, Jean Honorio(参考訳) 本稿では,2つの異なる回帰パラメータベクトルから線形測定から得られるラベルなしデータセット上での疎混合線形回帰の問題について検討する。 データはラベル付けされていないので,回帰パラメータベクトルの近似値を求めるだけでなく,データセットを正しくラベル付けすることが課題である。 元々の形式では、この問題はNPハードである。 この問題を解決する最も一般的なアルゴリズム(期待最大化など)は、局所的な最小化に固執する傾向がある。 我々は、この難解な問題に対して、証明可能な理論的保証を持つ解をもたらす新しい凸緩和を提供する。 この緩和により、データラベルの正確な回復が可能になる。 さらに,支持と符号の真のパラメータベクトルと一致する回帰パラメータベクトルの近似を復元する。 我々の定式化はinvex問題に対して注意深く構築された原始双対証人の枠組みを用いている。 さらに,本手法のサンプル複雑性は回帰パラメータベクトルの次元についてのみ対数的であることを示した。

In this paper, we study the problem of sparse mixed linear regression on an unlabeled dataset that is generated from linear measurements from two different regression parameter vectors. Since the data is unlabeled, our task is not only to figure out a good approximation of the regression parameter vectors but also to label the dataset correctly. In its original form, this problem is NP-hard. The most popular algorithms to solve this problem (such as Expectation-Maximization) have a tendency to stuck at local minima. We provide a novel invex relaxation for this intractable problem which leads to a solution with provable theoretical guarantees. This relaxation enables exact recovery of data labels. Furthermore, we recover a close approximation of the regression parameter vectors which match the true parameter vectors in support and sign. Our formulation uses a carefully constructed primal dual witnesses framework for the invex problem. Furthermore, we show that the sample complexity of our method is only logarithmic in terms of the dimension of the regression parameter vectors.
翻訳日:2022-06-03 13:55:25 公開日:2022-06-02
# DepthShrinker: コンパクトニューラルネットワークのリアルタイム効率向上に向けた新しい圧縮パラダイム

DepthShrinker: A New Compression Paradigm Towards Boosting Real-Hardware Efficiency of Compact Neural Networks ( http://arxiv.org/abs/2206.00843v1 )

ライセンス: Link先を確認
Yonggan Fu and Haichuan Yang and Jiayi Yuan and Meng Li and Cheng Wan and Raghuraman Krishnamoorthi and Vikas Chandra and Yingyan Lin(参考訳) コンパクト演算子(例えば、ディープワイド畳み込み)を備えた効率的なディープニューラルネットワーク(DNN)モデルは、適切なモデルの精度を維持しながら、DNNの理論的複雑さ(例えば、ウェイト/オペレーションの総数)を低減する大きな可能性を示している。 しかしながら、既存の効率的なDNNは、一般に採用されているコンパクトオペレーターのハードウェア使用率の低さから、実際のハードウェア効率を高めるという約束を果たすことにはまだ限界がある。 本研究では,リアルタイムなDNNを開発するための新しい圧縮パラダイムを公開し,モデル精度を維持しながらハードウェア効率を向上する。 興味深いことに、いくつかのDNNレイヤのアクティベーション機能は、DNNのトレーニング最適化と精度向上に役立つが、モデルの精度を損なうことなく、トレーニング後に適切に除去することができる。 この観測から着想を得たDepthShrinkerというフレームワークは,不規則な計算パターンを高密度なものに分解し,ハードウェア利用率を大幅に改善し,現実のハードウエア効率を向上する,既存のDNNの基本構成ブロックを縮小することで,ハードウェアフレンドリーなコンパクトネットワークを開発する。 わが社のdeepshrinkerフレームワークは、ハードウェアフレンドリなコンパクトネットワークを提供しており、最先端の効率的なdnnと圧縮技術、例えば3.06\%の精度と1.53$\times$のtesla v100のスループットを、somaチャネル毎のpruningメソッドメタプルーニングよりも上回っています。 私たちのコードは、https://github.com/RICE-EIC/DepthShrinker.comで利用可能です。

Efficient deep neural network (DNN) models equipped with compact operators (e.g., depthwise convolutions) have shown great potential in reducing DNNs' theoretical complexity (e.g., the total number of weights/operations) while maintaining a decent model accuracy. However, existing efficient DNNs are still limited in fulfilling their promise in boosting real-hardware efficiency, due to their commonly adopted compact operators' low hardware utilization. In this work, we open up a new compression paradigm for developing real-hardware efficient DNNs, leading to boosted hardware efficiency while maintaining model accuracy. Interestingly, we observe that while some DNN layers' activation functions help DNNs' training optimization and achievable accuracy, they can be properly removed after training without compromising the model accuracy. Inspired by this observation, we propose a framework dubbed DepthShrinker, which develops hardware-friendly compact networks via shrinking the basic building blocks of existing efficient DNNs that feature irregular computation patterns into dense ones with much improved hardware utilization and thus real-hardware efficiency. Excitingly, our DepthShrinker framework delivers hardware-friendly compact networks that outperform both state-of-the-art efficient DNNs and compression techniques, e.g., a 3.06\% higher accuracy and 1.53$\times$ throughput on Tesla V100 over SOTA channel-wise pruning method MetaPruning. Our codes are available at: https://github.com/RICE-EIC/DepthShrinker.
翻訳日:2022-06-03 13:54:16 公開日:2022-06-02
# 2次元変換の体系的知識の活用

Leveraging Systematic Knowledge of 2D Transformations ( http://arxiv.org/abs/2206.00893v1 )

ライセンス: Link先を確認
Jiachen Kang, Wenjing Jia and Xiangjian He(参考訳) 既存のディープラーニングモデルは、コンピュータビジョンタスクのパフォーマンス低下(o.o.d.)に悩まされている。 比較して、人間は、獲得した知識の体系性のおかげで、画像の中のシーンが希少であっても、イメージを解釈する顕著な能力を持っている。 この作品は焦点をあてる 1)2次元変換の体系的知識の取得,及び 2) 画像分類タスクにおける学習知識をo.o.d.設定で活用できるアーキテクチャコンポーネント。 因果的枠組みに基づいて構築された合成データセットに基づく新しいトレーニング手法により、ディープニューラルネットワークは意味的に異なるドメイン(例えばノイズ)から知識を取得し、パラメータ推定実験において一定の体系性を示す。 これに基づいて、分類器、推定器、識別子(略して「CED」)からなる新しいアーキテクチャが考案される。 ヒトの視覚知覚における「仮説検証」過程をエミュレートすることにより、cedは共変量シフト下でテストセットの分類精度を著しく向上させる。

The existing deep learning models suffer from out-of-distribution (o.o.d.) performance drop in computer vision tasks. In comparison, humans have a remarkable ability to interpret images, even if the scenes in the images are rare, thanks to the systematicity of acquired knowledge. This work focuses on 1) the acquisition of systematic knowledge of 2D transformations, and 2) architectural components that can leverage the learned knowledge in image classification tasks in an o.o.d. setting. With a new training methodology based on synthetic datasets that are constructed under the causal framework, the deep neural networks acquire knowledge from semantically different domains (e.g. even from noise), and exhibit certain level of systematicity in parameter estimation experiments. Based on this, a novel architecture is devised consisting of a classifier, an estimator and an identifier (abbreviated as "CED"). By emulating the "hypothesis-verification" process in human visual perception, CED improves the classification accuracy significantly on test sets under covariate shift.
翻訳日:2022-06-03 13:53:40 公開日:2022-06-02
# Mask-Guided Divergence Lossはディープニューラルネットワークの一般化とロバスト性を改善する

Mask-Guided Divergence Loss Improves the Generalization and Robustness of Deep Neural Network ( http://arxiv.org/abs/2206.00913v1 )

ライセンス: Link先を確認
Xiangyuan Yang, Jie Lin, Hanlin Zhang, Xinyu Yang, Peng Zhao(参考訳) ドロップアウトを伴うディープニューラルネットワーク(DNN)は、多数のサブDNN(すなわち、サブDNNがドロップアウト後のDNNの残りの部分であるアンサンブルサブDNN)からなるアンサンブルモデルとみなすことができ、アンサンブルサブDNNの多様性を増大させることにより、DNNの一般化と堅牢性を効果的に向上することができる。 本稿では,クロスエントロピー損失項と直交項からなるマスク誘導分岐損失関数(mdl)を提案し,付加された直交項によりアンサンブルサブdnnの多様性を高める。 特に,多様性学習の過剰さを避けるための直交語生成を支援するマスク技術が導入された。 4つのデータセット(mnist, fashionmnist, cifar10, cifar100)の理論分析と広範な実験により、mdlは標準訓練と敵対訓練の一般化と堅牢性を向上させることができることが示されている。 cifar10とcifar100の標準訓練では、精度の最大向上は自然データで1.38.%、fgsm攻撃で30.97.%、pgd攻撃で38.18.%である。 逆行訓練では、最大の改善は自然データに対する1.68\%、FGSM攻撃に対する4.03\%、PGD攻撃に対する2.65\%である。

Deep neural network (DNN) with dropout can be regarded as an ensemble model consisting of lots of sub-DNNs (i.e., an ensemble sub-DNN where the sub-DNN is the remaining part of the DNN after dropout), and through increasing the diversity of the ensemble sub-DNN, the generalization and robustness of the DNN can be effectively improved. In this paper, a mask-guided divergence loss function (MDL), which consists of a cross-entropy loss term and an orthogonal term, is proposed to increase the diversity of the ensemble sub-DNN by the added orthogonal term. Particularly, the mask technique is introduced to assist in generating the orthogonal term for avoiding overfitting of the diversity learning. The theoretical analysis and extensive experiments on 4 datasets (i.e., MNIST, FashionMNIST, CIFAR10, and CIFAR100) manifest that MDL can improve the generalization and robustness of standard training and adversarial training. For CIFAR10 and CIFAR100, in standard training, the maximum improvement of accuracy is $1.38\%$ on natural data, $30.97\%$ on FGSM (i.e., Fast Gradient Sign Method) attack, $38.18\%$ on PGD (i.e., Projected Gradient Descent) attack. While in adversarial training, the maximum improvement is $1.68\%$ on natural data, $4.03\%$ on FGSM attack and $2.65\%$ on PGD attack.
翻訳日:2022-06-03 13:53:22 公開日:2022-06-02
# ディープネットワークにおける分類問題に対する片面マージン損失の導入

Introducing One Sided Margin Loss for Solving Classification Problems in Deep Networks ( http://arxiv.org/abs/2206.01002v1 )

ライセンス: Link先を確認
Ali Karimi and Zahra Mousavi Kouzehkanan and Reshad Hosseini and Hadi Asheri(参考訳) 本稿では,最大マージン分類問題を効果的に解くために,新たな損失関数 OSM (One-Sided Margin) を提案する。 ヒンジ損失とは異なり、osmではマージンは対応するハイパーパラメータで明示的に決定され、分類問題は解決される。 実験では、OSMの損失を用いることで、分類や光学的文字認識問題によく用いられるディープモデルにおいて、二進的およびカテゴリー的クロスエントロピーよりも訓練速度と精度が向上することが観察された。 OSMは、小規模から大規模ニューラルネットワークにおいて、クロスエントロピーやヒンジ損失よりも優れた分類精度を示している。 それはまた より効率的な訓練手順につながりました 我々は,cifar10(98.82\%),cifar100(91.56\%),flowers(98.04\%),stanford cars(93.91\%)などのベンチマークデータセット上で,小型ネットワークの最先端の精度を実現し,他の損失関数よりも大幅に改善した。 さらに、大きなネットワークのクロスエントロピーやヒンジ損失よりも、アキュラティが優れている。 したがって、OSMはヒンジやクロスエントロピーの損失に対して強力な代替手段であり、分類タスクでディープニューラルネットワークを訓練できると強く信じている。

This paper introduces a new loss function, OSM (One-Sided Margin), to solve maximum-margin classification problems effectively. Unlike the hinge loss, in OSM the margin is explicitly determined with corresponding hyperparameters and then the classification problem is solved. In experiments, we observe that using OSM loss leads to faster training speeds and better accuracies than binary and categorical cross-entropy in several commonly used deep models for classification and optical character recognition problems. OSM has consistently shown better classification accuracies over cross-entropy and hinge losses for small to large neural networks. it has also led to a more efficient training procedure. We achieved state-of-the-art accuracies for small networks on several benchmark datasets of CIFAR10(98.82\%), CIFAR100(91.56\%), Flowers(98.04\%), Stanford Cars(93.91\%) with considerable improvements over other loss functions. Moreover, the accuracies are rather better than cross-entropy and hinge loss for large networks. Therefore, we strongly believe that OSM is a powerful alternative to hinge and cross-entropy losses to train deep neural networks on classification tasks.
翻訳日:2022-06-03 13:52:49 公開日:2022-06-02
# DocLayNet: ドキュメントレイアウト分析のための大規模人間アノテーションデータセット

DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis ( http://arxiv.org/abs/2206.01062v1 )

ライセンス: Link先を確認
Birgit Pfitzmann, Christoph Auer, Michele Dolfi, Ahmed S Nassar, Peter W J Staar(参考訳) 高精度な文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。 publaynetやdocbankのような、最近一般公開された大規模な地上データセットにより、ディープラーニングモデルはレイアウト検出やセグメンテーションに非常に効果的であることが証明されている。 これらのデータセットはそのようなモデルをトレーニングするのに十分なサイズであるが、PubMedやarXivのような科学論文リポジトリから得られるため、レイアウトのばらつきは極めて少ない。 その結果、これらのモデルがより困難で多様なレイアウトに適用されると、レイアウトセグメンテーションの精度は大幅に低下する。 本稿では,coco形式で新たに利用可能な文書レイアウトアノテーションデータセットである \textit{doclaynet} を提案する。 80863ページをさまざまなデータソースから手動でアノテートし、レイアウトの多様性を表現している。 PDFページごとに、レイアウトアノテーションは11の異なるクラスを選択したラベル付きバウンディングボックスを提供する。 DocLayNetは、アノテーション間の合意を決定するために、ダブルおよびトリプルのアノテーション付きページのサブセットも提供している。 複数の実験において、一般的なオブジェクト検出モデルのセットに対して、ベースライン精度スコア(mAP)を提供する。 また,これらのモデルがアノテーション間合意よりも約10\%遅れていることも示している。 さらに、DocLayNetが十分なサイズであることを示す。 最後に、PubLayNet、DocBank、DocLayNetでトレーニングされたモデルを比較し、DocLayNetでトレーニングされたモデルのレイアウト予測がより堅牢であることを示し、汎用ドキュメントレイアウト分析に好適な選択であることを示す。

Accurate document layout analysis is a key requirement for high-quality PDF document conversion. With the recent availability of public, large ground-truth datasets such as PubLayNet and DocBank, deep-learning models have proven to be very effective at layout detection and segmentation. While these datasets are of adequate size to train such models, they severely lack in layout variability since they are sourced from scientific article repositories such as PubMed and arXiv only. Consequently, the accuracy of the layout segmentation drops significantly when these models are applied on more challenging and diverse layouts. In this paper, we present \textit{DocLayNet}, a new, publicly available, document-layout annotation dataset in COCO format. It contains 80863 manually annotated pages from diverse data sources to represent a wide variability in layouts. For each PDF page, the layout annotations provide labelled bounding-boxes with a choice of 11 distinct classes. DocLayNet also provides a subset of double- and triple-annotated pages to determine the inter-annotator agreement. In multiple experiments, we provide baseline accuracy scores (in mAP) for a set of popular object detection models. We also demonstrate that these models fall approximately 10\% behind the inter-annotator agreement. Furthermore, we provide evidence that DocLayNet is of sufficient size. Lastly, we compare models trained on PubLayNet, DocBank and DocLayNet, showing that layout predictions of the DocLayNet-trained models are more robust and thus the preferred choice for general-purpose document-layout analysis.
翻訳日:2022-06-03 13:52:02 公開日:2022-06-02
# スポーツにおける映像行動認識に関する調査:データセット,方法,応用

A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications ( http://arxiv.org/abs/2206.01038v1 )

ライセンス: Link先を確認
Fei Wu, Qingzhong Wang, Jian Bian, Haoyi Xiong, Ning Ding, Feixiang Lu, Jun Cheng and Dejing Dou(参考訳) 人間の行動を理解するためには、ビデオに基づく行動認識が一般的である。 画像に基づくアクション認識と比較すると、ビデオはより多くの情報を提供する。 アクションの曖昧さを減らし、過去10年間、データセット、新しいモデル、学習アプローチに焦点を当てた多くの作品が、ビデオアクション認識をより高いレベルに改善した。 しかし、特にデータ収集とラベル付けがより洗練されており、スポーツ専門家がデータに注釈を付ける必要があるスポーツ分析において、課題と未解決の問題がある。 さらに、アクションは非常に高速で、それらを認識することが困難になる可能性がある。 さらに,サッカーやバスケットボールなどのチームスポーツでは,複数の選手が参加し,その選手を正しく認識するためには,比較的複雑であるすべての選手を分析する必要がある。 本稿では,スポーツ分析のための映像行動認識に関する調査を行う。 サッカー,バスケットボール,バレーボール,ホッケー,個人スポーツ,フィギュアスケート,体操,卓球,テニス,ダイビング,バドミントンなど,10種以上のスポーツを導入する。 次に、スポーツ分析のための既存のフレームワークと、チームスポーツと個人スポーツの両方におけるビデオアクション認識の現状を比較した。 最後に、この分野における課題と未解決の問題について議論し、スポーツ分析を容易にするために、サッカー、バスケットボール、卓球、フィギュアスケートアクション認識をサポートするpaddlepaddleを用いたツールボックスを開発した。

To understand human behaviors, action recognition based on videos is a common approach. Compared with image-based action recognition, videos provide much more information. Reducing the ambiguity of actions and in the last decade, many works focused on datasets, novel models and learning approaches have improved video action recognition to a higher level. However, there are challenges and unsolved problems, in particular in sports analytics where data collection and labeling are more sophisticated, requiring sport professionals to annotate data. In addition, the actions could be extremely fast and it becomes difficult to recognize them. Moreover, in team sports like football and basketball, one action could involve multiple players, and to correctly recognize them, we need to analyse all players, which is relatively complicated. In this paper, we present a survey on video action recognition for sports analytics. We introduce more than ten types of sports, including team sports, such as football, basketball, volleyball, hockey and individual sports, such as figure skating, gymnastics, table tennis, tennis, diving and badminton. Then we compare numerous existing frameworks for sports analysis to present status quo of video action recognition in both team sports and individual sports. Finally, we discuss the challenges and unsolved problems in this area and to facilitate sports analytics, we develop a toolbox using PaddlePaddle, which supports football, basketball, table tennis and figure skating action recognition.
翻訳日:2022-06-03 13:51:38 公開日:2022-06-02
# エントロピー規則化ニューラルアクター臨界アルゴリズムの有限時間解析

Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic Algorithm ( http://arxiv.org/abs/2206.00833v1 )

ライセンス: Link先を確認
Semih Cayci, Niao He, R. Srikant(参考訳) ニューラルネットワークの表現力を備えたナチュラルアクター・クリティック(NAC)とその変種は、大規模な状態空間におけるマルコフ決定問題の解法において、目覚ましい成功を収めた。 本稿では,ニューラルネットワーク近似を用いたNACの有限時間解析を行い,ニューラルネットワークや正規化,最適化技術(勾配クリッピングや平均化など)の役割を同定し,サンプルの複雑さ,イテレーションの複雑さ,過度なパラメータ境界といった点において,優れた性能を実現する。 特に、我々はそれを証明している。 (i)エントロピー正則化及び平均化は、ほぼ決定論的かつ厳密な最適政策を避けるための十分な探索を提供することにより、安定性を確保する。 (II) 規則化は標本の急激な複雑さと正規化MDPのネットワーク幅境界をもたらし、政策最適化において有利なバイアス分散トレードオフをもたらす。 この過程で,分布シフトによる政策最適化におけるグローバル最適性を達成するために,アクターニューラルネットワークの均一近似パワーが重要であることを明らかにする。

Natural actor-critic (NAC) and its variants, equipped with the representation power of neural networks, have demonstrated impressive empirical success in solving Markov decision problems with large state spaces. In this paper, we present a finite-time analysis of NAC with neural network approximation, and identify the roles of neural networks, regularization and optimization techniques (e.g., gradient clipping and averaging) to achieve provably good performance in terms of sample complexity, iteration complexity and overparametrization bounds for the actor and the critic. In particular, we prove that (i) entropy regularization and averaging ensure stability by providing sufficient exploration to avoid near-deterministic and strictly suboptimal policies and (ii) regularization leads to sharp sample complexity and network width bounds in the regularized MDPs, yielding a favorable bias-variance tradeoff in policy optimization. In the process, we identify the importance of uniform approximation power of the actor neural network to achieve global optimality in policy optimization due to distributional shift.
翻訳日:2022-06-03 13:47:15 公開日:2022-06-02
# 協調型ダブル機械学習

Coordinated Double Machine Learning ( http://arxiv.org/abs/2206.00885v1 )

ライセンス: Link先を確認
Nitai Fingerhut, Matteo Sesia, Yaniv Romano(参考訳) ダブル機械学習(Double Machine Learning)は、複雑なブラックボックスモデルを利用して、高次元の共変量を持つ観測データから得られるほぼ不偏の処理効果の推定値を構築する統計的手法である。 この考え方は、まず2つの非線形予測モデルのサブセットに適合し、1つは興味の連続的な結果、もう1つは観察された処理のためのモデルであり、残りのサンプルを用いた治療の線形係数を単純な直交回帰によって推定する。 この手法は柔軟であり、通常は互いに独立して訓練される任意の予測モデルに対応できるが、深層ニューラルネットワークのための注意深く協調した学習アルゴリズムは推定バイアスを減少させる可能性がある。 シミュレーションおよび実データを用いた数値実験により,提案手法の実証性能が向上したことを示す。

Double machine learning is a statistical method for leveraging complex black-box models to construct approximately unbiased treatment effect estimates given observational data with high-dimensional covariates, under the assumption of a partially linear model. The idea is to first fit on a subset of the samples two non-linear predictive models, one for the continuous outcome of interest and one for the observed treatment, and then to estimate a linear coefficient for the treatment using the remaining samples through a simple orthogonalized regression. While this methodology is flexible and can accommodate arbitrary predictive models, typically trained independently of one another, this paper argues that a carefully coordinated learning algorithm for deep neural networks may reduce the estimation bias. The improved empirical performance of the proposed method is demonstrated through numerical experiments on both simulated and real data.
翻訳日:2022-06-03 13:46:54 公開日:2022-06-02
# ミニバッチモーメントの軌道:高次元におけるバッチサイズ飽和と収束

Trajectory of Mini-Batch Momentum: Batch Size Saturation and Convergence in High Dimensions ( http://arxiv.org/abs/2206.01029v1 )

ライセンス: Link先を確認
Kiwon Lee, Andrew N. Cheng, Courtney Paquette and Elliot Paquette(参考訳) サンプル数と寸法がともに大きい場合の最小二乗問題において,運動量を伴う大規模バッチ確率勾配勾配(SGD+M)のダイナミクスを解析した。 この設定では、SGD+Mの力学が次元が増加するにつれて決定論的離散ボルテラ方程式に収束し、解析する。 我々は,SGD+Mがアルゴリズムを高速化する能力を調節する安定性測定,暗黙条件付け比(ICR)を同定する。 バッチサイズがこの ICR を超えると、SGD+M は $\mathcal{O}(1/\sqrt{\kappa})$ の速度で線形収束し、最適なフルバッチ運動量(特にフルバッチだけでなく、そのサイズもわずかである)に一致する。 一方、ICRより小さいバッチサイズでは、SGD+Mは単一のバッチSGDレートの倍のスケールを持つ。 我々は,この性能を実現するヘッセンスペクトルを用いて,学習率と運動量パラメータを明確に選択する。

We analyze the dynamics of large batch stochastic gradient descent with momentum (SGD+M) on the least squares problem when both the number of samples and dimensions are large. In this setting, we show that the dynamics of SGD+M converge to a deterministic discrete Volterra equation as dimension increases, which we analyze. We identify a stability measurement, the implicit conditioning ratio (ICR), which regulates the ability of SGD+M to accelerate the algorithm. When the batch size exceeds this ICR, SGD+M converges linearly at a rate of $\mathcal{O}(1/\sqrt{\kappa})$, matching optimal full-batch momentum (in particular performing as well as a full-batch but with a fraction of the size). For batch sizes smaller than the ICR, in contrast, SGD+M has rates that scale like a multiple of the single batch SGD rate. We give explicit choices for the learning rate and momentum parameter in terms of the Hessian spectra that achieve this performance.
翻訳日:2022-06-03 13:46:38 公開日:2022-06-02
# モデルベース強化学習のためのnerized stein discrepancyを用いた後方コアセットの構築

Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2206.01162v1 )

ライセンス: Link先を確認
Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Brian M. Sadler, Furong Huang, Pratap Tokekar, Dinesh Manocha(参考訳) 本研究では,いくつかの方法でモデルベースrlを拡張した,${\bf rl}$アルゴリズム ($\texttt{ksrl}$) のための,分離された${\bf s}$tein差分に基づく後方サンプリングを提案する。 (i)任意の滑らかさやガウス的仮定の必要性を緩和し、複雑な混合モデルを可能にする。 (ii) 後方が統計的に有意な過去の状態-作用対のみからなる 'emph{Bayesian coreset} からなるような圧縮ステップを組み込むことで、大規模訓練に適用可能であることを保証する。 3) PSRL の積分確率測定値に基づく新たな後悔解析を開発し, 構築後部の滑らかさ条件下では, カーネル化スタイン差分法 (KSD) としてクローズド形式で評価できることを示した。 したがって、PSRLの$\mathcal{O}(H^{3/2}d\sqrt{T})$ {regret}を$\mathcal{O}(H^{3/2}\sqrt{T})$に改善することができる。 さらに,KSD に基づく圧縮予算パラメータ $\epsilon$ を導入し,モデルの整合性に必要な複雑性を低く設定することで,再現率と後続表現複雑性とのトレードオフを理論的に確立する。 実験により,本手法はRL手法のいくつかの状態と競合し,計算時間を大幅に改善することがわかった。 実験では,この手法がart rl方法論のいくつかの状態と競合し,連続制御環境では壁時計時間を最大$50\%削減できることを示した。

In this work, we propose a novel ${\bf K}$ernelized ${\bf S}$tein Discrepancy-based Posterior Sampling for ${\bf RL}$ algorithm (named $\texttt{KSRL}$) which extends model-based RL based upon posterior sampling (PSRL) in several ways: we (i) relax the need for any smoothness or Gaussian assumptions, allowing for complex mixture models; (ii) ensure it is applicable to large-scale training by incorporating a compression step such that the posterior consists of a \emph{Bayesian coreset} of only statistically significant past state-action pairs; and (iii) develop a novel regret analysis of PSRL based upon integral probability metrics, which, under a smoothness condition on the constructed posterior, can be evaluated in closed form as the kernelized Stein discrepancy (KSD). Consequently, we are able to improve the $\mathcal{O}(H^{3/2}d\sqrt{T})$ {regret} of PSRL to $\mathcal{O}(H^{3/2}\sqrt{T})$, where $d$ is the input dimension, $H$ is the episode length, and $T$ is the total number of episodes experienced, alleviating a linear dependence on $d$ . Moreover, we theoretically establish a trade-off between regret rate with posterior representational complexity via introducing a compression budget parameter $\epsilon$ based on KSD, and establish a lower bound on the required complexity for consistency of the model. Experimentally, we observe that this approach is competitive with several state of the art RL methodologies, with substantive improvements in computation time. Experimentally, we observe that this approach is competitive with several state of the art RL methodologies, and can achieve up-to $50\%$ reduction in wall clock time in some continuous control environments.
翻訳日:2022-06-03 13:46:15 公開日:2022-06-02
# 腱核ノルムとCasorati Matrix核ノルムの併用による動的心内MRI画像再構成

Dynamic Cardiac MRI Reconstruction Using Combined Tensor Nuclear Norm and Casorati Matrix Nuclear Norm Regularizations ( http://arxiv.org/abs/2206.00831v1 )

ライセンス: Link先を確認
Yinghao Zhang, Yue Hu(参考訳) 低ランクテンソルモデルが動的磁気共鳴イメージング(dMRI)に応用されている。 近年, t-SVDに基づく新しいテンソル核ノルムが提案され, テンソル完備化に応用されている。 テンソル核ノルム(TNN)とカソラティマトリックス核ノルム(MNN)の異なる性質に着想を得て,我々は,TMNNと呼ばれるdMRIを再構成するためのTNNとカソラティMNNの規則化フレームワークを導入した。 提案手法は動的MRデータの空間構造と時間相関を同時に利用する。 乗算器の交互方向法(ADMM)により最適化問題を効率的に解くことができる。 計算効率をさらに向上するために,カルテシアンサンプリングのシナリオ下で高速なアルゴリズムを開発する。 心臓血管MRIおよび灌流MRIデータに基づく数値実験により,従来のカソーラティ核標準法の性能改善が示された。

Low-rank tensor models have been applied in accelerating dynamic magnetic resonance imaging (dMRI). Recently, a new tensor nuclear norm based on t-SVD has been proposed and applied to tensor completion. Inspired by the different properties of the tensor nuclear norm (TNN) and the Casorati matrix nuclear norm (MNN), we introduce a combined TNN and Casorati MNN regularizations framework to reconstruct dMRI, which we term as TMNN. The proposed method simultaneously exploits the spatial structure and the temporal correlation of the dynamic MR data. The optimization problem can be efficiently solved by the alternating direction method of multipliers (ADMM). In order to further improve the computational efficiency, we develop a fast algorithm under the Cartesian sampling scenario. Numerical experiments based on cardiac cine MRI and perfusion MRI data demonstrate the performance improvement over the traditional Casorati nuclear norm regularization method.
翻訳日:2022-06-03 13:45:33 公開日:2022-06-02
# (参考訳) ニューラルマシン翻訳における低リソース領域適応に適したレシピの探索

Finding the Right Recipe for Low Resource Domain Adaptation in Neural Machine Translation ( http://arxiv.org/abs/2206.01137v1 )

ライセンス: CC BY 4.0
Virginia Adams, Sandeep Subramanian, Mike Chrzanowski, Oleksii Hrinchuk, and Oleksii Kuchaiev(参考訳) 一般的な翻訳モデルは、しばしば特別なドメインで正確な翻訳を生成するのに苦労する。 機械翻訳の実践者を指導し、異なるデータ可用性シナリオ下でのドメイン適応手法の有効性を特徴付けるため、アーキテクチャ変更が不可能な環境で、事前訓練されたサードパーティNMTモデルのドメイン適応に対する単言語および並列データアプローチの詳細な実験を行った。 我々はデータ中心適応法を分離と組み合わせで比較する。 超低資源(8k並列実例)および適度低資源(46k並列実例)条件における手法の有効性について検討し、元のドメイン翻訳品質の低減を緩和するためのアンサンブルアプローチを提案する。 我々の研究は、消費者電子、臨床、バイオメディカルの3つの領域を含み、Zh-En、Ja-En、Es-En、Ru-Enの4つの言語対にまたがる。 また、高いドメイン内パフォーマンスを達成するための具体的な推奨を行い、すべての言語用のコンシューマ電子および医療ドメインデータセットをリリースし、コードを公開できるようにしています。

General translation models often still struggle to generate accurate translations in specialized domains. To guide machine translation practitioners and characterize the effectiveness of domain adaptation methods under different data availability scenarios, we conduct an in-depth empirical exploration of monolingual and parallel data approaches to domain adaptation of pre-trained, third-party, NMT models in settings where architecture change is impractical. We compare data centric adaptation methods in isolation and combination. We study method effectiveness in very low resource (8k parallel examples) and moderately low resource (46k parallel examples) conditions and propose an ensemble approach to alleviate reductions in original domain translation quality. Our work includes three domains: consumer electronic, clinical, and biomedical and spans four language pairs - Zh-En, Ja-En, Es-En, and Ru-En. We also make concrete recommendations for achieving high in-domain performance and release our consumer electronic and medical domain datasets for all languages and make our code publicly available.
翻訳日:2022-06-03 13:43:13 公開日:2022-06-02
# ニューラルネットワークアンサンブルのための特徴空間粒子推定

Feature Space Particle Inference for Neural Network Ensembles ( http://arxiv.org/abs/2206.00944v1 )

ライセンス: Link先を確認
Shingo Yashima, Teppei Suzuki, Kohta Ishikawa, Ikuro Sato, Rei Kawakami(参考訳) ディープニューラルネットワークのアンサンブルは、単一モデルに対するパフォーマンスの向上を示しています。 性能を維持しながらアンサンブルメンバーの多様性を高めるために、粒子ベースの推論手法はベイズの観点から有望なアプローチを提供する。 しかし、これらの手法をニューラルネットワークに適用する最善の方法は、まだ不明である:重み空間後部からのサンプルの探索は、過度なパラメータ化の問題によって非効率に苦しむ一方で、関数空間後部から直接のサンプルの探索は、しばしば深刻な不適合をもたらす。 本研究では,上記の課題に対処するため,特定の中間層が活性化される特徴空間における粒子の最適化を提案する。 提案手法は,各メンバーに対して,アンサンブル予測の堅牢性の向上を期待する特徴を捉えることを奨励する。 実世界のデータセットの広範な評価は、精度、キャリブレーション、ロバスト性など、様々な指標でゴールド標準のディープアンサンブルを大幅に上回っていることを示している。 コードはhttps://github.com/DensoITLab/featurePIで入手できる。

Ensembles of deep neural networks demonstrate improved performance over single models. For enhancing the diversity of ensemble members while keeping their performance, particle-based inference methods offer a promising approach from a Bayesian perspective. However, the best way to apply these methods to neural networks is still unclear: seeking samples from the weight-space posterior suffers from inefficiency due to the over-parameterization issues, while seeking samples directly from the function-space posterior often results in serious underfitting. In this study, we propose optimizing particles in the feature space where the activation of a specific intermediate layer lies to address the above-mentioned difficulties. Our method encourages each member to capture distinct features, which is expected to improve ensemble prediction robustness. Extensive evaluation on real-world datasets shows that our model significantly outperforms the gold-standard Deep Ensembles on various metrics, including accuracy, calibration, and robustness. Code is available at https://github.com/DensoITLab/featurePI .
翻訳日:2022-06-03 13:26:22 公開日:2022-06-02
# VL-BEiT:ジェネレーティブビジョンランゲージ事前トレーニング

VL-BEiT: Generative Vision-Language Pretraining ( http://arxiv.org/abs/2206.01127v1 )

ライセンス: Link先を確認
Hangbo Bao, Wenhui Wang, Li Dong, Furu Wei(参考訳) 生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。 我々のミニマリストソリューションは、共有トランスフォーマーを用いて、モノモーダルデータとマルチモーダルデータの両方でマスク付き予測を行う。 具体的には,画像テキスト対のマスキング視覚言語モデリング,テキストのマスキング言語モデリング,画像のマスキング画像モデリングを行う。 VL-BEiTは1つの統合事前訓練タスク、1つの共有バックボーン、1段階のトレーニングでスクラッチから学習される。 本手法は概念的に単純かつ経験的に有効である。 実験の結果,VL-BEiTは視覚的質問応答,視覚的推論,画像テキスト検索など,様々な視覚型ベンチマークにおいて強い結果が得られることがわかった。 さらに,転送可能な視覚特徴を学習し,画像分類やセマンティクスセグメンテーションにおいて競合性能を達成する。

We introduce a vision-language foundation model called VL-BEiT, which is a bidirectional multimodal Transformer learned by generative pretraining. Our minimalist solution conducts masked prediction on both monomodal and multimodal data with a shared Transformer. Specifically, we perform masked vision-language modeling on image-text pairs, masked language modeling on texts, and masked image modeling on images. VL-BEiT is learned from scratch with one unified pretraining task, one shared backbone, and one-stage training. Our method is conceptually simple and empirically effective. Experimental results show that VL-BEiT obtains strong results on various vision-language benchmarks, such as visual question answering, visual reasoning, and image-text retrieval. Moreover, our method learns transferable visual features, achieving competitive performance on image classification, and semantic segmentation.
翻訳日:2022-06-03 13:26:02 公開日:2022-06-02
# ReVIVE:知識に基づく視覚質問応答における地域視覚表現の課題

REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering ( http://arxiv.org/abs/2206.01201v1 )

ライセンス: Link先を確認
Yuanze Lin, Yujia Xie, Dongdong Chen, Yichong Xu, Chenguang Zhu, Lu Yuan(参考訳) 本稿では,知識に基づく視覚的質問応答(vqa)における視覚的表現を再検討し,地域情報をよりよい方法で利用することで,パフォーマンスを著しく向上できることを実証する。 視覚的表現は伝統的なvqaで広く研究されているが、これらの2つのタスクは共通の精神を共有しているにもかかわらず、知識ベースのvqaでは未熟である。 具体的には、ほとんどの最先端の知識に基づくVQA手法について述べる。 1) 視覚的特徴を全体像から抽出し,かつ,知識を取得するためにスライドウィンドウで抽出し,対象領域内の重要な関係を無視する。 2) 視覚的特徴は, ある程度は直感に反する最終回答モデルではよく利用されない。 そこで本研究では,知識検索段階だけでなく,回答モデルにおいても対象領域の明示的な情報を活用するための,知識に基づく新たなVQA手法REVIVEを提案する。 主な動機は、オブジェクト領域と固有の関係が知識に基づくVQAにとって重要であることである。 我々は、標準OK-VQAデータセットの広範な実験を行い、58.0%の精度で新しい最先端性能を実現し、従来の最先端手法を大きなマージン(+3.6%)で上回った。 また,詳細な分析を行い,知識ベースvqaにおける異なる枠組みコンポーネントにおける地域情報の必要性を示す。

This paper revisits visual representation in knowledge-based visual question answering (VQA) and demonstrates that using regional information in a better way can significantly improve the performance. While visual representation is extensively studied in traditional VQA, it is under-explored in knowledge-based VQA even though these two tasks share the common spirit, i.e., rely on visual input to answer the question. Specifically, we observe that in most state-of-the-art knowledge-based VQA methods: 1) visual features are extracted either from the whole image or in a sliding window manner for retrieving knowledge, and the important relationship within/among object regions is neglected; 2) visual features are not well utilized in the final answering model, which is counter-intuitive to some extent. Based on these observations, we propose a new knowledge-based VQA method REVIVE, which tries to utilize the explicit information of object regions not only in the knowledge retrieval stage but also in the answering model. The key motivation is that object regions and inherent relationships are important for knowledge-based VQA. We perform extensive experiments on the standard OK-VQA dataset and achieve new state-of-the-art performance, i.e., 58.0% accuracy, surpassing previous state-of-the-art method by a large margin (+3.6%). We also conduct detailed analysis and show the necessity of regional information in different framework components for knowledge-based VQA.
翻訳日:2022-06-03 13:25:46 公開日:2022-06-02
# XBound-Former: 変圧器のクロススケール境界モデリングに向けて

XBound-Former: Toward Cross-scale Boundary Modeling in Transformers ( http://arxiv.org/abs/2206.00806v1 )

ライセンス: Link先を確認
Jiacheng Wang, Fei Chen, Yuxi Ma, Liansheng Wang, Zhaodong Fei, Jianwei Shuai, Xiangdong Tang, Qichao Zhou, Jing Qin(参考訳) 皮膚内視鏡像からの皮膚病変の分画は、皮膚がんの定量的解析において非常に重要であるが、皮膚科医にとっても、相当な大きさ、形状、色の変化、曖昧な境界が原因で困難である。 近年のビジョントランスフォーマーは,グローバルコンテキストモデリングによる変動処理において有望な性能を示した。 それでも、境界知識とグローバルコンテキストの相補的使用を無視するため、曖昧な境界の問題を完全には解決していない。 本稿では,皮膚病変の分節のばらつきと境界問題に同時に対処する,クロススケールな境界対応変換器 \textbf{XBound-Former} を提案する。 XBound-Formerは、純粋に注意に基づくネットワークであり、3人の特別に設計された学習者を通して境界知識をキャッチする。 我々は、ISIC-2016\&PH$^2$とISIC-2018の2つの皮膚病変データセットでモデルを評価する。 同様の特徴を有するポリープ病変セグメンテーションの一般化能力を広範囲に検証し,最新のモデルと比較して大きな改善をもたらす可能性がある。

Skin lesion segmentation from dermoscopy images is of great significance in the quantitative analysis of skin cancers, which is yet challenging even for dermatologists due to the inherent issues, i.e., considerable size, shape and color variation, and ambiguous boundaries. Recent vision transformers have shown promising performance in handling the variation through global context modeling. Still, they have not thoroughly solved the problem of ambiguous boundaries as they ignore the complementary usage of the boundary knowledge and global contexts. In this paper, we propose a novel cross-scale boundary-aware transformer, \textbf{XBound-Former}, to simultaneously address the variation and boundary problems of skin lesion segmentation. XBound-Former is a purely attention-based network and catches boundary knowledge via three specially designed learners. We evaluate the model on two skin lesion datasets, ISIC-2016\&PH$^2$ and ISIC-2018, where our model consistently outperforms other convolution- and transformer-based models, especially on the boundary-wise metrics. We extensively verify the generalization ability of polyp lesion segmentation that has similar characteristics, and our model can also yield significant improvement compared to the latest models.
翻訳日:2022-06-03 13:25:17 公開日:2022-06-02
# SparseDet: エンドツーエンドの3Dオブジェクト検出を目指す

SparseDet: Towards End-to-End 3D Object Detection ( http://arxiv.org/abs/2206.00960v1 )

ライセンス: Link先を確認
Jianhong Han, Zhaoyi Wan, Zhe Liu, Jie Feng, Bingfeng Zhou(参考訳) 本稿では,ポイントクラウドからの3Dオブジェクト検出のためのSparseDetを提案する。 3dオブジェクト検出に関する既存の作業は、2dイメージにおけるオブジェクト検出の主流の方法に従う3dまたは2dグリッド内のすべての場所の高密度オブジェクト候補に依存している。 しかし、この密集したパラダイムはラベルと検出のギャップを満たすためにデータに専門知識を必要とする。 新たな検出パラダイムとして、sparsedet氏は、潜在候補を表現し、スタックトランスフォーマーを通じて3dオブジェクトの分類とローカライズを直接行うための、学習可能な提案の固定セットを維持している。 余剰除去や非最大抑圧などの後処理を一切行わず、有効な3Dオブジェクト検出が可能であることを示す。 適切に設計されたネットワークにより、SparseDetはより効率的な34.5 FPSの速度で実行しながら高い競合検出精度を達成する。 SparseDetのエンドツーエンドのパラダイムは、3Dオブジェクト検出の空間性に新たな思考をもたらすだろうと考えています。

In this paper, we propose SparseDet for end-to-end 3D object detection from point cloud. Existing works on 3D object detection rely on dense object candidates over all locations in a 3D or 2D grid following the mainstream methods for object detection in 2D images. However, this dense paradigm requires expertise in data to fulfill the gap between label and detection. As a new detection paradigm, SparseDet maintains a fixed set of learnable proposals to represent latent candidates and directly perform classification and localization for 3D objects through stacked transformers. It demonstrates that effective 3D object detection can be achieved with none of post-processing such as redundant removal and non-maximum suppression. With a properly designed network, SparseDet achieves highly competitive detection accuracy while running with a more efficient speed of 34.5 FPS. We believe this end-to-end paradigm of SparseDet will inspire new thinking on the sparsity of 3D object detection.
翻訳日:2022-06-03 13:24:55 公開日:2022-06-02
# Gradient-Guided Smpling を用いた脳MR画像の推奨アノテーション

Suggestive Annotation of Brain MR Images with Gradient-guided Sampling ( http://arxiv.org/abs/2206.01014v1 )

ライセンス: Link先を確認
Chengliang Dai, Shuo Wang, Yuanhan Mo, Elsa Angelini, Yike Guo, Wenjia Bai(参考訳) 近年,画像のセグメンテーションや分類作業において有望な性能を持つ機械学習が医療画像解析に広く採用されている。 機械学習の成功、特に教師付き学習は、手動の注釈付きデータセットの可用性に依存する。 医用画像アプリケーションでは、このような注釈付きデータセットの取得が容易ではないため、注釈付き医用画像セットのキュレーションにはかなりの時間とリソースが必要となる。 本稿では,脳MRI画像のアノテートのための効果的なアノテーションフレームワークを提案する。 脳腫瘍の分節と全脳の分節という2つの異なる脳画像解析タスクの枠組みを評価する。 実験によると、BraTS 2019データセットの脳腫瘍セグメンテーションタスクでは、7%の注釈付きイメージサンプルでセグメントモデルをトレーニングすることで、完全なデータセットでのトレーニングに匹敵するパフォーマンスが得られる。 MALCデータセット上の全脳セグメント化では、42%の暗黙的な注釈付きイメージサンプルによるトレーニングは、完全なデータセットでのトレーニングと同等のパフォーマンスを達成することができる。 提案フレームワークは,手作業によるアノテーションコストの削減と,医用画像アプリケーションにおけるデータ効率の向上に有望な方法を示す。

Machine learning has been widely adopted for medical image analysis in recent years given its promising performance in image segmentation and classification tasks. The success of machine learning, in particular supervised learning, depends on the availability of manually annotated datasets. For medical imaging applications, such annotated datasets are not easy to acquire, it takes a substantial amount of time and resource to curate an annotated medical image set. In this paper, we propose an efficient annotation framework for brain MR images that can suggest informative sample images for human experts to annotate. We evaluate the framework on two different brain image analysis tasks, namely brain tumour segmentation and whole brain segmentation. Experiments show that for brain tumour segmentation task on the BraTS 2019 dataset, training a segmentation model with only 7% suggestively annotated image samples can achieve a performance comparable to that of training on the full dataset. For whole brain segmentation on the MALC dataset, training with 42% suggestively annotated image samples can achieve a comparable performance to training on the full dataset. The proposed framework demonstrates a promising way to save manual annotation cost and improve data efficiency in medical imaging applications.
翻訳日:2022-06-03 13:24:39 公開日:2022-06-02
# レーザースポット(adversarial laser spot) - dnnに対する強固で隠密な物理敵の攻撃

Adversarial Laser Spot: Robust and Covert Physical Adversarial Attack to DNNs ( http://arxiv.org/abs/2206.01034v1 )

ライセンス: Link先を確認
Chengyin Hu(参考訳) 既存のディープニューラルネットワーク(DNN)の多くは、わずかなノイズによって容易に妨害される。 私たちが知る限り、照明設備を配備する物理的敵攻撃技術に関する研究はほとんどない。 光ベースの物理的敵攻撃技術は、優れた隠蔽性を持ち、ディープニューラルネットワーク(自動駆動技術など)に基づく多くのアプリケーションに重大なセキュリティリスクをもたらす。 そこで本研究では, 遺伝的アルゴリズムを用いて, レーザー点の物理的パラメータを最適化し, 物理的対人攻撃を行う, 優れた隠蔽性を有する頑健な物理的対人攻撃技術であるAdvLSを提案する。 低コストレーザー装置を用いて、堅牢で隠密な物理敵攻撃を実現する。 われわれが知る限りでは、AdvLSは昼間に物理的な敵攻撃を行うことのできる最初の光ベースの敵攻撃技術である。 デジタルおよび物理環境における多数の実験は、AdvLSが優れた堅牢性と隠蔽を持っていることを示している。 また,実験データの詳細な解析により,AdvLSが生成する逆方向の摂動は,逆方向の攻撃マイグレーションに優れることがわかった。 実験の結果,AdvLSは高度な深層ニューラルネットワークに深刻な干渉を強いることが示された。

Most existing deep neural networks (DNNs) are easily disturbed by slight noise. As far as we know, there are few researches on physical adversarial attack technology by deploying lighting equipment. The light-based physical adversarial attack technology has excellent covertness, which brings great security risks to many applications based on deep neural networks (such as automatic driving technology). Therefore, we propose a robust physical adversarial attack technology with excellent covertness, called adversarial laser point (AdvLS), which optimizes the physical parameters of laser point through genetic algorithm to perform physical adversarial attack. It realizes robust and covert physical adversarial attack by using low-cost laser equipment. As far as we know, AdvLS is the first light-based adversarial attack technology that can perform physical adversarial attacks in the daytime. A large number of experiments in the digital and physical environments show that AdvLS has excellent robustness and concealment. In addition, through in-depth analysis of the experimental data, we find that the adversarial perturbations generated by AdvLS have superior adversarial attack migration. The experimental results show that AdvLS impose serious interference to the advanced deep neural networks, we call for the attention of the proposed physical adversarial attack technology.
翻訳日:2022-06-03 13:24:19 公開日:2022-06-02
# 多変量時系列のスパース対実説明の生成

Generating Sparse Counterfactual Explanations For Multivariate Time Series ( http://arxiv.org/abs/2206.00931v1 )

ライセンス: Link先を確認
Jana Lang, Martin Giese, Winfried Ilg and Sebastian Otte(参考訳) ニューラルネットワークは重要な分野においてますます重要な役割を担っているため、ネットワーク予測の説明が重要な研究トピックとなっている。 因果的説明は、分類器モデルが特定のクラス割り当てを決定する理由を理解するのに役立ち、さらに、クラス予測が変わるように、各入力サンプルをどのように修正する必要があるかを理解するのに役立つ。 従来のアプローチは主に画像と表データに重点を置いていた。 本研究では,多変量時系列に対してSPARse Counterfactual Explanationsを生成するGANアーキテクチャであるSPARCEを提案する。 提案手法は, トラジェクトリの類似性, 疎性, 滑らか性の観点から, 対実損失関数を正規化する。 実世界の人間の動作データセットと合成時系列解釈可能性ベンチマークに対するアプローチを評価した。 他のアプローチに比べて大幅な変更は行いませんが、すべてのメトリクスで同等あるいは優れたパフォーマンスを実現しています。 さらに,本手法は有意な時間ステップと特徴を主に変更し,非有意な入力を無傷で残すことを示した。

Since neural networks play an increasingly important role in critical sectors, explaining network predictions has become a key research topic. Counterfactual explanations can help to understand why classifier models decide for particular class assignments and, moreover, how the respective input samples would have to be modified such that the class prediction changes. Previous approaches mainly focus on image and tabular data. In this work we propose SPARCE, a generative adversarial network (GAN) architecture that generates SPARse Counterfactual Explanations for multivariate time series. Our approach provides a custom sparsity layer and regularizes the counterfactual loss function in terms of similarity, sparsity, and smoothness of trajectories. We evaluate our approach on real-world human motion datasets as well as a synthetic time series interpretability benchmark. Although we make significantly sparser modifications than other approaches, we achieve comparable or better performance on all metrics. Moreover, we demonstrate that our approach predominantly modifies salient time steps and features, leaving non-salient inputs untouched.
翻訳日:2022-06-03 13:21:49 公開日:2022-06-02
# 多スケールグラフ埋め込みに基づくグラフカーネル

Graph Kernels Based on Multi-scale Graph Embeddings ( http://arxiv.org/abs/2206.00979v1 )

ライセンス: Link先を確認
Wei Ye, Hao Tian, Qijun Chen(参考訳) グラフカーネルはグラフの類似性を計算する従来の方法である。 しかし、ほとんどのR-畳み込みグラフカーネルは2つの課題に直面している。 1)複数の異なるスケールでグラフを比較することはできない。 2) カーネル行列の計算では, サブ構造分布を考慮しない。 これらの2つの課題はパフォーマンスを制限します。 この2つの課題を緩和するため,我々は,マルチスケールパスパターングラフカーネル (mpg) と呼ばれる新しいグラフカーネルを提案する。 path-patternノードの機能マップの各要素は、ノード周辺のpath-patternの発生回数である。 経路パターンは、各ノードに根付いた分岐したBFS木の経路における全てのノードラベルの連結によって構成される。 パスパターンのノード特徴マップは局所的なスケールでグラフを比較できるため、異なる深さのbfs木によってキャプチャされるグラフ構造の複数の異なるスケールを取り込むことができる。 部分構造の分布を考慮した2つのグラフのマルチスケールパスパターンノード特徴マップ間の類似性を計算するためにwasserstein距離を用いる。 我々は,様々なベンチマークグラフデータセット上でMPGを実証的に検証し,その性能を実証する。

Graph kernels are conventional methods for computing graph similarities. However, most of the R-convolution graph kernels face two challenges: 1) They cannot compare graphs at multiple different scales, and 2) they do not consider the distributions of substructures when computing the kernel matrix. These two challenges limit their performances. To mitigate the two challenges, we propose a novel graph kernel called the Multi-scale Path-pattern Graph kernel (MPG), at the heart of which is the multi-scale path-pattern node feature map. Each element of the path-pattern node feature map is the number of occurrences of a path-pattern around a node. A path-pattern is constructed by the concatenation of all the node labels in a path of a truncated BFS tree rooted at each node. Since the path-pattern node feature map can only compare graphs at local scales, we incorporate into it the multiple different scales of the graph structure, which are captured by the truncated BFS trees of different depth. We use the Wasserstein distance to compute the similarity between the multi-scale path-pattern node feature maps of two graphs, considering the distributions of substructures. We empirically validate MPG on various benchmark graph datasets and demonstrate that it achieves state-of-the-art performance.
翻訳日:2022-06-03 13:21:28 公開日:2022-06-02
# 知識グラフ埋め込みの有効性について-ルールマイニングアプローチ

On the Effectiveness of Knowledge Graph Embeddings: a Rule Mining Approach ( http://arxiv.org/abs/2206.00983v1 )

ライセンス: Link先を確認
Johanna J{\o}sang, Ricardo Guimar\~aes, Ana Ozaki(参考訳) ルールマイニングによる知識グラフ完成のための知識グラフ埋め込み(KGE)の有効性を検討した。 より具体的には、抽出されたルールの相違を比較するために、KGEによって完成前後のKGからルールを抽出する。 本稿では,この手法を古典的KGE,特にTransE,DistMult,ComplExに適用する。 実験の結果,KG の完全化に対する KGE のアプローチによって,抽出したルールの間に大きな違いが生じることが示された。 特にTransE完了後、いくつかの素早い規則が抽出された。

We study the effectiveness of Knowledge Graph Embeddings (KGE) for knowledge graph (KG) completion with rule mining. More specifically, we mine rules from KGs before and after they have been completed by a KGE to compare possible differences in the rules extracted. We apply this method to classical KGEs approaches, in particular, TransE, DistMult and ComplEx. Our experiments indicate that there can be huge differences between the extracted rules, depending on the KGE approach for KG completion. In particular, after the TransE completion, several spurious rules were extracted.
翻訳日:2022-06-03 13:21:09 公開日:2022-06-02
# グラフ特性予測のための最短経路ネットワーク

Shortest Path Networks for Graph Property Prediction ( http://arxiv.org/abs/2206.01003v1 )

ライセンス: Link先を確認
Ralph Abboud, Radoslav Dimitrov, \.Ismail \.Ilkan Ceylan(参考訳) ほとんどのグラフニューラルネットワークモデルは、グラフのノード表現を直接近傍の各ノードに反復的に伝播するという、特定のメッセージパッシングパラダイムに依存している。 このパラダイムは、情報が中間ノード表現で繰り返し圧縮され、情報の損失を引き起こし、遠方のノードから有意な信号を収集することが事実上不可能となるため、情報伝達ボトルネックに繋がる。 この問題に対処するために,グラフのノード表現が最短経路近傍の各ノードに伝播する最短経路メッセージパッシングニューラルネットワークを提案する。 この設定では、ノードはたとえ隣人でも直接通信することができ、情報のボトルネックを破り、それによってより適切に学習された表現につながる。 理論的には、我々のフレームワークはメッセージパッシングニューラルネットワークを一般化し、より表現力のあるモデルをもたらす。 実験により,本フレームワークの基本モデルとして,専用の合成実験,および実世界のグラフ分類と回帰ベンチマークの能力を検証する。

Most graph neural network models rely on a particular message passing paradigm, where the idea is to iteratively propagate node representations of a graph to each node in the direct neighborhood. While very prominent, this paradigm leads to information propagation bottlenecks, as information is repeatedly compressed at intermediary node representations, which causes loss of information, making it practically impossible to gather meaningful signals from distant nodes. To address this issue, we propose shortest path message passing neural networks, where the node representations of a graph are propagated to each node in the shortest path neighborhoods. In this setting, nodes can directly communicate between each other even if they are not neighbors, breaking the information bottleneck and hence leading to more adequately learned representations. Theoretically, our framework generalizes message passing neural networks, resulting in provably more expressive models. Empirically, we verify the capacity of a basic model of this framework on dedicated synthetic experiments, and on real-world graph classification and regression benchmarks, obtaining several state-of-the-art results.
翻訳日:2022-06-03 13:21:00 公開日:2022-06-02
# モンテカルロ木探索による非マルコフ決定過程のポリシー勾配アルゴリズム

Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes ( http://arxiv.org/abs/2206.01011v1 )

ライセンス: Link先を確認
Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang(参考訳) ポリシー・グラデーション(PG)は、勾配上昇を用いた予測リターンに対するパラメータ化政策モデルを最適化する強化学習(RL)アプローチである。 ニューラルネットワークモデルのようなよくパラメータ化されたポリシーモデルと適切な初期パラメータが与えられた場合、PGアルゴリズムはマルコフ特性を持っていなくてもうまく機能する。 そうでなければ、高原に閉じ込められるか、ピーク効果に悩まされる。 別のrlアプローチとして、alphazeroを含むモンテカルロ木探索(mcts)に基づくアルゴリズムは、特にボードゲームプレイ領域において画期的な結果を得た。 これらはまた、非マルコフ決定プロセスに適用するのに適している。 しかし、標準MCTSは状態表現を学習する能力を持っていないため、木探索空間のサイズは検索するには大きすぎる可能性がある。 本研究では,PGとMCTSの混合政策について検討し,両者の困難を補完し,その利点を生かした。 2時間スケール確率近似の結果から漸近収束条件を導出し,これらの条件を満たすアルゴリズムを提案する。 提案手法の有効性を非マルコフ決定過程の数値実験により検証した。

Policy gradient (PG) is a reinforcement learning (RL) approach that optimizes a parameterized policy model for an expected return using gradient ascent. Given a well-parameterized policy model, such as a neural network model, with appropriate initial parameters, the PG algorithms work well even when environment does not have the Markov property. Otherwise, they can be trapped on a plateau or suffer from peakiness effects. As another successful RL approach, algorithms based on Monte-Carlo Tree Search (MCTS), which include AlphaZero, have obtained groundbreaking results especially on the board game playing domain. They are also suitable to be applied to non-Markov decision processes. However, since the standard MCTS does not have the ability to learn state representation, the size of the tree-search space can be too large to search. In this work, we examine a mixture policy of PG and MCTS to complement each other's difficulties and take advantage of them. We derive conditions for asymptotic convergence with results of a two-timescale stochastic approximation and propose an algorithm that satisfies these conditions. The effectivity of the proposed methods is verified through numerical experiments on non-Markov decision processes.
翻訳日:2022-06-03 13:20:43 公開日:2022-06-02
# 潜在変数モデルの非決定性:特徴と強い識別可能性

Indeterminacy in Latent Variable Models: Characterization and Strong Identifiability ( http://arxiv.org/abs/2206.00801v1 )

ライセンス: Link先を確認
Quanhan Xi, Benjamin Bloem-Reddy(参考訳) 変分オートエンコーダ (VAE) のような現代の潜在変数および確率的生成モデルは、無限のデータでも解けない不確定性を持つ。 このようなモデルの最近の応用は、観察が一意な潜在コードに対応するような \textit{strongly} 識別可能なモデルが必要であることを示している。 柔軟性を維持しながらモデル不確定性を減らすための進歩は、特にiVAE (arXiv:1907.04809 [stat.ML])によってなされている。 我々は、潜在変数モデルの不確定性を分析するための完全な理論的枠組みを構築し、生成関数と潜在変数先行分布の性質を正確に評価する。 本稿では,近年の識別可能性評価結果の構造をよりよく理解するために,この枠組みを適用した。 次に,強識別可能な潜在変数モデルをどのように指定するかを調査し,そのようなモデルのクラスを2つ構成する。 1つはiVAEの簡単な修正であり、もう1つは最適な輸送からアイデアを使っており、新しいモデルや最近の研究とのつながりにつながっている。

Most modern latent variable and probabilistic generative models, such as the variational autoencoder (VAE), have certain indeterminacies that are unresolvable even with an infinite amount of data. Recent applications of such models have indicated the need for \textit{strongly} identifiable models, in which an observation corresponds to a unique latent code. Progress has been made towards reducing model indeterminacies while maintaining flexibility, most notably by the iVAE (arXiv:1907.04809 [stat.ML]), which excludes many -- but not all -- indeterminacies. We construct a full theoretical framework for analyzing the indeterminacies of latent variable models, and characterize them precisely in terms of properties of the generator functions and the latent variable prior distributions. To illustrate, we apply the framework to better understand the structure of recent identifiability results. We then investigate how we might specify strongly identifiable latent variable models, and construct two such classes of models. One is a straightforward modification of iVAE; the other uses ideas from optimal transport and leads to novel models and connections to recent work.
翻訳日:2022-06-03 13:19:42 公開日:2022-06-02
# マスクベイズ型ニューラルネットワーク : 計算と最適性

Masked Bayesian Neural Networks : Computation and Optimality ( http://arxiv.org/abs/2206.00853v1 )

ライセンス: Link先を確認
Insung Kong, Dongyoon Yang, Jongjin Lee, Ilsang Ohn, Yongdai Kim(参考訳) データサイズと計算能力の増大に伴い、ディープニューラルネットワーク(DNN)のアーキテクチャは複雑で巨大になり、このような複雑で巨大なDNNを単純化する必要性が高まっている。 本稿では,適切な複雑さで優れたDNNを探索する,スパースベイズニューラルネットワーク(BNN)を提案する。 各ノードのマスキング変数を用いて、後続分布に応じていくつかのノードをオフにし、ノードワイズDNNを生成する。 我々は、後続分布が理論的最適性(すなわち極小最適性と適応性)を持つような事前分布を考案し、効率的なMCMCアルゴリズムを開発する。 いくつかのベンチマークデータセットを解析することにより、提案手法は他の手法と比較してよく機能し、大きなDNNと比較して予測精度と不確実性のあるよく凝縮したDNNアーキテクチャを発見できることを示す。

As data size and computing power increase, the architectures of deep neural networks (DNNs) have been getting more complex and huge, and thus there is a growing need to simplify such complex and huge DNNs. In this paper, we propose a novel sparse Bayesian neural network (BNN) which searches a good DNN with an appropriate complexity. We employ the masking variables at each node which can turn off some nodes according to the posterior distribution to yield a nodewise sparse DNN. We devise a prior distribution such that the posterior distribution has theoretical optimalities (i.e. minimax optimality and adaptiveness), and develop an efficient MCMC algorithm. By analyzing several benchmark datasets, we illustrate that the proposed BNN performs well compared to other existing methods in the sense that it discovers well condensed DNN architectures with similar prediction accuracy and uncertainty quantification compared to large DNNs.
翻訳日:2022-06-03 13:19:07 公開日:2022-06-02
# 確率力学ネットワークのベイズ推論

Bayesian Inference of Stochastic Dynamical Networks ( http://arxiv.org/abs/2206.00858v1 )

ライセンス: Link先を確認
Yasen Wang, Junyang Jin, and Jorge Goncalves(参考訳) ネットワーク推論は、システム生物学や社会科学など、いくつかの分野で広く研究されている。 複雑なシステムのメカニズムを理解するには,ネットワークトポロジーと内部ダイナミクスの学習が不可欠である。 特に、スパーストポロジと安定力学は多くの実世界の連続時間ネットワークの基本的特徴である。 通常、一部のノードしか観測できないことを考えると、この論文では、非測定ノードを転送関数でモデル化できるため、線形連続時間系がネットワークを表現できると考えている。 さらに、測定はノイズが多く、サンプリング周波数が低くて変化する傾向がある。 このため,離散時間近似は細粒度測定や一様サンプリングを必要とすることが多いため,連続時間モデル(CT)を考える。 提案手法は,線形確率微分方程式(SDE)から導かれる動的構造関数(DSF)を用いて,測定ノードのネットワークを記述する。 さらに, 数値サンプリング法であるクランク・ニコソン (pCN) を用いて, 粗粒軌道の精密化を行い, 推論精度を向上させる。 ランダムおよびリングネットワーク上で行ったシミュレーションと,本手法がグループスパースベイズ学習(GSBL), BINGO, カーネルベース手法, dynGENIE3, GENIE3, ARNIと比較して最先端の性能を実現することを示す合成生物学的ネットワークである。 特に、これらは挑戦的なネットワークであり、開発手法は幅広い状況下で適用可能であることを示唆している。

Network inference has been extensively studied in several fields, such as systems biology and social sciences. Learning network topology and internal dynamics is essential to understand mechanisms of complex systems. In particular, sparse topologies and stable dynamics are fundamental features of many real-world continuous-time networks. Given that usually only a partial set of nodes are able to observe, in this paper, we consider linear continuous-time systems to depict networks since they can model unmeasured nodes via transfer functions. Additionally, measurements tend to be noisy and with low and varying sampling frequencies. For this reason, we consider continuous-time models (CT) since discrete-time approximations often require fine-grained measurements and uniform sampling steps. The developed method applies dynamical structure functions (DSFs) derived from linear stochastic differential equations (SDEs) to describe networks of measured nodes. Further, a numerical sampling method, preconditioned Crank-Nicolson (pCN), is used to refine coarse-grained trajectories to improve inference accuracy. The simulation conducted on random and ring networks, and a synthetic biological network illustrate that our method achieves state-of-the-art performance compared with group sparse Bayesian learning (GSBL), BINGO, kernel-based methods, dynGENIE3, GENIE3 and ARNI. In particular, these are challenging networks, suggesting that the developed method can be applied under a wide range of contexts.
翻訳日:2022-06-03 13:18:49 公開日:2022-06-02
# DPMソルバー:約10ステップで拡散確率モデルサンプリングのための高速ODEソルバー

DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps ( http://arxiv.org/abs/2206.00927v1 )

ライセンス: Link先を確認
Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, Jun Zhu(参考訳) 拡散確率モデル(DPM)は、新たな強力な生成モデルである。 高品質な生成性能にもかかわらず、DPMはサンプリングの遅さに悩まされ、サンプルを描画するには数百から数千の大規模なニューラルネットワークのシーケンシャルな機能評価(ステップ)が必要になる。 DPM からのサンプリングは、対応する拡散常微分方程式(ODE)を解くものとして見なすことができる。 本研究では拡散ODEの解の正確な定式化を提案する。 この定式化は、以前の研究で採用されたブラックボックスODEソルバにすべての項を残さずに、解の線型部分を分析する。 変数の変更を適用することで、この解をニューラルネットワークの指数重み付き積分に等価に単純化することができる。 そこで我々は,DPM-Solverを提案する。DPM-Solverは収束順序保証付き拡散ODEの高速専用高次解法である。 DPM-Solver は離散時間と連続時間の両方の DPM に適している。 実験の結果, DPM-Solverは, 各種データセット上で10~20個の関数評価で高品質なサンプルを生成できることがわかった。 我々は、CIFAR10データセット上での関数評価10件のFIDと20件のFID2.87のFIDを達成し、各種データセットにおける従来の最先端のトレーニングフリーサンプルと比較すると、4\sim 16\times$のスピードアップを実現した。

Diffusion probabilistic models (DPMs) are emerging powerful generative models. Despite their high-quality generation performance, DPMs still suffer from their slow sampling as they generally need hundreds or thousands of sequential function evaluations (steps) of large neural networks to draw a sample. Sampling from DPMs can be viewed alternatively as solving the corresponding diffusion ordinary differential equations (ODEs). In this work, we propose an exact formulation of the solution of diffusion ODEs. The formulation analytically computes the linear part of the solution, rather than leaving all terms to black-box ODE solvers as adopted in previous works. By applying change-of-variable, the solution can be equivalently simplified to an exponentially weighted integral of the neural network. Based on our formulation, we propose DPM-Solver, a fast dedicated high-order solver for diffusion ODEs with the convergence order guarantee. DPM-Solver is suitable for both discrete-time and continuous-time DPMs without any further training. Experimental results show that DPM-Solver can generate high-quality samples in only 10 to 20 function evaluations on various datasets. We achieve 4.70 FID in 10 function evaluations and 2.87 FID in 20 function evaluations on the CIFAR10 dataset, and a $4\sim 16\times$ speedup compared with previous state-of-the-art training-free samplers on various datasets.
翻訳日:2022-06-03 13:18:22 公開日:2022-06-02
# 正方形損失と直交入力に対する浅いReLUネットワークの勾配流れのダイナミクス

Gradient flow dynamics of shallow ReLU networks for square loss and orthogonal inputs ( http://arxiv.org/abs/2206.00939v1 )

ライセンス: Link先を確認
Etienne Boursier and Loucas Pillaud-Vivien and Nicolas Flammarion(参考訳) 勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。 しかし、近年の進展にもかかわらず、その成功を説明する完全な理論はいまだに欠落している。 本稿では,直交入力ベクトルに対して,小初期化時の平均二乗誤差に対する1階層reluニューラルネットワークの学習における勾配流れダイナミクスの正確な記述を示す。 この設定では、非凸性にもかかわらず、勾配流はゼロ損失に収束し、最小変動ノルムに対するその暗黙バイアスを特徴付ける。 さらに興味深い現象として、初期アライメント現象の定量的記述と、プロセスが鞍の力学に特定の鞍に従うことの証明がある。

The training of neural networks by gradient descent methods is a cornerstone of the deep learning revolution. Yet, despite some recent progress, a complete theory explaining its success is still missing. This article presents, for orthogonal input vectors, a precise description of the gradient flow dynamics of training one-hidden layer ReLU neural networks for the mean squared error at small initialisation. In this setting, despite non-convexity, we show that the gradient flow converges to zero loss and characterise its implicit bias towards minimum variation norm. Furthermore, some interesting phenomena are highlighted: a quantitative description of the initial alignment phenomenon and a proof that the process follows a specific saddle to saddle dynamics.
翻訳日:2022-06-03 13:17:58 公開日:2022-06-02
# 相互情報最小化による非現実的回帰表現の学習

Learning Disentangled Representations for Counterfactual Regression via Mutual Information Minimization ( http://arxiv.org/abs/2206.01022v1 )

ライセンス: Link先を確認
Mingyuan Cheng and Xinru Liao and Quan Liu and Bin Ma and Jian Xu and Bo Zheng(参考訳) 個人レベルの治療効果の学習は因果推論の基本的な問題であり、特に多くのインターネット企業を対象とするユーザ成長領域において、多くの分野で注目を集めている。 近年,共変数を楽器,コンバウンディング,調整因子を含む3つの潜在因子に分解する非絡み合い表現学習法が,治療効果評価において大きな成功を収めている。 しかし、根底にある不整合因子を正確に学習する方法は未解決のままである。 具体的には, 治療効果を同定するために必要な条件として, 従来法では, 独立した不連続因子が得られなかった。 本稿では,相互情報最小化(mim-drcfr)による反事実回帰のための不連続表現を提案する。多タスク学習フレームワークを用いて,潜在因子の学習時に情報を共有するとともに,これらの要因の独立性を確保するためにmi最小化学習基準を取り入れている。 公開ベンチマークや実世界のインダストリアル・ユーザー成長データセットを含む広範な実験により,本手法は最先端の手法よりも優れた性能を示す。

Learning individual-level treatment effect is a fundamental problem in causal inference and has received increasing attention in many areas, especially in the user growth area which concerns many internet companies. Recently, disentangled representation learning methods that decompose covariates into three latent factors, including instrumental, confounding and adjustment factors, have witnessed great success in treatment effect estimation. However, it remains an open problem how to learn the underlying disentangled factors precisely. Specifically, previous methods fail to obtain independent disentangled factors, which is a necessary condition for identifying treatment effect. In this paper, we propose Disentangled Representations for Counterfactual Regression via Mutual Information Minimization (MIM-DRCFR), which uses a multi-task learning framework to share information when learning the latent factors and incorporates MI minimization learning criteria to ensure the independence of these factors. Extensive experiments including public benchmarks and real-world industrial user growth datasets demonstrate that our method performs much better than state-of-the-art methods.
翻訳日:2022-06-03 13:17:46 公開日:2022-06-02
# 多様体制約を用いた逆問題拡散モデルの改善

Improving Diffusion Models for Inverse Problems using Manifold Constraints ( http://arxiv.org/abs/2206.00941v1 )

ライセンス: Link先を確認
Hyungjin Chung, Byeongsu Sim, Dohoon Ryu, Jong Chul Ye(参考訳) 近年,様々な逆問題に対して,サンプリング過程を適切に修正した拡散モデルが用いられている。 しかし、再帰的に逆拡散ステップと測定一貫性ステップを適用する電流ソルバは、しばしば副最適結果を生成する。 生成的サンプリングパスを調べることで、現在の解法がサンプルパスをデータ多様体から捨てることを示し、したがってエラーが蓄積される。 そこで,本論文では,反復を多様体に近いものにするために,前者の解法と相乗的に用いることができる多様体制約に着想を得た補正項を提案する。 提案された多様体制約は数行のコードで簡単に実装できるが、驚くほど大きなマージンで性能を向上させる。 広範な実験により,提案手法は従来の方法よりも理論的に,経験的に優れており,画像インペインティング,カラー化,スパースビューctなど多くの応用で有望な結果が得られた。

Recently, diffusion models have been used to solve various inverse problems in an unsupervised manner with appropriate modifications to the sampling process. However, the current solvers, which recursively apply a reverse diffusion step followed by a measurement consistency step, often produce sub-optimal results. By studying the generative sampling path, here we show that current solvers throw the sample path off the data manifold, and hence the error accumulates. To address this, we propose an additional correction term inspired by the manifold constraint, which can be used synergistically with the previous solvers to make the iterations close to the manifold. The proposed manifold constraint is straightforward to implement within a few lines of code, yet boosts the performance by a surprisingly large margin. With extensive experiments, we show that our method is superior to the previous methods both theoretically and empirically, producing promising results in many applications such as image inpainting, colorization, and sparse-view computed tomography.
翻訳日:2022-06-03 12:56:37 公開日:2022-06-02
# bayesformer: 不確かさを推定するトランスフォーマー

BayesFormer: Transformer with Uncertainty Estimation ( http://arxiv.org/abs/2206.00826v1 )

ライセンス: Link先を確認
Karthik Abinav Sankararaman and Sinong Wang and Han Fang(参考訳) トランスフォーマーは、様々なnlpおよび画像処理タスクにおいて支配的な性能のため、ユビキタスになった。 しかし、変圧器アーキテクチャの数学的根拠に基づく不確実性推定を生成する方法の理解に欠ける。 このような不確実性推定を備えたモデルは、一般的に予測性能を改善し、ネットワークを堅牢にし、過剰フィッティングを避け、アクティブラーニングにおける獲得関数として使用できる。 本稿では,ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。 我々は変分推論に基づくドロップアウトをTransformerベースのアーキテクチャに拡張する新しい理論フレームワークを提案した。 広範な実験を通じて,提案するアーキテクチャを4つのパラダイムで検証し,言語モデリングと分類,長期理解,機械翻訳,アクティブラーニングのための獲得関数などの改善点を示す。

Transformer has become ubiquitous due to its dominant performance in various NLP and image processing tasks. However, it lacks understanding of how to generate mathematically grounded uncertainty estimates for transformer architectures. Models equipped with such uncertainty estimates can typically improve predictive performance, make networks robust, avoid over-fitting and used as acquisition function in active learning. In this paper, we introduce BayesFormer, a Transformer model with dropouts designed by Bayesian theory. We proposed a new theoretical framework to extend the approximate variational inference-based dropout to Transformer-based architectures. Through extensive experiments, we validate the proposed architecture in four paradigms and show improvements across the board: language modeling and classification, long-sequence understanding, machine translation and acquisition function for active learning.
翻訳日:2022-06-03 12:56:20 公開日:2022-06-02
# Vygotskian Autotelic AI:人間のようなAIのための言語と文化の内在化

Vygotskian Autotelic Artificial Intelligence: Language and Culture Internalization for Human-Like AI ( http://arxiv.org/abs/2206.01134v1 )

ライセンス: Link先を確認
C\'edric Colas, Tristan Karch, Cl\'ement Moulin-Frier, Pierre-Yves Oudeyer(参考訳) オープンエンドのスキルのレパートリーを成長させることができる自律型人工知能の構築は、AIの基本的な目標の1つだ。 その目的のために、有望な発展的アプローチは、独自の目標、すなわち自律的エージェントを生成し、追求することによって、新しいスキルを学ぶ本質的な動機付けを持つエージェントの設計を推奨する。 しかし、既存のアルゴリズムは、目標の多様性、探索、一般化、スキル構成において重大な制限をまだ示している。 この視点は、オートテリックエージェントが豊かな社会文化の世界に没入することを要求している。 特に言語に焦点をあて、その構造と内容が、人間のように、人工エージェントにおける新しい認知機能の発展にどのように役立つかに注目します。 実際、私たちのスキルのほとんどは孤立して学べませんでした。 形式的な教育は、系統的に、本は歴史を、YouTubeは料理の仕方を教えてくれる。 重要なことは、私たちの価値観、伝統、規範、そして私たちのゴールのほとんどは本質的に文化的です。 この知識は、抽象、構成的想像力、関係性思考といった我々の認知機能のいくつかは、言語的・文化的相互作用によって形成されます。 ヴィゴツキーの研究に触発されて、Vygotskianのオートテオリックエージェントが他人と対話でき、さらに重要なのは、これらの相互作用を内部化して、新しい認知機能の開発を支援する認知ツールに変換できることだ。 本稿では,人工寿命スキル発見の探求において,新たなAIパラダイムを提案する。 深い強化学習と自然言語処理の交わる最近の研究において、言語と実施者の相互作用から生まれる新しい人工認知機能の例を明らかにすることで、アプローチを正当化する。 今後、Vygotskian Autotelic AI研究の機会と課題が注目される。

Building autonomous artificial agents able to grow open-ended repertoires of skills is one of the fundamental goals of AI. To that end, a promising developmental approach recommends the design of intrinsically motivated agents that learn new skills by generating and pursuing their own goals - autotelic agents. However, existing algorithms still show serious limitations in terms of goal diversity, exploration, generalization or skill composition. This perspective calls for the immersion of autotelic agents into rich socio-cultural worlds. We focus on language especially, and how its structure and content may support the development of new cognitive functions in artificial agents, just like it does in humans. Indeed, most of our skills could not be learned in isolation. Formal education teaches us to reason systematically, books teach us history, and YouTube might teach us how to cook. Crucially, our values, traditions, norms and most of our goals are cultural in essence. This knowledge, and some argue, some of our cognitive functions such as abstraction, compositional imagination or relational thinking, are formed through linguistic and cultural interactions. Inspired by the work of Vygotsky, we suggest the design of Vygotskian autotelic agents able to interact with others and, more importantly, able to internalize these interactions to transform them into cognitive tools supporting the development of new cognitive functions. This perspective paper proposes a new AI paradigm in the quest for artificial lifelong skill discovery. It justifies the approach by uncovering examples of new artificial cognitive functions emerging from interactions between language and embodiment in recent works at the intersection of deep reinforcement learning and natural language processing. Looking forward, it highlights future opportunities and challenges for Vygotskian Autotelic AI research.
翻訳日:2022-06-03 12:56:05 公開日:2022-06-02
# ディファレンシャルプライバシを用いたオフライン強化学習

Offline Reinforcement Learning with Differential Privacy ( http://arxiv.org/abs/2206.00810v1 )

ライセンス: Link先を確認
Dan Qiao, Yu-Xiang Wang(参考訳) オフライン強化学習(RL)問題は、金融、法、医療アプリケーションでデータ駆動型意思決定ポリシーを学ぶ必要性によってしばしば動機づけられる。 しかし、学習方針は、トレーニングデータ(例えば、患者の治療と結果)における個人の機密情報を保持できるため、様々なプライバシーリスクを負う可能性がある。 このようなリスクを確実に防止できる差分プライバシー保証付きオフラインRLアルゴリズムを設計する。 これらのアルゴリズムはまた、表型および線形マルコフ決定プロセス(MDP)設定下での強いインスタンス依存学習境界も享受する。 我々の理論とシミュレーションは、中規模のデータセットの非プライベートデータと比較すると、プライバシー保証は(ほとんど)ユーティリティーが低下しないことを示唆している。

The offline reinforcement learning (RL) problem is often motivated by the need to learn data-driven decision policies in financial, legal and healthcare applications. However, the learned policy could retain sensitive information of individuals in the training data (e.g., treatment and outcome of patients), thus susceptible to various privacy risks. We design offline RL algorithms with differential privacy guarantees which provably prevent such risks. These algorithms also enjoy strong instance-dependent learning bounds under both tabular and linear Markov decision process (MDP) settings. Our theory and simulation suggest that the privacy guarantee comes at (almost) no drop in utility comparing to the non-private counterpart for a medium-size dataset.
翻訳日:2022-06-03 12:55:17 公開日:2022-06-02
# 一般識別可能性問題の再検討

Revisiting the General Identifiability Problem ( http://arxiv.org/abs/2206.01081v1 )

ライセンス: Link先を確認
Yaroslav Kivva, Ehsan Mokhtarian, Jalal Etesami, Negar Kiyavash(参考訳) 因果推論には, [Lee et al., 2019] で最初に導入された一般識別可能性の問題を再考するとともに, 元の定義に観測分布の正の仮定を加える必要があることに留意する。 このような仮定がなければ、[Lee et al., 2019] における do-calculus の規則と、従って提案されたアルゴリズムは正しくないことが示される。 さらに、この仮定を追加すると、[Lee et al., 2019]における完全性証明が失敗する。 主観的仮定の下では, 音と完全の両方を証明可能な新しいアルゴリズムを提案する。 この新しいアルゴリズムの素晴らしい性質は、一般的な識別可能性問題を一連の古典的識別可能性サブ問題に分解することで、パール [1995] による一般識別可能性と古典識別可能性との接続を確立することである。

We revisit the problem of general identifiability originally introduced in [Lee et al., 2019] for causal inference and note that it is necessary to add positivity assumption of observational distribution to the original definition of the problem. We show that without such an assumption the rules of do-calculus and consequently the proposed algorithm in [Lee et al., 2019] are not sound. Moreover, adding the assumption will cause the completeness proof in [Lee et al., 2019] to fail. Under positivity assumption, we present a new algorithm that is provably both sound and complete. A nice property of this new algorithm is that it establishes a connection between general identifiability and classical identifiability by Pearl [1995] through decomposing the general identifiability problem into a series of classical identifiability sub-problems.
翻訳日:2022-06-03 12:55:05 公開日:2022-06-02
# 画像特徴のマイストによる位置情報パターンのマスクの展開

Unveiling The Mask of Position-Information Pattern Through the Mist of Image Features ( http://arxiv.org/abs/2206.01202v1 )

ライセンス: Link先を確認
Chieh Hubert Lin, Hsin-Ying Lee, Hung-Yu Tseng, Maneesh Singh, Ming-Hsuan Yang(参考訳) 近年の研究では、畳み込みニューラルネットワークのパディングが絶対位置情報をエンコードし、特定のタスクのモデル性能に悪影響を及ぼすことが示されている。 しかし、位置情報の強度を定量化するための既存の指標は信頼性が低く、しばしば誤った結果につながる。 そこで本稿では,符号化位置情報の測定(可視化)のための新しい指標を提案する。 我々は、エンコードされた情報をPPP(Position-information Pattern from Padding)と定義し、その特性と形成を研究する一連の実験を行う。 提案手法は,PosENetに基づく既存の指標とF-Convにおけるテストに基づいて,位置情報の存在を確実に測定する。 また、現存する(そして提案された)パディングスキームに対して、PPPは学習成果物であり、基礎となるパディングスキームの特性に依存しないことを示す。

Recent studies show that paddings in convolutional neural networks encode absolute position information which can negatively affect the model performance for certain tasks. However, existing metrics for quantifying the strength of positional information remain unreliable and frequently lead to erroneous results. To address this issue, we propose novel metrics for measuring (and visualizing) the encoded positional information. We formally define the encoded information as PPP (Position-information Pattern from Padding) and conduct a series of experiments to study its properties as well as its formation. The proposed metrics measure the presence of positional information more reliably than the existing metrics based on PosENet and a test in F-Conv. We also demonstrate that for any extant (and proposed) padding schemes, PPP is primarily a learning artifact and is less dependent on the characteristics of the underlying padding schemes.
翻訳日:2022-06-03 12:54:49 公開日:2022-06-02
# 超球面一貫性規則化

Hyperspherical Consistency Regularization ( http://arxiv.org/abs/2206.00845v1 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Lirong Wu, Siyuan Li, Stan Z. Li(参考訳) コントラスト学習の最近の進歩は、様々な半教師あり分野の多様な応用を啓蒙している。 共有特徴エンコーダを用いた教師付き学習と教師なし学習の合同訓練が一般的である。 自己教師付き学習から特徴依存情報と教師付き学習からラベル依存情報の両方を利用する利点があるが、このスキームは分類器のバイアスに苦しんでいる。 本研究では,自己教師付き学習と教師付き学習の関係を体系的に検討し,自己教師付き学習がデータ効率の高い深層学習にどのように役立つかを検討する。 超球面整合正則化(HCR)を提案し,特徴依存情報を用いた分類器の正規化を行い,ラベルからのバイアスを回避する。 具体的には、hcrは分類器と各超球面上の射影ヘッドからの特徴投影からロジットを計画し、次に双対距離の類似度メトリクスのバイナリクロスエントロピーを最小化することにより、超球面上のデータポイントを同様の構造にすることを強制する。 半教師付き学習と弱教師付き学習の広範な実験は,hcrで優れた性能を示すことにより,本手法の有効性を示す。

Recent advances in contrastive learning have enlightened diverse applications across various semi-supervised fields. Jointly training supervised learning and unsupervised learning with a shared feature encoder becomes a common scheme. Though it benefits from taking advantage of both feature-dependent information from self-supervised learning and label-dependent information from supervised learning, this scheme remains suffering from bias of the classifier. In this work, we systematically explore the relationship between self-supervised learning and supervised learning, and study how self-supervised learning helps robust data-efficient deep learning. We propose hyperspherical consistency regularization (HCR), a simple yet effective plug-and-play method, to regularize the classifier using feature-dependent information and thus avoid bias from labels. Specifically, HCR first projects logits from the classifier and feature projections from the projection head on the respective hypersphere, then it enforces data points on hyperspheres to have similar structures by minimizing binary cross entropy of pairwise distances' similarity metrics. Extensive experiments on semi-supervised and weakly-supervised learning demonstrate the effectiveness of our method, by showing superior performance with HCR.
翻訳日:2022-06-03 12:54:32 公開日:2022-06-02
# コントラスト表現学習のためのハード負サンプリング戦略

Hard Negative Sampling Strategies for Contrastive Representation Learning ( http://arxiv.org/abs/2206.01197v1 )

ライセンス: Link先を確認
Afrina Tabassum and Muntasir Wahed and Hoda Eldardiry and Ismini Lourentzou(参考訳) 対照的な学習の課題の1つは、ラベル情報がない場合に適切な \textit{hard negative} の例を選択することである。 特徴類似性に基づくランダムサンプリングや重要サンプリングは、しばしば準最適性能をもたらす。 そこで本研究では,アンカー類似性,モデル不確実性,代表性を考慮したハードネガティブサンプリング戦略であるunremixを導入する。 いくつかのベンチマークによる実験結果から,UnReMixは正のサンプル選択を改良し,その後,最先端のコントラスト学習法と比較して下流性能を向上することが示された。

One of the challenges in contrastive learning is the selection of appropriate \textit{hard negative} examples, in the absence of label information. Random sampling or importance sampling methods based on feature similarity often lead to sub-optimal performance. In this work, we introduce UnReMix, a hard negative sampling strategy that takes into account anchor similarity, model uncertainty and representativeness. Experimental results on several benchmarks show that UnReMix improves negative sample selection, and subsequently downstream performance when compared to state-of-the-art contrastive learning methods.
翻訳日:2022-06-03 12:54:09 公開日:2022-06-02
# (参考訳) the-x:準同型暗号を用いたプライバシー保存トランスフォーマー推論

THE-X: Privacy-Preserving Transformer Inference with Homomorphic Encryption ( http://arxiv.org/abs/2206.00216v2 )

ライセンス: CC BY 4.0
Tianyu Chen, Hangbo Bao, Shaohan Huang, Li Dong, Binxing Jiao, Daxin Jiang, Haoyi Zhou, Jianxin Li, Furu Wei(参考訳) 事前訓練された言語モデルがクラウド上に展開されるにつれて、プライバシの問題は急速に増加し、主に平文ユーザーデータ(検索履歴、医療記録、銀行口座など)が露出する。 トランスフォーマーモデルのプライバシ保存推論は,クラウドサービスユーザの要求に応えている。 プライバシーを保護するために、暗号文のみを同型暗号(HE)で計算することは魅力的な選択である。 しかし,現在のHEツールではまだサポートされていないトランスフォーマーブロックの複雑な計算のために,暗号データ上で事前学習したモデル推論を有効にすることは困難である。 本稿では,トランスフォーマーの近似手法である$\textit{the-x}$を導入し,一般的なフレームワークで開発された事前学習モデルのプライバシ保存推論を可能にする。 $\textit{THE-X}$は、GELU、Softmax、LayerNormといった非多項式関数を含むトランスフォーマーネットワークの複雑な計算を扱うワークフローを提案する。 提案した$\textit{THE-X}$は、異なるダウンストリームタスクに対して暗号化されたデータのトランスフォーマー推論を可能にする。

As more and more pre-trained language models adopt on-cloud deployment, the privacy issues grow quickly, mainly for the exposure of plain-text user data (e.g., search history, medical record, bank account). Privacy-preserving inference of transformer models is on the demand of cloud service users. To protect privacy, it is an attractive choice to compute only with ciphertext in homomorphic encryption (HE). However, enabling pre-trained models inference on ciphertext data is difficult due to the complex computations in transformer blocks, which are not supported by current HE tools yet. In this work, we introduce $\textit{THE-X}$, an approximation approach for transformers, which enables privacy-preserving inference of pre-trained models developed by popular frameworks. $\textit{THE-X}$ proposes a workflow to deal with complex computation in transformer networks, including all the non-polynomial functions like GELU, softmax, and LayerNorm. Experiments reveal our proposed $\textit{THE-X}$ can enable transformer inference on encrypted data for different downstream tasks, all with negligible performance drop but enjoying the theory-guaranteed privacy-preserving advantage.
翻訳日:2022-06-03 12:11:04 公開日:2022-06-02
# (参考訳) sparse mixed-of-expertsのタスク特化エキスパートpruning

Task-Specific Expert Pruning for Sparse Mixture-of-Experts ( http://arxiv.org/abs/2206.00277v2 )

ライセンス: CC BY 4.0
Tianyu Chen, Shaohan Huang, Yuan Xie, Binxing Jiao, Daxin Jiang, Haoyi Zhou, Jianxin Li, Furu Wei(参考訳) sparse Mixture-of-Experts (MoE) モデルは大規模事前トレーニングには強力であり,そのモデル能力により有望な結果を得た。 しかし、何兆というパラメータを持つMoEは、クラウドやモバイル環境にデプロイするのは難しい。 MoEの推論には、ハードウェアフレンドリで通信コストのかかる専門家の並列性が必要だ。 特にリソース制限のあるダウンストリームタスクの場合、そのようなスパース構造は性能向上のために多くの計算効率を犠牲にしなければならない。 この研究では、ほとんどの専門家がMoEの微調整と推論にほとんど貢献していないのを観察します。 さらに,目標下流タスクの非専門的専門家を段階的に降ろし,MoEモデルの利点を保ちながら,MoEモデルを1つの専門的高密度モデルに還元する手法を提案する。 実験の結果,6種類のタスクにまたがるmoeの99.3%の利点を保ちつつ,自由通信コストで2倍の推論速度を享受できることがわかった。

The sparse Mixture-of-Experts (MoE) model is powerful for large-scale pre-training and has achieved promising results due to its model capacity. However, with trillions of parameters, MoE is hard to be deployed on cloud or mobile environment. The inference of MoE requires expert parallelism, which is not hardware-friendly and communication expensive. Especially for resource-limited downstream tasks, such sparse structure has to sacrifice a lot of computing efficiency for limited performance gains. In this work, we observe most experts contribute scarcely little to the MoE fine-tuning and inference. We further propose a general method to progressively drop the non-professional experts for the target downstream task, which preserves the benefits of MoE while reducing the MoE model into one single-expert dense model. Our experiments reveal that the fine-tuned single-expert model could preserve 99.3% benefits from MoE across six different types of tasks while enjoying 2x inference speed with free communication cost.
翻訳日:2022-06-03 11:54:30 公開日:2022-06-02
# (参考訳) 論理に基づく倫理計画

Logic-Based Ethical Planning ( http://arxiv.org/abs/2206.00595v2 )

ライセンス: CC BY 4.0
Umberto Grandi, Emiliano Lorini, Timothy Parker, Rachid Alami(参考訳) 本稿では,ロボット工学への応用を意図した,計画の文脈における倫理的意思決定の枠組みを提案する。 線形時間論理と語彙的嗜好モデリングを組み合わせた倫理計画のためのコンパクトだが表現性の高い言語を提案する。 この組み合わせにより、エージェントの価値と欲求の両方に関して計画を評価することができ、エージェントのモラルレベルという新しい概念を導入し、マルチゴールでマルチバリューな計画へと進むことができる。 我々は,計画タスクの計算複雑性の研究を開始し,ロボット工学への応用の可能性について論じる。

In this paper we propose a framework for ethical decision making in the context of planning, with intended application to robotics. We put forward a compact but highly expressive language for ethical planning that combines linear temporal logic with lexicographic preference modelling. This original combination allows us to assess plans both with respect to an agent's values and their desires, introducing the novel concept of the morality level of an agent and moving towards multigoal, multivalue planning. We initiate the study of computational complexity of planning tasks in our setting, and we discuss potential applications to robotics.
翻訳日:2022-06-03 11:40:30 公開日:2022-06-02
# バッチ正規化は損失の第1および第2導関数に盲目である

Batch Normalization Is Blind to the First and Second Derivatives of the Loss ( http://arxiv.org/abs/2205.15146v2 )

ライセンス: Link先を確認
Zhanpeng Zhou, Wen Shen, Huixin Chen, Ling Tang, Quanshi Zhang(参考訳) 本稿では,BN操作が損失の第1および第2誘導体のバックプロパゲーションに及ぼす影響を実証する。 損失関数のテイラー級数展開を行うとき、BN演算が損失の1次項の影響と2次項の最も大きな影響を阻害することを証明する。 また,この問題の原因はBN演算の標準化段階にあることも確認した。 実験の結果, BN演算は特定のタスクの特徴表現に大きく影響し, 異なるサンプルの損失が同様の解析式を共有することがわかった。

In this paper, we prove the effects of the BN operation on the back-propagation of the first and second derivatives of the loss. When we do the Taylor series expansion of the loss function, we prove that the BN operation will block the influence of the first-order term and most influence of the second-order term of the loss. We also find that such a problem is caused by the standardization phase of the BN operation. Experimental results have verified our theoretical conclusions, and we have found that the BN operation significantly affects feature representations in specific tasks, where losses of different samples share similar analytic formulas.
翻訳日:2022-06-03 11:23:25 公開日:2022-06-02
# 腎臓結石画像の原型部分検出による解釈可能な深層学習分類

Interpretable Deep Learning Classifier by Detection of Prototypical Parts on Kidney Stones Images ( http://arxiv.org/abs/2206.00252v2 )

ライセンス: Link先を確認
Daniel Flores-Araiza, Francisco Lopez-Tiro, Elias Villalvazo-Avila, Jonathan El-Beze, Jacques Hubert, Gilberto Ochoa-Ruiz, Christian Daul(参考訳) 腎臓結石の種類を特定することで、尿器科医はその形成原因を判断し、将来の再発を減らすために適切な治療の早期処方を改善することができる。 しかし、現在、関連する元vivo診断(morpho-constitutional analysis、mca)は、非常に操作性が高いビジュアル分析コンポーネントを必要とするため、時間がかかり、費用がかかり、非常に多くの経験を必要とする。 近年,生体内結石認識のための機械学習法が開発されている。 浅い手法は信頼性が高く解釈可能であるが精度が低いことが証明されているが、深層学習に基づく手法は精度が高いが説明できない。 しかし、高い利害判断は、単にそれを処方するのではなく、合理的な証拠に基づく行動の道筋を提案するために、コンピュータ支援診断(CAD)を必要とする。 本稿では,解釈可能なモデルを実現する部分プロトタイプ(PP)の学習方法を検討する。 本提案では, 腎臓結石像の分類法を提案し, mca法と類似した説明を提供する。

Identifying the type of kidney stones can allow urologists to determine their formation cause, improving the early prescription of appropriate treatments to diminish future relapses. However, currently, the associated ex-vivo diagnosis (known as morpho-constitutional analysis, MCA) is time-consuming, expensive, and requires a great deal of experience, as it requires a visual analysis component that is highly operator dependant. Recently, machine learning methods have been developed for in-vivo endoscopic stone recognition. Shallow methods have been demonstrated to be reliable and interpretable but exhibit low accuracy, while deep learning-based methods yield high accuracy but are not explainable. However, high stake decisions require understandable computer-aided diagnosis (CAD) to suggest a course of action based on reasonable evidence, rather than merely prescribe one. Herein, we investigate means for learning part-prototypes (PPs) that enable interpretable models. Our proposal suggests a classification for a kidney stone patch image and provides explanations in a similar way as those used on the MCA method.
翻訳日:2022-06-03 11:23:14 公開日:2022-06-02
# Metrizing Fairness

Metrizing Fairness ( http://arxiv.org/abs/2205.15049v2 )

ライセンス: Link先を確認
Yves Rychener, Bahar Taskesen, Daniel Kuhn(参考訳) 本研究では,2つのグループのうちの1つに属する個人の特性を予測するための教師付き学習問題を調査し,統計的パリティに応じて公平な予測者を求める。 このことは、2つの群内の予測の分布がコルモゴロフ距離に近づき、学習問題の目的関数においてこれらの2つの分布の相似性を罰することによって公平性を達成することを意味する。 本稿では,コルモゴロフ距離以外の積分確率測度(IPM)を用いて不公平さを測る概念的および計算的利点を示す。 概念的には、任意の ipm の生成元をユーティリティ関数の族として解釈することができ、この ipm に関する不公平性は、2つの人口集団の個人が期待する効用を分散させた場合に生じる。 また,不公平度が2乗平均L^2$-距離または2乗平均誤差で測定された場合,不公平度正規化予測損失は不偏勾配推定器を許容することを示した。 この場合、フェアラーニング問題は、効率的な確率勾配勾配(SGD)アルゴリズムに影響を受けやすい。 実データに関する数値実験によると、これらのSGDアルゴリズムは、公正な学習のための最先端の手法よりも優れた精度と不公平なトレードオフを実現している。 最後に,統計的パリティが予測精度を向上させる条件を特定する。

We study supervised learning problems for predicting properties of individuals who belong to one of two demographic groups, and we seek predictors that are fair according to statistical parity. This means that the distributions of the predictions within the two groups should be close with respect to the Kolmogorov distance, and fairness is achieved by penalizing the dissimilarity of these two distributions in the objective function of the learning problem. In this paper, we showcase conceptual and computational benefits of measuring unfairness with integral probability metrics (IPMs) other than the Kolmogorov distance. Conceptually, we show that the generator of any IPM can be interpreted as a family of utility functions and that unfairness with respect to this IPM arises if individuals in the two demographic groups have diverging expected utilities. We also prove that the unfairness-regularized prediction loss admits unbiased gradient estimators if unfairness is measured by the squared $\mathcal L^2$-distance or by a squared maximum mean discrepancy. In this case, the fair learning problem is susceptible to efficient stochastic gradient descent (SGD) algorithms. Numerical experiments on real data show that these SGD algorithms outperform state-of-the-art methods for fair learning in that they achieve superior accuracy-unfairness trade-offs -- sometimes orders of magnitude faster. Finally, we identify conditions under which statistical parity can improve prediction accuracy.
翻訳日:2022-06-03 11:22:56 公開日:2022-06-02
# 合成ゼロショット学習のための不変視覚表現の学習

Learning Invariant Visual Representations for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2206.00415v2 )

ライセンス: Link先を確認
Tian Zhang, Kongming Liang, Ruoyi Du, Xian Sun, Zhanyu Ma, Jun Guo(参考訳) 合成ゼロショット学習(CZSL)は,学習セットにおける属性オブジェクトの合成から学習した知識を用いて,新しい構成を認識することを目的としている。 以前の作業は主に、イメージとコンポジションを共通の埋め込み空間に投影し、互換性のスコアを測定する。 しかし、属性とオブジェクトの両方が上記の視覚的表現を共有しているため、モデルが観察されたペアに対する刺激的な相関と偏見を利用することになる。 代わりに、我々はCZSLを分布外一般化問題として再考する。 オブジェクトがドメインとして扱われる場合、オブジェクト不変の特徴を学習して、任意のオブジェクトに確実にアタッチされた属性を認識することができる。 同様に属性不変機能は、属性をドメインとして持つオブジェクトを認識するときにも学習できる。 具体的には,異なる領域を表象レベルと勾配レベルで整列させ,タスクに付随する固有特性を捉える不変特徴学習フレームワークを提案する。 2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。

Compositional Zero-Shot Learning (CZSL) aims to recognize novel compositions using knowledge learned from seen attribute-object compositions in the training set. Previous works mainly project an image and a composition into a common embedding space to measure their compatibility score. However, both attributes and objects share the visual representations learned above, leading the model to exploit spurious correlations and bias towards seen pairs. Instead, we reconsider CZSL as an out-of-distribution generalization problem. If an object is treated as a domain, we can learn object-invariant features to recognize the attributes attached to any object reliably. Similarly, attribute-invariant features can also be learned when recognizing the objects with attributes as domains. Specifically, we propose an invariant feature learning framework to align different domains at the representation and gradient levels to capture the intrinsic characteristics associated with the tasks. Experiments on two CZSL benchmarks demonstrate that the proposed method significantly outperforms the previous state-of-the-art.
翻訳日:2022-06-03 11:22:02 公開日:2022-06-02
# 効率的な合成データパラメータ化によるデータセットの凝縮

Dataset Condensation via Efficient Synthetic-Data Parameterization ( http://arxiv.org/abs/2205.14959v2 )

ライセンス: Link先を確認
Jang-Hyun Kim, Jinuk Kim, Seong Joon Oh, Sangdoo Yun, Hwanjun Song, Joonhyun Jeong, Jung-Woo Ha, Hyun Oh Song(参考訳) 大量のデータを使った機械学習の素晴らしい成功は、膨大な計算コストとトレーニングとチューニングのためのストレージのコストによってもたらされます。 データセット凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することによって、そのような大量のデータへの依存を減らす試みである。 しかし、既存のアプローチは、データ規則性特性を考慮せず、合成データセットの表現可能性に制限があるため、最適化に根本的な制限がある。 そこで本研究では,データ規則性を考慮した効率的なパラメータ化により,少ないストレージ予算で複数の合成データを生成する新しい凝縮フレームワークを提案する。 さらに,既存の勾配整合型凝縮法の欠点を解析し,学習データ情報の凝縮性を改善するための効果的な最適化手法を開発した。 我々は,CIFAR-10, ImageNet, Speech Commandsにおける現在の最先端技術に対して,コンデンサデータの品質を大幅に向上させる統一アルゴリズムを提案する。

The great success of machine learning with massive amounts of data comes at a price of huge computation costs and storage for training and tuning. Recent studies on dataset condensation attempt to reduce the dependence on such massive data by synthesizing a compact training dataset. However, the existing approaches have fundamental limitations in optimization due to the limited representability of synthetic datasets without considering any data regularity characteristics. To this end, we propose a novel condensation framework that generates multiple synthetic data with a limited storage budget via efficient parameterization considering data regularity. We further analyze the shortcomings of the existing gradient matching-based condensation methods and develop an effective optimization technique for improving the condensation of training data information. We propose a unified algorithm that drastically improves the quality of condensed data against the current state-of-the-art on CIFAR-10, ImageNet, and Speech Commands.
翻訳日:2022-06-03 11:21:44 公開日:2022-06-02
# オフライン強化学習のための可読性を有するモデル生成

Model Generation with Provable Coverability for Offline Reinforcement Learning ( http://arxiv.org/abs/2206.00316v2 )

ライセンス: Link先を確認
Chengxing Jia and Hao Yin and Chenxiao Gao and Tian Xu and Lei Yuan and Zongzhang Zhang and Yang Yu(参考訳) ダイナミックス対応ポリシーを用いたモデルベースのオフライン最適化は、学習されたポリシーがトレーニング段階で列挙された異なるダイナミクスに適応できるような、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。 しかし、オフライン設定の制約のため、学習されたモデルは、信頼できる分散探索をサポートするのに十分な実際のダイナミクスを模倣できなかった。 ギャップを狭めるため、以前の作品はランダム初期化モデルを概ねアンサンブルし、実際のダイナミクスをよりよく近似した。 しかし、そのような実践は費用がかかり、非効率であり、本論文でカバー可能性と呼ぶ学習モデルによって実際のダイナミクスがいかによく近似できるかは保証されていない。 我々は、実力学を効率的かつ制御可能な方法でカバーできる証明可能なモデルを生成することで、この問題に積極的に対処する。 そこで本研究では,ダイナミックスの下でのポリシーの占有度に基づいて,動的モデルの距離メトリックを設計し,実際のダイナミックスのカバレッジを最適化するモデルを生成するアルゴリズムを提案する。 モデル生成過程に関する理論的解析を行い,提案アルゴリズムが適用可能性の向上を証明した。 ダウンストリームタスクとして,従来のオフラインRLベンチマークにおいて,我々のアルゴリズムが従来のオフライン手法よりも優れていることを示す実験を行った。 また,本手法で学習したポリシーはゼロショット転送性能が向上し,その一般化が示唆されることがわかった。

Model-based offline optimization with dynamics-aware policy provides a new perspective for policy learning and out-of-distribution generalization, where the learned policy could adapt to different dynamics enumerated at the training stage. But due to the limitation under the offline setting, the learned model could not mimic real dynamics well enough to support reliable out-of-distribution exploration, which still hinders policy to generalize well. To narrow the gap, previous works roughly ensemble randomly initialized models to better approximate the real dynamics. However, such practice is costly and inefficient, and provides no guarantee on how well the real dynamics could be approximated by the learned models, which we name coverability in this paper. We actively address this issue by generating models with provable ability to cover real dynamics in an efficient and controllable way. To that end, we design a distance metric for dynamic models based on the occupancy of policies under the dynamics, and propose an algorithm to generate models optimizing their coverage for the real dynamics. We give a theoretical analysis on the model generation process and proves that our algorithm could provide enhanced coverability. As a downstream task, we train a dynamics-aware policy with minor or no conservative penalty, and experiments demonstrate that our algorithm outperforms prior offline methods on existing offline RL benchmarks. We also discover that policies learned by our method have better zero-shot transfer performance, implying their better generalization.
翻訳日:2022-06-03 11:21:32 公開日:2022-06-02
# 2段階推薦システム第一段階の公平性

Fairness in the First Stage of Two-Stage Recommender Systems ( http://arxiv.org/abs/2205.15436v2 )

ライセンス: Link先を確認
Lequn Wang and Thorsten Joachims(参考訳) 多くの大規模レコメンデーションシステムは2つの段階から構成されており、第1段階は、最終レコメンデーションをキュレートする第2段階モデルのための巨大なアイテムプールから、有望な候補の小さなサブセットを効率的に生成することに焦点を当てている。 本稿では,この2段階パラダイムの項目に対してグループフェアネスを確保する方法について検討する。 特に,既存の第1段階の推薦者は,不公平な候補を選ぶ可能性があり,第2段階の推薦者が公正な推薦を行う見込みがない。 そこで本稿では,クエリや項目の関連性モデルと,各ポリシーに期待される項目数に限定したポイントワイドな信頼度を条件として,各項目群から十分な関連項目を含む候補をほぼ最適に選択する2つのしきい値選択ルールを提案する。 ルールをインスタンス化するために,多数の大規模レコメンデータシステムに多い部分的および偏りのあるユーザフィードバックデータから,そのような信頼性境界を導出する方法を実証する。 さらに、2つのしきい値選択規則が最適しきい値にどの程度近いかの有限サンプルと漸近解析の両方を提供する。 この理論解析の他に、これらの2つのルールは、幅広い設定の候補セットのサイズを最小化しながら、各グループから十分な関連項目を一貫して選択できることを示す。

Many large-scale recommender systems consist of two stages, where the first stage focuses on efficiently generating a small subset of promising candidates from a huge pool of items for the second-stage model to curate final recommendations from. In this paper, we investigate how to ensure group fairness to the items in this two-stage paradigm. In particular, we find that existing first-stage recommenders might select an irrecoverably unfair set of candidates such that there is no hope for the second-stage recommender to deliver fair recommendations. To this end, we propose two threshold-policy selection rules that, given any relevance model of queries and items and a point-wise lower confidence bound on the expected number of relevant items for each policy, find near-optimal sets of candidates that contain enough relevant items in expectation from each group of items. To instantiate the rules, we demonstrate how to derive such confidence bounds from potentially partial and biased user feedback data, which are abundant in many large-scale recommender systems. In addition, we provide both finite-sample and asymptotic analysis of how close the two threshold selection rules are to the optimal thresholds. Beyond this theoretical analysis, we show empirically that these two rules can consistently select enough relevant items from each group while minimizing the size of the candidate sets for a wide range of settings.
翻訳日:2022-06-03 11:20:15 公開日:2022-06-02
# 深部X-Risk最適化のアルゴリズム基礎

Algorithmic Foundation of Deep X-Risk Optimization ( http://arxiv.org/abs/2206.00439v2 )

ライセンス: Link先を確認
Tianbao Yang(参考訳) X-riskは、構成測度や目的の族を表現するために導入された用語で、各データポイントを、リスク関数を定義するために明示的にまたは暗黙的にデータポイントの集合と比較する。 例えば、AUROC, AUPRC, partial AUROC, NDCG, MAP, top-$K$ NDCG, top-$K$ MAP, listwise loss, p-norm push, top push, precision/recall at top $K$ position, precision at a certain recall level, contrastive objectivesなどである。 これらの尺度/目的とその最適化アルゴリズムは、機械学習、コンピュータビジョン、情報検索などの文献で研究されているが、これらの尺度/目的の最適化は、ディープラーニングに特有の課題に遭遇している。 本稿では,そのアルゴリズム基盤に焦点をあてて,最近のDXO(Deep X-risk Optimization)の厳密な取り組みについて調査する。 深層学習のためのXリスク最適化手法のクラスを導入する。 dxoを,非凸ミニマックス最適化,非凸合成最適化,非凸二レベル最適化に属する3種類の非凸最適化問題に定式化する。 それぞれの問題に対して,既存の結果を改善するためのさらなる研究の動機となる強固なベースラインアルゴリズムとその複雑さを示す。 最後に、提示された結果と今後の研究について論じる。 様々なXリスクを最適化する効率的なアルゴリズムが www.libauc.org の LibAUC ライブラリに実装されている。

X-risk is a term introduced to represent a family of compositional measures or objectives, in which each data point is compared with a set of data points explicitly or implicitly for defining a risk function. It includes many widely used measures or objectives, e.g., AUROC, AUPRC, partial AUROC, NDCG, MAP, top-$K$ NDCG, top-$K$ MAP, listwise losses, p-norm push, top push, precision/recall at top $K$ positions, precision at a certain recall level, contrastive objectives, etc. While these measures/objectives and their optimization algorithms have been studied in the literature of machine learning, computer vision, information retrieval, and etc, optimizing these measures/objectives has encountered some unique challenges for deep learning. In this technical report, we survey our recent rigorous efforts for deep X-risk optimization (DXO) by focusing on its algorithmic foundation. We introduce a class of techniques for optimizing X-risk for deep learning. We formulate DXO into three special families of non-convex optimization problems belonging to non-convex min-max optimization, non-convex compositional optimization, and non-convex bilevel optimization, respectively. For each family of problems, we present some strong baseline algorithms and their complexities, which will motivate further research for improving the existing results. Discussions about the presented results and future studies are given at the end. Efficient algorithms for optimizing a variety of X-risks are implemented in the LibAUC library at www.libauc.org.
翻訳日:2022-06-03 11:19:47 公開日:2022-06-02
# オンラインミラーディフレッシュによる多角形ゲームにおける効率の良い$\Phi$-Regret最小化

Efficient $\Phi$-Regret Minimization in Extensive-Form Games via Online Mirror Descent ( http://arxiv.org/abs/2205.15294v2 )

ライセンス: Link先を確認
Yu Bai, Chi Jin, Song Mei, Ziang Song, Tiancheng Yu(参考訳) EFG(Learning Extensive-Form Games)は、NFG(Normal-Form Games)に変換する手法である。 このアプローチにより,NFGの最先端技術や解析をEFGの学習に直接変換することが可能になるが,この変換によって導入されたゲームサイズが指数関数的に膨らみ,計算の難しさに悩まされることが多い。 本稿では,この問題を,NFGの大規模な平衡を学習可能な汎用アルゴリズムであるemph{$\Phi$-Hedge}アルゴリズムの,自然かつ重要な設定で解決する。 EFGにおけるNash Equilibria(ゼロサム設定)、Normal-Form Coarse Correlated Equilibria(NFCCE)、Extensive-Form Correlated Equilibria(EFCE)の学習に$\Phi$-Hedgeが直接利用できることを示す。 これらの設定では、emph{$\Phi$-Hedge}アルゴリズムは、適切な拡張正則化器を持つEFGの標準オンラインミラードライザー(OMD)アルゴリズムと等価であり、多項式時間で実行されることを証明している。 この新たな接続により、ログ分割関数の変更に基づいて新しいクラスのOMDアルゴリズムを設計および解析することが可能になる。 特に、$x$情報セット、$a$アクション、$t$エピソードを持つefgにおいて、bandit-feedbackの下で鋭い$\widetilde{\mathcal{o}}(\sqrt{xat})$efce-regretを達成するためのバランス技術を備えた改良されたアルゴリズムを設計する。 われわれの知る限りでは、これが初めてであり、情報理論の下限と一致する。

A conceptually appealing approach for learning Extensive-Form Games (EFGs) is to convert them to Normal-Form Games (NFGs). This approach enables us to directly translate state-of-the-art techniques and analyses in NFGs to learning EFGs, but typically suffers from computational intractability due to the exponential blow-up of the game size introduced by the conversion. In this paper, we address this problem in natural and important setups for the \emph{$\Phi$-Hedge} algorithm -- A generic algorithm capable of learning a large class of equilibria for NFGs. We show that $\Phi$-Hedge can be directly used to learn Nash Equilibria (zero-sum settings), Normal-Form Coarse Correlated Equilibria (NFCCE), and Extensive-Form Correlated Equilibria (EFCE) in EFGs. We prove that, in those settings, the \emph{$\Phi$-Hedge} algorithms are equivalent to standard Online Mirror Descent (OMD) algorithms for EFGs with suitable dilated regularizers, and run in polynomial time. This new connection further allows us to design and analyze a new class of OMD algorithms based on modifying its log-partition function. In particular, we design an improved algorithm with balancing techniques that achieves a sharp $\widetilde{\mathcal{O}}(\sqrt{XAT})$ EFCE-regret under bandit-feedback in an EFG with $X$ information sets, $A$ actions, and $T$ episodes. To our best knowledge, this is the first such rate and matches the information-theoretic lower bound.
翻訳日:2022-06-03 11:19:18 公開日:2022-06-02
# Deepfake Caricatures: 人工物への注意の増幅は人や機械によるディープフェイクの検出を増加させる

Deepfake Caricatures: Amplifying attention to artifacts increases deepfake detection by humans and machines ( http://arxiv.org/abs/2206.00535v2 )

ライセンス: Link先を確認
Camilo Fosco, Emilie Josephs, Alex Andonian, Allen Lee, Xi Wang and Aude Oliva(参考訳) ディープフェイクは、誤報の拡散を促進することによって、私たちのデジタル社会に深刻な脅威をもたらす。 検出すると同時に,ユーザの存在を効果的に警告する技術を開発することが不可欠である。 本稿では,これらのニーズを満たす新しいディープフェイク検出フレームワークを提案する。 提案手法では,人間のアノテーションを半教師するビデオアーティファクトのアテンションマップを生成する。 これらの地図には2つの貢献がある。 まず、複数のディープフェイク検出データセットで実証されたディープフェイク分類器の精度と一般化性を改善する。 第2に,人間ユーザのための直感的な信号を,“ディープフェイクの似顔絵(deepfake caricatures)”という形で生成することが可能だ。 提案手法は,人間と人工的な監督の混合に基づき,偽の視覚コンテンツに対する対策のさらなる発展を目標とし,疑わしい視覚メディアを提示することで,人間に自己判断能力を与える。

Deepfakes pose a serious threat to our digital society by fueling the spread of misinformation. It is essential to develop techniques that both detect them, and effectively alert the human user to their presence. Here, we introduce a novel deepfake detection framework that meets both of these needs. Our approach learns to generate attention maps of video artifacts, semi-supervised on human annotations. These maps make two contributions. First, they improve the accuracy and generalizability of a deepfake classifier, demonstrated across several deepfake detection datasets. Second, they allow us to generate an intuitive signal for the human user, in the form of "Deepfake Caricatures": transformations of the original deepfake video where attended artifacts are exacerbated to improve human recognition. Our approach, based on a mixture of human and artificial supervision, aims to further the development of countermeasures against fake visual content, and grants humans the ability to make their own judgment when presented with dubious visual media.
翻訳日:2022-06-03 11:18:38 公開日:2022-06-02