このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211228となっている論文です。

PDF登録状況(公開日: 20211228)

TitleAuthorsAbstract論文公表日・翻訳日
# 安定かつ効率的な政策評価

Stable and Efficient Policy Evaluation ( http://arxiv.org/abs/2006.03978v2 )

ライセンス: Link先を確認
Daoming Lyu, Bo Liu, Matthieu Geist, Wen Dong, Saad Biaz, Qi Wang(参考訳) 政策評価アルゴリズムは、政策の性能を予測する能力のため、強化学習に不可欠である。 しかし、この予測問題には、オフポリシーの安定性とオンポリシーの効率という2つの長期的な問題が存在する。 従来の時間差(td)アルゴリズムは、オンポリシー設定において非常によく機能することが知られているが、オフポリシーは安定ではない。 一方、勾配tdと強調型tdアルゴリズムはオフポリシー安定であるが、オンポリシー効率は高くない。 本稿では, 斜め射影法を用いて, オフポリシー安定かつオンポリシー効率のよい新しいアルゴリズムを提案する。 様々な領域における実験結果から,提案手法の有効性が検証された。

Policy evaluation algorithms are essential to reinforcement learning due to their ability to predict the performance of a policy. However, there are two long-standing issues lying in this prediction problem that need to be tackled: off-policy stability and on-policy efficiency. The conventional temporal difference (TD) algorithm is known to perform very well in the on-policy setting, yet is not off-policy stable. On the other hand, the gradient TD and emphatic TD algorithms are off-policy stable, but are not on-policy efficient. This paper introduces novel algorithms that are both off-policy stable and on-policy efficient by using the oblique projection method. The empirical experimental results on various domains validate the effectiveness of the proposed approach.
翻訳日:2022-11-24 21:14:41 公開日:2021-12-28
# gibbs分布を用いたニューラルネットワークプルーニングの枠組み

A Framework for Neural Network Pruning Using Gibbs Distributions ( http://arxiv.org/abs/2006.04981v2 )

ライセンス: Link先を確認
Alex Labach and Shahrokh Valaee(参考訳) 現代のディープニューラルネットワークは多くの場合、多くの実用的なシナリオで使用するには大きすぎる。 ニューラルネットワークのプルーニングは、そのようなモデルのサイズを減らし、推論を加速する重要な手法である。 Gibbs pruningは、ニューラルネットワークのプルーニングメソッドを表現および設計するための新しいフレームワークである。 統計物理学と確率正規化法のアプローチを組み合わせることで、学習した重みとプルーニングマスクが互いに順応するように、ネットワークを同時に訓練し、訓練することができる。 構造的あるいは非構造的プルーニングに利用することができ、それぞれにいくつかの特定のメソッドを提案する。 提案手法を現代のニューラルネットワークプルーニング法と比較し,gibbsプルーニングがそれを上回ることを確認した。 特に、CIFAR-10データセットを用いてResNet-56を刈り取るための最先端の新たな結果を得る。

Modern deep neural networks are often too large to use in many practical scenarios. Neural network pruning is an important technique for reducing the size of such models and accelerating inference. Gibbs pruning is a novel framework for expressing and designing neural network pruning methods. Combining approaches from statistical physics and stochastic regularization methods, it can train and prune a network simultaneously in such a way that the learned weights and pruning mask are well-adapted for each other. It can be used for structured or unstructured pruning and we propose a number of specific methods for each. We compare our proposed methods to a number of contemporary neural network pruning methods and find that Gibbs pruning outperforms them. In particular, we achieve a new state-of-the-art result for pruning ResNet-56 with the CIFAR-10 dataset.
翻訳日:2022-11-24 01:07:46 公開日:2021-12-28
# threedworld:対話型マルチモーダル物理シミュレーションのためのプラットフォーム

ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation ( http://arxiv.org/abs/2007.04954v2 )

ライセンス: Link先を確認
Chuang Gan, Jeremy Schwartz, Seth Alter, Damian Mrowca, Martin Schrimpf, James Traer, Julian De Freitas, Jonas Kubilius, Abhishek Bhandwaldar, Nick Haber, Megumi Sano, Kuno Kim, Elias Wang, Michael Lingelbach, Aidan Curtis, Kevin Feigelis, Daniel M. Bear, Dan Gutfreund, David Cox, Antonio Torralba, James J. DiCarlo, Joshua B. Tenenbaum, Josh H. McDermott, Daniel L.K. Yamins(参考訳) インタラクティブなマルチモーダル物理シミュレーションプラットフォームであるThreeDWorld(TDW)を紹介する。 tdwは、高忠実度感覚データのシミュレーションと、リッチな3d環境での移動エージェントとオブジェクト間の物理的相互作用を可能にする。 ユニークな特性としては、リアルタイムに近い写実的画像レンダリング、オブジェクトと環境のライブラリ、カスタマイズのためのルーチン、新しい環境のクラスを効率的に構築するための生成手順、高忠実なオーディオレンダリング、布、液体、変形可能なオブジェクトを含む様々な素材タイプのリアルな物理的相互作用、AIエージェントを具現化するカスタマイズ可能なエージェント、VRデバイスとのヒューマンインタラクションのサポートなどがある。 TDWのAPIは、シミュレーション内で複数のエージェントが相互作用し、世界の状態を表すセンサーや物理データを返却することを可能にする。 本稿では,コンピュータビジョン,機械学習,認知科学における新たな研究方向において,tdwによって実現される最初の実験として,マルチモーダルな物理シーン理解,物理力学予測,マルチエージェントインタラクション,子どものように学習するモデル,人間やニューラルネットワークにおける注意研究について述べる。

We introduce ThreeDWorld (TDW), a platform for interactive multi-modal physical simulation. TDW enables simulation of high-fidelity sensory data and physical interactions between mobile agents and objects in rich 3D environments. Unique properties include: real-time near-photo-realistic image rendering; a library of objects and environments, and routines for their customization; generative procedures for efficiently building classes of new environments; high-fidelity audio rendering; realistic physical interactions for a variety of material types, including cloths, liquid, and deformable objects; customizable agents that embody AI agents; and support for human interactions with VR devices. TDW's API enables multiple agents to interact within a simulation and returns a range of sensor and physics data representing the state of the world. We present initial experiments enabled by TDW in emerging research directions in computer vision, machine learning, and cognitive science, including multi-modal physical scene understanding, physical dynamics predictions, multi-agent interactions, models that learn like a child, and attention studies in humans and neural networks.
翻訳日:2022-11-12 04:18:35 公開日:2021-12-28
# 部分観測可能なマルコフ決定過程の構造推定

Structural Estimation of Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2008.00500v3 )

ライセンス: Link先を確認
Yanling Chang and Alfredo Garcia and Zhide Wang and Lu Sun(参考訳) 多くの実用的な設定では、制御決定は関連する状態変数の進化に関する部分的/不完全な情報の下で行われなければならない。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、そのような問題をモデリングし分析するための比較的よく開発されたフレームワークである。 本稿では,プロセスの観測可能な履歴に基づいて,POMDPモデルのプリミティブの構造的推定について考察する。 ランダムな報酬を伴うPOMDPモデルの構造特性を解析し、状態力学の知識なしにモデルが識別可能な条件を指定する。 本研究では,最大確率推定値を計算するためのソフトポリシー勾配アルゴリズムを検討し,定常点への収束の有限時間キャラクタリゼーションを提供する。 本稿では,最適機器交換への適用による推定手法について述べる。 この文脈では、置換決定は真の状態(すなわち機器の状態)の部分的/不完全な情報の下で行う必要がある。 我々は合成データと実データを用いて,提案手法の頑健性を強調し,部分的状態観測性が無視される場合の誤識別の可能性を示す。

In many practical settings control decisions must be made under partial/imperfect information about the evolution of a relevant state variable. Partially Observable Markov Decision Processes (POMDPs) is a relatively well-developed framework for modeling and analyzing such problems. In this paper we consider the structural estimation of the primitives of a POMDP model based upon the observable history of the process. We analyze the structural properties of POMDP model with random rewards and specify conditions under which the model is identifiable without knowledge of the state dynamics. We consider a soft policy gradient algorithm to compute a maximum likelihood estimator and provide a finite-time characterization of convergence to a stationary point. We illustrate the estimation methodology with an application to optimal equipment replacement. In this context, replacement decisions must be made under partial/imperfect information on the true state (i.e. condition of the equipment). We use synthetic and real data to highlight the robustness of the proposed methodology and characterize the potential for misspecification when partial state observability is ignored.
翻訳日:2022-11-03 19:19:21 公開日:2021-12-28
# (参考訳) デジタル双発車載インターネットにおける学習型タスクオフロード

Learning Based Task Offloading in Digital Twin Empowered Internet of Vehicles ( http://arxiv.org/abs/2201.09076v1 )

ライセンス: CC BY 4.0
Jinkai Zheng, Tom H. Luan, Longxiang Gao, Yao Zhang, and Yuan Wu(参考訳) モバイルエッジコンピューティングは、未来の自動運転車がコンピューティングタスクをオフロードする上で、効果的で基本的なパラダイムとなっている。 しかし, 車両の移動性の高さ, 無線環境のダイナミクス, 到着時のコンピューティングタスクの不確実性などにより, 最適降ろし戦略を一つの車両で決定することは困難である。 本稿では,車両のインターネット化のためのタスクオフロードフレームワークとして,デジタルツイン(dt)を提案する。 クラウドに居住するソフトウェアエージェントとして、DT間の通信を用いてグローバルネットワーク情報と、ツイン内の通信を用いて車両の履歴情報の両方を得ることができる。 グローバルネットワーク情報と履歴車両情報は、オフロードを著しく促進することができる。 具体的には、最も適切なコンピューティングタスクのために、貴重なコンピューティングリソースを異なるレベルで保持するために、dtにおける未来的コンピューティングタスクの予測に基づく学習スキームを統合する。 そこで我々は,オフロードスケジューリングプロセスをMarkov Decision Process (MDP) としてモデル化し,タスク遅延,エネルギー消費,クラウドのレンタルコストのトレードオフの観点から,長期コストを最小化する。 シミュレーションの結果,本手法は他の手法と比較して高速収束速度と高速性能を実現するとともに,最適オフロード戦略を効果的に求めることができることがわかった。

Mobile edge computing has become an effective and fundamental paradigm for futuristic autonomous vehicles to offload computing tasks. However, due to the high mobility of vehicles, the dynamics of the wireless conditions, and the uncertainty of the arrival computing tasks, it is difficult for a single vehicle to determine the optimal offloading strategy. In this paper, we propose a Digital Twin (DT) empowered task offloading framework for Internet of Vehicles. As a software agent residing in the cloud, a DT can obtain both global network information by using communications among DTs, and historical information of a vehicle by using the communications within the twin. The global network information and historical vehicular information can significantly facilitate the offloading. In specific, to preserve the precious computing resource at different levels for most appropriate computing tasks, we integrate a learning scheme based on the prediction of futuristic computing tasks in DT. Accordingly, we model the offloading scheduling process as a Markov Decision Process (MDP) to minimize the long-term cost in terms of a trade off between task latency, energy consumption, and renting cost of clouds. Simulation results demonstrate that our algorithm can effectively find the optimal offloading strategy, as well as achieve the fast convergence speed and high performance, compared with other existing approaches.
翻訳日:2022-01-30 14:16:48 公開日:2021-12-28
# (参考訳) 需要駆動資産再利用分析

Demand-Driven Asset Reutilization Analytics ( http://arxiv.org/abs/2201.07921v1 )

ライセンス: CC BY 4.0
Abbas Raza Ali, Pitipong J. Lin(参考訳) 製造業者は長い間、返品品や部品の再利用の恩恵を受けてきた。 この有利なアプローチは、コストを最小限に抑え、製造業者が環境を維持する上で重要な役割を果たします。 返却された部品や製品の再利用は、原料の使用を減少させ、新しい部品を生産するためのエネルギー使用をなくし、廃棄物を最小化するので、環境持続性に役立つ。 しかし、プロセスがリターンを追跡、管理、再使用するのに必要な可視性を提供していない場合、効果的で効率的なリターン処理は困難である。 本稿では,調達データの高度な分析を行い,etn (equal-to-new) 部品の返却を最適化することで,新規ビルドの再利用性を向上させる。 これにより、新製品製造のための新規購入部品の「支出」が削減される。 このプロセスには、新しいビルドの需要に対するリターンの予測と一致が含まれる。 プロセスの複雑さは予測とマッチングであり、再利用エンジニアリングプロセスが利用可能であることを確認します。 また、これは開発エンジニアリングが集中するための高需要/価値/利益の部分を特定する。 アナリティクスは、アップグレードされた部品の予測を含む最適化プロセスを強化するために、さまざまなレベルに適用されている。 機械学習アルゴリズムは、調達部品計画プロセスにおけるETN部品利用の変換を支援する自動化インフラストラクチャを構築するために使用される。 このシステムでは、サプライヤーの負債を9週間から12ヶ月の計画サイクル、例えば1000万ドルの負債の5%まで削減するために、計画サイクルにおけるリターン予測を組み込んでいる。

Manufacturers have long benefited from reusing returned products and parts. This benevolent approach can minimize cost and help the manufacturer to play a role in sustaining the environment, something which is of utmost importance these days because of growing environment concerns. Reuse of returned parts and products aids environment sustainability because doing so helps reduce the use of raw materials, eliminate energy use to produce new parts, and minimize waste materials. However, handling returns effectively and efficiently can be difficult if the processes do not provide the visibility that is necessary to track, manage, and re-use the returns. This paper applies advanced analytics on procurement data to increase reutilization in new build by optimizing Equal-to-New (ETN) parts return. This will reduce 'the spend' on new buy parts for building new product units. The process involves forecasting and matching returns supply to demand for new build. Complexity in the process is the forecasting and matching while making sure a reutilization engineering process is available. Also, this will identify high demand/value/yield parts for development engineering to focus. Analytics has been applied on different levels to enhance the optimization process including forecast of upgraded parts. Machine Learning algorithms are used to build an automated infrastructure that can support the transformation of ETN parts utilization in the procurement parts planning process. This system incorporate returns forecast in the planning cycle to reduce suppliers liability from 9 weeks to 12 months planning cycle, e.g., reduce 5% of 10 million US dollars liability.
翻訳日:2022-01-23 22:09:34 公開日:2021-12-28
# (参考訳) ITサービスを最適化するための認知コンピューティング

Cognitive Computing to Optimize IT Services ( http://arxiv.org/abs/2201.02737v1 )

ライセンス: CC BY 4.0
Abbas Raza Ali(参考訳) 本稿では,ITサービスデスクチケット,顧客満足度調査,ソーシャルメディアデータなどを積極的に分析することで,健全なIT運用環境を維持する上での課題に対処する。 認知的ソリューションは、構造化テキストと非構造化テキストの両方の深い分析によって、従来の構造化データ分析を超える。 提案するプラットフォームには,言語識別,翻訳,最も頻繁に発生する話題の階層的抽出,エンティティとその関係,テキスト要約,感情,および自然言語処理技術を用いた非構造化テキストからの知識抽出などが含まれる。 さらに、構造化データと組み合わされた非構造化テキストからの洞察は、インシデント、問題、変更データセットに関する様々な分類、セグメンテーション、時系列予測のユースケースの開発を可能にする。 さらに、テキストおよび予測的洞察と生データを用いて、リッチでインタラクティブなダッシュボード上での実行可能な洞察の可視化と探索を行う。 しかし、従来の構造化データ分析を使ってこれらの洞察を見つけることは困難であり、特に大量の非構造化データを扱う場合、それらを見つけるのに非常に時間がかかるかもしれない。 これらの洞察にアクションを行うことで、チケット数を大幅に削減し、運用コストを削減し、顧客満足度を高めることができる。 様々な実験において, 年間乗車券の18~25%は, 提案手法により削減されている。

In this paper, the challenges of maintaining a healthy IT operational environment have been addressed by proactively analyzing IT Service Desk tickets, customer satisfaction surveys, and social media data. A Cognitive solution goes beyond the traditional structured data analysis by deep analyses of both structured and unstructured text. The salient features of the proposed platform include language identification, translation, hierarchical extraction of the most frequently occurring topics, entities and their relationships, text summarization, sentiments, and knowledge extraction from the unstructured text using Natural Language Processing techniques. Moreover, the insights from unstructured text combined with structured data allow the development of various classification, segmentation, and time-series forecasting use-cases on the incident, problem, and change datasets. Further, the text and predictive insights together with raw data are used for visualization and exploration of actionable insights on a rich and interactive dashboard. However, it is hard not only to find these insights using traditional structured data analysis but it might also take a very long time to discover them, especially while dealing with a massive amount of unstructured data. By taking action on these insights, organizations can benefit from a significant reduction of ticket volume, reduced operational costs, and increased customer satisfaction. In various experiments, on average, upto 18-25% of yearly ticket volume has been reduced using the proposed approach.
翻訳日:2022-01-16 17:54:10 公開日:2021-12-28
# 雑音下の障害から論理プログラムを学ぶ

Learning Logic Programs From Noisy Failures ( http://arxiv.org/abs/2201.03702v1 )

ライセンス: Link先を確認
John Wahlig(参考訳) 帰納的論理プログラミング(英: Inductive Logic Programming、ILP)は、機械学習(ML)の一種であり、他の最先端のML手法とは対照的である。 しかし、多くのILPシステムは、ノイズや部分的に分類されたトレーニングデータから自然に学習する能力に欠ける。 本稿では,従来導入されていたlff(learning from failures)アプローチのノイズ処理修正であるilpについて,障害からのゆるやかな学習について紹介する。 また、この緩和されたアプローチを実装し、既存のPopperシステムを変更する新しいノイズポッパーLPシステムについても紹介する。 Popper と同様に、Noisy Popper は生成-テスト-制約ループを使って仮説空間を探索する。 これらの制約は仮説空間を立証するために使われ、仮説探索をより効率的にする。 しかし、緩和された設定では、ノイズの多いトレーニングデータが最適な仮説を立証する仮説の制約に繋がることを避けるために、よりゆるい方法で制約が生成される。 緩和された設定に特有の制約は仮説比較によって生成される。 最小記述長の適用による過度な適合を避けるために、それらのサイズに対する仮説の精度を測ることで、追加の制約が生成される。 理論的な証明と実験結果により,popperのノイズ処理性能は改善するが,全体のランタイム効率は向上することが示唆された。

Inductive Logic Programming (ILP) is a form of machine learning (ML) which in contrast to many other state of the art ML methods typically produces highly interpretable and reusable models. However, many ILP systems lack the ability to naturally learn from any noisy or partially misclassified training data. We introduce the relaxed learning from failures approach to ILP, a noise handling modification of the previously introduced learning from failures (LFF) approach which is incapable of handling noise. We additionally introduce the novel Noisy Popper ILP system which implements this relaxed approach and is a modification of the existing Popper system. Like Popper, Noisy Popper takes a generate-test-constrain loop to search its hypothesis space wherein failed hypotheses are used to construct hypothesis constraints. These constraints are used to prune the hypothesis space, making the hypothesis search more efficient. However, in the relaxed setting, constraints are generated in a more lax fashion as to avoid allowing noisy training data to lead to hypothesis constraints which prune optimal hypotheses. Constraints unique to the relaxed setting are generated via hypothesis comparison. Additional constraints are generated by weighing the accuracy of hypotheses against their sizes to avoid overfitting through an application of the minimum description length. We support this new setting through theoretical proofs as well as experimental results which suggest that Noisy Popper improves the noise handling capabilities of Popper but at the cost of overall runtime efficiency.
翻訳日:2022-01-16 16:18:52 公開日:2021-12-28
# (参考訳) モバイル決済マーケティングにおけるインセンティブ最適化のためのadversarial learning

Adversarial Learning for Incentive Optimization in Mobile Payment Marketing ( http://arxiv.org/abs/2112.15434v1 )

ライセンス: CC BY 4.0
Xuanying Chen, Zhining Liu, Li Yu, Sen Li, Lihong Gu, Xiaodong Zeng, Yize Tan and Jinjie Gu(参考訳) 多くの支払いプラットフォームは、ユーザーがアプリケーションを通じて支払いを奨励するインセンティブを割り当てる大規模なマーケティングキャンペーンを開催している。 投資のリターンを最大化するために、インセンティブアロケーションは2段階の手順で一般的に解決される。 ユーザのモバイル支払確率(MPP)を推定するために応答推定モデルをトレーニングした後、最適なインセンティブ割り当てを得るために線形プログラミングプロセスを適用する。 しかし、以前の偏り割り当てポリシーによって生成されたトレーニングセット内の大量の偏りデータが、偏り推定を引き起こす。 このバイアスは応答モデルの性能を低下させ、線形プログラミングプロセスを誤解させ、結果として生じる割り当てポリシーのパフォーマンスを劇的に低下させる。 この障害を克服するため,我々はバイアス補正逆ネットワークを提案する。 本手法は,完全ランダム割当ポリシーで得られた未偏りデータの小さなセットを活用して偏りのないモデルを訓練し,それを用いて逆学習による偏りを低減する。 オフラインおよびオンライン実験の結果,本手法は最先端のアプローチを上回っており,実世界のマーケティングキャンペーンにおけるアロケーション・ポリシーの性能が著しく向上することが示された。

Many payment platforms hold large-scale marketing campaigns, which allocate incentives to encourage users to pay through their applications. To maximize the return on investment, incentive allocations are commonly solved in a two-stage procedure. After training a response estimation model to estimate the users' mobile payment probabilities (MPP), a linear programming process is applied to obtain the optimal incentive allocation. However, the large amount of biased data in the training set, generated by the previous biased allocation policy, causes a biased estimation. This bias deteriorates the performance of the response model and misleads the linear programming process, dramatically degrading the performance of the resulting allocation policy. To overcome this obstacle, we propose a bias correction adversarial network. Our method leverages the small set of unbiased data obtained under a full-randomized allocation policy to train an unbiased model and then uses it to reduce the bias with adversarial learning. Offline and online experimental results demonstrate that our method outperforms state-of-the-art approaches and significantly improves the performance of the resulting allocation policy in a real-world marketing campaign.
翻訳日:2022-01-09 14:49:36 公開日:2021-12-28
# (参考訳) GANISP: GAN支援のImportance Splitting Probability Estimator

GANISP: a GAN-assisted Importance SPlitting Probability Estimator ( http://arxiv.org/abs/2112.15444v1 )

ライセンス: CC BY 4.0
Malik Hassanaly and Andrew Glaws and Ryan N. King(参考訳) 高い収率と高い信頼性を持つ製造プロセスの設計は、レアイベント推定の効果的な方法に依存している。 遺伝学的重要性の分割は、希少事象に向かう実現を反復的に選択し複製することにより、希少事象確率推定器の分散を減少させる。 複製ステップは、子孫実現の初期条件を変更する必要がある決定論的システムに適用する場合に困難である。 通常、ランダムな摂動が子孫に適用され、その軌道と親の実現を区別する。 しかし、このランダム摂動戦略は、あるシステムでは有効であり、他のシステムでは失敗し、確率推定のばらつきを防止できる。 本研究は、GAN(Generative Adversarial Network)のような生成モデルを用いて、動的システムの誘引と整合した摂動を生成することにより、この制限に対処することを目的とする。 提案したGANISP(GANISP)は,対象とするシステムの分散化を改善する。 このメソッドの実装はコンパニオンリポジトリ(https://github.com/NREL/GANISP)で利用できる。

Designing manufacturing processes with high yield and strong reliability relies on effective methods for rare event estimation. Genealogical importance splitting reduces the variance of rare event probability estimators by iteratively selecting and replicating realizations that are headed towards a rare event. The replication step is difficult when applied to deterministic systems where the initial conditions of the offspring realizations need to be modified. Typically, a random perturbation is applied to the offspring to differentiate their trajectory from the parent realization. However, this random perturbation strategy may be effective for some systems while failing for others, preventing variance reduction in the probability estimate. This work seeks to address this limitation using a generative model such as a Generative Adversarial Network (GAN) to generate perturbations that are consistent with the attractor of the dynamical system. The proposed GAN-assisted Importance SPlitting method (GANISP) improves the variance reduction for the system targeted. An implementation of the method is available in a companion repository (https://github.com/NREL/GANISP).
翻訳日:2022-01-09 14:41:44 公開日:2021-12-28
# (参考訳) 効率的な非構造プルーニングとビット幅削減によるGPU上のディープラーニングモデルの高速化

Speedup deep learning models on GPU by taking advantage of efficient unstructured pruning and bit-width reduction ( http://arxiv.org/abs/2112.15445v1 )

ライセンス: CC BY 4.0
Marcin Pietro\'n, Dominik \.Zurek(参考訳) 本研究は,いくつかの畳み込みニューラルネットワーク(cnns)のプルーニングと,直接スパースアルゴリズムを用いたグラフィック処理ユニット(gpu)の効率向上に焦点を当てている。 Nvidia Deep Neural Network(cuDnn)ライブラリは、GPUのためのディープラーニングアルゴリズム(DL)の最も効果的な実装である。 GPUはディープラーニング計算の最も一般的なアクセラレータである。 CNNモデルの効率を改善する最も一般的な手法の1つは、重み付けと量子化である。 プルーニングには構造と非構造という2つの主な種類がある。 1つ目は、多くのタイプの加速器でより容易に加速できるが、このタイプでは、第2のタイプで得られるようなスパーシティのレベルと精度を達成するのが困難である。 再トレーニングによる非構造的プルーニングは、いくつかのディープCNNモデルにおいて最大90%以上のヘビーテンソルを生成することができる。 本稿では,精度を低下させることなく高いスパーニングレベルを達成することができるpruningアルゴリズムを提案する。 次の段階では、線形および非線形量子化はさらなる時間とフットプリントの削減に適応する。 本論文は,CuDnnライブラリよりも優れた性能を実現するために,有効プルーニング技術と,高疎度でプルーニングされた実モデルに関する拡張論文である。

This work is focused on the pruning of some convolutional neural networks (CNNs) and improving theirs efficiency on graphic processing units (GPU) by using a direct sparse algorithm. The Nvidia deep neural network (cuDnn) library is the most effective implementations of deep learning (DL) algorithms for GPUs. GPUs are the most commonly used accelerators for deep learning computations. One of the most common techniques for improving the efficiency of CNN models is weight pruning and quantization. There are two main types of pruning: structural and non-structural. The first enables much easier acceleration on many type of accelerators, but with this type it is difficult to achieve a sparsity level and accuracy as high as that obtained with the second type. Non-structural pruning with retraining can generate a weight tensors up to 90% or more of sparsity in some deep CNN models. In this article the pruning algorithm is presented which makes it possible to achieve high sparsity levels without accuracy drop. In the next stage the linear and non-linear quantization is adapted for further time and footprint reduction. This paper is an extended of previously published paper concerning effective pruning techniques and present real models pruned with high sparsities and reduced precision which can achieve better performance than the CuDnn library.
翻訳日:2022-01-09 14:31:17 公開日:2021-12-28
# (参考訳) 第13回自動沈み込み国際会議に参加して

Proceedings of the 13th International Conference on Automated Deduction in Geometry ( http://arxiv.org/abs/2112.14770v1 )

ライセンス: CC BY 4.0
Predrag Jani\v{c}i\'c, Zolt\'an Kov\'acs(参考訳) Automated Deduction in Geometry (ADG)は、アイデアとビューを交換し、研究結果と進捗を示し、幾何学と自動推論の交差点でソフトウェアツールを実証するためのフォーラムである。 Relevant topics include (but are not limited to): polynomial algebra, invariant and coordinate-free methods; probabilistic, synthetic, and logic approaches, techniques for automated geometric reasoning from discrete mathematics, combinatorics, and numerics; interactive theorem proving in geometry; symbolic and numeric methods for geometric computation, geometric constraint solving, automated generation/reasoning and manipulation with diagrams; design and implementation of geometry software, automated theorem provers, special-purpose tools, experimental studies; applications of ADG in mechanics, geometric modelling, CAGD/CAD, computer vision, robotics and education. 伝統的にADGカンファレンスは2年毎に開催される。 2018年にナン、2016年にストラスブール、2014年にコインブラ、2014年にエディンバラ、2010年にミュンヘン、2008年に上海、2008年にポンテベドラ、2004年にゲインズビル、2002年にハゲンベルク、2000年にチューリッヒ、1998年に北京、1996年にトゥールーズで開催された。 第13回ADGは2020年にオーストリアのハゲンベルクで開催される予定であったが、新型コロナウイルス(COVID-19)のパンデミックにより2021年に延期され、2021年9月15-17日(オーストリアのハゲンベルクにあるRISC研究所で開催中)にオンライン公開された。

Automated Deduction in Geometry (ADG) is a forum to exchange ideas and views, to present research results and progress, and to demonstrate software tools at the intersection between geometry and automated deduction. Relevant topics include (but are not limited to): polynomial algebra, invariant and coordinate-free methods; probabilistic, synthetic, and logic approaches, techniques for automated geometric reasoning from discrete mathematics, combinatorics, and numerics; interactive theorem proving in geometry; symbolic and numeric methods for geometric computation, geometric constraint solving, automated generation/reasoning and manipulation with diagrams; design and implementation of geometry software, automated theorem provers, special-purpose tools, experimental studies; applications of ADG in mechanics, geometric modelling, CAGD/CAD, computer vision, robotics and education. Traditionally, the ADG conference is held every two years. The previous editions of ADG were held in Nanning in 2018, Strasbourg in 2016, Coimbra in 2014, Edinburgh in 2012, Munich in 2010, Shanghai in 2008, Pontevedra in 2006, Gainesville in 2004, Hagenberg in 2002, Zurich in 2000, Beijing in 1998, and Toulouse in 1996. The 13th edition of ADG was supposed to be held in 2020 in Hagenberg, Austria, but due to the COVID-19 pandemic, it was postponed for 2021, and held online (still hosted by RISC Institute, Hagenberg, Austria), September 15-17, 2021 (https://www.risc.jku.at/conferences/adg2021).
翻訳日:2022-01-09 14:18:59 公開日:2021-12-28
# 製薬ニュースの自動分類

Automatic Pharma News Categorization ( http://arxiv.org/abs/2201.00688v1 )

ライセンス: Link先を確認
Stanislaw Adaszewski, Pascal Kuner, Ralf J. Jaeger(参考訳) 薬剤情報科学に関連する23のニュースカテゴリからなるテキストデータセットを用いて,分類タスクにおける複数のトランスフォーマモデルの微調整性能を比較する。 複数のオートリグレッシブおよびオートコーディング変換モデルを備えたバランスの取れたデータセットを用いて、それらの微調整性能を比較する。 入賞アプローチを検証するために,カテゴリー別メトリクスの検査,予測確実性の評価,潜在空間表現の評価など,誤予測されたインスタンスにおけるモデル行動の診断を行う。 最後に,個々の予測器を最上位に有するアンサンブルモデルを提案し,この手法がf1指標の緩やかな改善をもたらすことを示す。

We use a text dataset consisting of 23 news categories relevant to pharma information science, in order to compare the fine-tuning performance of multiple transformer models in a classification task. Using a well-balanced dataset with multiple autoregressive and autocoding transformation models, we compare their fine-tuning performance. To validate the winning approach, we perform diagnostics of model behavior on mispredicted instances, including inspection of category-wise metrics, evaluation of prediction certainty and assessment of latent space representations. Lastly, we propose an ensemble model consisting of the top performing individual predictors and demonstrate that this approach offers a modest improvement in the F1 metric.
翻訳日:2022-01-09 13:33:18 公開日:2021-12-28
# Rank-1 類似マトリックス分解による抗ウイルス薬の経時的変化のモデル化

Rank-1 Similarity Matrix Decomposition For Modeling Changes in Antivirus Consensus Through Time ( http://arxiv.org/abs/2201.00757v1 )

ライセンス: Link先を確認
Robert J. Joyce and Edward Raff and Charles Nicholas(参考訳) 強い相関を持つアンチウイルスエンジンのグループは存在することが知られているが、現時点ではこれらの相関がどのようにして発生したかの理解は限られている。 抗ウイルススキャンデータの10年以上のデータを表現した2500万のウイルストータルレポートのコーパスを用いて、これらの相関関係は、主に主要なベンダーのラベルをコピーするアンチウイルスベンダーのような「一階の」相互作用に由来するという通説に挑戦する。 本稿では,これらの相関関係の起源を解明し,抗ウイルスエンジン間のコンセンサスの変化をモデル化するために,時間的ランク1類似行列分解(R1SM-T)を導入する。 従来考えられていたようなアンチウイルス相関の挙動は1次相互作用では説明されず, 抗ウイルスエンジン間の関係は揮発性が高いことが明らかとなった。 今後の研究や検討が必要な項目について,本研究の成果に基づいて推奨する。

Although groups of strongly correlated antivirus engines are known to exist, at present there is limited understanding of how or why these correlations came to be. Using a corpus of 25 million VirusTotal reports representing over a decade of antivirus scan data, we challenge prevailing wisdom that these correlations primarily originate from "first-order" interactions such as antivirus vendors copying the labels of leading vendors. We introduce the Temporal Rank-1 Similarity Matrix decomposition (R1SM-T) in order to investigate the origins of these correlations and to model how consensus amongst antivirus engines changes over time. We reveal that first-order interactions do not explain as much behavior in antivirus correlation as previously thought, and that the relationships between antivirus engines are highly volatile. We make recommendations on items in need of future study and consideration based on our findings.
翻訳日:2022-01-09 13:33:06 公開日:2021-12-28
# (参考訳) 反復正規化フローを用いた一様位相空間データ選択

Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows ( http://arxiv.org/abs/2112.15446v1 )

ライセンス: CC BY 4.0
Malik Hassanaly and Bruce A. Perry and Michael E. Mueller and Shashank Yellapantula(参考訳) 計算能力と実験能力の改善は、日常的に生成される科学データの量を増やしている。 メモリと計算強度に制約されたアプリケーションでは、過剰に大きなデータセットが科学的発見を妨げる可能性があるため、データリダクションはデータ駆動手法の重要なコンポーネントとなる。 データセットはデータポイントの数と次元という2つの方向に成長している。 データ圧縮技術は次元を減らすことに関心があるが、ここではデータポイントの数を減らすことに重点を置いている。 データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。 提案したアルゴリズムは、データの確率マップを推定し、それを用いて受容確率を構築する。 確率マップを構成するためにデータセットの小さなサブセットのみを使用する場合、レアなデータポイントの確率を正確に推定するために反復法が用いられる。 位相空間を結合して確率写像を推定する代わりに、その関数形式は正規化フローで近似される。 したがって、この方法は自然に高次元データセットに拡張される。 提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。 このメソッドの実装は、コンパニオンリポジトリ(https://github.com/NREL/Phase-space-sampling)で利用できる。

Improvements in computational and experimental capabilities are rapidly increasing the amount of scientific data that is routinely generated. In applications that are constrained by memory and computational intensity, excessively large datasets may hinder scientific discovery, making data reduction a critical component of data-driven methods. Datasets are growing in two directions: the number of data points and their dimensionality. Whereas data compression techniques are concerned with reducing dimensionality, the focus here is on reducing the number of data points. A strategy is proposed to select data points such that they uniformly span the phase-space of the data. The algorithm proposed relies on estimating the probability map of the data and using it to construct an acceptance probability. An iterative method is used to accurately estimate the probability of the rare data points when only a small subset of the dataset is used to construct the probability map. Instead of binning the phase-space to estimate the probability map, its functional form is approximated with a normalizing flow. Therefore, the method naturally extends to high-dimensional datasets. The proposed framework is demonstrated as a viable pathway to enable data-efficient machine learning when abundant data is available. An implementation of the method is available in a companion repository (https://github.com/NREL/Phase-space-sampling).
翻訳日:2022-01-09 13:22:57 公開日:2021-12-28
# 脳波神経復号モデルにおける不確かさ検出

Uncertainty Detection in EEG Neural Decoding Models ( http://arxiv.org/abs/2201.00627v1 )

ライセンス: Link先を確認
Tiehang Duan, Zhenyi Wang, Sheng Liu, Sargur N. Srihari, Hui Yang(参考訳) ディープニューラルネットワークに基づく脳波復号システムは脳コンピュータインタフェース(BCI)の意思決定に広く利用されている。 しかしながら、脳波信号の有意なばらつきとノイズを考えると、それらの予測は信頼できない。 eeg分析に関する以前の研究は、主に音源信号のノイズパターンの探索に焦点を当てているが、復号過程における不確かさはほとんど未解明である。 ロボットアーム制御などのBCIモータ画像応用においては,このようなデコード不確実性を自動検出・定量化することが重要である。 本研究では,入力信号の不確かさとモデルの不確かさの両方を考慮し,脳波復号過程における不確かさを探索する不確実性推定モデル(UE-EEG)を提案する。 このモデルを用いてモデル不確実性推定を行い,入力データの不確かさをモデル化するためにベイジアンニューラルネットワークを採用した。 このモデルは、アーキテクチャを変更することなく、現在広く使われているディープラーニング分類器に統合することができる。 提案手法により推定不確実性の品質が大幅に向上し,提案するue-eegがbci応用に有用であることを示す2つの公開運動画像データセット上で,サブジェクト内脳波復号とクロスサブジェクト脳波復号の両方における不確実性推定の広範な実験を行った。

EEG decoding systems based on deep neural networks have been widely used in decision making of brain computer interfaces (BCI). Their predictions, however, can be unreliable given the significant variance and noise in EEG signals. Previous works on EEG analysis mainly focus on the exploration of noise pattern in the source signal, while the uncertainty during the decoding process is largely unexplored. Automatically detecting and quantifying such decoding uncertainty is important for BCI motor imagery applications such as robotic arm control etc. In this work, we proposed an uncertainty estimation model (UE-EEG) to explore the uncertainty during the EEG decoding process, which considers both the uncertainty in the input signal and the uncertainty in the model. The model utilized dropout oriented method for model uncertainty estimation, and Bayesian neural network is adopted for modeling the uncertainty of input data. The model can be integrated into current widely used deep learning classifiers without change of architecture. We performed extensive experiments for uncertainty estimation in both intra-subject EEG decoding and cross-subject EEG decoding on two public motor imagery datasets, where the proposed model achieves significant improvement on the quality of estimated uncertainty and demonstrates the proposed UE-EEG is a useful tool for BCI applications.
翻訳日:2022-01-09 12:58:10 公開日:2021-12-28
# 偏微分方程式に対するニューラルネットワークのフレーム不変性と拡張性

Frame invariance and scalability of neural operators for partial differential equations ( http://arxiv.org/abs/2112.14769v1 )

ライセンス: Link先を確認
Muhammad I. Zafar, Jiequn Han, Xu-Hui Zhou and Heng Xiao(参考訳) 偏微分方程式(PDE)は多くの複雑な力学過程の数学的モデリングにおいて支配的な役割を果たす。 これらのPDEを解くには、特に異なるパラメータや条件に対して複数の評価を行う必要がある場合、非常に高い計算コストが要求される。 トレーニング後、ニューラル演算子は従来のPDE解法よりもはるかに高速なPDEソリューションを提供することができる。 本研究では,スカラー量のPDE輸送のために,2つのニューラル演算子の不変性と計算複雑性を検討した。 グラフカーネルネットワーク(GKN)に基づくニューラル演算子は、非ローカル依存関係を組み込むためにグラフ構造化データを操作する。 本稿では,フレーム不変性を実現するため,GKNの修正式を提案する。 Vector Cloud Neural Network (VCNN) は、点クラウドデータを操作する組込みフレーム不変性を持つ代替ニューラルネットワークである。 GKNベースのニューラルオペレータは、VCNNと比較してわずかに優れた予測性能を示している。 しかし、GKNは、VCNNの線形増加と比較して、離散化されたオブジェクトの数が増加するにつれて二次的に増加する過度に高い計算コストを必要とする。

Partial differential equations (PDEs) play a dominant role in the mathematical modeling of many complex dynamical processes. Solving these PDEs often requires prohibitively high computational costs, especially when multiple evaluations must be made for different parameters or conditions. After training, neural operators can provide PDEs solutions significantly faster than traditional PDE solvers. In this work, invariance properties and computational complexity of two neural operators are examined for transport PDE of a scalar quantity. Neural operator based on graph kernel network (GKN) operates on graph-structured data to incorporate nonlocal dependencies. Here we propose a modified formulation of GKN to achieve frame invariance. Vector cloud neural network (VCNN) is an alternate neural operator with embedded frame invariance which operates on point cloud data. GKN-based neural operator demonstrates slightly better predictive performance compared to VCNN. However, GKN requires an excessively high computational cost that increases quadratically with the increasing number of discretized objects as compared to a linear increase for VCNN.
翻訳日:2022-01-09 12:56:58 公開日:2021-12-28
# 神話医学機械学習:リアルな生理モデルを用いた深層学習医療データ分類器の性能向上

Mythological Medical Machine Learning: Boosting the Performance of a Deep Learning Medical Data Classifier Using Realistic Physiological Models ( http://arxiv.org/abs/2112.15442v1 )

ライセンス: Link先を確認
Ismail Sadiq (1), Erick A. Perez-Alday (2), Amit J. Shah (2), Ali Bahrami Rad (2), Reza Sameni (2), Gari D. Clifford (1,2)(参考訳) 目的: 心電図の現実的, 計算学的に効率的なモデルを用いて, 特定の状態に特有の幅広い形態と異常を有するディープニューラルネットワーク (DNN) を, 外傷後ストレス障害 (PTSD) の結果として, T-wave Alternans (TWA) を用いて事前訓練し, 稀な個人データベースの性能を大幅に向上させることができる。 アプローチ: これまでに検証された人工心電図モデルを用いて, 心拍数, 呼吸速度, TWA振幅, 心電図形態の異なる180,000個の人工心電図を作成した。 70,000人以上の患者を対象に25種類のリズムを分類し,出力層を2次クラス(TWA,no-TWA,等しくPTSD,no-PTSD)に変更し,人工心電図上で伝達学習を行った。 最後の転送学習ステップでは、dnnは3つのデータベースを使用するすべての組み合わせについて、12のptsdと24のコントロールからecg上でトレーニングされ、相互評価された。 主な結果: AUROC = 0.77, Accuracy = 0.72, F1-score = 0.64) は、事前訓練された不整脈DNN、人工データ、および実際のPTSD関連心電図データを用いて、転送学習ステップの両方を実行することで得られる。 トレーニングから人工データを削除したことで、パフォーマンスが最大に低下した。 不整脈データをトレーニングから取り除いたことは、軽微だが重要なパフォーマンス低下をもたらした。 最終モデルでは、人工データの性能は著しく低下せず、過度な適合は示さなかった。 意義: 医療においては、少数の高品質のデータとラベルのコレクション、あるいは、はるかに低い品質(そしてあまり関係のない)ラベルのデータベースを持つことが一般的です。 ここで提示されるパラダイムは、モデルベースのパフォーマンス向上であり、大規模な現実的な人工データベースと部分的に関連する実データベースへの転送学習を通じてソリューションを提供する。

Objective: To determine if a realistic, but computationally efficient model of the electrocardiogram can be used to pre-train a deep neural network (DNN) with a wide range of morphologies and abnormalities specific to a given condition - T-wave Alternans (TWA) as a result of Post-Traumatic Stress Disorder, or PTSD - and significantly boost performance on a small database of rare individuals. Approach: Using a previously validated artificial ECG model, we generated 180,000 artificial ECGs with or without significant TWA, with varying heart rate, breathing rate, TWA amplitude, and ECG morphology. A DNN, trained on over 70,000 patients to classify 25 different rhythms, was modified the output layer to a binary class (TWA or no-TWA, or equivalently, PTSD or no-PTSD), and transfer learning was performed on the artificial ECG. In a final transfer learning step, the DNN was trained and cross-validated on ECG from 12 PTSD and 24 controls for all combinations of using the three databases. Main results: The best performing approach (AUROC = 0.77, Accuracy = 0.72, F1-score = 0.64) was found by performing both transfer learning steps, using the pre-trained arrhythmia DNN, the artificial data and the real PTSD-related ECG data. Removing the artificial data from training led to the largest drop in performance. Removing the arrhythmia data from training provided a modest, but significant, drop in performance. The final model showed no significant drop in performance on the artificial data, indicating no overfitting. Significance: In healthcare, it is common to only have a small collection of high-quality data and labels, or a larger database with much lower quality (and less relevant) labels. The paradigm presented here, involving model-based performance boosting, provides a solution through transfer learning on a large realistic artificial database, and a partially relevant real database.
翻訳日:2022-01-09 12:56:46 公開日:2021-12-28
# 学習動的位相符号化を用いた単一動きぼけ画像からの映像再構成

Video Reconstruction from a Single Motion Blurred Image using Learned Dynamic Phase Coding ( http://arxiv.org/abs/2112.14768v1 )

ライセンス: Link先を確認
Erez Yosef, Shay Elmalem, Raja Giryes(参考訳) 単一モーションブル画像からの映像再構成は、既存のカメラの能力を向上する上で難しい問題である。 近年,従来の画像と深層学習を用いてこの問題に対処する研究がいくつかある。 しかし、方向の曖昧さとノイズ感度のため、純粋なデジタル手法は本質的に制限されている。 従来のイメージセンサーを使わずにこれらの制限に対処する研究もあるが、そのようなセンサーは非常に稀で高価である。 これらの制限を簡単な方法で回避するために,既存の光学系に単純な変更を加えるだけでよいハイブリッド光デジタル変換法を提案する。 我々は、画像取得中にレンズ開口部の動的位相符号化を学習し、映像再構成プロセスの先行情報となる動き軌跡を符号化する。 提案する計算カメラは、画像対ビデオ畳み込みニューラルネットワークを用いて、単一の符号化された動画像から、様々なフレームレートでシーンのシャープフレームバーストを生成する。 シミュレーションと実写カメラのプロトタイプを用いて,既存手法と比較して利点と性能を向上した。

Video reconstruction from a single motion-blurred image is a challenging problem, which can enhance existing cameras' capabilities. Recently, several works addressed this task using conventional imaging and deep learning. Yet, such purely-digital methods are inherently limited, due to direction ambiguity and noise sensitivity. Some works proposed to address these limitations using non-conventional image sensors, however, such sensors are extremely rare and expensive. To circumvent these limitations with simpler means, we propose a hybrid optical-digital method for video reconstruction that requires only simple modifications to existing optical systems. We use a learned dynamic phase-coding in the lens aperture during the image acquisition to encode the motion trajectories, which serve as prior information for the video reconstruction process. The proposed computational camera generates a sharp frame burst of the scene at various frame rates from a single coded motion-blurred image, using an image-to-video convolutional neural network. We present advantages and improved performance compared to existing methods, using both simulations and a real-world camera prototype.
翻訳日:2022-01-09 12:56:06 公開日:2021-12-28
# 分散動的プログラミングによるロバスト性とリスク管理

Robustness and risk management via distributional dynamic programming ( http://arxiv.org/abs/2112.15430v1 )

ライセンス: Link先を確認
Mastane Achab, Gergely Neu(参考訳) 動的プログラミング(DP)および強化学習(RL)において、エージェントはマルコフ決定プロセス(MDP)によってモデル化された環境と逐次的に相互作用することで、期待される長期的なリターンの観点から最適な行動をとることを学習する。 より一般的には、分布強化学習(DRL)では、期待だけでなく、リターン全体の分布に焦点を当てている。 DRLに基づく手法は、関数近似を用いたRLの最先端性能を生み出すが、まだよく理解されていない追加量(非分布設定と比較)が伴う。 最初の貢献として、我々は、政策評価のための実用的なDPアルゴリズムとともに、堅牢なMDP解釈を備えた分散演算子のクラスを導入する。 実際、我々のアプローチは、各状態が最悪のケースのサブステートと最高のケースのサブステートに分割され、それぞれが安全かつリスクの高いポリシーによって最大化される拡張状態空間を通して再編成される。 最後に、分散演算子とDPアルゴリズムが新しい制御タスクを解くことを導出する: 最適ポリシーの空間における関係を断ち切るために、安全とリスクの高い最適アクションを区別する方法?

In dynamic programming (DP) and reinforcement learning (RL), an agent learns to act optimally in terms of expected long-term return by sequentially interacting with its environment modeled by a Markov decision process (MDP). More generally in distributional reinforcement learning (DRL), the focus is on the whole distribution of the return, not just its expectation. Although DRL-based methods produced state-of-the-art performance in RL with function approximation, they involve additional quantities (compared to the non-distributional setting) that are still not well understood. As a first contribution, we introduce a new class of distributional operators, together with a practical DP algorithm for policy evaluation, that come with a robust MDP interpretation. Indeed, our approach reformulates through an augmented state space where each state is split into a worst-case substate and a best-case substate, whose values are maximized by safe and risky policies respectively. Finally, we derive distributional operators and DP algorithms solving a new control task: How to distinguish safe from risky optimal actions in order to break ties in the space of optimal policies?
翻訳日:2022-01-09 12:42:07 公開日:2021-12-28
# Mind Your Solver! 組合せ最適化のための逆攻撃と防御について

Mind Your Solver! On Adversarial Attack and Defense for Combinatorial Optimization ( http://arxiv.org/abs/2201.00402v1 )

ライセンス: Link先を確認
Han Lu, Zenan Li, Runzhong Wang, Qibing Ren, Junchi Yan, Xiaokang Yang(参考訳) 組合せ最適化(co)は、本質的な複雑性(例えばnpハード)だけでなく、入力条件に対する感度も考慮した、長年の課題である。 本稿では,コンビネート最適化ソルバに対する敵意攻撃と防御のメカニズムの開発に取り組み,その機構をブラックボックス関数として処理し,問題の根底にあるグラフ構造(dag,tspなど,問題例と関連付けられることが多い)を所定の予算で攻撃する。 特に,計算器の堅牢性を高めるため,グラフ構造を変更するための簡易かつ効果的な防御戦略を提案する。

Combinatorial optimization (CO) is a long-standing challenging task not only in its inherent complexity (e.g. NP-hard) but also the possible sensitivity to input conditions. In this paper, we take an initiative on developing the mechanisms for adversarial attack and defense towards combinatorial optimization solvers, whereby the solver is treated as a black-box function and the original problem's underlying graph structure (which is often available and associated with the problem instance, e.g. DAG, TSP) is attacked under a given budget. In particular, we present a simple yet effective defense strategy to modify the graph structure to increase the robustness of solvers, which shows its universal effectiveness across tasks and solvers.
翻訳日:2022-01-09 12:41:44 公開日:2021-12-28
# (参考訳) マルチモーダル学習のロバスト性に関する理解と測定

Understanding and Measuring Robustness of Multimodal Learning ( http://arxiv.org/abs/2112.12792v2 )

ライセンス: CC BY 4.0
Nishant Vishwamitra, Hongxin Hu, Ziming Zhao, Long Cheng and Feng Luo(参考訳) 現代のデジタル世界はますますマルチモーダルになりつつある。 マルチモーダル学習は最近、マルチモーダルタスクにおける最先端のパフォーマンスに革命をもたらしたが、逆境環境でのマルチモーダル学習の堅牢性については比較的知られていない。 本稿では、MUROAN(MUltimodal RObustness ANalyzer)と呼ばれるフレームワークを用いて、マルチモーダルモデルにおける入力モダリティの融合に着目し、マルチモーダル学習の対角ロバスト性に関する総合的な測定を行う。 まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。 次に, MUROAN におけるデカップリング攻撃 (decoupling attack) と呼ばれる新しい種類のマルチモーダル攻撃を導入する。 MUROANのデカップリング攻撃を利用して、いくつかの最先端マルチモーダルモデルを測定し、これらのモデルにおけるマルチモーダル融合機構がデカップリング攻撃に対して脆弱であることを示す。 特に、最悪の場合、MUROANのデカップリング攻撃は入力空間の1.16%をデカップリングすることで100%の攻撃成功率を達成することを示した。 最後に,従来の対人訓練は,デカップリング攻撃に対するマルチモーダルモデルの堅牢性を向上させるには不十分であることを示す。 我々は,マルチモーダル学習のロバスト性向上を研究者に促すことを希望する。

The modern digital world is increasingly becoming multimodal. Although multimodal learning has recently revolutionized the state-of-the-art performance in multimodal tasks, relatively little is known about the robustness of multimodal learning in an adversarial setting. In this paper, we introduce a comprehensive measurement of the adversarial robustness of multimodal learning by focusing on the fusion of input modalities in multimodal models, via a framework called MUROAN (MUltimodal RObustness ANalyzer). We first present a unified view of multimodal models in MUROAN and identify the fusion mechanism of multimodal models as a key vulnerability. We then introduce a new type of multimodal adversarial attacks called decoupling attack in MUROAN that aims to compromise multimodal models by decoupling their fused modalities. We leverage the decoupling attack of MUROAN to measure several state-of-the-art multimodal models and find that the multimodal fusion mechanism in all these models is vulnerable to decoupling attacks. We especially demonstrate that, in the worst case, the decoupling attack of MUROAN achieves an attack success rate of 100% by decoupling just 1.16% of the input space. Finally, we show that traditional adversarial training is insufficient to improve the robustness of multimodal models with respect to decoupling attacks. We hope our findings encourage researchers to pursue improving the robustness of multimodal learning.
翻訳日:2022-01-02 09:26:55 公開日:2021-12-28
# (参考訳) テキサス大学Dallas HLTRIのEPIC-QAへの参加:新しい回答ナゲットを探求する

The University of Texas at Dallas HLTRI's Participation in EPIC-QA: Searching for Entailed Questions Revealing Novel Answer Nuggets ( http://arxiv.org/abs/2112.13946v1 )

ライセンス: CC BY 4.0
Maxwell Weinzierl, Sanda M. Harabagiu(参考訳) text analysis conference(tac)のcovid-19 question answering(epic-qa)トラックは、新型コロナウイルスに関するアドホックな質問に答える方法論の評価である。 本稿では,EPIC-QAの両課題への参加について述べる:(1)エキスパートQA,(2)消費者QA。 提案手法では,BM25,BERT,T5を組み合わせた多相ニューラル情報検索システムを用いて,回答候補文から自動生成される質問と質問の関連性を検討する。 また,全ての質問に係わる係り受け関係も考慮されていたため,質問係り受けグラフの処理によって示されるような,含んでいる新規な回答ナゲット数に基づいて回答文を並べ替えることができた。 SER4EQUNOVA (NOVel nuggets of Answers) を提示するSEaRching for Entailed QUestions (SEaRching for Entailed QUestions) と呼ばれるシステムにより,EPIC-QAタスクの両タスクにおいて有望な結果が得られた。

The Epidemic Question Answering (EPIC-QA) track at the Text Analysis Conference (TAC) is an evaluation of methodologies for answering ad-hoc questions about the COVID-19 disease. This paper describes our participation in both tasks of EPIC-QA, targeting: (1) Expert QA and (2) Consumer QA. Our methods used a multi-phase neural Information Retrieval (IR) system based on combining BM25, BERT, and T5 as well as the idea of considering entailment relations between the original question and questions automatically generated from answer candidate sentences. Moreover, because entailment relations were also considered between all generated questions, we were able to re-rank the answer sentences based on the number of novel answer nuggets they contained, as indicated by the processing of a question entailment graph. Our system, called SEaRching for Entailed QUestions revealing NOVel nuggets of Answers (SER4EQUNOVA), produced promising results in both EPIC-QA tasks, excelling in the Expert QA task.
翻訳日:2021-12-31 06:48:20 公開日:2021-12-28
# (参考訳) 低リソース環境下でのニューラルネットワーク翻訳を向上する事前順序付きRNN層

A Preordered RNN Layer Boosts Neural Machine Translation in Low Resource Settings ( http://arxiv.org/abs/2112.13960v1 )

ライセンス: CC BY 4.0
Mohaddeseh Bastan and Shahram Khadivi(参考訳) ニューラルネットワーク翻訳(NMT)モデルは、ソース言語からターゲット言語に意味と構文情報を伝達するのに十分な強度を持つ。 しかし、これらのモデルはパラメータを学習するために大量のデータを必要とすることに苦しんでいる。 その結果、データが少ない言語では、これらのモデルはパフォーマンス低下のリスクにさらされる。 我々は、データ不足を軽減するために、情報を並べ替えることで注意に基づくニューラルネットワークを強化することを提案する。 この拡張により、英語からペルシア語とペルシア語の両方の翻訳品質が、ベースラインモデルに対して最大6%のBLEU絶対値で向上する。

Neural Machine Translation (NMT) models are strong enough to convey semantic and syntactic information from the source language to the target language. However, these models are suffering from the need for a large amount of data to learn the parameters. As a result, for languages with scarce data, these models are at risk of underperforming. We propose to augment attention based neural network with reordering information to alleviate the lack of data. This augmentation improves the translation quality for both English to Persian and Persian to English by up to 6% BLEU absolute over the baseline models.
翻訳日:2021-12-31 06:40:39 公開日:2021-12-28
# (参考訳) 太陽のモーメント:自己監督学習によるマルチスペクトル衛星データからの太陽観測

A Moment in the Sun: Solar Nowcasting from Multispectral Satellite Data using Self-Supervised Learning ( http://arxiv.org/abs/2112.13974v1 )

ライセンス: CC BY 4.0
Akansha Singh Bansal, Trapit Bansal, David Irwin(参考訳) 太陽エネルギーは現在、歴史上最も安い電力形態である。 不幸なことに、電力供給と需要のバランスを困難にするため、電力網の太陽エネルギーのごく一部を著しく増やすことは難しいままである。 熱発生器のランプレート(出力を変えることができる最大速度)は有限だが、ソーラーのランプレートは本質的に無限である。 したがって、太陽の変動に応じて熱発生器の出力を調整し、バランスの取れた供給と需要を確保するために、正確な短期太陽予報、すなわち現在放送が重要である。 この問題に対処するため,本稿では,自己教師付き学習を用いた多スペクトル衛星データから日射流の一般的なモデルを開発する。 具体的には、畳み込みニューラルネットワーク(CNN)と長期短期記憶ネットワーク(LSTM)を用いた深部自己回帰モデルを構築し、複数の場所でグローバルにトレーニングし、最近打ち上げられたGOES-Rシリーズの衛星によって収集された時空間データの生の観測を予測した。 本モデルでは, 衛星観測に基づく将来の太陽照度を推定し, より小さな地域固有の太陽データに基づいて訓練された回帰モデルを用いて, 地域固有の特性を考慮に入れた短期太陽太陽光発電(PV)予測を行う。 提案手法は,25ヶ所の地表面積の異なる地域と予測地平線に対して評価し,地表面構造観測によるモデルに近い誤差を生じることを示す。

Solar energy is now the cheapest form of electricity in history. Unfortunately, significantly increasing the grid's fraction of solar energy remains challenging due to its variability, which makes balancing electricity's supply and demand more difficult. While thermal generators' ramp rate -- the maximum rate that they can change their output -- is finite, solar's ramp rate is essentially infinite. Thus, accurate near-term solar forecasting, or nowcasting, is important to provide advance warning to adjust thermal generator output in response to solar variations to ensure a balanced supply and demand. To address the problem, this paper develops a general model for solar nowcasting from abundant and readily available multispectral satellite data using self-supervised learning. Specifically, we develop deep auto-regressive models using convolutional neural networks (CNN) and long short-term memory networks (LSTM) that are globally trained across multiple locations to predict raw future observations of the spatio-temporal data collected by the recently launched GOES-R series of satellites. Our model estimates a location's future solar irradiance based on satellite observations, which we feed to a regression model trained on smaller site-specific solar data to provide near-term solar photovoltaic (PV) forecasts that account for site-specific characteristics. We evaluate our approach for different coverage areas and forecast horizons across 25 solar sites and show that our approach yields errors close to that of a model using ground-truth observations.
翻訳日:2021-12-31 06:33:37 公開日:2021-12-28
# (参考訳) ロボットの群集ナビゲーションにおける相対速度に基づく報酬関数

Relative velocity-based reward functions for crowd navigation of robots ( http://arxiv.org/abs/2112.13984v1 )

ライセンス: CC BY 4.0
Xiaoqing Yang, Fei Li(参考訳) 社会的に許容される基準で群衆環境で効果的にナビゲートする方法は、モバイルロボットの開発のために解決すべき重要な課題である。 近年の研究では,歩行者の移動速度の増大に伴い,群集ナビゲーションにおける深層強化学習の有効性が示されている。 深い強化学習の有効性を向上させるため,報酬関数に相対速度のペナルティ項を導入することで報酬関数を再設計した。 新たに設計された報酬関数は、深層強化学習衝突回避(CADRL)、深層学習に基づく長期記憶(LSTM RL)、社会主義選択に基づく強化学習(SARL)という3つの主流の深層強化学習アルゴリズムで検証される。 実験の結果,我々は,成功率,衝突率,ハザード頻度といった重要な指標において,現在のモデルを上回って,より安全なナビゲートを行うことができた。

How to navigate effectively in crowd environments with socially acceptable standards remains the key problem to be solved for the development of mobile robots. Recent work has shown the effectiveness of deep reinforcement learning in addressing crowd navigation, but the learning becomes progressively less effective as the speed of pedestrians increases. To improve the effectiveness of deep reinforcement learning, we redesigned the reward function by introducing the penalty term of relative speed in the reward function. The newly designed reward function is tested on three mainstream deep reinforcement learning algorithms: deep reinforcement learning collision avoidance (CADRL), deep learning based long and short-term memory (LSTM RL), and reinforcement learning based on socialist riselection (SARL). The results of the experiments show that our model navigates in a safer way, outperforming the current model in key metrics such as success rate, collision rate, and hazard frequency.
翻訳日:2021-12-31 06:11:22 公開日:2021-12-28
# (参考訳) Pale Transformer: Pale-Shaped Attention 付き汎用視覚変換器バックボーン

Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention ( http://arxiv.org/abs/2112.14000v1 )

ライセンス: CC BY 4.0
Sitong Wu, Tianyi Wu, Haoru Tan, Guodong Guo(参考訳) 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。 グローバルな自己注意によって引き起こされる二次計算の複雑さを低減するため、各手法は局所領域内の注意範囲を制限し、効率を向上する。 その結果、単一の注意層における受容場は十分に大きくなく、結果としてコンテキストモデリングが不十分となる。 この問題に対処するため,淡い領域内で自己注意を行うPale-Shaped Self-Attention (PS-Attention)を提案する。 グローバルな自己注意と比較して、PS-Attentionは計算とメモリコストを大幅に削減できる。 一方、従来のローカルな自己認識機構と同様の計算複雑性の下で、よりリッチなコンテキスト情報をキャプチャすることができる。 また,PS-Attentionに基づいて,Pale Transformerという階層構造を持つ一般的なVision Transformerバックボーンを開発し,モデルサイズが22M,48M,85Mで,それぞれ83.4%,84.3%,84.9%のTop-1精度を実現した。 ダウンストリームタスクでは、ade20kのセマンティクスセグメンテーションとcocoオブジェクト検出とインスタンスセグメンテーションにおいて、最近の最先端のcswinトランスフォーマーよりもパフォーマンスが優れています。 コードはhttps://github.com/br-idl/paddlevitでリリースされる。

Recently, Transformers have shown promising performance in various vision tasks. To reduce the quadratic computation complexity caused by the global self-attention, various methods constrain the range of attention within a local region to improve its efficiency. Consequently, their receptive fields in a single attention layer are not large enough, resulting in insufficient context modeling. To address this issue, we propose a Pale-Shaped self-Attention (PS-Attention), which performs self-attention within a pale-shaped region. Compared to the global self-attention, PS-Attention can reduce the computation and memory costs significantly. Meanwhile, it can capture richer contextual information under the similar computation complexity with previous local self-attention mechanisms. Based on the PS-Attention, we develop a general Vision Transformer backbone with a hierarchical architecture, named Pale Transformer, which achieves 83.4%, 84.3%, and 84.9% Top-1 accuracy with the model size of 22M, 48M, and 85M respectively for 224 ImageNet-1K classification, outperforming the previous Vision Transformer backbones. For downstream tasks, our Pale Transformer backbone performs better than the recent state-of-the-art CSWin Transformer by a large margin on ADE20K semantic segmentation and COCO object detection & instance segmentation. The code will be released on https://github.com/BR-IDL/PaddleViT.
翻訳日:2021-12-31 06:04:11 公開日:2021-12-28
# (参考訳) 実演による初等二次強化学習のための効率的性能境界

Efficient Performance Bounds for Primal-Dual Reinforcement Learning from Demonstrations ( http://arxiv.org/abs/2112.14004v1 )

ライセンス: CC BY 4.0
Angeliki Kamoutsi, Goran Banjac, and John Lygeros(参考訳) 我々は,未知のコスト関数を持つ大規模マルコフ決定過程を考察し,有限個の専門家による実証から方針を学ぶ問題に対処する。 学習者は専門家と対話することは許されず、いかなる種類の強化信号にもアクセスできないと仮定する。 既存の逆強化学習法には強い理論的保証があるが、計算コストが高いが、最先端のポリシー最適化アルゴリズムは実証的な成功をもたらすが、理論的な理解が限られている。 理論と実践のギャップを埋めるため,ラグランジアン双対性を用いた新しい双線型saddle-pointフレームワークを提案する。 提案手法により,確率凸最適化のレンズを用いて,モデルフリーで証明可能なアルゴリズムを開発できる。 この手法は、実装の単純さ、低メモリ要求、および状態数に依存しない計算とサンプルの複雑さの利点を享受する。 さらに、等価なオンライン学習解釈を提示する。

We consider large-scale Markov decision processes with an unknown cost function and address the problem of learning a policy from a finite set of expert demonstrations. We assume that the learner is not allowed to interact with the expert and has no access to reinforcement signal of any kind. Existing inverse reinforcement learning methods come with strong theoretical guarantees, but are computationally expensive, while state-of-the-art policy optimization algorithms achieve significant empirical success, but are hampered by limited theoretical understanding. To bridge the gap between theory and practice, we introduce a novel bilinear saddle-point framework using Lagrangian duality. The proposed primal-dual viewpoint allows us to develop a model-free provably efficient algorithm through the lens of stochastic convex optimization. The method enjoys the advantages of simplicity of implementation, low memory requirements, and computational and sample complexities independent of the number of states. We further present an equivalent no-regret online-learning interpretation.
翻訳日:2021-12-31 05:44:11 公開日:2021-12-28
# (参考訳) 知覚プロセスで説明可能なaiの実現に向けて

Towards Relatable Explainable AI with the Perceptual Process ( http://arxiv.org/abs/2112.14005v1 )

ライセンス: CC BY 4.0
Wencan Zhang, Brian Y. Lim(参考訳) 機械学習モデルは、予想される結果ではなく、なぜ混乱する予測が起こったのかを理解するために、対照的な説明を提供する必要がある。 現在の対照的な説明は、例と生の特徴の基本的な比較であり、意味的な意味が欠けているため、解釈が難しい。 我々は、説明は、他の概念、仮説、および関連性により関連していなければならないと論じる。 認知心理学から知覚過程に着想を得て,コントラッシブ・サリエンシ,対実合成,コントラシブ・キュースによる説明可能なAIのためのXAI知覚処理フレームワークとRexNetモデルを提案する。 音声感情認識の応用について検討し,モジュール型多タスク深層ニューラルネットワークを実装し,音声からの感情の予測と説明を行った。 思考・制御研究から, 反事実的説明は有益であり, 意味的手がかりでさらに強化された。 この研究は、知覚アプリケーションのための可溶性コントラスト説明可能なaiの提供と評価に関する洞察を提供する。

Machine learning models need to provide contrastive explanations, since people often seek to understand why a puzzling prediction occurred instead of some expected outcome. Current contrastive explanations are rudimentary comparisons between examples or raw features, which remain difficult to interpret, since they lack semantic meaning. We argue that explanations must be more relatable to other concepts, hypotheticals, and associations. Inspired by the perceptual process from cognitive psychology, we propose the XAI Perceptual Processing Framework and RexNet model for relatable explainable AI with Contrastive Saliency, Counterfactual Synthetic, and Contrastive Cues explanations. We investigated the application of vocal emotion recognition, and implemented a modular multi-task deep neural network to predict and explain emotions from speech. From think-aloud and controlled studies, we found that counterfactual explanations were useful and further enhanced with semantic cues, but not saliency explanations. This work provides insights into providing and evaluating relatable contrastive explainable AI for perception applications.
翻訳日:2021-12-31 04:44:42 公開日:2021-12-28
# (参考訳) GAN出力流通における変化の調査

Investigating Shifts in GAN Output-Distributions ( http://arxiv.org/abs/2112.14061v1 )

ライセンス: CC0 1.0
Ricard Durall, Janis Keuper(参考訳) Generative Adversarial Networksの文脈における基本的な、そしてまだ解決されていない質問は、実際に実際のデータ分布をキャプチャでき、その結果、それからサンプリングできるかどうかである。 特に、画像分布の多次元的性質は、GAN分布の多様性の複雑な評価につながる。 既存のアプローチはこの問題を部分的に理解するだけで、疑問は答えられていない。 本研究では,実トレーニングデータの分布とgan生成データとの可観測シフトを体系的に検討するためのループトレーニングスキームを提案する。 さらに,計算や解釈が容易な分布シフトに対して,いくつかの有界測度を導入する。 全体として、これらの手法の組み合わせは、現在のganアルゴリズムの固有限界の探索的調査を可能にする。 異なるデータ集合と複数の最先端GANアーキテクチャに関する実験は、入力分布と出力分布の大きなシフトを示し、出力分布の収束に対する既存の理論的保証が実際に保持されていないことを示す。

A fundamental and still largely unsolved question in the context of Generative Adversarial Networks is whether they are truly able to capture the real data distribution and, consequently, to sample from it. In particular, the multidimensional nature of image distributions leads to a complex evaluation of the diversity of GAN distributions. Existing approaches provide only a partial understanding of this issue, leaving the question unanswered. In this work, we introduce a loop-training scheme for the systematic investigation of observable shifts between the distributions of real training data and GAN generated data. Additionally, we introduce several bounded measures for distribution shifts, which are both easy to compute and to interpret. Overall, the combination of these methods allows an explorative investigation of innate limitations of current GAN algorithms. Our experiments on different data-sets and multiple state-of-the-art GAN architectures show large shifts between input and output distributions, showing that existing theoretical guarantees towards the convergence of output distributions appear not to be holding in practice.
翻訳日:2021-12-31 04:15:24 公開日:2021-12-28
# (参考訳) 金融ビジョンに基づく微分プライバシーアプリケーション

Financial Vision Based Differential Privacy Applications ( http://arxiv.org/abs/2112.14075v1 )

ライセンス: CC BY 4.0
Jun-Hao Chen, Yi-Jen Wang, Yun-Cheng Tsai, Samuel Yen-Chi Chen(参考訳) 近年,ディープラーニングデータのプライバシの重要性が注目されている。 金融規制当局の監督を欠く暗号通貨にディープラーニングを適用する場合、おそらくデータ漏洩に苦しむことになる。 しかし、金融分野での最良の知識に対する相対的な研究はほとんどない。 金融取引データにGoogleの提案する2つの代表的なディープラーニングプライバシプライバシフレームワークを適用する。 本実験で提案する複数のパラメータを用いて実験を行った。 さらに、プライバシーの度合いをGoogleやAppleに言及し、その結果をより合理的に見積もる。 その結果,DP-SGDは金融取引データにおけるPATEフレームワークよりも優れていた。 DP-SGDでは、プライバシと精度のトレードオフは低い。 プライバシーの度合いも実際のケースと一致している。 したがって、潜在的な金融損失を避けるために、精度の高い強力なプライバシー保証を得ることができる。

The importance of deep learning data privacy has gained significant attention in recent years. It is probably to suffer data breaches when applying deep learning to cryptocurrency that lacks supervision of financial regulatory agencies. However, there is little relative research in the financial area to our best knowledge. We apply two representative deep learning privacy-privacy frameworks proposed by Google to financial trading data. We designed the experiments with several different parameters suggested from the original studies. In addition, we refer the degree of privacy to Google and Apple companies to estimate the results more reasonably. The results show that DP-SGD performs better than the PATE framework in financial trading data. The tradeoff between privacy and accuracy is low in DP-SGD. The degree of privacy also is in line with the actual case. Therefore, we can obtain a strong privacy guarantee with precision to avoid potential financial loss.
翻訳日:2021-12-31 04:08:51 公開日:2021-12-28
# (参考訳) ニューロンアライメントによるホワイトボックス深部ニューラルネットワーク透かしのロバスト性向上

Fostering the Robustness of White-Box Deep Neural Network Watermarks by Neuron Alignment ( http://arxiv.org/abs/2112.14108v1 )

ライセンス: CC BY-SA 4.0
Fang-Qi Li, Shi-Lin Wang, Yun Zhu(参考訳) ディープラーニング技術の幅広い応用は、ディープラーニングモデル、特にディープニューラルネットワーク(DNN)の規制を商用製品として強化することである。 このような規則に必要な前提条件は、深層ニューラルネットワークの所有者を特定することである。 現在のDNNウォーターマーキングスキーム、特にホワイトボックスは、機能同値攻撃、特にニューロンの置換に対して一様に脆弱である。 この操作は、所有権証明を強制的に無効化し、著作権規制から逃れることができる。 ホワイトボックスdnn透かしスキームのロバスト性を高めるため,本論文では,透かしを埋め込んだときと同じ順にニューロンを整列させる手法を提案する。 このニューロンアライメントプロセスは、確立されたディープニューラルネットワーク透かしスキームの機能を大幅に促進する。

The wide application of deep learning techniques is boosting the regulation of deep learning models, especially deep neural networks (DNN), as commercial products. A necessary prerequisite for such regulations is identifying the owner of deep neural networks, which is usually done through the watermark. Current DNN watermarking schemes, particularly white-box ones, are uniformly fragile against a family of functionality equivalence attacks, especially the neuron permutation. This operation can effortlessly invalidate the ownership proof and escape copyright regulations. To enhance the robustness of white-box DNN watermarking schemes, this paper presents a procedure that aligns neurons into the same order as when the watermark is embedded, so the watermark can be correctly recognized. This neuron alignment process significantly facilitates the functionality of established deep neural network watermarking schemes.
翻訳日:2021-12-31 04:00:09 公開日:2021-12-28
# (参考訳) ニューラルネットワークにおけるタスク学習の継続に向けて : 神経科学からのアプローチと洞察

Towards continual task learning in artificial neural networks: current approaches and insights from neuroscience ( http://arxiv.org/abs/2112.14146v1 )

ライセンス: CC BY 4.0
David McCaffary(参考訳) 人間や他の動物が、人生を通して多様で、しばしば干渉し、様々な知識とスキルを身につける能力は、自然知性の目印であり、明らかに進化の動機である。 並行して、AIニューラルネットワーク(ANN)が、さまざまなタスクやドメインにわたって学習し、必要な場所で学習された表現を組み合わせて再利用できることは、人工知能の明確な目標である。 この能力は、継続学習として広く説明され、機械学習の研究の多くのサブフィールドとなっている。 近年のディープラーニングの成功にもかかわらず、画像認識から機械翻訳まで幅広い分野において、このような連続的なタスク学習は困難であることが証明されている。 確率勾配降下の順序で複数のタスクで訓練されたニューラルネットワークは、しばしば表現的干渉に悩まされるため、与えられたタスクの学習した重み付けは、破滅的忘れというプロセスにおいて、過去のタスクの重み付けを効果的に上書きする。 これは、人間に似た方法で時間とタスク空間に知識を蓄積できる、より一般化した人工知能システムの開発における大きな障害である。 このレビューに伴う論文と実装のリポジトリはhttps://github.com/mccaffary/continual-learning.comにある。

The innate capacity of humans and other animals to learn a diverse, and often interfering, range of knowledge and skills throughout their lifespan is a hallmark of natural intelligence, with obvious evolutionary motivations. In parallel, the ability of artificial neural networks (ANNs) to learn across a range of tasks and domains, combining and re-using learned representations where required, is a clear goal of artificial intelligence. This capacity, widely described as continual learning, has become a prolific subfield of research in machine learning. Despite the numerous successes of deep learning in recent years, across domains ranging from image recognition to machine translation, such continual task learning has proved challenging. Neural networks trained on multiple tasks in sequence with stochastic gradient descent often suffer from representational interference, whereby the learned weights for a given task effectively overwrite those of previous tasks in a process termed catastrophic forgetting. This represents a major impediment to the development of more generalised artificial learning systems, capable of accumulating knowledge over time and task space, in a manner analogous to humans. A repository of selected papers and implementations accompanying this review can be found at https://github.com/mccaffary/continual-learning.
翻訳日:2021-12-31 03:50:20 公開日:2021-12-28
# (参考訳) m.a.castr\'enの資料の処理:多言語型と手書きの写本

Processing M.A. Castr\'en's Materials: Multilingual Typed and Handwritten Manuscripts ( http://arxiv.org/abs/2112.14153v1 )

ライセンス: CC BY 4.0
Niko Partanen, Jack Rueter, Mika H\"am\"al\"ainen, Khalid Alnajjar(参考訳) この研究は、フィンランドの民族学者で言語学者のmatthias alexander castr\'en (1813-1852) が収集し出版した資料に基づいて行われた様々なタスクに関する技術報告である。 フィンノ・ウグリア協会はカスターの写本を新たな批判版とデジタル版として出版しており、同時に異なる研究グループがこれらの資料に注意を払っている。 使用するワークフローと技術基盤について論じ、異なる計算タスクの恩恵を受けるデータセットをどのように作成するかを検討し、これらの材料の使用性をさらに向上するとともに、類似したアーカイブコレクションのさらなる処理を支援する。 具体的には,これらの資料の文化的・言語的側面に関する以前の研究を補完して,より技術的な応用におけるユーザビリティを向上させる方法で処理されるコレクションの一部に焦点を当てる。 これらのデータセットのほとんどがzenodoで公開されている。 この研究は、さらなる研究が必要な特定の分野を指し、テキスト認識タスクのベンチマークを提供する。

The study forms a technical report of various tasks that have been performed on the materials collected and published by Finnish ethnographer and linguist, Matthias Alexander Castr\'en (1813-1852). The Finno-Ugrian Society is publishing Castr\'en's manuscripts as new critical and digital editions, and at the same time different research groups have also paid attention to these materials. We discuss the workflows and technical infrastructure used, and consider how datasets that benefit different computational tasks could be created to further improve the usability of these materials, and also to aid the further processing of similar archived collections. We specifically focus on the parts of the collections that are processed in a way that improves their usability in more technical applications, complementing the earlier work on the cultural and linguistic aspects of these materials. Most of these datasets are openly available in Zenodo. The study points to specific areas where further research is needed, and provides benchmarks for text recognition tasks.
翻訳日:2021-12-31 03:31:57 公開日:2021-12-28
# (参考訳) 深部特徴エンコーディングを用いた皮膚特徴点追跡

Skin feature point tracking using deep feature encodings ( http://arxiv.org/abs/2112.14159v1 )

ライセンス: CC BY 4.0
Jose Ramon Chang and Torbj\"orn E.M. Nordling(参考訳) 顔の特徴追跡は, 良質な心拍数推定のために, 顔のキーポイントの変位の正確な定量化が必要なBCGの重要成分である。 スキン特徴追跡はパーキンソン病における運動障害の映像的定量化を可能にする。 従来のコンピュータビジョンアルゴリズムには、SIFT(Scale Invariant Feature Transform)、SURF(Speeded-Up Robust Features)、LK(Lucas-Kanade Method)がある。 これらは長い間最先端の効率と正確さを表してきたが、アフィン局所変換や照明変化のような共通の変形が存在すると失敗する。 過去5年間で、ディープ畳み込みニューラルネットワークは、ほとんどのコンピュータビジョンタスクで従来の方法よりも優れています。 本稿では,画像中の最も類似した作物を特徴量を含む参照作物に識別するために,畳み込み積み重ねオートエンコーダを適用した特徴追跡用パイプラインを提案する。 オートエンコーダは、画像作物を訓練対象のカテゴリ特有の深い特徴エンコードに表現することを学ぶ。 顔画像上でオートエンコーダを訓練し、手動でラベル付けされた顔と手動のビデオを用いて皮膚の特徴を追跡できることを検証する。 特徴的皮膚特徴(moles)のトラッキングエラーは非常に小さいため、$\chi^2$-test に基づいた手動ラベリングから発生するものを排除することはできない。 0.6-4.2ピクセルの平均誤差で、この手法は1つのシナリオを除いて他の方法よりも優れていた。 さらに重要なことは、我々の方法だけが分岐しないものだった。 提案手法は,従来のアルゴリズムよりも特徴追跡,特徴マッチング,画像登録に優れた特徴記述子を生成する。

Facial feature tracking is a key component of imaging ballistocardiography (BCG) where accurate quantification of the displacement of facial keypoints is needed for good heart rate estimation. Skin feature tracking enables video-based quantification of motor degradation in Parkinson's disease. Traditional computer vision algorithms include Scale Invariant Feature Transform (SIFT), Speeded-Up Robust Features (SURF), and Lucas-Kanade method (LK). These have long represented the state-of-the-art in efficiency and accuracy but fail when common deformations, like affine local transformations or illumination changes, are present. Over the past five years, deep convolutional neural networks have outperformed traditional methods for most computer vision tasks. We propose a pipeline for feature tracking, that applies a convolutional stacked autoencoder to identify the most similar crop in an image to a reference crop containing the feature of interest. The autoencoder learns to represent image crops into deep feature encodings specific to the object category it is trained on. We train the autoencoder on facial images and validate its ability to track skin features in general using manually labeled face and hand videos. The tracking errors of distinctive skin features (moles) are so small that we cannot exclude that they stem from the manual labelling based on a $\chi^2$-test. With a mean error of 0.6-4.2 pixels, our method outperformed the other methods in all but one scenario. More importantly, our method was the only one to not diverge. We conclude that our method creates better feature descriptors for feature tracking, feature matching, and image registration than the traditional algorithms.
翻訳日:2021-12-31 03:20:47 公開日:2021-12-28
# (参考訳) 一般化パワー法による非凸ジョイントコミュニティ検出とグループ同期

Non-Convex Joint Community Detection and Group Synchronization via Generalized Power Method ( http://arxiv.org/abs/2112.14204v1 )

ライセンス: CC BY 4.0
Sijin Chen, Xiwei Cheng, Anthony Man-Cho So(参考訳) 本稿では,コミュニティ検出とグループ同期の問題を,直接非凸方式で同時に行うための一般化電力法(GPM)を提案する。 確率的群ブロックモデル(SGBM)の下では、理論解析により、アルゴリズムは$O(n\log^2n)$時間で基底真理を正確に回復することができ、$O(n^{3.5})$時間で半定値プログラミング(SDP)のベンチマーク手法を著しく上回っている。 さらに、GPMの正確な回復に必要な条件として、パラメータの低い境界が与えられる。 新しい境界は、確率的ブロックモデル(SBM)の下での純粋コミュニティ検出のための情報理論しきい値に反し、2つのタスクを連続的に実行する自明な2段階法よりも並列最適化アルゴリズムが優れていることを示す。 また,pgmとsdpの数値実験をエビデンスに実施し,理論解析を補完する。

This paper proposes a Generalized Power Method (GPM) to tackle the problem of community detection and group synchronization simultaneously in a direct non-convex manner. Under the stochastic group block model (SGBM), theoretical analysis indicates that the algorithm is able to exactly recover the ground truth in $O(n\log^2n)$ time, sharply outperforming the benchmark method of semidefinite programming (SDP) in $O(n^{3.5})$ time. Moreover, a lower bound of parameters is given as a necessary condition for exact recovery of GPM. The new bound breaches the information-theoretic threshold for pure community detection under the stochastic block model (SBM), thus demonstrating the superiority of our simultaneous optimization algorithm over the trivial two-stage method which performs the two tasks in succession. We also conduct numerical experiments on GPM and SDP to evidence and complement our theoretical analysis.
翻訳日:2021-12-31 03:19:27 公開日:2021-12-28
# (参考訳) AGMによる選好の見直し

An AGM Approach to Revising Preferences ( http://arxiv.org/abs/2112.14243v1 )

ライセンス: CC BY 4.0
Adrian Haret, Johannes P. Wallner(参考訳) 本稿では,2つの要素間の相互作用から生じる選好変化について考察する。第1は既存の態度を符号化した初期選好ランキングであり,第2の要素は権威源からの入力を信号する新たな選好情報であり,初期選好と矛盾する可能性がある。 その目的は、最初の好みを調整して、必要に応じて多くの情報を諦めることなく、新しい好みに合わせて持ってくることです。 我々は、このプロセスを、よく知られたAGMアプローチの線に沿って、形式的な信念変化の機械を用いてモデル化する。 本稿では, 基本的合理性仮定の集合を提案し, 論文の主な結果を導出する: これらの仮定による選好変化を, 初期選好順序における比較のランク付けによって導かれる選択関数として有理化できることを示す表現定理の集合。 提案した仮定を満たす演算子を提示する。 したがって、我々のアプローチでは、より大規模な信仰変化オペレーターのファミリー内で、好みの修正を行うことができる。

We look at preference change arising out of an interaction between two elements: the first is an initial preference ranking encoding a pre-existing attitude; the second element is new preference information signaling input from an authoritative source, which may come into conflict with the initial preference. The aim is to adjust the initial preference and bring it in line with the new preference, without having to give up more information than necessary. We model this process using the formal machinery of belief change, along the lines of the well-known AGM approach. We propose a set of fundamental rationality postulates, and derive the main results of the paper: a set of representation theorems showing that preference change according to these postulates can be rationalized as a choice function guided by a ranking on the comparisons in the initial preference order. We conclude by presenting operators satisfying our proposed postulates. Our approach thus allows us to situate preference revision within the larger family of belief change operators.
翻訳日:2021-12-31 02:33:00 公開日:2021-12-28
# (参考訳) 機械学習を用いた縦型因果推論のための有限サンプル定理--長期的、動的、および媒介的効果

A Finite Sample Theorem for Longitudinal Causal Inference with Machine Learning: Long Term, Dynamic, and Mediated Effects ( http://arxiv.org/abs/2112.14249v1 )

ライセンス: CC BY 4.0
Rahul Singh(参考訳) 機械学習を用いて推定した縦因果パラメータに対する信頼区間の構築と正当化を行う。 経時的パラメータには、長期的、動的、および媒介的効果が含まれる。 単純な解釈可能な条件を満たす任意の機械学習アルゴリズムで推定される任意の前後因果パラメータに対する非漸近定理を提供する。 主な結果は、特定の人口層に対して定義された局所パラメータと、観測されていない埋没の存在下で定義された近位パラメータを含む。 正式には、一貫性、ガウス近似、半パラメトリック効率を証明する。 収束率はグローバルパラメータに対して$n^{-1/2}$であり、局所パラメータに対して優雅に分解される。 私は平均二乗率を統計的推論に変換するための簡単な条件を述べる。 主結果の鍵となる特徴は、縦方向設定における近位因果推論の不正なポーズに対する新しい多重ロバスト性である。

I construct and justify confidence intervals for longitudinal causal parameters estimated with machine learning. Longitudinal parameters include long term, dynamic, and mediated effects. I provide a nonasymptotic theorem for any longitudinal causal parameter estimated with any machine learning algorithm that satisfies a few simple, interpretable conditions. The main result encompasses local parameters defined for specific demographics as well as proximal parameters defined in the presence of unobserved confounding. Formally, I prove consistency, Gaussian approximation, and semiparametric efficiency. The rate of convergence is $n^{-1/2}$ for global parameters, and it degrades gracefully for local parameters. I articulate a simple set of conditions to translate mean square rates into statistical inference. A key feature of the main result is a new multiple robustness to ill posedness for proximal causal inference in longitudinal settings.
翻訳日:2021-12-31 02:08:06 公開日:2021-12-28
# (参考訳) Beta-VAEの再現性 - 課題と拡張

Beta-VAE Reproducibility: Challenges and Extensions ( http://arxiv.org/abs/2112.14278v1 )

ライセンス: CC BY 4.0
Miroslav Fil, Munib Mesinovic, Matthew Morris, Jonas Wildberger(参考訳) $\beta$-VAEは変分オートエンコーダの追従手法であり、VAE損失におけるKL発散項の特殊重み付けを提案し、不整合表現を得る。 教師なし学習はおもちゃのデータセット上でも不安定であることが知られており、意味のある数学的に正確な乱れの定義を見つけることは難しい。 ここでは,元の$\beta$-VAE論文を調査し,再現性の欠如を示す結果に証拠を加える。 また、モデルの実験をさらに拡張し、分析にさらに複雑なデータセットを含める。 また、$\beta$-VAEモデルに対してFIDスコアリング尺度を実装し、得られた結果の質的分析を結論付ける。 最後に,請求にさらなる堅牢性を加えるために実施可能な今後の調査について,簡単な議論を行う。

$\beta$-VAE is a follow-up technique to variational autoencoders that proposes special weighting of the KL divergence term in the VAE loss to obtain disentangled representations. Unsupervised learning is known to be brittle even on toy datasets and a meaningful, mathematically precise definition of disentanglement remains difficult to find. Here we investigate the original $\beta$-VAE paper and add evidence to the results previously obtained indicating its lack of reproducibility. We also further expand the experimentation of the models and include further more complex datasets in the analysis. We also implement an FID scoring metric for the $\beta$-VAE model and conclude a qualitative analysis of the results obtained. We end with a brief discussion on possible future investigations that can be conducted to add more robustness to the claims.
翻訳日:2021-12-31 02:07:07 公開日:2021-12-28
# (参考訳) 器用な操作に対するマルチモーダル知覚

Multimodal perception for dexterous manipulation ( http://arxiv.org/abs/2112.14298v1 )

ライセンス: CC0 1.0
Guanqun Cao and Shan Luo(参考訳) 人間は通常、視覚、触覚、音が様々な次元から周囲を理解するために使われるマルチモーダルな方法で世界を認識する。 これらの感覚を結合して、各感覚を別々に使用するよりも学習が効果的である相乗効果を達成する。 ロボット工学にとって、視覚とタッチはデクスタースな操作の2つの重要な感覚である。 視覚は、通常、形状、色、タッチなどの明らかな特徴を与え、摩擦、テクスチャなどのローカル情報を提供する。 視覚と触覚の相補的な性質から,視覚と触覚を相乗的知覚と操作に組み合わせることが望ましい。 クロスモーダル学習,3次元再構成,視覚とタッチによるマルチモーダル翻訳など,マルチモーダル知覚に関する研究が数多く行われている。 具体的には,視覚と触覚の変換のためのクロスモーダルな知覚データ生成フレームワークを提案し,現実的な擬似データを生成する。 このクロスモーダルな翻訳手法を用いることで、アクセス不能なデータを作成し、異なるビューからオブジェクトのプロパティを学習するのに役立つことが望ましい。 近年,注意機構は視覚知覚や触覚知覚において一般的な方法となっている。 空間的特徴と時間次元を考慮した触覚テクスチャ認識のための時空間的注意モデルを提案する。 提案手法は,各空間の特徴に注意を払うだけでなく,時間的相関もモデル化する。 明らかな改善は、私たちの選択的な注意機構の効率を証明します。 時空間的注意法は、把握、認識、マルチモーダル知覚など、多くの応用に可能性を持っている。

Humans usually perceive the world in a multimodal way that vision, touch, sound are utilised to understand surroundings from various dimensions. These senses are combined together to achieve a synergistic effect where the learning is more effectively than using each sense separately. For robotics, vision and touch are two key senses for the dexterous manipulation. Vision usually gives us apparent features like shape, color, and the touch provides local information such as friction, texture, etc. Due to the complementary properties between visual and tactile senses, it is desirable for us to combine vision and touch for a synergistic perception and manipulation. Many researches have been investigated about multimodal perception such as cross-modal learning, 3D reconstruction, multimodal translation with vision and touch. Specifically, we propose a cross-modal sensory data generation framework for the translation between vision and touch, which is able to generate realistic pseudo data. By using this cross-modal translation method, it is desirable for us to make up inaccessible data, helping us to learn the object's properties from different views. Recently, the attention mechanism becomes a popular method either in visual perception or in tactile perception. We propose a spatio-temporal attention model for tactile texture recognition, which takes both spatial features and time dimension into consideration. Our proposed method not only pays attention to the salient features in each spatial feature, but also models the temporal correlation in the through the time. The obvious improvement proves the efficiency of our selective attention mechanism. The spatio-temporal attention method has potential in many applications such as grasping, recognition, and multimodal perception.
翻訳日:2021-12-31 01:52:44 公開日:2021-12-28
# (参考訳) 集合計測によるカーネルヒルベルト空間のアンサンブル認識

Ensemble Recognition in Reproducing Kernel Hilbert Spaces through Aggregated Measurements ( http://arxiv.org/abs/2112.14307v1 )

ライセンス: CC BY 4.0
Wei Miao, Jr-Shin Li(参考訳) 本稿では,カーネルヒルベルト空間(RKHS)を再現する統計手法を用いて,アンサンブルシステムの動的特性を学習する問題について検討する。 具体的には,複数のアンサンブルシステムに対して,RKHSにおける集約された計測値間の最大平均誤差(MMD)を計算し,複数のアンサンブルシステムを特定し,クラスタ化するためのフレームワークを提供する。 そこで,新たに提案された集合マルコフパラメータの勾配流を利用して,その線形近似を用いてアンサンブルシステムを認識し,同定する体系的枠組みを提案する。 最後に,提案手法をRKHS内の複数の未知のアンサンブルを集約するために,その集計値を用いて拡張可能であることを示す。 数値実験により,本手法はシステムダイナミクスの異なるアンサンブルに対して信頼性とロバスト性を示す。

In this paper, we study the problem of learning dynamical properties of ensemble systems from their collective behaviors using statistical approaches in reproducing kernel Hilbert space (RKHS). Specifically, we provide a framework to identify and cluster multiple ensemble systems through computing the maximum mean discrepancy (MMD) between their aggregated measurements in an RKHS, without any prior knowledge of the system dynamics of ensembles. Then, leveraging on a gradient flow of the newly proposed notion of aggregated Markov parameters, we present a systematic framework to recognize and identify an ensemble systems using their linear approximations. Finally, we demonstrate that the proposed approaches can be extended to cluster multiple unknown ensembles in RKHS using their aggregated measurements. Numerical experiments show that our approach is reliable and robust to ensembles with different types of system dynamics.
翻訳日:2021-12-31 01:39:07 公開日:2021-12-28
# (参考訳) 深部ニューラルネットワークによるスパースデータの認知性能予測の改善

Improving Prediction of Cognitive Performance using Deep Neural Networks in Sparse Data ( http://arxiv.org/abs/2112.14314v1 )

ライセンス: CC BY 4.0
Sharath Koorathota, Arunesh Mittal, Richard P. Sloan, Paul Sajda(参考訳) ミドルライフにおける認知は、年齢関連精神低下の重要な予測因子であり、認知能力を予測する統計モデルは、低下を予測するのに有用である。 しかし、既存のモデルは認知に影響を及ぼす身体的、社会的な、心理的、精神的な健康要因の間の複雑な関係を捉えるのに苦労している。 MIDUS(Midlife in the United States)の観察・コホート研究から得られたデータを用いて,エグゼクティブ関数とエピソード記憶測定値を予測するために,多数の変数をモデル化した。 間隔の異なる断面的および縦断的な結果,あるいは欠落データ量を用いて検討した。 deep neural network(dnn)モデルは、サンプルデータ上でルート平均二乗誤差(rmse)によって評価されるように、認知パフォーマンス予測タスクの中で一貫して最高にランク付けされている。 DNNと他のモデルとのRMSE差は統計的に有意であった(T(8) = -3.70; p < 0.05)。 F(9)=59.20; p < 0.01) は、DNNの成功は、その堅牢性と健康関連因子間の階層的関係をモデル化する能力に起因すると考えられる。 本研究は、臨床データセットをモデル化するニューラルネットワークの可能性を強調し、認知的低下を引き起こす要因をよりよく理解する。

Cognition in midlife is an important predictor of age-related mental decline and statistical models that predict cognitive performance can be useful for predicting decline. However, existing models struggle to capture complex relationships between physical, sociodemographic, psychological and mental health factors that effect cognition. Using data from an observational, cohort study, Midlife in the United States (MIDUS), we modeled a large number of variables to predict executive function and episodic memory measures. We used cross-sectional and longitudinal outcomes with varying sparsity, or amount of missing data. Deep neural network (DNN) models consistently ranked highest in all of the cognitive performance prediction tasks, as assessed with root mean squared error (RMSE) on out-of-sample data. RMSE differences between DNN and other model types were statistically significant (T(8) = -3.70; p < 0.05). The interaction effect between model type and sparsity was significant (F(9)=59.20; p < 0.01), indicating the success of DNNs can partly be attributed to their robustness and ability to model hierarchical relationships between health-related factors. Our findings underscore the potential of neural networks to model clinical datasets and allow better understanding of factors that lead to cognitive decline.
翻訳日:2021-12-31 01:16:56 公開日:2021-12-28
# (参考訳) FRIDA -- インクリメンタルドメイン適応のための生成機能リプレイ

FRIDA -- Generative Feature Replay for Incremental Domain Adaptation ( http://arxiv.org/abs/2112.14316v1 )

ライセンス: CC BY 4.0
Sayan Rakshit, Anwesh Mohanty, Ruchika Chavhan, Biplab Banerjee, Gemma Roig, Subhasis Chaudhuri(参考訳) 本稿では,漸進的非教師付きドメイン適応(IDA)の新たな課題に取り組む。 ラベル付きソースドメインと異なるラベル付きターゲットドメインは、現在のドメインに対応するデータが一度にしか利用できないという制約で漸進的に観測されると仮定する。 目標は、現在のドメインをうまく一般化しながら、過去のすべてのドメインのアキュラティを維持することです。 IDAセットアップは、ドメイン間の急激な違いと、ソースドメインを含む過去のデータの有効性に悩まされている。 生成機能リプレイの概念に触発されて,ドメイン固有の特徴表現をシームレスに生成するために,ドメインジェネリック補助分類GAN(DGAC-GAN)と呼ばれる新たなインクリメンタル・ジェネレーティブ・逆境ネットワーク(GAN)を活用する,特徴再生ベースのインクリメンタル・ドメイン適応(FRIDA)という新しいフレームワークを提案する。 ドメインアライメントのために、DANN-IBと呼ばれる一般的なドメイン敵ニューラルネットワーク(DANN)の単純な拡張を提案し、識別的ドメイン不変性とタスク関連特徴学習を促進する。 Office-Home、Office-CalTech、DomainNetデータセットの実験結果は、FRIDAが文献よりも優れた安定性-塑性トレードオフを維持していることを確認した。

We tackle the novel problem of incremental unsupervised domain adaptation (IDA) in this paper. We assume that a labeled source domain and different unlabeled target domains are incrementally observed with the constraint that data corresponding to the current domain is only available at a time. The goal is to preserve the accuracies for all the past domains while generalizing well for the current domain. The IDA setup suffers due to the abrupt differences among the domains and the unavailability of past data including the source domain. Inspired by the notion of generative feature replay, we propose a novel framework called Feature Replay based Incremental Domain Adaptation (FRIDA) which leverages a new incremental generative adversarial network (GAN) called domain-generic auxiliary classification GAN (DGAC-GAN) for producing domain-specific feature representations seamlessly. For domain alignment, we propose a simple extension of the popular domain adversarial neural network (DANN) called DANN-IB which encourages discriminative domain-invariant and task-relevant feature learning. Experimental results on Office-Home, Office-CalTech, and DomainNet datasets confirm that FRIDA maintains superior stability-plasticity trade-off than the literature.
翻訳日:2021-12-31 01:03:52 公開日:2021-12-28
# (参考訳) ミラーマッチング: 医療体系レビューのためのシード駆動文書ランキングにおける文書マッチングアプローチ

Mirror Matching: Document Matching Approach in Seed-driven Document Ranking for Medical Systematic Reviews ( http://arxiv.org/abs/2112.14318v1 )

ライセンス: CC BY 4.0
Grace E. Lee and Aixin Sun(参考訳) 医学研究者が体系的レビュー(SR)を行う場合、スクリーニング研究は最も時間を要するプロセスである。 文書の優先順位付け (Screening Prioritization) とは、関係文書が関連文書よりも上位にある文書ランキングを提供することによって研究者を支援する手法である。 シード駆動型文書ランキング(SDR)は、クエリとして既知の関連ドキュメント(シード)を使用し、そのようなランキングを生成する。 SDRに関するこれまでの研究は、クエリ文書で異なる項重みを識別する方法を模索し、それらを検索モデルで利用してランキングスコアを計算する。 あるいは、SDRタスクを、クエリドキュメントと類似したドキュメントを見つけ、類似度スコアに基づいてランキングを生成するように定式化する。 本稿では,背景,方法,結果,結論などの共通記述パターンを順に組み込むことで,医用要約テキスト間のマッチングスコアを算出するミラーマッチングという文書マッチング尺度を提案する。 CLEF 2019 eHealth Task 2 TARデータセットで実験を行い、実験結果から、この単純なアプローチは平均精度と精度にフォーカスしたメトリクス上の従来のニューラルネットワークモデルよりも高いパフォーマンスを実現することが示された。

When medical researchers conduct a systematic review (SR), screening studies is the most time-consuming process: researchers read several thousands of medical literature and manually label them relevant or irrelevant. Screening prioritization (ie., document ranking) is an approach for assisting researchers by providing document rankings where relevant documents are ranked higher than irrelevant ones. Seed-driven document ranking (SDR) uses a known relevant document (ie., seed) as a query and generates such rankings. Previous work on SDR seeks ways to identify different term weights in a query document and utilizes them in a retrieval model to compute ranking scores. Alternatively, we formulate the SDR task as finding similar documents to a query document and produce rankings based on similarity scores. We propose a document matching measure named Mirror Matching, which calculates matching scores between medical abstract texts by incorporating common writing patterns, such as background, method, result, and conclusion in order. We conduct experiments on CLEF 2019 eHealth Task 2 TAR dataset, and the empirical results show this simple approach achieves the higher performance than traditional and neural retrieval models on Average Precision and Precision-focused metrics.
翻訳日:2021-12-31 00:41:45 公開日:2021-12-28
# (参考訳) グローバル表現と局所表現を用いたマルチヘッド深度学習

Multi-Head Deep Metric Learning Using Global and Local Representations ( http://arxiv.org/abs/2112.14327v1 )

ライセンス: CC BY 4.0
Mohammad K. Ebrahimpour, Gang Qian, and Allison Beach(参考訳) ディープメトリックラーニング(DML)モデルは、しばしば強力なローカルおよびグローバルな表現を必要とするが、DMLモデルトレーニングにおけるローカルおよびグローバルな機能の効果的な統合は困難である。 DMLモデルは、ペアワイズベースやプロキシベースの損失など、特定の損失関数でトレーニングされることが多い。 ペアワイズに基づく損失関数はデータポイント間の豊富な意味関係を利用するが、dmlモデルのトレーニング中に収束が遅くなることが多い。 一方、プロキシベースの損失関数はトレーニング中の収束を著しく高速化するが、データポイント間のリッチな関係はプロキシベースの損失によって完全には解明されないことが多い。 本稿では,これらの課題に対処する新しいDML手法を提案する。 提案手法では,データ間のリッチな関係と高速収束を両立させるために,ペアワイズベースとプロキシベースの損失関数を統合することでハイブリッドロスを利用する。 さらに、DMLモデルトレーニングにおいて、グローバル特徴とローカル特徴の両方を利用してリッチ表現を得る。 最後に,2階の注意を機能拡張に利用して,精度と効率性の向上を図る。 本実験では, 提案手法を4つの公開ベンチマーク上で広範囲に評価し, 提案手法が全ベンチマークで最先端性能を達成したことを示す。

Deep Metric Learning (DML) models often require strong local and global representations, however, effective integration of local and global features in DML model training is a challenge. DML models are often trained with specific loss functions, including pairwise-based and proxy-based losses. The pairwise-based loss functions leverage rich semantic relations among data points, however, they often suffer from slow convergence during DML model training. On the other hand, the proxy-based loss functions often lead to significant speedups in convergence during training, while the rich relations among data points are often not fully explored by the proxy-based losses. In this paper, we propose a novel DML approach to address these challenges. The proposed DML approach makes use of a hybrid loss by integrating the pairwise-based and the proxy-based loss functions to leverage rich data-to-data relations as well as fast convergence. Furthermore, the proposed DML approach utilizes both global and local features to obtain rich representations in DML model training. Finally, we also use the second-order attention for feature enhancement to improve accurate and efficient retrieval. In our experiments, we extensively evaluated the proposed DML approach on four public benchmarks, and the experimental results demonstrate that the proposed method achieved state-of-the-art performance on all benchmarks.
翻訳日:2021-12-31 00:24:35 公開日:2021-12-28
# (参考訳) コーパス間の使用変化による単語の簡易, 解釈可能, 安定検出法

Simple, Interpretable and Stable Method for Detecting Words with Usage Change across Corpora ( http://arxiv.org/abs/2112.14330v1 )

ライセンス: CC BY-SA 4.0
Hila Gonen, Ganesh Jawahar, Djam\'e Seddah, Yoav Goldberg(参考訳) 2つの文体を比較してそれらの用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。 これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。 しかし、これらの手法はよく機能するために語彙を広範囲にフィルタリングする必要があることが多く、この研究で示されているように、不安定で信頼性の低い結果をもたらす。 本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。 この方法は単純で解釈可能で安定している。 コーパス分割基準(年齢、性別、職業、ツイート作成者、ツイート時間)と異なる言語(英語、フランス語、ヘブライ語)を考慮して、9つの異なる設定でその効果を実証した。

The problem of comparing two bodies of text and searching for words that differ in their usage between them arises often in digital humanities and computational social science. This is commonly approached by training word embeddings on each corpus, aligning the vector spaces, and looking for words whose cosine distance in the aligned space is large. However, these methods often require extensive filtering of the vocabulary to perform well, and - as we show in this work - result in unstable, and hence less reliable, results. We propose an alternative approach that does not use vector space alignment, and instead considers the neighbors of each word. The method is simple, interpretable and stable. We demonstrate its effectiveness in 9 different setups, considering different corpus splitting criteria (age, gender and profession of tweet authors, time of tweet) and different languages (English, French and Hebrew).
翻訳日:2021-12-31 00:23:33 公開日:2021-12-28
# (参考訳) バンディットフィードバックを用いたオンライン学習による連合学習における適応的クライアントサンプリング

Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback ( http://arxiv.org/abs/2112.14332v1 )

ライセンス: CC BY 4.0
Boxin Zhao, Ziqi Liu, Chaochao Chen, Mladen Kolar, Zhiqiang Zhang, and Jun Zhou(参考訳) フェデレーション学習(fl)問題において、クライアントサンプリングは、学習アルゴリズムの収束速度において重要な役割を果たす。 しかし、FLにおいて重要な問題であるが、クライアントサンプリングは研究の欠如である。 本稿では,flにおけるクライアントサンプリング問題を理解するために,バンディットフィードバックフレームワークを用いたオンライン学習を提案する。 オンライン確率ミラー降下アルゴリズムを用いて勾配推定の分散を最小化することにより,新しい適応クライアントサンプリングアルゴリズムを提案する。 さらに,オンラインアンサンブル法と2倍の手法を用いて,アルゴリズムのチューニングパラメータを自動的に選択する。 理論的には、コンパレータに束縛された動的後悔を理論的に最適なサンプリングシーケンスとして示し、この問題の本質的な難しさの自然な尺度である上界におけるこの配列の総変動も含んでいる。 私たちの知る限りでは、これらの理論的な貢献は既存の文献に新しいものである。 さらに, 合成データと実データの両方を実装することで, 従来研究では, 広く使用されている一様サンプリングや, オンライン学習に基づくサンプリング戦略よりも, 提案アルゴリズムの利点を実証的に示す。 また、チューニングパラメータの選択に対するロバスト性についても検討する。 最後に,代替やパーソナライズされたflの目的に代えて,サンプリングへの拡張の可能性について論じる。 当初の目標は、クライアントサンプリング問題を解決することにあるが、この研究はより一般的な確率勾配降下法や確率座標降下法に応用されている。

In federated learning (FL) problems, client sampling plays a key role in the convergence speed of training algorithm. However, while being an important problem in FL, client sampling is lack of study. In this paper, we propose an online learning with bandit feedback framework to understand the client sampling problem in FL. By adapting an Online Stochastic Mirror Descent algorithm to minimize the variance of gradient estimation, we propose a new adaptive client sampling algorithm. Besides, we use online ensemble method and doubling trick to automatically choose the tuning parameters in the algorithm. Theoretically, we show dynamic regret bound with comparator as the theoretically optimal sampling sequence; we also include the total variation of this sequence in our upper bound, which is a natural measure of the intrinsic difficulty of the problem. To the best of our knowledge, these theoretical contributions are novel to existing literature. Moreover, by implementing both synthetic and real data experiments, we show empirical evidence of the advantages of our proposed algorithms over widely-used uniform sampling and also other online learning based sampling strategies in previous studies. We also examine its robustness to the choice of tuning parameters. Finally, we discuss its possible extension to sampling without replacement and personalized FL objective. While the original goal is to solve client sampling problem, this work has more general applications on stochastic gradient descent and stochastic coordinate descent methods.
翻訳日:2021-12-30 23:59:13 公開日:2021-12-28
# 双方向リソース制約によるオンラインアロケーション

Online Allocation with Two-sided Resource Constraints ( http://arxiv.org/abs/2112.13964v1 )

ライセンス: Link先を確認
Qixin Zhang, Wenbing Ye, Zaiyi Chen, Haoyuan Hu, Enhong Chen, Yang Yu(参考訳) 物流やオンライン広告における多くの興味深い現実世界の応用によって動機づけられたオンラインアロケーション問題では、要求が順番に届き、未知の分布からサンプル化された、すなわちサンプル化され、限られたリソースと低いバウンダリ要件が与えられた決定を迅速に行う必要がある。 まず、実現可能性の尺度、すなわち$\alpha$の知識から、要求全体を事前に知っているオフライン問題に対して、1-o(\frac{\epsilon}{\alpha-\epsilon})$ -競合比を得る新しいアルゴリズムを提案する。 従来の研究にインスパイアされたこのアルゴリズムは、決定を行うためのしきい値ベクトルを動的に更新する革新的な手法を採用している。 また,本論文の最後に理論的な保証により,実現可能性の最適尺度を推定する最適化手法を提案する。 この方法に基づいて、パラメータ$\eta$で下限制約をわずかに違反することを許容すると、提案アルゴリズムは、非常に未解決のシナリオをカバーする強力な仮定なしに、自然に設定に拡張される。

Motivated by many interesting real-world applications in logistics and online advertising, we consider an online allocation problem subject to lower and upper resource constraints, where the requests arrive sequentially, sampled i.i.d. from an unknown distribution, and we need to promptly make a decision given limited resources and lower bounds requirements. First, with knowledge of the measure of feasibility, i.e., $\alpha$, we propose a new algorithm that obtains $1-O(\frac{\epsilon}{\alpha-\epsilon})$ -competitive ratio for the offline problems that know the entire requests ahead of time. Inspired by the previous studies, this algorithm adopts an innovative technique to dynamically update a threshold price vector for making decisions. Moreover, an optimization method to estimate the optimal measure of feasibility is proposed with theoretical guarantee at the end of this paper. Based on this method, if we tolerate slight violation of the lower bounds constraints with parameter $\eta$, the proposed algorithm is naturally extended to the settings without strong feasible assumption, which cover the significantly unexplored infeasible scenarios.
翻訳日:2021-12-30 16:37:12 公開日:2021-12-28
# 時間論理を用いたデータからの時間インクリメンタル学習

Time-Incremental Learning from Data Using Temporal Logics ( http://arxiv.org/abs/2112.14300v1 )

ライセンス: Link先を確認
Erfan Aasi, Mingyu Cai, Cristian Ioan Vasile, and Calin Belta(参考訳) サイバー物理システムにおけるリアルタイムおよび人間解釈可能な意思決定は重要な課題であるが、通常は限られたデータから将来の事象を予測する必要がある。 本稿では,共通の時間軸を持つラベル付き信号トレースのデータセットを与えられた場合,プレフィックス信号と呼ばれる時間とともに徐々に受信される信号のラベルを予測する手法を提案する。 プリフィックス信号は発生時に観測される信号であり、その時間の長さは信号の一般的な水平線よりも短い。 本稿では,与えられたデータセットから有限個の信号時相論理(stl)仕様を生成し,それに基づく予測器を構築するための新しい決定木に基づく手法を提案する。 各stl仕様は、時系列データのバイナリ分類器として、データセットの時間的特性をキャプチャする。 予測器は、時間変化重みをstl公式に割り当てて構成する。 重み付けはニューラルネットワークを使って学習され、与えられたデータセット上で定義されたプレフィックス信号の誤分類率を最小化する。 学習された予測器は、各stl公式に対するプレフィックス信号のロバスト性の重み付け和を演算することにより、プレフィックス信号のラベルを予測するために使用される。 本アルゴリズムの有効性と分類性能は, 都市走行と海軍サーベイランスのケーススタディで評価した。

Real-time and human-interpretable decision-making in cyber-physical systems is a significant but challenging task, which usually requires predictions of possible future events from limited data. In this paper, we introduce a time-incremental learning framework: given a dataset of labeled signal traces with a common time horizon, we propose a method to predict the label of a signal that is received incrementally over time, referred to as prefix signal. Prefix signals are the signals that are being observed as they are generated, and their time length is shorter than the common horizon of signals. We present a novel decision-tree based approach to generate a finite number of Signal Temporal Logic (STL) specifications from the given dataset, and construct a predictor based on them. Each STL specification, as a binary classifier of time-series data, captures the temporal properties of the dataset over time. The predictor is constructed by assigning time-variant weights to the STL formulas. The weights are learned by using neural networks, with the goal of minimizing the misclassification rate for the prefix signals defined over the given dataset. The learned predictor is used to predict the label of a prefix signal, by computing the weighted sum of the robustness of the prefix signal with respect to each STL formula. The effectiveness and classification performance of our algorithm are evaluated on an urban-driving and a naval-surveillance case studies.
翻訳日:2021-12-30 16:36:47 公開日:2021-12-28
# 有理ソリトンをもつ(2+1)次元非線形方程式の前方および逆問題に対するディープニューラルネットワーク

Deep neural networks for solving forward and inverse problems of (2+1)-dimensional nonlinear wave equations with rational solitons ( http://arxiv.org/abs/2112.14040v1 )

ライセンス: Link先を確認
Zijian Zhou, Li Wang, and Zhenya Yan(参考訳) 本稿では、(2+1)次元KP-I方程式とスピン非線形Schr\odinger(スピン-NLS)方程式の深いニューラルネットワーク傾きによるデータ駆動有理ソリトンに関する前方問題について検討する。 さらに, (2+1)-次元kp-i方程式とスピンnls方程式の逆問題について深層学習を用いて検討した。 データ駆動前方および逆問題の主な考え方は、活性化関数を持つディープニューラルネットワークを用いて、(2+1)次元の非線形波動方程式の解を近似し、検討された非線形波動方程式に関連する選択された損失関数を最適化することである。

In this paper, we investigate the forward problems on the data-driven rational solitons for the (2+1)-dimensional KP-I equation and spin-nonlinear Schr\"odinger (spin-NLS) equation via the deep neural networks leaning. Moreover, the inverse problems of the (2+1)-dimensional KP-I equation and spin-NLS equation are studied via deep learning. The main idea of the data-driven forward and inverse problems is to use the deep neural networks with the activation function to approximate the solutions of the considered (2+1)-dimensional nonlinear wave equations by optimizing the chosen loss functions related to the considered nonlinear wave equations.
翻訳日:2021-12-30 16:34:53 公開日:2021-12-28
# 特徴粒度に一致したマルチバンドWi-Fiセンシング

Multi-Band Wi-Fi Sensing with Matched Feature Granularity ( http://arxiv.org/abs/2112.14006v1 )

ライセンス: Link先を確認
Jianyuan Yu, Pu (Perry) Wang, Toshiaki Koike-Akino, Ye Wang, Philip V. Orlik, R. Michael Buehrer(参考訳) 物理層からの細粒度チャネル状態情報(csi)と粗粒度受信信号強度インジケータ(rssi)測定とを補完することにより、必須ビームトレーニングフェーズ中のミリ波帯で利用可能な中粒度空間ビーム特性(ビームsnr)をwi-fiセンシング用途に再利用することができる。 本稿では、サブ6GHzの細粒度CSIと60GHzの中粒度SNRの両方の特徴を階層的に融合するWi-Fiセンサ用マルチバンドWi-Fi融合法を提案する。 csiとビームsnrの2つの特徴マップを異なる粒度レベルでペアリングし、全てのペア化特徴マップを、学習可能な重み付き融合特徴マップに線形結合することにより、粒度マッチングを実現する。 ラベル付きトレーニングデータの制限に対処するため,教師なしで事前学習可能なオートエンコーダベースのマルチバンドWi-Fi融合ネットワークを提案する。 オートエンコーダをベースとした核融合ネットワークが事前訓練されると、融合ブロックを微調整し、マルチタスクヘッドをスクラッチから再トレーニングすることで、デコーダを分離し、融合特徴マップにマルチタスクセンシングヘッドを付加する。 マルチバンドWi-Fi融合フレームワークは,3つのタスクにまたがる社内実験Wi-Fiセンシングデータセットによって,徹底的に検証されている。 1) 認識のポーズ 2 占有者センシング、及び 3)屋内局在化。 CSI-only, beam SNR-only, input fusion, feature fusionの4つのベースライン法と比較して、粒度マッチングはマルチタスクセンシング性能を向上させる。 量的性能は、ラベル付きトレーニングデータ数、潜在空間次元、微調整学習率の関数として評価される。

Complementary to the fine-grained channel state information (CSI) from the physical layer and coarse-grained received signal strength indicator (RSSI) measurements, the mid-grained spatial beam attributes (e.g., beam SNR) that are available at millimeter-wave (mmWave) bands during the mandatory beam training phase can be repurposed for Wi-Fi sensing applications. In this paper, we propose a multi-band Wi-Fi fusion method for Wi-Fi sensing that hierarchically fuses the features from both the fine-grained CSI at sub-6 GHz and the mid-grained beam SNR at 60 GHz in a granularity matching framework. The granularity matching is realized by pairing two feature maps from the CSI and beam SNR at different granularity levels and linearly combining all paired feature maps into a fused feature map with learnable weights. To further address the issue of limited labeled training data, we propose an autoencoder-based multi-band Wi-Fi fusion network that can be pre-trained in an unsupervised fashion. Once the autoencoder-based fusion network is pre-trained, we detach the decoders and append multi-task sensing heads to the fused feature map by fine-tuning the fusion block and re-training the multi-task heads from the scratch. The multi-band Wi-Fi fusion framework is thoroughly validated by in-house experimental Wi-Fi sensing datasets spanning three tasks: 1) pose recognition; 2) occupancy sensing; and 3) indoor localization. Comparison to four baseline methods (i.e., CSI-only, beam SNR-only, input fusion, and feature fusion) demonstrates the granularity matching improves the multi-task sensing performance. Quantitative performance is evaluated as a function of the number of labeled training data, latent space dimension, and fine-tuning learning rates.
翻訳日:2021-12-30 16:22:35 公開日:2021-12-28
# HiKonv:bit-wise Management and Computationによる高スループット量子化コンボリューション

HiKonv: High Throughput Quantized Convolution With Novel Bit-wise Management and Computation ( http://arxiv.org/abs/2112.13972v1 )

ライセンス: Link先を確認
Xinheng Liu, Yao Chen, Prakhar Ganesh, Junhao Pan, Jinjun Xiong, Deming Chen(参考訳) 畳み込みニューラルネットワーク(CNN)の量子化は、低ビット幅のデータ入力による計算とストレージのコスト削減を意図して、大きな進歩を見せている。 しかし、CPUやDSPのような既存の全ビット幅処理ユニットがよりうまく利用でき、様々な量子化ビット幅での畳み込みの計算スループットを大幅に向上させることができるという体系的な研究はない。 本研究では,与えられた処理ユニットの計算スループットを最大化し,低ビット幅量子化データ入力を新しいビット単位並列計算で処理する統一解であるhikonvを提案する。 我々は,高並列化低ビット幅畳み込みのためのフルビット幅乗算器を用いた理論的性能境界を確立し,この臨界領域における高性能コンピューティングの新しいブレークスルーを示す。 例えば、1つの32ビット処理ユニットは1つのCPU命令で128のバイナリ化された畳み込み演算(多重化と加算)を配信でき、1つの27x18 DSPコアは1サイクルで4ビット入力を持つ8つの畳み込み演算を配信できる。 畳み込み層と完全DNNモデルの両方において、CPUおよびFPGA上でのHiKonvの有効性を示す。 4ビットに量子化された畳み込み層では、HiKonvはCPU上でC++を使用するベースライン実装よりも3.17倍のレイテンシ向上を実現している。 FPGAのDAC-SDC 2020チャンピオンモデルと比較して、HiKonvは2.37倍のスループット向上と2.61倍のDSP効率向上を実現している。

Quantization for Convolutional Neural Network (CNN) has shown significant progress with the intention of reducing the cost of computation and storage with low-bitwidth data inputs. There are, however, no systematic studies on how an existing full-bitwidth processing unit, such as CPUs and DSPs, can be better utilized to carry out significantly higher computation throughput for convolution under various quantized bitwidths. In this study, we propose HiKonv, a unified solution that maximizes the compute throughput of a given underlying processing unit to process low-bitwidth quantized data inputs through novel bit-wise parallel computation. We establish theoretical performance bounds using a full-bitwidth multiplier for highly parallelized low-bitwidth convolution, and demonstrate new breakthroughs for high-performance computing in this critical domain. For example, a single 32-bit processing unit can deliver 128 binarized convolution operations (multiplications and additions) under one CPU instruction, and a single 27x18 DSP core can deliver eight convolution operations with 4-bit inputs in one cycle. We demonstrate the effectiveness of HiKonv on CPU and FPGA for both convolutional layers or a complete DNN model. For a convolutional layer quantized to 4-bit, HiKonv achieves a 3.17x latency improvement over the baseline implementation using C++ on CPU. Compared to the DAC-SDC 2020 champion model for FPGA, HiKonv achieves a 2.37x throughput improvement and 2.61x DSP efficiency improvement, respectively.
翻訳日:2021-12-30 16:13:34 公開日:2021-12-28
# 星形成史の拘束のための教師なしドメイン適応

Unsupervised Domain Adaptation for Constraining Star Formation Histories ( http://arxiv.org/abs/2112.14072v1 )

ライセンス: Link先を確認
Sankalp Gilda, Antoine de Mathelin, Sabine Bellstedt and Guillaume Richard(参考訳) 今日の機械学習の一般的なパラダイムは、過去の観測を使って将来の観測を予測することである。 しかし、もし私たちが過去を知ることに興味があるとしたら? この状況は、天文学者がしばしば争わなければならないものである。 我々の宇宙の形成を理解するためには、銀河の可視質量の時間発展を導出しなければならない。 しかし、完全な恒星の寿命を観察するには、10億年待つ必要がある。 この困難を克服するために、天体物理学者はスーパーコンピュータを活用し、宇宙の現在の時代まで銀河のシミュレーションモデルを進化させ、観測された放射と星形成史(SFH)のマッピングを確立する。 このような地道なSFHは実際の銀河観測に欠如しており、ベイジアンフィッティング法を用いてスペクトルエネルギー分布(SED)から、しばしば不確かさで推測される。 本研究では、観測データに適用可能な技術を開発する上で必要な第一歩として、シミュレーションデータを用いた銀河の正確なSFHを導出するための教師なし領域適応の可能性について議論する。

The prevalent paradigm of machine learning today is to use past observations to predict future ones. What if, however, we are interested in knowing the past given the present? This situation is indeed one that astronomers must contend with often. To understand the formation of our universe, we must derive the time evolution of the visible mass content of galaxies. However, to observe a complete star life, one would need to wait for one billion years! To overcome this difficulty, astrophysicists leverage supercomputers and evolve simulated models of galaxies till the current age of the universe, thus establishing a mapping between observed radiation and star formation histories (SFHs). Such ground-truth SFHs are lacking for actual galaxy observations, where they are usually inferred -- with often poor confidence -- from spectral energy distributions (SEDs) using Bayesian fitting methods. In this investigation, we discuss the ability of unsupervised domain adaptation to derive accurate SFHs for galaxies with simulated data as a necessary first step in developing a technique that can ultimately be applied to observational data.
翻訳日:2021-12-30 16:13:08 公開日:2021-12-28
# 衛星地上車両ネットワークのランダム幾何理論に基づくロバストセキュリティ解析

Robust Security Analysis Based on Random Geometry Theory for Satellite-Terrestrial-Vehicle Network ( http://arxiv.org/abs/2112.14192v1 )

ライセンス: Link先を確認
Xudong Li, Ye Fan, Rugui Yao, Peng Wang, Nan Qi, Xiaoya Zuo(参考訳) b5gと6g技術によって駆動されるマルチネットワーク融合は、将来の通信にとって不可欠の傾向である。 本稿では,stdt ( \emph{satellite-terrestrial downlink transmission}) のsp (enmph{security performance}) に着目し,解析する。 ここでSTDTは、衛星ネットワークと、正統な移動受信機と移動盗聴器を配する車両ネットワークとから構成される。 このシステムのSPを移動端末の観点から理論的に解析するために、衛星の1つのビームに両地球車両が確率的に分布していると仮定するランダム幾何理論を採用する。 さらに、この理論に基づいて、STDTにおける2つの重要な指標と特定指標に対する閉形式解析式をそれぞれ、秘密の停止確率とエルゴードの機密容量を導出する。 さらに、STDTのSPを制限するいくつかの関連する変数について論じ、SPを強化するための特定のスキームを示す。 そして、高信号対雑音比シナリオにおいて漸近特性を調査し、正確かつ漸近的な閉形式表現を与える。 シミュレーションの結果, stdtの信頼性を保証する前提条件下において, 漸近解は, 有効性が有意に高い精度を示すことがわかった。

Driven by B5G and 6G technologies, multi-network fusion is an indispensable tendency for future communications. In this paper, we focus on and analyze the \emph{security performance} (SP) of the \emph{satellite-terrestrial downlink transmission} (STDT). Here, the STDT is composed of a satellite network and a vehicular network with a legitimate mobile receiver and an mobile eavesdropper distributing. To theoretically analyze the SP of this system from the perspective of mobile terminals better, the random geometry theory is adopted, which assumes that both terrestrial vehicles are distributed stochastically in one beam of the satellite. Furthermore, based on this theory, the closed-form analytical expressions for two crucial and specific indicators in the STDT are derived, respectively, the secrecy outage probability and the ergodic secrecy capacity. Additionally, several related variables restricting the SP of the STDT are discussed, and specific schemes are presented to enhance the SP. Then, the asymptotic property is investigated in the high signal-to-noise ratio scenario, and accurate and asymptotic closed-form expressions are given. Finally, simulation results show that, under the precondition of guaranteeing the reliability of the STDT, the asymptotic solutions outperform the corresponding accurate results significantly in the effectiveness.
翻訳日:2021-12-30 16:12:01 公開日:2021-12-28
# 視覚に基づく水中ロボットにおける物体分類のための音源圧縮

Source Feature Compression for Object Classification in Vision-Based Underwater Robotics ( http://arxiv.org/abs/2112.13953v1 )

ライセンス: Link先を確認
Xueyuan Zhao, Mehdi Rahmati, Dario Pompili(参考訳) 水中ロボットにおける畳み込みニューラルネットワーク(CNN)に基づく物体分類のための2段階WHT(Walsh-Hadamard Transform)に基づく,効率的な特徴圧縮ソリューションを提案する。 対象画像は、まず2段階のプロセスに従ってwhtによって変換される。 変換領域テンソルは、rgbチャネルの行列の左上隅に集中する大きな値を持つ。 この性質を観察することにより、変換領域行列は内および外領域に分割される。 そこで本研究では, 2つの新しい分割手法を提案する。 (i)内外領域の大きさを固定すること。 (ii)画像ごとに内外領域の大きさを適応的に調整すること。 提案は、アメリカ合衆国ニュージャージー州のラリタン川(raritan river)から取得した水中オブジェクトデータセットを用いて評価される。 提案手法は,学習に基づく水中物体分類タスクにおいて,効果的にトレーニング時間を短縮し,競合手法と比較して精度を向上することを示す。 物体分類は、環境を感知し自律的にナビゲートできる視覚ベースの水中ロボットの重要な部分である。 そこで,提案手法は水中ロボット工学の効率的なコンピュータビジョンに基づくタスクに適している。

New efficient source feature compression solutions are proposed based on a two-stage Walsh-Hadamard Transform (WHT) for Convolutional Neural Network (CNN)-based object classification in underwater robotics. The object images are firstly transformed by WHT following a two-stage process. The transform-domain tensors have large values concentrated in the upper left corner of the matrices in the RGB channels. By observing this property, the transform-domain matrix is partitioned into inner and outer regions. Consequently, two novel partitioning methods are proposed in this work: (i) fixing the size of inner and outer regions; and (ii) adjusting the size of inner and outer regions adaptively per image. The proposals are evaluated with an underwater object dataset captured from the Raritan River in New Jersey, USA. It is demonstrated and verified that the proposals reduce the training time effectively for learning-based underwater object classification task and increase the accuracy compared with the competing methods. The object classification is an essential part of a vision-based underwater robot that can sense the environment and navigate autonomously. Therefore, the proposed method is well-suited for efficient computer vision-based tasks in underwater robotics applications.
翻訳日:2021-12-30 16:09:40 公開日:2021-12-28
# カラービデオにおける背景モデリングのための四元系動的モード分解

Quaternion-based dynamic mode decomposition for background modeling in color videos ( http://arxiv.org/abs/2112.13982v1 )

ライセンス: Link先を確認
Juan Han, Kit Ian Kou, Jifei Miao(参考訳) 背景初期化(SBI)はコンピュータビジョンにおいて難しい問題の一つである。 動的モード分解(DMD)は,映像列を背景モデルと対応する前景部に頑健に分解する手法である。 しかし,この方法では,カラー画像をグレースケール画像に変換する必要があるため,カラー画像の3つのチャネル間の結合情報が無視される。 本研究では,色画像とカラービデオの固有色構造を完全に保存するために,四元行列解析によりDMDを拡張する四元行列ベースのDMD(Q-DMD)を提案する。 四元数行列の標準固有値を用いてスペクトル分解を計算し、対応するQ-DMDモードと固有値を算出する。 公開されているベンチマークデータセットの結果から、我々のQ-DMDは正確なDMD法よりも優れており、実験結果からも、我々のアプローチの性能は最先端のものと同等であることが示された。

Scene Background Initialization (SBI) is one of the challenging problems in computer vision. Dynamic mode decomposition (DMD) is a recently proposed method to robustly decompose a video sequence into the background model and the corresponding foreground part. However, this method needs to convert the color image into the grayscale image for processing, which leads to the neglect of the coupling information between the three channels of the color image. In this study, we propose a quaternion-based DMD (Q-DMD), which extends the DMD by quaternion matrix analysis, so as to completely preserve the inherent color structure of the color image and the color video. We exploit the standard eigenvalues of the quaternion matrix to compute its spectral decomposition and calculate the corresponding Q-DMD modes and eigenvalues. The results on the publicly available benchmark datasets prove that our Q-DMD outperforms the exact DMD method, and experiment results also demonstrate that the performance of our approach is comparable to that of the state-of-the-art ones.
翻訳日:2021-12-30 16:09:27 公開日:2021-12-28
# 精密農業における深層cnn型マルチクラスマルチキャノピー雑草制御

Deep-CNN based Robotic Multi-Class Under-Canopy Weed Control in Precision Farming ( http://arxiv.org/abs/2112.13986v1 )

ライセンス: Link先を確認
Yayun Du, Guofeng Zhang, Darren Tsang, M. Khalid Jawed(参考訳) 植物特有の操作を行うスマート雑草システムは、農業と環境の持続可能性に寄与する。 近年、精密雑草管理のための自律型ロボット技術が目覚ましい進歩を遂げているにもかかわらず、畑での雑草の根底研究はまだ実現されていない。 このようなシステムの前提条件は、誤った散布を避けるために雑草の信頼性の高い検出と分類であり、周囲の植物を損傷させる。 リアルタイム多種雑草同定は雑草の種特異的な処理を可能にし、除草剤の使用量を大幅に削減する。 最初のコントリビューションは、最初の適切な大きさのリアルな画像データセット \textit{AIWeeds} (1/複数種類の雑草)、約10,000枚の注釈画像からなるライブラリ、そしてノースダコタ州、カリフォルニア州、中国中部の20の異なる場所から採集された畑や庭園における14の一般的な雑草である。 第2に,モデルトレーニングから最大効率までの全パイプラインを,tensorrt最適化モデルを単一ボードコンピュータにデプロイする。 5つのベンチマークCNNモデルを用いて, <textit{AIWeeds} とパイプラインに基づいて分類性能のベースラインを示す。 中でも、MobileNetV2は、最も短い推論時間と低いメモリ消費の両方を持ち、リアルタイムアプリケーションに適格な候補である。 最後に,MobileNetV2を自作の小型自律ロボット \textit{SAMBot} にデプロイし,リアルタイム雑草検出を行う。 農作物や雑草、歪曲、ぼやき、影のあるフラックスフィールド(0.2-0.3mの間隔)で、これまで目にしなかったシーンで達成された90\%の試験精度は、現実世界の精密雑草制御へのマイルストーンである。 結果は \url{https://github.com/structurescomp/multi-class-weed-classification} で生成される。

Smart weeding systems to perform plant-specific operations can contribute to the sustainability of agriculture and the environment. Despite monumental advances in autonomous robotic technologies for precision weed management in recent years, work on under-canopy weeding in fields is yet to be realized. A prerequisite of such systems is reliable detection and classification of weeds to avoid mistakenly spraying and, thus, damaging the surrounding plants. Real-time multi-class weed identification enables species-specific treatment of weeds and significantly reduces the amount of herbicide use. Here, our first contribution is the first adequately large realistic image dataset \textit{AIWeeds} (one/multiple kinds of weeds in one image), a library of about 10,000 annotated images of flax, and the 14 most common weeds in fields and gardens taken from 20 different locations in North Dakota, California, and Central China. Second, we provide a full pipeline from model training with maximum efficiency to deploying the TensorRT-optimized model onto a single board computer. Based on \textit{AIWeeds} and the pipeline, we present a baseline for classification performance using five benchmark CNN models. Among them, MobileNetV2, with both the shortest inference time and lowest memory consumption, is the qualified candidate for real-time applications. Finally, we deploy MobileNetV2 onto our own compact autonomous robot \textit{SAMBot} for real-time weed detection. The 90\% test accuracy realized in previously unseen scenes in flax fields (with a row spacing of 0.2-0.3 m), with crops and weeds, distortion, blur, and shadows, is a milestone towards precision weed control in the real world. We have publicly released the dataset and code to generate the results at \url{https://github.com/StructuresComp/Multi-class-Weed-Classification}.
翻訳日:2021-12-30 16:09:10 公開日:2021-12-28
# RAW画像を用いた低照度化に向けて

Towards Low Light Enhancement with RAW Images ( http://arxiv.org/abs/2112.14022v1 )

ライセンス: Link先を確認
Haofeng Huang, Wenhan Yang, Yueyu Hu, Jiaying Liu and Ling-Yu Duan(参考訳) 本稿では、RAW画像の低照度化における優位性に関する最初のベンチマークを行い、RAW画像をより柔軟かつ実用的な方法で活用するための新しい代替手段を開発する。 一般的な画像処理パイプラインに関する完全な考察に触発されて,生画像の特性を測定可能な要素に分解し,生画像の特性が経験的に向上性能に与える影響を調べるためのツールとして,新たな評価フレームワークであるfactorized enhancement model(fem)の開発に着想を得た。 実験的なベンチマークの結果、メタデータに記録されたデータの線形性と露出時間が最も重要であり、sRGBイメージを入力として扱うアプローチに対する様々な評価において、顕著なパフォーマンス向上をもたらすことが示された。 ベンチマーク結果から得られた知見を念頭に,RAW誘導露光促進ネットワーク(REENet)を開発し,RAW画像の学習段階にのみRAW画像を使用することにより,実アプリケーションにおけるRAW画像の利点と到達不能性をトレードオフする。 REENetは、SRGBイメージを線形RAWドメインにプロジェクトし、対応するRAWイメージに制約を適用し、モデリングの難しさを軽減する。 その後、テストフェーズでは、REENetはRAWイメージに依存しません。 実験結果から, REENetの最先端sRGB法に対する優位性だけでなく, RAWガイダンスと全コンポーネントの有効性が示された。

In this paper, we make the first benchmark effort to elaborate on the superiority of using RAW images in the low light enhancement and develop a novel alternative route to utilize RAW images in a more flexible and practical way. Inspired by a full consideration on the typical image processing pipeline, we are inspired to develop a new evaluation framework, Factorized Enhancement Model (FEM), which decomposes the properties of RAW images into measurable factors and provides a tool for exploring how properties of RAW images affect the enhancement performance empirically. The empirical benchmark results show that the Linearity of data and Exposure Time recorded in meta-data play the most critical role, which brings distinct performance gains in various measures over the approaches taking the sRGB images as input. With the insights obtained from the benchmark results in mind, a RAW-guiding Exposure Enhancement Network (REENet) is developed, which makes trade-offs between the advantages and inaccessibility of RAW images in real applications in a way of using RAW images only in the training phase. REENet projects sRGB images into linear RAW domains to apply constraints with corresponding RAW images to reduce the difficulty of modeling training. After that, in the testing phase, our REENet does not rely on RAW images. Experimental results demonstrate not only the superiority of REENet to state-of-the-art sRGB-based methods and but also the effectiveness of the RAW guidance and all components.
翻訳日:2021-12-30 16:08:34 公開日:2021-12-28
# secp-net:鼻咽頭癌に対するリスクセグメンテーションにおけるse-connection pyramid network

SECP-Net: SE-Connection Pyramid Network of Organ At Risk Segmentation for Nasopharyngeal Carcinoma ( http://arxiv.org/abs/2112.14026v1 )

ライセンス: Link先を確認
Zexi Huang (1), Lihua Guo (1), Xin Yang (2), Sijuan Huang (2) ((1) School of Electronic and Information Engineering, South China University of Technology, (2) Sun Yat-sen University Cancer Center)(参考訳) 鼻咽頭癌(NPC)は悪性腫瘍の一種である。 CT画像の危険臓器(OAR)の正確な自動分割は臨床的に重要である。 近年,u-netに代表される深層学習モデルが医用画像分割タスクに広く適用され,医師の作業負荷削減と精度向上に寄与している。 NPCのOARセグメンテーションでは、OARのサイズは可変であり、特にそのいくつかは小さい。 従来のディープニューラルネットワークは、グローバルおよびマルチサイズ情報の使用が欠如しているため、セグメンテーション時に性能が低下する。 本稿では,SE-Connection Pyramid Network (SECP-Net)を提案する。 secp-netはse接続(sec)モジュールによるグローバルおよびマルチサイズの情報フローとネットワークのピラミッド構造を抽出し、特に小器官のセグメンテーション性能を向上させる。 SECP-Netはセグメンテーション性能をさらに向上させるために自動コンテキストカスケードネットワークも設計した。 頭頸部CT画像を用いたデータセットにおけるSECP-Netと最近の他の手法の比較実験を行った。 5倍のクロス検証は、diceとjaccardの類似性という2つのメトリクスに基づいてパフォーマンスを評価するために使用される。 実験の結果,SECP-Netはこの課題に対してSOTAの性能を達成できることがわかった。

Nasopharyngeal carcinoma (NPC) is a kind of malignant tumor. Accurate and automatic segmentation of organs at risk (OAR) of computed tomography (CT) images is clinically significant. In recent years, deep learning models represented by U-Net have been widely applied in medical image segmentation tasks, which can help doctors with reduction of workload and get accurate results more quickly. In OAR segmentation of NPC, the sizes of OAR are variable, especially, some of them are small. Traditional deep neural networks underperform during segmentation due to the lack use of global and multi-size information. This paper proposes a new SE-Connection Pyramid Network (SECP-Net). SECP-Net extracts global and multi-size information flow with se connection (SEC) modules and a pyramid structure of network for improving the segmentation performance, especially that of small organs. SECP-Net also designs an auto-context cascaded network to further improve the segmentation performance. Comparative experiments are conducted between SECP-Net and other recently methods on a dataset with CT images of head and neck. Five-fold cross validation is used to evaluate the performance based on two metrics, i.e., Dice and Jaccard similarity. Experimental results show that SECP-Net can achieve SOTA performance in this challenging task.
翻訳日:2021-12-30 16:08:08 公開日:2021-12-28
# 特徴集合に基づくカスケード型マルチタスク学習フレームワークによる脳腫瘍の分類

Brain Tumor Classification by Cascaded Multiscale Multitask Learning Framework Based on Feature Aggregation ( http://arxiv.org/abs/2112.14320v1 )

ライセンス: Link先を確認
Zahra Sobhaninia, Nader Karimi, Pejman Khadivi, Shadrokh Samavi(参考訳) MRI画像における脳腫瘍解析は、誤診が死につながる可能性があるため、重要かつ困難な問題である。 脳腫瘍の早期診断と評価は、治療の成功の可能性を高める。 しかし、腫瘍、形状、位置の複雑さと多様性は、その区分と分類を複雑にする。 この観点から、多くの研究者が脳腫瘍の分類と分類法を提案している。 本稿では、MRI画像の強調と腫瘍領域の検出を含むフレームワークを用いて、MRI画像中の脳腫瘍を同時に分類する手法を提案する。 最終的に,マルチタスク学習手法に基づくネットワークを提案する。 主観的・客観的な結果から,評価指標に基づくセグメンテーションと分類の結果は,最先端と同等であった。

Brain tumor analysis in MRI images is a significant and challenging issue because misdiagnosis can lead to death. Diagnosis and evaluation of brain tumors in the early stages increase the probability of successful treatment. However, the complexity and variety of tumors, shapes, and locations make their segmentation and classification complex. In this regard, numerous researchers have proposed brain tumor segmentation and classification methods. This paper presents an approach that simultaneously segments and classifies brain tumors in MRI images using a framework that contains MRI image enhancement and tumor region detection. Eventually, a network based on a multitask learning approach is proposed. Subjective and objective results indicate that the segmentation and classification results based on evaluation metrics are better or comparable to the state-of-the-art.
翻訳日:2021-12-30 16:07:48 公開日:2021-12-28
# das:偏微分方程式を解くための深適応サンプリング法

DAS: A deep adaptive sampling method for solving partial differential equations ( http://arxiv.org/abs/2112.14038v1 )

ライセンス: Link先を確認
Kejun Tang, Xiaoliang Wan, Chao Yang(参考訳) 本研究では、偏微分方程式(PDE)を解くための深部適応サンプリング法を提案し、深部ニューラルネットワークを用いてPDEの解を近似し、深部生成モデルを用いてトレーニングセットを洗練するための新たなコロケーションポイントを生成する。 DASの全体的な手順は、トレーニングセット内のコロケーションポイントの残留損失を最小限に抑え、現在の近似解の精度をさらに向上させる新しいトレーニングセットを生成することにより、PDEを解く2つのコンポーネントから構成される。 特に、残差を確率密度関数として扱い、KRnetと呼ばれる深い生成モデルで近似する。 KRnetの新しいサンプルは、残留物によって誘導される分布と一致している、すなわち、多くのサンプルが大きな残留物領域にあり、少ないサンプルが小さな残留物領域にある。 適応有限要素のような古典的な適応法と類似して、KRnetはトレーニングセットの洗練を導くエラー指標として機能する。 均一に分散したコロケーション点を用いたニューラルネットワーク近似と比較して,開発したアルゴリズムは,特に低正則性や高次元問題において,精度を大幅に向上させることができる。 本稿では,提案手法が誤差境界を低減できることを示すための理論的解析を行い,数値実験によりその効果を示す。

In this work we propose a deep adaptive sampling (DAS) method for solving partial differential equations (PDEs), where deep neural networks are utilized to approximate the solutions of PDEs and deep generative models are employed to generate new collocation points that refine the training set. The overall procedure of DAS consists of two components: solving the PDEs by minimizing the residual loss on the collocation points in the training set and generating a new training set to further improve the accuracy of current approximate solution. In particular, we treat the residual as a probability density function and approximate it with a deep generative model, called KRnet. The new samples from KRnet are consistent with the distribution induced by the residual, i.e., more samples are located in the region of large residual and less samples are located in the region of small residual. Analogous to classical adaptive methods such as the adaptive finite element, KRnet acts as an error indicator that guides the refinement of the training set. Compared to the neural network approximation obtained with uniformly distributed collocation points, the developed algorithms can significantly improve the accuracy, especially for low regularity and high-dimensional problems. We present a theoretical analysis to show that the proposed DAS method can reduce the error bound and demonstrate its effectiveness with numerical experiments.
翻訳日:2021-12-30 16:06:57 公開日:2021-12-28
# 無線干渉管理モデルを効果的に学ぶには、どうすればよいのか?

To Supervise or Not: How to Effectively Learn Wireless Interference Management Models? ( http://arxiv.org/abs/2112.14011v1 )

ライセンス: Link先を確認
Bingqing Song, Haoran Sun, Wenqiang Pu, Sijia Liu, and Mingyi Hong(参考訳) 機械学習は、無線干渉管理問題の解決に成功している。 異なる種類のディープニューラルネットワーク(dnn)が、電力制御、ビームフォーミング、インシデント制御などの重要なタスクを達成するために訓練されている。 DNNベースの干渉管理モデルには、教師付き学習(最適化アルゴリズムによって生成されたラベルを適合させる)と教師なし学習(システムパフォーマンスの指標を直接最適化する)の2つの一般的な訓練パラダイムがある。 これらのパラダイムはいずれも実践的に広く適用されているが、これらの手法に関する理論的理解が欠如しているため、その性能を体系的に理解し比較する方法は明確ではない。 本研究は,これらの2つの学習パラダイムを深く理解するために,理論的研究を行う。 まず、いくつかの特別な電力制御問題に対して、教師なし学習は教師なし学習よりもずっと悪い結果をもたらすという、少々意外な結果を示す。 次に、2つのアプローチの特性をさらに理解するために、一連の理論的結果を提供する。 一般に、高品質なラベルが利用可能である場合、教師なし学習は教師なし学習よりもソリューションに留まる可能性が低いことを示す。 さらに,これらの2つの学習パラダイムを適切に統合し,限られた数のラベルを有効活用し,高品質な学習手法を提案する。 我々の知る限り、これらは学習に基づく無線通信システム設計における異なるトレーニングアプローチを理解するための最初の理論的結果である。

Machine learning has become successful in solving wireless interference management problems. Different kinds of deep neural networks (DNNs) have been trained to accomplish key tasks such as power control, beamforming and admission control. There are two popular training paradigms for such DNNs-based interference management models: supervised learning (i.e., fitting labels generated by an optimization algorithm) and unsupervised learning (i.e., directly optimizing some system performance measure). Although both of these paradigms have been extensively applied in practice, due to the lack of any theoretical understanding about these methods, it is not clear how to systematically understand and compare their performance. In this work, we conduct theoretical studies to provide some in-depth understanding about these two training paradigms. First, we show a somewhat surprising result, that for some special power control problem, the unsupervised learning can perform much worse than its supervised counterpart, because it is more likely to stuck at some low-quality local solutions. We then provide a series of theoretical results to further understand the properties of the two approaches. Generally speaking, we show that when high-quality labels are available, then the supervised learning is less likely to be stuck at a solution than its unsupervised counterpart. Additionally, we develop a semi-supervised learning approach which properly integrates these two training paradigms, and can effectively utilize limited number of labels to find high-quality solutions. To our knowledge, these are the first set of theoretical results trying to understand different training approaches in learning-based wireless communication system design.
翻訳日:2021-12-30 16:06:03 公開日:2021-12-28
# 自然言語処理におけるジェンダーバイアスに関する調査

A Survey on Gender Bias in Natural Language Processing ( http://arxiv.org/abs/2112.14168v1 )

ライセンス: Link先を確認
Karolina Stanczak, Isabelle Augenstein(参考訳) 言語は有害なステレオタイプやバイアスを再現・強制する手段として使用することができ、多くの研究で分析されている。 本稿では,自然言語処理におけるジェンダーバイアスに関する304論文について調査する。 社会科学におけるジェンダーとそのカテゴリーの定義を分析し,nlp研究におけるジェンダーバイアスの形式的定義と結びつける。 ジェンダーバイアスの研究に応用されたレキシカとデータセットを調査し、ジェンダーバイアスの検出と緩和のためのコントラストアプローチを比較した。 性別偏見の研究は4つの限界に悩まされている。 1)ほとんどの研究は, ジェンダーを流動性と連続性を無視した二変数変数として扱う。 2) ほとんどの作業は英語や他の高資源言語に対して単言語で実施されている。 3) NLP法における性別バイアスに関する論文は無数にあるが, 新たに開発されたアルゴリズムのほとんどは, 偏見のモデルを試さず, 倫理的考察を無視している。 4) 最後に, この研究で開発された手法は, 男女差の非常に限定的な定義と, 評価基準とパイプラインの欠如に根本的な欠陥がある。 今後の研究の指針として,これらの制限を克服するための勧告を提案する。

Language can be used as a means of reproducing and enforcing harmful stereotypes and biases and has been analysed as such in numerous research. In this paper, we present a survey of 304 papers on gender bias in natural language processing. We analyse definitions of gender and its categories within social sciences and connect them to formal definitions of gender bias in NLP research. We survey lexica and datasets applied in research on gender bias and then compare and contrast approaches to detecting and mitigating gender bias. We find that research on gender bias suffers from four core limitations. 1) Most research treats gender as a binary variable neglecting its fluidity and continuity. 2) Most of the work has been conducted in monolingual setups for English or other high-resource languages. 3) Despite a myriad of papers on gender bias in NLP methods, we find that most of the newly developed algorithms do not test their models for bias and disregard possible ethical considerations of their work. 4) Finally, methodologies developed in this line of research are fundamentally flawed covering very limited definitions of gender bias and lacking evaluation baselines and pipelines. We suggest recommendations towards overcoming these limitations as a guide for future research.
翻訳日:2021-12-30 15:48:08 公開日:2021-12-28
# 時空正規化フローによるFokker-Planck方程式の解時間依存性

Solving time dependent Fokker-Planck equations via temporal normalizing flow ( http://arxiv.org/abs/2112.14012v1 )

ライセンス: Link先を確認
Xiaodong Feng, Li Zeng, Tao Zhou(参考訳) 本研究では,時間依存型Fokker-Planck(TFP)方程式を解くための時間正規化フローに基づく適応学習手法を提案する。 このような方程式の解が確率密度関数であることはよく知られており、本手法は時間正規化フローを用いて対象解をモデル化することに依存する。 時間正規化フローは、ラベル付きデータを必要としないTFP損失関数に基づいて訓練される。 機械学習スキームとして,提案手法はメッシュフリーであり,高次元問題に容易に適用できる。 学習アプローチの有効性を示すために,様々なテスト問題を提案する。

In this work, we propose an adaptive learning approach based on temporal normalizing flows for solving time-dependent Fokker-Planck (TFP) equations. It is well known that solutions of such equations are probability density functions, and thus our approach relies on modelling the target solutions with the temporal normalizing flows. The temporal normalizing flow is then trained based on the TFP loss function, without requiring any labeled data. Being a machine learning scheme, the proposed approach is mesh-free and can be easily applied to high dimensional problems. We present a variety of test problems to show the effectiveness of the learning approach.
翻訳日:2021-12-30 15:46:37 公開日:2021-12-28
# ラベルワイズクラスタリングによるフェデレーション学習におけるロバスト収束

Robust Convergence in Federated Learning through Label-wise Clustering ( http://arxiv.org/abs/2112.14244v1 )

ライセンス: Link先を確認
Hunmin Lee, Yueyang Liu, Donghyun Kim, Yingshu Li(参考訳) 非IIDデータセットとローカルクライアントの異種環境は、フェデレートラーニング(FL)における主要な問題と見なされ、良好な性能を得ることなく収束の低下を引き起こす。 本稿では,均等に分散したクラスラベルに近似したデータセットでトレーニングされたローカルモデルのみを選択し,その損失の最小化とflネットワーク間の精度の増大を図ることにより,地理的に分散した異種ローカルクライアント間のトレーサビリティを保証する新しいラベル毎クラスタリングアルゴリズムを提案する。 提案する6つの非iidシナリオを実験した結果,vanilla fl 集約モデルでは偏りのある事前学習された局所モデルを生成し,局所的な重みをドリフトして,最悪の場合のトレーニング可能性の誤解を生じさせることができないことがわかった。 さらに,学習前のローカルモデルの性能を定量的に評価し,最適なクライアントを選択するためのグローバルサーバを提供し,計算コストを削減した。 このような非iid状況において、非コンバージェンスの解消を達成するために、我々は、グローバルトレーニングが継続するにつれて、システム全体の迅速な収束を達成するために、システムの多様性とソートを実現したローカル入力クラスラベルに基づくクラスタリングアルゴリズムを設計する。 提案手法は, 局所学習データセットが非IIDである場合や, IID と共存している場合と比較して, 高速で頑健な収束性を示す。

Non-IID dataset and heterogeneous environment of the local clients are regarded as a major issue in Federated Learning (FL), causing a downturn in the convergence without achieving satisfactory performance. In this paper, we propose a novel Label-wise clustering algorithm that guarantees the trainability among geographically dispersed heterogeneous local clients, by selecting only the local models trained with a dataset that approximates into uniformly distributed class labels, which is likely to obtain faster minimization of the loss and increment the accuracy among the FL network. Through conducting experiments on the suggested six common non-IID scenarios, we empirically show that the vanilla FL aggregation model is incapable of gaining robust convergence generating biased pre-trained local models and drifting the local weights to mislead the trainability in the worst case. Moreover, we quantitatively estimate the expected performance of the local models before training, which offers a global server to select the optimal clients, saving additional computational costs. Ultimately, in order to gain resolution of the non-convergence in such non-IID situations, we design clustering algorithms based on local input class labels, accommodating the diversity and assorting clients that could lead the overall system to attain the swift convergence as global training continues. Our paper shows that proposed Label-wise clustering demonstrates prompt and robust convergence compared to other FL algorithms when local training datasets are non-IID or coexist with IID through multiple experiments.
翻訳日:2021-12-30 15:37:57 公開日:2021-12-28
# ロバスト統計による高次元帯域幅の学習

Learning Across Bandits in High Dimension via Robust Statistics ( http://arxiv.org/abs/2112.14233v1 )

ライセンス: Link先を確認
Kan Xu, Hamsa Bastani(参考訳) 意思決定者はしばしば「多くの盗賊」問題に直面し、関連するが異質な文脈的盗賊のインスタンスを同時に学ばなければならない。 例えば、大手小売店は、価格や在庫問題を解決するために、多くの店舗で製品需要を動的に学習し、類似の顧客に仕える店舗で共同で学習することが望ましい場合があり、また、病院ネットワークは、パーソナライズされた介入を割り当てるために、多くの業者で患者リスクを動的に学習し、類似の患者集団に仕える病院で共同学習することが望ましい場合もあります。 本稿では,各帯域単位の未知パラメータを大域的パラメータとスパースなインスタンス固有項に分解可能な設定について検討する。 そこで本研究では,ロバストな統計値(類似のインスタンスで学習)とラッソ回帰(結果の偏差)の組み合わせを用いて,この構造をサンプル効率良く活用する新しい二段階推定器を提案する。 この推定器をbanditアルゴリズムに組み込んで、コンテキスト次元$d$の漸近的後悔境界を改善することを証明します。 さらに,バンディットインスタンスの基盤となるネットワーク構造にどのように依存するかを示す。

Decision-makers often face the "many bandits" problem, where one must simultaneously learn across related but heterogeneous contextual bandit instances. For instance, a large retailer may wish to dynamically learn product demand across many stores to solve pricing or inventory problems, making it desirable to learn jointly for stores serving similar customers; alternatively, a hospital network may wish to dynamically learn patient risk across many providers to allocate personalized interventions, making it desirable to learn jointly for hospitals serving similar patient populations. We study the setting where the unknown parameter in each bandit instance can be decomposed into a global parameter plus a sparse instance-specific term. Then, we propose a novel two-stage estimator that exploits this structure in a sample-efficient way by using a combination of robust statistics (to learn across similar instances) and LASSO regression (to debias the results). We embed this estimator within a bandit algorithm, and prove that it improves asymptotic regret bounds in the context dimension $d$; this improvement is exponential for data-poor instances. We further demonstrate how our results depend on the underlying network structure of bandit instances.
翻訳日:2021-12-30 15:36:57 公開日:2021-12-28
# Constrained Gradient Descent: ニューラルネットワークに対する強力で原則的な侵入攻撃

Constrained Gradient Descent: A Powerful and Principled Evasion Attack Against Neural Networks ( http://arxiv.org/abs/2112.14232v1 )

ライセンス: Link先を確認
Weiran Lin, Keane Lucas, Lujo Bauer, Michael K. Reiter and Mahmood Sharif(参考訳) 入力に付加される最小対向摂動は、ディープニューラルネットワークを騙すのに有効であることが示されている。 本稿では,ホワイトボックス攻撃を標的とする攻撃を,攻撃者の目標の直観化に追従させる手法をいくつか紹介する。 まず,対象とする攻撃の目標を明示的に把握する新たな損失関数を提案する。 この損失関数を持つAuto-PGDは、他のよく使われる損失関数よりも多くの逆例を見出すことを示す。 第二に,誤分類目的と距離制限値である$l_{\infty}$の双方をキャプチャするロス関数のさらなる開発版である$\epsilon$を用いる新しい攻撃手法を提案する。 この新しい攻撃方法は、cifar10データセットでは1.5--4.2%成功し、imagenetデータセットでは8.2-14.9%成功している。 統計的テストによって、我々の攻撃が、異なるデータセットと$\epsilon$の値に対する最先端の攻撃よりも優れていることを確認しました。

Minimal adversarial perturbations added to inputs have been shown to be effective at fooling deep neural networks. In this paper, we introduce several innovations that make white-box targeted attacks follow the intuition of the attacker's goal: to trick the model to assign a higher probability to the target class than to any other, while staying within a specified distance from the original input. First, we propose a new loss function that explicitly captures the goal of targeted attacks, in particular, by using the logits of all classes instead of just a subset, as is common. We show that Auto-PGD with this loss function finds more adversarial examples than it does with other commonly used loss functions. Second, we propose a new attack method that uses a further developed version of our loss function capturing both the misclassification objective and the $L_{\infty}$ distance limit $\epsilon$. This new attack method is relatively 1.5--4.2% more successful on the CIFAR10 dataset and relatively 8.2--14.9% more successful on the ImageNet dataset, than the next best state-of-the-art attack. We confirm using statistical tests that our attack outperforms state-of-the-art attacks on different datasets and values of $\epsilon$ and against different defenses.
翻訳日:2021-12-30 15:34:33 公開日:2021-12-28
# プログレッシブ・エンハンスメント・ラーニングによるきめ細かい顔偽造手がかりの活用

Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning ( http://arxiv.org/abs/2112.13977v1 )

ライセンス: Link先を確認
Qiqi Gu, Shen Chen, Taiping Yao, Yang Chen, Shouhong Ding, Ran Yi(参考訳) 顔偽造技術の急速な発展に伴い、偽造検出はセキュリティ上の懸念からますます注目を集めている。 既存のアプローチでは、周波数情報を使って高品質な鍛造顔の下で微妙なアーティファクトを発掘する。 しかし、周波数情報の活用は粗粒度であり、さらに重要なことに、彼らのバニラ学習プロセスは細粒度偽造の痕跡を抽出するのに苦労している。 この問題に対処するために、RGBときめ細かな周波数手がかりの両方を利用するプログレッシブエンハンスメント学習フレームワークを提案する。 具体的には、周波数空間における実と偽のトレースを完全に分離するために、RGB画像のきめ細かい分解を行う。 続いて,自己強化モジュールと相互強化モジュールを組み合わせた2分岐ネットワークに基づく進歩的強化学習フレームワークを提案する。 セルフエンハンスメントモジュールは、空間ノイズの増大とチャネルの注意に基づいて、異なる入力空間におけるトレースをキャプチャする。 相互拡張モジュールは、共有空間次元で通信することで、RGBと周波数特性を同時に強化する。 プログレッシブエンハンスメントプロセスは、きめ細かい顔偽造手がかりを用いて識別特徴の学習を容易にする。 複数のデータセットに対する広範囲な実験により、本手法が最先端の顔偽造検出手法よりも優れていることが判明した。

With the rapid development of facial forgery techniques, forgery detection has attracted more and more attention due to security concerns. Existing approaches attempt to use frequency information to mine subtle artifacts under high-quality forged faces. However, the exploitation of frequency information is coarse-grained, and more importantly, their vanilla learning process struggles to extract fine-grained forgery traces. To address this issue, we propose a progressive enhancement learning framework to exploit both the RGB and fine-grained frequency clues. Specifically, we perform a fine-grained decomposition of RGB images to completely decouple the real and fake traces in the frequency space. Subsequently, we propose a progressive enhancement learning framework based on a two-branch network, combined with self-enhancement and mutual-enhancement modules. The self-enhancement module captures the traces in different input spaces based on spatial noise enhancement and channel attention. The Mutual-enhancement module concurrently enhances RGB and frequency features by communicating in the shared spatial dimension. The progressive enhancement process facilitates the learning of discriminative features with fine-grained face forgery clues. Extensive experiments on several datasets show that our method outperforms the state-of-the-art face forgery detection methods.
翻訳日:2021-12-30 15:28:34 公開日:2021-12-28
# ビデオオブジェクトセグメンテーションのためのインタラクティブトランスを用いたシームズネットワーク

Siamese Network with Interactive Transformer for Video Object Segmentation ( http://arxiv.org/abs/2112.13983v1 )

ライセンス: Link先を確認
Meng Lan, Jing Zhang, Fengxiang He, Lefei Zhang(参考訳) 半教師付きビデオオブジェクトセグメンテーション(英: Semi-supervised video object segmentation, VOS)は、最近研究されている第1フレームにアノテーションを付加した残フレームにおける対象オブジェクトのセグメンテーションを指す。 鍵となる課題は、過去のフレームの時空間的文脈を利用して、現在のフレームの識別的ターゲット表現を学習する効果的な方法を見つけることである。 本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計し,歴史的フレームから現在のフレームへの効果的なコンテキスト伝搬を実現する新しいSiameseネットワークを提案する。 技術的には、トランスフォーマーエンコーダとデコーダを使用して、過去のフレームと現在のフレームを別々に扱う。すなわち、エンコーダは、過去のフレームからターゲットオブジェクトの堅牢な時空間コンテキストを符号化し、デコーダは、現在のフレームの特徴埋め込みをクエリとして取り込んで、エンコーダ出力からターゲットを検索する。 ターゲット表現をさらに強化するため、エンコーダとデコーダ間の情報フローを促進するために、機能相互作用モジュール(FIM)が考案された。 さらに,過去のフレームと現在のフレームの両方のバックボーン特徴を抽出するために,siameseアーキテクチャを採用し,機能再利用を可能にし,既存の手法よりも効率的である。 SITVOSが最先端手法よりも優れていることを示す3つの挑戦的ベンチマーク実験結果を得た。

Semi-supervised video object segmentation (VOS) refers to segmenting the target object in remaining frames given its annotation in the first frame, which has been actively studied in recent years. The key challenge lies in finding effective ways to exploit the spatio-temporal context of past frames to help learn discriminative target representation of current frame. In this paper, we propose a novel Siamese network with a specifically designed interactive transformer, called SITVOS, to enable effective context propagation from historical to current frames. Technically, we use the transformer encoder and decoder to handle the past frames and current frame separately, i.e., the encoder encodes robust spatio-temporal context of target object from the past frames, while the decoder takes the feature embedding of current frame as the query to retrieve the target from the encoder output. To further enhance the target representation, a feature interaction module (FIM) is devised to promote the information flow between the encoder and decoder. Moreover, we employ the Siamese architecture to extract backbone features of both past and current frames, which enables feature reuse and is more efficient than existing methods. Experimental results on three challenging benchmarks validate the superiority of SITVOS over state-of-the-art methods.
翻訳日:2021-12-30 15:28:14 公開日:2021-12-28
# LatteGAN: マルチターンテキスト記述画像操作のためのビジュアルガイド言語アテンション

LatteGAN: Visually Guided Language Attention for Multi-Turn Text-Conditioned Image Manipulation ( http://arxiv.org/abs/2112.13985v1 )

ライセンス: Link先を確認
Shoya Matsumori, Yuki Abe, Kosuke Shingyouchi, Komei Sugiura, and Michita Imai(参考訳) テキスト誘導画像操作タスクは近年,視覚・言語コミュニティで注目を集めている。 先行研究のほとんどはシングルターン操作に重点を置いているが、本稿の目標は、より困難なマルチターン画像操作(mtim)タスクに対処することである。 このタスクの以前のモデルは、命令のシーケンスと予め生成されたイメージを与えられた反復的に画像を生成することに成功しました。 しかし、このアプローチはアンダージェネレーションと命令に記述されたオブジェクトのクオリティが欠如しており、結果として全体的なパフォーマンスが低下する。 これらの問題を解決するために,視覚誘導言語注意GAN (LatteGAN) と呼ばれる新しいアーキテクチャを提案する。 本稿では,ジェネレータ用の細粒度テキスト表現を抽出するVisually Guided Language Attention (Latte)モジュールと,偽画像と実画像のグローバルおよびローカルの両方を識別するText-Conditioned U-Net discriminatorアーキテクチャを導入することで,従来のアプローチの限界に対処する。 CoDrawとi-CLEVRの2つの異なるMTIMデータセットに対する大規模な実験は、提案モデルの最先端性能を実証している。

Text-guided image manipulation tasks have recently gained attention in the vision-and-language community. While most of the prior studies focused on single-turn manipulation, our goal in this paper is to address the more challenging multi-turn image manipulation (MTIM) task. Previous models for this task successfully generate images iteratively, given a sequence of instructions and a previously generated image. However, this approach suffers from under-generation and a lack of generated quality of the objects that are described in the instructions, which consequently degrades the overall performance. To overcome these problems, we present a novel architecture called a Visually Guided Language Attention GAN (LatteGAN). Here, we address the limitations of the previous approaches by introducing a Visually Guided Language Attention (Latte) module, which extracts fine-grained text representations for the generator, and a Text-Conditioned U-Net discriminator architecture, which discriminates both the global and local representations of fake or real images. Extensive experiments on two distinct MTIM datasets, CoDraw and i-CLEVR, demonstrate the state-of-the-art performance of the proposed model.
翻訳日:2021-12-30 15:27:48 公開日:2021-12-28
# 選択的攻撃に基づく連想的対立学習

Associative Adversarial Learning Based on Selective Attack ( http://arxiv.org/abs/2112.13989v1 )

ライセンス: Link先を確認
Runqi Wang, Xiaoyue Duan, Baochang Zhang, Song Xue, Wentao Zhu, David Doermann, Guodong Guo(参考訳) 人間の注意は、これまで見たことのない類似の未破壊画像を思い出すことによって、画像の腐敗した領域に直感的に適応することができる。 この観察は, 清潔なイメージを考慮し, 敵対的イメージの注目度を高める動機づけとなる。 そこで我々は,AAL(Associative Adversarial Learning)を敵対的学習に導入し,選択的攻撃を誘導する。 注意と攻撃(摂動)の本質的な関係を結合最適化問題として定式化し、相互作用を改善する。 これにより、注意の逆追跡アルゴリズムが効果的に注意の対向性を高めることができる。 本手法は汎用的であり,特定の攻撃に対して他の領域を選択するアソシエイトアテンションのために異なるカーネルを選択するだけで,さまざまなタスクに対処することができる。 実験の結果,選択的攻撃によりモデルの性能が向上した。 本手法は,imagenet上での敵意訓練の認識精度をベースラインと比較して8.32%向上させる。 また、PascalVOC上のオブジェクト検出mAPを2.02%向上させ、miniImageNet上での少数ショット学習の認識精度を1.63%向上させた。

A human's attention can intuitively adapt to corrupted areas of an image by recalling a similar uncorrupted image they have previously seen. This observation motivates us to improve the attention of adversarial images by considering their clean counterparts. To accomplish this, we introduce Associative Adversarial Learning (AAL) into adversarial learning to guide a selective attack. We formulate the intrinsic relationship between attention and attack (perturbation) as a coupling optimization problem to improve their interaction. This leads to an attention backtracking algorithm that can effectively enhance the attention's adversarial robustness. Our method is generic and can be used to address a variety of tasks by simply choosing different kernels for the associative attention that select other regions for a specific attack. Experimental results show that the selective attack improves the model's performance. We show that our method improves the recognition accuracy of adversarial training on ImageNet by 8.32% compared with the baseline. It also increases object detection mAP on PascalVOC by 2.02% and recognition accuracy of few-shot learning on miniImageNet by 1.63%.
翻訳日:2021-12-30 15:27:25 公開日:2021-12-28
# guidedmix-net:ラベル付き画像を用いた半教師付き意味セグメンテーション

GuidedMix-Net: Semi-supervised Semantic Segmentation by Using Labeled Images as Reference ( http://arxiv.org/abs/2112.14015v1 )

ライセンス: Link先を確認
Peng Tu, Yawen Huang, Feng Zheng, Zhenyu He, Liujun Cao, Ling Shao(参考訳) 半教師付き学習は限定された例から学習することでモデルを構築することを目的とした難しい問題である。 このタスクの多くの方法は、未ラベルのインスタンス一貫性の予測をネットワークの正規化にのみ活用することに集中している。 しかし、ラベル付きデータとラベルなしデータを別々に扱うと、ラベル付きサンプルから学んだ大量の事前知識が破棄される。 %であり,ラベル付き画像とラベルなし画像の相互作用のマイニングに失敗した。 本稿では,ラベルなしインスタンスの学習を指導するためにラベル付き情報を活用することで,半教師付き意味セグメンテーションのための新しい手法であるguidedmix-netを提案する。 特に GuidedMix-Net には3つの操作がある。 1) 類似ラベル付き未ラベル画像対の補間 2 相互情報の転送 3)擬似マスクの一般化 セグメンテーションモデルは、ラベル付きサンプルからラベル付きデータに知識を移すことで、ラベル付きデータの高品質な擬似マスクを学習することができる。 ラベル付きデータの教師付き学習とともに、ラベルなしデータの予測を混合データから生成された擬似マスクと共同で学習する。 PASCAL VOC 2012とCityscapesの大規模な実験では,競合セグメンテーションの精度を向上し,mIoUを従来のアプローチに比べて+7$\%向上するガイドミクスネットの有効性が示された。

Semi-supervised learning is a challenging problem which aims to construct a model by learning from limited labeled examples. Numerous methods for this task focus on utilizing the predictions of unlabeled instances consistency alone to regularize networks. However, treating labeled and unlabeled data separately often leads to the discarding of mass prior knowledge learned from the labeled examples. %, and failure to mine the feature interaction between the labeled and unlabeled image pairs. In this paper, we propose a novel method for semi-supervised semantic segmentation named GuidedMix-Net, by leveraging labeled information to guide the learning of unlabeled instances. Specifically, GuidedMix-Net employs three operations: 1) interpolation of similar labeled-unlabeled image pairs; 2) transfer of mutual information; 3) generalization of pseudo masks. It enables segmentation models can learning the higher-quality pseudo masks of unlabeled data by transfer the knowledge from labeled samples to unlabeled data. Along with supervised learning for labeled data, the prediction of unlabeled data is jointly learned with the generated pseudo masks from the mixed data. Extensive experiments on PASCAL VOC 2012, and Cityscapes demonstrate the effectiveness of our GuidedMix-Net, which achieves competitive segmentation accuracy and significantly improves the mIoU by +7$\%$ compared to previous approaches.
翻訳日:2021-12-30 15:27:08 公開日:2021-12-28
# 視覚追跡のための再帰的最小二乗推定支援オンライン学習

Recursive Least-Squares Estimator-Aided Online Learning for Visual Tracking ( http://arxiv.org/abs/2112.14016v1 )

ライセンス: Link先を確認
Jin Gao, Yan Lu, Xiaojuan Qi, Yutong Kou, Bing Li, Liang Li, Shan Yu and Weiming Hu(参考訳) テストフェーズで最初の1つの例から視覚オブジェクトを追跡することは、1/2ショットの問題、すなわち初期適応のためのワンショット学習とオンライン適応のためのマイナショット学習として広く使われてきた。 最近の数発のオンライン適応手法では、オフラインフェーズにおける複雑なメタ学習最適化を通じて、大量の注釈付きトレーニングデータから事前知識を取り入れている。 これにより、オンラインのディープトラッカーは、迅速に適応し、追跡の過度なリスクを軽減することができる。 本稿では,オフライン学習を必要とせず,簡易かつ効果的な再帰的最小二乗推定支援オンライン学習手法を提案する。 これにより、モデルが以前に見たオブジェクトに関する知識を記憶するための内蔵メモリ保持メカニズムが実現され、見てきたデータがトレーニングから安全に削除される。 これはまた、破滅的な忘れ込みを防ぐための継続的な学習分野とある種の類似性を持っている。 このメカニズムにより、計算コストを余分に必要とせずに、現代のオンラインディープトラッカーのパワーを明らかにできます。 本手法は,rt-mdnetのマルチ層パーセプトロンとdimpの畳み込みニューラルネットワークを追跡するために,オンライン学習ファミリの2つのネットワークに基づいて評価する。 いくつかの挑戦的トラッキングベンチマークにおける一貫した改善は、その効果と効率を示している。

Tracking visual objects from a single initial exemplar in the testing phase has been broadly cast as a one-/few-shot problem, i.e., one-shot learning for initial adaptation and few-shot learning for online adaptation. The recent few-shot online adaptation methods incorporate the prior knowledge from large amounts of annotated training data via complex meta-learning optimization in the offline phase. This helps the online deep trackers to achieve fast adaptation and reduce overfitting risk in tracking. In this paper, we propose a simple yet effective recursive least-squares estimator-aided online learning approach for few-shot online adaptation without requiring offline training. It allows an in-built memory retention mechanism for the model to remember the knowledge about the object seen before, and thus the seen data can be safely removed from training. This also bears certain similarities to the emerging continual learning field in preventing catastrophic forgetting. This mechanism enables us to unveil the power of modern online deep trackers without incurring too much extra computational cost. We evaluate our approach based on two networks in the online learning families for tracking, i.e., multi-layer perceptrons in RT-MDNet and convolutional neural networks in DiMP. The consistent improvements on several challenging tracking benchmarks demonstrate its effectiveness and efficiency.
翻訳日:2021-12-30 15:26:44 公開日:2021-12-28
# 有効信頼度推定による半教師付きサルエント物体検出

Semi-supervised Salient Object Detection with Effective Confidence Estimation ( http://arxiv.org/abs/2112.14019v1 )

ライセンス: Link先を確認
Jiawei Liu, Jing Zhang, Nick Barnes(参考訳) 既存のsalientオブジェクト検出モデルの成功は、大きなピクセル単位のラベル付きトレーニングデータセットに依存している。 いずれにせよ、このようなデータセットの収集には時間を要するだけでなく、非常にコストもかかる。 ラベル付けの負担を軽減するため,半教師付きサルエント物体検出を検討,自信のない予測で画素を識別することでラベルなしデータセットの信頼度推定問題として定式化する。 具体的には、有効な潜在空間探査のためのエネルギーベースプリエントを持つ新しい潜在変数モデルを導入し、より信頼性の高い信頼度マップを作成する。 提案した戦略により、非ラベル画像はモデルトレーニングに効果的に参加できる。 実験結果から,提案手法は従来のトレーニングデータセットからのアノテーションの1/16しか使用せず,最先端の完全教師付きモデルと比較して競争性能が向上することがわかった。

The success of existing salient object detection models relies on a large pixel-wise labeled training dataset. How-ever, collecting such a dataset is not only time-consuming but also very expensive. To reduce the labeling burden, we study semi-supervised salient object detection, and formulate it as an unlabeled dataset pixel-level confidence estimation problem by identifying pixels with less confident predictions. Specifically, we introduce a new latent variable model with an energy-based prior for effective latent space exploration, leading to more reliable confidence maps. With the proposed strategy, the unlabelled images can effectively participate in model training. Experimental results show that the proposed solution, using only 1/16 of the annotations from the original training dataset, achieves competitive performance compared with state-of-the-art fully supervised models.
翻訳日:2021-12-30 15:26:25 公開日:2021-12-28
# Devil is the Task: Exploiting Reciprocal Outearance-Localization Features for Monocular 3D Object Detection

The Devil is in the Task: Exploiting Reciprocal Appearance-Localization Features for Monocular 3D Object Detection ( http://arxiv.org/abs/2112.14023v1 )

ライセンス: Link先を確認
Zhikang Zou, Xiaoqing Ye, Liang Du, Xianhui Cheng, Xiao Tan, Li Zhang, Jianfeng Feng, Xiangyang Xue, Errui Ding(参考訳) 低コストのモノクル3D物体検出は、自動運転において基本的な役割を果たすが、精度はまだ十分ではない。 本稿では,3次元物体検出タスクを探索し,物体の局所化と出現知覚のサブタスクとして再構成し,タスク全体の基盤となる相互情報の深い発掘に有用であることを示す。 我々はdfr-netという,2つの新しいスタンドアロンモジュールを含む動的機能反射ネットワークを紹介する。 (i)最初にタスク固有の特徴を分離し、その後相互の特徴を自己ミューチュアルに反映する外観ローカライズ特徴反映モジュール(ALFR) (II) 動的イントラトレーディングモジュール (DIT) は, 様々なサブタスクの学習過程を自己学習方式で適応的に実現する。 挑戦的なKITTIデータセットに関する大規模な実験は、DFR-Netの有効性と一般化を実証している。 キティテストセット(2021年3月16日現在)におけるモノキュラー3d物体検出器の上位1位である。 提案手法は,多くの最先端の3D検出フレームワークにおいて,性能向上に要しないコストでプラグアンドプレイも容易である。 コードは公開される予定だ。

Low-cost monocular 3D object detection plays a fundamental role in autonomous driving, whereas its accuracy is still far from satisfactory. In this paper, we dig into the 3D object detection task and reformulate it as the sub-tasks of object localization and appearance perception, which benefits to a deep excavation of reciprocal information underlying the entire task. We introduce a Dynamic Feature Reflecting Network, named DFR-Net, which contains two novel standalone modules: (i) the Appearance-Localization Feature Reflecting module (ALFR) that first separates taskspecific features and then self-mutually reflects the reciprocal features; (ii) the Dynamic Intra-Trading module (DIT) that adaptively realigns the training processes of various sub-tasks via a self-learning manner. Extensive experiments on the challenging KITTI dataset demonstrate the effectiveness and generalization of DFR-Net. We rank 1st among all the monocular 3D object detectors in the KITTI test set (till March 16th, 2021). The proposed method is also easy to be plug-and-play in many cutting-edge 3D detection frameworks at negligible cost to boost performance. The code will be made publicly available.
翻訳日:2021-12-30 15:26:10 公開日:2021-12-28
# 教師なし領域適応型人物再同定における確率的不確実性の検討

Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2112.14025v1 )

ライセンス: Link先を確認
Jian Han, Yali li, and Shengjin Wang(参考訳) クラスタリングに基づく教師なしドメイン適応(UDA)の人物識別(ReID)は、徹底的なアノテーションを減らす。 しかし、不満足な機能埋め込みと不完全なクラスタリングのため、ターゲットドメインデータに対する擬似ラベルは本質的に、未知の機能の比率を含んでいる。 本稿では,ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬法(P$^2$LR)を提案する。 まず,確率的距離と理想的な単一ピーク分布とのラベルの不確かさをモデル化する。 擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。 第2に、擬似ラベルを精錬するためのプログレッシブ戦略を検討する。 不確実性に基づく代替最適化では、対象領域データの探索とノイズラベルの悪影響のバランスをとる。 強力なベースラインの上に,4つのUDA ReIDベンチマークにおいて,大幅な改善と最先端性能を実現する。 具体的には,Duke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。

Clustering-based unsupervised domain adaptive (UDA) person re-identification (ReID) reduces exhaustive annotations. However, owing to unsatisfactory feature embedding and imperfect clustering, pseudo labels for target domain data inherently contain an unknown proportion of wrong ones, which would mislead feature learning. In this paper, we propose an approach named probabilistic uncertainty guided progressive label refinery (P$^2$LR) for domain adaptive person re-identification. First, we propose to model the labeling uncertainty with the probabilistic distance along with ideal single-peak distributions. A quantitative criterion is established to measure the uncertainty of pseudo labels and facilitate the network training. Second, we explore a progressive strategy for refining pseudo labels. With the uncertainty-guided alternative optimization, we balance between the exploration of target domain data and the negative effects of noisy labeling. On top of a strong baseline, we obtain significant improvements and achieve the state-of-the-art performance on four UDA ReID benchmarks. Specifically, our method outperforms the baseline by 6.5% mAP on the Duke2Market task, while surpassing the state-of-the-art method by 2.5% mAP on the Market2MSMT task.
翻訳日:2021-12-30 15:25:49 公開日:2021-12-28
# DetarNet: ポイントクラウド登録のためのSiamese Networkによる翻訳と回転の分離

DetarNet: Decoupling Translation and Rotation by Siamese Network for Point Cloud Registration ( http://arxiv.org/abs/2112.14059v1 )

ライセンス: Link先を確認
Zhi Chen, Fan Yang, Wenbing Tao(参考訳) ポイントクラウド登録は多くのタスクの基本的なステップである。 本稿では,点雲登録における相互干渉による性能劣化を克服するために,翻訳の$t$と回転の$R$を分離するDetarNetというニューラルネットワークを提案する。 まず,高次元特徴空間における源点と目標点を整合させ,アライメントプロセスから正確な翻訳を回復するために,シアームネットワークに基づくプログレッシブ・コヒーレント特徴ドリフト(pcfd)モジュールを提案する。 そこで本研究では,提案する一連の対応に対して,より区別可能な特徴を構築するために,CEU(Consensus Encoding Unit)を提案する。 その後、Spatial and Channel Attention (SCA)ブロックを採用し、良好な対応を見つけるための分類ネットワークを構築する。 最後に、回転は特異値分解(SVD)により得られる。 このようにして,提案するネットワークは翻訳と回転の推定を分離し,両者の性能を向上させる。 実験の結果,detarnetは屋内と屋外の両方で登録性能が向上した。 私たちのコードは \url{https://github.com/ZhiChen902/DetarNet} で利用可能です。

Point cloud registration is a fundamental step for many tasks. In this paper, we propose a neural network named DetarNet to decouple the translation $t$ and rotation $R$, so as to overcome the performance degradation due to their mutual interference in point cloud registration. First, a Siamese Network based Progressive and Coherent Feature Drift (PCFD) module is proposed to align the source and target points in high-dimensional feature space, and accurately recover translation from the alignment process. Then we propose a Consensus Encoding Unit (CEU) to construct more distinguishable features for a set of putative correspondences. After that, a Spatial and Channel Attention (SCA) block is adopted to build a classification network for finding good correspondences. Finally, the rotation is obtained by Singular Value Decomposition (SVD). In this way, the proposed network decouples the estimation of translation and rotation, resulting in better performance for both of them. Experimental results demonstrate that the proposed DetarNet improves registration performance on both indoor and outdoor scenes. Our code will be available in \url{https://github.com/ZhiChen902/DetarNet}.
翻訳日:2021-12-30 15:25:02 公開日:2021-12-28
# 生涯視覚知覚のための体得学習

Embodied Learning for Lifelong Visual Perception ( http://arxiv.org/abs/2112.14084v1 )

ライセンス: Link先を確認
David Nilsson, Aleksis Pirinen, Erik G\"artner, Cristian Sminchisescu(参考訳) そこで我々は、新しいモデルを開発し、建物内をナビゲートする様々なエージェントを比較し、時々アノテーションを要求し、それによって視覚知覚能力を洗練させる。 エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。 この課題を生涯学習の文脈で研究する際, エージェントは, 来訪した建物を探索し, 積極的学習戦略を導出するために, 先行来訪した環境から得た知識を活用すべきである。 我々は,一般視覚知覚の指標として意味セグメンテーション性能を用い,ヒューリスティックアクティブラーニングを用いたフロンティア探索ベースラインから完全学習可能なアプローチまで,いくつかの探索およびアノテーション手法について検討した。 後者については,ナビゲーションとアクティブラーニングを共同で学習する,深層強化学習(rl)ベースのエージェントを導入する。 ポイントゴールナビゲーションの定式化と、ゴールを提供するグローバルプランナーが組み合わさって、新規シーンの体系的な探索のためのさらなるインセンティブを提供するために、RLモデルに統合される。 Matterport3Dデータセットで広範な実験を行うことで、提案するエージェントは、例えば、より粒度の細かい探索やアノテーションの要求の少なさなど、新しい領域を探索する際に、これまで探索されたシーンから知識を活用することができることを示す。 また,学習に基づくエージェントが,ヒューリスティックな代替手段よりも視覚的知識を効果的に活用できることが示唆された。

We study lifelong visual perception in an embodied setup, where we develop new models and compare various agents that navigate in buildings and occasionally request annotations which, in turn, are used to refine their visual perception capabilities. The purpose of the agents is to recognize objects and other semantic classes in the whole building at the end of a process that combines exploration and active visual learning. As we study this task in a lifelong learning context, the agents should use knowledge gained in earlier visited environments in order to guide their exploration and active learning strategy in successively visited buildings. We use the semantic segmentation performance as a proxy for general visual perception and study this novel task for several exploration and annotation methods, ranging from frontier exploration baselines which use heuristic active learning, to a fully learnable approach. For the latter, we introduce a deep reinforcement learning (RL) based agent which jointly learns both navigation and active learning. A point goal navigation formulation, coupled with a global planner which supplies goals, is integrated into the RL model in order to provide further incentives for systematic exploration of novel scenes. By performing extensive experiments on the Matterport3D dataset, we show how the proposed agents can utilize knowledge from previously explored scenes when exploring new ones, e.g. through less granular exploration and less frequent requests for annotations. The results also suggest that a learning-based agent is able to use its prior visual knowledge more effectively than heuristic alternatives.
翻訳日:2021-12-30 15:24:40 公開日:2021-12-28
# 4月:視覚トランスフォーマーのプライバシーに関するアキレス腱の発見

APRIL: Finding the Achilles' Heel on Privacy for Vision Transformers ( http://arxiv.org/abs/2112.14087v1 )

ライセンス: Link先を確認
Jiahao Lu, Xi Sheryl Zhang, Tianli Zhao, Xiangyu He and Jian Cheng(参考訳) 連合学習フレームワークは通常、プライバシーを守るためにトレーニングデータを共有するのではなく、共通のモデルの局所的な勾配更新を共有する必要がある。 しかし、Gradient Leakage Attacksに関する以前の研究は、プライベートトレーニングデータが勾配から明らかになることを示した。 これまでのところ、関連するほとんどの作業は、完全に接続されたまたは畳み込みニューラルネットワークに対する攻撃に基づいている。 近年,多彩な視覚課題の解決にトランスフォーマーを採用する傾向が圧倒的に高まっていることから,ビジョントランスフォーマーのプライバシーリスクを調査することは極めて重要である。 本稿では, セルフ・アテンション・ベース・メカニズムの勾配漏洩リスクを理論的, 実用的な方法で解析する。 特に4月 - 注意のプライバシリークは、vitのような自己注意に触発されたモデルにとって大きな脅威となる。 視覚トランスフォーマーが勾配によるプライバシー漏洩のリスクにさらされていることを示すため、プライバシセーフトランスフォーマーモデルの設計と防御スキームの重要さを訴える。

Federated learning frameworks typically require collaborators to share their local gradient updates of a common model instead of sharing training data to preserve privacy. However, prior works on Gradient Leakage Attacks showed that private training data can be revealed from gradients. So far almost all relevant works base their attacks on fully-connected or convolutional neural networks. Given the recent overwhelmingly rising trend of adapting Transformers to solve multifarious vision tasks, it is highly valuable to investigate the privacy risk of vision transformers. In this paper, we analyse the gradient leakage risk of self-attention based mechanism in both theoretical and practical manners. Particularly, we propose APRIL - Attention PRIvacy Leakage, which poses a strong threat to self-attention inspired models such as ViT. Showing how vision Transformers are at the risk of privacy leakage via gradients, we urge the significance of designing privacy-safer Transformer models and defending schemes.
翻訳日:2021-12-30 15:24:13 公開日:2021-12-28
# ビデオ-テキスト翻訳における変圧器のフラクショナル位置符号化を用いた同期オーディオ-ビジュアルフレーム

Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text Translation ( http://arxiv.org/abs/2112.14088v1 )

ライセンス: Link先を確認
Philipp Harzig, Moritz Einfalt, Rainer Lienhart(参考訳) Video-to-Text(VTT)は、例えばYouTubeビデオのシーンを理解するために視覚障害者をサポートする、短いオーディオ・ビジュアルビデオクリップの説明を自動的に生成するタスクである。 トランスフォーマーアーキテクチャは、機械翻訳と画像キャプションの両方において優れた性能を示しており、vttの単純かつ再現可能な応用を欠いている。 しかし、完全自己注意型ネットワークで付随する音声を活用するなど、様々な戦略やビデオ記述生成のアドバイスについて包括的な研究は行われていない。 そこで我々は,画像キャプションやビデオ処理から有望なアプローチを探求し,簡単なトランスフォーマーアーキテクチャを開発することでVTTに適用する。 さらに,FPE(Fractional Positional Encoding)と呼ばれるトランスフォーマーにおいて,音声と映像の特徴を同期させる新しい手法を提案する。 我々は、VATEXデータセット上で複数の実験を行い、自然言語で短いビデオクリップを記述するのに役立ち、Vanilla Transformerネットワークと比較してCIDErとBLEU-4のスコアを37.13と12.83に改善し、MSR-VTTとMSVDデータセットの最先端結果を得る、未確認データセットに適用可能な構成を決定する。 また、FPEはCIDErのスコアを8.6%向上させるのに役立つ。

Video-to-Text (VTT) is the task of automatically generating descriptions for short audio-visual video clips, which can support visually impaired people to understand scenes of a YouTube video for instance. Transformer architectures have shown great performance in both machine translation and image captioning, lacking a straightforward and reproducible application for VTT. However, there is no comprehensive study on different strategies and advice for video description generation including exploiting the accompanying audio with fully self-attentive networks. Thus, we explore promising approaches from image captioning and video processing and apply them to VTT by developing a straightforward Transformer architecture. Additionally, we present a novel way of synchronizing audio and video features in Transformers which we call Fractional Positional Encoding (FPE). We run multiple experiments on the VATEX dataset to determine a configuration applicable to unseen datasets that helps describe short video clips in natural language and improved the CIDEr and BLEU-4 scores by 37.13 and 12.83 points compared to a vanilla Transformer network and achieve state-of-the-art results on the MSR-VTT and MSVD datasets. Also, FPE helps increase the CIDEr score by a relative factor of 8.6%.
翻訳日:2021-12-30 15:23:55 公開日:2021-12-28
# TRECVID-VTT Task 2021(TRECVID-VTT Task 2021)拡張自己批判パイプライン-チーム:MMCUniAugsburg

Extended Self-Critical Pipeline for Transforming Videos to Text (TRECVID-VTT Task 2021) -- Team: MMCUniAugsburg ( http://arxiv.org/abs/2112.14100v1 )

ライセンス: Link先を確認
Philipp Harzig, Moritz Einfalt, Katja Ludwig, Rainer Lienhart(参考訳) アウクスブルク大学のマルチメディア・コンピュータビジョン研究所は、VTTタスクのみに参加した。 VTTモデルのトレーニングには、VATEXとTRECVID-VTTデータセットを使用します。 私たちは、提案された両方の実行に対してTransformerアプローチに基づいています。 第2のモデルでは、画像キャプションのためのX-Linear Attention Networksを適用する。 両モデルとも、検証に残りの10%を使用しながら、完全なVATEXデータセットとTRECVID-VTTデータセットの90%を事前トレーニングします。 両モデルを自己臨界シーケンストレーニングで微調整し、検証性能を大幅に向上させる。 全体として、従来のImage CaptioningパイプラインでVideo-to-Textシステムのトレーニングを行うと、非常にパフォーマンスが悪くなります。 Transformerベースのアーキテクチャに切り替えると、結果は大幅に改善され、生成されたキャプションは対応するビデオにマッチする。

The Multimedia and Computer Vision Lab of the University of Augsburg participated in the VTT task only. We use the VATEX and TRECVID-VTT datasets for training our VTT models. We base our model on the Transformer approach for both of our submitted runs. For our second model, we adapt the X-Linear Attention Networks for Image Captioning which does not yield the desired bump in scores. For both models, we train on the complete VATEX dataset and 90% of the TRECVID-VTT dataset for pretraining while using the remaining 10% for validation. We finetune both models with self-critical sequence training, which boosts the validation performance significantly. Overall, we find that training a Video-to-Text system on traditional Image Captioning pipelines delivers very poor performance. When switching to a Transformer-based architecture our results greatly improve and the generated captions match better with the corresponding video.
翻訳日:2021-12-30 15:23:31 公開日:2021-12-28
# TAGPerson: 人物識別のためのターゲット認識生成パイプライン

TAGPerson: A Target-Aware Generation Pipeline for Person Re-identification ( http://arxiv.org/abs/2112.14239v1 )

ライセンス: Link先を確認
Kai Chen, Weihua Chen, Tao He, Rong Du, Fan Wang, Xiuyu Sun, Yuchen Guo, Guiguang Ding(参考訳) 現在、個人再識別(ReID)タスクの実際のデータは、禁止されたデータセットである DukeMTMC-ReID などのプライバシー問題に直面している。 したがって、ReIDタスクの実際のデータを収集するのはずっと難しくなります。 一方、ReIDデータのラベル付けのコストは依然として非常に高く、ReID研究の発展を妨げている。 そのため、多くの手法が実際の画像の代わりにReIDアルゴリズムの合成画像を生成する。 しかし、合成画像と実画像の間には避けられない領域ギャップがある。 従来の方法では、生成プロセスは仮想シーンに基づいており、それらの合成トレーニングデータは、異なるターゲットの実際のシーンに応じて自動的に変更することはできない。 この問題に対処するために,タッグパーソンと呼ばれる合成人物画像を生成する新しい目標認識生成パイプラインを提案する。 具体的には、パラメータが制御可能で、ターゲットのシーンに応じて調整できるパラメータ化レンダリング手法である。 TAGPersonでは、ターゲットシーンから情報を抽出し、パラメータ化レンダリングプロセスを制御することで、ターゲット領域内の実際の画像とのギャップを小さくするターゲット認識合成画像を生成する。 本実験では,MSMT17の一般合成画像,すなわちランク1精度の47.5%対40.9%に対して,目標認識合成画像よりもはるかに高い性能が得られることを示した。 このツールキットはgithub.com/tagperson/tagperson-blender}{https://github.com/tagperson/tagperson-blender}}reidコミュニティが任意の好みで合成画像を生成するために利用できる。

Nowadays, real data in person re-identification (ReID) task is facing privacy issues, e.g., the banned dataset DukeMTMC-ReID. Thus it becomes much harder to collect real data for ReID task. Meanwhile, the labor cost of labeling ReID data is still very high and further hinders the development of the ReID research. Therefore, many methods turn to generate synthetic images for ReID algorithms as alternatives instead of real images. However, there is an inevitable domain gap between synthetic and real images. In previous methods, the generation process is based on virtual scenes, and their synthetic training data can not be changed according to different target real scenes automatically. To handle this problem, we propose a novel Target-Aware Generation pipeline to produce synthetic person images, called TAGPerson. Specifically, it involves a parameterized rendering method, where the parameters are controllable and can be adjusted according to target scenes. In TAGPerson, we extract information from target scenes and use them to control our parameterized rendering process to generate target-aware synthetic images, which would hold a smaller gap to the real images in the target domain. In our experiments, our target-aware synthetic images can achieve a much higher performance than the generalized synthetic images on MSMT17, i.e. 47.5% vs. 40.9% for rank-1 accuracy. We will release this toolkit\footnote{\noindent Code is available at \href{https://github.com/tagperson/tagperson-blender}{https://github.com/tagperson/tagperson-blender}} for the ReID community to generate synthetic images at any desired taste.
翻訳日:2021-12-30 15:23:16 公開日:2021-12-28
# タンジェント画像を用いた360{\deg}光流れ

360{\deg} Optical Flow using Tangent Images ( http://arxiv.org/abs/2112.14331v1 )

ライセンス: Link先を確認
Mingze Yuan, Christian Richardt(参考訳) 全方位360{\deg}画像は、コンピュータビジョン、ロボティクス、その他の分野で有望でエキサイティングな応用が数多く見出されている。 360{\deg}画像を保存、処理、視覚化するための最も一般的なフォーマットは、等方射影(ERP)である。 しかし, 360{\deg} 画像から ERP 画像への非線形マッピングによって引き起こされる歪みは, 従来の視点画像と同じくらい簡単にERP 画像が使用されることを防ぐ障壁である。 これは、歪みを適切に緩和する必要があるため、360{\deg}光の流れを推定する場合に特に重要である。 本稿では,タンジェント画像に基づく360{\deg}光フロー法を提案する。 提案手法では, 局所的にERP画像を視点画像に変換し, ERP画像を立方体マップおよび正コサヘドロン頂点に投影して一様にサンプリングすることにより, 大きな回転が存在する場合でも, 推定した360{\deg}流れ場を漸進的に洗練する。 提案手法の定量的・質的効果を実証する実験を行った。

Omnidirectional 360{\deg} images have found many promising and exciting applications in computer vision, robotics and other fields, thanks to their increasing affordability, portability and their 360{\deg} field of view. The most common format for storing, processing and visualising 360{\deg} images is equirectangular projection (ERP). However, the distortion introduced by the nonlinear mapping from 360{\deg} image to ERP image is still a barrier that holds back ERP images from being used as easily as conventional perspective images. This is especially relevant when estimating 360{\deg} optical flow, as the distortions need to be mitigated appropriately. In this paper, we propose a 360{\deg} optical flow method based on tangent images. Our method leverages gnomonic projection to locally convert ERP images to perspective images, and uniformly samples the ERP image by projection to a cubemap and regular icosahedron vertices, to incrementally refine the estimated 360{\deg} flow fields even in the presence of large rotations. Our experiments demonstrate the benefits of our proposed method both quantitatively and qualitatively.
翻訳日:2021-12-30 15:22:42 公開日:2021-12-28
# LINDA: 自然言語処理における教師なし学習

LINDA: Unsupervised Learning to Interpolate in Natural Language Processing ( http://arxiv.org/abs/2112.13969v1 )

ライセンス: Link先を確認
Yekyung Kim, Seohyeong Jeong, Kyunghyun Cho(参考訳) データ強化の成功にもかかわらず、自然言語処理(NLP)タスクの適用性は、自然言語の離散性と可変長の性質のために制限されてきた。 したがって、近年の研究はnlpにミックスアップを適用するためにドメイン固有のヒューリスティックと辞書などの手作業によるリソースに頼っている。 本稿では,データ拡張を目的としたテキスト補間のための教師なし学習手法を提案する。これは「データ拡張のためのインターポレート学習(Learning to Interpolate for Data Augmentation, LINDA)」と呼ばれ,ヒューリスティックスや手作業による資源を必要としないが,自然言語多様体上の任意の自然言語文間の補間を学習する。 LINDAの補間機能を実証的に実証した結果、LINDAは実際にNLPにシームレスにミキサアップを適用でき、ドメイン内とドメイン外の両方のテキスト分類においてより一般化できることがわかった。

Despite the success of mixup in data augmentation, its applicability to natural language processing (NLP) tasks has been limited due to the discrete and variable-length nature of natural languages. Recent studies have thus relied on domain-specific heuristics and manually crafted resources, such as dictionaries, in order to apply mixup in NLP. In this paper, we instead propose an unsupervised learning approach to text interpolation for the purpose of data augmentation, to which we refer as "Learning to INterpolate for Data Augmentation" (LINDA), that does not require any heuristics nor manually crafted resources but learns to interpolate between any pair of natural language sentences over a natural language manifold. After empirically demonstrating the LINDA's interpolation capability, we show that LINDA indeed allows us to seamlessly apply mixup in NLP and leads to better generalization in text classification both in-domain and out-of-domain.
翻訳日:2021-12-30 14:48:06 公開日:2021-12-28
# グラフニューラルネットワークのオンライン逆蒸留

Online Adversarial Distillation for Graph Neural Networks ( http://arxiv.org/abs/2112.13966v1 )

ライセンス: Link先を確認
Can Wang, Zhe Wang, Defang Chen, Sheng Zhou, Yan Feng, Chun Chen(参考訳) 近年,畳み込みニューラルネットワークのモデル一般化能力を向上させる技術として,知識蒸留が普及している。 しかし、グラフトポロジーやノード属性が動的に変化する可能性があり、この場合、静的教師モデルでは学生トレーニングの指導が不十分であるため、グラフニューラルネットワークへの影響は満足できない。 本稿では,グループ知識が動的仮想教師としての役割を担い,グラフニューラルネットワークの構造変化を効果的に捉えるオンライン蒸留方式で,グラフニューラルネットワークのグループを同時に訓練することで,この問題に対処する。 蒸留性能を向上させるために, グラフトポロジとノード属性の情報を反映した局所知識と, クラス上での予測を反映したグローバル知識の2つの知識が相互に伝達される。 我々は,局所知識の複雑な構造を効率的な逆巡回学習フレームワークで活用しながら,バニラ知識蒸留と同じkl-divergenceでグローバル知識を伝達する。 大規模実験により, 提案手法の有効性が検証された。

Knowledge distillation has recently become a popular technique to improve the model generalization ability on convolutional neural networks. However, its effect on graph neural networks is less than satisfactory since the graph topology and node attributes are likely to change in a dynamic way and in this case a static teacher model is insufficient in guiding student training. In this paper, we tackle this challenge by simultaneously training a group of graph neural networks in an online distillation fashion, where the group knowledge plays a role as a dynamic virtual teacher and the structure changes in graph neural networks are effectively captured. To improve the distillation performance, two types of knowledge are transferred among the students to enhance each other: local knowledge reflecting information in the graph topology and node attributes, and global knowledge reflecting the prediction over classes. We transfer the global knowledge with KL-divergence as the vanilla knowledge distillation does, while exploiting the complicated structure of the local knowledge with an efficient adversarial cyclic learning framework. Extensive experiments verified the effectiveness of our proposed online adversarial distillation approach.
翻訳日:2021-12-30 14:47:48 公開日:2021-12-28
# 指数モデルに基づくスコアマッチングによる強化学習

Exponential Family Model-Based Reinforcement Learning via Score Matching ( http://arxiv.org/abs/2112.14195v1 )

ライセンス: Link先を確認
Gene Li, Junbo Li, Nathan Srebro, Zhaoran Wang, Zhuoran Yang(参考訳) パラメータが$d$の指数関数分布によって遷移モデルが特定され、報酬が有界かつ既知のとき、有限水平エピソディック強化学習(RL)のための楽観的なモデルベースアルゴリズムSMRLを提案する。 SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。 標準的な正規性仮定の下では、smrlは$\tilde o(d\sqrt{h^3t})$ online regret(ここで$h$は各エピソードの長さ、$t$は相互作用の総数(構造的スケールパラメータの多項式依存性を無視して)を達成する。

We propose an optimistic model-based algorithm, dubbed SMRL, for finite-horizon episodic reinforcement learning (RL) when the transition model is specified by exponential family distributions with $d$ parameters and the reward is bounded and known. SMRL uses score matching, an unnormalized density estimation technique that enables efficient estimation of the model parameter by ridge regression. Under standard regularity assumptions, SMRL achieves $\tilde O(d\sqrt{H^3T})$ online regret, where $H$ is the length of each episode and $T$ is the total number of interactions (ignoring polynomial dependence on structural scale parameters).
翻訳日:2021-12-30 14:44:37 公開日:2021-12-28
# (参考訳) DeepAdversaries: 銀河形態分類のためのディープラーニングモデルのロバスト性の検討

DeepAdversaries: Examining the Robustness of Deep Learning Models for Galaxy Morphology Classification ( http://arxiv.org/abs/2112.14299v1 )

ライセンス: CC BY 4.0
Aleksandra \'Ciprijanovi\'c, Diana Kafkes, Gregory Snyder, F. Javier S\'anchez, Gabriel Nathan Perdue, Kevin Pedro, Brian Nord, Sandeep Madireddy, Stefan M. Wild(参考訳) 宇宙調査実験におけるデータ処理と分析パイプラインは、深層学習モデルの性能を著しく低下させるデータ摂動を導入している。 宇宙調査データの処理・分析における教師付き深層学習手法の採用が進み,データ摂動効果の評価やモデルロバスト性を高める手法の開発がますます重要になっている。 銀河の形態分類の文脈において,画像データにおける摂動の影響について検討する。 特に,ベースラインデータによるトレーニングや摂動データによるテストにおいて,ニューラルネットワークがもたらす影響について検討する。 我々は2つの主要な源に付随する摂動を考える。 1)ポアソンノイズの高レベル化と観測ノイズの増加 2) 画像圧縮や望遠鏡誤差などのステップで発生するデータ処理ノイズは, 1画素対逆攻撃で表される。 また、摂動駆動誤差を軽減するための領域適応手法の有効性を検証した。 モデルロバスト性の評価には,分類精度,潜時空間可視化,潜時空間距離を用いる。 領域適応がなければ、処理ピクセルレベルの誤差は容易に分類を誤ったクラスに反転させ、高い観測ノイズにより、低ノイズデータに基づいて訓練されたモデルが銀河形態を分類できないことが分かる。 一方,領域適応によるトレーニングはモデル堅牢性を向上し,これらの摂動の影響を緩和し,観測ノイズの高いデータに対する分類精度を23%向上させることを示した。 領域適応はまた、ベースラインと不正確に分類された1ピクセルの摂動画像との間の潜在空間距離を2.3倍に増やし、不注意摂動に対してより堅牢なモデルとなる。

Data processing and analysis pipelines in cosmological survey experiments introduce data perturbations that can significantly degrade the performance of deep learning-based models. Given the increased adoption of supervised deep learning methods for processing and analysis of cosmological survey data, the assessment of data perturbation effects and the development of methods that increase model robustness are increasingly important. In the context of morphological classification of galaxies, we study the effects of perturbations in imaging data. In particular, we examine the consequences of using neural networks when training on baseline data and testing on perturbed data. We consider perturbations associated with two primary sources: 1) increased observational noise as represented by higher levels of Poisson noise and 2) data processing noise incurred by steps such as image compression or telescope errors as represented by one-pixel adversarial attacks. We also test the efficacy of domain adaptation techniques in mitigating the perturbation-driven errors. We use classification accuracy, latent space visualizations, and latent space distance to assess model robustness. Without domain adaptation, we find that processing pixel-level errors easily flip the classification into an incorrect class and that higher observational noise makes the model trained on low-noise data unable to classify galaxy morphologies. On the other hand, we show that training with domain adaptation improves model robustness and mitigates the effects of these perturbations, improving the classification accuracy by 23% on data with higher observational noise. Domain adaptation also increases by a factor of ~2.3 the latent space distance between the baseline and the incorrectly classified one-pixel perturbed image, making the model more robust to inadvertent perturbations.
翻訳日:2021-12-30 14:38:31 公開日:2021-12-28
# 局所ラジアル回帰による非パラメトリック分類の改善とストック予測への応用

Improving Nonparametric Classification via Local Radial Regression with an Application to Stock Prediction ( http://arxiv.org/abs/2112.13951v1 )

ライセンス: Link先を確認
Ruixing Cao, Akifumi Okuno, Kei Nakagawa, Hidetoshi Shimodaira(参考訳) 教師付き分類問題に対しては、観測された共変量を用いて局所回帰を用いてクエリのラベル確率を推定する。 有名な非パラメトリックカーネルスムーズなスムーズで$k$-nearestの隣人(k$-NN)推定器は、クエリの周囲のボールにラベル平均を取るが、特にボールの大きな半径に対して漸近的に偏りがある。 そのようなバイアスを根絶するために、局所多項式回帰(LPoR)とマルチスケール$k$-NN(MS-$k$-NN)は、クエリ周辺の局所回帰によってバイアス項を学習し、クエリ自体に外挿する。 しかし、その理論的最適性は無限個のトレーニングサンプルの限界のために示されている。 本稿では,lpor と ms-$k$-nn の利点を組み合わせることにより,漸近的バイアスを少ない観測で補正するために,局所的ラジアル回帰 (lrr) と局所的ラジアルロジスティック回帰 (lrlr) と呼ばれるロジスティック回帰 (ロジスティック回帰) を提案する。 そのアイデアは単純で、半径距離を説明変数とし、推定されたラベル確率をゼロ距離に外挿することで、観測されたラベルに局所回帰を適合させる。 LPoRとMS-$k$-NNよりLRLRの方が優れていることを示す。

For supervised classification problems, this paper considers estimating the query's label probability through local regression using observed covariates. Well-known nonparametric kernel smoother and $k$-nearest neighbor ($k$-NN) estimator, which take label average over a ball around the query, are consistent but asymptotically biased particularly for a large radius of the ball. To eradicate such bias, local polynomial regression (LPoR) and multiscale $k$-NN (MS-$k$-NN) learn the bias term by local regression around the query and extrapolate it to the query itself. However, their theoretical optimality has been shown for the limit of the infinite number of training samples. For correcting the asymptotic bias with fewer observations, this paper proposes a local radial regression (LRR) and its logistic regression variant called local radial logistic regression (LRLR), by combining the advantages of LPoR and MS-$k$-NN. The idea is simple: we fit the local regression to observed labels by taking the radial distance as the explanatory variable and then extrapolate the estimated label probability to zero distance. Our numerical experiments, including real-world datasets of daily stock indices, demonstrate that LRLR outperforms LPoR and MS-$k$-NN.
翻訳日:2021-12-30 14:03:10 公開日:2021-12-28
# 多層グラフコントラストクラスタリングネットワーク

Multilayer Graph Contrastive Clustering Network ( http://arxiv.org/abs/2112.14021v1 )

ライセンス: Link先を確認
Liang Liu, Zhao Kang, Ling Tian, Wenbo Xu, Xixu He(参考訳) 多層グラフは、相互依存システムのモデリングにおける高い有用性のために、多くの分野で多くの研究の注目を集めている。 しかし,グラフノードをカテゴリやコミュニティに分割することを目的とした多層グラフのクラスタリングはまだ初期段階にある。 既存のメソッドは、しばしばマルチビュー属性や複数のネットワークを利用して、より複雑でリッチなネットワークフレームワークを無視している。 本研究では,多層グラフクラスタリングのための汎用的かつ効果的なオートエンコーダフレームワークである多層グラフコントラストクラスタリングネットワーク(mgccn)を提案する。 MGCCNは以下の3つのモジュールから構成される: 1) ノードと隣接ノードの関係をよりよく把握し、ノードの埋め込みを改善する。 2) 異なるネットワークにおける一貫性情報をより深く探究するために, コントラスト的融合戦略を導入する。 (3)MGCCNは、ノードの埋め込みとクラスタリングを反復的に強化する自己管理コンポーネントを採用している。 実世界のグラフデータの多種多様な実験により,提案手法が最先端技術より優れていることを示す。

Multilayer graph has garnered plenty of research attention in many areas due to their high utility in modeling interdependent systems. However, clustering of multilayer graph, which aims at dividing the graph nodes into categories or communities, is still at a nascent stage. Existing methods are often limited to exploiting the multiview attributes or multiple networks and ignoring more complex and richer network frameworks. To this end, we propose a generic and effective autoencoder framework for multilayer graph clustering named Multilayer Graph Contrastive Clustering Network (MGCCN). MGCCN consists of three modules: (1)Attention mechanism is applied to better capture the relevance between nodes and neighbors for better node embeddings. (2)To better explore the consistent information in different networks, a contrastive fusion strategy is introduced. (3)MGCCN employs a self-supervised component that iteratively strengthens the node embedding and clustering. Extensive experiments on different types of real-world graph data indicate that our proposed method outperforms state-of-the-art techniques.
翻訳日:2021-12-30 14:02:45 公開日:2021-12-28
# AdaFocus V2:ビデオ認識のための空間動的ネットワークのエンドツーエンドトレーニング

AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video Recognition ( http://arxiv.org/abs/2112.14238v1 )

ライセンス: Link先を確認
Yulin Wang, Yang Yue, Yuanze Lin, Haojun Jiang, Zihang Lai, Victor Kulikov, Nikita Orlov, Humphrey Shi, Gao Huang(参考訳) 近年の研究では,空間冗長性を低減し,映像認識の計算効率を大幅に向上できることが示されている。 アダプティブフォーカス法(adafocus)は,映像フレーム内の情報領域を動的に識別し,対応することにより,精度と推論速度のトレードオフを良好に達成している。 しかし、adafocusは複雑な3段階のトレーニングパイプライン(強化学習)を必要とするため、収束が遅く、実践者には不向きである。 本研究は, AdaFocus の訓練を1段階の単純なアルゴリズムとして改良し, 異なる補間ベースのパッチ選択操作を導入し, 効率的なエンドツーエンド最適化を実現する。 さらに,1段階の定式化によってもたらされる課題に対処し,監督の欠如,入力多様性,トレーニング安定性などを改善するためのトレーニング手法を提案する。 さらに, adafocus上での時間適応計算を, 追加のトレーニングをすることなく行うための条件提示手法を提案する。 6つのベンチマークデータセット(ActivityNet、FCVID、Mini-Kinetics、Something V1&V2、Jester)に対する大規模な実験により、我々のモデルはAdaFocusや他の競合するベースラインを大幅に上回り、トレーニングもかなりシンプルで効率的であることが示された。 コードはhttps://github.com/LeapLabTHU/AdaFocusV2で入手できる。

Recent works have shown that the computational efficiency of video recognition can be significantly improved by reducing the spatial redundancy. As a representative work, the adaptive focus method (AdaFocus) has achieved a favorable trade-off between accuracy and inference speed by dynamically identifying and attending to the informative regions in each video frame. However, AdaFocus requires a complicated three-stage training pipeline (involving reinforcement learning), leading to slow convergence and is unfriendly to practitioners. This work reformulates the training of AdaFocus as a simple one-stage algorithm by introducing a differentiable interpolation-based patch selection operation, enabling efficient end-to-end optimization. We further present an improved training scheme to address the issues introduced by the one-stage formulation, including the lack of supervision, input diversity and training stability. Moreover, a conditional-exit technique is proposed to perform temporal adaptive computation on top of AdaFocus without additional training. Extensive experiments on six benchmark datasets (i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2, and Jester) demonstrate that our model significantly outperforms the original AdaFocus and other competitive baselines, while being considerably more simple and efficient to train. Code is available at https://github.com/LeapLabTHU/AdaFocusV2.
翻訳日:2021-12-30 14:02:28 公開日:2021-12-28
# (参考訳) ブロックモデリング誘導グラフ畳み込みニューラルネットワーク

Block Modeling-Guided Graph Convolutional Neural Networks ( http://arxiv.org/abs/2112.13507v2 )

ライセンス: CC BY 4.0
Dongxiao He and Chundong Liang and Huixin Liu and Mingxiang Wen and Pengfei Jiao and Zhiyong Feng(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ表現を探索する著しい可能性を示している。 しかし、GCN集約機構は、現実世界のネットワークに一般的に存在する多くのノードが異なるクラスから隣接しているヘテロフィリーのネットワークに一般化できない。 gcnの伝播・凝集機構をホモフィアとヘテロフィアリー(またはそれらの混合物)の両方に適合させるため、gcnのフレームワークにブロックモデリングを導入し、「ブロック誘導された機密集約」を実現し、異なるクラスの近隣のアグリゲーションルールを自動的に学習する。 ブロックモデリングを集約プロセスに組み込むことにより、gcnはホモフィリシー度に応じてホモ親和性およびヘテロ親和性の隣人からの情報を識別的に集約することができる。 我々はこのアルゴリズムを異種問題を扱う最先端手法と比較した。 実験により,同好性データセットにおける競合性能を維持しつつ,異好性データセットにおける既存手法に対する新たなアプローチの優位性を実証した。

Graph Convolutional Network (GCN) has shown remarkable potential of exploring graph representation. However, the GCN aggregating mechanism fails to generalize to networks with heterophily where most nodes have neighbors from different classes, which commonly exists in real-world networks. In order to make the propagation and aggregation mechanism of GCN suitable for both homophily and heterophily (or even their mixture), we introduce block modeling into the framework of GCN so that it can realize "block-guided classified aggregation", and automatically learn the corresponding aggregation rules for neighbors of different classes. By incorporating block modeling into the aggregation process, GCN is able to aggregate information from homophilic and heterophilic neighbors discriminately according to their homophily degree. We compared our algorithm with state-of-art methods which deal with the heterophily problem. Empirical results demonstrate the superiority of our new approach over existing methods in heterophilic datasets while maintaining a competitive performance in homophilic datasets.
翻訳日:2021-12-30 13:17:46 公開日:2021-12-28
# (参考訳) 日常対話データにおける会話分析のためのポリット感情対話法

Polite Emotional Dialogue Acts for Conversational Analysis in Daily Dialog Data ( http://arxiv.org/abs/2112.13572v2 )

ライセンス: CC BY 4.0
Chandrakant Bothe(参考訳) 多くの社会言語学的な手がかりは、感情、感情、対話行動などの会話分析に使われている。 基本的な社会的手がかりの1つは丁寧さであり、言語的に会話分析に有用な特性を持っている。 本稿では、これらの社会言語学的な手がかり間の関係関係を関連づけることができる、丁寧な感情対話行動の簡単な発見について述べる。 感情のクラスでは、Anger と Disgust の発話は、幸福と悲しみが丁寧であるのに対して、不愉快である傾向が見られた。 同様の現象は対話行為で起こり、情報とコミュニケーションは質問や指示よりも多くの丁寧な発話を含んでいる。 最後に,これらの知見の今後の研究についてまとめる。

Many socio-linguistic cues are used in the conversational analysis, such as emotion, sentiment, and dialogue acts. One of the fundamental social cues is politeness, which linguistically possesses properties useful in conversational analysis. This short article presents some of the brief findings of polite emotional dialogue acts, where we can correlate the relational bonds between these socio-linguistics cues. We found that the utterances with emotion classes Anger and Disgust are more likely to be impolite while Happiness and Sadness to be polite. Similar phenomenon occurs with dialogue acts, Inform and Commissive contain many polite utterances than Question and Directive. Finally, we will conclude on the future work of these findings.
翻訳日:2021-12-30 12:51:05 公開日:2021-12-28
# (参考訳) スマートウォーターメータデータの社会経済特性を明らかにするための動的時温クラスタリング

Dynamic Time Warping Clustering to Discover Socio-Economic Characteristics in Smart Water Meter Data ( http://arxiv.org/abs/2112.13778v2 )

ライセンス: CC BY-SA 4.0
D. B. Steffelbauer, E. J. M. Blokker, S. G. Buchberger, A. Knobbe, E. Abraham(参考訳) 社会経済的特性は、水需要の時間的・空間的変動に影響を与えている。 これらの影響に関する知識を向上させることで、需要の不確実性を減らすことができる。 本稿では,日々の需要パターンに動的時間変化を用いたクラスタリングアルゴリズムを適用し,スマートウォーターメーターデータと社会経済的ユーザ特性を結びつけることを目的とする。 このアプローチは、シミュレーションおよび測定されたシングルファミリーホームデータセットでテストされる。 提案アルゴリズムは,クラスタの適切な数の探索やパターンの割り当てにおいて,一般的なクラスタリング手法と比較して,優れた性能を示すことを示す。 さらに、この方法論は需要パターンのクラスタ内の異常値を特定するのに使うことができる。 さらに, 社会経済的特性(雇用状況, 居住者数など)が, 単一集団内に存在するかを調査し, その結果, 集団のバリセンタの形状と関連づけられるかを検討した。 将来,提案手法と確率的需要モデルを組み合わせることで,水理モデルにおけるデータギャップを埋めることができる。

Socio-economic characteristics are influencing the temporal and spatial variability of water demand - the biggest source of uncertainties within water distribution system modeling. Improving our knowledge on these influences can be utilized to decrease demand uncertainties. This paper aims to link smart water meter data to socio-economic user characteristics by applying a novel clustering algorithm that uses dynamic time warping on daily demand patterns. The approach is tested on simulated and measured single family home datasets. We show that the novel algorithm performs better compared to commonly used clustering methods, both, in finding the right number of clusters as well as assigning patterns correctly. Additionally, the methodology can be used to identify outliers within clusters of demand patterns. Furthermore, this study investigates which socio-economic characteristics (e.g. employment status, number of residents) are prevalent within single clusters and, consequently, can be linked to the shape of the cluster's barycenters. In future, the proposed methods in combination with stochastic demand models can be used to fill data-gaps in hydraulic models.
翻訳日:2021-12-30 12:45:26 公開日:2021-12-28
# (参考訳) 胸部X線病変予測モデルの分布外一般化を改善するマルチドメインバランスサンプリング

Multi-Domain Balanced Sampling Improves Out-of-Distribution Generalization of Chest X-ray Pathology Prediction Models ( http://arxiv.org/abs/2112.13734v2 )

ライセンス: CC BY 4.0
Enoch Tetteh, Joseph Viviano, Yoshua Bengio, David Krueger, Joseph Paul Cohen(参考訳) 医療画像の異なる分布シフトの下で一般化する学習モデルは、長年にわたる研究課題である。 視覚研究実践者の間では、特に敏感でクリティカルなバイオメディカル領域において、効率的で堅牢な視覚表現学習が提案されている。 本稿では,単純なバランスのとれたバッチサンプリング手法を用いた胸部x線病理の分散的一般化を提案する。 複数のトレーニングデータセット間のバランスの取れたサンプリングは、バランスを取らずにトレーニングされたベースラインモデルよりもパフォーマンスが向上する。

Learning models that generalize under different distribution shifts in medical imaging has been a long-standing research challenge. There have been several proposals for efficient and robust visual representation learning among vision research practitioners, especially in the sensitive and critical biomedical domain. In this paper, we propose an idea for out-of-distribution generalization of chest X-ray pathologies that uses a simple balanced batch sampling technique. We observed that balanced sampling between the multiple training datasets improves the performance over baseline models trained without balancing.
翻訳日:2021-12-30 12:28:08 公開日:2021-12-28
# カプセルネットワークを用いた高次元データセットの異常検出

Anomaly Detection using Capsule Networks for High-dimensional Datasets ( http://arxiv.org/abs/2112.13514v2 )

ライセンス: Link先を確認
Inderjeet Singh and Nandyala Hemachandra(参考訳) 異常検出は機械学習の重要な問題である。 アプリケーション領域には、ネットワークセキュリティ、医療、不正検出など、高次元データセットが含まれる。 典型的な異常検出システムは、クラス間のサンプルサイズが大きく異なるという形で常にクラス不均衡問題に直面している。 クラスオーバーラップの問題が多い。 本研究は,異常検出タスクにカプセルネットワークを用いた。 我々の知る限りでは、これはカプセルネットワークが高次元複素データ設定における異常検出タスクのために解析される最初の事例である。 また,関連する新奇性および異常検出問題にも対処する。 カプセルネットワークのアーキテクチャはバイナリ分類タスクに好適に修正された。 カプセルネットワークは、内部カプセルアーキテクチャで捉えた視点不変性や視点等価性の影響により、異常を検出するための優れた選択肢を提供する。 カプセルを含む第2層と第3層の6層非完全オートエンコーダアーキテクチャを用いた。 カプセルは動的ルーティングアルゴリズムを用いて訓練された。 私たちはオリジナルのMNISTデータセットから10ドルの不均衡データセットを作成し、カプセルネットワークのパフォーマンスを5ドルのベースラインモデルと比較しました。 我々の主要なテストセットは、ROC曲線の下でのマイノリティクラスとエリアに対するF1スコアである。 カプセルネットワークは,データレベルやアルゴリズムレベルでのアプローチを使わずに,トレーニングに10エポックしか使わないことで,異常検出タスクにおける他のすべてのベースラインモデルよりも優れていた。 その結果,カプセルネットワークは複雑な高次元不均衡データセットのモデル化に優れることがわかった。

Anomaly detection is an essential problem in machine learning. Application areas include network security, health care, fraud detection, etc., involving high-dimensional datasets. A typical anomaly detection system always faces the class-imbalance problem in the form of a vast difference in the sample sizes of different classes. They usually have class overlap problems. This study used a capsule network for the anomaly detection task. To the best of our knowledge, this is the first instance where a capsule network is analyzed for the anomaly detection task in a high-dimensional complex data setting. We also handle the related novelty and outlier detection problems. The architecture of the capsule network was suitably modified for a binary classification task. Capsule networks offer a good option for detecting anomalies due to the effect of viewpoint invariance captured in its predictions and viewpoint equivariance captured in internal capsule architecture. We used six-layered under-complete autoencoder architecture with second and third layers containing capsules. The capsules were trained using the dynamic routing algorithm. We created $10$-imbalanced datasets from the original MNIST dataset and compared the performance of the capsule network with $5$ baseline models. Our leading test set measures are F1-score for minority class and area under the ROC curve. We found that the capsule network outperformed every other baseline model on the anomaly detection task by using only ten epochs for training and without using any other data level and algorithm level approach. Thus, we conclude that capsule networks are excellent in modeling complex high-dimensional imbalanced datasets for the anomaly detection task.
翻訳日:2021-12-30 12:21:49 公開日:2021-12-28
# グラフ協調推論

Graph Collaborative Reasoning ( http://arxiv.org/abs/2112.13705v2 )

ライセンス: Link先を確認
Hanxiong Chen, Yunqi Li, Shaoyun Shi, Shuchang Liu, He Zhu and Yongfeng Zhang(参考訳) グラフはエンティティ間の関係情報を表現し、グラフ構造は検索、レコメンデーション、質問応答など多くの知的なタスクで広く使われている。 しかし、実際にはグラフ構造データの多くは不完全性に苦しむため、リンク予測は重要な研究課題となる。 リンク予測には多くのモデルが提案されているが,(1) 関連リンクからの豊富な情報を使わずにリンクを個別にモデル化する手法がほとんどであり,(2) 既存のモデルは連想学習に基づいて設計されており,考察されていない。 本稿では,グラフの論理的推論の観点から,グラフ上の関係推論に隣接リンク情報を利用するグラフ協調推論(GCR)を提案する。 グラフ構造を論理式に変換するための単純なアプローチを提供し、リンク予測タスクをニューラルネットワークの推論問題に変換することができる。 論理的制約付きニューラルネットワークを用いて、論理的表現に従ってネットワークアーキテクチャを構築し、モデルパラメータを効率的に学習し、統一アーキテクチャにおける微分可能な学習と記号的推論を橋渡しする。 本研究の有効性を示すために,一般的なベンチマークデータセットに基づくリンク予測やレコメンデーションなどのグラフ関連タスクの実験を行い,グラフコラボレーティブ推論手法により最先端のパフォーマンスを実現する。

Graphs can represent relational information among entities and graph structures are widely used in many intelligent tasks such as search, recommendation, and question answering. However, most of the graph-structured data in practice suffers from incompleteness, and thus link prediction becomes an important research problem. Though many models are proposed for link prediction, the following two problems are still less explored: (1) Most methods model each link independently without making use of the rich information from relevant links, and (2) existing models are mostly designed based on associative learning and do not take reasoning into consideration. With these concerns, in this paper, we propose Graph Collaborative Reasoning (GCR), which can use the neighbor link information for relational reasoning on graphs from logical reasoning perspectives. We provide a simple approach to translate a graph structure into logical expressions, so that the link prediction task can be converted into a neural logic reasoning problem. We apply logical constrained neural modules to build the network architecture according to the logical expression and use back propagation to efficiently learn the model parameters, which bridges differentiable learning and symbolic reasoning in a unified architecture. To show the effectiveness of our work, we conduct experiments on graph-related tasks such as link prediction and recommendation based on commonly used benchmark datasets, and our graph collaborative reasoning approach achieves state-of-the-art performance.
翻訳日:2021-12-30 12:21:31 公開日:2021-12-28
# Pedagogical Word Recommendation:L2学習者のためのパーソナライズされた語彙獲得のための新しいタスクとデータセット

Pedagogical Word Recommendation: A novel task and dataset on personalized vocabulary acquisition for L2 learners ( http://arxiv.org/abs/2112.13808v2 )

ライセンス: Link先を確認
Jamin Shin, Juneyoung Park(参考訳) 第二言語(L2)を学ぶとき、その非効率さと非効率さで生徒を非難する最も重要だが退屈な要素の1つは語彙習得、またはより単純に記憶する単語である。 それを踏まえて、学習者の語彙知識状態を追跡するパーソナライズされた教育用語彙レコメンデーションシステムは、両方の問題を解決することができるので、大きな学習への影響をもたらすだろう。 そこで本稿では, Pedagogical Word Recommendation (PWR) と呼ばれる新しいタスクのためのデータの提案と公開を行う。 PWRの主な目的は、学習者が既に見た他の単語に基づいて、ある単語を知っているかどうかを予測することである。 そこで我々は,このデータを,標準英語試験(TOEIC)を勉強する1万L2学習者に提供した知能学習システム(ITS)を介して収集する。 その特徴として、生徒は単語ブックを作成するために解決した質問から知らない単語を直接示すことができる。 最後に,探索的データ分析とともに,ニューラルコラボレーティブフィルタリング手法の評価結果を報告し,今後の研究のベースラインとしてのデータセットの効果と有効性について考察する。

When learning a second language (L2), one of the most important but tedious components that often demoralizes students with its ineffectiveness and inefficiency is vocabulary acquisition, or more simply put, memorizing words. In light of such, a personalized and educational vocabulary recommendation system that traces a learner's vocabulary knowledge state would have an immense learning impact as it could resolve both issues. Therefore, in this paper, we propose and release data for a novel task called Pedagogical Word Recommendation (PWR). The main goal of PWR is to predict whether a given learner knows a given word based on other words the learner has already seen. To elaborate, we collect this data via an Intelligent Tutoring System (ITS) that is serviced to ~1M L2 learners who study for the standardized English exam, TOEIC. As a feature of this ITS, students can directly indicate words they do not know from the questions they solved to create wordbooks. Finally, we report the evaluation results of a Neural Collaborative Filtering approach along with an exploratory data analysis and discuss the impact and efficacy of this dataset as a baseline for future studies on this task.
翻訳日:2021-12-30 12:21:07 公開日:2021-12-28
# AI-Bind:新しいタンパク質ターゲットとリガンドの結合予測を改善する

AI-Bind: Improving Binding Predictions for Novel Protein Targets and Ligands ( http://arxiv.org/abs/2112.13168v2 )

ライセンス: Link先を確認
Ayan Chatterjee, Omair Shafi Ahmed, Robin Walters, Zohair Shafi, Deisy Gysi, Rose Yu, Tina Eliassi-Rad, Albert-L\'aszl\'o Barab\'asi and Giulia Menichetti(参考訳) 新規な薬物標的相互作用(DTI)の同定は、薬物発見における臨界かつ速度制限のステップである。 同定過程を加速する深層学習モデルが提案されているが、最先端のモデルでは新しい構造(つまり、それまで見たことのない構造)に一般化できないことを示す。 この欠点の原因となるメカニズムを最初に明らかにし、ノードの特徴を学習するのではなく、タンパク質リガンド二部体ネットワークのトポロジを利用するショートカットにモデルがどのように依存しているかを示した。 次に,ネットワークベースのサンプリング戦略と教師なし事前学習を組み合わせたパイプラインであるai-bindを導入し,アノテーションの不均衡を制限し,新規タンパク質とリガンドの結合予測を改善する。 我々は,SARS-CoV-2ウイルスタンパク質と関連するヒトタンパク質に結合した薬剤や天然化合物を予測し,AI-Bindの価値を説明する。 また,これらの予測を自動ドッキングシミュレーションを用いて検証し,最近の実験結果と比較した。 AI-Bindは、ドラッグとターゲットの組み合わせを識別するための強力なハイスループットのアプローチを提供する。

Identifying novel drug-target interactions (DTI) is a critical and rate limiting step in drug discovery. While deep learning models have been proposed to accelerate the identification process, we show that state-of-the-art models fail to generalize to novel (i.e., never-before-seen) structures. We first unveil the mechanisms responsible for this shortcoming, demonstrating how models rely on shortcuts that leverage the topology of the protein-ligand bipartite network, rather than learning the node features. Then, we introduce AI-Bind, a pipeline that combines network-based sampling strategies with unsupervised pre-training, allowing us to limit the annotation imbalance and improve binding predictions for novel proteins and ligands. We illustrate the value of AI-Bind by predicting drugs and natural compounds with binding affinity to SARS-CoV-2 viral proteins and the associated human proteins. We also validate these predictions via auto-docking simulations and comparison with recent experimental evidence. Overall, AI-Bind offers a powerful high-throughput approach to identify drug-target combinations, with the potential of becoming a powerful tool in drug discovery.
翻訳日:2021-12-30 12:20:20 公開日:2021-12-28
# N-Omniglot:時空間スパースファウショット学習のための大規模ニューロモルフィックデータセット

N-Omniglot: a Large-scale Neuromorphic Dataset for Spatio-Temporal Sparse Few-shot Learning ( http://arxiv.org/abs/2112.13230v2 )

ライセンス: Link先を確認
Yang Li, Yiting Dong, Dongcheng Zhao, Yi Zeng(参考訳) ごくわずかの学習(サンプルの学習)は人間の脳の最も重要な能力の1つである。 しかし、現在の人工知能システムは、生物学的に妥当なスパイクニューラルネットワーク(SNN)のように、この能力を達成するのに難しい。 伝統的な数ショットの学習領域のデータセットは、時間的情報が少ない。 そして、ニューロモルフィックデータセットがないことは、SNNのための数発の学習を妨げている。 ここでは、dynamic vision sensor (dvs) を用いた最初のニューロモルフィックデータセット n-omniglot を提供する。 手書き文字のカテゴリは1623種類あり、クラスごとにサンプルは20種類しかない。 N-Omniglotは、高い予備性と極めて時間的コヒーレンスを持つSNNのためのニューロモルフィックデータセットの必要性を排除する。 さらに、このデータセットは、ストロークの時系列情報のために、数ショットの学習領域でSNNアルゴリズムを開発するための強力なチャレンジと適切なベンチマークを提供する。 またspykingバージョンでは,改良された近距離,畳み込みネットワーク,siamesenet,メタラーニングアルゴリズムも提供する。

Few-shot learning (learning with a few samples) is one of the most important capacities of the human brain. However, the current artificial intelligence systems meet difficulties in achieving this ability, so as the biologically plausible spiking neural networks (SNNs). Datasets for traditional few-shot learning domains provide few amounts of temporal information. And the absence of the neuromorphic datasets has hindered the development of few-shot learning for SNNs. Here, we provide the first neuromorphic dataset: N-Omniglot, using the Dynamic Vision Sensor (DVS). It contains 1623 categories of handwritten characters, with only 20 samples per class. N-Omniglot eliminates the need for a neuromorphic dataset for SNNs with high spareness and tremendous temporal coherence. Additionally, the dataset provides a powerful challenge and a suitable benchmark for developing SNNs algorithm in the few-shot learning domain due to the chronological information of strokes. We also provide the improved nearest neighbor, convolutional network, SiameseNet, and meta-learning algorithm in spiking version for verification.
翻訳日:2021-12-30 12:20:00 公開日:2021-12-28