このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211128となっている論文です。

PDF登録状況(公開日: 20211128)

TitleAuthorsAbstract論文公表日・翻訳日
# タスク認識パラメータ化を用いたマルチドメイン音声言語理解

Multi-Domain Spoken Language Understanding Using Domain- and Task-Aware Parameterization ( http://arxiv.org/abs/2004.14871v2 )

ライセンス: Link先を確認
Libo Qin, Minheng Ni, Yue Zhang, Wanxiang Che, Yangming Li, Ting Liu(参考訳) 音声言語理解は、各ドメインでトレーニングデータのセットが利用できる教師付き学習問題として対処されてきた。 しかし、各ドメインのデータアノテートは金銭的にコストがかかり、スケールできないため、すべてのドメインにまたがる情報を完全に活用する必要がある。 既存の1つのアプローチは、ドメイン間の共同トレーニングに共有パラメータを使用して、マルチドメイン学習を行うことによって問題を解決する。 本稿では、知識学習と伝達を改善するために、ドメイン固有およびタスク固有モデルパラメータを用いて、この手法のパラメータ化を改善することを提案する。 5領域の実験により,本モデルは多領域SLUに対してより有効であり,最良の結果が得られることが示された。 さらに,データ量が少ない新しいドメインに適応した場合,事前のベストモデルを12.4\%上回ることでその転送可能性を示す。

Spoken language understanding has been addressed as a supervised learning problem, where a set of training data is available for each domain. However, annotating data for each domain is both financially costly and non-scalable so we should fully utilize information across all domains. One existing approach solves the problem by conducting multi-domain learning, using shared parameters for joint training across domains. We propose to improve the parameterization of this method by using domain-specific and task-specific model parameters to improve knowledge learning and transfer. Experiments on 5 domains show that our model is more effective for multi-domain SLU and obtain the best results. In addition, we show its transferability by outperforming the prior best model by 12.4\% when adapting to a new domain with little data.
翻訳日:2022-12-08 04:23:27 公開日:2021-11-28
# 注意融合を用いたマルチモーダル自動音声スコアリング

Multi-modal Automated Speech Scoring using Attention Fusion ( http://arxiv.org/abs/2005.08182v2 )

ライセンス: Link先を確認
Manraj Singh Grover, Yaman Kumar, Sumit Sarin, Payman Vafaee, Mika Hama, Rajiv Ratn Shah(参考訳) 本研究では,非母国英語話者の自発音声の自動評価のためのマルチモーダル・エンド・ツー・エンド・ニューラルアプローチを提案する。 このパイプラインは、双方向のリカレント畳み込みニューラルネットワークと双方向の長期記憶ニューラルネットワークを使用して、それぞれスペクトログラムと転写から音響的および語彙的手がかりを符号化する。 これらの学習した予測特徴に対して注意融合を行い、最終スコアの前に異なるモーダル間の複雑な相互作用を学習する。 本モデルと強力なベースラインを比較し,語彙的および音響的手がかりを組み合わせることで,システム全体の性能が著しく向上することを示す。 さらに,本モデルの質的,定量的な分析を行う。

In this study, we propose a novel multi-modal end-to-end neural approach for automated assessment of non-native English speakers' spontaneous speech using attention fusion. The pipeline employs Bi-directional Recurrent Convolutional Neural Networks and Bi-directional Long Short-Term Memory Neural Networks to encode acoustic and lexical cues from spectrograms and transcriptions, respectively. Attention fusion is performed on these learned predictive features to learn complex interactions between different modalities before final scoring. We compare our model with strong baselines and find combined attention to both lexical and acoustic cues significantly improves the overall performance of the system. Further, we present a qualitative and quantitative analysis of our model.
翻訳日:2022-12-02 05:53:07 公開日:2021-11-28
# audino: 音声と音声のための現代的なアノテーションツール

audino: A Modern Annotation Tool for Audio and Speech ( http://arxiv.org/abs/2006.05236v2 )

ライセンス: Link先を確認
Manraj Singh Grover, Pakhi Bamdev, Ratin Kumar Brala, Yaman Kumar, Mika Hama, Rajiv Ratn Shah(参考訳) 本稿では,音声と音声の協調的かつ現代的なアノテーションツールであるAudinoを紹介する。 このツールは、アノテータが音声の時間分割を定義し、記述することができる。 これらのセグメントは動的に生成された形式を使って簡単にラベル付け・転写することができる。 管理者は、管理者ダッシュボードを通じて、ユーザの役割とプロジェクト割り当てを集中的に制御することができる。 ダッシュボードではラベルとその値の記述も可能だ。 アノテーションはJSON形式で簡単にエクスポートでき、さらなる分析が可能になる。 このツールは、キーベースのAPIを通じてオーディオデータとそのアノテーションをアップロードし、ユーザに割り当てることを可能にする。 このアノテーションツールで利用可能な柔軟性は、音声スコアリング、音声アクティビティ検出(vad)、話者ダイアリゼーション、話者識別、音声認識、感情認識タスクなどのアノテーションを可能にする。 mitオープンソースライセンスは、学術的および商業的なプロジェクトに利用することができる。

In this paper, we introduce a collaborative and modern annotation tool for audio and speech: audino. The tool allows annotators to define and describe temporal segmentation in audios. These segments can be labelled and transcribed easily using a dynamically generated form. An admin can centrally control user roles and project assignment through the admin dashboard. The dashboard also enables describing labels and their values. The annotations can easily be exported in JSON format for further analysis. The tool allows audio data and their corresponding annotations to be uploaded and assigned to a user through a key-based API. The flexibility available in the annotation tool enables annotation for Speech Scoring, Voice Activity Detection (VAD), Speaker Diarisation, Speaker Identification, Speech Recognition, Emotion Recognition tasks and more. The MIT open source license allows it to be used for academic and commercial projects.
翻訳日:2022-11-23 15:20:30 公開日:2021-11-28
# 選択的特徴共有に基づく表情認識と合成のための深層マルチタスク学習

Deep Multi-task Learning for Facial Expression Recognition and Synthesis Based on Selective Feature Sharing ( http://arxiv.org/abs/2007.04514v2 )

ライセンス: Link先を確認
Rui Zhao, Tianshan Liu, Jun Xiao, Daniel P.K. Lun, Kin-Man Lam(参考訳) マルチタスク学習は、ディープラーニングに基づく表情認識タスクの効果的な学習戦略である。 しかし、既存の手法の多くは、異なるタスク間で情報を転送する際に特徴の選択を限定的に考慮し、マルチタスクネットワークをトレーニングする際にタスクの干渉を引き起こす可能性がある。 この問題に対処するため,新しい特徴共有手法を提案し,表情認識と表情合成のためのマルチタスクネットワークを構築した。 提案手法は,無用かつ有害な情報をフィルタリングしながら,異なるタスク間で有用な特徴を効果的に伝達することができる。 さらに,顔表情合成タスクを用いてトレーニングデータセットを拡大・バランスさせ,提案手法の一般化能力をさらに向上させる。 実験結果から,本手法は表情認識ベンチマークにおいて最先端のパフォーマンスを実現し,実世界の表情認識問題に対する潜在的な解決策となる可能性が示唆された。

Multi-task learning is an effective learning strategy for deep-learning-based facial expression recognition tasks. However, most existing methods take into limited consideration the feature selection, when transferring information between different tasks, which may lead to task interference when training the multi-task networks. To address this problem, we propose a novel selective feature-sharing method, and establish a multi-task network for facial expression recognition and facial expression synthesis. The proposed method can effectively transfer beneficial features between different tasks, while filtering out useless and harmful information. Moreover, we employ the facial expression synthesis task to enlarge and balance the training dataset to further enhance the generalization ability of the proposed method. Experimental results show that the proposed method achieves state-of-the-art performance on those commonly used facial expression recognition benchmarks, which makes it a potential solution to real-world facial expression recognition problems.
翻訳日:2022-11-12 04:35:43 公開日:2021-11-28
# 組込みプラットフォーム上でのリアルタイムLiDARデータセグメンテーションのためのマルチスケールインタラクション

Multi-scale Interaction for Real-time LiDAR Data Segmentation on an Embedded Platform ( http://arxiv.org/abs/2008.09162v2 )

ライセンス: Link先を確認
Shijie Li, Xieyuanli Chen, Yun Liu, Dengxin Dai, Cyrill Stachniss, Juergen Gall(参考訳) LiDARデータのリアルタイムセマンティックセグメンテーションは、通常組み込みプラットフォームを備え、限られた計算資源を持つ自動運転車にとって重要である。 ポイントクラウド上で直接動作するアプローチでは,複雑な空間集約操作が使用されている。 したがって、組み込みシステムを使ったリアルタイムアプリケーションには適さない。 代替として、プロジェクションベースのメソッドはより効率的で、組み込みプラットフォーム上で実行できる。 しかし、現在の最先端のプロジェクションベース手法は、ポイントベース手法と同等の精度を達成せず、数百万のパラメータを使用する。 そこで本稿では,マルチスケールインタラクションネットワーク (minet) と呼ばれる,非常に効率的かつ高精度な投影ベース手法を提案する。 ネットワークは異なるスケールの複数のパスを使用し、スケール間の計算リソースのバランスをとる。 スケール間の追加の密接な相互作用は冗長な計算を避け、ネットワークを極めて効率的にする。 提案するネットワークは,精度,パラメータ数,実行時間の観点から,ポイントベース,イメージベース,投影ベースの手法より優れている。 さらに、ネットワークは組込みプラットフォーム上で毎秒24回以上のスキャンを処理し、LiDARセンサーのフレームレートよりも高い。 そのため、このネットワークは自動運転車に適している。

Real-time semantic segmentation of LiDAR data is crucial for autonomously driving vehicles, which are usually equipped with an embedded platform and have limited computational resources. Approaches that operate directly on the point cloud use complex spatial aggregation operations, which are very expensive and difficult to optimize for embedded platforms. They are therefore not suitable for real-time applications with embedded systems. As an alternative, projection-based methods are more efficient and can run on embedded platforms. However, the current state-of-the-art projection-based methods do not achieve the same accuracy as point-based methods and use millions of parameters. In this paper, we therefore propose a projection-based method, called Multi-scale Interaction Network (MINet), which is very efficient and accurate. The network uses multiple paths with different scales and balances the computational resources between the scales. Additional dense interactions between the scales avoid redundant computations and make the network highly efficient. The proposed network outperforms point-based, image-based, and projection-based methods in terms of accuracy, number of parameters, and runtime. Moreover, the network processes more than 24 scans per second on an embedded platform, which is higher than the framerates of LiDAR sensors. The network is therefore suitable for autonomous vehicles.
翻訳日:2022-10-27 03:50:36 公開日:2021-11-28
# 動的ベイズネットワークとマルコフ決定過程による構造物劣化の最適検査・維持計画

Optimal Inspection and Maintenance Planning for Deteriorating Structural Components through Dynamic Bayesian Networks and Markov Decision Processes ( http://arxiv.org/abs/2009.04547v2 )

ライセンス: Link先を確認
P. G. Morato, K.G. Papakonstantinou, C.P. Andriotis, J.S. Nielsen and P. Rigo(参考訳) 橋からオフショアプラットフォームや風力タービンに至るまでの土木・海洋工学システムは、疲労や腐食などの運用寿命を通じて劣化機構にさらされているため、効率的に管理されなければならない。 最適検査と維持方針の特定は、構造的障害に関連するリスクを効率的に制御することを目的として、不確実性下での複雑な逐次的意思決定問題の解を求める。 この複雑さに対処するため、リスクベースの検査計画手法は、しばしば動的ベイズネットワークによって支持され、決定問題を合理的に単純化するために予め定義されたヒューリスティックな決定ルールのセットを評価する。 しかし、結果として得られるポリシーは、決定規則の定義で考慮された限られた空間によって妥協される可能性がある。 この制限を回避するために、部分的に観測可能なマルコフ決定過程(POMDP)は、不確実な行動結果と観測の下での確率的最適制御の原理的な数学的方法論を提供し、最適動作を全状態確率分布の関数として規定する。 本稿では,動的ベイズネットワークとpomdpを統合して,最適検査と保守計画を行い,構造的信頼性の文脈で無限地平線pomdpと有限地平線pomdpの両方を開発するための定式化を行う。 提案手法は, 基礎となる計画最適化問題を解くための最先端のポイントベースpomdpソルバの能力を実証し, 疲労劣化を受ける構造成分について実装し, 実験を行った。 数値実験では,PMDPとヒューリスティック・ベースの政策を徹底的に比較し,従来の問題設定においても,PMDPのコストは従来よりも大幅に低減した。

Civil and maritime engineering systems, among others, from bridges to offshore platforms and wind turbines, must be efficiently managed as they are exposed to deterioration mechanisms throughout their operational life, such as fatigue or corrosion. Identifying optimal inspection and maintenance policies demands the solution of a complex sequential decision-making problem under uncertainty, with the main objective of efficiently controlling the risk associated with structural failures. Addressing this complexity, risk-based inspection planning methodologies, supported often by dynamic Bayesian networks, evaluate a set of pre-defined heuristic decision rules to reasonably simplify the decision problem. However, the resulting policies may be compromised by the limited space considered in the definition of the decision rules. Avoiding this limitation, Partially Observable Markov Decision Processes (POMDPs) provide a principled mathematical methodology for stochastic optimal control under uncertain action outcomes and observations, in which the optimal actions are prescribed as a function of the entire, dynamically updated, state probability distribution. In this paper, we combine dynamic Bayesian networks with POMDPs in a joint framework for optimal inspection and maintenance planning, and we provide the formulation for developing both infinite and finite horizon POMDPs in a structural reliability context. The proposed methodology is implemented and tested for the case of a structural component subject to fatigue deterioration, demonstrating the capability of state-of-the-art point-based POMDP solvers for solving the underlying planning optimization problem. Within the numerical experiments, POMDP and heuristic-based policies are thoroughly compared, and results showcase that POMDPs achieve substantially lower costs as compared to their counterparts, even for traditional problem settings.
翻訳日:2022-10-20 12:07:44 公開日:2021-11-28
# (参考訳) 物理・化学情報を利用した深層分子表現学習

Deep Molecular Representation Learning via Fusing Physical and Chemical Information ( http://arxiv.org/abs/2112.04624v1 )

ライセンス: CC BY-SA 4.0
Shuwen Yang, Ziyao Li, Guojie Song, Lingsheng Cai(参考訳) 分子表現学習は、深層学習と分子科学を組み合わせる最初の重要なステップである。 分子表現学習の限界を押し上げるために、分子の物理的および化学的情報を融合して分子表現を学習する新しい神経構造physchemを提案する。 PhysChemは物理学者ネットワーク(PhysNet)と化学者ネットワーク(ChemNet)で構成されている。 PhysNetは、分子動力学をパラメータ化された力でシミュレートすることで分子配座を学習する神経物理エンジンである。 2つのネットワークは自身のタスクを専門とし、互いに専門知識を提供することで協力する。 PhysChemは物理情報と化学情報を融合することで、標準的な分子機械学習ベンチマークであるMoleculeNet上で最先端のパフォーマンスを達成した。 PhysChemの有効性はSARS-CoV-2の最先端データセットにさらに裏付けられた。

Molecular representation learning is the first yet vital step in combining deep learning and molecular science. To push the boundaries of molecular representation learning, we present PhysChem, a novel neural architecture that learns molecular representations via fusing physical and chemical information of molecules. PhysChem is composed of a physicist network (PhysNet) and a chemist network (ChemNet). PhysNet is a neural physical engine that learns molecular conformations through simulating molecular dynamics with parameterized forces; ChemNet implements geometry-aware deep message-passing to learn chemical / biomedical properties of molecules. Two networks specialize in their own tasks and cooperate by providing expertise to each other. By fusing physical and chemical information, PhysChem achieved state-of-the-art performances on MoleculeNet, a standard molecular machine learning benchmark. The effectiveness of PhysChem was further corroborated on cutting-edge datasets of SARS-CoV-2.
翻訳日:2021-12-12 17:23:01 公開日:2021-11-28
# モバイルデバイスを用いた長期屋内位置推定のためのシームズニューラルエンコーダ

Siamese Neural Encoders for Long-Term Indoor Localization with Mobile Devices ( http://arxiv.org/abs/2112.00654v1 )

ライセンス: Link先を確認
Saideep Tiku and Sudeep Pasricha(参考訳) フィンガープリンティングに基づく屋内ローカライゼーションは、屋内ローカライズにおける人や資産の位置と追跡を強化するための新興アプリケーションドメインである。 ユビキタスで利用可能なWiFi信号と計算能力のあるスマートフォンのペアリングは、屋内ローカライゼーションの領域に革命をもたらす。 しかし、独立したwi-fiアクセスポイントからの観測信号特性は時間とともに大きく異なる。 さらに、初期展開フェーズで見えるいくつかのWiFiアクセスポイントは、時間とともに置き換えたり削除したりすることができる。 これらの要因は屋内のローカライズフレームワークでは無視されることが多く、配置後(数週間から数ヶ月)のローカライズ精度の段階的かつ破滅的な低下を引き起こす。 これらの課題を克服するため,本研究では,再トレーニングを必要とせず,現地化精度の低下を最大40%低減するsiameseニューラルエンコーダベースのフレームワークを提案する。

Fingerprinting-based indoor localization is an emerging application domain for enhanced positioning and tracking of people and assets within indoor locales. The superior pairing of ubiquitously available WiFi signals with computationally capable smartphones is set to revolutionize the area of indoor localization. However, the observed signal characteristics from independently maintained WiFi access points vary greatly over time. Moreover, some of the WiFi access points visible at the initial deployment phase may be replaced or removed over time. These factors are often ignored in indoor localization frameworks and cause gradual and catastrophic degradation of localization accuracy post-deployment (over weeks and months). To overcome these challenges, we propose a Siamese neural encoder-based framework that offers up to 40% reduction in degradation of localization accuracy over time compared to the state-of-the-art in the area, without requiring any retraining.
翻訳日:2021-12-02 13:35:13 公開日:2021-11-28
# (参考訳) FastTrees: より高速なシーケンスエンコーディングのための並列潜在木推論

FastTrees: Parallel Latent Tree-Induction for Faster Sequence Encoding ( http://arxiv.org/abs/2111.14031v1 )

ライセンス: CC BY 4.0
Bill Tuck Weng Pung, Alvin Chan(参考訳) 逐次データから潜木構造を誘導することは、今日のNLP研究の展望において、Gumbel LSTM や Ordered Neurons (ON-LSTM) といった最近の手法で広く普及している。 本稿では,高速シーケンス符号化のための汎用ニューラルネットワークFASTTREESを提案する。 再帰をツリー誘導に必要と考えるほとんどの先行研究と異なり、本研究は並列木誘導の概念、すなわち階層的帰納的バイアスを並列化可能で非自己回帰的手法でモデルに付与することを検討する。 この目的のために提案したFASTTREESは,言語モデリング,論理推論,感情分析,自然言語推論という,確立された4つのシーケンスモデリングタスクにおいて,ON-LSTMに対する競合的あるいは優れた性能を実現する。 さらに,FASTTREESモジュールをトランスフォーマーモデルの改良に適用し,3つの逐次変換タスク(機械翻訳,主語変換,数学的言語理解)の性能向上を実現し,モジュラーツリー帰納モジュールへの道を開いた。 全体として、論理推論タスクにおける既存の最先端モデルを+4%、数学的言語理解を+8%上回っている。

Inducing latent tree structures from sequential data is an emerging trend in the NLP research landscape today, largely popularized by recent methods such as Gumbel LSTM and Ordered Neurons (ON-LSTM). This paper proposes FASTTREES, a new general purpose neural module for fast sequence encoding. Unlike most previous works that consider recurrence to be necessary for tree induction, our work explores the notion of parallel tree induction, i.e., imbuing our model with hierarchical inductive biases in a parallelizable, non-autoregressive fashion. To this end, our proposed FASTTREES achieves competitive or superior performance to ON-LSTM on four well-established sequence modeling tasks, i.e., language modeling, logical inference, sentiment analysis and natural language inference. Moreover, we show that the FASTTREES module can be applied to enhance Transformer models, achieving performance gains on three sequence transduction tasks (machine translation, subject-verb agreement and mathematical language understanding), paving the way for modular tree induction modules. Overall, we outperform existing state-of-the-art models on logical inference tasks by +4% and mathematical language understanding by +8%.
翻訳日:2021-12-02 09:32:35 公開日:2021-11-28
# (参考訳) ORCHARD:多階層推論の体系的一般化のベンチマーク

ORCHARD: A Benchmark For Measuring Systematic Generalization of Multi-Hierarchical Reasoning ( http://arxiv.org/abs/2111.14034v1 )

ライセンス: CC BY 4.0
Bill Tuck Weng Pung, Alvin Chan(参考訳) 複数の階層構造で推論する能力は、自然言語処理における逐次帰納バイアスの魅力と望ましい性質である。 最先端のトランスフォーマーとLSTMアーキテクチャは、これらのバイアスを暗黙的にエンコードしているか? そこで本研究では,最先端ニューラルシーケンスモデルの階層的推論を体系的に評価する診断データセットであるorchardを提案する。 listopsや論理推論のような事前評価フレームワークはありましたが、私たちの研究は、モデルが複数の明示的な階層構造ではなく、複数の階層構造を推論することを学ぶための、新しい、より自然な設定を提示しています。 その結果,(1)変圧器とlstmのモデルが系統的一般化において驚くほど失敗し,(2)階層間の参照が増加すると,変圧器はランダムに動作しないことが示された。

The ability to reason with multiple hierarchical structures is an attractive and desirable property of sequential inductive biases for natural language processing. Do the state-of-the-art Transformers and LSTM architectures implicitly encode for these biases? To answer this, we propose ORCHARD, a diagnostic dataset for systematically evaluating hierarchical reasoning in state-of-the-art neural sequence models. While there have been prior evaluation frameworks such as ListOps or Logical Inference, our work presents a novel and more natural setting where our models learn to reason with multiple explicit hierarchical structures instead of only one, i.e., requiring the ability to do both long-term sequence memorizing, relational reasoning while reasoning with hierarchical structure. Consequently, backed by a set of rigorous experiments, we show that (1) Transformer and LSTM models surprisingly fail in systematic generalization, and (2) with increased references between hierarchies, Transformer performs no better than random.
翻訳日:2021-12-02 09:31:34 公開日:2021-11-28
# (参考訳) 不完全状態観測から山火事モデルを学ぶ

Learning Wildfire Model from Incomplete State Observations ( http://arxiv.org/abs/2111.14038v1 )

ライセンス: CC0 1.0
Alissa Chavalithumrong, Hyung-Jin Yoon, Petros Voulgaris(参考訳) 森林火災はより頻繁で深刻になると予想されるため、リスクを緩和し資源を割り当てるためには改善された予測モデルが不可欠である。 リモートセンシングデータでは、貴重な時空間統計モデルを作成し、リソース管理のプラクティスに使用できる。 本稿では,アメリカ合衆国西部の5か所の森林火災予測を,歴史的に燃えた地域と気候データを通じて深層ニューラルネットワークを用いて動的にモデル化する。 提案モデルは,動的オンライン推定や時系列モデリングなど,予測評価における特性ニーズに対応する特徴を有する。 場所間では、局所的な火災イベントトリガーは分離されず、不完全な状態観測のために局所的なデータが分析される際には、相反する要因が存在する。 また,山火事の時系列データ中の不完全な状態観測を考慮しない既存手法と比較して,平均して高い予測性能が得られる。

As wildfires are expected to become more frequent and severe, improved prediction models are vital to mitigating risk and allocating resources. With remote sensing data, valuable spatiotemporal statistical models can be created and used for resource management practices. In this paper, we create a dynamic model for future wildfire predictions of five locations within the western United States through a deep neural network via historical burned area and climate data. The proposed model has distinct features that address the characteristic need in prediction evaluations, including dynamic online estimation and time-series modeling. Between locations, local fire event triggers are not isolated, and there are confounding factors when local data is analyzed due to incomplete state observations. When compared to existing approaches that do not account for incomplete state observation within wildfire time-series data, on average, we are able to achieve higher prediction performances.
翻訳日:2021-12-02 09:24:29 公開日:2021-11-28
# (参考訳) 分子動力学のための最小作用電位経路の条件生成に向けて

Towards Conditional Generation of Minimal Action Potential Pathways for Molecular Dynamics ( http://arxiv.org/abs/2111.14053v1 )

ライセンス: CC BY 4.0
John Kevin Cava, John Vant, Nicholas Ho, Ankita Shulka, Pavan Turaga, Ross Maciejewski, and Abhishek Singharoy(参考訳) 本稿では、生成モデルにmdポテンシャルエネルギー成分を導入することにより、分子動力学(md)シミュレーションの問題に対して生成モデルを用い、再構成する。 トーチから計算されたポテンシャルエネルギーを条件付き生成枠組みに組み込むことにより、タンパク質のヘリックス〜$\rightarrow$~coil構造間の変換の低電位エネルギー経路を構築することを試みる。 本稿では,条件付き生成モデルに対して,分子配置の潜在的エネルギーに動機づけられた損失関数を付加する方法を示し,その拡張損失関数の最適化手法を提案する。 以上の結果から,現実的な分子軌道の合成における損失項の利点が示唆された。

In this paper, we utilized generative models, and reformulate it for problems in molecular dynamics (MD) simulation, by introducing an MD potential energy component to our generative model. By incorporating potential energy as calculated from TorchMD into a conditional generative framework, we attempt to construct a low-potential energy route of transformation between the helix~$\rightarrow$~coil structures of a protein. We show how to add an additional loss function to conditional generative models, motivated by potential energy of molecular configurations, and also present an optimization technique for such an augmented loss function. Our results show the benefit of this additional loss term on synthesizing realistic molecular trajectories.
翻訳日:2021-12-02 09:15:41 公開日:2021-11-28
# (参考訳) MIST-net:スパークビューCT再構成のためのマルチドメイン統合スウィントランスネットワーク

MIST-net: Multi-domain Integrative Swin Transformer network for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2111.14831v1 )

ライセンス: CC BY 4.0
Jiayi Pan, Weiwen Wu, Zhifan Gao and Heye Zhang(参考訳) 近年,深層学習に基づく断層画像再構成が注目されている。 スパースビューデータ再構成は典型的な逆問題の一つであり、数十の投影から高品質なCT画像を再構成する方法は、実際は難しい課題である。 この課題に対処するため,本稿ではマルチドメイン統合スウィントランスネットワーク(MIST-net)を提案する。 まず,提案するmist-netには,フレキシブルネットワークアーキテクチャを用いたデータ,残差データ,画像,残差画像からの豪華なドメイン特徴が組み込まれている。 ここでは、残差データと残差画像ドメインのネットワークコンポーネントをデータ一貫性モジュールとみなし、残差データと画像ドメインの両方の補間エラーを排除し、さらに画像の詳細を保持する。 第2に、画像特徴を検出し、さらに画像エッジを保護するため、トレーニング可能なsobelフィルタがネットワークに組み込まれ、エンコード復号能力が向上した。 第3に,従来のスウィン変圧器を用いて,さらに高品質な復元変圧器 (recformer) の設計を行い,復元性能の向上を図る。 RecformerはSwin変換器のパワーを継承し、再構成された画像のグローバルな特徴とローカルな特徴を捉えた。 48ビューの数値データセットを用いた実験により,提案するmist-netは,高度な未ロールネットワークを含む他の競合製品に比べて,機能回復とエッジ保護の少ない高い再構成画像品質を提供することを示した。 その結果,MIST-netも最高の性能を示した。 トレーニングしたネットワークは,48ビューで実心CTデータセットに転送され,再建の結果,MIST-netの利点がさらに検証され,臨床応用におけるMISTの優れた堅牢性も証明された。

The deep learning-based tomographic image reconstruction have been attracting much attention among these years. The sparse-view data reconstruction is one of typical underdetermined inverse problems, how to reconstruct high-quality CT images from dozens of projections is still a challenge in practice. To address this challenge, in this article we proposed a Multi-domain Integrative Swin Transformer network (MIST-net). First, the proposed MIST-net incorporated lavish domain features from data, residual-data, image, and residual-image using flexible network architectures. Here, the residual-data and residual-image domains network components can be considered as the data consistency module to eliminate interpolation errors in both residual data and image domains, and then further retain image details. Second, to detect the image features and further protect image edge, the trainable Sobel Filter was incorporated into the network to improve the encode-decode ability. Third, with the classical Swin transformer, we further designed the high-quality reconstruction transformer (i.e., Recformer) to improve the reconstruction performance. The Recformer inherited the power of Swin transformer to capture the global and local features of the reconstructed image. The experiments on the numerical datasets with 48 views demonstrated our proposed MIST-net provided higher reconstructed image quality with small feature recovery and edge protection than other competitors including the advanced unrolled networks. The quantitative results show that our MIST-net also obtained the best performance. The trained network was transferred to the real cardiac CT dataset with 48 views, the reconstruction results further validated the advantages of our MIST-net and further demonstrated the good robustness of our MIST in clinical applications.
翻訳日:2021-12-02 09:09:28 公開日:2021-11-28
# (参考訳) 組織組織組織検索のためのグラムバーコード

Gram Barcodes for Histopathology Tissue Texture Retrieval ( http://arxiv.org/abs/2111.15519v1 )

ライセンス: CC BY 4.0
Shalev Lifshitz, Abtin Riasatian, H.R. Tizhoosh(参考訳) 近年のデジタル病理学の進歩により、生検画像のデータベースを検索し、与えられた問合せ画像と類似した症例を見つけるための組織病理画像検索(hir)システムが必要である。 これらのHIRシステムにより、病理学者は、診断済みの数千件のケースにアクセスし、対応する病理報告の知識を活用することができる。 HIRシステムは数百万ギガピクセルの画像を扱う必要があるため、高速かつ正確な画像検索を可能にするため、コンパクトで表現豊かな画像特徴の抽出が可能である必要がある。 本稿では,HIRシステムの画像特徴としてグラムバーコードの応用を提案する。 ほとんどの特徴生成方式とは異なり、グラムバーコードは畳み込みニューラルネットワークの層における異なる特徴マップ間の相関を要約することで組織テクスチャを記述する高次統計に基づいている。 グラマーバーコード生成のためのトレーニング済みVGG19ネットワークを用いて3つの公開データセット上でHIR実験を行い、高い競争力を示す。

Recent advances in digital pathology have led to the need for Histopathology Image Retrieval (HIR) systems that search through databases of biopsy images to find similar cases to a given query image. These HIR systems allow pathologists to effortlessly and efficiently access thousands of previously diagnosed cases in order to exploit the knowledge in the corresponding pathology reports. Since HIR systems may have to deal with millions of gigapixel images, the extraction of compact and expressive image features must be available to allow for efficient and accurate retrieval. In this paper, we propose the application of Gram barcodes as image features for HIR systems. Unlike most feature generation schemes, Gram barcodes are based on high-order statistics that describe tissue texture by summarizing the correlations between different feature maps in layers of convolutional neural networks. We run HIR experiments on three public datasets using a pre-trained VGG19 network for Gram barcode generation and showcase highly competitive results.
翻訳日:2021-12-02 08:49:13 公開日:2021-11-28
# 重力n$-body問題に対するハミルトニアン帰納的バイアスをもつ神経シンプレクティック積分器

Neural Symplectic Integrator with Hamiltonian Inductive Bias for the Gravitational $N$-body Problem ( http://arxiv.org/abs/2111.15631v1 )

ライセンス: Link先を確認
Maxwell X. Cai, Simon Portegies Zwart, Damian Podareanu(参考訳) 互いの重力下でのN$天体の運動を予測するために、天体物理学において基本的に重要である重力$N$体問題は、通常、N>2$の一般的な解析解がないため、数値的に解決される。 n$-body問題はニューラルネットワーク(nn)によって正確に解決できるか? NNはエネルギーと軌道角運動量の長期保存を観測できるのか? Wistom & Holman (1991) のシンプレクティックマップに触発されて、ハミルトニアンを2体に分割する神経的な$N$ボディ積分器と、NNと近似する相互作用部を提示する。 私たちのニューラルシンプレクティックな$n$-bodyコードは、従来の$n$-bodyインテグレータから得られた基底真理ダイナミクスから逸脱することなく、一般的な3体システムを$10^{5}$ステップで統合します。 さらに、トレーニングセットに含まれないn$ボディーシステムの進化をうまく予測することで、優れた帰納的バイアスを示す。

The gravitational $N$-body problem, which is fundamentally important in astrophysics to predict the motion of $N$ celestial bodies under the mutual gravity of each other, is usually solved numerically because there is no known general analytical solution for $N>2$. Can an $N$-body problem be solved accurately by a neural network (NN)? Can a NN observe long-term conservation of energy and orbital angular momentum? Inspired by Wistom & Holman (1991)'s symplectic map, we present a neural $N$-body integrator for splitting the Hamiltonian into a two-body part, solvable analytically, and an interaction part that we approximate with a NN. Our neural symplectic $N$-body code integrates a general three-body system for $10^{5}$ steps without diverting from the ground truth dynamics obtained from a traditional $N$-body integrator. Moreover, it exhibits good inductive bias by successfully predicting the evolution of $N$-body systems that are no part of the training set.
翻訳日:2021-12-01 16:53:00 公開日:2021-11-28
# 騒音に悩まされている相手を検知する 雑音画像における逆検出のための条件変分オートエンコーダの活用

Detecting Adversaries, yet Faltering to Noise? Leveraging Conditional Variational AutoEncoders for Adversary Detection in the Presence of Noisy Images ( http://arxiv.org/abs/2111.15518v1 )

ライセンス: Link先を確認
Dvij Kalaria, Aritra Hazra and Partha Pratim Chakrabarti(参考訳) 画像識別におけるディープラーニングモデルの急速な進歩と利用の増加により、セキュリティは安全クリティカルなシステムへの展開において大きな関心事となっている。 ディープラーニングモデルの正確性と堅牢性は、トレーニングサンプルの純度に起因するため、ディープラーニングアーキテクチャは、しばしば敵の攻撃に影響を受けやすい。 敵対的攻撃は、通常画像に微妙な摂動を加えることでしばしば得られるが、それは主に人間には認識できないが、最先端の機械学習モデルをひどく混乱させる可能性がある。 通常の画像よりも微妙にインテリジェントな摂動やノイズが加わり、ディープニューラルネットワークによる壊滅的な分類につながるのはなぜでしょう? 統計的仮説テストにより,条件変分オートエンコーダ(CVAE)は画像摂動を検出するのに驚くほど優れていることがわかった。 本稿では,画像分類ネットワーク上での敵攻撃の検出にCVAEを効果的に利用する方法を示す。 mnist,cifar-10データセット上での結果を実証し,既存の手法のほとんどが劣化するノイズ画像と混同されないようにして,最先端の手法と同等の性能を与える方法を示す。

With the rapid advancement and increased use of deep learning models in image identification, security becomes a major concern to their deployment in safety-critical systems. Since the accuracy and robustness of deep learning models are primarily attributed from the purity of the training samples, therefore the deep learning architectures are often susceptible to adversarial attacks. Adversarial attacks are often obtained by making subtle perturbations to normal images, which are mostly imperceptible to humans, but can seriously confuse the state-of-the-art machine learning models. What is so special in the slightest intelligent perturbations or noise additions over normal images that it leads to catastrophic classifications by the deep neural networks? Using statistical hypothesis testing, we find that Conditional Variational AutoEncoders (CVAE) are surprisingly good at detecting imperceptible image perturbations. In this paper, we show how CVAEs can be effectively used to detect adversarial attacks on image classification networks. We demonstrate our results over MNIST, CIFAR-10 dataset and show how our method gives comparable performance to the state-of-the-art methods in detecting adversaries while not getting confused with noisy images, where most of the existing methods falter.
翻訳日:2021-12-01 15:52:23 公開日:2021-11-28
# (参考訳) papooling: 点雲内の局所幾何のグラフに基づく位置適応アグリゲーション

PAPooling: Graph-based Position Adaptive Aggregation of Local Geometry in Point Clouds ( http://arxiv.org/abs/2111.14067v1 )

ライセンス: CC BY 4.0
Jie Wang, Jianan Li, Lihe Ding, Ying Wang, Tingfa Xu(参考訳) 局所領域における点特徴の集約によって得られる微細な幾何学は、点雲における物体認識とシーン理解に不可欠である。 それにもかかわらず、既存の特筆すべきポイントクラウドバックボーンは、通常、局所的な特徴集約のためにmax/averageプールを組み込んでいる。 このボトルネックを緩和するために,新しいグラフ表現を用いて局所点間の空間関係を明示的にモデル化し,特徴を位置適応的に集約する,maxプーリング,位置適応プーリング(papooling)に代わる効率的な手法を提案する。 具体的には、グラフ構築と特徴集約という2つの重要なステップで構成され、グラフ畳み込みネットワーク(GCN)を通して生成された重みに基づいて、相対的な位置情報をチャネルワイドの減衰重みにマッピングするために、中心点と近傍のすべての点をリンクするエッジを持つグラフを構築する。 PAPoolingはシンプルで効果的で、プラグイン・アンド・プレイのオペレータとしてPointNet++やDGCNNのような一般的なバックボーンで使えるほど柔軟である。 3次元形状分類、部分分割、シーンセグメンテーションといった様々なタスクに関する大規模な実験は、PAPoolingが計算オーバーヘッドを最小限に抑えながら予測精度を大幅に改善できることを示した。 コードはリリースされる。

Fine-grained geometry, captured by aggregation of point features in local regions, is crucial for object recognition and scene understanding in point clouds. Nevertheless, existing preeminent point cloud backbones usually incorporate max/average pooling for local feature aggregation, which largely ignores points' positional distribution, leading to inadequate assembling of fine-grained structures. To mitigate this bottleneck, we present an efficient alternative to max pooling, Position Adaptive Pooling (PAPooling), that explicitly models spatial relations among local points using a novel graph representation, and aggregates features in a position adaptive manner, enabling position-sensitive representation of aggregated features. Specifically, PAPooling consists of two key steps, Graph Construction and Feature Aggregation, respectively in charge of constructing a graph with edges linking the center point with every neighboring point in a local region to map their relative positional information to channel-wise attentive weights, and adaptively aggregating local point features based on the generated weights through Graph Convolution Network (GCN). PAPooling is simple yet effective, and flexible enough to be ready to use for different popular backbones like PointNet++ and DGCNN, as a plug-andplay operator. Extensive experiments on various tasks ranging from 3D shape classification, part segmentation to scene segmentation well demonstrate that PAPooling can significantly improve predictive accuracy, while with minimal extra computational overhead. Code will be released.
翻訳日:2021-12-01 13:50:47 公開日:2021-11-28
# (参考訳) OCR改善のための画像前処理と適応しきい値調整

Image preprocessing and modified adaptive thresholding for improving OCR ( http://arxiv.org/abs/2111.14075v1 )

ライセンス: CC BY 4.0
Rohan Lal Kshetry(参考訳) 本稿では,テキスト中の大きな画素強度を検出し,画像のしきい値化を行い,光学的文字認識(ocr)モデルへの利用を容易にする手法を提案する。 本手法では,画像全体を編集する代わりに,テキスト境界や色以外のすべての特徴を除去する。 本手法では,入力画像からの文字のグレースケール強度をしきい値パラメータの1つとして用いる。 PyTesseract による OCR に次いで, 画像処理を伴わない入力画像を用いて, 開発モデルの性能を検証した。 得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。

In this paper I have proposed a method to find the major pixel intensity inside the text and thresholding an image accordingly to make it easier to be used for optical character recognition (OCR) models. In our method, instead of editing whole image, I are removing all other features except the text boundaries and the color filling them. In this approach, the grayscale intensity of the letters from the input image are used as one of thresholding parameters. The performance of the developed model is finally validated with input images, with and without image processing followed by OCR by PyTesseract. Based on the results obtained, it can be observed that this algorithm can be efficiently applied in the field of image processing for OCR.
翻訳日:2021-12-01 13:23:45 公開日:2021-11-28
# (参考訳) 複数の対話モードを有する接地的幸福な会話エージェント:予備的結果

A Grounded Well-being Conversational Agent with Multiple Interaction Modes: Preliminary Results ( http://arxiv.org/abs/2111.14083v1 )

ライセンス: CC BY 4.0
Xinxin Yan, and Ndapa Nakashole(参考訳) 健康、医療の警戒、監視を強化する技術が増えている。 しかし、忍耐強い関心にもかかわらず、そのような技術は採用率の低下に苦しむ。 この限定的な採用の1つの仮説は、医師と患者の出会いの中心となる人間の相互作用の喪失である。 本稿では,対面の医師と患者との対話の1つの側面を取り入れた会話エージェントによって,この制限に対処しようとする。 これは、医師が人体を指さしたり、患者が自分の体を指さして自分の状態を表現できるという、直接のシナリオに似ている。 さらに、エージェントには複数のインタラクションモードがあり、医療的質問応答だけでなく、一般的なトピックや現在のイベントに関する会話にも、患者がエージェントを使用する選択肢が増える可能性がある。 アバターと複数の相互作用モードの両方が、付着性を改善するのに役立つ。 本稿では,我々のエージェントであるmarie bot wellbeingの設計の概要を紹介する。 また、初期プロトタイプの実装の詳細を報告し、予備的な結果を示す。

Technologies for enhancing well-being, healthcare vigilance and monitoring are on the rise. However, despite patient interest, such technologies suffer from low adoption. One hypothesis for this limited adoption is loss of human interaction that is central to doctor-patient encounters. In this paper we seek to address this limitation via a conversational agent that adopts one aspect of in-person doctor-patient interactions: A human avatar to facilitate medical grounded question answering. This is akin to the in-person scenario where the doctor may point to the human body or the patient may point to their own body to express their conditions. Additionally, our agent has multiple interaction modes, that may give more options for the patient to use the agent, not just for medical question answering, but also to engage in conversations about general topics and current events. Both the avatar, and the multiple interaction modes could help improve adherence. We present a high level overview of the design of our agent, Marie Bot Wellbeing. We also report implementation details of our early prototype , and present preliminary results.
翻訳日:2021-12-01 13:20:30 公開日:2021-11-28
# (参考訳) 深層学習による多基準解釈可能性

Multicriteria interpretability driven Deep Learning ( http://arxiv.org/abs/2111.14088v1 )

ライセンス: CC BY-SA 4.0
Marco Repetto(参考訳) ディープラーニングの手法はパフォーマンスで有名だが、その解釈可能性の欠如は、高い文脈での学習を妨げている。 最近のモデル非依存手法は、モデルの内部動作をリバースエンジニアリングすることで、ポストホックな解釈可能性メソッドを提供することでこの問題に対処している。 しかし、多くの規制分野において、当初から解釈可能性に留意すべきであり、つまり、ポストホック法はモデルトレーニング後の正当性チェックとしてのみ有効である。 抽象的な設定で開始からの解釈可能性(英: Interpretability)とは、知識を注入し、潜在的なバイアスを消滅させることによって、モデルの振る舞いにソフトな制約を課すことである。 本稿では,目的関数に知識を注入することで,モデルの結果に特徴的影響を制御できる多基準手法を提案する。 さらに,より複雑な効果と局所的な知識の欠如を考慮し,非線形知識関数を含む手法を拡張する。 その結果は、開始から解釈可能性を具現化し、最近の規制に適合するディープラーニングモデルとなった。 信用リスクに基づく実践的な事例では,データ不足に起因するバイアスを克服できる高性能かつ堅牢なモデルが提案されている。

Deep Learning methods are renowned for their performances, yet their lack of interpretability prevents them from high-stakes contexts. Recent model agnostic methods address this problem by providing post-hoc interpretability methods by reverse-engineering the model's inner workings. However, in many regulated fields, interpretability should be kept in mind from the start, which means that post-hoc methods are valid only as a sanity check after model training. Interpretability from the start, in an abstract setting, means posing a set of soft constraints on the model's behavior by injecting knowledge and annihilating possible biases. We propose a Multicriteria technique that allows to control the feature effects on the model's outcome by injecting knowledge in the objective function. We then extend the technique by including a non-linear knowledge function to account for more complex effects and local lack of knowledge. The result is a Deep Learning model that embodies interpretability from the start and aligns with the recent regulations. A practical empirical example based on credit risk, suggests that our approach creates performant yet robust models capable of overcoming biases derived from data scarcity.
翻訳日:2021-12-01 11:45:37 公開日:2021-11-28
# (参考訳) Deep MAGSAC++

Deep MAGSAC++ ( http://arxiv.org/abs/2111.14093v1 )

ライセンス: CC BY 4.0
Wei Tong, Jiri Matas, Daniel Barath(参考訳) 本稿では,従来の頑健な推定器の利点を組み合わせたDeep MAGSAC++を提案する。 幾何的に正当化可能な方法で,部分的アフィン共変特徴(例えばsift)から方向とスケールを利用する新たな損失関数を導入する。 新しい損失は、下層のシーン幾何学に関する高次情報を学ぶのに役立つ。 さらに, RANSAC 用の新しいサンプリング器を提案し, インレーヤのみを構成する確率が最も高いサンプルを常に選択する。 反復が失敗すると、確率はベイズ的アプローチによって原則的に更新される。 ディープ・ネットワークの予測は、サンプリング器内の事前予測として利用される。 新たな損失、提案されたサンプル、および多くの技術的進歩により、Deep MAGSAC++は、基本的および基本的行列推定のために公開されているデータセットから数千の画像ペアの精度と実行時間の両方において、最先端技術よりも優れている。

We propose Deep MAGSAC++ combining the advantages of traditional and deep robust estimators. We introduce a novel loss function that exploits the orientation and scale from partially affine covariant features, e.g., SIFT, in a geometrically justifiable manner. The new loss helps in learning higher-order information about the underlying scene geometry. Moreover, we propose a new sampler for RANSAC that always selects the sample with the highest probability of consisting only of inliers. After every unsuccessful iteration, the probabilities are updated in a principled way via a Bayesian approach. The prediction of the deep network is exploited as prior inside the sampler. Benefiting from the new loss, the proposed sampler, and a number of technical advancements, Deep MAGSAC++ is superior to the state-of-the-art both in terms of accuracy and run-time on thousands of image pairs from publicly available datasets for essential and fundamental matrix estimation.
翻訳日:2021-12-01 11:14:46 公開日:2021-11-28
# (参考訳) CHARTER:熱マップに基づくマルチタイプチャートデータ抽出

CHARTER: heatmap-based multi-type chart data extraction ( http://arxiv.org/abs/2111.14103v1 )

ライセンス: CC BY-SA 4.0
Joseph Shtok, Sivan Harary, Ophir Azulai, Adi Raz Goldfarb, Assaf Arbelle, Leonid Karlinsky(参考訳) ドキュメントに格納された情報のデジタル変換は、大きな知識の源泉です。 文書テキストとは対照的に、チャートやプロットといった埋め込みドキュメントのグラフィックの変換は、あまり研究されていない。 本稿では,ドキュメントチャートのエンドツーエンド変換を機械可読性表型データ形式に変換する方法とシステムを提案する。 提案手法は,図形要素とともにチャートを抽出,解析し,伝説,軸,タイトル,キャプションなどの構造を支援する。 検出システムはニューラルネットワークに基づいて,データ収集の制限要因を排除し,合成データのみを訓練する。 境界ボックスを用いてグラフィカル要素を検出する従来の手法とは対照的に,我々のネットワークは,矩形境界ボックス推定に適合しないパイチャート,ラインおよび散乱プロットの正確な検出を可能にする,補助領域固有のヒートマップを特徴付ける。 定性的および定量的な結果は、一般的なベンチマークにおける以前の研究よりも高い堅牢性と精度を示す

The digital conversion of information stored in documents is a great source of knowledge. In contrast to the documents text, the conversion of the embedded documents graphics, such as charts and plots, has been much less explored. We present a method and a system for end-to-end conversion of document charts into machine readable tabular data format, which can be easily stored and analyzed in the digital domain. Our approach extracts and analyses charts along with their graphical elements and supporting structures such as legends, axes, titles, and captions. Our detection system is based on neural networks, trained solely on synthetic data, eliminating the limiting factor of data collection. As opposed to previous methods, which detect graphical elements using bounding-boxes, our networks feature auxiliary domain specific heatmaps prediction enabling the precise detection of pie charts, line and scatter plots which do not fit the rectangular bounding-box presumption. Qualitative and quantitative results show high robustness and precision, improving upon previous works on popular benchmarks
翻訳日:2021-12-01 10:40:10 公開日:2021-11-28
# (参考訳) 参考情報を用いた学術論文からのキーワード抽出の促進

Enhancing Keyphrase Extraction from Academic Articles with their Reference Information ( http://arxiv.org/abs/2111.14106v1 )

ライセンス: CC BY 4.0
Chengzhi Zhang, Lei Zhao, Mengyuan Zhao, Yingyi Zhang(参考訳) インターネット技術の発展とともに、情報過剰の現象はますます顕著になりつつある。 ユーザが必要な情報を取得するには、多くの時間が必要です。 しかし、文書情報を高度に要約するキーフレーズは、ユーザが文書を素早く入手し理解するのに役立ちます。 学術資源については、ほとんどの既存の研究が論文のタイトルと要約を通じてキーフレーズを抽出している。 参照中のタイトル情報は、著者が指定したキーフレーズも含んでいる。 そこで本研究では,参照情報を用いて,非教師付き抽出法(tf*idfとtextrank),代表的な教師付き学習アルゴリズム(na\"ive bayes and conditional random field)と教師付きディープラーニングモデル(bilstm-crf)の2つの典型的な手法を適用し,キーフレーズ抽出における基準情報の特定性能を分析する。 原文の拡張の観点からキーフレーズ認識の質を向上させることが期待されている。 実験の結果,基準情報はキーフレーズの自動抽出の精度,リコール,f1をある程度向上できることがわかった。 これは,学術論文のキーフレーズ抽出における参照情報の有用性を示し,自動キーフレーズ抽出に関する新たな研究のアイデアを提供する。

With the development of Internet technology, the phenomenon of information overload is becoming more and more obvious. It takes a lot of time for users to obtain the information they need. However, keyphrases that summarize document information highly are helpful for users to quickly obtain and understand documents. For academic resources, most existing studies extract keyphrases through the title and abstract of papers. We find that title information in references also contains author-assigned keyphrases. Therefore, this article uses reference information and applies two typical methods of unsupervised extraction methods (TF*IDF and TextRank), two representative traditional supervised learning algorithms (Na\"ive Bayes and Conditional Random Field) and a supervised deep learning model (BiLSTM-CRF), to analyze the specific performance of reference information on keyphrase extraction. It is expected to improve the quality of keyphrase recognition from the perspective of expanding the source text. The experimental results show that reference information can increase precision, recall, and F1 of automatic keyphrase extraction to a certain extent. This indicates the usefulness of reference information on keyphrase extraction of academic papers and provides a new idea for the following research on automatic keyphrase extraction.
翻訳日:2021-12-01 10:31:44 公開日:2021-11-28
# (参考訳) 文脈情報を用いた学術論文の構造関数の同定の促進

Enhancing Identification of Structure Function of Academic Articles Using Contextual Information ( http://arxiv.org/abs/2111.14110v1 )

ライセンス: CC BY 4.0
Bowen Ma, Chengzhi Zhang, Yuzhuo Wang, Sanhong Deng(参考訳) 文献資源の充実により、研究者は情報爆発と知識過剰の増大する問題に直面している。 研究者が文学を修得し知識を得るのを助けるため、学術文献の内容の意味構造を明らかにすることが本質的な研究課題となっている。 学術論文における章の構造関数の同定に関する研究において,深層学習モデルを用いて特徴入力の最適化を検討した研究はごくわずかであった。 これにより、研究課題に対するディープラーニングモデルの応用、最適化の可能性を制限する。 本稿ではACLカンファレンスの記事をコーパスとして取り上げる。 従来の機械学習モデルとディープラーニングモデルを用いて、様々な特徴入力に基づいて分類器を構築する。 実験結果から,(1)章の内容と比較すると,章題は学術論文の構造的機能を明らかにするのに有用であることが示唆された。 2) 相対的な位置は、伝統的なモデルを構築する上で価値のある特徴である。 3)(2)に触発され,さらに深層学習モデルに文脈情報を導入し,有意な結果を得た。 一方,200サンプルの非トレーニングサンプルを含むオープンテストでは,良好なマイグレーション能力を示す。 また,過去5年間のaclメイン・カンファレンスの論文にベスト・プラクティス・パフォーマンス・モデルに基づいて注釈を付け,コーパス全体の時系列分析を行った。 本研究は,複数の比較実験を通じて,本課題の実践的特徴とモデルを探索,要約し,関連するテキスト分類タスクへの参照を提供する。 最後に,現在のモデルの限界と欠点,さらなる最適化の方向性を示す。

With the enrichment of literature resources, researchers are facing the growing problem of information explosion and knowledge overload. To help scholars retrieve literature and acquire knowledge successfully, clarifying the semantic structure of the content in academic literature has become the essential research question. In the research on identifying the structure function of chapters in academic articles, only a few studies used the deep learning model and explored the optimization for feature input. This limits the application, optimization potential of deep learning models for the research task. This paper took articles of the ACL conference as the corpus. We employ the traditional machine learning models and deep learning models to construct the classifiers based on various feature input. Experimental results show that (1) Compared with the chapter content, the chapter title is more conducive to identifying the structure function of academic articles. (2) Relative position is a valuable feature for building traditional models. (3) Inspired by (2), this paper further introduces contextual information into the deep learning models and achieved significant results. Meanwhile, our models show good migration ability in the open test containing 200 sampled non-training samples. We also annotated the ACL main conference papers in recent five years based on the best practice performing models and performed a time series analysis of the overall corpus. This work explores and summarizes the practical features and models for this task through multiple comparative experiments and provides a reference for related text classification tasks. Finally, we indicate the limitations and shortcomings of the current model and the direction of further optimization.
翻訳日:2021-12-01 10:13:10 公開日:2021-11-28
# (参考訳) マルチタスク学習のためのクロスタスク一貫性学習フレームワーク

Cross-Task Consistency Learning Framework for Multi-Task Learning ( http://arxiv.org/abs/2111.14122v1 )

ライセンス: CC BY 4.0
Akihiro Nakano, Shi Chen, and Kazuyuki Demachi(参考訳) マルチタスク学習(MTL)は,タスク間の関係を利用して複数のタスクを共同学習するモデルを訓練する深層学習の活発な分野である。 MTLは、各タスクを個別に学習する場合と比較して、学習した特徴をタスク間で共有し、予測を強化するのに役立つことが示されている。 本稿では,あるタスクの予測を他のネットワークへの入力として利用し,他のタスクを予測する2タスクmtl問題に対する新しい学習フレームワークを提案する。 サイクル一貫性損失とコントラスト学習,アライメント損失,クロスタスク整合損失の2つの新たな損失項を定義した。 どちらの損失もモデルを強制して複数のタスクの予測を整列させ、モデルを一貫して予測するように設計されている。 理論的には、どちらの損失もモデルをより効率的に学習する上で有効であり、直進予測との整合性損失の方が優れていることを証明している。 実験の結果,提案モデルがベンチマーク都市景観とnyuデータセットで有意な性能を得られた。

Multi-task learning (MTL) is an active field in deep learning in which we train a model to jointly learn multiple tasks by exploiting relationships between the tasks. It has been shown that MTL helps the model share the learned features between tasks and enhance predictions compared to when learning each task independently. We propose a new learning framework for 2-task MTL problem that uses the predictions of one task as inputs to another network to predict the other task. We define two new loss terms inspired by cycle-consistency loss and contrastive learning, alignment loss and cross-task consistency loss. Both losses are designed to enforce the model to align the predictions of multiple tasks so that the model predicts consistently. We theoretically prove that both losses help the model learn more efficiently and that cross-task consistency loss is better in terms of alignment with the straight-forward predictions. Experimental results also show that our proposed model achieves significant performance on the benchmark Cityscapes and NYU dataset.
翻訳日:2021-12-01 10:12:02 公開日:2021-11-28
# (参考訳) AirSPEC: 定義された空気質パラメータを検出し予測するための機械学習フレームワークを統合したIoTを利用した空気質モニタリングシステム

AirSPEC: An IoT-empowered Air Quality Monitoring System integrated with a Machine Learning Framework to Detect and Predict defined Air Quality parameters ( http://arxiv.org/abs/2111.14125v1 )

ライセンス: CC BY 4.0
Nuwan Bandara, Sahan Hettiarachchi and Phabhani Athukorala(参考訳) 我々を取り囲む空気は、全ての生命体の呼吸の根源である。 したがって、すべての生物の呼吸の健康、環境ホメオスタシス、さらには経済均衡にとって、バランスの取れた空気の質が最も重要であることは明らかである。 それにもかかわらず、過去数十年間、自動車や産業からの汚染された排ガスの大気への連続的な増加により、空気質の劣化が徐々に観察されてきた。 世界保健機関(WHO)を含む決定政党の継続的な努力は、この問題の深さをほとんど認識していないが、テクノロジー主導のイニシアチブにより、地域や世界的な規模の空気質をタイムリーに検知し、予測することで、質的に優れたグローバルエアホメオスタシスの枠を一貫して押し上げてきた。 しかし,空気質モニタリングのための既存のフレームワークは,リアルタイム応答性と柔軟なセマンティック分布の能力に欠けていた。 本稿では、機械学習モデルにより実装が容易で、セマンティックに分配可能で、強化された新しいモノのインターネットフレームワークを提案する。 提案システムは,公共の空気質センサネットワークを通じて取得した一次センサデータを処理,可視化,保存するNodeREDダッシュボードを備えており,さらに,そのダッシュボードを機械学習モデルに統合し,時空間および地理空間の大気質予測を行う。 ESP8266 NodeMCUは、メッセージキューングテレメトリトランスポートブローカーを介して、NodeREDダッシュボードのサブスクライバとして組み込まれ、定量的な空気品質データを通信したり、開発中のWebおよびモバイルアプリケーションを通じてエンドユーザにメールを警告する。 したがって,提案システムは,非抑圧的,データ駆動的,セマンティックなフレームワークを通じて,空気品質に対する公衆の関与を促進する上で非常に有益であると考えられる。

The air that surrounds us is the cardinal source of respiration of all life-forms. Therefore, it is undoubtedly vital to highlight that balanced air quality is utmost important to the respiratory health of all living beings, environmental homeostasis, and even economical equilibrium. Nevertheless, a gradual deterioration of air quality has been observed in the last few decades, due to the continuous increment of polluted emissions from automobiles and industries into the atmosphere. Even though many people have scarcely acknowledged the depth of the problem, the persistent efforts of determined parties, including the World Health Organization, have consistently pushed the boundaries for a qualitatively better global air homeostasis, by facilitating technology-driven initiatives to timely detect and predict air quality in regional and global scales. However, the existing frameworks for air quality monitoring lack the capability of real-time responsiveness and flexible semantic distribution. In this paper, a novel Internet of Things framework is proposed which is easily implementable, semantically distributive, and empowered by a machine learning model. The proposed system is equipped with a NodeRED dashboard which processes, visualizes, and stores the primary sensor data that are acquired through a public air quality sensor network, and further, the dashboard is integrated with a machine-learning model to obtain temporal and geo-spatial air quality predictions. ESP8266 NodeMCU is incorporated as a subscriber to the NodeRED dashboard via a message queuing telemetry transport broker to communicate quantitative air quality data or alarming emails to the end-users through the developed web and mobile applications. Therefore, the proposed system could become highly beneficial in empowering public engagement in air quality through an unoppressive, data-driven, and semantic framework.
翻訳日:2021-12-01 09:55:32 公開日:2021-11-28
# (参考訳) 重み付き局所化のためのウェイトマップの学習

Learning a Weight Map for Weakly-Supervised Localization ( http://arxiv.org/abs/2111.14131v1 )

ライセンス: CC BY 4.0
Tal Shaharabany and Lior Wolf(参考訳) 弱教師付きローカライズ設定では、画像レベルラベルとして監督が与えられる。 本稿では,画像分類器を$f$とし,入力画像から出力する生成ネットワーク$g$,画像内の物体の位置を示す画素単位の重みマップを提案する。 ネットワーク$g$は、元の画像上の分類器$f$の出力と、$g$の出力で重み付けられた同じ画像の出力との差を最小限にすることで訓練される。 このスキームは、$g$が一様ウェイトを提供しないことを保証する正規化項と、$g$が画像のオーバーセグメンテーションを防ぐための早期停止基準を必要とする。 提案手法は,既存の局所化手法よりも,難易度の高い分類データセットや汎用画像認識データセットよりも優れていることを示す。 さらに、得られた重みマップは、細粒度分類データセットにおける弱教師付きセグメンテーションにおいても最先端である。

In the weakly supervised localization setting, supervision is given as an image-level label. We propose to employ an image classifier $f$ and to train a generative network $g$ that outputs, given the input image, a per-pixel weight map that indicates the location of the object within the image. Network $g$ is trained by minimizing the discrepancy between the output of the classifier $f$ on the original image and its output given the same image weighted by the output of $g$. The scheme requires a regularization term that ensures that $g$ does not provide a uniform weight, and an early stopping criterion in order to prevent $g$ from over-segmenting the image. Our results indicate that the method outperforms existing localization methods by a sizable margin on the challenging fine-grained classification datasets, as well as a generic image recognition dataset. Additionally, the obtained weight map is also state-of-the-art in weakly supervised segmentation in fine-grained categorization datasets.
翻訳日:2021-12-01 09:48:15 公開日:2021-11-28
# (参考訳) FashionSearchNet-v2: 属性操作による画像検索のための局所化による属性表現の学習

FashionSearchNet-v2: Learning Attribute Representations with Localization for Image Retrieval with Attribute Manipulation ( http://arxiv.org/abs/2111.14145v1 )

ライセンス: CC BY 4.0
Kenan E. Ak, Joo Hwee Lim, Ying Sun, Jo Yew Tham, Ashraf A. Kassim(参考訳) 本稿では,属性操作による画像検索の問題に焦点をあてる。 提案手法は,クエリ画像の所望の属性を他の属性を維持しながら操作することができる。 例えば、クエリイメージのカラー属性をラウンドからvネックに変更して、大きなデータセットから類似したイメージを検索することができる。 eコマースの重要な課題は、画像がユーザーが操作したい複数の属性を持ち、これらの属性ごとに識別的特徴表現を推定することが重要であることである。 提案する fashionsearchnet-v2 アーキテクチャは,特徴空間における属性の無関係な特徴を無視し,類似性学習を改善する弱教師付きローカライズモジュールを利用することで,属性固有の表現を学習することができる。 ネットワークは属性分類と三重項ランキング損失の組み合わせで共同で訓練され、局所表現を推定する。 これらの局所表現は、指示された属性操作に基づいて単一のグローバル表現にマージされ、所望の画像は距離メトリックで取得できる。 提案手法は,検索プロセスの説明可能性も提供し,ネットワークの注意点に関する追加情報を提供する。 属性数で豊富なデータセットで行った実験は、fashionsearchnet-v2が他の最先端属性操作技術よりも優れていることを示している。 これまでの研究(FashionSearchNet)と異なり、学習手順のいくつかの改善を提案し、提案したFashionSearchNet-v2がファッション以外の分野に一般化可能であることを示す。

The focus of this paper is on the problem of image retrieval with attribute manipulation. Our proposed work is able to manipulate the desired attributes of the query image while maintaining its other attributes. For example, the collar attribute of the query image can be changed from round to v-neck to retrieve similar images from a large dataset. A key challenge in e-commerce is that images have multiple attributes where users would like to manipulate and it is important to estimate discriminative feature representations for each of these attributes. The proposed FashionSearchNet-v2 architecture is able to learn attribute specific representations by leveraging on its weakly-supervised localization module, which ignores the unrelated features of attributes in the feature space, thus improving the similarity learning. The network is jointly trained with the combination of attribute classification and triplet ranking loss to estimate local representations. These local representations are then merged into a single global representation based on the instructed attribute manipulation where desired images can be retrieved with a distance metric. The proposed method also provides explainability for its retrieval process to help provide additional information on the attention of the network. Experiments performed on several datasets that are rich in terms of the number of attributes show that FashionSearchNet-v2 outperforms the other state-of-the-art attribute manipulation techniques. Different than our earlier work (FashionSearchNet), we propose several improvements in the learning procedure and show that the proposed FashionSearchNet-v2 can be generalized to different domains other than fashion.
翻訳日:2021-12-01 09:33:59 公開日:2021-11-28
# (参考訳) 畳み込みネットワークにおけるインプシット等価性

Implicit Equivariance in Convolutional Networks ( http://arxiv.org/abs/2111.14157v1 )

ライセンス: CC BY 4.0
Naman Khetan, Tushar Arora, Samee Ur Rehman, Deepak K. Gupta(参考訳) 畳み込みニューラルネットワーク(CNN)は本質的に同変であるが、回転やスケールの変化といった他の変換を扱うための等価な埋め込み機構は持っていない。 設計によって他の変換群の下でcnnを同値にするいくつかのアプローチが存在する。 このうち、操縦可能なCNNは特に有効である。 しかし、これらのアプローチでは、複雑な解析関数を含む事前定義された基底の組み合わせからマッピングされたフィルタで標準ネットワークを再設計する必要がある。 基礎選択におけるこれらの制限が,主深層学習タスク(例えば,分類)に最適なモデル重み付けにつながることを実験的に実証した。 さらに,このような難解な明示的な定式化は,異種特徴群からなる複合ネットワークの設計を困難にしている。 このような問題を回避すべく,プライマリロスと等価損失項を組み合わせた多目的損失関数を最適化することにより,標準cnnモデルの異なる層に等分散を誘導する暗黙的同変ネットワーク(ien)を提案する。 rot-mnist ,rot-tinyimagenet,scale-mnist,stl-10 の vgg および resnet モデルを用いた実験により,ien は単純な定式化であっても,制御可能なネットワークよりも優れた性能を示す。 また、ienは、cnnのチャネル数を30%以上削減すると同時に、ベースラインと同等の性能を維持しながら、異種フィルタグループの構築を容易にする。 IENの有効性は、視覚的物体追跡の難しい問題に対してさらに検証される。 IENは、高速な推論速度を提供しながら、最先端の回転同変追跡法より優れていることを示す。

Convolutional Neural Networks(CNN) are inherently equivariant under translations, however, they do not have an equivalent embedded mechanism to handle other transformations such as rotations and change in scale. Several approaches exist that make CNNs equivariant under other transformation groups by design. Among these, steerable CNNs have been especially effective. However, these approaches require redesigning standard networks with filters mapped from combinations of predefined basis involving complex analytical functions. We experimentally demonstrate that these restrictions in the choice of basis can lead to model weights that are sub-optimal for the primary deep learning task (e.g. classification). Moreover, such hard-baked explicit formulations make it difficult to design composite networks comprising heterogeneous feature groups. To circumvent such issues, we propose Implicitly Equivariant Networks (IEN) which induce equivariance in the different layers of a standard CNN model by optimizing a multi-objective loss function that combines the primary loss with an equivariance loss term. Through experiments with VGG and ResNet models on Rot-MNIST , Rot-TinyImageNet, Scale-MNIST and STL-10 datasets, we show that IEN, even with its simple formulation, performs better than steerable networks. Also, IEN facilitates construction of heterogeneous filter groups allowing reduction in number of channels in CNNs by a factor of over 30% while maintaining performance on par with baselines. The efficacy of IEN is further validated on the hard problem of visual object tracking. We show that IEN outperforms the state-of-the-art rotation equivariant tracking method while providing faster inference speed.
翻訳日:2021-12-01 09:06:31 公開日:2021-11-28
# (参考訳) 新型コロナ後のuavによる群衆監視

UAV-based Crowd Surveillance in Post COVID-19 Era ( http://arxiv.org/abs/2111.14176v1 )

ライセンス: CC BY 4.0
Nizar Masmoudi, Wael Jaafar, Safa Cherif, Jihene Ben Abderrazak, Halim Yanikomeroglu(参考訳) 現在のパンデミックの状況に対応するため、マスク着用、ソーシャルディスタンシング、手指消毒など、いくつかの対策が実施・維持されている。 野外の文化行事、コンサート、ピクニックは次第に許可されるため、望ましくない接触や病気の伝染を避けるために、群衆の活動の密接な監視が必要である。 この文脈では、インテリジェント無人航空機(UAV)が時折配備され、これらの活動の監視、健康制限措置の適用、および後者が尊重されない場合の警告をトリガーすることができる。 そこで本稿では、新型コロナウイルス後野外活動のインテリジェントモニタリングのための完全なUAVフレームワークを提案する。 具体的には,3段階のアプローチを提案する。 最初のステップでは、UAVが捉えた画像を機械学習で分析し、個人を検出し、発見する。 第2のステップは、個人間の距離を評価し、クラスタ化するための新しい座標マッピングアプローチで構成され、第3のステップは、マスク着用などの制限違反を検査するためのエネルギー効率および/または信頼性のあるUAV軌道を提供する。 得られた結果は以下の洞察を与える。 1) 個体の効率的な検出は, 画像の撮影角度に依存する。 2)座標マッピングは個人の有界箱における推定誤差に非常に敏感であり, 3)UAV軌道設計アルゴリズムの2-Optは,低複雑さとほぼ最適性能のため,実時間展開に推奨される。

To cope with the current pandemic situation and reinstate pseudo-normal daily life, several measures have been deployed and maintained, such as mask wearing, social distancing, hands sanitizing, etc. Since outdoor cultural events, concerts, and picnics, are gradually allowed, a close monitoring of the crowd activity is needed to avoid undesired contact and disease transmission. In this context, intelligent unmanned aerial vehicles (UAVs) can be occasionally deployed to ensure the surveillance of these activities, that health restriction measures are applied, and to trigger alerts when the latter are not respected. Consequently, we propose in this paper a complete UAV framework for intelligent monitoring of post COVID-19 outdoor activities. Specifically, we propose a three steps approach. In the first step, captured images by a UAV are analyzed using machine learning to detect and locate individuals. The second step consists of a novel coordinates mapping approach to evaluate distances among individuals, then cluster them, while the third step provides an energy-efficient and/or reliable UAV trajectory to inspect clusters for restrictions violation such as mask wearing. Obtained results provide the following insights: 1) Efficient detection of individuals depends on the angle from which the image was captured, 2) coordinates mapping is very sensitive to the estimation error in individuals' bounding boxes, and 3) UAV trajectory design algorithm 2-Opt is recommended for practical real-time deployments due to its low-complexity and near-optimal performance.
翻訳日:2021-12-01 08:48:18 公開日:2021-11-28
# (参考訳) 多様なエージェント間のマルチエージェント強化学習の一般化と伝達能力の評価

Evaluating Generalization and Transfer Capacity of Multi-Agent Reinforcement Learning Across Variable Number of Agents ( http://arxiv.org/abs/2111.14177v1 )

ライセンス: CC BY 4.0
Bengisu Guresti, Nazim Kemal Ure(参考訳) マルチエージェント強化学習(MARL)問題は、タスクを解決するためにエージェント間の協調を必要とすることが多い。 中央集権化と分散化は、MARLにおける協力のための2つのアプローチである。 完全分散化メソッドは部分可観測性と非定常性のため、サブ最適ソリューションに収束しがちであるが、集中化を伴うメソッドはスケーラビリティの制限と遅延エージェントの問題に苦しむ。 集中型トレーニング 分散実行パラダイムは、これら2つのアプローチを最大限に活用する。しかしながら、集中型トレーニングは、獲得したコーディネーションパフォーマンスだけでなく、モデルのサイズとトレーニング時間についても、スケーラビリティの上限を依然として持っている。 本研究では,分散実行パラダイムを用いた集中型トレーニングを採用し,訓練モデルの一般化と伝達能力について,エージェント数にまたがって検討する。 このキャパシティは、特定のMARL問題におけるエージェントの可変数をトレーニングし、各トレーニング設定ごとにエージェントの可変数をグリージー評価することで評価される。 そこで我々は,各エージェント数の組み合わせによる評価性能を,トレーニングと評価の比較で分析した。 本研究は,捕食者用獲物およびトラヒックジャンクション環境における実験評価を行い,より少ないエージェントで訓練することで,類似または高い評価性能が得られることを示す。 トレーニングを行うエージェントの最適数は,対象エージェントの数と異なり,トレーニング中のエージェント数を直接増加させるよりも,多数のエージェント間での転送がスケールアップの効率的な解決策になる,という結論に達した。

Multi-agent Reinforcement Learning (MARL) problems often require cooperation among agents in order to solve a task. Centralization and decentralization are two approaches used for cooperation in MARL. While fully decentralized methods are prone to converge to suboptimal solutions due to partial observability and nonstationarity, the methods involving centralization suffer from scalability limitations and lazy agent problem. Centralized training decentralized execution paradigm brings out the best of these two approaches; however, centralized training still has an upper limit of scalability not only for acquired coordination performance but also for model size and training time. In this work, we adopt the centralized training with decentralized execution paradigm and investigate the generalization and transfer capacity of the trained models across variable number of agents. This capacity is assessed by training variable number of agents in a specific MARL problem and then performing greedy evaluations with variable number of agents for each training configuration. Thus, we analyze the evaluation performance for each combination of agent count for training versus evaluation. We perform experimental evaluations on predator prey and traffic junction environments and demonstrate that it is possible to obtain similar or higher evaluation performance by training with less agents. We conclude that optimal number of agents to perform training may differ from the target number of agents and argue that transfer across large number of agents can be a more efficient solution to scaling up than directly increasing number of agents during training.
翻訳日:2021-12-01 08:29:47 公開日:2021-11-28
# (参考訳) 対話における話題遷移の実証的研究

An Empirical Study of Topic Transition in Dialogue ( http://arxiv.org/abs/2111.14188v1 )

ライセンス: CC BY 4.0
Mayank Soni, Brendan Spillane, Emer Gilmartin, Christian Saam, Benjamin R. Cowan, Vincent Wade(参考訳) さまざまなトピック間の遷移は、人間と人間の自然な構成要素である。 トピックトランジションは何十年も対話で研究されてきたが、トピックトランジションの微妙な性質を分析するためのコーパスベースの研究はほんの一握りしか行われていない。 そこで本研究では,スイッチボードコーパスから215ドルの会話を注釈し,会話の長さ,話題遷移数,参加者による話題遷移の関連性について検討する。 本稿では,スイッチボードコーパスにおけるトピック遷移に関する実証的研究を,ドメイン内($id$)テストセットに対して8,3 %$,10$ \textit{out-of-domain}(ood$)で8,2 %$の精度でモデル化した。 この研究は、オープンドメインダイアログシステムにおいて、人間のような話題遷移をエミュレートする上で基本的なものであると想定されている。

Transitioning between various topics is a natural component of human-human. Although, topic transitions has been studied in dialogue for decades, only a handful of corpora based studies have been performed to analyze the subtleties in topic transitions. Thus, this study annotates $215$ conversations from switchboard corpus and studies how factors such as length of a conversation, number of topic transitions, topic transitions by participants are related. This paper presents an empirical study on topic transition in switchboard corpus followed by modelling topic transition with a precision of $83\%$ for in-domain($id$) test set and $82\%$ on $10$ \textit{out-of-domain} ($ood$). It is envisioned that this work will be fundamental in emulating human-human like topic transition in open-domain dialog systems.
翻訳日:2021-12-01 08:23:05 公開日:2021-11-28
# (参考訳) 最大エントロピー強化学習のためのカウントベース温度スケジューリング

Count-Based Temperature Scheduling for Maximum Entropy Reinforcement Learning ( http://arxiv.org/abs/2111.14204v1 )

ライセンス: CC BY 4.0
Dailin Hu, Pieter Abbeel, Roy Fox(参考訳) 最大エントロピー強化学習(MaxEnt RL)アルゴリズム(Soft Q-Learning (SQL)やSoft Actor-Critic)は報酬とポリシーのエントロピーをトレードオフし、トレーニングの安定性と堅牢性を改善する可能性がある。 しかし、ほとんどの最大rl法では一定のトレードオフ係数(温度)を用いるが、高値推定を信頼し、本当に良い報酬を得られるようにすることで、ノイズ値推定の過度さを回避し、トレーニングの後に低下させるため、トレーニングの早期に温度が高いべきであるという直観とは対照的である。 さらに、価値見積への信頼は状態依存であり、見積もりを更新するためにより多くのエビデンスを使用するたびに増加します。 本稿では, 簡単な状態ベース温度スケジューリング手法を提案し, CBSQL(Count-Based Soft Q-Learning)としてSQL用にインスタンス化する。 おもちゃのドメインといくつかのアタリ2600ドメインのアプローチを評価し,有望な結果を示した。

Maximum Entropy Reinforcement Learning (MaxEnt RL) algorithms such as Soft Q-Learning (SQL) and Soft Actor-Critic trade off reward and policy entropy, which has the potential to improve training stability and robustness. Most MaxEnt RL methods, however, use a constant tradeoff coefficient (temperature), contrary to the intuition that the temperature should be high early in training to avoid overfitting to noisy value estimates and decrease later in training as we increasingly trust high value estimates to truly lead to good rewards. Moreover, our confidence in value estimates is state-dependent, increasing every time we use more evidence to update an estimate. In this paper, we present a simple state-based temperature scheduling approach, and instantiate it for SQL as Count-Based Soft Q-Learning (CBSQL). We evaluate our approach on a toy domain as well as in several Atari 2600 domains and show promising results.
翻訳日:2021-12-01 08:15:10 公開日:2021-11-28
# (参考訳) ビジュアルコミュニケーションゲームにおける創発的なグラフィカルコンベンション

Emergent Graphical Conventions in a Visual Communication Game ( http://arxiv.org/abs/2111.14210v1 )

ライセンス: CC BY 4.0
Shuwen Qiu, Sirui Xie, Lifeng Fan, Tao Gao, Song-Chun Zhu, Yixin Zhu(参考訳) 人間は象徴言語とは別にグラフィカルなスケッチと通信する。 創発的コミュニケーションの最近の研究は主に象徴的言語に焦点を当てているが、それらの設定は人間のコミュニケーションに存在するグラフィカルなスケッチを見落としている。 本研究では,視覚的コミュニケーションゲームを行う2つのニューラルエージェントを介して,このような進化過程をモデル化し,シミュレートするための第一歩として,送信側がキャンバス上でスケッチすることで受信側と通信する。 エージェントがコミュニケーションの成功と抽象的なグラフィカルな慣習に向けて共同で進化する新しい強化学習法を考案する。 出現したコンベンションを検査するために,3つの重要な特性 – 共通性,象徴性,意味性 – を慎重に定義し,それに応じて設計評価手法を設計する。 異なる制御下での実験結果は,人間のグラフィカル・コンベンションの研究における観察と一致している。 注意すべき点として、進化したスケッチは適切な環境圧力下で意味論の連続性を維持することができる。 より興味深いことに、共進化エージェントは、参照者との親しみに基づいて、従来のコミュニケーションと象徴的なコミュニケーションを切り替えることができる。 本研究は,未発見のスケッチのモダリティによる創発的コミュニケーション研究の道を開くことを願っている。

Humans communicate with graphical sketches apart from symbolic languages. While recent studies of emergent communication primarily focus on symbolic languages, their settings overlook the graphical sketches existing in human communication; they do not account for the evolution process through which symbolic sign systems emerge in the trade-off between iconicity and symbolicity. In this work, we take the very first step to model and simulate such an evolution process via two neural agents playing a visual communication game; the sender communicates with the receiver by sketching on a canvas. We devise a novel reinforcement learning method such that agents are evolved jointly towards successful communication and abstract graphical conventions. To inspect the emerged conventions, we carefully define three key properties -- iconicity, symbolicity, and semanticity -- and design evaluation methods accordingly. Our experimental results under different controls are consistent with the observation in studies of human graphical conventions. Of note, we find that evolved sketches can preserve the continuum of semantics under proper environmental pressures. More interestingly, co-evolved agents can switch between conventionalized and iconic communication based on their familiarity with referents. We hope the present research can pave the path for studying emergent communication with the unexplored modality of sketches.
翻訳日:2021-12-01 08:03:23 公開日:2021-11-28
# (参考訳) GANを用いた一般化予測について

On Predicting Generalization using GANs ( http://arxiv.org/abs/2111.14212v1 )

ライセンス: CC BY 4.0
Yi Zhang, Arushi Gupta, Nikunj Saunshi, Sanjeev Arora(参考訳) ディープネットワークの一般化境界の研究は、トレーニングデータセットとネットワークパラメータだけでテストエラーを予測する方法を提供する。 一般化バウンダリは、アーキテクチャ設計やトレーニングアルゴリズムなどに関する多くの洞察を与えることができるが、それらが現在行っていないことは、実際のテストエラーに対する優れた予測である。 ディープラーニングにおける予測一般化(Predicting Generalization in Deep Learning)コンペティションは、テストエラーを予測する方法の発見を促進することを目的としている。 同じトレーニングデータセットでトレーニングされたgan(generative adversarial network)を使用して生成された'合成データ'を使って、テストエラーを予測できるのか? いくつかのganモデルとアーキテクチャを調査した結果、これが正しいことがわかった。 実際、標準データセットで事前トレーニングされたGANを使うことで、追加のハイパーパラメータチューニングを必要とせずにテストエラーを予測することができる。 この結果は、GANがよく知られた制限(例えばモード崩壊)を持ち、データの分布を正確に学ばないことで驚く。 しかし、生成されたサンプルはテストデータの代わりに十分です。 いくつかの実験で、GANがこのタスクでうまく機能する理由を探求している。 一般化を予測するための新しいアプローチに加えて、我々の研究で示された反直観的な現象は、GANの強みや限界をよりよく理解することにつながるかもしれない。

Research on generalization bounds for deep networks seeks to give ways to predict test error using just the training dataset and the network parameters. While generalization bounds can give many insights about architecture design, training algorithms etc., what they do not currently do is yield good predictions for actual test error. A recently introduced Predicting Generalization in Deep Learning competition aims to encourage discovery of methods to better predict test error. The current paper investigates a simple idea: can test error be predicted using 'synthetic data' produced using a Generative Adversarial Network (GAN) that was trained on the same training dataset? Upon investigating several GAN models and architectures, we find that this turns out to be the case. In fact, using GANs pre-trained on standard datasets, the test error can be predicted without requiring any additional hyper-parameter tuning. This result is surprising because GANs have well-known limitations (e.g. mode collapse) and are known to not learn the data distribution accurately. Yet the generated samples are good enough to substitute for test data. Several additional experiments are presented to explore reasons why GANs do well at this task. In addition to a new approach for predicting generalization, the counter-intuitive phenomena presented in our work may also call for a better understanding of GANs' strengths and limitations.
翻訳日:2021-12-01 07:47:23 公開日:2021-11-28
# (参考訳) 脳とアルゴリズムにおける長距離・階層的言語予測

Long-range and hierarchical language predictions in brains and algorithms ( http://arxiv.org/abs/2111.14232v1 )

ライセンス: CC BY 4.0
Charlotte Caucheteux, Alexandre Gramfort, Jean-Remi King(参考訳) ディープラーニングは最近、自然言語処理において著しい進歩を遂げている。 しかし、結果として得られるアルゴリズムは、人間の脳の言語能力と競合するほど遠くない。 深い言語アルゴリズムは隣接した単語を予測するために最適化されているが、人間の脳は長距離で階層的な予測を行うように調整される。 この仮説を検証するために、304人の被験者のfMRI脳信号を分析し、70分間の短い物語を聴く。 深層言語アルゴリズムの活性化が脳に線形にマッピングされることを確認した後、長距離予測表現によるこれらのモデルの向上が脳のマッピングを改善することを示す。 その結果、前頭葉皮質は側頭皮質よりも抽象的で遠方の表現を予測できる脳内の予測の階層が明らかになった。 本研究は、予測符号化理論を強化し、自然言語処理における長距離および階層的予測の重要な役割を示唆する。

Deep learning has recently made remarkable progress in natural language processing. Yet, the resulting algorithms remain far from competing with the language abilities of the human brain. Predictive coding theory offers a potential explanation to this discrepancy: while deep language algorithms are optimized to predict adjacent words, the human brain would be tuned to make long-range and hierarchical predictions. To test this hypothesis, we analyze the fMRI brain signals of 304 subjects each listening to 70min of short stories. After confirming that the activations of deep language algorithms linearly map onto those of the brain, we show that enhancing these models with long-range forecast representations improves their brain-mapping. The results further reveal a hierarchy of predictions in the brain, whereby the fronto-parietal cortices forecast more abstract and more distant representations than the temporal cortices. Overall, this study strengthens predictive coding theory and suggests a critical role of long-range and hierarchical predictions in natural language processing.
翻訳日:2021-12-01 07:34:57 公開日:2021-11-28
# (参考訳) ガウス混合モデルとwasserstein距離を用いたスキーママッチング

Schema matching using Gaussian mixture models with Wasserstein distance ( http://arxiv.org/abs/2111.14244v1 )

ライセンス: CC BY 4.0
Mateusz Przyborowski, Mateusz Pabi\'s, Andrzej Janusz, Dominik \'Sl\k{e}zak(参考訳) ガウス混合モデルは、主にクラスタリング問題において、強力なツールとして位置づけられるが、特徴抽出、パターン認識、イメージセグメンテーション、一般的な機械学習にも適切な準備がされている。 スキーママッチングの問題に直面すると、異なるデータ片で計算された異なる混合モデルがデータセットの構造に関する重要な情報を保持できる。 混合モデルから結果を測定または比較するために、ワッサースタイン距離は非常に有用であるが、混合分布の計算は容易ではない。 本稿では,ガウス混合モデル間のワッサーシュタイン距離の近似の1つを導出し,線形問題に還元する。 さらに、実世界のデータに関する応用例を示す。

Gaussian mixture models find their place as a powerful tool, mostly in the clustering problem, but with proper preparation also in feature extraction, pattern recognition, image segmentation and in general machine learning. When faced with the problem of schema matching, different mixture models computed on different pieces of data can maintain crucial information about the structure of the dataset. In order to measure or compare results from mixture models, the Wasserstein distance can be very useful, however it is not easy to calculate for mixture distributions. In this paper we derive one of possible approximations for the Wasserstein distance between Gaussian mixture models and reduce it to linear problem. Furthermore, application examples concerning real world data are shown.
翻訳日:2021-12-01 07:11:57 公開日:2021-11-28
# (参考訳) 大規模ディープラーニングサービングシステムの最適化に関する調査--課題と機会

A Survey of Large-Scale Deep Learning Serving System Optimization: Challenges and Opportunities ( http://arxiv.org/abs/2111.14247v1 )

ライセンス: CC BY 4.0
Fuxun Yu, Di Wang, Longfei Shangguan, Minjia Zhang, Xulong Tang, Chenchen Liu, Xiang Chen(参考訳) ディープラーニング(DL)モデルは、ビジョン、言語、医療、商業広告、エンターテイメントなど、多くのアプリケーション領域で優れたパフォーマンスを実現しています。 高速な開発により、DLアプリケーションと基盤となるサービスハードウェアの両方が強力なスケーリングトレンドを示している。例えば、モデルスケーリングとCompute Scalingは、数十億のパラメータとTBレベルのメモリ消費を持つ最近の事前トレーニングされたモデルと、数百のTFLOPSを提供する最新のGPUアクセラレータである。 スケーリングの傾向とともに、DL推論サービスシステムに新たな問題と課題が出現し、徐々に大規模ディープラーニングサービングシステム(LDS)へと移行する。 本調査は,大規模ディープラーニングサービスシステムの新たな課題と最適化機会を要約し,分類することを目的とする。 新たな分類学を提供し,計算パラダイムを要約し,最近の技術進歩を概説することによって,本調査が新たな最適化の視点に光を当て,大規模深層学習システム最適化における新たな研究を動機付けることを期待する。

Deep Learning (DL) models have achieved superior performance in many application domains, including vision, language, medical, commercial ads, entertainment, etc. With the fast development, both DL applications and the underlying serving hardware have demonstrated strong scaling trends, i.e., Model Scaling and Compute Scaling, for example, the recent pre-trained model with hundreds of billions of parameters with ~TB level memory consumption, as well as the newest GPU accelerators providing hundreds of TFLOPS. With both scaling trends, new problems and challenges emerge in DL inference serving systems, which gradually trends towards Large-scale Deep learning Serving systems (LDS). This survey aims to summarize and categorize the emerging challenges and optimization opportunities for large-scale deep learning serving systems. By providing a novel taxonomy, summarizing the computing paradigms, and elaborating the recent technique advances, we hope that this survey could shed light on new optimization perspectives and motivate novel works in large-scale deep learning system optimization.
翻訳日:2021-12-01 07:04:57 公開日:2021-11-28
# (参考訳) fed2: 機能連携型フェデレーション学習

Fed2: Feature-Aligned Federated Learning ( http://arxiv.org/abs/2111.14248v1 )

ライセンス: CC BY 4.0
Fuxun Yu, Weishan Zhang, Zhuwei Qin, Zirui Xu, Di Wang, Chenchen Liu, Zhi Tian, Xiang Chen(参考訳) フェデレーション学習は、ローカルノードからの協調モデルを用いて分散データから学習する。 しかし、FedAvgによる従来の座標モデル平均化は、パラメータ毎に符号化されたランダム情報を無視し、構造的特徴の不一致に悩まされる可能性がある。 本稿では,協調モデルにまたがる構造的アライメントを確立することにより,この問題を解決するための機能整合型フェデレート学習フレームワークであるFed2を提案する。 第一に、異なるニューラルネットワーク構造における明示的な特徴割り当てを保証するために、特徴指向モデル構造適応法を設計する。 協調モデルに構造適応を適用することで、類似した特徴情報を持つマッチング可能な構造を、非常に初期のトレーニング段階で初期化することができる。 フェデレーション学習の過程において,特徴分布の整合を保証し,iidまたは非iidシナリオにおいて特徴融合の競合を維持できない特徴対平均化スキームを提案する。 最終的にFed2は、広範な均質および異質な設定下でのフェデレーション学習収束性能を効果的に向上させ、収束速度、精度、計算/通信効率に優れたものを提供する。

Federated learning learns from scattered data by fusing collaborative models from local nodes. However, the conventional coordinate-based model averaging by FedAvg ignored the random information encoded per parameter and may suffer from structural feature misalignment. In this work, we propose Fed2, a feature-aligned federated learning framework to resolve this issue by establishing a firm structure-feature alignment across the collaborative models. Fed2 is composed of two major designs: First, we design a feature-oriented model structure adaptation method to ensure explicit feature allocation in different neural network structures. Applying the structure adaptation to collaborative models, matchable structures with similar feature information can be initialized at the very early training stage. During the federated learning process, we then propose a feature paired averaging scheme to guarantee aligned feature distribution and maintain no feature fusion conflicts under either IID or non-IID scenarios. Eventually, Fed2 could effectively enhance the federated learning convergence performance under extensive homo- and heterogeneous settings, providing excellent convergence speed, accuracy, and computation/communication efficiency.
翻訳日:2021-12-01 06:46:55 公開日:2021-11-28
# (参考訳) v4細胞の形状選択性モデルを学ぶ : 脳の形状エンコーディング機構を明らかにする

Learning a model of shape selectivity in V4 cells reveals shape encoding mechanisms in the brain ( http://arxiv.org/abs/2111.14250v1 )

ライセンス: CC BY 4.0
Paria Mehrani and John K. Tsotsos(参考訳) 初期の視覚信号をV4の曲率表現に変換するメカニズムは不明である。 本稿では,この変換に必要なV1/V2エンコーディングを,V4で報告された曲率表現に変換する階層モデルを提案する。 そして、単一のガウスの前のしばしば強調される先行を緩和することにより、マカクv4応答から階層の最後の層でv4形状選択性が学習される。 その結果、v4細胞は受容野の完全な空間的範囲から複数の形状部品を統合でき、同様の興奮的および抑制的貢献が得られた。 以上の結果から,v4ニューロンの形状選択性に関する既存のデータから,この領域における処理の理解を深めることができた。 そこで本稿では,v4応答に対する部分寄与を分離するために,曲率信号を乱さずに形状部を除去できる刺激セットの設計を提案する。

The mechanisms involved in transforming early visual signals to curvature representations in V4 are unknown. We propose a hierarchical model that reveals V1/V2 encodings that are essential components for this transformation to the reported curvature representations in V4. Then, by relaxing the often-imposed prior of a single Gaussian, V4 shape selectivity is learned in the last layer of the hierarchy from Macaque V4 responses. We found that V4 cells integrate multiple shape parts from the full spatial extent of their receptive fields with similar excitatory and inhibitory contributions. Our results uncover new details in existing data about shape selectivity in V4 neurons that with further experiments can enhance our understanding of processing in this area. Accordingly, we propose designs for a stimulus set that allow removing shape parts without disturbing the curvature signal to isolate part contributions to V4 responses.
翻訳日:2021-12-01 06:30:19 公開日:2021-11-28
# (参考訳) アクティブな流通システムにおける偽データ注入の脅威:包括的調査

False Data Injection Threats in Active Distribution Systems: A Comprehensive Survey ( http://arxiv.org/abs/2111.14251v1 )

ライセンス: CC BY 4.0
Muhammad Akbar Husnoo, Adnan Anwar, Nasser Hosseinzadeh, Shama Naz Islam, Abdun Naser Mahmood, Robin Doss(参考訳) スマートデバイスの普及と通信の革命により、電気配電システムは、受動的で手動操作で柔軟なものから、未来のエネルギー課題に対処するために、巨大な相互接続型のサイバー物理スマートグリッドへと徐々にシフトしている。 しかし、いくつかの最先端技術の統合は、大規模な複雑性とリソース制限のために、セキュリティとプライバシの脆弱性をいくつか導入している。 最近の研究動向は、False Data Injection(FDI)攻撃がスマートグリッドパラダイム全体で最も悪意のあるサイバー脅威の1つになっていることを示している。 そこで本稿では,アクティブな流通システムにおけるfdi攻撃の最近の進展に関する包括的調査を行い,スマートグリッドのターゲットに対してfdiの脅威を分類する分類法を提案する。 関連する研究は、電力流通ネットワークに対する攻撃手法と影響の観点から対比され、要約されている。 最後に、いくつかの研究のギャップを特定し、将来の研究の方向性を推薦し、将来的な研究者を誘導し、動機づける。

With the proliferation of smart devices and revolutions in communications, electrical distribution systems are gradually shifting from passive, manually-operated and inflexible ones, to a massively interconnected cyber-physical smart grid to address the energy challenges of the future. However, the integration of several cutting-edge technologies has introduced several security and privacy vulnerabilities due to the large-scale complexity and resource limitations of deployments. Recent research trends have shown that False Data Injection (FDI) attacks are becoming one of the most malicious cyber threats within the entire smart grid paradigm. Therefore, this paper presents a comprehensive survey of the recent advances in FDI attacks within active distribution systems and proposes a taxonomy to classify the FDI threats with respect to smart grid targets. The related studies are contrasted and summarized in terms of the attack methodologies and implications on the electrical power distribution networks. Finally, we identify some research gaps and recommend a number of future research directions to guide and motivate prospective researchers.
翻訳日:2021-12-01 06:12:16 公開日:2021-11-28
# 深層学習を用いた3次元高画質磁気共鳴画像復元

3D High-Quality Magnetic Resonance Image Restoration in Clinics Using Deep Learning ( http://arxiv.org/abs/2111.14259v1 )

ライセンス: Link先を確認
Hao Li, Jianan Liu(参考訳) 磁気共鳴イメージングにおいて、取得時間の短縮とモーションアーティファクトの低減が最も重要な関心事である。 将来性のある解決法として,高画質mr画像復元法について検討し,取得時間を短縮した低分解能画像から高分解能,モーションアーティファクトフリーのmr画像を生成する。 しかし, 深層学習が臨床現場で実用化されるのを防ぐために, まだまだ多くの問題が残っている。 具体的には、以前の作業のほとんどはネットワークモデルにのみフォーカスするが、取得時間に対する様々なダウンサンプリング戦略の影響を無視する。 さらに、長い推論時間と高いgpu消費は、以前の作業の大半を診療所にデプロイするためのボトルネックでもある。 さらに、先行研究では、ふりかえりのモーションアーティファクト生成にランダムな動きを用い、その結果、制御不能なモーションアーティファクトの重大さをもたらす。 さらに重要なことは、医師が生成したMR画像が信頼できるかどうかがわからないため、診断が難しいことだ。 これらの問題を克服するために,我々は,3次元MRIの超解像とモーションアーティファクトの低減のために,統一された2次元ディープラーニングニューラルネットワークを採用した。 また,複数の面内および面内ダウンサンプリングの組み合わせを含む加速度係数に基づく複数のダウンサンプリング戦略を解析し,制御可能かつ定量なモーションアーティファクト生成法を開発した。 最終的に画素ワイド不確実性を算出し、生成画像の精度を推定し、信頼性の高い診断のための追加情報を提供する。

Shortening acquisition time and reducing the motion-artifact are two of the most essential concerns in magnetic resonance imaging. As a promising solution, deep learning-based high quality MR image restoration has been investigated to generate higher resolution and motion artifact-free MR images from lower resolution images acquired with shortened acquisition time, without costing additional acquisition time or modifying the pulse sequences. However, numerous problems still exist to prevent deep learning approaches from becoming practical in the clinic environment. Specifically, most of the prior works focus solely on the network model but ignore the impact of various downsampling strategies on the acquisition time. Besides, the long inference time and high GPU consumption are also the bottle neck to deploy most of the prior works in clinics. Furthermore, prior studies employ random movement in retrospective motion artifact generation, resulting in uncontrollable severity of motion artifact. More importantly, doctors are unsure whether the generated MR images are trustworthy, making diagnosis difficult. To overcome all these problems, we employed a unified 2D deep learning neural network for both 3D MRI super resolution and motion artifact reduction, demonstrating such a framework can achieve better performance in 3D MRI restoration task compared to other states of the art methods and remains the GPU consumption and inference time significantly low, thus easier to deploy. We also analyzed several downsampling strategies based on the acceleration factor, including multiple combinations of in-plane and through-plane downsampling, and developed a controllable and quantifiable motion artifact generation method. At last, the pixel-wise uncertainty was calculated and used to estimate the accuracy of generated image, providing additional information for reliable diagnosis.
翻訳日:2021-11-30 19:07:09 公開日:2021-11-28
# テキスト情報を用いた柔軟な話者数のための話者埋め込み認識ニューラルダイアリゼーション

Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information ( http://arxiv.org/abs/2111.13694v1 )

ライセンス: Link先を確認
Zhihao Du, Shiliang Zhang, Siqi Zheng, Weilong Huang, Ming Lei(参考訳) 重なり合う音声ダイアリゼーションは、常にマルチラベル分類問題として扱われる。 本稿では,マルチスピーカラベルをパワーセットで符号化することにより,単一ラベル予測問題として再検討する。 具体的には,音声特徴量と与えられた話者埋め込みの類似性に応じて符号化されたラベルのパワーを予測する,話者埋め込み認識ニューラルダイアリゼーション(send)法を提案する。 本手法は,従来の文献ではよく研究されていないテキスト情報を利用して,下流タスクにさらに拡張・統合する。 実験の結果,本手法は目標話者音声活動検出よりも低いダイアリゼーション誤り率が得られることがわかった。 テキスト情報が関与する場合、ダイアリゼーションエラーをさらに低減することができる。 実際のミーティングシナリオでは,ベイジアン隠れマルコフモデルに基づくクラスタリングアルゴリズムと比較して34.11%の改善が可能である。

Overlapping speech diarization is always treated as a multi-label classification problem. In this paper, we reformulate this task as a single-label prediction problem by encoding the multi-speaker labels with power set. Specifically, we propose the speaker embedding-aware neural diarization (SEND) method, which predicts the power set encoded labels according to the similarities between speech features and given speaker embeddings. Our method is further extended and integrated with downstream tasks by utilizing the textual information, which has not been well studied in previous literature. The experimental results show that our method achieves lower diarization error rate than the target-speaker voice activity detection. When textual information is involved, the diarization errors can be further reduced. For the real meeting scenario, our method can achieve 34.11% relative improvement compared with the Bayesian hidden Markov model based clustering algorithm.
翻訳日:2021-11-30 19:06:11 公開日:2021-11-28
# 行列点過程の積に対する正規化定数の計算複雑性

Computational Complexity of Normalizing Constants for the Product of Determinantal Point Processes ( http://arxiv.org/abs/2111.14148v1 )

ライセンス: Link先を確認
Naoto Ohsaka and Tatsuya Matsuoka(参考訳) 行列点過程(Determinantal point process, DPPs)の積は、確率質量が複数の行列の主部分の積に比例する点過程であり、DPPの自然な有望な一般化である。 本稿では,その正規化定数を計算する計算複雑性について検討する。 私たちの複雑性理論的な結果は(ほとんど)、入力行列が好ましい構造を強制されない限り、このタスクのための効率的なアルゴリズムの存在を除外します。 特に、(1)すべての(固定)正の偶数整数$p$がアップハードで mod$_3$p-hard に対して、$\sum_s\det({\bf a}_{s,s})^p$を正確に計算すると、kulesza と taskar によってなされるオープン質問に対する否定的な答えが得られる。 2)$\sum_s\det({\bf a}_{s,s})\det({\bf b}_{s,s})\det({\bf c}_{s,s})$は$2^{o(|i|^{1-\epsilon})}$または$2^{o(n^{1/\epsilon})}$任意の$\epsilon>0$、ただし$|i|$は入力サイズ、$n$は入力行列の順序である。 この結果は、ギレンウォーター由来の2つの行列の場合の#P硬度よりも強い。 (3) $\sum_s\det({\bf a}_{s,s})\det({\bf b}_{s,s})$を計算するための$k^{o(k)}n^{o(1)}$-timeアルゴリズムがあり、ここで$k$は$\bf a$と$\bf b$の最大ランクである。 このようなパラメータ化アルゴリズムは固定パラメータ扱い可能であると言われている。 これらの結果は固定サイズのケースに拡張できる。 さらに、行列 $\bf A$ of treewidth $w$: (4)$2^{\frac{n}{2p-1}}$-approximation to $\sum_S\det({\bf A}_{S,S})^p$ for any fractional number $p>1$ in $w^{O(wp)}n^{O(1)}$ time を計算できる。 (5)$w^{o(w\sqrt n)}n^{o(1)}$ time で制約のない写像推論に近似する 2^{\sqrt n}$-approximation を見つけることができる。

We consider the product of determinantal point processes (DPPs), a point process whose probability mass is proportional to the product of principal minors of multiple matrices, as a natural, promising generalization of DPPs. We study the computational complexity of computing its normalizing constant, which is among the most essential probabilistic inference tasks. Our complexity-theoretic results (almost) rule out the existence of efficient algorithms for this task unless the input matrices are forced to have favorable structures. In particular, we prove the following: (1) Computing $\sum_S\det({\bf A}_{S,S})^p$ exactly for every (fixed) positive even integer $p$ is UP-hard and Mod$_3$P-hard, which gives a negative answer to an open question posed by Kulesza and Taskar. (2) $\sum_S\det({\bf A}_{S,S})\det({\bf B}_{S,S})\det({\bf C}_{S,S})$ is NP-hard to approximate within a factor of $2^{O(|I|^{1-\epsilon})}$ or $2^{O(n^{1/\epsilon})}$ for any $\epsilon>0$, where $|I|$ is the input size and $n$ is the order of the input matrix. This result is stronger than the #P-hardness for the case of two matrices derived by Gillenwater. (3) There exists a $k^{O(k)}n^{O(1)}$-time algorithm for computing $\sum_S\det({\bf A}_{S,S})\det({\bf B}_{S,S})$, where $k$ is the maximum rank of $\bf A$ and $\bf B$ or the treewidth of the graph formed by nonzero entries of $\bf A$ and $\bf B$. Such parameterized algorithms are said to be fixed-parameter tractable. These results can be extended to the fixed-size case. Further, we present two applications of fixed-parameter tractable algorithms given a matrix $\bf A$ of treewidth $w$: (4) We can compute a $2^{\frac{n}{2p-1}}$-approximation to $\sum_S\det({\bf A}_{S,S})^p$ for any fractional number $p>1$ in $w^{O(wp)}n^{O(1)}$ time. (5) We can find a $2^{\sqrt n}$-approximation to unconstrained MAP inference in $w^{O(w\sqrt n)}n^{O(1)}$ time.
翻訳日:2021-11-30 19:04:40 公開日:2021-11-28
# 現代的なテンソル因子分解を用いた縦型オミクスデータの次元化

Dimensionality Reduction of Longitudinal 'Omics Data using Modern Tensor Factorization ( http://arxiv.org/abs/2111.14159v1 )

ライセンス: Link先を確認
Uria Mor, Yotam Cohen, Rafael Valdes-Mas, Denise Kviatcovsky, Eran Elinav, Haim Avron(参考訳) 精密医療は疾患の予防、検出、治療のための臨床的アプローチであり、個々の遺伝的背景、環境、ライフスタイルを考慮に入れている。 この調整された通りの開発は、オミクス法の増加、時間サンプルの大きなコホート、臨床データの統合によって進められている。 膨大な進歩にもかかわらず、データ解析のための既存の計算手法は、この複雑で高次元かつ長手なデータに対して適切な解決策を提供していない。 本研究は, 縦型オミクスデータの軌跡解析を行う際の大きな制約を克服する, マルチウェイデータの次元削減手法であるTCAMという新しい手法を開発した。 実世界のデータを用いて、TAMは従来の手法よりも優れており、また、長手マイクロバイオームデータ解析のための最先端のテンソルベースのアプローチも優れていることを示す。 さらに,様々なオミクスデータセットに適用することでTCAMの汎用性を実証し,簡単なMLタスクにおけるドロップイン置換として適用可能であることを示す。

Precision medicine is a clinical approach for disease prevention, detection and treatment, which considers each individual's genetic background, environment and lifestyle. The development of this tailored avenue has been driven by the increased availability of omics methods, large cohorts of temporal samples, and their integration with clinical data. Despite the immense progression, existing computational methods for data analysis fail to provide appropriate solutions for this complex, high-dimensional and longitudinal data. In this work we have developed a new method termed TCAM, a dimensionality reduction technique for multi-way data, that overcomes major limitations when doing trajectory analysis of longitudinal omics data. Using real-world data, we show that TCAM outperforms traditional methods, as well as state-of-the-art tensor-based approaches for longitudinal microbiome data analysis. Moreover, we demonstrate the versatility of TCAM by applying it to several different omics datasets, and the applicability of it as a drop-in replacement within straightforward ML tasks.
翻訳日:2021-11-30 19:02:18 公開日:2021-11-28
# 音源分離のためのjukeboxを用いた転送学習

Transfer Learning with Jukebox for Music Source Separation ( http://arxiv.org/abs/2111.14200v1 )

ライセンス: Link先を確認
Wadhah Zai El Amri, Oliver Tautz, Helge Ritter, Andrew Melnik(参考訳) 本研究では,1つの混合オーディオチャンネルから音声ソースを分離する問題に対して,公開事前学習されたJukeboxモデルを適応する方法を実証する。 トランスファーラーニングのためのニューラルネットワークアーキテクチャはトレーニングが高速で、その結果は他の最先端のアプローチと同等のパフォーマンスを示している。 アーキテクチャのオープンソースコード実装(https://rebrand.ly/transfer-jukebox-github)を提供しています。

In this work, we demonstrate how to adapt a publicly available pre-trained Jukebox model for the problem of audio source separation from a single mixed audio channel. Our neural network architecture for transfer learning is fast to train and results demonstrate comparable performance to other state-of-the-art approaches. We provide an open-source code implementation of our architecture (https://rebrand.ly/transfer-jukebox-github).
翻訳日:2021-11-30 19:02:00 公開日:2021-11-28
# 画像圧縮のための低複素丸klt近似

Low-complexity Rounded KLT Approximation for Image Compression ( http://arxiv.org/abs/2111.14239v1 )

ライセンス: Link先を確認
A. P. Rad\"unz, F. M. Bayer, R. J. Cintra(参考訳) Karhunen-Lo\`eve transform (KLT) はデータデコレーションや次元減少によく用いられる。 その計算は入力信号の共分散の行列に依存するため、リアルタイムアプリケーションにおけるKLTの使用は、高速アルゴリズムの実装が困難であることから、厳しい制約を受ける。 本稿では,KLT行列の要素に対する円関数の適用により得られる,新しい低複雑性変換のクラスを提案する。 提案する変換は,提案する近似の符号化力と距離を精度kltまで測定するメリットの数値を考慮して評価され,画像圧縮実験でも検討されている。 提案する近似変換に対して高速アルゴリズムを導入する。 提案手法は画像圧縮において良好な性能を示し,実装コストが低いことを示した。

The Karhunen-Lo\`eve transform (KLT) is often used for data decorrelation and dimensionality reduction. Because its computation depends on the matrix of covariances of the input signal, the use of the KLT in real-time applications is severely constrained by the difficulty in developing fast algorithms to implement it. In this context, this paper proposes a new class of low-complexity transforms that are obtained through the application of the round function to the elements of the KLT matrix. The proposed transforms are evaluated considering figures of merit that measure the coding power and distance of the proposed approximations to the exact KLT and are also explored in image compression experiments. Fast algorithms are introduced for the proposed approximate transforms. It was shown that the proposed transforms perform well in image compression and require a low implementation cost.
翻訳日:2021-11-30 18:59:47 公開日:2021-11-28
# Tiny Energy-Harvesting IoTデバイスによる超高速ディープラーニングの実現

Enabling Super-Fast Deep Learning on Tiny Energy-Harvesting IoT Devices ( http://arxiv.org/abs/2111.14051v1 )

ライセンス: Link先を確認
Sahidul Islam and Jieren Deng and Shanglin Zhou and Chen Pan and Caiwen Ding and Mimi Xie(参考訳) バッテリーなしで断続的に動作するエネルギ収穫(EH)IoTデバイスと、ディープニューラルネットワーク(DNN)の進歩が相まって、持続可能なスマートアプリケーションを実現する新たな機会が開かれた。 それでも、限られたリソースと頻繁な障害を引き起こす断続的な電源の課題のため、これらの計算とメモリ集約型インテリジェントアルゴリズムをEHデバイスに実装することは極めて困難である。 これらの課題に対処するために,低エネルギー加速器による超高速深層学習を実現する手法を提案する。 我々はまず,ADMMを用いたブロック循環行列を用いた資源認識型DNNトレーニングフレームワークRADを提案し,各種ベクトル演算アクセラレータの利点を生かした高圧縮およびモデル量子化を実現する。 DNNの実装手法であるACEが提案され、低エネルギー加速器を用いて小型エネルギー消費による最大性能を向上する。 最後に,エネルギ収穫環境における間欠計算のシステムサポートであるflexをさらに設計する。 3つの異なるDNNモデルによる実験結果から、RAD、ACE、FLEXは最大4.26倍のエネルギー収穫装置で最大7.7倍のエネルギー削減が可能であり、最先端技術よりも精度が高いことが示されている。

Energy harvesting (EH) IoT devices that operate intermittently without batteries, coupled with advances in deep neural networks (DNNs), have opened up new opportunities for enabling sustainable smart applications. Nevertheless, implementing those computation and memory-intensive intelligent algorithms on EH devices is extremely difficult due to the challenges of limited resources and intermittent power supply that causes frequent failures. To address those challenges, this paper proposes a methodology that enables super-fast deep learning with low-energy accelerators for tiny energy harvesting devices. We first propose RAD, a resource-aware structured DNN training framework, which employs block circulant matrix with ADMM to achieve high compression and model quantization for leveraging the advantage of various vector operation accelerators. A DNN implementation method, ACE, is then proposed that employs low-energy accelerators to profit maximum performance with minor energy consumption. Finally, we further design FLEX, the system support for intermittent computation in energy harvesting situations. Experimental results from three different DNN models demonstrate that RAD, ACE, and FLEX can enable super-fast and correct inference on energy harvesting devices with up to 4.26X runtime reduction, up to 7.7X energy reduction with higher accuracy over the state-of-the-art.
翻訳日:2021-11-30 18:33:52 公開日:2021-11-28
# P4AI:プリンシプリズムによるAI倫理へのアプローチ

P4AI: Approaching AI Ethics through Principlism ( http://arxiv.org/abs/2111.14062v1 )

ライセンス: Link先を確認
Andre Fu and Elisa Ding and Mahdi S. Hosseini and Konstantinos N. Plataniotis(参考訳) コンピュータビジョンの分野は急速に進化しており、特にニューラルアーキテクチャ設計の新しい手法の文脈で顕著である。 これらのモデルは、(1)気候危機(co2排出量の増加)、(2)プライバシー危機(データ漏洩問題)に寄与する。 コンピュータビジョン(CV)コミュニティがこれらの危機に与える影響をしばしば見落としている問題に対処するために、我々は、新しい倫理的枠組みである‘textit{P4AI}: Principlism for AI, a augmented principlistic view of ethical dilemmas in AI”を概説した。 次に、P4AIを使用して、気候とプライバシーの危機を軽減するためにコミュニティに具体的な勧告を行うことを提案する。

The field of computer vision is rapidly evolving, particularly in the context of new methods of neural architecture design. These models contribute to (1) the Climate Crisis - increased CO2 emissions and (2) the Privacy Crisis - data leakage concerns. To address the often overlooked impact the Computer Vision (CV) community has on these crises, we outline a novel ethical framework, \textit{P4AI}: Principlism for AI, an augmented principlistic view of ethical dilemmas within AI. We then suggest using P4AI to make concrete recommendations to the community to mitigate the climate and privacy crises.
翻訳日:2021-11-30 18:33:28 公開日:2021-11-28
# ディープラーニング駆動フルウェーブフォームインバージョンにおけるロバスト性と一般化について

On the Robustness and Generalization of Deep Learning Driven Full Waveform Inversion ( http://arxiv.org/abs/2111.14220v1 )

ライセンス: Link先を確認
Chengyuan Deng, Youzuo Lin(参考訳) データ駆動アプローチは、複雑な科学的問題を解決する有望な技術として実証されている。 フル波形インバージョン(fwi)は、画像から画像への変換タスクとして一般的に認識され、エンドツーエンドのソリューションとしてディープニューラルネットワークを使用する動機となっている。 合成データでトレーニングされているにもかかわらず、ディープラーニング駆動のfwiは、十分な実世界データで評価した場合、うまく機能することが期待されている。 本稿では,これらの深層ニューラルネットワークはどの程度堅牢で,どのように一般化されているのか? 頑健性については,クリーンデータとノイズデータから予測値のずれの上限を証明した。 さらに、ノイズレベルと損失の増大の間の相互作用を示す。 一般化のために、安定性一般化フレームワークを用いてノルムベースの一般化誤差上限を証明する。 地震動fwiデータセットに関する実験結果は理論結果と一致し、複雑な科学応用にディープラーニングを活用することの理解を深めた。

The data-driven approach has been demonstrated as a promising technique to solve complicated scientific problems. Full Waveform Inversion (FWI) is commonly epitomized as an image-to-image translation task, which motivates the use of deep neural networks as an end-to-end solution. Despite being trained with synthetic data, the deep learning-driven FWI is expected to perform well when evaluated with sufficient real-world data. In this paper, we study such properties by asking: how robust are these deep neural networks and how do they generalize? For robustness, we prove the upper bounds of the deviation between the predictions from clean and noisy data. Moreover, we demonstrate an interplay between the noise level and the additional gain of loss. For generalization, we prove a norm-based generalization error upper bound via a stability-generalization framework. Experimental results on seismic FWI datasets corroborate with the theoretical results, shedding light on a better understanding of utilizing Deep Learning for complicated scientific applications.
翻訳日:2021-11-30 18:33:15 公開日:2021-11-28
# Software 2.0のアジリティ - ノートブックインターフェースとボタンとリバーを備えたMLOps

Agility in Software 2.0 -- Notebook Interfaces and MLOps with Buttresses and Rebars ( http://arxiv.org/abs/2111.14142v1 )

ライセンス: Link先を確認
Markus Borg(参考訳) 機械学習による人工知能は、デジタル社会でますます使われている。 機械学習に基づくソリューションは、両方の大きな機会をもたらし、"Software 2.0"とよばれるだけでなく、エンジニアリングコミュニティが取り組むべき大きな課題も生み出します。 データサイエンティストが機械学習モデルを開発する際に使用する実験的なアプローチのため、アジリティは重要な特徴である。 この基調講演では,機械学習開発の基本となる2つの現代的開発現象,すなわちノートブックインターフェースとMLOpsについて論じる。 まず,統合開発環境への容易な移行をサポートすることにより,ノートブック作業の本質的な弱点を解決できるソリューションを提案する。 第2に、MLOpsコンテキストにメタファ的な執着と残響を導入することで、AIシステムの強化エンジニアリングを提案する。 マシンラーニングベースのソリューションは本質的に動的であり、強化された継続的エンジニアリングは、明日の信頼できるAIシステムの品質を保証するために必要である、と私たちは主張する。

Artificial intelligence through machine learning is increasingly used in the digital society. Solutions based on machine learning bring both great opportunities, thus coined "Software 2.0," but also great challenges for the engineering community to tackle. Due to the experimental approach used by data scientists when developing machine learning models, agility is an essential characteristic. In this keynote address, we discuss two contemporary development phenomena that are fundamental in machine learning development, i.e., notebook interfaces and MLOps. First, we present a solution that can remedy some of the intrinsic weaknesses of working in notebooks by supporting easy transitions to integrated development environments. Second, we propose reinforced engineering of AI systems by introducing metaphorical buttresses and rebars in the MLOps context. Machine learning-based solutions are dynamic in nature, and we argue that reinforced continuous engineering is required to quality assure the trustworthy AI systems of tomorrow.
翻訳日:2021-11-30 18:11:35 公開日:2021-11-28
# イベント埋め込みとイベント依存性に基づくコードクローン検出

Code Clone Detection based on Event Embedding and Event Dependency ( http://arxiv.org/abs/2111.14183v1 )

ライセンス: Link先を確認
Cheng Huang, Hui Zhou, Chunyang Ye, Bingzhuo Li(参考訳) 意味的類似性に基づくコードクローン検出法は、ソフトウェア工学のタスク(例えば、ソフトウェア進化、ソフトウェア再利用)において重要な価値を持っている。 従来のコードクローン検出技術は、構文レベルでのコードの類似性に注目し、コードのセマンティックな類似性にはあまり注意を払わない。 その結果、意味論に類似する候補符号は無視される。 そこで本研究では,意味的類似性に基づくコードクローン検出手法を提案する。 連続的に発生する一連の相互依存イベントとしてコードを扱うことで、イベント埋め込みとイベント依存性に基づいたコード意味情報をエンコードするモデルEDAMを設計する。 EDAMモデルは、プログラムステートメントの実行特性と全てのステートメント間のデータ依存情報をモデル化するために、イベント埋め込み手法を使用する。 このようにして、プログラムの意味情報をベクターに埋め込み、ベクターを使ってセマンティクスに類似したコードを検出することができる。 実験の結果,EDAMモデルの性能は,コードクローン検出のための最先端のオープンソースモデルよりも優れていることがわかった。

The code clone detection method based on semantic similarity has important value in software engineering tasks (e.g., software evolution, software reuse). Traditional code clone detection technologies pay more attention to the similarity of code at the syntax level, and less attention to the semantic similarity of the code. As a result, candidate codes similar in semantics are ignored. To address this issue, we propose a code clone detection method based on semantic similarity. By treating code as a series of interdependent events that occur continuously, we design a model namely EDAM to encode code semantic information based on event embedding and event dependency. The EDAM model uses the event embedding method to model the execution characteristics of program statements and the data dependence information between all statements. In this way, we can embed the program semantic information into a vector and use the vector to detect codes similar in semantics. Experimental results show that the performance of our EDAM model is superior to state of-the-art open source models for code clone detection.
翻訳日:2021-11-30 18:11:19 公開日:2021-11-28
# フェイクの深さはどのくらい? オーディオディープフェイクに焦点を当てた調査

How Deep Are the Fakes? Focusing on Audio Deepfake: A Survey ( http://arxiv.org/abs/2111.14203v1 )

ライセンス: Link先を確認
Zahra Khanjani, Gabrielle Watson, and Vandana P. Janeja(参考訳) Deepfake(ディープフェイク、ディープフェイク)は、人工知能(AI)の手法で合成または操作されたコンテンツまたは材料であり、音声、ビデオ、画像、テキスト合成を含むことができる。 この調査は、ビデオと画像のディープフェイクだけに焦点を当てた既存の調査論文とは異なる視点で実施された。 本調査は,異なるディープフェイクカテゴリにおける生成・検出方法を評価するだけでなく,既存の調査の大半で見落とされたオーディオディープフェイクに着目した。 本稿は、2016年から2020年にかけてのオーディオディープフェイク研究を批判的に分析し、提供する。 私たちの知る限りでは、英語におけるオーディオディープフェイクに焦点を当てた初めての調査である。 この調査は読者に概要を提供する。 1) 異なるディープフェイク分類 2) どのようにして 3)この領域の最新の動向と検出方法の欠点 4) 音のディープフェイク, 音の作り方, 詳細は本論文の主な焦点である。 この結果から,GAN(Generative Adversarial Networks),CNN(Convolutional Neural Networks),DNN(Deep Neural Networks)はディープフェイクの生成と検出の一般的な方法であることがわかった。 140以上の手法を評価した結果,主にビデオディープフェイク,特にビデオディープフェイクの生成に焦点が当てられていることがわかった。 テキストのディープフェイクには、偽ニュース検出などの堅牢な検出方法が多数存在するが、人間の生成する偽コンテンツと重なる可能性があるため、議論の的になっている。 本論文は,全調査の短縮版であり,オーディオディープフェイクの研究,特にオーディオディープフェイクの検出の必要性を明らかにする。

Deepfake is content or material that is synthetically generated or manipulated using artificial intelligence (AI) methods, to be passed off as real and can include audio, video, image, and text synthesis. This survey has been conducted with a different perspective compared to existing survey papers, that mostly focus on just video and image deepfakes. This survey not only evaluates generation and detection methods in the different deepfake categories, but mainly focuses on audio deepfakes that are overlooked in most of the existing surveys. This paper critically analyzes and provides a unique source of audio deepfake research, mostly ranging from 2016 to 2020. To the best of our knowledge, this is the first survey focusing on audio deepfakes in English. This survey provides readers with a summary of 1) different deepfake categories 2) how they could be created and detected 3) the most recent trends in this domain and shortcomings in detection methods 4) audio deepfakes, how they are created and detected in more detail which is the main focus of this paper. We found that Generative Adversarial Networks(GAN), Convolutional Neural Networks (CNN), and Deep Neural Networks (DNN) are common ways of creating and detecting deepfakes. In our evaluation of over 140 methods we found that the majority of the focus is on video deepfakes and in particular in the generation of video deepfakes. We found that for text deepfakes there are more generation methods but very few robust methods for detection, including fake news detection, which has become a controversial area of research because of the potential of heavy overlaps with human generation of fake content. This paper is an abbreviated version of the full survey and reveals a clear need to research audio deepfakes and particularly detection of audio deepfakes.
翻訳日:2021-11-30 18:03:52 公開日:2021-11-28
# マッピング産業 4.0技術:サイバー物理システムから人工知能へ

Mapping Industry 4.0 Technologies: From Cyber-Physical Systems to Artificial Intelligence ( http://arxiv.org/abs/2111.14168v1 )

ライセンス: Link先を確認
Benjamin Meindl, Joana Mendon\c{c}a(参考訳) 第4次産業革命は急速に製造業の状況を変えつつある。 この分野の研究と急速な発展のために、これらの概念の明確な定義はまだ存在しない。 この研究は、技術動向とギャップの明確な説明を提供する。 自然言語処理を用いて14,667件の研究論文から技術用語を抽出し,ネットワーク分析を応用し,産業4.0技術の地図を作成する新しい手法を提案する。 分析の基盤となった業界4.0技術の8つのクラスタを特定した。 以上の結果から,産業用IoT(Industrial Internet of Things, IIoT)技術が産業用4.0技術マップの中心となっている。 これは、IIoTを中心としたIndustrial 4.0の最初の定義と一致している。 近年の人工知能(AI)の重要性の高まりを踏まえ、産業4.0におけるAIの基本的役割と、第4次産業革命を人間と機械のAIによる自然なコラボレーションとして理解することを提案する。 本稿では,文献レビューの新たなアプローチを紹介するとともに,今後の動向と研究のギャップを浮き彫りにして,デジタルトランスフォーメーションのメリットを享受することを支援する。

The fourth industrial revolution is rapidly changing the manufacturing landscape. Due to the growing research and fast evolution in this field, no clear definitions of these concepts yet exist. This work provides a clear description of technological trends and gaps. We introduce a novel method to create a map of Industry 4.0 technologies, using natural language processing to extract technology terms from 14,667 research articles and applying network analysis. We identified eight clusters of Industry 4.0 technologies, which served as the basis for our analysis. Our results show that Industrial Internet of Things (IIoT) technologies have become the center of the Industry 4.0 technology map. This is in line with the initial definitions of Industry 4.0, which centered on IIoT. Given the recent growth in the importance of artificial intelligence (AI), we suggest accounting for AI's fundamental role in Industry 4.0 and understanding the fourth industrial revolution as an AI-powered natural collaboration between humans and machines. This article introduces a novel approach for literature reviews, and the results highlight trends and research gaps to guide future work and help these actors reap the benefits of digital transformations.
翻訳日:2021-11-30 17:31:25 公開日:2021-11-28
# 過パラメータディープリルーネットにおける経験的リスク最小化の一般化性能

Generalization Performance of Empirical Risk Minimization on Over-parameterized Deep ReLU Nets ( http://arxiv.org/abs/2111.14039v1 )

ライセンス: Link先を確認
Shao-Bo Lin, Yao Wang, Ding-Xuan Zhou(参考訳) 本稿では,過パラメータ化深層ReLUネット上で経験的リスク最小化(ERM)を実現するためのグローバルミニマの一般化性能について検討する。 深層ReLUネットに対する新たな深層化手法を用いて、穏やかな条件下で多数のデータに対してほぼ最適な一般化誤差境界を達成できる完全大域ミニマが存在することを厳密に証明する。 深層リールネット上のermの大域的最小値が広く用いられている確率的勾配降下(sgd)アルゴリズムによって実現できることを保証するためには,過剰パラメータ化が不可欠である。

In this paper, we study the generalization performance of global minima for implementing empirical risk minimization (ERM) on over-parameterized deep ReLU nets. Using a novel deepening scheme for deep ReLU nets, we rigorously prove that there exist perfect global minima achieving almost optimal generalization error bounds for numerous types of data under mild conditions. Since over-parameterization is crucial to guarantee that the global minima of ERM on deep ReLU nets can be realized by the widely used stochastic gradient descent (SGD) algorithm, our results indeed fill a gap between optimization and generalization.
翻訳日:2021-11-30 17:30:50 公開日:2021-11-28
# 局所データ特性を利用した不均衡データ前処理技術

Imbalanced data preprocessing techniques utilizing local data characteristics ( http://arxiv.org/abs/2111.14120v1 )

ライセンス: Link先を確認
Micha{\l} Koziarski(参考訳) データ不均衡は、異なるクラスから来るトレーニング観察の数の違いであり、現代の機械学習に最も大きな課題の1つである。 従来の分類アルゴリズムに対するデータ不均衡の負の影響は、データ前処理技術、トレーニングデータを操作して不均衡の程度を人工的に減少させる方法によって低減することができる。 しかし、既存のデータ前処理技術、特に不均衡なデータ前処理のパラダイムであるSMOTEとそのデリバティブは、様々なデータ困難要因に影響を受けやすい傾向にある。 これは、元のSMOTEアルゴリズムが多数クラスの観測情報を利用していないことによるものである。 この論文の焦点は、少数派と多数派の双方の分布に関する情報をネイティブに活用する新しいデータ再サンプリング戦略の開発である。 本論文は,提案する二分法データ再サンプリング戦略,多クラス化への翻訳,病理組織学的データ分類の実際的応用に焦点をあてた12の研究論文の内容を要約した。

Data imbalance, that is the disproportion between the number of training observations coming from different classes, remains one of the most significant challenges affecting contemporary machine learning. The negative impact of data imbalance on traditional classification algorithms can be reduced by the data preprocessing techniques, methods that manipulate the training data to artificially reduce the degree of imbalance. However, the existing data preprocessing techniques, in particular SMOTE and its derivatives, which constitute the most prevalent paradigm of imbalanced data preprocessing, tend to be susceptible to various data difficulty factors. This is in part due to the fact that the original SMOTE algorithm does not utilize the information about majority class observations. The focus of this thesis is development of novel data resampling strategies natively utilizing the information about the distribution of both minority and majority class. The thesis summarizes the content of 12 research papers focused on the proposed binary data resampling strategies, their translation to the multi-class setting, and the practical application to the problem of histopathological data classification.
翻訳日:2021-11-30 17:30:36 公開日:2021-11-28
# 人間の学習模倣による教師なしドメイン適応型人物再同定

Unsupervised Domain Adaptive Person Re-Identification via Human Learning Imitation ( http://arxiv.org/abs/2111.14014v1 )

ライセンス: Link先を確認
Yang Peng, Ping Liu, Yawei Luo, Pan Zhou, Zichuan Xu, Jingen Liu(参考訳) 教師なしドメイン適応型人物再同定は、その実用的価値の高さから大きな注目を集めている。 近年、クラスタリングと微調整のパラダイムに従って、研究者は、異なる人物の再識別データセット間のドメインギャップを減らすために、教師/学生フレームワークを彼らの手法に活用することを提案している。 教師の行動を直接コピーしたり、信頼できる学習素材を選択したりして、人間の学習過程を模倣しようとする最近の教師学生の枠組みに基づく手法に着想を得て、我々は、異なる側面から人間の学習過程を模倣する、学習素材を適応的に更新し、教師の行動を選択的に模倣し、学習材料構造を解析することを提案する。 この3つのコンポーネントを共同研究し、教師なしドメイン適応型人物再同定(human learning imitation framework)の新たな方法を構成する。 3つのベンチマークデータセットにおける実験結果は,提案手法の有効性を示している。

Unsupervised domain adaptive person re-identification has received significant attention due to its high practical value. In past years, by following the clustering and finetuning paradigm, researchers propose to utilize the teacher-student framework in their methods to decrease the domain gap between different person re-identification datasets. Inspired by recent teacher-student framework based methods, which try to mimic the human learning process either by making the student directly copy behavior from the teacher or selecting reliable learning materials, we propose to conduct further exploration to imitate the human learning process from different aspects, \textit{i.e.}, adaptively updating learning materials, selectively imitating teacher behaviors, and analyzing learning materials structures. The explored three components, collaborate together to constitute a new method for unsupervised domain adaptive person re-identification, which is called Human Learning Imitation framework. The experimental results on three benchmark datasets demonstrate the efficacy of our proposed method.
翻訳日:2021-11-30 17:10:26 公開日:2021-11-28
# EGFN:高速ステレオ3次元物体検出のための効率的な形状特徴ネットワーク

EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object Detection ( http://arxiv.org/abs/2111.14055v1 )

ライセンス: Link先を確認
Aqi Gao, Yanwei Pang, Jing Nie, Jiale Cao and Yishun Guo(参考訳) ステレオベースの高速3d物体検出装置は,近年,推論時間の面で大きな進歩を遂げている。 しかし、精度は高精度指向の手法よりもはるかに遅れている。 主な理由は、高速ステレオベース手法における3次元幾何学的特徴表現の欠如または欠如である。 そこで本研究では,効率的な幾何特徴生成ネットワーク(EGFN)を提案する。 EGFNの鍵は、効率よく効果的な3次元幾何学的特徴表現(EGFR)モジュールである。 EGFRモジュールにおいて、まず軽量なコスト容積特性を生成し、その後効率的に3D空間に変換し、最後に画像および3D空間におけるマルチスケールな特徴拡張を行い、3D幾何学的特徴である軽量なボクセル特徴を得る。 さらに,マルチスケールな3次元幾何学的特徴学習のガイドとして,新しい知識蒸留手法を導入する。 公的なKITTIテストセットにおける実験結果から,提案したEGFNは,mAP$_{3d}$で5.16\%の高速手法であるYOLOStsereo3Dよりも高い性能を示し,ステレオ3Dオブジェクト検出の精度と効率のトレードオフが向上した。 私たちのコードは公開されます。

Fast stereo based 3D object detectors have made great progress in the sense of inference time recently. However, they lag far behind high-precision oriented methods in accuracy. We argue that the main reason is the missing or poor 3D geometry feature representation in fast stereo based methods. To solve this problem, we propose an efficient geometry feature generation network (EGFN). The key of our EGFN is an efficient and effective 3D geometry feature representation (EGFR) module. In the EGFR module, light-weight cost volume features are firstly generated, then are efficiently converted into 3D space, and finally multi-scale features enhancement in in both image and 3D spaces is conducted to obtain the 3D geometry features: enhanced light-weight voxel features. In addition, we introduce a novel multi-scale knowledge distillation strategy to guide multi-scale 3D geometry features learning. Experimental results on the public KITTI test set shows that the proposed EGFN outperforms YOLOStsereo3D, the advanced fast method, by 5.16\% on mAP$_{3d}$ at the cost of merely additional 12 ms and hence achieves a better trade-off between accuracy and efficiency for stereo 3D object detection. Our code will be publicly available.
翻訳日:2021-11-30 17:10:07 公開日:2021-11-28
# 自然界におけるE-Scooter Riderの検出

Detection of E-scooter Riders in Naturalistic Scenes ( http://arxiv.org/abs/2111.14060v1 )

ライセンス: Link先を確認
Kumar Apurv, Renran Tian, Rini Sherony(参考訳) 世界の主要都市では、電子スクーターがユビキタスな自動車になりつつある。 電動スクーターライダーの通常の挙動は、他の脆弱な道路利用者に大きく異なる。 この状況は、車両のアクティブセーフティシステムと自動運転機能に新たな課題をもたらし、eスクーターライダーを第1ステップとして検出する必要がある。 我々の知る限り、これらの電動スクーターライダーを検出するコンピュータービジョンモデルは存在しない。 本稿では,e-scooterライダーと通常の歩行者を区別する新しい視覚ベースシステムと,自然環境におけるe-scooterライダーのベンチマークデータセットを提案する。 既存の2つの畳み込みニューラルネットワーク(CNN)、You Only Look Once(YOLOv3)、MobileNetV2の上に構築された効率的なパイプラインを提案する。 データセット上でMobileNetV2を微調整し、E-Scooterライダーと歩行者を分類するためにモデルをトレーニングします。 我々は,eスクーターライダーを全パイプラインで分類するために,原テストサンプルで約 0.75 のリコールを得た。 さらに、YOLOv3上でトレーニングされたMobileNetV2の分類精度は91%以上であり、精度は0.9以上である。

E-scooters have become ubiquitous vehicles in major cities around the world.The numbers of e-scooters keep escalating, increasing their interactions with other cars on the road. Normal behavior of an e-scooter rider varies enormously to other vulnerable road users. This situation creates new challenges for vehicle active safety systems and automated driving functionalities, which require the detection of e-scooter riders as the first step. To our best knowledge, there is no existing computer vision model to detect these e-scooter riders. This paper presents a novel vision-based system to differentiate between e-scooter riders and regular pedestrians and a benchmark data set for e-scooter riders in natural scenes. We propose an efficient pipeline built over two existing state-of-the-art convolutional neural networks (CNN), You Only Look Once (YOLOv3) and MobileNetV2. We fine-tune MobileNetV2 over our dataset and train the model to classify e-scooter riders and pedestrians. We obtain a recall of around 0.75 on our raw test sample to classify e-scooter riders with the whole pipeline. Moreover, the classification accuracy of trained MobileNetV2 on top of YOLOv3 is over 91%, with precision and recall over 0.9.
翻訳日:2021-11-30 17:09:44 公開日:2021-11-28
# 多領域顔画像翻訳のためのGated SwitchGAN

Gated SwitchGAN for multi-domain facial image translation ( http://arxiv.org/abs/2111.14096v1 )

ライセンス: Link先を確認
Xiaokang Zhang, Yuanlue Zhu, Wenting Chen, Wenshuang Liu, and Linlin Shen(参考訳) 近年,多領域顔画像翻訳の研究が注目されている。 既存の方法は一般に、ドメイン翻訳を課す補助分類器を備えた判別器を提供する。 しかし,これらの手法はドメイン分布マッチングに関する重要な情報を無視している。 そこで本稿では,より適応的な判別器構造を有するスイッチ生成逆ネットワーク(switchgan)とマッチング生成器を提案し,複数の領域間の微妙な画像変換を行う。 条件付きモジュールにおける特徴選択と融合を実現するために,特徴切替操作を提案する。 我々はモデルの有効性を実証する。 さらに,属性強度制御を表現し,学習を調整せずにコンテンツ情報を抽出するジェネレータの新機能についても紹介する。 Morph, RaFD, CelebAデータベースに対する実験により, 我々の拡張SwitchGAN(Gated SwitchGAN)はStarGAN, AttGAN, STGANよりも優れた翻訳結果が得られることが示された。 訓練されたresnet-18モデルを用いた属性分類精度とimagenet pretrained inception-v3モデルを用いたfidスコアも評価した。

Recent studies on multi-domain facial image translation have achieved impressive results. The existing methods generally provide a discriminator with an auxiliary classifier to impose domain translation. However, these methods neglect important information regarding domain distribution matching. To solve this problem, we propose a switch generative adversarial network (SwitchGAN) with a more adaptive discriminator structure and a matched generator to perform delicate image translation among multiple domains. A feature-switching operation is proposed to achieve feature selection and fusion in our conditional modules. We demonstrate the effectiveness of our model. Furthermore, we also introduce a new capability of our generator that represents attribute intensity control and extracts content information without tailored training. Experiments on the Morph, RaFD and CelebA databases visually and quantitatively show that our extended SwitchGAN (i.e., Gated SwitchGAN) can achieve better translation results than StarGAN, AttGAN and STGAN. The attribute classification accuracy achieved using the trained ResNet-18 model and the FID score obtained using the ImageNet pretrained Inception-v3 model also quantitatively demonstrate the superior performance of our models.
翻訳日:2021-11-30 17:09:24 公開日:2021-11-28
# ビデオ視聴から支配的な物体の動きを分割する学習

Learning To Segment Dominant Object Motion From Watching Videos ( http://arxiv.org/abs/2111.14160v1 )

ライセンス: Link先を確認
Sahir Shrestha, Mohammad Ali Armin, Hongdong Li, Nick Barnes(参考訳) 既存のディープラーニングに基づく教師なしビデオオブジェクトセグメンテーション手法は、まだトレーニングに地平線セグメンテーションマスクに依存している。 この文脈で教師なしとは、推論中に注釈付きフレームは使用されないことを意味する。 実写シーンの接地トラストセグメンテーションマスクの取得は手間がかかる作業であるので,注記データや事前学習した光フローマップに依存しない,支配的な移動物体セグメンテーションのための単純なフレームワークを構想する。 層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。 これにより、トレーニングと推論の両方の入力としてRGBイメージペアのみを使用して、支配的な前景オブジェクトのセグメンテーションを学習することができる。 新しいMovingCarsデータセットを使用して、この新しいタスクのベースラインを確立し、アノテートマスクのトレーニングを必要とする最近の手法に対する競争性能を示す。

Existing deep learning based unsupervised video object segmentation methods still rely on ground-truth segmentation masks to train. Unsupervised in this context only means that no annotated frames are used during inference. As obtaining ground-truth segmentation masks for real image scenes is a laborious task, we envision a simple framework for dominant moving object segmentation that neither requires annotated data to train nor relies on saliency priors or pre-trained optical flow maps. Inspired by a layered image representation, we introduce a technique to group pixel regions according to their affine parametric motion. This enables our network to learn segmentation of the dominant foreground object using only RGB image pairs as input for both training and inference. We establish a baseline for this novel task using a new MovingCars dataset and show competitive performance against recent methods that require annotated masks to train.
翻訳日:2021-11-30 17:07:25 公開日:2021-11-28
# CDGNet: ヒューマンパーシングのためのクラス配信ガイドネットワーク

CDGNet: Class Distribution Guided Network for Human Parsing ( http://arxiv.org/abs/2111.14173v1 )

ライセンス: Link先を確認
Kunliang Liu, Ouk Choi, Jianming Wang, Wonjun Hwang(参考訳) 人間の解析の目的は、人間の画像を構成要素に分割することである。 このタスクでは、人間のイメージの各ピクセルをクラスに従ってラベル付けする。 人体は階層的に構成された部分からなるので、画像の各本体部は単独の位置分布特性を有することができる。 おそらく、人間の頭は足の下にある可能性が低く、腕は胴体の近くにある可能性が高い。 この観察に触発されて,原文のパースラベルを水平方向および垂直方向に蓄積してインスタンスクラス分布を作成し,監視信号として活用する。 これらの水平クラスおよび垂直クラス分布ラベルを用いて、各クラスの固有位置分布を利用するようにネットワークを誘導する。 2つのガイド付き特徴を組み合わせて空間誘導マップを作成し、それを乗算と連結によりベースラインネットワーク上に重ね合わせ、人間の部位を正確に識別する。 LIP, ATR, CIHP の3つのベンチマークにおいて, 提案手法の有効性と優位性を検証した。

The objective of human parsing is to partition a human in an image into constituent parts. This task involves labeling each pixel of the human image according to the classes. Since the human body comprises hierarchically structured parts, each body part of an image can have its sole position distribution characteristics. Probably, a human head is less likely to be under the feet, and arms are more likely to be near the torso. Inspired by this observation, we make instance class distributions by accumulating the original human parsing label in the horizontal and vertical directions, which can be utilized as supervision signals. Using these horizontal and vertical class distribution labels, the network is guided to exploit the intrinsic position distribution of each class. We combine two guided features to form a spatial guidance map, which is then superimposed onto the baseline network by multiplication and concatenation to distinguish the human parts precisely. We conducted extensive experiments to demonstrate the effectiveness and superiority of our method on three well-known benchmarks: LIP, ATR, and CIHP databases.
翻訳日:2021-11-30 17:07:10 公開日:2021-11-28
# 病院ビデオ録画における患者の自動検出

Automated Detection of Patients in Hospital Video Recordings ( http://arxiv.org/abs/2111.14270v1 )

ライセンス: Link先を確認
Siddharth Sharma, Florian Dubost, Christopher Lee-Messer, Daniel Rubin(参考訳) 臨床環境では、てんかん患者はビデオ脳波検査(EEG)によって監視される。 ビデオ脳波は、患者がビデオテープで経験したことを記録し、脳波デバイスは脳波を記録する。 現在、発作時の患者の位置を追跡するための既存の自動的手法は存在せず、病院の患者のビデオ記録は一般に入手可能なビデオベンチマークデータセットとは大きく異なる。 例えば、カメラアングルは異常であり、患者は部分的に寝具シートや電極で覆うことができる。 患者をビデオ脳波でリアルタイムで追跡できることは、医療の質を向上させるための有望なイノベーションだ。 特に、患者の自動検出システムは、臨床検査を補完し、患者を継続的に監視する必要がある看護師や医師のリソース集約的な努力を減らすことができる。 対象物検出のための標準深層学習モデルであるimagenet pre-trained mask r-cnn を,患者45本のビデオの蓄積データセットを用いて患者検出の課題として評価した。 データセットは収集され、この作業のためにキュレーションされた。 微調整なしでは、ImageNetで事前訓練したMask R-CNNモデルでは、そのようなデータに対して性能が良くないことを示す。 データセットのサブセットでモデルを微調整することにより、患者検出性能が大幅に向上し、平均精度は0.64である。 結果がビデオクリップによって大きく異なることを示す。

In a clinical setting, epilepsy patients are monitored via video electroencephalogram (EEG) tests. A video EEG records what the patient experiences on videotape while an EEG device records their brainwaves. Currently, there are no existing automated methods for tracking the patient's location during a seizure, and video recordings of hospital patients are substantially different from publicly available video benchmark datasets. For example, the camera angle can be unusual, and patients can be partially covered with bedding sheets and electrode sets. Being able to track a patient in real-time with video EEG would be a promising innovation towards improving the quality of healthcare. Specifically, an automated patient detection system could supplement clinical oversight and reduce the resource-intensive efforts of nurses and doctors who need to continuously monitor patients. We evaluate an ImageNet pre-trained Mask R-CNN, a standard deep learning model for object detection, on the task of patient detection using our own curated dataset of 45 videos of hospital patients. The dataset was aggregated and curated for this work. We show that without fine-tuning, ImageNet pre-trained Mask R-CNN models perform poorly on such data. By fine-tuning the models with a subset of our dataset, we observe a substantial improvement in patient detection performance, with a mean average precision of 0.64. We show that the results vary substantially depending on the video clip.
翻訳日:2021-11-30 17:06:54 公開日:2021-11-28
# オフポリシー政策評価における類似する利益を有するサブグループの同定

Identification of Subgroups With Similar Benefits in Off-Policy Policy Evaluation ( http://arxiv.org/abs/2111.14272v1 )

ライセンス: Link先を確認
Ramtin Keramati, Omer Gottesman, Leo Anthony Celi, Finale Doshi-Velez, Emma Brunskill(参考訳) シーケンシャルな意思決定のための非政治政策評価方法は、提案された決定方針が現在の基本方針よりも優れているかどうかを特定するのに役立つ。 しかし、新しい決定方針は、一部の個人にとって基準方針よりも良いかもしれないが、他の個人はそうではないかもしれない。 これにより、パーソナライゼーションと、ヘテロジニアス治療効果(hte)の州別推定精度が向上した。 多くの重要なアプリケーションに存在する限られたデータを考えると、個々の予測は精度と信頼性を犠牲にすることができる。 本研究は,新たな意思決定方針における期待差をベースラインに対して確実に推定することが可能なサブグループを同定し,個人化の必要性と自信ある予測とのバランスをとる手法を開発する。 サブグループ分割フェーズにおける不確実性を考慮した新しい損失関数を提案する。 実験では,他の手法が苦しむHTEの正確な予測を行うために,本手法が有効であることを示す。

Off-policy policy evaluation methods for sequential decision making can be used to help identify if a proposed decision policy is better than a current baseline policy. However, a new decision policy may be better than a baseline policy for some individuals but not others. This has motivated a push towards personalization and accurate per-state estimates of heterogeneous treatment effects (HTEs). Given the limited data present in many important applications, individual predictions can come at a cost to accuracy and confidence in such predictions. We develop a method to balance the need for personalization with confident predictions by identifying subgroups where it is possible to confidently estimate the expected difference in a new decision policy relative to a baseline. We propose a novel loss function that accounts for uncertainty during the subgroup partitioning phase. In experiments, we show that our method can be used to form accurate predictions of HTEs where other methods struggle.
翻訳日:2021-11-30 16:38:16 公開日:2021-11-28
# 行列積状態の神経接核:収束とその応用

Neural Tangent Kernel of Matrix Product States: Convergence and Applications ( http://arxiv.org/abs/2111.14046v1 )

ライセンス: Link先を確認
Erdong Guo, David Draper(参考訳) 本研究では,マトリックス生成状態(MPS)のニューラルタンジェントカーネル(NTK)と,そのNTKの無限結合次元極限への収束について検討する。 我々は、MPSの結合次元が無限極限におけるトレーニング中に、MPSのテンソルの変動が漸近的にゼロとなる観察により無限大になるとき、MPSのNTKが勾配降下(トレーニング)過程(および初期化フェーズ)の間に定数行列に漸近的に収束することを証明する。 MPS の NTK の正定性を示すことにより、関数空間(MPS で表される関数空間)におけるトレーニング中の MPS の収束は、データセットの余分な仮定なしで保証される。 次に,平均平方誤差 (RMSE) と (非教師) ボルンマシン (BM) による (教師なし) 回帰の設定を検討し,その力学を無限結合次元の極限で解析する。 RMSEおよびBMにおけるMPSの応答のダイナミクスを記述する通常の微分方程式(ODE)を導出し、閉形式で解いた。 回帰について、Mercurer Kernels (Gaussian Kernels) を考えると、MPS の応答の平均の進化は NTK の最大の固有値に従う。 bm における核関数の直交性により、異なるモード(サンプル)のデカップルの進化と、訓練における収束の「特性的時間」が得られる。

In this work, we study the Neural Tangent Kernel (NTK) of Matrix Product States (MPS) and the convergence of its NTK in the infinite bond dimensional limit. We prove that the NTK of MPS asymptotically converges to a constant matrix during the gradient descent (training) process (and also the initialization phase) as the bond dimensions of MPS go to infinity by the observation that the variation of the tensors in MPS asymptotically goes to zero during training in the infinite limit. By showing the positive-definiteness of the NTK of MPS, the convergence of MPS during the training in the function space (space of functions represented by MPS) is guaranteed without any extra assumptions of the data set. We then consider the settings of (supervised) Regression with Mean Square Error (RMSE) and (unsupervised) Born Machines (BM) and analyze their dynamics in the infinite bond dimensional limit. The ordinary differential equations (ODEs) which describe the dynamics of the responses of MPS in the RMSE and BM are derived and solved in the closed-form. For the Regression, we consider Mercer Kernels (Gaussian Kernels) and find that the evolution of the mean of the responses of MPS follows the largest eigenvalue of the NTK. Due to the orthogonality of the kernel functions in BM, the evolution of different modes (samples) decouples and the "characteristic time" of convergence in training is obtained.
翻訳日:2021-11-30 16:35:04 公開日:2021-11-28
# 簡易勾配descent based アルゴリズムによるエスケープサドルポイント

Escape saddle points by a simple gradient-descent based algorithm ( http://arxiv.org/abs/2111.14069v1 )

ライセンス: Link先を確認
Chenyi Zhang, Tongyang Li(参考訳) サドル点のエスケープは、非凸最適化における中心的な研究トピックである。 本稿では,滑らかな関数 $f\colon\mathbb{r}^n\to\mathbb{r}$ に対して,$\tilde{o}(\log n/\epsilon^{1.75})$ の反復で$\epsilon$-approximate 2次定常点を出力する単純な勾配に基づくアルゴリズムを提案する。 これまでのJinらによる最先端のアルゴリズムと$\tilde{O}((\log n)^{4}/\epsilon^{2})$または$\tilde{O}((\log n)^{6}/\epsilon^{1.75})$イテレーションと比較すると、我々のアルゴリズムは$\log n$の点で多項式的に優れている。 確率的な設定では、アルゴリズムは$\tilde{o}((\log n)^{2}/\epsilon^{4})$イテレーションで$\epsilon$-approximate 2-order stationary pointを出力する。 理論的には,摂動勾配降下法と比較して,サドル点付近で負曲率を求めることができ,多項式速度を$\log n$で達成できるような勾配のみを用いて,強固なヘッセン力法を実装するというアイデアが大きな貢献である。 また,結果を支持する数値実験も行った。

Escaping saddle points is a central research topic in nonconvex optimization. In this paper, we propose a simple gradient-based algorithm such that for a smooth function $f\colon\mathbb{R}^n\to\mathbb{R}$, it outputs an $\epsilon$-approximate second-order stationary point in $\tilde{O}(\log n/\epsilon^{1.75})$ iterations. Compared to the previous state-of-the-art algorithms by Jin et al. with $\tilde{O}((\log n)^{4}/\epsilon^{2})$ or $\tilde{O}((\log n)^{6}/\epsilon^{1.75})$ iterations, our algorithm is polynomially better in terms of $\log n$ and matches their complexities in terms of $1/\epsilon$. For the stochastic setting, our algorithm outputs an $\epsilon$-approximate second-order stationary point in $\tilde{O}((\log n)^{2}/\epsilon^{4})$ iterations. Technically, our main contribution is an idea of implementing a robust Hessian power method using only gradients, which can find negative curvature near saddle points and achieve the polynomial speedup in $\log n$ compared to the perturbed gradient descent methods. Finally, we also perform numerical experiments that support our results.
翻訳日:2021-11-30 16:34:35 公開日:2021-11-28
# NoFADE:CO2投資の縮小リターンの分析

NoFADE: Analyzing Diminishing Returns on CO2 Investment ( http://arxiv.org/abs/2111.14059v1 )

ライセンス: Link先を確認
Andre Fu and Justin Tran and Andy Xie and Jonathan Spraggett and Elisa Ding and Chang-Won Lee and Kanav Singla and Mahdi S. Hosseini and Konstantinos N. Plataniotis(参考訳) 気候変動は、現在社会に大きな影響を及ぼす差し迫った問題であり続けている。 我々は,コンピュータビジョン(CV)コミュニティを含む社会として,環境への影響を制限する措置を講じることが重要である。 本稿では, (a)cv法におけるリターン低下の影響を解析し、 (b)モデル-データセット-複合関係を定量化する新しいエントロピーベースの計量である \textit{``nofade''} を提案する。 いくつかのCVタスクが飽和状態に達している一方で、他のタスクはほぼ飽和状態にある。 この点において、NoFADEはCVコミュニティがモデルとデータセットを同様のベースで比較し、非依存のプラットフォームを確立することを可能にする。

Climate change continues to be a pressing issue that currently affects society at-large. It is important that we as a society, including the Computer Vision (CV) community take steps to limit our impact on the environment. In this paper, we (a) analyze the effect of diminishing returns on CV methods, and (b) propose a \textit{``NoFADE''}: a novel entropy-based metric to quantify model--dataset--complexity relationships. We show that some CV tasks are reaching saturation, while others are almost fully saturated. In this light, NoFADE allows the CV community to compare models and datasets on a similar basis, establishing an agnostic platform.
翻訳日:2021-11-30 16:31:34 公開日:2021-11-28
# 地域学習問題--フェデレーション学習におけるデータ不均一性再考

Local Learning Matters: Rethinking Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2111.14213v1 )

ライセンス: Link先を確認
Matias Mendieta, Taojiannan Yang, Pu Wang, Minwoo Lee, Zhengming Ding, Chen Chen(参考訳) フェデレーション学習(federated learning、fl)は、クライアント(すなわちエッジデバイス)のネットワークで、プライバシ保存、分散学習を行うための有望な戦略である。 しかし、クライアント間のデータ分散は本質的にIIDではないことが多く、効率的な最適化が難しい。 この問題を軽減するために、多くのflアルゴリズムは、グローバルモデルに関するローカル更新を抑制するために、様々な近近用語を導入することで、クライアント間のデータの不均一性の影響を緩和することに焦点を当てている。 代わりに、近位制限よりも局所学習の一般性に着目し、FLにおけるデータ不均一性に対する解決策を再考する。 そこで本研究では,まず第2次インジケータから情報を得た体系的な研究を行い,flのアルゴリズムの有効性をよりよく理解する。 興味深いことに、標準正規化手法は、データの不均一性効果を緩和する驚くほど強力なパフォーマーであることがわかった。 そこで本研究では,データの不均一性と過去の手法の落とし穴を克服する簡易かつ効果的なFedAlign法を提案する。 FedAlignは、計算とメモリオーバーヘッドを最小限にしながら、さまざまな設定で最先端のFLメソッドと競合する精度を実現している。 コードは公開されます。

Federated learning (FL) is a promising strategy for performing privacy-preserving, distributed learning with a network of clients (i.e., edge devices). However, the data distribution among clients is often non-IID in nature, making efficient optimization difficult. To alleviate this issue, many FL algorithms focus on mitigating the effects of data heterogeneity across clients by introducing a variety of proximal terms, some incurring considerable compute and/or memory overheads, to restrain local updates with respect to the global model. Instead, we consider rethinking solutions to data heterogeneity in FL with a focus on local learning generality rather than proximal restriction. To this end, we first present a systematic study informed by second-order indicators to better understand algorithm effectiveness in FL. Interestingly, we find that standard regularization methods are surprisingly strong performers in mitigating data heterogeneity effects. Based on our findings, we further propose a simple and effective method, FedAlign, to overcome data heterogeneity and the pitfalls of previous methods. FedAlign achieves competitive accuracy with state-of-the-art FL methods across a variety of settings while minimizing computation and memory overhead. Code will be publicly available.
翻訳日:2021-11-30 16:31:26 公開日:2021-11-28
# 自然言語と空間ルール

Natural Language and Spatial Rules ( http://arxiv.org/abs/2111.14066v1 )

ライセンス: Link先を確認
Alexandros Haridis and Stella Rossikopoulou Pappa(参考訳) 本研究では,空間配置の自然言語記述の中で空間意味論概念を形式的に表現するシステムを開発する。 本システムは,文中の単語が空間的役割に割り当てられ,それらの役割間の関係が空間的関係で表されるような空間意味表現モデルに基づく。 本システムと形状規則を用いて2次元形状の言語(集合)を生成する形状文法形式を組み合わせる。 提案方式は, 形規則と動詞規則のペアで構成され, 動詞規則が英語で関連する形規則の作用を記述している。 我々は,本システムによって解析された形状の様々な自然言語記述を提示し,言語と知覚のインターフェイスで見られるオープン質問と課題について考察する。

We develop a system that formally represents spatial semantics concepts within natural language descriptions of spatial arrangements. The system builds on a model of spatial semantics representation according to which words in a sentence are assigned spatial roles and the relations among these roles are represented with spatial relations. We combine our system with the shape grammar formalism that uses shape rules to generate languages (sets) of two-dimensional shapes. Our proposed system consists of pairs of shape rules and verbal rules where the verbal rules describe in English the action of the associated shape rule. We present various types of natural language descriptions of shapes that are successfully parsed by our system and we discuss open questions and challenges we see at the interface of language and perception.
翻訳日:2021-11-30 16:25:22 公開日:2021-11-28
# タスク指向対話システムにおける意味制御言語生成における文脈事項

Context Matters in Semantically Controlled Language Generation for Task-oriented Dialogue Systems ( http://arxiv.org/abs/2111.14119v1 )

ライセンス: Link先を確認
Ye Liu, Wolfgang Maier, Wolfgang Minker and Stefan Ultes(参考訳) 本研究は,事前学習モデルで符号化された対話履歴情報と,現在のシステム発話の意味表現を組み合わせることで,タスク指向対話における文脈言語生成を実現する。 我々は,スクラッチから学習したモデルにおけるコンテキスト表現に事前学習されたマルチコンテキスト変換モデルを用い,事前学習したgpt-2から適応したモデルにおいて,先行するユーザ発話をコンテキスト生成に活用する。 MultiWOZデータセットによる両方の実験は、事前訓練されたモデルによって符号化された文脈情報が、自動メトリクスと人的評価の両方において応答生成の性能を改善することを示している。 提案した文脈生成器は,現在進行中の対話に適合するより多様な応答を生成できる。 コンテキストサイズを分析すると、長いコンテキストは自動的にパフォーマンスを改善するわけではないが、直近のユーザ発話はコンテキスト生成に不可欠な役割を果たす。 また,GPTに基づく生成モデルに対する再ランカを提案する。 実験の結果,リランカが選択した応答は自動測定値に大きく改善されていることがわかった。

This work combines information about the dialogue history encoded by pre-trained model with a meaning representation of the current system utterance to realize contextual language generation in task-oriented dialogues. We utilize the pre-trained multi-context ConveRT model for context representation in a model trained from scratch; and leverage the immediate preceding user utterance for context generation in a model adapted from the pre-trained GPT-2. Both experiments with the MultiWOZ dataset show that contextual information encoded by pre-trained model improves the performance of response generation both in automatic metrics and human evaluation. Our presented contextual generator enables higher variety of generated responses that fit better to the ongoing dialogue. Analysing the context size shows that longer context does not automatically lead to better performance, but the immediate preceding user utterance plays an essential role for contextual generation. In addition, we also propose a re-ranker for the GPT-based generation model. The experiments show that the response selected by the re-ranker has a significant improvement on automatic metrics.
翻訳日:2021-11-30 16:25:09 公開日:2021-11-28
# 卵を割ってオムレツを作る:新しい属性合成のためのゼロショット学習

Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel Attribute Synthesis ( http://arxiv.org/abs/2111.14182v1 )

ライセンス: Link先を確認
Yu Hsuan Li, Tzu-Yin Chao, Ching-Chun Huang, Pin-Yu Chen and Wei-Chen Chiu(参考訳) ゼロショット分類問題に対する既存のアルゴリズムの多くは、典型的には、属性に基づくカテゴリ間の意味関係を利用して、新しいカテゴリの分類を実現する。 しかしながら、ゼロショット分類モデルのトレーニングには、トレーニングデータセット内の各クラス(あるいはインスタンス)に対する属性ラベリングが必要である。 この目的のために,我々は,新たな属性検出/分類器に対してゼロショット学習を導出し,ラベル付け効率のためにデータセットの自動アノテートを行うことができるか? 基本的には、手動でアノテートされた属性(例えば、その属性)を認識することを学習する少数の検出器のみを考慮し、ゼロショット学習方式で新しい属性の検出器を合成することを目指している。 提案手法であるZSLA(Zero Shot Learning for Attributes)は,これらの属性をまず基本属性に分解し,それらの基本属性を新しい属性に再結合することで,この新たな研究課題に対処する。 新規属性のセマンティクスを的確に把握し, 検出および局所化の点で他のベースライン手法と比較して優れた性能を示すために, 合成検出器の容量を検証した。 さらに,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,提案手法は他の207個の新規属性を合成することができる。

Most of the existing algorithms for zero-shot classification problems typically rely on the attribute-based semantic relations among categories to realize the classification of novel categories without observing any of their instances. However, training the zero-shot classification models still requires attribute labeling for each class (or even instance) in the training dataset, which is also expensive. To this end, in this paper, we bring up a new problem scenario: "Are we able to derive zero-shot learning for novel attribute detectors/classifiers and use them to automatically annotate the dataset for labeling efficiency?" Basically, given only a small set of detectors that are learned to recognize some manually annotated attributes (i.e., the seen attributes), we aim to synthesize the detectors of novel attributes in a zero-shot learning manner. Our proposed method, Zero Shot Learning for Attributes (ZSLA), which is the first of its kind to the best of our knowledge, tackles this new research problem by applying the set operations to first decompose the seen attributes into their basic attributes and then recombine these basic attributes into the novel ones. Extensive experiments are conducted to verify the capacity of our synthesized detectors for accurately capturing the semantics of the novel attributes and show their superior performance in terms of detection and localization compared to other baseline approaches. Moreover, with using only 32 seen attributes on the Caltech-UCSD Birds-200-2011 dataset, our proposed method is able to synthesize other 207 novel attributes, while various generalized zero-shot classification algorithms trained upon the dataset re-annotated by our synthesized attribute detectors are able to provide comparable performance with those trained with the manual ground-truth annotations.
翻訳日:2021-11-30 15:40:35 公開日:2021-11-28
# サイバー物理システムにおける物理概念の学習 : 事例研究

Learning Physical Concepts in Cyber-Physical Systems: A Case Study ( http://arxiv.org/abs/2111.14151v1 )

ライセンス: Link先を確認
Henrik S. Steude and Alexander Windmann and Oliver Niggemann(参考訳) 機械学習(ML)は、研究と実践の両方において、ここ数十年で大きな成功を収めています。 サイバーフィジカルシステム(cps)では、例えば、mlはシステムの最適化や異常の検出、システム障害の根本原因の特定に使用することができる。 しかし、既存のアルゴリズムには2つの大きな欠点がある。 (一)人間の専門家による解釈が難しい。 (ii) あるシステムから他のシステム(類似)システムへの結果の転送は、しばしば困難である。 概念学習または表現学習(RepL)は、これら両方の欠点に対する解決策であり、説明可能性と伝達可能性に関する人間のソリューションアプローチを模倣する: 物理量やシステム状態といった一般的な概念を学ぶことで、モデルは人間によって解釈されるようになる。 さらに、この抽象レベルの概念は、通常、幅広い異なるシステムに適用することができる。 現代のML手法はすでにCPSで広く使われているが、概念学習や伝達学習はほとんど使われていない。 本稿では,CPSのセンサデータの主要な形態である時系列データにおける物理概念の学習方法に関する研究の現状について概説する。 また,三段式システムの例を用いて,現在の美術品から最も重要な手法を分析する。 これらの具体的実装1に基づいて,提案手法の利点と欠点について考察し,その目的と使用条件について述べる。

Machine Learning (ML) has achieved great successes in recent decades, both in research and in practice. In Cyber-Physical Systems (CPS), ML can for example be used to optimize systems, to detect anomalies or to identify root causes of system failures. However, existing algorithms suffer from two major drawbacks: (i) They are hard to interpret by human experts. (ii) Transferring results from one systems to another (similar) system is often a challenge. Concept learning, or Representation Learning (RepL), is a solution to both of these drawbacks; mimicking the human solution approach to explain-ability and transfer-ability: By learning general concepts such as physical quantities or system states, the model becomes interpretable by humans. Furthermore concepts on this abstract level can normally be applied to a wide range of different systems. Modern ML methods are already widely used in CPS, but concept learning and transfer learning are hardly used so far. In this paper, we provide an overview of the current state of research regarding methods for learning physical concepts in time series data, which is the primary form of sensor data of CPS. We also analyze the most important methods from the current state of the art using the example of a three-tank system. Based on these concrete implementations1, we discuss the advantages and disadvantages of the methods and show for which purpose and under which conditions they can be used.
翻訳日:2021-11-30 15:36:58 公開日:2021-11-28
# ロバスト・自動ハイパーパラメータチューニングに向けて

Towards Robust and Automatic Hyper-Parameter Tunning ( http://arxiv.org/abs/2111.14056v1 )

ライセンス: Link先を確認
Mathieu Tuli and Mahdi S. Hosseini and Konstantinos N. Plataniotis(参考訳) 超パラメータ最適化(HPO)の課題は、モデルの重みと超パラメータの両方を同時に最適化することの難しさから、計算コストが重い。 本稿では,新しいHPO法を導入し,畳み込みニューラルネットワークの中間層における畳み込み重みの低ランク因数分解を用いて,ハイパーパラメータを最適化するための解析応答面を定義する方法について,トレーニングデータのみを用いて検討する。 我々は,この表面がモデル性能の代理としてどのように振る舞うかを定量化し,信頼領域探索アルゴリズムを用いて解決する。 このアルゴリズムはベイジアン最適化のような最先端技術より優れ、モデル、最適化、データセットの選択をまたいで一般化する。 PyTorch のコードは \url{https://github.com/MathieuTuli/autoHyper} にある。

The task of hyper-parameter optimization (HPO) is burdened with heavy computational costs due to the intractability of optimizing both a model's weights and its hyper-parameters simultaneously. In this work, we introduce a new class of HPO method and explore how the low-rank factorization of the convolutional weights of intermediate layers of a convolutional neural network can be used to define an analytical response surface for optimizing hyper-parameters, using only training data. We quantify how this surface behaves as a surrogate to model performance and can be solved using a trust-region search algorithm, which we call autoHyper. The algorithm outperforms state-of-the-art such as Bayesian Optimization and generalizes across model, optimizer, and dataset selection. The PyTorch codes can be found in \url{https://github.com/MathieuTuli/autoHyper}.
翻訳日:2021-11-30 15:19:24 公開日:2021-11-28
# フェデレートガウス過程:収束、自動パーソナライゼーション、多元性モデリング

Federated Gaussian Process: Convergence, Automatic Personalization and Multi-fidelity Modeling ( http://arxiv.org/abs/2111.14008v1 )

ライセンス: Link先を確認
Xubo Yue, Raed Al Kontar(参考訳) 本稿では,モデルアグリゲーションのための平均化戦略と局所的なクライアント計算のための確率的勾配降下を用いる,フェデレートガウス過程の回帰フレームワークである \texttt{fgpr}: a federated gaussian process ($\mathcal{gp}$) を提案する。 特に、結果のグローバルモデルはパーソナライズに優れており、 \texttt{FGPR} はすべてのクライアントで大域的な $\mathcal{GP}$ を同時に学習する。 予測後部は、この事前を利用して、特定のクライアントからパーソナライズされた特徴を符号化するローカルデータに条件付けすることで得られる。 理論的には, {\displaystyle \texttt{FGPR} は全ログ様関数の臨界点に収束し,統計的誤差が生じる。 広範囲にわたるケーススタディを通じて、 \texttt{FGPR} は幅広いアプリケーションで優れており、プライバシー保護のための多要素データモデリングにおいて有望なアプローチであることを示す。

In this paper, we propose \texttt{FGPR}: a Federated Gaussian process ($\mathcal{GP}$) regression framework that uses an averaging strategy for model aggregation and stochastic gradient descent for local client computations. Notably, the resulting global model excels in personalization as \texttt{FGPR} jointly learns a global $\mathcal{GP}$ prior across all clients. The predictive posterior then is obtained by exploiting this prior and conditioning on local data which encodes personalized features from a specific client. Theoretically, we show that \texttt{FGPR} converges to a critical point of the full log-likelihood function, subject to statistical error. Through extensive case studies we show that \texttt{FGPR} excels in a wide range of applications and is a promising approach for privacy-preserving multi-fidelity data modeling.
翻訳日:2021-11-30 15:16:30 公開日:2021-11-28
# クラスタリングによる近似推定

Approximate Inference via Clustering ( http://arxiv.org/abs/2111.14219v1 )

ライセンス: Link先を確認
Qianqian Song(参考訳) 近年、大規模なベイズ学習が注目されている。 しかし、ビッグデータ時代には、私たちが直面するデータの量は、それを扱う能力よりもずっと速く成長しています。 幸いなことに、大規模なデータセットは通常、豊富な内部構造を持ち、やや冗長である。 本稿では,この構造を利用してベイズ後方の簡易化を試みる。 具体的には、いわゆる well-clustered datasets に関心を限定し、クラスタリング情報に従って \emph{approximate posterior} を構築します。 幸いなことに、クラスタリング構造は特定のクラスタリングアルゴリズムによって効率的に得ることができる。 近似後部を構成する場合、同一クラスタ内のデータポイントはすべて、クラスタのセントロイドに置き換えられる。 その結果、後部は大幅に簡略化される。 理論的には、ある条件下では、構築した近似後部は、正確な後部に近い(KL発散によって測定される)。 さらに, 築造後部が真の後部への良好な近似であり, 採取が容易であることを示すため, 徹底的な実験を行った。

In recent years, large-scale Bayesian learning draws a great deal of attention. However, in big-data era, the amount of data we face is growing much faster than our ability to deal with it. Fortunately, it is observed that large-scale datasets usually own rich internal structure and is somewhat redundant. In this paper, we attempt to simplify the Bayesian posterior via exploiting this structure. Specifically, we restrict our interest to the so-called well-clustered datasets and construct an \emph{approximate posterior} according to the clustering information. Fortunately, the clustering structure can be efficiently obtained via a particular clustering algorithm. When constructing the approximate posterior, the data points in the same cluster are all replaced by the centroid of the cluster. As a result, the posterior can be significantly simplified. Theoretically, we show that under certain conditions the approximate posterior we construct is close (measured by KL divergence) to the exact posterior. Furthermore, thorough experiments are conducted to validate the fact that the constructed posterior is a good approximation to the true posterior and much easier to sample from.
翻訳日:2021-11-30 15:16:09 公開日:2021-11-28
# EffCNet: NXP BlueBoxの画像分類のための効率的なCondenseNet

EffCNet: An Efficient CondenseNet for Image Classification on NXP BlueBox ( http://arxiv.org/abs/2111.14243v1 )

ライセンス: Link先を確認
Priyank Kalgaonkar, Mohamed El-Sharkawy(参考訳) 内蔵プロセッサを備えたインテリジェントエッジデバイスは、例えば画像分類やオブジェクト検出といった高度なコンピュータビジョン(CV)タスクを実行する能力や物理的形態の点で、幅広い。 自動運転車やuav、組み込みシステム、モバイルデバイスといった分野の絶え間ない進歩により、計算リソースに制約のあるスマートエッジデバイス上でリアルタイム推論を行うための、極めて効率的なニューラルネットワーク(ann)の必要性がますます高まっている。 リモートリージョンにおける信頼性の低いネットワーク接続とデータ転送の複雑さにより、データをリモート処理のためにクラウドサーバに送信する代わりに、データをローカルにキャプチャして処理することが最も重要である。 一方エッジデバイスは、安価なハードウェアと限られた冷却と計算資源のために、限られた処理能力を提供する。 本稿では,EffCNet CNNのモデルサイズ,トレーニング可能なパラメータ,浮動小数点演算(FLOP)を低減し,リアルタイムの推論性能を向上させるために,自己クエリデータ拡張と深度的に分離可能な畳み込み戦略を活用するエッジデバイスのための,CondenseNet Convolutional Neural Network(CNN)の改良と効率的なバージョンであるEffCNetと呼ばれる新しいディープ畳み込みニューラルネットワークアーキテクチャを提案する。 さらに,提案したCNNのリアルタイム推論性能を検証するために,CIFAR-10とCIFAR-100の2つのベンチマークデータセットを用いて画像分類を行った。 最後に、これらのトレーニングされた重量は、自動運転車やUAV向けに設計されたインテリジェントエッジ開発プラットフォームであるNXP BlueBoxにデプロイします。

Intelligent edge devices with built-in processors vary widely in terms of capability and physical form to perform advanced Computer Vision (CV) tasks such as image classification and object detection, for example. With constant advances in the field of autonomous cars and UAVs, embedded systems and mobile devices, there has been an ever-growing demand for extremely efficient Artificial Neural Networks (ANN) for real-time inference on these smart edge devices with constrained computational resources. With unreliable network connections in remote regions and an added complexity of data transmission, it is of an utmost importance to capture and process data locally instead of sending the data to cloud servers for remote processing. Edge devices on the other hand, offer limited processing power due to their inexpensive hardware, and limited cooling and computational resources. In this paper, we propose a novel deep convolutional neural network architecture called EffCNet which is an improved and an efficient version of CondenseNet Convolutional Neural Network (CNN) for edge devices utilizing self-querying data augmentation and depthwise separable convolutional strategies to improve real-time inference performance as well as reduce the final trained model size, trainable parameters, and Floating-Point Operations (FLOPs) of EffCNet CNN. Furthermore, extensive supervised image classification analyses are conducted on two benchmarking datasets: CIFAR-10 and CIFAR-100, to verify real-time inference performance of our proposed CNN. Finally, we deploy these trained weights on NXP BlueBox which is an intelligent edge development platform designed for self-driving vehicles and UAVs, and conclusions will be extrapolated accordingly.
翻訳日:2021-11-30 15:00:34 公開日:2021-11-28
# 視覚言語ナビゲーションモデルの潜在的な性能を探る:スナップショットアンサンブル法

Explore the Potential Performance of Vision-and-Language Navigation Model: a Snapshot Ensemble Method ( http://arxiv.org/abs/2111.14267v1 )

ライセンス: Link先を確認
Wenda Qin, Teruhisa Misu, Derry Wijaya(参考訳) VLN(Vision-and-Language Navigation)は、人工知能分野における課題である。 深部ビジョンと言語モデルのブレークスルーが原因で、ここ数年でこのタスクは大きな進歩を遂げてきたが、人間と同様に一般化できるvlnモデルを構築するのは難しいままである。 本稿では,VLNモデルを改善するための新しい視点を提供する。 同一のVLNモデルのスナップショットは、成功率が比較的同じであっても、かなり異なる振る舞いをするという発見に基づいて、複数のスナップショット間の予測を活用するスナップショットベースのアンサンブルソリューションを提案する。 提案手法は,既存のSOTAモデルである$\circlearrowright$BERTのスナップショットと過去の動作を意識した修正に基づいて構築され,ナビゲーションエラー(NE)におけるR2RデータセットチャレンジとPath Length(SPL)の重み付けによる継承において,新たなSOTAパフォーマンスを実現する。

Vision-and-Language Navigation (VLN) is a challenging task in the field of artificial intelligence. Although massive progress has been made in this task over the past few years attributed to breakthroughs in deep vision and language models, it remains tough to build VLN models that can generalize as well as humans. In this paper, we provide a new perspective to improve VLN models. Based on our discovery that snapshots of the same VLN model behave significantly differently even when their success rates are relatively the same, we propose a snapshot-based ensemble solution that leverages predictions among multiple snapshots. Constructed on the snapshots of the existing state-of-the-art (SOTA) model $\circlearrowright$BERT and our past-action-aware modification, our proposed ensemble achieves the new SOTA performance in the R2R dataset challenge in Navigation Error (NE) and Success weighted by Path Length (SPL).
翻訳日:2021-11-30 14:59:59 公開日:2021-11-28
# ExCon:画像分類のための説明駆動型コントラスト学習

ExCon: Explanation-driven Supervised Contrastive Learning for Image Classification ( http://arxiv.org/abs/2111.14271v1 )

ライセンス: Link先を確認
Zhibo Zhang, Jongseong Jang, Chiheb Trabelsi, Ruiwen Li, Scott Sanner, Yeonjeong Jeong, Dongsub Shim(参考訳) 対照的な学習は、画像分類のようなタスクの学習埋め込み表現の品質を大幅に向上させた。 しかし、既存のコントラスト拡張手法の重要な欠点は、それらがその意味論の望ましくない変更をもたらすイメージ内容の変更につながる可能性があることである。 これは下流タスクにおけるモデルの性能に影響を与える可能性がある。 そこで本稿では,画像のタスク関連意味コンテンツが保存されるように,コントラスト学習で画像データを拡張できるかどうかを問う。 そこで本研究では,サリエンシに基づく説明手法を活用して,コンテント保存型マスク強化によるコントラスト学習を提案する。 提案する新しい説明駆動教師付きコントラスト学習(excon)手法は,近接画像埋め込みに類似した内容と説明を持たせるという2つの目標を重要視する。 ExConの影響を定量化するために、CIFAR-100とTiny ImageNetデータセットで実験を行う。 ExConは、分類、説明品質、対向ロバスト性、および分布シフトの文脈におけるモデルの確率的予測のキャリブレーションの観点から、バニラ指導によるコントラスト学習より優れていることを示す。

Contrastive learning has led to substantial improvements in the quality of learned embedding representations for tasks such as image classification. However, a key drawback of existing contrastive augmentation methods is that they may lead to the modification of the image content which can yield undesired alterations of its semantics. This can affect the performance of the model on downstream tasks. Hence, in this paper, we ask whether we can augment image data in contrastive learning such that the task-relevant semantic content of an image is preserved. For this purpose, we propose to leverage saliency-based explanation methods to create content-preserving masked augmentations for contrastive learning. Our novel explanation-driven supervised contrastive learning (ExCon) methodology critically serves the dual goals of encouraging nearby image embeddings to have similar content and explanation. To quantify the impact of ExCon, we conduct experiments on the CIFAR-100 and the Tiny ImageNet datasets. We demonstrate that ExCon outperforms vanilla supervised contrastive learning in terms of classification, explanation quality, adversarial robustness as well as calibration of probabilistic predictions of the model in the context of distributional shift.
翻訳日:2021-11-30 14:59:41 公開日:2021-11-28
# トピック駆動型適応ネットワークによるクロスドメイン感性分類

Topic Driven Adaptive Network for Cross-Domain Sentiment Classification ( http://arxiv.org/abs/2111.14094v1 )

ライセンス: Link先を確認
Yicheng Zhu, Yiqiao Qiu, Yanghui Rao(参考訳) 近年,ソースドメインからラベル付きデータを用いて信頼性の高い分類器を学習し,対象ドメイン上で評価することを目的として,クロスドメイン感情分類がホットスポットとなっている。 この流れの中で、ほとんどのアプローチは異なるドメインからのデータを共通の特徴空間にマッピングするドメイン適応を利用する。 モデルの性能をさらに向上するため、ドメイン固有情報をマイニングするためのいくつかの手法が提案された。 しかし、その多くはドメイン固有の情報の限られた部分しか利用していない。 本研究ではまず,話題情報に基づいてドメイン固有の単語を抽出する手法を開発する。 次に,クロスドメイン感情分類のためのトピック駆動適応ネットワーク(tdan)を提案する。 このネットワークはセマンティックス・アテンション・ネットワークとドメイン固有のワード・アテンション・ネットワークという2つのサブネットワークから構成される。 これらのサブネットワークは異なる入力形式をとり、その出力を特徴ベクトルとして融合する。 ドメイン間の感情分類におけるTDANの有効性を検証する実験を行った。

Cross-domain sentiment classification has been a hot spot these years, which aims to learn a reliable classifier using labeled data from the source domain and evaluate it on the target domain. In this vein, most approaches utilized domain adaptation that maps data from different domains into a common feature space. To further improve the model performance, several methods targeted to mine domain-specific information were proposed. However, most of them only utilized a limited part of domain-specific information. In this study, we first develop a method of extracting domain-specific words based on the topic information. Then, we propose a Topic Driven Adaptive Network (TDAN) for cross-domain sentiment classification. The network consists of two sub-networks: semantics attention network and domain-specific word attention network, the structures of which are based on transformers. These sub-networks take different forms of input and their outputs are fused as the feature vector. Experiments validate the effectiveness of our TDAN on sentiment classification across domains.
翻訳日:2021-11-30 14:54:49 公開日:2021-11-28
# トランスフォーマーモデルを用いた法領域におけるゼロショット言語間伝達

Zero-Shot Cross-Lingual Transfer in Legal Domain Using Transformer models ( http://arxiv.org/abs/2111.14192v1 )

ライセンス: Link先を確認
Zein Shaheen, Gerhard Wohlgenannt, Dmitry Muromtsev(参考訳) ゼロショットの言語間転送は、低リソース言語をサポートするため、現代のNLPモデルとアーキテクチャにおいて重要な機能である。 本研究では,英語からフランス語,ドイツ語へのゼロショット・クロスランガル変換を多ラベルテキスト分類法を用いて研究し,英語学習セットを用いて分類器を訓練し,フランス語とドイツ語のテストセットを用いてテストする。 我々は、法律文書のトピック分類のための英語データセットであるEURLEX57Kデータセットを拡張し、フランス語とドイツ語の公式翻訳を行った。 ゼロショット・クロスランガル転送の品質に及ぼすグラデーショナル・アンフリーズ法と言語モデルファインタニング法(Gradual Unfreezing and Language Model Finetuning)の適用効果を検討した。 多言語事前学習モデル(M-DistilBERT, M-BERT)の言語モデル微調整により,フランス語とドイツ語の相対的改善が32.0-34.94%,76.15-87.54.%となることがわかった。 また、訓練中の訓練済みモデルのレイヤーの段階的な凍結は、フランス語では38-45%、ドイツ語では58-70%の相対的な改善をもたらす。 英語、フランス語、ドイツ語の訓練セットを用いた合同訓練のモデルと比較すると、ゼロショットのBERTベースの分類モデルは、共同訓練されたBERTベースの分類モデルによって達成された性能の86%に達する。

Zero-shot cross-lingual transfer is an important feature in modern NLP models and architectures to support low-resource languages. In this work, We study zero-shot cross-lingual transfer from English to French and German under Multi-Label Text Classification, where we train a classifier using English training set, and we test using French and German test sets. We extend EURLEX57K dataset, the English dataset for topic classification of legal documents, with French and German official translation. We investigate the effect of using some training techniques, namely Gradual Unfreezing and Language Model finetuning, on the quality of zero-shot cross-lingual transfer. We find that Language model finetuning of multi-lingual pre-trained model (M-DistilBERT, M-BERT) leads to 32.0-34.94%, 76.15-87.54\% relative improvement on French and German test sets correspondingly. Also, Gradual unfreezing of pre-trained model's layers during training results in relative improvement of 38-45% for French and 58-70% for German. Compared to training a model in Joint Training scheme using English, French and German training sets, zero-shot BERT-based classification model reaches 86% of the performance achieved by jointly-trained BERT-based classification model.
翻訳日:2021-11-30 14:54:33 公開日:2021-11-28
# 単眼斜視データ解析のための半自動モノプローティングのAI支援フレームワーク

AI-supported Framework of Semi-Automatic Monoplotting for Monocular Oblique Visual Data Analysis ( http://arxiv.org/abs/2111.14021v1 )

ライセンス: Link先を確認
Behzad Golparvar, Ruo-Qian Wang(参考訳) 過去数十年間、スマートフォン、ドローン、空中パトロール、デジタルカメラの開発により、多くの人々が利用できる高品質な写真が提供され、世界規模で自然と社会の膨大なデータを収集する機会となった。 しかし、新しい写真ツールで収集されたデータは概して斜めであり、ジオレファレンスすることは困難であり、大量のデータはしばしば時代遅れである。 斜め画像データのジオレファレンスは、単一の画像とDEM(Digital Elevation Model)のみを必要とするモノプロットと呼ばれる手法によって解決される。 従来のモノプロットでは、画像とDEM内の一連の接地制御点(GCP)ペアを手動で選択し、カメラの外在的および内在的パラメータを決定して、写真とDEMの間のピクセルレベルの対応を確立し、写真内のオブジェクトのマッピングとジオレファレンスを可能にする。 この従来の方法は、労働集約的な入力、明確に定義されたGCPを特定するためのリッチなエクスペリエンスの必要性、カメラポーズ推定の制限など、いくつかの課題のためにスケールアップが困難である。 したがって、大規模データベースや準リアルタイム警告システムの分析に既存のモノプローティング手法はめったに使われない。 本稿では,画像とdemのピクセルレベル対応を最小限の介入で実現する,新しい半自動モノプロットフレームワークの提案と実証を行う。 画像およびdemラスターにおけるキーポイント検出、ジオリファレンスされた3d dem gcpの検索、正規化勾配に基づく最適化、ポーズ推定、レイトレーシング、画像画素と実世界の座標間の対応識別を含む分析パイプラインを開発した。 2つの数値実験により、このフレームワークは3次元座標における視覚データのジオレファレンスに優れており、完全な自動単発法への道を開いた。

In the last decades, the development of smartphones, drones, aerial patrols, and digital cameras enabled high-quality photographs available to large populations and, thus, provides an opportunity to collect massive data of the nature and society with global coverage. However, the data collected with new photography tools is usually oblique - they are difficult to be georeferenced, and huge amounts of data is often obsolete. Georeferencing oblique imagery data may be solved by a technique called monoplotting, which only requires a single image and Digital Elevation Model (DEM). In traditional monoplotting, a human user has to manually choose a series of ground control point (GCP) pairs in the image and DEM and then determine the extrinsic and intrinsic parameters of the camera to establish a pixel-level correspondence between photos and the DEM to enable the mapping and georeferencing of objects in photos. This traditional method is difficult to scale due to several challenges including the labor-intensive inputs, the need of rich experience to identify well-defined GCPs, and limitations in camera pose estimation. Therefore, existing monoplotting methods are rarely used in analyzing large-scale databases or near-real-time warning systems. In this paper, we propose and demonstrate a novel semi-automatic monoplotting framework that provides pixel-level correspondence between photos and DEMs requiring minimal human interventions. A pipeline of analyses was developed including key point detection in images and DEM rasters, retrieving georeferenced 3D DEM GCPs, regularized gradient-based optimization, pose estimation, ray tracing, and the correspondence identification between image pixels and real world coordinates. Two numerical experiments show that the framework is superior in georeferencing visual data in 3-D coordinates, paving a way toward fully automatic monoplotting methodology.
翻訳日:2021-11-30 14:52:41 公開日:2021-11-28