このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210818となっている論文です。

PDF登録状況(公開日: 20210818)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 局所パラメータ化形状の統計的解析 [全文訳有]

Statistical analysis of locally parameterized shapes ( http://arxiv.org/abs/2109.03027v1 )

ライセンス: CC BY 4.0
Mohsen Taheri, and J\"orn Schulz(参考訳) 形状のアライメントは、例えば平均形状の計算や2つの形状集団間の位置差の検出、分類において、統計的形状解析において重要なステップであった。 procrustesアライメントは、最も一般的に使用される方法と技術状態である。 本研究では,アライメントが統計的解析に深刻な影響を及ぼす可能性があることを明らかにする。 例えば、アライメントは偽の形状の違いを誘発し、誤った結果や解釈をもたらす可能性がある。 局所座標系に基づく新しい階層形状パラメータ化を提案する。 局所パラメータ化された形状は翻訳と回転不変である。 したがって、このパラメータ化を用いて、形状表現のための一般的なグローバル座標系から固有のアライメント問題を回避できる。 新しいパラメータ化は形状変形やシミュレーションにも優れている。 シミュレーションデータとパーキンソン病およびコントロール患者の左海馬の仮説テストにおいて,本手法のパワーを実証した。

The alignment of shapes has been a crucial step in statistical shape analysis, for example, in calculating mean shape, detecting locational differences between two shape populations, and classification. Procrustes alignment is the most commonly used method and state of the art. In this work, we uncover that alignment might seriously affect the statistical analysis. For example, alignment can induce false shape differences and lead to misleading results and interpretations. We propose a novel hierarchical shape parameterization based on local coordinate systems. The local parameterized shapes are translation and rotation invariant. Thus, the inherent alignment problems from the commonly used global coordinate system for shape representation can be avoided using this parameterization. The new parameterization is also superior for shape deformation and simulation. The method's power is demonstrated on the hypothesis testing of simulated data as well as the left hippocampi of patients with Parkinson's disease and controls.
翻訳日:2021-09-12 12:46:02 公開日:2021-08-18
# パーソナライズされたマスクを用いた実践的かつセキュアなフェデレーション勧告

Practical and Secure Federated Recommendation with Personalized Masks ( http://arxiv.org/abs/2109.02464v1 )

ライセンス: Link先を確認
Liu Yang, Ben Tan, Bo Liu, Vincent W. Zheng, Kai Chen, Qiang Yang(参考訳) 連合レコメンデーションは、プライベート分散レコメンデーションシステムの新しい概念である。 データサイロとプライバシーの問題を完全に解決することを目指している。 現在のフェデレーション・リコメンデータ・システムは、主に準同型暗号と微分プライバシー法を用いて中間計算結果を保護する。 しかし、前者は追加の通信コストと計算コストを伴い、後者はモデルの精度を損なう。 どちらもリアルタイムのフィードバックと、レコメンダシステムの正確なパーソナライズ要件を同時に満たすことはできない。 本稿では,federated masked matrix factorizationと呼ばれる新しいフェデレーション推奨フレームワークを提案する。 federated masked matrix factorizationは、効率や有効性を犠牲にすることなく、federated recommenderシステムのデータのプライバシを保護することができる。 準同型暗号と微分プライバシーを使う代わりに、秘密共有技術を利用して、フェデレート行列因子分解のセキュアな集約プロセスを組み込む。 同型暗号化と比較して、シークレット共有はトレーニングプロセス全体を高速化する。 さらに,パーソナライズされたマスクの新たなアイデアを紹介し,提案するフェデレーションマスク行列因子化フレームワークに適用する。 一方、パーソナライズされたマスクは効率をさらに向上させる可能性がある。 一方、パーソナライズされたマスクも効果がある。 実世界の異なるデータセットにおいて,設計モデルの優越性を示す。 また、プライバシの保証を提供し、一般的な連合学習タスクへのパーソナライズされたマスクメソッドの拡張についても論じる。

Federated recommendation is a new notion of private distributed recommender systems. It aims to address the data silo and privacy problems altogether. Current federated recommender systems mainly utilize homomorphic encryption and differential privacy methods to protect the intermediate computational results. However, the former comes with extra communication and computation costs, the latter damages model accuracy. Neither of them could simultaneously satisfy the real-time feedback and accurate personalization requirements of recommender systems. In this paper, we proposed a new federated recommendation framework, named federated masked matrix factorization. Federated masked matrix factorization could protect the data privacy in federated recommender systems without sacrificing efficiency or efficacy. Instead of using homomorphic encryption and differential privacy, we utilize the secret sharing technique to incorporate the secure aggregation process of federated matrix factorization. Compared with homomorphic encryption, secret sharing largely speeds up the whole training process. In addition, we introduce a new idea of personalized masks and apply it in the proposed federated masked matrix factorization framework. On the one hand, personalized masks could further improve efficiency. On the other hand, personalized masks also benefit efficacy. Empirically, we show the superiority of the designed model on different real-world data sets. Besides, we also provide the privacy guarantee and discuss the extension of the personalized mask method to the general federated learning tasks.
翻訳日:2021-09-12 10:54:06 公開日:2021-08-18
# (参考訳) オープンセット認識に関する調査 [全文訳有]

A Survey on Open Set Recognition ( http://arxiv.org/abs/2109.00893v1 )

ライセンス: CC BY 4.0
Atefeh Mahdavi, Marco Carvalho(参考訳) オープンセット認識(OSR)とは、トレーニング中にモデルから学ばなかった未知の状況を扱うことである。 本稿では,OSRに関する既存の研究について調査を行い,そのメリットとデメリットを区別し,新たな研究者の育成を支援する。 OSRモデルの分類は、最近の進歩の広範な概要と共に提供される。 さらに,OSRとマルチクラス分類と新規性検出を含む関連タスクの関係を解析した。 実世界の未知のインスタンスにOSRが適切に対応できることは,トレーニングデータ中のすべてのクラスをキャプチャすることは現実的ではない。 最後にOSRの応用が強調され,今後の研究課題への新たな方向性が示唆された。

Open Set Recognition (OSR) is about dealing with unknown situations that were not learned by the models during training. In this paper, we provide a survey of existing works about OSR and distinguish their respective advantages and disadvantages to help out new researchers interested in the subject. The categorization of OSR models is provided along with an extensive summary of recent progress. Additionally, the relationships between OSR and its related tasks including multi-class classification and novelty detection are analyzed. It is concluded that OSR can appropriately deal with unknown instances in the real-world where capturing all possible classes in the training data is not practical. Lastly, applications of OSR are highlighted and some new directions for future research topics are suggested.
翻訳日:2021-09-05 11:47:17 公開日:2021-08-18
# LSD-StructureNet:3次元階層における構造詳細のモデリング

LSD-StructureNet: Modeling Levels of Structural Detail in 3D Part Hierarchies ( http://arxiv.org/abs/2108.13459v1 )

ライセンス: Link先を確認
Dominic Roberts, Ara Danielyan, Hang Chu, Mani Golparvar-Fard, David Forsyth(参考訳) 部品の階層によって表現される3次元形状の生成モデルは、リアルで多様な出力集合を生成することができる。 しかしながら、既存のモデルでは、階層的にモデリング形状の実用的限界に苦しむため、条件付きサンプリングは実行できない。 生成した形状の個々の部分に 変種を生成できない 残りの形を変えることなく これは、複数の詳細レベルで生成した形状を調整する3DCAD設計のようなアプリケーションに限られている。 そこで,我々はlsd-structurenetを紹介する。lsd-structurenetは,出力階層内の任意の位置に位置する部品の再生成を可能にするstructurenetアーキテクチャの拡張である。 各階層深度に対する個別確率的条件デコーダを学習することでこれを実現できる。 部品階層で表される3次元形状の最大データセットであるPartNetデータセット上でLSD-StructureNetを評価する。 その結果,既存の手法であるlsd-structurenetは,推論速度や出力のリアリズムや多様性に影響を与えずに条件付きサンプリングを行うことができることがわかった。

Generative models for 3D shapes represented by hierarchies of parts can generate realistic and diverse sets of outputs. However, existing models suffer from the key practical limitation of modelling shapes holistically and thus cannot perform conditional sampling, i.e. they are not able to generate variants on individual parts of generated shapes without modifying the rest of the shape. This is limiting for applications such as 3D CAD design that involve adjusting created shapes at multiple levels of detail. To address this, we introduce LSD-StructureNet, an augmentation to the StructureNet architecture that enables re-generation of parts situated at arbitrary positions in the hierarchies of its outputs. We achieve this by learning individual, probabilistic conditional decoders for each hierarchy depth. We evaluate LSD-StructureNet on the PartNet dataset, the largest dataset of 3D shapes represented by hierarchies of parts. Our results show that contrarily to existing methods, LSD-StructureNet can perform conditional sampling without impacting inference speed or the realism and diversity of its outputs.
翻訳日:2021-09-05 08:53:03 公開日:2021-08-18
# クリック後変換予測のための空間全体のマルチタスクモデルの解析

An Analysis Of Entire Space Multi-Task Models For Post-Click Conversion Prediction ( http://arxiv.org/abs/2108.13475v1 )

ライセンス: Link先を確認
Conor O'Brien, Kin Sum Liu, James Neufeld, Rafael Barreto, Jonathan J Hunt(参考訳) 産業レコメンデータシステムは、複数の、しばしば密接に関連するユーザアクションに対する確率の近似を頻繁に行う。 例えば、ユーザーが広告をクリックするかどうか、広告商品を購入するかどうかを予測する。 これらのタスク間の概念的類似性は、関連するタスクからポジティブな帰納的伝達をもたらすことを目的としたアルゴリズムのクラスであるマルチタスク学習の使用を促進する。 本稿では,オンライン広告タスクのためのニューラルネットワークを用いたマルチタスク学習手法を実証的に評価する。 具体的には,大規模広告プラットフォーム上でのモバイルアプリ広告におけるクリック後変換イベント(cvr)の確率を,関連するクリックイベント(ctr)を補助タスクとして近似的に検討する。 我々は,マルチタスク学習と「エンターテイメント空間モデリング」の両方を取り入れた最近のアプローチを,アクレーション手法を用いて体系的に研究し,クリックした際の条件付き変換の可能性を学ぶのではなく,すべてのログ化された例でCVRをトレーニングする。 これらの結果から,データ共有型CTRタスクからCVRタスクへの肯定的な移行が,いくつかの異なるアプローチによってもたらされることを示すとともに,マルチタスク設計の選択がCVRタスクに影響を及ぼす2つの主要な問題,すなわちデータ空間性とデータバイアスにどのように対処するかについての洞察を与える。 本研究は,マルチタスク学習が実世界の大規模アプリケーションで関連するイベントをモデル化するための合理的なアプローチであることを示す証拠の増大に加えて,既存のシステムにおける実装の容易さによって,特定のマルチタスクアプローチが導かれることを示唆する。

Industrial recommender systems are frequently tasked with approximating probabilities for multiple, often closely related, user actions. For example, predicting if a user will click on an advertisement and if they will then purchase the advertised product. The conceptual similarity between these tasks has promoted the use of multi-task learning: a class of algorithms that aim to bring positive inductive transfer from related tasks. Here, we empirically evaluate multi-task learning approaches with neural networks for an online advertising task. Specifically, we consider approximating the probability of post-click conversion events (installs) (CVR) for mobile app advertising on a large-scale advertising platform, using the related click events (CTR) as an auxiliary task. We use an ablation approach to systematically study recent approaches that incorporate both multitask learning and "entire space modeling" which train the CVR on all logged examples rather than learning a conditional likelihood of conversion given clicked. Based on these results we show that several different approaches result in similar levels of positive transfer from the data-abundant CTR task to the CVR task and offer some insight into how the multi-task design choices address the two primary problems affecting the CVR task: data sparsity and data bias. Our findings add to the growing body of evidence suggesting that standard multi-task learning is a sensible approach to modelling related events in real-world large-scale applications and suggest the specific multitask approach can be guided by ease of implementation in an existing system.
翻訳日:2021-09-05 08:52:46 公開日:2021-08-18
# (参考訳) 注意型畳み込みニューラルネットワークを用いた心電図心不整脈診断 [全文訳有]

ECG-Based Heart Arrhythmia Diagnosis Through Attentional Convolutional Neural Networks ( http://arxiv.org/abs/2108.10226v1 )

ライセンス: CC BY 4.0
Ziyu Liu, Xiang Zhang(参考訳) 心電図(ECG)信号は個々の心臓状態に高度に適用され,機械学習による心臓不整脈の自動診断に多くの努力が注がれている。 しかし、従来の機械学習モデルでは、生データ前処理や特徴抽出に多くの時間と労力が必要であり、また分類性能の低さが課題となっている。 本稿では,CNNとマルチヘッドアテンションを活用して,生のECG信号を直接処理し,正確な不整脈検出のための情報依存関係を自動的に抽出する,新しいディープラーニングモデルであるABCNNを提案する。 提案手法を評価するため,ベンチマークECGデータセット上で広範囲な実験を行った。 我々の主な課題は、正常な心拍から不整脈を見つけ、その間に5種類の不整脈から心疾患を正確に認識することである。 また、ABCNNの収束解析を行い、可視化による抽出表現の意義を直感的に示す。 実験の結果,提案したABCNNは広く使用されているベースラインよりも優れており,知的心疾患診断システムに一歩近づいた。

Electrocardiography (ECG) signal is a highly applied measurement for individual heart condition, and much effort have been endeavored towards automatic heart arrhythmia diagnosis based on machine learning. However, traditional machine learning models require large investment of time and effort for raw data preprocessing and feature extraction, as well as challenged by poor classification performance. Here, we propose a novel deep learning model, named Attention-Based Convolutional Neural Networks (ABCNN) that taking advantage of CNN and multi-head attention, to directly work on the raw ECG signals and automatically extract the informative dependencies for accurate arrhythmia detection. To evaluate the proposed approach, we conduct extensive experiments over a benchmark ECG dataset. Our main task is to find the arrhythmia from normal heartbeats and, at the meantime, accurately recognize the heart diseases from five arrhythmia types. We also provide convergence analysis of ABCNN and intuitively show the meaningfulness of extracted representation through visualization. The experimental results show that the proposed ABCNN outperforms the widely used baselines, which puts one step closer to intelligent heart disease diagnosis system.
翻訳日:2021-08-29 12:49:04 公開日:2021-08-18
# 複数のモダリティからの感情認識:基本と方法論

Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies ( http://arxiv.org/abs/2108.10152v1 )

ライセンス: Link先を確認
Sicheng Zhao, Guoli Jia, Jufeng Yang, Guiguang Ding, Kurt Keutzer(参考訳) 人間は感情的な生き物だ。 感情を明示的に表現する場合(例えば、表情、スピーチ)、暗黙的に(例えば、テキスト、画像)、複数のモダリティが関与することが多い。 感情知性を持つ機械、すなわち感情を認識し、解釈し、処理し、シミュレートする機械がますます重要になっている。 本稿では,マルチモーダル感情認識(mer)のいくつかの重要な側面について述べる。 まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。 次に,既存の感情アノテーション戦略と対応する計算タスクを要約し,merの主な課題について述べる。 さらに,各感情的モダリティの表現学習,異なる感情的モダリティの特徴融合,merの分類器最適化,merのドメイン適応に関する代表的なアプローチを提案する。 最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。

Humans are emotional creatures. Multiple modalities are often involved when we express emotions, whether we do so explicitly (e.g., facial expression, speech) or implicitly (e.g., text, image). Enabling machines to have emotional intelligence, i.e., recognizing, interpreting, processing, and simulating emotions, is becoming increasingly important. In this tutorial, we discuss several key aspects of multi-modal emotion recognition (MER). We begin with a brief introduction on widely used emotion representation models and affective modalities. We then summarize existing emotion annotation strategies and corresponding computational tasks, followed by the description of main challenges in MER. Furthermore, we present some representative approaches on representation learning of each affective modality, feature fusion of different affective modalities, classifier optimization for MER, and domain adaptation for MER. Finally, we outline several real-world applications and discuss some future directions.
翻訳日:2021-08-29 12:13:03 公開日:2021-08-18
# 建設コスト指数予測:多機能融合手法

Construction Cost Index Forecasting: A Multi-feature Fusion Approach ( http://arxiv.org/abs/2108.10155v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Yuanpeng He, Fuyuan Xiao(参考訳) 建設コスト指数は建設業界において重要な指標である。 CCIの予測は、非常に実践的な重要性がある。 本稿では,情報融合と機械学習を組み合わせた時系列予測のための多機能融合フレームワークを提案する。 MFFはスライディングウインドウアルゴリズムを用いて時間列を情報融合のための特徴列に変換する関数列を提案する。 MFFは従来の情報手法を機械学習に置き換えて情報融合を実現し、CCI予測効果を大幅に改善する。 MFFはCCIと時系列予測において非常に重要である。

The construction cost index is an important indicator in the construction industry. Predicting CCI has great practical significance. This paper combines information fusion with machine learning, and proposes a Multi-feature Fusion framework for time series forecasting. MFF uses a sliding window algorithm and proposes a function sequence to convert the time sequence into a feature sequence for information fusion. MFF replaces the traditional information method with machine learning to achieve information fusion, which greatly improves the CCI prediction effect. MFF is of great significance to CCI and time series forecasting.
翻訳日:2021-08-29 12:11:30 公開日:2021-08-18
# (参考訳) イントロスペクションを用いた非定型タスクにおける説明可能な深層強化学習 [全文訳有]

Explainable Deep Reinforcement Learning Using Introspection in a Non-episodic Task ( http://arxiv.org/abs/2108.08911v1 )

ライセンス: CC BY-SA 4.0
Angel Ayala, Francisco Cruz, Bruno Fernandes and Richard Dazeley(参考訳) 説明可能な強化学習により、人工エージェントは、人間のような方法で、非熟練のエンドユーザーを対象とする行動を説明することができる。 説明を作成するための効果的な方法は、Q値がエージェントの意思決定プロセスを説明するためにベースとして使われる成功の確率に変換するイントロスペクションベースの方法を使用することである。 このアプローチはエピソジックおよび離散的なシナリオで効果的に用いられてきたが、非エピソジックかつより複雑な環境での成功確率を計算するためにはまだ対処されていない。 本研究では,非エポゾディックなタスクで使用されるイントロスペクション手法を適用し,レインボーアルゴリズムで解決した連続的なアタリゲームシナリオで試す。 最初の結果から,全ての行動に対してQ値から直接成功確率を計算できることが示唆された。

Explainable reinforcement learning allows artificial agents to explain their behavior in a human-like manner aiming at non-expert end-users. An efficient alternative of creating explanations is to use an introspection-based method that transforms Q-values into probabilities of success used as the base to explain the agent's decision-making process. This approach has been effectively used in episodic and discrete scenarios, however, to compute the probability of success in non-episodic and more complex environments has not been addressed yet. In this work, we adapt the introspection method to be used in a non-episodic task and try it in a continuous Atari game scenario solved with the Rainbow algorithm. Our initial results show that the probability of success can be computed directly from the Q-values for all possible actions.
翻訳日:2021-08-24 00:38:43 公開日:2021-08-18
# (参考訳) ニューラルアーキテクチャとプルーニング探索によるモバイルリアルタイム超解像の実現

Achieving on-Mobile Real-Time Super-Resolution with Neural Architecture and Pruning Search ( http://arxiv.org/abs/2108.08910v1 )

ライセンス: CC BY 4.0
Zheng Zhan, Yifan Gong, Pu Zhao, Geng Yuan, Wei Niu, Yushu Wu, Tianyun Zhang, Malith Jayaweera, David Kaeli, Bin Ren, Xue Lin, Yanzhi Wang(参考訳) 近年、深層ニューラルネットワーク(dnn)の発展に伴い、シングルイメージスーパーレゾリューション(sisr)タスクが著しく進歩しているのを目撃しているが、深層学習手法は、実際には計算とメモリ消費の問題、特にモバイルデバイスのようなリソース制限されたプラットフォームに直面している。 この課題を克服し,モバイル上でのsisrタスクのリアルタイム展開を容易にするために,ニューラルネットワーク検索とpruning検索を組み合わせることで,sparse super- resolution (sr)モデルから画像品質の高い自動検索フレームワークを提案する。 探索コストを削減するため,スーパーネットを導入し,スーパーネット構築,コンパイラ対応アーキテクチャ,プルーニング検索,コンパイラ対応プルーニング比探索の3段階に分割することで,重み付け戦略を活用する。 提案フレームワークでは,モバイルプラットフォーム(Samsung Galaxy S20)上で,競争力のある画質(PSNR,SSIM)を持つ720pの解像度を実現するために,リアルタイムSR推論(フレームあたり数ミリ秒)を初めて実現した。

Though recent years have witnessed remarkable progress in single image super-resolution (SISR) tasks with the prosperous development of deep neural networks (DNNs), the deep learning methods are confronted with the computation and memory consumption issues in practice, especially for resource-limited platforms such as mobile devices. To overcome the challenge and facilitate the real-time deployment of SISR tasks on mobile, we combine neural architecture search with pruning search and propose an automatic search framework that derives sparse super-resolution (SR) models with high image quality while satisfying the real-time inference requirement. To decrease the search cost, we leverage the weight sharing strategy by introducing a supernet and decouple the search problem into three stages, including supernet construction, compiler-aware architecture and pruning search, and compiler-aware pruning ratio search. With the proposed framework, we are the first to achieve real-time SR inference (with only tens of milliseconds per frame) for implementing 720p resolution with competitive image quality (in terms of PSNR and SSIM) on mobile platforms (Samsung Galaxy S20).
翻訳日:2021-08-24 00:33:48 公開日:2021-08-18
# (参考訳) mhealth: パーソナルヘルスケア支援のための人工知能指向のモバイルアプリケーション [全文訳有]

MHealth: An Artificial Intelligence Oriented Mobile Application for Personal Healthcare Support ( http://arxiv.org/abs/2108.09277v1 )

ライセンス: CC BY-SA 4.0
Ismail Ali Afrah, Utku Kose(参考訳) 本研究の目的は,先述した文献からのソリューションを考慮し,よりよいソリューションのために可能な要件を使用することにより,人工知能支援を行うエキスパートシステムベースのmhealthアプリケーションを提案することである。 この研究により、人工知能をサポートし、日常生活における一般的な健康問題に対する動的支援を提供するモバイルソフトウェアシステムが設計され、調査および診断に基づく評価タスクによって評価された。 評価課題はmHealthシステムに対して陽性であった。

Main objective of this study is to introduce an expert system-based mHealth application that takes Artificial Intelligence support by considering previously introduced solutions from the literature and employing possible requirements for a better solution. Thanks to that research study, a mobile software system having Artificial Intelligence support and providing dynamic support against the common health problems in daily life was designed-developed and it was evaluated via survey and diagnosis-based evaluation tasks. Evaluation tasks indicated positive outcomes for the mHealth system.
翻訳日:2021-08-24 00:32:46 公開日:2021-08-18
# (参考訳) ラップトップ上のwikidataのパーソナライズされたバージョンの作成とクエリ [全文訳有]

Creating and Querying Personalized Versions of Wikidata on a Laptop ( http://arxiv.org/abs/2108.07119v2 )

ライセンス: CC BY 4.0
Hans Chalupsky, Pedro Szekely, Filip Ilievski, Daniel Garijo and Kartik Shenoy(参考訳) WikidataダンプをJSONまたはRDF形式でダウンロードしたり、Wikidata APIを使用して個々のエンティティのデータを取得するか、Wikidata SPARQLエンドポイントを使用することができる。 これらの手法のどれも、大量のデータの検索やWikidataの膨大な部分の集約といった、複雑で一般的なクエリユースケースをサポートできない。 KGTK Kypherは、ユーザがノートパソコン上でパーソナライズされたWikidataの変種を作成できるクエリ言語とプロセッサである。 我々は,Kypherがユーザに対して,DBpediaなどの外部リソースのデータを組み合わせて,ラップトップ上の完全なWikidata KG上で実行可能にする分析のタイプを示すユースケースをいくつか提示する。 これらのユースケースに対するKypherクエリは、24時間タイムアウト制限のある強力なサーバ上で実行されるWikidataクローン上の同等のSPARQLクエリよりも、ラップトップ上ではるかに高速に実行される。

Application developers today have three choices for exploiting the knowledge present in Wikidata: they can download the Wikidata dumps in JSON or RDF format, they can use the Wikidata API to get data about individual entities, or they can use the Wikidata SPARQL endpoint. None of these methods can support complex, yet common, query use cases, such as retrieval of large amounts of data or aggregations over large fractions of Wikidata. This paper introduces KGTK Kypher, a query language and processor that allows users to create personalized variants of Wikidata on a laptop. We present several use cases that illustrate the types of analyses that Kypher enables users to run on the full Wikidata KG on a laptop, combining data from external resources such as DBpedia. The Kypher queries for these use cases run much faster on a laptop than the equivalent SPARQL queries on a Wikidata clone running on a powerful server with 24h time-out limits.
翻訳日:2021-08-22 15:47:55 公開日:2021-08-18
# LT-OCF:学習可能な時間ODEベースの協調フィルタリング

LT-OCF: Learnable-Time ODE-based Collaborative Filtering ( http://arxiv.org/abs/2108.06208v3 )

ライセンス: Link先を確認
Jeongwhan Choi, Jinsung Jeon, Noseong Park(参考訳) 協調フィルタリング(CF)は、リコメンダシステムの長年の問題である。 古典行列分解から最近のグラフ畳み込みネットワークに基づくアプローチまで、多くの新しい手法が提案されている。 最近の激しい議論の後、研究者たちは、多くのデータセットで最先端の精度を示す階層の組み合わせによる線形グラフ畳み込みネットワーク(GCN)に注力し始めた。 本稿では、線形GCNの概念を微分方程式として解釈できるため、ニューラル常微分方程式(NODE)に基づいて拡張し、Learningable-Time ODE-based Collaborative Filtering(LT-OCF)を提案する。 提案手法の主な特徴は, 線形GCNをNODE上に再設計した後, i) 手動設計ではなく最適アーキテクチャを学習し, i) CFに適したスムーズなODEソリューションを学習し, iii) 多様なニューラルネットワーク接続を内部的に構築する様々なODEソルバを用いて, テストを行うことである。 また,本手法に特化した新しい訓練方法を提案する。 gowalla,yelp2018,ama zon-bookの3つのベンチマークデータセットを用いた実験では,本手法は既存の手法よりも一貫して精度が向上している。例えば, lightgcn による 0.0411 のリコールと lt-ocf による 0.0442 のリコール,amazon-book での lt-ocf による ndcg は 0.0315 である。 言及に値する実験でさらに重要な発見は、我々の最善の精度が線形接続よりも密度の高い接続によって達成されたということです。

Collaborative filtering (CF) is a long-standing problem of recommender systems. Many novel methods have been proposed, ranging from classical matrix factorization to recent graph convolutional network-based approaches. After recent fierce debates, researchers started to focus on linear graph convolutional networks (GCNs) with a layer combination, which show state-of-the-art accuracy in many datasets. In this work, we extend them based on neural ordinary differential equations (NODEs), because the linear GCN concept can be interpreted as a differential equation, and present the method of Learnable-Time ODE-based Collaborative Filtering (LT-OCF). The main novelty in our method is that after redesigning linear GCNs on top of the NODE regime, i) we learn the optimal architecture rather than relying on manually designed ones, ii) we learn smooth ODE solutions that are considered suitable for CF, and iii) we test with various ODE solvers that internally build a diverse set of neural network connections. We also present a novel training method specialized to our method. In our experiments with three benchmark datasets, Gowalla, Yelp2018, and Amazon-Book, our method consistently shows better accuracy than existing methods, e.g., a recall of 0.0411 by LightGCN vs. 0.0442 by LT-OCF and an NDCG of 0.0315 by LightGCN vs. 0.0341 by LT-OCF in Amazon-Book. One more important discovery in our experiments that is worth mentioning is that our best accuracy was achieved by dense connections rather than linear connections.
翻訳日:2021-08-22 14:40:15 公開日:2021-08-18
# (参考訳) Blind Video Super-Resolution における時間カーネルの整合性 [全文訳有]

Temporal Kernel Consistency for Blind Video Super-Resolution ( http://arxiv.org/abs/2108.08305v1 )

ライセンス: CC BY 4.0
Lichuan Xiang, Royson Lee, Mohamed S. Abdelfattah, Nicholas D. Lane, Hongkai Wen(参考訳) 深層学習に基づくブラインド超解像法(SR)は、最近、未知の劣化を伴うアップスケーリングフレームにおいて前例のない性能を達成した。 これらのモデルは、修復中にカーネルを活用するために、与えられた低解像度(LR)画像から未知のダウンスケーリングカーネルを正確に推定することができる。 これらのアプローチは主に成功したが、主に画像ベースであるため、複数のビデオフレームにまたがるカーネルの時間的特性を利用できない。 本稿では,カーネルの時間的特性を調査し,ブラインドビデオの超解像処理におけるその重要性を強調した。 具体的には,実世界の映像のカーネル時間的一貫性を計測し,シーンとそのオブジェクトの動的に変化する映像において,推定されたカーネルがフレーム毎にどのように変化するかを示した。 この新たな洞察により、我々は以前の人気のビデオSRアプローチを再考し、修復プロセスを通じて固定されたカーネルを使用するという以前の仮定は、実世界のビデオのアップスケール時の視覚的アーティファクトにつながることを示した。 これに対抗するために,既存のシングルイメージとビデオsr技術を調整し,カーネル推定とビデオスケールアッププロセスの両方においてカーネル一貫性を活用した。 人工的および実世界のビデオに対する大規模な実験は、ブラインドビデオSRにおける新しい最先端技術を実現し、カーネルの時間的一貫性を活用する可能性の基盤となる、相当な回復率と質的な向上を示す。

Deep learning-based blind super-resolution (SR) methods have recently achieved unprecedented performance in upscaling frames with unknown degradation. These models are able to accurately estimate the unknown downscaling kernel from a given low-resolution (LR) image in order to leverage the kernel during restoration. Although these approaches have largely been successful, they are predominantly image-based and therefore do not exploit the temporal properties of the kernels across multiple video frames. In this paper, we investigated the temporal properties of the kernels and highlighted its importance in the task of blind video super-resolution. Specifically, we measured the kernel temporal consistency of real-world videos and illustrated how the estimated kernels might change per frame in videos of varying dynamicity of the scene and its objects. With this new insight, we revisited previous popular video SR approaches, and showed that previous assumptions of using a fixed kernel throughout the restoration process can lead to visual artifacts when upscaling real-world videos. In order to counteract this, we tailored existing single-image and video SR techniques to leverage kernel consistency during both kernel estimation and video upscaling processes. Extensive experiments on synthetic and real-world videos show substantial restoration gains quantitatively and qualitatively, achieving the new state-of-the-art in blind video SR and underlining the potential of exploiting kernel temporal consistency.
翻訳日:2021-08-21 05:48:43 公開日:2021-08-18
# (参考訳) リアルタイム低リソースビデオベースアプリケーションのためのエンド・ツー・エンドライセンスプレート認識パイプライン [全文訳有]

End-to-End License Plate Recognition Pipeline for Real-time Low Resource Video Based Applications ( http://arxiv.org/abs/2108.08339v1 )

ライセンス: CC0 1.0
Alif Ashrafee, Akib Mohammed Khan, Mohammad Sabik Irbaz, MD Abdullah Al Nasim(参考訳) 自動ナンバープレート認識システムは、ビデオフレームに現れる車両からナンバープレート文字を検出し、ローカライズし、認識するためのエンドツーエンドソリューションを提供することを目的としている。 しかし、そのようなシステムを現実世界にデプロイするには、低リソース環境でのリアルタイムパフォーマンスが必要である。 本稿では,Vision APIと組み合わせた新しい2段階検出パイプラインを提案する。 バックボーンのMobileNet SSDv2検出モデル上で,ハールカスケード分類器をフィルタとして使用した。 これにより、高信頼検出のみに着目して認識に使用することにより、推論時間を短縮する。 また,同じクリップ内の複数の車両ナンバープレートを識別するために,時間的フレーム分離戦略を課す。 さらに、banglaライセンスプレートデータセットは公開されておらず、画像データセットとライセンスプレートを含むビデオデータセットを野放しで作成しました。 画像データセットでモデルをトレーニングし、ap(0.5)スコアを86%で達成し、ビデオデータセットでパイプラインをテストし、リアルタイム処理速度(27.2フレーム/秒)で合理的な検出および認識性能(82.7%検出率、60.8%ocrf1スコア)を観測した。

Automatic License Plate Recognition systems aim to provide an end-to-end solution towards detecting, localizing, and recognizing license plate characters from vehicles appearing in video frames. However, deploying such systems in the real world requires real-time performance in low-resource environments. In our paper, we propose a novel two-stage detection pipeline paired with Vision API that aims to provide real-time inference speed along with consistently accurate detection and recognition performance. We used a haar-cascade classifier as a filter on top of our backbone MobileNet SSDv2 detection model. This reduces inference time by only focusing on high confidence detections and using them for recognition. We also impose a temporal frame separation strategy to identify multiple vehicle license plates in the same clip. Furthermore, there are no publicly available Bangla license plate datasets, for which we created an image dataset and a video dataset containing license plates in the wild. We trained our models on the image dataset and achieved an AP(0.5) score of 86% and tested our pipeline on the video dataset and observed reasonable detection and recognition performance (82.7% detection rate, and 60.8% OCR F1 score) with real-time processing speed (27.2 frames per second).
翻訳日:2021-08-21 05:29:29 公開日:2021-08-18
# (参考訳) Universal Cross-Domain Retrieval: クラスとドメイン間の一般化 [全文訳有]

Universal Cross-Domain Retrieval: Generalizing Across Classes and Domains ( http://arxiv.org/abs/2108.08356v1 )

ライセンス: CC BY 4.0
Soumava Paul, Titir Dutta, Soma Biswas(参考訳) 本稿では,本研究で初めて,テストデータが学習中に認識されないクラスやドメインに属することができるユニバーサルクロスドメイン検索の問題に対処する。 可能なすべての領域におけるカテゴリの動的増加と、大量のデータを必要とする訓練の実践的制約により、目に見えないクラスとドメインの両方に一般化することが重要である。 そこで本研究では,snmpnet (semantic neighborhoodhood and mixed prediction network) を提案する。 具体的には,目に見えるクラスと見当たらないクラスの間の知識ギャップを橋渡しし,見当たらないクラスの潜在空間埋め込みがその隣のクラスに対して意味的に意味のあるものであることを保証するために,新しい意味的近傍損失を導入する。 また、画像レベルのミックスアップに基づく監督と、混合予測損失とのトレーニングのためのデータのセマンティックレベルを導入し、クエリが未認識のドメインに属する場合の効率的な検索を支援する。 これらの損失はSE-ResNet50のバックボーンに組み込まれ、SnMpNetを得る。 sketchy extendedとdomainnetという2つの大規模データセットに関する広範な実験と、提案されたモデルの有効性を正当化するための最先端の比較。

In this work, for the first time, we address the problem of universal cross-domain retrieval, where the test data can belong to classes or domains which are unseen during training. Due to dynamically increasing number of categories and practical constraint of training on every possible domain, which requires large amounts of data, generalizing to both unseen classes and domains is important. Towards that goal, we propose SnMpNet (Semantic Neighbourhood and Mixture Prediction Network), which incorporates two novel losses to account for the unseen classes and domains encountered during testing. Specifically, we introduce a novel Semantic Neighborhood loss to bridge the knowledge gap between seen and unseen classes and ensure that the latent space embedding of the unseen classes is semantically meaningful with respect to its neighboring classes. We also introduce a mix-up based supervision at image-level as well as semantic-level of the data for training with the Mixture Prediction loss, which helps in efficient retrieval when the query belongs to an unseen domain. These losses are incorporated on the SE-ResNet50 backbone to obtain SnMpNet. Extensive experiments on two large-scale datasets, Sketchy Extended and DomainNet, and thorough comparisons with state-of-the-art justify the effectiveness of the proposed model.
翻訳日:2021-08-21 05:18:36 公開日:2021-08-18
# (参考訳) SO-Pose:直接6次元ポース推定のための自己排除を爆発させる [全文訳有]

SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation ( http://arxiv.org/abs/2108.08367v1 )

ライセンス: CC BY-SA 4.0
Yan Di, Fabian Manhardt, Gu Wang, Xiangyang Ji, Nassir Navab and Federico Tombari(参考訳) 6自由度(6DoF)をすべて直接回帰する(例)。 単一のRGB画像からの散在した環境における3次元回転と変換は難しい問題である。 エンド・ツー・エンドの手法は近年,高い効率で有望な結果を証明しているが,P$n$P/RANSACをベースとした精巧な手法と比較しても精度は劣っている。 本研究では,この欠点を自己完結性に関する新しい推論を用いて解決し,エンドツーエンドの6次元ポーズ推定の精度を大幅に向上させる3次元物体の2層表現を確立する。 我々のフレームワークはSO-Poseと呼ばれ、単一のRGBイメージを入力として、それぞれ2D-3D対応と共有エンコーダと2つの分離デコーダを用いた自己隠蔽情報を生成する。 両方の出力は融合され、6DoFのポーズパラメータを直接回帰する。 対応性、自己閉塞性、および6Dポーズを整合させるクロスレイヤのコンピテンシーを組み込むことで、さまざまな挑戦的なデータセットに対する最先端のアプローチを克服または競合することで、精度と堅牢性をさらに向上することができる。

Directly regressing all 6 degrees-of-freedom (6DoF) for the object pose (e.g. the 3D rotation and translation) in a cluttered environment from a single RGB image is a challenging problem. While end-to-end methods have recently demonstrated promising results at high efficiency, they are still inferior when compared with elaborate P$n$P/RANSAC-based approaches in terms of pose accuracy. In this work, we address this shortcoming by means of a novel reasoning about self-occlusion, in order to establish a two-layer representation for 3D objects which considerably enhances the accuracy of end-to-end 6D pose estimation. Our framework, named SO-Pose, takes a single RGB image as input and respectively generates 2D-3D correspondences as well as self-occlusion information harnessing a shared encoder and two separate decoders. Both outputs are then fused to directly regress the 6DoF pose parameters. Incorporating cross-layer consistencies that align correspondences, self-occlusion and 6D pose, we can further improve accuracy and robustness, surpassing or rivaling all other state-of-the-art approaches on various challenging datasets.
翻訳日:2021-08-21 05:00:26 公開日:2021-08-18
# (参考訳) グラフニューラルネットワークを用いたステイナツリーの計算 [全文訳有]

Computing Steiner Trees using Graph Neural Networks ( http://arxiv.org/abs/2108.08368v1 )

ライセンス: CC BY 4.0
Reyan Ahmed, Md Asadullah Turja, Faryad Darabi Sahneh, Mithun Ghosh, Keaton Hamm, and Stephen Kobourov(参考訳) グラフニューラルネットワークは多くの学習問題や現実世界の応用で成功している。 グラフニューラルネットワークの最近の研究は、グラフの同型性、傾きの検出、旅行セールスマン問題といった組合せアルゴリズムとグラフアルゴリズムの問題を解くための力を探っている。 しかし、NP完全問題の多くは、この方法を用いてまだ解明されていない。 本稿では,スタイナー木問題に取り組む。 フィードフォワードニューラルネットワーク,グラフニューラルネットワーク,グラフ畳み込みネットワーク,グラフアテンションモデルという,低コストなSteinerツリーの計算に4つの学習フレームワークを採用している。 1)モデルに実際のSteinerツリーノードを学習させる、2)モデルに優れたSteinerポイント候補を学習させる、という2つの基本的な方法で、最も短いパスを使って構築されたツリーに接続する、という方法です。 我々はいくつかのランダムグラフ生成モデルとSteinLibデータライブラリにおけるヒューリスティックスの堅牢性を説明する。 以上の結果から,gnn法の適用範囲が従来の2近似法よりも低くなることが示唆された。 しかし、欲望の短い経路構成と組み合わせると、2近似アルゴリズムよりもわずかに良い結果が得られる。 この結果は、古典的なnp完全問題に対するグラフ学習技術の基本能力と限界に光を当てている。

Graph neural networks have been successful in many learning problems and real-world applications. A recent line of research explores the power of graph neural networks to solve combinatorial and graph algorithmic problems such as subgraph isomorphism, detecting cliques, and the traveling salesman problem. However, many NP-complete problems are as of yet unexplored using this method. In this paper, we tackle the Steiner Tree Problem. We employ four learning frameworks to compute low cost Steiner trees: feed-forward neural networks, graph neural networks, graph convolutional networks, and a graph attention model. We use these frameworks in two fundamentally different ways: 1) to train the models to learn the actual Steiner tree nodes, 2) to train the model to learn good Steiner point candidates to be connected to the constructed tree using a shortest path in a greedy fashion. We illustrate the robustness of our heuristics on several random graph generation models as well as the SteinLib data library. Our finding suggests that the out-of-the-box application of GNN methods does worse than the classic 2-approximation method. However, when combined with a greedy shortest path construction, it even does slightly better than the 2-approximation algorithm. This result sheds light on the fundamental capabilities and limitations of graph learning techniques on classical NP-complete problems.
翻訳日:2021-08-21 04:45:50 公開日:2021-08-18
# (参考訳) 資源限定デバイスにおけるバイナリローカル画像記述の再検討 [全文訳有]

Revisiting Binary Local Image Description for Resource Limited Devices ( http://arxiv.org/abs/2108.08380v1 )

ライセンス: CC BY 4.0
Iago Su\'arez, Jos\'e M. Buenaposada, Luis Baumela(参考訳) リソース制限装置の出現により、コンピュータビジョンアルゴリズムの設計における新たな課題が開き、精度と計算要求の間に明確な妥協がもたらされる。 本稿では,三重項ランキングの損失,ハード負のマイニング,アンカースワッピングを画素差と画像勾配に基づく従来の特徴に応用した,新たなバイナリ画像記述子を提案する。 これらの記述子、BAD (Box Average difference) と HashSIFT は、最先端の精度とリソースのトレードオフ曲線の新しい演算点を確立する。 本実験では,提案するディスクリプタの精度,実行時間,エネルギー消費量を評価する。 この結果から,hashsift は深層学習に基づく記述子よりも精度が高く,計算効率が向上しているのに対し,bad は文献における記述子実装が最速であることが分かる。 ソースコードを公開しました。

The advent of a panoply of resource limited devices opens up new challenges in the design of computer vision algorithms with a clear compromise between accuracy and computational requirements. In this paper we present new binary image descriptors that emerge from the application of triplet ranking loss, hard negative mining and anchor swapping to traditional features based on pixel differences and image gradients. These descriptors, BAD (Box Average Difference) and HashSIFT, establish new operating points in the state-of-the-art 7;s accuracy vs.\ resources trade-off curve. In our experiments we evaluate the accuracy, execution time and energy consumption of the proposed descriptors. We show that BAD bears the fastest descriptor implementation in the literature while HashSIFT approaches in accuracy that of the top deep learning-based descriptors, being computationally more efficient. We have made the source code public.
翻訳日:2021-08-21 04:33:24 公開日:2021-08-18
# (参考訳) ネットワーク侵入検出のためのデータ駆動型アプローチ [全文訳有]

Learning to Detect: A Data-driven Approach for Network Intrusion Detection ( http://arxiv.org/abs/2108.08394v1 )

ライセンス: CC BY 4.0
Zachary Tauscher, Yushan Jiang, Kai Zhang, Jian Wang, Houbing Song(参考訳) 大量のデータが毎日生成され、世界のインターネットインフラの相互接続性が増す中、機械学習ベースの侵入検知システム(IDS)は、我々の経済と国家の安全を守る重要な要素となっている。 本稿では,ネットワークトラフィックデータセットであるNSL-KDDについて,パターンを可視化し,異なる学習モデルを用いてサイバー攻撃を検出することで包括的な研究を行う。 単一学習モデルを用いて侵入検出を行う従来の浅層学習モデルや深層学習モデルとは異なり,我々は階層戦略を採用し,侵入と正常な動作をまず分類し,次に特定の種類の攻撃を分類する。 バイナリ侵入検出タスクにおける教師なし表現学習モデルの利点を実証する。 また,4クラス分類におけるsvm-smoteオーバーサンプリング手法によるデータ不均衡問題を緩和し,深層ニューラルネットワークをベースモデルとしてオーバーサンプリング機構の有効性と欠点をさらに実証する。

With massive data being generated daily and the ever-increasing interconnectivity of the world's Internet infrastructures, a machine learning based intrusion detection system (IDS) has become a vital component to protect our economic and national security. In this paper, we perform a comprehensive study on NSL-KDD, a network traffic dataset, by visualizing patterns and employing different learning-based models to detect cyber attacks. Unlike previous shallow learning and deep learning models that use the single learning model approach for intrusion detection, we adopt a hierarchy strategy, in which the intrusion and normal behavior are classified firstly, and then the specific types of attacks are classified. We demonstrate the advantage of the unsupervised representation learning model in binary intrusion detection tasks. Besides, we alleviate the data imbalance problem with SVM-SMOTE oversampling technique in 4-class classification and further demonstrate the effectiveness and the drawback of the oversampling mechanism with a deep neural network as a base model.
翻訳日:2021-08-21 04:11:24 公開日:2021-08-18
# (参考訳) gp-s3net:グラフベースのpanoptic sparse semantic segmentation network [全文訳有]

GP-S3Net: Graph-based Panoptic Sparse Semantic Segmentation Network ( http://arxiv.org/abs/2108.08401v1 )

ライセンス: CC BY 4.0
Ryan Razani, Ran Cheng, Enxu Li, Ehsan Taghavi, Yuan Ren, and Liu Bingbing(参考訳) 静的環境理解と動的物体識別の両方の統合タスクとしてのpanopticセグメンテーションは、最近幅広い研究の関心を集め始めている。 本稿では,GP-S3Netと呼ばれる,計算効率のよいLiDARベースのパノプティックセグメンテーションフレームワークを提案する。 GP-S3Netは、従来の2段パノラマシステムとは対照的に、オブジェクトを識別するためのオブジェクト提案は不要であり、インスタンス情報をキャプチャするために検出ネットワークが組み込まれている。 我々の新しいデザインは、オブジェクト(地上)を識別するグラフ畳み込みネットワークを構築することで、セマンティックな結果を処理する新しいインスタンスレベルネットワークで構成されています。 セマンティックセグメンテーションバックボーンからのフォアグラウンドオブジェクトのきめ細かいクラスタを通じて、オーバーセグメンテーション前処理が生成され、3Dスパース畳み込みによって処理され、各クラスタを埋め込む。 各クラスタはグラフ内のノードとして扱われ、その埋め込みはそのノードの特徴として使用される。 次にGCNNは、各クラスタペア間にエッジが存在するかどうかを予測する。 学習を監督するために,各構築したグラフに対して,サンプルラベルを用いて真理エッジラベルを生成する。 GP-S3Netは現在の最先端のアプローチよりも優れており、nuScenesやSemanticPOSSといった利用可能なデータセット間で大きな差がある。

Panoptic segmentation as an integrated task of both static environmental understanding and dynamic object identification, has recently begun to receive broad research interest. In this paper, we propose a new computationally efficient LiDAR based panoptic segmentation framework, called GP-S3Net. GP-S3Net is a proposal-free approach in which no object proposals are needed to identify the objects in contrast to conventional two-stage panoptic systems, where a detection network is incorporated for capturing instance information. Our new design consists of a novel instance-level network to process the semantic results by constructing a graph convolutional network to identify objects (foreground), which later on are fused with the background classes. Through the fine-grained clusters of the foreground objects from the semantic segmentation backbone, over-segmentation priors are generated and subsequently processed by 3D sparse convolution to embed each cluster. Each cluster is treated as a node in the graph and its corresponding embedding is used as its node feature. Then a GCNN predicts whether edges exist between each cluster pair. We utilize the instance label to generate ground truth edge labels for each constructed graph in order to supervise the learning. Extensive experiments demonstrate that GP-S3Net outperforms the current state-of-the-art approaches, by a significant margin across available datasets such as, nuScenes and SemanticPOSS, ranking first on the competitive public SemanticKITTI leaderboard upon publication.
翻訳日:2021-08-21 04:00:12 公開日:2021-08-18
# (参考訳) 多変量時系列における異常検出のためのフェデレーション変分学習 [全文訳有]

Federated Variational Learning for Anomaly Detection in Multivariate Time Series ( http://arxiv.org/abs/2108.08404v1 )

ライセンス: CC BY 4.0
Kai Zhang, Yushan Jiang, Lee Seversky, Chengtao Xu, Dahai Liu, Houbing Song(参考訳) CPS(Cyber-Physical Systems)において,ネットワークセンサやアクチュエータによって生成された高次元多変量時系列データに対して異常検出は難しい課題である。 このような時系列の非常に非線形で複雑でダイナミックな性質に加えて、ラベル付きデータの欠如はデータ利用を監督的に妨げ、異常事象の正確な検出を防止する。 一方、ネットワークの端で収集されたデータは、しばしばプライバシーに敏感で量が多いため、メインサーバでの集中的なトレーニングを妨げる可能性がある。 これらの問題に対処するために,ネットワーク内の相互接続装置の動作を継続的に監視し,不必要な結果が発生する前に対策を講じるように警告する,教師なし時系列異常検出フレームワークを提案する。 具体的には,多変量時系列データにおける特徴と時間的依存関係を同時キャプチャして表現学習と下流異常検出タスクを行うConvolutional Gated Recurrent Unit(ConvGRU)モデルに基づく共有変分オートエンコーダ(VAE)を学習するために,エッジに分散したトレーニングデータを残しておく。 3つの実世界のネットワークセンサーデータセットの実験は、他の最先端モデルに対する我々のアプローチの利点を示しています。 また、全体的な性能と検出待ち時間の観点から、非フェデレーションおよびフェデレーション設定における検出フレームワークの有効性を示すために、広範囲な実験を行いました。

Anomaly detection has been a challenging task given high-dimensional multivariate time series data generated by networked sensors and actuators in Cyber-Physical Systems (CPS). Besides the highly nonlinear, complex, and dynamic natures of such time series, the lack of labeled data impedes data exploitation in a supervised manner and thus prevents an accurate detection of abnormal phenomenons. On the other hand, the collected data at the edge of the network is often privacy sensitive and large in quantity, which may hinder the centralized training at the main server. To tackle these issues, we propose an unsupervised time series anomaly detection framework in a federated fashion to continuously monitor the behaviors of interconnected devices within a network and alerts for abnormal incidents so that countermeasures can be taken before undesired consequences occur. To be specific, we leave the training data distributed at the edge to learn a shared Variational Autoencoder (VAE) based on Convolutional Gated Recurrent Unit (ConvGRU) model, which jointly captures feature and temporal dependencies in the multivariate time series data for representation learning and downstream anomaly detection tasks. Experiments on three real-world networked sensor datasets illustrate the advantage of our approach over other state-of-the-art models. We also conduct extensive experiments to demonstrate the effectiveness of our detection framework under non-federated and federated settings in terms of overall performance and detection latency.
翻訳日:2021-08-21 03:43:40 公開日:2021-08-18
# マルチモードビデオ推論と分析コンペティション

The Multi-Modal Video Reasoning and Analyzing Competition ( http://arxiv.org/abs/2108.08344v1 )

ライセンス: Link先を確認
Haoran Peng, He Huang, Li Xu, Tianjiao Li, Jun Liu, Hossein Rahmani, Qiuhong Ke, Zhicheng Guo, Cong Wu, Rongchang Li, Mang Ye, Jiahao Wang, Jiaxu Zhang, Yuanzhong Liu, Tao He, Fuwei Zhang, Xianbin Liu, Tao Lin(参考訳) 本稿では,ICCV 2021と共同でMMVRAC(Multi-Modal Video Reasoning and Analyzing Competition)ワークショップを開催する。 このコンペティションは、ビデオ質問応答、スケルトンベースのアクション認識、魚眼ビデオに基づくアクション認識、人物再同定の4つの異なるトラックで構成されており、sutd-trafficqaとuav-humanの2つのデータセットに基づいている。 本大会の参加者が提出したトップパフォーマンス手法を要約し, コンペで達成した成果を示す。

In this paper, we introduce the Multi-Modal Video Reasoning and Analyzing Competition (MMVRAC) workshop in conjunction with ICCV 2021. This competition is composed of four different tracks, namely, video question answering, skeleton-based action recognition, fisheye video-based action recognition, and person re-identification, which are based on two datasets: SUTD-TrafficQA and UAV-Human. We summarize the top-performing methods submitted by the participants in this competition and show their results achieved in the competition.
翻訳日:2021-08-20 14:45:23 公開日:2021-08-18
# 多言語・多言語タスクにおけるトランスフォーマーアテンションヘッドの寄与

Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks ( http://arxiv.org/abs/2108.08375v1 )

ライセンス: Link先を確認
Weicheng Ma, Kai Zhang, Renze Lou, Lili Wang, Soroush Vosoughi(参考訳) 本稿では, トランスフォーマーモデルにおける注意ヘッドの相対的重要性について検討し, 言語横断型および多言語型タスクにおける理解可能性について検討する。 以前の研究では、モノリンガル自然言語処理(NLP)の各タスクにおいて、わずかな注意点しか重要でないことが分かっており、残りのヘッドを刈り取ると、モデルの性能が同等または改善される。 しかし, 言語横断課題や多言語課題においては, 注意ヘッドの刈り取りの影響は明らかでない。 広範にわたる実験により,(1)多言語トランスフォーマーモデルにおける多くの注意点の刈り取りは,一般に,多言語・多言語タスクにおけるその性能に肯定的な影響を与え,(2)被刈り取るべき注意点を勾配を用いてランク付けし,いくつかの試行実験と同一視できることを示した。 本実験は,他の言語間および多言語間タスクに適用可能なシーケンスラベリングタスクに焦点をあてる。 包括性について,9言語にまたがる3つのタスクに対して,事前学習した2つの多言語モデル,すなわちマルチ言語BERT(mBERT)とXLM-Rを検討する。 また、本研究の成果と、真に資源を消費する言語や他のタスク設定への拡張性についても論じる。

This paper studies the relative importance of attention heads in Transformer-based models to aid their interpretability in cross-lingual and multi-lingual tasks. Prior research has found that only a few attention heads are important in each mono-lingual Natural Language Processing (NLP) task and pruning the remaining heads leads to comparable or improved performance of the model. However, the impact of pruning attention heads is not yet clear in cross-lingual and multi-lingual tasks. Through extensive experiments, we show that (1) pruning a number of attention heads in a multi-lingual Transformer-based model has, in general, positive effects on its performance in cross-lingual and multi-lingual tasks and (2) the attention heads to be pruned can be ranked using gradients and identified with a few trial experiments. Our experiments focus on sequence labeling tasks, with potential applicability on other cross-lingual and multi-lingual tasks. For comprehensiveness, we examine two pre-trained multi-lingual models, namely multi-lingual BERT (mBERT) and XLM-R, on three tasks across 9 languages each. We also discuss the validity of our findings and their extensibility to truly resource-scarce languages and other task settings.
翻訳日:2021-08-20 14:44:52 公開日:2021-08-18
# FeelsGoodMan:Twitchのネオロジズムのセマンティクスを推測する

FeelsGoodMan: Inferring Semantics of Twitch Neologisms ( http://arxiv.org/abs/2108.08411v1 )

ライセンス: Link先を確認
Pavel Dolin, Luc d'Hauthuille, Andrea Vattani(参考訳) Twitchチャットは、ネオロジズム、特に表象の存在により、自然言語理解においてユニークな問題を引き起こす。 合計で8億6600万のエモテがあり、その内4万が研究に使われた。 エモテの意味や感情についてはほとんど情報がなく、新しいエモテやドリフトの頻度が絶え間なく流入する中、手作業でラベルを付けたデータセットを維持することは不可能になる。 私たちの論文は2つある。 まず、Twitchデータに対する感情分析の新しいベースラインを確立し、前回の教師付きベンチマークを7.9%上回った。 第二に、単語埋め込みとk-NNに基づくシンプルだが強力な教師なしフレームワークを導入し、語彙外知識で既存のモデルを強化する。 このフレームワークは,映画レビューやTwitterなどの外部データセットでトレーニングされた感情分類器に,そのような感情分類器にそのような感情知識を注入しても,上記のベンチマークとほぼ一致することを示す。

Twitch chats pose a unique problem in natural language understanding due to a large presence of neologisms, specifically emotes. There are a total of 8.06 million emotes, over 400k of which were used in the week studied. There is virtually no information on the meaning or sentiment of emotes, and with a constant influx of new emotes and drift in their frequencies, it becomes impossible to maintain an updated manually-labeled dataset. Our paper makes a two fold contribution. First we establish a new baseline for sentiment analysis on Twitch data, outperforming the previous supervised benchmark by 7.9% points. Secondly, we introduce a simple but powerful unsupervised framework based on word embeddings and k-NN to enrich existing models with out-of-vocabulary knowledge. This framework allows us to auto-generate a pseudo-dictionary of emotes and we show that we can nearly match the supervised benchmark above even when injecting such emote knowledge into sentiment classifiers trained on extraneous datasets such as movie reviews or Twitter.
翻訳日:2021-08-20 14:44:28 公開日:2021-08-18
# 再帰公式によるネットワークアーキテクチャの解析と設計

Analyze and Design Network Architectures by Recursion Formulas ( http://arxiv.org/abs/2108.08689v1 )

ライセンス: Link先を確認
Yilin Liao, Hao Wang, Zhaoran Liu, Haozhe Li and Xinggao Liu(参考訳) ショートカット/スキップ接続の有効性は広く検証され、ニューラルアーキテクチャ設計に多大な研究がもたらされた。 この研究は、新しいネットワークアーキテクチャを設計する効果的な方法を見つけようとしている。 ネットワークアーキテクチャの主な違いは再帰公式に反映されることが判明した。 これに基づいて,数式の観点から新しいネットワークアーキテクチャを設計するための方法論が提案されている。 その後、ResNetに基づいた改良されたアーキテクチャを生成するケーススタディが提供される。 さらに、新しいアーキテクチャはresnetと比較され、resnetベースのネットワークでテストされる。 CIFARとImageNetで大規模な実験が行われ、アーキテクチャによる大幅なパフォーマンス改善が見られた。

The effectiveness of shortcut/skip-connec tion has been widely verified, which inspires massive explorations on neural architecture design. This work attempts to find an effective way to design new network architectures. It is discovered that the main difference between network architectures can be reflected in their recursion formulas. Based on this, a methodology is proposed to design novel network architectures from the perspective of mathematical formulas. Afterwards, a case study is provided to generate an improved architecture based on ResNet. Furthermore, the new architecture is compared with ResNet and then tested on ResNet-based networks. Massive experiments are conducted on CIFAR and ImageNet, which witnesses the significant performance improvements provided by the architecture.
翻訳日:2021-08-20 14:43:05 公開日:2021-08-18
# グラフ上のクラスタリングダイナミクス:スペクトルクラスタリングからフォッカー・プランク補間による平均シフトへ

Clustering dynamics on graphs: from spectral clustering to mean shift through Fokker-Planck interpolation ( http://arxiv.org/abs/2108.08687v1 )

ライセンス: Link先を確認
Katy Craig, Nicol\'as Garc\'ia Trillos, Dejan Slep\v{c}ev(参考訳) 本研究では,データクラスタリングのための密度駆動型アルゴリズムと幾何ベースのアルゴリズムを補間する統一フレームワークを構築し,特に平均シフトアルゴリズムとスペクトルクラスタリングを離散および連続レベルで接続する。 データグラフ上にFokker-Planck方程式を導入することにより、この接続を求める。 グラフ上に平均シフトアルゴリズムの新たな形式を導入することに加えて、大きなサンプル極限における拡散マップのファミリーの挙動に関する新たな理論的洞察を提供するとともに、固定グラフ上の平均シフトダイナミクスと拡散マップの新たな接続を提供する。 いくつかの数値的な例が我々の理論的知見を示し、密度駆動型および幾何ベースのクラスタリングアルゴリズムの利点を強調している。

In this work we build a unifying framework to interpolate between density-driven and geometry-based algorithms for data clustering, and specifically, to connect the mean shift algorithm with spectral clustering at discrete and continuum levels. We seek this connection through the introduction of Fokker-Planck equations on data graphs. Besides introducing new forms of mean shift algorithms on graphs, we provide new theoretical insights on the behavior of the family of diffusion maps in the large sample limit as well as provide new connections between diffusion maps and mean shift dynamics on a fixed graph. Several numerical examples illustrate our theoretical findings and highlight the benefits of interpolating density-driven and geometry-based clustering algorithms.
翻訳日:2021-08-20 14:38:24 公開日:2021-08-18
# STAR:視覚分類のためのノイズ半教師伝達学習

STAR: Noisy Semi-Supervised Transfer Learning for Visual Classification ( http://arxiv.org/abs/2108.08362v1 )

ライセンス: Link先を確認
Hasib Zunair, Yan Gobeil, Samuel Mercier, A. Ben Hamza(参考訳) 半教師付き学習(SSL)は、視覚認識と分類タスクのためのより良いモデルを学ぶためにラベル付きデータへの依存を軽減するために、大規模なラベル付きデータを活用するのに有効であることが証明されている。 しかし、最近のSSLメソッドは、数十億のスケールでラベルのないイメージデータに依存している。 これは、実行時、メモリ、データ取得の点で、比較的ラベルのないデータが少ないタスクでは不可能になる。 そこで本研究では,無ラベル画像データを数千のスケールで活用可能なタスク用に調整した,単一フレームワークに転送学習と自己学習を統合する効率的なssl手法である,半教師付き転送学習を提案する。 本研究の目的は,スポーツを練習している人物やスポーツの種類を画像で識別することと,人気のあるヨガポーズのプールからポーズを識別することである。 広範囲な実験とアブレーション研究により,提案手法はラベルのないデータを活用することにより,視覚分類,特に多クラス分類において,最先端の手法と比較して著しく改善することが示された。 さらに、転送学習の導入は分類性能を向上させるだけでなく、6倍の計算時間と5倍のメモリを必要とする。 また,本手法は,対向的ロバスト性を特に最適化することなく,視覚分類モデルのロバスト性を高めることを示す。

Semi-supervised learning (SSL) has proven to be effective at leveraging large-scale unlabeled data to mitigate the dependency on labeled data in order to learn better models for visual recognition and classification tasks. However, recent SSL methods rely on unlabeled image data at a scale of billions to work well. This becomes infeasible for tasks with relatively fewer unlabeled data in terms of runtime, memory and data acquisition. To address this issue, we propose noisy semi-supervised transfer learning, an efficient SSL approach that integrates transfer learning and self-training with noisy student into a single framework, which is tailored for tasks that can leverage unlabeled image data on a scale of thousands. We evaluate our method on both binary and multi-class classification tasks, where the objective is to identify whether an image displays people practicing sports or the type of sport, as well as to identify the pose from a pool of popular yoga poses. Extensive experiments and ablation studies demonstrate that by leveraging unlabeled data, our proposed framework significantly improves visual classification, especially in multi-class classification settings compared to state-of-the-art methods. Moreover, incorporating transfer learning not only improves classification performance, but also requires 6x less compute time and 5x less memory. We also show that our method boosts robustness of visual classification models, even without specifically optimizing for adversarial robustness.
翻訳日:2021-08-20 14:35:12 公開日:2021-08-18
# ソーシャルファブリック:ビデオ関係検出のためのチューブレット構成

Social Fabric: Tubelet Compositions for Video Relation Detection ( http://arxiv.org/abs/2108.08363v1 )

ライセンス: Link先を確認
Shuo Chen, Zenglin Shi, Pascal Mettes, Cees G. M. Snoek(参考訳) 本稿では,ビデオ内に現れるオブジェクトチューブレット間の関係を<subject-predicate-ob ject>三重項として分類し,検出する。 既存の研究は、オブジェクトの提案やチューブレットを単一のエンティティとして扱い、それらの関係を後続としてモデル化する。 また,インタラクションプリミティブの合成として,オブジェクトのチューブレット対を表す符号化手法であるsocial fabricを提案する。 これらのプリミティブはすべての関係を通じて学習され、ビデオ内のすべてのタイムパンにわたって共起するオブジェクトの塊のプールから関係をローカライズし、分類することができるコンパクトな表現となる。 エンコーディングは2段階のネットワークを可能にする。 第1段階では、対話性のある提案を提案するために、ソーシャルファブリックをトレーニングします。 第2段階ではSocial Fabricを使用して,チューブレットの微調整と述語ラベルの予測を行う。 実験は、初期のビデオ関係モデリング、エンコーディング、および2段階アーキテクチャの利点を実証し、2つのベンチマークで新たな最先端性をもたらす。 また,このエンコーディングにより,時空間ビデオ関係の検索が可能となることを示す。 コード:https://github.com/ shanshuo/Social-Fabr ic.com

This paper strives to classify and detect the relationship between object tubelets appearing within a video as a <subject-predicate-ob ject> triplet. Where existing works treat object proposals or tubelets as single entities and model their relations a posteriori, we propose to classify and detect predicates for pairs of object tubelets a priori. We also propose Social Fabric: an encoding that represents a pair of object tubelets as a composition of interaction primitives. These primitives are learned over all relations, resulting in a compact representation able to localize and classify relations from the pool of co-occurring object tubelets across all timespans in a video. The encoding enables our two-stage network. In the first stage, we train Social Fabric to suggest proposals that are likely interacting. We use the Social Fabric in the second stage to simultaneously fine-tune and predict predicate labels for the tubelets. Experiments demonstrate the benefit of early video relation modeling, our encoding and the two-stage architecture, leading to a new state-of-the-art on two benchmarks. We also show how the encoding enables query-by-primitive-e xample to search for spatio-temporal video relations. Code: https://github.com/s hanshuo/Social-Fabri c.
翻訳日:2021-08-20 14:34:45 公開日:2021-08-18
# Vis2Mesh: 仮想視認性を学習した大規模シーンの非構造点雲からの効率的なメッシュ再構築

Vis2Mesh: Efficient Mesh Reconstruction from Unstructured Point Clouds of Large Scenes with Learned Virtual View Visibility ( http://arxiv.org/abs/2108.08378v1 )

ライセンス: Link先を確認
Shuang Song, Zhaopeng Cui and Rongjun Qin(参考訳) 仮想ビューにおける3Dポイントの学習的可視化と従来のグラフカットに基づくメッシュ生成を利用して,非構造化点雲からのメッシュ再構築を行う。 具体的には,視界予測に深度補完を明示的に用いた3段階ネットワークを提案する。 そして、複数のビューの可視性情報を集約して、3次元メッシュモデルを生成し、表面決定における新しい適応可視性重み付けを導入する可視性を考慮した最適化問題を解決し、入射角が大きい視線を抑制する。 他の学習ベースのアプローチと比較して、パイプラインは2次元のバイナリ分類タスクである \ie, points in a viewで見えるか見えないかの学習しか行いません。 実験により,提案手法は移動性や頑健性に優れ,大規模屋内および屋外のシーンにおいて,より複雑なオブジェクトに対する最先端の学習アプローチと優れたパフォーマンスを示す。 コードはhttps://github.com/g daosu/vis2meshで入手できる。

We present a novel framework for mesh reconstruction from unstructured point clouds by taking advantage of the learned visibility of the 3D points in the virtual views and traditional graph-cut based mesh generation. Specifically, we first propose a three-step network that explicitly employs depth completion for visibility prediction. Then the visibility information of multiple views is aggregated to generate a 3D mesh model by solving an optimization problem considering visibility in which a novel adaptive visibility weighting in surface determination is also introduced to suppress line of sight with a large incident angle. Compared to other learning-based approaches, our pipeline only exercises the learning on a 2D binary classification task, \ie, points visible or not in a view, which is much more generalizable and practically more efficient and capable to deal with a large number of points. Experiments demonstrate that our method with favorable transferability and robustness, and achieve competing performances \wrt state-of-the-art learning-based approaches on small complex objects and outperforms on large indoor and outdoor scenes. Code is available at https://github.com/G DAOSU/vis2mesh.
翻訳日:2021-08-20 14:34:22 公開日:2021-08-18
# 屋外セルトラフィックを考慮した空間時間予測のための多変量・伝搬グラフ注意ネットワーク

Multivariate and Propagation Graph Attention Network for Spatial-Temporal Prediction with Outdoor Cellular Traffic ( http://arxiv.org/abs/2108.08307v1 )

ライセンス: Link先を確認
Chung-Yi Lin, Hung-Ting Su, Shen-Lung Tung, Winston Hsu(参考訳) 時空間予測は知的輸送にとって重要な問題であり,交通制御や事故防止といったタスクに有用である。 これまでの研究は、センサーから収集された大規模トラフィックデータに依存していた。 しかし、装置とメンテナンスコストのため、すべての領域にセンサーを配備する可能性は低い。 本稿では, 通信企業における1日20億件以上のデータから抽出した屋外セルラートラフィックを, 利用者移動によって誘導される屋外セルラートラフィックが交通量に大きく関係していることから, この問題に対処する。 都市における道路交差点について検討し、歴史的屋外セル交通を前提として、全交差点の屋外セルトラフィックを予測することを目的としている。 さらに,2つの拡張グラフアテンションネットワーク(GAT)で構成される多変量空間時間予測モデルを提案する。 GATは多変量セルトラフィック間の相関を探索するために用いられる。 別のGATは、空間依存を捕捉する効率を高めるために、アテンションメカニズムをグラフ伝播に活用する。 実験により,提案モデルが,我々のデータセットにおける最先端のメソッドを大幅に上回ることを示した。

Spatial-temporal prediction is a critical problem for intelligent transportation, which is helpful for tasks such as traffic control and accident prevention. Previous studies rely on large-scale traffic data collected from sensors. However, it is unlikely to deploy sensors in all regions due to the device and maintenance costs. This paper addresses the problem via outdoor cellular traffic distilled from over two billion records per day in a telecom company, because outdoor cellular traffic induced by user mobility is highly related to transportation traffic. We study road intersections in urban and aim to predict future outdoor cellular traffic of all intersections given historic outdoor cellular traffic. Furthermore, We propose a new model for multivariate spatial-temporal prediction, mainly consisting of two extending graph attention networks (GAT). First GAT is used to explore correlations among multivariate cellular traffic. Another GAT leverages the attention mechanism into graph propagation to increase the efficiency of capturing spatial dependency. Experiments show that the proposed model significantly outperforms the state-of-the-art methods on our dataset.
翻訳日:2021-08-20 14:25:53 公開日:2021-08-18
# 対話履歴をエンドツーエンドの音声言語理解システムに統合する

Integrating Dialog History into End-to-End Spoken Language Understanding Systems ( http://arxiv.org/abs/2108.08405v1 )

ライセンス: Link先を確認
Jatin Ganhotra, Samuel Thomas, Hong-Kwang J. Kuo, Sachindra Joshi, George Saon, Zolt\'an T\"uske, Brian Kingsbury(参考訳) ヒューマン・ヒューマン・コンピュータ・インタラクションを処理するエンドツーエンドの音声言語理解(SLU)システムはコンテキストに依存しないことが多く、会話の各ターンを独立して処理する。 一方、会話は文脈に依存しており、対話履歴には各会話の順番の処理を改善する有用な情報が含まれている。 本稿では,対話履歴の重要性と,それをエンドツーエンドのSLUシステムに統合する方法について検討する。 音声音声を処理しながら,提案したRNNトランスデューサ(RNN-T)に基づくSLUモデルでは,そのダイアログ履歴を復号化文字とSLUラベルの形式でアクセスすることができる。 対話履歴をBERT埋め込みとしてエンコードし、SLUモデルへの追加入力として、現在の発話の音声特徴とともに使用する。 我々は最近リリースされた音声対話データセットであるHarperValleyBank corpusに対するアプローチを評価した。 対話行動の8%, 発声意図認識タスクの30%, 競合する文脈に依存しないエンドツーエンドベースラインシステムと比較して, 大幅な改善が見られた。

End-to-end spoken language understanding (SLU) systems that process human-human or human-computer interactions are often context independent and process each turn of a conversation independently. Spoken conversations on the other hand, are very much context dependent, and dialog history contains useful information that can improve the processing of each conversational turn. In this paper, we investigate the importance of dialog history and how it can be effectively integrated into end-to-end SLU systems. While processing a spoken utterance, our proposed RNN transducer (RNN-T) based SLU model has access to its dialog history in the form of decoded transcripts and SLU labels of previous turns. We encode the dialog history as BERT embeddings, and use them as an additional input to the SLU model along with the speech features for the current utterance. We evaluate our approach on a recently released spoken dialog data set, the HarperValleyBank corpus. We observe significant improvements: 8% for dialog action and 30% for caller intent recognition tasks, in comparison to a competitive context independent end-to-end baseline system.
翻訳日:2021-08-20 14:21:01 公開日:2021-08-18
# DSM生成のための画像マーカの品質評価 -UAV画像を用いた比較研究-

Quality assessment of image matchers for DSM generation -- a comparative study based on UAV images ( http://arxiv.org/abs/2108.08369v1 )

ライセンス: Link先を確認
Rongjun Qin, Armin Gruen, Cive Fraser(参考訳) 近年,DSM/DTMのための高密度画像マッチングアルゴリズムが開発され,手動・半自動立体計測の必要性が部分的に軽減される可能性がある。 本稿では,UAVから記録した5cm GSD画像を用いて,3次元表面生成のための商用・公開ソフトウェアパッケージを5つ評価する。 生成した表面モデルは、モバイルlidarおよび手動ステレオ計測から生成される点雲に対して評価される。 検討されているソフトウェアパッケージは、APS、MICMAC、SURE、Pix4UAV、DLRのSGM実装である。

Recently developed automatic dense image matching algorithms are now being implemented for DSM/DTM production, with their pixel-level surface generation capability offering the prospect of partially alleviating the need for manual and semi-automatic stereoscopic measurements. In this paper, five commercial/public software packages for 3D surface generation are evaluated, using 5cm GSD imagery recorded from a UAV. Generated surface models are assessed against point clouds generated from mobile LiDAR and manual stereoscopic measurements. The software packages considered are APS, MICMAC, SURE, Pix4UAV and an SGM implementation from DLR.
翻訳日:2021-08-20 14:20:42 公開日:2021-08-18
# 大規模マルチモーダルデータ融合によるinstagram上の違法薬物ディーラーの同定

Identifying Illicit Drug Dealers on Instagram with Large-scale Multimodal Data Fusion ( http://arxiv.org/abs/2108.08301v1 )

ライセンス: Link先を確認
Chuanbo Hu, Minglei Yin, Bin Liu, Xin Li, Yanfang Ye(参考訳) instagramのようなソーシャルメディアサイトを通じた違法薬物密売は深刻な問題となり、法執行機関や公衆衛生機関から大きな注目を集めている。 ソーシャルメディアのデータから違法薬物ディーラーを特定する方法は、以下の理由から技術的な課題のままである。 一方、ソーシャルメディアサイトをクロールするプライバシー上の懸念から、利用可能なデータは限られている。一方、薬物取引パターンの多様性は、薬物ディーラーと一般的な薬物使用者とを確実に区別することが困難である。 投稿に基づく検出に焦点を当てた既存の方法とは異なり、Instagram上でIdentifying Drug Dealers(IDDIG)と呼ばれる大規模マルチモーダルデータセットを構築することにより、不正なドラッグディーラー識別の問題に取り組むことを提案する。 合計4000近いユーザーアカウントがあり、そのうち1400以上の麻薬ディーラーがInstagramから収集され、投稿コメント、投稿画像、ホームページのバイオ、ホームページの画像など複数のデータソースが提供されている。 次に,各ユーザアカウントに関連付けられた複数のデータソースを組み合わせ,ドラッグディーラー識別を行うために,四重項型マルチモーダル融合法を設計する。 構築したiddigデータセットにおける実験結果から,提案手法の有効性が実証された(ほぼ95%の精度)。 さらに,地理や薬物の種類に関連のあるパターン,特に進化パターンを発見するためのハッシュタグに基づくコミュニティ検出手法を開発した。

Illicit drug trafficking via social media sites such as Instagram has become a severe problem, thus drawing a great deal of attention from law enforcement and public health agencies. How to identify illicit drug dealers from social media data has remained a technical challenge due to the following reasons. On the one hand, the available data are limited because of privacy concerns with crawling social media sites; on the other hand, the diversity of drug dealing patterns makes it difficult to reliably distinguish drug dealers from common drug users. Unlike existing methods that focus on posting-based detection, we propose to tackle the problem of illicit drug dealer identification by constructing a large-scale multimodal dataset named Identifying Drug Dealers on Instagram (IDDIG). Totally nearly 4,000 user accounts, of which over 1,400 are drug dealers, have been collected from Instagram with multiple data sources including post comments, post images, homepage bio, and homepage images. We then design a quadruple-based multimodal fusion method to combine the multiple data sources associated with each user account for drug dealer identification. Experimental results on the constructed IDDIG dataset demonstrate the effectiveness of the proposed method in identifying drug dealers (almost 95% accuracy). Moreover, we have developed a hashtag-based community detection technique for discovering evolving patterns, especially those related to geography and drug types.
翻訳日:2021-08-20 14:16:51 公開日:2021-08-18
# 部分可観測性を考慮した分散グリッドのデータ駆動モデリング

Data-driven Modeling for Distribution Grids Under Partial Observability ( http://arxiv.org/abs/2108.08350v1 )

ライセンス: Link先を確認
Shanny Lin and Hao Zhu(参考訳) 電力分配グリッドの正確なモデリングは、効率的なモニタリングと意思決定アルゴリズムの設計に不可欠である。 本稿では,線パラメータ推定の精度を向上させるために,データ駆動分布モデルの部分的可観測性問題に対処する。 住宅負荷のスパース変化に着想を得て,両線形推定問題において,観測不能な注入の群間隔を正規化することを提唱する。 コンベックスサブプロブレムを有効解で活用するために、保証収束の交互最小化方式を提案する。 IEEE 123-busテストケースの単一位相における実世界の負荷データを用いた数値計算の結果,パラメータ推定と電圧モデリングの両面において,提案手法の精度向上が示された。

Accurately modeling power distribution grids is crucial for designing effective monitoring and decision making algorithms. This paper addresses the partial observability issue of data-driven distribution modeling in order to improve the accuracy of line parameter estimation. Inspired by the sparse changes in residential loads, we advocate to regularize the group sparsity of the unobservable injections in a bi-linear estimation problem. The alternating minimization scheme of guaranteed convergence is proposed to take advantage of convex subproblems with efficient solutions. Numerical results using real-world load data on the single-phase equivalent of the IEEE 123-bus test case have demonstrated the accuracy improvements of the proposed solution over existing work for both parameter estimation and voltage modeling.
翻訳日:2021-08-20 14:16:28 公開日:2021-08-18
# (参考訳) 安全なコンピュータ支援診断のための推論アルゴリズムの学習における不確実性の導入 [全文訳有]

Incorporating Uncertainty in Learning to Defer Algorithms for Safe Computer-Aided Diagnosis ( http://arxiv.org/abs/2108.07392v2 )

ライセンス: CC BY 4.0
Jessie Liu and Blanca Gallego and Sebastiano Barbieri(参考訳) 本研究では,患者グループを特定する際のモデルの不確かさを人的専門家が評価する際の予測的不確実性を考慮したLDU(Learning to Defer with Uncertainity)アルゴリズムを提案する。 コンピュータ支援診断の不確実性が高いと推定された患者を特定し、ヒトの専門家による評価を損なうことにより、臨床環境での誤診断のリスクを軽減するためにLDUアルゴリズムを用いることができる。

In this study we propose the Learning to Defer with Uncertainty (LDU) algorithm, an approach which considers the model's predictive uncertainty when identifying the patient group to be evaluated by human experts. By identifying patients for whom the uncertainty of computer-aided diagnosis is estimated to be high and defers them for evaluation by human experts, the LDU algorithm can be used to mitigate the risk of erroneous computer-aided diagnoses in clinical settings.
翻訳日:2021-08-20 11:49:46 公開日:2021-08-18
# (参考訳) 機械学習パイプラインにおけるデータ価格

Data Pricing in Machine Learning Pipelines ( http://arxiv.org/abs/2108.07915v1 )

ライセンス: CC BY 4.0
Zicun Cong, Xuan Luo, Pei Jian, Feida Zhu, Yong Zhang(参考訳) 機械学習は破壊的だ。 同時に、マシンラーニングは、可能なマシンラーニングアプリケーションのデータ収集、複数のパーティによる協調トレーニング、エンドユーザへのマシンラーニングサービスの提供など、エコシステム内のパイプラインとして、複数のステップで多数の関係者が自然に協力することによってのみ成功することができる。 データは非常に重要で、マシンラーニングパイプライン全体に浸透している。 マシンラーニングパイプラインには多くのパーティが関与し、成功するためには、建設的でダイナミックなエコシステムを形成する必要があるため、マーケットプレースとデータ価格設定は、これら多くのパーティを接続し、促進する上で基本となる。 本稿では、機械学習パイプラインにおけるデータ価格の原理と最新の研究動向について調査する。 まず、データマーケットプレースと価格のデシデラタに関する簡単なレビューから始める。 次に、機械学習パイプラインの3つの重要なステップで価格に焦点を合わせます。 データ収集のトレーニング段階における価格の理解のために、原データセットとデータラベルの価格についてレビューする。 また、機械学習モデルの協調トレーニングの段階における価格設定や、マシンラーニングデプロイメントの段階におけるエンドユーザーの機械学習モデルの価格設定の概要についても検討する。 また,今後の方向性についても検討する。

Machine learning is disruptive. At the same time, machine learning can only succeed by collaboration among many parties in multiple steps naturally as pipelines in an eco-system, such as collecting data for possible machine learning applications, collaboratively training models by multiple parties and delivering machine learning services to end users. Data is critical and penetrating in the whole machine learning pipelines. As machine learning pipelines involve many parties and, in order to be successful, have to form a constructive and dynamic eco-system, marketplaces and data pricing are fundamental in connecting and facilitating those many parties. In this article, we survey the principles and the latest research development of data pricing in machine learning pipelines. We start with a brief review of data marketplaces and pricing desiderata. Then, we focus on pricing in three important steps in machine learning pipelines. To understand pricing in the step of training data collection, we review pricing raw data sets and data labels. We also investigate pricing in the step of collaborative training of machine learning models, and overview pricing machine learning models for end users in the step of machine learning deployment. We also discuss a series of possible future directions.
翻訳日:2021-08-19 23:33:16 公開日:2021-08-18
# (参考訳) 自閉症診断のための活動認識 [全文訳有]

Activity Recognition for Autism Diagnosis ( http://arxiv.org/abs/2108.07917v1 )

ライセンス: CC BY 4.0
Anish Lakkapragada, Peter Washington, Dennis Wall(参考訳) 形式的自閉症診断は非効率で長いプロセスである。 家族はしばしば子供の診断を受けるのに何年も待たなければならないが、この遅れのために受け取らない場合もある。 この問題に対する1つのアプローチは、デジタル技術を使用して自閉症に関連する行動の存在を検出することである。 自閉症の最も強い指標の1つは、手羽ばたき、頭打ち、紡績などの反復的で自己刺激的な行動のセットであるスティムミングである。 コンピュータビジョンを用いて手羽ばたきを検出することは、この空間における公開トレーニングデータのスパースと、そのようなデータの過度なシャキネスと動きのために特に困難である。 我々の研究はこれらの問題を克服する新しい手法を実証している。我々は時間とともに手書きのランドマーク検出を特徴表現として使用し、Long Short-Term Memory(LSTM)モデルに入力する。 自己刺激行動データセット(ssbd)からの映像が手羽ばたきの有無を検出することで,検証精度とf1スコアを約72%向上させた。 私たちの最良のモデルは、トレーニングしたデータセットの外側で記録した外部ビデオを正確に予測します。 このモデルは26,000未満のパラメータを使用し、遠隔自閉症診断のためにユビキタスおよびウェアラブルのデジタル設定に素早く展開することを約束する。

A formal autism diagnosis is an inefficient and lengthy process. Families often have to wait years before receiving a diagnosis for their child; some may not receive one at all due to this delay. One approach to this problem is to use digital technologies to detect the presence of behaviors related to autism, which in aggregate may lead to remote and automated diagnostics. One of the strongest indicators of autism is stimming, which is a set of repetitive, self-stimulatory behaviors such as hand flapping, headbanging, and spinning. Using computer vision to detect hand flapping is especially difficult due to the sparsity of public training data in this space and excessive shakiness and motion in such data. Our work demonstrates a novel method that overcomes these issues: we use hand landmark detection over time as a feature representation which is then fed into a Long Short-Term Memory (LSTM) model. We achieve a validation accuracy and F1 Score of about 72% on detecting whether videos from the Self-Stimulatory Behaviour Dataset (SSBD) contain hand flapping or not. Our best model also predicts accurately on external videos we recorded of ourselves outside of the dataset it was trained on. This model uses less than 26,000 parameters, providing promise for fast deployment into ubiquitous and wearable digital settings for a remote autism diagnosis.
翻訳日:2021-08-19 23:32:15 公開日:2021-08-18
# (参考訳) 劣化基準画像品質評価のための学習条件知識蒸留

Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment ( http://arxiv.org/abs/2108.07948v1 )

ライセンス: CC0 1.0
Heliang Zheng, Huan Yang, Jianlong Fu, Zheng-Jun Zha, Jiebo Luo(参考訳) 画像品質評価(IQA)の重要なシナリオは、画像復元(IR)アルゴリズムを評価することである。 state-of-the-artアプローチは、復元された画像と対応するプリスティーヌ品質の画像を比較するフルリファレンスパラダイムを採用する。 しかしながら、プリスタンクオリティのイメージは通常、盲目の画像復元タスクや現実世界のシナリオでは利用できない。 本稿では,IRモデル,劣化画像の入力を参照として利用するDR-IQA(Degraded-Refe rence IQA)という実用的なソリューションを提案する。 具体的には,画質画像から知識を蒸留して劣化画像から参照情報を抽出する。 蒸留は参照空間を学習することで達成され、様々な劣化した画像は同じ特徴統計をプリスチン品質の画像と共有することが奨励される。 そして、参照スペースは、品質評価に有用な深い画像の優先順位をキャプチャするために最適化されます。 なお、純潔な画像は訓練時にのみ使用される。 我々の研究は、特にGANベースの手法において、盲点赤外線に対して強力で微分可能な計量を提供する。 大規模な実験により,全参照設定の性能に近い結果が得られた。

An important scenario for image quality assessment (IQA) is to evaluate image restoration (IR) algorithms. The state-of-the-art approaches adopt a full-reference paradigm that compares restored images with their corresponding pristine-quality images. However, pristine-quality images are usually unavailable in blind image restoration tasks and real-world scenarios. In this paper, we propose a practical solution named degraded-reference IQA (DR-IQA), which exploits the inputs of IR models, degraded images, as references. Specifically, we extract reference information from degraded images by distilling knowledge from pristine-quality images. The distillation is achieved through learning a reference space, where various degraded images are encouraged to share the same feature statistics with pristine-quality images. And the reference space is optimized to capture deep image priors that are useful for quality assessment. Note that pristine-quality images are only used during training. Our work provides a powerful and differentiable metric for blind IRs, especially for GAN-based methods. Extensive experiments show that our results can even be close to the performance of full-reference settings.
翻訳日:2021-08-19 23:12:20 公開日:2021-08-18
# (参考訳) WRICNet:マルチ解像度リモートセンシング画像変化検出のための軽量リッチスケールインセプションコーダネットワーク [全文訳有]

WRICNet:A Weighted Rich-scale Inception Coder Network for Multi-Resolution Remote Sensing Image Change Detection ( http://arxiv.org/abs/2108.07955v1 )

ライセンス: CC BY 4.0
Yu Jiang, Lei Hu, Yongmei Zhang, and Xin Yang(参考訳) リモートセンシング画像変化検出の主要モデルは、特定の解像度データセットにおいてのみ大きな影響を与える。 重み付きリッチスケールインセプション・コーダネットワーク(WRICNet)は,多分解能データセットにおけるモデルの変更検出効率の向上を目的として,浅層マルチスケール特徴と深層マルチスケール特徴の融合を実現する。 重み付きリッチスケールインセプションモジュールは浅度なマルチスケール特徴を得ることができ、重み付きリッチスケールコーダモジュールは深いマルチスケール特徴を得ることができる。 重み付きスケールブロックは、異なるスケールの特徴に適切な重みを割り当て、変化領域の端の表現能力を強化することができる。 マルチレゾリューションデータセットの性能実験により, 比較手法と比較して, 提案手法は変更領域外における誤報をさらに低減し, 変更領域内における誤報を低減し, また, 変更領域のエッジがより正確であることを示す。 本研究は,本論文のトレーニング戦略と改善により,変化検出の有効性が向上することを示すものである。

Majority models of remote sensing image changing detection can only get great effect in a specific resolution data set. With the purpose of improving change detection effectiveness of the model in the multi-resolution data set, a weighted rich-scale inception coder network (WRICNet) is proposed in this article, which can make a great fusion of shallow multi-scale features, and deep multi-scale features. The weighted rich-scale inception module of the proposed can obtain shallow multi-scale features, the weighted rich-scale coder module can obtain deep multi-scale features. The weighted scale block assigns appropriate weights to features of different scales, which can strengthen expressive ability of the edge of the changing area. The performance experiments on the multi-resolution data set demonstrate that, compared to the comparative methods, the proposed can further reduce the false alarm outside the change area, and the missed alarm in the change area, besides, the edge of the change area is more accurate. The ablation study of the proposed shows that the training strategy, and improvements of this article can improve the effectiveness of change detection.
翻訳日:2021-08-19 23:11:24 公開日:2021-08-18
# (参考訳) 逆行性ロバスト性蒸留の再検討:ロバストなソフトラベルは学生を良くする [全文訳有]

Revisiting Adversarial Robustness Distillation: Robust Soft Labels Make Student Better ( http://arxiv.org/abs/2108.07969v1 )

ライセンス: CC BY 4.0
Bojia Zi, Shihao Zhao, Xingjun Ma, Yu-Gang Jiang(参考訳) 敵のトレーニングは、敵の攻撃に対して堅牢なディープニューラルネットワークをトレーニングするための効果的なアプローチである。 信頼性の高いロバスト性を実現することができる一方で、一般的には、敵対的トレーニング(adversarial training、at)の手法は、モデルが大きいほどロバスト性が向上する高容量モデルを好む。 これは、ストレージやコンピューティングリソースが非常に限定された(モバイルデバイスなど)シナリオでより好まれる小さなモデルでの有効性を制限する傾向がある。 本稿では, 知識蒸留の概念を活用して, 敵対的に訓練された大規模モデルから蒸留することで, 小型モデルの堅牢性を向上する。 まず、蒸留の観点からいくつかの最先端AT手法を再検討し、ロバスト性を改善するための1つの一般的なテクニックを特定します。 そこで,本研究では,ロバスト・ソフトラベル・アドバーサリアン蒸留法(rslad)と呼ばれる,ロバストな小学生モデルの訓練法を提案する。 RSLADは、頑健な(逆行訓練された)大きな教師モデルによって生成される頑健なソフトラベルをフル活用し、全ての損失項における自然例と逆行例の学習を指導する。 本稿は,AutoAttackを含む最先端攻撃に対する小型モデルのロバスト性向上に向け,既存の逆行訓練および蒸留法に対するRSLADアプローチの有効性を実証的に実証する。 また,RSLADに関する一連の理解と,対向ロバストネス蒸留におけるロバストなソフトラベルの重要性について述べる。

Adversarial training is one effective approach for training robust deep neural networks against adversarial attacks. While being able to bring reliable robustness, adversarial training (AT) methods in general favor high capacity models, i.e., the larger the model the better the robustness. This tends to limit their effectiveness on small models, which are more preferable in scenarios where storage or computing resources are very limited (e.g., mobile devices). In this paper, we leverage the concept of knowledge distillation to improve the robustness of small models by distilling from adversarially trained large models. We first revisit several state-of-the-art AT methods from a distillation perspective and identify one common technique that can lead to improved robustness: the use of robust soft labels -- predictions of a robust model. Following this observation, we propose a novel adversarial robustness distillation method called Robust Soft Label Adversarial Distillation (RSLAD) to train robust small student models. RSLAD fully exploits the robust soft labels produced by a robust (adversarially-train ed) large teacher model to guide the student's learning on both natural and adversarial examples in all loss terms. We empirically demonstrate the effectiveness of our RSLAD approach over existing adversarial training and distillation methods in improving the robustness of small models against state-of-the-art attacks including the AutoAttack. We also provide a set of understandings on our RSLAD and the importance of robust soft labels for adversarial robustness distillation.
翻訳日:2021-08-19 22:52:49 公開日:2021-08-18
# (参考訳) 物理誘導深部ネットワークによる熱画像処理

Thermal Image Processing via Physics-Inspired Deep Networks ( http://arxiv.org/abs/2108.07973v1 )

ライセンス: CC BY 4.0
Vishwanath Saragadam, Akshat Dave, Ashok Veeraraghavan, Richard Baraniuk(参考訳) 本稿では,物理精度の高いセンサモデリングとディープネットワークに基づく画像表現を組み合わせた新しい熱画像処理フレームワークDeepIRを紹介する。 熱センサで捉えた画像は、ゆっくりと変化するシーン非依存のセンサ非均一性(物理で正確にモデル化できる)と、シーン特異的な放射束(ディープネットワークベースの正則化器でよく表現できる)に分解できる。 deepirはトレーニングデータや、既知のブラックボディターゲットによる定期的な地上校正を必要とせず、実用的なコンピュータビジョンタスクに適している。 我々は、カメラジッタで捉えたシーンの複数の画像を利用する新しいデノジングアルゴリズムと超高解像度アルゴリズムを開発することにより、DeepIRのパワーを実証する。 シミュレーションおよび実データ実験により、DeepIRは3つの画像で高品質な非均一性補正が可能であり、競合するアプローチよりも10dB PSNRの改善が達成されている。

We introduce DeepIR, a new thermal image processing framework that combines physically accurate sensor modeling with deep network-based image representation. Our key enabling observations are that the images captured by thermal sensors can be factored into slowly changing, scene-independent sensor non-uniformities (that can be accurately modeled using physics) and a scene-specific radiance flux (that is well-represented using a deep network-based regularizer). DeepIR requires neither training data nor periodic ground-truth calibration with a known black body target--making it well suited for practical computer vision tasks. We demonstrate the power of going DeepIR by developing new denoising and super-resolution algorithms that exploit multiple images of the scene captured with camera jitter. Simulated and real data experiments demonstrate that DeepIR can perform high-quality non-uniformity correction with as few as three images, achieving a 10dB PSNR improvement over competing approaches.
翻訳日:2021-08-19 22:33:44 公開日:2021-08-18
# (参考訳) クロスドメインおよびクロスシステムレコメンデーションのための統一フレームワーク [全文訳有]

A Unified Framework for Cross-Domain and Cross-System Recommendations ( http://arxiv.org/abs/2108.07976v1 )

ライセンス: CC BY 4.0
Feng Zhu, Yan Wang, Jun Zhou, Chaochao Chen, Longfei Li, and Guanfeng Liu(参考訳) CDR(Cross-Domain Recommendation)とCSR(Cross-System Recommendation)は、比較的豊富な情報を持つソースの助けを借りて、ターゲットデータセット(ドメイン/システム)のレコメンデーション精度を改善するために提案されている。 しかし、既存のCDRとCSRのアプローチのほとんどは単一ターゲット、すなわち単一のターゲットデータセットがあり、ターゲットデータセットにしか役に立たないため、ソースデータセットの恩恵を受けられない。 本稿では、Dual-Target CDR(DTCDR)、Multi-Target CDR(MTCDR)、CDR+CSR(CDR+CSR)の3つの新しいシナリオに注目し、すべてのシナリオに対して同時に全てのデータセットのレコメンデーション精度を向上させることを目的とする。 これを実現するために,3つのシナリオすべてに対して,GA(Graph Embedding and Attention Technique)と呼ばれる統一フレームワークを提案する。 GAでは、まず別の異種グラフを構築し、より代表的なユーザやアイテムの埋め込みを生成する。 次に,異なるデータセットから学習した共通エンティティ(ユーザ/イテム)の埋め込みを効果的に結合する要素的注意機構を提案する。 さらに,よりリッチなデータセットとスペーサーデータセットの共通エンティティの埋め込み差を最小限に抑えるために,それぞれGA-DTCDR-P,GA-MTCDR- P,GA-CDR+CSR-Pという3つの新しいモデルを導出するパーソナライズドトレーニング戦略を提案する。 4つの実世界のデータセットで広範な実験を行い、提案するgaモデルが最先端のアプローチを大きく上回ることを示した。

Cross-Domain Recommendation (CDR) and Cross-System Recommendation (CSR) have been proposed to improve the recommendation accuracy in a target dataset (domain/system) with the help of a source one with relatively richer information. However, most existing CDR and CSR approaches are single-target, namely, there is a single target dataset, which can only help the target dataset and thus cannot benefit the source dataset. In this paper, we focus on three new scenarios, i.e., Dual-Target CDR (DTCDR), Multi-Target CDR (MTCDR), and CDR+CSR, and aim to improve the recommendation accuracy in all datasets simultaneously for all scenarios. To do this, we propose a unified framework, called GA (based on Graph embedding and Attention techniques), for all three scenarios. In GA, we first construct separate heterogeneous graphs to generate more representative user and item embeddings. Then, we propose an element-wise attention mechanism to effectively combine the embeddings of common entities (users/items) learned from different datasets. Moreover, to avoid negative transfer, we further propose a Personalized training strategy to minimize the embedding difference of common entities between a richer dataset and a sparser dataset, deriving three new models, i.e., GA-DTCDR-P, GA-MTCDR-P, and GA-CDR+CSR-P, for the three scenarios respectively. Extensive experiments conducted on four real-world datasets demonstrate that our proposed GA models significantly outperform the state-of-the-art approaches.
翻訳日:2021-08-19 22:32:44 公開日:2021-08-18
# (参考訳) 画像データにおける共変量シフトのコントラスト同定 [全文訳有]

Contrastive Identification of Covariate Shift in Image Data ( http://arxiv.org/abs/2108.08000v1 )

ライセンス: CC BY 4.0
Matthew L. Olson, Thuy-Vy Nguyen, Gaurav Dixit, Neale Ratzlaff, Weng-Keen Wong, and Minsuk Kahng(参考訳) コ変量シフトの特定は、現実世界で機械学習システムを堅牢にすることと、テストデータに反映されていないトレーニングデータバイアスの検出に不可欠である。 しかし、特にデータが高次元画像で構成されている場合や、複数の種類の局所的共変量シフトがデータの異なる部分空間に影響する場合、共変量シフトの検出は困難である。 自動的な技術は共変量シフトの存在を検出するのに使えるが、我々の目標は、大規模な画像データセットにおける共変量シフトの程度を、検出アルゴリズムから得られる情報をシームレスに統合するインターフェースで特徴付けることにある。 本稿では,学習データとテストデータの局所分布の比較を容易にする新しいビジュアルインタフェースの設計と評価を行う。 マルチ属性顔データに対する定量的なユーザスタディを行い、学習した2つの低次元潜在表現(事前学習画像ネットCNN対密度比)と2つのユーザ分析ワークフロー(アレスト・ニーバー対クラスタ・トゥ・クラスタ)を比較した。 以上の結果から,我々の密度比モデルの潜在表現と最隣接比較は,共変量変化の同定に最も有効であることが示唆された。

Identifying covariate shift is crucial for making machine learning systems robust in the real world and for detecting training data biases that are not reflected in test data. However, detecting covariate shift is challenging, especially when the data consists of high-dimensional images, and when multiple types of localized covariate shift affect different subspaces of the data. Although automated techniques can be used to detect the existence of covariate shift, our goal is to help human users characterize the extent of covariate shift in large image datasets with interfaces that seamlessly integrate information obtained from the detection algorithms. In this paper, we design and evaluate a new visual interface that facilitates the comparison of the local distributions of training and test data. We conduct a quantitative user study on multi-attribute facial data to compare two different learned low-dimensional latent representations (pretrained ImageNet CNN vs. density ratio) and two user analytic workflows (nearest-neighbor vs. cluster-to-cluster). Our results indicate that the latent representation of our density ratio model, combined with a nearest-neighbor comparison, is the most effective at helping humans identify covariate shift.
翻訳日:2021-08-19 21:57:07 公開日:2021-08-18
# (参考訳) ニューラル時系列分類のためのXAI法の概要 [全文訳有]

XAI Methods for Neural Time Series Classification: A Brief Review ( http://arxiv.org/abs/2108.08009v1 )

ライセンス: CC BY 4.0
Ilija \v{S}imi\'c, Vedran Sabol, Eduardo Veas(参考訳) 深層学習モデルは近年,様々なタスクにおいて顕著な成果を上げている。 これらのドメインにおける自動予測は、個人の幸福と個人または企業に対するかなりの財政的および法的影響に重大な影響を与える可能性があることを考慮すれば、これらのモデルを適用することによって生じるすべての行動と決定は説明責任を持つ必要がある。 本稿では,高テイク領域で収集される膨大なデータが時系列の形式にあることを考慮し,時系列分類のタスクにおいて,深層学習用ブラックボックスを開放するためのアプローチに着目し,説明可能なai(xai)手法の現状について検討する。 また,本研究の目的は,将来的な作業の方向性を導き,時系列データによる深層学習の促進にある。

Deep learning models have recently demonstrated remarkable results in a variety of tasks, which is why they are being increasingly applied in high-stake domains, such as industry, medicine, and finance. Considering that automatic predictions in these domains might have a substantial impact on the well-being of a person, as well as considerable financial and legal consequences to an individual or a company, all actions and decisions that result from applying these models have to be accountable. Given that a substantial amount of data that is collected in high-stake domains are in the form of time series, in this paper we examine the current state of eXplainable AI (XAI) methods with a focus on approaches for opening up deep learning black boxes for the task of time series classification. Finally, our contribution also aims at deriving promising directions for future work, to advance XAI for deep learning on time series data.
翻訳日:2021-08-19 21:44:51 公開日:2021-08-18
# (参考訳) RANK-NOSH:非一様逐次Halvingによる予測に基づく効率的なアーキテクチャ検索

RANK-NOSH: Efficient Predictor-Based Architecture Search via Non-Uniform Successive Halving ( http://arxiv.org/abs/2108.08019v1 )

ライセンス: CC BY 4.0
Ruochen Wang, Xiangning Chen, Minhao Cheng, Xiaocheng Tang, Cho-Jui Hsieh(参考訳) 予測に基づくアルゴリズムは、ニューラルネットワーク探索(NAS)タスクにおいて顕著なパフォーマンスを達成した。 しかしながら、パフォーマンス予測器のトレーニングは通常、数百のアーキテクチャをゼロからトレーニングし評価する必要があるため、これらの手法は高い計算コストに悩まされる。 このラインに沿った以前の作業は、主に予測器に適合するために必要なアーキテクチャの数を減らすことに重点を置いている。 本研究では,アーキテクチャトレーニングの計算予算を削減し,探索効率を向上させるという,異なる視点からこの課題に取り組む。 我々は,低パフォーマンスアーキテクチャのトレーニングを早期に終了する階層スケジューリングアルゴリズムであるnon-uniform successive halving (nosh)を提案する。 noshが生成する非一様監視信号を効果的に活用するために,予測子に基づくアーキテクチャ探索を対比較でランク付けする学習として定式化する。 その結果、RANK-NOSHは検索予算を約5倍に削減し、様々な空間やデータセットにおける従来の最先端予測手法よりも、競争力やパフォーマンスの向上を実現した。

Predictor-based algorithms have achieved remarkable performance in the Neural Architecture Search (NAS) tasks. However, these methods suffer from high computation costs, as training the performance predictor usually requires training and evaluating hundreds of architectures from scratch. Previous works along this line mainly focus on reducing the number of architectures required to fit the predictor. In this work, we tackle this challenge from a different perspective - improve search efficiency by cutting down the computation budget of architecture training. We propose NOn-uniform Successive Halving (NOSH), a hierarchical scheduling algorithm that terminates the training of underperforming architectures early to avoid wasting budget. To effectively leverage the non-uniform supervision signals produced by NOSH, we formulate predictor-based architecture search as learning to rank with pairwise comparisons. The resulting method - RANK-NOSH, reduces the search budget by ~5x while achieving competitive or even better performance than previous state-of-the-art predictor-based methods on various spaces and datasets.
翻訳日:2021-08-19 21:31:31 公開日:2021-08-18
# (参考訳) SIFN: レビューに基づく項目推薦のための対話型統合ネットワーク [全文訳有]

SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item Recommendation ( http://arxiv.org/abs/2108.08022v1 )

ライセンス: CC BY 4.0
Kai Zhang, Hao Qian, Qi Liu, Zhiqiang Zhang, Jun Zhou, Jianhui Ma, Enhong Chen(参考訳) 近年のレコメンデーションシステムの研究は、評価予測にレビューを活用することで、大幅な性能向上を実現している。 しかし、広く研究されているにもかかわらず、これらの方法にはいくつかの制限がある。 まず、従来の研究は、文書をエンコードするか、ニューラルネットワークを介して潜伏感を抽出するが、これはレビュアーの感情を直感的に解釈することが困難である。 第2に、レビューとユーザ/コンテンツとのパーソナライズされたインタラクション、すなわち、各レビューは、ユーザ/コンテンツの感情の好みをモデル化する際に異なる貢献を持つ。 これらの問題を解決するために、レビューに基づく項目推薦のためのSentiment-aware Interactive Fusion Network (SIFN)を提案する。 具体的には,まずbertでユーザ/項目レビューをエンコードし,各レビューの意味的特徴を抽出するための軽量感情学習器を提案する。 次に,感情学習者に対して,感情認識の特徴を明示的な感情ラベルで抽出する感情予測タスクを提案する。 最後に、評価学習者と対話型および融合型モジュールを含む評価予測タスクをデザインし、識別情報(例えば、ユーザおよびアイテムid)と各レビュー表現とを融合させ、様々な対話的特徴が最終評価スコアに相乗的に影響を及ぼすようにする。 5つの実世界のデータセットの実験結果から,提案モデルが最先端モデルよりも優れていることが示された。

Recent studies in recommender systems have managed to achieve significantly improved performance by leveraging reviews for rating prediction. However, despite being extensively studied, these methods still suffer from some limitations. First, previous studies either encode the document or extract latent sentiment via neural networks, which are difficult to interpret the sentiment of reviewers intuitively. Second, they neglect the personalized interaction of reviews with user/item, i.e., each review has different contributions when modeling the sentiment preference of user/item. To remedy these issues, we propose a Sentiment-aware Interactive Fusion Network (SIFN) for review-based item recommendation. Specifically, we first encode user/item reviews via BERT and propose a light-weighted sentiment learner to extract semantic features of each review. Then, we propose a sentiment prediction task that guides the sentiment learner to extract sentiment-aware features via explicit sentiment labels. Finally, we design a rating prediction task that contains a rating learner with an interactive and fusion module to fuse the identity (i.e., user and item ID) and each review representation so that various interactive features can synergistically influence the final rating score. Experimental results on five real-world datasets demonstrate that the proposed model is superior to state-of-the-art models.
翻訳日:2021-08-19 21:30:34 公開日:2021-08-18
# (参考訳) k-means型アルゴリズムとヒルクライミングを組み合わせた関節成層とサンプル配置設計

Combining K-means type algorithms with Hill Climbing for Joint Stratification and Sample Allocation Designs ( http://arxiv.org/abs/2108.08038v1 )

ライセンス: CC BY 4.0
Mervyn O'Luing, Steven Prestwich, S. Armagan Tarim(参考訳) 本稿では,k-meansおよび/またはk-means型アルゴリズムとヒルクライミングアルゴリズムを段階的に組み合わせ,階層化とサンプル割り当て問題を解く。 これは、基本階層のすべての可能な階層の集合から最適な階層化を探索する組合せ最適化問題である。 それぞれの成層はソリューションであり、その品質はそのコストによって測定される。 この問題は大きな集合では難解である。 さらに、各ソリューションのコスト評価は高価である。 多くのヒューリスティックアルゴリズムが、合理的な計算時間で許容できる解を見つけることを目的として既に開発されている。 しかし、各インスタンスのパフォーマンスを最適化するために、これらのアルゴリズムのヒューリスティックスをトレーニングする必要がある。 上記のアルゴリズムと最近の3つのアルゴリズムの多段階組み合わせを比較し、ソリューションコスト、評価時間、トレーニング時間を報告する。 マルチステージの組み合わせは一般に、原子層と連続層の両方の場合の最近のアルゴリズムとよく比較され、サーベイデザイナが選択すべきアルゴリズムをより多く選択する。

In this paper we combine the k-means and/or k-means type algorithms with a hill climbing algorithm in stages to solve the joint stratification and sample allocation problem. This is a combinatorial optimisation problem in which we search for the optimal stratification from the set of all possible stratifications of basic strata. Each stratification being a solution the quality of which is measured by its cost. This problem is intractable for larger sets. Furthermore evaluating the cost of each solution is expensive. A number of heuristic algorithms have already been developed to solve this problem with the aim of finding acceptable solutions in reasonable computation times. However, the heuristics for these algorithms need to be trained in order to optimise performance in each instance. We compare the above multi-stage combination of algorithms with three recent algorithms and report the solution costs, evaluation times and training times. The multi-stage combinations generally compare well with the recent algorithms both in the case of atomic and continuous strata and provide the survey designer with a greater choice of algorithms to choose from.
翻訳日:2021-08-19 21:22:08 公開日:2021-08-18
# (参考訳) DeepCVA: 深層マルチタスク学習によるコミットレベルの脆弱性自動評価 [全文訳有]

DeepCVA: Automated Commit-level Vulnerability Assessment with Deep Multi-task Learning ( http://arxiv.org/abs/2108.08041v1 )

ライセンス: CC BY 4.0
Triet H. M. Le, David Hin, Roland Croft, M. Ali Babar(参考訳) コードのコミットでソフトウェア脆弱性(svs)を特定し、潜在的なセキュリティリスクを早期に警告することが推奨されている。 しかしながら、SVのエクスプロイラビリティ、影響、重症度に関するタイムリーな情報を提供するために、検出直後の脆弱性提供コミットを評価する努力が不足している。 このような情報は、特定されたsvの緩和を計画し優先順位付けするために重要である。 CVSS(Common Vulnerability Scoring System)メトリクスに基づいて、7つのコミットレベルの脆弱性評価タスクを同時に自動化するための,新しいマルチタスク学習モデルであるDeepCVAを提案する。 実世界246のソフトウェアプロジェクトにおいて,542の異なるSVを含む1,229の脆弱性提供コミットに対して大規模な実験を行い,本モデルの有効性と効率を評価する。 DeepCVAは、多くの教師なしベースラインモデルよりも38%から59.8%高いマシューズ相関係数を持つ最高の性能モデルであることを示す。 また、DeepCVAは7つの累積評価モデルよりも6.3倍のトレーニングと検証時間を必要とし、モデルのメンテナンスコストも大幅に削減される。 全体として、DeepCVAはソフトウェアシステムの早期にSVを自動的に評価する、最も効果的で効率的なソリューションである。

It is increasingly suggested to identify Software Vulnerabilities (SVs) in code commits to give early warnings about potential security risks. However, there is a lack of effort to assess vulnerability-contri buting commits right after they are detected to provide timely information about the exploitability, impact and severity of SVs. Such information is important to plan and prioritize the mitigation for the identified SVs. We propose a novel Deep multi-task learning model, DeepCVA, to automate seven Commit-level Vulnerability Assessment tasks simultaneously based on Common Vulnerability Scoring System (CVSS) metrics. We conduct large-scale experiments on 1,229 vulnerability-contri buting commits containing 542 different SVs in 246 real-world software projects to evaluate the effectiveness and efficiency of our model. We show that DeepCVA is the best-performing model with 38% to 59.8% higher Matthews Correlation Coefficient than many supervised and unsupervised baseline models. DeepCVA also requires 6.3 times less training and validation time than seven cumulative assessment models, leading to significantly less model maintenance cost as well. Overall, DeepCVA presents the first effective and efficient solution to automatically assess SVs early in software systems.
翻訳日:2021-08-19 21:21:07 公開日:2021-08-18
# (参考訳) 変分グラフ正規化オートエンコーダ [全文訳有]

Variational Graph Normalized Auto-Encoders ( http://arxiv.org/abs/2108.08046v1 )

ライセンス: CC BY 4.0
Seong Jin Ahn, Myoung Ho Kim(参考訳) グラフ構造化データの鍵となる問題はリンク予測である。 グラフニューラルネットワークの進歩に伴い、グラフオートエンコーダ(GAE)と変分グラフオートエンコーダ(VGAE)が、教師なしの方法でグラフ埋め込みを学ぶために提案されている。 これらの手法はリンク予測タスクに有効であることが示されている。 しかし、度数がゼロであるノード(例えば孤立ノード)が関与している場合、リンク予測ではうまく動作しない。 我々は,GAE/VGAEが,コンテンツの特徴に関係なく,孤立ノードの埋め込みをゼロに近いものにすることを発見した。 本稿では,$L_2$正規化を利用して孤立ノードに対するより良い埋め込みを導出する新しい変分グラフ正規化オートエンコーダ(VGNAE)を提案する。 我々のVGNAEはリンク予測タスクにおける既存の最先端モデルよりも優れていることを示す。 コードはhttps://github.com/S eongJinAhn/VGNAEで入手できる。

Link prediction is one of the key problems for graph-structured data. With the advancement of graph neural networks, graph autoencoders (GAEs) and variational graph autoencoders (VGAEs) have been proposed to learn graph embeddings in an unsupervised way. It has been shown that these methods are effective for link prediction tasks. However, they do not work well in link predictions when a node whose degree is zero (i.g., isolated node) is involved. We have found that GAEs/VGAEs make embeddings of isolated nodes close to zero regardless of their content features. In this paper, we propose a novel Variational Graph Normalized AutoEncoder (VGNAE) that utilize $L_2$-normalization to derive better embeddings for isolated nodes. We show that our VGNAEs outperform the existing state-of-the-art models for link prediction tasks. The code is available at https://github.com/S eongJinAhn/VGNAE.
翻訳日:2021-08-19 20:48:02 公開日:2021-08-18
# (参考訳) mediaqa: 医療対話に関する質問応答データセット [全文訳有]

MeDiaQA: A Question Answering Dataset on Medical Dialogues ( http://arxiv.org/abs/2108.08074v1 )

ライセンス: CC BY 4.0
Huqun Suri and Qi Zhang and Wenhua Huo and Yan Liu and Chunsheng Guan(参考訳) 本稿では,実際のオンライン・メディカル・ダイアログ上に構築された質問応答(QA)データセットであるMeDiaQAを紹介する。 haodf.comとdxy.comから収集した150の専門疾患をカバーする、患者と医師の間での120kの発話を含む1k以上の対話に対して、人間によって注釈された22kのマルチチョイス質問を含んでいる。 MeDiaQAは、医療対話、特に量的内容に関する推論を行う最初のQAデータセットである。 データセットには、マルチターン対話におけるモデルのコンピューティング、推論、理解能力をテストする可能性があり、既存のデータセットと比較すると難しい。 この問題に対処するため、メディアバートを設計し、64.3%の精度を実現しますが、人間のパフォーマンスは93%の精度です。

In this paper, we introduce MeDiaQA, a novel question answering(QA) dataset, which constructed on real online Medical Dialogues. It contains 22k multiple-choice questions annotated by human for over 11k dialogues with 120k utterances between patients and doctors, covering 150 specialties of diseases, which are collected from haodf.com and dxy.com. MeDiaQA is the first QA dataset where reasoning over medical dialogues, especially their quantitative contents. The dataset has the potential to test the computing, reasoning and understanding ability of models across multi-turn dialogues, which is challenging compared with the existing datasets. To address the challenges, we design MeDia-BERT, and it achieves 64.3% accuracy, while human performance of 93% accuracy, which indicates that there still remains a large room for improvement.
翻訳日:2021-08-19 20:38:32 公開日:2021-08-18
# (参考訳) ベタコロナウイルス配列の動物学的ポテンシャルの解釈に向けて [全文訳有]

Towards Interpreting Zoonotic Potential of Betacoronavirus Sequences With Attention ( http://arxiv.org/abs/2108.08077v1 )

ライセンス: CC BY 4.0
Kahini Wadhawan and Payel Das and Barbara A. Han and Ilya R. Fischhoff and Adrian C. Castellanos and Arvind Varsani and Kush R. Varshney(参考訳) ウイルス発見の現在の方法は、ウイルスファミリーを正確に識別するが、新たに発見されたウイルスの動物性ポテンシャルを識別できない進化的に保存されたタンパク質である。 そこで我々は,高度に保存されたウイルスタンパクターゲットに対して,注意増強型長期記憶(LSTM)ディープニューラルネット分類器を適用し,ベータコロナウイルスの動物性電位を予測する。 分類器は94%の精度で動作します。 解析と構造レベルでの注意の可視化は、動物性ベータコロナウイルスのウイルス複製を司る重要なタンパク質とタンパク質の相互作用と動物性感染との関係を示唆している。

Current methods for viral discovery target evolutionarily conserved proteins that accurately identify virus families but remain unable to distinguish the zoonotic potential of newly discovered viruses. Here, we apply an attention-enhanced long-short-term memory (LSTM) deep neural net classifier to a highly conserved viral protein target to predict zoonotic potential across betacoronaviruses. The classifier performs with a 94% accuracy. Analysis and visualization of attention at the sequence and structure-level features indicate possible association between important protein-protein interactions governing viral replication in zoonotic betacoronaviruses and zoonotic transmission.
翻訳日:2021-08-19 20:30:40 公開日:2021-08-18
# (参考訳) 共感応答生成のための影響デコード [全文訳有]

Affective Decoding for Empathetic Response Generation ( http://arxiv.org/abs/2108.08102v1 )

ライセンス: CC BY 4.0
Chengkun Zheng, Guanyi Chen, Chenghua Lin, Ruizhe Li, Zhigang Chen(参考訳) 感情接続による話者の感情の理解と適切な反応の生成は共感対話システムにとって重要なコミュニケーションスキルである。 本稿では,共感応答生成のためのAffective Decodingと呼ばれる簡単な手法を提案する。 本手法は,各デコーディングステップ中に感情信号を効果的に組み込むことができ,対話の感情ベースを与えられた話者とリスナーの個別の埋め込みを学習する補助的な二重感情エンコーダを付加することができる。 広範な経験的研究により、我々のモデルは人間の評価によってより共感的であると認識され、いくつかの強い主流の共感応答法と比較される。

Understanding speaker's feelings and producing appropriate responses with emotion connection is a key communicative skill for empathetic dialogue systems. In this paper, we propose a simple technique called Affective Decoding for empathetic response generation. Our method can effectively incorporate emotion signals during each decoding step, and can additionally be augmented with an auxiliary dual emotion encoder, which learns separate embeddings for the speaker and listener given the emotion base of the dialogue. Extensive empirical studies show that our models are perceived to be more empathetic by human evaluations, in comparison to several strong mainstream methods for empathetic responding.
翻訳日:2021-08-19 20:16:23 公開日:2021-08-18
# (参考訳) フォッティング・ロバスト知識追跡のためのディープグラフメモリネットワーク [全文訳有]

Deep Graph Memory Networks for Forgetting-Robust Knowledge Tracing ( http://arxiv.org/abs/2108.08105v1 )

ライセンス: CC BY 4.0
Ghodai Abdelrahman, Qing Wang(参考訳) 学生の知識の追跡は学習経験の調整に不可欠である。 近年の知識追跡手法は,知識状態のダイナミクスを学習概念全体にわたってモデル化することによって,これらの課題に対処する傾向にある。 しかし、それらはまだいくつかの固有の課題に苦しんでいる: 振る舞いを忘れることをモデリングし、潜在概念間の関係を識別する。 本稿では,これらの課題に対処するために,新しい知識追跡モデル,すなわち \emph{Deep Graph Memory Network} (DGMN)を提案する。 本モデルでは,知識追跡過程において,忘れる動作を動的に捉えるために,注意記憶構造に,忘れるゲーティング機構を組み込む。 特に、この無視ゲーティング機構は、相互依存を考慮した潜在概念上の特徴を忘れることによって構築される。 さらに、このモデルは、学生の進化する知識状態を考慮して、動的潜在概念グラフから潜在概念間の関係を学習する能力を有する。 4つの確立されたベンチマークデータセットを用いて総合的な実験評価を行った。 結果は、DGMNがすべてのデータセットで最先端のKTモデルより一貫して優れていることを示している。 また, 行動のモデル化と潜在概念グラフの学習の有効性についても検討した。

Tracing a student's knowledge is vital for tailoring the learning experience. Recent knowledge tracing methods tend to respond to these challenges by modelling knowledge state dynamics across learning concepts. However, they still suffer from several inherent challenges including: modelling forgetting behaviours and identifying relationships among latent concepts. To address these challenges, in this paper, we propose a novel knowledge tracing model, namely \emph{Deep Graph Memory Network} (DGMN). In this model, we incorporate a forget gating mechanism into an attention memory structure in order to capture forgetting behaviours dynamically during the knowledge tracing process. Particularly, this forget gating mechanism is built upon attention forgetting features over latent concepts considering their mutual dependencies. Further, this model has the capability of learning relationships between latent concepts from a dynamic latent concept graph in light of a student's evolving knowledge states. A comprehensive experimental evaluation has been conducted using four well-established benchmark datasets. The results show that DGMN consistently outperforms the state-of-the-art KT models over all the datasets. The effectiveness of modelling forgetting behaviours and learning latent concept graphs has also been analyzed in our experiments.
翻訳日:2021-08-19 20:04:52 公開日:2021-08-18
# (参考訳) 事前学習型言語モデルを活用した学習文書のテーブルキャプション生成 [全文訳有]

Table Caption Generation in Scholarly Documents Leveraging Pre-trained Language Models ( http://arxiv.org/abs/2108.08111v1 )

ライセンス: CC BY 4.0
Junjie H. Xu, Kohei Shinden, Makoto P. Kato(参考訳) 本稿では,学術文献の表キャプション作成の問題点について論じる。 そこで本研究では,用紙本体から関連文を検索し,検索文だけでなく表内容も事前学習した言語モデル(例)に入力する手法を提案する。 T5およびGPT-2) テーブルキャプションを生成する。 本論文の貢献は,(1)学術文献の表キャプションにおける課題に関する議論,(2)公開可能なデータセットdocbank-tbの開発,(3)論文本体から関連文を取得するための戦略が異なる学術文献のキャプション生成方法の比較である。 実験結果から, BLEU と METEOR では GPT-2 を上回り, 生成したテキストがより明確で正確であることを示すため, T5 がより優れた生成モデルであることが示唆された。 また、行ヘッダまたはテーブル全体と一致する関連文の入力が効果的である。

This paper addresses the problem of generating table captions for scholarly documents, which often require additional information outside the table. To this end, we propose a method of retrieving relevant sentences from the paper body, and feeding the table content as well as the retrieved sentences into pre-trained language models (e.g. T5 and GPT-2) for generating table captions. The contributions of this paper are: (1) discussion on the challenges in table captioning for scholarly documents; (2) development of a dataset DocBank-TB, which is publicly available; and (3) comparison of caption generation methods for scholarly documents with different strategies to retrieve relevant sentences from the paper body. Our experimental results showed that T5 is the better generation model for this task, as it outperformed GPT-2 in BLEU and METEOR implying that the generated text are clearer and more precise. Moreover, inputting relevant sentences matching the row header or whole table is effective.
翻訳日:2021-08-19 19:45:14 公開日:2021-08-18
# (参考訳) ハイライト情報を利用したピッチとラウドネス調整を用いた格闘ゲームコメンテータ [全文訳有]

Fighting Game Commentator with Pitch and Loudness Adjustment Utilizing Highlight Cues ( http://arxiv.org/abs/2108.08112v1 )

ライセンス: CC BY 4.0
Junjie H. Xu, Zhou Fang, Qihang Chen, Satoru Ohno, Pujana Paliyawan(参考訳) 本稿では,戦闘ゲームにおけるリアルタイムゲーム解説のためのコメンテータを提案する。 このコメンタリーは、テキスト音声(TTS)技術を用いて、発言するコメンタリーのピッチと大声を調整する入力として、ゲームプレイ中のシーンを分析したハイライトキューを考慮に入れている。 ピッチとラウドネス調整の異なる設計について検討する。 提案するAIは,TSのピッチと音量を制御する動的調整器と,リアルタイムゲーム解説ジェネレータの2つの部分から構成される。 本研究では,対戦ゲームにおけるパイロット実験を行い,ゲームハイライトのレベルに応じて大音量の調整を行うことにより,ゲームプレイのエンターテイメントを向上できることを示す。

This paper presents a commentator for providing real-time game commentary in a fighting game. The commentary takes into account highlight cues, obtained by analyzing scenes during gameplay, as input to adjust the pitch and loudness of commentary to be spoken by using a Text-to-Speech (TTS) technology. We investigate different designs for pitch and loudness adjustment. The proposed AI consists of two parts: a dynamic adjuster for controlling pitch and loudness of the TTS and a real-time game commentary generator. We conduct a pilot study on a fighting game, and our result shows that by adjusting the loudness significantly according to the level of game highlight, the entertainment of the gameplay can be enhanced.
翻訳日:2021-08-19 19:36:26 公開日:2021-08-18
# (参考訳) 時系列解析を用いたスタックインデックス予測 [全文訳有]

Stack Index Prediction Using Time-Series Analysis ( http://arxiv.org/abs/2108.08120v1 )

ライセンス: CC BY 4.0
Raja CSP Raman, Rohith Mahadevan, Divya Perumal, Vedha Sankar, Talha Abdur Rahman(参考訳) テクノロジー業界におけるさまざまなドメインに対するコミュニティサポートとエンゲージメントの流行は、長年にわたって変化し、進化してきた。 本研究では,過去10年間のさまざまなトピックとその成長に関するデータを収集し,科学技術の動向を科学的に理解し,分析し,予測することを目的とする。 収集したデータに機械学習モデルを適用し、異なる分野の進展の傾向を理解し、分析し、予測する。 我々は、python、機械学習、kerasのような特定の技術的概念は議論の余地のない上昇傾向を示し、最終的にstackindexモデルが高い精度で予測し、異なる技術領域を予測するための実行可能なツールとなることを結論付ける。

The Prevalence of Community support and engagement for different domains in the tech industry has changed and evolved throughout the years. In this study, we aim to understand, analyze and predict the trends of technology in a scientific manner, having collected data on numerous topics and their growth throughout the years in the past decade. We apply machine learning models on collected data, to understand, analyze and forecast the trends in the advancement of different fields. We show that certain technical concepts such as python, machine learning, and Keras have an undisputed uptrend, finally concluding that the Stackindex model forecasts with high accuracy and can be a viable tool for forecasting different tech domains.
翻訳日:2021-08-19 19:28:05 公開日:2021-08-18
# (参考訳) 映像シーングラフ生成のためのターゲット適応コンテキストアグリゲーション [全文訳有]

Target Adaptive Context Aggregation for Video Scene Graph Generation ( http://arxiv.org/abs/2108.08121v1 )

ライセンス: CC BY 4.0
Yao Teng, Limin Wang, Zhifeng Li, Gangshan Wu(参考訳) 本稿では,高レベル理解タスクのための構造化ビデオ表現として機能するビデオシーングラフ生成(vidsgg)の課題について述べる。 複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより、このタスクを検知・追跡する新しいパラダイムを提案する。 具体的には,関係認識のための時空間情報を取得することを目的とした,フレームレベル VidSGG の効率的な手法を,TRACE ( {\em Target Adaptive Context Aggregation Network) と呼ぶ。 我々のTRACEフレームワークはモジュール設計でVidSGGパイプラインを合理化し、階層関係木(HRTree)の構築とターゲット適応コンテキスト集約の2つのユニークなブロックを提示する。 より具体的には、hrtreeはまず、可能な関係候補を効率的に整理するためのadpative構造を提供し、コンテキストアグリゲーションモジュールをガイドし、時空間構造情報を効果的にキャプチャします。 次に,各関係候補に対する文脈化特徴表現を取得し,その関係カテゴリを認識するための分類ヘッドを構築する。 最後に、TRACE検出結果を追跡し、ビデオレベルのVidSGGを得るための簡単な時間的アソシエーション戦略を提案する。 我々は、ImageNet-VidVRDとAction Genomeの2つのVidSGGベンチマークで実験を行い、TRACEが最先端のパフォーマンスを達成することを示す。 コードとモデルは \url{https://github.com/M CG-NJU/TRACE} で公開されている。

This paper deals with a challenging task of video scene graph generation (VidSGG), which could serve as a structured video representation for high-level understanding tasks. We present a new {\em detect-to-track} paradigm for this task by decoupling the context modeling for relation prediction from the complicated low-level entity tracking. Specifically, we design an efficient method for frame-level VidSGG, termed as {\em Target Adaptive Context Aggregation Network} (TRACE), with a focus on capturing spatio-temporal context information for relation recognition. Our TRACE framework streamlines the VidSGG pipeline with a modular design, and presents two unique blocks of Hierarchical Relation Tree (HRTree) construction and Target-adaptive Context Aggregation. More specific, our HRTree first provides an adpative structure for organizing possible relation candidates efficiently, and guides context aggregation module to effectively capture spatio-temporal structure information. Then, we obtain a contextualized feature representation for each relation candidate and build a classification head to recognize its relation category. Finally, we provide a simple temporal association strategy to track TRACE detected results to yield the video-level VidSGG. We perform experiments on two VidSGG benchmarks: ImageNet-VidVRD and Action Genome, and the results demonstrate that our TRACE achieves the state-of-the-art performance. The code and models are made available at \url{https://github.com/M CG-NJU/TRACE}.
翻訳日:2021-08-19 19:21:33 公開日:2021-08-18
# (参考訳) 深層学習に基づく手指衛生映像の分類 [全文訳有]

Hand Hygiene Video Classification Based on Deep Learning ( http://arxiv.org/abs/2108.08127v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi(参考訳) 本研究では, ジェスチャー認識の分野における文献の広範なレビューを行い, 深層学習ソリューションに基づく手衛生段階の簡易分類システムの実装を行った。 両手で手洗いのジェスチャーと、直線的な手の動きのような片手のジェスチャーからなる、ロバストなデータセットのサブセット。 トレーニング済みのニューラルネットワークモデルであるRES Net 50は、リニアハンドの動き、手のひらから手のひらまで、指を挟んだ手のひらという3つのカテゴリの分類に使用されるイメージネットの重みを持つ。 最初の2つのクラスの正しい予測は、60%の精度であった。 完全なデータセットとクラス数の増加、トレーニングステップが将来の作業として検討される。

In this work, an extensive review of literature in the field of gesture recognition carried out along with the implementation of a simple classification system for hand hygiene stages based on deep learning solutions. A subset of robust dataset that consist of handwashing gestures with two hands as well as one-hand gestures such as linear hand movement utilized. A pretrained neural network model, RES Net 50, with image net weights used for the classification of 3 categories: Linear hand movement, rub hands palm to palm and rub hands with fingers interlaced movement. Correct predictions made for the first two classes with > 60% accuracy. A complete dataset along with increased number of classes and training steps will be explored as a future work.
翻訳日:2021-08-19 19:04:56 公開日:2021-08-18
# (参考訳) 反復的比例フィッティング法の定量的一様安定性 [全文訳有]

Quantitative Uniform Stability of the Iterative Proportional Fitting Procedure ( http://arxiv.org/abs/2108.08129v1 )

ライセンス: CC BY 4.0
George Deligiannidis, Valentin De Bortoli, Arnaud Doucet(参考訳) 我々は時間安定の統一を確立した w.r.t. Sinkhornアルゴリズムとしても知られるIterative Proportional Fitting procedureの限界は、エントロピー規則化された最適輸送問題を解くために用いられる。 この結果は定量的であり、1-wasserstein計量の項で述べられている。 結果として,schr\"odinger橋の安定性を定量的に決定する。

We establish the uniform in time stability, w.r.t. the marginals, of the Iterative Proportional Fitting Procedure, also known as Sinkhorn algorithm, used to solve entropy-regularised Optimal Transport problems. Our result is quantitative and stated in terms of the 1-Wasserstein metric. As a corollary we establish a quantitative stability result for Schr\"odinger bridges.
翻訳日:2021-08-19 18:58:31 公開日:2021-08-18
# (参考訳) SARS-CoV-2配列の効果的でスケーラブルなクラスタリング [全文訳有]

Effective and scalable clustering of SARS-CoV-2 sequences ( http://arxiv.org/abs/2108.08143v1 )

ライセンス: CC0 1.0
Sarwan Ali, Tamkanat-E-Ali, Muhammad Asad Khan, Imdadullah Khan, Murray Patterson(参考訳) SARS-CoV-2は、他のウイルスと同様に、進化過程に従って変異し続けている。 他のどのウイルスとは異なり、gisaidのような公開データベースで現在利用可能なsars-cov-2の配列の数は、すでに数百万である。 この量のデータは、かつてないほどウイルスの進化のダイナミクスを明らかにする可能性がある。 しかし、百万は、系統樹を作るような、ウイルスの進化の歴史を再構築するために設計された伝統的な方法によって処理できる範囲を超えて、すでに数桁の大きさである。 したがって、収集されるウイルス配列の数が増え続けるために、新しいスケーラブルな方法が考案される必要がある。 本稿では,ウイルスの進化を理解する上で,変種を同定することが重要であることから,現在のSARS-CoV-2変種を同定するためのクラスタリングシーケンスに基づくアプローチを提案する。 提案手法は,$k$-merベースの特徴ベクトル生成と効率的な特徴選択手法を用いて,変種を同定し,数百万のシーケンスに対して効率的かつスケーラブルである。 このようなクラスタリング手法により、各変異の相対的な比率を時間とともに示すことができ、ワクチン開発と配布において重要な、それぞれの変異が異なる場所で拡散する率を与えます。 また,スパイクタンパク質の各アミノ酸位置が,情報ゲインの観点から与えられた変異を同定する上で重要であることも計算した。 米国疾病予防管理センター(cdc)の報告と高い変異特異性の位置は一致しがちであり、このアプローチをさらに実証する。

SARS-CoV-2, like any other virus, continues to mutate as it spreads, according to an evolutionary process. Unlike any other virus, the number of currently available sequences of SARS-CoV-2 in public databases such as GISAID is already several million. This amount of data has the potential to uncover the evolutionary dynamics of a virus like never before. However, a million is already several orders of magnitude beyond what can be processed by the traditional methods designed to reconstruct a virus's evolutionary history, such as those that build a phylogenetic tree. Hence, new and scalable methods will need to be devised in order to make use of the ever increasing number of viral sequences being collected. Since identifying variants is an important part of understanding the evolution of a virus, in this paper, we propose an approach based on clustering sequences to identify the current major SARS-CoV-2 variants. Using a $k$-mer based feature vector generation and efficient feature selection methods, our approach is effective in identifying variants, as well as being efficient and scalable to millions of sequences. Such a clustering method allows us to show the relative proportion of each variant over time, giving the rate of spread of each variant in different locations -- something which is important for vaccine development and distribution. We also compute the importance of each amino acid position of the spike protein in identifying a given variant in terms of information gain. Positions of high variant-specific importance tend to agree with those reported by the USA's Centers for Disease Control and Prevention (CDC), further demonstrating our approach.
翻訳日:2021-08-19 18:34:02 公開日:2021-08-18
# (参考訳) active observer visual problem-solving methodは動的に仮説化され、デプロイされ、テストされる [全文訳有]

Active Observer Visual Problem-Solving Methods are Dynamically Hypothesized, Deployed and Tested ( http://arxiv.org/abs/2108.08145v1 )

ライセンス: CC BY 4.0
Markus D. Solbach and John K. Tsotsos(参考訳) STARアーキテクチャは、複雑な現実世界の視覚的タスクと行動に対する視覚的注意の完全な選択的チューニングモデルの価値をテストするために設計された。 しかし、アクティブなオブザーバーとして3dで人間がそのようなタスクをどのように解決するかの知識はリーンである。 そこで我々は,新しい実験装置を考案し,その振る舞いを検討した。 ヒトは様々な問題解決戦略を示しており、その幅と複雑さは驚きであり、現在の手法では容易に扱えない。 解法は、行動列を仮説化し、それらをテストし、失敗した場合、異なる方法を試すことによって動的に構成されることは明らかである。 積極的観察の重要性は、学習効果の欠如として顕著である。 これらの結果から,STARの認知プログラム表現が実世界の課題との関連性を高めることが示唆された。

The STAR architecture was designed to test the value of the full Selective Tuning model of visual attention for complex real-world visuospatial tasks and behaviors. However, knowledge of how humans solve such tasks in 3D as active observers is lean. We thus devised a novel experimental setup and examined such behavior. We discovered that humans exhibit a variety of problem-solving strategies whose breadth and complexity are surprising and not easily handled by current methodologies. It is apparent that solution methods are dynamically composed by hypothesizing sequences of actions, testing them, and if they fail, trying different ones. The importance of active observation is striking as is the lack of any learning effect. These results inform our Cognitive Program representation of STAR extending its relevance to real-world tasks.
翻訳日:2021-08-19 18:23:39 公開日:2021-08-18
# (参考訳) AIによるフィールド変革を理解するためのフレームワーク - AIテクノロジの合法化と制度化 [全文訳有]

A Framework for Understanding AI-Induced Field Change: How AI Technologies are Legitimized and Institutionalized ( http://arxiv.org/abs/2108.07804v1 )

ライセンス: CC BY 4.0
Benjamin Cedric Larsen(参考訳) 人工知能(AI)システムは、医療から顔認識、株式市場、自動運転車など、ますます多様な分野で運用されている。 AIシステムの基盤となるデジタルインフラストラクチャは急速に発展しているが、実装の各領域は、異なるレベルの正当性を持つ。 本稿では,システム理論と情報システム理論の要素を組み合わせることで,AIによるフィールド変化を分析し,理解するための概念的枠組みを提案する。 新たなAIエージェントを新しい分野や既存の分野に導入することで、アルゴリズム(再)組織や組織を形作り、既存の機関のインフラが組織の変革が許される範囲と速度を決定するというダイナミクスが生まれる。 標準や規則、規制といった制度的なインフラやガバナンスの取り決めがまだ未定だが、この分野は速く動けるが、議論される可能性も高い。 AIが引き起こす分野を取り巻く制度的なインフラは概してほとんど精巧ではないため、今後AIシステムのより広範な制度化に支障をきたす可能性がある。

Artificial intelligence (AI) systems operate in increasingly diverse areas, from healthcare to facial recognition, the stock market, autonomous vehicles, and so on. While the underlying digital infrastructure of AI systems is developing rapidly, each area of implementation is subject to different degrees and processes of legitimization. By combining elements from institutional theory and information systems-theory, this paper presents a conceptual framework to analyze and understand AI-induced field-change. The introduction of novel AI-agents into new or existing fields creates a dynamic in which algorithms (re)shape organizations and institutions while existing institutional infrastructures determine the scope and speed at which organizational change is allowed to occur. Where institutional infrastructure and governance arrangements, such as standards, rules, and regulations, still are unelaborate, the field can move fast but is also more likely to be contested. The institutional infrastructure surrounding AI-induced fields is generally little elaborated, which could be an obstacle to the broader institutionalization of AI-systems going forward.
翻訳日:2021-08-19 18:09:07 公開日:2021-08-18
# (参考訳) RTE:テキストから関係トリプレットをアノテーションするツール [全文訳有]

RTE: A Tool for Annotating Relation Triplets from Text ( http://arxiv.org/abs/2108.08184v1 )

ライセンス: CC0 1.0
Ankan Mullick and Animesh Bera and Tapas Nayak(参考訳) 本稿では,テキストから関係トリプレットを注釈付けするための Web ベースのアノテーションツール `Relation Triplets Extractor' \footnote{https://abera87.gith ub.io/annotate/} (RTE) を提案する。 関係抽出は,Web上で利用可能な非構造化テキストから実世界の実体に関する構造化情報を抽出するための重要なタスクである。 関係抽出では,2つの実体間の関係を示す二項関係に着目した。 近年,この課題を解決するために多くの教師付きモデルが提案されているが,遠方監視法を用いて得られたノイズの多いトレーニングデータを用いていることが多い。 多くの場合、ノイズの多いテストデータセットに基づいてモデルの評価を行う。 注釈付きクリーンデータセットの欠如は、この研究領域における重要な課題である。 本研究では、研究者がデータセットにアノテートして関係抽出を簡単に行えるwebベースのツールを構築した。 このツールにはサーバレスアーキテクチャを使用し、アノテーション操作全体はクライアント側のコードで処理されます。 したがって、ネットワークのレイテンシに苦しむことはなく、ユーザのデータのプライバシも保持される。 このツールは、研究者が関係抽出の分野を前進させるのに役立つと期待している。

In this work, we present a Web-based annotation tool `Relation Triplets Extractor' \footnote{https://abera87.gith ub.io/annotate/} (RTE) for annotating relation triplets from the text. Relation extraction is an important task for extracting structured information about real-world entities from the unstructured text available on the Web. In relation extraction, we focus on binary relation that refers to relations between two entities. Recently, many supervised models are proposed to solve this task, but they mostly use noisy training data obtained using the distant supervision method. In many cases, evaluation of the models is also done based on a noisy test dataset. The lack of annotated clean dataset is a key challenge in this area of research. In this work, we built a web-based tool where researchers can annotate datasets for relation extraction on their own very easily. We use a server-less architecture for this tool, and the entire annotation operation is processed using client-side code. Thus it does not suffer from any network latency, and the privacy of the user's data is also maintained. We hope that this tool will be beneficial for the researchers to advance the field of relation extraction.
翻訳日:2021-08-19 17:44:13 公開日:2021-08-18
# (参考訳) ドロップアウト, バッチ正規化, スキップ接続によるMLPの一般化 [全文訳有]

Generalizing MLPs With Dropouts, Batch Normalization, and Skip Connections ( http://arxiv.org/abs/2108.08186v1 )

ライセンス: CC BY 4.0
Taewoon Kim(参考訳) 多層パーセプトロン(MLP)は通常、非線形活性化関数を持つ複数の完全連結層で構成されている。 改善するためのいくつかのアプローチ(例)があります。 より高速な収束、より優れた収束限界など)。 しかし、これらの研究にはより構造化された方法が欠けている。 我々は、年齢と性別のデータセットに関する実験を行うことで、異なるMLPアーキテクチャをテストする。 実験により,各線形層の前に入力を白くし,スキップ接続を追加することで,提案したMLPアーキテクチャの性能が向上することを示した。 ホワイトニングプロセスにはドロップアウトが含まれるため、ベイズ推定の近似にも使うことができる。 コードリリースのモデルとdockerイメージは、https://github.com/t ae898/age-gender/でオープンソース化しました。

A multilayer perceptron (MLP) is typically made of multiple fully connected layers with nonlinear activation functions. There have been several approaches to make them better (e.g. faster convergence, better convergence limit, etc.). But the researches lack in more structured ways to test them. We test different MLP architectures by carrying out the experiments on the age and gender datasets. We empirically show that by whitening inputs before every linear layer and adding skip connections, our proposed MLP architecture can result in better performance. Since the whitening process includes dropouts, it can also be used to approximate Bayesian inference. We have open sourced our code released models and docker images at https://github.com/t ae898/age-gender/.
翻訳日:2021-08-19 17:37:57 公開日:2021-08-18
# (参考訳) masked face recognition challenge: the insightface track report [全文訳有]

Masked Face Recognition Challenge: The InsightFace Track Report ( http://arxiv.org/abs/2108.08191v1 )

ライセンス: CC BY 4.0
Jiankang Deng and Jia Guo and Xiang An and Zheng Zhu and Stefanos Zafeiriou(参考訳) 新型コロナウイルス(COVID-19)が流行する中、ほとんどの人が顔認証に挑戦するマスクを着用している。 本ワークショップでは,マスクの存在下でのMFR(Masked Face Recognition)課題を整理し,ベンチマーキングの深層顔認識手法に焦点を当てた。 MFRチャレンジでは、InsightFaceトラックとWebFace260Mトラックの2つの主要なトラックがある。 InsightFaceトラックでは、7Kのアイデンティティを持つ大規模なマスク付き顔テストセットを手作業で収集する。 また,14Kのアイデンティティを含む児童検定セットと242Kのアイデンティティを含む多人種検定セットも収集した。 これら3つのテストセットを用いてオンラインモデルテストシステムを構築し,顔認識モデルの包括的評価を行う。 データプライバシーの問題を避けるため、テストイメージは公開されていない。 課題はまだ進行中なので、トップランクのソリューションの更新と、このarxivに関するレポートを続けます。

During the COVID-19 coronavirus epidemic, almost everyone wears a facial mask, which poses a huge challenge to deep face recognition. In this workshop, we organize Masked Face Recognition (MFR) challenge and focus on bench-marking deep face recognition methods under the existence of facial masks. In the MFR challenge, there are two main tracks: the InsightFace track and the WebFace260M track. For the InsightFace track, we manually collect a large-scale masked face test set with 7K identities. In addition, we also collect a children test set including 14K identities and a multi-racial test set containing 242K identities. By using these three test sets, we build up an online model testing system, which can give a comprehensive evaluation of face recognition models. To avoid data privacy problems, no test image is released to the public. As the challenge is still under-going, we will keep on updating the top-ranked solutions as well as this report on the arxiv.
翻訳日:2021-08-19 17:29:05 公開日:2021-08-18
# (参考訳) 畳み込みニューラルネットワークのための注意モジュール [全文訳有]

An Attention Module for Convolutional Neural Networks ( http://arxiv.org/abs/2108.08205v1 )

ライセンス: CC BY 4.0
Zhu Baozhou and Peter Hofstee and Jinho Lee and Zaid Al-Ars(参考訳) アテンション機構は、長距離特徴の相互作用を捉え、畳み込みニューラルネットワークの表現能力を高めるための高度な技術と見なされている。 しかし,現在の注意活性化モデルでは,近似問題と注意マップの容量不足という2つの無視問題を見出した。 この2つの問題を解決するために,まず,アテンションマップの形状がアクティベーションではなくウェイトの形状にマッチする畳み込み畳み込み(aw-convolution)を開発し,畳み込みニューラルネットワークのためのアテンションモジュールを提案する。 提案するアテンションモジュールは,従来のアテンションベース方式を補完する手法であり,例えば,アテンション機構を適用してチャネルワイドと空間的特徴の関係を探索する手法である。 画像分類とオブジェクト検出タスクのための複数のデータセットの実験により,提案手法の有効性が示された。 特に,提案する注目モジュールは,ResNet101ベースライン上でのイメージネット分類におけるトップ1の精度1.00%向上,ResNet101-FPNのバックボーンを持つ高速R-CNNベースライン上でのCOCOオブジェクト検出における平均精度0.63の改善を実現している。 従来のアクティベーションベースモデルと統合することにより,イメージネット分類におけるトップ1の精度を0.57%,COCOオブジェクト検出におけるCOCOスタイルの平均精度を0.45まで向上させることができる。 コードと事前訓練されたモデルは一般公開される。

Attention mechanism has been regarded as an advanced technique to capture long-range feature interactions and to boost the representation capability for convolutional neural networks. However, we found two ignored problems in current attentional activations-based models: the approximation problem and the insufficient capacity problem of the attention maps. To solve the two problems together, we initially propose an attention module for convolutional neural networks by developing an AW-convolution, where the shape of attention maps matches that of the weights rather than the activations. Our proposed attention module is a complementary method to previous attention-based schemes, such as those that apply the attention mechanism to explore the relationship between channel-wise and spatial features. Experiments on several datasets for image classification and object detection tasks show the effectiveness of our proposed attention module. In particular, our proposed attention module achieves 1.00% Top-1 accuracy improvement on ImageNet classification over a ResNet101 baseline and 0.63 COCO-style Average Precision improvement on the COCO object detection on top of a Faster R-CNN baseline with the backbone of ResNet101-FPN. When integrating with the previous attentional activations-based models, our proposed attention module can further increase their Top-1 accuracy on ImageNet classification by up to 0.57% and COCO-style Average Precision on the COCO object detection by up to 0.45. Code and pre-trained models will be publicly available.
翻訳日:2021-08-19 17:15:59 公開日:2021-08-18
# (参考訳) 認知症から健康年齢を逸脱させる:ディープネットワークを用いた脳萎縮の生体力学的シミュレーション [全文訳有]

Distinguishing Healthy Ageing from Dementia: a Biomechanical Simulation of Brain Atrophy using Deep Networks ( http://arxiv.org/abs/2108.08214v1 )

ライセンス: CC BY 4.0
Mariana Da Silva, Carole H. Sudre, Kara Garcia, Cher Bass, M. Jorge Cardoso, and Emma C. Robinson(参考訳) 組織変形の生体力学的モデリングは、縦型脳進化の異なるシナリオをシミュレートするために用いられる。 本研究では,健常年齢,アルツハイマー病における脳萎縮の高弾性ひずみモデリングのための深層学習フレームワークを提案する。 このフレームワークは、年齢、疾患状態、スキャン間隔の影響を直接モデル化し、ストレインベースモデルが変形を推定する萎縮の局所パターンを回帰する。 このモデルはadniコホートからの3次元構造磁気共鳴イメージングデータを用いて訓練および検証される。 その結果、この枠組みはアルツハイマー病の既知の経過に従って、健康的パターンと老化のパターンを明確に区別する現実的な変形を推定できることがわかった。 これは、このフレームワークが、治療や偽例の探索のために、説明可能な疾患モデルに組み込まれる可能性を示唆している。

Biomechanical modeling of tissue deformation can be used to simulate different scenarios of longitudinal brain evolution. In this work,we present a deep learning framework for hyper-elastic strain modelling of brain atrophy, during healthy ageing and in Alzheimer's Disease. The framework directly models the effects of age, disease status, and scan interval to regress regional patterns of atrophy, from which a strain-based model estimates deformations. This model is trained and validated using 3D structural magnetic resonance imaging data from the ADNI cohort. Results show that the framework can estimate realistic deformations, following the known course of Alzheimer's disease, that clearly differentiate between healthy and demented patterns of ageing. This suggests the framework has potential to be incorporated into explainable models of disease, for the exploration of interventions and counterfactual examples.
翻訳日:2021-08-19 16:55:19 公開日:2021-08-18
# (参考訳) 異常検出法を用いた分布外検出 [全文訳有]

Out-of-Distribution Detection using Outlier Detection Methods ( http://arxiv.org/abs/2108.08218v1 )

ライセンス: CC BY 4.0
Jan Diers and Christian Pigorsch(参考訳) Out-of-Distribution Detection (OOD)は、ニューラルネットワークへの異常な入力を扱う。 これまで,異常入力の予測を拒否する特殊な手法が提案されてきた。 異常検出アルゴリズムを用いて,oodの分野から特殊手法と同等に信頼性の高い異常入力を検出する。 ニューラルネットワークの適応は不要であり、検出はモデルのソフトマックススコアに基づいている。 このアプローチは,孤立林や勾配昇降機などの教師付き分類器では無監督で機能する。

Out-of-distribution detection (OOD) deals with anomalous input to neural networks. In the past, specialized methods have been proposed to reject predictions on anomalous input. We use outlier detection algorithms to detect anomalous input as reliable as specialized methods from the field of OOD. No neural network adaptation is required; detection is based on the model's softmax score. Our approach works unsupervised with an Isolation Forest or with supervised classifiers such as a Gradient Boosting machine.
翻訳日:2021-08-19 16:44:24 公開日:2021-08-18
# (参考訳) 未来を予測するトランスフォーマー。 次世代予測と時系列予測に注意を向ける [全文訳有]

Transformers predicting the future. Applying attention in next-frame and time series forecasting ( http://arxiv.org/abs/2108.08224v1 )

ライセンス: CC BY-SA 4.0
Radostin Cholakov, Todor Kolev(参考訳) 繰り返しニューラルネットワークは、最近まで、シーケンス内のタイムリーな依存関係をキャプチャする最良の方法の1つでした。 しかし、Transformerの導入により、RNNのない注意機構しか持たないアーキテクチャが、様々なシーケンス処理タスク(例えば、)の結果を改善することが証明されている。 NLP)。 それ以来、複数の研究により、同様のアプローチが画像、点雲、ビデオ、オーディオ、時系列予測に応用できることが示されている。 さらに、トランスの適用性を拡張するために、知覚器やインフォメータなどのソリューションが導入された。 私たちの主な目的は、時系列データにトランスフォーマーライクなモデルを適用することの有効性のテストと評価、ハイパーパラメータの微調整、データの前処理、次元縮小や畳み込みエンコーディングなどによる、異常に対する感受性、コンテキスト認識、空間複雑性に取り組みます。 また、次世代予測の問題や、既存のソリューションを改良して高いパフォーマンスを達成し、一般的な知識を学ぶ方法も検討しています。

Recurrent Neural Networks were, until recently, one of the best ways to capture the timely dependencies in sequences. However, with the introduction of the Transformer, it has been proven that an architecture with only attention-mechanisms without any RNN can improve on the results in various sequence processing tasks (e.g. NLP). Multiple studies since then have shown that similar approaches can be applied for images, point clouds, video, audio or time series forecasting. Furthermore, solutions such as the Perceiver or the Informer have been introduced to expand on the applicability of the Transformer. Our main objective is testing and evaluating the effectiveness of applying Transformer-like models on time series data, tackling susceptibility to anomalies, context awareness and space complexity by fine-tuning the hyperparameters, preprocessing the data, applying dimensionality reduction or convolutional encodings, etc. We are also looking at the problem of next-frame prediction and exploring ways to modify existing solutions in order to achieve higher performance and learn generalized knowledge.
翻訳日:2021-08-19 16:25:30 公開日:2021-08-18
# (参考訳) 戦術決定ゲームにおけるアナロジー学習 [全文訳有]

Analogical Learning in Tactical Decision Games ( http://arxiv.org/abs/2108.08227v1 )

ライセンス: CC BY 4.0
Tom Hinrichs, Greg Dunham and Ken Forbus(参考訳) TDG(Tactical Decision Games)は、地図上でテキストとグラフィカルの両方に表される軍事紛争シナリオである。 これらのシナリオは、オープンで高度に構造化されており、一般的にさまざまな関連性に関する多くの詳細が含まれているため、機械学習にとって困難な領域となります。 我々は,アナログ検索,マッピング,制約伝搬の組み合わせを用いて,TDGシナリオを解決するための軍事的タスクを提案する対話型協調システムの問題解決コンポーネントを開発した。 この問題解決の要素を使ってアナログ学習を探求する。 本稿では,この領域の学習における問題点と,類似写像対応の分割制約や,頑健性向上のための漸進的リマッピングの利用など,これらに対処する手法について述べる。 ドメイン理論が弱いにもかかわらず、単純な例の蓄積による性能向上を示す学習実験の結果を示す。

Tactical Decision Games (TDGs) are military conflict scenarios presented both textually and graphically on a map. These scenarios provide a challenging domain for machine learning because they are open-ended, highly structured, and typically contain many details of varying relevance. We have developed a problem-solving component of an interactive companion system that proposes military tasks to solve TDG scenarios using a combination of analogical retrieval, mapping, and constraint propagation. We use this problem-solving component to explore analogical learning. In this paper, we describe the problems encountered in learning for this domain, and the methods we have developed to address these, such as partition constraints on analogical mapping correspondences and the use of incremental remapping to improve robustness. We present the results of learning experiments that show improvement in performance through the simple accumulation of examples, despite a weak domain theory.
翻訳日:2021-08-19 16:17:22 公開日:2021-08-18
# (参考訳) 性別関連指紋特徴に関する研究 [全文訳有]

Research on Gender-related Fingerprint Features ( http://arxiv.org/abs/2108.08233v1 )

ライセンス: CC BY 4.0
Yong Qi, Yanping Li, Huawei Lin, Jiashu Chen, Huaiguang Lei(参考訳) 指紋は、豊富な性情報を含む人体の重要な生物学的特徴である。 現在、指紋のジェンダー特性に関する学術研究は一般的に理解レベルにあるが、標準化研究は極めて限られている。 本研究では,より堅牢なDense Dilated Convolution ResNet(DDC-ResNet)を提案する。 通常の畳み込み操作をバックボーンのatrous畳み込みに置き換えることで、エッジの詳細を保持するための事前知識が提供され、グローバル受信フィールドを拡張することができる。 1) DDC-ResNetの効率性について検討した。 9つの主流分類器と自動特徴抽出結合の典型的な6つの手法を,実装の詳細とともにデータセットで評価した。 実験の結果,提案手法の組合せは,平均精度と分離生成精度の点で他の組み合わせよりも優れていることがわかった。 平均96.5%に達し、0.9752 (男性)/0.9548 (女性) の精度を持つ。 2)指の効果。 その結果, 左右のリングフィンガーにより, 性別を別個の指で分類する最善の性能が得られた。 3) 特定の特徴の効果。 我々のアプローチによって可視化された指紋の濃度の観測に基づいて、ループや輪郭(レベル1)、分岐(レベル2)、線状(レベル3)が性別と結びついていると推測できる。 最後に、6000枚の指紋画像を含むデータセットをオープンソース化します

Fingerprint is an important biological feature of human body, which contains abundant gender information. At present, the academic research of fingerprint gender characteristics is generally at the level of understanding, while the standardization research is quite limited. In this work, we propose a more robust method, Dense Dilated Convolution ResNet (DDC-ResNet) to extract valid gender information from fingerprints. By replacing the normal convolution operations with the atrous convolution in the backbone, prior knowledge is provided to keep the edge details and the global reception field can be extended. We explored the results in 3 ways: 1) The efficiency of the DDC-ResNet. 6 typical methods of automatic feature extraction coupling with 9 mainstream classifiers are evaluated in our dataset with fair implementation details. Experimental results demonstrate that the combination of our approach outperforms other combinations in terms of average accuracy and separate-gender accuracy. It reaches 96.5% for average and 0.9752 (males)/0.9548 (females) for separate-gender accuracy. 2) The effect of fingers. It is found that the best performance of classifying gender with separate fingers is achieved by the right ring finger. 3) The effect of specific features. Based on the observations of the concentrations of fingerprints visualized by our approach, it can be inferred that loops and whorls (level 1), bifurcations (level 2), as well as line shapes (level 3) are connected with gender. Finally, we will open source the dataset that contains 6000 fingerprint images
翻訳日:2021-08-19 16:09:01 公開日:2021-08-18
# (参考訳) 個人的コンテキストのストリーミングと学習 [全文訳有]

Streaming and Learning the Personal Context ( http://arxiv.org/abs/2108.08234v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia, Marcelo Rodas Britez, Andrea Bontempelli, Xiaoyue Li(参考訳) 個人的文脈の表現は複雑で、機械が世界を理解するために人間に与え、人間が機械に与えてその効率を改善するのに不可欠である。 我々は、パーソナルコンテキストの新たなモデル表現を設計し、機械学習との統合性を高めるための学習プロセスを設計することを目指している。 これらの要素を,現実の環境に焦点をあてた現代システムアーキテクチャに実装することを目指している。 また,本提案が特に関連する作業論文でどのように改善できるかを示す。 最後に、改善されたモデル、学習プロセスの実装、そしてこれらのコンポーネントのアーキテクチャ設計による、より良い個人的コンテキスト表現を前進させています。

The representation of the personal context is complex and essential to improve the help machines can give to humans for making sense of the world, and the help humans can give to machines to improve their efficiency. We aim to design a novel model representation of the personal context and design a learning process for better integration with machine learning. We aim to implement these elements into a modern system architecture focus in real-life environments. Also, we show how our proposal can improve in specifically related work papers. Finally, we are moving forward with a better personal context representation with an improved model, the implementation of the learning process, and the architectural design of these components.
翻訳日:2021-08-19 15:58:19 公開日:2021-08-18
# (参考訳) LIGA-Stereo:ステレオ3D検出器におけるLiDAR幾何学の学習 [全文訳有]

LIGA-Stereo: Learning LiDAR Geometry Aware Representations for Stereo-based 3D Detector ( http://arxiv.org/abs/2108.08258v1 )

ライセンス: CC BY 4.0
Xiaoyang Guo, Shaoshuai Shi, Xiaogang Wang, Hongsheng Li(参考訳) ステレオベース3D検出は,立体画像からの3次元物体境界ボックスの検出を,中間深度マップや暗黙的な3次元形状表現を用いて行うことを目的としている。 しかし、その性能はLiDARベースの検出アルゴリズムと比較しても劣っている。 正確な3Dバウンディングボックスを検出およびローカライズするために、LiDARベースのモデルは、正確なオブジェクト境界とLiDAR点雲からの通常の方向をエンコードすることができる。 しかし,ステレオ式検出器の検出結果は,ステレオマッチングの限界により誤った深さ特徴の影響を受けやすい。 そこで本研究では,LIGA-Stereo (LiDAR Geometry Aware Stereo Detector)を提案する。 さらに,既存のvoxelベースのステレオ検出器では,間接的な3次元監視から意味的特徴を効果的に学習できなかった。 補助的な2D検出ヘッドを取り付け、直接2Dセマンティック監視を行う。 実験の結果,上記の2つの戦略により,幾何学的および意味的表現能力が改善された。 最新のステレオ検出器と比較すると,公式のKITTIベンチマークでは,車,歩行者,サイクリストの3次元検出性能が10.44%,5.69%,5.97%向上した。 ステレオベースとLiDARベースの3D検出器のギャップはさらに狭められている。

Stereo-based 3D detection aims at detecting 3D object bounding boxes from stereo images using intermediate depth maps or implicit 3D geometry representations, which provides a low-cost solution for 3D perception. However, its performance is still inferior compared with LiDAR-based detection algorithms. To detect and localize accurate 3D bounding boxes, LiDAR-based models can encode accurate object boundaries and surface normal directions from LiDAR point clouds. However, the detection results of stereo-based detectors are easily affected by the erroneous depth features due to the limitation of stereo matching. To solve the problem, we propose LIGA-Stereo (LiDAR Geometry Aware Stereo Detector) to learn stereo-based 3D detectors under the guidance of high-level geometry-aware representations of LiDAR-based detection models. In addition, we found existing voxel-based stereo detectors failed to learn semantic features effectively from indirect 3D supervisions. We attach an auxiliary 2D detection head to provide direct 2D semantic supervisions. Experiment results show that the above two strategies improved the geometric and semantic representation capabilities. Compared with the state-of-the-art stereo detector, our method has improved the 3D detection performance of cars, pedestrians, cyclists by 10.44%, 5.69%, 5.97% mAP respectively on the official KITTI benchmark. The gap between stereo-based and LiDAR-based 3D detectors is further narrowed.
翻訳日:2021-08-19 15:47:21 公開日:2021-08-18
# (参考訳) 生ビデオにおけるロバストな人間の軌道予測に向けて [全文訳有]

Towards Robust Human Trajectory Prediction in Raw Videos ( http://arxiv.org/abs/2108.08259v1 )

ライセンス: CC BY 4.0
Rui Yu and Zihan Zhou(参考訳) 近年,自律走行車や屋内ロボットなどの応用において,人間の軌道予測の重要性が増している。 しかし、既存のほとんどの手法は、人間のラベル付き軌道に基づいて予測を行い、検出と追跡の誤りやノイズを無視する。 本稿では,生映像における人間の軌跡予測の問題点について検討し,その予測精度が各種の追跡誤差の影響を受けやすいことを示す。 そこで本研究では,予測一貫性を経時的に強制することにより,追跡障害を是正する簡易かつ効果的な手法を提案する。 提案する"re-tracking"アルゴリズムは,既存のトラッキングおよび予測パイプラインに適用可能である。 公開ベンチマークデータセットの実験では、提案手法が現実のシナリオに挑戦する際のトラッキングと予測性能を改善することが示されている。 コードとデータはhttps://git.io/retra cking-predictionで入手できる。

Human trajectory prediction has received increased attention lately due to its importance in applications such as autonomous vehicles and indoor robots. However, most existing methods make predictions based on human-labeled trajectories and ignore the errors and noises in detection and tracking. In this paper, we study the problem of human trajectory forecasting in raw videos, and show that the prediction accuracy can be severely affected by various types of tracking errors. Accordingly, we propose a simple yet effective strategy to correct the tracking failures by enforcing prediction consistency over time. The proposed "re-tracking" algorithm can be applied to any existing tracking and prediction pipelines. Experiments on public benchmark datasets demonstrate that the proposed method can improve both tracking and prediction performance in challenging real-world scenarios. The code and data are available at https://git.io/retra cking-prediction.
翻訳日:2021-08-19 15:26:10 公開日:2021-08-18
# X-modaler: クロスモーダル分析のための多機能かつ高性能なコードベース

X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics ( http://arxiv.org/abs/2108.08217v1 )

ライセンス: Link先を確認
Yehao Li and Yingwei Pan and Jingwen Chen and Ting Yao and Tao Mei(参考訳) 過去10年にわたるディープラーニングの台頭と発展に伴い、イノベーションとブレークスルーの着実に勢いを増し、マルチメディア分野におけるビジョンと言語間のクロスモーダル分析の最先端を確実に推し進めている。 それでも、複数のニューラルネットワークモデルのトレーニングとデプロイをサポートするオープンソースコードベースは、統一的でモジュール化された方法では存在していない。 本研究では, 最先端のクロスモーダル解析を汎用ステージ(前処理, エンコーダ, クロスモーダルインタラクション, デコーダ, デコード戦略など)にカプセル化する多目的かつ高性能なコードベースであるX-modalerを提案する。 各ステージは、最先端に広く採用されている一連のモジュールをカバーする機能を備えており、シームレスに切り替えることができる。 これにより、画像キャプション、ビデオキャプション、ビジョン言語事前学習のための最先端アルゴリズムの柔軟な実装を自然に実現し、研究コミュニティの急速な発展を促進することができる。 一方、いくつかの段階における効果的なモジュラーデザイン(例えば、クロスモーダルインタラクション)は、異なるビジョン言語タスク間で共有されるため、x-modalerは、視覚的質問応答、ビジュアルコモンセンス推論、クロスモーダル検索など、クロスモーダル分析の他のタスクの起動プロトタイプに単純に拡張することができる。 X-modalerはApacheライセンスのコードベースで,ソースコードやサンプルプロジェクト,事前トレーニング済みモデルなどがオンラインで公開されている。

With the rise and development of deep learning over the past decade, there has been a steady momentum of innovation and breakthroughs that convincingly push the state-of-the-art of cross-modal analytics between vision and language in multimedia field. Nevertheless, there has not been an open-source codebase in support of training and deploying numerous neural network models for cross-modal analytics in a unified and modular fashion. In this work, we propose X-modaler -- a versatile and high-performance codebase that encapsulates the state-of-the-art cross-modal analytics into several general-purpose stages (e.g., pre-processing, encoder, cross-modal interaction, decoder, and decode strategy). Each stage is empowered with the functionality that covers a series of modules widely adopted in state-of-the-arts and allows seamless switching in between. This way naturally enables a flexible implementation of state-of-the-art algorithms for image captioning, video captioning, and vision-language pre-training, aiming to facilitate the rapid development of research community. Meanwhile, since the effective modular designs in several stages (e.g., cross-modal interaction) are shared across different vision-language tasks, X-modaler can be simply extended to power startup prototypes for other tasks in cross-modal analytics, including visual question answering, visual commonsense reasoning, and cross-modal retrieval. X-modaler is an Apache-licensed codebase, and its source codes, sample projects and pre-trained models are available on-line: https://github.com/Y ehLi/xmodaler.
翻訳日:2021-08-19 14:55:44 公開日:2021-08-18
# moser flow:多様体上の発散に基づく生成モデル

Moser Flow: Divergence-based Generative Modeling on Manifolds ( http://arxiv.org/abs/2108.08052v1 )

ライセンス: Link先を確認
Noam Rozen, Aditya Grover, Maximilian Nickel, Yaron Lipman(参考訳) 我々は、球面、トーラス、その他の暗黙曲面のような多様体を通して記述される複素幾何学の生成モデルを学ぶことに興味がある。 既存の(ユークリッド)生成モデルの現在の拡張は特定の幾何学に制限されており、通常計算コストが高い。 本稿では, 連続正規化フロー(CNF)ファミリーにおける生成モデルの新たなクラスであるMoser Flow(MF)を紹介する。 MFはまた、可変式の変更に対する解を通じてCNFを生成するが、他のCNF法とは異なり、そのモデル(学習された)密度は、ニューラルネットワーク(NN)のばらつきを除いたソース(事前)密度としてパラメータ化される。 発散は局所線型微分作用素であり、多様体上の近似や計算が容易である。 したがって、他のCNFとは異なり、MFは訓練中にODEソルバを介して呼び出しやバックプロパゲートを必要としない。 さらに、モデル密度をODEの解としてではなくNNの発散として明示的に表現することで、高忠実度密度の学習を容易にする。 理論的には、MFが適切な仮定の下で普遍密度近似器を構成することを証明している。 実験により, 一般曲面からの試料採取にフローモデルを用いることで, 既存のCNFに対する密度推定, サンプル品質, およびトレーニングの複雑さを, 地球・気候科学からの挑戦的な合成測地および実世界のベンチマークで大幅に改善した。

We are interested in learning generative models for complex geometries described via manifolds, such as spheres, tori, and other implicit surfaces. Current extensions of existing (Euclidean) generative models are restricted to specific geometries and typically suffer from high computational costs. We introduce Moser Flow (MF), a new class of generative models within the family of continuous normalizing flows (CNF). MF also produces a CNF via a solution to the change-of-variable formula, however differently from other CNF methods, its model (learned) density is parameterized as the source (prior) density minus the divergence of a neural network (NN). The divergence is a local, linear differential operator, easy to approximate and calculate on manifolds. Therefore, unlike other CNFs, MF does not require invoking or backpropagating through an ODE solver during training. Furthermore, representing the model density explicitly as the divergence of a NN rather than as a solution of an ODE facilitates learning high fidelity densities. Theoretically, we prove that MF constitutes a universal density approximator under suitable assumptions. Empirically, we demonstrate for the first time the use of flow models for sampling from general curved surfaces and achieve significant improvements in density estimation, sample quality, and training complexity over existing CNFs on challenging synthetic geometries and real-world benchmarks from the earth and climate sciences.
翻訳日:2021-08-19 14:55:13 公開日:2021-08-18
# LOKI:軌道予測のための長期的キーインテンション

LOKI: Long Term and Key Intentions for Trajectory Prediction ( http://arxiv.org/abs/2108.08236v1 )

ライセンス: Link先を確認
Harshayu Girase, Haiming Gang, Srikanth Malla, Jiachen Li, Akira Kanehara, Karttikeya Mangalam, Chiho Choi(参考訳) 軌道予測の最近の進歩は、エージェントの意図に関する明確な推論が、その動きを正確に予測することが重要であることを示している。 しかし、現在の研究活動は、知的および安全上重要なシステムに直接適用されない。 これは主に、公開データセットが非常に少ないためであり、制限された自我中心の視点から短い時間的地平線のために歩行者特有の意図を考慮すべきである。 そこで本研究では,自律運転環境における異種交通エージェント(歩行者および車両)の協調軌道と意図予測に取り組むために設計された,新しい大規模データセットであるlokiを提案する。 LOKIデータセットは、エージェント自身の意志、ii)社会的相互作用、iii)環境制約、iv)文脈情報など、意図に影響を及ぼす可能性のあるいくつかの要因を発見するために作成される。 また,軌道予測と意図予測を共同で行うモデルを提案する。 提案手法は,最大27\%$の精度で最先端の軌跡予測手法を上回り,フレーム毎の意図推定のベースラインを提供する。

Recent advances in trajectory prediction have shown that explicit reasoning about agents' intent is important to accurately forecast their motion. However, the current research activities are not directly applicable to intelligent and safety critical systems. This is mainly because very few public datasets are available, and they only consider pedestrian-specific intents for a short temporal horizon from a restricted egocentric view. To this end, we propose LOKI (LOng term and Key Intentions), a novel large-scale dataset that is designed to tackle joint trajectory and intention prediction for heterogeneous traffic agents (pedestrians and vehicles) in an autonomous driving setting. The LOKI dataset is created to discover several factors that may affect intention, including i) agent's own will, ii) social interactions, iii) environmental constraints, and iv) contextual information. We also propose a model that jointly performs trajectory and intention prediction, showing that recurrently reasoning about intention can assist with trajectory prediction. We show our method outperforms state-of-the-art trajectory prediction methods by upto $27\%$ and also provide a baseline for frame-wise intention estimation.
翻訳日:2021-08-19 14:54:48 公開日:2021-08-18
# SHAQ: 擬似再帰を伴う単一頭部注意

SHAQ: Single Headed Attention with Quasi-Recurrence ( http://arxiv.org/abs/2108.08207v1 )

ライセンス: Link先を確認
Nashwin Bharwani, Warren Kushner, Sangeet Dandona, Ben Schreiber(参考訳) 自然言語処理の研究は最近、大規模なトランスフォーマーモデルに支配されている。 多くの重要な言語タスクで最先端を達成しているが、トランスフォーマーは高価な計算リソースを必要とし、トレーニングには数週間かかる。 これは、大企業や主要研究大学の研究者には実現可能だが、スタートアップのファウンダー、学生、そして独立した研究者にとっては不可能だ。 stephen merity氏のsha-rnnは、コンパクトでハイブリッドなアテンション-rnnモデルであり、消費者向けのモデリングのために設計されている。 ここでは,アーキテクチャの複数のユニットを対象とした探索的モデル解析を行い,学習時間と総合的品質の両方を考慮したモデルの解析を行った。 最終的に、これらの知見をSHAQ: Single Headed Attention Quasi-recurrent Neural Networkと呼ぶ新しいアーキテクチャに組み合わせる。 新しいアーキテクチャでは、SHA-RNNと同様の精度でトレーニングの4倍の高速化を実現しました。

Natural Language Processing research has recently been dominated by large scale transformer models. Although they achieve state of the art on many important language tasks, transformers often require expensive compute resources, and days spanning to weeks to train. This is feasible for researchers at big tech companies and leading research universities, but not for scrappy start-up founders, students, and independent researchers. Stephen Merity's SHA-RNN, a compact, hybrid attention-RNN model, is designed for consumer-grade modeling as it requires significantly fewer parameters and less training time to reach near state of the art results. We analyze Merity's model here through an exploratory model analysis over several units of the architecture considering both training time and overall quality in our assessment. Ultimately, we combine these findings into a new architecture which we call SHAQ: Single Headed Attention Quasi-recurrent Neural Network. With our new architecture we achieved similar accuracy results as the SHA-RNN while accomplishing a 4x speed boost in training.
翻訳日:2021-08-19 14:54:27 公開日:2021-08-18
# オブジェクトの差異

Object Disparity ( http://arxiv.org/abs/2108.07939v1 )

ライセンス: Link先を確認
Ynjiun Paul Wang(参考訳) ステレオビジョンの作業の多くは、与えられた左右一対の画像の高密度画素差の計算に重点を置いている。 カメラ対は通常、レンズの歪みとステレオキャリブレーションを必要とし、正確な高密度画素差計算のために非歪のエピポーラ線校正画像対を提供する。 ノイズ、物体の隠蔽、繰り返し、テクスチャの欠如、マッチングアルゴリズムの制限により、ピクセルの差の精度は通常、それらのオブジェクト境界領域で最も悩まされる。 統計的には画素差誤差の総数は低いかもしれないが(現在のトップランキングアルゴリズムのkitti visionベンチマークによると2%以下)、オブジェクト境界での画素差誤差の割合は非常に高い。 これにより、所望よりもずっと低い精度で、サブシーケンスの3dオブジェクト距離検出をレンダリングする。 本稿では,高密度画素差分計算を経ずに直接物体差分を検出できる3次元物体距離検出法を提案する。 圧縮ネット型オブジェクト分散SSD(OD-SSD)の例は,Kittiデータセットの分散基底真理と比較し,効率的なオブジェクト分散検出を精度良く示すために構築された。 複数の異なるステレオシステムによってキャプチャされた混合画像データセットによるさらなるトレーニングとテストの結果は、od-ssdがベースライン、fov、レンズ歪み、さらには左右のカメラエピポーララインの誤認といったステレオシステムのパラメータに無関係であることを示唆している。

Most of stereo vision works are focusing on computing the dense pixel disparity of a given pair of left and right images. A camera pair usually required lens undistortion and stereo calibration to provide an undistorted epipolar line calibrated image pair for accurate dense pixel disparity computation. Due to noise, object occlusion, repetitive or lack of texture and limitation of matching algorithms, the pixel disparity accuracy usually suffers the most at those object boundary areas. Although statistically the total number of pixel disparity errors might be low (under 2% according to the Kitti Vision Benchmark of current top ranking algorithms), the percentage of these disparity errors at object boundaries are very high. This renders the subsequence 3D object distance detection with much lower accuracy than desired. This paper proposed a different approach for solving a 3D object distance detection by detecting object disparity directly without going through a dense pixel disparity computation. An example squeezenet Object Disparity-SSD (OD-SSD) was constructed to demonstrate an efficient object disparity detection with comparable accuracy compared with Kitti dataset pixel disparity ground truth. Further training and testing results with mixed image dataset captured by several different stereo systems may suggest that an OD-SSD might be agnostic to stereo system parameters such as a baseline, FOV, lens distortion, even left/right camera epipolar line misalignment.
翻訳日:2021-08-19 14:53:58 公開日:2021-08-18
# DeepFake MNIST+:DeepFakeの顔アニメーションデータセット

DeepFake MNIST+: A DeepFake Facial Animation Dataset ( http://arxiv.org/abs/2108.07949v1 )

ライセンス: Link先を確認
Jiajun Huang, Xueyu Wang, Bo Du, Pei Du, Chang Xu(参考訳) 顔操作技術であるディープフェイクは、デジタル社会にとって新たな脅威となる。 このようなデータの検出には,特にフェイススワッピングにおいて,様々なディープフェイク検出法とデータセットが提案されている。 しかし、最近の研究では、ディープフェイク攻撃側でも重要な顔アニメーションは考慮されていない。 これは、運転ビデオが提供するアクションで顔画像をアニメーション化しようとする試みであり、また、ユーザーの顔の一連の動作を認識して実際のユーザを認証するために、生きた検出に応答する最近の支払いシステムのセキュリティに懸念をもたらす。 しかし,本実験では,既存のデータセットが信頼性の高い検出手法を開発するには不十分であることを示す。 現在のliveness detectorは、攻撃のようなビデオは防御できない。 そこで本研究では,SOTA画像アニメーションジェネレータによって生成された,DeepFake MNIST+と呼ばれる新しい人間の顔アニメーションデータセットを提案する。 10種類のアクションで1万本の顔のアニメーション動画が撮れます。 本論文では,本手法のベースライン検出法と包括的解析についても述べる。 また,提案するデータセットの特性を解析し,動きや圧縮品質の異なるアニメーションデータセットの検出の難しさと重要性を明らかにする。

The DeepFakes, which are the facial manipulation techniques, is the emerging threat to digital society. Various DeepFake detection methods and datasets are proposed for detecting such data, especially for face-swapping. However, recent researches less consider facial animation, which is also important in the DeepFake attack side. It tries to animate a face image with actions provided by a driving video, which also leads to a concern about the security of recent payment systems that reply on liveness detection to authenticate real users via recognising a sequence of user facial actions. However, our experiments show that the existed datasets are not sufficient to develop reliable detection methods. While the current liveness detector cannot defend such videos as the attack. As a response, we propose a new human face animation dataset, called DeepFake MNIST+, generated by a SOTA image animation generator. It includes 10,000 facial animation videos in ten different actions, which can spoof the recent liveness detectors. A baseline detection method and a comprehensive analysis of the method is also included in this paper. In addition, we analyze the proposed dataset's properties and reveal the difficulty and importance of detecting animation datasets under different types of motion and compression quality.
翻訳日:2021-08-19 14:53:33 公開日:2021-08-18
# 検出器融合による道路物体のマイナショットインクリメンタル検出

Few-Shot Batch Incremental Road Object Detection via Detector Fusion ( http://arxiv.org/abs/2108.08048v1 )

ライセンス: Link先を確認
Anuj Tambwekar, Kshitij Agrawal, Anay Majee, Anbumani Subramanian(参考訳) インクリメンタルな少数ショット学習は、新しいクラスデータのサンプルをほとんど使わず、古いクラスデータも使わずにディープラーニングモデルをトレーニングすることを目的とした、深層学習において、新しくて挑戦的な領域として現れています。 本研究では、インド運転データセット(idd)のデータを用いて、バッチインクリメンタルな少数ショットの道路物体検出の問題に取り組む。 当社のアプローチであるdualfusionは、非常に限られたデータで希少な物体を検出する方法を学習できるように、オブジェクト検出器を組み合わせることで、豊富なクラスの検出器のパフォーマンスを格段に低下させることなく実現します。 IDD OpenSetインクリメンタルな数ショット検出タスクでは、ベースクラスでmAP50スコアが40.0、総合mAP50スコアが38.8となり、どちらもこれまでで最も高い。 COCOバッチの増分数ショット検出タスクでは、新しいAPスコア9.9を達成し、最先端の新規クラスのパフォーマンスを6.6倍以上上回った。

Incremental few-shot learning has emerged as a new and challenging area in deep learning, whose objective is to train deep learning models using very few samples of new class data, and none of the old class data. In this work we tackle the problem of batch incremental few-shot road object detection using data from the India Driving Dataset (IDD). Our approach, DualFusion, combines object detectors in a manner that allows us to learn to detect rare objects with very limited data, all without severely degrading the performance of the detector on the abundant classes. In the IDD OpenSet incremental few-shot detection task, we achieve a mAP50 score of 40.0 on the base classes and an overall mAP50 score of 38.8, both of which are the highest to date. In the COCO batch incremental few-shot detection task, we achieve a novel AP score of 9.9, surpassing the state-of-the-art novel class performance on the same by over 6.6 times.
翻訳日:2021-08-19 14:53:15 公開日:2021-08-18
# 個人化検索型チャットボットのユーザプロファイル学習

Learning Implicit User Profiles for Personalized Retrieval-Based Chatbot ( http://arxiv.org/abs/2108.07935v1 )

ライセンス: Link先を確認
Hongjin Qian, Zhicheng Dou, Yutao Zhu, Yueyuan Ma, and Ji-Rong Wen(参考訳) 本稿では,パーソナライズされたチャットボットの開発について検討する。 パーソナライズされたチャットボットは、ユーザのデジタルチャットアシスタントとして設計されている。 パーソナライズされたチャットボットの重要な特徴は、対応するユーザと一貫した性格を持つことである。 相手のメッセージに応答するように委譲されたとき、ユーザーと同じ方法で話すことができる。 ユーザの対話履歴から暗黙のユーザプロファイルを学習するために,検索に基づくパーソナライズされたチャットボットモデルIMPChatを提案する。 我々は、暗黙のユーザプロファイルはアクセシビリティと柔軟性に関して明示的なユーザプロファイルよりも優れていると主張する。 IMPChatは、ユーザのパーソナライズされた言語スタイルとパーソナライズされた好みを個別にモデリングすることで、暗黙のユーザプロファイルを学ぶことを目的としている。 ユーザのパーソナライズされた言語スタイルを学習するために、ユーザの履歴応答を用いて浅い言語モデルから深い言語モデルを構築し、ユーザのパーソナライズされた好みをモデル化するために、各ユーザの応答後ペアの下にある条件関係を探索する。 パーソナライズされた嗜好は動的でコンテキスト対応であり、パーソナライズされた選好を集約する際、現在のクエリとトポロジ的に関連する過去のペアにより高い重みを割り当てる。 各応答候補にパーソナライズされた言語スタイルとパーソナライズされた好みをそれぞれ一致させ、2つのマッチング信号を融合して最終ランキングスコアを決定する。 2つの大規模データセットに関する包括的実験により,本手法がすべてのベースラインモデルを上回ることを示した。

In this paper, we explore the problem of developing personalized chatbots. A personalized chatbot is designed as a digital chatting assistant for a user. The key characteristic of a personalized chatbot is that it should have a consistent personality with the corresponding user. It can talk the same way as the user when it is delegated to respond to others' messages. We present a retrieval-based personalized chatbot model, namely IMPChat, to learn an implicit user profile from the user's dialogue history. We argue that the implicit user profile is superior to the explicit user profile regarding accessibility and flexibility. IMPChat aims to learn an implicit user profile through modeling user's personalized language style and personalized preferences separately. To learn a user's personalized language style, we elaborately build language models from shallow to deep using the user's historical responses; To model a user's personalized preferences, we explore the conditional relations underneath each post-response pair of the user. The personalized preferences are dynamic and context-aware: we assign higher weights to those historical pairs that are topically related to the current query when aggregating the personalized preferences. We match each response candidate with the personalized language style and personalized preference, respectively, and fuse the two matching signals to determine the final ranking score. Comprehensive experiments on two large datasets show that our method outperforms all baseline models.
翻訳日:2021-08-19 14:52:46 公開日:2021-08-18
# Look Before You Leap! 変革リスク評価のための人間中心型AIシステムの設計

Look Before You Leap! Designing a Human-Centered AI System for Change Risk Assessment ( http://arxiv.org/abs/2108.07951v1 )

ライセンス: Link先を確認
Binay Gupta, Anirban Chatterjee, Harika Matha, Kunal Banerjee, Lalitdutt Parsai, Vijay Agneeswaran(参考訳) 生産システムにおける障害の数を減らすことは、オンライン小売業のような技術駆動産業において、最も難しい問題の一つです。 この課題に対処するため、変革管理は、運用に展開する変更を体系的に管理およびレビューする、有望な運用サブフィールドとして浮上した。 しかし、日常的に大量の変更を手動でレビューし、それらに関連するリスクを評価することは事実上不可能である。 これにより、多数の変更に伴うリスクを評価する自動化システムの開発が保証される。 この問題に対処する商用ソリューションはいくつかありますが、これらのソリューションには、ドメインの専門家からのドメイン知識と継続的なフィードバックをリスク評価プロセスに組み込む能力がありません。 本研究の一環として,リスク評価プロセスに継続的フィードバックループを構築することで,変更要求のモデル駆動型リスク評価とドメイン専門家の評価のギャップを埋めることを目的としている。 本稿では,エンド・ツー・エンドの機械学習システムを構築するための取り組みについて,クラス分布の極端な歪み,概念ドリフト,モデル予測に関連する不確実性の推定,システムの全体的な拡張性といった課題について論じた。

Reducing the number of failures in a production system is one of the most challenging problems in technology driven industries, such as, the online retail industry. To address this challenge, change management has emerged as a promising sub-field in operations that manages and reviews the changes to be deployed in production in a systematic manner. However, it is practically impossible to manually review a large number of changes on a daily basis and assess the risk associated with them. This warrants the development of an automated system to assess the risk associated with a large number of changes. There are a few commercial solutions available to address this problem but those solutions lack the ability to incorporate domain knowledge and continuous feedback from domain experts into the risk assessment process. As part of this work, we aim to bridge the gap between model-driven risk assessment of change requests and the assessment of domain experts by building a continuous feedback loop into the risk assessment process. Here we present our work to build an end-to-end machine learning system along with the discussion of some of practical challenges we faced related to extreme skewness in class distribution, concept drift, estimation of the uncertainty associated with the model's prediction and the overall scalability of the system.
翻訳日:2021-08-19 14:52:22 公開日:2021-08-18
# deepexpress:エクスプレス配信予測のためのヘテロジニアスおよび結合シーケンスモデリング

DeepExpress: Heterogeneous and Coupled Sequence Modeling for Express Delivery Prediction ( http://arxiv.org/abs/2108.08170v1 )

ライセンス: Link先を確認
Siyuan Ren, Bin Guo, Longbing Cao, Ke Li, Jiaqi Liu, Zhiwen Yu(参考訳) オンラインビジネス,ロジスティクス,積極的顧客エクスペリエンス,特に資源配分の最適化と促進活動アレンジメントにおいて,毎日の到着・出入口の量をモデル化・推定するエクスプレス配送シーケンスの予測が重要である。 消費者の配送要求を正確に見積もるには、ショッピング行動、天気状況、イベント、ビジネスキャンペーン、そしてそれらの結合といったシーケンシャルな要因が伴わなければならない。 さらに、従来のシーケンス予測は、上記マルチソースデータにおける複雑な非線形シーケンスと様々な特徴効果に対処できない、安定したシーケンス進化を仮定する。 ディープネットワークとアテンション機構は複雑なシーケンスモデリングの可能性を示していますが、既存のネットワークは特徴とシーケンス間の不均一な結合状況を無視し、予測精度を弱めています。 これらの問題に対処するために,DeepExpressを提案する。DeepExpressは,従来のSeq2seqフレームワークを拡張して,シーケンスと機能の間の複雑な結合を学習する,ディープラーニングベースの表現配信シーケンス予測モデルである。 deepexpressは、express delivery seq2seq学習、注意深く設計された異種特徴表現、新しい合同訓練注意機構を利用して、異種データを適応的にマッピングし、正確な推定のためにシーケンス特徴結合をキャプチャする。 実世界のデータを用いた実験結果から,提案手法は浅部ベースラインモデルと深部ベースラインモデルの両方に優れていた。

The prediction of express delivery sequence, i.e., modeling and estimating the volumes of daily incoming and outgoing parcels for delivery, is critical for online business, logistics, and positive customer experience, and specifically for resource allocation optimization and promotional activity arrangement. A precise estimate of consumer delivery requests has to involve sequential factors such as shopping behaviors, weather conditions, events, business campaigns, and their couplings. Besides, conventional sequence prediction assumes a stable sequence evolution, failing to address complex nonlinear sequences and various feature effects in the above multi-source data. Although deep networks and attention mechanisms demonstrate the potential of complex sequence modeling, extant networks ignore the heterogeneous and coupling situation between features and sequences, resulting in weak prediction accuracy. To address these issues, we propose DeepExpress - a deep-learning based express delivery sequence prediction model, which extends the classic seq2seq framework to learning complex coupling between sequence and features. DeepExpress leverages an express delivery seq2seq learning, a carefully-designed heterogeneous feature representation, and a novel joint training attention mechanism to adaptively map heterogeneous data, and capture sequence-feature coupling for precise estimation. Experimental results on real-world data demonstrate that the proposed method outperforms both shallow and deep baseline models.
翻訳日:2021-08-19 14:52:01 公開日:2021-08-18
# CARE:音の対実的説明に基づくコヒーレント・アクションブル・リコース

CARE: Coherent Actionable Recourse based on Sound Counterfactual Explanations ( http://arxiv.org/abs/2108.08197v1 )

ライセンス: Link先を確認
Peyman Rasouli and Ingrid Chieh Yu(参考訳) 機械学習モデルの出力を「何のシナリオ」という形で解釈し、忠実さと解釈可能性のトレードオフを損なうことなく解釈する。 彼らは、入力機能の変更を推奨することで、モデルから望ましい予測を得る方法について説明している。 実効性のある会話は,地中真実データの分布から発生し,ドメイン知識に結びつく音の反実的な説明に基づいて作成されるべきである。 さらに、ユーザ/ドメイン指定の制約を満たしながら、変更ないし変更されていない機能間の一貫性を維持する必要がある。 本稿では,モデルおよびユーザレベルのデシラタを連続的かつ構造化的に扱うモジュール型説明フレームワークであるCAREを紹介する。 多目的最適化フレームワークで定式化された新しい,効率的なソリューションを提案することで,既存の要件に対処する。 設計済みのフレームワークでは、任意の要件を含め、偽りの説明や実行可能なリアクションを選択できる。 モデルに依存しないアプローチとして、CAREは表の分類と回帰設定において、あらゆるブラックボックスモデルに対して多種多様な説明を生成する。 標準データセットとブラックボックスモデルに関するいくつかの実験は、モジュラーフレームワークの有効性と、ベースラインよりも優れたパフォーマンスを示している。

Counterfactual explanation methods interpret the outputs of a machine learning model in the form of "what-if scenarios" without compromising the fidelity-interpretab ility trade-off. They explain how to obtain a desired prediction from the model by recommending small changes to the input features, aka recourse. We believe an actionable recourse should be created based on sound counterfactual explanations originating from the distribution of the ground-truth data and linked to the domain knowledge. Moreover, it needs to preserve the coherency between changed/unchanged features while satisfying user/domain-specifie d constraints. This paper introduces CARE, a modular explanation framework that addresses the model- and user-level desiderata in a consecutive and structured manner. We tackle the existing requirements by proposing novel and efficient solutions that are formulated in a multi-objective optimization framework. The designed framework enables including arbitrary requirements and generating counterfactual explanations and actionable recourse by choice. As a model-agnostic approach, CARE generates multiple, diverse explanations for any black-box model in tabular classification and regression settings. Several experiments on standard data sets and black-box models demonstrate the effectiveness of our modular framework and its superior performance compared to the baselines.
翻訳日:2021-08-19 14:51:35 公開日:2021-08-18
# 一般化のための正規化流れを伴う意味摂動

Semantic Perturbations with Normalizing Flows for Improved Generalization ( http://arxiv.org/abs/2108.07958v1 )

ライセンス: Link先を確認
Oguz Kaan Yuksel, Sebastian U. Stich, Martin Jaggi, Tatjana Chavdarova(参考訳) データ拡張は、ディープニューラルネットワークのトレーニング時に過剰フィッティングを避けるために広く採用されているテクニックである。 しかし、このアプローチはドメイン固有の知識を必要とし、しばしばハードコード変換の固定セットに制限される。 近年,意味論的摂動を生成するために生成モデルを用いて分類器を訓練する研究がいくつか提案されている。 しかし、正確なエンコーディングと復号化が重要であるため、潜在変数推論を近似するアーキテクチャを使用するこれらの手法は、小さなデータセットのパイロット研究に限定されたままである。 正規化フローの可逆的エンコーダ・デコーダ構造を生かして、潜在空間でon-manifoldの摂動を行い、教師なしのデータ拡張を定義する。 このような摂動は、ResNet-18を用いたCIFAR-10のテスト精度96.6%に達し、既存の手法、特に低データレシエーションにおいて、古典的なトレーニングによるテスト精度を10~25%向上させることを示した。 学習を通して分類器に適応した潜在逆摂動が最も効果的であり、潜在空間摂動を通じて実世界のデータセット(cifar-10/100)上で最初のテスト精度向上結果が得られる。

Data augmentation is a widely adopted technique for avoiding overfitting when training deep neural networks. However, this approach requires domain-specific knowledge and is often limited to a fixed set of hard-coded transformations. Recently, several works proposed to use generative models for generating semantically meaningful perturbations to train a classifier. However, because accurate encoding and decoding are critical, these methods, which use architectures that approximate the latent-variable inference, remained limited to pilot studies on small datasets. Exploiting the exactly reversible encoder-decoder structure of normalizing flows, we perform on-manifold perturbations in the latent space to define fully unsupervised data augmentations. We demonstrate that such perturbations match the performance of advanced data augmentation techniques -- reaching 96.6% test accuracy for CIFAR-10 using ResNet-18 and outperform existing methods, particularly in low data regimes -- yielding 10--25% relative improvement of test accuracy from classical training. We find that our latent adversarial perturbations adaptive to the classifier throughout its training are most effective, yielding the first test accuracy improvement results on real-world datasets -- CIFAR-10/100 -- via latent-space perturbations.
翻訳日:2021-08-19 14:51:18 公開日:2021-08-18
# Single-DARTS: 安定したアーキテクチャ検索を目指す

Single-DARTS: Towards Stable Architecture Search ( http://arxiv.org/abs/2108.08128v1 )

ライセンス: Link先を確認
Pengfei Hou, Ying Jin, Yukang Chen(参考訳) 微分可能なアーキテクチャサーチ(DARTS)はニューラルネットワークサーチ(NAS)のマイルストーンであり、単純さと少ない検索コストを誇っている。 しかしdartは、スキップ接続、ゼロ、プールなどいくつかの操作がアーキテクチャを支配している場合に発生する、頻繁にパフォーマンスの崩壊に苦しむ。 本稿では,この現象が二段階最適化によるものであることを最初に指摘する。 単一レベル最適化のみを用いて,ネットワーク重みとアーキテクチャパラメータを同時に更新するSingle-DARTSを提案する。 単一レベルの最適化は以前にも試みられてきたが、この本質的な点について体系的な説明をする文献はない。 2レベル最適化に代えて、Single-DARTSは明らかに性能低下を軽減し、アーキテクチャ検索の安定性を高める。 実験結果から,Single-DARTSは主流の検索空間における最先端の性能を実現することが示された。 例えばNAS-Benchmark-201では、探索されたアーキテクチャはほぼ最適である。 また,シングルレベル最適化フレームワークがbiレベルフレームワークよりもずっと安定していることを検証する。 この単純で効果的な手法が、差分アーキテクチャ探索に関する洞察を与えてくれることを願っている。 コードはhttps://github.com/P encilAndBike/Single- DARTS.gitで公開されている。

Differentiable architecture search (DARTS) marks a milestone in Neural Architecture Search (NAS), boasting simplicity and small search costs. However, DARTS still suffers from frequent performance collapse, which happens when some operations, such as skip connections, zeroes and poolings, dominate the architecture. In this paper, we are the first to point out that the phenomenon is attributed to bi-level optimization. We propose Single-DARTS which merely uses single-level optimization, updating network weights and architecture parameters simultaneously with the same data batch. Even single-level optimization has been previously attempted, no literature provides a systematic explanation on this essential point. Replacing the bi-level optimization, Single-DARTS obviously alleviates performance collapse as well as enhances the stability of architecture search. Experiment results show that Single-DARTS achieves state-of-the-art performance on mainstream search spaces. For instance, on NAS-Benchmark-201, the searched architectures are nearly optimal ones. We also validate that the single-level optimization framework is much more stable than the bi-level one. We hope that this simple yet effective method will give some insights on differential architecture search. The code is available at https://github.com/P encilAndBike/Single- DARTS.git.
翻訳日:2021-08-19 14:50:32 公開日:2021-08-18
# 空間的注意と局所化能力の検証による膝関節損傷検出の最適化

Optimising Knee Injury Detection with Spatial Attention and Validating Localisation Ability ( http://arxiv.org/abs/2108.08136v1 )

ライセンス: Link先を確認
Niamh Belton, Ivan Welaratne, Adil Dahlan, Ronan T Hearne, Misgina Tsighe Hagos, Aonghus Lawlor and Kathleen M. Curran(参考訳) 本研究は,前訓練された多視点畳み込みニューラルネットワーク(cnn)と空間的注意ブロックを用いて膝関節損傷検出を最適化する。 画像レベルのラベルが付いたオープンソースのMRIデータセットを用いて解析を行った。 MRIデータは3つの平面から取得されるので、単平面と複数平面(複数平面)のデータを用いて比較する。 マルチプレーンの場合,ネットワーク内の平面を融合する様々な手法について検討する。 この分析の結果,前十字靭帯断裂(ACL)と異常MRIをそれぞれ検出し,AUCの0.977と0.957のスコアを達成できる「MPFuseNet」ネットワークと最先端のAUCスコアが得られた。 次に,モデルの局所化能力を検証するために,pla(penalized localization accuracy)という客観的指標を開発した。 このメトリクスは、grad-cam出力から生成されるバイナリマスクとmriサンプルの放射線科医のアノテーションを比較します。 また, モデル非依存なアプローチで説明可能性の特徴を抽出し, 放射線科医による臨床的妥当性を検証した。

This work employs a pre-trained, multi-view Convolutional Neural Network (CNN) with a spatial attention block to optimise knee injury detection. An open-source Magnetic Resonance Imaging (MRI) data set with image-level labels was leveraged for this analysis. As MRI data is acquired from three planes, we compare our technique using data from a single-plane and multiple planes (multi-plane). For multi-plane, we investigate various methods of fusing the planes in the network. This analysis resulted in the novel 'MPFuseNet' network and state-of-the-art Area Under the Curve (AUC) scores for detecting Anterior Cruciate Ligament (ACL) tears and Abnormal MRIs, achieving AUC scores of 0.977 and 0.957 respectively. We then developed an objective metric, Penalised Localisation Accuracy (PLA), to validate the model's localisation ability. This metric compares binary masks generated from Grad-Cam output and the radiologist's annotations on a sample of MRIs. We also extracted explainability features in a model-agnostic approach that were then verified as clinically relevant by the radiologist.
翻訳日:2021-08-19 14:50:11 公開日:2021-08-18
# ALLNet: 白血球の急性リンパ性白血病(ALL)の診断を改善するハイブリッド畳み込みニューラルネットワーク

ALLNet: A Hybrid Convolutional Neural Network to Improve Diagnosis of Acute Lymphocytic Leukemia (ALL) in White Blood Cells ( http://arxiv.org/abs/2108.08195v1 )

ライセンス: Link先を確認
Sai Mattapalli, Rishi Athavale(参考訳) 顕微鏡レベルでの形態的類似性のため、急性リンパ性白血病(ALL)の影響を受ける細胞と、その健康な細胞の間で正確な時間的に区別される。 しかしながら、VGG、ResNet、Inceptionの3つの最も一般的なモデルには、それぞれ独自の欠陥セットがあり、改善の余地があり、優れたモデルの必要性が要求される。 提案されているハイブリッド畳み込みニューラルネットワークアーキテクチャであるALLNetは、VGG、ResNet、Inceptionモデルの組み合わせで構成されている。 ISBI 2019のALL Challengeデータセット(こちら)には、モデルのトレーニングとテストに使用された白血球の画像10,691枚が含まれている。 データセットの7,272枚は細胞で、そのうち3,419枚は健康な細胞です。 画像のうち60%がモデルのトレーニングに使われ、20%がクロスバリデーションセットに、20%がテストセットに使用された。 ALLNetはボード全体のVGG、ResNet、インセプションモデルを上回っ、精度は92.6567%、感度は95.5304%、特異性は85.9155%、AUCスコアは0.966347、F1スコアは0.94803であった。 テストセットでは、ALLNetは92.0991%、感度96.5446%、特異度82.8035%、AUCスコア0.959972、F1スコア0.942963を達成した。 臨床ワークスペースにおけるallnetの利用は、世界中の何千人もの人々が、そのほとんどが子供であるように、より良く治療することができる。

Due to morphological similarity at the microscopic level, making an accurate and time-sensitive distinction between blood cells affected by Acute Lymphocytic Leukemia (ALL) and their healthy counterparts calls for the usage of machine learning architectures. However, three of the most common models, VGG, ResNet, and Inception, each come with their own set of flaws with room for improvement which demands the need for a superior model. ALLNet, the proposed hybrid convolutional neural network architecture, consists of a combination of the VGG, ResNet, and Inception models. The ALL Challenge dataset of ISBI 2019 (available here) contains 10,691 images of white blood cells which were used to train and test the models. 7,272 of the images in the dataset are of cells with ALL and 3,419 of them are of healthy cells. Of the images, 60% were used to train the model, 20% were used for the cross-validation set, and 20% were used for the test set. ALLNet outperformed the VGG, ResNet, and the Inception models across the board, achieving an accuracy of 92.6567%, a sensitivity of 95.5304%, a specificity of 85.9155%, an AUC score of 0.966347, and an F1 score of 0.94803 in the cross-validation set. In the test set, ALLNet achieved an accuracy of 92.0991%, a sensitivity of 96.5446%, a specificity of 82.8035%, an AUC score of 0.959972, and an F1 score of 0.942963. The utilization of ALLNet in the clinical workspace can better treat the thousands of people suffering from ALL across the world, many of whom are children.
翻訳日:2021-08-19 14:49:34 公開日:2021-08-18
# 雑音ラベルを用いた深層学習のための信頼度適応正規化

Confidence Adaptive Regularization for Deep Learning with Noisy Labels ( http://arxiv.org/abs/2108.08212v1 )

ライセンス: Link先を確認
Yangdi Lu, Yang Bo, Wenbo He(参考訳) 雑音ラベルに対するディープニューラルネットワークの記憶効果に関する最近の研究は、誤ったラベルのサンプルを記憶する前に、ネットワークが最初に正しくラベルされたトレーニングサンプルに適合することを示している。 本研究は,この早期学習現象を動機として,誤記サンプルの暗記を防止する新しい方法を提案する。 間違ったラベル付きサンプルを識別または無視するためにモデル出力を使用する既存のアプローチとは異なり、元のモデルにインジケータ分岐を導入し、各サンプルに対する信頼値を生成できるようにする。 本研究の損失関数には信頼性値が組み込まれており, 精度の高いサンプルに大きめの信頼値を割り当て, 精度の低いサンプルに小さめの信頼値を割り当てることが学べる。 また,モデルのロバスト性をさらに向上させる補助正規化項を提案する。 性能向上のために, 適切に設計された目標推定戦略を用いて, ノイズラベルを徐々に補正する。 理論解析を行い,合成および実世界のデータセット実験を行い,その手法が最先端の手法に匹敵する結果が得られることを示す。

Recent studies on the memorization effects of deep neural networks on noisy labels show that the networks first fit the correctly-labeled training samples before memorizing the mislabeled samples. Motivated by this early-learning phenomenon, we propose a novel method to prevent memorization of the mislabeled samples. Unlike the existing approaches which use the model output to identify or ignore the mislabeled samples, we introduce an indicator branch to the original model and enable the model to produce a confidence value for each sample. The confidence values are incorporated in our loss function which is learned to assign large confidence values to correctly-labeled samples and small confidence values to mislabeled samples. We also propose an auxiliary regularization term to further improve the robustness of the model. To improve the performance, we gradually correct the noisy labels with a well-designed target estimation strategy. We provide the theoretical analysis and conduct the experiments on synthetic and real-world datasets, demonstrating that our approach achieves comparable results to the state-of-the-art methods.
翻訳日:2021-08-19 14:49:05 公開日:2021-08-18
# シーケンシャルからシークエンスへ向けた非構造化臨床テキストの非同定

De-identification of Unstructured Clinical Texts from Sequence to Sequence Perspective ( http://arxiv.org/abs/2108.07971v1 )

ライセンス: Link先を確認
Md Monowar Anjum, Noman Mohammed, Xiaoqian Jiang(参考訳) 本研究では,非構造化臨床テキストの非同定のための新しい問題定式化を提案する。 トークン分類問題に代えて,シーケンス学習問題に対するシーケンスとして非同定問題を定式化する。 我々のアプローチは、名前付きエンティティ認識のためのシークエンスからシークエンス学習モデルの最近の最先端パフォーマンスにインスパイアされている。 提案手法の早期実験は,i2b2データセット上で98.91%のリコール率を達成した。 この性能は、非構造化臨床テキスト識別のための現在の最先端モデルに匹敵する。

In this work, we propose a novel problem formulation for de-identification of unstructured clinical text. We formulate the de-identification problem as a sequence to sequence learning problem instead of a token classification problem. Our approach is inspired by the recent state-of -the-art performance of sequence to sequence learning models for named entity recognition. Early experimentation of our proposed approach achieved 98.91% recall rate on i2b2 dataset. This performance is comparable to current state-of-the-art models for unstructured clinical text de-identification.
翻訳日:2021-08-19 14:48:46 公開日:2021-08-18
# DRDrV3: Mask R-CNN, Transfer Learning, LSTMを用いた基底画像の完全病変検出

DRDrV3: Complete Lesion Detection in Fundus Images Using Mask R-CNN, Transfer Learning, and LSTM ( http://arxiv.org/abs/2108.08095v1 )

ライセンス: Link先を確認
Farzan Shenavarmasouleh, Farid Ghareh Mohammadi, M. Hadi Amini, Thiab Taha, Khaled Rasheed, Hamid R. Arabnia(参考訳) 医療画像はコンピュータビジョンの世界で成長している分野の1つだ。 本研究では,糖尿病網膜症 (DR) を医療画像のオープンな課題の一つとして扱うことを目的とする。 そこで本研究では,d.d.による病変の種類,境界ボックス,マスクの種類だけでなく,全体の重症度も検出し,発見するための最適な解である2つのサブモジュールからなる新しい病変検出アーキテクチャを提案する。 従来の精度とは別に、平均平均精度(mAP)とIOU(IOU)の交差であるモデルの出力を評価するために、2つの一般的な評価基準を使用します。 この新しいソリューションは、専門家が高い信頼性で病変を検出し、高い精度で損傷の重症度を推定できると仮定する。

Medical Imaging is one of the growing fields in the world of computer vision. In this study, we aim to address the Diabetic Retinopathy (DR) problem as one of the open challenges in medical imaging. In this research, we propose a new lesion detection architecture, comprising of two sub-modules, which is an optimal solution to detect and find not only the type of lesions caused by DR, their corresponding bounding boxes, and their masks; but also the severity level of the overall case. Aside from traditional accuracy, we also use two popular evaluation criteria to evaluate the outputs of our models, which are intersection over union (IOU) and mean average precision (mAP). We hypothesize that this new solution enables specialists to detect lesions with high confidence and estimate the severity of the damage with high accuracy.
翻訳日:2021-08-19 14:47:53 公開日:2021-08-18
# 深部・効率的に向けて:VHR画像における変化検出のための深部シームズ自己認識完全効率畳み込みネットワーク

Towards Deep and Efficient: A Deep Siamese Self-Attention Fully Efficient Convolutional Network for Change Detection in VHR Images ( http://arxiv.org/abs/2108.08157v1 )

ライセンス: Link先を確認
Hongruixuan Chen and Chen Wu and Bo Du(参考訳) 近年、FCNはCD分野で広く注目を集めている。 より良いCD性能を追求するため、より深く複雑なFCNを設計する傾向があり、必然的に膨大な数のパラメータと計算負荷をもたらす。 パラメータ数を減らし効率を向上すると同時に,より正確なCD結果を得るための,非常に深いアーキテクチャを設計することを目的として,本研究では,非常に深く効率的なCDネットワークであるEffCDNetを提案する。 EffCDNetでは、ディープアーキテクチャに関連する多数のパラメータを減らすために、チャネルシャッフル機構によるディープワイド畳み込みとグループ畳み込みからなる効率的な畳み込みを導入し、標準的な畳み込み層を置き換える。 特定のネットワークアーキテクチャに関しては、EffCDNetは主流のUNetのようなアーキテクチャではなく、非常に深いエンコーダと軽量なデコーダを備えたアーキテクチャを採用する。 非常に深いエンコーダでは、効率的な畳み込みによって積み重ねられた2つの非常に深いシアムストリームが入力画像ペアから2つの非常に代表的で情報性の高い特徴写像を抽出する。 その後、マルチスケールな変更情報をキャプチャする効率的なASPPモジュールが設計された。 本発明の軽量デコーダでは、局所的でない類似の特徴表現を効率的に利用し、各画素の識別性を高め、変化した領域と変化しない領域を効果的に分離する。 さらに,混乱画素の最適化問題に取り組むために,情報エントロピーに基づく2つの新しい損失関数を提案する。 2つの難解なCDデータセットにおいて,本手法はベンチマークレベルのパラメータ数と計算オーバーヘッドの極めて低いSOTA FCN法より優れている。

Recently, FCNs have attracted widespread attention in the CD field. In pursuit of better CD performance, it has become a tendency to design deeper and more complicated FCNs, which inevitably brings about huge numbers of parameters and an unbearable computational burden. With the goal of designing a quite deep architecture to obtain more precise CD results while simultaneously decreasing parameter numbers to improve efficiency, in this work, we present a very deep and efficient CD network, entitled EffCDNet. In EffCDNet, to reduce the numerous parameters associated with deep architecture, an efficient convolution consisting of depth-wise convolution and group convolution with a channel shuffle mechanism is introduced to replace standard convolutional layers. In terms of the specific network architecture, EffCDNet does not use mainstream UNet-like architecture, but rather adopts the architecture with a very deep encoder and a lightweight decoder. In the very deep encoder, two very deep siamese streams stacked by efficient convolution first extract two highly representative and informative feature maps from input image-pairs. Subsequently, an efficient ASPP module is designed to capture multi-scale change information. In the lightweight decoder, a recurrent criss-cross self-attention (RCCA) module is applied to efficiently utilize non-local similar feature representations to enhance discriminability for each pixel, thus effectively separating the changed and unchanged regions. Moreover, to tackle the optimization problem in confused pixels, two novel loss functions based on information entropy are presented. On two challenging CD datasets, our approach outperforms other SOTA FCN-based methods, with only benchmark-level parameter numbers and quite low computational overhead.
翻訳日:2021-08-19 14:47:38 公開日:2021-08-18
# 多層部分最適輸送について:等式と計算複雑性

On Multimarginal Partial Optimal Transport: Equivalent Forms and Computational Complexity ( http://arxiv.org/abs/2108.07992v1 )

ライセンス: Link先を確認
Khang Le and Huy Nguyen and Tung Pham and Nhat Ho(参考訳) 我々は,少なくとも$n$のサポートを持つ離散的(アンバランスな)測度間のマルチマルジナル部分最適輸送(POT)問題について検討した。 まず,マルチマルジナルポット問題の2つの同値形式を,コストテンソルの新規拡張によるマルチマルジナル最適輸送問題の観点から得られることを証明した。 第1同値形式は、各測度の総質量が十分近いという仮定の下で導かれるが、第2同値形式はこれらの質量に関する条件を必要とせず、より洗練された拡張コストテンソルの価格で導かれる。 これらの等価性を得るための実証技術は、グラフ理論における質量移動の新しい手順に依存し、輸送計画が適切な地域へ押し寄せる。 最後に,同値形式に基づく最適化アルゴリズムであるApproxMPOTアルゴリズムを開発し,エントロピー正規化マルチマルジナル最適輸送の解法であるシンクホーンアルゴリズムを構築した。 近似ポットアルゴリズムは、次数 $\tilde{\mathcal{o}}(m^3(n+1)^{m}/ \varepsilon^2)$ の計算複雑性の上限を持つ多元ポット問題の最適値を近似できることを実証する。

We study the multi-marginal partial optimal transport (POT) problem between $m$ discrete (unbalanced) measures with at most $n$ supports. We first prove that we can obtain two equivalence forms of the multimarginal POT problem in terms of the multimarginal optimal transport problem via novel extensions of cost tensor. The first equivalence form is derived under the assumptions that the total masses of each measure are sufficiently close while the second equivalence form does not require any conditions on these masses but at the price of more sophisticated extended cost tensor. Our proof techniques for obtaining these equivalence forms rely on novel procedures of moving mass in graph theory to push transportation plan into appropriate regions. Finally, based on the equivalence forms, we develop optimization algorithm, named ApproxMPOT algorithm, that builds upon the Sinkhorn algorithm for solving the entropic regularized multimarginal optimal transport. We demonstrate that the ApproxMPOT algorithm can approximate the optimal value of multimarginal POT problem with a computational complexity upper bound of the order $\tilde{\mathcal{O}}(m^3(n+1)^{m}/ \varepsilon^2)$ where $\varepsilon > 0$ stands for the desired tolerance.
翻訳日:2021-08-19 14:47:07 公開日:2021-08-18
# EviDR:Reasoning Machine Reading ComprehensionのためのEvidence-Emphasized Discrete Reasoning

EviDR: Evidence-Emphasized Discrete Reasoning for Reasoning Machine Reading Comprehension ( http://arxiv.org/abs/2108.07994v1 )

ライセンス: Link先を確認
Yongwei Zhou, Junwei Bao, Haipeng Sun, Jiahui Liang, Youzheng Wu, Xiaodong He, Bowen Zhou, and Tiejun Zhao(参考訳) R-MRC(Reasoning Machine reading comprehension)は、テキストに基づく離散推論を必要とする複雑な質問に答えることを目的としている。 離散的推論をサポートするため、典型的には、トピックエンティティや属性値を含む質問に関連する事実を記述した簡潔なテキストの断片は、質問から回答までの重要な手がかりである。 しかし、最先端のパフォーマンスを達成する以前のエンドツーエンドの手法は、証拠のモデリングに十分な注意を払って、r-mrcのモデルの推論能力をさらに向上させる機会を欠くことで、この問題をほとんど解決しない。 そこで,本稿では,文と節レベルの証拠を遠方からの監視に基づいてまず検出し,その上で,関係性ヘテロジニアスグラフ畳み込みネットワークで実装された推論モジュールを駆動して回答を導出する,エビデンス強調離散推論手法(EviDR)を提案する。 drop(discrete reasoning over paragraphs)データセット上で広範な実験を行い,提案手法の有効性を示す。 さらに,R-MRCの離散的推論の妥当性を定性解析により検証した。

Reasoning machine reading comprehension (R-MRC) aims to answer complex questions that require discrete reasoning based on text. To support discrete reasoning, evidence, typically the concise textual fragments that describe question-related facts, including topic entities and attribute values, are crucial clues from question to answer. However, previous end-to-end methods that achieve state-of-the-art performance rarely solve the problem by paying enough emphasis on the modeling of evidence, missing the opportunity to further improve the model's reasoning ability for R-MRC. To alleviate the above issue, in this paper, we propose an evidence-emphasized discrete reasoning approach (EviDR), in which sentence and clause level evidence is first detected based on distant supervision, and then used to drive a reasoning module implemented with a relational heterogeneous graph convolutional network to derive answers. Extensive experiments are conducted on DROP (discrete reasoning over paragraphs) dataset, and the results demonstrate the effectiveness of our proposed approach. In addition, qualitative analysis verifies the capability of the proposed evidence-emphasized discrete reasoning for R-MRC.
翻訳日:2021-08-19 14:45:45 公開日:2021-08-18
# ggp: 長文生成を明示的に制御するグラフベースのグループ化プランナ

GGP: A Graph-based Grouping Planner for Explicit Control of Long Text Generation ( http://arxiv.org/abs/2108.07998v1 )

ライセンス: Link先を確認
Xuming Lin, Shaobo Cui, Zhongzhou Zhao, Wei Zhou, Ji Zhang, Haiqing Chen(参考訳) 既存のデータ駆動手法は、短いテキスト生成をうまく処理できる。 しかし、ストーリー生成や広告テキスト生成といった長文生成シナリオに適用すると、これらの手法は非論理的で制御不能なテキストを生成する可能性がある。 上記の問題に対処するために、第一計画列生成のアイデアに従うグラフベースのグループプランナ(GGP)を提案する。 具体的には、キーフレーズの集合が与えられると、ggpはまずこれらのフレーズをインスタンスレベルのシーケンシャル表現とコーパスレベルのグラフベースの表現にエンコードする。 これら2つの相乗的表現を用いて、これらのフレーズを細かなプランに分類し、最後の長文を生成する。 我々は, 3つの長文生成データセットについて実験を行い, 実験結果から, ggpがベースラインを著しく上回っており, ggpが長文生成を制御できることが判明した。

Existing data-driven methods can well handle short text generation. However, when applied to the long-text generation scenarios such as story generation or advertising text generation in the commercial scenario, these methods may generate illogical and uncontrollable texts. To address these aforementioned issues, we propose a graph-based grouping planner(GGP) following the idea of first-plan-then-gene rate. Specifically, given a collection of key phrases, GGP firstly encodes these phrases into an instance-level sequential representation and a corpus-level graph-based representation separately. With these two synergic representations, we then regroup these phrases into a fine-grained plan, based on which we generate the final long text. We conduct our experiments on three long text generation datasets and the experimental results reveal that GGP significantly outperforms baselines, which proves that GGP can control the long text generation by knowing how to say and in what order.
翻訳日:2021-08-19 14:45:23 公開日:2021-08-18
# CUSTOM:Eコマースのためのアスペクト指向製品要約

CUSTOM: Aspect-Oriented Product Summarization for E-Commerce ( http://arxiv.org/abs/2108.08010v1 )

ライセンス: Link先を確認
Jiahui Liang, Junwei Bao, Yifan Wang, Youzheng Wu, Xiaodong He, and Bowen Zhou(参考訳) 製品要約は、製品説明を自動的に生成することを目的としています。 異なる製品面での顧客の好みを考えると、アスペクト指向のカスタマイズされた要約を生成するメリットがあるでしょう。 しかし、従来のシステムは一般的な製品サマリーの提供に重点を置いており、製品と顧客の利益をマッチさせる機会を逃す可能性がある。 この問題に対処するために,我々は,さまざまな製品側面に対して多様で制御可能な要約を生成する,eコマース向けのアスペクト指向製品要約を提案する。 そこで本研究では,2つの中国製データセット,すなわちスマートフォンとコンピュータを構築し,そのうち76,279 / 49,280は実世界の製品12,118 / 11,497である。 さらに,2つの有名なシーケンス・ツー・シーケンスモデルを実装したCUSTOMの抽出拡張生成フレームワークであるEXTを紹介する。 CUSTOMのための2つのデータセットについて広範な実験を行い、2つの有名なベースラインモデルとEXTの結果を示し、EXTが多種多様な高品質で一貫した要約を生成することを示す。

Product summarization aims to automatically generate product descriptions, which is of great commercial potential. Considering the customer preferences on different product aspects, it would benefit from generating aspect-oriented customized summaries. However, conventional systems typically focus on providing general product summaries, which may miss the opportunity to match products with customer interests. To address the problem, we propose CUSTOM, aspect-oriented product summarization for e-commerce, which generates diverse and controllable summaries towards different product aspects. To support the study of CUSTOM and further this line of research, we construct two Chinese datasets, i.e., SMARTPHONE and COMPUTER, including 76,279 / 49,280 short summaries for 12,118 / 11,497 real-world commercial products, respectively. Furthermore, we introduce EXT, an extraction-enhanced generation framework for CUSTOM, where two famous sequence-to-sequence models are implemented in this paper. We conduct extensive experiments on the two proposed datasets for CUSTOM and show results of two famous baseline models and EXT, which indicates that EXT can generate diverse, high-quality, and consistent summaries.
翻訳日:2021-08-19 14:45:06 公開日:2021-08-18
# AdapterHub Playground: シンプルでフレキシブルなFew-Shot Learning with Adapters

AdapterHub Playground: Simple and Flexible Few-Shot Learning with Adapters ( http://arxiv.org/abs/2108.08103v1 )

ライセンス: Link先を確認
Tilman Beck, Bela Bohlender, Christina Viehmann, Vincent Hane, Yanik Adamson, Jaber Khuri, Jonas Brossmann, Jonas Pfeiffer, Iryna Gurevych(参考訳) オンラインリポジトリによる事前学習言語モデルのオープンアクセスの普及は、最先端自然言語処理(NLP)研究の民主化につながった。 これはまた、nlp以外の人々がそのようなモデルを使い、特定のユースケースにそれらを適用できるようにする。 しかし、特定のタスクにこれらのモデルを適用したいが必要な知識やリソースを欠いているユーザーにとっては、ある程度の技術的熟練度が必要である。 本研究では,一行のコードを書かずに事前学習したモデルを活用できるツールを提供することで,このギャップを克服することを目指している。 AdapterHub Playgroundは、転送学習のためのパラメータ効率のよいアダプタモジュールをベースとして、直感的なインターフェースを提供し、さまざまなNLPタスクのためのテキストデータの予測、トレーニング、分析にアダプタを使用することができます。 我々は,このツールのアーキテクチャを紹介するとともに,そのアドバンテージをプロトタイプのユースケースで示し,数ショット学習シナリオにおいて予測性能が容易に向上できることを示す。 最後に,ユーザスタディにおけるユーザビリティを評価する。 コードとライブインターフェースはhttps://adapter-hub. github.io/playground .com/で提供しています。

The open-access dissemination of pretrained language models through online repositories has led to a democratization of state-of-the-art natural language processing (NLP) research. This also allows people outside of NLP to use such models and adapt them to specific use-cases. However, a certain amount of technical proficiency is still required which is an entry barrier for users who want to apply these models to a certain task but lack the necessary knowledge or resources. In this work, we aim to overcome this gap by providing a tool which allows researchers to leverage pretrained models without writing a single line of code. Built upon the parameter-efficient adapter modules for transfer learning, our AdapterHub Playground provides an intuitive interface, allowing the usage of adapters for prediction, training and analysis of textual data for a variety of NLP tasks. We present the tool's architecture and demonstrate its advantages with prototypical use-cases, where we show that predictive performance can easily be increased in a few-shot learning scenario. Finally, we evaluate its usability in a user study. We provide the code and a live interface at https://adapter-hub. github.io/playground .
翻訳日:2021-08-19 14:44:47 公開日:2021-08-18
# 顔認識に対する敵対的リライト

Adversarial Relighting against Face Recognition ( http://arxiv.org/abs/2108.07920v1 )

ライセンス: Link先を確認
Ruijun Gao, Qing Gao, Qian Zhang, Felix Juefei-Xu, Hongkai Yu, Wei Feng(参考訳) ディープフェース認識(FR)は、いくつかの挑戦的なデータセットにおいて極めて高い精度を達成し、実際の応用を成功させ、通常はFRシステムに対する主要な脅威とみなされる照明の変動に対して高い堅牢性を示す。 しかし、現実世界では、多様な照明条件による照明変動は、限られた顔データセットによって完全にカバーできない。 本稿では,新たな角度,すなわち敵の攻撃からfrに対する照明の脅威を調べ,新たな課題,すなわち敵の照明を識別する。 顔画像が与えられたら、敵のリライティングは、最先端のディープFRメソッドを騙しながら自然にリライティングされた相手を作り出すことを目的としている。 そこで我々はまず,アルベド商法に基づく逆照準攻撃(AQ-ARA)と呼ばれる物理モデルに基づく逆照準攻撃(ARA)を提案する。 物理照明モデルとFRシステムの誘導の下で自然対向光を生成し、対向的に照らされた顔画像を合成する。 さらに,adversarial relighting network (arnet) を訓練し,異なる入力面に応じて一段階の逆光を自動予測し,効率に敏感な応用が可能な自動予測型逆光攻撃(ap-ara)を提案する。 より重要なことは、上記のデジタル攻撃を物理的ARA(Phy-ARA)に正確なリライティング装置を通じて転送し、実世界で推定される逆光条件を再現できるようにすることである。 我々は2つの公開データセット上で,facenet,arcface,cos faceという,最先端の3つのディープfrメソッドで手法を検証する。 われわれの研究の広範囲で洞察力に富んだ結果が示すように、現実の敵意に満ちた顔画像が簡単にfrを騙し、特定の光の方向や強さの脅威を露呈する。

Deep face recognition (FR) has achieved significantly high accuracy on several challenging datasets and fosters successful real-world applications, even showing high robustness to the illumination variation that is usually regarded as a main threat to the FR system. However, in the real world, illumination variation caused by diverse lighting conditions cannot be fully covered by the limited face dataset. In this paper, we study the threat of lighting against FR from a new angle, i.e., adversarial attack, and identify a new task, i.e., adversarial relighting. Given a face image, adversarial relighting aims to produce a naturally relighted counterpart while fooling the state-of-the-art deep FR methods. To this end, we first propose the physical model-based adversarial relighting attack (ARA) denoted as albedo-quotient-base d adversarial relighting attack (AQ-ARA). It generates natural adversarial light under the physical lighting model and guidance of FR systems and synthesizes adversarially relighted face images. Moreover, we propose the auto-predictive adversarial relighting attack (AP-ARA) by training an adversarial relighting network (ARNet) to automatically predict the adversarial light in a one-step manner according to different input faces, allowing efficiency-sensitive applications. More importantly, we propose to transfer the above digital attacks to physical ARA (Phy-ARA) through a precise relighting device, making the estimated adversarial lighting condition reproducible in the real world. We validate our methods on three state-of-the-art deep FR methods, i.e., FaceNet, ArcFace, and CosFace, on two public datasets. The extensive and insightful results demonstrate our work can generate realistic adversarial relighted face images fooling FR easily, revealing the threat of specific light directions and strengths.
翻訳日:2021-08-19 14:43:23 公開日:2021-08-18
# FACIAL: 帰属学習による動的発話顔の合成

FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning ( http://arxiv.org/abs/2108.07938v1 )

ライセンス: Link先を確認
Chenxu Zhang, Yifan Zhao, Yifei Huang, Ming Zeng, Saifeng Ni, Madhukar Budagavi, Xiaohu Guo(参考訳) 本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として発話顔生成法を提案し,入力された音声信号と同期した自然な唇の動き,頭部ポーズ,目まきを対象顔のリアルな映像として合成する。 合成顔の特徴は、音声と高い相関関係を持つ唇の動きなどの明示的な特徴だけでなく、入力音声と弱い相関しか持たない頭部ポーズや目まきなどの暗黙的な特徴も含んでいる。 入力音声と顔属性の複雑な関係をモデル化するために,音声認識,文脈認識,アイデンティティ認識情報を統合し,口唇,頭部ポーズ,目まぶしのリアルな動きで3d顔アニメーションを合成する顔暗示属性学習生成支援ネットワーク(face-gan)を提案する。 次に、レンダリング・トゥ・ビデオネットワークは、レンダリングされた顔画像と眼球の注意マップを入力として、フォトリアリスティックな出力ビデオフレームを生成する。 実験結果とユーザスタディにより,本手法は唇の動きの同期だけでなく,自然な頭部の動きや眼の瞬きを,最先端の方法よりも優れた品質で再現できることが示された。

In this paper, we propose a talking face generation method that takes an audio signal as input and a short target video clip as reference, and synthesizes a photo-realistic video of the target face with natural lip motions, head poses, and eye blinks that are in-sync with the input audio signal. We note that the synthetic face attributes include not only explicit ones such as lip motions that have high correlations with speech, but also implicit ones such as head poses and eye blinks that have only weak correlation with the input audio. To model such complicated relationships among different face attributes with input audio, we propose a FACe Implicit Attribute Learning Generative Adversarial Network (FACIAL-GAN), which integrates the phonetics-aware, context-aware, and identity-aware information to synthesize the 3D face animation with realistic motions of lips, head poses, and eye blinks. Then, our Rendering-to-Video network takes the rendered face images and the attention map of eye blinks as input to generate the photo-realistic output video frames. Experimental results and user studies show our method can generate realistic talking face videos with not only synchronized lip motions, but also natural head movements and eye blinks, with better qualities than the results of state-of-the-art methods.
翻訳日:2021-08-19 14:42:50 公開日:2021-08-18
# PLAD:高解像度UAV画像におけるマルチサイズ電力線アセット検出用データセット

PLAD: A Dataset for Multi-Size Power Line Assets Detection in High-Resolution UAV Images ( http://arxiv.org/abs/2108.07944v1 )

ライセンス: Link先を確認
Andr\'e Luiz Buarque Vieira-e-Silva, Heitor de Castro Felix, Thiago de Menezes Chaves, Francisco Paulo Magalh\~aes Sim\~oes, Veronica Teichrieb, Michel Mozinho dos Santos, Hemir da Cunha Santiago, Virginia Ad\'elia Cordeiro Sgotti, Henrique Baptista Duffles Teixeira Lott Neto(参考訳) 多くの電力会社は、高電圧の送電線塔に登って労働者を危険にさらすのではなく、UAVを使って検査を行っている。 検査の重要な課題は、送電線内の資産を検出し、分類することである。 しかし、電力線資産に関する公共データは乏しく、この分野の急速な発展を妨げている。 本研究では,複数の高電圧電力線成分の高解像度および実世界の画像を含むPower Line Assets Datasetを提案する。 注釈付き物体2,409個は、送信塔、絶縁体、スペーサー、タワープレート、ストックブリッジダンパーの5つのクラスに分けられ、サイズ(解像度)、方位、照明、角度、背景が異なる。 また,一般的な深部物体検出手法を用いた評価を行い,改善の余地を明らかにした。 PLADデータセットはhttps://github.com/a ndreluizbvs/PLADで公開されている。

Many power line companies are using UAVs to perform their inspection processes instead of putting their workers at risk by making them climb high voltage power line towers, for instance. A crucial task for the inspection is to detect and classify assets in the power transmission lines. However, public data related to power line assets are scarce, preventing a faster evolution of this area. This work proposes the Power Line Assets Dataset, containing high-resolution and real-world images of multiple high-voltage power line components. It has 2,409 annotated objects divided into five classes: transmission tower, insulator, spacer, tower plate, and Stockbridge damper, which vary in size (resolution), orientation, illumination, angulation, and background. This work also presents an evaluation with popular deep object detection methods, showing considerable room for improvement. The PLAD dataset is publicly available at https://github.com/a ndreluizbvs/PLAD.
翻訳日:2021-08-19 14:42:25 公開日:2021-08-18
# コントラストマスク予測による自己監督型視覚表現学習

Self-Supervised Visual Representations Learning by Contrastive Mask Prediction ( http://arxiv.org/abs/2108.07954v1 )

ライセンス: Link先を確認
Yucheng Zhao, Guangting Wang, Chong Luo, Wenjun Zeng, Zheng-Jun Zha(参考訳) 高度な自己教師付き視覚表現学習手法は、インスタンス識別(id)プリテキストタスクに依存する。 我々は、IDタスクは暗黙的な意味一貫性(SC)の仮定を持ち、制約のないデータセットでは保持できないことを指摘している。 本稿では,視覚表現学習のための新しいコントラッシブマスク予測(CMP)タスクを提案し,マスクコントラスト(MaskCo)フレームワークを設計し,その実装について述べる。 MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。 マスク特徴と非マスク特徴の領域ギャップを解決するため,マスク予測専用ヘッドをマスクコで設計する。 このモジュールがCMPの成功の鍵であることが示されている。 私たちはMaskCoをImageNet以外のデータセットのトレーニングで評価し、そのパフォーマンスをMoCo V2と比較した。 その結果,imagenetトレーニングデータセットを使用して,moco v2と同等のパフォーマンスを達成しているが,cocoや概念的キャプションをトレーニングに使用する場合,ダウンストリームタスク全体のパフォーマンスが向上することが示された。 MaskCoは、自己教師型学習のためのIDベースの方法に代わる有望な代替手段を提供する。

Advanced self-supervised visual representation learning methods rely on the instance discrimination (ID) pretext task. We point out that the ID task has an implicit semantic consistency (SC) assumption, which may not hold in unconstrained datasets. In this paper, we propose a novel contrastive mask prediction (CMP) task for visual representation learning and design a mask contrast (MaskCo) framework to implement the idea. MaskCo contrasts region-level features instead of view-level features, which makes it possible to identify the positive sample without any assumptions. To solve the domain gap between masked and unmasked features, we design a dedicated mask prediction head in MaskCo. This module is shown to be the key to the success of the CMP. We evaluated MaskCo on training datasets beyond ImageNet and compare its performance with MoCo V2. Results show that MaskCo achieves comparable performance with MoCo V2 using ImageNet training dataset, but demonstrates a stronger performance across a range of downstream tasks when COCO or Conceptual Captions are used for training. MaskCo provides a promising alternative to the ID-based methods for self-supervised learning in the wild.
翻訳日:2021-08-19 14:42:09 公開日:2021-08-18
# SynFace: 合成データによる顔認識

SynFace: Face Recognition with Synthetic Data ( http://arxiv.org/abs/2108.07960v1 )

ライセンス: Link先を確認
Haibo Qiu, Baosheng Yu, Dihong Gong, Zhifeng Li, Wei Liu, Dacheng Tao(参考訳) 近年のディープニューラルネットワークの成功により、顔認識の進歩は目覚ましいものとなっている。 しかし、顔認識のための大規模な実世界のトレーニングデータの収集は、特にラベルノイズとプライバシの問題のために難しいことが判明した。 一方、既存の顔認識データセットは通常Webイメージから収集され、属性に関する詳細なアノテーション(例えば、ポーズや表現)が欠如しているため、異なる属性が顔認識に与える影響は調査されていない。 本稿では、合成顔画像(SynFace)を用いた顔認識における上記の課題に対処する。 具体的には,人工顔画像と実顔画像で学習した最新の顔認識モデルとの性能差について検討した。 次に、パフォーマンスギャップの背後にある根本的な原因、例えばクラス内変異の貧弱さ、合成画像と実際の顔画像の間のドメインギャップを分析します。 これを踏まえ,identity mixup (im) と domain mixup (dm) の合成を考案し,上記のパフォーマンスギャップを緩和し,顔認識のための合成データの大きな可能性を示す。 さらに, 制御可能な顔合成モデルを用いて, ポーズ, 表情, 照明, アイデンティティ数, サンプル数など, 合成顔生成のさまざまな要因を容易に管理できる。 そこで本研究では,合成顔画像の系統的実験分析を行い,顔画像における合成データの利用法について考察する。

With the recent success of deep neural networks, remarkable progress has been achieved on face recognition. However, collecting large-scale real-world training data for face recognition has turned out to be challenging, especially due to the label noise and privacy issues. Meanwhile, existing face recognition datasets are usually collected from web images, lacking detailed annotations on attributes (e.g., pose and expression), so the influences of different attributes on face recognition have been poorly investigated. In this paper, we address the above-mentioned issues in face recognition using synthetic face images, i.e., SynFace. Specifically, we first explore the performance gap between recent state-of-the-art face recognition models trained with synthetic and real face images. We then analyze the underlying causes behind the performance gap, e.g., the poor intra-class variations and the domain gap between synthetic and real face images. Inspired by this, we devise the SynFace with identity mixup (IM) and domain mixup (DM) to mitigate the above performance gap, demonstrating the great potentials of synthetic data for face recognition. Furthermore, with the controllable face synthesis model, we can easily manage different factors of synthetic face generation, including pose, expression, illumination, the number of identities, and samples per identity. Therefore, we also perform a systematically empirical analysis on synthetic face images to provide some insights on how to effectively utilize synthetic data for face recognition.
翻訳日:2021-08-19 14:41:48 公開日:2021-08-18
# Infinite Generative Adversarial Networkによる教師なし画像生成

Unsupervised Image Generation with Infinite Generative Adversarial Networks ( http://arxiv.org/abs/2108.07975v1 )

ライセンス: Link先を確認
Hui Ying, He Wang, Tianjia Shao, Yin Yang, Kun Zhou(参考訳) 画像生成はコンピュータビジョンでよく研究されており、ある重要な研究課題は、ほとんど監督せずに任意に複雑な分布から画像を生成することである。 GAN(Generative Adversarial Networks)は暗黙のアプローチとしてこの方向に大きく成功し、広く採用されている。 しかしganはモードの崩壊、非構造的潜在空間、可能性の計算ができないといった問題に苦しむことが知られている。 本稿では,無限条件付きGANとMIC-GANを混合した非教師付き非パラメトリック手法を提案する。 MIC-GANは,様々なデータセットを包括的に評価することにより,潜伏空間の構築やモード崩壊の回避,最先端手法の向上に有効であることを示す。 MICGANは適応的で、汎用的で、堅牢である。 彼らはよく知られたGAN問題に対する有望な解決策を提供する。 コード提供: github.com/yinghdb/m icgans。

Image generation has been heavily investigated in computer vision, where one core research challenge is to generate images from arbitrarily complex distributions with little supervision. Generative Adversarial Networks (GANs) as an implicit approach have achieved great successes in this direction and therefore been employed widely. However, GANs are known to suffer from issues such as mode collapse, non-structured latent space, being unable to compute likelihoods, etc. In this paper, we propose a new unsupervised non-parametric method named mixture of infinite conditional GANs or MIC-GANs, to tackle several GAN issues together, aiming for image generation with parsimonious prior knowledge. Through comprehensive evaluations across different datasets, we show that MIC-GANs are effective in structuring the latent space and avoiding mode collapse, and outperform state-of-the-art methods. MICGANs are adaptive, versatile, and robust. They offer a promising solution to several well-known GAN issues. Code available: github.com/yinghdb/M ICGANs.
翻訳日:2021-08-19 14:41:23 公開日:2021-08-18
# 探索と分類による屋外建築の構造化

Structured Outdoor Architecture Reconstruction by Exploration and Classification ( http://arxiv.org/abs/2108.07990v1 )

ライセンス: Link先を確認
Fuyang Zhang, Xiang Xu, Nelson Nauata, Yasutaka Furukawa(参考訳) 本稿では,空中画像から構造的再構築を行うための探索・分類フレームワークを提案する。 既存のアルゴリズムによる潜在的不完全な建物の再構築から始まり、(1)ヒューリスティックなアクションによって再構築を修正し、建築モデルの空間を探索する。2) 建築モデルの正しい分類を学習し、基盤に基づいて分類ラベルを生成し、3) 繰り返す。 テスト時には、探索と分類を繰り返し、最高の分類スコアで結果を求めます。 2つのベースラインと2つの最先端再構築アルゴリズムによる初期再構成手法の評価を行った。 定性的および定量的評価により,本手法は初期再建の度に常に再現品質を向上することを示した。

This paper presents an explore-and-classify framework for structured architectural reconstruction from an aerial image. Starting from a potentially imperfect building reconstruction by an existing algorithm, our approach 1) explores the space of building models by modifying the reconstruction via heuristic actions; 2) learns to classify the correctness of building models while generating classification labels based on the ground-truth, and 3) repeat. At test time, we iterate exploration and classification, seeking for a result with the best classification score. We evaluate the approach using initial reconstructions by two baselines and two state-of-the-art reconstruction algorithms. Qualitative and quantitative evaluations demonstrate that our approach consistently improves the reconstruction quality from every initial reconstruction.
翻訳日:2021-08-19 14:41:07 公開日:2021-08-18
# 意味セグメンテーションのためのマルチアンカーアクティブドメイン適応

Multi-Anchor Active Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2108.08012v1 )

ライセンス: Link先を確認
Munan Ning, Donghuan Lu, Dong Wei, Cheng Bian, Chenglang Yuan, Shuang Yu, Kai Ma, Yefeng Zheng(参考訳) 教師なしドメイン適応は、合成ソースドメインデータと実世界のターゲットドメインサンプルを整列させることで、手動アノテーションの集中的な作業負荷を軽減する効果的なアプローチであることが証明されている。 残念ながら、ターゲットドメインの分布をソースドメインに無条件にマッピングすることは、ターゲットドメインデータの本質的な構造情報を歪める可能性がある。 そこで本研究では,まず,セマンティックセグメンテーションタスクに関するドメイン適応を支援するマルチアンカーベースのアクティブラーニング戦略を提案する。 単一セントロイドの代わりに複数のアンカーを革新的に採用することにより、ソースドメインはマルチモーダル分布としてより特徴付けられるので、対象ドメインからより代表的で補足的なサンプルを選択することができる。 これらのアクティブなサンプルを手動でアノテートする作業負荷が少ないため、ターゲット領域の分散の歪みを効果的に緩和することができ、パフォーマンスが向上する。 マルチアンカー戦略は、ターゲット分布をモデル化するためにも使われる。 新たなソフトアライメント損失により、複数のアンカーの周りにコンパクトなターゲットサンプルの潜在表現を正則化することで、より精密なセグメンテーションを実現することができる。 提案手法が最先端手法を著しく上回り,各成分の有効性を検証するための徹底的なアブレーション研究とともに,公開データセット上で広範な実験を行った。

Unsupervised domain adaption has proven to be an effective approach for alleviating the intensive workload of manual annotation by aligning the synthetic source-domain data and the real-world target-domain samples. Unfortunately, mapping the target-domain distribution to the source-domain unconditionally may distort the essential structural information of the target-domain data. To this end, we firstly propose to introduce a novel multi-anchor based active learning strategy to assist domain adaptation regarding the semantic segmentation task. By innovatively adopting multiple anchors instead of a single centroid, the source domain can be better characterized as a multimodal distribution, thus more representative and complimentary samples are selected from the target domain. With little workload to manually annotate these active samples, the distortion of the target-domain distribution can be effectively alleviated, resulting in a large performance gain. The multi-anchor strategy is additionally employed to model the target-distribution. By regularizing the latent representation of the target samples compact around multiple anchors through a novel soft alignment loss, more precise segmentation can be achieved. Extensive experiments are conducted on public datasets to demonstrate that the proposed approach outperforms state-of-the-art methods significantly, along with thorough ablation study to verify the effectiveness of each component.
翻訳日:2021-08-19 14:40:53 公開日:2021-08-18
# フル3dメッシュ生成のためのディープハイブリッド自己優先

Deep Hybrid Self-Prior for Full 3D Mesh Generation ( http://arxiv.org/abs/2108.08017v1 )

ライセンス: Link先を確認
Xingkui Wei, Zhengqing Chen, Yanwei Fu, Zhaopeng Cui, Yinda Zhang(参考訳) 本稿では,ネットワークの自己優先度を利用して,三角メッシュと色付き3Dポイントクラウドからテクスチャマップからなる完全な3Dモデルを復元する深層学習パイプラインを提案する。 画像編集に2Dセルフプライアを利用する方法や、純粋な表面再構成に3Dセルフプライアを利用する手法とは異なり、深層ニューラルネットワークに新たなハイブリッド2D-3Dセルフプライアを利用することにより、幾何学的品質を大幅に向上させ、商品レベルの3Dスキャナの出力から欠落する高解像度テクスチャマップを作成する。 特に,まず3次元自己優先の3次元畳み込みニューラルネットワークを用いて初期メッシュを生成し,さらに2次元UVアトラスの3次元情報と色情報を符号化し,自己優先の2次元畳み込みニューラルネットワークによりさらに洗練する。 このように、メッシュとテクスチャリカバリに2Dと3Dのセルフプライヤが使用される。 実験により, 余分なトレーニングデータを必要とせずに, 粗い入力から高品質な3次元テクスチャメッシュモデルを復元し, テクスチャ品質とテクスチャ品質の両方の観点から, 最先端の手法より優れていることがわかった。

We present a deep learning pipeline that leverages network self-prior to recover a full 3D model consisting of both a triangular mesh and a texture map from the colored 3D point cloud. Different from previous methods either exploiting 2D self-prior for image editing or 3D self-prior for pure surface reconstruction, we propose to exploit a novel hybrid 2D-3D self-prior in deep neural networks to significantly improve the geometry quality and produce a high-resolution texture map, which is typically missing from the output of commodity-level 3D scanners. In particular, we first generate an initial mesh using a 3D convolutional neural network with 3D self-prior, and then encode both 3D information and color information in the 2D UV atlas, which is further refined by 2D convolutional neural networks with the self-prior. In this way, both 2D and 3D self-priors are utilized for the mesh and texture recovery. Experiments show that, without the need of any additional training data, our method recovers the 3D textured mesh model of high quality from sparse input, and outperforms the state-of-the-art methods in terms of both the geometry and texture quality.
翻訳日:2021-08-19 14:40:32 公開日:2021-08-18
# 音声駆動テンプレート:学習テンプレートを用いた協調ジェスチャー合成

Speech Drives Templates: Co-Speech Gesture Synthesis with Learned Templates ( http://arxiv.org/abs/2108.08020v1 )

ライセンス: Link先を確認
Shenhan Qian, Zhi Tu, YiHao Zhi, Wen Liu, Shenghua Gao(参考訳) 共同音声ジェスチャ生成は、実際のように見えるだけでなく、入力された音声音声と一致するジェスチャーシーケンスを合成する。 本手法は、腕、手、頭部を含む、完全な上半身の動きを生成する。 最近のデータ駆動手法は大きな成功を収めているが、限られた多様性、不確かさ、客観的な指標の欠如といった課題がまだ残っている。 音声がジェスチャーを完全に決定できないという事実に感銘を受けて,ジェスチャーテンプレートベクトルの集合を学習して潜在条件をモデル化する手法を設計し,あいまいさを和らげる。 提案手法では,音声が身体の微妙な動きを駆動するのに対して,テンプレートベクトルは生成したジェスチャシーケンスの一般的な外観を決定するが,どちらも現実的なジェスチャシーケンスの合成には不可欠である。 ジェスチャ・スパイチ同期のための客観的メトリックの難易度により,モデルの同期能力をチューニングし評価するためのプロキシメトリックとして,リップ同期誤差を採用する。 実験結果から,本手法の主観的,主観的両面において,忠実度と同期性において優位性を示した。

Co-speech gesture generation is to synthesize a gesture sequence that not only looks real but also matches with the input speech audio. Our method generates the movements of a complete upper body, including arms, hands, and the head. Although recent data-driven methods achieve great success, challenges still exist, such as limited variety, poor fidelity, and lack of objective metrics. Motivated by the fact that the speech cannot fully determine the gesture, we design a method that learns a set of gesture template vectors to model the latent conditions, which relieve the ambiguity. For our method, the template vector determines the general appearance of a generated gesture sequence, while the speech audio drives subtle movements of the body, both indispensable for synthesizing a realistic gesture sequence. Due to the intractability of an objective metric for gesture-speech synchronization, we adopt the lip-sync error as a proxy metric to tune and evaluate the synchronization ability of our model. Extensive experiments show the superiority of our method in both objective and subjective evaluations on fidelity and synchronization.
翻訳日:2021-08-19 14:40:09 公開日:2021-08-18
# 変分注意:集団カウントにおけるマルチドメイン学習のためのドメイン特化知識の育成

Variational Attention: Propagating Domain-Specific Knowledge for Multi-Domain Learning in Crowd Counting ( http://arxiv.org/abs/2108.08023v1 )

ライセンス: Link先を確認
Binghui Chen, Zhaoyi Yan, Ke Li, Pengyu Li, Biao Wang, Wangmeng Zuo, Lei Zhang(参考訳) 群衆数では、手間のかかるラベル付けの問題から、密度、シーン等が多様で多彩な画像を持つ新しい大規模データセットの収集が困難であると認識される。 したがって、一般的なモデルを学ぶには、複数の異なるデータセットからのデータを使ったトレーニングは、修正であり、大きな価値を持つ可能性がある。 本稿では,多分野共同学習を用いて,多種多様なデータ領域からの知識を偏りなく学習するための,単純かつ効果的なドメイン固有知識伝達ネットワーク(dkpnet)1を提案する。 主に、異なるドメインに対する注意分布を明示的にモデル化するための新しい変動注意法(VA)技術を提案する。 Intrinsic Variational Attention(InVA)はVAの拡張として,オーバーラップドメインやサブドメインの問題に対処するために提案されている。 上海技術A/B、UCF-QNRF、NWPUなど、いくつかの一般的なデータセットに対するDKPNetの優位性を検証するために、大規模な実験が行われた。

In crowd counting, due to the problem of laborious labelling, it is perceived intractability of collecting a new large-scale dataset which has plentiful images with large diversity in density, scene, etc. Thus, for learning a general model, training with data from multiple different datasets might be a remedy and be of great value. In this paper, we resort to the multi-domain joint learning and propose a simple but effective Domain-specific Knowledge Propagating Network (DKPNet)1 for unbiasedly learning the knowledge from multiple diverse data domains at the same time. It is mainly achieved by proposing the novel Variational Attention(VA) technique for explicitly modeling the attention distributions for different domains. And as an extension to VA, Intrinsic Variational Attention(InVA) is proposed to handle the problems of over-lapped domains and sub-domains. Extensive experiments have been conducted to validate the superiority of our DKPNet over several popular datasets, including ShanghaiTech A/B, UCF-QNRF and NWPU.
翻訳日:2021-08-19 14:39:50 公開日:2021-08-18
# 球面物体検出のための不偏光IoU

Unbiased IoU for Spherical Image Object Detection ( http://arxiv.org/abs/2108.08029v1 )

ライセンス: Link先を確認
Qiang Zhao, Bin Chen, Hang Xu, Yike Ma, Xiaodong Li, Bailan Feng, Chenggang Yan, Feng Dai(参考訳) コンピュータビジョンにおける最も根本的で困難な問題の1つとして、オブジェクト検出はオブジェクトのインスタンスを特定し、それらのカテゴリを自然な画像で見つけようとする。 物体検出アルゴリズムの評価における最も重要なステップは、予測された有界箱と地上の真理箱との交叉和(IoU)を計算することである。 この手順は平面画像に対してよく定義され、解決されるが、球面物体の検出は容易ではない。 既存の方法では、バイアス付き境界ボックス表現に基づいてIoUを計算するか、過剰な近似を行い、誤った結果を与える。 本稿では,まず球面長方形が球面画像内の物体に対する偏りのない境界ボックスであることを同定し,近似を伴わないiou計算の解析法を提案する。 また,不偏表現と計算に基づいて,球面画像に対するアンカー自由物体検出アルゴリズムを提案する。 2つの球面物体検出データセットを用いた実験により,提案手法は既存手法よりも優れた性能が得られることが示された。

As one of the most fundamental and challenging problems in computer vision, object detection tries to locate object instances and find their categories in natural images. The most important step in the evaluation of object detection algorithm is calculating the intersection-over-un ion (IoU) between the predicted bounding box and the ground truth one. Although this procedure is well-defined and solved for planar images, it is not easy for spherical image object detection. Existing methods either compute the IoUs based on biased bounding box representations or make excessive approximations, thus would give incorrect results. In this paper, we first identify that spherical rectangles are unbiased bounding boxes for objects in spherical images, and then propose an analytical method for IoU calculation without any approximations. Based on the unbiased representation and calculation, we also present an anchor free object detection algorithm for spherical images. The experiments on two spherical object detection datasets show that the proposed method can achieve better performance than existing methods.
翻訳日:2021-08-19 14:39:33 公開日:2021-08-18
# ポイントクラウド解析のための適応グラフ畳み込み

Adaptive Graph Convolution for Point Cloud Analysis ( http://arxiv.org/abs/2108.08035v1 )

ライセンス: Link先を確認
Haoran Zhou, Yidan Feng, Mingsheng Fang, Mingqiang Wei, Jing Qin, Tong Lu(参考訳) 2dグリッドのようなドメインから一般化した3dポイントクラウドの畳み込みは、完璧にはほど遠い。 標準畳み込みは、3Dポイント間で特徴対応を識別し、特徴学習が劣る固有の限界を示す。 本稿では,動的に学習される特徴に応じて点に対する適応カーネルを生成する適応グラフ畳み込み(adaptconv)を提案する。 固定/等方性カーネルを使用する場合と比較して、adaptconvはポイントクラウド畳み込みの柔軟性を改善し、異なる意味部分からポイント間の多様な関係を効果的かつ正確に捉える。 一般的な注意重みスキームとは異なり、AdaptConvは、隣接する点に異なる重みを割り当てるのではなく、畳み込み操作内で適応性を実装する。 大規模定性的および定量的評価により,本手法はいくつかのベンチマークデータセットにおいて,最先端のクラウド分類とセグメンテーションアプローチより優れていることが示された。 私たちのコードはhttps://github.com/h rzhou2/AdaptConv-mas terで利用可能です。

Convolution on 3D point clouds that generalized from 2D grid-like domains is widely researched yet far from perfect. The standard convolution characterises feature correspondences indistinguishably among 3D points, presenting an intrinsic limitation of poor distinctive feature learning. In this paper, we propose Adaptive Graph Convolution (AdaptConv) which generates adaptive kernels for points according to their dynamically learned features. Compared with using a fixed/isotropic kernel, AdaptConv improves the flexibility of point cloud convolutions, effectively and precisely capturing the diverse relations between points from different semantic parts. Unlike popular attentional weight schemes, the proposed AdaptConv implements the adaptiveness inside the convolution operation instead of simply assigning different weights to the neighboring points. Extensive qualitative and quantitative evaluations show that our method outperforms state-of-the-art point cloud classification and segmentation approaches on several benchmark datasets. Our code is available at https://github.com/h rzhou2/AdaptConv-mas ter.
翻訳日:2021-08-19 14:39:18 公開日:2021-08-18
# 光リモートセンシング画像における弱教師付き物体検出のためのマルチパッチ特徴ピラミッドネットワーク

Multi-patch Feature Pyramid Network for Weakly Supervised Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2108.08063v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Jocelyn Chanussot, Masoumeh Zareapoor, Huiyu Zhou, and Jie Yang(参考訳) オブジェクト検出は、画像内の数ピクセルのみを占有し、オブジェクトの位置と検出を同時に学習するモデルを必要とするため、リモートセンシングにおいて難しいタスクである。 確立されたアプローチは、通常のサイズのオブジェクトに対してうまく機能するが、小さなオブジェクトを解析したり、ローカルのミニマ(例えば、)で立ち往生する際の弱いパフォーマンスを達成する。 偽物部分)。 考えられる2つの問題が立ち向かっている。 第一に, 既存手法では, 複雑な背景から, 小型物体の検出を安定的に行うのが困難である。 第二に、標準的な手法のほとんどは手作りの機能を使用しており、欠落しているオブジェクトの検知にはうまく機能しない。 本稿では、上記の問題に対処し、マルチパッチ機能ピラミッドネットワーク(MPFP-Net)を用いた新しいアーキテクチャを提案する。 トレーニング中に最も差別的なパッチのみを追求する現在のモデルとは異なり、MPFPNetではパッチはクラス関連サブセットに分割され、パッチが関連付けられ、一次損失関数に基づいて、サブセットに対して滑らかな損失関数列が決定され、小さなオブジェクト部品の収集モデルが改善される。 パッチ選択のための特徴表現を強化するために,残差値を正規化し,融合遷移層を厳格に規範保存する効果的な手法を提案する。 ネットワークにはボトムアップとクロスワイドの接続があり、いくつかの最先端オブジェクト検出モデルと比較して、異なるスケールの特徴を融合して精度を向上させる。 また、開発されたアーキテクチャはベースラインよりも効率的です。

Object detection is a challenging task in remote sensing because objects only occupy a few pixels in the images, and the models are required to simultaneously learn object locations and detection. Even though the established approaches well perform for the objects of regular sizes, they achieve weak performance when analyzing small ones or getting stuck in the local minima (e.g. false object parts). Two possible issues stand in their way. First, the existing methods struggle to perform stably on the detection of small objects because of the complicated background. Second, most of the standard methods used hand-crafted features, and do not work well on the detection of objects parts of which are missing. We here address the above issues and propose a new architecture with a multiple patch feature pyramid network (MPFP-Net). Different from the current models that during training only pursue the most discriminative patches, in MPFPNet the patches are divided into class-affiliated subsets, in which the patches are related and based on the primary loss function, a sequence of smooth loss functions are determined for the subsets to improve the model for collecting small object parts. To enhance the feature representation for patch selection, we introduce an effective method to regularize the residual values and make the fusion transition layers strictly norm-preserving. The network contains bottom-up and crosswise connections to fuse the features of different scales to achieve better accuracy, compared to several state-of-the-art object detection models. Also, the developed architecture is more efficient than the baselines.
翻訳日:2021-08-19 14:38:59 公開日:2021-08-18
# 画像照合:写本のイラストに一致する

Image Collation: Matching illustrations in manuscripts ( http://arxiv.org/abs/2108.08109v1 )

ライセンス: Link先を確認
Ryad Kaoua, Xi Shen, Alexandra Durr, Stavros Lazaris, David Picard, Mathieu Aubry(参考訳) イラストは必須の伝達装置です。 歴史家にとって、類似の写本のコーパスでそれらの進化を研究する最初のステップは、どの写本が対応するかを特定することである。 この画像照合作業は、何世紀にもわたって散逸した写本によって分割され、完全に再編成され、新しい知識や信念に適応するように大幅に修正され、数百の挿絵を含んでいる。 この論文への私たちの貢献は3倍です。 まず,2万点以上のイラストと1200点以上の注釈付き対応文からなる2つの異なるテキストからなる6つの原稿を含む,大規模な注釈付き公開データセットと図形照合タスクを紹介する。 第2に,本課題における芸術的類似性の実態を分析し,簡単な事例では成功しているが,挿絵が極めて重要な変更を施し,細部のみを判別した場合は大きな写本に苦慮することを示す。 最後に,サイクル整合対応を活用すれば,大幅なパフォーマンス向上が期待できることを示す。 私たちのコードとデータはhttp://imagine.enpc. fr/~shenx/ImageColla tion.comで公開されています。

Illustrations are an essential transmission instrument. For an historian, the first step in studying their evolution in a corpus of similar manuscripts is to identify which ones correspond to each other. This image collation task is daunting for manuscripts separated by many lost copies, spreading over centuries, which might have been completely re-organized and greatly modified to adapt to novel knowledge or belief and include hundreds of illustrations. Our contributions in this paper are threefold. First, we introduce the task of illustration collation and a large annotated public dataset to evaluate solutions, including 6 manuscripts of 2 different texts with more than 2 000 illustrations and 1 200 annotated correspondences. Second, we analyze state of the art similarity measures for this task and show that they succeed in simple cases but struggle for large manuscripts when the illustrations have undergone very significant changes and are discriminated only by fine details. Finally, we show clear evidence that significant performance boosts can be expected by exploiting cycle-consistent correspondences. Our code and data are available on http://imagine.enpc. fr/~shenx/ImageColla tion.
翻訳日:2021-08-19 14:38:32 公開日:2021-08-18
# 不正確なスーパービジョンを用いたRAW-to-sRGBマッピングの学習

Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision ( http://arxiv.org/abs/2108.08119v1 )

ライセンス: Link先を確認
Zhilu Zhang, Haolin Wang, Ming Liu, Ruohao Wang, Jiawei Zhang, Wangmeng Zuo(参考訳) 近年、RAW-to-sRGBマッピングの学習が注目されており、入力された生画像は、他のカメラが捉えたターゲットsRGB画像を模倣するように訓練されている。 しかし、厳格な色相矛盾のため、入力raw画像とターゲットsrgb画像のトレーニングペアを生成するのは非常に困難である。 不正確な調整による学習は、ピクセルシフトを引き起こし、ぼやけた結果を生み出す傾向にある。 本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案することで,この問題を回避する。 画像アライメントにおける色の不整合性を低減するため,入力された原画像から初期sRGB画像を生成するためにグローバルカラーマッピング(GCM)モジュールを導入し,画素の空間的位置を一定に保ち,対象sRGB画像を用いて色変換のためのGCMを誘導する。 そして、予めトレーニングされた光フロー推定ネットワーク(例えばPWC-Net)を配置して目標のsRGB画像をワープし、GCM出力と整合させる。 不正確な調整の効果を軽減するために、歪んだターゲットsRGB画像を利用してRAW-to-sRGBマッピングを学習する。 トレーニングが完了すると、gcmモジュールとオプティカルフローネットワークを分離することができ、推論のための余分な計算コストが不要になる。 実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。 共同学習モデルにより,zrrデータセットにおいて,軽量バックボーンにより定量的・質的性能が向上する。 コードはhttps://github.com/c szhilu1998/RAW-to-sR GBで入手できる。

Learning RAW-to-sRGB mapping has drawn increasing attention in recent years, wherein an input raw image is trained to imitate the target sRGB image captured by another camera. However, the severe color inconsistency makes it very challenging to generate well-aligned training pairs of input raw and target sRGB images. While learning with inaccurately aligned supervision is prone to causing pixel shift and producing blurry results. In this paper, we circumvent such issue by presenting a joint learning model for image alignment and RAW-to-sRGB mapping. To diminish the effect of color inconsistency in image alignment, we introduce to use a global color mapping (GCM) module to generate an initial sRGB image given the input raw image, which can keep the spatial location of the pixels unchanged, and the target sRGB image is utilized to guide GCM for converting the color towards it. Then a pre-trained optical flow estimation network (e.g., PWC-Net) is deployed to warp the target sRGB image to align with the GCM output. To alleviate the effect of inaccurately aligned supervision, the warped target sRGB image is leveraged to learn RAW-to-sRGB mapping. When training is done, the GCM module and optical flow network can be detached, thereby bringing no extra computation cost for inference. Experiments show that our method performs favorably against state-of-the-arts on ZRR and SR-RAW datasets. With our joint learning model, a light-weight backbone can achieve better quantitative and qualitative performance on ZRR dataset. Codes are available at https://github.com/c szhilu1998/RAW-to-sR GB.
翻訳日:2021-08-19 14:38:12 公開日:2021-08-18
# RGB-D比例値検出

Specificity-preservi ng RGB-D Saliency Detection ( http://arxiv.org/abs/2108.08162v1 )

ライセンス: Link先を確認
Tao Zhou, Huazhu Fu, Geng Chen, Yi Zhou, Deng-Ping Fan, Ling Shao(参考訳) rgb-dサリエンシー検出は、その有効性と深さの手がかりを便利に捉えることができるため、注目を集めている。 既存の作品は、様々な融合戦略を通じて共有表現を学習することに焦点を当てることが多いが、モダリティ特有の特性を保存する方法を明示的に検討する手法はほとんどない。 本稿では,RGB-D唾液度検出のための特異性保存ネットワーク(SP-Net)を提案する。 具体的には,2つのモダリティ特化ネットワークと共有学習ネットワークを用いて,個別および共有塩分マップを生成する。 cross-enhanced integration module (cim) は、共有学習ネットワークにクロスモーダル機能を融合するために提案されている。 さらに,各デコーダのモダリティ固有の特徴を共有デコーダに統合するマルチモーダル特徴集約(MFA)モジュールを提案する。 さらに、エンコーダ層とデコーダ層の間の階層的特徴を組み合わせるためにスキップ接続を用いる。 6つのベンチマークデータセットの実験では、SP-Netは他の最先端手法よりも優れています。 コードはhttps://github.com/t aozh2017/spnet。

RGB-D saliency detection has attracted increasing attention, due to its effectiveness and the fact that depth cues can now be conveniently captured. Existing works often focus on learning a shared representation through various fusion strategies, with few methods explicitly considering how to preserve modality-specific characteristics. In this paper, taking a new perspective, we propose a specificity-preservi ng network (SP-Net) for RGB-D saliency detection, which benefits saliency detection performance by exploring both the shared information and modality-specific properties (e.g., specificity). Specifically, two modality-specific networks and a shared learning network are adopted to generate individual and shared saliency maps. A cross-enhanced integration module (CIM) is proposed to fuse cross-modal features in the shared learning network, which are then propagated to the next layer for integrating cross-level information. Besides, we propose a multi-modal feature aggregation (MFA) module to integrate the modality-specific features from each individual decoder into the shared decoder, which can provide rich complementary multi-modal information to boost the saliency detection performance. Further, a skip connection is used to combine hierarchical features between the encoder and decoder layers. Experiments on six benchmark datasets demonstrate that our SP-Net outperforms other state-of-the-art methods. Code is available at: https://github.com/t aozh2017/SPNet.
翻訳日:2021-08-19 14:37:43 公開日:2021-08-18
# 明示的学習と校正による一般・インクリメンタルFew-Shot学習

Generalized and Incremental Few-Shot Learning by Explicit Learning and Calibration without Forgetting ( http://arxiv.org/abs/2108.08165v1 )

ライセンス: Link先を確認
Anna Kukleva, Hilde Kuehne, Bernt Schiele(参考訳) 一般化された数ショット学習と漸進的な数ショット学習の両方が、クラス毎に少数のサンプルから新しいクラスを学ぶこと、ベースクラスの破滅的な忘れ込みを防ぐこと、新しいクラスとベースクラスをまたいだ分類器の校正という3つの大きな課題に対処する必要がある。 本研究では,これらの課題を明確かつ効果的に解決可能な3段階フレームワークを提案する。 第1フェーズは多くのサンプルでベースクラスを学習する一方で、第2フェーズは、少数のサンプルから新しいクラスの校正分類を学習し、破滅的な忘れ込みを防ぐ。 最終段階では、全てのクラスでキャリブレーションが行われる。 提案手法は,画像と映像のマイナショット分類のための4つの難解なベンチマークデータセット上で評価し,一般化およびインクリメンタルなショット学習のための最新結果を得た。

Both generalized and incremental few-shot learning have to deal with three major challenges: learning novel classes from only few samples per class, preventing catastrophic forgetting of base classes, and classifier calibration across novel and base classes. In this work we propose a three-stage framework that allows to explicitly and effectively address these challenges. While the first phase learns base classes with many samples, the second phase learns a calibrated classifier for novel classes from few samples while also preventing catastrophic forgetting. In the final phase, calibration is achieved across all classes. We evaluate the proposed framework on four challenging benchmark datasets for image and video few-shot classification and obtain state-of-the-art results for both generalized and incremental few shot learning.
翻訳日:2021-08-19 14:37:20 公開日:2021-08-18
# 古典および学習に基づく画像マッチング手法におけるパラメータ最適化の効果

Effect of Parameter Optimization on Classical and Learning-based Image Matching Methods ( http://arxiv.org/abs/2108.08179v1 )

ライセンス: Link先を確認
Ufuk Efe, Kutalmis Gokalp Ince, A. Aydin Alatan(参考訳) 近年,ディープラーニングに基づく画像マッチング手法が大幅に改善されている。 これらの手法は古典的手法よりも優れていると報告されているが、古典的手法の性能は詳細には検討されていない。 本研究では,互いに隣り合う探索と比率テストを用いて古典的および学習的手法を比較し,その比率テスト閾値を最適化し,2つの性能指標で最高の性能を得る。 公正な比較の後,HPatchesデータセットの実験結果から,古典的手法と学習的手法のパフォーマンスギャップはそれほど大きくないことが明らかになった。 実験を通して,SuperGlueはHPatchesデータセットにおける画像マッチング問題の最先端技術であることを示した。 しかし、1つのパラメータ、すなわち比率テストしきい値が慎重に最適化されると、SIFTはSuperGlueに非常に近く、平均マッチング精度(MMA)は1ピクセルと2ピクセルのしきい値以下である。 さらに,プリトレーニングされたvgg機能を記述子と比率テストとしてのみ使用する最近のアプローチであるdfmが,学習ベース手法のほとんどを上回っていることを示す。 したがって, 古典的手法のパラメータを, 学習に基づく手法と比較する前に, 慎重に分析すべきである。

Deep learning-based image matching methods are improved significantly during the recent years. Although these methods are reported to outperform the classical techniques, the performance of the classical methods is not examined in detail. In this study, we compare classical and learning-based methods by employing mutual nearest neighbor search with ratio test and optimizing the ratio test threshold to achieve the best performance on two different performance metrics. After a fair comparison, the experimental results on HPatches dataset reveal that the performance gap between classical and learning-based methods is not that significant. Throughout the experiments, we demonstrated that SuperGlue is the state-of-the-art technique for the image matching problem on HPatches dataset. However, if a single parameter, namely ratio test threshold, is carefully optimized, a well-known traditional method SIFT performs quite close to SuperGlue and even outperforms in terms of mean matching accuracy (MMA) under 1 and 2 pixel thresholds. Moreover, a recent approach, DFM, which only uses pre-trained VGG features as descriptors and ratio test, is shown to outperform most of the well-trained learning-based methods. Therefore, we conclude that the parameters of any classical method should be analyzed carefully before comparing against a learning-based technique.
翻訳日:2021-08-19 14:37:04 公開日:2021-08-18
# ME-PCN:マスクの症状を考慮したポイントコンプリート

ME-PCN: Point Completion Conditioned on Mask Emptiness ( http://arxiv.org/abs/2108.08187v1 )

ライセンス: Link先を確認
Bingchen Gong, Yinyu Nie, Yiqun Lin, Xiaoguang Han, Yizhou Yu(参考訳) 点完備化とは、不完全な観測から物体の欠落した測地を完備することを指す。 メインストリームの手法では、入力ポイントクラウドから学習したグローバルな特徴をデコードすることで、欠落した形状を予測する。 本研究では,3次元形状空間における「空さ」を利用した点完備ネットワークME-PCNを提案する。 単一の深度スキャンが与えられた場合、従来の手法は空の領域(例えば)を無視しながら占有された部分的な形状を符号化する。 深度地図の穴) 対照的に、これらの「空さ」ヒントは、位相表現と表面の詳細な粒度を改善するために使用できる形状境界を示す。 具体的には、ME-PCNは占有点雲と隣接する「空点」の両方を符号化する。 最初の段階では粗いが完全で合理的な表面点を推定し、続いて微細な表面の詳細を生成するための精細化段階を推定する。 総合的な実験により、我々のME-PCNは最先端技術に対して質的かつ定量的な性能を示す。 さらに,我々の「空さ」設計が軽量で,既存の手法に組み込むのが容易であることを証明し,CDとEMDのスコアを改善する上で一貫した有効性を示す。

Point completion refers to completing the missing geometries of an object from incomplete observations. Main-stream methods predict the missing shapes by decoding a global feature learned from the input point cloud, which often leads to deficient results in preserving topology consistency and surface details. In this work, we present ME-PCN, a point completion network that leverages `emptiness' in 3D shape space. Given a single depth scan, previous methods often encode the occupied partial shapes while ignoring the empty regions (e.g. holes) in depth maps. In contrast, we argue that these `emptiness' clues indicate shape boundaries that can be used to improve topology representation and detail granularity on surfaces. Specifically, our ME-PCN encodes both the occupied point cloud and the neighboring `empty points'. It estimates coarse-grained but complete and reasonable surface points in the first stage, followed by a refinement stage to produce fine-grained surface details. Comprehensive experiments verify that our ME-PCN presents better qualitative and quantitative performance against the state-of-the-art. Besides, we further prove that our `emptiness' design is lightweight and easy to embed in existing methods, which shows consistent effectiveness in improving the CD and EMD scores.
翻訳日:2021-08-19 14:36:40 公開日:2021-08-18
# 一般化データ分散空間によるドローンのスカースデータ駆動ディープラーニング

Scarce Data Driven Deep Learning of Drones via Generalized Data Distribution Space ( http://arxiv.org/abs/2108.08244v1 )

ライセンス: Link先を確認
Chen Li, Schyler C. Sun, Zhuangkun Wei, Antonios Tsourdos, Weisi Guo(参考訳) 民間や専門分野におけるドローンの増殖の増加は、空港や国家インフラに新たな脅威ベクターを生み出した。 ドローンの侵入による1つの主要空港の経済被害は1日当たり数百万と見積もられている。 多様なドローンの訓練データがないため、不足したデータの下でのディープラーニング検出アルゴリズムの正確なトレーニングが難しい。 既存の手法は、多様で包括的な実験ドローンの映像データ収集、人工的なデータ拡張、転送、メタラーニング、物理学に基づく学習などに大きく依存している。 しかし、これらの手法は多様なドローンの設計を捉え、ドローンの深い機能空間を完全に理解することを保証できない。 本稿では,gan(generative adversarial network)によるドローンデータの一般分布の理解と,トポロジカルデータ解析(topological data analysis, tda)を用いた欠落した機能を説明することにより,欠落したデータを取得し,迅速かつ正確な学習を実現する方法を示す。 実際のドローン画像とコンピュータ支援設計によるシミュレーション画像の両方を含む,ドローン画像データセット上で結果を示す。 GAN-TDAインフォメーションデータ収集法は, ランダムデータ収集(実例-200エポック後94.67\%)と比較して, 4エポック後99.42\%) に有意な改善(200エポック後99.42\%)をもたらす。 一般的なデータ分散知識をニューラルネットワークとして活用するこのアプローチは、幅広い未解決のデータオープン課題に適用できると考えています。

Increased drone proliferation in civilian and professional settings has created new threat vectors for airports and national infrastructures. The economic damage for a single major airport from drone incursions is estimated to be millions per day. Due to the lack of diverse drone training data, accurate training of deep learning detection algorithms under scarce data is an open challenge. Existing methods largely rely on collecting diverse and comprehensive experimental drone footage data, artificially induced data augmentation, transfer and meta-learning, as well as physics-informed learning. However, these methods cannot guarantee capturing diverse drone designs and fully understanding the deep feature space of drones. Here, we show how understanding the general distribution of the drone data via a Generative Adversarial Network (GAN) and explaining the missing features using Topological Data Analysis (TDA) - can allow us to acquire missing data to achieve rapid and more accurate learning. We demonstrate our results on a drone image dataset, which contains both real drone images as well as simulated images from computer-aided design. When compared to random data collection (usual practice - discriminator accuracy of 94.67\% after 200 epochs), our proposed GAN-TDA informed data collection method offers a significant 4\% improvement (99.42\% after 200 epochs). We believe that this approach of exploiting general data distribution knowledge form neural networks can be applied to a wide range of scarce data open challenges.
翻訳日:2021-08-19 14:36:20 公開日:2021-08-18
# 確率的シーン認識運動予測

Stochastic Scene-Aware Motion Prediction ( http://arxiv.org/abs/2108.08284v1 )

ライセンス: Link先を確認
Mohamed Hassan, Duygu Ceylan, Ruben Villegas, Jun Saito, Jimei Yang, Yi Zhou, Michael Black(参考訳) コンピュータビジョンにおける長年の目標は、人間の行動を捉え、モデル化し、リアルに合成することである。 特に、データから学習することで、私たちの目標は、乱雑な屋内シーンの中を仮想人間がナビゲートし、自然にオブジェクトと対話できるようにすることです。 このような実施行動は、バーチャルリアリティ、コンピュータゲーム、ロボット工学に応用され、合成行動はトレーニングデータのソースとして使用できる。 実際の人間の動きは多様で、シーンに適応するため、これは難しい。 例えば、様々な場所でソファーに座ったり、横になったりすることができる。 人間とシーンの相互作用を現実的に行う仮想人間を合成する場合、この多様性をモデル化する必要がある。 本稿では,対象物に対して所定の動作を行う異なるスタイルをモデル化する,データ駆動型確率運動合成手法を提案する。 SAMP(Scene-Aware Motion Prediction, SAMP)と呼ばれる本手法では, 様々なジオメトリ対象を対象とし, キャラクタが散らばったシーンで移動できるようにする。 提案手法をトレーニングするために,さまざまな座位,横転,歩行,ランニングスタイルをカバーするMoCapデータを収集した。 複雑な屋内シーンにおける手法を実証し,既存のソリューションと比較して優れた性能を実現する。 私たちのコードとデータは、https://samp.is.tue. mpg.deで調査できます。

A long-standing goal in computer vision is to capture, model, and realistically synthesize human behavior. Specifically, by learning from data, our goal is to enable virtual humans to navigate within cluttered indoor scenes and naturally interact with objects. Such embodied behavior has applications in virtual reality, computer games, and robotics, while synthesized behavior can be used as a source of training data. This is challenging because real human motion is diverse and adapts to the scene. For example, a person can sit or lie on a sofa in many places and with varying styles. It is necessary to model this diversity when synthesizing virtual humans that realistically perform human-scene interactions. We present a novel data-driven, stochastic motion synthesis method that models different styles of performing a given action with a target object. Our method, called SAMP, for Scene-Aware Motion Prediction, generalizes to target objects of various geometries while enabling the character to navigate in cluttered scenes. To train our method, we collected MoCap data covering various sitting, lying down, walking, and running styles. We demonstrate our method on complex indoor scenes and achieve superior performance compared to existing solutions. Our code and data are available for research at https://samp.is.tue. mpg.de.
翻訳日:2021-08-19 14:35:54 公開日:2021-08-18
# 特徴量精密化による画素完全構造から運動へ

Pixel-Perfect Structure-from-Motio n with Featuremetric Refinement ( http://arxiv.org/abs/2108.08291v1 )

ライセンス: Link先を確認
Philipp Lindenberger, Paul-Edouard Sarlin, Viktor Larsson, Marc Pollefeys(参考訳) 複数のビューで再現可能なローカルな特徴を見つけることは、スパース3dリコンストラクションの基盤である。 古典的な画像マッチングパラダイムは、画像ごとのキーポイントを1回ずつ検出し、ローカライズされていない特徴を与え、最終的な幾何学に大きなエラーを伝達する。 本稿では,まず幾何学的推定に先立って初期キーポイントの位置を調整し,後処理としてポイントとカメラのポーズを精錬する。 この改良は、ニューラルネットワークが予測する密集した特徴に基づく特徴量誤差を最適化するため、大規模な検出ノイズや外観変化に対して堅牢である。 これにより、広い範囲のキーポイント検出器のカメラポーズとシーンジオメトリの精度が大幅に向上し、観察条件に挑戦し、市販の深い特徴も向上する。 本システムは,大規模な画像コレクションに容易にスケールできるので,クラウドソースによる大規模なローカライゼーションを実現することができる。 私たちのコードは、人気のあるSfMソフトウェアCOLMAPのアドオンとしてhttps://github.com/c vg/pixel-perfect-sfm で公開されています。

Finding local features that are repeatable across multiple views is a cornerstone of sparse 3D reconstruction. The classical image matching paradigm detects keypoints per-image once and for all, which can yield poorly-localized features and propagate large errors to the final geometry. In this paper, we refine two key steps of structure-from-motio n by a direct alignment of low-level image information from multiple views: we first adjust the initial keypoint locations prior to any geometric estimation, and subsequently refine points and camera poses as a post-processing. This refinement is robust to large detection noise and appearance changes, as it optimizes a featuremetric error based on dense features predicted by a neural network. This significantly improves the accuracy of camera poses and scene geometry for a wide range of keypoint detectors, challenging viewing conditions, and off-the-shelf deep features. Our system easily scales to large image collections, enabling pixel-perfect crowd-sourced localization at scale. Our code is publicly available at https://github.com/c vg/pixel-perfect-sfm as an add-on to the popular SfM software COLMAP.
翻訳日:2021-08-19 14:35:33 公開日:2021-08-18
# TSI: Text-to-CTR と Semantic-Ad-Similari ty を用いた広告テキスト強度指標

TSI: an Ad Text Strength Indicator using Text-to-CTR and Semantic-Ad-Similari ty ( http://arxiv.org/abs/2108.08226v1 )

ライセンス: Link先を確認
Shaunak Mishra, Changwei Hu, Manisha Verma, Kevin Yen, Yifan Hu and Maxim Sviridenko(参考訳) 効果的な広告テキストを作るのは時間を要するプロセスであり、特に広告経験の少ない中小企業にとっては難しい。 未熟な広告主が貧弱な広告テキストで搭乗すると、広告プラットフォームは、低パフォーマンスな広告テキストを検出し、改善提案を提供する機会を得る。 この機会を実現するために,広告テキスト強度指標 (TSI) を提案する。 (i) 入力広告テキストのクリックスルーレート (CTR) を予測し, (ii) 類似の既存の広告をフェッチして入力広告の周辺に近づき、 (iii) 入力広告が強いか弱いかを判断するために, 近隣の予測されたCTRと比較する。 さらに、広告テキストの改善の提案として、TSIは近隣の優れた広告(高い予測CTR)の匿名化バージョンを示す。 i)広告テキストに関連するインプレッションやクリックに基づいて学習したBERTベースのテキスト・ツー・CTRモデルを提案する。 広告キャンペーン設定データから弱いラベルを用いて訓練した文-BERTに基づくセマンティック・アド・シミュラリティモデルを提案する。 オフライン実験により、私たちのBERTベースのテキスト・ツー・CTRモデルは、単語のベースラインと比較して、コールドスタート(新しい)広告主のためのCTR予測AUCにおいて、大幅に上昇することを示した。 さらに, 類似広告検索のセマンティック・テクスチュアル・類似性モデルでは, 0.93 の精度@1 (同一商品カテゴリから広告を取得する場合) を達成し, 教師なし TF-IDF, word2vec, sentence-BERT のベースラインに比べて有意に高い値を示した。 最後に、Yahoo(Verizon Media)広告プラットフォームの広告主による有望なオンライン結果を共有します。

Coming up with effective ad text is a time consuming process, and particularly challenging for small businesses with limited advertising experience. When an inexperienced advertiser onboards with a poorly written ad text, the ad platform has the opportunity to detect low performing ad text, and provide improvement suggestions. To realize this opportunity, we propose an ad text strength indicator (TSI) which: (i) predicts the click-through-rate (CTR) for an input ad text, (ii) fetches similar existing ads to create a neighborhood around the input ad, (iii) and compares the predicted CTRs in the neighborhood to declare whether the input ad is strong or weak. In addition, as suggestions for ad text improvement, TSI shows anonymized versions of superior ads (higher predicted CTR) in the neighborhood. For (i), we propose a BERT based text-to-CTR model trained on impressions and clicks associated with an ad text. For (ii), we propose a sentence-BERT based semantic-ad-similari ty model trained using weak labels from ad campaign setup data. Offline experiments demonstrate that our BERT based text-to-CTR model achieves a significant lift in CTR prediction AUC for cold start (new) advertisers compared to bag-of-words based baselines. In addition, our semantic-textual-sim ilarity model for similar ads retrieval achieves a precision@1 of 0.93 (for retrieving ads from the same product category); this is significantly higher compared to unsupervised TF-IDF, word2vec, and sentence-BERT baselines. Finally, we share promising online results from advertisers in the Yahoo (Verizon Media) ad platform where a variant of TSI was implemented with sub-second end-to-end latency.
翻訳日:2021-08-19 14:35:13 公開日:2021-08-18
# コラボレーションを学ぶ

Learning to Collaborate ( http://arxiv.org/abs/2108.07926v1 )

ライセンス: Link先を確認
Sen Cui, Jian Liang, Weishen Pan, Kun Chen, Changshui Zhang, Fei Wang(参考訳) 本稿では,複数のクライアントを用いた共同研究ネットワーク上での効果的な学習に着目する。 各クライアントには、プライバシ上の懸念から他のクライアントと共有されない、独自のサンプル人口がある。 目標は、ネットワーク内の他のクライアントとのセキュアなコラボレーションを通じて、自身のデータから学んだものよりもうまく動作する各クライアントのモデルを学ぶことだ。 異なるクライアントにまたがるサンプル分布の相違により、全員との共同作業が必ずしも最高のローカルモデルに繋がるとは限らない。 各クライアントがネットワーク内の特定のメンバとコラボレートして,ネットワーク内でより小さなコラボレーティブコラボレーティブを形成する"コラボレーティブ均衡"を実現するための,コラボレーティブフレームワークを提案する。 本稿では、各クライアントが他のクライアントと協調して得られる利益グラフを提案し、それを得るためにPareto最適化アプローチを開発する。 最後に、グラフ操作に基づいてコラボレーティブ・コラボレーティブを導出することができる。 私たちのフレームワークは、研究ネットワークにコラボレーションを設定する新しい方法を提供します。 提案手法の有効性を実証するために, 合成および実世界の両方のデータセットの実験を行った。

In this paper, we focus on effective learning over a collaborative research network involving multiple clients. Each client has its own sample population which may not be shared with other clients due to privacy concerns. The goal is to learn a model for each client, which behaves better than the one learned from its own data, through secure collaborations with other clients in the network. Due to the discrepancies of the sample distributions across different clients, it is not necessarily that collaborating with everyone will lead to the best local models. We propose a learning to collaborate framework, where each client can choose to collaborate with certain members in the network to achieve a "collaboration equilibrium", where smaller collaboration coalitions are formed within the network so that each client can obtain the model with the best utility. We propose the concept of benefit graph which describes how each client can benefit from collaborating with other clients and develop a Pareto optimization approach to obtain it. Finally the collaboration coalitions can be derived from it based on graph operations. Our framework provides a new way of setting up collaborations in a research network. Experiments on both synthetic and real world data sets are provided to demonstrate the effectiveness of our method.
翻訳日:2021-08-19 14:34:14 公開日:2021-08-18
# Fed-TGAN: 語彙データの合成のためのフェデレーション学習フレームワーク

Fed-TGAN: Federated Learning Framework for Synthesizing Tabular Data ( http://arxiv.org/abs/2108.07927v1 )

ライセンス: Link先を確認
Zilong Zhao, Robert Birke, Aditya Kunar, Lydia Y. Chen(参考訳) GAN(Generative Adversarial Networks)は通常、直接アクセス可能なトレーニングデータを想定して、画像やより最近の表データからデータを合成するために訓練される。 近年、FL(Federated Learning)は、クライアントのローカルデータの分散学習とプライバシ保護機能を備えた新興パラダイムである。 また,FLシステム上で画像を合成するためにGANを学習することが実証されているが,グラフデータのためのGANが分散データソースから学べるかどうかは不明である。 さらに、どの分散アーキテクチャが最適なのかは不明だ。 イメージGANと異なり、最先端のタブラGANでは、共通のエンコーディングに合意するために、各(離散かつ連続的な)カラムのデータ配布に関する事前の知識が必要です。 本稿では,タブラルガンのための最初のフェデレーション学習フレームワークであるFed-TGANを提案する。 非同一の参加者に対して、複雑な表型ganを効果的に学習するために、feed-tganは、(i)モデル初期化のためのプライバシー保護型マルチソース特徴エンコーディングと(ii)テーブル類似性を考慮した重み付け戦略という2つの新しい特徴をデザインする。 提案するfeed-tganを4つのデータセット上で分散学習アーキテクチャの変種に対して広範囲に評価した。 その結果,Fed-TGANはIIDおよび非IIDデータに対して,代替アーキテクチャと比較して,エポック毎のトレーニング時間を200%まで加速することがわかった。 全体として、Fed-TGANはトレーニング損失を安定化するだけでなく、生成されたデータと元のデータとの類似性を向上する。

Generative Adversarial Networks (GANs) are typically trained to synthesize data, from images and more recently tabular data, under the assumption of directly accessible training data. Recently, federated learning (FL) is an emerging paradigm that features decentralized learning on client's local data with a privacy-preserving capability. And, while learning GANs to synthesize images on FL systems has just been demonstrated, it is unknown if GANs for tabular data can be learned from decentralized data sources. Moreover, it remains unclear which distributed architecture suits them best. Different from image GANs, state-of-the-art tabular GANs require prior knowledge on the data distribution of each (discrete and continuous) column to agree on a common encoding -- risking privacy guarantees. In this paper, we propose Fed-TGAN, the first Federated learning framework for Tabular GANs. To effectively learn a complex tabular GAN on non-identical participants, Fed-TGAN designs two novel features: (i) a privacy-preserving multi-source feature encoding for model initialization; and (ii) table similarity aware weighting strategies to aggregate local models for countering data skew. We extensively evaluate the proposed Fed-TGAN against variants of decentralized learning architectures on four widely used datasets. Results show that Fed-TGAN accelerates training time per epoch up to 200% compared to the alternative architectures, for both IID and Non-IID data. Overall, Fed-TGAN not only stabilizes the training loss, but also achieves better similarity between generated and original data.
翻訳日:2021-08-19 14:33:57 公開日:2021-08-18
# 新しい半教師付き帰納学習フレームワーク:Co-Transfer

A new semi-supervised inductive transfer learning framework: Co-Transfer ( http://arxiv.org/abs/2108.07930v1 )

ライセンス: Link先を確認
Ze Yuan and Yimin Wen(参考訳) ネットワーク侵入検出、twitterスパム検出、コンピュータ支援診断など、多くの実用的なデータマイニングシナリオでは、ターゲットドメインと異なるが関連するソースドメインが一般的である。 さらに、ソースドメインとターゲットドメインの両方で大量のラベル付きデータが利用可能だが、ラベル付けは困難で、高価で、時間がかかり、場合によっては不要である。 したがって、ラベル付きおよびラベルなしのデータをソースドメインとターゲットドメインで完全に探索して、タスクをターゲットドメインで解決することは非常に重要で価値がある。 本稿では,半教師付き帰納的伝達学習フレームワーク \emph{co-transfer} を提案する。 Co-Transferは、まず、ソースドメインからターゲットドメインへの転送学習のための3つのTrAdaBoost分類器を生成し、一方、元のラベル付きデータからのブートストラップサンプルを使用して、ターゲットドメインからソースドメインへの転送学習のための3つのTrAdaBoost分類器を生成する。 共振器の各ラウンドにおいて、慎重にラベル付けされたデータを用いてTrAdaBoost分類器の各グループを洗練する。 最後に、ソースドメインからターゲットドメインへの転送を学習したtradaboost分類器のグループは、最終的な仮説を生成する。 実験の結果、共同転送は、ソースおよびターゲットドメインのラベル付きおよびラベル付きデータを効果的に活用し、再利用できることが示されている。

In many practical data mining scenarios, such as network intrusion detection, Twitter spam detection, and computer-aided diagnosis, a source domain that is different from but related to a target domain is very common. In addition, a large amount of unlabeled data is available in both source and target domains, but labeling each of them is difficult, expensive, time-consuming, and sometime unnecessary. Therefore, it is very important and worthwhile to fully explore the labeled and unlabeled data in source and target domains to settle the task in target domain. In this paper, a new semi-supervised inductive transfer learning framework, named \emph{Co-Transfer} is proposed. Co-Transfer first generates three TrAdaBoost classifiers for transfer learning from the source domain to the target domain, and meanwhile another three TrAdaBoost classifiers are generated for transfer learning from the target domain to the source domain, using bootstraped samples from the original labeled data. In each round of co-transfer, each group of TrAdaBoost classifiers are refined using the carefully labeled data. Finally, the group of TrAdaBoost classifiers learned to transfer from the source domain to the target domain produce the final hypothesis. Experiments results illustrate Co-Transfer can effectively exploit and reuse the labeled and unlabeled data in source and target domains.
翻訳日:2021-08-19 14:33:25 公開日:2021-08-18
# 確率的クラスタ埋め込み

Stochastic Cluster Embedding ( http://arxiv.org/abs/2108.08003v1 )

ライセンス: Link先を確認
Zhirong Yang, Yuwei Chen, Denis Sedov, Samuel Kaski, and Jukka Corander(参考訳) データアイテム間のペア方向の類似性を維持することを目的としたNeighbor Embedding(NE)が,データ視覚化に有効な原則であることが示された。 しかし、SNE(Stochastic Neighbor Embedding)のような現在最も優れたNE手法でさえ、データに強い信号が存在するにもかかわらず、クラスタのような大規模パターンを隠しておくことができる。 そこで本研究では,Neighbor Embeddingに基づくクラスタ可視化手法を提案する。 まず,非正規化Kulback-Leibler分散をスケールパラメータとして用いてSNEを一般化するNeighbor Embedding法を提案する。 このファミリーでは、より優れたクラスタ視覚化は、しばしばSNEに対応するものと異なるパラメータ値で現れる。 また,非同期確率ブロック座標を用いた効率的なソフトウェアを開発し,目的関数の新しいファミリーを最適化する。 実験結果から,本手法は最先端のNE手法と比較してデータクラスタの可視化を一貫して,実質的に改善することが示された。

Neighbor Embedding (NE) that aims to preserve pairwise similarities between data items has been shown to yield an effective principle for data visualization. However, even the currently best NE methods such as Stochastic Neighbor Embedding (SNE) may leave large-scale patterns such as clusters hidden despite of strong signals being present in the data. To address this, we propose a new cluster visualization method based on Neighbor Embedding. We first present a family of Neighbor Embedding methods which generalizes SNE by using non-normalized Kullback-Leibler divergence with a scale parameter. In this family, much better cluster visualizations often appear with a parameter value different from the one corresponding to SNE. We also develop an efficient software which employs asynchronous stochastic block coordinate descent to optimize the new family of objective functions. The experimental results demonstrate that our method consistently and substantially improves visualization of data clusters compared with the state-of-the-art NE approaches.
翻訳日:2021-08-19 14:33:02 公開日:2021-08-18
# 自己蒸留によるジョイントマルチインテント検出とスロット充填

Joint Multiple Intent Detection and Slot Filling via Self-distillation ( http://arxiv.org/abs/2108.08042v1 )

ライセンス: Link先を確認
Lisong Chen, Peilin Zhou and Yuexian Zou(参考訳) Intent Detection と slot fill は、自然言語理解(NLU)における2つの主要なタスクであり、発話からユーザのニーズを特定する。 この2つのタスクは高度に関連があり、しばしば共同でトレーニングされる。 しかし、以前の作品の多くは、各発話は一つの意図にしか対応しないと仮定しており、多くの場合、ユーザの発話には複数の意図が含まれる可能性があるという事実を無視している。 本稿では,多元NLUのための新しい自己蒸留結合型NLUモデル(SDJN)を提案する。 まず,マルチインテント検出を弱教師付き問題として定式化し,マルチインスタンス学習(MIL)によるアプローチを行う。 次に,初期スロットデコーダ,ミルインテントデコーダ,最終スロットデコーダの順に配置した3つのデコーダによる自己蒸留による補助ループを設計する。 各デコーダの出力は、次のデコーダの補助情報として機能する。 MIL Intent Decoderが提供する補助的知識を用いて、Final Slot Decoderを、ループを完了するためにInitial Slot Decoderに知識を与える教師モデルとして設定した。 補助ループにより、インテントとスロットが相互に奥行きを案内し、全体的なNLU性能をさらに向上させることができる。 2つの公開マルチインテリジェントデータセットに対する実験結果から,本モデルが他モデルと比較して高い性能を達成することが示された。

Intent detection and slot filling are two main tasks in natural language understanding (NLU) for identifying users' needs from their utterances. These two tasks are highly related and often trained jointly. However, most previous works assume that each utterance only corresponds to one intent, ignoring the fact that a user utterance in many cases could include multiple intents. In this paper, we propose a novel Self-Distillation Joint NLU model (SDJN) for multi-intent NLU. First, we formulate multiple intent detection as a weakly supervised problem and approach with multiple instance learning (MIL). Then, we design an auxiliary loop via self-distillation with three orderly arranged decoders: Initial Slot Decoder, MIL Intent Decoder, and Final Slot Decoder. The output of each decoder will serve as auxiliary information for the next decoder. With the auxiliary knowledge provided by the MIL Intent Decoder, we set Final Slot Decoder as the teacher model that imparts knowledge back to Initial Slot Decoder to complete the loop. The auxiliary loop enables intents and slots to guide mutually in-depth and further boost the overall NLU performance. Experimental results on two public multi-intent datasets indicate that our model achieves strong performance compared to others.
翻訳日:2021-08-19 14:32:36 公開日:2021-08-18
# 単眼全方位ステレオカメラのキャリブレーション方法

Calibration Method of the Monocular Omnidirectional Stereo Camera ( http://arxiv.org/abs/2108.07936v1 )

ライセンス: Link先を確認
Ryota Kawamata, Keiichi Betsui, Kazuyoshi Yamazaki, Rei Sakakibara, Takeshi Shimano(参考訳) コンパクトで低コストなデバイスは、360度の物体までの距離を画像化し測定するために必要だ。 我々は、2つの双曲鏡と1組のレンズとセンサーを利用した全方位ステレオカメラを開発しており、このカメラはコンパクトで低コストである。 我々は,高次半径歪み,詳細な接角歪み,画像センサの傾き,レンズミラーオフセットを考慮した新しいキャリブレーション法を確立した。 本手法では,上・下画像の校正誤差をそれぞれ6.0倍,4.3倍に削減する。 距離測定のランダム誤差は4.9%であり、体系的誤差は14メートル離れた物体まで5.7%であり、従来の方法と比べてほぼ9倍改善されている。 残りの誤差はプロトタイプの光学分解能の劣化によるものであり、今後の作業としてさらなる改善が計画されている。

Compact and low-cost devices are needed for autonomous driving to image and measure distances to objects 360-degree around. We have been developing an omnidirectional stereo camera exploiting two hyperbolic mirrors and a single set of a lens and sensor, which makes this camera compact and cost efficient. We establish a new calibration method for this camera considering higher-order radial distortion, detailed tangential distortion, an image sensor tilt, and a lens-mirror offset. Our method reduces the calibration error by 6.0 and 4.3 times for the upper- and lower-view images, respectively. The random error of the distance measurement is 4.9% and the systematic error is 5.7% up to objects 14 meters apart, which is improved almost nine times compared to the conventional method. The remaining distance errors is due to a degraded optical resolution of the prototype, which we plan to make further improvements as future work.
翻訳日:2021-08-19 14:31:27 公開日:2021-08-18
# プログラマブルマスクを用いた3次元レンズレスイメージングのための簡易フレームワーク

A Simple Framework for 3D Lensless Imaging with Programmable Masks ( http://arxiv.org/abs/2108.07966v1 )

ライセンス: Link先を確認
Yucheng Zheng, Yi Hua, Aswin C. Sankaranarayanan, M. Salman Asif(参考訳) レンズレスカメラは、従来のカメラのレンズをセンサーの近くに振幅または位相マスクで置き換えることで、薄膜イメージングシステムを構築するための枠組みを提供する。 既存のレンズレスイメージングの方法はシーンの深さと強度を回復するが、計算量的に拡大する逆問題を解く必要がある。 さらに,既存手法では深度変化が大きい密集したシーンの復元に苦慮している。 本稿では,プログラム可能なマスク上の異なるパターンを用いて,少数の計測値をキャプチャするレンズレスイメージングシステムを提案する。 この文脈では、私たちは3つの貢献をします。 まず,シーン内の一定数の深さ面上のテクスチャを復元する高速回復アルゴリズムを提案する。 第二に、プログラマブルレンズレスカメラにおけるマスク設計問題について検討し、奥行き推定を改善することを目的としてマスクパターンを最適化するための設計テンプレートを提供する。 第3に,ポストプロセッシングのステップとしてリファインメントネットワークを使用し,再構築時のアーティファクトの識別と削除を行う。 これらの修正は、レンズレスカメラのプロトタイプの実験結果とともに広範囲に評価され、最適化されたマスクとリカバリアルゴリズムのパフォーマンスの利点を示す。

Lensless cameras provide a framework to build thin imaging systems by replacing the lens in a conventional camera with an amplitude or phase mask near the sensor. Existing methods for lensless imaging can recover the depth and intensity of the scene, but they require solving computationally-expe nsive inverse problems. Furthermore, existing methods struggle to recover dense scenes with large depth variations. In this paper, we propose a lensless imaging system that captures a small number of measurements using different patterns on a programmable mask. In this context, we make three contributions. First, we present a fast recovery algorithm to recover textures on a fixed number of depth planes in the scene. Second, we consider the mask design problem, for programmable lensless cameras, and provide a design template for optimizing the mask patterns with the goal of improving depth estimation. Third, we use a refinement network as a post-processing step to identify and remove artifacts in the reconstruction. These modifications are evaluated extensively with experimental results on a lensless camera prototype to showcase the performance benefits of the optimized masks and recovery algorithms over the state of the art.
翻訳日:2021-08-19 14:31:13 公開日:2021-08-18
# SDRTVからHDRTVへの新たな旅

A New Journey from SDRTV to HDRTV ( http://arxiv.org/abs/2108.07978v1 )

ライセンス: Link先を確認
Xiangyu Chen, Zhengwen Zhang, Jimmy S. Ren, Lynhoo Tian, Yu Qiao, Chao Dong(参考訳) 現代のディスプレイは、ハイダイナミックレンジ(HDR)とワイドカラーガム(WCG)で映像コンテンツをレンダリングすることができる。 しかし、ほとんどの利用可能なリソースはまだ標準ダイナミックレンジ(sdr)にある。 そのため、既存のSDR-TVコンテンツをHDR-TVバージョンに変換する必要が迫られている。 本稿では,SDRTV/HDRTVコンテンツの形成をモデル化して,SDRTV-to-HDRTVタスクの分析を行う。 この分析に基づいて,適応的グローバルカラーマッピング,局所拡張,ハイライト生成を含む3段階のソリューションパイプラインを提案する。 さらに,画像対応カラーマッピングを行うためのガイダンスとして,グローバル統計を用いた軽量ネットワークを提案することを促す。 さらに,HDRTV1Kと命名されたHDR10標準のHDRビデオを用いたデータセットを構築し,SDRTV-to-HDRTVアルゴリズムの結果を評価するために5つの指標を選択する。 さらに,最終結果は定量的比較と視覚的品質で最先端のパフォーマンスを得ることができた。 コードとデータセットはhttps://github.com/c hxy95/hdrtvnetで入手できる。

Nowadays modern displays are capable to render video content with high dynamic range (HDR) and wide color gamut (WCG). However, most available resources are still in standard dynamic range (SDR). Therefore, there is an urgent demand to transform existing SDR-TV contents into their HDR-TV versions. In this paper, we conduct an analysis of SDRTV-to-HDRTV task by modeling the formation of SDRTV/HDRTV content. Base on the analysis, we propose a three-step solution pipeline including adaptive global color mapping, local enhancement and highlight generation. Moreover, the above analysis inspires us to present a lightweight network that utilizes global statistics as guidance to conduct image-adaptive color mapping. In addition, we construct a dataset using HDR videos in HDR10 standard, named HDRTV1K, and select five metrics to evaluate the results of SDRTV-to-HDRTV algorithms. Furthermore, our final results achieve state-of-the-art performance in quantitative comparisons and visual quality. The code and dataset are available at https://github.com/c hxy95/HDRTVNet.
翻訳日:2021-08-19 14:30:56 公開日:2021-08-18
# 新しい双方向教師なしドメイン適応セグメンテーションフレームワーク

A New Bidirectional Unsupervised Domain Adaptation Segmentation Framework ( http://arxiv.org/abs/2108.07979v1 )

ライセンス: Link先を確認
Munan Ning, Cheng Bian, Dong Wei, Chenglang Yuan, Yaohua Wang, Yang Guo, Kai Ma, Yefeng Zheng(参考訳) あるドメインでよく訓練されたディープラーニングモデルを別のターゲットドメインに適用する場合、モデルは通常、パフォーマンスが悪くなります。 この問題に対処するために,対象ドメインのアノテーションを使わずにモデル性能を向上させるために,異なるドメイン間のギャップを埋めるための教師なしドメイン適応(unsupervised domain adaptation:uda)手法を提案する。 特に,アノテーションの難易度が現実的な問題であるマルチモーダル医用画像解析において,udaは大きな価値を持っている。 しかし、既存のUDA法のほとんどは、1つの適応方向(例えば、MRIからCTへの)で満足な改善しか達成できないが、もう一方(CTからMRIへの)では性能が悪く、実用的使用が制限されている。 本稿では,両方向の UDA 演奏に対して,非交叉表現学習に基づく双方向 UDA (BiUDA) フレームワークを提案する。 このフレームワークは、ドメインコントローラを介して異なるドメイン内の画像を適応的にエンコードできるだけでなく、冗長パラメータを排除してモデル効率を向上させる、統合されたドメイン認識パターンエンコーダを使用する。 さらに、適応過程における入力画像の内容やパターンの歪みを避けるために、コンテンツパターン一貫性損失を導入する。 さらに, UDAセグメンテーションの性能向上のために, ターゲットドメインスタイルの画像と対応するソースドメインアノテーションを再コンパイルすることで, 余分な監視を提供するラベル一貫性戦略を提案する。 2つの公開データセットで行った比較実験とアブレーション研究は、我々のBiUDAフレームワークが現在のUDA手法よりも優れていることを示し、その新しい設計の有効性を示した。 私たちのBiUDAフレームワークは、双方向適応にうまく対処することで、現実のシナリオに UDA テクニックの柔軟なソリューションを提供します。

Domain shift happens in cross-domain scenarios commonly because of the wide gaps between different domains: when applying a deep learning model well-trained in one domain to another target domain, the model usually performs poorly. To tackle this problem, unsupervised domain adaptation (UDA) techniques are proposed to bridge the gap between different domains, for the purpose of improving model performance without annotation in the target domain. Particularly, UDA has a great value for multimodal medical image analysis, where annotation difficulty is a practical concern. However, most existing UDA methods can only achieve satisfactory improvements in one adaptation direction (e.g., MRI to CT), but often perform poorly in the other (CT to MRI), limiting their practical usage. In this paper, we propose a bidirectional UDA (BiUDA) framework based on disentangled representation learning for equally competent two-way UDA performances. This framework employs a unified domain-aware pattern encoder which not only can adaptively encode images in different domains through a domain controller, but also improve model efficiency by eliminating redundant parameters. Furthermore, to avoid distortion of contents and patterns of input images during the adaptation process, a content-pattern consistency loss is introduced. Additionally, for better UDA segmentation performance, a label consistency strategy is proposed to provide extra supervision by recomposing target-domain-styled images and corresponding source-domain annotations. Comparison experiments and ablation studies conducted on two public datasets demonstrate the superiority of our BiUDA framework to current state-of-the-art UDA methods and the effectiveness of its novel designs. By successfully addressing two-way adaptations, our BiUDA framework offers a flexible solution of UDA techniques to the real-world scenario.
翻訳日:2021-08-19 14:30:39 公開日:2021-08-18
# 屋内場面における教師なし学習によるパノラマ奥行き推定

Panoramic Depth Estimation via Supervised and Unsupervised Learning in Indoor Scenes ( http://arxiv.org/abs/2108.08076v1 )

ライセンス: Link先を確認
Keyang Zhou, Kailun Yang, Kaiwei Wang(参考訳) 2d画像を3d空間に変換するために必要な手がかりとして、深度推定が多くのマシンビジョン領域で適用されている。 しかし、周囲の360度の幾何学的センシングを実現するため、従来のステレオマッチングアルゴリズムは、大きなノイズ、低い精度、マルチカメラキャリブレーションの厳密な要求のために制限されている。 本研究では,パノラマ画像を導入し,より広い視野の視野を得る。 padenetを最初に拡張したのは,前回のアウトドアシーン理解のためのカンファレンスワークで,屋内シーンに焦点をあてたパノラマ単眼深度推定を行ったことです。 同時に,パノラマ画像の特徴に適応したニューラルネットワークの学習プロセスを改善する。 さらに,従来のステレオマッチングアルゴリズムをディープラーニング手法と融合させ,深度予測の精度をさらに向上させる。 本研究は, 総合的な実験により, 屋内シーン認識を目的とした提案手法の有効性を実証する。

Depth estimation, as a necessary clue to convert 2D images into the 3D space, has been applied in many machine vision areas. However, to achieve an entire surrounding 360-degree geometric sensing, traditional stereo matching algorithms for depth estimation are limited due to large noise, low accuracy, and strict requirements for multi-camera calibration. In this work, for a unified surrounding perception, we introduce panoramic images to obtain larger field of view. We extend PADENet first appeared in our previous conference work for outdoor scene understanding, to perform panoramic monocular depth estimation with a focus for indoor scenes. At the same time, we improve the training process of the neural network adapted to the characteristics of panoramic images. In addition, we fuse traditional stereo matching algorithm with deep learning methods and further improve the accuracy of depth predictions. With a comprehensive variety of experiments, this research demonstrates the effectiveness of our schemes aiming for indoor scene perception.
翻訳日:2021-08-19 14:30:08 公開日:2021-08-18
# 方向性TSDFのレンダリングと追跡:コヒーレントマップの表面配向のモデル化

Rendering and Tracking the Directional TSDF: Modeling Surface Orientation for Coherent Maps ( http://arxiv.org/abs/2108.08115v1 )

ライセンス: Link先を確認
Malte Splietker and Sven Behnke(参考訳) RGB-D画像からの高精細なリアルタイム追跡とマッピングは、ナビゲーションや把握といった多くのロボットアプリケーションにとって重要なツールである。 最近発表された Directional Truncated Signed Distance Function (DTSDF) は、通常のTSDFの拡張であり、よりコヒーレントなマップの可能性と追跡性能の向上を示している。 本研究では,DTSDFから深度マップとカラーマップを描画する手法を提案する。 我々は,この手法により画像の再現性が向上することを示す。 さらに,隣り合う面の色補正性が向上する色統合も追加する。

Dense real-time tracking and mapping from RGB-D images is an important tool for many robotic applications, such as navigation or grasping. The recently presented Directional Truncated Signed Distance Function (DTSDF) is an augmentation of the regular TSDF and shows potential for more coherent maps and improved tracking performance. In this work, we present methods for rendering depth- and color maps from the DTSDF, making it a true drop-in replacement for the regular TSDF in established trackers. We evaluate and show, that our method increases re-usability of mapped scenes. Furthermore, we add color integration which notably improves color-correctness at adjacent surfaces.
翻訳日:2021-08-19 14:29:53 公開日:2021-08-18
# 有効データ拡張とハードバウンダリボックストレーニングを用いたX線画像からの胃癌検出

Gastric Cancer Detection from X-ray Images Using Effective Data Augmentation and Hard Boundary Box Training ( http://arxiv.org/abs/2108.08158v1 )

ライセンス: Link先を確認
Hideaki Okamoto, Takakiyo Nomura, Kazuhito Nabeshima, Jun Hashimoto, Hitoshi Iyatomi(参考訳) X線検査は胃癌のスクリーニングに適している。 医師のみが行う内視鏡と比較して、X線撮影は放射線撮影者でも行うことができ、より多くの患者を治療することができる。 しかし, 胃X線像の診断精度は85%以下であった。 この問題に対処するためには,機械学習を用いた高精度かつ定量的な自動診断を行う必要がある。 本稿では,X線画像から胃癌部位を高精度に検出する診断支援手法を提案する。 本手法の2つの新しい技術的提案は,(1)確率関数型胃画像増強(sfGAIA)と(2)ハードバウンダリボックストレーニング(HBBT)である。 前者は医療知識に基づくX線画像における胃折りの確率的増強であり,後者は偽陽性を減少させる再帰的再トレーニング技術である。 臨床では145例の胃X線写真4,724例を使用し,5群クロスバリデーションの診断成績について検討した。 提案した sfGAIA と HBBT は,F1 スコアの5.9% で高効率なDet-D7 ネットワークの性能を著しく向上させ,胃癌のスクリーニング能力(F1:57.8%,リコール:90.2%,精度:42.5%)に到達した。

X-ray examination is suitable for screening of gastric cancer. Compared to endoscopy, which can only be performed by doctors, X-ray imaging can also be performed by radiographers, and thus, can treat more patients. However, the diagnostic accuracy of gastric radiographs is as low as 85%. To address this problem, highly accurate and quantitative automated diagnosis using machine learning needs to be performed. This paper proposes a diagnostic support method for detecting gastric cancer sites from X-ray images with high accuracy. The two new technical proposal of the method are (1) stochastic functional gastric image augmentation (sfGAIA), and (2) hard boundary box training (HBBT). The former is a probabilistic enhancement of gastric folds in X-ray images based on medical knowledge, whereas the latter is a recursive retraining technique to reduce false positives. We use 4,724 gastric radiographs of 145 patients in clinical practice and evaluate the cancer detection performance of the method in a patient-based five-group cross-validation. The proposed sfGAIA and HBBT significantly enhance the performance of the EfficientDet-D7 network by 5.9% in terms of the F1-score, and our screening method reaches a practical screening capability for gastric cancer (F1: 57.8%, recall: 90.2%, precision: 42.5%).
翻訳日:2021-08-19 14:29:42 公開日:2021-08-18
# 実行時最適化によるエッジAIデバイスにおける物体検出のためのディープニューラルネットワークの展開

Deployment of Deep Neural Networks for Object Detection on Edge AI Devices with Runtime Optimization ( http://arxiv.org/abs/2108.08166v1 )

ライセンス: Link先を確認
Lukas St\"acker, Juncong Fei, Philipp Heidenreich, Frank Bonarens, Jason Rambach, Didier Stricker, and Christoph Stiller(参考訳) 深層ニューラルネットワークは、検出性能を常に改善する新しいアルゴリズムによって、自動車のシーン理解においてますます重要になっている。 しかし、組み込み環境での経験やデプロイの必要性にはほとんど重点を置いていない。 そこで我々は,エッジaiプラットフォーム上に2つの代表的オブジェクト検出ネットワークを配置する事例研究を行う。 特に、画像ベースの2Dオブジェクト検出のためのRetinaNetと、LiDARベースの3Dオブジェクト検出のためのPointPillarsを考える。 利用可能なツールを考慮したPyTorchトレーニング環境からデプロイメント環境へのアルゴリズム変換に必要な変更について述べる。 我々は、TensorRTとTorchScriptの2つの異なるライブラリを用いて、デプロイされたDNNのランタイムを評価する。 実験では,畳み込み層に対するtensorrtと完全連結層に対するtorchscriptのわずかな利点を観察した。 また、デプロイ用に最適化されたセットアップを選択する際に、ランタイムとパフォーマンスのトレードオフを調査し、量子化が検出性能にほとんど影響を与えずにランタイムを著しく減少させるのを観察します。

Deep neural networks have proven increasingly important for automotive scene understanding with new algorithms offering constant improvements of the detection performance. However, there is little emphasis on experiences and needs for deployment in embedded environments. We therefore perform a case study of the deployment of two representative object detection networks on an edge AI platform. In particular, we consider RetinaNet for image-based 2D object detection and PointPillars for LiDAR-based 3D object detection. We describe the modifications necessary to convert the algorithms from a PyTorch training environment to the deployment environment taking into account the available tools. We evaluate the runtime of the deployed DNN using two different libraries, TensorRT and TorchScript. In our experiments, we observe slight advantages of TensorRT for convolutional layers and TorchScript for fully connected layers. We also study the trade-off between runtime and performance, when selecting an optimized setup for deployment, and observe that quantization significantly reduces the runtime while having only little impact on the detection performance.
翻訳日:2021-08-19 14:29:16 公開日:2021-08-18
# データオーバーフィット:コンテンツ認識機能変調によるコンパクトなニューラルビデオ配信

Overfitting the Data: Compact Neural Video Delivery via Content-aware Feature Modulation ( http://arxiv.org/abs/2108.08202v1 )

ライセンス: Link先を確認
Jiaming Liu, Ming Lu, Kaixin Chen, Xiaoqi Li, Shizun Wang, Zhaoqing Wang, Enhua Wu, Yurong Chen, Chuang Zhang, Ming Wu(参考訳) インターネットビデオ配信は、ここ数年で飛躍的な成長を遂げている。 しかし,映像配信システムの品質はインターネットの帯域幅に大きく依存する。 近年,ディープニューラルネットワーク(dnn)がビデオ配信の品質向上に利用されている。 これらの方法は、ビデオをチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。 クライアントはLRチャンクを超解き明かすためにモデルの推論を実行する。 その結果、ビデオを配信するために多数のモデルがストリーミングされる。 本稿では,まず,異なるチャンクのモデル間の関係を慎重に研究し,そのモデルをニューラルビデオ配信のために圧縮するために,コンテンツ対応特徴変調(CaFM)レイヤとともに協調トレーニングフレームワークを設計する。 {\bf 我々の方法では、各ビデオチャンクはストリーミングされる元のパラメータの1\%未満しか必要とせず、より優れたSR性能を達成する。 本手法の利点を示すため,様々なSRバックボーン,ビデオ時間長,スケーリング因子について広範な実験を行った。 また,本手法はビデオ符号化の新たなアプローチと見なすこともできる。 提案手法は,H.264規格とH.265規格を同一のストレージコストで比較した場合,ビデオ品質が向上することを示す。 コードは以下の通り。\url{https://github.com/N eural-video-delivery /CaFM-Pytorch-ICCV20 21}

Internet video delivery has undergone a tremendous explosion of growth over the past few years. However, the quality of video delivery system greatly depends on the Internet bandwidth. Deep Neural Networks (DNNs) are utilized to improve the quality of video delivery recently. These methods divide a video into chunks, and stream LR video chunks and corresponding content-aware models to the client. The client runs the inference of models to super-resolve the LR chunks. Consequently, a large number of models are streamed in order to deliver a video. In this paper, we first carefully study the relation between models of different chunks, then we tactfully design a joint training framework along with the Content-aware Feature Modulation (CaFM) layer to compress these models for neural video delivery. {\bf With our method, each video chunk only requires less than $1\% $ of original parameters to be streamed, achieving even better SR performance.} We conduct extensive experiments across various SR backbones, video time length, and scaling factors to demonstrate the advantages of our method. Besides, our method can be also viewed as a new approach of video coding. Our primary experiments achieve better video quality compared with the commercial H.264 and H.265 standard under the same storage cost, showing the great potential of the proposed method. Code is available at:\url{https://github.com/N eural-video-delivery /CaFM-Pytorch-ICCV20 21}
翻訳日:2021-08-19 14:28:59 公開日:2021-08-18
# MBRS : 実数値とシミュレーションJPEG圧縮のミニバッチによるDNNによる透かしのロバスト性向上

MBRS : Enhancing Robustness of DNN-based Watermarking by Mini-Batch of Real and Simulated JPEG Compression ( http://arxiv.org/abs/2108.08211v1 )

ライセンス: Link先を確認
Zhaoyang Jia, Han Fang, Weiming Zhang(参考訳) ディープラーニングアーキテクチャの強力な特徴抽出能力に基づいて,近年,ディープラーニングに基づく透かしアルゴリズムが広く研究されている。 このようなアルゴリズムの基本的なフレームワークは、エンコーダ、ノイズ層、デコーダを備えたエンドツーエンドアーキテクチャのような自動エンコーダである。 強靭性を保証する鍵は、差動ノイズ層による敵の訓練である。 しかし,既存のフレームワークではJPEG圧縮に対する堅牢性を十分に保証できないことがわかった。 このような制約に対処するため,我々は,最小バッチ・オブ・リアルおよびシミュレートされたJPEG圧縮(MBRS)を用いてJPEGのロバスト性を向上させる新しいエンドツーエンドトレーニングアーキテクチャを提案する。 正確には、異なるミニバッチに対して、実JPEGの1つをランダムに選択し、JPEGとノイズフリー層をノイズ層としてシミュレートする。 また,ステージの埋め込みと抽出において優れた特徴を学習可能な絞り出しブロックの利用を推奨し,メッセージをより理解しやすい方法で拡張する「メッセージプロセッサ」を提案する。 一方,作物攻撃に対するロバスト性を改善するため,ネットワークに付加的な拡散ブロックを提案する。 実験結果から,提案手法は最先端のアルゴリズムに比べて優れた性能を示した。 Q=50のJPEG圧縮では、抽出されたメッセージに対して0.01%未満のビット誤り率を達成し、符号化された画像に対しては36以上のPSNRを達成し、JPEG攻撃に対する堅牢性を示す。 さらに, ガウスフィルター, 作物, 作出, 投棄などの他の多くの歪みの下でも, 提案手法は強い強靭性が得られる。 PyTorch \cite{ 2011torch7} によって実装されたコードは https://github.com/j zyustc/MBRS で利用可能である。

Based on the powerful feature extraction ability of deep learning architecture, recently, deep-learning based watermarking algorithms have been widely studied. The basic framework of such algorithm is the auto-encoder like end-to-end architecture with an encoder, a noise layer and a decoder. The key to guarantee robustness is the adversarial training with the differential noise layer. However, we found that none of the existing framework can well ensure the robustness against JPEG compression, which is non-differential but is an essential and important image processing operation. To address such limitations, we proposed a novel end-to-end training architecture, which utilizes Mini-Batch of Real and Simulated JPEG compression (MBRS) to enhance the JPEG robustness. Precisely, for different mini-batches, we randomly choose one of real JPEG, simulated JPEG and noise-free layer as the noise layer. Besides, we suggest to utilize the Squeeze-and-Excitati on blocks which can learn better feature in embedding and extracting stage, and propose a "message processor" to expand the message in a more appreciate way. Meanwhile, to improve the robustness against crop attack, we propose an additive diffusion block into the network. The extensive experimental results have demonstrated the superior performance of the proposed scheme compared with the state-of-the-art algorithms. Under the JPEG compression with quality factor Q=50, our models achieve a bit error rate less than 0.01% for extracted messages, with PSNR larger than 36 for the encoded images, which shows the well-enhanced robustness against JPEG attack. Besides, under many other distortions such as Gaussian filter, crop, cropout and dropout, the proposed framework also obtains strong robustness. The code implemented by PyTorch \cite{2011torch7} is avaiable in https://github.com/j zyustc/MBRS.
翻訳日:2021-08-19 14:28:39 公開日:2021-08-18
# 強化学習コーチの派遣による都市走行の終末化

End-to-End Urban Driving by Imitating a Reinforcement Learning Coach ( http://arxiv.org/abs/2108.08265v1 )

ライセンス: Link先を確認
Zhejun Zhang, Alexander Liniger, Dengxin Dai, Fisher Yu, Luc Van Gool(参考訳) エンドツーエンドの自動運転アプローチは、一般的に専門家によるデモンストレーションに依存している。 人間は良いドライバーだが、警察の監督を強く要求するエンドツーエンドのアルゴリズムのコーチには向いていない。 それとは対照的に、特権情報を活用する自動化専門家は、政治や政治外の大規模なデモを効率的に生成することができる。 しかし、既存の都市運転自動化の専門家は、手作りのルールを多用し、地味な情報を利用できる運転シミュレータでも最適に実行している。 これらの課題に対処するため,鳥眼視画像を低レベルの連続的な行動にマッピングする強化学習専門家を訓練した。 CARLAに新たなパフォーマンスをアップバウンドに設定する一方で、私たちの専門家は、模倣学習エージェントから学ぶための情報的監視信号を提供する優れたコーチです。 我々の強化学習コーチによって監督され、単眼カメラ入力のベースラインエンドツーエンドエージェントは、専門家レベルのパフォーマンスを達成する。 我々のエンドツーエンドエージェントは、新しい町に一般化しながら78%の成功率を獲得し、NoCrash-denseベンチマークで新しい天気と、より困難なCARLA LeaderBoard上での最先端のパフォーマンスを実現しています。

End-to-end approaches to autonomous driving commonly rely on expert demonstrations. Although humans are good drivers, they are not good coaches for end-to-end algorithms that demand dense on-policy supervision. On the contrary, automated experts that leverage privileged information can efficiently generate large scale on-policy and off-policy demonstrations. However, existing automated experts for urban driving make heavy use of hand-crafted rules and perform suboptimally even on driving simulators, where ground-truth information is available. To address these issues, we train a reinforcement learning expert that maps bird's-eye view images to continuous low-level actions. While setting a new performance upper-bound on CARLA, our expert is also a better coach that provides informative supervision signals for imitation learning agents to learn from. Supervised by our reinforcement learning coach, a baseline end-to-end agent with monocular camera-input achieves expert-level performance. Our end-to-end agent achieves a 78% success rate while generalizing to a new town and new weather on the NoCrash-dense benchmark and state-of-the-art performance on the more challenging CARLA LeaderBoard.
翻訳日:2021-08-19 14:28:09 公開日:2021-08-18
# マルチフレーム超解像のディープリパラメトリゼーションとデノジング

Deep Reparametrization of Multi-Frame Super-Resolution and Denoising ( http://arxiv.org/abs/2108.08286v1 )

ライセンス: Link先を確認
Goutam Bhat and Martin Danelljan and Fisher Yu and Luc Van Gool and Radu Timofte(参考訳) 本稿では,多フレーム画像復元作業によく用いられる最大後部定式化の深部再パラメータ化を提案する。 提案手法は,MAP目標を深い特徴空間に変換する学習された誤差メトリックと,対象画像の潜時表現を導入することによって導かれる。 深い再パラメータ化により、潜在空間における画像形成過程を直接モデル化し、学習済みの画像を予測に統合することができる。 提案手法はディープラーニングの利点を生かし,古典的MAP定式化による多フレーム融合の利点も生かしている。 我々は,バーストデニュージングとバーストスーパーレゾリューションデータセットに関する包括的な実験を通じて,このアプローチを検証する。 提案手法は,提案手法の汎用性と有効性を示すため,両タスクに新たな最先端を設定する。

We propose a deep reparametrization of the maximum a posteriori formulation commonly employed in multi-frame image restoration tasks. Our approach is derived by introducing a learned error metric and a latent representation of the target image, which transforms the MAP objective to a deep feature space. The deep reparametrization allows us to directly model the image formation process in the latent space, and to integrate learned image priors into the prediction. Our approach thereby leverages the advantages of deep learning, while also benefiting from the principled multi-frame fusion provided by the classical MAP formulation. We validate our approach through comprehensive experiments on burst denoising and burst super-resolution datasets. Our approach sets a new state-of-the-art for both tasks, demonstrating the generality and effectiveness of the proposed formulation.
翻訳日:2021-08-19 14:27:51 公開日:2021-08-18
# 未知のダイナミクスでネットワーク結合サブシステムを制御することを学ぶためのスケーラブルな後悔

Scalable regret for learning to control network-coupled subsystems with unknown dynamics ( http://arxiv.org/abs/2108.07970v1 )

ライセンス: Link先を確認
Sagar Sudhakara and Aditya Mahajan and Ashutosh Nayyar and Yi Ouyang(参考訳) ネットワーク上に接続された複数のサブシステムからなる未知の線形二次ガウスシステム(LQG)を制御する問題を考える。 私たちのゴールは後悔の最小化と定量化です。 システムモデルを知っているオラクルに対する当社の戦略の損失)。 相互接続されたサブシステムを見て、グローバルシステムのために既存のlqg学習アルゴリズムを直接使用すると、サブシステム数とスーパーリニアに増大する後悔が生じる。 そこで本研究では,基礎となるネットワーク構造を利用した新しいトンプソンサンプリング学習アルゴリズムを提案する。 提案アルゴリズムの期待された後悔は、$\tilde{\mathcal{O}} \big(n \sqrt{T} \big)$、$n$はサブシステムの数、$T$は時間軸、$\tilde{\mathcal{O}}(\cdot)$表記は$n$と$T$の対数項を隠していることを示す。 したがって、後悔はサブシステムの数と線形にスケールする。 本稿では,提案アルゴリズムの健全性を示す数値実験について述べる。

We consider the problem of controlling an unknown linear quadratic Gaussian (LQG) system consisting of multiple subsystems connected over a network. Our goal is to minimize and quantify the regret (i.e. loss in performance) of our strategy with respect to an oracle who knows the system model. Viewing the interconnected subsystems globally and directly using existing LQG learning algorithms for the global system results in a regret that increases super-linearly with the number of subsystems. Instead, we propose a new Thompson sampling based learning algorithm which exploits the structure of the underlying network. We show that the expected regret of the proposed algorithm is bounded by $\tilde{\mathcal{O}} \big( n \sqrt{T} \big)$ where $n$ is the number of subsystems, $T$ is the time horizon and the $\tilde{\mathcal{O}}(\cdot)$ notation hides logarithmic terms in $n$ and $T$. Thus, the regret scales linearly with the number of subsystems. We present numerical experiments to illustrate the salient features of the proposed algorithm.
翻訳日:2021-08-19 14:27:38 公開日:2021-08-18
# 新しい計算プラットフォーム上での収束ダイナミクスによる非線形自己回帰

Nonlinear Autoregression with Convergent Dynamics on Novel Computational Platforms ( http://arxiv.org/abs/2108.08001v1 )

ライセンス: Link先を確認
J. Chen and H. I. Nurdin(参考訳) 非線形確率モデリングは複雑な工学システムを記述するのに有用である。 一方、ニューロモルフィック(脳にインスパイアされた)コンピューティングパラダイムは、デジタルコンピュータ上で困難でリソース集約的なタスクに取り組むために開発されている。 時間情報処理に非線形力学系を利用する貯水池計算が新しい手法である。 本稿では, 定常・エルゴード無限次非線形自己回帰モデルとして出力フィードバックを持つ貯留層コンピュータを提案する。 我々は、古典的および量子貯水池コンピュータを用いて合成および実データ集合をモデル化し、制御応用の可能性を探ることによるこのアプローチの汎用性を強調した。

Nonlinear stochastic modeling is useful for describing complex engineering systems. Meanwhile, neuromorphic (brain-inspired) computing paradigms are developing to tackle tasks that are challenging and resource intensive on digital computers. An emerging scheme is reservoir computing which exploits nonlinear dynamical systems for temporal information processing. This paper introduces reservoir computers with output feedback as stationary and ergodic infinite-order nonlinear autoregressive models. We highlight the versatility of this approach by employing classical and quantum reservoir computers to model synthetic and real data sets, further exploring their potential for control applications.
翻訳日:2021-08-19 14:27:15 公開日:2021-08-18
# 限定的否定によるフェデレーションと勧告の学習

Learning Federated Representations and Recommendations with Limited Negatives ( http://arxiv.org/abs/2108.07931v1 )

ライセンス: Link先を確認
Lin Ning, Karan Singhal, Ellie X. Zhou, Sushant Prakash(参考訳) ディープ検索モデルは、エンティティ表現とレコメンデーションの学習に広く利用されている。 フェデレーション学習は、ユーザデータの集中化を必要とせずに、これらのモデルをトレーニングするためのプライバシ保護方法を提供する。 しかしながら、連合深層検索モデルは、通常、非iid(独立かつ同一分散)なクライアントのトレーニングデータ、つまりトレーニングに利用可能な負数を制限する連合学習の本質的特性によって、集中型検索モデルよりもずっと悪い結果をもたらす。 この問題は、一般的に研究されているクライアントドリフト問題とは異なっている。 本研究は,フェデレート映画推薦における非iid否定問題を軽減する方法として,バッチ非感受性ロスを提案する。 本研究では,重畳型深層検索モデルの性能を効果的に向上させ,重畳型モデルのリコール率を最大93.15%向上させ,リコールと集中型モデルとの相対的ギャップを27.22%から43.14%から0.53%から2.42%に削減できることを示す。 我々は、フェデレートされたディープ検索モデルのさらなる研究と応用を促進するために、コードフレームワークをオープンソース化した。

Deep retrieval models are widely used for learning entity representations and recommendations. Federated learning provides a privacy-preserving way to train these models without requiring centralization of user data. However, federated deep retrieval models usually perform much worse than their centralized counterparts due to non-IID (independent and identically distributed) training data on clients, an intrinsic property of federated learning that limits negatives available for training. We demonstrate that this issue is distinct from the commonly studied client drift problem. This work proposes batch-insensitive losses as a way to alleviate the non-IID negatives issue for federated movie recommendation. We explore a variety of techniques and identify that batch-insensitive losses can effectively improve the performance of federated deep retrieval models, increasing the relative recall of the federated model by up to 93.15% and reducing the relative gap in recall between it and a centralized model from 27.22% - 43.14% to 0.53% - 2.42%. We open-source our code framework to accelerate further research and applications of federated deep retrieval models.
翻訳日:2021-08-19 14:26:50 公開日:2021-08-18
# 入力量子化による低次元入力ニューラルネットワークの検証

Verifying Low-dimensional Input Neural Networks via Input Quantization ( http://arxiv.org/abs/2108.07961v1 )

ライセンス: Link先を確認
Kai Jia, Martin Rinard(参考訳) ディープニューラルネットワークは、空中衝突回避システム(ACAS)のようなシステムにおける制御ポリシールックアップテーブルを圧縮するための魅力的なツールである。 このようなニューラルコントローラの安全性を保証するためには,検証技術が不可欠である。 ACAS Xuネットワークを解析する問題は、多くの成功したニューラルネットワーク検証を動機付けている。 これらの検証器は通常、ニューラルネットワークの内部計算を分析して、入出力に関する特性が保持するかどうかを決定する。 ニューラルネットワーク計算の本質的な複雑さは、このような検証器の実行が遅く、浮動小数点誤差に弱いことをレンダリングする。 本稿では,ACAS Xu ネットワーク検証の当初の問題を再考する。 ネットワークは、事前計算されたルックアップテーブルによって提供されるトレーニングデータで低次元の感覚入力を受信する。 入力量子化層をネットワークに重ねることを提案する。 量子化は入力状態列挙による効率的な検証を可能にし、その複雑性は量子化空間のサイズによって制限される。 量子化は実行時に最も近い隣り合う補間と等価であり、シミュレーションにおけるACASの許容精度が示されている。 さらに,提案手法は,対象とする推論実装のネットワーク出力を直接列挙したり,対象実装の正確なシミュレーションを行う場合,浮動小数点誤差に対する正確な検証結果を提供できる。

Deep neural networks are an attractive tool for compressing the control policy lookup tables in systems such as the Airborne Collision Avoidance System (ACAS). It is vital to ensure the safety of such neural controllers via verification techniques. The problem of analyzing ACAS Xu networks has motivated many successful neural network verifiers. These verifiers typically analyze the internal computation of neural networks to decide whether a property regarding the input/output holds. The intrinsic complexity of neural network computation renders such verifiers slow to run and vulnerable to floating-point error. This paper revisits the original problem of verifying ACAS Xu networks. The networks take low-dimensional sensory inputs with training data provided by a precomputed lookup table. We propose to prepend an input quantization layer to the network. Quantization allows efficient verification via input state enumeration, whose complexity is bounded by the size of the quantization space. Quantization is equivalent to nearest-neighbor interpolation at run time, which has been shown to provide acceptable accuracy for ACAS in simulation. Moreover, our technique can deliver exact verification results immune to floating-point error if we directly enumerate the network outputs on the target inference implementation or on an accurate simulation of the target implementation.
翻訳日:2021-08-19 14:26:22 公開日:2021-08-18
# 非定常時系列に対する一般化最適化戦略を用いた構造パラメータ最適化カーネルオンライン予測

Structure Parameter Optimized Kernel Based Online Prediction with a Generalized Optimization Strategy for Nonstationary Time Series ( http://arxiv.org/abs/2108.08180v1 )

ライセンス: Link先を確認
Jinhua Guo, Hao Chen, Jingxin Zhang and Sheng Chen(参考訳) 本稿では,非定常時系列に対して,再現カーネルHilbert空間におけるオンライン予測アルゴリズムのスパーシフィケーション手法について検討する。 オンライン予測アルゴリズムは、通常、カーネル構造パラメータの選択とカーネル重みベクトルの更新で構成される。 構造パラメータについて、カーネル辞書はオンラインの選択的モデリング基準を持ついくつかのスパーシフィケーション手法によって選択され、さらに共分散行列適応進化戦略(cma-es)に照らしてカーネル共分散行列が断続的に最適化される。 実対称共分散行列の最適化は、入力変数の相互関連性によってカーネル構造の柔軟性を向上させるだけでなく、非定常時系列に対するカーネル辞書選択による予測の不確実性を部分的に緩和する。 予測エラー時系列の基盤となる動的特性を十分に把握するために,複数のカーネル接続モードで逐次的にカーネル辞書を構築するための最適化戦略を考案した。 一般化された最適化戦略は、カーネル接続全体を構築するためのより自己完結した方法を提供する。 数値シミュレーションにより,提案手法は非定常時系列の予測性能に優れることが示された。

In this paper, sparsification techniques aided online prediction algorithms in a reproducing kernel Hilbert space are studied for nonstationary time series. The online prediction algorithms as usual consist of the selection of kernel structure parameters and the kernel weight vector updating. For structure parameters, the kernel dictionary is selected by some sparsification techniques with online selective modeling criteria, and moreover the kernel covariance matrix is intermittently optimized in the light of the covariance matrix adaptation evolution strategy (CMA-ES). Optimizing the real symmetric covariance matrix can not only improve the kernel structure's flexibility by the cross relatedness of the input variables, but also partly alleviate the prediction uncertainty caused by the kernel dictionary selection for nonstationary time series. In order to sufficiently capture the underlying dynamic characteristics in prediction-error time series, a generalized optimization strategy is designed to construct the kernel dictionary sequentially in multiple kernel connection modes. The generalized optimization strategy provides a more self-contained way to construct the entire kernel connections, which enhances the ability to adaptively track the changing dynamic characteristics. Numerical simulations have demonstrated that the proposed approach has superior prediction performance for nonstationary time series.
翻訳日:2021-08-19 14:26:01 公開日:2021-08-18
# 回折光ネットワークを用いた空間重なり位相画像の分類と再構成

Classification and reconstruction of spatially overlapping phase images using diffractive optical networks ( http://arxiv.org/abs/2108.07977v1 )

ライセンス: Link先を確認
Deniz Mengu, Muhammed Veli, Yair Rivenson, Aydogan Ozcan(参考訳) 回折光学ネットワークは、光が入力から出力面に伝播するにつれて、波動光学と深層学習を統合し、所定の機械学習または計算画像タスクを全光学的に計算する。 本稿では,空間重複位相符号化物体の分類と再構成のための回折光ネットワークの設計について報告する。 2つの異なる位相のみの物体が空間的に重なり合うと、個々の対象関数は位相パターンが総和されるので摂動する。 重なり合う位相分布のみから基底となる位相像を検索することは難題であり、その解は一般に一意的ではない。 タスク固有のトレーニングプロセスを通じて,連続した透過層からなるパッシブ回折ネットワークは,入力時に2つの異なるランダム選択された位相画像を同時に分類できることを示す。 MNISTデータセットから5億5000万の位相符号化された手書き文字のユニークな組み合わせを訓練した結果、新しい手書き文字の2つの重ね合わせの位相画像の全光学的分類において、回折ネットワークが85.8%の精度で達成できることが判明した。 重なり合う位相オブジェクトの完全な光学的分類に加えて、これらの位相画像は、空間的重複と関連する位相あいまいさにもかかわらず、位相画像の両方を高速に再構成するために、拡散性ネットワークの高度に圧縮された出力(例えば、20〜65倍のピクセル数)を入力として使用する浅い電子ニューラルネットワークに基づいて再構成される。 提示された位相画像分類および再構成フレームワークは、例えば計算画像、顕微鏡、定量的位相画像分野に応用される可能性がある。

Diffractive optical networks unify wave optics and deep learning to all-optically compute a given machine learning or computational imaging task as the light propagates from the input to the output plane. Here, we report the design of diffractive optical networks for the classification and reconstruction of spatially overlapping, phase-encoded objects. When two different phase-only objects spatially overlap, the individual object functions are perturbed since their phase patterns are summed up. The retrieval of the underlying phase images from solely the overlapping phase distribution presents a challenging problem, the solution of which is generally not unique. We show that through a task-specific training process, passive diffractive networks composed of successive transmissive layers can all-optically and simultaneously classify two different randomly-selected, spatially overlapping phase images at the input. After trained with ~550 million unique combinations of phase-encoded handwritten digits from the MNIST dataset, our blind testing results reveal that the diffractive network achieves an accuracy of >85.8% for all-optical classification of two overlapping phase images of new handwritten digits. In addition to all-optical classification of overlapping phase objects, we also demonstrate the reconstruction of these phase images based on a shallow electronic neural network that uses the highly compressed output of the diffractive network as its input (with e.g., ~20-65 times less number of pixels) to rapidly reconstruct both of the phase images, despite their spatial overlap and related phase ambiguity. The presented phase image classification and reconstruction framework might find applications in e.g., computational imaging, microscopy and quantitative phase imaging fields.
翻訳日:2021-08-19 14:25:41 公開日:2021-08-18
# 幾何学的インフォームド非可逆摂動によるランゲヴィン力学の加速収束

Geometry-informed irreversible perturbations for accelerated convergence of Langevin dynamics ( http://arxiv.org/abs/2108.08247v1 )

ライセンス: Link先を確認
Benjamin J. Zhang, Youssef M. Marzouk, Konstantinos Spiliopoulos(参考訳) ベイズ計算のためのランゲヴィンアルゴリズムの収束を加速する新しい幾何学的不変摂動を導入する。 ランゲヴィン力学には、その収束を加速しながら不変測度を保存する摂動が存在することがよく文書化されている。 可逆摂動と可逆摂動(例えばリーマン多様体ランゲヴィンダイナミクス(RMLD))は別々に示されており、ランゲヴィンサンプリング器の性能を向上させる。 我々は,これら2つの摂動を同時に考慮し,rmld に対する可逆摂動の新たな形態を基礎となる幾何学から知らしめることによって考察する。 数値例を通して, この新しい非可逆摂動は, 幾何学を考慮しない可逆摂動よりも, 推定器の性能を向上できることを示した。 さらに, 一般の可逆摂動はランジュバンアルゴリズムの確率的勾配バージョンと連動して実装できることを示した。 最後に、連続時間非可逆摂動はランジュバン推定器の性能を損なうことはないが、離散化を考えると状況がより複雑になることがある。 そこで,本研究では,非可逆性が生成する推定子のバイアスと分散を増加させる離散時間例について述べる。

We introduce a novel geometry-informed irreversible perturbation that accelerates convergence of the Langevin algorithm for Bayesian computation. It is well documented that there exist perturbations to the Langevin dynamics that preserve its invariant measure while accelerating its convergence. Irreversible perturbations and reversible perturbations (such as Riemannian manifold Langevin dynamics (RMLD)) have separately been shown to improve the performance of Langevin samplers. We consider these two perturbations simultaneously by presenting a novel form of irreversible perturbation for RMLD that is informed by the underlying geometry. Through numerical examples, we show that this new irreversible perturbation can improve performance of the estimator over reversible perturbations that do not take the geometry into account. Moreover we demonstrate that irreversible perturbations generally can be implemented in conjunction with the stochastic gradient version of the Langevin algorithm. Lastly, while continuous-time irreversible perturbations cannot impair the performance of a Langevin estimator, the situation can sometimes be more complicated when discretization is considered. To this end, we describe a discrete-time example in which irreversibility increases both the bias and variance of the resulting estimator.
翻訳日:2021-08-19 14:25:10 公開日:2021-08-18
# ReLUアクティベーションを有する人工ニューラルネットワークのトレーニングにおける勾配流の存在, 特異性, 収束率

Existence, uniqueness, and convergence rates for gradient flows in the training of artificial neural networks with ReLU activation ( http://arxiv.org/abs/2108.08106v1 )

ライセンス: Link先を確認
Simon Eberle, Arnulf Jentzen, Adrian Riekert, Georg S. Weiss(参考訳) 勾配降下(GD)型最適化スキームによる整流線形単位(ReLU)アクティベーションを用いた人工ニューラルネットワーク(ANN)のトレーニングは、今日では産業的にも一般的な方法である。 科学文献では、ReLUアクティベーションを伴うANNのトレーニングにおいて、GD型最適化スキームの数値的な成功を説明する数学的収束解析は一般的に存在しない。 GD型最適化スキームは、検討された最適化問題に関連する勾配流(GF)微分方程式の時間的離散化法とみなすことができ、この観点からは、まず、時間連続GF微分方程式の数学的収束理論を開発し、その後、そのような時間連続GD型最適化理論を実装可能な時間離散GD型最適化法に拡張することを目的とした研究の自然な方向であると考えられる。 本稿では,全連結フィードフォワード ann の学習における gf 微分方程式の2つの基礎的結果と relu 活性化について述べる。 本論文の第一の主結果では,教師付き学習問題の入力データの確率分布が,各gf微分方程式が各初期値に対して許容する有界密度関数により絶対連続であるという仮定のもとに,そのようなアンスの訓練を行う。 本論文の第2の主旨は、入力データの確率分布の目標関数と密度関数が分割多項式であり、すべての非分散gf軌道が適切な収束率で臨界点に収束し、非分散gf軌道のリスクが臨界点のリスクに率1に収束するということを仮定して、そのようなアンスを訓練することである。

The training of artificial neural networks (ANNs) with rectified linear unit (ReLU) activation via gradient descent (GD) type optimization schemes is nowadays a common industrially relevant procedure. Till this day in the scientific literature there is in general no mathematical convergence analysis which explains the numerical success of GD type optimization schemes in the training of ANNs with ReLU activation. GD type optimization schemes can be regarded as temporal discretization methods for the gradient flow (GF) differential equations associated to the considered optimization problem and, in view of this, it seems to be a natural direction of research to first aim to develop a mathematical convergence theory for time-continuous GF differential equations and, thereafter, to aim to extend such a time-continuous convergence theory to implementable time-discrete GD type optimization methods. In this article we establish two basic results for GF differential equations in the training of fully-connected feedforward ANNs with one hidden layer and ReLU activation. In the first main result of this article we establish in the training of such ANNs under the assumption that the probability distribution of the input data of the considered supervised learning problem is absolutely continuous with a bounded density function that every GF differential equation admits for every initial value a solution which is also unique among a suitable class of solutions. In the second main result of this article we prove in the training of such ANNs under the assumption that the target function and the density function of the probability distribution of the input data are piecewise polynomial that every non-divergent GF trajectory converges with an appropriate rate of convergence to a critical point and that the risk of the non-divergent GF trajectory converges with rate 1 to the risk of the critical point.
翻訳日:2021-08-19 14:24:48 公開日:2021-08-18
# グラフニューラルネットワークによる電力グリッドの動的安定性予測

Predicting Dynamic Stability of Power Grids using Graph Neural Networks ( http://arxiv.org/abs/2108.08230v1 )

ライセンス: Link先を確認
Christian Nauck, Michael Lindner, Konstantin Sch\"urholt, Haoming Zhang, Paul Schultz, J\"urgen Kurths, Ingrid Isenhardt and Frank Hellmann(参考訳) 電力グリッドの動的安定性の予測は、その分散構造、慣性およびボラティリティの低減による再生可能エネルギー源の共有の増加により、より重要で困難になる。 本研究では, 単一ノード盆地安定性(SNBS)を指標として, 複雑な電力系統における同期の動的安定性を予測するため, グラフニューラルネットワーク(GNN)の適用の可能性を検討する。 そのため,20ノードと100ノードからなるグリッド用の合成データセットを2つ生成し,モンテカルロサンプリングを用いてsnbを推定する。 これらのデータセットは、8つのgnnモデルのトレーニングとパフォーマンス評価に使用される。 すべてのモデルは、入力として単純化することなくフルグラフを使用し、nodal-regression-set upにおいてSNBSを予測する。 SNBSは一般に予測でき、異なるGNNモデルを用いて性能が大きく変化することを示す。 より小さなグリッドで訓練されたGNNモデルは、再トレーニングを必要とせずに、より大きなグリッドに直接適用することができる。

The prediction of dynamical stability of power grids becomes more important and challenging with increasing shares of renewable energy sources due to their decentralized structure, reduced inertia and volatility. We investigate the feasibility of applying graph neural networks (GNN) to predict dynamic stability of synchronisation in complex power grids using the single-node basin stability (SNBS) as a measure. To do so, we generate two synthetic datasets for grids with 20 and 100 nodes respectively and estimate SNBS using Monte-Carlo sampling. Those datasets are used to train and evaluate the performance of eight different GNN-models. All models use the full graph without simplifications as input and predict SNBS in a nodal-regression-set up. We show that SNBS can be predicted in general and the performance significantly changes using different GNN-models. Furthermore, we observe interesting transfer capabilities of our approach: GNN-models trained on smaller grids can directly be applied on larger grids without the need of retraining.
翻訳日:2021-08-19 14:24:16 公開日:2021-08-18
# (参考訳) ニューラルネットワークのスパース符号化解釈と理論的意味

A Sparse Coding Interpretation of Neural Networks and Theoretical Implications ( http://arxiv.org/abs/2108.06622v2 )

ライセンス: CC BY 4.0
Joshua Bowren(参考訳) ニューラルネットワーク、特に深層畳み込みニューラルネットワークは、様々なコンピュータビジョンタスクにおいて前例のないパフォーマンスを達成しているが、成功したニューラルネットワークの計算と構造に関する根拠は完全には理解されていない。 画像分類のための畳み込みニューラルネットワークの適性の理論は多いが、なぜそのようなモデルが推論や異常識別のような複雑な視覚的タスクを実現できるのかについては理解されていない。 本稿では、ReLUアクティベーションを持つニューラルネットワークのスパース符号化解釈と、特に畳み込みニューラルネットワークを提案する。 スパース符号化では、モデルの基底関数が直交であると仮定すると、最適係数は入力画像に投影された基底関数のソフト閾値関数によって与えられる。 スパース符号の非負の変種では、ソフトスレッショルド関数はReLUとなる。 ここでは、直交推定基底関数によるスパース符号化を用いてこれらの解を導出し、各スパース符号化係数に対して指数的事前パラメータを持つ修正非負の直交スパース符号化モデルから畳み込みニューラルネットワーク前方変換を導出する。 次に,階層的スパース符号化モデルにロジスティック回帰を追加することにより,正規化やプール化を伴わない完全畳み込みニューラルネットワークを導出する。 最後に、畳み込みニューラルネットワークにおけるスパースプリアーを維持し、より強固な非線形変換を行うことで、より強固なフォワード変換を動機付ける。

Neural networks, specifically deep convolutional neural networks, have achieved unprecedented performance in various computer vision tasks, but the rationale for the computations and structures of successful neural networks is not fully understood. Theories abound for the aptitude of convolutional neural networks for image classification, but less is understood about why such models would be capable of complex visual tasks such as inference and anomaly identification. Here, we propose a sparse coding interpretation of neural networks that have ReLU activation and of convolutional neural networks in particular. In sparse coding, when the model's basis functions are assumed to be orthogonal, the optimal coefficients are given by the soft-threshold function of the basis functions projected onto the input image. In a non-negative variant of sparse coding, the soft-threshold function becomes a ReLU. Here, we derive these solutions via sparse coding with orthogonal-assumed basis functions, then we derive the convolutional neural network forward transformation from a modified non-negative orthogonal sparse coding model with an exponential prior parameter for each sparse coding coefficient. Next, we derive a complete convolutional neural network without normalization and pooling by adding logistic regression to a hierarchical sparse coding model. Finally we motivate potentially more robust forward transformations by maintaining sparse priors in convolutional neural networks as well performing a stronger nonlinear transformation.
翻訳日:2021-08-19 12:17:05 公開日:2021-08-18
# (参考訳) 基礎モデルの機会とリスクについて

On the Opportunities and Risks of Foundation Models ( http://arxiv.org/abs/2108.07258v2 )

ライセンス: CC BY 4.0
Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson, Shyamal Buch, Dallas Card, Rodrigo Castellon, Niladri Chatterji, Annie Chen, Kathleen Creel, Jared Quincy Davis, Dora Demszky, Chris Donahue, Moussa Doumbouya, Esin Durmus, Stefano Ermon, John Etchemendy, Kawin Ethayarajh, Li Fei-Fei, Chelsea Finn, Trevor Gale, Lauren Gillespie, Karan Goel, Noah Goodman, Shelby Grossman, Neel Guha, Tatsunori Hashimoto, Peter Henderson, John Hewitt, Daniel E. Ho, Jenny Hong, Kyle Hsu, Jing Huang, Thomas Icard, Saahil Jain, Dan Jurafsky, Pratyusha Kalluri, Siddharth Karamcheti, Geoff Keeling, Fereshte Khani, Omar Khattab, Pang Wei Kohd, Mark Krass, Ranjay Krishna, Rohith Kuditipudi, Ananya Kumar, Faisal Ladhak, Mina Lee, Tony Lee, Jure Leskovec, Isabelle Levent, Xiang Lisa Li, Xuechen Li, Tengyu Ma, Ali Malik, Christopher D. Manning, Suvir Mirchandani, Eric Mitchell, Zanele Munyikwa, Suraj Nair, Avanika Narayan, Deepak Narayanan, Ben Newman, Allen Nie, Juan Carlos Niebles, Hamed Nilforoshan, Julian Nyarko, Giray Ogut, Laurel Orr, Isabel Papadimitriou, Joon Sung Park, Chris Piech, Eva Portelance, Christopher Potts, Aditi Raghunathan, Rob Reich, Hongyu Ren, Frieda Rong, Yusuf Roohani, Camilo Ruiz, Jack Ryan, Christopher R\'e, Dorsa Sadigh, Shiori Sagawa, Keshav Santhanam, Andy Shih, Krishnan Srinivasan, Alex Tamkin, Rohan Taori, Armin W. Thomas, Florian Tram\`er, Rose E. Wang, William Wang, Bohan Wu, Jiajun Wu, Yuhuai Wu, Sang Michael Xie, Michihiro Yasunaga, Jiaxuan You, Matei Zaharia, Michael Zhang, Tianyi Zhang, Xikun Zhang, Yuhui Zhang, Lucia Zheng, Kaitlyn Zhou, Percy Liang(参考訳) AIは、大規模なデータに基づいてトレーニングされ、幅広い下流タスクに適応可能なモデル(BERT、DALL-E、GPT-3など)の台頭とともにパラダイムシフトを受けている。 これらのモデルファウンデーションモデルを使用して、批判的に中心的だが不完全な特性を強調する。 この報告書は、基礎モデルの能力(例えば、言語、視覚、ロボット工学、推論、ヒューマンインタラクション)と技術的な原則(例えば、モデルアーキテクチャ、トレーニング手順、データ、システム、セキュリティ、評価、理論)から応用(例えば、法律、医療、教育)、社会的影響(例えば、不平等、誤用、経済および環境への影響、法的および倫理的考慮)まで、基礎モデルの機会とリスクに関する詳細な説明を提供する。 基礎モデルは標準的なディープラーニングとトランスファー学習に基づいているが、そのスケールによって新たな創発的能力が生まれ、多くのタスクにまたがる効果が均質化のインセンティブとなる。 均質化は強力なレバレッジを提供するが、基礎モデルの欠陥は下流のすべての適応モデルによって継承されるので注意を要する。 基盤モデルの広範な展開が差し迫っているにもかかわらず、現時点では、それらがどのように機能するか、いつ失敗するのか、そして、その創発的な特性によって何ができるのかを明確に理解できていない。 これらの問題に取り組むために、基礎モデルに関する批判的な研究の多くは、その根本的な社会学的性質と共生する深い学際的な協力が必要であると信じています。

AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character. This report provides a thorough account of the opportunities and risks of foundation models, ranging from their capabilities (e.g., language, vision, robotics, reasoning, human interaction) and technical principles(e.g., model architectures, training procedures, data, systems, security, evaluation, theory) to their applications (e.g., law, healthcare, education) and societal impact (e.g., inequity, misuse, economic and environmental impact, legal and ethical considerations). Though foundation models are based on standard deep learning and transfer learning, their scale results in new emergent capabilities,and their effectiveness across so many tasks incentivizes homogenization. Homogenization provides powerful leverage but demands caution, as the defects of the foundation model are inherited by all the adapted models downstream. Despite the impending widespread deployment of foundation models, we currently lack a clear understanding of how they work, when they fail, and what they are even capable of due to their emergent properties. To tackle these questions, we believe much of the critical research on foundation models will require deep interdisciplinary collaboration commensurate with their fundamentally sociotechnical nature.
翻訳日:2021-08-19 12:16:05 公開日:2021-08-18
# (参考訳) 広いベースラインを持つ極小光場に対する動的補間学習 [全文訳有]

Learning Dynamic Interpolation for Extremely Sparse Light Fields with Wide Baselines ( http://arxiv.org/abs/2108.07408v2 )

ライセンス: CC BY 4.0
Mantang Guo, Jing Jin, Hui Liu, Junhui Hou(参考訳) 本稿では,スライスサンプリングされた物体をベースラインとする密集光場(lf)再構成の問題に対処し,よく使われる幾何変形操作を置き換えるための学習可能なモデル,すなわち動的補間を提案する。 具体的には、入力ビュー間の幾何学的関係を推定することにより、まず、隣接画素を入力ビューから補間するための重みを動的に学習し、新規ビューの各画素を独立に合成する軽量ニューラルネットワークを構築する。 幾何ウォーピング操作で用いられる固定重みとコンテンツ非依存重みとは対照的に、学習された補間重みは、ソースと新規ビューの対応を暗黙的に取り込み、異なる画像コンテンツ情報に適応させる。 そして、幾何学に基づく空間精錬モジュールを用いて、各新規ビューの独立に合成された画素間の空間的相関を入力ビューのそれを参照して復元する。 また,不均質指向のLF構造損失により,新しい視点間の角度相関を制約する。 広いベースラインを持つLFデータセットの実験結果から、再構成されたLFはPSNR/SSIMよりもはるかに高い精度を実現し、最先端の手法よりもLFパララックス構造を保存できることが示されている。 ソースコードはhttps://github.com/M antangGuo/DI4SLFで公開されている。

In this paper, we tackle the problem of dense light field (LF) reconstruction from sparsely-sampled ones with wide baselines and propose a learnable model, namely dynamic interpolation, to replace the commonly-used geometry warping operation. Specifically, with the estimated geometric relation between input views, we first construct a lightweight neural network to dynamically learn weights for interpolating neighbouring pixels from input views to synthesize each pixel of novel views independently. In contrast to the fixed and content-independent weights employed in the geometry warping operation, the learned interpolation weights implicitly incorporate the correspondences between the source and novel views and adapt to different image content information. Then, we recover the spatial correlation between the independently synthesized pixels of each novel view by referring to that of input views using a geometry-based spatial refinement module. We also constrain the angular correlation between the novel views through a disparity-oriented LF structure loss. Experimental results on LF datasets with wide baselines show that the reconstructed LFs achieve much higher PSNR/SSIM and preserve the LF parallax structure better than state-of-the-art methods. The source code is publicly available at https://github.com/M antangGuo/DI4SLF.
翻訳日:2021-08-19 12:14:21 公開日:2021-08-18
# (参考訳) 秘密共有とランダム置換によるセキュアかつ実践的な機械学習を目指して [全文訳有]

Towards Secure and Practical Machine Learning via Secret Sharing and Random Permutation ( http://arxiv.org/abs/2108.07463v2 )

ライセンス: CC BY 4.0
Fei Zheng, Chaochao Chen, Xiaolin Zheng(参考訳) プライバシー保護の需要が高まる中、プライバシー保護機械学習は学術と産業の両方で注目を集めている。 しかし、既存のほとんどの手法は実用上限界がある。 一方、ほとんどの暗号手法は安全を証明できるが、それらは重い計算と通信をもたらす。 一方で、比較的効率的なプライベートメソッド(フェデレーション学習やスプリット学習など)のセキュリティには、証明不能な安全性が疑問視されている。 従来のプライバシ保存機械学習の研究に触発されて、ランダムな置換と算術的な秘密の共有を組み合わせた、プライバシ保存機械学習フレームワークを構築しました。 本手法は,要素関数計算のコストを削減するため,既存の暗号手法よりも効率がよい。 さらに,プライバシリークの指標として距離相関を採用することにより,従来の非提供型セキュア手法よりも安全性が高いことを示す。 全体として、我々の提案はセキュリティと効率のバランスが良い。 実験結果から,本手法は,最先端の暗号手法に比べて最大6倍高速で,ネットワークトラフィックを最大85%削減するだけでなく,未証明のセキュア手法に比べて,トレーニングプロセス中のプライバシを低くすることがわかった。

With the increasing demands for privacy protection, privacy-preserving machine learning has been drawing much attention in both academia and industry. However, most existing methods have their limitations in practical applications. On the one hand, although most cryptographic methods are provable secure, they bring heavy computation and communication. On the other hand, the security of many relatively efficient private methods (e.g., federated learning and split learning) is being questioned, since they are non-provable secure. Inspired by previous work on privacy-preserving machine learning, we build a privacy-preserving machine learning framework by combining random permutation and arithmetic secret sharing via our compute-after-permut ation technique. Since our method reduces the cost for element-wise function computation, it is more efficient than existing cryptographic methods. Moreover, by adopting distance correlation as a metric for privacy leakage, we demonstrate that our method is more secure than previous non-provable secure methods. Overall, our proposal achieves a good balance between security and efficiency. Experimental results show that our method not only is up to 6x faster and reduces up to 85% network traffic compared with state-of-the-art cryptographic methods, but also leaks less privacy during the training process compared with non-provable secure methods.
翻訳日:2021-08-19 12:00:30 公開日:2021-08-18
# MVCNet:3次元CT病変の教師なし表現学習のためのマルチビューコントラストネットワーク

MVCNet: Multiview Contrastive Network for Unsupervised Representation Learning for 3D CT Lesions ( http://arxiv.org/abs/2108.07662v2 )

ライセンス: Link先を確認
Penghua Zhai, Huaiwei Cong, Gangming Zhao, Chaowei Fang, Jinpeng Li, Ting Cai, Huiguang He(参考訳) \emph{Objective and Impact Statement}。 ディープラーニングのルネッサンスにより,CT(Computed Tomography)の自動診断システムが多くの応用に成功している。 しかし、それらは主に注意深い専門家のアノテーションによるもので、実際は少ないことが多い。 これにより、教師なし表現学習への関心が高まります。 emph{Introduction}。 近年の研究では、自己指導型学習が表現の学習に有効なアプローチであることが示されているが、そのほとんどは変換やプレテキストタスクの実証的な設計に依存している。 \emph{Methods}。 これらの手法に付随する主観性を避けるため、mvcnet は変換不要な新しい教師なし三次元(3次元)表現学習手法である。 各3d病変を異なる方向から観察し,複数の2次元 (2d) ビューを収集する。 そして、同じ3D病変の2Dビューを集約し、異なる病変の2Dビューを分離するように、コントラスト損失を最小限にして埋め込み関数を学習する。 埋め込み層上に単純な分類ヘッドを訓練することで表現を評価する。 \emph{Results}。 実験の結果、MVCNetはLIDC-IDRI (89.55\%)、LNDb (77.69\%)、TianChi (79.96\%)のデータセット上で、'emph{unsupervised representation learning} の最先端の精度を達成することが示された。 ラベル付きデータの10\%を微調整すると、アキュラシーは教師付き学習モデルに匹敵する(89.46\% vs. 85.03\%、73.85\% vs. 73.44\%、83.56\% vs. 83.34\%)。 \emph{Conclusion}。 結果は、限定アノテーション付きemph{learning representationsにおけるMVCNetの優位性を示している。

\emph{Objective and Impact Statement}. With the renaissance of deep learning, automatic diagnostic systems for computed tomography (CT) have achieved many successful applications. However, they are mostly attributed to careful expert annotations, which are often scarce in practice. This drives our interest to the unsupervised representation learning. \emph{Introduction}. Recent studies have shown that self-supervised learning is an effective approach for learning representations, but most of them rely on the empirical design of transformations and pretext tasks. \emph{Methods}. To avoid the subjectivity associated with these methods, we propose the MVCNet, a novel unsupervised three dimensional (3D) representation learning method working in a transformation-free manner. We view each 3D lesion from different orientations to collect multiple two dimensional (2D) views. Then, an embedding function is learned by minimizing a contrastive loss so that the 2D views of the same 3D lesion are aggregated, and the 2D views of different lesions are separated. We evaluate the representations by training a simple classification head upon the embedding layer. \emph{Results}. Experimental results show that MVCNet achieves state-of-the-art accuracies on the LIDC-IDRI (89.55\%), LNDb (77.69\%) and TianChi (79.96\%) datasets for \emph{unsupervised representation learning}. When fine-tuned on 10\% of the labeled data, the accuracies are comparable to the supervised learning model (89.46\% vs. 85.03\%, 73.85\% vs. 73.44\%, 83.56\% vs. 83.34\% on the three datasets, respectively). \emph{Conclusion}. Results indicate the superiority of MVCNet in \emph{learning representations with limited annotations}.
翻訳日:2021-08-19 11:25:55 公開日:2021-08-18
# LoResMT 2021の低リソース言語における新型コロナウイルスと手話の共有課題の発見

Findings of the LoResMT 2021 Shared Task on COVID and Sign Language for Low-resource Languages ( http://arxiv.org/abs/2108.06598v2 )

ライセンス: Link先を確認
Atul Kr. Ojha, Chao-Hong Liu, Katharina Kann, John Ortega, Sheetal Shatam, Theodorus Fransen(参考訳) 本稿では,低リソース音声と手話の双方を対象とした,COVID-19データの機械翻訳(MT)に焦点を当てたLoResMT 2021共有タスクについて述べる。 この作業は低リソース言語(LoResMT)の機械翻訳技術に関する第4回ワークショップの一環として実施された。 パラレルコーポラ(parallel corpora)は、英語$\leftrightarrow$iri sh、英語$\leftrightarrow$mar athi、台湾語手話$\leftrightarrow$ traditional chineseの順に提示され、公開されている。 訓練データはそれぞれ8112セグメント、20933セグメント、128608セグメントからなる。 Marathi と English には21901セグメントからなる追加の単言語データセットがある。 ここで示される結果は、合計8チームからのエントリに基づいています。 3つのチームが英語$\leftrightarrow$Iri shにシステムを提出し、5つのチームが英語$\leftrightarrow$Mar athiにシステムを提出した。 残念なことに、台湾の手話$\leftrightarrow$Tra ditional Chinese taskへのシステム提出は行われなかった。 最大システム性能はBLEUを用いて計算され、英語は36.0、アイルランド語は34.6、英語は24.2、マラタイ語は31.3と続く。

We present the findings of the LoResMT 2021 shared task which focuses on machine translation (MT) of COVID-19 data for both low-resource spoken and sign languages. The organization of this task was conducted as part of the fourth workshop on technologies for machine translation of low resource languages (LoResMT). Parallel corpora is presented and publicly available which includes the following directions: English$\leftrightar row$Irish, English$\leftrightar row$Marathi, and Taiwanese Sign language$\leftrighta rrow$Traditional Chinese. Training data consists of 8112, 20933 and 128608 segments, respectively. There are additional monolingual data sets for Marathi and English that consist of 21901 segments. The results presented here are based on entries from a total of eight teams. Three teams submitted systems for English$\leftrightar row$Irish while five teams submitted systems for English$\leftrightar row$Marathi. Unfortunately, there were no systems submissions for the Taiwanese Sign language$\leftrighta rrow$Traditional Chinese task. Maximum system performance was computed using BLEU and follow as 36.0 for English--Irish, 34.6 for Irish--English, 24.2 for English--Marathi, and 31.3 for Marathi--English.
翻訳日:2021-08-19 11:25:22 公開日:2021-08-18
# SPMoE: スパースパターン混合による複数パターン認識出力の生成

SPMoE: Generate Multiple Pattern-Aware Outputs with Sparse Pattern Mixture of Experts ( http://arxiv.org/abs/2108.07535v2 )

ライセンス: Link先を確認
Shaobo Cui, Xintong Bao, Xuming Lin, Zhongzhou Zhao, Ji Zhang, Wei Zhou, Haiqing Chen(参考訳) 多くの生成タスクは1対1のマッピング関係に従い、各入力は複数の出力に関連付けられる。 Conditional Variational AutoEncoder(CVAE)のような既存の手法では、この1対多の関係をモデル化するために潜在変数を使用する。 しかし、この高次元で密度の高い潜伏変数は説明可能性に欠け、通常は貧弱で制御不能な世代につながる。 本稿では,1対1マッピングを複数の1対1マッピングに分解するパターンの言語概念を革新的に導入し,さらにsparse pattern mix of experts (spmoe) というモデルを提案する。 各1対1マッピングは条件生成パターンと関連付けられ、SPMoEの専門家によってモデル化される。 説明性と多様性を向上させるために、各言語パターンを専門家モデルと排他的に扱うことができるようにするため、spmoe内のすべての専門家モデルを調整するためにスパース機構が使用される。 パラフレーズ生成タスクにおけるSPMoEの性能を評価し,実験結果から,SPMoEは品質,パターンレベルの多様性,コーパスレベルの多様性のバランスが良好であることを証明した。

Many generation tasks follow a one-to-many mapping relationship: each input could be associated with multiple outputs. Existing methods like Conditional Variational AutoEncoder(CVAE) employ a latent variable to model this one-to-many relationship. However, this high-dimensional and dense latent variable lacks explainability and usually leads to poor and uncontrollable generations. In this paper, we innovatively introduce the linguistic concept of pattern to decompose the one-to-many mapping into multiple one-to-one mappings and further propose a model named Sparse Pattern Mixture of Experts(SPMoE). Each one-to-one mapping is associated with a conditional generation pattern and is modeled with an expert in SPMoE. To ensure each language pattern can be exclusively handled with an expert model for better explainability and diversity, a sparse mechanism is employed to coordinate all the expert models in SPMoE. We assess the performance of our SPMoE on the paraphrase generation task and the experiment results prove that SPMoE can achieve a good balance in terms of quality, pattern-level diversity, and corpus-level diversity.
翻訳日:2021-08-19 11:25:00 公開日:2021-08-18
# 長尾物体検出における分類平衡の検討

Exploring Classification Equilibrium in Long-Tailed Object Detection ( http://arxiv.org/abs/2108.07507v2 )

ライセンス: Link先を確認
Chengjian Feng, Yujie Zhong and Weilin Huang(参考訳) 従来の検出器は、トレーニングデータの分布が著しく歪んだ場合、不均衡な分類と性能低下を被る傾向にある。 本稿では,学習中の各カテゴリの分類精度を示すために,平均分類スコアを提案する。 この指標に基づき、EBL(Equilibrium Loss)とMFS(Memory-augmented Feature Sampling)法による分類のバランスをとる。 具体的には、eblは2つのクラス間のスコア誘導損失マージンによって、弱いクラスの決定境界の調整の強度を増加させる。 一方、MFSは、これらのクラスのインスタンス特徴をオーバーサンプリングすることで、弱いクラスに対する決定境界の調整の頻度と精度を向上させる。 したがって, EBL と MFS は, ロングテール検出における分類平衡の発見と, ヘッドクラスの維持・改善を図りながら, テールクラスの性能を劇的に向上させる。 提案手法の優位性を示すために,ResNet-50-FPNやResNet-101-FPNなどのバックボーンを用いたMask R-CNNを用いたLVIS実験を行った。 尾クラスの検知性能を15.6 APで改善し、最新の長い尾を持つ物体検出器を1 AP以上で上回っている。 コードはhttps://github.com/f cjian/loceで入手できる。

The conventional detectors tend to make imbalanced classification and suffer performance drop, when the distribution of the training data is severely skewed. In this paper, we propose to use the mean classification score to indicate the classification accuracy for each category during training. Based on this indicator, we balance the classification via an Equilibrium Loss (EBL) and a Memory-augmented Feature Sampling (MFS) method. Specifically, EBL increases the intensity of the adjustment of the decision boundary for the weak classes by a designed score-guided loss margin between any two classes. On the other hand, MFS improves the frequency and accuracy of the adjustment of the decision boundary for the weak classes through over-sampling the instance features of those classes. Therefore, EBL and MFS work collaboratively for finding the classification equilibrium in long-tailed detection, and dramatically improve the performance of tail classes while maintaining or even improving the performance of head classes. We conduct experiments on LVIS using Mask R-CNN with various backbones including ResNet-50-FPN and ResNet-101-FPN to show the superiority of the proposed method. It improves the detection performance of tail classes by 15.6 AP, and outperforms the most recent long-tailed object detectors by more than 1 AP. Code is available at https://github.com/f cjian/LOCE.
翻訳日:2021-08-19 11:24:19 公開日:2021-08-18
# 点に基づく教師付きパンオプティカルセグメンテーションのための完全畳み込みネットワーク

Fully Convolutional Networks for Panoptic Segmentation with Point-based Supervision ( http://arxiv.org/abs/2108.07682v2 )

ライセンス: Link先を確認
Yanwei Li, Hengshuang Zhao, Xiaojuan Qi, Yukang Chen, Lu Qi, Liwei Wang, Zeming Li, Jian Sun, Jiaya Jia(参考訳) 本稿では,Panoptic FCNと呼ばれる,完全かつ弱教師付きパノプティカルセグメンテーションのための概念的,シンプルで,強力で,効率的なフレームワークを提案する。 当社のアプローチは,ポイントベースの完全あるいは弱い監視で最適化可能な,統一的な畳み込みパイプラインで,フォアグラウンドやバックグラウンドを表現および予測することを目的としています。 特に、Panoptic FCNは、提案したカーネルジェネレータに各オブジェクトインスタンスまたは物カテゴリをエンコードし、高解像度の機能を直接変換することで予測を生成する。 このアプローチでは、インスタンス認識と、物や物のセマンティクス的に一貫した特性は、単純な生成-カーネル-セグメンテーションワークフローでそれぞれ満足できます。 ローカライズやインスタンス分離のための余分なボックスがなければ、提案手法は、以前のboxベースおよび-freeモデルよりも効率が良い。 さらに,弱教師付きパンオプティカルセグメンテーションのための点に基づく新しいアノテーションを提案する。 物と物の両方にランダムなポイントしか必要とせず、人間のアノテーションコストを大幅に削減します。 提案されたPanoptic FCNは、この弱教師付きセッティングにおいて非常に優れた性能を示しており、1インスタンスあたり20の無作為なアノテートポイントしか持たない完全教師付き性能の82%を達成している。 大規模な実験では、COCO、VOC 2012、Cityscapes、Mapillary Vistasデータセットに対するPanoptic FCNの有効性と効率が示されている。 また、完全な教師付きpanopticセグメンテーションと弱い教師付きpanopticセグメンテーションの両方のための新しいリードベンチマークも設定している。 私たちのコードとモデルはhttps://github.com/d vlab-research/Panopt icFCNで公開されています。

In this paper, we present a conceptually simple, strong, and efficient framework for fully- and weakly-supervised panoptic segmentation, called Panoptic FCN. Our approach aims to represent and predict foreground things and background stuff in a unified fully convolutional pipeline, which can be optimized with point-based fully or weak supervision. In particular, Panoptic FCN encodes each object instance or stuff category with the proposed kernel generator and produces the prediction by convolving the high-resolution feature directly. With this approach, instance-aware and semantically consistent properties for things and stuff can be respectively satisfied in a simple generate-kernel-then -segment workflow. Without extra boxes for localization or instance separation, the proposed approach outperforms the previous box-based and -free models with high efficiency. Furthermore, we propose a new form of point-based annotation for weakly-supervised panoptic segmentation. It only needs several random points for both things and stuff, which dramatically reduces the annotation cost of human. The proposed Panoptic FCN is also proved to have much superior performance in this weakly-supervised setting, which achieves 82% of the fully-supervised performance with only 20 randomly annotated points per instance. Extensive experiments demonstrate the effectiveness and efficiency of Panoptic FCN on COCO, VOC 2012, Cityscapes, and Mapillary Vistas datasets. And it sets up a new leading benchmark for both fully- and weakly-supervised panoptic segmentation. Our code and models are made publicly available at https://github.com/d vlab-research/Panopt icFCN
翻訳日:2021-08-19 11:23:54 公開日:2021-08-18
# TOOD:タスク整列型ワンステージオブジェクト検出

TOOD: Task-aligned One-stage Object Detection ( http://arxiv.org/abs/2108.07755v2 )

ライセンス: Link先を確認
Chengjian Feng, Yujie Zhong, Yu Gao, Matthew R. Scott and Weilin Huang(参考訳) 1段階の物体検出は2つのサブタスク(オブジェクト分類と局所化)を最適化し、2つの並列枝を持つ頭部を用いて行うことが一般的であり、これは2つのタスク間の予測において一定の空間的不整合をもたらす可能性がある。 本研究では,2つのタスクを学習ベースで明示的に整列するタスク整列1段階オブジェクト検出(TOOD)を提案する。 まず,新しいタスクアライメントヘッド (t-head) の設計を行い,タスクの対話性とタスク固有の特徴の学習と,タスクアライメント予測によるアライメント学習の柔軟性の向上とを両立させる。 第2に,設計したサンプル割り当てスキームとタスクアライメント損失を用いて,トレーニング中の2つのタスクの最適なアンカーを,明示的に接近(あるいは統一)するタスクアライメント学習(tal)を提案する。 大規模な実験はMS-COCOで行われ、TOODはシングルモデル単スケールテストで51.1 APを達成した。 これはATSS (47.7 AP)、GFL (48.2 AP)、PAA (49.0 AP)のような最近の1段検出器をはるかに上回り、パラメータやFLOPは少ない。 定性的な結果は、オブジェクト分類とローカライゼーションのタスクの整合性向上のためのTOODの有効性を示す。 コードはhttps://github.com/f cjian/toodで入手できる。

One-stage object detection is commonly implemented by optimizing two sub-tasks: object classification and localization, using heads with two parallel branches, which might lead to a certain level of spatial misalignment in predictions between the two tasks. In this work, we propose a Task-aligned One-stage Object Detection (TOOD) that explicitly aligns the two tasks in a learning-based manner. First, we design a novel Task-aligned Head (T-Head) which offers a better balance between learning task-interactive and task-specific features, as well as a greater flexibility to learn the alignment via a task-aligned predictor. Second, we propose Task Alignment Learning (TAL) to explicitly pull closer (or even unify) the optimal anchors for the two tasks during training via a designed sample assignment scheme and a task-aligned loss. Extensive experiments are conducted on MS-COCO, where TOOD achieves a 51.1 AP at single-model single-scale testing. This surpasses the recent one-stage detectors by a large margin, such as ATSS (47.7 AP), GFL (48.2 AP), and PAA (49.0 AP), with fewer parameters and FLOPs. Qualitative results also demonstrate the effectiveness of TOOD for better aligning the tasks of object classification and localization. Code is available at https://github.com/f cjian/TOOD.
翻訳日:2021-08-19 11:23:26 公開日:2021-08-18