このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200330となっている論文です。

PDF登録状況(公開日: 20200330)

TitleAuthorsAbstract論文公表日・翻訳日
# REST: セキュリティフォーラムにおけるユーザ特定情報の特定と分類のためのスレッド埋め込みアプローチ

REST: A Thread Embedding Approach for Identifying and Classifying User-specified Information in Security Forums ( http://arxiv.org/abs/2001.02660v2 )

ライセンス: Link先を確認
Joobin Gharibshah, Evangelos E. Papalexakis, Michalis Faloutsos(参考訳) セキュリティフォーラムから有用な情報をどうやって抽出できるのか? セキュリティ専門家の興味のあるスレッドを特定することに集中しています。 (a)攻撃などの厄介な事件の警報 (b)悪意のあるサービス及び製品の提供 (c)悪意ある行為を行うために情報をハッキングし、 (d)セキュリティ関連の有用な経験。 最近の有望な研究にもかかわらず、セキュリティフォーラムの分析は初期段階にある。 この領域の課題に対処するには、新しいアプローチが必要です。 a)利害関係の「話題」を効率的に指定することの難しさ及び (b)テキストの非構造的で非公式な性質。 私たちは、RESTという体系的な方法論を提案します。 (a)a、おそらく不完全な単語の袋に基づいて興味の糸を識別し、 (b)上記の4つのうちの1つに分類する。 我々は、単語、スレッド、クラスを適切な埋め込み空間に投影し、そこに関連性と類似性を確立する。 164kの投稿と21Kスレッドからなる3つのセキュリティフォーラムの実際のデータを用いて本手法の評価を行った。 まず、初期キーワード選択に対するRESTの堅牢性は、ユーザが提供するキーワードセットを拡張し、欠落したキーワードから回復することができる。 第2に、RESTは、スレッドを他の5つのメソッドと比較して、より優れた精度で関心のあるクラスに分類する。 ユーザフレンドリーな方法でオンラインフォーラムの豊富な情報を活用するための第一歩として,私たちのアプローチを捉えています。

How can we extract useful information from a security forum? We focus on identifying threads of interest to a security professional: (a) alerts of worrisome events, such as attacks, (b) offering of malicious services and products, (c) hacking information to perform malicious acts, and (d) useful security-related experiences. The analysis of security forums is in its infancy despite several promising recent works. Novel approaches are needed to address the challenges in this domain: (a) the difficulty in specifying the "topics" of interest efficiently, and (b) the unstructured and informal nature of the text. We propose, REST, a systematic methodology to: (a) identify threads of interest based on a, possibly incomplete, bag of words, and (b) classify them into one of the four classes above. The key novelty of the work is a multi-step weighted embedding approach: we project words, threads and classes in appropriate embedding spaces and establish relevance and similarity there. We evaluate our method with real data from three security forums with a total of 164k posts and 21K threads. First, REST robustness to initial keyword selection can extend the user-provided keyword set and thus, it can recover from missing keywords. Second, REST categorizes the threads into the classes of interest with superior accuracy compared to five other methods: REST exhibits an accuracy between 63.3-76.9%. We see our approach as a first step for harnessing the wealth of information of online forums in a user-friendly way, since the user can loosely specify her keywords of interest.
翻訳日:2023-01-13 12:39:56 公開日:2020-03-30
# サイドウェイ:ビデオモデルの深度パラレルトレーニング

Sideways: Depth-Parallel Training of Video Models ( http://arxiv.org/abs/2001.06232v3 )

ライセンス: Link先を確認
Mateusz Malinowski and Grzegorz Swirszcz and Joao Carreira and Viorica Patraucean(参考訳) ビデオモデルをトレーニングするための近似バックプロパゲーション方式であるSidewaysを提案する。 標準バックプロパゲーションでは、モデルを通る各計算ステップにおける勾配とアクティベーションは時間同期される。 フォワードアクティベーションは、後方パスが実行されるまで保存されなければならず、層間(深度)の並列化が防止される。 しかし、ビデオのようなスムーズで冗長な入力ストリームを利用して、より効率的なトレーニング手法を開発できるだろうか? ここでは、バックプロパゲーションの代替として、新しいフレーム、すなわち新しいフレームが利用可能になるたびに、ネットワークアクティベーションを上書きする。 このような段階的な情報蓄積は、勾配とアクティベーションの正確な対応を損なうため、理論的にはより騒がしい重みの更新につながる。 直観的に言うと、深層畳み込みビデオネットワークのトレーニングは依然として収束するだけでなく、標準同期バックプロパゲーションよりもより良い一般化を示す可能性がある。

We propose Sideways, an approximate backpropagation scheme for training video models. In standard backpropagation, the gradients and activations at every computation step through the model are temporally synchronized. The forward activations need to be stored until the backward pass is executed, preventing inter-layer (depth) parallelization. However, can we leverage smooth, redundant input streams such as videos to develop a more efficient training scheme? Here, we explore an alternative to backpropagation; we overwrite network activations whenever new ones, i.e., from new frames, become available. Such a more gradual accumulation of information from both passes breaks the precise correspondence between gradients and activations, leading to theoretically more noisy weight updates. Counter-intuitively, we show that Sideways training of deep convolutional video networks not only still converges, but can also potentially exhibit better generalization compared to standard synchronized backpropagation.
翻訳日:2023-01-10 09:50:50 公開日:2020-03-30
# Ginger Cant Cure Cancer:包括的データリポジトリによるフェイクヘルスニュースのバトリング

Ginger Cannot Cure Cancer: Battling Fake Health News with a Comprehensive Data Repository ( http://arxiv.org/abs/2002.00837v2 )

ライセンス: Link先を確認
Enyan Dai, Yiwei Sun, Suhang Wang(参考訳) 現在、インターネットは健康情報を得る主要な情報源となっている。 インターネット上で拡散している偽の健康ニュースは、公衆衛生にとって深刻な脅威となっている。 偽ニュース検出の分野では研究や研究が数多く行われているが、健康ニュースの課題に対処するために設計されたものはほとんどない。 例えば、偽の健康ニュースの検出には説明可能な開発が必要である。 これらの問題を緩和するため、我々はFakeHealthという包括的リポジトリを構築し、リッチな特徴を持つニュースコンテンツ、詳細な説明を伴うニュースレビュー、ソーシャルエンゲージメント、ユーザー・ソーシャルネットワークなどを含む。 さらに、データセットの特徴を理解し、有用なパターンを分析し、健康なフェイクニュース検出のためのデータセットの品質を検証するために探索分析を行った。 また、健康偽ニュース検出の新しい研究方向性と今後の研究方向性についても論じる。

Nowadays, Internet is a primary source of attaining health information. Massive fake health news which is spreading over the Internet, has become a severe threat to public health. Numerous studies and research works have been done in fake news detection domain, however, few of them are designed to cope with the challenges in health news. For instance, the development of explainable is required for fake health news detection. To mitigate these problems, we construct a comprehensive repository, FakeHealth, which includes news contents with rich features, news reviews with detailed explanations, social engagements and a user-user social network. Moreover, exploratory analyses are conducted to understand the characteristics of the datasets, analyze useful patterns and validate the quality of the datasets for health fake news detection. We also discuss the novel and potential future research directions for the health fake news detection.
翻訳日:2023-01-06 08:08:16 公開日:2020-03-30
# 意味セグメンテーションにおけるインクリメンタル学習の背景のモデル化

Modeling the Background for Incremental Learning in Semantic Segmentation ( http://arxiv.org/abs/2002.00718v2 )

ライセンス: Link先を確認
Fabio Cermelli, Massimiliano Mancini, Samuel Rota Bul\`o, Elisa Ricci, Barbara Caputo(参考訳) 幅広いタスクで有効であるにもかかわらず、深いアーキテクチャにはいくつかの重要な制限がある。 特に、それらは破滅的な忘れ物、すなわち、新しいクラスが利用可能だが元のトレーニングセットが保持されていないため、モデルを更新する必要があるときにパフォーマンスが悪くなる。 本稿では,この問題を意味セグメンテーションの文脈で扱う。 それぞれのトレーニングステップは、すべての可能なクラスのサブセットに対してのみアノテーションを提供するので、バックグラウンドクラスのピクセル(例えば、他のクラスに属しないピクセル)は、セマンティックな分散シフトを示す。 本研究では,従来の漸進的学習手法を再考し,このシフトを明示的に考慮した蒸留に基づく新しいフレームワークを提案する。 さらに,分類器のパラメータを初期化する新しい戦略を導入し,背景クラスに対するバイアス予測を防止した。 本研究では,Pascal-VOC 2012およびADE20Kデータセットを広範囲に評価し,本手法の有効性を実証する。

Despite their effectiveness in a wide range of tasks, deep architectures suffer from some important limitations. In particular, they are vulnerable to catastrophic forgetting, i.e. they perform poorly when they are required to update their model as new classes are available but the original training set is not retained. This paper addresses this problem in the context of semantic segmentation. Current strategies fail on this task because they do not consider a peculiar aspect of semantic segmentation: since each training step provides annotation only for a subset of all possible classes, pixels of the background class (i.e. pixels that do not belong to any other classes) exhibit a semantic distribution shift. In this work we revisit classical incremental learning methods, proposing a new distillation-based framework which explicitly accounts for this shift. Furthermore, we introduce a novel strategy to initialize classifier's parameters, thus preventing biased predictions toward the background class. We demonstrate the effectiveness of our approach with an extensive evaluation on the Pascal-VOC 2012 and ADE20K datasets, significantly outperforming state of the art incremental learning methods.
翻訳日:2023-01-04 09:06:11 公開日:2020-03-30
# 因果推論のための情報フローの幾何学について

On Geometry of Information Flow for Causal Inference ( http://arxiv.org/abs/2002.02078v2 )

ライセンス: Link先を確認
Sudam Surasinghe and Erik M. Bollt(参考訳) 因果推論はおそらく科学における最も基本的な概念の1つであり、古代哲学者の一部の作品から今日まで始まったが、統計学者、機械学習の専門家、その他多くの分野の科学者の著作に強く織り込まれている。 本稿では, グラガー・コージナリティに関するノーベル賞受賞作品や, 最近人気の高いトランスファーエントロピーなど, 自然界における確率的情報の流れを考察する。 我々の主な貢献は、情報フローを正の伝達エントロピーで示される因果推論として幾何学的に解釈できる分析ツールを開発することである。 我々は、情報の流れを要約する結果空間に投影された基礎となる多様体の有効次元を記述する。 したがって、確率的および幾何学的視点とは対照的に、将来の予測の競合する説明に条件付きで適用されるフラクタル相関次元に基づく因果推論の新しい尺度を導入し、$GeoC_{y\rightarrow x}$と書く。 これにより、転送エントロピーに現れる有界性問題のいくつか、$T_{y\rightarrow x}$ を避けることができる。 続いて、H\'{e}non マップの例、そして最後に呼吸と心拍数関数に関する真の生理学的例を含む。 キーワード:因果推論、転送エントロピー、微分エントロピー、相関次元、ピンスカーの不等式、フロベニウス・ペロン作用素。

Causal inference is perhaps one of the most fundamental concepts in science, beginning originally from the works of some of the ancient philosophers, through today, but also weaved strongly in current work from statisticians, machine learning experts, and scientists from many other fields. This paper takes the perspective of information flow, which includes the Nobel prize winning work on Granger-causality, and the recently highly popular transfer entropy, these being probabilistic in nature. Our main contribution will be to develop analysis tools that will allow a geometric interpretation of information flow as a causal inference indicated by positive transfer entropy. We will describe the effective dimensionality of an underlying manifold as projected into the outcome space that summarizes information flow. Therefore contrasting the probabilistic and geometric perspectives, we will introduce a new measure of causal inference based on the fractal correlation dimension conditionally applied to competing explanations of future forecasts, which we will write $GeoC_{y\rightarrow x}$. This avoids some of the boundedness issues that we show exist for the transfer entropy, $T_{y\rightarrow x}$. We will highlight our discussions with data developed from synthetic models of successively more complex nature: then include the H\'{e}non map example, and finally a real physiological example relating breathing and heart rate function. Keywords: Causal Inference; Transfer Entropy; Differential Entropy; Correlation Dimension; Pinsker's Inequality; Frobenius-Perron operator.
翻訳日:2023-01-03 13:04:12 公開日:2020-03-30
# 意味セグメンテーションの領域適応のための学習テクスチャ不変表現

Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2003.00867v2 )

ライセンス: Link先を確認
Myeongjin Kim, Hyeran Byun(参考訳) 意味セグメンテーションのためのピクセルレベルラベルの注釈は手間がかかるため、合成データを活用することは魅力的なソリューションである。 しかし、合成ドメインと実ドメインのドメインギャップのため、合成データで訓練されたモデルが実データに一般化することは困難である。 本稿では,2つのドメイン間の基本的差異をテクスチャとして考慮し,対象ドメインのテクスチャに適応する手法を提案する。 まず,スタイル転送アルゴリズムを用いて合成画像のテクスチャを多様化する。 生成された画像の様々なテクスチャは、セグメンテーションモデルが特定の(合成)テクスチャにオーバーフィットすることを防ぐ。 そして、ターゲットテクスチャを直接監視するために、自己学習でモデルを微調整する。 その結果,最先端のパフォーマンスを実現し,スタイライゼーションデータセット上でトレーニングされたモデルの特性を広範囲な実験により解析した。

Since annotating pixel-level labels for semantic segmentation is laborious, leveraging synthetic data is an attractive solution. However, due to the domain gap between synthetic domain and real domain, it is challenging for a model trained with synthetic data to generalize to real data. In this paper, considering the fundamental difference between the two domains as the texture, we propose a method to adapt to the texture of the target domain. First, we diversity the texture of synthetic images using a style transfer algorithm. The various textures of generated images prevent a segmentation model from overfitting to one specific (synthetic) texture. Then, we fine-tune the model with self-training to get direct supervision of the target texture. Our results achieve state-of-the-art performance and we analyze the properties of the model trained on the stylized dataset with extensive experiments.
翻訳日:2022-12-27 05:23:20 公開日:2020-03-30
# 衣服画像から3d人間へのテクスチャ伝達の学習

Learning to Transfer Texture from Clothing Images to 3D Humans ( http://arxiv.org/abs/2003.02050v2 )

ライセンス: Link先を確認
Aymen Mir, Thiemo Alldieck, Gerard Pons-Moll(参考訳) 本稿では,SMPL上着の3D衣服に対して,衣服画像(前後)のテクスチャを自動的にリアルタイムに転送する,シンプルかつ効果的な方法を提案する。 まず,不規則な3dから2dへのカスタム登録手法を用いて,アライメントされた3d衣料品のトレーニングペアを自動的に計算する。 これらのペアを用いて、画素から3次元の衣服表面へのマッピングを学習する。 我々の考えは,3次元衣料品のシルエットから3次元衣料品表面の2D-UVマップへの密接な対応を形状情報だけで学習し,テクスチャを完全に無視することで,幅広いウェブ画像に一般化できるようにすることである。 いくつかの実験により, 薄板スプラインワーピングや画像間変換ネットワークなど, 広く使用されているベースラインよりも精度が高く, 桁違いに高速であることが示された。 我々のモデルは仮想試行のような応用のための扉を開き、学習に必要な様々なテクスチャを持つ3D人間を作成できる。

In this paper, we present a simple yet effective method to automatically transfer textures of clothing images (front and back) to 3D garments worn on top SMPL, in real time. We first automatically compute training pairs of images with aligned 3D garments using a custom non-rigid 3D to 2D registration method, which is accurate but slow. Using these pairs, we learn a mapping from pixels to the 3D garment surface. Our idea is to learn dense correspondences from garment image silhouettes to a 2D-UV map of a 3D garment surface using shape information alone, completely ignoring texture, which allows us to generalize to the wide range of web images. Several experiments demonstrate that our model is more accurate than widely used baselines such as thin-plate-spline warping and image-to-image translation networks while being orders of magnitude faster. Our model opens the door for applications such as virtual try-on, and allows for generation of 3D humans with varied textures which is necessary for learning.
翻訳日:2022-12-26 13:17:43 公開日:2020-03-30
# 映像中の視標検出

Detecting Attended Visual Targets in Video ( http://arxiv.org/abs/2003.02501v2 )

ライセンス: Link先を確認
Eunji Chong, Yongxin Wang, Nataniel Ruiz, and James M. Rehg(参考訳) ビデオ中の注意対象を検出する問題に対処する。 私たちのゴールは、ビデオの各フレーム内の各人が見ている場所を特定し、視線対象がフレーム外である場合を正しく処理することです。 提案するアーキテクチャは,シーンと頭部特徴の動的相互作用をモデル化し,時間的に変化する注意目標を推定する。 実世界の視線行動の複雑な動的パターンを含む新しいアノテーション付きデータセットVideoAttentionTargetを導入する。 実験の結果,本モデルは動画の動的注意を効果的に推測できることがわかった。 さらに,2つの社会的視線行動認識タスクに予測された注意マップを適用し,その結果の分類器が既存の手法を大きく上回っていることを示す。 GazeFollow(静的画像), VideoAttentionTarget(ビデオ), VideoCoAtt(ビデオ)の3つのデータセットで最先端のパフォーマンスを実現し,ウェアラブルカメラやアイトラッカーを使わずに臨床関連視線行動を自動的に分類する最初の結果を得た。

We address the problem of detecting attention targets in video. Our goal is to identify where each person in each frame of a video is looking, and correctly handle the case where the gaze target is out-of-frame. Our novel architecture models the dynamic interaction between the scene and head features and infers time-varying attention targets. We introduce a new annotated dataset, VideoAttentionTarget, containing complex and dynamic patterns of real-world gaze behavior. Our experiments show that our model can effectively infer dynamic attention in videos. In addition, we apply our predicted attention maps to two social gaze behavior recognition tasks, and show that the resulting classifiers significantly outperform existing methods. We achieve state-of-the-art performance on three datasets: GazeFollow (static images), VideoAttentionTarget (videos), and VideoCoAtt (videos), and obtain the first results for automatically classifying clinically-relevant gaze behavior without wearable cameras or eye trackers.
翻訳日:2022-12-26 07:19:01 公開日:2020-03-30
# グラフプロセッサ上のバンドル調整

Bundle Adjustment on a Graph Processor ( http://arxiv.org/abs/2003.03134v2 )

ライセンス: Link先を確認
Joseph Ortiz, Mark Pupilli, Stefan Leutenegger, Andrew J. Davison(参考訳) グラフコアのインテリジェンス処理ユニット(IPU)のようなグラフプロセッサは、AIの新しいコンピュータアーキテクチャの波の1つであり、大規模並列計算、分散オンチップメモリ、非常に高いコア間通信帯域を持つ一般的な設計であり、任意のグラフ上のメッセージパッシングアルゴリズムのブレークスルー性能を実現する。 ガウスの信念伝播を用いたグラフプロセッサ上で,バンドル調整(ba)の古典的コンピュータビジョン問題を極端に高速に解くことができることを示す。 私たちの単純な実装では、単一のIPUチップ上の1216コアを使用して、例えば、Ceres CPUライブラリの1450msに比べて、125キーフレームと1919ポイントの実際のBA問題を40ms以下で解決しています。 さらなるコードの最適化は静的問題に対するこの差を増大させるだろうが、グラフ処理の真の期待は、空間ai問題を表す一般的な動的変化因子グラフの柔軟なインプレース最適化である。 本稿では, GBP が増分SLAM 問題を効率的に解けることを示す実験を行い, コスト関数の堅牢性や要因の多様さを考察する。

Graph processors such as Graphcore's Intelligence Processing Unit (IPU) are part of the major new wave of novel computer architecture for AI, and have a general design with massively parallel computation, distributed on-chip memory and very high inter-core communication bandwidth which allows breakthrough performance for message passing algorithms on arbitrary graphs. We show for the first time that the classical computer vision problem of bundle adjustment (BA) can be solved extremely fast on a graph processor using Gaussian Belief Propagation. Our simple but fully parallel implementation uses the 1216 cores on a single IPU chip to, for instance, solve a real BA problem with 125 keyframes and 1919 points in under 40ms, compared to 1450ms for the Ceres CPU library. Further code optimisation will surely increase this difference on static problems, but we argue that the real promise of graph processing is for flexible in-place optimisation of general, dynamically changing factor graphs representing Spatial AI problems. We give indications of this with experiments showing the ability of GBP to efficiently solve incremental SLAM problems, and deal with robust cost functions and different types of factors.
翻訳日:2022-12-26 01:48:37 公開日:2020-03-30
# 深層学習を用いたCT画像における肺感染症の定量化

Lung Infection Quantification of COVID-19 in CT Images with Deep Learning ( http://arxiv.org/abs/2003.04655v3 )

ライセンス: Link先を確認
Fei Shan, Yaozong Gao, Jun Wang, Weiya Shi, Nannan Shi, Miaofei Han, Zhong Xue, Dinggang Shen, Yuxin Shi(参考訳) CT画像は、新型コロナウイルス感染症の診断、評価、ステージングに不可欠である。 3~5日毎のフォローアップスキャンは、しばしば疾患の進行に推奨される。 COVID-19患者では, 両眼および末梢性ガラス硬化症 (GGO) の合併の有無が主なCT所見である。 しかし, コンピュータによる定量化ツールの欠如により, 放射線学的報告では, 定性的な印象と感染部位の粗い説明のみが用いられている。 本稿では,関心領域(ROI)と肺の体積比を自動的に定量化するために,深層学習(DL)に基づくセグメンテーションシステムを開発した。 システムの性能は,300例の胸部ctスキャン300例において,自動的に区分された感染領域と手作業で区切られた感染領域を比較して評価した。 トレーニングサンプルの迅速な手作業による記述と自動結果への手作業による介入のために,放射線科医の感染領域分割を支援するhitl(human-in-the-loop)戦略が採用されており,モデル更新の3回のイテレーション後,全体のセグメント化時間を劇的に4分に短縮している。 平均Dice simiarility係数は, 自動発火セグメンテーションと手動発火セグメンテーションの91.6%で一致し, 感染率(POI)の平均推定誤差は全肺で0.3%であった。 最後に, 臨床所見と相関したct検査, 葉およびセグメントの感染分布の分析に限らず, 応用の可能性について検討した。

CT imaging is crucial for diagnosis, assessment and staging COVID-19 infection. Follow-up scans every 3-5 days are often recommended for disease progression. It has been reported that bilateral and peripheral ground glass opacification (GGO) with or without consolidation are predominant CT findings in COVID-19 patients. However, due to lack of computerized quantification tools, only qualitative impression and rough description of infected areas are currently used in radiological reports. In this paper, a deep learning (DL)-based segmentation system is developed to automatically quantify infection regions of interest (ROIs) and their volumetric ratios w.r.t. the lung. The performance of the system was evaluated by comparing the automatically segmented infection regions with the manually-delineated ones on 300 chest CT scans of 300 COVID-19 patients. For fast manual delineation of training samples and possible manual intervention of automatic results, a human-in-the-loop (HITL) strategy has been adopted to assist radiologists for infection region segmentation, which dramatically reduced the total segmentation time to 4 minutes after 3 iterations of model updating. The average Dice simiarility coefficient showed 91.6% agreement between automatic and manual infaction segmentations, and the mean estimation error of percentage of infection (POI) was 0.3% for the whole lung. Finally, possible applications, including but not limited to analysis of follow-up CT scans and infection distributions in the lobes and segments correlated with clinical findings, were discussed.
翻訳日:2022-12-24 21:58:40 公開日:2020-03-30
# 文字列編集距離を用いた知識グラフアライメント

Knowledge Graph Alignment using String Edit Distance ( http://arxiv.org/abs/2003.12145v2 )

ライセンス: Link先を確認
Navdeep Kaur and Gautam Kunapuli and Sriraam Natarajan(参考訳) 本稿では,エンティティ間の型情報を活用し,任意のアーティリティの関係の類似性を見出す文字列編集距離に基づく新しい知識グラフアライメント手法を提案する。

In this work, we propose a novel knowledge graph alignment technique based upon string edit distance that exploits the type information between entities and can find similarity between relations of any arity
翻訳日:2022-12-24 01:06:20 公開日:2020-03-30
# 室内環境認識のためのロボット3次元知覚システム

A Robotic 3D Perception System for Operating Room Environment Awareness ( http://arxiv.org/abs/2003.09487v2 )

ライセンス: Link先を確認
Zhaoshuo Li, Amirreza Shaban, Jean-Gabriel Simard, Dinesh Rabindran, Simon DiMaio, Omid Mohareri(参考訳) 目的: 手術室(OR)のシーン理解とコンテキスト認識を可能にするダ・ヴィンチ手術システムのための3次元多視点認識システムについて述べる。 方法: 提案システムは, daVinci Xi 患者側カート (PSC) の戦略的位置に厳密に取り付けられた 4 台の Time-of-Flight (ToF) カメラから構成される。 ワンタイムキャリブレーションルーチンを実行し、カメラをロボットのキネマティックチェーンに登録するので、すべてのカメラからの情報を融合して1つの共通の座標フレームで表現することができる。 このアーキテクチャに基づいて、da Vinci ORにおける共通かつ健全なオブジェクト/装備および外科的活動の認識を可能にする、多視点3Dシーンセマンティックセマンティックセマンティクスアルゴリズムを作成する。 提案手法は,臨床シナリオから得られた高密度な注釈付きデータセットを用いて,3次元セマンティックセマンティックセマンティクスを訓練し,検証した。 結果: 提案したアーキテクチャは登録エラー(3.3\%\pm1.4\%のオブジェクトカメラ距離)を許容し, 出現頻度の低いクラス(0.013ドル)に対して, シーンセグメンテーション性能(平均インターセクションオーバーユニオン - mIOU)をシングルビュー法と比較して堅牢に向上できることを示した。 結論: 我々は, 外科的ワークフロー解析, 手術サブタスクの自動化, 高度な誘導システムなどのアプリケーションのためのビルディングブロック技術として使用できる, 新しいセグメンテーションアーキテクチャを備えた最初の動的マルチビュー知覚システムを提案する。

Purpose: We describe a 3D multi-view perception system for the da Vinci surgical system to enable Operating room (OR) scene understanding and context awareness. Methods: Our proposed system is comprised of four Time-of-Flight (ToF) cameras rigidly attached to strategic locations on the daVinci Xi patient side cart (PSC). The cameras are registered to the robot's kinematic chain by performing a one-time calibration routine and therefore, information from all cameras can be fused and represented in one common coordinate frame. Based on this architecture, a multi-view 3D scene semantic segmentation algorithm is created to enable recognition of common and salient objects/equipment and surgical activities in a da Vinci OR. Our proposed 3D semantic segmentation method has been trained and validated on a novel densely annotated dataset that has been captured from clinical scenarios. Results: The results show that our proposed architecture has acceptable registration error ($3.3\%\pm1.4\%$ of object-camera distance) and can robustly improve scene segmentation performance (mean Intersection Over Union - mIOU) for less frequently appearing classes ($\ge 0.013$) compared to a single-view method. Conclusion: We present the first dynamic multi-view perception system with a novel segmentation architecture, which can be used as a building block technology for applications such as surgical workflow analysis, automation of surgical sub-tasks and advanced guidance systems.
翻訳日:2022-12-21 22:52:22 公開日:2020-03-30
# 動作不能なスキップ接続を有するクロスモーダルディープフェイスノーマル

Cross-modal Deep Face Normals with Deactivable Skip Connections ( http://arxiv.org/abs/2003.09691v2 )

ライセンス: Link先を確認
Victoria Fernandez Abrevaya, Adnane Boukhayma, Philip H. S. Torr, Edmond Boyer(参考訳) 本稿では,顔の色画像から表面の正常度を推定する手法を提案する。 単一顔画像に対してデータ駆動型戦略が提案されているが、利用可能な地上真実データが少ないためこの問題は困難である。 この問題を軽減するため、新しいクロスモーダル学習アーキテクチャにより、ペアの有無にかかわらず、利用可能なすべての画像と通常のデータを活用できる手法を提案する。 特に,共有潜在空間を持つ2つのエンコーダ・デコーダネットワークを用いて,カラーとノーマルの2つのモダリティデータによる付加的なトレーニングを可能にする。 提案アーキテクチャでは,画像エンコーダと通常のデコーダ間の接続をスキップすることで,画像領域と通常のデータ領域間で顔の詳細を転送することができる。 私たちのアプローチの中核となるのは、deactivable skip connectionsと呼ばれる新しいモジュールで、エンドツーエンドでトレーニング可能な同じアーキテクチャ内で、自動エンコードとイメージから正規のブランチの両方を統合することができます。 これにより、通常の情報を正確に捉えることができるリッチ潜在空間の学習が可能になる。 我々は最先端の手法と比較し,本手法が自然顔画像と定量的,質的の両方において有意な改善を達成できることを示す。

We present an approach for estimating surface normals from in-the-wild color images of faces. While data-driven strategies have been proposed for single face images, limited available ground truth data makes this problem difficult. To alleviate this issue, we propose a method that can leverage all available image and normal data, whether paired or not, thanks to a novel cross-modal learning architecture. In particular, we enable additional training with single modality data, either color or normal, by using two encoder-decoder networks with a shared latent space. The proposed architecture also enables face details to be transferred between the image and normal domains, given paired data, through skip connections between the image encoder and normal decoder. Core to our approach is a novel module that we call deactivable skip connections, which allows integrating both the auto-encoded and image-to-normal branches within the same architecture that can be trained end-to-end. This allows learning of a rich latent space that can accurately capture the normal information. We compare against state-of-the-art methods and show that our approach can achieve significant improvements, both quantitative and qualitative, with natural face images.
翻訳日:2022-12-21 12:48:08 公開日:2020-03-30
# 少ない基準による深線アート映像のカラー化

Deep Line Art Video Colorization with a Few References ( http://arxiv.org/abs/2003.10685v2 )

ライセンス: Link先を確認
Min Shi, Jia-Qi Zhang, Shu-Yu Chen, Lin Gao, Yu-Kun Lai, Fang-Lue Zhang(参考訳) 基準画像の色に基づくラインアート画像のカラー化は,時間と手間のかかるアニメーション制作において重要な段階である。 本稿では,対象の参照画像と同一のカラースタイルでラインアート映像を自動的に色付けする深層アーキテクチャを提案する。 我々のフレームワークはカラー変換ネットワークと時間制約ネットワークで構成されている。 カラー変換ネットワークは、1つ以上の基準画像のラインアート及びカラー画像とを入力として対象ラインアート画像を取り込み、対応するターゲットカラー画像を生成する。 対象のラインアート画像と参照カラー画像とのより大きな差異に対処するため,本アーキテクチャでは,非局所類似性マッチングを用いて,対象画像と参照画像との地域対応を判定し,その局所色情報を対象への参照から変換する。 グローバルカラースタイル一貫性を確保するため,我々はさらに,埋め込み器によって抽出された参照のグローバルカラースタイルを記述するスタイル埋め込みベクトルから得られる変換パラメータに適応インスタンス正規化(adain)を組み込む。 時間制約ネットワークは、基準画像と対象画像とを時系列的に組み合わせて3次元畳み込みにより時空間特徴を学習し、対象画像と基準画像の時間的一貫性を確保する。 我々のモデルは,新しいスタイルのアニメーションを扱う際に,少数のサンプルでパラメータを微調整することで,より優れたカラー化を実現することができる。 本手法を評価するため,ラインアートカラー化データセットを構築した。 実験により,最先端の手法や他のベースラインと比較して,ラインアートカラー化における最高の性能が得られた。

Coloring line art images based on the colors of reference images is an important stage in animation production, which is time-consuming and tedious. In this paper, we propose a deep architecture to automatically color line art videos with the same color style as the given reference images. Our framework consists of a color transform network and a temporal constraint network. The color transform network takes the target line art images as well as the line art and color images of one or more reference images as input, and generates corresponding target color images. To cope with larger differences between the target line art image and reference color images, our architecture utilizes non-local similarity matching to determine the region correspondences between the target image and the reference images, which are used to transform the local color information from the references to the target. To ensure global color style consistency, we further incorporate Adaptive Instance Normalization (AdaIN) with the transformation parameters obtained from a style embedding vector that describes the global color style of the references, extracted by an embedder. The temporal constraint network takes the reference images and the target image together in chronological order, and learns the spatiotemporal features through 3D convolution to ensure the temporal consistency of the target image and the reference image. Our model can achieve even better coloring results by fine-tuning the parameters with only a small amount of samples when dealing with an animation of a new style. To evaluate our method, we build a line art coloring dataset. Experiments show that our method achieves the best performance on line art video coloring compared to the state-of-the-art methods and other baselines.
翻訳日:2022-12-20 09:19:19 公開日:2020-03-30
# MetNet: 降雨予報のためのニューラル気象モデル

MetNet: A Neural Weather Model for Precipitation Forecasting ( http://arxiv.org/abs/2003.12140v2 )

ライセンス: Link先を確認
Casper Kaae S{\o}nderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey, Nal Kalchbrenner(参考訳) 気象予報は、社会や経済に直接的な影響を与える長期にわたる科学的な課題である。 このタスクは、大量の連続的な収集データと、長い範囲の依存関係を示す豊富な空間的および時間的構造のために、ディープニューラルネットワークに適している。 MetNetは,1km$^2$の高空間分解能と2分間の時間分解能で,秒単位のレイテンシで,最大8時間の降水予測を行うニューラルネットワークである。 MetNetは入力レーダと衛星データとして、リードタイムを予測し、確率的な降水マップを生成する。 アーキテクチャは軸方向のセルフアテンションを使用して、100万平方キロメートルに相当する大きな入力パッチからグローバルコンテキストを集約する。 種々の降水閾値におけるMetNetの性能を評価し,アメリカ大陸の規模で最大7時間から8時間の予測において,MetNetが数値的天気予報を上回っていることを見出した。

Weather forecasting is a long standing scientific challenge with direct social and economic impact. The task is suitable for deep neural networks due to vast amounts of continuously collected data and a rich spatial and temporal structure that presents long range dependencies. We introduce MetNet, a neural network that forecasts precipitation up to 8 hours into the future at the high spatial resolution of 1 km$^2$ and at the temporal resolution of 2 minutes with a latency in the order of seconds. MetNet takes as input radar and satellite data and forecast lead time and produces a probabilistic precipitation map. The architecture uses axial self-attention to aggregate the global context from a large input patch corresponding to a million square kilometers. We evaluate the performance of MetNet at various precipitation thresholds and find that MetNet outperforms Numerical Weather Prediction at forecasts of up to 7 to 8 hours on the scale of the continental United States.
翻訳日:2022-12-20 08:40:31 公開日:2020-03-30
# 判別器特徴空間におけるfr\'echet距離最小化による画像生成

Image Generation Via Minimizing Fr\'echet Distance in Discriminator Feature Space ( http://arxiv.org/abs/2003.11774v2 )

ライセンス: Link先を確認
Khoa D. Doan and Saurav Manchanda and Fengjiao Wang and Sathiya Keerthi and Avradeep Bhowmik and Chandan K. Reddy(参考訳) 与えられた画像生成問題に対して、固有画像多様体はしばしば低次元である。 このような多様体を表す小さな次元特徴空間における実画像と生成画像の分布距離を元のピクセル空間よりも最小にすることで、GAN生成装置を訓練する方がずっとよいという直感を使う。 このような表現には、GAN識別器の特徴空間を用いる。 分布距離については、fr\'{e}chet distance と direct optimal transport (ot) の2つの選択肢のうちの1つを採用し、これらはそれぞれ2つの新しいgan法(fr\'{e}chet-gan と ot-gan)に導かれる。 Fr\'{e}chet 距離を利用するというアイデアは、画像生成における確固とした評価指標としての Fr\'{e}chet Inception Distance の成功に由来する。 Fr\'{e}chet-GAN はいくつかの点で魅力的である。 Fr\'{e}chet 距離とその勾配を計算するための効率的で数値的に安定な手法を提案する。 Fr\'{e}chet 距離推定は OT よりも計算時間が非常に少なく、これにより Fr\'{e}chet-GAN は OT よりもはるかに大きなミニバッチサイズを使用することができる。 さらに,Fr\'{e}chet-GAN(特に)とOT-GANは,ワッサーシュタイン距離に基づく既存の代表的原始的および双対的GANアプローチよりも有意に優れた画像生成能力を有することを示す。

For a given image generation problem, the intrinsic image manifold is often low dimensional. We use the intuition that it is much better to train the GAN generator by minimizing the distributional distance between real and generated images in a small dimensional feature space representing such a manifold than on the original pixel-space. We use the feature space of the GAN discriminator for such a representation. For distributional distance, we employ one of two choices: the Fr\'{e}chet distance or direct optimal transport (OT); these respectively lead us to two new GAN methods: Fr\'{e}chet-GAN and OT-GAN. The idea of employing Fr\'{e}chet distance comes from the success of Fr\'{e}chet Inception Distance as a solid evaluation metric in image generation. Fr\'{e}chet-GAN is attractive in several ways. We propose an efficient, numerically stable approach to calculate the Fr\'{e}chet distance and its gradient. The Fr\'{e}chet distance estimation requires a significantly less computation time than OT; this allows Fr\'{e}chet-GAN to use much larger mini-batch size in training than OT. More importantly, we conduct experiments on a number of benchmark datasets and show that Fr\'{e}chet-GAN (in particular) and OT-GAN have significantly better image generation capabilities than the existing representative primal and dual GAN approaches based on the Wasserstein distance.
翻訳日:2022-12-19 21:31:15 公開日:2020-03-30
# 実世界問題に対する画質問題の評価

Assessing Image Quality Issues for Real-World Problems ( http://arxiv.org/abs/2003.12511v2 )

ライセンス: Link先を確認
Tai-Yin Chiu, Yinan Zhao, Danna Gurari(参考訳) 画像品質問題の評価を,画像キャプションと視覚的質問応答という,2つの実用的な視覚課題に結びつける,新たな大規模データセットを提案する。 まず、視覚障害者が撮影した39,181枚の画像から、コンテンツを認識するのに十分な品質か、6つの選択肢からどのような品質欠陥が観察されるかを確認する。 These labels serve as a critical foundation for us to make the following contributions: (1) a new problem and algorithms for deciding whether an image is insufficient quality to recognize the content and so not captionable, (2) a new problem and algorithms for deciding which of six quality flaws an image contains, (3) a new problem and algorithms for deciding whether a visual question is unanswerable due to unrecognizable content versus the content of interest being missing from the field of view, and (4) a novel application of more efficiently creating a large-scale image captioning dataset by automatically deciding whether an image is insufficient quality and so should not be captioned. この作業の今後の拡張を促進するために、データセットとコードを公開しています。

We introduce a new large-scale dataset that links the assessment of image quality issues to two practical vision tasks: image captioning and visual question answering. First, we identify for 39,181 images taken by people who are blind whether each is sufficient quality to recognize the content as well as what quality flaws are observed from six options. These labels serve as a critical foundation for us to make the following contributions: (1) a new problem and algorithms for deciding whether an image is insufficient quality to recognize the content and so not captionable, (2) a new problem and algorithms for deciding which of six quality flaws an image contains, (3) a new problem and algorithms for deciding whether a visual question is unanswerable due to unrecognizable content versus the content of interest being missing from the field of view, and (4) a novel application of more efficiently creating a large-scale image captioning dataset by automatically deciding whether an image is insufficient quality and so should not be captioned. We publicly-share our datasets and code to facilitate future extensions of this work: https://vizwiz.org.
翻訳日:2022-12-19 05:22:06 公開日:2020-03-30
# CurlingNet: Fashion IQデータのための画像とテキスト間の合成学習

CurlingNet: Compositional Learning between Images and Text for Fashion IQ Data ( http://arxiv.org/abs/2003.12299v2 )

ライセンス: Link先を確認
Youngjae Yu, Seunghwan Lee, Yuncheol Choi, Gunhee Kim(参考訳) 本稿では,画像テキスト埋め込みの合成のセマンティック距離を計測できるCurlingNetという手法を提案する。 ファッション領域におけるデータに対する効果的な画像テキスト合成を学習するために,本モデルは以下の2つの重要な構成要素を提案する。 まず、Deliveryは、埋め込みスペースにおけるソースイメージの移行を行います。 第二に、Sweepingは埋め込みスペースにおけるファッションイメージのクエリ関連コンポーネントを強調している。 我々はチャネルワイズゲーティング機構を利用して実現している。 我々の単一モデルは、TIRGやFiLMなどの最先端画像テキスト合成モデルよりも優れている。 ICCV 2019では、私たちのモデルのアンサンブルが最高のパフォーマンスの1つを達成する最初のファッション-IQチャレンジに参加します。

We present an approach named CurlingNet that can measure the semantic distance of composition of image-text embedding. In order to learn an effective image-text composition for the data in the fashion domain, our model proposes two key components as follows. First, the Delivery makes the transition of a source image in an embedding space. Second, the Sweeping emphasizes query-related components of fashion images in the embedding space. We utilize a channel-wise gating mechanism to make it possible. Our single model outperforms previous state-of-the-art image-text composition models including TIRG and FiLM. We participate in the first fashion-IQ challenge in ICCV 2019, for which ensemble of our model achieves one of the best performances.
翻訳日:2022-12-19 05:12:49 公開日:2020-03-30
# 生成的注意モデルによる弱教師付き行動定位

Weakly-Supervised Action Localization by Generative Attention Modeling ( http://arxiv.org/abs/2003.12424v2 )

ライセンス: Link先を確認
Baifeng Shi, Qi Dai, Yadong Mu, Jingdong Wang(参考訳) 弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。 一般的なフレームワークは、主に分類アクティベーションに依存しており、アクション関連のフレームを識別するために注意モデルを採用し、それらを異なるクラスに分類する。 アクションクリップに近いコンテキストフレームは、特定のクラスに密接に関連しているため、アクションフレーム自身として認識される傾向がある。 そこで本研究では,条件付き変分自動エンコーダ(VAE)を用いて,フレームアテンションに条件付されるクラス非依存フレームの確率をモデル化する。 文脈が表現レベルでの動作と顕著な差異を示すことを観察することにより、各フレームの注目度をモデル化する確率論的モデル、すなわち条件付きVAEが学習される。 注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。 THUMOS14とActivityNet1.2の実験は、動作コンテキスト混同問題に対処するための手法と有効性を示す。 コードはgithubから入手できる。

Weakly-supervised temporal action localization is a problem of learning an action localization model with only video-level action labeling available. The general framework largely relies on the classification activation, which employs an attention model to identify the action-related frames and then categorizes them into different classes. Such method results in the action-context confusion issue: context frames near action clips tend to be recognized as action frames themselves, since they are closely related to the specific classes. To solve the problem, in this paper we propose to model the class-agnostic frame-wise probability conditioned on the frame attention using conditional Variational Auto-Encoder (VAE). With the observation that the context exhibits notable difference from the action at representation level, a probabilistic model, i.e., conditional VAE, is learned to model the likelihood of each frame given the attention. By maximizing the conditional probability with respect to the attention, the action and non-action frames are well separated. Experiments on THUMOS14 and ActivityNet1.2 demonstrate advantage of our method and effectiveness in handling action-context confusion problem. Code is now available on GitHub.
翻訳日:2022-12-19 05:10:57 公開日:2020-03-30
# DeepHammer: ビットフリップのターゲットチェーンを通じて、ディープニューラルネットワークのインテリジェンスを損なう

DeepHammer: Depleting the Intelligence of Deep Neural Networks through Targeted Chain of Bit Flips ( http://arxiv.org/abs/2003.13746v1 )

ライセンス: Link先を確認
Fan Yao, Adnan Siraj Rakin, Deliang Fan(参考訳) 機械学習のセキュリティは、多くのセキュリティに敏感なドメインにおけるディープラーニングのユビキタスな展開によって、ますます大きな関心事になりつつある。 多くの先行研究は、悪意ある入力を用いてDNNの整合性を阻害する敵の例のような外部攻撃を示している。 しかし、DNNモデルに対する内部脅威(すなわちハードウェア脆弱性)のセキュリティへの影響は、まだよく分かっていない。 本稿では,モデル重みのビットフリップを決定的に誘導する,量子化されたディープニューラルネットワークに対するハードウェアベースの最初の攻撃を,ローハマー脆弱性を利用してDNN推論を損なうことを示す。 DeepHammerはDNNモデルでアグレッシブなビット検索を実行し、システムの制約の下で反転可能な最も脆弱なウェイトビットを特定する。 適切な時間内に複数ページにわたる決定論的ビットフリップをトリガーするために,被害者ページの高速展開,メモリ効率の向上,ターゲットビットの正確なフリップを可能にするシステムレベルの技術を開発した。 DeepHammerは、被害者のDNNシステムの推測精度を、ランダムな推測に匹敵するレベルまで意図的に低下させ、ターゲットとするDNNシステムの知性を完全に損なうことができる。 4つの異なるデータセットと異なるアプリケーションドメインを持つ12のDNNアーキテクチャに対する実際のシステムに対する攻撃を系統的に実証する。 評価の結果,DeepHammer は実行時に DNN の推論動作を数分で阻止できることがわかった。 さらに,このような攻撃からdnnを保護するため,アルゴリズムレベルとシステムレベルの両方から,いくつかの緩和手法について検討する。 我々の研究は、ハードウェアベースの決定論的障害注入に対するDNNの堅牢性を高めるために、将来のディープラーニングシステムにセキュリティメカニズムを組み込むことの必要性を強調している。

Security of machine learning is increasingly becoming a major concern due to the ubiquitous deployment of deep learning in many security-sensitive domains. Many prior studies have shown external attacks such as adversarial examples that tamper with the integrity of DNNs using maliciously crafted inputs. However, the security implication of internal threats (i.e., hardware vulnerability) to DNN models has not yet been well understood. In this paper, we demonstrate the first hardware-based attack on quantized deep neural networks-DeepHammer-that deterministically induces bit flips in model weights to compromise DNN inference by exploiting the rowhammer vulnerability. DeepHammer performs aggressive bit search in the DNN model to identify the most vulnerable weight bits that are flippable under system constraints. To trigger deterministic bit flips across multiple pages within reasonable amount of time, we develop novel system-level techniques that enable fast deployment of victim pages, memory-efficient rowhammering and precise flipping of targeted bits. DeepHammer can deliberately degrade the inference accuracy of the victim DNN system to a level that is only as good as random guess, thus completely depleting the intelligence of targeted DNN systems. We systematically demonstrate our attacks on real systems against 12 DNN architectures with 4 different datasets and different application domains. Our evaluation shows that DeepHammer is able to successfully tamper DNN inference behavior at run-time within a few minutes. We further discuss several mitigation techniques from both algorithm and system levels to protect DNNs against such attacks. Our work highlights the need to incorporate security mechanisms in future deep learning system to enhance the robustness of DNN against hardware-based deterministic fault injections.
翻訳日:2022-12-18 08:50:00 公開日:2020-03-30
# 双対性による確率勾配法の明示的正則化

Explicit Regularization of Stochastic Gradient Methods through Duality ( http://arxiv.org/abs/2003.13807v1 )

ライセンス: Link先を確認
Anant Raj and Francis Bach(参考訳) 完全適合が得られる補間条件下での確率勾配法を考察する(各観測における最小損失)。 従来の研究はそのようなアルゴリズムの暗黙的な正則化を強調していたが、明示的な正則化フレームワークを最小のブレグマン分散凸実現可能性問題と考える。 凸双対性を用いて,ランダム化双対座標上昇に基づくランダム化dykstra型アルゴリズムを提案する。 非加速座標降下に対しては、より一般的な目的に対して、二次目的に対して等価であり、初期の反復において等価であるため、特定の関数に対する(平均的でない)確率鏡降下と強い類似性を持つアルゴリズムを得る。 これは、最小ノルム解への明示的な収束定理の利点が伴う。 座標降下を高速化するために、補間系における既存の確率勾配法よりも収束特性がよい新しいアルゴリズムを得る。 これにより、一般的な$\ell_p$-norm正規化器に対するパーセプトロンの加速バージョンが導かれる。

We consider stochastic gradient methods under the interpolation regime where a perfect fit can be obtained (minimum loss at each observation). While previous work highlighted the implicit regularization of such algorithms, we consider an explicit regularization framework as a minimum Bregman divergence convex feasibility problem. Using convex duality, we propose randomized Dykstra-style algorithms based on randomized dual coordinate ascent. For non-accelerated coordinate descent, we obtain an algorithm which bears strong similarities with (non-averaged) stochastic mirror descent on specific functions, as it is is equivalent for quadratic objectives, and equivalent in the early iterations for more general objectives. It comes with the benefit of an explicit convergence theorem to a minimum norm solution. For accelerated coordinate descent, we obtain a new algorithm that has better convergence properties than existing stochastic gradient methods in the interpolating regime. This leads to accelerated versions of the perceptron for generic $\ell_p$-norm regularizers, which we illustrate in experiments.
翻訳日:2022-12-18 08:49:32 公開日:2020-03-30
# 量子アニーリングによる幾何圧縮の最適化

Optimizing Geometry Compression using Quantum Annealing ( http://arxiv.org/abs/2003.13253v1 )

ライセンス: Link先を確認
Sebastian Feld, Markus Friedrich, Claudia Linnhoff-Popien(参考訳) 幾何データの圧縮は、分散3次元コンピュータビジョンアプリケーションにおける帯域効率の良いデータ転送の重要な側面である。 本稿では, 構成的ソリッドジオメトリ (CSG) モデル表現に基づく, 量子可能な3dクラウド圧縮パイプラインを提案する。 パイプラインのキー部分はNP完全問題にマッピングされ、量子アニール上での実行に適した効率的なIsing定式化が存在する。 本稿では,提案する圧縮パイプラインの重要な構成要素である最大クランク探索問題と最小完全被覆問題に対する既存のイジング定式化について述べる。 さらに,結果の最適性に関するパイプライン全体の特性について考察し,イジングの定式化について述べる。

The compression of geometry data is an important aspect of bandwidth-efficient data transfer for distributed 3d computer vision applications. We propose a quantum-enabled lossy 3d point cloud compression pipeline based on the constructive solid geometry (CSG) model representation. Key parts of the pipeline are mapped to NP-complete problems for which an efficient Ising formulation suitable for the execution on a Quantum Annealer exists. We describe existing Ising formulations for the maximum clique search problem and the smallest exact cover problem, both of which are important building blocks of the proposed compression pipeline. Additionally, we discuss the properties of the overall pipeline regarding result optimality and described Ising formulations.
翻訳日:2022-12-18 08:49:14 公開日:2020-03-30
# 凸殻内の点をプライベートに見つける方法

How to Find a Point in the Convex Hull Privately ( http://arxiv.org/abs/2003.13192v1 )

ライセンス: Link先を確認
Haim Kaplan, Micha Sharir, Uri Stemmer(参考訳) 入力集合の凸包内の点の計算方法に関する問題として,${\mathbb r}^d$ における$n$ の点を微分的にプライベートに計算する方法について検討する。 この質問は、自明でプライベートではないが、差分プライバシーを課すと、かなり深いことが判明した。 特に、入力点が固定有限部分集合 $G\subseteq{\mathbb R}^d$ に従わなければならないことが知られ、さらに、$S$ は$G$ の大きさで成長しなければならない。 以前の研究は、$n$が$|G|$でどのように成長する必要があるかを理解することに集中し、$n=O\left(d^{2.5}\cdot8^{\log^*|G|}\right)$ suffices(だから$n$は$|G|$で大きく成長する必要はない)を示した。 しかし、利用可能な構成では実行時間は少なくとも$|g|^{d^2}$であり、通常$|g|=x^d$は(大きな)離散化パラメータが$x$であるので、実行時間は$\omega(x^{d^3})$である。 本稿では,n=\Omega(d^4\log X)$と仮定して,O(n^d)$時間で動作する微分プライベートアルゴリズムを提案する。 この結果を得るために、我々はタキーレベルのいくつかの構造的性質を研究し、活用する(d_{\ge k}$ 領域は、タキー深さが少なくとも$k$、$k=0,1,...$)。 特に、点集合の体積上の下限を一般の位置に$s$として導出し、縮退位置(ディープ・タキー領域の体積がゼロである)の点集合を扱うための微妙なメカニズムを開発する。 タキー領域の構成には、$n^{O(d^2)}$時間を要する。 コストを$O(n^d)$に下げるために、タキー領域の体積を推定する近似スキーム(退化時にはアフィンスパンを含む)を使用し、そのような領域から点をサンプリングするために、Lov\'asz and Vempala (FOCS 2003) と Cousins and Vempala (STOC 2015) の体積推定フレームワークに基づくスキームを用いる。 このフレームワークを別々にプライベートにすることで、私たちが対処する技術的な課題が生まれます。

We study the question of how to compute a point in the convex hull of an input set $S$ of $n$ points in ${\mathbb R}^d$ in a differentially private manner. This question, which is trivial non-privately, turns out to be quite deep when imposing differential privacy. In particular, it is known that the input points must reside on a fixed finite subset $G\subseteq{\mathbb R}^d$, and furthermore, the size of $S$ must grow with the size of $G$. Previous works focused on understanding how $n$ needs to grow with $|G|$, and showed that $n=O\left(d^{2.5}\cdot8^{\log^*|G|}\right)$ suffices (so $n$ does not have to grow significantly with $|G|$). However, the available constructions exhibit running time at least $|G|^{d^2}$, where typically $|G|=X^d$ for some (large) discretization parameter $X$, so the running time is in fact $\Omega(X^{d^3})$. In this paper we give a differentially private algorithm that runs in $O(n^d)$ time, assuming that $n=\Omega(d^4\log X)$. To get this result we study and exploit some structural properties of the Tukey levels (the regions $D_{\ge k}$ consisting of points whose Tukey depth is at least $k$, for $k=0,1,...$). In particular, we derive lower bounds on their volumes for point sets $S$ in general position, and develop a rather subtle mechanism for handling point sets $S$ in degenerate position (where the deep Tukey regions have zero volume). A naive approach to the construction of the Tukey regions requires $n^{O(d^2)}$ time. To reduce the cost to $O(n^d)$, we use an approximation scheme for estimating the volumes of the Tukey regions (within their affine spans in case of degeneracy), and for sampling a point from such a region, a scheme that is based on the volume estimation framework of Lov\'asz and Vempala (FOCS 2003) and of Cousins and Vempala (STOC 2015). Making this framework differentially private raises a set of technical challenges that we address.
翻訳日:2022-12-18 08:49:04 公開日:2020-03-30
# ニューラルネットワークによる対称性の検出

Detecting Symmetries with Neural Networks ( http://arxiv.org/abs/2003.13679v1 )

ライセンス: Link先を確認
Sven Krippendorf, Marc Syvaeri(参考訳) データセットにおける対称性の特定は一般的に難しいが、それらの知識は効率的なデータ処理に不可欠である。 本稿では,ニューラルネットワークを用いて対称性を同定する方法を提案する。 ニューラルネットワークの埋め込み層における構造を広範囲に利用することにより、対称性が存在するかどうかを識別し、入力中の対称性の軌道を特定することができる。 連続あるいは離散対称性群が存在するかを決定するために、入力中の不変軌道を解析する。 回転群 $so(n)$ とユニタリ群 $su(2) に基づく例を示す。 さらに、この方法は入力空間上の離散対称性を識別することが重要である完全交叉カラビ・ヤウ多様体の分類に有用である。 この例では、グラフという観点から新しいデータ表現を示す。

Identifying symmetries in data sets is generally difficult, but knowledge about them is crucial for efficient data handling. Here we present a method how neural networks can be used to identify symmetries. We make extensive use of the structure in the embedding layer of the neural network which allows us to identify whether a symmetry is present and to identify orbits of the symmetry in the input. To determine which continuous or discrete symmetry group is present we analyse the invariant orbits in the input. We present examples based on rotation groups $SO(n)$ and the unitary group $SU(2).$ Further we find that this method is useful for the classification of complete intersection Calabi-Yau manifolds where it is crucial to identify discrete symmetries on the input space. For this example we present a novel data representation in terms of graphs.
翻訳日:2022-12-18 08:47:09 公開日:2020-03-30
# VaPar Synth - 音響合成のための変分パラメトリックモデル

VaPar Synth -- A Variational Parametric Model for Audio Synthesis ( http://arxiv.org/abs/2004.00001v1 )

ライセンス: Link先を確認
Krishna Subramani, Preeti Rao, Alexandre D'Hooge(参考訳) データ駆動統計モデリングと豊富な計算能力の出現により、研究者たちは音声合成の深層学習へと向かっている。 これらの手法は、時間または周波数領域で直接音響信号をモデル化しようとする。 生成した音をより柔軟に制御することに関心があるため、ピッチ、ダイナミクス、音色といった音楽的属性に直接対応する信号のパラメトリック表現を扱うのがより有用である。 本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。 提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。

With the advent of data-driven statistical modeling and abundant computing power, researchers are turning increasingly to deep learning for audio synthesis. These methods try to model audio signals directly in the time or frequency domain. In the interest of more flexible control over the generated sound, it could be more useful to work with a parametric representation of the signal which corresponds more directly to the musical attributes such as pitch, dynamics and timbre. We present VaPar Synth - a Variational Parametric Synthesizer which utilizes a conditional variational autoencoder (CVAE) trained on a suitable parametric representation. We demonstrate our proposed model's capabilities via the reconstruction and generation of instrumental tones with flexible control over their pitch.
翻訳日:2022-12-18 08:46:55 公開日:2020-03-30
# AvatarMe:リアルにレンダリング可能な3D顔復元

AvatarMe: Realistically Renderable 3D Facial Reconstruction "in-the-wild" ( http://arxiv.org/abs/2003.13845v1 )

ライセンス: Link先を確認
Alexandros Lattas, Stylianos Moschoglou, Baris Gecer, Stylianos Ploumpis, Vasileios Triantafyllou, Abhijeet Ghosh, Stefanos Zafeiriou(参考訳) 過去数年間、gans(generative adversarial networks)の出現とともに、多くの顔分析タスクは驚くべきパフォーマンスを達成し、単一の"in-the-wild"イメージから顔生成と3d顔再構成を含むアプリケーションも提供された。 それにもかかわらず、我々の知る限りでは、"in-the-wild"画像から高解像度フォトリアリスティックな3d顔を作る方法は存在しない。 (a)トレーニング用の利用可能なデータの不足、及び b)非常に高解像度なデータに適用できる堅牢な方法論の欠如。 本稿では,1枚の"in-the-wild"画像からフォトリアリスティックな3d顔の再現を可能にする最初の手法であるアバターメについて紹介する。 これを実現するために,3次元テクスチャ・形状復元法に基づく顔形状・反射率のデータセットを多数取得し,現実的なレンダリングに必要な画素ごとの拡散成分と特異成分を生成しながら,その結果を連続的に改善する。 定性的かつ定量的な一連の実験で示されたように、アバターームは既存の芸術をかなりのマージンで上回り、正真正銘の4k解像度と6k解像度の3d顔を単一の低解像度の画像から再構築し、初めて不気味な谷を橋渡しする。

Over the last years, with the advent of Generative Adversarial Networks (GANs), many face analysis tasks have accomplished astounding performance, with applications including, but not limited to, face generation and 3D face reconstruction from a single "in-the-wild" image. Nevertheless, to the best of our knowledge, there is no method which can produce high-resolution photorealistic 3D faces from "in-the-wild" images and this can be attributed to the: (a) scarcity of available data for training, and (b) lack of robust methodologies that can successfully be applied on very high-resolution data. In this paper, we introduce AvatarMe, the first method that is able to reconstruct photorealistic 3D faces from a single "in-the-wild" image with an increasing level of detail. To achieve this, we capture a large dataset of facial shape and reflectance and build on a state-of-the-art 3D texture and shape reconstruction method and successively refine its results, while generating the per-pixel diffuse and specular components that are required for realistic rendering. As we demonstrate in a series of qualitative and quantitative experiments, AvatarMe outperforms the existing arts by a significant margin and reconstructs authentic, 4K by 6K-resolution 3D faces from a single low-resolution image that, for the first time, bridges the uncanny valley.
翻訳日:2022-12-18 08:41:36 公開日:2020-03-30
# 機械学習文字列標準モデル

Machine Learning String Standard Models ( http://arxiv.org/abs/2003.13339v1 )

ライセンス: Link先を確認
Rehan Deen, Yang-Hui He, Seung-Joo Lee, and Andre Lukas(参考訳) ヘテロティックライン束モデルの文脈で生じる弦圧縮の現象学的に関連した性質の機械学習について検討する。 教師なし学習と教師なし学習の両方が考慮される。 固定コンパクト化多様体の場合、比較的小さなニューラルネットワークは正しいゲージ群と正しいキラル非対称性を持つ一貫した直線束モデルをこれらの性質を持たないランダムモデルと区別することができる。 同じ区別は、オートエンコーダを使用して教師なし学習の文脈でも達成できる。 非トポロジ的性質、特にヒッグス多重数を学ぶことはより難しいが、サイズ可能なネットワークと特徴強化データセットを使用することで可能である。

We study machine learning of phenomenologically relevant properties of string compactifications, which arise in the context of heterotic line bundle models. Both supervised and unsupervised learning are considered. We find that, for a fixed compactification manifold, relatively small neural networks are capable of distinguishing consistent line bundle models with the correct gauge group and the correct chiral asymmetry from random models without these properties. The same distinction can also be achieved in the context of unsupervised learning, using an auto-encoder. Learning non-topological properties, specifically the number of Higgs multiplets, turns out to be more difficult, but is possible using sizeable networks and feature-enhanced data sets.
翻訳日:2022-12-18 08:40:31 公開日:2020-03-30
# 高次元混合周波数IV回帰

High-dimensional mixed-frequency IV regression ( http://arxiv.org/abs/2003.13478v1 )

ライセンス: Link先を確認
Andrii Babii(参考訳) 本稿では,混合周波数でサンプリングしたデータに対する高次元線形IV回帰法を提案する。 本研究では,低周波インストゥルメンタル変数を用いて,高周波共変量の高次元傾斜パラメータを同定し,高精度に推定できることを示す。 このモデルの特長は、およその空間制限を課さずに高次元データセットを手渡すことができることである。 本稿では,Tikhonov-regularized estimatorを提案し,時系列データに対する平均積分二乗誤差の収束率を導出する。 estimatorは計算が容易でモンテカルロ実験で優れた性能を示すクローズドフォーム式を持っています。 オーストラリアの電気スポット市場における供給のリアルタイム価格弾力性を推定する。 我々の推定では、供給は比較的非弾性であり、その弾力性は一日中不均一である。

This paper introduces a high-dimensional linear IV regression for the data sampled at mixed frequencies. We show that the high-dimensional slope parameter of a high-frequency covariate can be identified and accurately estimated leveraging on a low-frequency instrumental variable. The distinguishing feature of the model is that it allows handing high-dimensional datasets without imposing the approximate sparsity restrictions. We propose a Tikhonov-regularized estimator and derive the convergence rate of its mean-integrated squared error for time series data. The estimator has a closed-form expression that is easy to compute and demonstrates excellent performance in our Monte Carlo experiments. We estimate the real-time price elasticity of supply on the Australian electricity spot market. Our estimates suggest that the supply is relatively inelastic and that its elasticity is heterogeneous throughout the day.
翻訳日:2022-12-18 08:39:58 公開日:2020-03-30
# 暗号アドレスクラスタリングとラベル付け

Cryptocurrency Address Clustering and Labeling ( http://arxiv.org/abs/2003.13399v1 )

ライセンス: Link先を確認
Mengjiao Wang, Hikaru Ichijo and Bob Xiao(参考訳) 匿名性はブロックチェーン技術の最も重要な品質のひとつです。 例えば、kycをいかなる権威にも提供せずに、bitcoinアドレスを作成すれば、資金の送受信ができる。 一般的には、暗号通貨アドレスの背後にある真のアイデンティティは知られていないが、一部のアドレスは行動パターンを分析して、その所有権に従ってクラスタ化することができ、既知の属性を持つアドレスにラベルを割り当てることができる。 これらのラベルは、法執行機関の捜査を支援するために、法的およびコンプライアンスの目的でさらに使用される可能性がある。 この文書では、暗号通貨アドレスにアトリビューションラベルを割り当てる手法について論じる。

Anonymity is one of the most important qualities of blockchain technology. For example, one can simply create a bitcoin address to send and receive funds without providing KYC to any authority. In general, the real identity behind cryptocurrency addresses is not known, however, some addresses can be clustered according to their ownership by analyzing behavioral patterns, allowing those with known attribution to be assigned labels. These labels may be further used for legal and compliance purposes to assist in law enforcement investigations. In this document, we discuss our methodology behind assigning attribution labels to cryptocurrency addresses.
翻訳日:2022-12-18 08:39:46 公開日:2020-03-30
# 人工ニューラルネットワークのアーティファクト再利用のためのリポジトリ

Repository for Reusing Artifacts of Artificial Neural Networks ( http://arxiv.org/abs/2003.13619v1 )

ライセンス: Link先を確認
Javad Ghofrani, Ehsan Kozegar, Mohammad Divband Soorati, Arezoo Bozorgmehr, Hongfei Chen, Maximilian Naake(参考訳) 人工ニューラルネットワーク(ANN)は、機械翻訳、自然言語処理、画像処理など、様々な領域における従来のソフトウェアシステムを置き換える。 ではなぜニューラルネットワークのためのリポジトリが必要なのか? これらのシステムはラベル付きデータで開発され、ネットワークのトレーニングやテストに使用されるデータの間に強い依存関係があります。 もうひとつの課題は、データ品質と再利用性です。 そこで私たちは、モデルに限定されない古典的なソフトウェアエンジニアリングの概念を適用しようとしていますが、データとコードは、ほとんど他のプロジェクトで処理されてはいません。 まず最初に思い浮かぶ疑問は、私たちの問題に対して、広く普及している再利用ツールであるGitHubを使わないか、ということです。 その理由は、githubが機械学習アプライアンス向けに開発されたものではなく、ソフトウェアの再利用に重点を置いているからである。 さらに、GitHubはプラットフォーム上で直接コードを実行することを許可していない。

Artificial Neural Networks (ANNs) replaced conventional software systems in various domains such as machine translation, natural language processing, and image processing. So, why do we need an repository for artificial neural networks? Those systems are developed with labeled data and we have strong dependencies between the data that is used for training and testing our network. Another challenge is the data quality as well as reuse-ability. There we are trying to apply concepts from classic software engineering that is not limited to the model, while data and code haven't been dealt with mostly in other projects. The first question that comes to mind might be, why don't we use GitHub, a well known widely spread tool for reuse, for our issue. And the reason why is that GitHub, although very good in its class is not developed for machine learning appliances and focuses more on software reuse. In addition to that GitHub does not allow to execute the code directly on the platform which would be very convenient for collaborative work on one project.
翻訳日:2022-12-18 08:39:11 公開日:2020-03-30
# 物理モデルによるDeep Image Deraining

Physical Model Guided Deep Image Deraining ( http://arxiv.org/abs/2003.13242v1 )

ライセンス: Link先を確認
Honghe Zhu and Cong Wang and Yajie Zhang and Zhixun Su and Guohui Zhao(参考訳) 降雨画像の劣化により、ビデオ監視や自動運転など多くのコンピュータビジョンシステムが機能しないため、単一画像のデライン化は緊急の課題である。 そのため, 投棄が重要となり, 効果的な投棄アルゴリズムが求められている。 本稿では,降雨ストリークスネットワーク,雨のないネットワーク,ガイドラーニングネットワークの3つのサブネットワークからなる,単一画像レーダ化のための物理モデル誘導学習に基づく新しいネットワークを提案する。 雨ストレークネットワーク、雨のないネットワークによって推定される雨のストレークの結合と雨のない画像とをガイド学習ネットワークに入力し、さらなる学習をガイドし、雨の画像の物理モデルに基づいて2つの推定画像の直接和を入力雨画像に拘束する。 さらに, マルチスケール残差ブロック (msrb) の開発により, マルチスケール情報の利用性が向上し, 流出性能が向上した。 定量的および定性的な実験結果から,提案手法は最先端のデラライニング法よりも優れていることが示された。 ソースコードは \url{https://supercong94.wixsite.com/supercong94} で入手できる。

Single image deraining is an urgent task because the degraded rainy image makes many computer vision systems fail to work, such as video surveillance and autonomous driving. So, deraining becomes important and an effective deraining algorithm is needed. In this paper, we propose a novel network based on physical model guided learning for single image deraining, which consists of three sub-networks: rain streaks network, rain-free network, and guide-learning network. The concatenation of rain streaks and rain-free image that are estimated by rain streaks network, rain-free network, respectively, is input to the guide-learning network to guide further learning and the direct sum of the two estimated images is constrained with the input rainy image based on the physical model of rainy image. Moreover, we further develop the Multi-Scale Residual Block (MSRB) to better utilize multi-scale information and it is proved to boost the deraining performance. Quantitative and qualitative experimental results demonstrate that the proposed method outperforms the state-of-the-art deraining methods. The source code will be available at \url{https://supercong94.wixsite.com/supercong94}.
翻訳日:2022-12-18 08:33:13 公開日:2020-03-30
# プライバシーとスケーラビリティを維持しながら教師なしモデルパーソナライゼーション:オープンな問題

Unsupervised Model Personalization while Preserving Privacy and Scalability: An Open Problem ( http://arxiv.org/abs/2003.13296v1 )

ライセンス: Link先を確認
Matthias De Lange, Xu Jia, Sarah Parisot, Ales Leonardis, Gregory Slabaugh, Tinne Tuytelaars(参考訳) 本研究は,非教師付きモデルパーソナライゼーションの課題について検討する。 我々は,高容量サーバが多数のリソース制限されたエッジデバイスと対話し,スケーラビリティとローカルデータプライバシに強い要件を課す現実的なシナリオを考察する。 我々は,この課題を継続的な学習パラダイムの中で解決することを目指しており,この問題を探求するための新しいDual User-Adaptation framework(DUA)を提供する。 このフレームワークは柔軟にユーザ適応をサーバ上のモデルパーソナライゼーションとユーザデバイス上のローカルデータ正規化に切り離し、スケーラビリティとプライバシ制約に関する望ましい特性を持つ。 まず、サーバ上でタスク固有のエキスパートモデルの漸進的な学習を導入し、その後、隠蔽された教師なしのユーザを用いて集約する。 アグリゲーションは再トレーニングを避けるが、ユーザは事前にセンシティブな生ユーザーデータを隠蔽し、教師なしの適応を許可する。 第二に、ローカルユーザ適応はドメイン適応視点を取り入れ、バッチ正規化パラメータをユーザデータに適合させる。 我々は,MNISTとSVHNの組み合わせで数値を分類し,カテゴリの異なる先行と,MIT屋内シーン認識のための10倍の変換を用いた様々な経験的ユーザ構成を探索する。 広範な実験は、データ駆動のローカル適応に有望な結果をもたらし、ユーザデータではなくモデルに依存するように、サーバ適応のユーザプライオリティを導き出す。 したがって、ユーザ適応は依然として困難なオープン問題であるが、duaフレームワークはプライバシとスケーラビリティを維持しつつ、サーバとユーザデバイスの両方をパーソナライズするための原則的な基盤を定式化している。

This work investigates the task of unsupervised model personalization, adapted to continually evolving, unlabeled local user images. We consider the practical scenario where a high capacity server interacts with a myriad of resource-limited edge devices, imposing strong requirements on scalability and local data privacy. We aim to address this challenge within the continual learning paradigm and provide a novel Dual User-Adaptation framework (DUA) to explore the problem. This framework flexibly disentangles user-adaptation into model personalization on the server and local data regularization on the user device, with desirable properties regarding scalability and privacy constraints. First, on the server, we introduce incremental learning of task-specific expert models, subsequently aggregated using a concealed unsupervised user prior. Aggregation avoids retraining, whereas the user prior conceals sensitive raw user data, and grants unsupervised adaptation. Second, local user-adaptation incorporates a domain adaptation point of view, adapting regularizing batch normalization parameters to the user data. We explore various empirical user configurations with different priors in categories and a tenfold of transforms for MIT Indoor Scene recognition, and classify numbers in a combined MNIST and SVHN setup. Extensive experiments yield promising results for data-driven local adaptation and elicit user priors for server adaptation to depend on the model rather than user data. Hence, although user-adaptation remains a challenging open problem, the DUA framework formalizes a principled foundation for personalizing both on server and user device, while maintaining privacy and scalability.
翻訳日:2022-12-18 08:32:47 公開日:2020-03-30
# 肺塞栓症チャレンジ(cad-pe)のコンピュータ支援検出

Computer Aided Detection for Pulmonary Embolism Challenge (CAD-PE) ( http://arxiv.org/abs/2003.13440v1 )

ライセンス: Link先を確認
Germ\'an Gonz\'alez, Daniel Jimenez-Carretero, Sara Rodr\'iguez-L\'opez, Carlos Cano-Espinosa, Miguel Cazorla, Tanya Agarwal, Vinit Agarwal, Nima Tajbakhsh, Michael B. Gotway, Jianming Liang, Mojtaba Masoudi, Noushin Eftekhari, Mahdi Saadatmand, Hamid-Reza Pourreza, Patricia Fraga-Rivas, Eduardo Fraile, Frank J. Rybicki, Ara Kassarjian, Ra\'ul San Jos\'e Est\'epar and Maria J. Ledesma-Carbayo(参考訳) Rationale: 肺塞栓症(PE)アルゴリズムのためのCADアルゴリズムは, 放射線技師の感度を高めるため, 特異性が少ないことが示されている。 しかし,現在のCADソフトウェアが生産する偽陽性の数が多すぎるため,PE用CADは臨床実践に採用されていないと考えられる。 目的: 注記型ct肺血管造影図データベースの作成には, 現在のアルゴリズムの感度と偽陽性率を比較し, それらの測定値を改善する新しい手法を開発する。 方法:91例のCT肺血管造影検査を,少なくとも1例の放射線技師により,全肺塞栓を分画した。 医用画像解析の課題として,20個の注釈付きCTPAが一般公開された。 評価のためにさらに20個が保管された。 51機が製造された。 8件をCTPAで評価し,その内6件を新規に評価した。 検査成績は, 塞栓感度に対して, スキャン曲線当たりの偽陽性率で測定した。 結果: 最適なアルゴリズムは, 術種別75%, 偽陽性2例(fps), 70%(fps), 70%(fps)を達成し, 技量より優れていた。 ディープラーニングのアプローチは従来の機械学習よりも優れており、トレーニングケースの数によってパフォーマンスが向上した。 意義: この研究と課題により, 肺塞栓症に対するコンピュータ支援検出アルゴリズムの最先端技術が向上した。 このようなアルゴリズムに対するオープンデータベースと評価ベンチマークが生成され、さらなる改善の開発が容易になっている。 臨床実践への影響はさらなる研究が必要である。

Rationale: Computer aided detection (CAD) algorithms for Pulmonary Embolism (PE) algorithms have been shown to increase radiologists' sensitivity with a small increase in specificity. However, CAD for PE has not been adopted into clinical practice, likely because of the high number of false positives current CAD software produces. Objective: To generate a database of annotated computed tomography pulmonary angiographies, use it to compare the sensitivity and false positive rate of current algorithms and to develop new methods that improve such metrics. Methods: 91 Computed tomography pulmonary angiography scans were annotated by at least one radiologist by segmenting all pulmonary emboli visible on the study. 20 annotated CTPAs were open to the public in the form of a medical image analysis challenge. 20 more were kept for evaluation purposes. 51 were made available post-challenge. 8 submissions, 6 of them novel, were evaluated on the 20 evaluation CTPAs. Performance was measured as per embolus sensitivity vs. false positives per scan curve. Results: The best algorithms achieved a per-embolus sensitivity of 75% at 2 false positives per scan (fps) or of 70% at 1 fps, outperforming the state of the art. Deep learning approaches outperformed traditional machine learning ones, and their performance improved with the number of training cases. Significance: Through this work and challenge we have improved the state-of-the art of computer aided detection algorithms for pulmonary embolism. An open database and an evaluation benchmark for such algorithms have been generated, easing the development of further improvements. Implications on clinical practice will need further research.
翻訳日:2022-12-18 08:32:00 公開日:2020-03-30
# 深層畳み込みニューラルネットワークによる沿岸域の弱教師付き土地分類

Weakly-supervised land classification for coastal zone based on deep convolutional neural networks by incorporating dual-polarimetric characteristics into training dataset ( http://arxiv.org/abs/2003.13648v1 )

ライセンス: Link先を確認
Sheng Sun, Armando Marino, Wenze Shui, Zhongwen Hu(参考訳) 本研究では,空間偏光合成開口レーダ(PolSAR)データセットを用いた意味的セグメンテーションにおけるDCNNの性能について検討する。 PolSARデータを用いたセマンティックセグメンテーションタスクは、SARデータの特徴とアノテート手順が考慮されている場合、弱い教師付き学習に分類される。 データセットは当初、実行可能な事前トレーニングイメージを選択するために分析される。 次に,空間分解能と観測幾何学の観点から,空間データと空中データの違いについて検討した。 本研究では,terrasar-x dlrで取得した2つの双極性画像を用いた。 より教師付き情報を持つトレーニングデータセットを作成するための新しい方法を開発した。 具体的には、一連の典型的な分類画像と強度画像がトレーニングデータセットとして機能する。 フィールドサーベイは、精度評価に使用される地上真理データセットを得るために、約20平方キロメートルの領域で実施される。 上記のトレーニングデータセットに対して,いくつかの移行学習戦略が作成されている。 次に、SegNet、U-Net、LinkNetを含む3つのDCNNモデルが実装されている。

In this work we explore the performance of DCNNs on semantic segmentation using spaceborne polarimetric synthetic aperture radar (PolSAR) datasets. The semantic segmentation task using PolSAR data can be categorized as weakly supervised learning when the characteristics of SAR data and data annotating procedures are factored in. Datasets are initially analyzed for selecting feasible pre-training images. Then the differences between spaceborne and airborne datasets are examined in terms of spatial resolution and viewing geometry. In this study we used two dual-polarimetric images acquired by TerraSAR-X DLR. A novel method to produce training dataset with more supervised information is developed. Specifically, a series of typical classified images as well as intensity images serve as training datasets. A field survey is conducted for an area of about 20 square kilometers to obtain a ground truth dataset used for accuracy evaluation. Several transfer learning strategies are made for aforementioned training datasets which will be combined in a practicable order. Three DCNN models, including SegNet, U-Net, and LinkNet, are implemented next.
翻訳日:2022-12-18 08:30:58 公開日:2020-03-30
# 3D-MPA:3Dセマンティックインスタンスセグメンテーションのためのマルチプロポーザルアグリゲーション

3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation ( http://arxiv.org/abs/2003.13867v1 )

ライセンス: Link先を確認
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nie{\ss}ner(参考訳) 本稿では,3次元点雲上でのインスタンスセグメンテーション手法である3D-MPAを提案する。 入力点クラウドが与えられた場合、各点がオブジェクト中心に投票するオブジェクト中心のアプローチを提案する。 予測対象中心からのオブジェクト提案をサンプリングする。 次に、同じオブジェクトセンターに投票したグループ化されたポイント機能から提案機能を学ぶ。 グラフ畳み込みネットワークはプロモーサル間関係を導入し、低レベルの特徴に加えて高レベルの特徴学習を提供する。 各提案はセマンティックラベルと,前景背景マスク,オブジェクト性スコア,集約機能を定義した関連点からなる。 以前の作品は通常、最終的なオブジェクト検出または意味インスタンスを得るために提案よりも非最大抑制(nms)を実行する。 しかし、NMSは潜在的に正しい予測を破棄することができる。 代わりに、私たちのアプローチでは、学習した集約機能に基づいて、すべての提案とグループをまとめます。 ScanNetV2ベンチマークとS3DISデータセット上での3次元オブジェクト検出とセマンティックインスタンスセグメンテーションのタスクにおいて,グループ化提案がNMSよりも改善され,最先端の手法よりも優れていることを示す。

We present 3D-MPA, a method for instance segmentation on 3D point clouds. Given an input point cloud, we propose an object-centric approach where each point votes for its object center. We sample object proposals from the predicted object centers. Then, we learn proposal features from grouped point features that voted for the same object center. A graph convolutional network introduces inter-proposal relations, providing higher-level feature learning in addition to the lower-level point features. Each proposal comprises a semantic label, a set of associated points over which we define a foreground-background mask, an objectness score and aggregation features. Previous works usually perform non-maximum-suppression (NMS) over proposals to obtain the final object detections or semantic instances. However, NMS can discard potentially correct predictions. Instead, our approach keeps all proposals and groups them together based on the learned aggregation features. We show that grouping proposals improves over NMS and outperforms previous state-of-the-art methods on the tasks of 3D object detection and semantic instance segmentation on the ScanNetV2 benchmark and the S3DIS dataset.
翻訳日:2022-12-18 08:23:20 公開日:2020-03-30
# AliCoCo:AlibabaのEコマース認知ネット

AliCoCo: Alibaba E-commerce Cognitive Concept Net ( http://arxiv.org/abs/2003.13230v1 )

ライセンス: Link先を確認
Xusheng Luo, Luxin Liu, Yonghua Yang, Le Bo, Yuanpeng Cao, Jinhang Wu, Qiang Li, Keping Yang and Kenny Q. Zhu(参考訳) eコマースプラットフォームの最終的な目標の1つは、顧客に対するさまざまなショッピングニーズを満たすことである。 この目標に向けて、eコマースにおける分類法やオントロジーの作成に多くの努力が費やされている。 しかし、eコマースにおけるユーザニーズはまだ明確に定義されておらず、既存のオントロジーには、普遍的なユーザニーズを理解するのに十分な深さと幅がない。 セマンティックなギャップは、ショッピング体験がよりインテリジェントになることを防ぐ。 本稿では,中国最大の電子商取引プラットフォームであるアリババで実践されている「alicoco」と呼ばれる大規模電子商取引認知概念ネットを構築することを提案する。 電子商取引におけるユーザニーズを正式に定義し,それをネットワーク内のノードとして概念化する。 本稿では、AliCoCoの半自動構築方法の詳細と、その成功、継続および電子商取引への応用の可能性について述べる。

One of the ultimate goals of e-commerce platforms is to satisfy various shopping needs for their customers. Much efforts are devoted to creating taxonomies or ontologies in e-commerce towards this goal. However, user needs in e-commerce are still not well defined, and none of the existing ontologies has the enough depth and breadth for universal user needs understanding. The semantic gap in-between prevents shopping experience from being more intelligent. In this paper, we propose to construct a large-scale e-commerce cognitive concept net named "AliCoCo", which is practiced in Alibaba, the largest Chinese e-commerce platform in the world. We formally define user needs in e-commerce, then conceptualize them as nodes in the net. We present details on how AliCoCo is constructed semi-automatically and its successful, ongoing and potential applications in e-commerce.
翻訳日:2022-12-18 08:22:58 公開日:2020-03-30
# 次世代言語技術プラットフォームのためのメタデータフィットを作る: 欧州言語グリッドのメタデータスキーマ

Making Metadata Fit for Next Generation Language Technology Platforms: The Metadata Schema of the European Language Grid ( http://arxiv.org/abs/2003.13236v1 )

ライセンス: Link先を確認
Penny Labropoulou and Katerina Gkirtzou and Maria Gavriilidou and Miltos Deligiannis and Dimitrios Galanis and Stelios Piperidis and Georg Rehm and Maria Berger and Val\'erie Mapelli and Micka\"el Rigault and Victoria Arranz and Khalid Choukri and Gerhard Backfried and Jos\'e Manuel G\'omez P\'erez and Andres Garcia Silva(参考訳) 現在の科学的および技術的展望は、データリソースや処理ツール、サービスの増加によって特徴づけられる。 この設定では、このようなデジタル資産の管理、共有、利用を促進する重要な要素としてメタデータが登場している。 本稿では,言語リソースと技術(処理・生成サービス,ツール,モデル,コーパス,用語リストなど)と関連するエンティティ(組織,プロジェクト,支援文書など)を記述するための,リッチなメタデータスキーマであるelg-shareを提案する。 このスキーマは、ヨーロッパにおける産業関連言語技術のハブとマーケットプレースを目指して、欧州言語グリッドプラットフォームを支えている。 ELG-SHAREは様々なメタデータスキーマ、語彙、オントロジー、関連する推奨やガイドラインに基づいている。

The current scientific and technological landscape is characterised by the increasing availability of data resources and processing tools and services. In this setting, metadata have emerged as a key factor facilitating management, sharing and usage of such digital assets. In this paper we present ELG-SHARE, a rich metadata schema catering for the description of Language Resources and Technologies (processing and generation services and tools, models, corpora, term lists, etc.), as well as related entities (e.g., organizations, projects, supporting documents, etc.). The schema powers the European Language Grid platform that aims to be the primary hub and marketplace for industry-relevant Language Technology in Europe. ELG-SHARE has been based on various metadata schemas, vocabularies, and ontologies, as well as related recommendations and guidelines.
翻訳日:2022-12-18 08:22:45 公開日:2020-03-30
# 人間の判断が自動誤認検出性能を損なう

How human judgment impairs automated deception detection performance ( http://arxiv.org/abs/2003.13316v1 )

ライセンス: Link先を確認
Bennett Kleinberg and Bruno Verschuere(参考訳) 背景: 偽造検出は、セキュリティ実践者にとって一般的な問題である。 大規模アプローチの必要性から、機械学習を使った自動化手法が注目を集めている。 しかし、検出性能は依然としてかなりのエラー率を示している。 他のドメインからの発見は、ハイブリッドな人間と機械の統合が、偽造検出タスクにおいて実行可能な経路を提供する可能性を示唆している。 方法: 被験者の自伝的意図(n=1640)に関する真理的・虚偽的回答のコーパスを収集し, 教師付き機械学習と人間の判断の組み合わせが誤読検出精度を向上させるかどうかを検証した。 人間の裁判官は、真理と偽りのステートメントの自動信頼度判定の結果を提示された。 彼らはそれを完全にオーバールールするか(ハイブリッドオーバールール条件)、与えられた境界内で調整するか(ハイブリッド調整条件)。 結果:データは、どちらのハイブリッド条件においても、人間の判断は有意義な貢献をしなかったことを示唆している。 独立した機械学習では、真実のテラーと嘘つきを69%の精度で特定した。 ハイブリッドオーバールール決定による人間の関与は、精度をチャンスレベルに戻した。 ハイブリッド調整条件は誤認検出性能を示さなかった。 人間の意思決定戦略は、真理バイアス(相手が真理を語ると仮定する傾向)が有害な効果を説明できることを示唆している。 結論: 本研究は,人間が機械学習システムの偽造検出性能に有意義に付加できるという考えを支持するものではない。

Background: Deception detection is a prevalent problem for security practitioners. With a need for more large-scale approaches, automated methods using machine learning have gained traction. However, detection performance still implies considerable error rates. Findings from other domains suggest that hybrid human-machine integrations could offer a viable path in deception detection tasks. Method: We collected a corpus of truthful and deceptive answers about participants' autobiographical intentions (n=1640) and tested whether a combination of supervised machine learning and human judgment could improve deception detection accuracy. Human judges were presented with the outcome of the automated credibility judgment of truthful and deceptive statements. They could either fully overrule it (hybrid-overrule condition) or adjust it within a given boundary (hybrid-adjust condition). Results: The data suggest that in neither of the hybrid conditions did the human judgment add a meaningful contribution. Machine learning in isolation identified truth-tellers and liars with an overall accuracy of 69%. Human involvement through hybrid-overrule decisions brought the accuracy back to the chance level. The hybrid-adjust condition did not deception detection performance. The decision-making strategies of humans suggest that the truth bias - the tendency to assume the other is telling the truth - could explain the detrimental effect. Conclusion: The current study does not support the notion that humans can meaningfully add to the deception detection performance of a machine learning system.
翻訳日:2022-12-18 08:22:30 公開日:2020-03-30
# 責任あるマニナーにおけるAI構築の倫理について

On the Ethics of Building AI in a Responsible Manner ( http://arxiv.org/abs/2004.04644v1 )

ライセンス: Link先を確認
Shai Shalev-Shwartz, Shaked Shammah, Amnon Shashua(参考訳) AIアライメント問題は、人間のデザイナがAI学習者に指定する目標と、人間のデザイナが本当に求めていることを反映しない破滅的な結果との間に相違があるときに発生する。 戦略的と不可知的なミスアライメントを区別しないAIアライメントの形式主義は、すべての技術が安全ではないとみなすため、役に立たない。 本稿では,戦略aiアリゲーションの定義を提案し,今日実際に使用されている機械学習アルゴリズムが,戦略aiアリゲーション問題に苦しむことはないことを証明する。 しかし、注意を払わなくても、今日の技術は戦略的不整合につながるかもしれない。

The AI-alignment problem arises when there is a discrepancy between the goals that a human designer specifies to an AI learner and a potential catastrophic outcome that does not reflect what the human designer really wants. We argue that a formalism of AI alignment that does not distinguish between strategic and agnostic misalignments is not useful, as it deems all technology as un-safe. We propose a definition of a strategic-AI-alignment and prove that most machine learning algorithms that are being used in practice today do not suffer from the strategic-AI-alignment problem. However, without being careful, today's technology might lead to strategic misalignment.
翻訳日:2022-12-18 08:21:59 公開日:2020-03-30
# AIレースにおけるPebble

A Pebble in the AI Race ( http://arxiv.org/abs/2003.13861v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) ブータンは、地球上で最も人口の多い2つの国、インドと中国の間で捕獲された小さな国である「2つの岩の間の小石」と表現されることがある。 しかし、この小石は、人工知能のような新しい技術による経済、政治的、社会的秩序の変容という渦に巻き込まれようとしている。 ブータンのような小さな国は、このような変化に直面して何をしたいのか? この嵐を和らげるだけでなく、住むべきより良い場所になるために、国家は何をすべきか。

Bhutan is sometimes described as \a pebble between two boulders", a small country caught between the two most populous nations on earth: India and China. This pebble is, however, about to be caught up in a vortex: the transformation of our economic, political and social orders by new technologies like Artificial Intelligence. What can a small nation like Bhutan hope to do in the face of such change? What should the nation do, not just to weather this storm, but to become a better place in which to live?
翻訳日:2022-12-18 08:21:18 公開日:2020-03-30
# オンライン投資アルゴリズムのためのフレームワーク

A Framework for Online Investment Algorithms ( http://arxiv.org/abs/2003.13360v1 )

ライセンス: Link先を確認
Andrew Paskaramoorthy (1), Terence van Zyl (1), Tim Gebbie (2)(参考訳) オフラインの人間オペレータのサイロを持つワークフローへの投資管理プロセスの人工的なセグメンテーションは、サイロをまとめて適応的に統一された最適な投資目標を追求することを制限することができる。 投資家の目的を満たすために、オンラインアルゴリズムは明示的なインクリメンタルなアプローチを提供し、データがプロセスレベルに到達するとシーケンシャルな更新を行うことができる。 これは、プロセスレベルの統合の前にコンポーネントレベルの決定を行うことに集中するオフライン(またはバッチ)プロセスとは全く対照的です。 ここでは,アルゴリズムポートフォリオ管理のための統合的かつオンラインなフレームワークについて報告する。 この記事では、プロセスレベルの学習フレームワークにインターンで組み込むことができるワークフローを提供します。 ワークフローは、信号生成とアセットクラスの進化と定義を洗練するように拡張できる。 以上の結果から,バックテストオーバーフィットの度合いを明確化しつつ,再サンプリング手法と組み合わせて市場資本化ベンチマークを上回り得ることが確認できた。 このようなオンライン更新フレームワークは、金融理論、投資家視点、およびデータ分析とプロセスレベルの学習を統合するインテリジェントなポートフォリオ選択アルゴリズムを開発するための重要なステップであると考えています。

The artificial segmentation of an investment management process into a workflow with silos of offline human operators can restrict silos from collectively and adaptively pursuing a unified optimal investment goal. To meet the investor's objectives, an online algorithm can provide an explicit incremental approach that makes sequential updates as data arrives at the process level. This is in stark contrast to offline (or batch) processes that are focused on making component level decisions prior to process level integration. Here we present and report results for an integrated, and online framework for algorithmic portfolio management. This article provides a workflow that can in-turn be embedded into a process level learning framework. The workflow can be enhanced to refine signal generation and asset-class evolution and definitions. Our results confirm that we can use our framework in conjunction with resampling methods to outperform naive market capitalisation benchmarks while making clear the extent of back-test over-fitting. We consider such an online update framework to be a crucial step towards developing intelligent portfolio selection algorithms that integrate financial theory, investor views, and data analysis with process-level learning.
翻訳日:2022-12-18 08:21:02 公開日:2020-03-30
# 交通現場における複数物体追跡のための監視・教師なし検出:比較研究

Supervised and Unsupervised Detections for Multiple Object Tracking in Traffic Scenes: A Comparative Study ( http://arxiv.org/abs/2003.13644v1 )

ライセンス: Link先を確認
Hui-Lee Ooi, Guillaume-Alexandre Bilodeau, and Nicolas Saunier(参考訳) 本稿では,MF-Trackerと呼ばれるマルチオブジェクトトラッカーを提案し,そのトラッキングフレームワークに複数の古典的特徴(空間距離と色)と近代的特徴(検出ラベルと再識別機能)を統合する。 トラッカは,教師なし,教師なしの物体検知器から検出できるので,教師なし,教師なしの検知入力が与える影響や,一般の道路利用者を追跡する効果についても検討した。 また,ua-detracとurbantrackerデータセットに適用した既存手法との比較を行った。 その結果,提案手法は,異なる入力(urbantrackerデータセットでは0:3491から0:5805まで,ua detracデータセットでは平均0:7638まで)の両データセットにおいて,異なる状況下で非常に良好に動作していることがわかった。 十分に訓練されたオブジェクト検出器は、挑戦的なシナリオにおいてより良い結果をもたらすことができる。 しかし、単純なシナリオでは、優れたトレーニングデータが利用できない場合、教師なしのメソッドはうまく機能し、優れた代替手段になり得る。

In this paper, we propose a multiple object tracker, called MF-Tracker, that integrates multiple classical features (spatial distances and colours) and modern features (detection labels and re-identification features) in its tracking framework. Since our tracker can work with detections coming either from unsupervised and supervised object detectors, we also investigated the impact of supervised and unsupervised detection inputs in our method and for tracking road users in general. We also compared our results with existing methods that were applied on the UA-Detrac and the UrbanTracker datasets. Results show that our proposed method is performing very well in both datasets with different inputs (MOTA ranging from 0:3491 to 0:5805 for unsupervised inputs on the UrbanTracker dataset and an average MOTA of 0:7638 for supervised inputs on the UA Detrac dataset) under different circumstances. A well-trained supervised object detector can give better results in challenging scenarios. However, in simpler scenarios, if good training data is not available, unsupervised method can perform well and can be a good alternative.
翻訳日:2022-12-18 08:15:18 公開日:2020-03-30
# ビデオにおけるポーズ推定のための検出と追跡の組み合わせ

Combining detection and tracking for human pose estimation in videos ( http://arxiv.org/abs/2003.13743v1 )

ライセンス: Link先を確認
Manchen Wang, Joseph Tighe, Davide Modolo(参考訳) 本稿では,ビデオにおける人物のポーズ推定とトラッキングの課題に対処する新しいトップダウン手法を提案する。 従来のトップダウン手法とは対照的に,本手法は人検出器の性能に制限されず,局所化されていない人物のポーズを予測することができる。 この能力は、既知の人物の位置を前後に伝播し、それらの地域のポーズを探すことで実現される。 私たちのアプローチは3つのコンポーネントで構成されています。 (i)小型ビデオクリップ上で身体関節検出と追跡を同時に行うクリップ追跡ネットワーク (ii)Clip Tracking Networkが生成する固定長トラックレットを任意の長さトラックにマージするビデオ追跡パイプライン (iii)空間的・時間的平滑化項に基づいて関節の位置を洗練する空間的・時空間的マージ手順。 我々のClip Tracking Networkの精度とマージ手順のおかげで、我々のアプローチは非常に正確な共同予測が得られ、重く絡み合った人々のような困難なシナリオでよくある誤りを修正することができる。 当社のアプローチは、共同検出とトラッキングの両方、PoseTrack 2017と2018両方のデータセット、トップダウンとボトムダウンのアプローチに対する最先端の結果を実現しています。

We propose a novel top-down approach that tackles the problem of multi-person human pose estimation and tracking in videos. In contrast to existing top-down approaches, our method is not limited by the performance of its person detector and can predict the poses of person instances not localized. It achieves this capability by propagating known person locations forward and backward in time and searching for poses in those regions. Our approach consists of three components: (i) a Clip Tracking Network that performs body joint detection and tracking simultaneously on small video clips; (ii) a Video Tracking Pipeline that merges the fixed-length tracklets produced by the Clip Tracking Network to arbitrary length tracks; and (iii) a Spatial-Temporal Merging procedure that refines the joint locations based on spatial and temporal smoothing terms. Thanks to the precision of our Clip Tracking Network and our merging procedure, our approach produces very accurate joint predictions and can fix common mistakes on hard scenarios like heavily entangled people. Our approach achieves state-of-the-art results on both joint detection and tracking, on both the PoseTrack 2017 and 2018 datasets, and against all top-down and bottom-down approaches.
翻訳日:2022-12-18 08:14:44 公開日:2020-03-30
# 群衆数における誤りが背景領域に与える影響の理解

Understanding the impact of mistakes on background regions in crowd counting ( http://arxiv.org/abs/2003.13759v1 )

ライセンス: Link先を確認
Davide Modolo, Bing Shuai, Rahul Rama Varior, Joseph Tighe(参考訳) すべての群衆計数研究者は、そのモデルが人物を含まない画像領域で誤ったポジティブな予測を出力するのを観測した可能性が高い。 しかし、どれくらいの頻度でミスが起こるのか? 私たちのモデルは、この影響を受けますか? 本稿では,この問題を深く分析する。 その規模を理解するために、最も重要な群集カウントデータセットの5つについて広範な分析を行う。 この分析は2つにまとめる。 まず、人気のある群衆カウントアプローチによる間違いの数を定量化する。 私たちの結果は (i)背景上の誤りは相当で、全体のエラーの18~49%に責任がある。 (ii)モデルは、異なる背景によく一般化せず、完全な背景画像では性能が劣る。 (iii)標準平均絶対誤差(mae)測定値よりも多くの誤りを犯すモデルがある。 第二に、モデルがこの問題をよりうまく対処できるようにすることで得られるパフォーマンスの変化を定量化します。 背景予測を抑圧するセグメンテーションブランチをトレーニングした,一般的な群衆カウントネットワークを充実させる。 この簡単な追加 (i)背景誤差を10~83%削減する。 (ii)前景誤差を最大26%削減し、 (iii) 観客数全体のパフォーマンスを最大20%向上させる。 文献と比較すると、この単純な手法はすべてのデータセットに対して、最先端技術と同等の非常に競争力のある結果をもたらし、背景問題に取り組むことの重要性を示している。

Every crowd counting researcher has likely observed their model output wrong positive predictions on image regions not containing any person. But how often do these mistakes happen? Are our models negatively affected by this? In this paper we analyze this problem in depth. In order to understand its magnitude, we present an extensive analysis on five of the most important crowd counting datasets. We present this analysis in two parts. First, we quantify the number of mistakes made by popular crowd counting approaches. Our results show that (i) mistakes on background are substantial and they are responsible for 18-49% of the total error, (ii) models do not generalize well to different kinds of backgrounds and perform poorly on completely background images, and (iii) models make many more mistakes than those captured by the standard Mean Absolute Error (MAE) metric, as counting on background compensates considerably for misses on foreground. And second, we quantify the performance change gained by helping the model better deal with this problem. We enrich a typical crowd counting network with a segmentation branch trained to suppress background predictions. This simple addition (i) reduces background error by 10-83%, (ii) reduces foreground error by up to 26% and (iii) improves overall crowd counting performance up to 20%. When compared against the literature, this simple technique achieves very competitive results on all datasets, on par with the state-of-the-art, showing the importance of tackling the background problem.
翻訳日:2022-12-18 08:14:22 公開日:2020-03-30
# ドメインバランシング:長期ドメインにおける顔認識

Domain Balancing: Face Recognition on Long-Tailed Domains ( http://arxiv.org/abs/2003.13791v1 )

ライセンス: Link先を確認
Dong Cao, Xiangyu Zhu, Xingyu Huang, Jianzhu Guo, Zhen Lei(参考訳) 顔認証タスクにおいて、長い尾の問題は重要な話題となっている。 しかし、既存の手法はクラスの長期分布にのみ焦点をあてる。 異なるのは、ロングテールのドメイン分散問題に専心しており、これは少数のドメインが頻繁に出現し、他のドメインがはるかに少ないという事実を指す。 問題の鍵となる課題は、ドメインラベルが複雑すぎる(人種、年齢、ポーズ、照明などに関連する)ことであり、実際のアプリケーションではアクセスできないことである。 本稿では,この問題に対処するための新しいドメインバランシング(db)メカニズムを提案する。 具体的には、まず、サンプルがヘッドドメインかテールドメインかを判断するドメイン周波数インジケータ(dfi)を提案する。 次に,重み付き残差バランスマッピング(rbm)ブロックを定式化し,dfiに応じてネットワークを調整することにより,領域分布のバランスをとる。 最後に、損失関数におけるドメインバランスマージン(DBM)を提案し、テール領域の特徴空間をさらに最適化し、一般化を改善する。 複数の顔認証ベンチマークの大規模解析と実験により,提案手法は一般化能力を効果的に向上し,優れた性能が得られることを示した。

Long-tailed problem has been an important topic in face recognition task. However, existing methods only concentrate on the long-tailed distribution of classes. Differently, we devote to the long-tailed domain distribution problem, which refers to the fact that a small number of domains frequently appear while other domains far less existing. The key challenge of the problem is that domain labels are too complicated (related to race, age, pose, illumination, etc.) and inaccessible in real applications. In this paper, we propose a novel Domain Balancing (DB) mechanism to handle this problem. Specifically, we first propose a Domain Frequency Indicator (DFI) to judge whether a sample is from head domains or tail domains. Secondly, we formulate a light-weighted Residual Balancing Mapping (RBM) block to balance the domain distribution by adjusting the network according to DFI. Finally, we propose a Domain Balancing Margin (DBM) in the loss function to further optimize the feature space of the tail domains to improve generalization. Extensive analysis and experiments on several face recognition benchmarks demonstrate that the proposed method effectively enhances the generalization capacities and achieves superior performance.
翻訳日:2022-12-18 08:13:30 公開日:2020-03-30
# 逆問題に畳み込みニューラルネットワークを使うには

When to Use Convolutional Neural Networks for Inverse Problems ( http://arxiv.org/abs/2003.13820v1 )

ライセンス: Link先を確認
Nathaniel Chodosh, Simon Lucey(参考訳) コンピュータビジョンにおける再構成作業は、無決定信号を一連のノイズ測定から回復することを目的としている。 例えば、超解像、画像のデノイング、動きからの非剛体構造などがあり、これらは全て近年のディープラーニングによる進歩である。 しかし、初期の研究はスパース信号再構成フレームワーク(例えば畳み込みスパース符号)を広範囲に利用した。 この研究は最終的に深層学習に勝ったが、より発達した理論の枠組みを踏襲した。 papyanらによる最近の研究 alは、畳み込みニューラルネットワーク(CNN)が、畳み込みスパース符号化(CSC)問題の近似解であることを示すことによって、2つのアプローチの橋渡しを提供する。 この研究では、ある種の逆問題に対して、CNN近似は性能の低下につながると論じている。 このような問題に対して、CSCアプローチは代わりに使用すべきであり、実証的な証拠でこの議論を検証すべきである。 具体的には, CNNの逆問題としてJPEGアーチファクトの低減と非剛性軌道再構成を同定し, CSC法を用いて, それらに対するアートパフォーマンスの状態を実証する。 さらに,本モデルとその応用に実践的な改善を加え,本モデルから得られた洞察を,CNNの本質的なアプリケーションが失敗するタスクにおいて効果的に活用できることを示す。

Reconstruction tasks in computer vision aim fundamentally to recover an undetermined signal from a set of noisy measurements. Examples include super-resolution, image denoising, and non-rigid structure from motion, all of which have seen recent advancements through deep learning. However, earlier work made extensive use of sparse signal reconstruction frameworks (e.g convolutional sparse coding). While this work was ultimately surpassed by deep learning, it rested on a much more developed theoretical framework. Recent work by Papyan et. al provides a bridge between the two approaches by showing how a convolutional neural network (CNN) can be viewed as an approximate solution to a convolutional sparse coding (CSC) problem. In this work we argue that for some types of inverse problems the CNN approximation breaks down leading to poor performance. We argue that for these types of problems the CSC approach should be used instead and validate this argument with empirical evidence. Specifically we identify JPEG artifact reduction and non-rigid trajectory reconstruction as challenging inverse problems for CNNs and demonstrate state of the art performance on them using a CSC method. Furthermore, we offer some practical improvements to this model and its application, and also show how insights from the CSC model can be used to make CNNs effective in tasks where their naive application fails.
翻訳日:2022-12-18 08:13:11 公開日:2020-03-30
# ActGAN:柔軟で効率的なワンショット顔再現

ActGAN: Flexible and Efficient One-shot Face Reenactment ( http://arxiv.org/abs/2003.13840v1 )

ライセンス: Link先を確認
Ivan Kosarevych, Marian Petruk, Markian Kostiv, Orest Kupyn, Mykola Maksymenko, Volodymyr Budzan(参考訳) 本稿では, ワンショット顔再現のための新しいGANであるActGANを紹介する。 2つの画像が与えられた場合、目的は俳優の表情を写実的に対象人物に転送することである。 既存の手法では、対象のアイデンティティを事前に定義する必要があるが、"many-to-many"アプローチを導入してこの問題に対処する。 この目的のために、我々はFPNの顔再現における最初の応用であるコアジェネレータビルディングブロックとしてFeature Pyramid Network (FPN)を採用している。 また,深層顔認識領域において最先端のアプローチを採用することにより,合成者と対象者との同一性を保つソリューションを提案する。 このアーキテクチャは、"many-to-Many"、"one-to-one"、"one-to-aother"、表現精度、アイデンティティ保存、全体的な画像品質など、さまざまなシナリオで容易に再現をサポートする。 本稿では,ActGANが視覚品質に関する最近の研究と競合する性能を発揮することを示す。

This paper introduces ActGAN - a novel end-to-end generative adversarial network (GAN) for one-shot face reenactment. Given two images, the goal is to transfer the facial expression of the source actor onto a target person in a photo-realistic fashion. While existing methods require target identity to be predefined, we address this problem by introducing a "many-to-many" approach, which allows arbitrary persons both for source and target without additional retraining. To this end, we employ the Feature Pyramid Network (FPN) as a core generator building block - the first application of FPN in face reenactment, producing finer results. We also introduce a solution to preserve a person's identity between synthesized and target person by adopting the state-of-the-art approach in deep face recognition domain. The architecture readily supports reenactment in different scenarios: "many-to-many", "one-to-one", "one-to-another" in terms of expression accuracy, identity preservation, and overall image quality. We demonstrate that ActGAN achieves competitive performance against recent works concerning visual quality.
翻訳日:2022-12-18 08:12:49 公開日:2020-03-30
# 深層学習は人間の活動を理解することができるか?

Can Deep Learning Recognize Subtle Human Activities? ( http://arxiv.org/abs/2003.13852v1 )

ライセンス: Link先を確認
Vincent Jacquot, Zhuofan Ying, Gabriel Kreiman(参考訳) ディープラーニングは、コンピュータビジョンの最近の、エキサイティングな進歩を促し、これらのアルゴリズムが視覚的なタスクを解決できるという信念を暗示している。 しかし、コンピュータビジョンアルゴリズムのトレーニングとテストに一般的に使用されるデータセットには、広範に混在する要因がある。 このようなバイアスは、これらのアルゴリズムのパフォーマンスを真に見積もることが難しく、コンピュータビジョンモデルがトレーニング対象のディストリビューションの外でどれだけうまく外挿できるかを推測する。 本研究では,最先端のディープラーニングモデルでは不十分であるが,人間にはうまく機能する新しい行動分類課題を提案する。 原則の証明として,飲酒,読書,着席という3つの模範的な課題を考察する。 最先端のコンピュータビジョンモデルを用いて到達した最高の精度は、それぞれ61.7%、62.8%、76.8%であり、人間の被験者は3つのタスクで90%以上の正確性を示した。 本稿では,データセット作成時と人間とコンピュータの視覚性能を比較する場合のコンファウンドを削減するための厳密な手法を提案する。 ソースコードとデータセットが公開されている。

Deep Learning has driven recent and exciting progress in computer vision, instilling the belief that these algorithms could solve any visual task. Yet, datasets commonly used to train and test computer vision algorithms have pervasive confounding factors. Such biases make it difficult to truly estimate the performance of those algorithms and how well computer vision models can extrapolate outside the distribution in which they were trained. In this work, we propose a new action classification challenge that is performed well by humans, but poorly by state-of-the-art Deep Learning models. As a proof-of-principle, we consider three exemplary tasks: drinking, reading, and sitting. The best accuracies reached using state-of-the-art computer vision models were 61.7%, 62.8%, and 76.8%, respectively, while human participants scored above 90% accuracy on the three tasks. We propose a rigorous method to reduce confounds when creating datasets, and when comparing human versus computer vision performance. Source code and datasets are publicly available.
翻訳日:2022-12-18 08:12:27 公開日:2020-03-30
# strip pooling: シーン解析のための空間プール再考

Strip Pooling: Rethinking Spatial Pooling for Scene Parsing ( http://arxiv.org/abs/2003.13328v1 )

ライセンス: Link先を確認
Qibin Hou, Li Zhang, Ming-Ming Cheng, Jiashi Feng(参考訳) 空間プーリングは、シーン解析のようなピクセル単位での予測タスクの長距離コンテキスト情報を取得するのに非常に効果的であることが証明されている。 本稿では、通常NxNの規則的な形状を持つ従来の空間プーリング以外にも、長いが狭いカーネルである1xNやNx1を考えるストリッププーリングと呼ばれる新しいプール戦略を導入することで、空間プーリングの定式化を再考する。 ストリッププーリングに基づき,空間プーリングアーキテクチャの設計をさらに検討する。 1) バックボーンネットワークが長距離依存を効率的にモデル化できる新しいストリッププールモジュールを導入する。 2 多様な空間プールをコアとする新規なビルディングブロックの提示、及び 3) 提案するストリッププーリングの性能と従来の空間プーリング手法を体系的に比較した。 両方の新しいプールベースのデザインは軽量であり、既存のシーン解析ネットワークにおいて効率的なプラグアンドプレイモジュールとして機能する。 一般的なベンチマーク(ADE20KやCityscapesなど)に関する大規模な実験は、我々の単純なアプローチが新しい最先端の結果を確立することを示した。 コードはhttps://github.com/andrew-qibin/spnetで入手できる。

Spatial pooling has been proven highly effective in capturing long-range contextual information for pixel-wise prediction tasks, such as scene parsing. In this paper, beyond conventional spatial pooling that usually has a regular shape of NxN, we rethink the formulation of spatial pooling by introducing a new pooling strategy, called strip pooling, which considers a long but narrow kernel, i.e., 1xN or Nx1. Based on strip pooling, we further investigate spatial pooling architecture design by 1) introducing a new strip pooling module that enables backbone networks to efficiently model long-range dependencies, 2) presenting a novel building block with diverse spatial pooling as a core, and 3) systematically comparing the performance of the proposed strip pooling and conventional spatial pooling techniques. Both novel pooling-based designs are lightweight and can serve as an efficient plug-and-play module in existing scene parsing networks. Extensive experiments on popular benchmarks (e.g., ADE20K and Cityscapes) demonstrate that our simple approach establishes new state-of-the-art results. Code is made available at https://github.com/Andrew-Qibin/SPNet.
翻訳日:2022-12-18 08:05:17 公開日:2020-03-30
# ピラミッド占有ネットワークを用いた画像からの意味地図表現の予測

Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks ( http://arxiv.org/abs/2003.13402v1 )

ライセンス: Link先を確認
Thomas Roddick, Roberto Cipolla(参考訳) 自律車は通常、環境の詳細な鳥眼ビューマップに依存しており、道路レイアウトのようなシーンの静的要素と、他の車や歩行者のような動的な要素の両方を捉えている。 これらの地図表現をオンザフライで生成することは、平面推定、道路分割、および3dオブジェクト検出など、多くの重要なビジョンベースの要素を組み込んだ複雑な多段階プロセスである。 本研究では,単一のエンドツーエンドのディープラーニングアーキテクチャを用いて,単眼画像から直接地図を推定する手法を提案する。 マップ自体にはセマンティックベイズ占有グリッドフレームワークを採用しており、複数のカメラやタイムステップに簡単に情報を蓄積することができます。 本手法の有効性を,数種類の難解なベースラインに対して評価することで実証し,既存の手法と比較して,それぞれ9.1%,22.3%の相対的改善を達成できることを示した。

Autonomous vehicles commonly rely on highly detailed birds-eye-view maps of their environment, which capture both static elements of the scene such as road layout as well as dynamic elements such as other cars and pedestrians. Generating these map representations on the fly is a complex multi-stage process which incorporates many important vision-based elements, including ground plane estimation, road segmentation and 3D object detection. In this work we present a simple, unified approach for estimating maps directly from monocular images using a single end-to-end deep learning architecture. For the maps themselves we adopt a semantic Bayesian occupancy grid framework, allowing us to trivially accumulate information over multiple cameras and timesteps. We demonstrate the effectiveness of our approach by evaluating against several challenging baselines on the NuScenes and Argoverse datasets, and show that we are able to achieve a relative improvement of 9.1% and 22.3% respectively compared to the best-performing existing method.
翻訳日:2022-12-18 08:04:58 公開日:2020-03-30
# 同じ特徴、異なる日:季節的不変性のための弱い教師付き特徴学習

Same Features, Different Day: Weakly Supervised Feature Learning for Seasonal Invariance ( http://arxiv.org/abs/2003.13431v1 )

ライセンス: Link先を確認
Jaime Spencer, Richard Bowden, Simon Hadfield(参考訳) 「夜も夜も」は2つのことが全く違うことを示すためによく使われる表現である。 残念なことに、これは様々な季節や時間にわたって同じシーンの現在のビジュアルな特徴表現に当てはまる傾向がある。 本研究の目的は,現在の季節的あるいは時間的外観によらず,局所化,スパースマッチング,画像検索に使用できる高密度特徴表現を提供することである。 近年,深層学習の特徴表現の手法がいくつか提案されている。 これらの手法は,一対のイメージ間の接地真理画素対応を利用し,特徴の空間的特性に焦点をあてる。 したがって、時間的変動や季節的変動には対処しない。 さらに,クロスシーズン環境でのトレーニングに必要な画素対応データを取得することは,ほとんどのシナリオにおいて非常に複雑である。 Deja-Vuは、画素単位の地上真実データを必要としない季節不変の特徴を学習するための弱い教師付きアプローチである。 提案システムは,2つの画像が同一位置に対応するか否かを示す粗いラベルのみを必要とする。 これらのラベルから、ネットワークは環境の変化にもかかわらず、対応する場所に「類似した」密集した特徴マップを作成するように訓練されている。 コードはhttps://github.com/jspenmar/dejavu_featuresで利用可能になる。

"Like night and day" is a commonly used expression to imply that two things are completely different. Unfortunately, this tends to be the case for current visual feature representations of the same scene across varying seasons or times of day. The aim of this paper is to provide a dense feature representation that can be used to perform localization, sparse matching or image retrieval, regardless of the current seasonal or temporal appearance. Recently, there have been several proposed methodologies for deep learning dense feature representations. These methods make use of ground truth pixel-wise correspondences between pairs of images and focus on the spatial properties of the features. As such, they don't address temporal or seasonal variation. Furthermore, obtaining the required pixel-wise correspondence data to train in cross-seasonal environments is highly complex in most scenarios. We propose Deja-Vu, a weakly supervised approach to learning season invariant features that does not require pixel-wise ground truth data. The proposed system only requires coarse labels indicating if two images correspond to the same location or not. From these labels, the network is trained to produce "similar" dense feature maps for corresponding locations despite environmental changes. Code will be made available at: https://github.com/jspenmar/DejaVu_Features
翻訳日:2022-12-18 08:04:40 公開日:2020-03-30
# DeFeat-Net: 同時教師なし表現学習による一般的な単分子深度

DeFeat-Net: General Monocular Depth via Simultaneous Unsupervised Representation Learning ( http://arxiv.org/abs/2003.13446v1 )

ライセンス: Link先を確認
Jaime Spencer, Richard Bowden, Simon Hadfield(参考訳) 現在の単眼深度研究において、主要なアプローチは、非教師なしのトレーニングを大きなデータセットで採用することである。 このようなアプローチは堅牢性に欠けており、夜間のシーンや、フォトメトリックの一貫性に関する仮定が崩れるような悪天候条件といった困難な領域に一般化できない。 DeFeat-Net(Deepth & Feature Network)を提案する。これはドメイン間密な特徴表現を同時に学習する手法であり、歪んだ特徴整合性に基づいた堅牢な深さ推定フレームワークである。 得られた特徴表現は教師なしの方法で学習され、明示的な接地対応は不要である。 一つの領域において,本手法は単分子深度推定と教師付き特徴表現学習における最先端技術に匹敵するものであることを示す。 しかし,特徴,深度,動きを同時に学習することで,DeFeat-Netが夜間運転などのより困難なシーケンスに対するエラー対策を約10%削減し,現在の最先端技術よりも優れているように,課題領域に一般化することができる。

In the current monocular depth research, the dominant approach is to employ unsupervised training on large datasets, driven by warped photometric consistency. Such approaches lack robustness and are unable to generalize to challenging domains such as nighttime scenes or adverse weather conditions where assumptions about photometric consistency break down. We propose DeFeat-Net (Depth & Feature network), an approach to simultaneously learn a cross-domain dense feature representation, alongside a robust depth-estimation framework based on warped feature consistency. The resulting feature representation is learned in an unsupervised manner with no explicit ground-truth correspondences required. We show that within a single domain, our technique is comparable to both the current state of the art in monocular depth estimation and supervised feature representation learning. However, by simultaneously learning features, depth and motion, our technique is able to generalize to challenging domains, allowing DeFeat-Net to outperform the current state-of-the-art with around 10% reduction in all error measures on more challenging sequences such as nighttime driving.
翻訳日:2022-12-18 08:04:22 公開日:2020-03-30
# RPM-Net:学習した特徴を用いたロバストポイントマッチング

RPM-Net: Robust Point Matching using Learned Features ( http://arxiv.org/abs/2003.13479v1 )

ライセンス: Link先を確認
Zi Jian Yew and Gim Hee Lee(参考訳) 反復的最接近点 (icp) は、(1)空間的最接近点対応のハード代入を行い、(2)最小二乗剛性変換を見つけるという2つのステップで反復的に剛性点クラウド登録問題を解く。 空間距離に基づく最も近い点対応のハードな割り当ては、初期剛性変換とノイズ/外れ点に敏感であり、しばしばICPは間違った局所最小値に収束する。 本稿では、RPM-Netについて、より初期化に敏感で、より堅牢な深層学習に基づく厳密なクラウド登録手法を提案する。 この目的のために、ネットワークは微分可能なシンクホーン層とアニーリングを用いて、空間座標と局所幾何から学んだハイブリッド特徴から点対応のソフト代入を得る。 登録性能をさらに向上するために,最適アニールパラメータを予測する二次ネットワークを導入する。 既存の方法とは異なり、我々のRPM-Netは、部分的な可視性を持った不一致と点雲を扱う。 実験の結果,既存の非深層学習法や最近の深層学習法と比較して,我々のRPM-Netは最先端の性能を発揮することがわかった。 ソースコードはプロジェクトのwebサイトhttps://github.com/yewzijian/rpmnetで入手できます。

Iterative Closest Point (ICP) solves the rigid point cloud registration problem iteratively in two steps: (1) make hard assignments of spatially closest point correspondences, and then (2) find the least-squares rigid transformation. The hard assignments of closest point correspondences based on spatial distances are sensitive to the initial rigid transformation and noisy/outlier points, which often cause ICP to converge to wrong local minima. In this paper, we propose the RPM-Net -- a less sensitive to initialization and more robust deep learning-based approach for rigid point cloud registration. To this end, our network uses the differentiable Sinkhorn layer and annealing to get soft assignments of point correspondences from hybrid features learned from both spatial coordinates and local geometry. To further improve registration performance, we introduce a secondary network to predict optimal annealing parameters. Unlike some existing methods, our RPM-Net handles missing correspondences and point clouds with partial visibility. Experimental results show that our RPM-Net achieves state-of-the-art performance compared to existing non-deep learning and recent deep learning methods. Our source code is available at the project website https://github.com/yewzijian/RPMNet .
翻訳日:2022-12-18 08:04:04 公開日:2020-03-30
# layoutmp3d: matterport3dのレイアウトアノテーション

LayoutMP3D: Layout Annotation of Matterport3D ( http://arxiv.org/abs/2003.13516v1 )

ライセンス: Link先を確認
Fu-En Wang, Yu-Hsuan Yeh, Min Sun, Wei-Chen Chiu, Yi-Hsuan Tsai(参考訳) 単一の正方形パノラマから3Dレイアウトに関する情報を推測することは、仮想現実やロボット工学(シーン理解やナビゲーションなど)の多くの応用に不可欠である。 これを実現するために、360度レイアウト推定のタスクのために、いくつかのデータセットが収集される。 屋内シナリオにおける自律型システムの学習アルゴリズムを容易にするために,当初提供されていた深度マップ基底真理を用いてMatterport3Dデータセットを考察し,さらにMatterport3Dのサブセットからレイアウト基底真理のアノテーションをリリースする。 Matterport3Dには、飛行時間(ToF)センサーからの正確な深度グラウンドの真実が含まれているため、我々のデータセットは、レイアウト情報と深度情報の両方を提供する。

Inferring the information of 3D layout from a single equirectangular panorama is crucial for numerous applications of virtual reality or robotics (e.g., scene understanding and navigation). To achieve this, several datasets are collected for the task of 360 layout estimation. To facilitate the learning algorithms for autonomous systems in indoor scenarios, we consider the Matterport3D dataset with their originally provided depth map ground truths and further release our annotations for layout ground truths from a subset of Matterport3D. As Matterport3D contains accurate depth ground truths from time-of-flight (ToF) sensors, our dataset provides both the layout and depth information, which enables the opportunity to explore the environment by integrating both cues.
翻訳日:2022-12-18 08:03:16 公開日:2020-03-30
# speech2action: 行動認識のためのクロスモーダル監督

Speech2Action: Cross-modal Supervision for Action Recognition ( http://arxiv.org/abs/2003.13594v1 )

ライセンス: Link先を確認
Arsha Nagrani, Chen Sun, David Ross, Rahul Sukthankar, Cordelia Schmid, Andrew Zisserman(参考訳) 対話だけで人間の行動を推測することは可能か? 本研究では,映画における話し言葉と行動の関係について検討する。 映画の脚本では、アクションを記述し、キャラクタのスピーチも含んでいるので、追加の監督なしにこの相関を学習することができる。 BERTベースのSpeech2Action分類器を1000以上の映画画面上で訓練し、転写された音声セグメントからアクションラベルを予測する。 次に,このモデルを288kの映画コーパスの音声セグメント(188mの音声セグメント)に適用する。 このモデルの予測を用いて,800K以上のビデオクリップに対して弱い動作ラベルを求める。 これらのビデオクリップをトレーニングすることにより、手動でラベル付けされたアクション例を用いることなく、標準アクション認識ベンチマークにおいて優れたアクション認識性能を示す。

Is it possible to guess human action from dialogue alone? In this work we investigate the link between spoken words and actions in movies. We note that movie screenplays describe actions, as well as contain the speech of characters and hence can be used to learn this correlation with no additional supervision. We train a BERT-based Speech2Action classifier on over a thousand movie screenplays, to predict action labels from transcribed speech segments. We then apply this model to the speech segments of a large unlabelled movie corpus (188M speech segments from 288K movies). Using the predictions of this model, we obtain weak action labels for over 800K video clips. By training on these video clips, we demonstrate superior action recognition performance on standard action recognition benchmarks, without using a single manually labelled action example.
翻訳日:2022-12-18 08:02:34 公開日:2020-03-30
# 単一ドメインの一般化を学ぶ

Learning to Learn Single Domain Generalization ( http://arxiv.org/abs/2003.13216v1 )

ライセンス: Link先を確認
Fengchun Qiao, Long Zhao, Xi Peng(参考訳) モデル一般化における最悪のシナリオは、モデルが未確認領域の多くでうまく機能することを目的としており、トレーニングに利用できるドメインは1つしかありません。 本稿では,この分散型一般化問題を解くために,adversarial domain augmentationという新しい手法を提案する。 鍵となるアイデアは、敵の訓練を活用して、モデルが理論的な保証で一般化することを学べる「有害」だが「困難」な集団を作り出すことである。 ドメイン拡張を迅速かつ望ましいものにするため,モデルトレーニングをメタラーニング方式で実施し,wasserstein auto-encoder (wae) を用いて,広く使用される最悪の制約を緩和した。 複数のベンチマークデータセットに対する広範な実験は、単一ドメインの一般化に取り組む上で、その優れた性能を示している。

We are concerned with a worst-case scenario in model generalization, in the sense that a model aims to perform well on many unseen domains while there is only one single domain available for training. We propose a new method named adversarial domain augmentation to solve this Out-of-Distribution (OOD) generalization problem. The key idea is to leverage adversarial training to create "fictitious" yet "challenging" populations, from which a model can learn to generalize with theoretical guarantees. To facilitate fast and desirable domain augmentation, we cast the model training in a meta-learning scheme and use a Wasserstein Auto-Encoder (WAE) to relax the widely used worst-case constraint. Detailed theoretical analysis is provided to testify our formulation, while extensive experiments on multiple benchmark datasets indicate its superior performance in tackling single domain generalization.
翻訳日:2022-12-18 07:57:05 公開日:2020-03-30
# 異常検出のためのメモリ誘導正規性学習

Learning Memory-guided Normality for Anomaly Detection ( http://arxiv.org/abs/2003.13228v1 )

ライセンス: Link先を確認
Hyunjong Park, Jongyoun Noh, Bumsub Ham(参考訳) 本稿では,映像列における異常事象の検出という異常検出の問題に対処する。 畳み込みニューラルネットワーク(CNN)に基づく異常検出手法は、典型的には、入力ビデオフレームの再構成などのプロキシタスクを活用し、トレーニング時に異常サンプルを見ることなく正常性を記述するモデルを学習し、テスト時に再構成エラーを使用して異常度を定量化する。 これらのアプローチの主な欠点は、通常のパターンの多様性を明示的に考慮していないことと、cnnの強力な表現能力が異常なビデオフレームを再構築できることである。 この問題に対処するために,正規パターンの多様性を明示的に考慮しつつ,cnnの表現能力を低下させる異常検出に対する教師なし学習手法を提案する。 この目的のために,メモリレコード内のアイテムが正規データのプロトタイプパターンとなるような新しい更新方式のメモリモジュールを提案する。 また,メモリをトレーニングするための特徴量と分離性損失を新たに提示し,メモリアイテムの識別能力と通常のデータからの深い学習能力を高める。 標準ベンチマークによる実験結果から,提案手法の有効性と効率性が実証された。

We address the problem of anomaly detection, that is, detecting anomalous events in a video sequence. Anomaly detection methods based on convolutional neural networks (CNNs) typically leverage proxy tasks, such as reconstructing input video frames, to learn models describing normality without seeing anomalous samples at training time, and quantify the extent of abnormalities using the reconstruction error at test time. The main drawbacks of these approaches are that they do not consider the diversity of normal patterns explicitly, and the powerful representation capacity of CNNs allows to reconstruct abnormal video frames. To address this problem, we present an unsupervised learning approach to anomaly detection that considers the diversity of normal patterns explicitly, while lessening the representation capacity of CNNs. To this end, we propose to use a memory module with a new update scheme where items in the memory record prototypical patterns of normal data. We also present novel feature compactness and separateness losses to train the memory, boosting the discriminative power of both memory items and deeply learned features from normal data. Experimental results on standard benchmarks demonstrate the effectiveness and efficiency of our approach, which outperforms the state of the art.
翻訳日:2022-12-18 07:56:48 公開日:2020-03-30
# MetaFuse: 人間の姿勢推定のための事前訓練された融合モデル

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation ( http://arxiv.org/abs/2003.13239v1 )

ライセンス: Link先を確認
Rongchang Xie, Chunyu Wang, Yizhou Wang(参考訳) クロスビュー特徴融合は、人間のポーズ推定における閉塞問題に対処する鍵である。 現在の融合手法では、各カメラの異なるモデルを訓練する必要があるため、スケーリングが困難になる。 本稿では,Panopticデータセットの多数のカメラから学習した,事前学習型核融合モデルであるMetaFuseを紹介する。 このモデルは、少数のラベル付き画像を用いて、新しい一対のカメラに対して効率よく適応または微調整することができる。 MetaFuseの強力な適応力は、原核融合モデルが提案された因子を、(1)全カメラで共有される汎用核融合モデルと(2)軽量カメラ依存型変換に分解することに起因する。 さらに、多くのカメラからメタラーニングスタイルのアルゴリズムを用いて汎用モデルを学習し、様々なカメラポーズへの適応能力を最大化する。 我々は,MetaFuseが公開データセット上で微調整した実験において,その価値を実際に検証する大きなマージンで最先端の成果を上げていることを観察する。

Cross view feature fusion is the key to address the occlusion problem in human pose estimation. The current fusion methods need to train a separate model for every pair of cameras making them difficult to scale. In this work, we introduce MetaFuse, a pre-trained fusion model learned from a large number of cameras in the Panoptic dataset. The model can be efficiently adapted or finetuned for a new pair of cameras using a small number of labeled images. The strong adaptation power of MetaFuse is due in large part to the proposed factorization of the original fusion model into two parts (1) a generic fusion model shared by all cameras, and (2) lightweight camera-dependent transformations. Furthermore, the generic model is learned from many cameras by a meta-learning style algorithm to maximize its adaptation capability to various camera poses. We observe in experiments that MetaFuse finetuned on the public datasets outperforms the state-of-the-arts by a large margin which validates its value in practice.
翻訳日:2022-12-18 07:56:27 公開日:2020-03-30
# 対話型映像オブジェクトセグメンテーションのためのメモリアグリゲーションネットワーク

Memory Aggregation Networks for Efficient Interactive Video Object Segmentation ( http://arxiv.org/abs/2003.13246v1 )

ライセンス: Link先を確認
Jiaxu Miao, Yunchao Wei and Yi Yang(参考訳) インタラクティブビデオオブジェクトセグメンテーション(ivos)は、ユーザのインタラクションを備えたビデオ内のターゲットオブジェクトの高品質セグメンテーションマスクを効率的に取得することを目的としている。 これまでのほとんどの最先端技術は、ユーザインタラクションと時間的伝搬を行う2つの独立したネットワークでiVOSに取り組み、推論段階では非効率になる。 本研究では,メモリ集約ネットワーク(MA-Net)という統合フレームワークを提案する。 我々のMA-Netは、相互作用と伝搬操作を単一のネットワークに統合し、マルチラウンド相互作用のスキームにおけるiVOSの効率を大幅に向上させる。 より重要なことは、前回のインタラクションラウンドから情報を得た知識を記録するための、シンプルで効果的なメモリ集約機構を提案することである。 DAVIS Challenge 2018ベンチマークの検証セットについて広範な実験を行う。 特に、我々のma-netは76.1%のj@60スコアを達成し、2.7%以上で最先端を上回っています。

Interactive video object segmentation (iVOS) aims at efficiently harvesting high-quality segmentation masks of the target object in a video with user interactions. Most previous state-of-the-arts tackle the iVOS with two independent networks for conducting user interaction and temporal propagation, respectively, leading to inefficiencies during the inference stage. In this work, we propose a unified framework, named Memory Aggregation Networks (MA-Net), to address the challenging iVOS in a more efficient way. Our MA-Net integrates the interaction and the propagation operations into a single network, which significantly promotes the efficiency of iVOS in the scheme of multi-round interactions. More importantly, we propose a simple yet effective memory aggregation mechanism to record the informative knowledge from the previous interaction rounds, improving the robustness in discovering challenging objects of interest greatly. We conduct extensive experiments on the validation set of DAVIS Challenge 2018 benchmark. In particular, our MA-Net achieves the J@60 score of 76.1% without any bells and whistles, outperforming the state-of-the-arts with more than 2.7%.
翻訳日:2022-12-18 07:56:11 公開日:2020-03-30
# ネットワークエッジにおける交渉性能の向上

Increasing negotiation performance at the edge of the network ( http://arxiv.org/abs/2003.13668v1 )

ライセンス: Link先を確認
Sam Vente (1), Angelika Kimmig (1), Alun Preece (1), Federico Cerutti (2) ((1) Cardiff University, (2) University of Brescia)(参考訳) IoT(Internet of Things)デバイスのプライバシやスマートグリッドの電力分配など,さまざまな分散設定で自動交渉が使用されている。 これらのエージェントが交渉する最も一般的なプロトコルは Alternating Offers Protocol (AOP) である。 このプロトコルでは、エージェントはカウンターオファー以外の追加情報を互いに表現することはできない。 例えば、交渉が不可能であり、ネットワークの端にある貴重なリソースである帯域を浪費するリスクがある場合、これは不要な長期の交渉につながる可能性がある。 この問題を緩和する代替プロトコルはあるが、これらのソリューションはネットワークの端で動作しているIoTセンサーのような低消費電力デバイスには複雑すぎる。 このボトルネックを改善するために、エージェントが互いに制約を表現できるAlternating Constrained Offers Protocol(ACOP)と呼ばれるAOPの拡張を導入する。 これにより、エージェントは可能性空間をより効率的に探索し、より早く不可能な状況を認識することができる。 我々は, ACOP を用いたエージェントが, 戦略エージェントが選択したメッセージ数を大幅に削減できることを実証的に示す。 特に,提案手法は,合意が得られない場合のメッセージ数を大幅に削減することを示す。 さらに、合意が成立すれば、その効用に悪影響を及ぼすことなく、すぐにこの合意に達する。

Automated negotiation has been used in a variety of distributed settings, such as privacy in the Internet of Things (IoT) devices and power distribution in Smart Grids. The most common protocol under which these agents negotiate is the Alternating Offers Protocol (AOP). Under this protocol, agents cannot express any additional information to each other besides a counter offer. This can lead to unnecessarily long negotiations when, for example, negotiations are impossible, risking to waste bandwidth that is a precious resource at the edge of the network. While alternative protocols exist which alleviate this problem, these solutions are too complex for low power devices, such as IoT sensors operating at the edge of the network. To improve this bottleneck, we introduce an extension to AOP called Alternating Constrained Offers Protocol (ACOP), in which agents can also express constraints to each other. This allows agents to both search the possibility space more efficiently and recognise impossible situations sooner. We empirically show that agents using ACOP can significantly reduce the number of messages a negotiation takes, independently of the strategy agents choose. In particular, we show our method significantly reduces the number of messages when an agreement is not possible. Furthermore, when an agreement is possible it reaches this agreement sooner with no negative effect on the utility.
翻訳日:2022-12-18 07:47:09 公開日:2020-03-30
# スパイクニューロンのバンプトラクターネットワークにおける臨界限界

Critical Limits in a Bump Attractor Network of Spiking Neurons ( http://arxiv.org/abs/2003.13365v1 )

ライセンス: Link先を確認
Alberto Arturo Vergani and Christian Robert Huyck(参考訳) バンプアトラクタネットワーク(bump attractor network)は、入力源に関連するスパイクパターンから出現する競合ニューロンプロセスを実装するモデルである。 バンプネットワークは様々な方法で振る舞うことができるため、様々な正の重みと負の重みと入力のスパイクソースのサイズの増加を用いてパラメータ空間の臨界限界を探索する。 正の重み値と負の重み値のバランスは、スパイクトレインパターンの分割または分岐挙動を決定し、最小の発射条件を定義する上で重要である。

A bump attractor network is a model that implements a competitive neuronal process emerging from a spike pattern related to an input source. Since the bump network could behave in many ways, this paper explores some critical limits of the parameter space using various positive and negative weights and an increasing size of the input spike sources The neuromorphic simulation of the bumpattractor network shows that it exhibits a stationary, a splitting and a divergent spike pattern, in relation to different sets of weights and input windows. The balance between the values of positive and negative weights is important in determining the splitting or diverging behaviour of the spike train pattern and in defining the minimal firing conditions.
翻訳日:2022-12-18 07:46:36 公開日:2020-03-30
# 時空間対応マルチレゾリューション映像エンハンスメント

Space-Time-Aware Multi-Resolution Video Enhancement ( http://arxiv.org/abs/2003.13170v1 )

ライセンス: Link先を確認
Muhammad Haris, Greg Shakhnarovich, Norimichi Ukita(参考訳) ビデオフレームの空間分解能の向上とフレームの補間を同時に行うことでフレームレートを向上する時空間超解像(ST-SR)の問題を考える。 現代のアプローチは、これらの軸を1つずつ扱う。 対照的に、提案したSTARnetと呼ばれるモデルは、空間と時間で共同で解決する。 これにより、時間と空間間の相互に情報的関係を活用できる。高解像度はより詳細な動き情報を提供し、高フレームレートはより優れたピクセルアライメントを提供する。 ST-SR中の低分解能・高分解能表現を生成するモデルのコンポーネントは、空間的あるいは時間的超解像のみのための特別なメカニズムを微調整するために使用できる。 実験の結果,STARnetは空間,空間,時間的ビデオの高解像度化を,公開データセットのかなりのマージンで実現していることがわかった。

We consider the problem of space-time super-resolution (ST-SR): increasing spatial resolution of video frames and simultaneously interpolating frames to increase the frame rate. Modern approaches handle these axes one at a time. In contrast, our proposed model called STARnet super-resolves jointly in space and time. This allows us to leverage mutually informative relationships between time and space: higher resolution can provide more detailed information about motion, and higher frame-rate can provide better pixel alignment. The components of our model that generate latent low- and high-resolution representations during ST-SR can be used to finetune a specialized mechanism for just spatial or just temporal super-resolution. Experimental results demonstrate that STARnet improves the performances of space-time, spatial, and temporal video super-resolution by substantial margins on publicly available datasets.
翻訳日:2022-12-18 07:46:23 公開日:2020-03-30
# 逆行性ドメイン適応のための逐次消滅ブリッジ

Gradually Vanishing Bridge for Adversarial Domain Adaptation ( http://arxiv.org/abs/2003.13183v1 )

ライセンス: Link先を確認
Shuhao Cui, Shuhui Wang, Junbao Zhuo, Chi Su, Qingming Huang, Qi Tian(参考訳) 教師なしドメイン適応では、リッチなドメイン固有の特性はドメイン不変表現を学ぶための大きな課題をもたらす。 しかし、ドメインの不一致は既存のソリューションで直接最小化されると考えられており、実際は達成が難しい。 いくつかの方法は、表現におけるドメイン不変部分とドメイン固有部分を明確にモデル化することで困難を緩和するが、明示的構成の悪影響は、構築されたドメイン不変表現における残留ドメイン固有特性にある。 本稿では,ジェネレータと判別器の両方に,徐々に消失するブリッジ (gvb) 機構を付加した逆領域適応を行う。 ジェネレータでは、GVBは全体の転送困難を軽減できるだけでなく、ドメイン不変表現における残留ドメイン固有の特性の影響を低減できる。 判別器では、GVBは識別能力を高め、敵の訓練過程のバランスをとることに寄与する。 3つの挑戦的なデータセットに関する実験は、gvbメソッドが強力な競合相手を上回っており、他の競合メソッドとうまく連携していることを示している。 コードはhttps://github.com/cuishuhao/gvbで入手できる。

In unsupervised domain adaptation, rich domain-specific characteristics bring great challenge to learn domain-invariant representations. However, domain discrepancy is considered to be directly minimized in existing solutions, which is difficult to achieve in practice. Some methods alleviate the difficulty by explicitly modeling domain-invariant and domain-specific parts in the representations, but the adverse influence of the explicit construction lies in the residual domain-specific characteristics in the constructed domain-invariant representations. In this paper, we equip adversarial domain adaptation with Gradually Vanishing Bridge (GVB) mechanism on both generator and discriminator. On the generator, GVB could not only reduce the overall transfer difficulty, but also reduce the influence of the residual domain-specific characteristics in domain-invariant representations. On the discriminator, GVB contributes to enhance the discriminating ability, and balance the adversarial training process. Experiments on three challenging datasets show that our GVB methods outperform strong competitors, and cooperate well with other adversarial methods. The code is available at https://github.com/cuishuhao/GVB.
翻訳日:2022-12-18 07:46:07 公開日:2020-03-30
# 深部半監督視覚認識のための密度認識グラフ

Density-Aware Graph for Deep Semi-Supervised Visual Recognition ( http://arxiv.org/abs/2003.13194v1 )

ライセンス: Link先を確認
Suichan Li, Bin Liu, Dongdong Chen, Qi Chu, Lu Yuan, Nenghai Yu(参考訳) 半教師付き学習(SSL)は、視覚認識のためのディープニューラルネットワークの一般化能力を改善するために広く研究されている。 既存のSSLメソッドの多くは、共通の密度に基づくクラスタの仮定に基づいており、同一の高密度領域にあるサンプルは、一貫性の正則化を行う方法や、重複しない画像の擬似ラベルを生成する方法を含む、同じクラスに属する可能性が高い。 その印象的なパフォーマンスにもかかわらず、我々は3つの制限が存在すると主張している。 1) 密度情報は重要な手がかりとして示されるが, すべて暗黙的に使用し, 深くは活用していない。 2) 特徴学習では,単一のデータサンプルに基づいて特徴埋め込みを学び,周辺情報を無視することが多い。 3) ラベル伝達に基づく擬似ラベル生成では、しばしばオフラインで行われ、機能学習によるエンドツーエンドのトレーニングが難しい。 そこで本稿では,これらの制約に動機づけられて,近隣情報の利用が容易で,特徴学習やラベル伝播もエンドツーエンドで行うことが可能な,新しい密度認識グラフを構築することにより,ssl問題を解決することを提案する。 具体的には、まず、周辺情報を密度認識方式で組み込むことで、より識別的な特徴を学習するための、密度認識近傍集合(DNA)モジュールを提案する。 そこで, 新たにDPLPモジュールが提案され, 密度を特徴とする特徴分布に応じて, ラベル付きサンプルの擬似ラベルをより効率的に生成する。 最後に、DNAモジュールとDPLPモジュールは進化し、エンドツーエンドで改善される。

Semi-supervised learning (SSL) has been extensively studied to improve the generalization ability of deep neural networks for visual recognition. To involve the unlabelled data, most existing SSL methods are based on common density-based cluster assumption: samples lying in the same high-density region are likely to belong to the same class, including the methods performing consistency regularization or generating pseudo-labels for the unlabelled images. Despite their impressive performance, we argue three limitations exist: 1) Though the density information is demonstrated to be an important clue, they all use it in an implicit way and have not exploited it in depth. 2) For feature learning, they often learn the feature embedding based on the single data sample and ignore the neighborhood information. 3) For label-propagation based pseudo-label generation, it is often done offline and difficult to be end-to-end trained with feature learning. Motivated by these limitations, this paper proposes to solve the SSL problem by building a novel density-aware graph, based on which the neighborhood information can be easily leveraged and the feature learning and label propagation can also be trained in an end-to-end way. Specifically, we first propose a new Density-aware Neighborhood Aggregation(DNA) module to learn more discriminative features by incorporating the neighborhood information in a density-aware manner. Then a novel Density-ascending Path based Label Propagation(DPLP) module is proposed to generate the pseudo-labels for unlabeled samples more efficiently according to the feature distribution characterized by density. Finally, the DNA module and DPLP module evolve and improve each other end-to-end.
翻訳日:2022-12-18 07:44:53 公開日:2020-03-30
# クロスドメインドキュメントオブジェクト検出:ベンチマークスイートおよび方法

Cross-Domain Document Object Detection: Benchmark Suite and Method ( http://arxiv.org/abs/2003.13197v1 )

ライセンス: Link先を確認
Kai Li, Curtis Wigington, Chris Tensmeyer, Handong Zhao, Nikolaos Barmpalios, Vlad I. Morariu, Varun Manjunatha, Tong Sun, Yun Fu(参考訳) 文書ページのイメージを高レベルの意味領域(図、表、段落など)に分解する、文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。 ドキュメントオブジェクトはレイアウト、サイズ、アスペクト比、テクスチャなどによって大きく異なります。 大規模なラベル付きトレーニングデータセットは、ターゲットドメインとは異なるドメインでのみ利用できるため、実際には別の課題が発生する。 我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。 2つのドメインの文書はレイアウト、言語、ジャンルで大きく異なる可能性がある。 我々は,異なるタイプのPDF文書データセットからなるベンチマークスイートを構築し,ドメイン間のDODモデルのトレーニングと評価に使用できる。 各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。 さらに,標準検出モデルに基づいて,特徴ピラミッドアライメント(fpa)モジュール,領域アライメント(ra)モジュール,レンダリング層アライメント(rla)モジュールの3つの新しいアライメントモジュールを組み込んだ,新たなクロスドメインdodモデルを提案する。 ベンチマークスイートにおける広範囲な実験は、3つのモジュールの有効性を実証し、提案手法はベースライン法を大きく上回っている。 プロジェクトページは \url{https://github.com/kailigo/cddod} にある。

Decomposing images of document pages into high-level semantic regions (e.g., figures, tables, paragraphs), document object detection (DOD) is fundamental for downstream tasks like intelligent document editing and understanding. DOD remains a challenging problem as document objects vary significantly in layout, size, aspect ratio, texture, etc. An additional challenge arises in practice because large labeled training datasets are only available for domains that differ from the target domain. We investigate cross-domain DOD, where the goal is to learn a detector for the target domain using labeled data from the source domain and only unlabeled data from the target domain. Documents from the two domains may vary significantly in layout, language, and genre. We establish a benchmark suite consisting of different types of PDF document datasets that can be utilized for cross-domain DOD model training and evaluation. For each dataset, we provide the page images, bounding box annotations, PDF files, and the rendering layers extracted from the PDF files. Moreover, we propose a novel cross-domain DOD model which builds upon the standard detection model and addresses domain shifts by incorporating three novel alignment modules: Feature Pyramid Alignment (FPA) module, Region Alignment (RA) module and Rendering Layer alignment (RLA) module. Extensive experiments on the benchmark suite substantiate the efficacy of the three proposed modules and the proposed method significantly outperforms the baseline methods. The project page is at \url{https://github.com/kailigo/cddod}.
翻訳日:2022-12-18 07:44:27 公開日:2020-03-30
# 文書レベルニューラルマシン翻訳のための文脈化文表現の学習

Learning Contextualized Sentence Representations for Document-Level Neural Machine Translation ( http://arxiv.org/abs/2003.13205v1 )

ライセンス: Link先を確認
Pei Zhang, Xu Zhang, Wei Chen, Jian Yu, Yanfeng Wang, Deyi Xiong(参考訳) 文書レベルの機械翻訳は、ソース文の翻訳に相互依存を組み込む。 本稿では,ニューラルマシン翻訳(NMT)を学習し,対象文の翻訳と周辺文の両方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。 ソースコンテキストを予測するためにNMTモデルを強制することにより、ソース側のドキュメントレベルの依存関係をキャプチャする"コンテキスト化された"ソース文表現を学習したいと思っています。 さらに、NMTモデルとソースコンテキスト予測モデルとを協調的にトレーニングする共同学習法と、大規模モノリンガル文書コーパス上でソースコンテキスト予測モデルを事前学習し、NMTモデルで微調整する事前学習・微調整法という、2つの異なる手法を提案する。 中国語と英語とドイツ語の翻訳実験では、どちらの方法も強力な文書レベルのトランスフォーマーベースラインよりも翻訳品質が大幅に向上することを示した。

Document-level machine translation incorporates inter-sentential dependencies into the translation of a source sentence. In this paper, we propose a new framework to model cross-sentence dependencies by training neural machine translation (NMT) to predict both the target translation and surrounding sentences of a source sentence. By enforcing the NMT model to predict source context, we want the model to learn "contextualized" source sentence representations that capture document-level dependencies on the source side. We further propose two different methods to learn and integrate such contextualized sentence embeddings into NMT: a joint training method that jointly trains an NMT model with the source context prediction model and a pre-training & fine-tuning method that pretrains the source context prediction model on a large-scale monolingual document corpus and then fine-tunes it with the NMT model. Experiments on Chinese-English and English-German translation show that both methods can substantially improve the translation quality over a strong document-level Transformer baseline.
翻訳日:2022-12-18 07:38:20 公開日:2020-03-30
# 計算言語ドキュメントのためのバイリンガルアプローチにおける言語影響の調査

Investigating Language Impact in Bilingual Approaches for Computational Language Documentation ( http://arxiv.org/abs/2003.13325v1 )

ライセンス: Link先を確認
Marcely Zanon Boito, Aline Villavicencio, Laurent Besacier(参考訳) 絶滅危惧言語にとって、データ収集キャンペーンは、多くが口承の伝統から来ているという課題に対応しなければならない。 そのため、録音の解釈可能性を確保するため、広く話される言語に翻訳することが基本である。 本稿では,翻訳言語の選択が後続文書作成作業と,生成したバイリンガルコーパス上で機能する潜在的自動アプローチにどのように影響するかを検討する。 この質問に答えるためには,多言語音声コーパス(boito et al., 2020)を用いて,低リソースの非教師なし単語のセグメンテーションとアライメントのタスクに適用する,56のバイリンガルペアを作成する。 以上の結果から,翻訳言語の選択は単語のセグメンテーション性能に影響を与え,異なる辞書は異なるアライメント翻訳を用いて学習されることが明らかとなった。 最後に,非パラメトリックベイズモデル (Goldwater et al., 2009a) から抽出した境界手がかりとGodard et al. (2018) から抽出した注目単語分割ニューラルモデルを組み合わせたバイリンガル単語セグメンテーションのハイブリッド手法を提案する。 これらの手がかりをニューラルネットワークの入力表現に組み込むことで翻訳とアライメントの品質が向上することが示唆された。

For endangered languages, data collection campaigns have to accommodate the challenge that many of them are from oral tradition, and producing transcriptions is costly. Therefore, it is fundamental to translate them into a widely spoken language to ensure interpretability of the recordings. In this paper we investigate how the choice of translation language affects the posterior documentation work and potential automatic approaches which will work on top of the produced bilingual corpus. For answering this question, we use the MaSS multilingual speech corpus (Boito et al., 2020) for creating 56 bilingual pairs that we apply to the task of low-resource unsupervised word segmentation and alignment. Our results highlight that the choice of language for translation influences the word segmentation performance, and that different lexicons are learned by using different aligned translations. Lastly, this paper proposes a hybrid approach for bilingual word segmentation, combining boundary clues extracted from a non-parametric Bayesian model (Goldwater et al., 2009a) with the attentional word segmentation neural model from Godard et al. (2018). Our results suggest that incorporating these clues into the neural models' input representation increases their translation and alignment quality, specially for challenging language pairs.
翻訳日:2022-12-18 07:38:04 公開日:2020-03-30
# ニューラル・会話モデルの学習のための主観的・知識に富んだ映画議論コーパス

A Corpus of Controlled Opinionated and Knowledgeable Movie Discussions for Training Neural Conversation Models ( http://arxiv.org/abs/2003.13342v1 )

ライセンス: Link先を確認
Fabian Galetzka, Chukwuemeka U. Eneh, David Schlangen(参考訳) 非ゴール指向対話のための完全なデータ駆動チャットボットは、背景の性格や事実の知識といったパラメータを制御するのに一般的な困難さから、ターン間の一貫性のない振る舞いに苦しむことが知られている。 この理由の1つは、パーソナリティの一貫性と事実使用が対話行動とともに学習できるラベル付きデータの相対的欠如である。 そこで本研究では,映画の議論領域にラベル付き対話データセットを導入し,各対話は事前に特定された事実や意見に基づいて行われる。 本研究は,参加者が与えられた事実と意見プロファイルに固執するために収集した対話を徹底的に検証し,この点の一般的な品質が高いことを確認する。 このプロセスはまた、モデルのトレーニングに潜在的に有用な追加のアノテーション層を与えてくれます。 このデータに基づいて訓練されたエンドツーエンドの自己認識デコーダモデルをベースラインとして導入し、自然で知識があり注意力を示すと判断された意見応答を生成可能であることを示す。

Fully data driven Chatbots for non-goal oriented dialogues are known to suffer from inconsistent behaviour across their turns, stemming from a general difficulty in controlling parameters like their assumed background personality and knowledge of facts. One reason for this is the relative lack of labeled data from which personality consistency and fact usage could be learned together with dialogue behaviour. To address this, we introduce a new labeled dialogue dataset in the domain of movie discussions, where every dialogue is based on pre-specified facts and opinions. We thoroughly validate the collected dialogue for adherence of the participants to their given fact and opinion profile, and find that the general quality in this respect is high. This process also gives us an additional layer of annotation that is potentially useful for training models. We introduce as a baseline an end-to-end trained self-attention decoder model trained on this data and show that it is able to generate opinionated responses that are judged to be natural and knowledgeable and show attentiveness.
翻訳日:2022-12-18 07:37:37 公開日:2020-03-30
# European Language Grid: 概要

European Language Grid: An Overview ( http://arxiv.org/abs/2003.13551v1 )

ライセンス: Link先を確認
Georg Rehm and Maria Berger and Ela Elsholz and Stefanie Hegele and Florian Kintzel and Katrin Marheinecke and Stelios Piperidis and Miltos Deligiannis and Dimitris Galanis and Katerina Gkirtzou and Penny Labropoulou and Kalina Bontcheva and David Jones and Ian Roberts and Jan Hajic and Jana Hamrlov\'a and Luk\'a\v{s} Ka\v{c}ena and Khalid Choukri and Victoria Arranz and Andrejs Vasi\c{l}jevs and Orians Anvari and Andis Lagzdi\c{n}\v{s} and J\=ulija Me\c{l}\c{n}ika and Gerhard Backfried and Erin\c{c} Dikici and Miroslav Janosik and Katja Prinz and Christoph Prinz and Severin Stampler and Dorothea Thomas-Aniola and Jos\'e Manuel G\'omez P\'erez and Andres Garcia Silva and Christian Berr\'io and Ulrich Germann and Steve Renals and Ondrej Klejch(参考訳) EUの公式な24の言語と多くの追加言語により、ヨーロッパの多言語主義と包括的デジタル単一市場はLanguage Technologies (LTs)を通じてのみ利用可能である。 欧州のLT事業は数百の中小企業と少数の大企業が支配している。 多くは世界クラスの技術であり、世界的プレイヤーを上回っている。 しかし、欧州のLTビジネスは、国家、言語、垂直、セクターによって断片化されており、その影響を著しく抑えている。 欧州言語グリッド(ELG)プロジェクトは、欧州におけるLTの主要なプラットフォームとしてELGを確立することで、この断片化に対処している。 ELGはスケーラブルなクラウドプラットフォームであり、簡単に統合可能な方法で、ツールやサービスの実行、データセットやリソースを含む、ヨーロッパのすべての言語に対して、数百の商用および非商用LTへのアクセスを提供する。 完全な運用が完了すると、商用および非商用の欧州LTコミュニティは、彼らの技術とデータセットをERGに保管してアップロードし、グリッドを通じてそれらをデプロイし、他のリソースと接続できるようになる。 ELGはMultilingual Digital Single Marketを欧州のLTコミュニティに拡大し、新たな雇用と機会を生み出す。 さらに、ELGプロジェクトは最大20のパイロットプロジェクトに対する2つのオープンコールを組織している。 また、32の国立コンペテンスセンター(NCC)と欧州LT協議会(LTC)を、アウトリーチと調整のために設置している。

With 24 official EU and many additional languages, multilingualism in Europe and an inclusive Digital Single Market can only be enabled through Language Technologies (LTs). European LT business is dominated by hundreds of SMEs and a few large players. Many are world-class, with technologies that outperform the global players. However, European LT business is also fragmented, by nation states, languages, verticals and sectors, significantly holding back its impact. The European Language Grid (ELG) project addresses this fragmentation by establishing the ELG as the primary platform for LT in Europe. The ELG is a scalable cloud platform, providing, in an easy-to-integrate way, access to hundreds of commercial and non-commercial LTs for all European languages, including running tools and services as well as data sets and resources. Once fully operational, it will enable the commercial and non-commercial European LT community to deposit and upload their technologies and data sets into the ELG, to deploy them through the grid, and to connect with other resources. The ELG will boost the Multilingual Digital Single Market towards a thriving European LT community, creating new jobs and opportunities. Furthermore, the ELG project organises two open calls for up to 20 pilot projects. It also sets up 32 National Competence Centres (NCCs) and the European LT Council (LTC) for outreach and coordination purposes.
翻訳日:2022-12-18 07:37:02 公開日:2020-03-30
# Span-based discontinuous constituency parsing:O(n^6)からO(n^3)までの時間複雑さを持つ正確なチャートベースのアルゴリズム群

Span-based discontinuous constituency parsing: a family of exact chart-based algorithms with time complexities from O(n^6) down to O(n^3) ( http://arxiv.org/abs/2003.13785v1 )

ライセンス: Link先を確認
Caio Corro(参考訳) 本研究では,ブロック次数2の不連続な構成木をスパンベースで解析する新しいアルゴリズムを提案する。 特に、より小さな検索空間と、$\mathcal O(n^6)$から$\mathcal O(n^3)$までの時間複雑度を持つパーサの変種を構築することができることを示す。 立方体時間変異は、言語木バンクで観察される成分の98 %をカバーし、連続した選挙区パーサーと同じ複雑さを持つ。 我々は,ドイツ語と英語のツリーバンク (Negra, Tiger, Discontinuous PTB) に対するアプローチを評価し,完全な教師付き環境での最先端の成果を報告する。 また,事前学習した単語埋め込みと,それに基づくニューラルネットワークの実験を行った。

We introduce a novel chart-based algorithm for span-based parsing of discontinuous constituency trees of block degree two, including ill-nested structures. In particular, we show that we can build variants of our parser with smaller search spaces and time complexities ranging from $\mathcal O(n^6)$ down to $\mathcal O(n^3)$. The cubic time variant covers 98\% of constituents observed in linguistic treebanks while having the same complexity as continuous constituency parsers. We evaluate our approach on German and English treebanks (Negra, Tiger and Discontinuous PTB) and report state-of-the-art results in the fully supervised setting. We also experiment with pre-trained word embeddings and \bert{}-based neural networks.
翻訳日:2022-12-18 07:36:37 公開日:2020-03-30
# 低リソース言語データセットの作成、キュレーション、分類: setwana と sepedi -- extended abstract

Low resource language dataset creation, curation and classification: Setswana and Sepedi -- Extended Abstract ( http://arxiv.org/abs/2004.13842v1 )

ライセンス: Link先を確認
Vukosi Marivate, Tshephisho Sefara, Vongani Chabalala, Keamogetswe Makhaya, Tumisho Mokgonyane, Rethabile Mokoena, Abiodun Modupe(参考訳) 自然言語処理の最近の進歩は、あまり知られていないグローバル言語の研究を否定する、よく表現された言語に対する恩恵に過ぎなかった。 これは部分的には、キュレートされたデータと研究リソースが利用できるためです。 低リソース言語に関する現在の課題の1つは、さまざまなユースケースのためのデータセットの収集、キュレーション、準備に関する明確なガイドラインである。 本研究では,setwanaとsepediのニュース見出し(短文)に焦点を当てた2つのデータセットの作成と,これらのデータセットからニューストピック分類タスクの作成を行う。 本研究では,我々の研究を文書化し,分類のベースラインを提案し,低リソース言語に適したデータ拡張手法の検討を行い,分類器の性能を向上させる。

The recent advances in Natural Language Processing have only been a boon for well represented languages, negating research in lesser known global languages. This is in part due to the availability of curated data and research resources. One of the current challenges concerning low-resourced languages are clear guidelines on the collection, curation and preparation of datasets for different use-cases. In this work, we take on the task of creating two datasets that are focused on news headlines (i.e short text) for Setswana and Sepedi and the creation of a news topic classification task from these datasets. In this study, we document our work, propose baselines for classification, and investigate an approach on data augmentation better suited to low-resourced languages in order to improve the performance of the classifiers.
翻訳日:2022-12-18 07:36:23 公開日:2020-03-30
# RetinaTrack:オンラインの単一ステージ共同検出と追跡

RetinaTrack: Online Single Stage Joint Detection and Tracking ( http://arxiv.org/abs/2003.13870v1 )

ライセンス: Link先を確認
Zhichao Lu, Vivek Rathod, Ronny Votel, Jonathan Huang(参考訳) 従来のマルチオブジェクト追跡とオブジェクト検出は別システムで行われており、以前の研究のほとんどはこれらのうちの1つにのみ焦点を当てている。 しかし、追跡システムは正確な検出にアクセスできることの恩恵は明らかであり、検知器がトラッキングの恩恵を受けるという文献には、例えば時間の経過とともにスムーズな予測に役立てることができるという証拠がたくさんある。 本稿では,両タスクがミッションクリティカルな自律運転におけるトラッキング・バイ・検出パラダイムに着目した。 本稿では,概念的にシンプルで効率的な検出と追跡のジョイントモデルであるRetinaTrackを提案する。 waymo open datasetの評価を通じて,最近のart trackingアルゴリズムをはるかに少ない計算量で上回っていることを示す。 私たちは、この領域における将来の作業の強力なベースラインとして、シンプルで効果的なアプローチが役立つと信じています。

Traditionally multi-object tracking and object detection are performed using separate systems with most prior works focusing exclusively on one of these aspects over the other. Tracking systems clearly benefit from having access to accurate detections, however and there is ample evidence in literature that detectors can benefit from tracking which, for example, can help to smooth predictions over time. In this paper we focus on the tracking-by-detection paradigm for autonomous driving where both tasks are mission critical. We propose a conceptually simple and efficient joint model of detection and tracking, called RetinaTrack, which modifies the popular single stage RetinaNet approach such that it is amenable to instance-level embedding training. We show, via evaluations on the Waymo Open Dataset, that we outperform a recent state of the art tracking algorithm while requiring significantly less computation. We believe that our simple yet effective approach can serve as a strong baseline for future work in this area.
翻訳日:2022-12-18 07:26:49 公開日:2020-03-30
# ミニバッチを用いた確率的近似勾配アルゴリズム 大規模学習モデルへの応用

Stochastic Proximal Gradient Algorithm with Minibatches. Application to Large Scale Learning Models ( http://arxiv.org/abs/2003.13332v1 )

ライセンス: Link先を確認
Andrei Patrascu, Ciprian Paduraru, Paul Irofti(参考訳) 確率的最適化は、ほとんどの統計学習モデルの中核にある。 最近の確率的アルゴリズムツールの偉大な開発は、非スムース(複合的)人口リスク関数の効率的なアプローチを見つけるために、近位勾配の反復にかなり焦点をあてた。 正規化リスクを最小化することで最適な予測器を見つける複雑さは、$\ell_1/\ell_2$ ノルムのような単純な正規化でほとんど理解されている。 しかし、予測器に望ましいより複雑な特性は、ラッソ群やグラフトレンドフィルタリングで使われる非常に難しい正規化器を必要とする。 本章では,確率的非滑らか成分を含む一般合成目的関数に対する確率的近位勾配アルゴリズムのミニバッチ変種を開発し,解析する。 我々は、最小バッチサイズ$N$に対して、$\mathcal{O}(\frac{1}{N\epsilon})$ iterations $\epsilon-$suboptimality が最適解に対する期待2次距離で達成されるという、定数および可変段数ポリシーの反復複雑性を提供する。 $\ell_2-$regularized SVMとパラメトリックスパース表現問題に関する数値実験は、理論的挙動を確認し、ミニバッチSGD性能を上回る。

Stochastic optimization lies at the core of most statistical learning models. The recent great development of stochastic algorithmic tools focused significantly onto proximal gradient iterations, in order to find an efficient approach for nonsmooth (composite) population risk functions. The complexity of finding optimal predictors by minimizing regularized risk is largely understood for simple regularizations such as $\ell_1/\ell_2$ norms. However, more complex properties desired for the predictor necessitates highly difficult regularizers as used in grouped lasso or graph trend filtering. In this chapter we develop and analyze minibatch variants of stochastic proximal gradient algorithm for general composite objective functions with stochastic nonsmooth components. We provide iteration complexity for constant and variable stepsize policies obtaining that, for minibatch size $N$, after $\mathcal{O}(\frac{1}{N\epsilon})$ iterations $\epsilon-$suboptimality is attained in expected quadratic distance to optimal solution. The numerical tests on $\ell_2-$regularized SVMs and parametric sparse representation problems confirm the theoretical behaviour and surpasses minibatch SGD performance.
翻訳日:2022-12-18 07:26:33 公開日:2020-03-30
# 不確実性を有する自律表面車両のモデル参照強化学習制御

Model-Reference Reinforcement Learning Control of Autonomous Surface Vehicles with Uncertainties ( http://arxiv.org/abs/2003.13839v1 )

ライセンス: Link先を確認
Qingrui Zhang and Wei Pan and Vasso Reppa(参考訳) 本稿では,不確実な自動表面車両に対するモデル参照強化学習制御手法を提案する。 提案する制御は,従来の制御法と深層強化学習を組み合わせたものである。 従来の制御では、学習に基づく制御法則がシステム全体の閉ループ安定性を提供し、深層強化学習のサンプル効率を向上させることができる。 強化学習により,不確かさのモデリングを補うための制御法を直接学習することができる。 提案制御では,従来の制御手法を用いたベースライン制御法の設計に名目システムを用いる。 名目システムは、不確定な自動運転車が従うべき望ましい性能も定義している。 従来の深層強化学習法と比較して,本提案手法は安定性の保証とサンプル効率の向上を実現する。 シミュレーション結果を用いて,新しいアルゴリズムの性能を実証する。

This paper presents a novel model-reference reinforcement learning control method for uncertain autonomous surface vehicles. The proposed control combines a conventional control method with deep reinforcement learning. With the conventional control, we can ensure the learning-based control law provides closed-loop stability for the overall system, and potentially increase the sample efficiency of the deep reinforcement learning. With the reinforcement learning, we can directly learn a control law to compensate for modeling uncertainties. In the proposed control, a nominal system is employed for the design of a baseline control law using a conventional control approach. The nominal system also defines the desired performance for uncertain autonomous vehicles to follow. In comparison with traditional deep reinforcement learning methods, our proposed learning-based control can provide stability guarantees and better sample efficiency. We demonstrate the performance of the new algorithm via extensive simulation results.
翻訳日:2022-12-18 07:26:12 公開日:2020-03-30
# ガウス過程回帰と高忠実度シミュレーションデータを用いたエンジニアリングウェイクモデルの適応

Adaptation of Engineering Wake Models using Gaussian Process Regression and High-Fidelity Simulation Data ( http://arxiv.org/abs/2003.13323v1 )

ライセンス: Link先を確認
Leif Erik Andersson, Bart Doekemeijer, Daan van der Hoek, Jan-Willem van Wingerden, Lars Imsland(参考訳) 本稿は,九段式風力発電機のヨー制御入力の最適化について検討する。 高忠実度シミュレータSOWFAを用いて風力発電をシミュレーションする。 最適化はガウス過程に基づく修飾器適応スキームを用いて行われる。 修正子適応は、プラントとモデルのミスマッチを補正し、実際の計画に最適に収束するのに役立つ。 ケーススタディでは、修飾子適応アプローチとベイズ最適化アプローチを比較した。 さらに,ガウス過程回帰における2つの異なる共分散関数の利用について考察した。 アプローチのデータ作成と適用に関する実践的な推奨がなされる。 修正子適応法とベイズ最適化法の両方がガウシアン・ウェイクモデルと比較して, ヤウの誤差を小さくすることで電力生産を改善できることが示されている。

This article investigates the optimization of yaw control inputs of a nine-turbine wind farm. The wind farm is simulated using the high-fidelity simulator SOWFA. The optimization is performed with a modifier adaptation scheme based on Gaussian processes. Modifier adaptation corrects for the mismatch between plant and model and helps to converge to the actual plan optimum. In the case study the modifier adaptation approach is compared with the Bayesian optimization approach. Moreover, the use of two different covariance functions in the Gaussian process regression is discussed. Practical recommendations concerning the data preparation and application of the approach are given. It is shown that both the modifier adaptation and the Bayesian optimization approach can improve the power production with overall smaller yaw misalignments in comparison to the Gaussian wake model.
翻訳日:2022-12-18 07:26:01 公開日:2020-03-30
# バイザードランダムウォーク, 崩壊間隔, および対向設計による学習について

On Biased Random Walks, Corrupted Intervals, and Learning Under Adversarial Design ( http://arxiv.org/abs/2003.13561v1 )

ライセンス: Link先を確認
Daniel Berend, Aryeh Kontorovich, Lev Reyzin, Thomas Robinson(参考訳) 整数列上の乱数過程の確率論におけるいくつかの基本的な問題に取り組む。 偏りのあるランダムウォークが最下点に達すると予測された時と、ノイズの自然モデルの下で整数点間隔を検出できる時の解析を行う。 これらの結果を,新たな学習モデルの下での学習しきい値と間隔の問題に適用する。

We tackle some fundamental problems in probability theory on corrupted random processes on the integer line. We analyze when a biased random walk is expected to reach its bottommost point and when intervals of integer points can be detected under a natural model of noise. We apply these results to problems in learning thresholds and intervals under a new model for learning under adversarial design.
翻訳日:2022-12-18 07:19:05 公開日:2020-03-30
# Patterson MapsからAtomic Coordinatesへ: ニューラルネットワークを訓練して、単純化されたケースの位相問題を解く

From Patterson Maps to Atomic Coordinates: Training a Deep Neural Network to Solve the Phase Problem for a Simplified Case ( http://arxiv.org/abs/2003.13767v1 )

ライセンス: Link先を確認
David Hurwitz(参考訳) この研究は、10個のランダムに位置付けられた原子の単純な場合、ニューラルネットワークがパターソン写像から原子座標を推測するように訓練できることを示した。 ネットワークは完全に合成データに基づいて訓練された。 トレーニングセットでは、ネットワーク出力はランダムに位置付けられた原子の3Dマップであった。 各出力マップからパターソンマップが生成され、ネットワークへの入力として使用される。 ネットワークはテストセットにないケースに一般化され、パターソン写像から原子の位置を推定した。 この研究の鍵となる発見は、トレーニング中にネットワーク入力に提示されたパターソンマップは、ネットワーク出力上でペアリングされたアトミック座標を一意的に記述しなければならないか、ネットワークがトレーニングしないか、一般化しないかである。 ネットワークは、矛盾するデータではトレーニングできない。 対立を避けるには3つの方法がある。 1.パターソン写像は翻訳に不変である。 この自由度を取り除くために、アウトプットマップは原子の位置の平均に集中している。 2.パターソン写像は中心対称反転に不変である。 この衝突は、パターソンマップとそれらの中心対称性関連原子を同時に作るために使用される原子の両方でネットワーク出力を提示することで取り除かれる。 3. パターソン写像は、パターソン写像の各ベクトルの原点が曖昧であるため、一意に座標の集合を記述するものではない。 出力マップに原子の周りに空の空間を加えることで、この曖昧さは取り除かれる。 出力原子を出力ボックスのエッジ次元の半分近くに強制することは、パターソン写像の各ピークの起源が最も近い原点であることを意味する。

This work demonstrates that, for a simple case of 10 randomly positioned atoms, a neural network can be trained to infer atomic coordinates from Patterson maps. The network was trained entirely on synthetic data. For the training set, the network outputs were 3D maps of randomly positioned atoms. From each output map, a Patterson map was generated and used as input to the network. The network generalized to cases not in the test set, inferring atom positions from Patterson maps. A key finding in this work is that the Patterson maps presented to the network input during training must uniquely describe the atomic coordinates they are paired with on the network output or the network will not train and it will not generalize. The network cannot train on conflicting data. Avoiding conflicts is handled in 3 ways: 1. Patterson maps are invariant to translation. To remove this degree of freedom, output maps are centered on the average of their atom positions. 2. Patterson maps are invariant to centrosymmetric inversion. This conflict is removed by presenting the network output with both the atoms used to make the Patterson Map and their centrosymmetry-related counterparts simultaneously. 3. The Patterson map does not uniquely describe a set of coordinates because the origin for each vector in the Patterson map is ambiguous. By adding empty space around the atoms in the output map, this ambiguity is removed. Forcing output atoms to be closer than half the output box edge dimension means the origin of each peak in the Patterson map must be the origin to which it is closest.
翻訳日:2022-12-18 07:18:27 公開日:2020-03-30
# Wrist Worn Sensing アプリケーションにおける心拍推定と人的活動認識のための最適畳み込みニューラルネットワーク

Optimised Convolutional Neural Networks for Heart Rate Estimation and Human Activity Recognition in Wrist Worn Sensing Applications ( http://arxiv.org/abs/2004.00505v1 )

ライセンス: Link先を確認
Eoin Brophy, Willie Muehlhausen, Alan F. Smeaton, Tomas E. Ward(参考訳) Wrist-wornのスマートデバイスは、高度な分析を通じて人間の健康、行動、パフォーマンスに関する洞察を高めている。 しかし, 動作関連アーティファクトに直面する電池寿命, デバイスコスト, センサ性能は, より効果的に応用され, より広範に採用されなければならない課題である。 これらの課題に対処するために,手首型センサの心拍検出に使用される光胸腔鏡(PPG)を用いて,慣性測定装置を使わずに,低サンプリングレートで心拍数と人体活動認識(HAR)を同時に実現できることを実証した。 これにより、ハードウェア設計が簡単になり、コストと電力予算が削減される。 人間の活動認識に2つのディープラーニングパイプライン,心拍数推定に1つを適用した。 harは、低いサンプルレートで堅牢なパフォーマンスを実現する視覚分類アプローチの適用によって達成される。 ここで、トランスファーラーニングを利用して畳み込みニューラルネットワーク(cnn)を訓練し、ppgの特性を異なる人間の活動中に区別する。 心拍推定には、ノイズの多い光信号を心拍推定にマッピングする回帰に採用したCNNを用いる。 どちらの場合も、従来の主要なアプローチと比較される。 その結果,サンプリング周波数の低さは精度を損なうことなく良好な性能が得られることがわかった。 5Hz, 10Hzはそれぞれ80.2%, 83.0%の分類精度を示した。 これらのサンプリング周波数は、256Hzのよりエネルギー集約的な速度で達成された心拍推定値と比較した。

Wrist-worn smart devices are providing increased insights into human health, behaviour and performance through sophisticated analytics. However, battery life, device cost and sensor performance in the face of movement-related artefact present challenges which must be further addressed to see effective applications and wider adoption through commoditisation of the technology. We address these challenges by demonstrating, through using a simple optical measurement, photoplethysmography (PPG) used conventionally for heart rate detection in wrist-worn sensors, that we can provide improved heart rate and human activity recognition (HAR) simultaneously at low sample rates, without an inertial measurement unit. This simplifies hardware design and reduces costs and power budgets. We apply two deep learning pipelines, one for human activity recognition and one for heart rate estimation. HAR is achieved through the application of a visual classification approach, capable of robust performance at low sample rates. Here, transfer learning is leveraged to retrain a convolutional neural network (CNN) to distinguish characteristics of the PPG during different human activities. For heart rate estimation we use a CNN adopted for regression which maps noisy optical signals to heart rate estimates. In both cases, comparisons are made with leading conventional approaches. Our results demonstrate a low sampling frequency can achieve good performance without significant degradation of accuracy. 5 Hz and 10 Hz were shown to have 80.2% and 83.0% classification accuracy for HAR respectively. These same sampling frequencies also yielded a robust heart rate estimation which was comparative with that achieved at the more energy-intensive rate of 256 Hz.
翻訳日:2022-12-18 07:17:30 公開日:2020-03-30
# SHX:リアルタイム遺伝的アルゴリズムの検索履歴駆動クロスオーバー

SHX: Search History Driven Crossover for Real-Coded Genetic Algorithm ( http://arxiv.org/abs/2003.13508v1 )

ライセンス: Link先を確認
Takumi Nakane, Xuequan Lu, Chao Zhang(参考訳) 進化的アルゴリズムでは、遺伝的演算子は、潜在的に価値のある検索履歴を構成する新しい子孫を反復的に生成する。 実コード型遺伝的アルゴリズム(RCGA)におけるクロスオーバー性能を高めるため,本研究では,オンライン形式でキャッシュされた検索履歴を活用することを提案する。 具体的には、過去数世代にわたる生き残った個人をアーカイブに収集保存して検索履歴を形成する。 検索履歴(略してshx)によって駆動される,単純かつ効果的なクロスオーバーモデルを導入する。 特に、検索履歴はクラスタ化され、各クラスタにはSHXのスコアが割り当てられる。 本質的に、提案されているshxは、検索履歴を利用して子孫生成後に子孫選択を行うデータ駆動型手法である。 追加のフィットネス評価は必要ないため、SHXは限られた予算や高価なフィットネス評価のタスクに好適である。 4つのベンチマーク関数に対するSHXの有効性を実験的に検証した。 以上の結果から, SHXはRCGAの性能を大幅に向上させることができることがわかった。

In evolutionary algorithms, genetic operators iteratively generate new offspring which constitute a potentially valuable set of search history. To boost the performance of crossover in real-coded genetic algorithm (RCGA), in this paper we propose to exploit the search history cached so far in an online style during the iteration. Specifically, survivor individuals over past few generations are collected and stored in the archive to form the search history. We introduce a simple yet effective crossover model driven by the search history (abbreviated as SHX). In particular, the search history is clustered and each cluster is assigned a score for SHX. In essence, the proposed SHX is a data-driven method which exploits the search history to perform offspring selection after the offspring generation. Since no additional fitness evaluations are needed, SHX is favorable for the tasks with limited budget or expensive fitness evaluations. We experimentally verify the effectiveness of SHX over 4 benchmark functions. Quantitative results show that our SHX can significantly enhance the performance of RCGA, in terms of accuracy.
翻訳日:2022-12-18 07:09:30 公開日:2020-03-30
# BrainScaleS OSを拡張したBrainScaleS-2

Extending BrainScaleS OS for BrainScaleS-2 ( http://arxiv.org/abs/2003.13750v1 )

ライセンス: Link先を確認
Eric M\"uller, Christian Mauch, Philipp Spilger, Oliver Julien Breitwieser, Johann Kl\"ahn, David St\"ockel, Timo Wunderlich, Johannes Schemmel(参考訳) BrainScaleS-2は、計算神経科学と超越ニューマン計算の研究を目的とした混合信号加速ニューロモルフィックシステムである。 その柔軟性を高めるために、アナログニューラルネットワークコアには組み込みSIMDマイクロプロセッサが付属している。 BrainScaleS Operating System (BrainScaleS OS) はBrainScaleSアーキテクチャのユーザフレンドリーな操作のために設計されたソフトウェアスタックである。 本稿では,BrainScaleS-2アーキテクチャに導入されたソフトウェアアーキテクチャ拡張について述べる。 最後に、第2バージョンのbrainscales-2プロトタイプを用いて、スパイクに基づく期待最大化に基づくサンプル実験でその応用を実証する。

BrainScaleS-2 is a mixed-signal accelerated neuromorphic system targeted for research in the fields of computational neuroscience and beyond-von-Neumann computing. To augment its flexibility, the analog neural network core is accompanied by an embedded SIMD microprocessor. The BrainScaleS Operating System (BrainScaleS OS) is a software stack designed for the user-friendly operation of the BrainScaleS architectures. We present and walk through the software-architectural enhancements that were introduced for the BrainScaleS-2 architecture. Finally, using a second-version BrainScaleS-2 prototype we demonstrate its application in an example experiment based on spike-based expectation maximization.
翻訳日:2022-12-18 07:08:58 公開日:2020-03-30
# シーケンシャルモデルに基づく最適化における初期設計戦略とその効果

Initial Design Strategies and their Effects on Sequential Model-Based Optimization ( http://arxiv.org/abs/2003.13826v1 )

ライセンス: Link先を確認
Jakob Bossek, Carola Doerr, Pascal Kerschke(参考訳) 逐次モデルベース最適化(英: Sequential model-based optimization, SMBO)は、計算や高価な関数評価を必要とする問題を解くアルゴリズムである。 SMBOの鍵となる設計原理は、次に評価される点(s)を提案するために用いられる代理による真の目的関数の置換である。 smboアルゴリズムは本質的にモジュラーであり、ユーザーは多くの重要な設計選択をすることができる。 どの設定がどのタイプの問題に最適なのかを理解するための重要な研究が進められている。 しかし、ほとんどの作業はモデルの選択、獲得関数、後者の最適化に使用される戦略に焦点を当てている。 しかし、最初のサンプリング戦略の選択は、はるかに注意を払わない。 驚くべきことではないが、かなり異なる推奨が文献に含まれている。 本研究では,初期サンプルのサイズと分布が,SMBO手法である効率的なグローバル最適化~(EGO)アルゴリズムの全体的な品質に与える影響を解析する。 全体としては、haltonサンプリングを使った小さな初期予算の方が望ましいように思えるが、パフォーマンスの状況はかなり非構造化であることも観察する。 さらに,egoがランダムサンプリングに対して不利な動作をするいくつかの状況を特定する。 どちらの観測も、適応SMBO設計が有用であることを示し、SMBOは自動アルゴリズム設計のための興味深いテストベッドとなる。

Sequential model-based optimization (SMBO) approaches are algorithms for solving problems that require computationally or otherwise expensive function evaluations. The key design principle of SMBO is a substitution of the true objective function by a surrogate, which is used to propose the point(s) to be evaluated next. SMBO algorithms are intrinsically modular, leaving the user with many important design choices. Significant research efforts go into understanding which settings perform best for which type of problems. Most works, however, focus on the choice of the model, the acquisition function, and the strategy used to optimize the latter. The choice of the initial sampling strategy, however, receives much less attention. Not surprisingly, quite diverging recommendations can be found in the literature. We analyze in this work how the size and the distribution of the initial sample influences the overall quality of the efficient global optimization~(EGO) algorithm, a well-known SMBO approach. While, overall, small initial budgets using Halton sampling seem preferable, we also observe that the performance landscape is rather unstructured. We furthermore identify several situations in which EGO performs unfavorably against random sampling. Both observations indicate that an adaptive SMBO design could be beneficial, making SMBO an interesting test-bed for automated algorithm design.
翻訳日:2022-12-18 07:08:49 公開日:2020-03-30
# 化学科学における自律的発見 その1:進歩

Autonomous discovery in the chemical sciences part I: Progress ( http://arxiv.org/abs/2003.13754v1 )

ライセンス: Link先を確認
Connor W. Coley, Natalie S. Eyke, Klavs F. Jensen(参考訳) この2部レビューでは、自動化が化学科学における発見のさまざまな側面にどのように貢献したかを検証している。 第1部では,物理物(分子,材料,デバイス),プロセス,モデルの発見の分類と,それらがどのように検索問題として統一されるかについて述べる。 次に、自律性の程度を評価するための一連の質問と考察を紹介する。 最後に, 合成化学, 創薬, 無機化学, 材料科学の領域において, コンピュータ支援や自動化によって加速された発見に関する多くのケーススタディについて述べる。 これらは、ハードウェア自動化と機械学習の急速な進歩が、実験とモデリングの性質をいかに変え続けるかを示している。 パート2は、これらのケーススタディを反映し、フィールドに対するオープンな課題のセットを特定します。

This two-part review examines how automation has contributed to different aspects of discovery in the chemical sciences. In this first part, we describe a classification for discoveries of physical matter (molecules, materials, devices), processes, and models and how they are unified as search problems. We then introduce a set of questions and considerations relevant to assessing the extent of autonomy. Finally, we describe many case studies of discoveries accelerated by or resulting from computer assistance and automation from the domains of synthetic chemistry, drug discovery, inorganic chemistry, and materials science. These illustrate how rapid advancements in hardware automation and machine learning continue to transform the nature of experimentation and modelling. Part two reflects on these case studies and identifies a set of open challenges for the field.
翻訳日:2022-12-18 07:08:26 公開日:2020-03-30
# 化学科学における自律的発見 その2:展望

Autonomous discovery in the chemical sciences part II: Outlook ( http://arxiv.org/abs/2003.13755v1 )

ライセンス: Link先を確認
Connor W. Coley, Natalie S. Eyke, Klavs F. Jensen(参考訳) この2部レビューでは、自動化が化学科学における発見のさまざまな側面にどのように貢献したかを検証している。 第2部では,模範的な研究の選定について考察する。 科学プロセスにおける自動化と計算の役割と、その発見をいかに加速させたかを明確にすることがますます重要である。 最高の自動化システムでさえ、研究所のアシスタントとして驚くほど有用であるにもかかわらず、まだ‘発見’していない、という主張もある。 我々は、将来の自律プラットフォームを効果的に設計し、相互作用するために、その存在を慎重に検討し、将来の化学発見問題に適用しなければなりません。 この記事では、複雑なデータを扱う能力の向上、実証モデルの構築、検証のための物理実験と計算実験の自動化、実験の選択、自律的な発見の究極の目標に向かって前進しているかどうかの評価など、多くのオープンリサーチの方向性を定義します。 これらの実践的かつ方法論的な課題に取り組むことで、自律システムが有意義な発見ができる範囲を大きく前進させる。

This two-part review examines how automation has contributed to different aspects of discovery in the chemical sciences. In this second part, we reflect on a selection of exemplary studies. It is increasingly important to articulate what the role of automation and computation has been in the scientific process and how that has or has not accelerated discovery. One can argue that even the best automated systems have yet to ``discover'' despite being incredibly useful as laboratory assistants. We must carefully consider how they have been and can be applied to future problems of chemical discovery in order to effectively design and interact with future autonomous platforms. The majority of this article defines a large set of open research directions, including improving our ability to work with complex data, build empirical models, automate both physical and computational experiments for validation, select experiments, and evaluate whether we are making progress toward the ultimate goal of autonomous discovery. Addressing these practical and methodological challenges will greatly advance the extent to which autonomous systems can make meaningful discoveries.
翻訳日:2022-12-18 07:08:13 公開日:2020-03-30
# 大規模疫病対策のための深層強化学習

Deep reinforcement learning for large-scale epidemic control ( http://arxiv.org/abs/2003.13676v1 )

ライセンス: Link先を確認
Pieter Libin, Arno Moonens, Timothy Verstraeten, Fabian Perez-Sanjines, Niel Hens, Philippe Lemey, Ann Now\'e(参考訳) 伝染病の流行は公衆衛生や世界経済にとって重要な脅威である。 しかし、流行が非線形で複雑なプロセスであるため、予防戦略の開発は依然として困難なプロセスである。 そこで本研究では,パンデミックインフルエンザの文脈で予防戦略を自動学習するための深層強化学習手法について検討する。 まず,パンデミックインフルエンザの感染過程を適切に把握する379のパッチ(イギリス各行政区に1つずつ)を備えた,新しい疫学的メタ人口モデルを構築した。 我々のモデルは、強化学習技術が実現できるように、複雑さと計算効率のバランスをとる。 第2に,この疫学モデルの1つの領域で学習するために,'Proximal Policy Optimization'アルゴリズムの性能を評価するための基礎的真実を設定した。 最後に,11地区の密集した地域社会において,根底的真理が確立できない地域を統制するための共同政策を学ぼうとする実験を行い,大規模問題を考える。 この実験により, 大規模状態空間を持つ複雑な疫学モデルにおいて, 深層強化学習を用いて緩和策を学習できることが示唆された。 また,本実験により,予防戦略を設計する際,地域間の協調を考えることができることを実証した。

Epidemics of infectious diseases are an important threat to public health and global economies. Yet, the development of prevention strategies remains a challenging process, as epidemics are non-linear and complex processes. For this reason, we investigate a deep reinforcement learning approach to automatically learn prevention strategies in the context of pandemic influenza. Firstly, we construct a new epidemiological meta-population model, with 379 patches (one for each administrative district in Great Britain), that adequately captures the infection process of pandemic influenza. Our model balances complexity and computational efficiency such that the use of reinforcement learning techniques becomes attainable. Secondly, we set up a ground truth such that we can evaluate the performance of the 'Proximal Policy Optimization' algorithm to learn in a single district of this epidemiological model. Finally, we consider a large-scale problem, by conducting an experiment where we aim to learn a joint policy to control the districts in a community of 11 tightly coupled districts, for which no ground truth can be established. This experiment shows that deep reinforcement learning can be used to learn mitigation policies in complex epidemiological models with a large state space. Moreover, through this experiment, we demonstrate that there can be an advantage to consider collaboration between districts when designing prevention strategies.
翻訳日:2022-12-18 07:07:55 公開日:2020-03-30
# 半空か半フルか? 逆販売機アップタイム向上のための消費者のリサイクル行動予測へのハイブリッドアプローチ

Half-empty or half-full? A Hybrid Approach to Predict Recycling Behavior of Consumers to Increase Reverse Vending Machine Uptime ( http://arxiv.org/abs/2003.13304v1 )

ライセンス: Link先を確認
Jannis Walk, Robin Hirt, Niklas K\"uhl and Erik R. Hersl{\o}v(参考訳) 逆自動販売機(Reverse Vending Machines, RVMs)は, 閉ループプラスチック包装のリサイクルを容易にするための実証装置である。 RVMでの優れた顧客エクスペリエンスは、この技術のさらなる普及に不可欠です。 ビンフルイベントは、rvm市場の世界リーダーにおけるリバース自動販売機(rvm)ダウンタイムの主な理由である。 本稿は,機械学習に基づくアプローチの開発と評価を行い,全イベントを予測し,rvmのアップタイムを増加させる手法を提案する。 我々のアプローチは、与えられたRVMで返却された飲料容器の時間的時系列を予測することに依存します。 私たちは、小売環境での時間当たり予測のアプローチを開発し、評価することで貢献します。 トレース駆動シミュレーションにより、予測に基づくアプローチは、空白戦略よりもダウンタイムとコストの削減につながることを確認した。

Reverse Vending Machines (RVMs) are a proven instrument for facilitating closed-loop plastic packaging recycling. A good customer experience at the RVM is crucial for a further proliferation of this technology. Bin full events are the major reason for Reverse Vending Machine (RVM) downtime at the world leader in the RVM market. The paper at hand develops and evaluates an approach based on machine learning and statistical approximation to foresee bin full events and, thus increase uptime of RVMs. Our approach relies on forecasting the hourly time series of returned beverage containers at a given RVM. We contribute by developing and evaluating an approach for hourly forecasts in a retail setting - this combination of application domain and forecast granularity is novel. A trace-driven simulation confirms that the forecasting-based approach leads to less downtime and costs than naive emptying strategies.
翻訳日:2022-12-18 07:07:21 公開日:2020-03-30
# Gossip and Attend: コンテキスト感性グラフ表現学習

Gossip and Attend: Context-Sensitive Graph Representation Learning ( http://arxiv.org/abs/2004.00413v1 )

ライセンス: Link先を確認
Zekarias T. Kefato, Sarunas Girdzijauskas(参考訳) グラフ表現学習(GRL)は高次元およびしばしばスパースグラフの低次元ベクトル表現を学習する強力な手法である。 ほとんどの研究では、ランダムウォークを用いてグラフの構造とメタデータを調べ、教師なしまたは半教師なしの学習スキームを用いる。 これらの方法での学習はコンテキストフリーであり、ノード毎にひとつの表現しかできない。 近年、単一表現の妥当性と、異なるコンテキストに対して複数のノード表現を抽出できるコンテキスト依存的アプローチが議論されている。 これはリンク予測やランキングのようなアプリケーションで非常に効果的であることが判明した。 しかし、これらの手法の多くは、高レベルの特徴を捉えるために複雑で高価なRNNやCNNを必要とする追加のテキスト機能や、ノードの複数のコンテキストを特定するためにコミュニティ検出アルゴリズムに依存する。 本研究では,高品質な文脈依存ノード表現を抽出するためには,補足ノード機能に頼る必要はなく,計算に重く複雑なモデルを採用する必要もないことを示す。 本稿では,Gossip通信にインスパイアされた文脈依存型アルゴリズムGOATと,グラフの構造上の相互注意機構を提案する。 リンク予測とノードクラスタリングタスクにおける6つの実世界のデータセットを用いたGOATの有効性を示し、それを12の人気および最先端(SOTA)ベースラインと比較する。 GOATは、それぞれリンク予測とクラスタリングタスクの最高のパフォーマンスメソッドよりも最大12%、最大19%向上している。

Graph representation learning (GRL) is a powerful technique for learning low-dimensional vector representation of high-dimensional and often sparse graphs. Most studies explore the structure and metadata associated with the graph using random walks and employ an unsupervised or semi-supervised learning schemes. Learning in these methods is context-free, resulting in only a single representation per node. Recently studies have argued on the adequacy of a single representation and proposed context-sensitive approaches, which are capable of extracting multiple node representations for different contexts. This proved to be highly effective in applications such as link prediction and ranking. However, most of these methods rely on additional textual features that require complex and expensive RNNs or CNNs to capture high-level features or rely on a community detection algorithm to identify multiple contexts of a node. In this study we show that in-order to extract high-quality context-sensitive node representations it is not needed to rely on supplementary node features, nor to employ computationally heavy and complex models. We propose GOAT, a context-sensitive algorithm inspired by gossip communication and a mutual attention mechanism simply over the structure of the graph. We show the efficacy of GOAT using 6 real-world datasets on link prediction and node clustering tasks and compare it against 12 popular and state-of-the-art (SOTA) baselines. GOAT consistently outperforms them and achieves up to 12% and 19% gain over the best performing methods on link prediction and clustering tasks, respectively.
翻訳日:2022-12-18 07:01:15 公開日:2020-03-30
# エモティックデータセットを用いたコンテキストベース感情認識

Context Based Emotion Recognition using EMOTIC Dataset ( http://arxiv.org/abs/2003.13401v1 )

ライセンス: Link先を確認
Ronak Kosti, Jose M. Alvarez, Adria Recasens, Agata Lapedriza(参考訳) 日常生活や社会的相互作用において、私たちはしばしば人々の感情状態を理解しようとします。 感情を認識する能力を備えたマシンを提供するには、多くの研究がある。 コンピュータビジョンの観点から、これまでの取り組みのほとんどは、表情の分析と、場合によっては身体のポーズにも焦点を合わせてきた。 これらの方法のいくつかは、特定の設定で非常にうまく機能します。 しかし、その性能は自然で制約のない環境に限られている。 心理研究では、表情や身体のポーズに加えて、場面の文脈が人間の感情の知覚に重要な情報をもたらすことが示されている。 しかし、適切なデータが不足していることもあって、文脈の自動感情認識の処理は深く研究されていない。 本稿では,多様な自然環境における人々のイメージのデータセットであるエモティクスについて,その感情に注釈を付けて述べる。 EMOTICデータセットは、(1)26の個別カテゴリーの集合と(2)連続次元のValence、Arousal、Dominanceの2つの異なるタイプの感情表現を組み合わせる。 また,アノテータの合意分析とともに,データセットの詳細な統計解析とアルゴリズム解析を行う。 EMOTICデータセットを用いて、感情認識のための異なるCNNモデルをトレーニングし、人物を含む境界ボックスの情報とシーンから抽出された文脈情報とを組み合わせる。 その結果,シーンコンテキストは感情状態を自動的に認識し,その方向へのさらなる研究を動機付ける重要な情報を提供する。 https://github.com/rkosti/emotic and link for the peer-reviewed published article: https://ieeexplore.ieee.org/document/8713881

In our everyday lives and social interactions we often try to perceive the emotional states of people. There has been a lot of research in providing machines with a similar capacity of recognizing emotions. From a computer vision perspective, most of the previous efforts have been focusing in analyzing the facial expressions and, in some cases, also the body pose. Some of these methods work remarkably well in specific settings. However, their performance is limited in natural, unconstrained environments. Psychological studies show that the scene context, in addition to facial expression and body pose, provides important information to our perception of people's emotions. However, the processing of the context for automatic emotion recognition has not been explored in depth, partly due to the lack of proper data. In this paper we present EMOTIC, a dataset of images of people in a diverse set of natural situations, annotated with their apparent emotion. The EMOTIC dataset combines two different types of emotion representation: (1) a set of 26 discrete categories, and (2) the continuous dimensions Valence, Arousal, and Dominance. We also present a detailed statistical and algorithmic analysis of the dataset along with annotators' agreement analysis. Using the EMOTIC dataset we train different CNN models for emotion recognition, combining the information of the bounding box containing the person with the contextual information extracted from the scene. Our results show how scene context provides important information to automatically recognize emotional states and motivate further research in this direction. Dataset and code is open-sourced and available at: https://github.com/rkosti/emotic and link for the peer-reviewed published article: https://ieeexplore.ieee.org/document/8713881
翻訳日:2022-12-18 07:00:50 公開日:2020-03-30
# マルチタスク自己教師付き事前学習による分散型一般化の改善

Improving out-of-distribution generalization via multi-task self-supervised pretraining ( http://arxiv.org/abs/2003.13525v1 )

ライセンス: Link先を確認
Isabela Albuquerque, Nikhil Naik, Junnan Li, Nitish Keskar, and Richard Socher(参考訳) 自己教師付き特徴表現は教師付き分類、少数ショット学習、敵対的ロバストネスに有用であることが示されている。 自己教師付き学習を用いて得られた機能は,コンピュータビジョンにおけるドメイン一般化のための教師付き学習に匹敵するか,あるいは優れているかを示す。 本稿では,gaborフィルタバンクに対する応答を予測する新しい自己教師付きプリテキストタスクを導入し,互換プリテキストタスクのマルチタスク学習により,個々のタスクのみのトレーニングに比べてドメイン一般化性能が向上することを示す。 自己スーパービジョンを通じて学習した特徴は、トレーニングとテストディストリビューションの間のドメインシフトが大きくなると、教師なしのドメインよりもより一般化され、興味のあるオブジェクトのローカライゼーション能力も向上する。 自己教師付き特徴表現は、パフォーマンスをさらに高めるために、他のドメイン一般化メソッドと組み合わせることもできる。

Self-supervised feature representations have been shown to be useful for supervised classification, few-shot learning, and adversarial robustness. We show that features obtained using self-supervised learning are comparable to, or better than, supervised learning for domain generalization in computer vision. We introduce a new self-supervised pretext task of predicting responses to Gabor filter banks and demonstrate that multi-task learning of compatible pretext tasks improves domain generalization performance as compared to training individual tasks alone. Features learnt through self-supervision obtain better generalization to unseen domains when compared to their supervised counterpart when there is a larger domain shift between training and test distributions and even show better localization ability for objects of interest. Self-supervised feature representations can also be combined with other domain generalization methods to further boost performance.
翻訳日:2022-12-18 07:00:00 公開日:2020-03-30
# SiTGRU:異常検出用単一トンネルゲートリカレントユニット

SiTGRU: Single-Tunnelled Gated Recurrent Unit for Abnormality Detection ( http://arxiv.org/abs/2003.13528v1 )

ライセンス: Link先を確認
Habtamu Fanta, Zhiwen Shao, Lizhuang Ma(参考訳) 異常検出は、特定の状況と現実シナリオの制約のない変動性に依存するため、困難な課題である。 近年、ディープニューラルネットワークによって学習された強力な特徴と、異常検出に特化した手作り特徴の恩恵を受けている。 しかし、複雑さの大きいこれらのアプローチは、長期のシーケンシャルデータ(ビデオなど)を扱うことに制限があり、その学習機能は、有用な情報を十分に捉えていない。 リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、長期的シーケンスにおける時間的データを堅牢に処理できることが示されている。 本稿では,異常検出のための単一トンネルGRUと呼ばれるGRU(Gated Recurrent Unit)の新たなバージョンを提案する。 特に、単一トンネルGRUは、電流入力のみを優先して過去の内容の重要性を見落としているGRUセルから重重リセットゲートを捨て、最適化された単一ゲートセルモデルを得る。 さらに,より深いネットワークでの性能損失に悩まされるため,標準GRUにおける双曲的タンジェント活性化をシグモイド活性化に置き換える。 実験の結果,提案したGRUモデルは,CUHK AvenueおよびUCSDデータセットにおける検出および一般化タスクのほとんどの指標において,標準GRUおよびLong Short Term Memory(LSTM)ネットワークよりも優れていた。 このモデルは計算効率も良く、標準のrnnよりもトレーニングやテスト時間を短縮できる。

Abnormality detection is a challenging task due to the dependence on a specific context and the unconstrained variability of practical scenarios. In recent years, it has benefited from the powerful features learnt by deep neural networks, and handcrafted features specialized for abnormality detectors. However, these approaches with large complexity still have limitations in handling long term sequential data (e.g., videos), and their learnt features do not thoroughly capture useful information. Recurrent Neural Networks (RNNs) have been shown to be capable of robustly dealing with temporal data in long term sequences. In this paper, we propose a novel version of Gated Recurrent Unit (GRU), called Single Tunnelled GRU for abnormality detection. Particularly, the Single Tunnelled GRU discards the heavy weighted reset gate from GRU cells that overlooks the importance of past content by only favouring current input to obtain an optimized single gated cell model. Moreover, we substitute the hyperbolic tangent activation in standard GRUs with sigmoid activation, as the former suffers from performance loss in deeper networks. Empirical results show that our proposed optimized GRU model outperforms standard GRU and Long Short Term Memory (LSTM) networks on most metrics for detection and generalization tasks on CUHK Avenue and UCSD datasets. The model is also computationally efficient with reduced training and testing time over standard RNNs.
翻訳日:2022-12-18 06:59:43 公開日:2020-03-30
# Laplacian Denoising Autoencoder

Laplacian Denoising Autoencoder ( http://arxiv.org/abs/2003.13623v1 )

ライセンス: Link先を確認
Jianbo Jiao, Linchao Bao, Yunchao Wei, Shengfeng He, Honghui Shi, Rynson Lau and Thomas S. Huang(参考訳) ディープニューラルネットワークは多くの機械学習タスクで驚くほどうまく機能することが示されているが、教師付きトレーニングのための大量の真実データをラベル付けすることは、通常、スケールするのに非常にコストがかかる。 したがって、ラベルのないデータで堅牢な表現を学習することは、人的努力の軽減に不可欠であり、多くの下流タスクに不可欠である。 視覚データに対する教師なしおよび自己教師付き学習手法の最近の進歩は、ドメイン知識から大きな恩恵を受けている。 ここでは、他のドメインに簡単に一般化できる、より汎用的な教師なし学習フレームワークに興味があります。 そこで本論文では,遅延クリーンデータを勾配領域に分解して雑音入力データを生成する新しいタイプのデノイジングオートエンコーダを用いて,データ表現を学習することを提案する。 これは、入力データのラプラシアンピラミッド表現を持つ複数のスケールにまたがって自然に一般化することができる。 このように、エージェントは複数のスケールにわたる基盤となるデータ構造を利用するより堅牢な表現を学習する。 いくつかのビジュアルベンチマークの実験では、単一スケールの汚職や他のアプローチと比較して、提案されたアプローチでより良い表現を学習できることが示されている。 さらに,学習した表現が他の下流ビジョンタスクに転送する際にも有効であることを示す。

While deep neural networks have been shown to perform remarkably well in many machine learning tasks, labeling a large amount of ground truth data for supervised training is usually very costly to scale. Therefore, learning robust representations with unlabeled data is critical in relieving human effort and vital for many downstream tasks. Recent advances in unsupervised and self-supervised learning approaches for visual data have benefited greatly from domain knowledge. Here we are interested in a more generic unsupervised learning framework that can be easily generalized to other domains. In this paper, we propose to learn data representations with a novel type of denoising autoencoder, where the noisy input data is generated by corrupting latent clean data in the gradient domain. This can be naturally generalized to span multiple scales with a Laplacian pyramid representation of the input data. In this way, the agent learns more robust representations that exploit the underlying data structures across multiple scales. Experiments on several visual benchmarks demonstrate that better representations can be learned with the proposed approach, compared to its counterpart with single-scale corruption and other approaches. Furthermore, we also demonstrate that the learned representations perform well when transferring to other downstream vision tasks.
翻訳日:2022-12-18 06:59:17 公開日:2020-03-30
# ネットワーク設計空間の設計

Designing Network Design Spaces ( http://arxiv.org/abs/2003.13678v1 )

ライセンス: Link先を確認
Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Doll\'ar(参考訳) 本研究では,新しいネットワーク設計パラダイムを提案する。 私たちの目標は、ネットワーク設計の理解を深め、設定を一般化する設計原則を発見することにあります。 個々のネットワークインスタンスを設計する代わりに、ネットワークの人口をパラメータ化するネットワーク設計スペースを設計します。 全体的なプロセスは、ネットワークの古典的な手動設計に似ているが、設計空間レベルまで上昇している。 提案手法を用いて,ネットワーク設計の構造面を探索し,RegNetと呼ぶ単純で正規なネットワークからなる低次元の設計空間に到達する。 RegNetパラメトリゼーションの中核となる洞察は驚くほど単純で、良いネットワークの幅と深さは量子化された線形関数によって説明できる。 我々はregnetの設計空間を分析し,現在のネットワーク設計に合致しない興味深い発見に到達する。 regnetデザインスペースは、幅広いフロップレジームにわたってうまく機能する、シンプルで高速なネットワークを提供する。 同等のトレーニング設定とフロップの下では、RegNetモデルは一般的なEfficientNetモデルより優れ、GPUでは最大5倍高速である。

In this work, we present a new network design paradigm. Our goal is to help advance the understanding of network design and discover design principles that generalize across settings. Instead of focusing on designing individual network instances, we design network design spaces that parametrize populations of networks. The overall process is analogous to classic manual design of networks, but elevated to the design space level. Using our methodology we explore the structure aspect of network design and arrive at a low-dimensional design space consisting of simple, regular networks that we call RegNet. The core insight of the RegNet parametrization is surprisingly simple: widths and depths of good networks can be explained by a quantized linear function. We analyze the RegNet design space and arrive at interesting findings that do not match the current practice of network design. The RegNet design space provides simple and fast networks that work well across a wide range of flop regimes. Under comparable training settings and flops, the RegNet models outperform the popular EfficientNet models while being up to 5x faster on GPUs.
翻訳日:2022-12-18 06:58:57 公開日:2020-03-30
# FusedProp: ジェネレーティブ・ディバイサル・ネットワークの効率的なトレーニングを目指して

FusedProp: Towards Efficient Training of Generative Adversarial Networks ( http://arxiv.org/abs/2004.03335v1 )

ライセンス: Link先を確認
Zachary Polizzi, Chuan-Yung Tsai(参考訳) generative adversarial network (gans) は驚くほどリアルなサンプルを生成することができるが、最先端のganは極めて計算コストが高い。 本稿では,1つの前向きと1つの後向きの伝搬のみを用いて,識別器と共通GANの生成器を効率よく訓練できる融合伝搬(FusedProp)アルゴリズムを提案する。 従来のgansのトレーニングに比べて1.49倍のトレーニング速度を達成したが,その安定性向上にはさらなる研究が必要である。 予備結果を報告し、実装をオープンソース化することで、gansのトレーニングに関する今後の研究を加速したいと考えています。

Generative adversarial networks (GANs) are capable of generating strikingly realistic samples but state-of-the-art GANs can be extremely computationally expensive to train. In this paper, we propose the fused propagation (FusedProp) algorithm which can be used to efficiently train the discriminator and the generator of common GANs simultaneously using only one forward and one backward propagation. We show that FusedProp achieves 1.49 times the training speed compared to the conventional training of GANs, although further studies are required to improve its stability. By reporting our preliminary results and open-sourcing our implementation, we hope to accelerate future research on the training of GANs.
翻訳日:2022-12-18 06:58:41 公開日:2020-03-30
# TREC CAsT 2019: The Conversational Assistance Track Overview

TREC CAsT 2019: The Conversational Assistance Track Overview ( http://arxiv.org/abs/2003.13624v1 )

ライセンス: Link先を確認
Jeffrey Dalton, Chenyan Xiong, Jamie Callan(参考訳) conversational assistance track(cast)はtrac 2019の新しいトラックであり、会話情報探索(cis)研究を促進し、会話検索システムのための大規模な再利用可能なテストコレクションを作成する。 ドキュメントコーパスはTREC Complex Answer Retrieval (CAR)とMicrosoft MAchine Reading COmprehension (MARCO)データセットから38,426,252パスである。 対話を求める80の情報(30の列車、50のテスト)は平均9から10の質問である。 関連性評価は30のトレーニングトピックと20のテストトピックに対して提供されている。 今年は、対話型クエリ理解とランキングのための様々な方法を使用して、合計65のランを提出した。 従来の検索ベース手法、特徴ベースの学習 to ランク、ニューラルモデル、知識強化手法などがある。 実行中の一般的なテーマは、BERTベースのニューラルリグレードメソッドの使用である。 また、文書拡張、会話クエリ拡張、会話クエリ書き換えのための生成言語モデル(GPT-2)も採用した。 その結果、自動システムと手作業で解決した発話システムとのギャップがみられ、最良の自動システムよりも手作業による書き直しが35%向上した。

The Conversational Assistance Track (CAsT) is a new track for TREC 2019 to facilitate Conversational Information Seeking (CIS) research and to create a large-scale reusable test collection for conversational search systems. The document corpus is 38,426,252 passages from the TREC Complex Answer Retrieval (CAR) and Microsoft MAchine Reading COmprehension (MARCO) datasets. Eighty information seeking dialogues (30 train, 50 test) are an average of 9 to 10 questions long. Relevance assessments are provided for 30 training topics and 20 test topics. This year 21 groups submitted a total of 65 runs using varying methods for conversational query understanding and ranking. Methods include traditional retrieval based methods, feature based learning-to-rank, neural models, and knowledge enhanced methods. A common theme through the runs is the use of BERT-based neural reranking methods. Leading methods also employed document expansion, conversational query expansion, and generative language models for conversational query rewriting (GPT-2). The results show a gap between automatic systems and those using the manually resolved utterances, with a 35% relative improvement of manual rewrites over the best automatic system.
翻訳日:2022-12-18 06:58:28 公開日:2020-03-30
# 特徴サイズのサブリニア成長を伴う非交換可能特徴割当モデル

Non-exchangeable feature allocation models with sublinear growth of the feature sizes ( http://arxiv.org/abs/2003.13491v1 )

ライセンス: Link先を確認
Giuseppe Di Benedetto, Fran\c{c}ois Caron, Yee Whye Teh(参考訳) 特徴割り当てモデルは、教師なし学習やネットワークモデリングなど、異なるアプリケーションで使われる一般的なモデルである。 特に、インドのビュッフェプロセスは柔軟で単純な1パラメータの特徴割り当てモデルであり、特徴の数はオブジェクトの数と無拘束に増加する。 インドのビュッフェ過程は、ほとんどの機能割当モデルと同様に、交換可能性の対称性特性を満たす: 分布は、オブジェクトの置換の下で不変である。 この性質はいくつかのケースでは望ましいが、強い意味を持つ。 重要なことに、特定の機能を共有するオブジェクトの数は、オブジェクトの数と線形に増加する。 本稿では,ある特徴を共有するオブジェクトの数がサブライン的に増加し,調整パラメータによって速度を制御できるような,交換不能な特徴割り当てモデルのクラスについて述べる。 モデルの漸近特性を導出し、そのモデルが様々なデータセットに適合し、より良い予測性能を提供することを示す。

Feature allocation models are popular models used in different applications such as unsupervised learning or network modeling. In particular, the Indian buffet process is a flexible and simple one-parameter feature allocation model where the number of features grows unboundedly with the number of objects. The Indian buffet process, like most feature allocation models, satisfies a symmetry property of exchangeability: the distribution is invariant under permutation of the objects. While this property is desirable in some cases, it has some strong implications. Importantly, the number of objects sharing a particular feature grows linearly with the number of objects. In this article, we describe a class of non-exchangeable feature allocation models where the number of objects sharing a given feature grows sublinearly, where the rate can be controlled by a tuning parameter. We derive the asymptotic properties of the model, and show that such model provides a better fit and better predictive performances on various datasets.
翻訳日:2022-12-18 06:51:13 公開日:2020-03-30
# ディープラーニング・アズ・ア・サービスのためのプライバシ保護型分散アーキテクチャ

A Privacy-Preserving Distributed Architecture for Deep-Learning-as-a-Service ( http://arxiv.org/abs/2003.13541v1 )

ライセンス: Link先を確認
Simone Disabato, Alessandro Falcetta, Alessio Mongelluzzo, Manuel Roveri(参考訳) ディープラーニング・アズ・ア・サービス(Deep-learning-as-a-service)は、クラウドベースのコンピューティングインフラストラクチャを通じて、機械学習ソリューションとメカニズムを提供することを目的とした、新しくて有望なコンピューティングパラダイムである。 ディープラーニングモデル(通常は高い計算負荷とメモリ占有を必要とする)をリモートで実行し、トレーニングする能力のおかげで、このようなアプローチはハイパフォーマンス、スケーラビリティ、可用性を保証する。 残念なことに、このようなアプローチでは、処理される情報(信号、画像、位置、サウンド、ビデオなど)をクラウドに送信する必要があるため、ユーザのプライバシに破滅的な影響を与える可能性がある。 本稿では、クラウドベースの機械学習およびディープラーニングサービスを提供しながら、ユーザのセンシティブなデータを保存できる、ディープラーニング・アズ・ア・サービスのための新しい分散アーキテクチャを提案する。 提案したアーキテクチャは、暗号化されたデータで操作できる同型暗号化に依存しており、画像解析の領域における畳み込みニューラルネットワーク(CNN)用に調整され、クライアントサーバのRESTベースのアプローチで実装されている。 実験の結果,提案手法の有効性が示された。

Deep-learning-as-a-service is a novel and promising computing paradigm aiming at providing machine/deep learning solutions and mechanisms through Cloud-based computing infrastructures. Thanks to its ability to remotely execute and train deep learning models (that typically require high computational loads and memory occupation), such an approach guarantees high performance, scalability, and availability. Unfortunately, such an approach requires to send information to be processed (e.g., signals, images, positions, sounds, videos) to the Cloud, hence having potentially catastrophic-impacts on the privacy of users. This paper introduces a novel distributed architecture for deep-learning-as-a-service that is able to preserve the user sensitive data while providing Cloud-based machine and deep learning services. The proposed architecture, which relies on Homomorphic Encryption that is able to perform operations on encrypted data, has been tailored for Convolutional Neural Networks (CNNs) in the domain of image analysis and implemented through a client-server REST-based approach. Experimental results show the effectiveness of the proposed architecture.
翻訳日:2022-12-18 06:50:59 公開日:2020-03-30
# 直交群上の確率流と幾何学的最適化

Stochastic Flows and Geometric Optimization on the Orthogonal Group ( http://arxiv.org/abs/2003.13563v1 )

ライセンス: Link先を確認
Krzysztof Choromanski, David Cheikhi, Jared Davis, Valerii Likhosherstov, Achille Nazaret, Achraf Bahamou, Xingyou Song, Mrugank Akarte, Jack Parker-Holder, Jacob Bergquist, Yuan Gao, Aldo Pacchiano, Tamas Sarlos, Adrian Weller, Vikas Sindhwani(参考訳) 本稿では、回転群 $so(d)$ の作用から得られる直交群 $o(d)$ と自然帰納的同次多様体上の確率的、幾何学的駆動による新しい最適化アルゴリズムを提案する。 理論的および実験的に,本手法が深層・畳み込み・繰り返しニューラルネットワーク,強化学習,正規化フロー,計量学習など,機械学習のさまざまな分野に適用可能であることを実証する。 直交群上の効率的な確率最適化とグラフ理論(例えば、マッチング問題、グラフ上の分割関数、グラフ色付け)の間の興味深い関係を示す。 我々は、リー群の理論を活用し、設計したアルゴリズムのクラスに対して理論的結果を提供する。 我々は、最も難しい$\mathrm{Humanoid}$ agent from $\mathrm{OpenAI}$ $\mathrm{Gym}$と畳み込みニューラルネットワークの改善のために、学習の世界モデルの一見無関係なタスクに強いパフォーマンスを示すことで、我々の手法の適用性を示した。

We present a new class of stochastic, geometrically-driven optimization algorithms on the orthogonal group $O(d)$ and naturally reductive homogeneous manifolds obtained from the action of the rotation group $SO(d)$. We theoretically and experimentally demonstrate that our methods can be applied in various fields of machine learning including deep, convolutional and recurrent neural networks, reinforcement learning, normalizing flows and metric learning. We show an intriguing connection between efficient stochastic optimization on the orthogonal group and graph theory (e.g. matching problem, partition functions over graphs, graph-coloring). We leverage the theory of Lie groups and provide theoretical results for the designed class of algorithms. We demonstrate broad applicability of our methods by showing strong performance on the seemingly unrelated tasks of learning world models to obtain stable policies for the most difficult $\mathrm{Humanoid}$ agent from $\mathrm{OpenAI}$ $\mathrm{Gym}$ and improving convolutional neural networks.
翻訳日:2022-12-18 06:50:39 公開日:2020-03-30
# 時系列予測のための差分注意に基づく誤差補正LSTMモデル

Difference Attention Based Error Correction LSTM Model for Time Series Prediction ( http://arxiv.org/abs/2003.13616v1 )

ライセンス: Link先を確認
Yuxuan Liu, Jiangyong Duan and Juan Meng(参考訳) 本稿では,差分注意型LSTMモデルと誤り補正型LSTMモデルをそれぞれカスケード方式で組み合わせた時系列予測モデルを提案する。 差分注意型LSTMモデルは、従来のLSTMにおいて、時系列における明らかな変化に焦点を合わせるために、差分特徴を導入する。 誤差補正LSTMモデルは、差分注意LSTMモデルの予測誤差を洗練し、予測精度をさらに向上させる。 最後に,両モデルを同時に訓練するためのトレーニング戦略を設計する。 新たな特徴と新たな原則学習フレームワークにより,時系列の予測精度を向上させることができる。 本手法の有効性を示すため,様々な時系列実験を行った。

In this paper, we propose a novel model for time series prediction in which difference-attention LSTM model and error-correction LSTM model are respectively employed and combined in a cascade way. While difference-attention LSTM model introduces a difference feature to perform attention in traditional LSTM to focus on the obvious changes in time series. Error-correction LSTM model refines the prediction error of difference-attention LSTM model to further improve the prediction accuracy. Finally, we design a training strategy to jointly train the both models simultaneously. With additional difference features and new principle learning framework, our model can improve the prediction accuracy in time series. Experiments on various time series are conducted to demonstrate the effectiveness of our method.
翻訳日:2022-12-18 06:49:53 公開日:2020-03-30
# 歴史地区集合による時間的ネットワーク表現学習

Temporal Network Representation Learning via Historical Neighborhoods Aggregation ( http://arxiv.org/abs/2003.13212v1 )

ライセンス: Link先を確認
Shixun Huang, Zhifeng Bao, Guoliang Li, Yanghao Zhou, J.Shane Culpepper(参考訳) ネットワーク埋め込みはノードの低次元表現を学習するための有効な手法であり、可視化、ノード分類、リンク予測といった様々な現実のアプリケーションに適用することができる。 近年、この問題は大きな進展を遂げているが、ネットワークの時間的情報を適切に捉える方法など、いくつかの重要な課題が残っている。 実際には、ほとんどのネットワークは継続的に進化している。 一部のネットワークはオーサシップネットワークのような新しいエッジやノードのみを追加し、他のネットワークはインターネットデータルーティングのようなノードやエッジの削除をサポートする。 ネットワーク構造の変化にパターンが存在する場合、ノード間の関係とネットワークの進化をよりよく理解し、より意味のある情報を持つノード表現を学習するためにさらに活用することができる。 本稿では,歴史地区集約 (ehna) アルゴリズムによる埋め込みを提案する。 具体的には、まず、エッジ形成に影響を及ぼす歴史的地区の関連ノードを特定できる時間的ランダムウォークを提案する。 次に,特徴表現の時間的情報を直接キャプチャするノード埋め込みを誘導するために,カスタムアテンション機構を用いたディープラーニングモデルを適用する。 本研究では,実世界のデータセットを広範囲に実験し,ネットワーク再構築タスクとリンク予測タスクにおける新たなアプローチの有効性を示す。

Network embedding is an effective method to learn low-dimensional representations of nodes, which can be applied to various real-life applications such as visualization, node classification, and link prediction. Although significant progress has been made on this problem in recent years, several important challenges remain, such as how to properly capture temporal information in evolving networks. In practice, most networks are continually evolving. Some networks only add new edges or nodes such as authorship networks, while others support removal of nodes or edges such as internet data routing. If patterns exist in the changes of the network structure, we can better understand the relationships between nodes and the evolution of the network, which can be further leveraged to learn node representations with more meaningful information. In this paper, we propose the Embedding via Historical Neighborhoods Aggregation (EHNA) algorithm. More specifically, we first propose a temporal random walk that can identify relevant nodes in historical neighborhoods which have impact on edge formations. Then we apply a deep learning model which uses a custom attention mechanism to induce node embeddings that directly capture temporal information in the underlying feature representation. We perform extensive experiments on a range of real-world datasets, and the results demonstrate the effectiveness of our new approach in the network reconstruction task and the link prediction task.
翻訳日:2022-12-18 06:42:43 公開日:2020-03-30
# 概念ドリフト検出を用いた新しいインクリメンタルクラスタリング手法

A Novel Incremental Clustering Technique with Concept Drift Detection ( http://arxiv.org/abs/2003.13225v1 )

ライセンス: Link先を確認
Mitchell D. Woodbright, Md Anisur Rahman, Md Zahidul Islam(参考訳) データは生命の様々な側面から収集されている。 これらのデータは、しばしばチャンク/バッチで届きます。 従来の静的クラスタリングアルゴリズムは、データがチャンク/バッチストリームに到達したときの動的データセットには適していない。 組み合わせたデータセットに従来のクラスタリング技術を適用すると、新しいデータのバッチが来るたびに、プロセスは遅く、無駄になる可能性がある。 さらに、結合データセットをメモリに格納するのは、そのサイズが増大しているため困難である。 その結果,様々な段階的クラスタリング手法が提案されている。 これらのテクニックは、新しいバッチが到着するたびに現在のクラスタリング結果を効率的に更新し、最新のデータに現在のクラスタリング結果/ソリューションを適用する必要があります。 これらのテクニックには、新しいバッチのクラスタリングパターンが古いバッチと大きく異なる場合に、概念ドリフトを検出する機能も必要となる。 時には、クラスタリングパターンは1回のバッチで一時的にドリフトし、次のバッチはドリフトを見せない。 したがって、漸進的なクラスタリング技術は一時的なドリフトと持続的なドリフトを検出する能力を必要とする。 本稿では,UIClustと呼ばれる効率的なインクリメンタルクラスタリングアルゴリズムを提案する。 一時的なあるいは持続的なコンセプトドリフトがあっても、データチャンクのストリームをクラスタ化するように設計されている。 本稿では,最近公開されたハイクオリティなインクリメンタルクラスタリングアルゴリズムと比較し,uiclustの性能評価を行った。 実際のデータセットと合成データセットを使用します。 本研究では,よく知られたクラスタリング評価基準であるエントロピー,2乗誤差の和(SSE),実行時間を用いて結果を比較する。 以上の結果から,UIClustはすべての実験において既存の技術よりも優れていることがわかった。

Data are being collected from various aspects of life. These data can often arrive in chunks/batches. Traditional static clustering algorithms are not suitable for dynamic datasets, i.e., when data arrive in streams of chunks/batches. If we apply a conventional clustering technique over the combined dataset, then every time a new batch of data comes, the process can be slow and wasteful. Moreover, it can be challenging to store the combined dataset in memory due to its ever-increasing size. As a result, various incremental clustering techniques have been proposed. These techniques need to efficiently update the current clustering result whenever a new batch arrives, to adapt the current clustering result/solution with the latest data. These techniques also need the ability to detect concept drifts when the clustering pattern of a new batch is significantly different from older batches. Sometimes, clustering patterns may drift temporarily in a single batch while the next batches do not exhibit the drift. Therefore, incremental clustering techniques need the ability to detect a temporary drift and sustained drift. In this paper, we propose an efficient incremental clustering algorithm called UIClust. It is designed to cluster streams of data chunks, even when there are temporary or sustained concept drifts. We evaluate the performance of UIClust by comparing it with a recently published, high-quality incremental clustering algorithm. We use real and synthetic datasets. We compare the results by using well-known clustering evaluation criteria: entropy, sum of squared errors (SSE), and execution time. Our results show that UIClust outperforms the existing technique in all our experiments.
翻訳日:2022-12-18 06:42:25 公開日:2020-03-30
# 安定・包括的ドメインアライメントに向けて:Max-Margin Domain-Adversarial Training

Towards Stable and Comprehensive Domain Alignment: Max-Margin Domain-Adversarial Training ( http://arxiv.org/abs/2003.13249v1 )

ライセンス: Link先を確認
Jianfei Yang, Han Zou, Yuxun Zhou, Lihua Xie(参考訳) ドメイン適応は、ラベルリッチなソースドメインからラベルなしあるいはラベルなしのターゲットドメインに知識を転送する問題に取り組む。 近年DAT(Domain-Adversarial Training)は、ドメイン分類器の勾配伝播を反転させることで、ドメイン不変の特徴空間を学習する有望な能力を示している。 しかし, DAT は,(1) 対人訓練におけるドメイン分類器の圧倒的な差別能力によるトレーニング不安定性, (2) 制限的特徴レベルのアライメント, (3) 学習された特徴空間の解釈可能性や体系的説明の欠如など,いくつかの面でも脆弱である。 本稿では,Adversarial Reconstruction Network (ARN) を設計し,MDAT(Max-margin Domain-Adversarial Training)を提案する。 提案したMDATは、ドメイン分類器を再構成ネットワークに置き換えることにより、ALNの勾配反転を安定化させ、この方法でARNは、余分なネットワーク構造を伴わずに、特徴レベルと画素レベルのドメインアライメントを実行する。 さらに、ALNは幅広いハイパーパラメータ設定に対して強い堅牢性を示し、モデル選択のタスクを大幅に緩和する。 広範な実験結果から、我々のアプローチは他の最先端ドメインアライメントメソッドよりも優れています。 さらに、適合した特徴の再構成は、我々の直観に合致するドメイン不変な特徴空間を明らかにする。

Domain adaptation tackles the problem of transferring knowledge from a label-rich source domain to a label-scarce or even unlabeled target domain. Recently domain-adversarial training (DAT) has shown promising capacity to learn a domain-invariant feature space by reversing the gradient propagation of a domain classifier. However, DAT is still vulnerable in several aspects including (1) training instability due to the overwhelming discriminative ability of the domain classifier in adversarial training, (2) restrictive feature-level alignment, and (3) lack of interpretability or systematic explanation of the learned feature space. In this paper, we propose a novel Max-margin Domain-Adversarial Training (MDAT) by designing an Adversarial Reconstruction Network (ARN). The proposed MDAT stabilizes the gradient reversing in ARN by replacing the domain classifier with a reconstruction network, and in this manner ARN conducts both feature-level and pixel-level domain alignment without involving extra network structures. Furthermore, ARN demonstrates strong robustness to a wide range of hyper-parameters settings, greatly alleviating the task of model selection. Extensive empirical results validate that our approach outperforms other state-of-the-art domain alignment methods. Moreover, reconstructing adapted features reveals the domain-invariant feature space which conforms with our intuition.
翻訳日:2022-12-18 06:41:44 公開日:2020-03-30
# CNNハイパーパラメータ最適化のための重み付きランダム探索

Weighted Random Search for CNN Hyperparameter Optimization ( http://arxiv.org/abs/2003.13300v1 )

ライセンス: Link先を確認
Razvan Andonie, Adrian-Catalin Florea(参考訳) 機械学習で使用されるほぼ全てのモデルアルゴリズムは、トレーニングパラメータとメタパラメータ(ハイパーパラメータ)の2つの異なるパラメータを使用する。 トレーニングフェーズではトレーニングパラメータが学習されるが、学習が始まる前にハイパーパラメータの値を指定する必要がある。 与えられたデータセットに対して、適切な時間内にハイパーパラメータ値の最適な組み合わせを見つけたいと思っています。 これは計算の複雑さから難しい課題である。 先行研究 [11] では,無作為探索 (rs) と確率的欲欲ヒューリスティックを組み合わせた重み付きランダム探索 (wrs) 法を導入した。 本稿では,WRS法と最先端のハイパーパラメータ最適化手法を比較し,畳み込みニューラルネットワーク(CNN)のハイパーパラメータ最適化について述べる。 基準は、ハイパーパラメータ値の試験された組み合わせ数で達成された分類精度である。 我々の実験によると、WRSアルゴリズムは他の手法よりも優れている。

Nearly all model algorithms used in machine learning use two different sets of parameters: the training parameters and the meta-parameters (hyperparameters). While the training parameters are learned during the training phase, the values of the hyperparameters have to be specified before learning starts. For a given dataset, we would like to find the optimal combination of hyperparameter values, in a reasonable amount of time. This is a challenging task because of its computational complexity. In previous work [11], we introduced the Weighted Random Search (WRS) method, a combination of Random Search (RS) and probabilistic greedy heuristic. In the current paper, we compare the WRS method with several state-of-the art hyperparameter optimization methods with respect to Convolutional Neural Network (CNN) hyperparameter optimization. The criterion is the classification accuracy achieved within the same number of tested combinations of hyperparameter values. According to our experiments, the WRS algorithm outperforms the other methods.
翻訳日:2022-12-18 06:41:18 公開日:2020-03-30
# Agent57: Atari Human Benchmarkのパフォーマンス

Agent57: Outperforming the Atari Human Benchmark ( http://arxiv.org/abs/2003.13350v1 )

ライセンス: Link先を確認
Adri\`a Puigdom\`enech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell(参考訳) Atariゲームは、過去10年間、強化学習(RL)コミュニティで長年にわたってベンチマークされてきた。 このベンチマークは、RLアルゴリズムの一般的な能力をテストするために提案された。 それまでの作業は、セットの多くのゲームで卓越したパフォーマンスを達成してきたが、いくつかの最も困難なゲームでは、非常に貧弱であった。 我々は,アタリの全57ゲームにおいて,人間の標準ベンチマークを上回った最初の深層rlエージェントであるエージェント57を提案する。 この結果を得るために、我々は、非常に探索的から純粋に悪用的なポリシーのファミリーをパラメータ化するニューラルネットワークを訓練する。 トレーニングプロセス全体を通して、どのポリシーを優先するかを選択する適応的なメカニズムを提案する。 さらに、より一貫性があり安定した学習を可能にするアーキテクチャの新たなパラメータ化も活用する。

Atari games have been a long-standing benchmark in the reinforcement learning (RL) community for the past decade. This benchmark was proposed to test general competency of RL algorithms. Previous work has achieved good average performance by doing outstandingly well on many games of the set, but very poorly in several of the most challenging games. We propose Agent57, the first deep RL agent that outperforms the standard human benchmark on all 57 Atari games. To achieve this result, we train a neural network which parameterizes a family of policies ranging from very exploratory to purely exploitative. We propose an adaptive mechanism to choose which policy to prioritize throughout the training process. Additionally, we utilize a novel parameterization of the architecture that allows for more consistent and stable learning.
翻訳日:2022-12-18 06:41:05 公開日:2020-03-30
# 大規模摂動に抵抗する深層学習モデルに向けて

Towards Deep Learning Models Resistant to Large Perturbations ( http://arxiv.org/abs/2003.13370v1 )

ライセンス: Link先を確認
Amirreza Shaeiri, Rozhin Nobahari, Mohammad Hossein Rohban(参考訳) 敵対的堅牢性は機械学習アルゴリズムの必須特性であることが証明されている。 この問題の重要かつしばしば見落とされがちな側面は、モデル堅牢性の利点を高めるために、敵の雑音の大きさをできるだけ大きくすることである。 とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。 本稿では,より高レベルな雑音学習を可能にするネットワーク重みの簡易かつ効果的な初期化を提案する。 次に、このアイデアをMNIST($\epsilon$から$\approx 0.40$)とCIFAR10($\epsilon$から$\approx 32/255$)のデータセットで厳格に評価し、$\ell_{\infty}$攻撃モデルを想定します。 さらに,学習が実現可能な$\epsilon$の限界を確立するために,共同データとラベル分布の完全アクセスを前提とした最適ロバスト分類器について検討する。 次に, 単純な多次元ベルヌーイ分布の逆数精度に関する理論的結果を示し, MNISTデータセットの可能な摂動範囲についていくつかの知見を得る。

Adversarial robustness has proven to be a required property of machine learning algorithms. A key and often overlooked aspect of this problem is to try to make the adversarial noise magnitude as large as possible to enhance the benefits of the model robustness. We show that the well-established algorithm called "adversarial training" fails to train a deep neural network given a large, but reasonable, perturbation magnitude. In this paper, we propose a simple yet effective initialization of the network weights that makes learning on higher levels of noise possible. We next evaluate this idea rigorously on MNIST ($\epsilon$ up to $\approx 0.40$) and CIFAR10 ($\epsilon$ up to $\approx 32/255$) datasets assuming the $\ell_{\infty}$ attack model. Additionally, in order to establish the limits of $\epsilon$ in which the learning is feasible, we study the optimal robust classifier assuming full access to the joint data and label distribution. Then, we provide some theoretical results on the adversarial accuracy for a simple multi-dimensional Bernoulli distribution, which yields some insights on the range of feasible perturbations for the MNIST dataset.
翻訳日:2022-12-18 06:40:52 公開日:2020-03-30
# 微分ペアワイズプライバシによる安全なメトリックラーニング

Secure Metric Learning via Differential Pairwise Privacy ( http://arxiv.org/abs/2003.13413v1 )

ライセンス: Link先を確認
Jing Li, Yuangang Pan, Yulei Sui, and Ivor W. Tsang(参考訳) 距離メトリックラーニング(DML)は過去20年間に多くの注目を集めてきた。 以前の多くの研究は、ドメインの専門家によって正しくラベル付けされたペアワイズデータのセットが与えられた個体の類似度をよく測定できることを示してきた。 これらの重要かつ正確にラベル付けされたペアワイズデータは、しばしば現実世界(例えば患者類似性)に非常に敏感である。 本稿では,距離距離学習中に攻撃者にペアワイズ情報を漏洩させる方法を初めて研究し,標準差分プライバシの定義を一般化したディファレンシャルペアワイズプライバシ(dpp)を開発し,安全なメトリック学習を実現する。 独立したサンプルにのみ適用される従来の差分プライバシーとは異なり、DPPは最悪のケースを修正してこの問題に対処することに成功している。 具体的には、ペアワイズデータから、構築された非方向グラフ内のペア間のすべての関連関係を明らかにする。 DPPは形式化され、ペアデータを保存するためにどの種類のDMLアルゴリズムがプライベートであるかを定義する。 その後, DPP-DMLアルゴリズムの実装の詳細を明らかにするために, コントラスト損失を用いたケーススタディを示す。 特に,出力距離測定の有用性を高めるために感度低減手法を提案する。 おもちゃのデータセットとベンチマークの両方の実験では、提案手法が出力性能をあまり損なうことなくペアワイズデータプライバシを実現することを示した(プライバシ予算が4に設定された場合、ベンチマークデータセット全体の精度は0.01未満である)。

Distance Metric Learning (DML) has drawn much attention over the last two decades. A number of previous works have shown that it performs well in measuring the similarities of individuals given a set of correctly labeled pairwise data by domain experts. These important and precisely-labeled pairwise data are often highly sensitive in real world (e.g., patients similarity). This paper studies, for the first time, how pairwise information can be leaked to attackers during distance metric learning, and develops differential pairwise privacy (DPP), generalizing the definition of standard differential privacy, for secure metric learning. Unlike traditional differential privacy which only applies to independent samples, thus cannot be used for pairwise data, DPP successfully deals with this problem by reformulating the worst case. Specifically, given the pairwise data, we reveal all the involved correlations among pairs in the constructed undirected graph. DPP is then formalized that defines what kind of DML algorithm is private to preserve pairwise data. After that, a case study employing the contrastive loss is exhibited to clarify the details of implementing a DPP-DML algorithm. Particularly, the sensitivity reduction technique is proposed to enhance the utility of the output distance metric. Experiments both on a toy dataset and benchmarks demonstrate that the proposed scheme achieves pairwise data privacy without compromising the output performance much (Accuracy declines less than 0.01 throughout all benchmark datasets when the privacy budget is set at 4).
翻訳日:2022-12-18 06:40:28 公開日:2020-03-30
# qrmine: 接地理論における三角測量のためのpythonパッケージ

QRMine: A python package for triangulation in Grounded Theory ( http://arxiv.org/abs/2003.13519v1 )

ライセンス: Link先を確認
Bell Raj Eapen, Norm Archer and Kamran Sartipi(参考訳) グラウンドド理論(GT)は、データに基づく理論を構築するための定性的研究手法である。 GTはテキストデータと数値データを使用し、オープンコーディングや選択的コーディングなど、センスメイキングのためのコーディングやタグ付けのさまざまな段階に従う。 自然言語処理(NLP)を含む機械学習(ML)技術は、コーディングプロセスの研究者を支援することができる。 三角法は様々な種類のデータを組み合わせるプロセスである。 MLは、数値データから洞察を導出し、テキストインタビューテキストからの発見を裏付ける。 本稿では,GTにおけるコーディングと三角測量をサポートするため,さまざまなMLおよびNLPライブラリをカプセル化したオープンソースのpythonパッケージ(QRMine)を提案する。 QRMineは、研究者が最小限の努力でこれらの手法をデータに利用できるようにする。 研究者はpython package index(PyPI)からQRMineをインストールでき、開発に貢献できる。 計算三角測量の概念は、GTをビッグデータの領域に関連付けると信じている。

Grounded theory (GT) is a qualitative research method for building theory grounded in data. GT uses textual and numeric data and follows various stages of coding or tagging data for sense-making, such as open coding and selective coding. Machine Learning (ML) techniques, including natural language processing (NLP), can assist the researchers in the coding process. Triangulation is the process of combining various types of data. ML can facilitate deriving insights from numerical data for corroborating findings from the textual interview transcripts. We present an open-source python package (QRMine) that encapsulates various ML and NLP libraries to support coding and triangulation in GT. QRMine enables researchers to use these methods on their data with minimal effort. Researchers can install QRMine from the python package index (PyPI) and can contribute to its development. We believe that the concept of computational triangulation will make GT relevant in the realm of big data.
翻訳日:2022-12-18 06:31:52 公開日:2020-03-30
# アンハリック抽象テキスト要約

Amharic Abstractive Text Summarization ( http://arxiv.org/abs/2003.13721v1 )

ライセンス: Link先を確認
Amr M. Zaki, Mahmoud I. Khalil, Hazem M. Abbas(参考訳) テキスト要約は、長いテキストをほんの一握りの文に凝縮するタスクである。 Many approaches have been proposed for this task, some of the very first were building statistical models (Extractive Methods) capable of selecting important words and copying them to the output, however these models lacked the ability to paraphrase sentences, as they simply select important words without actually understanding their contexts nor understanding their meaning, here comes the use of Deep Learning based architectures (Abstractive Methods), which effectively tries to understand the meaning of sentences to build meaningful summaries. 本稿では、カリキュラム学習とディープラーニングを組み合わせた新しいアプローチの一つとして、スケジューリングサンプリング(Schduled Smpling)というモデルについて論じる。 我々はこの研究を、アフリカNLPコミュニティをトップノートのディープラーニングアーキテクチャで豊かにしようとする中で、最も広く話されているアフリカ言語の一つであるアムハラ語に応用する。

Text Summarization is the task of condensing long text into just a handful of sentences. Many approaches have been proposed for this task, some of the very first were building statistical models (Extractive Methods) capable of selecting important words and copying them to the output, however these models lacked the ability to paraphrase sentences, as they simply select important words without actually understanding their contexts nor understanding their meaning, here comes the use of Deep Learning based architectures (Abstractive Methods), which effectively tries to understand the meaning of sentences to build meaningful summaries. In this work we discuss one of these new novel approaches which combines curriculum learning with Deep Learning, this model is called Scheduled Sampling. We apply this work to one of the most widely spoken African languages which is the Amharic Language, as we try to enrich the African NLP community with top-notch Deep Learning architectures.
翻訳日:2022-12-18 06:31:17 公開日:2020-03-30
# 教師なし構文解析のための階層変換器

A Hierarchical Transformer for Unsupervised Parsing ( http://arxiv.org/abs/2003.13841v1 )

ライセンス: Link先を確認
Ashok Thillaisundaram(参考訳) 自然言語の根底にある構造は階層的であり、単語は句に結合し、句を形作る。 この階層構造に対する認識は、多くの言語的タスクを実行する機械学習モデルに役立つ。 しかし、そのようなモデルの多くはテキストを逐次処理するだけで、アーキテクチャにエンコードされた階層構造を学ぶにはバイアスがない。 本稿では,最近のトランスフォーマーモデル(vaswani et al., 2017)を拡張し,階層表現の学習を可能にした。 これを実現するため、2018年にShenらによって導入された注文機構をトランスフォーマーアーキテクチャの自己注意モジュールに適用する。 言語モデリングに関する新しいモデルをトレーニングし、教師なし構文解析のタスクに適用します。 我々は、約50%のF1スコアでWSJ10データセットの無償サブセットに対して妥当な結果を得る。

The underlying structure of natural language is hierarchical; words combine into phrases, which in turn form clauses. An awareness of this hierarchical structure can aid machine learning models in performing many linguistic tasks. However, most such models just process text sequentially and there is no bias towards learning hierarchical structure encoded into their architecture. In this paper, we extend the recent transformer model (Vaswani et al., 2017) by enabling it to learn hierarchical representations. To achieve this, we adapt the ordering mechanism introduced in Shen et al., 2018, to the self-attention module of the transformer architecture. We train our new model on language modelling and then apply it to the task of unsupervised parsing. We achieve reasonable results on the freely available subset of the WSJ10 dataset with an F1-score of about 50%.
翻訳日:2022-12-18 06:31:03 公開日:2020-03-30
# 2020年のヨーロッパ言語技術ランドスケープ:多言語ヨーロッパにおける異文化間コミュニケーションのための言語中心と人間中心AI

The European Language Technology Landscape in 2020: Language-Centric and Human-Centric AI for Cross-Cultural Communication in Multilingual Europe ( http://arxiv.org/abs/2003.13833v1 )

ライセンス: Link先を確認
Georg Rehm and Katrin Marheinecke and Stefanie Hegele and Stelios Piperidis and Kalina Bontcheva and Jan Haji\v{c} and Khalid Choukri and Andrejs Vasi\c{l}jevs and Gerhard Backfried and Christoph Prinz and Jos\'e Manuel G\'omez P\'erez and Luc Meertens and Paul Lukowicz and Josef van Genabith and Andrea L\"osch and Philipp Slusallek and Morten Irgens and Patrick Gatellier and Joachim K\"ohler and Laure Le Bars and Dimitra Anastasiou and Albina Auksori\=ut\.e and N\'uria Bel and Ant\'onio Branco and Gerhard Budin and Walter Daelemans and Koenraad De Smedt and Radovan Garab\'ik and Maria Gavriilidou and Dagmar Gromann and Svetla Koeva and Simon Krek and Cvetana Krstev and Krister Lind\'en and Bernardo Magnini and Jan Odijk and Maciej Ogrodniczuk and Eir\'ikur R\"ognvaldsson and Mike Rosner and Bolette Sandford Pedersen and Inguna Skadi\c{n}a and Marko Tadi\'c and Dan Tufi\c{s} and Tam\'as V\'aradi and Kadri Vider and Andy Way and Fran\c{c}ois Yvon(参考訳) 多言語主義はヨーロッパの文化的基盤であり、完全な言語平等を含む欧州条約に固執している。 しかし、ビジネス、言語横断、文化横断のコミュニケーションに影響を与える言語障壁は、いまだに普遍的である。 言語技術(LT)は、これらの障壁を壊す強力な手段である。 過去10年間、ヨーロッパの特定のニーズに合わせた様々なアプローチや技術を生み出してきた様々な取り組みを見てきたが、いまだに断片化のレベルは大きい。 同時に、AIは欧州情報通信技術分野においてますます重要な概念になりつつある。 ここ数年、多くの機会、シナジー、誤解などを含むAIは、他のトピックすべてに影を落としてきた。 本稿では,欧州のLTランドスケープを概観し,産業とLT市場における現状を含む,LTに関する各国の資金提供プログラム,活動,行動,課題について述べる。 我々は、過去10年間のEUレベルでのLT関連の主要な活動の概要を簡潔に紹介し、4つの重要な側面に関する戦略的ガイダンスを策定する。

Multilingualism is a cultural cornerstone of Europe and firmly anchored in the European treaties including full language equality. However, language barriers impacting business, cross-lingual and cross-cultural communication are still omnipresent. Language Technologies (LTs) are a powerful means to break down these barriers. While the last decade has seen various initiatives that created a multitude of approaches and technologies tailored to Europe's specific needs, there is still an immense level of fragmentation. At the same time, AI has become an increasingly important concept in the European Information and Communication Technology area. For a few years now, AI, including many opportunities, synergies but also misconceptions, has been overshadowing every other topic. We present an overview of the European LT landscape, describing funding programmes, activities, actions and challenges in the different countries with regard to LT, including the current state of play in industry and the LT market. We present a brief overview of the main LT-related activities on the EU level in the last ten years and develop strategic guidance with regard to four key dimensions.
翻訳日:2022-12-18 06:30:50 公開日:2020-03-30
# 連続領域におけるモンテカルロ木探索の並列化

Parallelization of Monte Carlo Tree Search in Continuous Domains ( http://arxiv.org/abs/2003.13741v1 )

ライセンス: Link先を確認
Karl Kurzer, Christoph H\"ortnagl, J. Marius Z\"ollner(参考訳) Monte Carlo Tree Search (MCTS)は、Goやチェス、Atariといったドメインの課題を解決できることが証明されている。 これまでの研究はMCTSの並列バージョンを開発し、今日のマルチプロセスアーキテクチャを活用している。 これらの研究は離散の場合のmctsのバージョンに焦点を当てた。 私たちの仕事は既存の並列化戦略に基づいて構築され、それらを連続的なドメインに拡張します。 特に, 葉の並列化と根の並列化について検討し, 根の並列化における連続状態の処理に必要な2つの最終選択戦略を提案する。 自動走行車の領域における協調型多エージェントシステム軌道計画課題を用いて, 並列化連続MCTSの評価を行った。

Monte Carlo Tree Search (MCTS) has proven to be capable of solving challenging tasks in domains such as Go, chess and Atari. Previous research has developed parallel versions of MCTS, exploiting today's multiprocessing architectures. These studies focused on versions of MCTS for the discrete case. Our work builds upon existing parallelization strategies and extends them to continuous domains. In particular, leaf parallelization and root parallelization are studied and two final selection strategies that are required to handle continuous states in root parallelization are proposed. The evaluation of the resulting parallelized continuous MCTS is conducted using a challenging cooperative multi-agent system trajectory planning task in the domain of automated vehicles.
翻訳日:2022-12-18 06:23:43 公開日:2020-03-30
# 手話トランスフォーマー:エンドツーエンド手話認識と翻訳

Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation ( http://arxiv.org/abs/2003.13830v1 )

ライセンス: Link先を確認
Necati Cihan Camgoz, Oscar Koller, Simon Hadfield, Richard Bowden(参考訳) サイン言語翻訳に関する以前の研究は、中級の記号グロス表現(事実上個々の記号を認識する)を持つことで、翻訳性能が劇的に向上することを示した。 実際、翻訳における現在の最先端は、機能するために用語レベルのトークン化を必要とする。 エンドツーエンドでトレーニングしながら,連続手話認識と翻訳を共同で学習する,トランスフォーマーに基づく新しいアーキテクチャを提案する。 これはConnectionist Temporal Classification (CTC) の損失を利用して認識と翻訳の問題を単一の統一アーキテクチャに結合することで実現される。 このジョイントアプローチでは,2つの共依存シーケンス・ツー・シーケンスの学習問題を同時に解決し,大幅な性能向上をもたらす。 RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットの認識と翻訳性能の評価を行った。 本稿では,手話変換器による手話認識と翻訳結果について報告する。 我々の翻訳ネットワークは、ビデオから音声言語への変換と、音声翻訳モデルへの光沢の両方を上回り、性能を2倍にするケースもある(9.58 vs. 21.80 BLEU-4 スコア)。 また,他のテキスト間手話翻訳タスクに対して,トランスフォーマーネットワークを用いた新しいベースライン翻訳結果を共有する。

Prior work on Sign Language Translation has shown that having a mid-level sign gloss representation (effectively recognizing the individual signs) improves the translation performance drastically. In fact, the current state-of-the-art in translation requires gloss level tokenization in order to work. We introduce a novel transformer based architecture that jointly learns Continuous Sign Language Recognition and Translation while being trainable in an end-to-end manner. This is achieved by using a Connectionist Temporal Classification (CTC) loss to bind the recognition and translation problems into a single unified architecture. This joint approach does not require any ground-truth timing information, simultaneously solving two co-dependant sequence-to-sequence learning problems and leads to significant performance gains. We evaluate the recognition and translation performances of our approaches on the challenging RWTH-PHOENIX-Weather-2014T (PHOENIX14T) dataset. We report state-of-the-art sign language recognition and translation results achieved by our Sign Language Transformers. Our translation networks outperform both sign video to spoken language and gloss to spoken language translation models, in some cases more than doubling the performance (9.58 vs. 21.80 BLEU-4 Score). We also share new baseline translation results using transformer networks for several other text-to-text sign language translation tasks.
翻訳日:2022-12-18 06:23:32 公開日:2020-03-30
# PointGMM:ポイントクラウドのためのニューラルネットワークGMM

PointGMM: a Neural GMM Network for Point Clouds ( http://arxiv.org/abs/2003.13326v1 )

ライセンス: Link先を確認
Amir Hertz, Rana Hanocka, Raja Giryes, Daniel Cohen-Or(参考訳) 点雲は3d形状の一般的な表現である。 しかし、形状や非局所的な情報を考慮せずに、特定のサンプリングを符号化する。 我々は,階層型ガウス混合モデル(hGMM)の使用を提唱する。これはコンパクトで適応的で軽量な表現であり,基礎となる3次元曲面を確率的に定義する。 本稿では,形状クラスの特徴であるhGMMの生成を学習するニューラルネットワークであるPointGMMについて述べる。 PointGMMは、クラス固有の事前学習のために、形状のコレクションを通じてトレーニングされる。 階層表現には2つの大きな利点があります (i)貧弱な地域ミニマへの収束を回避し、細かな学習をすること。 (ii)入力形状の(教師なしの)一貫した分割 生成モデルとして、PointGMMは既存の形状間の一貫した補間や新しい形状の合成を可能にする有意義な潜在空間を学習する。 また,入力形状の構造から方向を離すことを学ぶpointgmmを用いた剛体登録のための新しい枠組みを提案する。

Point clouds are a popular representation for 3D shapes. However, they encode a particular sampling without accounting for shape priors or non-local information. We advocate for the use of a hierarchical Gaussian mixture model (hGMM), which is a compact, adaptive and lightweight representation that probabilistically defines the underlying 3D surface. We present PointGMM, a neural network that learns to generate hGMMs which are characteristic of the shape class, and also coincide with the input point cloud. PointGMM is trained over a collection of shapes to learn a class-specific prior. The hierarchical representation has two main advantages: (i) coarse-to-fine learning, which avoids converging to poor local-minima; and (ii) (an unsupervised) consistent partitioning of the input shape. We show that as a generative model, PointGMM learns a meaningful latent space which enables generating consistent interpolations between existing shapes, as well as synthesizing novel shapes. We also present a novel framework for rigid registration using PointGMM, that learns to disentangle orientation from structure of an input shape.
翻訳日:2022-12-18 06:23:09 公開日:2020-03-30
# OCmst:畳み込みニューラルネットワークと最小スパンニング木を用いた一級ノベルティ検出

OCmst: One-class Novelty Detection using Convolutional Neural Network and Minimum Spanning Trees ( http://arxiv.org/abs/2003.13524v1 )

ライセンス: Link先を確認
Riccardo La Grassa, Ignazio Gallo, Nicola Landro(参考訳) 本稿では,1クラス最小スパンニングツリー(OCmst)と呼ばれる新しいモデルを提案する。これは,畳み込みニューラルネットワーク(CNN)を深い特徴抽出器として用い,最小スパンニングツリー(MST)に基づくグラフベースモデルである。 新奇な検出シナリオでは、トレーニングデータは異常値(異常クラス)によって汚染されず、テストインスタンスが正常クラスか異常クラスかを認識することを目的としている。 このアプローチでは、CNNの深い機能を使って、各テストインスタンスから構築されたMSTのペアをフィードします。 計算時間を短縮するためにパラメータ$\gamma$を使用して、テストインスタンスから隣人へのMSTの開始のサイズを指定する。 提案手法の有効性を証明するため,文献でよく知られる2つの公開データセットの実験を行い,CIFAR10データセットの最先端結果を得た。

We present a novel model called One Class Minimum Spanning Tree (OCmst) for novelty detection problem that uses a Convolutional Neural Network (CNN) as deep feature extractor and graph-based model based on Minimum Spanning Tree (MST). In a novelty detection scenario, the training data is no polluted by outliers (abnormal class) and the goal is to recognize if a test instance belongs to the normal class or to the abnormal class. Our approach uses the deep features from CNN to feed a pair of MSTs built starting from each test instance. To cut down the computational time we use a parameter $\gamma$ to specify the size of the MST's starting to the neighbours from the test instance. To prove the effectiveness of the proposed approach we conducted experiments on two publicly available datasets, well-known in literature and we achieved the state-of-the-art results on CIFAR10 dataset.
翻訳日:2022-12-18 06:22:53 公開日:2020-03-30
# 深部フレームポテンシャルを持つデータレスモデル選択

Dataless Model Selection with the Deep Frame Potential ( http://arxiv.org/abs/2003.13866v1 )

ライセンス: Link先を確認
Calvin Murdock, Simon Lucey(参考訳) 深いニューラルネットワークアーキテクチャを選択することは、パフォーマンスとパラメータ効率のバランスを必要とするアプリケーションの基本的な問題である。 標準的なアプローチは、特定のデータセットに対するアドホックエンジニアリングや計算コストの検証に依存する。 代わりに、ユニークでロバストな表現に固有の能力でネットワークを定量化し、データを必要としない効率的なアーキテクチャ比較を可能にします。 ディープ・ラーニングとスパース近似の理論的関係に基づいて,ネットワーク構造のみに依存する最小値を持つ表現安定性にほぼ関連するコヒーレンス尺度であるディープ・フレームポテンシャルを提案する。 これは、深さ、幅、スキップ接続などのアーキテクチャハイパーパラメータの貢献を共同で定量化するフレームワークを提供する。 モデル選択の基準としての利用を検証し,多種多様なネットワークアーキテクチャにおける一般化誤差との相関性を示す。

Choosing a deep neural network architecture is a fundamental problem in applications that require balancing performance and parameter efficiency. Standard approaches rely on ad-hoc engineering or computationally expensive validation on a specific dataset. We instead attempt to quantify networks by their intrinsic capacity for unique and robust representations, enabling efficient architecture comparisons without requiring any data. Building upon theoretical connections between deep learning and sparse approximation, we propose the deep frame potential: a measure of coherence that is approximately related to representation stability but has minimizers that depend only on network structure. This provides a framework for jointly quantifying the contributions of architectural hyper-parameters such as depth, width, and skip connections. We validate its use as a criterion for model selection and demonstrate correlation with generalization error on a variety of common residual and densely connected network architectures.
翻訳日:2022-12-18 06:22:06 公開日:2020-03-30
# CT画像からの頭蓋内出血の改善のための病変条件画像生成

Lesion Conditional Image Generation for Improved Segmentation of Intracranial Hemorrhage from CT Images ( http://arxiv.org/abs/2003.13868v1 )

ライセンス: Link先を確認
Manohar Karki, Junghwan Cho, Seokhwan Ko(参考訳) データ拡張は、機械学習アルゴリズムを訓練する際の画像の不足を効果的に解決する。 これにより、目に見えない画像がより堅牢になる。 データ拡張のためのCT画像を生成するために,病変条件付きジェネレーターネットワークLcGANを提案する。 病変条件画像(segmented mask)は、訓練中にジェネレータとLcGANの判別器の両方に入力される。 トレーニングされたモデルは、入力マスクに基づいてコンテキストCT画像を生成する。 完全畳み込みネットワーク(FCN)スコアと曖昧さを用いて画像の品質を定量化する。 また,より優れた合成画像を選択するための分類ネットワークを訓練した。 これらの合成ct画像は, 出血性病変分節ネットワークに拡張される。 この増分法を原データの2.5%、10%、25%に適用することにより、それぞれ12.8%、6%、および1.6%のセグメンテーションが向上した。

Data augmentation can effectively resolve a scarcity of images when training machine-learning algorithms. It can make them more robust to unseen images. We present a lesion conditional Generative Adversarial Network LcGAN to generate synthetic Computed Tomography (CT) images for data augmentation. A lesion conditional image (segmented mask) is an input to both the generator and the discriminator of the LcGAN during training. The trained model generates contextual CT images based on input masks. We quantify the quality of the images by using a fully convolutional network (FCN) score and blurriness. We also train another classification network to select better synthetic images. These synthetic CT images are then augmented to our hemorrhagic lesion segmentation network. By applying this augmentation method on 2.5%, 10% and 25% of original data, segmentation improved by 12.8%, 6% and 1.6% respectively.
翻訳日:2022-12-18 06:21:54 公開日:2020-03-30