このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200721となっている論文です。

PDF登録状況(公開日: 20200721)

TitleAuthorsAbstract論文公表日・翻訳日
# Render-and-Compareによる一視点からの一般的な3次元ルームレイアウト

General 3D Room Layout from a Single View by Render-and-Compare ( http://arxiv.org/abs/2001.02149v2 )

ライセンス: Link先を確認
Sinisa Stekovic, Shreyas Hampali, Mahdi Rad, Sayan Deb Sarkar, Friedrich Fraundorfer, Vincent Lepetit(参考訳) 本研究では, 壁面, 床面, 天井面) の3次元レイアウトを, 従来の立方体形状に制限された単一ビュー法とは対照的に, 難易度で一視点で再構築する手法を提案する。 この入力ビューはカラー画像のみで構成されることができるが、深度マップを考慮するとより正確な再構成が得られる。 本手法は制約付き離散最適化問題の解法として定式化され,レイアウトを構成する3次元ポリゴンの集合を求める。 従来の研究では無視されていたレイアウト成分間の閉塞に対処するため,3次元レイアウト推定を反復的に洗練する解析・合成法を提案する。 提案手法を定量的に評価するデータセットが得られなかったため,いくつかの適切な指標を合わせて作成した。 データセットはScanNetの293の画像で構成されており、正確な3Dレイアウトで注釈を付けた。 一般的なNYUv2 303ベンチマークの3倍のサンプルと、はるかに大きなレイアウトを提供する。

We present a novel method to reconstruct the 3D layout of a room (walls, floors, ceilings) from a single perspective view in challenging conditions, by contrast with previous single-view methods restricted to cuboid-shaped layouts. This input view can consist of a color image only, but considering a depth map results in a more accurate reconstruction. Our approach is formalized as solving a constrained discrete optimization problem to find the set of 3D polygons that constitute the layout. In order to deal with occlusions between components of the layout, which is a problem ignored by previous works, we introduce an analysis-by-synthesis method to iteratively refine the 3D layout estimate. As no dataset was available to evaluate our method quantitatively, we created one together with several appropriate metrics. Our dataset consists of 293 images from ScanNet, which we annotated with precise 3D layouts. It offers three times more samples than the popular NYUv2 303 benchmark, and a much larger variety of layouts.
翻訳日:2023-01-13 20:52:54 公開日:2020-07-21
# ベイズ学習規則における正定値制約の扱い

Handling the Positive-Definite Constraint in the Bayesian Learning Rule ( http://arxiv.org/abs/2002.10060v13 )

ライセンス: Link先を確認
Wu Lin, Mark Schmidt, Mohammad Emtiyaz Khan(参考訳) ベイズ学習規則は、既存の学習アルゴリズムの多くを特別な場合として含むだけでなく、新しいアルゴリズムの設計を可能にする自然勾配変分推論法である。 残念ながら、変動パラメータがオープンな制約セットにある場合、ルールは制約を満たすことができず、アルゴリズムを遅くする線探索を必要とする。 本稿では,制約を自然に処理する改良ルールを提案することにより,正定値制約に対するこの問題に対処する。 我々の修正はリーマン勾配法を用いて得られ、近似が \emph{block-coordinate natural parameterization} (例:ガウス分布とその混合)に達すると有効である。 本稿では, リーマン勾配とリトラクションをゼロから導出する原理的手法を提案する。 本手法は計算量を大幅に増加させることなく既存の手法を上回る。 本研究はパラメータ空間における正定値制約の存在下でのルールの適用を容易にする。

The Bayesian learning rule is a natural-gradient variational inference method, which not only contains many existing learning algorithms as special cases but also enables the design of new algorithms. Unfortunately, when variational parameters lie in an open constraint set, the rule may not satisfy the constraint and requires line-searches which could slow down the algorithm. In this work, we address this issue for positive-definite constraints by proposing an improved rule that naturally handles the constraints. Our modification is obtained by using Riemannian gradient methods, and is valid when the approximation attains a \emph{block-coordinate natural parameterization} (e.g., Gaussian distributions and their mixtures). We propose a principled way to derive Riemannian gradients and retractions from scratch. Our method outperforms existing methods without any significant increase in computation. Our work makes it easier to apply the rule in the presence of positive-definite constraints in parameter spaces.
翻訳日:2022-12-29 02:52:28 公開日:2020-07-21
# 自然言語接地ナビゲーションのための環境依存型マルチタスク学習

Environment-agnostic Multitask Learning for Natural Language Grounded Navigation ( http://arxiv.org/abs/2003.00443v5 )

ライセンス: Link先を確認
Xin Eric Wang, Vihan Jain, Eugene Ie, William Yang Wang, Zornitsa Kozareva, Sujith Ravi(参考訳) 最近の研究により、自然言語指示や対話など、フォトリアリズム環境における自然言語接地ナビゲーションの研究が可能となった。 しかし、既存の手法ではトレーニングデータに過度に適合する傾向があり、以前は見つからなかった環境ではうまく一般化できない。 To close the gap between seen and unseen environments, we aim at learning a generalized navigation model from two novel perspectives: (1) we introduce a multitask navigation model that can be seamlessly trained on both Vision-Language Navigation (VLN) and Navigation from Dialog History (NDH) tasks, which benefits from richer natural language guidance and effectively transfers knowledge across tasks; (2) we propose to learn environment-agnostic representations for the navigation policy that are invariant among the environments seen during training, thus generalizing better on unseen environments. 広汎な実験により, 環境非依存型マルチタスク学習は, 目視環境と目視環境との間の性能ギャップを著しく低減し, ナビゲーションエージェントは, VLNで16%, NDHで120%, 目視環境で16%, 目視環境で120%に改善した。 我々のCVDNリーダーボードへの提出は、ホールドアウトテストセット上でNDHタスクのための新しい最先端技術を確立する。 コードはhttps://github.com/google-research/valanで入手できる。

Recent research efforts enable study for natural language grounded navigation in photo-realistic environments, e.g., following natural language instructions or dialog. However, existing methods tend to overfit training data in seen environments and fail to generalize well in previously unseen environments. To close the gap between seen and unseen environments, we aim at learning a generalized navigation model from two novel perspectives: (1) we introduce a multitask navigation model that can be seamlessly trained on both Vision-Language Navigation (VLN) and Navigation from Dialog History (NDH) tasks, which benefits from richer natural language guidance and effectively transfers knowledge across tasks; (2) we propose to learn environment-agnostic representations for the navigation policy that are invariant among the environments seen during training, thus generalizing better on unseen environments. Extensive experiments show that environment-agnostic multitask learning significantly reduces the performance gap between seen and unseen environments, and the navigation agent trained so outperforms baselines on unseen environments by 16% (relative measure on success rate) on VLN and 120% (goal progress) on NDH. Our submission to the CVDN leaderboard establishes a new state-of-the-art for the NDH task on the holdout test set. Code is available at https://github.com/google-research/valan.
翻訳日:2022-12-27 12:38:54 公開日:2020-07-21
# GANwriting:手書き文字画像のコンテンツ記述型生成

GANwriting: Content-Conditioned Generation of Styled Handwritten Word Images ( http://arxiv.org/abs/2003.02567v2 )

ライセンス: Link先を確認
Lei Kang, Pau Riba, Yaxing Wang, Mar\c{c}al Rusi\~nol, Alicia Forn\'es and Mauricio Villegas(参考訳) 現在の画像生成手法は印象的な品質レベルに達しているが、手書きの単語の多種多様な画像を生成することはできない。 反対に、手で書く場合、異なる作家間で大きな変動が観察され、同じ個人によって書き起こされた単語を分析しても、不随意の変動は目立たない。 本研究は, 現実的かつ多様な手書き文字を生成するための一歩を踏み出したものである。 書体スタイルの特徴とテキストコンテンツの両方で生成過程を条件付けることにより,信頼できる手書きの単語画像を生成する新しい手法を提案する。 本生成装置は,現実的な画像の生成,特定の手書きスタイルの模倣,特定のテキスト内容の伝達という,3つの補完的な学習目標によって誘導される。 我々のモデルは事前に定義された語彙に制約されず、任意の入力語を描画することができる。 サンプルライターが与えられたら、数ショットのセットアップでその書体機能を模倣することもできる。 先行技術を大きく進歩させ, 合成画像の現実的な側面を質的, 定量的, 人為的評価で実証した。

Although current image generation methods have reached impressive quality levels, they are still unable to produce plausible yet diverse images of handwritten words. On the contrary, when writing by hand, a great variability is observed across different writers, and even when analyzing words scribbled by the same individual, involuntary variations are conspicuous. In this work, we take a step closer to producing realistic and varied artificially rendered handwritten words. We propose a novel method that is able to produce credible handwritten word images by conditioning the generative process with both calligraphic style features and textual content. Our generator is guided by three complementary learning objectives: to produce realistic images, to imitate a certain handwriting style and to convey a specific textual content. Our model is unconstrained to any predefined vocabulary, being able to render whatever input word. Given a sample writer, it is also able to mimic its calligraphic features in a few-shot setup. We significantly advance over prior art and demonstrate with qualitative, quantitative and human-based evaluations the realistic aspect of our synthetically produced images.
翻訳日:2022-12-26 07:18:42 公開日:2020-07-21
# f-divergence最小化による深層エネルギーモデル学習

Training Deep Energy-Based Models with f-Divergence Minimization ( http://arxiv.org/abs/2003.03463v2 )

ライセンス: Link先を確認
Lantao Yu, Yang Song, Jiaming Song, Stefano Ermon(参考訳) 深部エネルギーベースモデル (EBMs) は分布パラメトリゼーションにおいて非常に柔軟であるが、計算的に困難である。 それらは典型的には、データとモデル分布の間のKL偏差の勾配を近似するために、対照的な偏差を用いて、最大可能性で訓練される。 klの発散は多くの望ましい性質を持つが、他のf-divergencesは生成逆ネットワークのような暗黙の密度生成モデルの訓練において利点を示している。 本稿では, f-EBM と呼ばれる一般的な変分フレームワークを提案し, 所望の f-divergence を用いて EBM を訓練する。 対応する最適化アルゴリズムを導入し,その局所収束特性を非線形力学系理論で証明する。 実験の結果,F-EBMは対照的なばらつきよりも優れており,KL以外のf-divergencesを用いたEBMの訓練の利点も示された。

Deep energy-based models (EBMs) are very flexible in distribution parametrization but computationally challenging because of the intractable partition function. They are typically trained via maximum likelihood, using contrastive divergence to approximate the gradient of the KL divergence between data and model distribution. While KL divergence has many desirable properties, other f-divergences have shown advantages in training implicit density generative models such as generative adversarial networks. In this paper, we propose a general variational framework termed f-EBM to train EBMs using any desired f-divergence. We introduce a corresponding optimization algorithm and prove its local convergence property with non-linear dynamical systems theory. Experimental results demonstrate the superiority of f-EBM over contrastive divergence, as well as the benefits of training EBMs using f-divergences other than KL.
翻訳日:2022-12-26 00:53:56 公開日:2020-07-21
# 弱と強勾配方向: 大規模事例の記憶、一般化、硬さを説明する

Weak and Strong Gradient Directions: Explaining Memorization, Generalization, and Hardness of Examples at Scale ( http://arxiv.org/abs/2003.07422v2 )

ライセンス: Link先を確認
Piotr Zielinski, Shankar Krishnan, Satrajit Chatterjee(参考訳) コヒーレント勾配 (coherent gradients, cgh) は、勾配降下で訓練された過パラメータニューラルネットワークが、トレーニングセットを記憶するのに十分な能力を持つにもかかわらず、うまく一般化する理由を説明するために最近提案された仮説である。 CGHの重要な洞察は、SGDの1ステップの全体的な勾配は、例ごとの勾配の和であるので、そのような方向が存在する場合の複数の例における損失を減少させる方向において最強であるということである。 本稿では,イメージネット上でのResNet,Inception,VGGモデルのCGHを検証する。 本論文では,おもちゃのモデルやデータセットを超えてスケールしないため,新しい手法を提案する。 平均推定のロバストな問題として弱勾配方向を抑圧する問題を定式化し,平均アプローチの座標ベースの中央値を開発した。 このアルゴリズムの2つのバージョン、m3(ミニバッチを3つのグループに分けて中央値を計算する)と、以前の2つの時間ステップからの勾配を再利用して中央値を計算するより効率的なバージョンrm3(rm3)を示す。 サンプル毎の勾配を必要とせず、弱い勾配方向を抑制するため、スケールでのモデルのトレーニングに使用できる。 実験により, CGHが大規模に保持されていることを示す最初の証拠として, オーバーフィッティング(および記憶)を大幅に削減できることが判明した。 また,トレーニングラベルに雑音を加えるか,勾配の弱い方向を抑えるかに依存しないCGHの新しい試験を提案する。 cghの背後にある直観を用いて、トレーニングプロセスの初期に学んだ例(すなわち「簡単な」例)が、他のトレーニング例と正確に共通点を持つものであることを仮定する。 したがって、cgh によれば、簡単な例は自身の中の難しい例よりも、自身でより一般化すべきである。 我々は、この仮説を詳細な実験で検証し、CGHのさらなる直交的証拠を提供すると考えている。

Coherent Gradients (CGH) is a recently proposed hypothesis to explain why over-parameterized neural networks trained with gradient descent generalize well even though they have sufficient capacity to memorize the training set. The key insight of CGH is that, since the overall gradient for a single step of SGD is the sum of the per-example gradients, it is strongest in directions that reduce the loss on multiple examples if such directions exist. In this paper, we validate CGH on ResNet, Inception, and VGG models on ImageNet. Since the techniques presented in the original paper do not scale beyond toy models and datasets, we propose new methods. By posing the problem of suppressing weak gradient directions as a problem of robust mean estimation, we develop a coordinate-based median of means approach. We present two versions of this algorithm, M3, which partitions a mini-batch into 3 groups and computes the median, and a more efficient version RM3, which reuses gradients from previous two time steps to compute the median. Since they suppress weak gradient directions without requiring per-example gradients, they can be used to train models at scale. Experimentally, we find that they indeed greatly reduce overfitting (and memorization) and thus provide the first convincing evidence that CGH holds at scale. We also propose a new test of CGH that does not depend on adding noise to training labels or on suppressing weak gradient directions. Using the intuition behind CGH, we posit that the examples learned early in the training process (i.e., "easy" examples) are precisely those that have more in common with other training examples. Therefore, as per CGH, the easy examples should generalize better amongst themselves than the hard examples amongst themselves. We validate this hypothesis with detailed experiments, and believe that it provides further orthogonal evidence for CGH.
翻訳日:2022-12-23 02:47:44 公開日:2020-07-21
# 順序付き関数決定図:二項決定図の関数意味論

Ordered Functional Decision Diagrams: A Functional Semantics For Binary Decision Diagrams ( http://arxiv.org/abs/2003.09340v4 )

ライセンス: Link先を確認
Joan Thibault and Khalil Ghorbal(参考訳) 我々は、純粋に機能的な観点からバイナリ決定ダイアグラムを再検討する、$\lambda$DDと呼ばれる新しいフレームワークを紹介します。 このフレームワークは、Chain-DDやESRBDDなど、既存のバリエーションを特別な順序付きモデルのクラスの実装として分類することができる。 原則的に、このクラスのすべてのモデルを列挙し、最も表現力のあるモデルを分離する。 この新しいモデルは$\lambda$dd-o-nucxと呼ばれ、密度関数とスパースブール関数の両方に適しているが、さらに否定によって不変である。 \lambda$dd-o-nucx のキャノニティは coq 証明アシスタントを用いて正式に検証される。 より表現力のあるモデルによって得られる潜在的な利得は、変数 n の個数において最大に線形である。

We introduce a novel framework, termed $\lambda$DD, that revisits Binary Decision Diagrams from a purely functional point of view. The framework allows to classify the already existing variants, including the most recent ones like Chain-DD and ESRBDD, as implementations of a special class of ordered models. We enumerate, in a principled way, all the models of this class and isolate its most expressive model. This new model, termed $\lambda$DD-O-NUCX, is suitable for both dense and sparse Boolean functions, and is moreover invariant by negation. The canonicity of $\lambda$DD-O-NUCX is formally verified using the Coq proof assistant. We furthermore give bounds on the size of the different diagrams: the potential gain achieved by more expressive models can be at most linear in the number of variables n.
翻訳日:2022-12-21 23:02:58 公開日:2020-07-21
# 細粒度視覚分類のためのマルチブランチ・マルチスケール注意学習

Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization ( http://arxiv.org/abs/2003.09150v3 )

ライセンス: Link先を確認
Fan Zhang, Meng Li, Guisheng Zhai, Yizhao Liu(参考訳) ImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、近年のコンピュータビジョン(CV)分野における最も権威ある学術コンペティションの1つである。 しかし、ILSVRCの年次チャンピオンを細粒度視覚分類(FGVC)タスクに直接適用しても性能は良くない。 FGVCタスクでは、クラス間の小さなバリエーションとクラス間の大きなバリエーションが問題となる。 我々の注目オブジェクト配置モジュール(AOLM)は、オブジェクトの位置を予測でき、注目部分提案モジュール(APPM)は、バウンディングボックスや部分アノテーションを必要とせずに、情報的部分領域を提案することができる。 得られたオブジェクト画像は、オブジェクトのほぼ全体を包含するだけでなく、さらに詳細を包含し、部分画像は、多くの異なるスケールとより細かな特徴を有し、生画像は、完全なオブジェクトを含む。 3種類のトレーニング画像はマルチブランチネットワークによって監視されます。 したがって、我々のマルチブランチ・マルチスケール学習ネットワーク(MMAL-Net)は、異なるスケールの画像に対して優れた分類能力と堅牢性を有する。 このアプローチはエンドツーエンドでトレーニングでき、短い推論時間を提供します。 CUB-200-2011、FGVC-Aircraft、Stanford Carsのデータセット上で、我々のアプローチが最先端の結果が得られることを示す。 私たちのコードはhttps://github.com/ZF1044404254/MMAL-Netで公開されます。

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) is one of the most authoritative academic competitions in the field of Computer Vision (CV) in recent years. But applying ILSVRC's annual champion directly to fine-grained visual categorization (FGVC) tasks does not achieve good performance. To FGVC tasks, the small inter-class variations and the large intra-class variations make it a challenging problem. Our attention object location module (AOLM) can predict the position of the object and attention part proposal module (APPM) can propose informative part regions without the need of bounding-box or part annotations. The obtained object images not only contain almost the entire structure of the object, but also contains more details, part images have many different scales and more fine-grained features, and the raw images contain the complete object. The three kinds of training images are supervised by our multi-branch network. Therefore, our multi-branch and multi-scale learning network(MMAL-Net) has good classification ability and robustness for images of different scales. Our approach can be trained end-to-end, while provides short inference time. Through the comprehensive experiments demonstrate that our approach can achieves state-of-the-art results on CUB-200-2011, FGVC-Aircraft and Stanford Cars datasets. Our code will be available at https://github.com/ZF1044404254/MMAL-Net
翻訳日:2022-12-21 22:25:46 公開日:2020-07-21
# 敵対的連続学習

Adversarial Continual Learning ( http://arxiv.org/abs/2003.09553v2 )

ライセンス: Link先を確認
Sayna Ebrahimi, Franziska Meier, Roberto Calandra, Trevor Darrell, Marcus Rohrbach(参考訳) 継続的学習は、学習済みのタスクを忘れずに新しいタスクを学ぶことを目的としている。 我々は、各タスクをシーケンスで解くために学習した表現が、タスク固有の性質を包含しながら共有構造を持つことを仮定する。 共有機能は忘れやすいことを示し、タスクのシーケンスを解決するのに必要なタスク不変性とタスク固有の特徴の非結合表現を学習する、新しいハイブリッド連続学習フレームワークを提案する。 本モデルは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。 画像分類における複数のデータセットのシーケンスだけでなく、1つのデータセットの漸進的学習におけるアーキテクチャベースのアプローチとメモリベースのアプローチの両方よりも優れていることを示す。 私たちのコードは \url{https://github.com/facebookresearch/Adversarial-Continual-Learning} で利用可能です。

Continual learning aims to learn new tasks without forgetting previously learned ones. We hypothesize that representations learned to solve each task in a sequence have a shared structure while containing some task-specific properties. We show that shared features are significantly less prone to forgetting and propose a novel hybrid continual learning framework that learns a disjoint representation for task-invariant and task-specific features required to solve a sequence of tasks. Our model combines architecture growth to prevent forgetting of task-specific skills and an experience replay approach to preserve shared skills. We demonstrate our hybrid approach is effective in avoiding forgetting and show it is superior to both architecture-based and memory-based approaches on class incrementally learning of a single dataset as well as a sequence of multiple datasets in image classification. Our code is available at \url{https://github.com/facebookresearch/Adversarial-Continual-Learning}.
翻訳日:2022-12-21 10:17:21 公開日:2020-07-21
# 動物を駆使したアジャイルロボットのロコモーションスキルの学習

Learning Agile Robotic Locomotion Skills by Imitating Animals ( http://arxiv.org/abs/2004.00784v3 )

ライセンス: Link先を確認
Xue Bin Peng, Erwin Coumans, Tingnan Zhang, Tsang-Wei Lee, Jie Tan, Sergey Levine(参考訳) 動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。 手動で設計したコントローラは多くの複雑な動作をエミュレートできるが、このようなコントローラの構築には時間がかかり、開発プロセスが困難で、各スキルのニュアンスに十分な専門知識を必要とすることが多い。 強化学習は、コントローラの開発に関わる手動作業を自動化するための魅力的な代替手段を提供する。 しかし、エージェントから望ましい行動を引き出す学習目標を設計するには、多くのスキル固有の専門知識が必要である。 本研究では,実世界の動物を模倣して,足のロボットがアジャイルな運動スキルを習得できる模擬学習システムを提案する。 本研究では,レファレンス動作データを活用することで,脚型ロボットの多種多様なレパートリー動作に対するコントローラの自動合成を実現する。 サンプル効率の良いドメイン適応手法をトレーニングプロセスに組み込むことで,本システムは実世界の展開に迅速に適応できるシミュレーションの適応ポリシーを学習することができる。 システムの有効性を実証するため,我々は18-DoF四足歩行ロボットを訓練し,異なる移動歩行から動的ホップ,ターンに至るまで,様々なアジャイル行動を実行する。

Reproducing the diverse and agile locomotion skills of animals has been a longstanding challenge in robotics. While manually-designed controllers have been able to emulate many complex behaviors, building such controllers involves a time-consuming and difficult development process, often requiring substantial expertise of the nuances of each skill. Reinforcement learning provides an appealing alternative for automating the manual effort involved in the development of controllers. However, designing learning objectives that elicit the desired behaviors from an agent can also require a great deal of skill-specific expertise. In this work, we present an imitation learning system that enables legged robots to learn agile locomotion skills by imitating real-world animals. We show that by leveraging reference motion data, a single learning-based approach is able to automatically synthesize controllers for a diverse repertoire behaviors for legged robots. By incorporating sample efficient domain adaptation techniques into the training process, our system is able to learn adaptive policies in simulation that can then be quickly adapted for real-world deployment. To demonstrate the effectiveness of our system, we train an 18-DoF quadruped robot to perform a variety of agile behaviors ranging from different locomotion gaits to dynamic hops and turns.
翻訳日:2022-12-17 13:13:00 公開日:2020-07-21
# 風速と太陽放射モデルを用いた時系列予測のためのテストベンチとしてのrパッケージ予測tb

ForecastTB An R Package as a Test-Bench for Time Series Forecasting Application of Wind Speed and Solar Radiation Modeling ( http://arxiv.org/abs/2004.01893v2 )

ライセンス: Link先を確認
Neeraj Dhanraj Bokde and Zaher Mundher Yaseen and Gorm Bruun Andersen(参考訳) 本稿では,時系列データセットの特徴と異なる予測手法の精度を比較するために使用できるRパッケージForecastTBを提案する。 ForecastTBはプラグアンドプレイの構造化モジュールであり、いくつかの予測方法に単純な命令を含めることができる。 提案するtest-benchは、デフォルトの予測とエラーメトリック関数に限定されず、ユーザは要求に応じて必要なメソッドを追加、削除、あるいは選択することができる。 さらに、異なる予測手法の比較性能と精度を可視化するために、いくつかのプロット関数と統計性能指標が提供される。 さらに,本論文では,自然時系列データセット(風速と太陽放射)を用いた実例を用いて,ForecastTBパッケージの特徴を示すとともに,データセットの特性に左右される予測比較分析を評価する。 モデル化の結果、時系列予測におけるRパッケージForecastTBの適用性とロバスト性を示した。

This paper introduces an R package ForecastTB that can be used to compare the accuracy of different forecasting methods as related to the characteristics of a time series dataset. The ForecastTB is a plug-and-play structured module, and several forecasting methods can be included with simple instructions. The proposed test-bench is not limited to the default forecasting and error metric functions, and users are able to append, remove, or choose the desired methods as per requirements. Besides, several plotting functions and statistical performance metrics are provided to visualize the comparative performance and accuracy of different forecasting methods. Furthermore, this paper presents real application examples with natural time series datasets (i.e., wind speed and solar radiation) to exhibit the features of the ForecastTB package to evaluate forecasting comparison analysis as affected by the characteristics of a dataset. Modeling results indicated the applicability and robustness of the proposed R package ForecastTB for time series forecasting.
翻訳日:2022-12-16 22:53:30 公開日:2020-07-21
# Deep-COVID: 深層移動学習を用いた胸部X線画像からのCOVID-19予測

Deep-COVID: Predicting COVID-19 From Chest X-Ray Images Using Deep Transfer Learning ( http://arxiv.org/abs/2004.09363v3 )

ライセンス: Link先を確認
Shervin Minaee, Rahele Kafieh, Milan Sonka, Shakib Yazdani, Ghazaleh Jamalipour Soufi(参考訳) 新型コロナウイルス(COVID-19)は世界の150カ国以上で大流行を起こしており、世界中の多くの人々の健康や生活に深刻な影響を与えている。 新型コロナウイルスと戦う上で重要なステップの1つは、感染した患者を十分に早期に検出し、特別に治療する能力だ。 放射線画像や放射線画像からこの病気を検出することは、おそらく患者を診断する最速の方法の1つである。 初期の研究では、新型コロナウイルスに感染した患者の胸部X線写真に特定の異常が認められた。 これまでの研究に触発されて,深層学習モデルを用いて胸部x線画像から新型コロナウイルスの患者を検出する方法を検討した。 まず、公開データセットから5000個のChest X線のデータセットを作成します。 新型コロナウイルス(COVID-19)の感染を示す画像は、放射線検査官によって確認された。 resnet18, resnet50, squeezenet, densenet-121の4つの一般的な畳み込みニューラルネットワークを訓練し、解析された胸部x線画像から新型コロナウイルスの疾患を同定した。 残りの3000枚の画像からこれらのモデルを評価したところ、ほとんどのネットワークは感度が98%(\pm$ 3%)で、特異性は約90%であった。 感度と特異性率の他に,各モデルの受信者動作特性(roc)曲線,精度リコール曲線,平均予測,混乱行列も提示する。 我々はまた、新型コロナウイルスに感染する可能性のある肺領域のヒートマップを生成する技術を用いて、生成したヒートマップが、当社の認定放射線科医によって注釈された感染領域のほとんどを含むことを示す。 達成された性能は極めて高いが、より信頼性の高い精度推定を行うために、より大規模なcovid-19画像に対してさらなる分析が必要である。 データセット、モデル実装(PyTorch)、評価はすべて、https://github.com/shervinmin/DeepCovid.gitで研究コミュニティ向けに公開されている。

The COVID-19 pandemic is causing a major outbreak in more than 150 countries around the world, having a severe impact on the health and life of many people globally. One of the crucial step in fighting COVID-19 is the ability to detect the infected patients early enough, and put them under special care. Detecting this disease from radiography and radiology images is perhaps one of the fastest ways to diagnose the patients. Some of the early studies showed specific abnormalities in the chest radiograms of patients infected with COVID-19. Inspired by earlier works, we study the application of deep learning models to detect COVID-19 patients from their chest radiography images. We first prepare a dataset of 5,000 Chest X-rays from the publicly available datasets. Images exhibiting COVID-19 disease presence were identified by board-certified radiologist. Transfer learning on a subset of 2,000 radiograms was used to train four popular convolutional neural networks, including ResNet18, ResNet50, SqueezeNet, and DenseNet-121, to identify COVID-19 disease in the analyzed chest X-ray images. We evaluated these models on the remaining 3,000 images, and most of these networks achieved a sensitivity rate of 98% ($\pm$ 3%), while having a specificity rate of around 90%. Besides sensitivity and specificity rates, we also present the receiver operating characteristic (ROC) curve, precision-recall curve, average prediction, and confusion matrix of each model. We also used a technique to generate heatmaps of lung regions potentially infected by COVID-19 and show that the generated heatmaps contain most of the infected areas annotated by our board certified radiologist. While the achieved performance is very encouraging, further analysis is required on a larger set of COVID-19 images, to have a more reliable estimation of accuracy rates. The dataset, model implementations (in PyTorch), and evaluations, are all made publicly available for research community at https://github.com/shervinmin/DeepCovid.git
翻訳日:2022-12-11 18:58:01 公開日:2020-07-21
# 微調整深層ニューラルネットワークを用いた胸部x線画像制限によるcovid-19自動診断

Automated diagnosis of COVID-19 with limited posteroanterior chest X-ray images using fine-tuned deep neural networks ( http://arxiv.org/abs/2004.11676v5 )

ライセンス: Link先を確認
Narinder Singh Punn and Sonali Agarwal(参考訳) 新型コロナウイルス(COVID-19)は肺炎に似た呼吸器症候群である。 現在のcovid-19診断手順はrt-pcr(reverse-transcriptase polymerase chain reaction)に基づくアプローチだが、初期の段階ではウイルスの同定には感受性が低い。 したがって、より堅牢で代替的な診断技術が望ましい。 近年,ct(ct)および胸部x線(cxr)画像を用いたコロナ陽性患者の一般公開データセットが公開され,科学者,研究者,医療専門家が,より優れた治療と治療を達成するために深層学習アプローチを用いて肺感染症を同定することにより,covid-19の迅速かつ自動診断に寄与している。 これらのデータセットには、新型コロナウイルスの陽性例に関するサンプルが限られており、偏りのない学習の難しさが浮き彫りになっている。 本稿では, 基礎となるResNet, Inception-v3, Inception ResNet-v2, DenseNet169, NASNetLargeといった最先端の深層学習アプローチにおいて, ランダムなオーバーサンプリングと重み付きクラス損失関数アプローチを用いて, 後部CXR画像の2値分類(正常およびCOVID-19例, 肺炎, 正常例)と多値分類(COVID-19例, 正常例)を行う。 曲線(AUC)下の精度、精度、リコール、損失、面積を利用して、モデルの性能を評価する。 実験結果を考えると、各モデルの性能はシナリオに依存するが、nasnetlargeは他のアーキテクチャと比べて優れたスコアを示しており、これは最近提案された他のアプローチとさらに比較される。 本稿は、CXR画像におけるモデル分類と新型コロナウイルスの認識の基礎を説明するための視覚的説明も加えた。

The novel coronavirus 2019 (COVID-19) is a respiratory syndrome that resembles pneumonia. The current diagnostic procedure of COVID-19 follows reverse-transcriptase polymerase chain reaction (RT-PCR) based approach which however is less sensitive to identify the virus at the initial stage. Hence, a more robust and alternate diagnosis technique is desirable. Recently, with the release of publicly available datasets of corona positive patients comprising of computed tomography (CT) and chest X-ray (CXR) imaging; scientists, researchers and healthcare experts are contributing for faster and automated diagnosis of COVID-19 by identifying pulmonary infections using deep learning approaches to achieve better cure and treatment. These datasets have limited samples concerned with the positive COVID-19 cases, which raise the challenge for unbiased learning. Following from this context, this article presents the random oversampling and weighted class loss function approach for unbiased fine-tuned learning (transfer learning) in various state-of-the-art deep learning approaches such as baseline ResNet, Inception-v3, Inception ResNet-v2, DenseNet169, and NASNetLarge to perform binary classification (as normal and COVID-19 cases) and also multi-class classification (as COVID-19, pneumonia, and normal case) of posteroanterior CXR images. Accuracy, precision, recall, loss, and area under the curve (AUC) are utilized to evaluate the performance of the models. Considering the experimental results, the performance of each model is scenario dependent; however, NASNetLarge displayed better scores in contrast to other architectures, which is further compared with other recently proposed approaches. This article also added the visual explanation to illustrate the basis of model classification and perception of COVID-19 in CXR images.
翻訳日:2022-12-10 09:28:18 公開日:2020-07-21
# 3D-CVF:3Dオブジェクト検出のためのクロスビュー空間特徴融合を用いた関節カメラとLiDARの特徴生成

3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection ( http://arxiv.org/abs/2004.12636v2 )

ライセンス: Link先を確認
Jin Hyeok Yoo and Yecheol Kim and Jisong Kim and Jun Won Choi(参考訳) 本稿では,3次元物体検出のためのカメラとLiDARセンサを融合する新しい深層アーキテクチャを提案する。 カメラとLiDARセンサ信号は特性や分布が異なるため,これら2つのモードを融合させることで,3次元物体検出の精度と堅牢性の向上が期待できる。 カメラとLiDARの融合による課題の1つは、各モダリティから得られる空間特徴写像が、カメラと世界座標において著しく異なる視点で表現されることであり、情報を失うことなく2つの異種特徴写像を組み合わせることは容易ではない。 そこで本稿では,クロスビュー空間的特徴融合手法を用いて,カメラとライダーを組み合わせる3d-cvf方式を提案する。 まず、自動校正投影を用いて、2Dカメラの特徴を鳥の視線(BEV)領域におけるLiDAR特徴に最も対応したスムーズな空間特徴写像に変換する。 次に、ゲート機能融合ネットワークを適用し、空間アテンションマップを用いてカメラとLiDAR特徴を領域に応じて適切に混合する。 次に、カメラ-LiDAR機能融合が、その後の改良段階で達成される。 カメラ機能は、3D RoIグリッドプーリングを通じて2Dカメラビュードメインから使用され、提案の改良のためにBEV機能と融合している。 KITTIとnuScenesの3Dオブジェクト検出データセットを用いて評価したところ、カメラ-LiDAR融合は単一モードよりも大きな性能向上を示し、提案した3D-CVFはKITTIベンチマークで最先端のパフォーマンスを達成することが示された。

In this paper, we propose a new deep architecture for fusing camera and LiDAR sensors for 3D object detection. Because the camera and LiDAR sensor signals have different characteristics and distributions, fusing these two modalities is expected to improve both the accuracy and robustness of 3D object detection. One of the challenges presented by the fusion of cameras and LiDAR is that the spatial feature maps obtained from each modality are represented by significantly different views in the camera and world coordinates; hence, it is not an easy task to combine two heterogeneous feature maps without loss of information. To address this problem, we propose a method called 3D-CVF that combines the camera and LiDAR features using the cross-view spatial feature fusion strategy. First, the method employs auto-calibrated projection, to transform the 2D camera features to a smooth spatial feature map with the highest correspondence to the LiDAR features in the bird's eye view (BEV) domain. Then, a gated feature fusion network is applied to use the spatial attention maps to mix the camera and LiDAR features appropriately according to the region. Next, camera-LiDAR feature fusion is also achieved in the subsequent proposal refinement stage. The camera feature is used from the 2D camera-view domain via 3D RoI grid pooling and fused with the BEV feature for proposal refinement. Our evaluations, conducted on the KITTI and nuScenes 3D object detection datasets demonstrate that the camera-LiDAR fusion offers significant performance gain over single modality and that the proposed 3D-CVF achieves state-of-the-art performance in the KITTI benchmark.
翻訳日:2022-12-09 05:01:59 公開日:2020-07-21
# ニューラルヘアレンダリング

Neural Hair Rendering ( http://arxiv.org/abs/2004.13297v2 )

ライセンス: Link先を確認
Menglei Chai, Jian Ren, Sergey Tulyakov(参考訳) 本稿では,仮想3Dヘアモデルから写真リアルな画像を合成できる汎用的なニューラルベースヘアレンダリングパイプラインを提案する。 実画像と偽画像の両方の一貫した構造表現を維持するためにモデルレベルの類似性を必要とする既存の教師付き翻訳法とは異なり、任意の毛髪モデルを扱うために教師なしのソリューションを採用する。 提案手法の鍵となる構成要素は、両領域の外観不変構造情報を符号化する共有潜在空間であり、余分な外観入力によって条件付けられたリアルなレンダリングを生成する。 これは、ドメイン特化前乱れ構造表現、部分共用領域エンコーダ層、構造判別器によって達成される。 また,ビデオシーケンス生成の一貫性を強制する簡易かつ効果的な時間条件付け手法を提案する。 本手法は,多数のポートレートでテストし,代替ベースラインや最先端の教師なし画像翻訳手法と比較することにより,その優位性を実証する。

In this paper, we propose a generic neural-based hair rendering pipeline that can synthesize photo-realistic images from virtual 3D hair models. Unlike existing supervised translation methods that require model-level similarity to preserve consistent structure representation for both real images and fake renderings, our method adopts an unsupervised solution to work on arbitrary hair models. The key component of our method is a shared latent space to encode appearance-invariant structure information of both domains, which generates realistic renderings conditioned by extra appearance inputs. This is achieved by domain-specific pre-disentangled structure representation, partially shared domain encoder layers and a structure discriminator. We also propose a simple yet effective temporal conditioning method to enforce consistency for video sequence generation. We demonstrate the superiority of our method by testing it on a large number of portraits and comparing it with alternative baselines and state-of-the-art unsupervised image translation methods.
翻訳日:2022-12-08 23:18:28 公開日:2020-07-21
# 感性分析におけるカリキュラム学習のためのSentiWordNet戦略

A SentiWordNet Strategy for Curriculum Learning in Sentiment Analysis ( http://arxiv.org/abs/2005.04749v2 )

ライセンス: Link先を確認
Vijjini Anvesh Rao, Kaveri Anuranjana and Radhika Mamidi(参考訳) カリキュラム学習(cl)は、サンプルが容易から難しいものまで、順序付けされたり順序付けされたトレーニングセットで学習することで、ランダムな順序付けよりもパフォーマンスが向上するという考えである。 このアイデアは、人間の脳がどのように学習するかという認知科学の理論と平行であり、難しいタスクの学習は、それを簡単で難しいタスクのシーケンスとして記述することでより容易になる。 このアイデアは、機械学習と画像処理において、最近までNatural Language Processing(NLP)において、多くの注目を集めてきた。 本稿では,SentiWordNetが推進するカリキュラム学習の考え方を感情分析に応用する。 この設定では、テキストセグメントが与えられた場合、その感情や極性を抽出することを目的としています。 SentiWordNetは感情極性アノテーションを備えた語彙リソースである。 成績を他のカリキュラム戦略と比較し,カリキュラムなしで,提案手法の有効性を示す。 この改善を評価するために畳み込み、再帰、注意に基づくアーキテクチャが採用されている。 モデルは標準の感情データセットであるStanford Sentiment Treebankで評価される。

Curriculum Learning (CL) is the idea that learning on a training set sequenced or ordered in a manner where samples range from easy to difficult, results in an increment in performance over otherwise random ordering. The idea parallels cognitive science's theory of how human brains learn, and that learning a difficult task can be made easier by phrasing it as a sequence of easy to difficult tasks. This idea has gained a lot of traction in machine learning and image processing for a while and recently in Natural Language Processing (NLP). In this paper, we apply the ideas of curriculum learning, driven by SentiWordNet in a sentiment analysis setting. In this setting, given a text segment, our aim is to extract its sentiment or polarity. SentiWordNet is a lexical resource with sentiment polarity annotations. By comparing performance with other curriculum strategies and with no curriculum, the effectiveness of the proposed strategy is presented. Convolutional, Recurrence, and Attention-based architectures are employed to assess this improvement. The models are evaluated on a standard sentiment dataset, Stanford Sentiment Treebank.
翻訳日:2022-12-05 01:46:14 公開日:2020-07-21
# 2分で生き生きとした肖像画を描くロボット

Making Robots Draw A Vivid Portrait In Two Minutes ( http://arxiv.org/abs/2005.05526v3 )

ライセンス: Link先を確認
Fei Gao, Jingjie Zhu, Zeyuan Yu, Peng Li, Tao Wang(参考訳) 芸術的なロボットで重要な進歩を遂げた。 しかし、既存のロボットは短期間で高品質な肖像画を作ることができない。 そこで本研究では,顔の絵を自動的に鮮明な肖像画に転送し,それを平均2分以内に紙に描画する描画ロボットを提案する。 我々のシステムの中心は、ディープラーニングに基づく新しい肖像画合成アルゴリズムである。 革新的なことに,本アルゴリズムでは,連続的かつ円滑なブラシストロークを生成することができる自己抵抗損失を用いる。 また,不特定領域のブラシストローク数を減らすための成分スパルシリティ制約を提案する。 また,局所的なスケッチ合成アルゴリズムと,背景や詳細を扱う前処理および後処理技術も実装した。 本アルゴリズムは, 連続ブラシストロークのスパースセットを用いて, 個々の特徴を抽出する。 最後に、肖像画は一連の軌道に変換され、3自由度ロボットアームによって再生される。 肖像画を描くロボットシステムはすべてaisketcherと名付けられた。 大規模な実験により、AiSketcherは、任意のコンテンツの顔や普遍的な画像を含む幅広い画像に対して、かなり高品質なスケッチを作成できることが示されている。 われわれの知る限り、AiSketcherはニューラルスタイルの転送技術を使った最初の肖像画ロボットだ。 AiSketcherは多くの展覧会に参加し、様々な状況下で顕著なパフォーマンスを示した。

Significant progress has been made with artistic robots. However, existing robots fail to produce high-quality portraits in a short time. In this work, we present a drawing robot, which can automatically transfer a facial picture to a vivid portrait, and then draw it on paper within two minutes averagely. At the heart of our system is a novel portrait synthesis algorithm based on deep learning. Innovatively, we employ a self-consistency loss, which makes the algorithm capable of generating continuous and smooth brush-strokes. Besides, we propose a componential sparsity constraint to reduce the number of brush-strokes over insignificant areas. We also implement a local sketch synthesis algorithm, and several pre- and post-processing techniques to deal with the background and details. The portrait produced by our algorithm successfully captures individual characteristics by using a sparse set of continuous brush-strokes. Finally, the portrait is converted to a sequence of trajectories and reproduced by a 3-degree-of-freedom robotic arm. The whole portrait drawing robotic system is named AiSketcher. Extensive experiments show that AiSketcher can produce considerably high-quality sketches for a wide range of pictures, including faces in-the-wild and universal images of arbitrary content. To our best knowledge, AiSketcher is the first portrait drawing robot that uses neural style transfer techniques. AiSketcher has attended a quite number of exhibitions and shown remarkable performance under diverse circumstances.
翻訳日:2022-12-03 19:34:44 公開日:2020-07-21
# どう聞こえるか? 音声生成と深層学習を用いた多言語 SpokenName2Vec アルゴリズム

How Does That Sound? Multi-Language SpokenName2Vec Algorithm Using Speech Generation and Deep Learning ( http://arxiv.org/abs/2005.11838v2 )

ライセンス: Link先を確認
Aviad Elyashar, Rami Puzis, Michael Fire(参考訳) 特定の人物に関する情報を探すことは、多くのユーザーが頻繁に行うオンライン活動である。 ほとんどの場合、ユーザは名前を含むクエリに助けられ、自分の意志を見つけるためにWeb検索エンジンに送信される。 通常、Web検索エンジンは、名前を含むクエリに関連するいくつかの正確な結果を提供する。 現在、オンライン検索における同義語を提案するソリューションのほとんどはパターンマッチングと音声エンコーディングに基づいているが、そのようなソリューションのパフォーマンスは最適ではないことが多い。 本稿では,音声の自動生成による類似名提案問題に対処する新規で汎用的なアプローチである SpokenName2Vec と,音声名埋め込みの深層学習を提案する。 この洗練された革新的な埋め込みは、人々がどんな言語でも名前やアクセントを発音する方法を捉えている。 名前の発音を利用すると、似た名前の区別と検出の両方に役立ちますが、異なる書き方をします。 提案手法は,25万のフォアネームからなる大規模データセットを用いて,機械学習分類器と7,399名の同義語を用いた評価を行った。 提案手法の性能は,よく使われている音素・文字列の類似性アルゴリズムや最近提案された2つのアルゴリズムなど,他の10のアルゴリズムよりも優れていることが判明した。 その結果,提案手法は類似名提案問題の解決に有用かつ有用なツールである可能性が示唆された。

Searching for information about a specific person is an online activity frequently performed by many users. In most cases, users are aided by queries containing a name and sending back to the web search engines for finding their will. Typically, Web search engines provide just a few accurate results associated with a name-containing query. Currently, most solutions for suggesting synonyms in online search are based on pattern matching and phonetic encoding, however very often, the performance of such solutions is less than optimal. In this paper, we propose SpokenName2Vec, a novel and generic approach which addresses the similar name suggestion problem by utilizing automated speech generation, and deep learning to produce spoken name embeddings. This sophisticated and innovative embeddings captures the way people pronounce names in any language and accent. Utilizing the name pronunciation can be helpful for both differentiating and detecting names that sound alike, but are written differently. The proposed approach was demonstrated on a large-scale dataset consisting of 250,000 forenames and evaluated using a machine learning classifier and 7,399 names with their verified synonyms. The performance of the proposed approach was found to be superior to 10 other algorithms evaluated in this study, including well used phonetic and string similarity algorithms, and two recently proposed algorithms. The results obtained suggest that the proposed approach could serve as a useful and valuable tool for solving the similar name suggestion problem.
翻訳日:2022-11-29 13:40:58 公開日:2020-07-21
# コンピュータビジョンを用いた捕獲標本からの蚊ベクター監視の自動化

Automating the Surveillance of Mosquito Vectors from Trapped Specimens Using Computer Vision Techniques ( http://arxiv.org/abs/2005.12188v2 )

ライセンス: Link先を確認
Mona Minakshi, Pratool Bharti, Willie B. McClinton III, Jamshidbek Mirzakhalov, Ryan M. Carney, Sriram Chellappan(参考訳) すべての動物の中で、蚊は世界中で最も多く死亡する原因となっている。 興味深いことに、すべての種類の蚊が病気を広げているわけではない。 感染症が発生した場合、重要な第一歩はベクター(病気を広めることのできる蚊)の監視である。 今日、公衆衛生従事者は関心のある地域にいくつかの蚊の罠を敷いている。 何百もの蚊が閉じ込められます。 当然、これらの数百のうち、分類学者は密度を測るベクトルのみを特定する必要がある。 今日のこのプロセスは手作業で、複雑な専門知識と訓練を必要とし、顕微鏡で観察された各標本の視覚的検査に基づいている。 長く、ストレスがあり、自発的です。 本稿では,この問題に対するイノベーティブな解決策を提案する。 この技術は、閉じ込められた蚊の写真を撮れる埋め込みカメラ(スマートフォンに似ています)の存在を想定しています。 ここで提案する手法は,これらの画像を処理して,属と種を自動的に分類する。 inception-resnet v2とtransport learningに基づくcnnモデルでは,多くのスマートフォンカメラで撮影された250個の蚊ベクター標本の25,867枚の画像から,蚊の分類に80%の精度が得られた。 特にaedes aegyptiとanopheles stephensi(どちらも致命的なベクターである)を分類するモデルの精度は高い。 論文の終わりに向けて,技術から学んだ重要な教訓と実践的影響を提示する。

Among all animals, mosquitoes are responsible for the most deaths worldwide. Interestingly, not all types of mosquitoes spread diseases, but rather, a select few alone are competent enough to do so. In the case of any disease outbreak, an important first step is surveillance of vectors (i.e., those mosquitoes capable of spreading diseases). To do this today, public health workers lay several mosquito traps in the area of interest. Hundreds of mosquitoes will get trapped. Naturally, among these hundreds, taxonomists have to identify only the vectors to gauge their density. This process today is manual, requires complex expertise/ training, and is based on visual inspection of each trapped specimen under a microscope. It is long, stressful and self-limiting. This paper presents an innovative solution to this problem. Our technique assumes the presence of an embedded camera (similar to those in smart-phones) that can take pictures of trapped mosquitoes. Our techniques proposed here will then process these images to automatically classify the genus and species type. Our CNN model based on Inception-ResNet V2 and Transfer Learning yielded an overall accuracy of 80% in classifying mosquitoes when trained on 25,867 images of 250 trapped mosquito vector specimens captured via many smart-phone cameras. In particular, the accuracy of our model in classifying Aedes aegypti and Anopheles stephensi mosquitoes (both of which are deadly vectors) is amongst the highest. We present important lessons learned and practical impact of our techniques towards the end of the paper.
翻訳日:2022-11-29 05:29:31 公開日:2020-07-21
# モンテカルロ事象生成における神経重要度サンプリングの応用

Exhaustive Neural Importance Sampling applied to Monte Carlo event generation ( http://arxiv.org/abs/2005.12719v2 )

ライセンス: Link先を確認
Sebastian Pina-Otey, Federico S\'anchez, Thorsten Lux and Vicens Gaitan(参考訳) ニュートリノ振動実験に必要な正確なニュートリノ-核断面積モデルの生成には、多くの自由度の記述と核反応をモデル化するための正確な計算が必要である。 完全モデルの詳細な計算により、モンテカルロ発電機は遅く非実用的である。 本稿では,リジェクションサンプリングに適した提案密度を求めるためのフローの正規化に基づく手法であるExhaustive Neural Importance Smpling(ENIS)を提案し,この手法がリジェクションアルゴリズムの共通問題をいかに解決するかについて議論する。

The generation of accurate neutrino-nucleus cross-section models needed for neutrino oscillation experiments require simultaneously the description of many degrees of freedom and precise calculations to model nuclear responses. The detailed calculation of complete models makes the Monte Carlo generators slow and impractical. We present Exhaustive Neural Importance Sampling (ENIS), a method based on normalizing flows to find a suitable proposal density for rejection sampling automatically and efficiently, and discuss how this technique solves common issues of the rejection algorithm.
翻訳日:2022-11-29 00:50:22 公開日:2020-07-21
# ジョイントシンボル検出とチャネル復号のためのニューラルネットワーク支援bcjrアルゴリズム

Neural Network-Aided BCJR Algorithm for Joint Symbol Detection and Channel Decoding ( http://arxiv.org/abs/2006.01125v2 )

ライセンス: Link先を確認
Wen-Chiao Tsai, Chieh-Fang Teng, Han-Mo Ou, An-Yeu Wu(参考訳) 近年,深層学習支援型コミュニケーションシステムは眼球運動の成果を多く達成し,この新興分野の研究者を多く惹きつけている。 通信システムの機能ブロックを完全にニューラルネットワークに置き換える代わりに、BCJRアルゴリズムとニューラルネットワークの利点を組み合わせるために、BCJRNetシンボル検出のハイブリッド方式が提案されている。 しかし、その分離されたブロック設計はシステム性能を劣化させるだけでなく、ハードウェアの複雑さも増す。 本稿では,共同シンボル検出とチャネル復号のためのBCJR受信機を提案する。 トレリス図とチャネル状態情報を同時に利用して分岐確率のより正確な計算を行い、2.3dBのゲインを持つ大域的最適化を実現する。 さらに、完全csiの要求を回避し、1.0dbゲインのcsi不確かさの下でより堅牢なbcjr受信機のチャネルモデルに基づく計算を置き換えるために専用ニューラルネットワークモデルが提案されている。

Recently, deep learning-assisted communication systems have achieved many eye-catching results and attracted more and more researchers in this emerging field. Instead of completely replacing the functional blocks of communication systems with neural networks, a hybrid manner of BCJRNet symbol detection is proposed to combine the advantages of the BCJR algorithm and neural networks. However, its separate block design not only degrades the system performance but also results in additional hardware complexity. In this work, we propose a BCJR receiver for joint symbol detection and channel decoding. It can simultaneously utilize the trellis diagram and channel state information for a more accurate calculation of branch probability and thus achieve global optimum with 2.3 dB gain over separate block design. Furthermore, a dedicated neural network model is proposed to replace the channel-model-based computation of the BCJR receiver, which can avoid the requirements of perfect CSI and is more robust under CSI uncertainty with 1.0 dB gain.
翻訳日:2022-11-26 18:16:45 公開日:2020-07-21
# コレントロピーに基づく回帰学習への新たな視点

New Insights into Learning with Correntropy Based Regression ( http://arxiv.org/abs/2006.11390v4 )

ライセンス: Link先を確認
Yunlong Feng(参考訳) 情報理論学習から考えると、コレントロピー基準とその機械学習タスクへの応用は広く研究され研究されている。 その回帰問題への応用は、ロバスト性が強化された回帰パラダイム(corentropy based regression)に繋がる。 様々な実世界の応用が成功しており、その理論的性質は統計学の観点からの一連の研究でも近年研究されている。 その結果、コレントロピーに基づく回帰回帰は条件モード関数や条件平均関数に対して一定の条件下でロバストに回帰する。 本研究は,この傾向を継続し,さらに進みながら,この問題に対する新たな知見を報告する。 まず, 付加雑音回帰モデルの下では, 最小距離推定から回帰パラダイムを導出することができ, 結果として得られる推定値は本質的に最小距離推定子であり, 従ってロバスト性を有することを示す。 第二に、回帰パラダイムは、ある条件下での条件平均、条件モード、および条件中央値関数にアプローチすることで、回帰問題に対する統一的なアプローチを提供することを示す。 第3に,条件付き$(1+\epsilon)$-moment仮定の下で,その誤差境界と指数収束率を発達させることで条件付き平均関数を学習するために,新たな結果を示す。 確立された収束率に対する飽和効果は(1+\epsilon)$-moment仮定の下でも観測され、回帰推定器固有のバイアスを示す。 これらの新しい知見は、コレントロピーに基づく回帰の理解を深め、理論的なコレントロピーの枠組みを固め、一般的な有界な非凸損失関数によって引き起こされる学習スキームを研究できる。

Stemming from information-theoretic learning, the correntropy criterion and its applications to machine learning tasks have been extensively explored and studied. Its application to regression problems leads to the robustness enhanced regression paradigm -- namely, correntropy based regression. Having drawn a great variety of successful real-world applications, its theoretical properties have also been investigated recently in a series of studies from a statistical learning viewpoint. The resulting big picture is that correntropy based regression regresses towards the conditional mode function or the conditional mean function robustly under certain conditions. Continuing this trend and going further, in the present study, we report some new insights into this problem. First, we show that under the additive noise regression model, such a regression paradigm can be deduced from minimum distance estimation, implying that the resulting estimator is essentially a minimum distance estimator and thus possesses robustness properties. Second, we show that the regression paradigm, in fact, provides a unified approach to regression problems in that it approaches the conditional mean, the conditional mode, as well as the conditional median functions under certain conditions. Third, we present some new results when it is utilized to learn the conditional mean function by developing its error bounds and exponential convergence rates under conditional $(1+\epsilon)$-moment assumptions. The saturation effect on the established convergence rates, which was observed under $(1+\epsilon)$-moment assumptions, still occurs, indicating the inherent bias of the regression estimator. These novel insights deepen our understanding of correntropy based regression, help cement the theoretic correntropy framework, and also enable us to investigate learning schemes induced by general bounded nonconvex loss functions.
翻訳日:2022-11-19 04:06:05 公開日:2020-07-21
# ビデオゲームデータから人間のオブザーバ分光感度を推定する

Inferring Human Observer Spectral Sensitivities from Video Game Data ( http://arxiv.org/abs/2007.00490v2 )

ライセンス: Link先を確認
Chatura Samarakoon, Gehan Amaratunga, Phillip Stanley-Marbell(参考訳) 現代のディスプレイの帯域幅がますます狭くなるプライマリを用いることで、オブザーバメタマー分解が重要な要因となっている。 これは異なる観察者間で知覚される色に相違をもたらす可能性がある。 ユーザの眼の分光感度が容易に測定できるなら、次世代のディスプレイは表示内容を調整でき、色が与えられたオブザーバーが意図しているように認識されるようにする。 本稿では,携帯電話のディスプレイ上で実施可能なカラーマッチング実験を用いて,人間の観測者のスペクトル感受性を計算するための数学的枠組みを提案する。 これにより、高価な対人実験が必要となり、システムデザイナーはユーザの視覚に合うように簡単にディスプレイを調整できる。 本稿では,SRGBの画素値と単純な表示モデルを用いて,表示装置(携帯電話など)のユーザに対する可視色マッチング関数(CMF)を計算する方法について述べる。 計算したCMFの形状に異なる正規化関数が与える影響を評価した結果,正方形正規化器の総和が滑らかで定性的に現実的なCMFを予測できることが示された。

With the use of primaries which have increasingly narrow bandwidths in modern displays, observer metameric breakdown is becoming a significant factor. This can lead to discrepancies in the perceived color between different observers. If the spectral sensitivity of a user's eyes could be easily measured, next generation displays would be able to adjust the display content to ensure that the colors are perceived as intended by a given observer. We present a mathematical framework for calculating spectral sensitivities of a given human observer using a color matching experiment that could be done on a mobile phone display. This forgoes the need for expensive in-person experiments and allows system designers to easily calibrate displays to match the user's vision, in-the-wild. We show how to use sRGB pixel values along with a simple display model to calculate plausible color matching functions (CMFs) for the users of a given display device (e.g., a mobile phone). We evaluate the effect of different regularization functions on the shape of the calculated CMFs and the results show that a sum of squares regularizer is able to predict smooth and qualitatively realistic CMFs.
翻訳日:2022-11-15 00:03:11 公開日:2020-07-21
# 乳がん検診ガイドライン間の概念的距離の計算:医学的不一致のほぼピア認識モデルの実装

Computing Conceptual Distances between Breast Cancer Screening Guidelines: An Implementation of a Near-Peer Epistemic Model of Medical Disagreement ( http://arxiv.org/abs/2007.00709v2 )

ライセンス: Link先を確認
Hossein Hematialam, Luciana Garbayo, Seethalakshmi Gopalakrishnan, Wlodek Zadrozny(参考訳) 自然言語処理ツールを用いて,同じ決定問題に対する医療ガイドラインにおける推奨事項の違い,すなわち乳癌検診について検討した。 これらの違いは,著者の異なるグループによる概念ボキャブラリーに反映されるように,異なる医療社会がもたらした知識が生み出したものであり,我々が構築し分析する計算モデルは,ガルバヨが提唱した専門家の不一致のほぼピア認識モデルと一致している。 本論文は,一組のガイドラインに焦点をあてた事例研究であるが,提案手法は広く適用可能である。 文書の集合を比較するための新しいグラフベースの類似性モデルの提案に加えて、モデルの性能を広範囲に解析する。 数ダースの一連の実験で、3つの幅広いカテゴリにおいて、最高のモデルに対する統計的に重要なレベルである3~4の標準偏差において、専門家の注釈付きモデルと我々の概念に基づく自動生成計算モデルとの高い類似性は偶然ではないことを示した。 我々の最良のモデルはおよそ70%の類似性を達成する。 この研究の拡張についても述べる。

Using natural language processing tools, we investigate the differences of recommendations in medical guidelines for the same decision problem -- breast cancer screening. We show that these differences arise from knowledge brought to the problem by different medical societies, as reflected in the conceptual vocabularies used by the different groups of authors.The computational models we build and analyze agree with the near-peer epistemic model of expert disagreement proposed by Garbayo. Even though the article is a case study focused on one set of guidelines, the proposed methodology is broadly applicable. In addition to proposing a novel graph-based similarity model for comparing collections of documents, we perform an extensive analysis of the model performance. In a series of a few dozen experiments, in three broad categories, we show, at a very high statistical significance level of 3-4 standard deviations for our best models, that the high similarity between expert annotated model and our concept based, automatically created, computational models is not accidental. Our best model achieves roughly 70% similarity. We also describe possible extensions of this work.
翻訳日:2022-11-14 23:30:20 公開日:2020-07-21
# 深層学習を用いた相互干渉面のグローバル最適セグメンテーション

Globally Optimal Segmentation of Mutually Interacting Surfaces using Deep Learning ( http://arxiv.org/abs/2007.01259v3 )

ライセンス: Link先を確認
Hui Xie, Zhe Pan, Leixin Zhou, Fahim A Zaman, Danny Chen, Jost B Jonas, Yaxing Wang, and Xiaodong Wu(参考訳) 医用画像における複数の面の分割は難しい問題であり, 境界の弱さや近接物体間の相互影響によってさらに複雑になる。 従来のグラフベース最適サーフェスセグメンテーション法は、一様グラフモデルにおいて様々なサーフェス先行をキャプチャする能力でその効果が証明されている。 しかし、その効果は表面の「良さ」のための表面コストを定義するために使われる手作りの特徴に大きく依存している。 近年,その優れた特徴学習能力により,医用画像セグメンテーションの強力なツールとしてディープラーニング(DL)が登場している。 残念ながら、医療画像におけるトレーニングデータの不足のため、dlネットワークが表面相互作用を含む標的表面の全体構造を暗黙的に学習することは非自明である。 本研究では,グラフモデルにおける表面コスト関数をパラメータ化し,dlを用いてパラメータを学習する手法を提案する。 そして、相互表面相互作用制約を明示的に強制しながら、総表面コストを最小化することにより、複数の最適表面を同時に検出する。 最適化問題は、ニューラルネットワークの層によって実装できる原始二重内部点法によって解決され、ネットワーク全体の効率的なエンドツーエンドトレーニングを可能にする。 分光領域光コヒーレンス・トモグラフィ(SD-OCT)網膜層分画と血管内超音波血管壁分画の実験は有望な結果を示した。 この方向のさらなる研究を促進するために、すべてのソースコードが公開されている。

Segmentation of multiple surfaces in medical images is a challenging problem, further complicated by the frequent presence of weak boundary and mutual influence between adjacent objects. The traditional graph-based optimal surface segmentation method has proven its effectiveness with its ability of capturing various surface priors in a uniform graph model. However, its efficacy heavily relies on handcrafted features that are used to define the surface cost for the "goodness" of a surface. Recently, deep learning (DL) is emerging as powerful tools for medical image segmentation thanks to its superior feature learning capability. Unfortunately, due to the scarcity of training data in medical imaging, it is nontrivial for DL networks to implicitly learn the global structure of the target surfaces, including surface interactions. In this work, we propose to parameterize the surface cost functions in the graph model and leverage DL to learn those parameters. The multiple optimal surfaces are then simultaneously detected by minimizing the total surface cost while explicitly enforcing the mutual surface interaction constraints. The optimization problem is solved by the primal-dual Internal Point Method, which can be implemented by a layer of neural networks, enabling efficient end-to-end training of the whole network. Experiments on Spectral Domain Optical Coherence Tomography (SD-OCT) retinal layer segmentation and Intravascular Ultrasound (IVUS) vessel wall segmentation demonstrated very promising results. All source code is public to facilitate further research at this direction.
翻訳日:2022-11-14 13:34:28 公開日:2020-07-21
# 確率勾配降下最適化アルゴリズムの弱誤差解析

Weak error analysis for stochastic gradient descent optimization algorithms ( http://arxiv.org/abs/2007.02723v2 )

ライセンス: Link先を確認
Aritz Bercher, Lukas Gonon, Arnulf Jentzen, Diyora Salimova(参考訳) 確率勾配降下(sgd)型最適化スキームは、多くの機械学習ベースのアルゴリズムの基本的な要素である。 特に、SGD型最適化スキームは、自然言語処理、オブジェクトと顔の認識、不正検出、計算広告、偏微分方程式の数値近似を含むアプリケーションによく用いられる。 sgd型最適化スキームの数学的収束結果では、通常、科学文献で研究されている2種類の誤り基準、すなわち、強い意味での誤差と目的関数に関する誤差がある。 アプリケーションでは、目的関数に関してエラーのサイズだけでなく、目的関数と異なる可能性があるテスト関数に関してエラーのサイズにも関心があることが多い。 この誤差の大きさの分析はこの記事の主題である。 特に、本論文の主結果は、テスト関数が目的関数と一致する特別な場合において、この誤差の大きさが同じ速度で減衰する、という適切な仮定の下で証明される。

Stochastic gradient descent (SGD) type optimization schemes are fundamental ingredients in a large number of machine learning based algorithms. In particular, SGD type optimization schemes are frequently employed in applications involving natural language processing, object and face recognition, fraud detection, computational advertisement, and numerical approximations of partial differential equations. In mathematical convergence results for SGD type optimization schemes there are usually two types of error criteria studied in the scientific literature, that is, the error in the strong sense and the error with respect to the objective function. In applications one is often not only interested in the size of the error with respect to the objective function but also in the size of the error with respect to a test function which is possibly different from the objective function. The analysis of the size of this error is the subject of this article. In particular, the main result of this article proves under suitable assumptions that the size of this error decays at the same speed as in the special case where the test function coincides with the objective function.
翻訳日:2022-11-14 05:18:43 公開日:2020-07-21
# 拡張CNNによる超高解像度化

Lightweight image super-resolution with enhanced CNN ( http://arxiv.org/abs/2007.04344v3 )

ライセンス: Link先を確認
Chunwei Tian, Ruibin Zhuge, Zhihao Wu, Yong Xu, Wangmeng Zuo, Chen Chen, Chia-Wen Lin(参考訳) 強い表現能力を持つ深層畳み込みニューラルネットワーク(cnns)は、シングルイメージスーパーレゾリューション(sisr)で印象的なパフォーマンスを達成している。 しかし、その過剰な量の畳み込みとパラメータは通常、SRモデルをトレーニングするために高い計算コストとより多くのメモリストレージを消費する。 これらの問題を解決するために,3つの連続するサブブロック,情報抽出・拡張ブロック(IEEB),再構築ブロック(RB),情報精製ブロック(IRB)を備えた軽量拡張SR CNN(LESRCNN)を提案する。 具体的には、IEEBは階層的低分解能(LR)特徴を抽出し、得られた特徴を段階的に集約し、SISRの深い層上の浅い層のメモリ能力を向上させる。 得られた冗長情報を除去するために、IEEBに異種アーキテクチャを採用する。 その後、RBは、長期依存問題に取り組むためのIEEBと相補的なグローバルおよびローカル特徴を融合することにより、低周波特徴を高周波特徴に変換する。 最後に、IRBはRBからの粗い高周波特徴を用いてより正確なSR特徴を学習し、SR画像を構築する。 提案するLESRCNNは,異なるスケールのモデルを用いて高品質な画像を得ることができる。 広範な実験により,提案するlesrcnnは,質的および定量的評価において,sisrの最先端技術よりも優れていることが示された。 LESRCNNのコードはhttps://github.com/hellloxiaotian/LESRCNNでアクセスできる。

Deep convolutional neural networks (CNNs) with strong expressive ability have achieved impressive performances on single image super-resolution (SISR). However, their excessive amounts of convolutions and parameters usually consume high computational cost and more memory storage for training a SR model, which limits their applications to SR with resource-constrained devices in real world. To resolve these problems, we propose a lightweight enhanced SR CNN (LESRCNN) with three successive sub-blocks, an information extraction and enhancement block (IEEB), a reconstruction block (RB) and an information refinement block (IRB). Specifically, the IEEB extracts hierarchical low-resolution (LR) features and aggregates the obtained features step-by-step to increase the memory ability of the shallow layers on deep layers for SISR. To remove redundant information obtained, a heterogeneous architecture is adopted in the IEEB. After that, the RB converts low-frequency features into high-frequency features by fusing global and local features, which is complementary with the IEEB in tackling the long-term dependency problem. Finally, the IRB uses coarse high-frequency features from the RB to learn more accurate SR features and construct a SR image. The proposed LESRCNN can obtain a high-quality image by a model for different scales. Extensive experiments demonstrate that the proposed LESRCNN outperforms state-of-the-arts on SISR in terms of qualitative and quantitative evaluation. The code of LESRCNN is accessible on https://github.com/hellloxiaotian/LESRCNN.
翻訳日:2022-11-12 13:31:23 公開日:2020-07-21
# 自動Cryo-EMグリッドスクリーニングにおける注意誘導品質評価

Attention-guided Quality Assessment for Automated Cryo-EM Grid Screening ( http://arxiv.org/abs/2007.05593v2 )

ライセンス: Link先を確認
Hong Xu, David E. Timm, Shireen Y. Elhabian(参考訳) 極低温電子顕微鏡(cryo-em)は、生体高分子の近原子分解能(0.4 nm未満)3次元再構成によって、薬物の発見と疾患の分子基盤の理解に有効な技術となっている。 3次元再構成に必要な撮像プロセスは、Cryo-EMグリッドの低倍率画像の取得から始まる、高度に反復的で経験的なスクリーニングプロセスを含む。 これらの画像は、有用な分子信号を含む可能性が高い正方形に対して検査される。 格子内の潜在的に有用な四角形は徐々に高倍率で撮影され、高倍率で撮像するために円形の穴(四角形で囲まれている)内のサブミクロン領域を特定することを目的としている。 この厳しい多段階データ取得プロセスは、高いスループットデータ収集のボトルネックとなる。 本稿では,顕微鏡操作者の早期意思決定の自動化,正方形の低倍率画像の評価,およびCreo-EMグリッドの自動スクリーニングのための最初のディープラーニングフレームワークであるXCryoNetを提案する。 XCryoNetは、限定されたラベル付きデータを用いて、自動的に抽出された正方形画像を説明可能なスコアリングを提供する半教師付き、注意誘導型ディープラーニングアプローチである。 ラベル付きデータが不足している場合には、完全に教師なしのソリューションよりも8%と37%が改善されている。

Cryogenic electron microscopy (cryo-EM) has become an enabling technology in drug discovery and in understanding molecular bases of disease by producing near-atomic resolution (less than 0.4 nm) 3D reconstructions of biological macromolecules. The imaging process required for 3D reconstructions involves a highly iterative and empirical screening process, starting with the acquisition of low magnification images of the cryo-EM grids. These images are inspected for squares that are likely to contain useful molecular signals. Potentially useful squares within the grid are then imaged at progressively higher magnifications, with the goal of identifying sub-micron areas within circular holes (bounded by the squares) for imaging at high magnification. This arduous, multi-step data acquisition process represents a bottleneck for obtaining a high throughput data collection. Here, we focus on automating the early decision making for the microscope operator, scoring low magnification images of squares, and proposing the first deep learning framework, XCryoNet, for automated cryo-EM grid screening. XCryoNet is a semi-supervised, attention-guided deep learning approach that provides explainable scoring of automatically extracted square images using limited amounts of labeled data. Results show up to 8% and 37% improvements over a fully supervised and a no-attention solution, respectively, when labeled data is scarce.
翻訳日:2022-11-11 21:24:54 公開日:2020-07-21
# SoK:ASRの欠陥:自動音声認識と話者識別システムに対する攻撃の概要

SoK: The Faults in our ASRs: An Overview of Attacks against Automatic Speech Recognition and Speaker Identification Systems ( http://arxiv.org/abs/2007.06622v3 )

ライセンス: Link先を確認
Hadi Abdullah, Kevin Warren, Vincent Bindschaedler, Nicolas Papernot, and Patrick Traynor(参考訳) 音声認識システムや話者認識システムは、パーソナルアシスタントから電話監視や生体認証まで、様々な用途で利用されている。 これらのシステムの幅広い展開は、ニューラルネットワークの精度の向上によって可能になった。 ニューラルネットワークに基づく他のシステムと同様に、最近の研究は、音声と話者認識システムが操作された入力を用いた攻撃に対して脆弱であることを示した。 しかし,本稿で示すように,音声・話者システムのエンドツーエンドアーキテクチャとその入力の性質は,画像空間における攻撃や防御とは大きく異なる。 まず、この領域における既存の研究を体系化し、コミュニティが今後の作業を評価することができる分類学を提供することで、これを実証する。 次に,これらのモデルに対する攻撃がほぼ普遍的に伝達されないことを実験的に示す。 このようにして、この分野で適切な緩和を行うためには、かなりの追加作業が必要であると論じる。

Speech and speaker recognition systems are employed in a variety of applications, from personal assistants to telephony surveillance and biometric authentication. The wide deployment of these systems has been made possible by the improved accuracy in neural networks. Like other systems based on neural networks, recent research has demonstrated that speech and speaker recognition systems are vulnerable to attacks using manipulated inputs. However, as we demonstrate in this paper, the end-to-end architecture of speech and speaker systems and the nature of their inputs make attacks and defenses against them substantially different than those in the image space. We demonstrate this first by systematizing existing research in this space and providing a taxonomy through which the community can evaluate future work. We then demonstrate experimentally that attacks against these models almost universally fail to transfer. In so doing, we argue that substantial additional work is required to provide adequate mitigations in this space.
翻訳日:2022-11-11 00:51:08 公開日:2020-07-21
# RePrune: 代表選挙によるフィルタの停止

REPrune: Filter Pruning via Representative Election ( http://arxiv.org/abs/2007.06932v3 )

ライセンス: Link先を確認
Mincheol Park, Woojeong Kim, Suhyun Kim(参考訳) 標準型フィルタプルーニング法は広く受け入れられているが、フィルタのプルーを決定する上で「より小さいノルムの無い重要な」基準が最適か否かは疑わしい。 特に、元のフィルタのごく一部しか保持できない場合、標準値に関係なくフィルタ全体を表現することができるフィルタを選択することがより重要である。 本稿では,クラスタリングによる代表フィルタの選択により,この問題に対処する。 類似フィルタのクラスタから1つのフィルタを選択し、隣接する大きなフィルタを選択することを避けることで、REPruneは同様の精度でより良い圧縮率を達成することができる。 また,より高速に精度を回復し,微調整時のフィルタのシフトを小さくする。 実証的に、RePruneは49%以上のFLOPを削減し、CIFAR-10のResNet-110の精度は0.53%向上した。 また、RePruneは41.8%以上のFLOPを削減し、ImageNetのResNet-18では1.67%のTop-1バリデーションが失われた。

Even though norm-based filter pruning methods are widely accepted, it is questionable whether the "smaller-norm-less-important" criterion is optimal in determining filters to prune. Especially when we can keep only a small fraction of the original filters, it is more crucial to choose the filters that can best represent the whole filters regardless of norm values. Our novel pruning method entitled "REPrune" addresses this problem by selecting representative filters via clustering. By selecting one filter from a cluster of similar filters and avoiding selecting adjacent large filters, REPrune can achieve a better compression rate with similar accuracy. Our method also recovers the accuracy more rapidly and requires a smaller shift of filters during fine-tuning. Empirically, REPrune reduces more than 49% FLOPs, with 0.53% accuracy gain on ResNet-110 for CIFAR-10. Also, REPrune reduces more than 41.8% FLOPs with 1.67% Top-1 validation loss on ResNet-18 for ImageNet.
翻訳日:2022-11-10 14:51:16 公開日:2020-07-21
# 自己監督型単眼深度推定:意味的誘導による動的対象問題の解法

Self-Supervised Monocular Depth Estimation: Solving the Dynamic Object Problem by Semantic Guidance ( http://arxiv.org/abs/2007.06936v2 )

ライセンス: Link先を確認
Marvin Klingner, Jan-Aike Term\"ohlen, Jonas Mikolajczyk, Tim Fingscheidt(参考訳) 自己教師付き単眼深度推定は、LiDARセンサから深度ラベルを必要とせずに任意の画像列でトレーニング可能な、単一カメラ画像から3Dシーン情報を得る強力な方法を示す。 本研究では,移動車や歩行者などの動的クラス(dc)オブジェクトの移動に対して,このようなモデルのトレーニング中に発生する静的世界仮定に違反する,自己教師付き意味論的奥行き推定(sgdepth)手法を提案する。 具体的には (i)タスク固有ネットワークヘッドを用いた意味セグメンテーションと自己教師付き深さ推定の相互に有益なクロスドメイン訓練 (ii)直流物体が光度損失を汚染することを防止するためのガイダンスを提供する意味的マスキング方式 三 動きのない直流物体のフレームの検出方法であって、直流物体の深さを学習することができること。 本稿では,いくつかのベンチマーク,特に固有スプリットにおいて,テスト時間の改良を伴わずにすべてのベースラインを超える性能を示す。

Self-supervised monocular depth estimation presents a powerful method to obtain 3D scene information from single camera images, which is trainable on arbitrary image sequences without requiring depth labels, e.g., from a LiDAR sensor. In this work we present a new self-supervised semantically-guided depth estimation (SGDepth) method to deal with moving dynamic-class (DC) objects, such as moving cars and pedestrians, which violate the static-world assumptions typically made during training of such models. Specifically, we propose (i) mutually beneficial cross-domain training of (supervised) semantic segmentation and self-supervised depth estimation with task-specific network heads, (ii) a semantic masking scheme providing guidance to prevent moving DC objects from contaminating the photometric loss, and (iii) a detection method for frames with non-moving DC objects, from which the depth of DC objects can be learned. We demonstrate the performance of our method on several benchmarks, in particular on the Eigen split, where we exceed all baselines without test-time refinement.
翻訳日:2022-11-10 14:51:01 公開日:2020-07-21
# deepmsrf: 特徴選択を伴う新しい深層マルチモーダル話者認識フレームワーク

DeepMSRF: A novel Deep Multimodal Speaker Recognition framework with Feature selection ( http://arxiv.org/abs/2007.06809v2 )

ライセンス: Link先を確認
Ehsan Asali, Farzan Shenavarmasouleh, Farid Ghareh Mohammadi, Prasanth Sengadu Suresh, and Hamid R. Arabnia(参考訳) ビデオストリームにおける話者認識のために,表情,感情,性別などの高レベル話者の特徴を抽出し,リッチな機械学習モデルを得るための研究が盛んに行われている。 しかし,映像ストリームから抽出した音声信号や画像フレームを利用する単一モード特徴抽出器を使用することで,そのようなモデルを生成することは不可能である。 本稿では,異なる観点からこの問題に対処し,DeepMSRF(Deep Multimodal Speaker Recognition with Feature selection)と呼ばれる前例のないマルチモーダルデータ融合フレームワークを提案する。 我々は2つのモードの特徴、すなわち話者の音声と顔画像の供給によってDeepMSRFを実行する。 DeepMSRFは2ストリームのVGGNETを使用して両方のモードでトレーニングし、話者のアイデンティティを正確に認識できる包括的なモデルに到達する。 メタデータをVGGFace2データセットにマージしたVoxCeleb2データセットのサブセットにDeepMSRFを適用する。 DeepMSRFの目標は、まず話者の性別を特定し、さらに特定のビデオストリームに対して氏の名前を認識することである。 実験の結果,DeepMSRFは,少なくとも3%の精度で単一モード話者認識法より優れていた。

For recognizing speakers in video streams, significant research studies have been made to obtain a rich machine learning model by extracting high-level speaker's features such as facial expression, emotion, and gender. However, generating such a model is not feasible by using only single modality feature extractors that exploit either audio signals or image frames, extracted from video streams. In this paper, we address this problem from a different perspective and propose an unprecedented multimodality data fusion framework called DeepMSRF, Deep Multimodal Speaker Recognition with Feature selection. We execute DeepMSRF by feeding features of the two modalities, namely speakers' audios and face images. DeepMSRF uses a two-stream VGGNET to train on both modalities to reach a comprehensive model capable of accurately recognizing the speaker's identity. We apply DeepMSRF on a subset of VoxCeleb2 dataset with its metadata merged with VGGFace2 dataset. The goal of DeepMSRF is to identify the gender of the speaker first, and further to recognize his or her name for any given video stream. The experimental results illustrate that DeepMSRF outperforms single modality speaker recognition methods with at least 3 percent accuracy.
翻訳日:2022-11-10 14:43:26 公開日:2020-07-21
# オンライン負荷分散のための改良アルゴリズム

Improved algorithms for online load balancing ( http://arxiv.org/abs/2007.07515v2 )

ライセンス: Link先を確認
Yaxiong Liu, Kohei Hatano, Eiji Takimoto(参考訳) オンラインロードバランシング問題とその拡張をゲーム繰り返しのフレームワークで検討する。 各ラウンドにおいて、プレイヤーは$k$サーバー以上の分散(タスク割り当て)を選択し、環境が各サーバの負荷を明らかにし、割り当てられたタスクを処理する各サーバの計算時間を決定する。 すべてのラウンドの後、プレイヤーのコストは累積計算時間ベクトルのノルムによって測定される。 コストは、ノルムが$l_\infty$-normである場合のmakespanである。 ゴールは、後方で最高の固定分布のコストに対してプレイヤーのコストを最小化すること、すなわち、後悔を最小限に抑えることである。 一般規範に対するアルゴリズムを提案し,その後悔の限界を証明する。 特に、$l_\infty$-norm に対して、我々の後悔のバウンドは最もよく知られたバウンドと一致し、提案されたアルゴリズムは、線形計画と二階計画を含む試行ごとに多項式時間で実行される。

We consider an online load balancing problem and its extensions in the framework of repeated games. On each round, the player chooses a distribution (task allocation) over $K$ servers, and then the environment reveals the load of each server, which determines the computation time of each server for processing the task assigned. After all rounds, the cost of the player is measured by some norm of the cumulative computation-time vector. The cost is the makespan if the norm is $L_\infty$-norm. The goal is to minimize the regret, i.e., minimizing the player's cost relative to the cost of the best fixed distribution in hindsight. We propose algorithms for general norms and prove their regret bounds. In particular, for $L_\infty$-norm, our regret bound matches the best known bound and the proposed algorithm runs in polynomial time per trial involving linear programming and second order programming, whereas no polynomial time algorithm was previously known to achieve the bound.
翻訳日:2022-11-10 06:29:19 公開日:2020-07-21
# 映像における視覚関係の接地

Visual Relation Grounding in Videos ( http://arxiv.org/abs/2007.08814v2 )

ライセンス: Link先を確認
Junbin Xiao, Xindi Shang, Xun Yang, Sheng Tang, Tat-Seng Chua(参考訳) 本稿では,映像における視覚的リレーショナルグラウンドディング(vRGV)という課題について検討する。 このタスクは、与えられた関係をビデオ内の主観的述語オブジェクトの形で時空間的ローカライズすることを目的としており、他の高レベルなビデオ言語タスク(例えば、ビデオ言語接地とビデオ質問応答)に対する支援的な視覚的事実を提供する。 課題は,(1)問合せ関係を接地するために,対象と対象の双方を時空間的に局所化する必要があること,(2)映像における視覚関係の時間的動的性質をキャプチャすることが困難であること,(3)空間と時間を直接監督することなく接地を行うことである。 そこで本研究では,構造化された階層的時空間グラフ上の2つの領域列を協調的に最適化し,関係の成立と再構成を行い,視覚的エンティティ間の空間的注意シフトによるメッセージパッシング機構を提案する。 実験の結果,本モデルはベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることがわかった。 (コードはhttps://github.com/doc-doc/vRGV)。

In this paper, we explore a novel task named visual Relation Grounding in Videos (vRGV). The task aims at spatio-temporally localizing the given relations in the form of subject-predicate-object in the videos, so as to provide supportive visual facts for other high-level video-language tasks (e.g., video-language grounding and video question answering). The challenges in this task include but not limited to: (1) both the subject and object are required to be spatio-temporally localized to ground a query relation; (2) the temporal dynamic nature of visual relations in videos is difficult to capture; and (3) the grounding should be achieved without any direct supervision in space and time. To ground the relations, we tackle the challenges by collaboratively optimizing two sequences of regions over a constructed hierarchical spatio-temporal region graph through relation attending and reconstruction, in which we further propose a message passing mechanism by spatial attention shifting between visual entities. Experimental results demonstrate that our model can not only outperform baseline approaches significantly, but also produces visually meaningful facts to support visual grounding. (Code is available at https://github.com/doc-doc/vRGV).
翻訳日:2022-11-09 14:06:56 公開日:2020-07-21
# AlignNet: 教師なしエンティティアライメント

AlignNet: Unsupervised Entity Alignment ( http://arxiv.org/abs/2007.08973v2 )

ライセンス: Link先を確認
Antonia Creswell, Kyriacos Nikiforou, Oriol Vinyals, Andre Saraiva, Rishabh Kabra, Loic Matthey, Chris Burgess, Malcolm Reynolds, Richard Tanburn, Marta Garnelo, Murray Shanahan(参考訳) 最近開発されたディープラーニングモデルは、監視なしでシーンをコンポーネントオブジェクトに分割することを学ぶことができる。 これにより、多くの新しいエキサイティングな研究の道が開かれ、エージェントは物体(または実体)をピクセルではなく入力として捉えることができる。 残念なことに、これらのモデルは単一のフレームの優れたセグメンテーションを提供するが、ある時点でのオブジェクトのセグメンテーション(あるいはアライメント)が後続のステップでそれらとどのように対応するかは追跡しない。 アライメント(あるいは対応)問題は、下流のタスクでオブジェクト表現を使うことの進行を妨げる。 本稿では,アライメント問題の解決に向けて,教師なしアライメントモジュールであるAlignNetを提案する。

Recently developed deep learning models are able to learn to segment scenes into component objects without supervision. This opens many new and exciting avenues of research, allowing agents to take objects (or entities) as inputs, rather that pixels. Unfortunately, while these models provide excellent segmentation of a single frame, they do not keep track of how objects segmented at one time-step correspond (or align) to those at a later time-step. The alignment (or correspondence) problem has impeded progress towards using object representations in downstream tasks. In this paper we take steps towards solving the alignment problem, presenting the AlignNet, an unsupervised alignment module.
翻訳日:2022-11-09 12:56:19 公開日:2020-07-21
# 動的3次元顔表情をカスタマイズする学習

Learning to Generate Customized Dynamic 3D Facial Expressions ( http://arxiv.org/abs/2007.09805v2 )

ライセンス: Link先を確認
Rolandos Alexandros Potamias, Jiali Zheng, Stylianos Ploumpis, Giorgos Bouritsas, Evangelos Ververas, Stefanos Zafeiriou(参考訳) 深層学習の最近の進歩は、単一の画像が与えられた写真リアリスティックビデオアニメーションの最先端を著しく押し上げている。 本稿では,4次元表情に焦点をあてた3次元画像からビデオへの翻訳について検討し,その進歩を3次元領域に推定する。 3次元顔生成モデルは近年広く研究されているが、4次元アニメーションはいまだに研究されていない。 そこで本研究では,1つの中性フレームと表現識別を併用して,階層型エンコーダ・デコーダのようなアーキテクチャを用いて,現実的な高解像度表情を合成する。 さらに、3dメッシュの処理は、画像のようなグリッドのような構造にあるデータに比べれば、ささいな作業である。 グラフ畳み込みによるメッシュ処理の最近の進歩を踏まえ、我々は最近導入された学習可能な演算子を利用して、局所頂点順序を生かしてメッシュ構造に直接作用する。 対象者間の4d表情を一般化するために,180名から6名の表情を4dスキャンした高解像度データセットを用いてモデルを訓練した。 実験の結果, 被験者の身元情報を未知の被験者でも保存し, 高品質な表現を生成できることがわかった。 我々の知る限りでは、これが4次元表情合成の問題に取り組む最初の研究である。

Recent advances in deep learning have significantly pushed the state-of-the-art in photorealistic video animation given a single image. In this paper, we extrapolate those advances to the 3D domain, by studying 3D image-to-video translation with a particular focus on 4D facial expressions. Although 3D facial generative models have been widely explored during the past years, 4D animation remains relatively unexplored. To this end, in this study we employ a deep mesh encoder-decoder like architecture to synthesize realistic high resolution facial expressions by using a single neutral frame along with an expression identification. In addition, processing 3D meshes remains a non-trivial task compared to data that live on grid-like structures, such as images. Given the recent progress in mesh processing with graph convolutions, we make use of a recently introduced learnable operator which acts directly on the mesh structure by taking advantage of local vertex orderings. In order to generalize to 4D facial expressions across subjects, we trained our model using a high resolution dataset with 4D scans of six facial expressions from 180 subjects. Experimental results demonstrate that our approach preserves the subject's identity information even for unseen subjects and generates high quality expressions. To the best of our knowledge, this is the first study tackling the problem of 4D facial expression synthesis.
翻訳日:2022-11-09 00:34:37 公開日:2020-07-21
# オブジェクト中心のマルチビューアグリゲーション

Object-Centric Multi-View Aggregation ( http://arxiv.org/abs/2007.10300v2 )

ライセンス: Link先を確認
Shubham Tulsiani, Or Litany, Charles R. Qi, He Wang, Leonidas J. Guibas(参考訳) 本稿では,半単純化された3次元表現を体積的特徴格子の形で計算するために,オブジェクトのスパースなビュー集合を集約する手法を提案する。 このアプローチの鍵となるのは、オブジェクト中心の標準的な3D座標システムで、カメラのポーズを明示的に見積もることなく、ビューを持ち上げ、そして組み合わせることができます。 画素から標準座標系への対称性対応マッピングの計算により、未知の領域に情報を伝達し、推論中のポーズのあいまいさを頑健に克服できることを示す。 集約表現はボリュームリコンストラクションや新たなビュー合成といった3d推論タスクを実行可能にすると同時に,これらのタスクを使用して,暗黙的あるいはカメラ中心の代替手段と比較して,アグリゲーションアプローチのメリットを実証します。

We present an approach for aggregating a sparse set of views of an object in order to compute a semi-implicit 3D representation in the form of a volumetric feature grid. Key to our approach is an object-centric canonical 3D coordinate system into which views can be lifted, without explicit camera pose estimation, and then combined -- in a manner that can accommodate a variable number of views and is view order independent. We show that computing a symmetry-aware mapping from pixels to the canonical coordinate system allows us to better propagate information to unseen regions, as well as to robustly overcome pose ambiguities during inference. Our aggregate representation enables us to perform 3D inference tasks like volumetric reconstruction and novel view synthesis, and we use these tasks to demonstrate the benefits of our aggregation approach as compared to implicit or camera-centric alternatives.
翻訳日:2022-11-08 14:05:42 公開日:2020-07-21
# ジェネリック2次元医用画像分類のためのDistractor-Aware Neuron Intrinsic Learning

Distractor-Aware Neuron Intrinsic Learning for Generic 2D Medical Image Classifications ( http://arxiv.org/abs/2007.09979v2 )

ライセンス: Link先を確認
Lijun Gong, Kai Ma, Yefeng Zheng(参考訳) 医療画像解析はcadx(computer assisted diagnosis)の恩恵を受ける。 基本的な分析手法は、皮膚病変の診断、糖尿病性網膜症のグレーディング、および組織像の癌分類に役立つ医用画像の分類である。 これらの識別型分類器を学習する際には、畳み込みニューラルネットワーク(CNN)が障害に弱いことが観察される。 これは、異なるカテゴリー(すなわちクラス間の小さな距離)の類似したサンプルの出現によるものである。 既存の試行では、分類器に対する潜在的な効果を経験的に推定することで、入力画像からインタプリタを選択する。 これらの障害がCNN分類にどのように影響するかは分かっていない。 本稿では,ニューロン固有の学習手法を提案することで,CNN特徴空間からの逸脱を探索する。 我々は,特徴空間における原画像と特徴空間との距離を広くする新たなトラクタ認識損失を定式化する。 新たな損失は、元の分類損失と組み合わせて、バックプロパゲーションによってネットワークパラメータを更新する。 ニューロン固有の学習は、まず深層分類器に不可欠な障害を探索し、その後CNNを本質的に強固にする。 医用画像ベンチマークデータセットに関する広範な実験は,提案手法が最先端のアプローチに好適に作用することを示している。

Medical image analysis benefits Computer Aided Diagnosis (CADx). A fundamental analyzing approach is the classification of medical images, which serves for skin lesion diagnosis, diabetic retinopathy grading, and cancer classification on histological images. When learning these discriminative classifiers, we observe that the convolutional neural networks (CNNs) are vulnerable to distractor interference. This is due to the similar sample appearances from different categories (i.e., small inter-class distance). Existing attempts select distractors from input images by empirically estimating their potential effects to the classifier. The essences of how these distractors affect CNN classification are not known. In this paper, we explore distractors from the CNN feature space via proposing a neuron intrinsic learning method. We formulate a novel distractor-aware loss that encourages large distance between the original image and its distractor in the feature space. The novel loss is combined with the original classification loss to update network parameters by back-propagation. Neuron intrinsic learning first explores distractors crucial to the deep classifier and then uses them to robustify CNN inherently. Extensive experiments on medical image benchmark datasets indicate that the proposed method performs favorably against the state-of-the-art approaches.
翻訳日:2022-11-08 14:00:02 公開日:2020-07-21
# GREEN : 糖尿病網膜症に対するグラフ残差rEレベルネットワーク

GREEN: a Graph REsidual rE-ranking Network for Grading Diabetic Retinopathy ( http://arxiv.org/abs/2007.09968v2 )

ライセンス: Link先を確認
Shaoteng Liu, Lijun Gong, Kai Ma, Yefeng Zheng(参考訳) 糖尿病網膜症(DR)の自動グレーディングは、患者と医師の両方の医療診断を促進する。 既存の研究は画像分類問題としてDRグレーディングを定式化している。 DRのステージ/カテゴリは相互に相関しているため、異なる結果を持つ異なる医師によって実験的に推定されるため、異なるクラス間の関係は1ホットラベルで明確に説明できない。 このクラス相関は、既存のネットワークを効果的に分類するために制限する。 本稿では,元の画像分類ネットワークに先行してクラス依存性を導入するグラフ残差再ランキングネットワーク(green)を提案する。 クラス依存性優先は、隣接行列を持つグラフ畳み込みネットワークによって表現される。 この以前の画像分類パイプラインは、再ランク付けにより、残差集約方式で画像分類を行う。 標準ベンチマークの実験では、GREENは最先端のアプローチに対して好意的に機能することが示された。

The automatic grading of diabetic retinopathy (DR) facilitates medical diagnosis for both patients and physicians. Existing researches formulate DR grading as an image classification problem. As the stages/categories of DR correlate with each other, the relationship between different classes cannot be explicitly described via a one-hot label because it is empirically estimated by different physicians with different outcomes. This class correlation limits existing networks to achieve effective classification. In this paper, we propose a Graph REsidual rE-ranking Network (GREEN) to introduce a class dependency prior into the original image classification network. The class dependency prior is represented by a graph convolutional network with an adjacency matrix. This prior augments image classification pipeline by re-ranking classification results in a residual aggregation manner. Experiments on the standard benchmarks have shown that GREEN performs favorably against state-of-the-art approaches.
翻訳日:2022-11-08 13:47:42 公開日:2020-07-21
# 形態素スキップグラム:形態素知識を用いた単語表現の改善

Morphological Skip-Gram: Using morphological knowledge to improve word representation ( http://arxiv.org/abs/2007.10055v2 )

ライセンス: Link先を確認
Fl\'avio Santos, Hendrik Macedo, Thiago Bispo, Cleber Zanchettin(参考訳) 自然言語処理モデルは、ディープラーニングコミュニティに大きな関心を集めている。 この研究の分野は、機械翻訳、感情分析、名前付きエンティティ認識、質問と回答など、いくつかの応用から成り立っている。 単語埋め込みは連続した単語表現であり、これらのアプリケーションにとって不可欠なモジュールであり、一般的にディープラーニングモデルの入力語表現として使用される。 Word2VecとGloVeは、単語埋め込みを学ぶ2つの一般的な方法である。 しかし,単語の形態的情報を無視し,各単語に対して1つの表現ベクトルしか考慮しないため,限られた情報で表現を学習する。 このアプローチは、Word2VecとGloVeが単語の内部構造を知らないことを意味する。 この問題を緩和するため、FastTextモデルは各単語を n-gram 文字の袋として表現する。 したがって、各 n-gram は連続ベクトル表現を持ち、最後のワード表現はその文字 n-grams ベクトルの和である。 それでも、単語のすべての n-gram 文字の使用は、いくつかの n-gram は単語と意味的関係がなく、潜在的に役に立たない情報の量を増やすため、不十分なアプローチである。 このアプローチはトレーニングフェーズタイムも増加させる。 本研究では,単語の埋め込みを学習するための新しい手法を提案する。その目的は,単語のモルフォロジー解析を通じて,文字n-gramのFastTextバッグを単語形態素の袋に置き換えることである。 したがって、類似した文脈と形態素を持つ単語は互いに近いベクトルで表される。 提案手法を評価するために,15のタスクを考慮した本質的な評価を行い,FastTextと比較した場合の競合性能を示した。

Natural language processing models have attracted much interest in the deep learning community. This branch of study is composed of some applications such as machine translation, sentiment analysis, named entity recognition, question and answer, and others. Word embeddings are continuous word representations, they are an essential module for those applications and are generally used as input word representation to the deep learning models. Word2Vec and GloVe are two popular methods to learn word embeddings. They achieve good word representations, however, they learn representations with limited information because they ignore the morphological information of the words and consider only one representation vector for each word. This approach implies that Word2Vec and GloVe are unaware of the word inner structure. To mitigate this problem, the FastText model represents each word as a bag of characters n-grams. Hence, each n-gram has a continuous vector representation, and the final word representation is the sum of its characters n-grams vectors. Nevertheless, the use of all n-grams character of a word is a poor approach since some n-grams have no semantic relation with their words and increase the amount of potentially useless information. This approach also increases the training phase time. In this work, we propose a new method for training word embeddings, and its goal is to replace the FastText bag of character n-grams for a bag of word morphemes through the morphological analysis of the word. Thus, words with similar context and morphemes are represented by vectors close to each other. To evaluate our new approach, we performed intrinsic evaluations considering 15 different tasks, and the results show a competitive performance compared to FastText.
翻訳日:2022-11-08 12:38:38 公開日:2020-07-21
# エッジインテリジェンスのための学習中心のパワー割り当て

Learning Centric Power Allocation for Edge Intelligence ( http://arxiv.org/abs/2007.11399v1 )

ライセンス: Link先を確認
Shuai Wang, Rui Wang, Qi Hao, Yik-Chung Wu, and H. Vincent Poor(参考訳) 機械型通信(MTC)デバイスは大量のデータを生成するが、限られたエネルギーと計算能力のために処理できないことが多い。 この目的のためにエッジインテリジェンスが提案され、分散データを収集し、エッジで機械学習を実行する。 しかし、このパラダイムは通信スループットではなく学習性能を最大化することが必要であり、無線チャネルの品質に応じてリソースを割り当てるだけで、有望な水充填アルゴリズムと最大ミンフェアネスアルゴリズムは効率が悪くなる。 本稿では,経験的分類誤差モデルに基づいて無線資源を割り当てる学習中心電力割当(lcpa)手法を提案する。 LCPAの知見を得るために、漸近的最適解が導出される。 この解は、送信電力がチャネルゲインに逆比例し、学習パラメータと指数関数的にスケールすることを示す。 実験の結果,lcpaアルゴリズムは他の電力割当アルゴリズムを大きく上回ることがわかった。

While machine-type communication (MTC) devices generate massive data, they often cannot process this data due to limited energy and computation power. To this end, edge intelligence has been proposed, which collects distributed data and performs machine learning at the edge. However, this paradigm needs to maximize the learning performance instead of the communication throughput, for which the celebrated water-filling and max-min fairness algorithms become inefficient since they allocate resources merely according to the quality of wireless channels. This paper proposes a learning centric power allocation (LCPA) method, which allocates radio resources based on an empirical classification error model. To get insights into LCPA, an asymptotic optimal solution is derived. The solution shows that the transmit powers are inversely proportional to the channel gain, and scale exponentially with the learning parameters. Experimental results show that the proposed LCPA algorithm significantly outperforms other power allocation algorithms.
翻訳日:2022-11-08 05:55:27 公開日:2020-07-21
# 統一されたマルチセンサー知覚:弱教師付き視聴覚映像解析

Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2007.10558v1 )

ライセンス: Link先を確認
Yapeng Tian, Dingzeyu Li, and Chenliang Xu(参考訳) 本稿では,映像を時間的イベントセグメントに解析し,可聴性,可視性,あるいはその両方にラベル付けすることを目的とした,音声・視覚映像解析という新しい問題を提案する。 このような問題は、ビデオ内で描かれたシーンの完全な理解に不可欠である。 探索を容易にするために、Look, Listen, Parse(LLP)データセットを収集し、弱い教師付きで音声・視覚ビデオ解析を調査する。 このタスクは、自然にMultimodal Multiple Instance Learning (MMIL)問題として定式化することができる。 具体的には,一様・一様の時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。 我々は,時間的範囲やモダリティの異なる有用な音声および視覚コンテンツを適応的に探索する,注意深いMMILプーリング法を開発した。 さらに,個別誘導学習機構とラベル平滑化手法を用いて,モダリティバイアスとノイズラベル問題を発見し,軽減する。 実験の結果,ビデオレベルの弱いラベルだけでも難解な音声・映像解析が可能となった。 提案手法は,ユニモーダルとクロスモーダルの時間的文脈を効果的に活用し,モダリティバイアスやノイズラベル問題を軽減する。

In this paper, we introduce a new problem, named audio-visual video parsing, which aims to parse a video into temporal event segments and label them as either audible, visible, or both. Such a problem is essential for a complete understanding of the scene depicted inside a video. To facilitate exploration, we collect a Look, Listen, and Parse (LLP) dataset to investigate audio-visual video parsing in a weakly-supervised manner. This task can be naturally formulated as a Multimodal Multiple Instance Learning (MMIL) problem. Concretely, we propose a novel hybrid attention network to explore unimodal and cross-modal temporal contexts simultaneously. We develop an attentive MMIL pooling method to adaptively explore useful audio and visual content from different temporal extent and modalities. Furthermore, we discover and mitigate modality bias and noisy label issues with an individual-guided learning mechanism and label smoothing technique, respectively. Experimental results show that the challenging audio-visual video parsing can be achieved even with only video-level weak labels. Our proposed framework can effectively leverage unimodal and cross-modal temporal contexts and alleviate modality bias and noisy labels problems.
翻訳日:2022-11-08 05:51:54 公開日:2020-07-21
# SLNSpeech:手話による拡張音声分離問題の解法

SLNSpeech: solving extended speech separation problem by the help of sign language ( http://arxiv.org/abs/2007.10629v1 )

ライセンス: Link先を確認
Jiasong Wu, Taotao Li, Youyong Kong, Guanyu Yang, Lotfi Senhadji, Huazhong Shu(参考訳) 音声分離タスクは、大まかに音声のみ分離と音声・視覚分離に分けられる。 本稿では,障害者の現実シナリオに音声分離技術を適用するために,特に手話支援音声分離に言及した拡張音声分離問題を提案する。 しかし、既存の音声分離のためのデータセットのほとんどは、音声や映像を含むオーディオやビデオである。 拡張音声分離問題に対処するために,音声,視覚,手話の3つのモダリティが共存する,手話ニュース音声(slnspeech)データセットという大規模データセットを導入する。 次に,3つのモダリティの自己教師あり学習のための汎用深層学習ネットワークを設計,特に手話の組込みと音声や視聴覚情報を併用することにより,音声分離課題の解法を改善する。 具体的には,3次元残差畳み込みネットワークを用いて手話の特徴を抽出し,事前学習したVGGNetモデルを用いて視覚的特徴を正確に表現する。 その後、ソースオーディオから変換された混合スペクトログラム、手話特徴、視覚特徴の埋め込みを学習するために、特徴抽出段階におけるスキップ接続を備えた改良されたu-netが適用される。 実験の結果,視覚的モダリティに加えて,手話のモダリティも単独で音声分離作業の監督に利用できることがわかった。 また,視覚的モダリティが乱される場合に手話支援音声分離の有効性を示す。 ソースコードはhttp://cheertt.top/homepage/でリリースされる。

A speech separation task can be roughly divided into audio-only separation and audio-visual separation. In order to make speech separation technology applied in the real scenario of the disabled, this paper presents an extended speech separation problem which refers in particular to sign language assisted speech separation. However, most existing datasets for speech separation are audios and videos which contain audio and/or visual modalities. To address the extended speech separation problem, we introduce a large-scale dataset named Sign Language News Speech (SLNSpeech) dataset in which three modalities of audio, visual, and sign language are coexisted. Then, we design a general deep learning network for the self-supervised learning of three modalities, particularly, using sign language embeddings together with audio or audio-visual information for better solving the speech separation task. Specifically, we use 3D residual convolutional network to extract sign language features and use pretrained VGGNet model to exact visual features. After that, an improved U-Net with skip connections in feature extraction stage is applied for learning the embeddings among the mixed spectrogram transformed from source audios, the sign language features and visual features. Experiments results show that, besides visual modality, sign language modality can also be used alone to supervise speech separation task. Moreover, we also show the effectiveness of sign language assisted speech separation when the visual modality is disturbed. Source code will be released in http://cheertt.top/homepage/
翻訳日:2022-11-08 05:51:32 公開日:2020-07-21
# 話者自動検証のためのデータ駆動フィルタバンクの最適化

Optimization of data-driven filterbank for automatic speaker verification ( http://arxiv.org/abs/2007.10729v1 )

ライセンス: Link先を確認
Susanta Sarangi, Md Sahidullah, Goutam Saha(参考訳) ほとんどの音声処理アプリケーションは、特徴抽出のためにメルスケールの三角形フィルタを使用する。 本稿では,与えられた音声データからフィルタパラメータを最適化する新しいデータ駆動フィルタ設計法を提案する。 まず,フレーム選択に基づく音声信号に基づく周波数ワープ尺度を提案する。 そこで本研究では,主成分分析(PCA)を用いたフィルタ周波数応答の計算手法を提案する。 最近導入されたディープラーニングベースの手法よりも,提案手法の主な利点は,ラベルなしの音声データが非常に少ないことだ。 提案するフィルタバンクは,一般的なメルフィルタバンクや既存のデータ駆動フィルタバンクよりも話者識別能力が高いことを示す。 様々な分類器のバックエンドを用いて、異なるコーパスを用いて自動話者検証(ASV)実験を行う。 提案するフィルタバンクを用いた音響特性は,既存のメル周波数ケプストラム係数 (MFCC) や音声信号に基づく周波数ケプストラム係数 (SFCC) よりも優れていた。 VoxCeleb1とi-vectorバックエンドを用いた実験では、MFCCに対するEERの相対的な改善が9.75%である。 同様に、最近導入されたxベクターシステムによる相対的な改善は4.43%である。 提案手法と標準MFCCアプローチとの融合により,さらなる改良が得られた。

Most of the speech processing applications use triangular filters spaced in mel-scale for feature extraction. In this paper, we propose a new data-driven filter design method which optimizes filter parameters from a given speech data. First, we introduce a frame-selection based approach for developing speech-signal-based frequency warping scale. Then, we propose a new method for computing the filter frequency responses by using principal component analysis (PCA). The main advantage of the proposed method over the recently introduced deep learning based methods is that it requires very limited amount of unlabeled speech-data. We demonstrate that the proposed filterbank has more speaker discriminative power than commonly used mel filterbank as well as existing data-driven filterbank. We conduct automatic speaker verification (ASV) experiments with different corpora using various classifier back-ends. We show that the acoustic features created with proposed filterbank are better than existing mel-frequency cepstral coefficients (MFCCs) and speech-signal-based frequency cepstral coefficients (SFCCs) in most cases. In the experiments with VoxCeleb1 and popular i-vector back-end, we observe 9.75% relative improvement in equal error rate (EER) over MFCCs. Similarly, the relative improvement is 4.43% with recently introduced x-vector system. We obtain further improvement using fusion of the proposed method with standard MFCC-based approach.
翻訳日:2022-11-08 05:51:08 公開日:2020-07-21
# FPGAによる高速フェデレート学習のための同型暗号化ハードウェア加速器

FPGA-Based Hardware Accelerator of Homomorphic Encryption for Efficient Federated Learning ( http://arxiv.org/abs/2007.10560v1 )

ライセンス: Link先を確認
Zhaoxiong Yang, Shuihai Hu, Kai Chen(参考訳) プライバシー保護とデータの断片化問題に対する認識が高まり、機械学習の新しいパラダイムとしてフェデレーション学習が登場している。 フェデレーション学習は、転送された中間データを保護するために様々なプライバシー保護機構を利用する傾向がある。 しかし、複雑な操作と大きなオペランドは、連合学習にかなりのオーバーヘッドを課す。 精度とセキュリティをより効率的に維持することは、連合学習の重要な問題だった。 本研究では,ハードウェアソリューションについて検討し,FPGAベースの同型暗号フレームワークを設計し,フェデレート学習におけるトレーニングフェーズの高速化を目指す。 根の複雑さは、高い暗号化スループットと構成の柔軟性に関する連合学習の要件を満たすため、準同型暗号のコア操作のためのコンパクトなアーキテクチャを求めることである。 本フレームワークは,高レベル合成によるフレキシビリティとポータビリティを実現し,クロックサイクル,リソース使用量,クロック周波数を考慮し,モジュール乗算操作を慎重に最適化する。 我々の加速器は、既存の設計よりもDSP効率が良いほぼ最適実行クロックサイクルを実現し、各種フェデレート学習モデルの学習過程において、暗号化時間を最大71%削減する。

With the increasing awareness of privacy protection and data fragmentation problem, federated learning has been emerging as a new paradigm of machine learning. Federated learning tends to utilize various privacy preserving mechanisms to protect the transferred intermediate data, among which homomorphic encryption strikes a balance between security and ease of utilization. However, the complicated operations and large operands impose significant overhead on federated learning. Maintaining accuracy and security more efficiently has been a key problem of federated learning. In this work, we investigate a hardware solution, and design an FPGA-based homomorphic encryption framework, aiming to accelerate the training phase in federated learning. The root complexity lies in searching for a compact architecture for the core operation of homomorphic encryption, to suit the requirement of federated learning about high encryption throughput and flexibility of configuration. Our framework implements the representative Paillier homomorphic cryptosystem with high level synthesis for flexibility and portability, with careful optimization on the modular multiplication operation in terms of processing clock cycle, resource usage and clock frequency. Our accelerator achieves a near-optimal execution clock cycle, with a better DSP-efficiency than existing designs, and reduces the encryption time by up to 71% during training process of various federated learning models.
翻訳日:2022-11-08 05:50:33 公開日:2020-07-21
# Twitterから政治的選好を推測する

Inferring Political Preferences from Twitter ( http://arxiv.org/abs/2007.10604v1 )

ライセンス: Link先を確認
Mohd Zeeshan Ansari, Areesha Fatima Siddiqui and Mohammad Anas(参考訳) 感情分析は、あるエンティティやそのエンティティの何らかの側面に対するユーザの意見や感情を自動的に分析するタスクである。 ソーシャルメディアの政治的センチメント分析は、政治ストラテジストが政党や候補者のパフォーマンスを精査し、実際の選挙よりもずっと前にその弱点を即興するのに役立つ。 選挙期間中、ソーシャルネットワークには、ブログ、チャット、議論、政党や政治家の展望に関する議論が溢れている。 生成されたデータ量は、最新の技術を使って推論を研究、分析、描画するのに非常に大きい。 twitterは、ドメイン固有のデータ準備を可能にする最も人気のあるソーシャルメディアプラットフォームの1つです。 本研究では,古典的機械学習を用いたテキスト分類問題としてモデル化することで,ツイートに含まれる政治的意見の傾向を明らかにすることを選んだ。 2020年のデリー選挙に関するツイートが抽出され、このタスクに使用される。 いくつかのアルゴリズムのうち、Support Vector Machinesは最高のパフォーマンスを表現している。

Sentiment analysis is the task of automatic analysis of opinions and emotions of users towards an entity or some aspect of that entity. Political Sentiment Analysis of social media helps the political strategists to scrutinize the performance of a party or candidate and improvise their weaknesses far before the actual elections. During the time of elections, the social networks get flooded with blogs, chats, debates and discussions about the prospects of political parties and politicians. The amount of data generated is much large to study, analyze and draw inferences using the latest techniques. Twitter is one of the most popular social media platforms enables us to perform domain-specific data preparation. In this work, we chose to identify the inclination of political opinions present in Tweets by modelling it as a text classification problem using classical machine learning. The tweets related to the Delhi Elections in 2020 are extracted and employed for the task. Among the several algorithms, we observe that Support Vector Machines portrays the best performance.
翻訳日:2022-11-08 05:50:12 公開日:2020-07-21
# 動的機械学習による密集層状物体の有限角度断層像再構成

Limited-angle tomographic reconstruction of dense layered objects by dynamical machine learning ( http://arxiv.org/abs/2007.10734v1 )

ライセンス: Link先を確認
Iksung Kang, Alexandre Goy, George Barbastathis(参考訳) 強い散乱した準透明物体の有限角トモグラフィーは、医用および生物学的イメージング、製造、自動化、および環境および食品の安全性に実際的な影響を持つ、非常に困難な、非常に不適切な問題である。 このような問題の条件を改善することにより、アーティファクトの正規化が求められる。 近年, 階層化やマンハッタンなど, 強く散乱するが高度に構造化された3Dオブジェクトの事前学習には静的ニューラルネットワーク (Goy et al, Proc. Natl. Acad. Sci. 116, 19848-19856 (2019)) が有効であることが示されている。 本稿では,多角からの生画像の収集を物体依存前方散乱作用素によって駆動される力学系に類似させる,根本的に異なるアプローチを提案する。 照明角度のシーケンス指数は力学系アナロジーにおける離散時間の役割を担っている。 したがって、イメージング問題は非線形システム同定の問題に変わり、また、リコンストラクションを正則化するのに適した動的学習を示唆する。 我々は,新しい分割畳み込みゲートリカレントユニット(SC-GRU)を基本構造として,リカレントニューラルネットワーク(RNN)アーキテクチャを考案した。 複数の定量的指標を包括的に比較した結果,従来の静的アプローチでは,アーティファクトが少なく,全体的な再現性も向上した。

Limited-angle tomography of strongly scattering quasi-transparent objects is a challenging, highly ill-posed problem with practical implications in medical and biological imaging, manufacturing, automation, and environmental and food security. Regularizing priors are necessary to reduce artifacts by improving the condition of such problems. Recently, it was shown that one effective way to learn the priors for strongly scattering yet highly structured 3D objects, e.g. layered and Manhattan, is by a static neural network [Goy et al, Proc. Natl. Acad. Sci. 116, 19848-19856 (2019)]. Here, we present a radically different approach where the collection of raw images from multiple angles is viewed analogously to a dynamical system driven by the object-dependent forward scattering operator. The sequence index in angle of illumination plays the role of discrete time in the dynamical system analogy. Thus, the imaging problem turns into a problem of nonlinear system identification, which also suggests dynamical learning as better fit to regularize the reconstructions. We devised a recurrent neural network (RNN) architecture with a novel split-convolutional gated recurrent unit (SC-GRU) as the fundamental building block. Through comprehensive comparison of several quantitative metrics, we show that the dynamic method improves upon previous static approaches with fewer artifacts and better overall reconstruction fidelity.
翻訳日:2022-11-08 05:49:55 公開日:2020-07-21
# smtソルバを用いたリアプノフ関数の自動合成と音合成

Automated and Sound Synthesis of Lyapunov Functions with SMT Solvers ( http://arxiv.org/abs/2007.10865v1 )

ライセンス: Link先を確認
Daniele Ahmed, Andrea Peruffo, Alessandro Abate(参考訳) 本稿では、与えられた力学モデルの安定性を主張するリアプノフ関数を音声合成するためにSMTソルバを用いる。 リアプノフ関数の探索は、2階論理公式の充足可能性として構成され、モデルのすべての可能な初期条件に対して所望の仕様(安定性)を満たす関数が存在するかどうかを問う。 我々は線形、非線形(多項)、パラメトリックモデルに対してリアプノフ関数を合成する。 非線形モデルに対しては、このアルゴリズムはリャプノフ関数の妥当性の領域も決定する。 パラメトリックテンプレートからLyapunov関数を合成するための帰納的フレームワークを利用する。 学習者はリアプノフ関数を提案し、検証者はその妥当性を確認し、その欠如は反例(状態空間上の点)を介して表現され、学習者がさらに利用する。 検証者はSMTソルバZ3を用いて,手順の全体的健全性を確保する一方で,最適化ツールGurobiに基づく数値的アプローチと,Z3に基づく音響的アプローチの2つの選択肢を検討した。 この手法は, 妥当な計算時間内に10次元モデルにスケールするだけでなく, 生成したリアプノフ関数とその有効領域に対する新しい音響性証明を提供することを示す。

In this paper we employ SMT solvers to soundly synthesise Lyapunov functions that assert the stability of a given dynamical model. The search for a Lyapunov function is framed as the satisfiability of a second-order logical formula, asking whether there exists a function satisfying a desired specification (stability) for all possible initial conditions of the model. We synthesise Lyapunov functions for linear, non-linear (polynomial), and for parametric models. For non-linear models, the algorithm also determines a region of validity for the Lyapunov function. We exploit an inductive framework to synthesise Lyapunov functions, starting from parametric templates. The inductive framework comprises two elements: a learner proposes a Lyapunov function, and a verifier checks its validity - its lack is expressed via a counterexample (a point over the state space), for further use by the learner. Whilst the verifier uses the SMT solver Z3, thus ensuring the overall soundness of the procedure, we examine two alternatives for the learner: a numerical approach based on the optimisation tool Gurobi, and a sound approach based again on Z3. The overall technique is evaluated over a broad set of benchmarks, which shows that this methodology not only scales to 10-dimensional models within reasonable computational time, but also offers a novel soundness proof for the generated Lyapunov functions and their domains of validity.
翻訳日:2022-11-08 05:49:30 公開日:2020-07-21
# リモートセンシングと深層学習による作物収量の推定

Estimating crop yields with remote sensing and deep learning ( http://arxiv.org/abs/2007.10882v1 )

ライセンス: Link先を確認
Renato Luiz de Freitas Cunha, Bruno Silva(参考訳) 収穫量推定の精度の向上は、作物生産チェーン全体の改善を可能にし、農家が収穫計画の改善を可能にし、保険会社は生産のリスクをよりよく理解し、いくつかの利点を挙げることができる。 予測を行うため、現在の機械学習モデルでは、雲の存在と取得した画像の影、特に発展途上国において、大規模で信頼性の高い作物マスクがないため、使用が難しいNDVIデータを使用することが多い。 本稿では,5つの異なる作物に対するプレシーズンおよびインシーズン予測を行うことができる深層学習モデルを提案する。 本モデルでは、収穫カレンダー、リモートセンシングデータ、天気予報情報を用いて正確な収量推定を行う。

Increasing the accuracy of crop yield estimates may allow improvements in the whole crop production chain, allowing farmers to better plan for harvest, and for insurers to better understand risks of production, to name a few advantages. To perform their predictions, most current machine learning models use NDVI data, which can be hard to use, due to the presence of clouds and their shadows in acquired images, and due to the absence of reliable crop masks for large areas, especially in developing countries. In this paper, we present a deep learning model able to perform pre-season and in-season predictions for five different crops. Our model uses crop calendars, easy-to-obtain remote sensing data and weather forecast information to provide accurate yield estimates.
翻訳日:2022-11-08 05:49:08 公開日:2020-07-21
# 訂正的コミット確率コード品質指標

The Corrective Commit Probability Code Quality Metric ( http://arxiv.org/abs/2007.10912v1 )

ライセンス: Link先を確認
Idan Amit and Dror G. Feitelson(参考訳) 我々は,コミットが補正的メンテナンスを反映する確率を測定するccp(precisive commit probability)というコード品質指標を提案する。 この基準は開発者の品質、情報、安定性の概念と一致している。 訂正コミットはコミットメッセージに言語モデルを適用することで識別される。 訂正コミットはコミットメッセージに言語モデルを適用することで識別される。 私たちは、すべての大規模なgithubプロジェクト(2019年に少なくとも200コミットの7,557プロジェクト)のccpを計算しています。 これにより、品質のスケールが作成され、品質プロジェクトの下位10%が、上位10%よりもバグの修正に少なくとも6倍の労力を費やすことが示唆される。 プロジェクト属性の分析によると、低いCCP(高品質)は、小さなファイル、低い結合、PHPやC++とは対照的にJavaScriptやC#のような言語の使用、開発者の減少、開発者の混乱、より良いオンボーディング、生産性に結びついている。 これらの結果は“Quality is Free”の主張を支持し、より高い品質を達成するためには高いコストを必要としないことを示唆している。

We present a code quality metric, Corrective Commit Probability (CCP), measuring the probability that a commit reflects corrective maintenance. We show that this metric agrees with developers' concept of quality, informative, and stable. Corrective commits are identified by applying a linguistic model to the commit messages. Corrective commits are identified by applying a linguistic model to the commit messages. We compute the CCP of all large active GitHub projects (7,557 projects with at least 200 commits in 2019). This leads to the creation of a quality scale, suggesting that the bottom 10% of quality projects spend at least 6 times more effort on fixing bugs than the top 10%. Analysis of project attributes shows that lower CCP (higher quality) is associated with smaller files, lower coupling, use of languages like JavaScript and C# as opposed to PHP and C++, fewer developers, lower developer churn, better onboarding, and better productivity. Among other things these results support the "Quality is Free" claim, and suggest that achieving higher quality need not require higher expenses.
翻訳日:2022-11-08 05:42:25 公開日:2020-07-21
# モンテカルロ探索開始による強化学習の収束について

On the Convergence of Reinforcement Learning with Monte Carlo Exploring Starts ( http://arxiv.org/abs/2007.10916v1 )

ライセンス: Link先を確認
Jun Liu(参考訳) シミュレーションに基づく強化学習アルゴリズムはモンテカルロ探索法(montal carlo exploration states, mces)法であり、これは楽観的政策反復としても知られ、値関数はシミュレーションされた帰納法によって近似され、各イテレーションで欲張りな方針が選択される。 一般設定におけるこのアルゴリズムの収束はオープンな問題である。 本稿では, 確率的最短経路問題としても知られる, 未計算コストのケースに対するアルゴリズムの収束性について検討する。 この結果は、既存の部分的な結果を補完し、オープンな問題を解決するのに役立つ。 副作用として、確率近似でよく用いられるスーパーマリンゲール収束定理のバージョンの証明も提供する。

A basic simulation-based reinforcement learning algorithm is the Monte Carlo Exploring States (MCES) method, also known as optimistic policy iteration, in which the value function is approximated by simulated returns and a greedy policy is selected at each iteration. The convergence of this algorithm in the general setting has been an open question. In this paper, we investigate the convergence of this algorithm for the case with undiscounted costs, also known as the stochastic shortest path problem. The results complement existing partial results on this topic and thereby helps further settle the open problem. As a side result, we also provide a proof of a version of the supermartingale convergence theorem commonly used in stochastic approximation.
翻訳日:2022-11-08 05:42:09 公開日:2020-07-21
# 計算因果推論

Computational Causal Inference ( http://arxiv.org/abs/2007.10979v1 )

ライセンス: Link先を確認
Jeffrey C. Wong(参考訳) 本稿では,因果推論,アルゴリズム設計,数値計算を横断する学際分野として計算因果推論を導入する。 この分野は、多種多様な因果効果を持つ膨大なデータセットを、高性能で汎用的で堅牢な方法で分析できる因果推論に特化したソフトウェアの開発を目指している。 ソフトウェアにフォーカスすることで、研究のアジリティが向上し、因果推論が大規模エンジニアリングシステムに簡単に統合できるようになる。 特に,計算因果推論を用いて因果推論,オンライン実験,アルゴリズム的意思決定の関係を深める。 本稿では,新たな分野,需要,スケーラビリティの機会,オープンな課題について述べるとともに,因果推論と意思決定をスケールするための課題をコミュニティが一体化して解決する方法についての議論を始める。

We introduce computational causal inference as an interdisciplinary field across causal inference, algorithms design and numerical computing. The field aims to develop software specializing in causal inference that can analyze massive datasets with a variety of causal effects, in a performant, general, and robust way. The focus on software improves research agility, and enables causal inference to be easily integrated into large engineering systems. In particular, we use computational causal inference to deepen the relationship between causal inference, online experimentation, and algorithmic decision making. This paper describes the new field, the demand, opportunities for scalability, open challenges, and begins the discussion for how the community can unite to solve challenges for scaling causal inference and decision making.
翻訳日:2022-11-08 05:41:57 公開日:2020-07-21
# 気候外因性変数を併用した人工知能を用いたブラジルおよびアメリカのcovid-19症例の予測

Forecasting Brazilian and American COVID-19 cases based on artificial intelligence coupled with climatic exogenous variables ( http://arxiv.org/abs/2007.10981v1 )

ライセンス: Link先を確認
Ramon Gomes da Silva, Matheus Henrique Dal Molin Ribeiro, Viviana Cocco Mariani, Leandro dos Santos Coelho(参考訳) 世界保健機関(who)によると、新型コロナウイルス(covid-19)は2020年6月10日までに7100万人以上が感染し、全世界で4万人以上が死亡した。 現在のシナリオでは、ブラジルと米国は毎日、新しいケースや死亡の頻度が高い。 新型コロナウイルス(covid-19)対策の戦略的計画を策定する公衆衛生システムの助けになるため、新規感染者を1週間のタイムウィンドウで予測することが重要だ。 本稿では, ベイズ回帰ニューラルネットワーク, キュビスト回帰, k-ネアレスト近傍, 量子乱林, 支持ベクトル回帰を用い, 時系列を複数の固有モード関数に分解するために, 最近の前処理変分モード分解(VMD)と組み合わせた。 すべての人工知能技術は、2020年4月28日までのブラジルとアメリカの5州で、累積感染者の1日、3日、6日の時系列予測のタスクで評価される。 全予測モデルのインプットとして,過去の累積covid-19例と日内気温と降水量としての外因性変数を用いた。 vmdのハイブリダイゼーションは精度に関して単一の予測モデルよりも優れており、特に地平線が6日先であれば70%のケースで精度が向上した。 外因性変数に関して、予測変数としての重要性は過去のケース、温度、降水量である。 累積感染者を最大6日前に予測するための評価モデルの効率のため、導入モデルは予測のための有望なモデルとして推奨され、新型コロナウイルスの感染拡大を緩和するための公共政策の開発に役立てられる。

The novel coronavirus disease (COVID-19) is a public health problem once according to the World Health Organization up to June 10th, 2020, more than 7.1 million people were infected, and more than 400 thousand have died worldwide. In the current scenario, the Brazil and the United States of America present a high daily incidence of new cases and deaths. It is important to forecast the number of new cases in a time window of one week, once this can help the public health system developing strategic planning to deals with the COVID-19. In this paper, Bayesian regression neural network, cubist regression, k-nearest neighbors, quantile random forest, and support vector regression, are used stand-alone, and coupled with the recent pre-processing variational mode decomposition (VMD) employed to decompose the time series into several intrinsic mode functions. All Artificial Intelligence techniques are evaluated in the task of time-series forecasting with one, three, and six-days-ahead the cumulative COVID-19 cases in five Brazilian and American states up to April 28th, 2020. Previous cumulative COVID-19 cases and exogenous variables as daily temperature and precipitation were employed as inputs for all forecasting models. The hybridization of VMD outperformed single forecasting models regarding the accuracy, specifically when the horizon is six-days-ahead, achieving better accuracy in 70% of the cases. Regarding the exogenous variables, the importance ranking as predictor variables is past cases, temperature, and precipitation. Due to the efficiency of evaluated models to forecasting cumulative COVID-19 cases up to six-days-ahead, the adopted models can be recommended as a promising models for forecasting and be used to assist in the development of public policies to mitigate the effects of COVID-19 outbreak.
翻訳日:2022-11-08 05:41:46 公開日:2020-07-21
# 蒸留におけるBERTランキングの理解

Understanding BERT Rankers Under Distillation ( http://arxiv.org/abs/2007.11088v1 )

ライセンス: Link先を確認
Luyu Gao, Zhuyun Dai, Jamie Callan(参考訳) 大規模なコーパスで事前訓練されたBERTのような深層言語モデルは、最先端の情報検索ランキングシステムに大きなパフォーマンス向上をもたらした。 このようなモデルに埋め込まれた知識は、パスとクエリの間の複雑なマッチング信号を拾うことができる。 しかし、推論時の計算コストが高いため、実際の検索シナリオへの展開が制限される。 本稿では, BERT内の検索知識を蒸留によりより小さなランクに転送する方法について検討する。 本実験は, 最先端性能を維持しつつ, 9倍のスピードアップを達成できる適切な蒸留法を用いることが重要であることを示す。

Deep language models such as BERT pre-trained on large corpus have given a huge performance boost to the state-of-the-art information retrieval ranking systems. Knowledge embedded in such models allows them to pick up complex matching signals between passages and queries. However, the high computation cost during inference limits their deployment in real-world search scenarios. In this paper, we study if and how the knowledge for search within BERT can be transferred to a smaller ranker through distillation. Our experiments demonstrate that it is crucial to use a proper distillation procedure, which produces up to nine times speedup while preserving the state-of-the-art performance.
翻訳日:2022-11-08 05:41:17 公開日:2020-07-21
# セミスムースニュートン法に基づくカーネルサポートベクトルマシンの線形化と近似アプローチ

A Semismooth-Newton's-Method-Based Linearization and Approximation Approach for Kernel Support Vector Machines ( http://arxiv.org/abs/2007.11954v1 )

ライセンス: Link先を確認
Chen Jiang and Qingna Li(参考訳) Support Vector Machines (SVM) は最も人気があり、最も優れた分類アルゴリズムである。 カーネルSVMを用いた大規模データセットのトレーニングと予測において,高い計算コストとメモリコストを低減するために,様々なアプローチが提案されている。 人気のあるのは線形化フレームワークで、$L_1$-lossカーネルSVMと$L_1$-lossリニアSVMの橋渡しに成功した。 線形svmでは,最近,セミムースニュートン法が提案されている。 非常に競争力があり、計算コストが低いことが示されている。 したがって、カーネルsvmに対して高速セミムートニュートンのアルゴリズムを開発できるかどうかという自然な疑問がある。 本稿では,この質問と線形化フレームワークのアイデアに動機づけられ,l_2$-loss kernel svmに着目し,半滑らかなニュートン法に基づく線形化と近似アプローチを提案する。 このアプローチの主な考え方は、まず等価線型SVMをセットアップし、次にNystr\"om法を適用して、縮小線形SVMが得られたカーネル行列を近似することである。 最後に、削減された線形SVMを解決するために、ニュートン法を用いる。 また,カーネル行列の近似に関する理論的解析を行った。 提案手法の利点は,計算コストが低く,収束速度が速いことにある。 大規模数値実験の結果,予測精度と速度の両面から提案手法の有効性を検証した。

Support Vector Machines (SVMs) are among the most popular and the best performing classification algorithms. Various approaches have been proposed to reduce the high computation and memory cost when training and predicting based on large-scale datasets with kernel SVMs. A popular one is the linearization framework, which successfully builds a bridge between the $L_1$-loss kernel SVM and the $L_1$-loss linear SVM. For linear SVMs, very recently, a semismooth Newton's method is proposed. It is shown to be very competitive and have low computational cost. Consequently, a natural question is whether it is possible to develop a fast semismooth Newton's algorithm for kernel SVMs. Motivated by this question and the idea in linearization framework, in this paper, we focus on the $L_2$-loss kernel SVM and propose a semismooth Newton's method based linearization and approximation approach for it. The main idea of this approach is to first set up an equivalent linear SVM, then apply the Nystr\"om method to approximate the kernel matrix, based on which a reduced linear SVM is obtained. Finally, the fast semismooth Newton's method is employed to solve the reduced linear SVM. We also provide some theoretical analyses on the approximation of the kernel matrix. The advantage of the proposed approach is that it maintains low computational cost and keeps a fast convergence rate. Results of extensive numerical experiments verify the efficiency of the proposed approach in terms of both predicting accuracy and speed.
翻訳日:2022-11-08 05:41:07 公開日:2020-07-21
# ブラジルにおけるcovid-19累積感染者の短期予測

Short-term forecasting COVID-19 cumulative confirmed cases: Perspectives for Brazil ( http://arxiv.org/abs/2007.12261v1 )

ライセンス: Link先を確認
Matheus Henrique Dal Molin Ribeiro, Ramon Gomes da Silva, Viviana Cocco Mariani, Leandro dos Santos Coelho(参考訳) 新型コロナウイルス(COVID-19)は、今日までの最初の通知以来、何百万人もの人に感染する新興の病気だ。 効率的な短期予測モデルの開発は、将来のケースの数を知ることを可能にする。 この文脈では、死を避けるために公共衛生システムにおける戦略的計画を開発することが可能である。 本稿では,ブラジル10州で1日,3日,6日前に予測された時系列のタスクにおいて,自己回帰統合移動平均(ARIMA),キュビスト(CUBIST),ランダム森林(RF),リッジ回帰(RIDGE),サポートベクター回帰(SVR),スタックングアンサンブル学習を評価した。 積み重ね学習アプローチでは、キュビスト、RF、RIDGE、SVRモデルはベースラーナーとして、ガウス過程(GP)はメタラーナーとして採用される。 モデルの有効性は、改善指標、平均絶対誤差、対称平均絶対パーセンテージ誤差基準に基づいて評価される。 ほとんどの場合、SVRと積み重ねアンサンブル学習は、比較モデルよりも採用基準に関するパフォーマンスが向上する。 一般に、開発されたモデルは正確な予測を生成でき、それぞれ0.87%から3.51%、1.02%から5.63%、0.95%から6.90%の誤差を発生させる。 すべてのシナリオにおけるモデルのランキングは、SVR、アンサンブル学習、ARIMA、CUBIST、RIDGE、RFモデルである。 評価モデルの使用は、意思決定支援システムの管理者を支援することができ次第、新型コロナウイルス患者の継続的な成長を予測および監視するために推奨される。

The new Coronavirus (COVID-19) is an emerging disease responsible for infecting millions of people since the first notification until nowadays. Developing efficient short-term forecasting models allow knowing the number of future cases. In this context, it is possible to develop strategic planning in the public health system to avoid deaths. In this paper, autoregressive integrated moving average (ARIMA), cubist (CUBIST), random forest (RF), ridge regression (RIDGE), support vector regression (SVR), and stacking-ensemble learning are evaluated in the task of time series forecasting with one, three, and six-days ahead the COVID-19 cumulative confirmed cases in ten Brazilian states with a high daily incidence. In the stacking learning approach, the cubist, RF, RIDGE, and SVR models are adopted as base-learners and Gaussian process (GP) as meta-learner. The models' effectiveness is evaluated based on the improvement index, mean absolute error, and symmetric mean absolute percentage error criteria. In most of the cases, the SVR and stacking ensemble learning reach a better performance regarding adopted criteria than compared models. In general, the developed models can generate accurate forecasting, achieving errors in a range of 0.87% - 3.51%, 1.02% - 5.63%, and 0.95% - 6.90% in one, three, and six-days-ahead, respectively. The ranking of models in all scenarios is SVR, stacking ensemble learning, ARIMA, CUBIST, RIDGE, and RF models. The use of evaluated models is recommended to forecasting and monitor the ongoing growth of COVID-19 cases, once these models can assist the managers in the decision-making support systems.
翻訳日:2022-11-08 05:40:45 公開日:2020-07-21
# 人口と公衆衛生における機械学習

Machine Learning in Population and Public Health ( http://arxiv.org/abs/2008.07278v1 )

ライセンス: Link先を確認
Vishwali Mhasawade, Yuan Zhao, Rumi Chunara(参考訳) 人口と公衆衛生の研究は、異なる文化的、社会的、環境要因の間のメカニズムと、個人だけでなく、コミュニティ全体の健康への影響に焦点を当てている。 そこで本稿では,これらの分野における研究の簡単な紹介と,既存の機械学習研究との関連について紹介し,機械学習コミュニティがこのようなトピックを活性化し,機械学習,公衆衛生,人口健康がより健康的平等を達成するために相乗する特定の機会を強調する。

Research in population and public health focuses on the mechanisms between different cultural, social, and environmental factors and their effect on the health, of not just individuals, but communities as a whole. We present here a very brief introduction into research in these fields, as well as connections to existing machine learning work to help activate the machine learning community on such topics and highlight specific opportunities where machine learning, public and population health may synergize to better achieve health equity.
翻訳日:2022-11-08 05:40:09 公開日:2020-07-21
# サイバー物理社会システムに基づく並列運転のためのデジタル四輪車:概念から応用へ

Digital Quadruplets for Cyber-Physical-Social Systems based Parallel Driving: From Concept to Applications ( http://arxiv.org/abs/2007.10799v1 )

ライセンス: Link先を確認
Teng Liu, Xing Yang, Hong Wang, Xiaolin Tang, Long Chen, Huilong Yu, Fei-Yue Wang(参考訳) acpに基づく並列運転の啓発により、将来接続された自動運転車の道路安全、交通効率、運転協力の向上を目指すデジタル四足歩行車を提案する。 ACP法は、サイバー物理社会システムのための人工社会、計算実験、並列実行モジュールを表す。 4つのエージェントは、説明車両、予測車両、規範車両、実車というデジタル四脚の枠組みで設計されている。 3つの仮想車両(記述的、予測的、規範的)は、実際の車両の安全性と性能を高めるために、実際の車両と動的に相互作用する。 デジタル四足車の3台の仮想車両について詳述する。 次に、仮想車両と実車との相互作用を示す。 デジタル四重対の実験結果から,提案手法の有効性が示された。

Digital quadruplets aiming to improve road safety, traffic efficiency, and driving cooperation for future connected automated vehicles are proposed with the enlightenment of ACP based parallel driving. The ACP method denotes Artificial societies, Computational experiments, and Parallel execution modules for cyber-physical-social systems. Four agents are designed in the framework of digital quadruplets: descriptive vehicles, predictive vehicles, prescriptive vehicles, and real vehicles. The three virtual vehicles (descriptive, predictive, and prescriptive) dynamically interact with the real one in order to enhance the safety and performance of the real vehicle. The details of the three virtual vehicles in the digital quadruplets are described. Then, the interactions between the virtual and real vehicles are presented. The experimental results of the digital quadruplets demonstrate the effectiveness of the proposed framework.
翻訳日:2022-11-08 05:34:27 公開日:2020-07-21
# コンピュータプログラムが機能的な全体である理由

Why a computer program is a functional whole ( http://arxiv.org/abs/2008.07273v1 )

ライセンス: Link先を確認
C. Maria Keet(参考訳) ソフトウェアの共有、ダウンロード、再利用は一般的な場所であり、一部はオープンソースソフトウェアで合法的に行われている。 違法でない場合、著作権侵害や商取引秘密侵害がいくつ発生したかは明らかでない。 この疑問に答えるには、まず、プログラムが統合された全体、コレクション、あるいは単に異なるファイルの集合と見なされるべきかどうか、なぜあるか、を立証する必要がある。 プログラムは機能的全体であり、メレオロジー、粒度、モジュラリティ、ユニタリ、関数からの議論を活用、組み合わせて、主張を裏付けるものであると我々は主張する。 この議論と回答は、ソフトウェアアーティファクトのオントロジーに寄与し、訴訟事例における業界を支援し、統一関係の概念が運用可能であることを実証する。 間接的には、確立したエンジニアリングプラクティスに従って、アーティファクトの継続的なモジュール化設計をサポートする。

Sharing, downloading, and reusing software is common-place, some of which is carried out legally with open source software. When it is not legal, it is unclear just how many copyright infringements and trade secret violations have taken place: does an infringement count for the artefact as a whole or perhaps for each file of the program? To answer this question, it must first be established whether a program should be considered as an integral whole, a collection, or a mere set of distinct files, and why. We argue that a program is a functional whole, availing of, and combining, arguments from mereology, granularity, modularity, unity, and function to substantiate the claim. The argumentation and answer contributes to the ontology of software artefacts, may assist industry in litigation cases, and demonstrates that the notion of unifying relation is operationalisable. Indirectly, it provides support for continued modular design of artefacts following established engineering practices.
翻訳日:2022-11-08 05:34:14 公開日:2020-07-21
# 全局的判別目標を用いた細粒度画像キャプション

Fine-Grained Image Captioning with Global-Local Discriminative Objective ( http://arxiv.org/abs/2007.10662v1 )

ライセンス: Link先を確認
Jie Wu, Tianshui Chen, Hefeng Wu, Zhi Yang, Guangchun Luo, Liang Lin(参考訳) 近年,視覚・言語分野において活発な話題であるイメージキャプションが注目されている。 しかし、既存の手法では、過剰に一般的なキャプションを生成し、最も頻繁な単語/フレーズで構成され、不正確で区別できない記述をもたらす傾向がある(図1参照)。 これは主に (i)類似画像の正しいがほとんど判別できないキャプションを生成するモデルを駆動する伝統的な訓練目的の保守的特徴 (i) 接頭辞の不均一な単語分布は, 頻度の低いが具体的でない単語を抑えつつ, 頻繁な単語・フレーズの生成を促進する。 本研究では,参照モデル上に,詳細な記述キャプションの作成を容易にするために,新たなグローバル・ローカル識別目的を提案する。 具体的には、グローバルな観点から、生成された文を抽出し、データセット全体の他のすべての画像とよりよく識別する、新しいグローバルな差別的制約を設計する。 局所的な視点から、より頻度の低い、より具体的な単語/フレーズを強調し、与えられた画像の視覚的詳細をより正確に記述するキャプションを生成するように、局所的な識別的制約を提案する。 提案手法は広く使われているMS-COCOデータセット上で評価され,提案手法は既存の先行手法よりも優れた性能を示す。 また,提案手法の判別性を示すために,自己回帰実験を行う。

Significant progress has been made in recent years in image captioning, an active topic in the fields of vision and language. However, existing methods tend to yield overly general captions and consist of some of the most frequent words/phrases, resulting in inaccurate and indistinguishable descriptions (see Figure 1). This is primarily due to (i) the conservative characteristic of traditional training objectives that drives the model to generate correct but hardly discriminative captions for similar images and (ii) the uneven word distribution of the ground-truth captions, which encourages generating highly frequent words/phrases while suppressing the less frequent but more concrete ones. In this work, we propose a novel global-local discriminative objective that is formulated on top of a reference model to facilitate generating fine-grained descriptive captions. Specifically, from a global perspective, we design a novel global discriminative constraint that pulls the generated sentence to better discern the corresponding image from all others in the entire dataset. From the local perspective, a local discriminative constraint is proposed to increase attention such that it emphasizes the less frequent but more concrete words/phrases, thus facilitating the generation of captions that better describe the visual details of the given images. We evaluate the proposed method on the widely used MS-COCO dataset, where it outperforms the baseline methods by a sizable margin and achieves competitive performance over existing leading approaches. We also conduct self-retrieval experiments to demonstrate the discriminability of the proposed method.
翻訳日:2022-11-08 05:33:59 公開日:2020-07-21
# 磁気共鳴画像における左室の完全自動セグメンテーション

Fully Automated Segmentation of the Left Ventricle in Magnetic Resonance Images ( http://arxiv.org/abs/2007.10665v1 )

ライセンス: Link先を確認
ZiHao Wang and ZhenZhou Wang(参考訳) 磁気共鳴画像(MRI)における左室(LV)の自動的,頑健なセグメンテーションは,長年にわたって困難であった。 物体検出と分類におけるディープラーニングの成功により、近年、lvセグメンテーションの研究焦点は畳み込みニューラルネットワーク(cnn)へと変化している。 しかし、LVセグメンテーションはピクセルレベルの分類問題であり、そのカテゴリは物体の検出や分類と比較して難解である。 CNNに基づく多くの手法がLVセグメンテーションのために提案されているが、堅牢で再現可能な結果はまだ得られていない。 本稿では,CNNに基づくLVセグメンテーション手法を,その公開コードと訓練されたCNNモデルで再現しようと試みる。 驚くことではないが、再現された結果は彼らの主張する精度よりも著しく悪い。 また,スロープ差分布(sdd)閾値選択に基づく完全自動化lvセグメンテーション法を提案し,再現したcnn法と比較した。 提案法は自動心臓診断試験(ACDC)において95.44%のDICEスコアを得たが、比較したCNN法では90.28%と87.13%のDICEスコアを得た。 我々の達成した正確さは、出版文献で報告されている最良の正確さよりも高い。 提案手法のMATLAB符号は,行で自由に利用できる。

Automatic and robust segmentation of the left ventricle (LV) in magnetic resonance images (MRI) has remained challenging for many decades. With the great success of deep learning in object detection and classification, the research focus of LV segmentation has changed to convolutional neural network (CNN) in recent years. However, LV segmentation is a pixel-level classification problem and its categories are intractable compared to object detection and classification. Although lots of CNN based methods have been proposed for LV segmentation, no robust and reproducible results are achieved yet. In this paper, we try to reproduce the CNN based LV segmentation methods with their disclosed codes and trained CNN models. Not surprisingly, the reproduced results are significantly worse than their claimed accuracies. We also proposed a fully automated LV segmentation method based on slope difference distribution (SDD) threshold selection to compare with the reproduced CNN methods. The proposed method achieved 95.44% DICE score on the test set of automated cardiac diagnosis challenge (ACDC) while the two compared CNN methods achieved 90.28% and 87.13% DICE scores. Our achieved accuracy is also higher than the best accuracy reported in the published literatures. The MATLAB codes of our proposed method are freely available on line.
翻訳日:2022-11-08 05:33:33 公開日:2020-07-21
# CTスキャンにおけるワンクリック病変ReCIST測定とセグメンテーション

One Click Lesion RECIST Measurement and Segmentation on CT Scans ( http://arxiv.org/abs/2007.11087v1 )

ライセンス: Link先を確認
Youbao Tang, Ke Yan, Jing Xiao and Ranold M. Summers(参考訳) 臨床試験では、放射線技師の日常的な仕事は、RECIST基準(Response Evaluation Criteria In Solid tumors)を用いて医療画像上の腫瘍の大きさを測定することである。 しかし、手動測定は面倒で、サーバ間のばらつきがある。 半自動病変 \textit{se}gmentationとrecist \textit{e}stimationのためのseenetという統一フレームワークを提案する。 ユーザーは病変の近くで一度クリックするだけで簡単なガイダンスを提供する必要がある。 SEENetは2つの主要な部分から構成される。 最初の1つはワンクリック誘導で興味ある病変を抽出し、大まかに病変を分断し、RECISTの測定を推定する。 第1のネットワークの結果に基づいて、第2のネットワークは病変のセグメンテーションとRECIST推定を洗練する。 SEENetは、大規模公開DeepLesionデータセット上で、病変セグメンテーションおよびRECIST推定における最先端のパフォーマンスを達成する。 放射線技師は、最小限の人的労力で信頼性の高い病変測定(セグメンテーションマスクとRECIST)を生成できる実用的なツールを提供する。

In clinical trials, one of the radiologists' routine work is to measure tumor sizes on medical images using the RECIST criteria (Response Evaluation Criteria In Solid Tumors). However, manual measurement is tedious and subject to inter-observer variability. We propose a unified framework named SEENet for semi-automatic lesion \textit{SE}gmentation and RECIST \textit{E}stimation on a variety of lesions over the entire human body. The user is only required to provide simple guidance by clicking once near the lesion. SEENet consists of two main parts. The first one extracts the lesion of interest with the one-click guidance, roughly segments the lesion, and estimates its RECIST measurement. Based on the results of the first network, the second one refines the lesion segmentation and RECIST estimation. SEENet achieves state-of-the-art performance in lesion segmentation and RECIST estimation on the large-scale public DeepLesion dataset. It offers a practical tool for radiologists to generate reliable lesion measurements (i.e. segmentation mask and RECIST) with minimal human effort and greatly reduced time.
翻訳日:2022-11-08 05:32:50 公開日:2020-07-21
# CVR-Net:胸部X線画像からの新型コロナウイルス認識のための深層畳み込みニューラルネットワーク

CVR-Net: A deep convolutional neural network for coronavirus recognition from chest radiography images ( http://arxiv.org/abs/2007.11993v1 )

ライセンス: Link先を確認
Md. Kamrul Hasan, Md. Ashraful Alam, Md. Toufick E Elahi, Shidhartho Roy, Sifat Redwan Wahid(参考訳) 新型コロナウイルス(Coronavirus Disease 2019)は、世界各国で急速に流行する世界的なパンデミックである。 コンピューター支援診断ツールによる新型コロナウイルスのロバストで自動的な早期認識は、疾患の治療と制御に不可欠である。 Computed Tomography(CT)やX線、Deep Convolutional Neural Networks(CNN)などの胸部X線撮影画像は、そのようなツールを設計するための重要かつ有用な材料となる。 しかし、このような自動化ツールの設計は、多くの手作業による注釈付きデータセットがまだ公開されていないため、難しい。 本稿では,CVR-Net(コロナウイルス認識ネットワーク)と呼ばれる,CTやX線画像からウイルスを自動認識するための堅牢なCNNネットワークを提案する。 提案するエンド・ツー・エンドのCVR-Netはマルチスケールマルチエンコーダアンサンブルモデルであり、2つの異なるエンコーダとそれらの異なるスケールからの出力を集約し、最終的な予測確率を得る。 提案したCVR-Netを3つの異なるデータセットでトレーニングし、テストします。 提案するcvr-netと最先端のメソッドを比較し,同じデータセット上でトレーニングおよびテストを行う。 我々は3つのデータセットを5つの異なるタスクに分割し、各タスクは異なる数のクラスを持ち、マルチタスクCVR-Netを評価する。 本モデルでは,タスク1とタスク5では,総じて0.997 & 0.998; 0.963 & 0.964; 0.816 & 0.820; 0.961 & 0.961; 0.780 & 0.780となる。 CVR-Netは、小さなデータセットで有望な結果を提供するため、臨床医や放射線科医を支援するために、新型コロナウイルスの診断のためのコンピュータ支援診断ツールとして注目に値する。 ソースコードとモデルはhttps://github.com/kamruleee51/CVR-Net.comで公開されています。

The novel Coronavirus Disease 2019 (COVID-19) is a global pandemic disease spreading rapidly around the world. A robust and automatic early recognition of COVID-19, via auxiliary computer-aided diagnostic tools, is essential for disease cure and control. The chest radiography images, such as Computed Tomography (CT) and X-ray, and deep Convolutional Neural Networks (CNNs), can be a significant and useful material for designing such tools. However, designing such an automated tool is challenging as a massive number of manually annotated datasets are not publicly available yet, which is the core requirement of supervised learning systems. In this article, we propose a robust CNN-based network, called CVR-Net (Coronavirus Recognition Network), for the automatic recognition of the coronavirus from CT or X-ray images. The proposed end-to-end CVR-Net is a multi-scale-multi-encoder ensemble model, where we have aggregated the outputs from two different encoders and their different scales to obtain the final prediction probability. We train and test the proposed CVR-Net on three different datasets, where the images have collected from different open-source repositories. We compare our proposed CVR-Net with state-of-the-art methods, which are trained and tested on the same datasets. We split three datasets into five different tasks, where each task has a different number of classes, to evaluate the multi-tasking CVR-Net. Our model achieves an overall F1-score & accuracy of 0.997 & 0.998; 0.963 & 0.964; 0.816 & 0.820; 0.961 & 0.961; and 0.780 & 0.780, respectively, for task-1 to task-5. As the CVR-Net provides promising results on the small datasets, it can be an auspicious computer-aided diagnostic tool for the diagnosis of coronavirus to assist the clinical practitioners and radiologists. Our source codes and model are publicly available at https://github.com/kamruleee51/CVR-Net.
翻訳日:2022-11-08 05:32:30 公開日:2020-07-21
# sparsetrain: 効率的な畳み込みニューラルネットワークトレーニングのためのデータフロースパーシティの利用

SparseTrain: Exploiting Dataflow Sparsity for Efficient Convolutional Neural Networks Training ( http://arxiv.org/abs/2007.13595v1 )

ライセンス: Link先を確認
Pengcheng Dai, Jianlei Yang, Xucheng Ye, Xingzhou Cheng, Junyu Luo, Linghao Song, Yiran Chen, Weisheng Zhao(参考訳) トレーニング畳み込みニューラルネットワーク(cnns)は通常、大量の計算リソースを必要とする。 本稿では,sparsity を十分に活用することで cnn トレーニングを高速化するために \textit{sparsetrain} を提案する。 主に、アクティベーショングラデーションプルーニングアルゴリズム、スパーストレーニングデータフロー、アクセラレータアーキテクチャの3つのレベルを含む。 各層に確率的プルーニングアルゴリズムを適用することにより、トレーニング精度と収束率を低下させることなく、バックプロパゲーション勾配の間隔を劇的に増大させることができる。 また, <textit{natural sparsity} (ReLU層やPooling層から抽出した) と \textit{artificial sparsity} (プルーニングアルゴリズムで作成した) の両方を活用するために, スパース・アウェアアーキテクチャを提案する。 このアーキテクチャは、1次元の畳み込みデータフローを採用することでCNNの前方および後方伝播をサポートする。 我々は、cnnsトポロジを \textit{sparsetrain} にマッピングする%の単純なコンパイラと、14nm$ finfet 技術を用いた合成設計に基づく性能と効率を評価するためのサイクル正確なアーキテクチャシミュレータを構築した。 AlexNet/ResNetによる評価結果は、オリジナルのトレーニングプロセスと比較して、約2.7 \times$スピードアップと2.2 \times$エネルギー効率の改善を達成できることを示している。

Training Convolutional Neural Networks (CNNs) usually requires a large number of computational resources. In this paper, \textit{SparseTrain} is proposed to accelerate CNN training by fully exploiting the sparsity. It mainly involves three levels of innovations: activation gradients pruning algorithm, sparse training dataflow, and accelerator architecture. By applying a stochastic pruning algorithm on each layer, the sparsity of back-propagation gradients can be increased dramatically without degrading training accuracy and convergence rate. Moreover, to utilize both \textit{natural sparsity} (resulted from ReLU or Pooling layers) and \textit{artificial sparsity} (brought by pruning algorithm), a sparse-aware architecture is proposed for training acceleration. This architecture supports forward and back-propagation of CNN by adopting 1-Dimensional convolution dataflow. We have built %a simple compiler to map CNNs topology onto \textit{SparseTrain}, and a cycle-accurate architecture simulator to evaluate the performance and efficiency based on the synthesized design with $14nm$ FinFET technologies. Evaluation results on AlexNet/ResNet show that \textit{SparseTrain} could achieve about $2.7 \times$ speedup and $2.2 \times$ energy efficiency improvement on average compared with the original training process.
翻訳日:2022-11-08 05:31:54 公開日:2020-07-21
# 人間活動認識のための大規模合成データセットの作成

Creating a Large-scale Synthetic Dataset for Human Activity Recognition ( http://arxiv.org/abs/2007.11118v1 )

ライセンス: Link先を確認
Ollie Matthews, Koki Ryu, Tarun Srivastava(参考訳) 人間の活動認識モデルのトレーニングに使用するビデオのデータセットの作成とラベリングは大変な作業です。 本稿では,ビデオの合成データセットを生成するために3dレンダリングツールを使用し,これらのビデオで訓練された分類器が実際のビデオに一般化できることを示す。 ビデオを生成するのに5つの異なる拡張技術を使い、様々な異なるラベル付きユニークなビデオを生み出しました。 ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを示す。 また,HMDBトレーニングセットをデータセットで拡張することで,分類器の性能が2%向上することがわかった。 最後に、人々の仮想的な試行とモデリングを含む、データセットの拡張の可能性について議論する。

Creating and labelling datasets of videos for use in training Human Activity Recognition models is an arduous task. In this paper, we approach this by using 3D rendering tools to generate a synthetic dataset of videos, and show that a classifier trained on these videos can generalise to real videos. We use five different augmentation techniques to generate the videos, leading to a wide variety of accurately labelled unique videos. We fine tune a pre-trained I3D model on our videos, and find that the model is able to achieve a high accuracy of 73% on the HMDB51 dataset over three classes. We also find that augmenting the HMDB training set with our dataset provides a 2% improvement in the performance of the classifier. Finally, we discuss possible extensions to the dataset, including virtual try on and modeling motion of the people.
翻訳日:2022-11-08 05:25:18 公開日:2020-07-21
# リアルタイムシステムのためのハイブリッドニューロモルフィック物体追跡と分類フレームワーク

A Hybrid Neuromorphic Object Tracking and Classification Framework for Real-time Systems ( http://arxiv.org/abs/2007.11404v1 )

ライセンス: Link先を確認
Andres Ussa, Chockalingam Senthil Rajen, Deepak Singla, Jyotibdha Acharya, Gideon Fu Chuanrong, Arindam Basu and Bharath Ramesh(参考訳) エッジで主に行われるべきディープラーニングの推論は、計算量とメモリ集約的なワークロードであり、モバイルノードやリモートセキュリティアプリケーションといった低消費電力な組み込みプラットフォームでは役に立たない。 そこで本研究では,低消費電力 (5-14 mW) や高ダイナミックレンジ (120 dB) などの特性を有するイベントベースカメラを用いて,物体追跡と分類のためのリアルタイムハイブリッドニューロモルフィックフレームワークを提案する。 それでも、イベント・バイ・イベント処理を使用する従来のアプローチとは異なり、この作業は複合フレームとイベント・アプローチを使用して高パフォーマンスで省エネルギーを得る。 前景イベントの密度に基づくフレームベース領域提案法を用いて、オクルージョンシナリオに取り組みながら、見かけの物体速度を用いて、ハードウェアフレンドリーな物体追跡方式を実現する。 オブジェクトトラック入力は、エネルギー効率の高いディープネットワーク(EEDN)パイプラインを介してTrueNorth分類のためのスパイクに変換される。 当初収集したデータセットを使用して、ハードウェアトラックの出力に基づいてTrueNorthモデルをトレーニングし、地上の真理オブジェクトの位置を通常通り使用するのではなく、実際の監視シナリオを扱うシステムの能力を示す。 任意のパラダイムとして,ニューロモルフィックビジョンセンサ(nvs)の低レイテンシと非同期性を活用するために,各イベントを個別に処理するc++実装による連続時間トラッカを提案する。 そこで,提案手法をオブジェクト追跡と分類のための最先端のイベントベースおよびフレームベース手法と比較し,性能を犠牲にすることなくリアルタイムおよび組込みアプリケーションに対するニューロモルフィックアプローチの応用例を示した。 最後に,提案システムの有効性を標準のrgbカメラに示し,数時間のトラヒック記録の評価を行った。

Deep learning inference that needs to largely take place on the 'edge' is a highly computational and memory intensive workload, making it intractable for low-power, embedded platforms such as mobile nodes and remote security applications. To address this challenge, this paper proposes a real-time, hybrid neuromorphic framework for object tracking and classification using event-based cameras that possess properties such as low-power consumption (5-14 mW) and high dynamic range (120 dB). Nonetheless, unlike traditional approaches of using event-by-event processing, this work uses a mixed frame and event approach to get energy savings with high performance. Using a frame-based region proposal method based on the density of foreground events, a hardware-friendly object tracking scheme is implemented using the apparent object velocity while tackling occlusion scenarios. The object track input is converted back to spikes for TrueNorth classification via the energy-efficient deep network (EEDN) pipeline. Using originally collected datasets, we train the TrueNorth model on the hardware track outputs, instead of using ground truth object locations as commonly done, and demonstrate the ability of our system to handle practical surveillance scenarios. As an optional paradigm, to exploit the low latency and asynchronous nature of neuromorphic vision sensors (NVS), we also propose a continuous-time tracker with C++ implementation where each event is processed individually. Thereby, we extensively compare the proposed methodologies to state-of-the-art event-based and frame-based methods for object tracking and classification, and demonstrate the use case of our neuromorphic approach for real-time and embedded applications without sacrificing performance. Finally, we also showcase the efficacy of the proposed system to a standard RGB camera setup when evaluated over several hours of traffic recordings.
翻訳日:2022-11-08 05:25:05 公開日:2020-07-21
# Cayley表現を用いた学習可能なコストボリューム

Learnable Cost Volume Using the Cayley Representation ( http://arxiv.org/abs/2007.11431v1 )

ライセンス: Link先を確認
Taihong Xiao, Jinwei Yuan, Deqing Sun, Qifei Wang, Xin-Yu Zhang, Kehan Xu, Ming-Hsuan Yang(参考訳) コスト容積は近年の光学的フロー推定の深部モデルに欠かせない要素であり、通常は2つの特徴ベクトル間の内積を計算することによって構成される。 しかし、一般的に使用されるコストボリュームの標準内積は、異なるチャネル次元間の相関を無視し、各次元を等しく重み付けるため、フローモデルの表現能力を制限する可能性がある。 この問題に対処するために、楕円内積を用いた学習可能なコストボリューム(LCV)を提案し、正定値のカーネル行列により標準内積を一般化する。 正の定性を保証するため、カーネル行列上でスペクトル分解を行い、ケイリー表現を介して再パラメータ化する。 提案したLCVは軽量モジュールであり、バニラコストのボリュームを置き換えるために既存のモデルに簡単にプラグインできる。 実験の結果, lcvモジュールは, 標準ベンチマークにおける最先端モデルの精度を向上させるだけでなく, 照明変化, 雑音, 対向摂動に対するロバスト性も向上することがわかった。

Cost volume is an essential component of recent deep models for optical flow estimation and is usually constructed by calculating the inner product between two feature vectors. However, the standard inner product in the commonly-used cost volume may limit the representation capacity of flow models because it neglects the correlation among different channel dimensions and weighs each dimension equally. To address this issue, we propose a learnable cost volume (LCV) using an elliptical inner product, which generalizes the standard inner product by a positive definite kernel matrix. To guarantee its positive definiteness, we perform spectral decomposition on the kernel matrix and re-parameterize it via the Cayley representation. The proposed LCV is a lightweight module and can be easily plugged into existing models to replace the vanilla cost volume. Experimental results show that the LCV module not only improves the accuracy of state-of-the-art models on standard benchmarks, but also promotes their robustness against illumination change, noises, and adversarial perturbations of the input signals.
翻訳日:2022-11-08 05:24:35 公開日:2020-07-21
# ランダムキャッシングによる多層ヘテロジニアスネットワークにおけるマルチ品質ビデオのサービス遅延の解析と最適化

Analysis and Optimization of Service Delay for Multi-quality Videos in Multi-tier Heterogeneous Network with Random Caching ( http://arxiv.org/abs/2007.10633v1 )

ライセンス: Link先を確認
Xuewei Zhang, Tiejun Lv, Yuan Ren, Wei Ni, Norman C. Beaulieu(参考訳) サービス遅延を最小限に抑えるため,デバイス間(D2D)支援ヘテロジニアスネットワークにおける新しいランダムキャッシュ方式を提案する。 マルチメディアビデオサービスの多様な視聴品質をサポートするため、各ビデオファイルはスケーラブルなビデオ符号化(SVC)によりベース層(BL)および多層拡張層(EL)に符号化される。 BLと複数のELを含むスーパーレイヤは、すべてのユーザに送信される。 ユーザがD2Dヘルパー、小セルベースステーション(SBS)、マクロセルベースステーション(MBS)によって提供される場合の伝送確率を導出することにより、マルチ品質ビデオのサービス遅延を定義し、定量化する。 d2dヘルパーとsbsのキャッシュサイズを制限した遅延最小化問題を定式化する。 問題に対する最適解の構造を明らかにし、その解を効果的に得るために改良された標準勾配投影法を考案した。 理論解析とモンテカルロシミュレーションはどちらも伝送確率の検証に成功している。 3つのベンチマークキャッシュポリシと比較して、提案したSVCベースのランダムキャッシュ方式は、サービスの遅延を低減する点で優れている。

Aiming to minimize service delay, we propose a new random caching scheme in device-to-device (D2D)-assisted heterogeneous network. To support diversified viewing qualities of multimedia video services, each video file is encoded into a base layer (BL) and multiple enhancement layers (ELs) by scalable video coding (SVC). A super layer, including the BL and several ELs, is transmitted to every user. We define and quantify the service delay of multi-quality videos by deriving successful transmission probabilities when a user is served by a D2D helper, a small-cell base station (SBS) and a macro-cell base station (MBS). We formulate a delay minimization problem subject to the limited cache sizes of D2D helpers and SBSs. The structure of the optimal solutions to the problem is revealed, and then an improved standard gradient projection method is designed to effectively obtain the solutions. Both theoretical analysis and Monte-Carlo simulations validate the successful transmission probabilities. Compared with three benchmark caching policies, the proposed SVC-based random caching scheme is superior in terms of reducing the service delay.
翻訳日:2022-11-08 05:23:44 公開日:2020-07-21
# 新型コロナウイルスパンデミック中における反社会的行動の分析

On Analyzing Antisocial Behaviors Amid COVID-19 Pandemic ( http://arxiv.org/abs/2007.10712v1 )

ライセンス: Link先を確認
Md Rabiul Awal, Rui Cao, Sandra Mitrovic, Roy Ka-Wei Lee(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、オンラインとオフラインの両方のコミュニティにおいて、キセノフォビアと差別の急激な増加が報告され、バイオ危機以上のものとなった。 このような有害な行動は、社会、特にこの厄介な時代に大きな打撃を与える。 問題の重圧にもかかわらず、新型コロナウイルス(covid-19)パンデミックによるオンライン反社会的行動に関する研究はほとんどない。 本稿では、4000万以上のcovid-19関連ツイートの大規模なデータセットを収集し、注釈付けすることで、研究のギャップを埋めます。 特に,反社会的行動のつぶやきを自動注釈化するアノテーションフレームワークを提案する。 また、当社の注釈付きデータセットを実証分析した結果、新型コロナウイルス(covid-19)パンデミックで新たな虐待的レキシコンが導入されていることが分かりました。 また, 反社会的行動の脆弱なターゲットと, オンライン反社会的コンテンツの普及に影響を与える要因についても検討した。

The COVID-19 pandemic has developed to be more than a bio-crisis as global news has reported a sharp rise in xenophobia and discrimination in both online and offline communities. Such toxic behaviors take a heavy toll on society, especially during these daunting times. Despite the gravity of the issue, very few studies have studied online antisocial behaviors amid the COVID-19 pandemic. In this paper, we fill the research gap by collecting and annotating a large dataset of over 40 million COVID-19 related tweets. Specially, we propose an annotation framework to annotate the antisocial behavior tweets automatically. We also conduct an empirical analysis of our annotated dataset and found that new abusive lexicons are introduced amid the COVID-19 pandemic. Our study also identified the vulnerable targets of antisocial behaviors and the factors that influence the spreading of online antisocial content.
翻訳日:2022-11-08 05:23:24 公開日:2020-07-21
# ベンガルテキストに基づく人間の異常検出

Human Abnormality Detection Based on Bengali Text ( http://arxiv.org/abs/2007.10718v1 )

ライセンス: Link先を確認
M. F. Mridha, Md. Saifur Rahman, Abu Quwsar Ohi(参考訳) 自然言語処理と人間とコンピュータの相互作用の分野では、人間の態度や感情が研究者を惹きつけている。 しかし、人間とコンピュータの相互作用の分野では、人間の異常検出は広く研究されておらず、ほとんどの研究は画像情報に依存している。 自然言語処理では、有効な意味は全ての単語によって伝達される可能性がある。 各単語は、アイデアやカテゴリとのセマンティックな関係から、困難な出会いをもたらす可能性がある。 本稿では,ベンガル文字のみを用いた効率的かつ効果的な人体異常検出モデルを提案する。 提案モデルでは,型づけされたベンガルテキストを分析し,正常か異常かを認識することができる。 我々の知る限りでは、これはテキストに基づく人間の異常検出システムを開発する最初の試みである。 自発的な会話によって生成されるベンガルデータセット(2000文を含む)を作成しました。 我々は,Naive Bayes と Support Vector Machine を分類器として比較分析を行った。 2つの異なる特徴抽出手法がベクトルをカウントし、TF-IDFを用いて構築したデータセットを実験する。 実験では,構築したデータセットを用いて,最大89%の精度と92%のF1スコアを達成した。

In the field of natural language processing and human-computer interaction, human attitudes and sentiments have attracted the researchers. However, in the field of human-computer interaction, human abnormality detection has not been investigated extensively and most works depend on image-based information. In natural language processing, effective meaning can potentially convey by all words. Each word may bring out difficult encounters because of their semantic connection with ideas or categories. In this paper, an efficient and effective human abnormality detection model is introduced, that only uses Bengali text. This proposed model can recognize whether the person is in a normal or abnormal state by analyzing their typed Bengali text. To the best of our knowledge, this is the first attempt in developing a text based human abnormality detection system. We have created our Bengali dataset (contains 2000 sentences) that is generated by voluntary conversations. We have performed the comparative analysis by using Naive Bayes and Support Vector Machine as classifiers. Two different feature extraction techniques count vector, and TF-IDF is used to experiment on our constructed dataset. We have achieved a maximum 89% accuracy and 92% F1-score with our constructed dataset in our experiment.
翻訳日:2022-11-08 05:23:10 公開日:2020-07-21
# 知識グラフエンティティ型付けのための埋め込み接続

Connecting Embeddings for Knowledge Graph Entity Typing ( http://arxiv.org/abs/2007.10873v1 )

ライセンス: Link先を確認
Yu Zhao, Anxiang Zhang, Ruobing Xie, Kang Liu, Xiaojie Wang(参考訳) 知識グラフ(KG)エンティティタイピングは、知識グラフ補完の非常に重要なサブタスクであるが、まだ探索されていないKGのエンティティタイプインスタンスを推測することを目的としている。 本稿では,既存のエンティティ型アサーションからの局所型付け知識とKGからのグローバル三重知識を併用して学習した,KGエンティティ型付けのための新しいアプローチを提案する。 具体的には、エンティティ型推論の2つの異なる知識駆動効果機構を示す。 そこで我々は,その機構を実現するために2つの新しい埋め込みモデルを構築した。 その後、それらとジョイントモデルを使用してエンティティタイプインスタンスの欠落を推測し、エンティティタイプインスタンスとkgの3重知識の両方に一致する推論を好む。 2つの実世界のデータセット(freebaseとyago)の実験結果は、提案するメカニズムとモデルがkgエンティティタイピングを改善する効果を示している。 この論文のソースコードとデータは、https://github.com/Adam1679/ConnectEから取得できます。

Knowledge graph (KG) entity typing aims at inferring possible missing entity type instances in KG, which is a very significant but still under-explored subtask of knowledge graph completion. In this paper, we propose a novel approach for KG entity typing which is trained by jointly utilizing local typing knowledge from existing entity type assertions and global triple knowledge from KGs. Specifically, we present two distinct knowledge-driven effective mechanisms of entity type inference. Accordingly, we build two novel embedding models to realize the mechanisms. Afterward, a joint model with them is used to infer missing entity type instances, which favors inferences that agree with both entity type instances and triple knowledge in KGs. Experimental results on two real-world datasets (Freebase and YAGO) demonstrate the effectiveness of our proposed mechanisms and models for improving KG entity typing. The source code and data of this paper can be obtained from: https://github.com/ Adam1679/ConnectE
翻訳日:2022-11-08 05:22:54 公開日:2020-07-21
# テキストマイニングに基づくカリキュラムビタレコメンデーション

Curriculum Vitae Recommendation Based on Text Mining ( http://arxiv.org/abs/2007.11053v1 )

ライセンス: Link先を確認
Honorio Apaza Alanoca, Americo A. Rubin de Celis Vidal, and Josimar Edinson Chire Saire(参考訳) ここ数年、コンピュータ科学とインターネットに関連する様々な分野の発展により、州や民間企業の人材選定における意思決定のための新しい選択肢が生み出された。 この選択プロセスを最適化するために、推薦システムは、協力やコンテンツの類似性に基づいて推薦のリストを生成することができるため、雇用主やエンドユーザの好ましさや嫌悪に関する明示的な情報を扱うのに最も適している。 そこで本研究は,これらの特徴をペルーのアンビット(ambit)に対応するカリキュラムとジョブオファーのデータベースに記載し,それぞれの候補の経験,知識,技能をテキスト的用語や単語で記述した。 本研究は、CVレコメンデーションのために、異なるウェブサイト上での求人情報やカリキュラムビタエに関する非構造化情報の成長から、どのように活用できるかという問題に焦点を当てる。 そこで、テキストマイニングと自然言語処理のテクニックを使います。 次に,本研究の関連技術として,平均値(tf-idf)によるwebサイトのジョブ提供に関連して,最も関連性の高いcvsを識別できる文書の逆周波数(tf-idf)という用語の技術頻度を強調する。 したがって、その重み付け値を、当該推薦の関連カリキュラムvitaeの資格値として使用できる。

During the last years, the development in diverse areas related to computer science and internet, allowed to generate new alternatives for decision making in the selection of personnel for state and private companies. In order to optimize this selection process, the recommendation systems are the most suitable for working with explicit information related to the likes and dislikes of employers or end users, since this information allows to generate lists of recommendations based on collaboration or similarity of content. Therefore, this research takes as a basis these characteristics contained in the database of curricula and job offers, which correspond to the Peruvian ambit, which highlights the experience, knowledge and skills of each candidate, which are described in textual terms or words. This research focuses on the problem: how we can take advantage from the growth of unstructured information about job offers and curriculum vitae on different websites for CV recommendation. So, we use the techniques from Text Mining and Natural Language Processing. Then, as a relevant technique for the present study, we emphasize the technique frequency of the Term - Inverse Frequency of the documents (TF-IDF), which allows identifying the most relevant CVs in relation to a job offer of website through the average values (TF-IDF). So, the weighted value can be used as a qualification value of the relevant curriculum vitae for the recommendation.
翻訳日:2022-11-08 05:22:39 公開日:2020-07-21
# 特徴間アテンションネットワークを用いた説明可能なうわさ検出

Explainable Rumor Detection using Inter and Intra-feature Attention Networks ( http://arxiv.org/abs/2007.11057v1 )

ライセンス: Link先を確認
Mingxuan Chen, Ning Wang, K.P. Subbalakshmi(参考訳) ソーシャルメディアが普及するにつれて、このメディアからの情報消費も増加している。 しかし、この増加によって生じた深刻な問題の一つは、噂の伝播である。 したがって、噂の特定は経済、民主主義、公衆衛生、安全に重大な影響を与える非常に重要な課題である。 本稿では,潜在機能と手作り機能の両方を使用して,必要に応じて多数の新機能に拡張可能なモジュラーな説明可能なアーキテクチャを設計することで,ソーシャルメディアにおけるうわさの自動検出の問題に取り組む。 このアプローチにより、エンドユーザは、ソーシャルメディアの情報の一部が噂の真偽であるかどうかを判断できるだけでなく、なぜアルゴリズムが結論に達したのかを説明できる。 注意機構を用いて、これらの特徴の相対的重要性と特徴クラス自体の相対的重要性を解釈することができる。 このアプローチの利点は、アーキテクチャが利用可能になるにつれてより手作りの機能に拡張可能であること、そして最終的な決定においてこれらの特徴の相対的な影響を決定するために広範囲なテストを行うことである。 一般的なデータセットに対する大規模な実験と、11の現代アルゴリズムに対するベンチマークにより、Fスコアと精度の点で、我々のアプローチは、解釈可能でありながら、はるかに優れた性能を示した。

With social media becoming ubiquitous, information consumption from this media has also increased. However, one of the serious problems that have emerged with this increase, is the propagation of rumors. Therefore, rumor identification is a very critical task with significant implications to economy, democracy as well as public health and safety. We tackle the problem of automated detection of rumors in social media in this paper by designing a modular explainable architecture that uses both latent and handcrafted features and can be expanded to as many new classes of features as desired. This approach will allow the end user to not only determine whether the piece of information on the social media is real of a rumor, but also give explanations on why the algorithm arrived at its conclusion. Using attention mechanisms, we are able to interpret the relative importance of each of these features as well as the relative importance of the feature classes themselves. The advantage of this approach is that the architecture is expandable to more handcrafted features as they become available and also to conduct extensive testing to determine the relative influences of these features in the final decision. Extensive experimentation on popular datasets and benchmarking against eleven contemporary algorithms, show that our approach performs significantly better in terms of F-score and accuracy while also being interpretable.
翻訳日:2022-11-08 05:22:18 公開日:2020-07-21
# 多視点幾何学に基づく群集シーンの多人数3次元空間推定

Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View Geometry ( http://arxiv.org/abs/2007.10986v1 )

ライセンス: Link先を確認
He Chen, Pengfei Guo, Pengfei Li, Gim Hee Lee, Gregory Chirikjian(参考訳) エピポーラ制約は、現在の多人数マルチカメラ3次元ポーズ推定法における特徴マッチングと深さ推定の核心である。 スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果は主に2つの曖昧さの源から、より密集した群衆の状況下でしばしば挑戦される。 1つ目は、ユークリッド距離が関節と極上線の間の単純な手がかりから生じる人間の関節のミスマッチである。 2つめは、最小二乗最小化として問題のナイーブな定式化によるロバスト性の欠如である。 本稿では,多人数3次元ポーズ推定定式化から脱却し,群集ポーズ推定として再構成する。 提案手法は, 高速なクロスビューマッチングのためのグラフモデルと, 3次元人間のポーズを再現するための最大後部推定器とから構成される。 提案手法の有効性と優位性を4つのベンチマークデータセットで示す。

Epipolar constraints are at the core of feature matching and depth estimation in current multi-person multi-camera 3D human pose estimation methods. Despite the satisfactory performance of this formulation in sparser crowd scenes, its effectiveness is frequently challenged under denser crowd circumstances mainly due to two sources of ambiguity. The first is the mismatch of human joints resulting from the simple cues provided by the Euclidean distances between joints and epipolar lines. The second is the lack of robustness from the naive formulation of the problem as a least squares minimization. In this paper, we depart from the multi-person 3D pose estimation formulation, and instead reformulate it as crowd pose estimation. Our method consists of two key components: a graph model for fast cross-view matching, and a maximum a posteriori (MAP) estimator for the reconstruction of the 3D human poses. We demonstrate the effectiveness and superiority of our proposed method on four benchmark datasets.
翻訳日:2022-11-08 05:16:13 公開日:2020-07-21
# 視覚ナビゲーションのための学習対象関係グラフと仮ポリシー

Learning Object Relation Graph and Tentative Policy for Visual Navigation ( http://arxiv.org/abs/2007.11018v1 )

ライセンス: Link先を確認
Heming Du, Xin Yu, Liang Zheng(参考訳) ターゲット駆動型視覚ナビゲーションは、エージェントの観察に基づいて、特定のターゲットに向かってエージェントをナビゲートすることを目的としている。 このタスクでは、視覚的表現とロバストなナビゲーションポリシーを学ぶことが重要である。 本稿では,これら2つのコンポーネントの改善を目的として,オブジェクト関係グラフ(ORG),試行錯誤学習(IL),メモリ拡張仮ポリシーネットワーク(TPN)の3つの補完手法を提案する。 ORGは、カテゴリの近接性や空間的相関を含むオブジェクト関係を統合することで、視覚的表現学習を改善する。 試行駆動のilとtpnの両方がロバストなナビゲーションポリシーを満たし、エージェントにループや行き詰まりなどのデッドロック状態から逃れるよう指示する。 特に、トライアル駆動ilは、ポリシーネットワークトレーニングで使用される監視の一種であり、tpnは、見えない環境でのil監視を模倣し、テストに適用される。 人工環境におけるAI2-Thorの実験は、それぞれの技術が有効であることを検証する。 組み合わせることで、未確認環境におけるナビゲーションの有効性と効率性において、ベースライン手法よりも大幅に改善される。 成功率22.8%,成功率23.5%,成功率23.5%をPath Longth(SPL)が重み付けした。 コードはhttps://github.com/xiaobaishu0097/ECCV-VN.gitで公開されている。

Target-driven visual navigation aims at navigating an agent towards a given target based on the observation of the agent. In this task, it is critical to learn informative visual representation and robust navigation policy. Aiming to improve these two components, this paper proposes three complementary techniques, object relation graph (ORG), trial-driven imitation learning (IL), and a memory-augmented tentative policy network (TPN). ORG improves visual representation learning by integrating object relationships, including category closeness and spatial correlations, e.g., a TV usually co-occurs with a remote spatially. Both Trial-driven IL and TPN underlie robust navigation policy, instructing the agent to escape from deadlock states, such as looping or being stuck. Specifically, trial-driven IL is a type of supervision used in policy network training, while TPN, mimicking the IL supervision in unseen environment, is applied in testing. Experiment in the artificial environment AI2-Thor validates that each of the techniques is effective. When combined, the techniques bring significantly improvement over baseline methods in navigation effectiveness and efficiency in unseen environments. We report 22.8% and 23.5% increase in success rate and Success weighted by Path Length (SPL), respectively. The code is available at https://github.com/xiaobaishu0097/ECCV-VN.git.
翻訳日:2022-11-08 05:15:46 公開日:2020-07-21
# 行動認識のための方向時間モデル

Directional Temporal Modeling for Action Recognition ( http://arxiv.org/abs/2007.11040v1 )

ライセンス: Link先を確認
Xinyu Li, Bing Shuai, Joseph Tighe(参考訳) 現在の活動認識モデルの多くは3次元畳み込みニューラルネットワーク(i3d、i3d-nlなど)を使用して局所的な空間-時間的特徴を生成する。 しかし、そのような機能はクリップレベルの順序付けられた時間情報をエンコードしない。 本稿では,局所的特徴間の時間的進化をモデル化するチャネル独立指向性畳み込み(CIDC)操作を提案する。 複数のCIDCユニットを適用することで、複数の空間スケールにわたるクリップレベルの時間的進化をモデル化する軽量ネットワークを構築する。 当社のCIDCネットワークは,任意のアクティビティ認識バックボーンネットワークにアタッチ可能である。 提案手法は,4つの一般的なアクティビティ認識データセット上で評価し,最新技術により一貫して改善する。 さらに、CIDCネットワークの活性化マップを可視化し、フレームのより意味のあるアクション関連部分にフォーカスできることを示します。

Many current activity recognition models use 3D convolutional neural networks (e.g. I3D, I3D-NL) to generate local spatial-temporal features. However, such features do not encode clip-level ordered temporal information. In this paper, we introduce a channel independent directional convolution (CIDC) operation, which learns to model the temporal evolution among local features. By applying multiple CIDC units we construct a light-weight network that models the clip-level temporal evolution across multiple spatial scales. Our CIDC network can be attached to any activity recognition backbone network. We evaluate our method on four popular activity recognition datasets and consistently improve upon state-of-the-art techniques. We further visualize the activation map of our CIDC network and show that it is able to focus on more meaningful, action related parts of the frame.
翻訳日:2022-11-08 05:15:13 公開日:2020-07-21
# マルチスケール輪郭検出のための画像解析手法

An Image Analogies Approach for Multi-Scale Contour Detection ( http://arxiv.org/abs/2007.11047v1 )

ライセンス: Link先を確認
Slimane Larabi and Neil M. Robertson(参考訳) 本稿では,超解像,テクスチャ,曲線合成,インタラクティブな編集に成功している最近の画像類似原理に基づく輪郭検出について述べる。 手描きのアウトラインは、最初はベンチマークである。 このような参照画像が与えられた場合、クエリ画像の輪郭を参照のために行うのと同じように(つまり、類似によって)見つけ出すために、この専門知識に基づく新しい手法を提案する。 手描き画像を用いた輪郭検出のための画像アナロジーの適用は,問合せ画像に対して良好な結果を与えることはできない。 問合せ画像と参照画像との間に類似性が存在するような学習画像の数を増やすことで、輪郭検出を改善することができる。 輪郭描画タスクの難しさに加えて、これは時間計算を大幅に増加させる。 本研究では,この制約を回避して,すべての輪郭画素が任意のクエリ画像に対して配置されることを保証した。 数学的な研究から導かれた14個のステレオパッチは、光条件とは無関係に異なるスケールの輪郭を見つけるために用いられる知識である。 総合的な実験は異なるデータセット(BSD 500, Horses of Weizmann)で行われている。 得られた結果から,手描きの輪郭に対して,複数の解像度で精度,リコールにより優れた性能を示した。

In this paper we deal with contour detection based on the recent image analogy principle which has been successfully used for super-resolution, texture and curves synthesis and interactive editing. Hand-drawn outlines are initially as benchmarks. Given such a reference image, we present a new method based on this expertise to locate contours of a query image in the same way that it is done for the reference (i.e by analogy). Applying a image analogies for contour detection using hand drawn images as leaning images cannot gives good result for any query image. The contour detection may be improved if we increase the number of learning images such that there will be exist similarity between query image and some reference images. In addition of the hardness of contours drawing task, this will increase considerably the time computation. We investigated in this work, how can we avoid this constraint in order to guaranty that all contour pixels will be located for any query image. Fourteen derived stereo patches, derived from a mathematical study, are the knowledge used in order to locate contours at different scales independently of the light conditions. Comprehensive experiments are conducted on different data sets (BSD 500, Horses of Weizmann). The obtained results show superior performance via precision and recall vs. hand-drawn contours at multiple resolutions to the reported state of the art.
翻訳日:2022-11-08 05:15:02 公開日:2020-07-21
# 自己監督型ワンショットビデオ再識別のための時間的コヒーレンス

Exploiting Temporal Coherence for Self-Supervised One-shot Video Re-identification ( http://arxiv.org/abs/2007.11064v1 )

ライセンス: Link先を確認
Dripta S. Raychaudhuri and Amit K. Roy-Chowdhury(参考訳) 再識別のための監視技術は非常に効果的であるが、大量のアノテーションを必要とするため、大規模なカメラネットワークでは実用的ではない。 単一ラベル付きトラックレットとラベルなしトラックレットのプールを用いたワンショット再識別は、このラベル付けの労力を減らすための潜在的候補である。 現在のワンショット再識別手法はラベル付きデータとラベル付きデータの間の相互関係をモデル化することで機能するが、ラベル付きデータ自体のプール内に存在するような関係を完全に活用することができない。 本稿では,一発学習パラダイムにおいて,時間的コヒーレンスを新たな自己教師付き補助タスクとして用いて,ラベルのないトラックレット間の関係を捉える,時間的一貫性向上学習という新しいフレームワークを提案する。 ローカルおよびグローバルスケールで一貫性を強制する2つの新たな損失を最適化することで、よりリッチで差別的な表現を学ぶことができる。 MARSとDukeMTMC-VideoReIDの2つの挑戦的なビデオ再識別データセットに対する大規模な実験により、提案手法は、未ラベルデータの真のラベルを最大8\%の精度で推定し、既存の最先端技術と比較してはるかに優れた再識別性能が得られることを示した。

While supervised techniques in re-identification are extremely effective, the need for large amounts of annotations makes them impractical for large camera networks. One-shot re-identification, which uses a singular labeled tracklet for each identity along with a pool of unlabeled tracklets, is a potential candidate towards reducing this labeling effort. Current one-shot re-identification methods function by modeling the inter-relationships amongst the labeled and the unlabeled data, but fail to fully exploit such relationships that exist within the pool of unlabeled data itself. In this paper, we propose a new framework named Temporal Consistency Progressive Learning, which uses temporal coherence as a novel self-supervised auxiliary task in the one-shot learning paradigm to capture such relationships amongst the unlabeled tracklets. Optimizing two new losses, which enforce consistency on a local and global scale, our framework can learn learn richer and more discriminative representations. Extensive experiments on two challenging video re-identification datasets - MARS and DukeMTMC-VideoReID - demonstrate that our proposed method is able to estimate the true labels of the unlabeled data more accurately by up to $8\%$, and obtain significantly better re-identification performance compared to the existing state-of-the-art techniques.
翻訳日:2022-11-08 05:14:13 公開日:2020-07-21
# 網膜疾患診断のためのマルチモーダルデータを用いた自己教師付き特徴学習

Self-supervised Feature Learning via Exploiting Multi-modal Data for Retinal Disease Diagnosis ( http://arxiv.org/abs/2007.11067v1 )

ライセンス: Link先を確認
Xiaomeng Li, Mengyu Jia, Md Tauhidul Islam, Lequan Yu, Lei Xing(参考訳) 眼底画像からの各種網膜疾患の自動診断は臨床意思決定を支援するために重要である。 しかし、このような自動解法の開発は、大量の人間の注釈データを必要とするため困難である。 近年,大量のアノテーションを必要としないため,教師なし/自己監督型機能学習技術が注目されている。 現在の自己教師あり手法のほとんどは単一の撮像モードで分析され、現在、より良い結果を得るためにマルチモーダル画像を使用する方法は存在しない。 種々の硝子体疾患の診断は、例えばFFAなどの別の画像モダリティから大きな恩恵を受けることができることを考慮し、網膜疾患診断にマルチモーダルデータを効果的に活用して、新しい自己監督的特徴学習法を提案する。 これを実現するために、まず対応するFFAモダリティを合成し、続いて患者特徴に基づくソフトマックス埋め込み目標を定式化する。 本研究の目的は,モダリティ不変特徴と患者類似特徴の両方を学習することである。 このメカニズムを通じて、ニューラルネットワークは、異なるモダリティにまたがる意味的に共有された情報と、患者間の視覚的類似性を捉える。 本手法を網膜疾患診断のための2つの公開ベンチマークデータセットで評価した。 実験の結果,本手法は他の自己教師付き特徴学習手法よりも明らかに優れており,教師付きベースラインと比較できることがわかった。

The automatic diagnosis of various retinal diseases from fundus images is important to support clinical decision-making. However, developing such automatic solutions is challenging due to the requirement of a large amount of human-annotated data. Recently, unsupervised/self-supervised feature learning techniques receive a lot of attention, as they do not need massive annotations. Most of the current self-supervised methods are analyzed with single imaging modality and there is no method currently utilize multi-modal images for better results. Considering that the diagnostics of various vitreoretinal diseases can greatly benefit from another imaging modality, e.g., FFA, this paper presents a novel self-supervised feature learning method by effectively exploiting multi-modal data for retinal disease diagnosis. To achieve this, we first synthesize the corresponding FFA modality and then formulate a patient feature-based softmax embedding objective. Our objective learns both modality-invariant features and patient-similarity features. Through this mechanism, the neural network captures the semantically shared information across different modalities and the apparent visual similarity between patients. We evaluate our method on two public benchmark datasets for retinal disease diagnosis. The experimental results demonstrate that our method clearly outperforms other self-supervised feature learning methods and is comparable to the supervised baseline.
翻訳日:2022-11-08 05:13:49 公開日:2020-07-21
# 視覚・言語ナビゲーションのためのソフトエキスパート報酬学習

Soft Expert Reward Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2007.10835v1 )

ライセンス: Link先を確認
Hu Wang, Qi Wu, Chunhua Shen(参考訳) VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。 教師付き学習クローンエキスパートの行動に基づく支配的な手法は、目に見えないものに制限されたパフォーマンスを示しながら、見かけの環境においてよりよいパフォーマンスを示す。 強化学習(RL)に基づくモデルは、より優れた一般化能力を示すが、問題もある。 本稿では,VLNタスクの報奨工学設計および一般化問題を克服するためのソフトエキスパート・リワード学習(SERL)モデルを提案する。 提案手法は2つの相補的要素からなる: ソフトエキスパート蒸留(SED)モジュールはエージェントが可能な限り専門家のように振る舞うことを奨励するが、ソフトな方法では、セルフ知覚(SP)モジュールはエージェントをできるだけ早く最終目的地へ向かわせることを目標とする。 経験的に、vln上でのモデルの評価を行い、そのモデルがほとんどの評価指標において最先端のメソッドを上回っています。

Vision-and-Language Navigation (VLN) requires an agent to find a specified spot in an unseen environment by following natural language instructions. Dominant methods based on supervised learning clone expert's behaviours and thus perform better on seen environments, while showing restricted performance on unseen ones. Reinforcement Learning (RL) based models show better generalisation ability but have issues as well, requiring large amount of manual reward engineering is one of which. In this paper, we introduce a Soft Expert Reward Learning (SERL) model to overcome the reward engineering designing and generalisation problems of the VLN task. Our proposed method consists of two complementary components: Soft Expert Distillation (SED) module encourages agents to behave like an expert as much as possible, but in a soft fashion; Self Perceiving (SP) module targets at pushing the agent towards the final destination as fast as possible. Empirically, we evaluate our model on the VLN seen, unseen and test splits and the model outperforms the state-of-the-art methods on most of the evaluation metrics.
翻訳日:2022-11-08 05:07:45 公開日:2020-07-21
# unsupervised domain adaptive person re-identificationにおける共同視覚と時間的一貫性

Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2007.10854v1 )

ライセンス: Link先を確認
Jianing Li, Shiliang Zhang(参考訳) 教師なしのドメイン適応型人物再識別(ReID)は、ソースドメインとターゲットドメインの間の大きなドメインギャップと、ターゲットドメイン上のラベル付きデータの欠如のために困難である。 本稿では,局所的ホット分類とグローバル・マルチクラス分類を組み合わせることで,視覚的・時間的一貫性を両立させることにより,この課題に取り組む。 ローカルなワンホット分類では、異なる個人IDを持つトレーニングバッチ内の画像を割り当て、自己適応分類(SAC)モデルを採用して分類する。 グローバルなマルチクラス分類は、メモリベースのテンポラル誘導クラスタ(MTC)でラベル付きトレーニングセット全体のラベルを予測することで達成される。 MTCは、ラベル予測の品質を保証するために、視覚的類似性と時間的一貫性の両方を考慮し、マルチクラスラベルを予測する。 2つの分類モデルは統合されたフレームワークに組み合わされ、ラベルのないデータを識別的特徴学習に効果的に活用する。 3つの大規模ReIDデータセットの実験結果は、教師なしおよび教師なしのドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。 例えば、教師なし設定下では、トレーニングにより多くのラベルを利用する教師なしドメイン適応手法よりも優れています。

Unsupervised domain adaptive person Re-IDentification (ReID) is challenging because of the large domain gap between source and target domains, as well as the lackage of labeled data on the target domain. This paper tackles this challenge through jointly enforcing visual and temporal consistency in the combination of a local one-hot classification and a global multi-class classification. The local one-hot classification assigns images in a training batch with different person IDs, then adopts a Self-Adaptive Classification (SAC) model to classify them. The global multi-class classification is achieved by predicting labels on the entire unlabeled training set with the Memory-based Temporal-guided Cluster (MTC). MTC predicts multi-class labels by considering both visual similarity and temporal consistency to ensure the quality of label prediction. The two classification models are combined in a unified framework, which effectively leverages the unlabeled data for discriminative feature learning. Experimental results on three large-scale ReID datasets demonstrate the superiority of proposed method in both unsupervised and unsupervised domain adaptive ReID tasks. For example, under unsupervised setting, our method outperforms recent unsupervised domain adaptive methods, which leverage more labels for training.
翻訳日:2022-11-08 05:07:23 公開日:2020-07-21
# クロスアテンションネットワークを用いたマルチラベル胸部画像分類

Multi-label Thoracic Disease Image Classification with Cross-Attention Networks ( http://arxiv.org/abs/2007.10859v1 )

ライセンス: Link先を確認
Congbo Ma, Hu Wang, Steven C.H. Hoi(参考訳) 臨床診断と治療計画を支援する有望な技術として,放射線画像の自動分類が開発されている。 一般的な画像分類タスクとは異なり、ラベル付きデータが本質的にマルチラベルにあるトレーニングデータを集めるのがはるかに高価であるため、実世界の放射線学画像分類タスクははるかに困難である。 そこで本稿では,胸部x線画像から胸部疾患を自動的に分類するcross-attention network (can) を提案する。 また,クロスエントロピー損失以外にも,クラス間の不均衡を克服する新たな損失関数を設計した。 提案手法は最先端の結果を得る。

Automated disease classification of radiology images has been emerging as a promising technique to support clinical diagnosis and treatment planning. Unlike generic image classification tasks, a real-world radiology image classification task is significantly more challenging as it is far more expensive to collect the training data where the labeled data is in nature multi-label; and more seriously samples from easy classes often dominate; training data is highly class-imbalanced problem exists in practice as well. To overcome these challenges, in this paper, we propose a novel scheme of Cross-Attention Networks (CAN) for automated thoracic disease classification from chest x-ray images, which can effectively excavate more meaningful representation from data to boost the performance through cross-attention by only image-level annotations. We also design a new loss function that beyond cross-entropy loss to help cross-attention process and is able to overcome the imbalance between classes and easy-dominated samples within each class. The proposed method achieves state-of-the-art results.
翻訳日:2022-11-08 05:07:03 公開日:2020-07-21
# 動的整合性検査を用いたDense Hybrid Recurrent Multi-view Stereo Net

Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking ( http://arxiv.org/abs/2007.10872v1 )

ライセンス: Link先を確認
Jianfeng Yan, Zizhuang Wei, Hongwei Yi, Mingyu Ding, Runze Zhang, Yisong Chen, Guoping Wang, Yu-Wing Tai(参考訳) 本稿では,高濃度ポイント雲の正確な再構成のために,動的一貫性チェックを行う効率的な高濃度ハイブリッド多視点ステレオネット,すなわち$d^{2}$hc-rmvsnetを提案する。 この新しいハイブリッド・リカレント・マルチビューステレオネットは2つのコアモジュールで構成されている。 1)DRENet(Dense Reception Expanded)モジュールにより,マルチスケールコンテキスト情報を用いて,オリジナルサイズの高密度特徴マップを抽出する。 2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに調整し,LSTMとU-Netアーキテクチャを結合することで,異なるスケール情報を効率的に集約する。 再構成されたポイントクラウドの精度と完全性をさらに向上するため,既存の高密度ポイントクラウド再構築法で広く採用されているプレフィックスパラメータや戦略に代えて,動的一貫性チェック戦略を利用する。 そうすることで、すべてのビューで幾何学的一貫性マッチングエラーを動的に集約する。 我々のメソッドは、すべてのメソッドに対して複雑な屋外の \textsl{Tanks and Temples} ベンチマーク上で \textbf{$1^{st}$} をランク付けする。 室内DTUデータセットの大規模な実験により,本手法は最先端の手法と競合する性能を示しながら,メモリ消費を劇的に削減し,R-MVSNetの19.4\%のコストしかかからないことがわかった。 コードベースは \hyperlink{https://github.com/yhw-yhw/D2HC-RMVSNet}{https://github.com/yhw-yhw/D2HC-RMVSNet} で公開されている。

In this paper, we propose an efficient and effective dense hybrid recurrent multi-view stereo net with dynamic consistency checking, namely $D^{2}$HC-RMVSNet, for accurate dense point cloud reconstruction. Our novel hybrid recurrent multi-view stereo net consists of two core modules: 1) a light DRENet (Dense Reception Expanded) module to extract dense feature maps of original size with multi-scale context information, 2) a HU-LSTM (Hybrid U-LSTM) to regularize 3D matching volume into predicted depth map, which efficiently aggregates different scale information by coupling LSTM and U-Net architecture. To further improve the accuracy and completeness of reconstructed point clouds, we leverage a dynamic consistency checking strategy instead of prefixed parameters and strategies widely adopted in existing methods for dense point cloud reconstruction. In doing so, we dynamically aggregate geometric consistency matching error among all the views. Our method ranks \textbf{$1^{st}$} on the complex outdoor \textsl{Tanks and Temples} benchmark over all the methods. Extensive experiments on the in-door DTU dataset show our method exhibits competitive performance to the state-of-the-art method while dramatically reduces memory consumption, which costs only $19.4\%$ of R-MVSNet memory consumption. The codebase is available at \hyperlink{https://github.com/yhw-yhw/D2HC-RMVSNet}{https://github.com/yhw-yhw/D2HC-RMVSNet}.
翻訳日:2022-11-08 05:06:46 公開日:2020-07-21
# 衛星画像のオープンセット土地被覆分類のための代表的識別学習

Representative-Discriminative Learning for Open-set Land Cover Classification of Satellite Imagery ( http://arxiv.org/abs/2007.10891v1 )

ライセンス: Link先を確認
Razieh Kaviani Baghbaderani, Ying Qu, Hairong Qi, Craig Stutts(参考訳) 衛星画像の土地被覆分類は、地球表面を分析するための重要なステップである。 既存のモデルは、トレーニングクラスとテストクラスが同じラベルセットに属するクローズドセット設定を想定している。 しかし、非常に広い範囲の多用途カバー材料を有する衛星画像のユニークな特徴から、訓練データは非表示に縛られている。 本稿では,未知のクラスに属するサンプルをテスト中に識別するオープンセット土地被覆分類の問題を,既知のクラスのパフォーマンスを維持しながら検討する。 本質的に分類問題であるが、未知のクラスと未知のクラスをよりよく区別するために、データの代表的側面と識別的側面の両方を活用する必要がある。 代表識別型オープンセット認識(RDOSR)フレームワークを提案する。 1)生画像空間から埋め込み特徴空間へデータを投影し、類似したクラスを識別しやすくする。 2) 代表能力と識別能力の両方を、いわゆる存在空間への変換により強化する。 複数の衛星ベンチマーク実験により,提案手法の有効性が示された。 また,RGB画像を用いたオープンセット分類タスクにおいて,提案手法の汎用性を示す。

Land cover classification of satellite imagery is an important step toward analyzing the Earth's surface. Existing models assume a closed-set setting where both the training and testing classes belong to the same label set. However, due to the unique characteristics of satellite imagery with an extremely vast area of versatile cover materials, the training data are bound to be non-representative. In this paper, we study the problem of open-set land cover classification that identifies the samples belonging to unknown classes during testing, while maintaining performance on known classes. Although inherently a classification problem, both representative and discriminative aspects of data need to be exploited in order to better distinguish unknown classes from known. We propose a representative-discriminative open-set recognition (RDOSR) framework, which 1) projects data from the raw image space to the embedding feature space that facilitates differentiating similar classes, and further 2) enhances both the representative and discriminative capacity through transformation to a so-called abundance space. Experiments on multiple satellite benchmarks demonstrate the effectiveness of the proposed method. We also show the generality of the proposed approach by achieving promising results on open-set classification tasks using RGB images.
翻訳日:2022-11-08 05:06:18 公開日:2020-07-21
# movienet:映画理解のための総合データセット

MovieNet: A Holistic Dataset for Movie Understanding ( http://arxiv.org/abs/2007.10937v1 )

ライセンス: Link先を確認
Qingqiu Huang, Yu Xiong, Anyi Rao, Jiaze Wang, Dahua Lin(参考訳) 近年では視覚的理解が著しく進歩している。 しかし、例えば映画のような芸術的なスタイルでストーリーベースのロングビデオを理解する方法はまだ難しい。 本稿では,映画理解のための総合的データセットであるMovieNetを紹介する。 MovieNetには、トレーラー、写真、プロット記述など、大量のマルチモーダルデータを持つ1,100本の映画が含まれている。 また、MovieNetでは、1.1M文字のバウンディングボックスとID、42Kシーン境界、2.5K対応記述文、65Kタグの場所と行動、92Kタグなど、さまざまな手動アノテーションが提供されている。 私たちの知る限りでは、MovieNetは映画理解のための豊富なアノテーションを備えた最大のデータセットです。 MovieNetをベースとして,異なる角度からの映画理解のためのベンチマークを複数設定した。 これらのベンチマークを用いて、MovieNetの計測不可能な価値と、包括的な映画理解への現在のアプローチのギャップを示す。 このような総合的なデータセットが、ストーリーベースの長いビデオ理解などの研究を促進すると信じています。 MovieNetはhttps://movienet.github.ioで規則に従って公開される。

Recent years have seen remarkable advances in visual understanding. However, how to understand a story-based long video with artistic styles, e.g. movie, remains challenging. In this paper, we introduce MovieNet -- a holistic dataset for movie understanding. MovieNet contains 1,100 movies with a large amount of multi-modal data, e.g. trailers, photos, plot descriptions, etc. Besides, different aspects of manual annotations are provided in MovieNet, including 1.1M characters with bounding boxes and identities, 42K scene boundaries, 2.5K aligned description sentences, 65K tags of place and action, and 92K tags of cinematic style. To the best of our knowledge, MovieNet is the largest dataset with richest annotations for comprehensive movie understanding. Based on MovieNet, we set up several benchmarks for movie understanding from different angles. Extensive experiments are executed on these benchmarks to show the immeasurable value of MovieNet and the gap of current approaches towards comprehensive movie understanding. We believe that such a holistic dataset would promote the researches on story-based long video understanding and beyond. MovieNet will be published in compliance with regulations at https://movienet.github.io.
翻訳日:2022-11-08 05:06:02 公開日:2020-07-21
# Procrustean Regression Networks:2次元アノテーションによる非リジッド物体の3次元構造学習

Procrustean Regression Networks: Learning 3D Structure of Non-Rigid Objects from 2D Annotations ( http://arxiv.org/abs/2007.10961v1 )

ライセンス: Link先を確認
Sungheon Park, Minsik Lee, Nojun Kwak(参考訳) 本研究では,2次元アノテーションのみを基底真実として利用できる場合に,非剛体物体の3次元情報を学習できるニューラルネットワークのトレーニングフレームワークを提案する。 近年,NRSfM(non-rigid structure-from-motion)の問題設定を深層学習に組み込んで3次元構造再構成を学習する手法が提案されている。 NRSfMの最も重要な難しさは、同時に回転と変形の両方を推定することであり、以前の作業では両者を回帰させることでこれを処理した。 本稿では,適切な回転が自動的に決定される損失関数を提案することで,この困難を解消する。 ネットワークは、再投射誤差と整列形状の低ランク項からなるコスト関数で訓練され、トレーニング中に人間の骨格や顔などの物体の3D構造を学習する一方、テストは単フレームベースで行われる。 提案手法は,ネットワーク構造が極めて単純であるにもかかわらず,提案手法がHuman 3.6M, 300-VW, SURREALデータセットの再現性能に優れていたことを示す。

We propose a novel framework for training neural networks which is capable of learning 3D information of non-rigid objects when only 2D annotations are available as ground truths. Recently, there have been some approaches that incorporate the problem setting of non-rigid structure-from-motion (NRSfM) into deep learning to learn 3D structure reconstruction. The most important difficulty of NRSfM is to estimate both the rotation and deformation at the same time, and previous works handle this by regressing both of them. In this paper, we resolve this difficulty by proposing a loss function wherein the suitable rotation is automatically determined. Trained with the cost function consisting of the reprojection error and the low-rank term of aligned shapes, the network learns the 3D structures of such objects as human skeletons and faces during the training, whereas the testing is done in a single-frame basis. The proposed method can handle inputs with missing entries and experimental results validate that the proposed framework shows superior reconstruction performance to the state-of-the-art method on the Human 3.6M, 300-VW, and SURREAL datasets, even though the underlying network structure is very simple.
翻訳日:2022-11-08 05:05:44 公開日:2020-07-21
# 低照度顔検出のためのリカレント露光発生

Recurrent Exposure Generation for Low-Light Face Detection ( http://arxiv.org/abs/2007.10963v1 )

ライセンス: Link先を確認
Jinxiu Liang, Jingwen Wang, Yuhui Quan, Tianyi Chen, Jiaying Liu, Haibin Ling and Yong Xu(参考訳) 低照度画像からの顔検出は、限られた写真と避けられないノイズのために困難であり、タスクをさらに困難にするためには、空間的に不均一に分散されることが多い。 自然な解決策はマルチ露光(multi-exposure)からアイデアを借りることである。 しかし、単一の画像からの多重露光の高品質な実装/近似は非自明である。 幸いなことに,本稿で示すように,画像強調よりも顔検出が課題であるため,品質も必要ではない。 具体的には、新しいRecurrent Exposure Generation (REG)モジュールを提案し、それをMEDモジュールとシームレスに結合し、非均一照明やノイズ問題を効果的に抑制することにより顔検出性能を大幅に向上させる。 REGは様々な露光設定に対応する段階的かつ効率的な中間画像を生成し、これらの擬似露光をMEDによって融合して異なる照明条件の顔を検出する。 提案手法はREGDetと呼ばれ,低照度顔検出のための最初の「検出と強調」フレームワークである。 多様な照明レベルにまたがるリッチな相互作用や特徴融合を奨励するだけでなく、REGコンポーネントの効果的なエンドツーエンド学習を顔検出に適したものにすることも可能だ。 さらに,本実験で明らかにしたように,REGはトレーニング用の低照度画像対を伴わずに,異なる顔検出器と柔軟に結合することができる。 DARK FACEローライトフェースベンチマークでREGDetを徹底的なアブレーション試験でテストし、REGDetは従来の最先端技術よりも有意差があり、余分なパラメータが無視できるのみであった。

Face detection from low-light images is challenging due to limited photos and inevitable noise, which, to make the task even harder, are often spatially unevenly distributed. A natural solution is to borrow the idea from multi-exposure, which captures multiple shots to obtain well-exposed images under challenging conditions. High-quality implementation/approximation of multi-exposure from a single image is however nontrivial. Fortunately, as shown in this paper, neither is such high-quality necessary since our task is face detection rather than image enhancement. Specifically, we propose a novel Recurrent Exposure Generation (REG) module and couple it seamlessly with a Multi-Exposure Detection (MED) module, and thus significantly improve face detection performance by effectively inhibiting non-uniform illumination and noise issues. REG produces progressively and efficiently intermediate images corresponding to various exposure settings, and such pseudo-exposures are then fused by MED to detect faces across different lighting conditions. The proposed method, named REGDet, is the first `detection-with-enhancement' framework for low-light face detection. It not only encourages rich interaction and feature fusion across different illumination levels, but also enables effective end-to-end learning of the REG component to be better tailored for face detection. Moreover, as clearly shown in our experiments, REG can be flexibly coupled with different face detectors without extra low/normal-light image pairs for training. We tested REGDet on the DARK FACE low-light face benchmark with thorough ablation study, where REGDet outperforms previous state-of-the-arts by a significant margin, with only negligible extra parameters.
翻訳日:2022-11-08 05:05:14 公開日:2020-07-21
# 自己監督型長期モデリングによる単眼視覚計測の学習

Learning Monocular Visual Odometry via Self-Supervised Long-Term Modeling ( http://arxiv.org/abs/2007.10983v1 )

ライセンス: Link先を確認
Yuliang Zou, Pan Ji, Quoc-Huy Tran, Jia-Bin Huang, Manmohan Chandraker(参考訳) 単眼視覚オドメトリ(vo)は、フレーム間ポーズ推定中にエラーの蓄積に苦しむ。 本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。 そこで我々は,2層畳み込みLSTMモジュールを特徴とするポーズネットワークを用いて,ポーズ予測における長期依存性をモデル化する。 我々は,gemetry voのループクロージャモジュールを模倣したサイクル一貫性損失を含む,純粋に自己教師付き損失を持つネットワークを訓練する。 事前の幾何系に触発されて、トレーニング中にネットワークが小さな時間窓を越えて見えるようにし、時間的に離れたフレーム(例えばo(100))を組み込んだ新しい損失を実現した。 そこで我々は,GPUメモリの制約を考慮し,第1ステージがローカル時間ウィンドウで動作し,第2ステージが第1ステージの特徴を考慮すれば,ポーズを"グローバル"な損失で洗練する,ステージワイズトレーニング機構を提案する。 我々は、KITTIやTUM RGB-Dなど、いくつかの標準VOデータセットの競合結果を示す。

Monocular visual odometry (VO) suffers severely from error accumulation during frame-to-frame pose estimation. In this paper, we present a self-supervised learning method for VO with special consideration for consistency over longer sequences. To this end, we model the long-term dependency in pose prediction using a pose network that features a two-layer convolutional LSTM module. We train the networks with purely self-supervised losses, including a cycle consistency loss that mimics the loop closure module in geometric VO. Inspired by prior geometric systems, we allow the networks to see beyond a small temporal window during training, through a novel a loss that incorporates temporally distant (e.g., O(100)) frames. Given GPU memory constraints, we propose a stage-wise training mechanism, where the first stage operates in a local time window and the second stage refines the poses with a "global" loss given the first stage features. We demonstrate competitive results on several standard VO datasets, including KITTI and TUM RGB-D.
翻訳日:2022-11-08 05:04:25 公開日:2020-07-21
# 自己教師型深度学習における特徴量損失

Feature-metric Loss for Self-supervised Learning of Depth and Egomotion ( http://arxiv.org/abs/2007.10603v1 )

ライセンス: Link先を確認
Chang Shu, Kun Yu, Zhixiang Duan, and Kuiyuan Yang(参考訳) 光度損失は自己監督された深度とエゴモーション推定に広く利用されている。 しかし、光度差による損失景観は、テクスチャのない領域における画素の台地景観や、判別の少ないピクセルに対する複数の局所ミニマにより、最適化にしばしば問題となる。 本研究は,特徴量的損失を特徴表現に基づいて提案し,特徴表現を自己指導的に学習し,一階微分と二階微分の両方で正規化することにより,損失景観を制約し,適切な収束盆地を形成する。 包括的実験と可視化による詳細な解析により,提案する特徴量損失の有効性が示された。 特に, KITTI の最先端手法を 0.885 から 0.925 に改良し, 奥行き推定法として$\delta_1$ で測定し, 従来手法よりも大幅に向上した。

Photometric loss is widely used for self-supervised depth and egomotion estimation. However, the loss landscapes induced by photometric differences are often problematic for optimization, caused by plateau landscapes for pixels in textureless regions or multiple local minima for less discriminative pixels. In this work, feature-metric loss is proposed and defined on feature representation, where the feature representation is also learned in a self-supervised manner and regularized by both first-order and second-order derivatives to constrain the loss landscapes to form proper convergence basins. Comprehensive experiments and detailed analysis via visualization demonstrate the effectiveness of the proposed feature-metric loss. In particular, our method improves state-of-the-art methods on KITTI from 0.885 to 0.925 measured by $\delta_1$ for depth estimation, and significantly outperforms previous method for visual odometry.
翻訳日:2022-11-08 04:58:13 公開日:2020-07-21
# 条件付き変形可変オートエンコーダによる不整合データの新しいビュー合成

Novel View Synthesis on Unpaired Data by Conditional Deformable Variational Auto-Encoder ( http://arxiv.org/abs/2007.10618v1 )

ライセンス: Link先を確認
Mingyu Yin, Li Sun, Qingli Li(参考訳) 新規なビュー合成は、しばしばソースとターゲットの両方のビューからのペアデータを必要とする。 本稿では, ペアデータを必要としない, cVAE-GAN フレームワークによるビュー変換モデルを提案する。 本稿では,VAEのメインブランチの特徴マップを畳み込むために,ビュー条件ベクトルをフィルタとして利用する条件変形モジュール(CDM)を設計する。 2次元光学フローのような特徴を変形させるために、いくつかの変位マップを生成する。 結果は、デフォルメされた機能ベースの正規化モジュール(DFNM)に入力され、サイドブランチからの入力として、メインブランチの機能をスケールしてオフセットする。 エンコーダは、CDMとDFNMの利点を生かし、ビュー非関連後部を出力し、デコーダは、そこから引き出されたコードを取り、再構成された画像とビュー変換された画像を合成する。 ビューと他の要素の絡み合いをさらに確実にするため、コードに逆のトレーニングを加えます。 マルチPIEおよび3Dチェアデータセットの結果とアブレーション研究により,cVAEおよび設計モジュールにおけるフレームワークの有効性が検証された。

Novel view synthesis often needs the paired data from both the source and target views. This paper proposes a view translation model under cVAE-GAN framework without requiring the paired data. We design a conditional deformable module (CDM) which uses the view condition vectors as the filters to convolve the feature maps of the main branch in VAE. It generates several pairs of displacement maps to deform the features, like the 2D optical flows. The results are fed into the deformed feature based normalization module (DFNM), which scales and offsets the main branch feature, given its deformed one as the input from the side branch. Taking the advantage of the CDM and DFNM, the encoder outputs a view-irrelevant posterior, while the decoder takes the code drawn from it to synthesize the reconstructed and the viewtranslated images. To further ensure the disentanglement between the views and other factors, we add adversarial training on the code. The results and ablation studies on MultiPIE and 3D chair datasets validate the effectiveness of the framework in cVAE and the designed module.
翻訳日:2022-11-08 04:57:52 公開日:2020-07-21
# 弱視映像からの人物再同定モデルの学習

Learning Person Re-identification Models from Videos with Weak Supervision ( http://arxiv.org/abs/2007.10631v1 )

ライセンス: Link先を確認
Xueping Wang, Sujoy Paul, Dripta S. Raychaudhuri, Min Liu, Yaonan Wang and Amit K. Roy-Chowdhury, Fellow, IEEE(参考訳) ほとんどの人物再識別手法は、監督技術であり、大量のアノテーション要件の負担に苦しむ。 教師なしの手法はラベル付きデータの必要性を克服するが、教師なしの方法と比べて性能は劣る。 この問題に対処するため,本研究では,映像から人物再同定モデルを学ぶことの問題点について紹介する。 監督の弱い性質は、より正確なフレームレベルのアノテーションとは対照的に、ビデオレベルのラベル、すなわちビデオに現れる人物のアイデンティティの必要性から生じる。 この目的に向けて,ビデオレベルラベルを用いた人物再同定のための複数インスタンス注意学習フレームワークを提案する。 具体的には、まず、ビデオ中の人物画像がバッグに収集される複数のインスタンス学習環境に、ビデオ人物の再識別タスクを投入する。 類似ラベルとビデオの関係を利用して人物を識別し,その上に,ビデオと人物の同一性との間の類似性相関関係を抽出する,共同注目機構を導入する。 注意重みはビデオのトラックレットではなく、すべての人物画像に基づいて得られるので、学習したモデルはノイズの多いアノテーションの影響を少なくします。 2つの弱いラベル付き人物再識別データセットにおいて,提案手法が関連する手法よりも優れていることを示す。

Most person re-identification methods, being supervised techniques, suffer from the burden of massive annotation requirement. Unsupervised methods overcome this need for labeled data, but perform poorly compared to the supervised alternatives. In order to cope with this issue, we introduce the problem of learning person re-identification models from videos with weak supervision. The weak nature of the supervision arises from the requirement of video-level labels, i.e. person identities who appear in the video, in contrast to the more precise framelevel annotations. Towards this goal, we propose a multiple instance attention learning framework for person re-identification using such video-level labels. Specifically, we first cast the video person re-identification task into a multiple instance learning setting, in which person images in a video are collected into a bag. The relations between videos with similar labels can be utilized to identify persons, on top of that, we introduce a co-person attention mechanism which mines the similarity correlations between videos with person identities in common. The attention weights are obtained based on all person images instead of person tracklets in a video, making our learned model less affected by noisy annotations. Extensive experiments demonstrate the superiority of the proposed method over the related methods on two weakly labeled person re-identification datasets.
翻訳日:2022-11-08 04:57:32 公開日:2020-07-21
# ビデオ検索用マルチモーダルトランス

Multi-modal Transformer for Video Retrieval ( http://arxiv.org/abs/2007.10639v1 )

ライセンス: Link先を確認
Valentin Gabeur, Chen Sun, Karteek Alahari, Cordelia Schmid(参考訳) 自然言語クエリに関連するビデオコンテンツを検索するタスクは、インターネットスケールのデータセットを効果的に扱う上で重要な役割を果たす。 このキャプションからビデオへの検索問題に対する既存の手法のほとんどは、ビデオに存在するクロスモーダルな手がかりを十分に活用していない。 さらに、フレーム毎の視覚的特徴を時間的情報または制限なく集約する。 本稿では,ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。 トランスアーキテクチャは、時間情報のエンコードとモデル化にも利用される。 自然言語に関しては,マルチモーダル変換器を併用した言語埋め込みを最適化するためのベストプラクティスを検討する。 この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。 詳細はhttp://thoth.inrialpes.fr/research/MMT.comで確認できる。

The task of retrieving video content relevant to natural language queries plays a critical role in effectively handling internet-scale datasets. Most of the existing methods for this caption-to-video retrieval problem do not fully exploit cross-modal cues present in video. Furthermore, they aggregate per-frame visual features with limited or no temporal information. In this paper, we present a multi-modal transformer to jointly encode the different modalities in video, which allows each of them to attend to the others. The transformer architecture is also leveraged to encode and model the temporal information. On the natural language side, we investigate the best practices to jointly optimize the language embedding together with the multi-modal transformer. This novel framework allows us to establish state-of-the-art results for video retrieval on three datasets. More details are available at http://thoth.inrialpes.fr/research/MMT.
翻訳日:2022-11-08 04:57:15 公開日:2020-07-21
# 歪み整流のための深い順序歪推定法

A Deep Ordinal Distortion Estimation Approach for Distortion Rectification ( http://arxiv.org/abs/2007.10689v1 )

ライセンス: Link先を確認
Kang Liao, Chunyu Lin, Yao Zhao(参考訳) 一般的な広角カメラや魚眼カメラで撮影された画像には歪みが広く存在する。 歪み補正の長い歴史にもかかわらず、単一の歪み画像から歪みパラメータを正確に推定することは依然として困難である。 主な理由は、これらのパラメータが画像の特徴に暗黙的であり、歪み情報を完全に学習するネットワークに影響を与えることである。 本研究では,より高精度なパラメータを高効率で得るための新しい歪み整流法を提案する。 我々の重要な洞察は、歪み補正は1つの歪み画像から順序歪みを学ぶ問題として考えられることである。 この問題を解決するため,本手法では,順序歪みを学習し,実際の歪み分布を近似する局所的グローバル結合推定ネットワークを設計する。 暗示歪みパラメータとは対照的に、提案した順序歪みは画像の特徴とより明確な関係を持ち、ニューラルネットワークの歪み知覚を著しく向上させる。 歪み情報の冗長性を考慮すると,本手法では歪み補正に有効であることを示すために,歪み推定に歪み画像の一部のみを用いる。 我々はまず,不均一な歪みパラメータを順序的歪みを通じて学習しやすい中間表現に統一し,画像特徴と歪み補正のギャップを埋める。 実験の結果,本手法は最先端手法をかなり上回っており,視認性に優れた性能を示しながら,定量的評価に約23%の改善が見られた。

Distortion is widely existed in the images captured by popular wide-angle cameras and fisheye cameras. Despite the long history of distortion rectification, accurately estimating the distortion parameters from a single distorted image is still challenging. The main reason is these parameters are implicit to image features, influencing the networks to fully learn the distortion information. In this work, we propose a novel distortion rectification approach that can obtain more accurate parameters with higher efficiency. Our key insight is that distortion rectification can be cast as a problem of learning an ordinal distortion from a single distorted image. To solve this problem, we design a local-global associated estimation network that learns the ordinal distortion to approximate the realistic distortion distribution. In contrast to the implicit distortion parameters, the proposed ordinal distortion have more explicit relationship with image features, and thus significantly boosts the distortion perception of neural networks. Considering the redundancy of distortion information, our approach only uses a part of distorted image for the ordinal distortion estimation, showing promising applications in the efficient distortion rectification. To our knowledge, we first unify the heterogeneous distortion parameters into a learning-friendly intermediate representation through ordinal distortion, bridging the gap between image feature and distortion rectification. The experimental results demonstrate that our approach outperforms the state-of-the-art methods by a significant margin, with approximately 23% improvement on the quantitative evaluation while displaying the best performance on visual appearance.
翻訳日:2022-11-08 04:57:03 公開日:2020-07-21
# 不確かさを意識した映像からの行動検出

Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos ( http://arxiv.org/abs/2007.10703v1 )

ライセンス: Link先を確認
Anurag Arnab, Chen Sun, Arsha Nagrani, Cordelia Schmid(参考訳) 近年の映像分類の進歩にもかかわらず、時空間行動認識の進歩は遅れている。 主な要因は、フレームごとにビデオに注釈を付けることの禁止コストである。 本稿では,映像レベルラベルのみを用いて訓練された時空間的行動認識モデルを提案する。 提案手法は,複数インスタンス学習フレームワーク内で大規模な画像データセットをトレーニングしたフレーム単位の人物検出装置を活用する。 我々は,各バッグが特定のラベルを持つインスタンスを少なくとも1つ含むという標準的な多重インスタンス学習仮定が,予測の不確かさを推定するMILの新しい確率的変種を用いて無効である場合に,我々の方法を適用する方法を示す。 さらに、UCF101-24における弱教師付き手法のうち、AVAデータセットに関する最初の弱教師付き結果と最先端結果について報告する。

Despite the recent advances in video classification, progress in spatio-temporal action recognition has lagged behind. A major contributing factor has been the prohibitive cost of annotating videos frame-by-frame. In this paper, we present a spatio-temporal action recognition model that is trained with only video-level labels, which are significantly easier to annotate. Our method leverages per-frame person detectors which have been trained on large image datasets within a Multiple Instance Learning framework. We show how we can apply our method in cases where the standard Multiple Instance Learning assumption, that each bag contains at least one instance with the specified label, is invalid using a novel probabilistic variant of MIL where we estimate the uncertainty of each prediction. Furthermore, we report the first weakly-supervised results on the AVA dataset and state-of-the-art results among weakly-supervised methods on UCF101-24.
翻訳日:2022-11-08 04:56:38 公開日:2020-07-21
# 時間変換認識による映像表現学習

Video Representation Learning by Recognizing Temporal Transformations ( http://arxiv.org/abs/2007.10730v1 )

ライセンス: Link先を確認
Simon Jenni, Givi Meishvili, Paolo Favaro(参考訳) 動きのダイナミクスの変化に反応する映像の表現を学習するための,新しい自己教師付き学習手法を提案する。 私たちの表現は人間のアノテーションを使わずにデータから学習することができ、アクション認識などのタスクのために小さなラベル付きデータセット上でニューラルネットワークのトレーニングを大幅に向上させることができます。 ニューラルネットワークを訓練し、時間変換されたバージョンから映像シーケンスを識別することで、人間の注意なしに正確な動きの学習を促進する。 非自明な動きを区別するために、変換の設計は2つの原則に基づいている。 1) 異なる大きさのタイムワープに基づいて運動のクラスターを定義する。 2)できるだけ多くの画像フレームを観察、分析することで、識別が実現可能であることを保証する。 そこで,前向き再生,ランダムフレームスキップ,均一フレームスキップといった変換を導入する。 UCF101およびHMDB51上での動作認識において,提案手法を用いてトレーニングしたネットワークは,転送性能を向上する。

We introduce a novel self-supervised learning approach to learn representations of videos that are responsive to changes in the motion dynamics. Our representations can be learned from data without human annotation and provide a substantial boost to the training of neural networks on small labeled data sets for tasks such as action recognition, which require to accurately distinguish the motion of objects. We promote an accurate learning of motion without human annotation by training a neural network to discriminate a video sequence from its temporally transformed versions. To learn to distinguish non-trivial motions, the design of the transformations is based on two principles: 1) To define clusters of motions based on time warps of different magnitude; 2) To ensure that the discrimination is feasible only by observing and analyzing as many image frames as possible. Thus, we introduce the following transformations: forward-backward playback, random frame skipping, and uniform frame skipping. Our experiments show that networks trained with the proposed method yield representations with improved transfer performance for action recognition on UCF101 and HMDB51.
翻訳日:2022-11-08 04:56:25 公開日:2020-07-21
# 医用画像のための形状認識半教師付き3次元意味セグメンテーション

Shape-aware Semi-supervised 3D Semantic Segmentation for Medical Images ( http://arxiv.org/abs/2007.10732v1 )

ライセンス: Link先を確認
Shuailin Li, Chuyu Zhang, and Xuming He(参考訳) 半教師付き学習は、高性能な深層学習手法を構築するための重要なステップであるピクセルワイドな画像アノテーションの獲得という課題により、医用画像セグメンテーションにおいて多くの注目を集めている。 既存の半教師付きセグメンテーションアプローチは、オブジェクトセグメントの幾何学的制約を無視し、不完全なオブジェクトカバレッジをもたらすか、余分なアライメントを必要とする前に強い形を課す傾向にある。 本研究では,豊富なラベル付きデータを活用し,セグメンテーション出力に幾何学的形状制約を課す,新しい形状対応半教師付きセグメンテーション戦略を提案する。 そこで我々は,物体表面のセマンティックセグメンテーションと符号付き距離マップ(SDM)を共同で予測するマルチタスクディープネットワークを開発した。 トレーニング中,ラベル付きデータとラベル付きデータの予測sdm間の敵意損失を導入することにより,形状認識機能をより効果的に捉えることができる。 Atrial Segmentation Challengeデータセットの実験により,本手法は形状推定の改善により最先端の手法よりも優れた性能を示し,その有効性を検証した。 コードはhttps://github.com/kleinzcy/SASSnet.comで入手できる。

Semi-supervised learning has attracted much attention in medical image segmentation due to challenges in acquiring pixel-wise image annotations, which is a crucial step for building high-performance deep learning methods. Most existing semi-supervised segmentation approaches either tend to neglect geometric constraint in object segments, leading to incomplete object coverage, or impose strong shape prior that requires extra alignment. In this work, we propose a novel shapeaware semi-supervised segmentation strategy to leverage abundant unlabeled data and to enforce a geometric shape constraint on the segmentation output. To achieve this, we develop a multi-task deep network that jointly predicts semantic segmentation and signed distance map(SDM) of object surfaces. During training, we introduce an adversarial loss between the predicted SDMs of labeled and unlabeled data so that our network is able to capture shape-aware features more effectively. Experiments on the Atrial Segmentation Challenge dataset show that our method outperforms current state-of-the-art approaches with improved shape estimation, which validates its efficacy. Code is available at https://github.com/kleinzcy/SASSnet.
翻訳日:2022-11-08 04:56:08 公開日:2020-07-21
# 重なり合う頸部細胞分画に対する深部半教師付き知識蒸留法

Deep Semi-supervised Knowledge Distillation for Overlapping Cervical Cell Instance Segmentation ( http://arxiv.org/abs/2007.10787v1 )

ライセンス: Link先を確認
Yanning Zhou, Hao Chen, Huangjing Lin, Pheng-Ann Heng(参考訳) 深層学習法では頚部細胞標本の分割が重複する有望な結果を示す。 しかし、優れた一般化能力を持つモデルのトレーニングには、非常に高価で、取得に時間がかかります、voluminous pixelレベルアノテーションが要求されます。 本稿では,ラベル付きデータとラベルなしデータの両方を,知識蒸留による精度向上に活用することを提案する。 本研究では,教師と学生ネットワークから構成される,摂動感性サンプルマイニング(MMT-PSM)を用いた新しいマスク誘導平均教師フレームワークを提案する。 2つのネットワークは、小さな摂動の下で特徴レベルと意味レベルの両方で一貫することを奨励されている。 k$-time拡張サンプルからの教師の自己認識予測は、学生を最適化するための信頼できる擬似ラベルを構築するために使用される。 本研究では,各提案の摂動に対する感受性を推定する新しい手法を設計し,大規模事例から情報的サンプルを選択して,迅速かつ効果的なセマンティック蒸留を容易にする。 また,背景領域から不可避なノイズを除去するため,予測したセグメンテーションマスクを手掛かりとして,前景領域の特徴蒸留を強制する手法を提案する。 提案手法はラベル付きデータのみから学習した教師付き手法に比べて大幅に性能が向上し,最先端の半教師付き手法よりも優れることを示す。

Deep learning methods show promising results for overlapping cervical cell instance segmentation. However, in order to train a model with good generalization ability, voluminous pixel-level annotations are demanded which is quite expensive and time-consuming for acquisition. In this paper, we propose to leverage both labeled and unlabeled data for instance segmentation with improved accuracy by knowledge distillation. We propose a novel Mask-guided Mean Teacher framework with Perturbation-sensitive Sample Mining (MMT-PSM), which consists of a teacher and a student network during training. Two networks are encouraged to be consistent both in feature and semantic level under small perturbations. The teacher's self-ensemble predictions from $K$-time augmented samples are used to construct the reliable pseudo-labels for optimizing the student. We design a novel strategy to estimate the sensitivity to perturbations for each proposal and select informative samples from massive cases to facilitate fast and effective semantic distillation. In addition, to eliminate the unavoidable noise from the background region, we propose to use the predicted segmentation mask as guidance to enforce the feature distillation in the foreground region. Experiments show that the proposed method improves the performance significantly compared with the supervised method learned from labeled data only, and outperforms state-of-the-art semi-supervised methods.
翻訳日:2022-11-08 04:55:40 公開日:2020-07-21
# 宇宙でのディープラーニング応用の加速

Accelerating Deep Learning Applications in Space ( http://arxiv.org/abs/2007.11089v1 )

ライセンス: Link先を確認
Martina Lofqvist, Jos\'e Cano(参考訳) エッジでのコンピューティングは、自律性と人工知能の開発に興味深い可能性を提供します。 自動運転技術の進歩とコンピュータビジョンの復活は、高速で信頼性の高いディープラーニングアプリケーションに対する需要の高まりにつながった。 近年、業界は様々な物体検出タスクを実行するための処理能力を備えたデバイスを導入している。 しかし、リアルタイム検出では、デバイスはメモリ、計算能力、電力に制限され、全体的な性能を損なう可能性がある。 これは物体検出器の最適化や画像の変更によって解決できる。 本稿では,cnnを用いた物体検出装置の性能について,画像圧縮技術の違いについて検討する。 NVIDIA Jetson Nanoは低消費電力で高性能なコンピュータで、GPUを内蔵し、CubeSatに搭載できるほど小型である。 航空画像における物体検出のための大規模データセットであるdota上で事前学習されたsingle shot multibox detector (ssd) とリージョンベース完全畳み込みネットワーク (r-fcn) について詳しく検討する。 性能は、推論時間、メモリ消費、正確性の観点から測定される。 画像圧縮技術を適用することで、パフォーマンスを最適化できます。 ロスレス圧縮と画像スケーリングの2つのテクニックは、正確さをほとんど変更することなく、スピードとメモリ消費を改善する。 画像スケーリング技術は100%実行可能なデータセットを実現し,速度/メモリ/精度トレードオフを最適化するために両手法を組み合わせることを提案する。

Computing at the edge offers intriguing possibilities for the development of autonomy and artificial intelligence. The advancements in autonomous technologies and the resurgence of computer vision have led to a rise in demand for fast and reliable deep learning applications. In recent years, the industry has introduced devices with impressive processing power to perform various object detection tasks. However, with real-time detection, devices are constrained in memory, computational capacity, and power, which may compromise the overall performance. This could be solved either by optimizing the object detector or modifying the images. In this paper, we investigate the performance of CNN-based object detectors on constrained devices when applying different image compression techniques. We examine the capabilities of a NVIDIA Jetson Nano; a low-power, high-performance computer, with an integrated GPU, small enough to fit on-board a CubeSat. We take a closer look at the Single Shot MultiBox Detector (SSD) and Region-based Fully Convolutional Network (R-FCN) that are pre-trained on DOTA - a Large Scale Dataset for Object Detection in Aerial Images. The performance is measured in terms of inference time, memory consumption, and accuracy. By applying image compression techniques, we are able to optimize performance. The two techniques applied, lossless compression and image scaling, improves speed and memory consumption with no or little change in accuracy. The image scaling technique achieves a 100% runnable dataset and we suggest combining both techniques in order to optimize the speed/memory/accuracy trade-off.
翻訳日:2022-11-08 04:49:17 公開日:2020-07-21
# 未来の知的クロスメディア検索のための深層学習技術

Deep Learning Techniques for Future Intelligent Cross-Media Retrieval ( http://arxiv.org/abs/2008.01191v1 )

ライセンス: Link先を確認
Sadaqat ur Rehman, Muhammad Waqas, Shanshan Tu, Anis Koubaa, Obaid ur Rehman, Jawad Ahmad, Muhammad Hanif, Zhu Han(参考訳) 技術の発展と放送の拡大により、メディア横断検索が注目されるようになった。 ビッグデータアプリケーションでは重要な役割を担っており、さまざまな種類のメディアからデータを探し、発見する。 本稿では,マルチメディア検索におけるマルチモーダルな深層学習アプローチ,すなわち表現,アライメント,翻訳の課題に対応する新しい分類法を提案する。 これらの課題は,4つのグループに分類される深層学習(DL)に基づく手法に基づいて評価される。 1) 教師なしの方法, 2)監督方法 3)対関係に基づく方法、及び 4) ランクに基づく方法。 そこで我々は,深層学習に基づくクロスメディア検索手法において,これらのデータセットの重要性を考慮し,検索に使用されるよく知られたクロスメディアデータセットを提案する。 さらに,メディア間検索における深層学習を促進するための最先端問題とその対応ソリューションについて,広範なレビューを行う。 この研究の基本的な目的は、ディープニューラルネットワーク(dnn)を"メディアギャップ"の橋渡しに利用し、研究者や開発者に対して、深層学習支援クロスメディア検索の基盤となる問題や潜在的な解決策をより深く理解することにある。 我々の知る限りでは、ディープラーニング手法によるマルチメディア検索に対処するための総合的な調査としては、これが初めてである。

With the advancement in technology and the expansion of broadcasting, cross-media retrieval has gained much attention. It plays a significant role in big data applications and consists in searching and finding data from different types of media. In this paper, we provide a novel taxonomy according to the challenges faced by multi-modal deep learning approaches in solving cross-media retrieval, namely: representation, alignment, and translation. These challenges are evaluated on deep learning (DL) based methods, which are categorized into four main groups: 1) unsupervised methods, 2) supervised methods, 3) pairwise based methods, and 4) rank based methods. Then, we present some well-known cross-media datasets used for retrieval, considering the importance of these datasets in the context in of deep learning based cross-media retrieval approaches. Moreover, we also present an extensive review of the state-of-the-art problems and its corresponding solutions for encouraging deep learning in cross-media retrieval. The fundamental objective of this work is to exploit Deep Neural Networks (DNNs) for bridging the "media gap", and provide researchers and developers with a better understanding of the underlying problems and the potential solutions of deep learning assisted cross-media retrieval. To the best of our knowledge, this is the first comprehensive survey to address cross-media retrieval under deep learning methods.
翻訳日:2022-11-08 04:48:56 公開日:2020-07-21
# Bloom Origami Assays: 実践的なグループテスト

Bloom Origami Assays: Practical Group Testing ( http://arxiv.org/abs/2008.02641v1 )

ライセンス: Link先を確認
Louis Abraham, Gary Becigneul, Benjamin Coleman, Bernhard Scholkopf, Anshumali Shrivastava, Alexander Smola(参考訳) 我々は、通常グループテストと呼ばれる問題を、COVID-19の文脈で研究する。 患者から収集されたn個のサンプルから、情報の最大化とテスト回数の最小化のためにサンプルの混合物を選択してテストするにはどうすればよいか? グループテストは、いくつかの魅力的なソリューションでよく研究されている問題であるが、最近の生物学的研究は、従来の方法と互換性のない新型コロナウイルスの実践的な制約を課している。 さらに、既存の手法では、既存の問題よりもメモリと計算の制約の多い設定のために考案された、不要な制限付きソリューションを使用する。 これにより実用性が低下する。 新しい設定では、進化戦略を用いてnの小さな値に対する強い解を得る。 次に,Bloomフィルタと信念伝播を組み合わせた新しい手法を開発し,n(100以上)の大きい値に拡張し,良好な実験結果を得る。 さらに,特定のcovid-19設定用に最適化された,より正確な復号アルゴリズムも提示する。 この研究は、専用アルゴリズムとよく知られた汎用解の実践的なギャップを示す。 提案手法は, 選択した患者数以上を同一プローブに混ぜることなく, 強力な経験的性能をもたらす新しい実用的多重化法である。 最後に,適応的部分モジュラリティの枠組みとして,適応的手法について簡単に論じる。

We study the problem usually referred to as group testing in the context of COVID-19. Given n samples collected from patients, how should we select and test mixtures of samples to maximize information and minimize the number of tests? Group testing is a well-studied problem with several appealing solutions, but recent biological studies impose practical constraints for COVID-19 that are incompatible with traditional methods. Furthermore, existing methods use unnecessarily restrictive solutions, which were devised for settings with more memory and compute constraints than the problem at hand. This results in poor utility. In the new setting, we obtain strong solutions for small values of n using evolutionary strategies. We then develop a new method combining Bloom filters with belief propagation to scale to larger values of n (more than 100) with good empirical results. We also present a more accurate decoding algorithm that is tailored for specific COVID-19 settings. This work demonstrates the practical gap between dedicated algorithms and well-known generic solutions. Our efforts results in a new and practical multiplex method yielding strong empirical performance without mixing more than a chosen number of patients into the same probe. Finally, we briefly discuss adaptive methods, casting them into the framework of adaptive sub-modularity.
翻訳日:2022-11-08 04:48:34 公開日:2020-07-21
# 誤り訂正によるニューラルマシン翻訳

Neural Machine Translation with Error Correction ( http://arxiv.org/abs/2007.10681v1 )

ライセンス: Link先を確認
Kaitao Song, Xu Tan and Jianfeng Lu(参考訳) ニューラルマシン翻訳(NMT)は、トレーニング中に前の接地真理目標トークンを入力し、推論中に前の生成された目標トークンを入力として与えられた次のターゲットトークンを生成し、トレーニングと推論の相違とエラーの伝播を生じさせ、翻訳精度に影響を与える。 本論文では,NMTに誤り訂正機構を導入し,前回生成したトークンの誤り情報を補正し,次のトークンをより正確に予測する。 具体的には、XLNetからの2ストリームの自己アテンションをNMTデコーダに導入し、クエリストリームを使用して次のトークンを予測し、一方コンテンツストリームは以前の予測トークンからエラー情報を補正する。 トレーニング中の予測誤差をシミュレートするために,スケジュールサンプリングを利用する。 3つのIWSLT翻訳データセットと2つのWMT翻訳データセットの実験により,本手法がTransformerベースラインとスケジュールサンプリングの改善を実現することを示す。 また,提案する誤り訂正機構が翻訳品質を向上させる効果も検証した。

Neural machine translation (NMT) generates the next target token given as input the previous ground truth target tokens during training while the previous generated target tokens during inference, which causes discrepancy between training and inference as well as error propagation, and affects the translation accuracy. In this paper, we introduce an error correction mechanism into NMT, which corrects the error information in the previous generated tokens to better predict the next token. Specifically, we introduce two-stream self-attention from XLNet into NMT decoder, where the query stream is used to predict the next token, and meanwhile the content stream is used to correct the error information from the previous predicted tokens. We leverage scheduled sampling to simulate the prediction errors during training. Experiments on three IWSLT translation datasets and two WMT translation datasets demonstrate that our method achieves improvements over Transformer baseline and scheduled sampling. Further experimental analyses also verify the effectiveness of our proposed error correction mechanism to improve the translation quality.
翻訳日:2022-11-08 04:48:15 公開日:2020-07-21
# xd at semeval-2020 task 12: ensemble approach to offensive language identification in social media using transformer encoder (英語)

XD at SemEval-2020 Task 12: Ensemble Approach to Offensive Language Identification in Social Media Using Transformer Encoders ( http://arxiv.org/abs/2007.10945v1 )

ライセンス: Link先を確認
Xiangjue Dong and Jinho D. Choi(参考訳) 本稿では,ソーシャルメディアにおける攻撃的言語識別のための最新のトランスフォーマーエンコーダと高性能アンサンブルモデルを用いた6つの文書分類モデルを提案する。 個々のモデルに対して、ディープトランス層を適用してマルチヘッドアテンションを行う。 アンサンブルモデルでは、個々のモデルから抽出した発話表現を連結して線形デコーダに入力し、最終的な決定を行う。 我々のアンサンブルモデルは個々のモデルより優れており、開発セット上の個々のモデルよりも最大8.6%改善されている。 テストセットでは、90.9%のマクロF1を達成し、この共有タスクのサブタスクAの85人の参加者の中で、ハイパフォーマンスシステムの1つとなる。 分析の結果,アンサンブルモデルは開発セットの精度を大幅に向上させるが,テストセットでは改善が顕著ではないことがわかった。

This paper presents six document classification models using the latest transformer encoders and a high-performing ensemble model for a task of offensive language identification in social media. For the individual models, deep transformer layers are applied to perform multi-head attentions. For the ensemble model, the utterance representations taken from those individual models are concatenated and fed into a linear decoder to make the final decisions. Our ensemble model outperforms the individual models and shows up to 8.6% improvement over the individual models on the development set. On the test set, it achieves macro-F1 of 90.9% and becomes one of the high performing systems among 85 participants in the sub-task A of this shared task. Our analysis shows that although the ensemble model significantly improves the accuracy on the development set, the improvement is not as evident on the test set.
翻訳日:2022-11-08 04:47:56 公開日:2020-07-21
# Sistema experto para el diagn\'ostico de enfermedades y plagas en los cultivos del arroz, tabaco, tomate, pimiento, ma\'iz, pepino y frijol

Sistema experto para el diagn\'ostico de enfermedades y plagas en los cultivos del arroz, tabaco, tomate, pimiento, ma\'iz, pepino y frijol ( http://arxiv.org/abs/2007.11038v1 )

ライセンス: Link先を確認
Ing. Yosvany Medina Carb\'o, MSc. Iracely Milagros Santana Ges, Lic. Saily Leo Gonz\'alez(参考訳) 農業生産は、様々な情報源の情報に加えて、知識の蓄積と統合を必要とする複雑なビジネスになっている。 競争力を維持するために、現代の農夫は農業の専門家やアドバイザーに頼り、作物の意思決定に関する情報を提供する。 しかし残念なことに、農家が必要とするとき、農業専門家の助けは必ずしも得られない。 この問題を軽減するため、エキスパートシステムは農業において大きな可能性を秘めている強力な機器となっている。 本稿では,米,タバコ,トマト,コショウ,トウモロコシ,キュウリ,豆類における病害および害虫の診断システムについて述べる。 このエキスパートシステムを開発するために、SWI-Prologは知識ベースを作成するために使われ、述語と連動し、システムが生産ルールに基づいていることを可能にした。 このシステムは、これらの作物に影響を及ぼす害虫や病気の迅速かつ信頼性の高い診断を可能にする。

Agricultural production has become a complex business that requires the accumulation and integration of knowledge, in addition to information from many different sources. To remain competitive, the modern farmer often relies on agricultural specialists and advisors who provide them with information for decision making in their crops. But unfortunately, the help of the agricultural specialist is not always available when the farmer needs it. To alleviate this problem, expert systems have become a powerful instrument that has great potential within agriculture. This paper presents an Expert System for the diagnosis of diseases and pests in rice, tobacco, tomato, pepper, corn, cucumber and bean crops. For the development of this Expert System, SWI-Prolog was used to create the knowledge base, so it works with predicates and allows the system to be based on production rules. This system allows a fast and reliable diagnosis of pests and diseases that affect these crops.
翻訳日:2022-11-08 04:47:40 公開日:2020-07-21
# 互換性を考慮した3次元対応グルーピング

3D Correspondence Grouping with Compatibility Features ( http://arxiv.org/abs/2007.10570v1 )

ライセンス: Link先を確認
Jiaqi Yang and Jiahao Chen and Zhiqiang Huang and Siwen Quan and Yanning Zhang and Zhiguo Cao(参考訳) 本稿では,3次元対応グルーピングのための簡易かつ効果的な手法を提案する。 その目的は、局所幾何学的記述子をインリアーとアウトリアーにマッチングして得られる初期対応を精度良く分類することである。 対応の空間分布は不規則であるが、不整合は幾何学的に相容れないことが期待されている。 このような観測に基づいて,不整合と不整合を表わすために,互換性特徴(CF)と呼ばれる3次元対応の新たな表現を提案する。 CFは、他の対応に対する候補の上位互換性スコアで構成されており、これは純粋にロバストで回転不変な幾何学的制約に依存している。 次に、単純な多層パーセプトロン(MLP)ネットワークによって達成されるCF特徴の分類問題としてグループ化問題を定式化する。 4つのベンチマークにおいて,9つの最先端手法との比較を行った。 1)CFは独特で、頑丈で、回転不変である。 2)本手法は, 最良性能を達成し, 優れた一般化能力を有する。

We present a simple yet effective method for 3D correspondence grouping. The objective is to accurately classify initial correspondences obtained by matching local geometric descriptors into inliers and outliers. Although the spatial distribution of correspondences is irregular, inliers are expected to be geometrically compatible with each other. Based on such observation, we propose a novel representation for 3D correspondences, dubbed compatibility feature (CF), to describe the consistencies within inliers and inconsistencies within outliers. CF consists of top-ranked compatibility scores of a candidate to other correspondences, which purely relies on robust and rotation-invariant geometric constraints. We then formulate the grouping problem as a classification problem for CF features, which is accomplished via a simple multilayer perceptron (MLP) network. Comparisons with nine state-of-the-art methods on four benchmarks demonstrate that: 1) CF is distinctive, robust, and rotation-invariant; 2) our CF-based method achieves the best overall performance and holds good generalization ability.
翻訳日:2022-11-08 04:47:21 公開日:2020-07-21
# 視覚対応のためのハイパーカラム作成学習

Learning to Compose Hypercolumns for Visual Correspondence ( http://arxiv.org/abs/2007.10587v1 )

ライセンス: Link先を確認
Juhong Min, Jongmin Lee, Jean Ponce, Minsu Cho(参考訳) 特徴表現は視覚的対応において重要な役割を担い、最近の画像マッチング手法は深く積み重ねられた畳み込み層に頼っている。 しかし、これらのモデルはモノリシックかつ静的であり、通常、最終層の出力のような特定のレベルの機能を使用し、一致する画像に関係なくそれに固執するという意味では静的である。 本研究では,画像に条件付けされた関連レイヤを利用して動的に効率的な特徴を構成する視覚対応手法を提案する。 オブジェクト検出における多層特徴合成と、分類における適応型推論アーキテクチャの両方に着想を得て、提案手法は動的ハイパーピクセルフローと呼ばれ、深層畳み込みニューラルネットワークから少数の関連層を選択することで、高速にハイパーカラム特徴を構成することを学ぶ。 意味対応のタスク、すなわち、同一のオブジェクトやシーンカテゴリの異なるインスタンスを描写する画像間の対応を確立することの有効性を示す。 標準ベンチマーク実験により,提案手法は適応的かつ効率的な手法で,最先端のマッチング性能を大幅に向上することが示された。

Feature representation plays a crucial role in visual correspondence, and recent methods for image matching resort to deeply stacked convolutional layers. These models, however, are both monolithic and static in the sense that they typically use a specific level of features, e.g., the output of the last layer, and adhere to it regardless of the images to match. In this work, we introduce a novel approach to visual correspondence that dynamically composes effective features by leveraging relevant layers conditioned on the images to match. Inspired by both multi-layer feature composition in object detection and adaptive inference architectures in classification, the proposed method, dubbed Dynamic Hyperpixel Flow, learns to compose hypercolumn features on the fly by selecting a small number of relevant layers from a deep convolutional neural network. We demonstrate the effectiveness on the task of semantic correspondence, i.e., establishing correspondences between images depicting different instances of the same object or scene category. Experiments on standard benchmarks show that the proposed method greatly improves matching performance over the state of the art in an adaptive and efficient manner.
翻訳日:2022-11-08 04:47:07 公開日:2020-07-21
# 時間的グループ注意を伴うビデオ超解像

Video Super-resolution with Temporal Group Attention ( http://arxiv.org/abs/2007.10595v1 )

ライセンス: Link先を確認
Takashi Isobe, Songjiang Li, Xu Jia, Shanxin Yuan, Gregory Slabaugh, Chunjing Xu, Ya-Li Li, Shengjin Wang, Qi Tian(参考訳) 対応する低解像度バージョンから高解像度ビデオを作成することを目的とした超高解像度ビデオが最近注目を集めている。 本研究では,時間的情報を階層的に効果的に組み込む新しい手法を提案する。 入力シーケンスは複数のグループに分割され、それぞれがフレームレートの一種に対応する。 これらのグループは、参照フレームの欠落した詳細を復元するための補完的な情報を提供し、さらにアテンションモジュールと深いグループ内融合モジュールと統合される。 また,大きな動きを持つ動画を扱うために,高速な空間アライメントを提案する。 様々な動きを伴う動画の処理において,提案モデルが有効であることを示す。 いくつかのベンチマークデータセットで最先端のメソッドに対して良好なパフォーマンスを達成する。

Video super-resolution, which aims at producing a high-resolution video from its corresponding low-resolution version, has recently drawn increasing attention. In this work, we propose a novel method that can effectively incorporate temporal information in a hierarchical way. The input sequence is divided into several groups, with each one corresponding to a kind of frame rate. These groups provide complementary information to recover missing details in the reference frame, which is further integrated with an attention module and a deep intra-group fusion module. In addition, a fast spatial alignment is proposed to handle videos with large motion. Extensive results demonstrate the capability of the proposed model in handling videos with various motion. It achieves favorable performance against state-of-the-art methods on several benchmark datasets.
翻訳日:2022-11-08 04:46:48 公開日:2020-07-21
# Graph-PCNN: Graph Pose Refinementによる2段階の人文推定

Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement ( http://arxiv.org/abs/2007.10599v1 )

ライセンス: Link先を確認
Jian Wang, Xiang Long, Yuan Gao, Errui Ding, Shilei Wen(参考訳) 近年,ヒトのポーズ推定手法の多くは熱マップ回帰に基づく。 キーポイントの最終座標はヒートマップを直接復号することで得られる。 本稿では,より正確なローカライズ結果を得るためのより良いアプローチを提案する。 主に2つの改善提案を行った。 1)大まかで正確な位置決めには,異なる特徴や方法を適用する必要がある。 2)キーポイント間の関係を考慮する。 具体的には,2段階のグラフベースおよびモデル非依存フレームワークであるGraph-PCNNを提案する。 第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。 第2段階では、各ガイドポイントに対して、ローカライズサブネットにより異なる視覚特徴を抽出する。 誘導点間の関係は、より正確な局所化結果を得るために、グラフポーズリファインメントモジュールによって検討される。 実験によると、Graph-PCNNは様々なバックボーンで使用することができ、パフォーマンスを大きなマージンで向上させることができる。 ベルとホイッスルがなければ、私たちの最良のモデルは、COCOテストデブ分割に関する新しい最先端の76.8%APを達成することができる。

Recently, most of the state-of-the-art human pose estimation methods are based on heatmap regression. The final coordinates of keypoints are obtained by decoding heatmap directly. In this paper, we aim to find a better approach to get more accurate localization results. We mainly put forward two suggestions for improvement: 1) different features and methods should be applied for rough and accurate localization, 2) relationship between keypoints should be considered. Specifically, we propose a two-stage graph-based and model-agnostic framework, called Graph-PCNN, with a localization subnet and a graph pose refinement module added onto the original heatmap regression network. In the first stage, heatmap regression network is applied to obtain a rough localization result, and a set of proposal keypoints, called guided points, are sampled. In the second stage, for each guided point, different visual feature is extracted by the localization subnet. The relationship between guided points is explored by the graph pose refinement module to get more accurate localization results. Experiments show that Graph-PCNN can be used in various backbones to boost the performance by a large margin. Without bells and whistles, our best model can achieve a new state-of-the-art 76.8% AP on COCO test-dev split.
翻訳日:2022-11-08 04:46:36 公開日:2020-07-21
# CyCNN: 極性マッピングと円筒畳み込み層を用いた回転不変CNN

CyCNN: A Rotation Invariant CNN using Polar Mapping and Cylindrical Convolution Layers ( http://arxiv.org/abs/2007.10588v1 )

ライセンス: Link先を確認
Jinpyo Kim, Wooekun Jung, Hyungmo Kim, Jaejin Lee(参考訳) 深部畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, CNN)は、画像分類において、中間翻訳には不変であるが回転には不変である。 本稿では,入力画像の極性マッピングを利用して回転を変換する,cycnnと呼ばれる深層cnnモデルを提案する。 偏極座標の円筒特性に対処するため、従来のCNNの畳み込み層を円筒畳み込み層(CyConv)に置き換える。 CyConv層は円筒状のスライドウインドウ(CSW)機構を利用して、畳み込み層における境界単位の入力イメージ受容場を垂直に拡張する。 回転MNIST, CIFAR-10, SVHNデータセットの分類タスクに対するCyCNNおよび従来のCNNモデルの評価を行った。 トレーニング中にデータ拡張がなければ,CyCNNは従来のCNNモデルと比較して,分類精度を大幅に向上することを示す。 CyCNNの実装はhttps://github.com/mcrl/CyCNNで公開されています。

Deep Convolutional Neural Networks (CNNs) are empirically known to be invariant to moderate translation but not to rotation in image classification. This paper proposes a deep CNN model, called CyCNN, which exploits polar mapping of input images to convert rotation to translation. To deal with the cylindrical property of the polar coordinates, we replace convolution layers in conventional CNNs to cylindrical convolutional (CyConv) layers. A CyConv layer exploits the cylindrically sliding windows (CSW) mechanism that vertically extends the input-image receptive fields of boundary units in a convolutional layer. We evaluate CyCNN and conventional CNN models for classification tasks on rotated MNIST, CIFAR-10, and SVHN datasets. We show that if there is no data augmentation during training, CyCNN significantly improves classification accuracies when compared to conventional CNN models. Our implementation of CyCNN is publicly available on https://github.com/mcrl/CyCNN.
翻訳日:2022-11-08 04:39:49 公開日:2020-07-21
# ainnoseg:高いパーフォマンスを持つパノラマセグメンテーション

AinnoSeg: Panoramic Segmentation with High Perfomance ( http://arxiv.org/abs/2007.10591v1 )

ライセンス: Link先を確認
Jiahong Wu, Jianfei Lu, Xinxin Kang, Yiming Zhang, Yinhang Tang, Jianfei Song, Ze Huang, Shenglan Ben, Jiashui Huang, Faen Zhang(参考訳) パノラマセグメンテーションは、画像セグメンテーションタスクがより難しいシーンである。 cnnネットワークの発展に伴いパノラマセグメンテーションタスクが十分に開発されているが、現在のパノラマセグメンテーションアルゴリズムは文脈意味論に重点を置いているが、画像の詳細は十分に処理されていない。 さらに、オクルードされたオブジェクトセグメンテーションの精度、小さなオブジェクトセグメンテーション、オブジェクトセグメンテーションにおけるバウンダリーピクセルなどを含む問題は解決できない。 この問題に対処するため,本稿では有用な手法を提案する。 (a) 基本セグメンテーションモデルを変更することにより, 画像の詳細の大規模オブジェクトと境界画素の分類を考慮に入れることができる。 b) 画像内の複数のオブジェクトの境界画素を考慮に入れられるように損失関数を変更する。 (c)訓練過程の制御を取り戻すために半監督的アプローチを用いる。 (d)マルチスケールトレーニングと推論を用いた。 AinnoSegと名付けられたこれらの操作はすべて、よく知られたデータセットADE20Kで最先端のパフォーマンスを達成することができる。

Panoramic segmentation is a scene where image segmentation tasks is more difficult. With the development of CNN networks, panoramic segmentation tasks have been sufficiently developed.However, the current panoramic segmentation algorithms are more concerned with context semantics, but the details of image are not processed enough. Moreover, they cannot solve the problems which contains the accuracy of occluded object segmentation,little object segmentation,boundary pixel in object segmentation etc. Aiming to address these issues, this paper presents some useful tricks. (a) By changing the basic segmentation model, the model can take into account the large objects and the boundary pixel classification of image details. (b) Modify the loss function so that it can take into account the boundary pixels of multiple objects in the image. (c) Use a semi-supervised approach to regain control of the training process. (d) Using multi-scale training and reasoning. All these operations named AinnoSeg, AinnoSeg can achieve state-of-art performance on the well-known dataset ADE20K.
翻訳日:2022-11-08 04:39:33 公開日:2020-07-21
# キーポイントのない形状と視点

Shape and Viewpoint without Keypoints ( http://arxiv.org/abs/2007.10982v1 )

ライセンス: Link先を確認
Shubham Goel, Angjoo Kanazawa, Jitendra Malik(参考訳) 本稿では,1つの画像から3次元形状,ポーズ,テクスチャを復元し,基底真理3次元形状,マルチビュー,カメラ視点,キーポイント監督を伴わない画像収集で学習する学習フレームワークを提案する。 そこでは, 画像の形状, テクスチャ, カメラの視点を予測し, 様々なカテゴリに特化して画像を生成する「合成による分析」フレームワークにおいて, 極めて制約の少ない問題にアプローチする。 この論文における我々の貢献は、カメラ上の分布の表現であり、これを「カメラマルチプレックス」と呼ぶ。 ポイント推定を選択する代わりに、トレーニング中に最適化された一連のカメラ仮説を維持して、現在の形状とテクスチャに基づいて画像を説明する。 われわれのアプローチはUnsupervised Category-Specific Mesh Reconstruction (U-CMR)と呼ばれ、CUB、Pascal 3Dおよび新しいWebスクラッドデータセットの質的かつ定量的な結果を示す。 我々は最先端のカメラ予測結果を取得し、キーポイントアノテーションや3D地上真実を使わずに画像収集を用いてオブジェクト間の多様な形状やテクスチャを予測できることを示す。 プロジェクトページ: https://shubham-goel.github.io/ucmr

We present a learning framework that learns to recover the 3D shape, pose and texture from a single image, trained on an image collection without any ground truth 3D shape, multi-view, camera viewpoints or keypoint supervision. We approach this highly under-constrained problem in a "analysis by synthesis" framework where the goal is to predict the likely shape, texture and camera viewpoint that could produce the image with various learned category-specific priors. Our particular contribution in this paper is a representation of the distribution over cameras, which we call "camera-multiplex". Instead of picking a point estimate, we maintain a set of camera hypotheses that are optimized during training to best explain the image given the current shape and texture. We call our approach Unsupervised Category-Specific Mesh Reconstruction (U-CMR), and present qualitative and quantitative results on CUB, Pascal 3D and new web-scraped datasets. We obtain state-of-the-art camera prediction results and show that we can learn to predict diverse shapes and textures across objects using an image collection without any keypoint annotations or 3D ground truth. Project page: https://shubham-goel.github.io/ucmr
翻訳日:2022-11-08 04:38:09 公開日:2020-07-21
# Foley Music:ビデオから音楽を生成する学習

Foley Music: Learning to Generate Music from Videos ( http://arxiv.org/abs/2007.10984v1 )

ライセンス: Link先を確認
Chuang Gan, Deng Huang, Peihao Chen, Joshua B. Tenenbaum, Antonio Torralba(参考訳) 本稿では,楽器を演奏する人々に関するサイレントビデオクリップのために,可塑性楽曲を合成するシステムであるFoley Musicを紹介する。 まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。 次に、動画からの音楽生成をモーション・トゥ・MIDI翻訳問題として定式化する。 我々は、体の動きに応じてmidiイベントシーケンスを正確に予測できるgraph$-$transformerフレームワークを提案する。 MIDIイベントは、市販の音楽シンセサイザーツールを使って、リアルな音楽に変換できる。 我々は,様々な音楽演奏を含むビデオに対して,モデルの有効性を示す。 実験の結果,本モデルは聴き心地の良い音楽を生成する上で,既存のシステムよりも優れていた。 さらに,MIDI表現は完全に解釈可能で透過的であるため,音楽編集を柔軟に行うことができる。 音声でデモビデオを観て、その結果を体験することを、読者に勧める。

In this paper, we introduce Foley Music, a system that can synthesize plausible music for a silent video clip about people playing musical instruments. We first identify two key intermediate representations for a successful video to music generator: body keypoints from videos and MIDI events from audio recordings. We then formulate music generation from videos as a motion-to-MIDI translation problem. We present a Graph$-$Transformer framework that can accurately predict MIDI event sequences in accordance with the body movements. The MIDI event can then be converted to realistic music using an off-the-shelf music synthesizer tool. We demonstrate the effectiveness of our models on videos containing a variety of music performances. Experimental results show that our model outperforms several existing systems in generating music that is pleasant to listen to. More importantly, the MIDI representations are fully interpretable and transparent, thus enabling us to perform music editing flexibly. We encourage the readers to watch the demo video with audio turned on to experience the results.
翻訳日:2022-11-08 04:37:47 公開日:2020-07-21
# 機械学習の分野を改善するためのアイデア: neurips 2019 retrospectives workshopでの議論を要約する

Ideas for Improving the Field of Machine Learning: Summarizing Discussion from the NeurIPS 2019 Retrospectives Workshop ( http://arxiv.org/abs/2007.10546v1 )

ライセンス: Link先を確認
Shagun Sodhani, Mayoore S. Jaiswal, Lauren Baker, Koustuv Sinha, Carl Shneider, Peter Henderson, Joel Lehman, Ryan Lowe(参考訳) このレポートは、NeurIPS 2019のML Retrospectivesワークショップで議論された機械学習の分野を改善するためのアイデアを文書化している。 報告書の目的は、これらのアイデアをより広く広めることであり、その結果、フィールドがこれらの軸に沿ってどのように改善されるかについての継続的な議論を促進することである。 ワークショップで最も議論されたトピックは、奨学金の代替形態を奨励するためのインセンティブ、レビュープロセスの再構築、アカデミックと産業への参加、そしてコンピュータ科学者を科学者として訓練する方法である。 ワークショップのビデオはhttps://slideslive.com/neurips/west-114-115-retrospectives-a-venue-for-selfreflection-in-ml-research で見ることができる。

This report documents ideas for improving the field of machine learning, which arose from discussions at the ML Retrospectives workshop at NeurIPS 2019. The goal of the report is to disseminate these ideas more broadly, and in turn encourage continuing discussion about how the field could improve along these axes. We focus on topics that were most discussed at the workshop: incentives for encouraging alternate forms of scholarship, re-structuring the review process, participation from academia and industry, and how we might better train computer scientists as scientists. Videos from the workshop can be accessed at https://slideslive.com/neurips/west-114-115-retrospectives-a-venue-for-selfreflection-in-ml-research
翻訳日:2022-11-08 04:31:33 公開日:2020-07-21
# GANと自動車の創造性を補間する

Interpolating GANs to Scaffold Autotelic Creativity ( http://arxiv.org/abs/2007.11119v1 )

ライセンス: Link先を確認
Ziv Epstein, Oc\'eane Boulais, Skylar Gordon, and Matt Groh(参考訳) generative adversarial networks (gans) によってモデル化された潜在空間は、大きな可能性空間を表す。 GANによって生成されたカテゴリを補間することにより、新しいハイブリッド画像を作成することができる。 我々は、この空間を効率的に探索することで、新しいハイブリッド動物を生成できるBigGANを補間したカジュアルなクリエーター「Meet the Ganimals」を紹介します。 従来のカジュアルなクリエーターと同じく、システムはシンプルな創造的なフローをサポートし、可能性空間の迅速な探索を促進する。 ユーザーは新しいガニマルを発見し、独自のものを作り、ガニマルの美的、感情的、形態的特徴に対する反応を共有することができる。 ユーザがシステムに入力を提供すると、システムはガニマルが生成されるカテゴリの分布を適応し、変更する。 GANベースの最初のカジュアルクリエーターの1人であるMeet the Ganimalsは、カジュアルクリエーターが人間のキュレーションと市民科学を利用して、大きな可能性空間で新しいアーティファクトを発見する方法の例だ。

The latent space modeled by generative adversarial networks (GANs) represents a large possibility space. By interpolating categories generated by GANs, it is possible to create novel hybrid images. We present "Meet the Ganimals," a casual creator built on interpolations of BigGAN that can generate novel, hybrid animals called ganimals by efficiently searching this possibility space. Like traditional casual creators, the system supports a simple creative flow that encourages rapid exploration of the possibility space. Users can discover new ganimals, create their own, and share their reactions to aesthetic, emotional, and morphological characteristics of the ganimals. As users provide input to the system, the system adapts and changes the distribution of categories upon which ganimals are generated. As one of the first GAN-based casual creators, Meet the Ganimals is an example how casual creators can leverage human curation and citizen science to discover novel artifacts within a large possibility space.
翻訳日:2022-11-08 04:30:56 公開日:2020-07-21
# フェデレーション学習のためのインセンティブ:仮説解法アプローチ

Incentives for Federated Learning: a Hypothesis Elicitation Approach ( http://arxiv.org/abs/2007.10596v1 )

ライセンス: Link先を確認
Yang Liu and Jiaheng Wei(参考訳) フェデレーション学習は、ユーザのデータプライバシを損なうことなく、分散データソースから機械学習モデルを集めるための有望なパラダイムを提供する。 信頼できる連合学習システムの成功は、分散的で利己的なユーザたちが、信頼に値する方法でローカルモデルに貢献できるという仮定に基づいている。 しかし、適切なインセンティブがなければ、ユーザーは単にコントリビューションサイクルをオプトアウトするか、スパム/偽情報を投稿するインセンティブを誤る可能性がある。 本稿では,フェデレーション学習のためのローカルなユーザ側機械学習モデルの真偽レポートをインセンティブ化する手法を提案する。 この結果は,情報引用の文献に基づいているが,仮説の提示(人間による予測ではなく)に焦点が当てられている。 ベイズナッシュ平衡における局所仮説の真理的な報告を動機づけるスコアリングルールに基づくフレームワークを提供する。 また,提案手法の市場実装,精度,ロバスト性についても検討した。 MNISTとCIFAR-10データセットを用いて本手法の有効性を検証する。 特に、低品質の仮説を報告することで、ユーザーはスコア(報酬または支払い)が減少することを示す。

Federated learning provides a promising paradigm for collecting machine learning models from distributed data sources without compromising users' data privacy. The success of a credible federated learning system builds on the assumption that the decentralized and self-interested users will be willing to participate to contribute their local models in a trustworthy way. However, without proper incentives, users might simply opt out the contribution cycle, or will be mis-incentivized to contribute spam/false information. This paper introduces solutions to incentivize truthful reporting of a local, user-side machine learning model for federated learning. Our results build on the literature of information elicitation, but focus on the questions of eliciting hypothesis (rather than eliciting human predictions). We provide a scoring rule based framework that incentivizes truthful reporting of local hypotheses at a Bayesian Nash Equilibrium. We study the market implementation, accuracy as well as robustness properties of our proposed solution too. We verify the effectiveness of our methods using MNIST and CIFAR-10 datasets. Particularly we show that by reporting low-quality hypotheses, users will receive decreasing scores (rewards, or payments).
翻訳日:2022-11-08 04:30:38 公開日:2020-07-21
# マルチモーダルミールに向けて:音楽誘発運動と個人差の予測

Towards Multimodal MIR: Predicting individual differences from music-induced movement ( http://arxiv.org/abs/2007.10695v1 )

ライセンス: Link先を確認
Yudhik Agrawal, Samyak Jain, Emily Carlson, Petri Toiviainen, Vinoo Alluri(参考訳) 音楽情報検索の分野が拡大するにつれて、音楽の多様性や、動きやジェスチャーといった音楽的エンゲージメントの側面を考慮に入れることが重要である。 身体運動は音楽と普遍的に関連しており、個性、気分、共感といった音楽の好みに関連する重要な個性を反映している。 将来のマルチモーダルMIRシステムは、これらの側面を考慮することで恩恵を受けるかもしれない。 本研究は, 個人差, 特にビッグファイブの性格特性を同定し, 参加者の自由ダンス運動からの共感・体系的行動(EQ/SQ)の得点について考察する。 われわれのモデルでは、未確認のパーソナリティ空間とEQ、SQの探索に成功している。 R2スコアはパーソナリティ、EQ、SQはそれぞれ76.3%、77.1%、86.7%であった。 続いて,これらの特徴を定義する上で,どの関節が重要かを検討した。 我々は,これらの特徴の移動パターンへのマッピングが,よりパーソナライズされたマルチモーダルなレコメンデーションシステムの構築や,潜在的な治療応用にどのように役立つか,さらなる研究がいかに役立つかについて議論する。

As the field of Music Information Retrieval grows, it is important to take into consideration the multi-modality of music and how aspects of musical engagement such as movement and gesture might be taken into account. Bodily movement is universally associated with music and reflective of important individual features related to music preference such as personality, mood, and empathy. Future multimodal MIR systems may benefit from taking these aspects into account. The current study addresses this by identifying individual differences, specifically Big Five personality traits, and scores on the Empathy and Systemizing Quotients (EQ/SQ) from participants' free dance movements. Our model successfully explored the unseen space for personality as well as EQ, SQ, which has not previously been accomplished for the latter. R2 scores for personality, EQ, and SQ were 76.3%, 77.1%, and 86.7% respectively. As a follow-up, we investigated which bodily joints were most important in defining these traits. We discuss how further research may explore how the mapping of these traits to movement patterns can be used to build a more personalized, multi-modal recommendation system, as well as potential therapeutic applications.
翻訳日:2022-11-08 04:30:17 公開日:2020-07-21
# 高血圧症における心拍変動解析への放射線学的アプローチ

A radiomics approach to analyze cardiac alterations in hypertension ( http://arxiv.org/abs/2007.10717v1 )

ライセンス: Link先を確認
Irem Cetin, Steffen E. Petersen, Sandy Napel, Oscar Camara, Miguel Angel Gonzalez Ballester, Karim Lekadir(参考訳) 高血圧は多くの主要な疾患の危険因子として確立されている。 例えば、心臓構造が変化し、時間とともに機能し、心臓の死亡率や死亡率につながる可能性がある。 しかし, 臨床心臓画像から計算した従来の心血管指標では, これらの変化は微妙であり, 容易には捉えられない。 本稿では,高血圧に関連する中間画像の表現型を特定するための放射線学的アプローチについて述べる。 この方法は特徴選択と機械学習技術を組み合わせて、健康な人と比較して、高血圧サブグループにおける最も微妙で複雑な構造と組織の変化を識別する。 高血圧例と非高血圧例の両方を含む無症候性心のサンプルに基づく検証は、提案する放射線モデルが従来の画像表現型の能力を超えて強度やテクスチャの変化を検出できることを示し、高血圧の心血管の健康や疾患に対する経時的影響の理解を改善する可能性を示唆している。

Hypertension is a medical condition that is well-established as a risk factor for many major diseases. For example, it can cause alterations in the cardiac structure and function over time that can lead to heart related morbidity and mortality. However, at the subclinical stage, these changes are subtle and cannot be easily captured using conventional cardiovascular indices calculated from clinical cardiac imaging. In this paper, we describe a radiomics approach for identifying intermediate imaging phenotypes associated with hypertension. The method combines feature selection and machine learning techniques to identify the most subtle as well as complex structural and tissue changes in hypertensive subgroups as compared to healthy individuals. Validation based on a sample of asymptomatic hearts that include both hypertensive and non-hypertensive cases demonstrate that the proposed radiomics model is capable of detecting intensity and textural changes well beyond the capabilities of conventional imaging phenotypes, indicating its potential for improved understanding of the longitudinal effects of hypertension on cardiovascular health and disease.
翻訳日:2022-11-08 04:29:56 公開日:2020-07-21
# 完全スコアシート画像における音楽の読み書き学習

Learning to Read and Follow Music in Complete Score Sheet Images ( http://arxiv.org/abs/2007.10736v1 )

ライセンス: Link先を確認
Florian Henkel, Rainer Kelz, Gerhard Widmer(参考訳) 本稿では,未処理画像として与えられる楽譜の追従課題について述べる。 既存の作業はOMRソフトウェアに頼ってコンピュータ可読なスコア表現を得るか,あるいは用意されたシート画像の抜粋に大きく依存するが,本研究では,全ページで完全に処理されていないシート画像にスコアを追従する最初のシステムを提案する。 入力された音声とスコアの所定の画像に基づいて、システムは、アライメント精度で現在の最先端の画像ベースのスコアフォロワーを上回って、オーディオにマッチするページ内の最も可能性の高い位置を直接予測する。 また,本手法をOMRベースのアプローチと比較し,そのようなシステムに代わる有効な代替手段であることを実証的に示す。

This paper addresses the task of score following in sheet music given as unprocessed images. While existing work either relies on OMR software to obtain a computer-readable score representation, or crucially relies on prepared sheet image excerpts, we propose the first system that directly performs score following in full-page, completely unprocessed sheet images. Based on incoming audio and a given image of the score, our system directly predicts the most likely position within the page that matches the audio, outperforming current state-of-the-art image-based score followers in terms of alignment precision. We also compare our method to an OMR-based approach and empirically show that it can be a viable alternative to such a system.
翻訳日:2022-11-08 04:29:20 公開日:2020-07-21
# ガウス近似による確率的確率を用いた効率的なグラフベースアクティブラーニング

Efficient Graph-Based Active Learning with Probit Likelihood via Gaussian Approximations ( http://arxiv.org/abs/2007.11126v1 )

ライセンス: Link先を確認
Kevin Miller, Hao Li, and Andrea L. Bertozzi(参考訳) 非ガウスベイズモデルに基づくグラフベース半教師付き学習(SSL)へのアクティブラーニングの新たな適応を提案する。 我々は、ガウス分布を近似して、より一般的なケースに先立つガウス的獲得関数を適用する。 我々は,「ルックアヘッド」に基づく手法とモデル再訓練を併用する効率的なランクワン更新法を開発した。 また,これらの近似に基づく新しい「モデル変更」獲得関数を導入し,そのような手法で利用可能なアクティブラーニング獲得関数のコレクションをさらに拡大する。

We present a novel adaptation of active learning to graph-based semi-supervised learning (SSL) under non-Gaussian Bayesian models. We present an approximation of non-Gaussian distributions to adapt previously Gaussian-based acquisition functions to these more general cases. We develop an efficient rank-one update for applying "look-ahead" based methods as well as model retraining. We also introduce a novel "model change" acquisition function based on these approximations that further expands the available collection of active learning acquisition functions for such methods.
翻訳日:2022-11-08 04:22:34 公開日:2020-07-21
# 生成逆ネットワークを持つ微分方程式解の教師なし学習

Unsupervised Learning of Solutions to Differential Equations with Generative Adversarial Networks ( http://arxiv.org/abs/2007.11133v1 )

ライセンス: Link先を確認
Dylan Randle, Pavlos Protopapas, David Sondak(参考訳) 微分方程式の解は、科学的および工学的関連性が重要である。 近年,ニューラルネットワークを用いた微分方程式の解法への関心が高まっている。 本研究では, ニューラルネットワークの最適化のために, 生成逆ニューラルネットワーク(gans)を適用した非教師付きニューラルネットワークを用いた微分方程式の解法を開発した。 我々は,微分方程式GAN (DEQGAN) と呼ばれる手法を用いて,(2乗)$L_2$,$L_1$,およびHuber損失関数をベースとした,代替的な教師なしニューラルネットワーク法に比べて,平均2乗誤差を桁違いに低減できることを示す実験結果を示した。 さらに,DECGANは従来の数値法と競合する解の精度を実現する。 最後に,我々のアプローチの安定性を分析し,虫垂で提示するハイパーパラメータの選択に敏感であることを見出した。 コードはhttps://github.com/dylanrandle/denn。 dylanrandle@alumni.harvard.eduへの電子通信をどうぞ。

Solutions to differential equations are of significant scientific and engineering relevance. Recently, there has been a growing interest in solving differential equations with neural networks. This work develops a novel method for solving differential equations with unsupervised neural networks that applies Generative Adversarial Networks (GANs) to \emph{learn the loss function} for optimizing the neural network. We present empirical results showing that our method, which we call Differential Equation GAN (DEQGAN), can obtain multiple orders of magnitude lower mean squared errors than an alternative unsupervised neural network method based on (squared) $L_2$, $L_1$, and Huber loss functions. Moreover, we show that DEQGAN achieves solution accuracy that is competitive with traditional numerical methods. Finally, we analyze the stability of our approach and find it to be sensitive to the selection of hyperparameters, which we provide in the appendix. Code available at https://github.com/dylanrandle/denn. Please address any electronic correspondence to dylanrandle@alumni.harvard.edu.
翻訳日:2022-11-08 04:22:26 公開日:2020-07-21
# 固有スペクトル形状に基づくナイストロームサンプリングによるスペクトルクラスタリング

Spectral Clustering using Eigenspectrum Shape Based Nystrom Sampling ( http://arxiv.org/abs/2007.11416v1 )

ライセンス: Link先を確認
Djallel Bouneffouf(参考訳) スペクトルクラスタリングは、クラスタ構造を分析する上で優れた性能を示している。 しかし、計算の複雑さは大規模データ分析の応用を制限している。 この問題を解決するために、ナイストロム法(近似誤差境界が証明されたアプローチ)を含む多くの低ランク行列近似アルゴリズムが提案されている。 様々な精度と計算時間でNystrom近似を構築するためのレシピを提供するアルゴリズムがいくつか存在する。 本稿では,新しいサンプリング手法であるCentroid Minimum Sum of Squared similarities (CMS3)と,それを使用するタイミングに関するヒューリスティックなアルゴリズムを提案する。 我々のヒューリスティックはデータセットの固有スペクトル形状に依存し、他の最先端手法と比較してテストデータセットにおける競合する低ランク近似が得られる。

Spectral clustering has shown a superior performance in analyzing the cluster structure. However, its computational complexity limits its application in analyzing large-scale data. To address this problem, many low-rank matrix approximating algorithms are proposed, including the Nystrom method - an approach with proven approximate error bounds. There are several algorithms that provide recipes to construct Nystrom approximations with variable accuracies and computing times. This paper proposes a scalable Nystrom-based clustering algorithm with a new sampling procedure, Centroid Minimum Sum of Squared Similarities (CMS3), and a heuristic on when to use it. Our heuristic depends on the eigen spectrum shape of the dataset, and yields competitive low-rank approximations in test datasets compared to the other state-of-the-art methods
翻訳日:2022-11-08 04:22:08 公開日:2020-07-21
# gauss-newton法の解法とニューラルネットワークの近似推論

Disentangling the Gauss-Newton Method and Approximate Inference for Neural Networks ( http://arxiv.org/abs/2007.11994v1 )

ライセンス: Link先を確認
Alexander Immer(参考訳) 本論文では,gauss-newtonの一般化とベイズ深層学習の近似推論について考察する。 一般化ガウスニュートン法(英: generalized Gauss-Newton method)は、ベイジアンディープラーニングアルゴリズムで用いられる最適化法である。 ガウス・ニュートン法とラプラス法とガウス変分近似を組み合わせたアルゴリズムは、最近ベイズ深層学習の最先端の結果をもたらした。 ラプラスとガウスの変分近似は広く研究されているが、ガウス・ニュートン法との相互作用はいまだ不明である。 ベイジアンディープラーニングにおける事前および後部近似に対する最近の批判は、実用的なアルゴリズムのより深い理解の必要性をさらに示唆している。 ニューラルネットワークに対するガウスニュートン法とラプラス・ガウス変分近似の個別解析は、理論的洞察と新しい実用的なアルゴリズムの両方を提供する。 ガウスニュートン法は基礎となる確率モデルを大幅に単純化する。 特に、ガウス・ニュートン法と近似推論の組み合わせは、線形またはガウス過程モデルにおいて推論としてキャストできる。 ラプラスとガウスの変分近似は、これらの単純化されたモデルに後続近似を与えることができる。 最新のベイズ深層学習アルゴリズムに対するこの新しい非絡み合いの理解はまた、新しい方法をもたらす: まず、ガウス過程への接続は、新しい関数空間推論アルゴリズムを可能にする。 第2に,ニューラルネットワークのハイパーパラメータをチューニングするための確率モデルの限界帰納近似を提案する。 最後に、同定された基礎モデルによって予測分布を計算する異なる方法が導かれる。 実際、ベイズニューラルネットワークのこれらの予測手法は、デフォルトの選択よりもうまく機能し、ラプラス近似の共通問題を解くことがしばしばある。

In this thesis, we disentangle the generalized Gauss-Newton and approximate inference for Bayesian deep learning. The generalized Gauss-Newton method is an optimization method that is used in several popular Bayesian deep learning algorithms. Algorithms that combine the Gauss-Newton method with the Laplace and Gaussian variational approximation have recently led to state-of-the-art results in Bayesian deep learning. While the Laplace and Gaussian variational approximation have been studied extensively, their interplay with the Gauss-Newton method remains unclear. Recent criticism of priors and posterior approximations in Bayesian deep learning further urges the need for a deeper understanding of practical algorithms. The individual analysis of the Gauss-Newton method and Laplace and Gaussian variational approximations for neural networks provides both theoretical insight and new practical algorithms. We find that the Gauss-Newton method simplifies the underlying probabilistic model significantly. In particular, the combination of the Gauss-Newton method with approximate inference can be cast as inference in a linear or Gaussian process model. The Laplace and Gaussian variational approximation can subsequently provide a posterior approximation to these simplified models. This new disentangled understanding of recent Bayesian deep learning algorithms also leads to new methods: first, the connection to Gaussian processes enables new function-space inference algorithms. Second, we present a marginal likelihood approximation of the underlying probabilistic model to tune neural network hyperparameters. Finally, the identified underlying models lead to different methods to compute predictive distributions. In fact, we find that these prediction methods for Bayesian neural networks often work better than the default choice and solve a common issue with the Laplace approximation.
翻訳日:2022-11-08 04:21:53 公開日:2020-07-21
# Few-shot画像分類における表現不足の補足:メタラーニングアプローチ

Complementing Representation Deficiency in Few-shot Image Classification: A Meta-Learning Approach ( http://arxiv.org/abs/2007.10778v1 )

ライセンス: Link先を確認
Xian Zhong, Cheng Gu, Wenxin Huang, Lin Li, Shuqin Chen and Chia-Wen Lin(参考訳) 近年,多量のトレーニングサンプルの入手が困難であることから,難易度の高い学習課題が注目されている。 この問題に対処するためにメタラーニングが提案されており、限定されたラベル付きサンプルから、予測器を新しいタスクのベースラーナーとして迅速に適応することに焦点を当てている。 しかし、メタラーニングにおける重要な課題は、少数のトレーニングサンプルから共通情報を発見できないことや、そのような少ない情報から重要な特徴を表現することなど、表現不足である。 その結果、メタリーナーは、新しいタスクに一般化するために高次元のパラメータ空間でうまく訓練できない。 既存の手法では、表現不足を避けるために表現力の低い特徴を抽出することがほとんどである。 より優れた表現の学習を目的としたメタ学習手法として,画像分類のための補完表現ネットワーク(MCRNet)を提案する。 特に、潜在コードは表現不足を補うために余分な表現情報と共に再構成される潜在空間を埋め込みます。 さらに、潜在空間は変分推論によって確立され、異なるベースリーナーとうまく協調し、他のモデルにも拡張することができる。 最後に、我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。

Few-shot learning is a challenging problem that has attracted more and more attention recently since abundant training samples are difficult to obtain in practical applications. Meta-learning has been proposed to address this issue, which focuses on quickly adapting a predictor as a base-learner to new tasks, given limited labeled samples. However, a critical challenge for meta-learning is the representation deficiency since it is hard to discover common information from a small number of training samples or even one, as is the representation of key features from such little information. As a result, a meta-learner cannot be trained well in a high-dimensional parameter space to generalize to new tasks. Existing methods mostly resort to extracting less expressive features so as to avoid the representation deficiency. Aiming at learning better representations, we propose a meta-learning approach with complemented representations network (MCRNet) for few-shot image classification. In particular, we embed a latent space, where latent codes are reconstructed with extra representation information to complement the representation deficiency. Furthermore, the latent space is established with variational inference, collaborating well with different base-learners, and can be extended to other models. Finally, our end-to-end framework achieves the state-of-the-art performance in image classification on three standard few-shot learning datasets.
翻訳日:2022-11-08 04:20:37 公開日:2020-07-21
# カテゴリー表現のための教師なし不均一結合学習

Unsupervised Heterogeneous Coupling Learning for Categorical Representation ( http://arxiv.org/abs/2007.10720v1 )

ライセンス: Link先を確認
Chengzhang Zhu, Longbing Cao, and Jianping Yin(参考訳) 複雑な分類データは、しばしば属性と属性値の不均一な関係とオブジェクト間の結合と階層的に結合される。 このような値対対象結合は相補的かつ矛盾した相互作用や分布と不均一である。 ラベルのないカテゴリデータ表現、異種および階層的な結合を無視する、データ特性と複雑さを過小評価する、冗長な情報を過大に活用する、限定的な研究がある。 ラベルのない分類データの深い表現学習は困難であり、そのような値対オブジェクトの結合、相補性と矛盾を監督し、大きなデータ、絡み合い、高い計算力を必要とする。 本研究は,結合間の相互作用を解き明かし,結合の種類に埋め込まれた不均一分布を明らかにすることにより,結合するカテゴリデータを表現するためのUNTIEアプローチを導入する。 UNTIEは、ヘテロジニアスおよび階層的値-オブジェクト結合の教師なし表現学習のためのカーネルk平均目的関数を効率的に最適化する。 理論的解析により、UNTIEは分類データを最大分離性で表すことができ、不均一な結合を効果的に表現し、その役割を分類データで明らかにすることができる。 untie-learned表現は、多様化した特性を持つ25のカテゴリデータセット上の最先端のカテゴリ表現とディープ表現モデルに対して、大幅にパフォーマンスが向上する。

Complex categorical data is often hierarchically coupled with heterogeneous relationships between attributes and attribute values and the couplings between objects. Such value-to-object couplings are heterogeneous with complementary and inconsistent interactions and distributions. Limited research exists on unlabeled categorical data representations, ignores the heterogeneous and hierarchical couplings, underestimates data characteristics and complexities, and overuses redundant information, etc. The deep representation learning of unlabeled categorical data is challenging, overseeing such value-to-object couplings, complementarity and inconsistency, and requiring large data, disentanglement, and high computational power. This work introduces a shallow but powerful UNsupervised heTerogeneous couplIng lEarning (UNTIE) approach for representing coupled categorical data by untying the interactions between couplings and revealing heterogeneous distributions embedded in each type of couplings. UNTIE is efficiently optimized w.r.t. a kernel k-means objective function for unsupervised representation learning of heterogeneous and hierarchical value-to-object couplings. Theoretical analysis shows that UNTIE can represent categorical data with maximal separability while effectively represent heterogeneous couplings and disclose their roles in categorical data. The UNTIE-learned representations make significant performance improvement against the state-of-the-art categorical representations and deep representation models on 25 categorical data sets with diversified characteristics.
翻訳日:2022-11-08 04:12:53 公開日:2020-07-21
# 機械学習を用いた脳波からの映画トレーサの消費者嗜好の理解

Understanding Consumer Preferences for Movie Trailers from EEG using Machine Learning ( http://arxiv.org/abs/2007.10756v1 )

ライセンス: Link先を確認
Pankaj Pandey, Raunak Swarnkar, Shobhit Kakaria and Krishna Prasad Miyapuram(参考訳) 神経マーケティングは、神経科学を用いて消費者の行動を理解することを目的としている。 eegのような脳イメージングツールは、消費者の行動をよりよく理解するために使われており、これは、消費者が製品を選ぶことを好む理由を理解するための、より正確な尺度である。 これまでの研究では、脳波による誘発反応の変化を理解することによって、消費者の嗜好を効果的に予測できることが示されている。 しかし、順序づけられた選択の選好の理解は以前には研究されなかった。 本研究では,脳波を用いた誘発反応の解読と,自然主義的な刺激,すなわち映画トレーラーの提示を試みた。 機械学習技術を使って脳波信号のパターンをマイニングし、72%以上の精度で映画評価を予測した。 本研究は,ニューラルネットワークが消費者選択の効果的な予測因子となり,消費者行動の理解を著しく向上させることを示す。

Neuromarketing aims to understand consumer behavior using neuroscience. Brain imaging tools such as EEG have been used to better understand consumer behavior that goes beyond self-report measures which can be a more accurate measure to understand how and why consumers prefer choosing one product over another. Previous studies have shown that consumer preferences can be effectively predicted by understanding changes in evoked responses as captured by EEG. However, understanding ordered preference of choices was not studied earlier. In this study, we try to decipher the evoked responses using EEG while participants were presented with naturalistic stimuli i.e. movie trailers. Using Machine Learning tech niques to mine the patterns in EEG signals, we predicted the movie rating with more than above-chance, 72% accuracy. Our research shows that neural correlates can be an effective predictor of consumer choices and can significantly enhance our understanding of consumer behavior.
翻訳日:2022-11-08 04:12:29 公開日:2020-07-21
# フィードフォワードニューラルネットワークの特徴可視化プロセスの反転

Inverting the Feature Visualization Process for Feedforward Neural Networks ( http://arxiv.org/abs/2007.10757v1 )

ライセンス: Link先を確認
Christian Reinbold (1), R\"udiger Westermann (1) ((1) Chair of Computer Graphics and Visualization, Technical University of Munich, Bavaria, Germany)(参考訳) この研究は、ニューラルネットワークにおける特徴可視化の可逆性に光を当てている。 アクティベーション最大化を用いた特徴可視化によって生成される入力は、最適化された特徴目標を得られないため、この入力を得られる特徴目標の最適化について検討する。 アクティベーション最大化において、与えられた入力が特徴目的にどの程度近いかを測定する目的関数を考えると、この関数w.r.t.入力の勾配は、目的のスケーリング係数--線形である。 この観測は、勾配を最小化する閉形式解を計算することによって最適な特徴目標を求めるために用いられる。 特徴の逆可視化により,アクティベーションではなく機能目標を考慮した入力に対して,ネットワークの感度を代替する視点を提供する。

This work sheds light on the invertibility of feature visualization in neural networks. Since the input that is generated by feature visualization using activation maximization does, in general, not yield the feature objective it was optimized for, we investigate optimizing for the feature objective that yields this input. Given the objective function used in activation maximization that measures how closely a given input resembles the feature objective, we exploit that the gradient of this function w.r.t. inputs is---up to a scaling factor---linear in the objective. This observation is used to find the optimal feature objective via computing a closed form solution that minimizes the gradient. By means of Inverse Feature Visualization, we intend to provide an alternative view on a networks sensitivity to certain inputs that considers feature objectives rather than activations.
翻訳日:2022-11-08 04:12:13 公開日:2020-07-21
# ランダム化オンラインCP分解

Randomized Online CP Decomposition ( http://arxiv.org/abs/2007.10798v1 )

ライセンス: Link先を確認
Congbo Ma, Xiaowei Yang, Hu Wang(参考訳) CANDECOMP/PARAFAC(CP)分解は、マルチウェイデータを扱うために広く使われている。 本稿では,実時間および大規模テンソルに対してランダム化サンプリングcp分解アルゴリズムとオンラインcp分解アルゴリズムのアイデアに基づき,ランダム化オンラインcp分解(rocp)と呼ばれる新しいcp分解アルゴリズムを提案する。 提案手法は,完全なkhatri-rao製品の生成を回避し,高速化とメモリ使用量の削減に寄与する。 合成データと実世界のデータを用いた実験の結果,rocpアルゴリズムは任意の次元の大規模テンソルのcp分解に対処できることがわかった。 さらに、rocpは計算時間とメモリ使用量、特に大規模テンソルを劇的に削減することができる。

CANDECOMP/PARAFAC (CP) decomposition has been widely used to deal with multi-way data. For real-time or large-scale tensors, based on the ideas of randomized-sampling CP decomposition algorithm and online CP decomposition algorithm, a novel CP decomposition algorithm called randomized online CP decomposition (ROCP) is proposed in this paper. The proposed algorithm can avoid forming full Khatri-Rao product, which leads to boost the speed largely and reduce memory usage. The experimental results on synthetic data and real-world data show the ROCP algorithm is able to cope with CP decomposition for large-scale tensors with arbitrary number of dimensions. In addition, ROCP can reduce the computing time and memory usage dramatically, especially for large-scale tensors.
翻訳日:2022-11-08 04:12:00 公開日:2020-07-21
# 深層強化学習による適応的交通制御--最先端に向けて

Adaptive Traffic Control with Deep Reinforcement Learning: Towards State-of-the-art and Beyond ( http://arxiv.org/abs/2007.10960v1 )

ライセンス: Link先を確認
Siavash Alemzadeh, Ramin Moslemi, Ratnesh Sharma, and Mehran Mesbahi(参考訳) 本研究では,Reinforcement Learning (RL) を用いた適応型データ誘導交通計画と制御について検討する。 我々は,古典的手法の日常的な使用から,深層RLコミュニティの最先端へと移行する。 離散制御のためのDQN(Deep Q-Networks)の改良手法をアルゴリズムに組み込んで,それに続くトラフィック関連解釈について議論する。 高速で信頼性の高い交通意思決定ツールとして,交通制御のための新しいDQNアルゴリズム(TC-DQN+)を提案する。 本稿では,従来の交通制御手法と比較した実例を用いて,新たな報奨関数を提案する。

In this work, we study adaptive data-guided traffic planning and control using Reinforcement Learning (RL). We shift from the plain use of classic methods towards state-of-the-art in deep RL community. We embed several recent techniques in our algorithm that improve the original Deep Q-Networks (DQN) for discrete control and discuss the traffic-related interpretations that follow. We propose a novel DQN-based algorithm for Traffic Control (called TC-DQN+) as a tool for fast and more reliable traffic decision-making. We introduce a new form of reward function which is further discussed using illustrative examples with comparisons to traditional traffic control methods.
翻訳日:2022-11-08 04:11:29 公開日:2020-07-21
# 機械学習におけるハイパーパラメータチューニングのための勾配に基づく2レベル最適化手法

A Gradient-based Bilevel Optimization Approach for Tuning Hyperparameters in Machine Learning ( http://arxiv.org/abs/2007.11022v1 )

ライセンス: Link先を確認
Ankur Sinha, Tanmay Khandait, Raja Mohanty(参考訳) ハイパーパラメータチューニングは機械学習における活発な研究領域であり、検証セット上で最高のパフォーマンスを提供する最適なハイパーパラメータを特定することを目的としている。 ハイパーパラメータチューニングは、ランダムサーチやグリッドサーチのようなナイーブな手法で達成されることが多い。 しかし、これらの手法のほとんどが最適なハイパーパラメータのセットにつながることは滅多になく、しばしば非常に高価になる。 本稿では,先行研究の欠点を伴わないハイパーパラメータ最適化問題を解くための2レベル解法を提案する。 提案手法は汎用的で,任意の種類の機械学習アルゴリズムに容易に適用可能である。 この考え方は、双レベル最適化において重要なマッピングであり、双レベル問題を単一レベルの制約付き最適化タスクに還元するのに役立つ低レベル最適値関数写像の近似に基づいている。 拡張ラグランジアン法を用いて一階制約最適化問題を解く。 提案アルゴリズムの背後にある理論を議論し,提案手法の効率性を確認する2つのデータセットについて広範な計算研究を行う。 我々は,格子探索,ランダム探索,ベイズ最適化手法の比較研究を行い,提案アルゴリズムが1つまたは2つのハイパーパラメータの問題に対して複数倍高速であることを示す。 ハイパーパラメータ数の増加に伴い、計算利得は大幅に増加することが期待されている。 与えられたハイパーパラメータに対応して、文献のほとんどのテクニックは、トレーニングセットの損失を最小限に抑えるユニークな最適パラメータセットを仮定する。 このような仮定はしばしばディープラーニングアーキテクチャによって破られ、提案手法はそのような仮定を必要としない。

Hyperparameter tuning is an active area of research in machine learning, where the aim is to identify the optimal hyperparameters that provide the best performance on the validation set. Hyperparameter tuning is often achieved using naive techniques, such as random search and grid search. However, most of these methods seldom lead to an optimal set of hyperparameters and often get very expensive. In this paper, we propose a bilevel solution method for solving the hyperparameter optimization problem that does not suffer from the drawbacks of the earlier studies. The proposed method is general and can be easily applied to any class of machine learning algorithms. The idea is based on the approximation of the lower level optimal value function mapping, which is an important mapping in bilevel optimization and helps in reducing the bilevel problem to a single level constrained optimization task. The single-level constrained optimization problem is solved using the augmented Lagrangian method. We discuss the theory behind the proposed algorithm and perform extensive computational study on two datasets that confirm the efficiency of the proposed method. We perform a comparative study against grid search, random search and Bayesian optimization techniques that shows that the proposed algorithm is multiple times faster on problems with one or two hyperparameters. The computational gain is expected to be significantly higher as the number of hyperparameters increase. Corresponding to a given hyperparameter most of the techniques in the literature often assume a unique optimal parameter set that minimizes loss on the training set. Such an assumption is often violated by deep learning architectures and the proposed method does not require any such assumption.
翻訳日:2022-11-08 04:11:18 公開日:2020-07-21
# 線形仮説集合のラデマッハ複雑性について

On the Rademacher Complexity of Linear Hypothesis Sets ( http://arxiv.org/abs/2007.11045v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Natalie Frank, Mehryar Mohri(参考訳) 線形予測子は、様々な学習アルゴリズムで使われる仮説の豊富なクラスを形成する。 我々は、任意の$p \geq 1$ に対して$\ell_p$-norm で有界な重みベクトルを持つ線形仮説クラスの経験的ラデマッハ複雑性を厳密に解析する。 これはこれらの仮説集合を用いた一般化の厳密な解析を提供し、鋭いデータ依存学習保証の導出を支援する。 これらの族のラデマッハ複雑性の上限を上限と下限の両方を与え、我々の境界が既存の境界を改善または一致していることを示し、これは1 \leq p \leq 2$ でしか知られていない。

Linear predictors form a rich class of hypotheses used in a variety of learning algorithms. We present a tight analysis of the empirical Rademacher complexity of the family of linear hypothesis classes with weight vectors bounded in $\ell_p$-norm for any $p \geq 1$. This provides a tight analysis of generalization using these hypothesis sets and helps derive sharp data-dependent learning guarantees. We give both upper and lower bounds on the Rademacher complexity of these families and show that our bounds improve upon or match existing bounds, which are known only for $1 \leq p \leq 2$.
翻訳日:2022-11-08 04:10:55 公開日:2020-07-21
# BAKSA at SemEval-2020 Task 9:Bolstering CNN with Self-Attention for Sentiment Analysis of Code Mixed Text (英語)

BAKSA at SemEval-2020 Task 9: Bolstering CNN with Self-Attention for Sentiment Analysis of Code Mixed Text ( http://arxiv.org/abs/2007.10819v1 )

ライセンス: Link先を確認
Ayush Kumar, Harsh Agarwal, Keshav Bansal, Ashutosh Modi(参考訳) コード混合テキストの感性分析は、ユーザレビューのタグ付けからサブ人口の社会的・政治的感情の特定まで、意見マイニングにおける応用を多様化させた。 本稿では,畳み込みニューラルネット(CNN)と自己注意に基づくLSTMのアンサンブルアーキテクチャを,コードミックスツイートの感情分析のために提案する。 CNNコンポーネントは、ポジティブなツイートとネガティブなツイートの分類に役立つが、自己注意に基づくLSTMは、複数の感情を持つユニット間で正しい感情を識別できるため、中立的なツイートの分類に役立つ。 我々はヒンディー語(ヒングリッシュ)とスペイン語(スパングリッシュ)のデータセットでそれぞれ0.707(5位)と0.725(13位)のスコアを得た。 hinglish と spanglish のタスクはユーザ名 ayushk と severe_6 でそれぞれ提出された。

Sentiment Analysis of code-mixed text has diversified applications in opinion mining ranging from tagging user reviews to identifying social or political sentiments of a sub-population. In this paper, we present an ensemble architecture of convolutional neural net (CNN) and self-attention based LSTM for sentiment analysis of code-mixed tweets. While the CNN component helps in the classification of positive and negative tweets, the self-attention based LSTM, helps in the classification of neutral tweets, because of its ability to identify correct sentiment among multiple sentiment bearing units. We achieved F1 scores of 0.707 (ranked 5th) and 0.725 (ranked 13th) on Hindi-English (Hinglish) and Spanish-English (Spanglish) datasets, respectively. The submissions for Hinglish and Spanglish tasks were made under the usernames ayushk and harsh_6 respectively.
翻訳日:2022-11-08 04:04:49 公開日:2020-07-21
# semeval-2020 task 11: context-aware rich feature representations for propaganda classification

newsSweeper at SemEval-2020 Task 11: Context-Aware Rich Feature Representations For Propaganda Classification ( http://arxiv.org/abs/2007.10827v1 )

ライセンス: Link先を確認
Paramansh Singh, Siraj Sandhu, Subham Kumar, Ashutosh Modi(参考訳) 本稿では,semval 2020タスク11への提案について述べる。スパン識別と技術分類の2つのサブタスクについて,ニュース記事におけるプロパガンダ技術の検出について述べる。 我々は,NERタスクのために開発されたタグ付け技術を用いて,事前学習されたBERT言語モデルを活用し,テキスト中のプロパガンダの識別システムを開発する。 第2のサブタスクでは,プロパガンダ手法の分類のために,事前学習したRoBERTaモデルにコンテキスト特徴を組み込む。 プロパガンダ分類では5位にランクインした。

This paper describes our submissions to SemEval 2020 Task 11: Detection of Propaganda Techniques in News Articles for each of the two subtasks of Span Identification and Technique Classification. We make use of pre-trained BERT language model enhanced with tagging techniques developed for the task of Named Entity Recognition (NER), to develop a system for identifying propaganda spans in the text. For the second subtask, we incorporate contextual features in a pre-trained RoBERTa model for the classification of propaganda techniques. We were ranked 5th in the propaganda technique classification subtask.
翻訳日:2022-11-08 04:04:15 公開日:2020-07-21
# CS-NET - SemEval-2020 Task 4: Siamese BERT for ComVE

CS-NET at SemEval-2020 Task 4: Siamese BERT for ComVE ( http://arxiv.org/abs/2007.10830v1 )

ライセンス: Link先を確認
Soumya Ranjan Dash, Sandeep Routray, Prateek Varshney, Ashutosh Modi(参考訳) 本稿では,本研究では,共通認識を裏付ける自然言語文とそうでない文の区別を含む,semeval 2020のタスク4のシステムについて述べる。 主催者は3つのサブタスクを最初に提案し、2つの文の中から選択する。 第二に、ステートメントが意味をなさない最も重要な理由を特定する。 第三に、常識に反する言明を説明する新しい理由を生み出す。 本稿では,3つのサブタスクのうち,サブタスクAとサブタスクBのシステム記述を報告し,サブタスクに対処するためのトランスフォーマーニューラルネットワークアーキテクチャに基づくモデルを提案する。 仕事のノベルティはアーキテクチャ設計にあり、矛盾する文の論理的含意と、両方の文からの同時情報抽出を扱う。 我々はトランスフォーマーの並列インスタンスを使用し、それによってパフォーマンスが向上します。 その結果, サブタスクAでは94.8%, サブタスクBでは89%の精度が得られた。

In this paper, we describe our system for Task 4 of SemEval 2020, which involves differentiating between natural language statements that confirm to common sense and those that do not. The organizers propose three subtasks - first, selecting between two sentences, the one which is against common sense. Second, identifying the most crucial reason why a statement does not make sense. Third, generating novel reasons for explaining the against common sense statement. Out of the three subtasks, this paper reports the system description of subtask A and subtask B. This paper proposes a model based on transformer neural network architecture for addressing the subtasks. The novelty in work lies in the architecture design, which handles the logical implication of contradicting statements and simultaneous information extraction from both sentences. We use a parallel instance of transformers, which is responsible for a boost in the performance. We achieved an accuracy of 94.8% in subtask A and 89% in subtask B on the test set.
翻訳日:2022-11-08 04:04:03 公開日:2020-07-21
# IssueConquero at SemEval-2020 Task 12: Transformer and Soft label-based approach

problemConquero at SemEval-2020 Task 12: Transformer and Soft label-based approaches ( http://arxiv.org/abs/2007.10877v1 )

ライセンス: Link先を確認
Karishma Laud, Jagriti Singh, Randeep Kumar Sahu, Ashutosh Modi(参考訳) 本稿では,ソーシャルメディアにおけるSemEval-2020共有タスク12の多言語攻撃言語識別のための各種システムについて述べる。 我々はOffensEval-2020の3つのサブタスクに参加し、評価フェーズの最終提出にはトランスフォーマーベースのアプローチとソフトラベルベースのアプローチが含まれました。 BERTベースの微調整モデルがサブタスクAの各言語に対して提出された(悪質なツイート識別)。 サブタスクBのRoBERTaに基づく微調整モデル(違反型の自動分類)が提出された。 我々は,サブタスクCの2つのモデルを提案し,その1つはソフトラベルを用いたもので,もう1つはBERTに基づく微調整モデルを用いたものである。 サブタスクaのランクは、37人中ギリシャ人19人、46人中トルコ人22人、39人中デンマーク人26人、53人中39人、85人中20人でした。 サブタスクBでは43点中28点, サブタスクCでは39点中20点, BERTを用いた微調整モデルでは20点であった。

In this paper, we present various systems submitted by our team problemConquero for SemEval-2020 Shared Task 12 Multilingual Offensive Language Identification in Social Media. We participated in all the three sub-tasks of OffensEval-2020, and our final submissions during the evaluation phase included transformer-based approaches and a soft label-based approach. BERT based fine-tuned models were submitted for each language of sub-task A (offensive tweet identification). RoBERTa based fine-tuned model for sub-task B (automatic categorization of offense types) was submitted. We submitted two models for sub-task C (offense target identification), one using soft labels and the other using BERT based fine-tuned model. Our ranks for sub-task A were Greek-19 out of 37, Turkish-22 out of 46, Danish-26 out of 39, Arabic-39 out of 53, and English-20 out of 85. We achieved a rank of 28 out of 43 for sub-task B. Our best rank for sub-task C was 20 out of 39 using BERT based fine-tuned model.
翻訳日:2022-11-08 04:03:49 公開日:2020-07-21
# ブラックボックス予測モデルに対する解釈可能な確率論的アプローチ

An Interpretable Probabilistic Approach for Demystifying Black-box Predictive Models ( http://arxiv.org/abs/2007.10668v1 )

ライセンス: Link先を確認
Catarina Moreira and Yu-Liang Chou and Mythreyi Velmurugan and Chun Ouyang and Renuka Sindhgatta and Peter Bruza(参考訳) 批判的意思決定に洗練された機械学習モデルを使用することは、これらのモデルがしばしば「ブラックボックス」として適用されるという課題に直面している。 これにより解釈可能な機械学習への関心が高まり、ポストホック解釈は複雑な学習モデルの解釈を生成するのに有用なメカニズムとなる。 本稿では,ブラックボックス予測モデルのポストホック解釈を生成するため,ベイズネットワークの拡張フレームワークを基盤とした新しいアプローチを提案する。 このフレームワークは、特定の予測のためのブラックボックスモデルの近似としてベイズネットワークの抽出をサポートする。 既存のポストホック解釈手法と比較すると,このアプローチの貢献度は3倍である。 第一に、抽出したベイズネットワークは確率的グラフィカルモデルとして、どの入力特徴だけでなく、なぜこれらの特徴が予測に寄与したのかを解釈することができる。 第二に、多くの特徴を持つ複雑な決定問題に対して、マルコフ毛布を抽出したベイズネットワークから生成し、直接予測に寄与するこれらの入力特徴に焦点を絞った解釈を提供する。 第3に、抽出したベイズネットワークは、予測における信頼度を意思決定者に知らせる4つの異なるルールを識別し、ブラックボックスモデルで学習した予測の信頼性を評価する。 提案手法を実装し,よく知られた2つの公開データセットのコンテキストに適用し,その結果をオープンソースリポジトリで解析した。

The use of sophisticated machine learning models for critical decision making is faced with a challenge that these models are often applied as a "black-box". This has led to an increased interest in interpretable machine learning, where post hoc interpretation presents a useful mechanism for generating interpretations of complex learning models. In this paper, we propose a novel approach underpinned by an extended framework of Bayesian networks for generating post hoc interpretations of a black-box predictive model. The framework supports extracting a Bayesian network as an approximation of the black-box model for a specific prediction. Compared to the existing post hoc interpretation methods, the contribution of our approach is three-fold. Firstly, the extracted Bayesian network, as a probabilistic graphical model, can provide interpretations about not only what input features but also why these features contributed to a prediction. Secondly, for complex decision problems with many features, a Markov blanket can be generated from the extracted Bayesian network to provide interpretations with a focused view on those input features that directly contributed to a prediction. Thirdly, the extracted Bayesian network enables the identification of four different rules which can inform the decision-maker about the confidence level in a prediction, thus helping the decision-maker assess the reliability of predictions learned by a black-box model. We implemented the proposed approach, applied it in the context of two well-known public datasets and analysed the results, which are made available in an open-source repository.
翻訳日:2022-11-08 04:03:30 公開日:2020-07-21
# 深層強化学習ネットワークと健康システムシミュレーションの統合

Integrating Deep Reinforcement Learning Networks with Health System Simulations ( http://arxiv.org/abs/2008.07434v1 )

ライセンス: Link先を確認
Michael Allen, and Thomas Monks(参考訳) 背景と動機:Deep RL(Deep Reinforcement Learning)とHealth Systems Simulations(Health Systems Simulations)を組み合わせることで、Deep RLの性能と安全性の向上、および運用実践の両面において大きな可能性を秘めている。 Deep RLとHealth Systems Simulationsには個別のツールキットが存在するが、この2つを統合するためのフレームワークは確立されていない。 Aim: Deep RL NetworksとHealth System Simulationsを統合するためのフレームワークを提供し、OpenAI Gymを使用して開発、テストされたDeep RLエージェントとの互換性を保証する。 方法:我々はOpenAI Gymフレームワークをベースとしたフレームワークを開発し,簡易な病院ベッド容量モデルでの利用を実証した。 我々はpytorchを用いて深層rlエージェントを構築し,simpyを用いて病院のシミュラテーションを行った。 結果: ディープRLエージェントとしてDouble Deep Q NetworkまたはDuelling Double Deep Q Networkを用いた実例を示した。 結論: SimPyはOpenAI Gym環境で開発されたエージェントと互換性のあるヘルスシステムシミュレーションを作成するために使われる。 GitHubのコードリポジトリ:https://github.com/MichaelAllen 1966/learninghospital

Background and motivation: Combining Deep Reinforcement Learning (Deep RL) and Health Systems Simulations has significant potential, for both research into improving Deep RL performance and safety, and in operational practice. While individual toolkits exist for Deep RL and Health Systems Simulations, no framework to integrate the two has been established. Aim: Provide a framework for integrating Deep RL Networks with Health System Simulations, and to ensure this framework is compatible with Deep RL agents that have been developed and tested using OpenAI Gym. Methods: We developed our framework based on the OpenAI Gym framework, and demonstrate its use on a simple hospital bed capacity model. We built the Deep RL agents using PyTorch, and the Hospital Simulatation using SimPy. Results: We demonstrate example models using a Double Deep Q Network or a Duelling Double Deep Q Network as the Deep RL agent. Conclusion: SimPy may be used to create Health System Simulations that are compatible with agents developed and tested on OpenAI Gym environments. GitHub repository of code: https://github.com/MichaelAllen1966/learninghospital
翻訳日:2022-11-08 04:03:08 公開日:2020-07-21
# No Free Lunch定理の何が重要なのか?

What is important about the No Free Lunch theorems? ( http://arxiv.org/abs/2007.10928v1 )

ライセンス: Link先を確認
David H. Wolpert(参考訳) no free lunch定理は、帰納問題(研究問題や学習問題)に対する一様分布の下で、すべての帰納アルゴリズムが等しく振る舞うことを証明している。 この章で論じたように、定理の重要性は、それらを用いて {non-uniform} 分布を含むシナリオを分析し、問題に対する分布について全く仮定することなく異なるアルゴリズムを比較することによって生じる。 特に、この定理は {anti}-cross-validation ( {worst} out-of-sample behavior") が、形式化されていない仮定をしない限り、 {anti}-cross-validation ( {worst} out-of-sample behavior) を持つ候補アルゴリズムの集合から選択する) が、(反)-cross Validation を用いて選択するアルゴリズムの集合とどのように関係しているかを証明している。 また,特定の分布を仮定することなく,特定のアルゴリズムの強みを確立する文学における多くの結果の意義について,強い注意点を定めている。 また、教師付き学習とブラックボックス最適化の改善の間に '`Dictionary'' を動機付け、教師付き学習からブラックボックス最適化の領域への '``translate'' 技術の適用を可能にし、ブラックボックス最適化アルゴリズムを強化する。 これらの話題に加えて、科学哲学へのその影響についても簡単に論じる。

The No Free Lunch theorems prove that under a uniform distribution over induction problems (search problems or learning problems), all induction algorithms perform equally. As I discuss in this chapter, the importance of the theorems arises by using them to analyze scenarios involving {non-uniform} distributions, and to compare different algorithms, without any assumption about the distribution over problems at all. In particular, the theorems prove that {anti}-cross-validation (choosing among a set of candidate algorithms based on which has {worst} out-of-sample behavior) performs as well as cross-validation, unless one makes an assumption -- which has never been formalized -- about how the distribution over induction problems, on the one hand, is related to the set of algorithms one is choosing among using (anti-)cross validation, on the other. In addition, they establish strong caveats concerning the significance of the many results in the literature which establish the strength of a particular algorithm without assuming a particular distribution. They also motivate a ``dictionary'' between supervised learning and improve blackbox optimization, which allows one to ``translate'' techniques from supervised learning into the domain of blackbox optimization, thereby strengthening blackbox optimization algorithms. In addition to these topics, I also briefly discuss their implications for philosophy of science.
翻訳日:2022-11-08 03:55:23 公開日:2020-07-21
# IITK at SemEval-2020 Task 10: Transformers for Emphasis Selection

IITK at SemEval-2020 Task 10: Transformers for Emphasis Selection ( http://arxiv.org/abs/2007.10820v1 )

ライセンス: Link先を確認
Vipul Singhal, Sahil Dhull, Rishabh Agarwal and Ashutosh Modi(参考訳) 本稿では,SemEval-2020: Emphasis Selection for Written Text in Visual Media の第10章で提案される研究課題に対処するシステムについて述べる。 本稿では,テキストを入力とし,各単語に対応して強調すべき単語の確率を与えるエンド・ツー・エンドモデルを提案する。 その結果,トランスフォーマーモデルが特に効果的であることが判明した。 私たちは0.810のベストマッチスコア(2.2)を獲得し、リーダーボードで3位になった。

This paper describes the system proposed for addressing the research problem posed in Task 10 of SemEval-2020: Emphasis Selection For Written Text in Visual Media. We propose an end-to-end model that takes as input the text and corresponding to each word gives the probability of the word to be emphasized. Our results show that transformer-based models are particularly effective in this task. We achieved the best Matchm score (described in section 2.2) of 0.810 and were ranked third on the leaderboard.
翻訳日:2022-11-08 03:54:52 公開日:2020-07-21
# IITK-RSA at SemEval-2020 Task 5: Detecting Counterfactuals

IITK-RSA at SemEval-2020 Task 5: Detecting Counterfactuals ( http://arxiv.org/abs/2007.10866v1 )

ライセンス: Link先を確認
Anirudh Anil Ojha, Rohin Garg, Shashank Gupta and Ashutosh Modi(参考訳) 本稿では,semeval-2020のタスク5に取り組む取り組みについて述べる。 タスクは、反事実として知られるテキスト表現のクラスを検出し、それらを構成要素に分離する。 カウンターファクトステートメントは、発生しなかった、あるいは発生できなかった事象と、そのような事象の起こりうる影響を記述している。 反事実推論は人間にとって自然であるが、これらの表現を理解することは、さまざまな言語的微妙さのために、人工エージェントにとって困難である。 提案手法は,第1サブタスクに対する各種微調整トランスフォーマーとCNNベースモデルのアンサンブルと,第2サブタスクに対する依存性ツリー情報を備えたトランスフォーマーモデルである。 リーダーボード全体では4位と9位でした。 また、古典的手法、他のニューラル・アーキテクチャ、および異なる言語的特徴の組み入れを含む様々なアプローチについても検討した。

This paper describes our efforts in tackling Task 5 of SemEval-2020. The task involved detecting a class of textual expressions known as counterfactuals and separating them into their constituent elements. Counterfactual statements describe events that have not or could not have occurred and the possible implications of such events. While counterfactual reasoning is natural for humans, understanding these expressions is difficult for artificial agents due to a variety of linguistic subtleties. Our final submitted approaches were an ensemble of various fine-tuned transformer-based and CNN-based models for the first subtask and a transformer model with dependency tree information for the second subtask. We ranked 4-th and 9-th in the overall leaderboard. We also explored various other approaches that involved the use of classical methods, other neural architectures and the incorporation of different linguistic features.
翻訳日:2022-11-08 03:54:42 公開日:2020-07-21
# PackIt: 幾何学的計画のための仮想環境

PackIt: A Virtual Environment for Geometric Planning ( http://arxiv.org/abs/2007.11121v1 )

ライセンス: Link先を確認
Ankit Goyal and Jia Deng(参考訳) 物体の幾何学を共同で理解し、それらを操作するための行動計画が知的エージェントにとって不可欠である。 我々はこの能力を幾何学的計画と呼ぶ。 近年,様々なスキルの知的エージェントを評価するための対話型環境が提案されているが,幾何計画の必要性には適していない。 PackItは,空間が限られている箱にオブジェクトの集合を詰め込むためにエージェントが一連のアクションを取る必要がある,幾何学的計画を行う能力を評価し,潜在的に学習する仮想環境である。 また、進化的アルゴリズムを用いて、困難なパッキングタスクのセットを構築する。 さらに,モデルフリー学習法とヒューリスティック学習法,および環境モデルへのアクセスを前提とした検索に基づく最適化法を含むタスクのベースラインについて検討した。 コードとデータはhttps://github.com/princeton-vl/packitで入手できる。

The ability to jointly understand the geometry of objects and plan actions for manipulating them is crucial for intelligent agents. We refer to this ability as geometric planning. Recently, many interactive environments have been proposed to evaluate intelligent agents on various skills, however, none of them cater to the needs of geometric planning. We present PackIt, a virtual environment to evaluate and potentially learn the ability to do geometric planning, where an agent needs to take a sequence of actions to pack a set of objects into a box with limited space. We also construct a set of challenging packing tasks using an evolutionary algorithm. Further, we study various baselines for the task that include model-free learning-based and heuristic-based methods, as well as search-based optimization methods that assume access to the model of the environment. Code and data are available at https://github.com/princeton-vl/PackIt.
翻訳日:2022-11-08 03:54:26 公開日:2020-07-21
# IITK at SemEval-2020 Task 8: Unimodal and Bimodal Sentiment Analysis of Internet Memes

IITK at SemEval-2020 Task 8: Unimodal and Bimodal Sentiment Analysis of Internet Memes ( http://arxiv.org/abs/2007.10822v1 )

ライセンス: Link先を確認
Vishal Keswani, Sakshi Singh, Suryansh Agarwal, Ashutosh Modi(参考訳) ソーシャルメディアは視覚情報やテキスト情報に豊富に存在する。 ミームは、かつてのクラスに属する最も人気のある形式である。 本稿では,meval-2020タスク8におけるmemotion analysis問題に対する提案手法を提案する。 このタスクの目的は、感情の内容と感情に基づいてミームを分類することである。 自然言語処理(NLP)とコンピュータビジョン(CV)の技術をインターネットミーム(Subtask A)の感情分類に活用する。 バイモーダル(テキストと画像)とユニモーダル(テキストのみ)技術は,Na\\"ive Bayes分類器からTransformerベースのアプローチまで幅広い。 その結果,word2vecを入力として組み込む単純なフィードフォワードニューラルネットワーク (ffnn) が,他のすべての手法よりも優れていることがわかった。 ベースラインマクロF1スコアよりも相対的に63%向上した感性分析タスクでは,まず第1に立つ。 私たちの仕事は、異なるモダリティの組み合わせに関するあらゆるタスクに関係しています。

Social media is abundant in visual and textual information presented together or in isolation. Memes are the most popular form, belonging to the former class. In this paper, we present our approaches for the Memotion Analysis problem as posed in SemEval-2020 Task 8. The goal of this task is to classify memes based on their emotional content and sentiment. We leverage techniques from Natural Language Processing (NLP) and Computer Vision (CV) towards the sentiment classification of internet memes (Subtask A). We consider Bimodal (text and image) as well as Unimodal (text-only) techniques in our study ranging from the Na\"ive Bayes classifier to Transformer-based approaches. Our results show that a text-only approach, a simple Feed Forward Neural Network (FFNN) with Word2vec embeddings as input, performs superior to all the others. We stand first in the Sentiment analysis task with a relative improvement of 63% over the baseline macro-F1 score. Our work is relevant to any task concerned with the combination of different modalities.
翻訳日:2022-11-08 03:54:10 公開日:2020-07-21