このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200329となっている論文です。

PDF登録状況(公開日: 20200329)

TitleAuthorsAbstract論文公表日・翻訳日
# ドメインアライメント強制による低予算ラベルクエリ

Low-Budget Label Query through Domain Alignment Enforcement ( http://arxiv.org/abs/2001.00238v2 )

ライセンス: Link先を確認
Jurandy Almeida, Cristiano Saltori, Paolo Rota, and Nicu Sebe(参考訳) ディープラーニングの革命は、大量のラベル付きデータが利用可能になったことにより、異常な推論能力を持つモデルの開発に寄与した。 大量のデータセットが公開されているにもかかわらず、特定の要求に対処するためには、しばしば新しいラベル付きデータのセットを生成する必要がある。 しばしば、ラベルの生産はコストがかかり、時には特定のノウハウが必要とされる。 そこで本研究では,ラベルなしのデータセットからラベル付けすべきサンプルの小さな(低予算)セットをユーザに提案し,そのデータセットの分類精度を最大化する最終目標とする,低予算ラベルクエリという新たな問題に取り組む。 この作業では、まずUnsupervised Domain Adaptation (UDA) メソッドを改善し、一貫性の制約を使ってソースとターゲットドメインの整合性を向上し、いくつかの UDA タスクで最先端に到達します。 最後に,前述したモデルを参考に,予測一貫性分布の均一なサンプリングに基づく簡易かつ効果的な選択法を提案する。

Deep learning revolution happened thanks to the availability of a massive amount of labelled data which have contributed to the development of models with extraordinary inference capabilities. Despite the public availability of a large quantity of datasets, to address specific requirements it is often necessary to generate a new set of labelled data. Quite often, the production of labels is costly and sometimes it requires specific know-how to be fulfilled. In this work, we tackle a new problem named low-budget label query that consists in suggesting to the user a small (low budget) set of samples to be labelled, from a completely unlabelled dataset, with the final goal of maximizing the classification accuracy on that dataset. In this work we first improve an Unsupervised Domain Adaptation (UDA) method to better align source and target domains using consistency constraints, reaching the state of the art on a few UDA tasks. Finally, using the previously trained model as reference, we propose a simple yet effective selection method based on uniform sampling of the prediction consistency distribution, which is deterministic and steadily outperforms other baselines as well as competing models on a large variety of publicly available datasets.
翻訳日:2023-01-16 09:28:24 公開日:2020-03-29
# 大腸内視鏡検査

Detecting Deficient Coverage in Colonoscopies ( http://arxiv.org/abs/2001.08589v3 )

ライセンス: Link先を確認
Daniel Freedman, Yochai Blau, Liran Katzir, Amit Aides, Ilan Shimshoni, Danny Veikherman, Tomer Golany, Ariel Gordon, Greg Corrado, Yossi Matias, and Ehud Rivlin(参考訳) 大腸内視鏡は大腸癌を予防するためのツールであり、がんになる前にポリープを検出して除去する。 しかし内視鏡検査は、内科医が通常22-28%のポリープを欠いているという事実によって妨げられている。 これらの欠落したポリープのいくつかは内科医の視界に現れるが、他のポリープは単に手順の標準以下のカバレッジのために欠落している。 本稿では,c2d2 (colonoscopy coverage missing via depth) アルゴリズムを導入することで,大腸内視鏡におけるサブスタンダードカバレッジの問題を解消し,内視鏡内科医に再訪を警告する。 より具体的には、C2D2は2つの異なるアルゴリズムで構成されている: 1つは通常のRGBビデオストリームが与えられた結腸の深さ推定を行う。 c2d2は、結腸の特定の領域がカバー範囲の不足に苦しんでいるかどうかをリアルタイムで示すことができ、もしその場合、内スコピストがその領域に戻ることができる。 深さ推定手法は大腸に適応した最初のキャリブレーションフリー非教師なし法であるのに対し,このアルゴリズムは大規模に評価される最初の手法である。 C2D2アルゴリズムは、欠陥カバレッジの検出において、技術結果の状態を達成する。 地上の真理を持つ合成配列では、人間の専門家の2.4倍の精度で、実際の配列では、C2D2は専門家との93.0%の合意に達する。

Colonoscopy is the tool of choice for preventing Colorectal Cancer, by detecting and removing polyps before they become cancerous. However, colonoscopy is hampered by the fact that endoscopists routinely miss 22-28% of polyps. While some of these missed polyps appear in the endoscopist's field of view, others are missed simply because of substandard coverage of the procedure, i.e. not all of the colon is seen. This paper attempts to rectify the problem of substandard coverage in colonoscopy through the introduction of the C2D2 (Colonoscopy Coverage Deficiency via Depth) algorithm which detects deficient coverage, and can thereby alert the endoscopist to revisit a given area. More specifically, C2D2 consists of two separate algorithms: the first performs depth estimation of the colon given an ordinary RGB video stream; while the second computes coverage given these depth estimates. Rather than compute coverage for the entire colon, our algorithm computes coverage locally, on a segment-by-segment basis; C2D2 can then indicate in real-time whether a particular area of the colon has suffered from deficient coverage, and if so the endoscopist can return to that area. Our coverage algorithm is the first such algorithm to be evaluated in a large-scale way; while our depth estimation technique is the first calibration-free unsupervised method applied to colonoscopies. The C2D2 algorithm achieves state of the art results in the detection of deficient coverage. On synthetic sequences with ground truth, it is 2.4 times more accurate than human experts; while on real sequences, C2D2 achieves a 93.0% agreement with experts.
翻訳日:2023-01-07 13:04:08 公開日:2020-03-29
# $\epsilon$-shotgun: $\epsilon$-greedy Batch Bayesian Optimisation

$\epsilon$-shotgun: $\epsilon$-greedy Batch Bayesian Optimisation ( http://arxiv.org/abs/2002.01873v2 )

ライセンス: Link先を確認
George De Ath, Richard M. Everson, Jonathan E. Fieldsend, Alma A. M. Rahat(参考訳) ベイズ最適化は、高価なブラックボックス関数を最適化するためのモデルベースアプローチとして人気がある。 代用モデルが与えられた場合、安価なクエリー取得関数の最大化により、次に高価な評価を行う場所を選択する。 我々は,ブラックボックス関数を複数回並列に評価できるバッチ設定において,ベイズ最適化のための$\epsilon$-greedy手順を提案する。 我々の$\epsilon$-shotgunアルゴリズムは、モデルの予測、不確実性、ランドスケープの変化の近似率を利用して、配置された場所に分散するバッチソリューションの拡散を決定する。 最初のターゲットロケーションは、平均予測に基づいて搾取的な方法で選択するか、デザインスペースの他の場所から -- 確率$\epsilon$ -- で選択される。 この結果、関数が急速に変化している領域や、予測された最適な位置(すなわち、予測された最適に近い)でより密にサンプリングされた場所が、関数がより平坦で/またはより品質の低い領域でより散らばっている。 我々は,様々な合成関数と2つの実世界の問題に対する$\epsilon$-shotgun法を実験的に評価し,少なくとも最先端のバッチ法と同等の性能を示し,多くの場合は性能を上回った。

Bayesian optimisation is a popular, surrogate model-based approach for optimising expensive black-box functions. Given a surrogate model, the next location to expensively evaluate is chosen via maximisation of a cheap-to-query acquisition function. We present an $\epsilon$-greedy procedure for Bayesian optimisation in batch settings in which the black-box function can be evaluated multiple times in parallel. Our $\epsilon$-shotgun algorithm leverages the model's prediction, uncertainty, and the approximated rate of change of the landscape to determine the spread of batch solutions to be distributed around a putative location. The initial target location is selected either in an exploitative fashion on the mean prediction, or -- with probability $\epsilon$ -- from elsewhere in the design space. This results in locations that are more densely sampled in regions where the function is changing rapidly and in locations predicted to be good (i.e close to predicted optima), with more scattered samples in regions where the function is flatter and/or of poorer quality. We empirically evaluate the $\epsilon$-shotgun methods on a range of synthetic functions and two real-world problems, finding that they perform at least as well as state-of-the-art batch methods and in many cases exceed their performance.
翻訳日:2023-01-03 20:44:35 公開日:2020-03-29
# brpo:バッチ残留ポリシー最適化

BRPO: Batch Residual Policy Optimization ( http://arxiv.org/abs/2002.05522v2 )

ライセンス: Link先を確認
Sungryull Sohn and Yinlam Chow and Jayden Ooi and Ofir Nachum and Honglak Lee and Ed Chi and Craig Boutilier(参考訳) バッチ強化学習(rl)では、学習された行動分布を、各状態において同じ最大度で行動方針と異なるように制限することにより、学習した政策が行動(データ生成)ポリシーに近いものに制限されることがしばしばある。 これにより、バッチRLは過度に保守的になり、頻繁に訪問された高信頼状態において大きなポリシー変更を利用できなくなる。 そこで,本稿では,学習方針の許容偏差が状態行動に依存した残余政策を提案する。 我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。 BRPOは様々なタスクにおいて最先端のパフォーマンスを達成することを示す。

In batch reinforcement learning (RL), one often constrains a learned policy to be close to the behavior (data-generating) policy, e.g., by constraining the learned action distribution to differ from the behavior policy by some maximum degree that is the same at each state. This can cause batch RL to be overly conservative, unable to exploit large policy changes at frequently-visited, high-confidence states without risking poor performance at sparsely-visited states. To remedy this, we propose residual policies, where the allowable deviation of the learned policy is state-action-dependent. We derive a new for RL method, BRPO, which learns both the policy and allowable deviation that jointly maximize a lower bound on policy performance. We show that BRPO achieves the state-of-the-art performance in a number of tasks.
翻訳日:2023-01-02 22:11:54 公開日:2020-03-29
# グラディエント・ディフレッシュ法における反復前処理

Iterative Pre-Conditioning to Expedite the Gradient-Descent Method ( http://arxiv.org/abs/2003.07180v2 )

ライセンス: Link先を確認
Kushal Chakrabarti, Nirupam Gupta and Nikhil Chopra(参考訳) 本稿では,マルチエージェント分散最適化の問題を考える。 この問題では、システムには複数のエージェントがあり、各エージェントはそのローカルコスト関数しか知らない。 エージェントの目的は、すべてのローカルコスト関数の集約の共通最小値を計算することである。 原則として、この問題は、反復的手法である従来の勾配拡散法(gradient-descent method)の分散変種を用いて解くことができる。 しかし, 従来の勾配差分法の収束速度は, 最適化問題の条件付けの影響を強く受けている。 具体的には、最適化問題が不調な場合には、多数のイテレーションを解に収束させる必要がある。 本稿では,この問題の条件付けが勾配-発光法の収束速度に与える影響を著しく軽減できる反復前条件付け手法を提案する。 提案するプリコンディショニング手法は,分散システムで容易に実装でき,計算処理と通信のオーバーヘッドが最小限である。 現時点では、エージェントの個々の局所コスト関数が二次的である特定の分散最適化問題のみを考える。 理論的保証に加えて,本手法の収束速度の向上は実データを用いた実験によって実証される。

This paper considers the problem of multi-agent distributed optimization. In this problem, there are multiple agents in the system, and each agent only knows its local cost function. The objective for the agents is to collectively compute a common minimum of the aggregate of all their local cost functions. In principle, this problem is solvable using a distributed variant of the traditional gradient-descent method, which is an iterative method. However, the speed of convergence of the traditional gradient-descent method is highly influenced by the conditioning of the optimization problem being solved. Specifically, the method requires a large number of iterations to converge to a solution if the optimization problem is ill-conditioned. In this paper, we propose an iterative pre-conditioning approach that can significantly attenuate the influence of the problem's conditioning on the convergence-speed of the gradient-descent method. The proposed pre-conditioning approach can be easily implemented in distributed systems and has minimal computation and communication overhead. For now, we only consider a specific distributed optimization problem wherein the individual local cost functions of the agents are quadratic. Besides the theoretical guarantees, the improved convergence speed of our approach is demonstrated through experiments on a real data-set.
翻訳日:2022-12-24 01:40:53 公開日:2020-03-29
# ノイズに対するロバスト性の評価:低コスト頭部CTトリアージ

Assessing Robustness to Noise: Low-Cost Head CT Triage ( http://arxiv.org/abs/2003.07977v2 )

ライセンス: Link先を確認
Sarah M. Hooper, Jared A. Dunnmon, Matthew P. Lungren, Sanjiv Sam Gambhir, Christopher R\'e, Adam S. Wang and Bhavik N. Patel(参考訳) 畳み込みニューラルネットワーク(convolutional neural networks:cnns)を用いた自動医療画像分類は、医療、特に訓練を受けた放射線科医の少ない医療システムに影響を与える大きな可能性を秘めている。 しかし、訓練を受けたcnnが、ノイズレベルの増加、さまざまな取得プロトコル、あるいは低コストスキャナを使用する際に発生する追加のアーティファクトで、いかにうまく機能するかは、資金の豊富な病院から収集されたデータセットで過小評価されるか、ほとんど分かっていない。 本研究では,X線管電流の低減,ガントリー回転当たりのプロジェクションの低減,アングルスキャンの制限により得られた画像に対して,頭部CTスキャンのトリアージを訓練したモデルがどのように動作するかを検討する。 これらの変更は、スキャナーのコストと電力需要を削減できるが、画像ノイズやアーティファクトの増加を犠牲にしている。 まず,頭部CTのトリアージモデルを開発し,受信機動作特性曲線(AUROC)0.77の領域を報告する。 その結果、訓練されたモデルは管電流の低減と投影の低減に頑健であり、aurocは管電流の16倍の減少で取得した画像では0.65%、プロジェクションが8倍少ない画像では0.22%しか低下しないことがわかった。 最後に,限定角度スキャンにより得られた劣化画像に対して,そのような画像の分類に特化して訓練したモデルが,元のモデルの0.09%以内でAUROCを復元・維持するための技術的制約を克服できることを示す。

Automated medical image classification with convolutional neural networks (CNNs) has great potential to impact healthcare, particularly in resource-constrained healthcare systems where fewer trained radiologists are available. However, little is known about how well a trained CNN can perform on images with the increased noise levels, different acquisition protocols, or additional artifacts that may arise when using low-cost scanners, which can be underrepresented in datasets collected from well-funded hospitals. In this work, we investigate how a model trained to triage head computed tomography (CT) scans performs on images acquired with reduced x-ray tube current, fewer projections per gantry rotation, and limited angle scans. These changes can reduce the cost of the scanner and demands on electrical power but come at the expense of increased image noise and artifacts. We first develop a model to triage head CTs and report an area under the receiver operating characteristic curve (AUROC) of 0.77. We then show that the trained model is robust to reduced tube current and fewer projections, with the AUROC dropping only 0.65% for images acquired with a 16x reduction in tube current and 0.22% for images acquired with 8x fewer projections. Finally, for significantly degraded images acquired by a limited angle scan, we show that a model trained specifically to classify such images can overcome the technological limitations to reconstruction and maintain an AUROC within 0.09% of the original model.
翻訳日:2022-12-22 21:05:14 公開日:2020-03-29
# DCMD:マイクロバイオームデータの混合分布を用いた距離に基づく分類

DCMD: Distance-based Classification Using Mixture Distributions on Microbiome Data ( http://arxiv.org/abs/2003.13161v1 )

ライセンス: Link先を確認
Konstantin Shestopaloff, Mei Dong, Fan Gao, Wei Xu(参考訳) 次世代シークエンシング技術の最近の進歩により、研究者は微生物とヒトの病気に関する包括的な研究を行うことができ、最近の研究では、慢性疾患におけるヒトのマイクロバイオームと健康状態との関連が特定されている。 しかし, マイクロバイオームデータ構造は, スパーシティとスキューネスを特徴とし, 効果的な分類器の構築に課題がある。 そこで本研究では,混合分布(DCMD)を用いた距離に基づく分類手法を提案する。 本手法は,マイクロバイオーム群集データを用いた分類性能の向上を目的としている。 提案手法は,サンプルデータの混合分布を推定し,各観測結果を分布として,観測回数の条件と推定混合物として表現することにより,スパース数に固有の不確実性をモデル化する。 本手法は, k-means および k-nearest 近傍のフレームワークに実装され, 最適結果をもたらす2つの距離指標を同定する。 モデルの性能をシミュレーションを用いて評価し、ヒトのマイクロバイオーム研究に適用し、既存の機械学習や距離に基づくアプローチと比較した。 提案手法は,機械学習手法と比較して競争力があり,一般的な距離ベース分類器よりも明らかに改善されている。 適用性と堅牢性の範囲は, スパースマイクロバイオームカウントデータを用いた分類法として有効な方法である。

Current advances in next generation sequencing techniques have allowed researchers to conduct comprehensive research on microbiome and human diseases, with recent studies identifying associations between human microbiome and health outcomes for a number of chronic conditions. However, microbiome data structure, characterized by sparsity and skewness, presents challenges to building effective classifiers. To address this, we present an innovative approach for distance-based classification using mixture distributions (DCMD). The method aims to improve classification performance when using microbiome community data, where the predictors are composed of sparse and heterogeneous count data. This approach models the inherent uncertainty in sparse counts by estimating a mixture distribution for the sample data, and representing each observation as a distribution, conditional on observed counts and the estimated mixture, which are then used as inputs for distance-based classification. The method is implemented into a k-means and k-nearest neighbours framework and we identify two distance metrics that produce optimal results. The performance of the model is assessed using simulations and applied to a human microbiome study, with results compared against a number of existing machine learning and distance-based approaches. The proposed method is competitive when compared to the machine learning approaches and showed a clear improvement over commonly used distance-based classifiers. The range of applicability and robustness make the proposed method a viable alternative for classification using sparse microbiome count data.
翻訳日:2022-12-18 14:05:17 公開日:2020-03-29
# エンティティマッチングにおけるアクティブラーニング手法の総合ベンチマークフレームワーク

A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching ( http://arxiv.org/abs/2003.13114v1 )

ライセンス: Link先を確認
Venkata Vamsikrishna Meduri, Lucian Popa, Prithviraj Sen, Mohamed Sarwat(参考訳) エンティティマッチング(EM)は、同じ現実世界のエンティティの異なる参照を特定することを目的とした、コアデータクリーニングタスクである。 アクティブラーニングは、Oracleによってラベル付けされるために必要なサンプルを動的に収集し、学習モデル(分類器)を精査することで、ラベル付きデータの不足に対処する方法のひとつです。 本稿では,emのための統合アクティブラーニングベンチマークフレームワークを構築し,異なる学習アルゴリズムと適用可能なサンプル選択アルゴリズムを組み合わせることを可能にする。 このフレームワークの目標は、emでアクティブな学習の組み合わせがうまく機能するかについて、実践者に具体的なガイドラインを提供することである。 そこで我々は,製品および出版ドメインから公開されているEMデータセットの総合的な実験を行い,EM品質,#labels,サンプル選択遅延などのさまざまな指標を用いて,アクティブな学習手法を評価する。 私たちの最も驚くべき結果は、ラベルが少ないアクティブラーニングが教師付き学習と同等の品質の分類器を学習できることを示しています。 実際、いくつかのデータセットに対して、最先端の教師付き学習結果を上回るアクティブな学習組み合わせが存在することを示す。 また、F1スコアの観点から学習モデルの品質を約9%向上し、モデルの品質に影響を与えることなく、サンプル選択のレイテンシを最大10倍削減する新しい最適化も含んでいる。

Entity Matching (EM) is a core data cleaning task, aiming to identify different mentions of the same real-world entity. Active learning is one way to address the challenge of scarce labeled data in practice, by dynamically collecting the necessary examples to be labeled by an Oracle and refining the learned model (classifier) upon them. In this paper, we build a unified active learning benchmark framework for EM that allows users to easily combine different learning algorithms with applicable example selection algorithms. The goal of the framework is to enable concrete guidelines for practitioners as to what active learning combinations will work well for EM. Towards this, we perform comprehensive experiments on publicly available EM datasets from product and publication domains to evaluate active learning methods, using a variety of metrics including EM quality, #labels and example selection latencies. Our most surprising result finds that active learning with fewer labels can learn a classifier of comparable quality as supervised learning. In fact, for several of the datasets, we show that there is an active learning combination that beats the state-of-the-art supervised learning result. Our framework also includes novel optimizations that improve the quality of the learned model by roughly 9% in terms of F1-score and reduce example selection latencies by up to 10x without affecting the quality of the model.
翻訳日:2022-12-18 14:04:30 公開日:2020-03-29
# グループ見出し

Grouping headlines ( http://arxiv.org/abs/2004.02620v1 )

ライセンス: Link先を確認
Ciro Javier Diaz Penedo and Lucas Leonardo Silveira Costa(参考訳) 本研究では,非教師付き機械学習技術を用いた新聞abc(australian bro-adcasting corporation)の見出しをグループ化する問題に対処する。 得られたクラスタの結果を提示し、議論する。

In this work we deal with the problem of grouping in headlines of the newspaper ABC (Australian Bro-adcasting Corporation) using unsupervised machine learning techniques. We present and discuss the results on the clusters found
翻訳日:2022-12-18 14:04:06 公開日:2020-03-29
# ロボット間の効率的なマルチソーストランスファー学習のためのダイナミクス類似性を用いた経験選択

Experience Selection Using Dynamics Similarity for Efficient Multi-Source Transfer Learning Between Robots ( http://arxiv.org/abs/2003.13150v1 )

ライセンス: Link先を確認
Michael J. Sorocky, Siqi Zhou, and Angela P. Schoellig(参考訳) ロボット工学の文献では、新しいタスクやロボットの学習プロセスを加速するために、ソースタスクまたはロボット(実または仮想)の経験を活用するために異なる知識伝達アプローチが提案されている。 一般的に作られたが、頻繁に検討される前提は、ソースタスクやロボットの経験を取り入れることが有益なことである。 実際には、不適切な知識伝達は負の伝達や安全でない振る舞いをもたらすことがある。 本研究では,ロバスト制御理論からのシステムギャップメトリックである$\nu$-gapに着想を得て,ロボットシステム間の類似性を推定するデータ効率の高いアルゴリズムを提案する。 多元ロボット間転送学習のセットアップでは、この類似度メトリクスにより、相対転送性能を予測でき、知識伝達の前にソースロボットから経験を情報的に選択できることを示す。 提案手法は,実または仮想の4乗子から逆動力学モデルを転送し,任意の手書き軌道上での目標4乗子の追従性能を向上させる方法である。 提案する類似度指標に基づく経験の選択は,目標4乗子の学習を効果的に促進し,選択の悪い経験と比較して62%向上することを示す。

In the robotics literature, different knowledge transfer approaches have been proposed to leverage the experience from a source task or robot -- real or virtual -- to accelerate the learning process on a new task or robot. A commonly made but infrequently examined assumption is that incorporating experience from a source task or robot will be beneficial. In practice, inappropriate knowledge transfer can result in negative transfer or unsafe behaviour. In this work, inspired by a system gap metric from robust control theory, the $\nu$-gap, we present a data-efficient algorithm for estimating the similarity between pairs of robot systems. In a multi-source inter-robot transfer learning setup, we show that this similarity metric allows us to predict relative transfer performance and thus informatively select experiences from a source robot before knowledge transfer. We demonstrate our approach with quadrotor experiments, where we transfer an inverse dynamics model from a real or virtual source quadrotor to enhance the tracking performance of a target quadrotor on arbitrary hand-drawn trajectories. We show that selecting experiences based on the proposed similarity metric effectively facilitates the learning of the target quadrotor, improving performance by 62% compared to a poorly selected experience.
翻訳日:2022-12-18 14:04:00 公開日:2020-03-29
# ワイズ選択による弱補正映像アクター・アクションセグメンテーションモデルの学習

Learning a Weakly-Supervised Video Actor-Action Segmentation Model with a Wise Selection ( http://arxiv.org/abs/2003.13141v1 )

ライセンス: Link先を確認
Jie Chen, Zhiheng Li, Jiebo Luo, and Chenliang Xu(参考訳) 本稿では,一般ビデオオブジェクトセグメンテーション(vos)を拡張し,アクタのアクションラベルを付加的に検討する,弱い教師付きビデオアクタアクションセグメンテーション(vaas)について述べる。 VOSの最も成功した方法は擬似アノテーションのプールを合成し、それを反復的に精製する。 しかし、彼らは、大量のPAs高品質のものをどのように選択するか、弱い教師付きトレーニングに適切な停止条件を設定する方法、VAASに関連するPAを初期化する方法について、課題に直面している。 これらの課題を克服するために、トレーニングサンプルのワイズ選択とモデル評価基準(WS^2)を用いた全般的な弱弱弱化フレームワークを提案する。 品質不整合性PAを盲目的に信頼する代わりに、WS^2は学習ベースの選択を用いて効果的なPAを選択する。 さらに、VAASタスクに対応するために3D-Conv GCAMが考案された。 大規模な実験の結果,WS^2 は VOS タスクとVAAS タスクの両方において最先端の性能を達成し,VAAS 上で最高の完全教師付き手法と同等であることがわかった。

We address weakly-supervised video actor-action segmentation (VAAS), which extends general video object segmentation (VOS) to additionally consider action labels of the actors. The most successful methods on VOS synthesize a pool of pseudo-annotations (PAs) and then refine them iteratively. However, they face challenges as to how to select from a massive amount of PAs high-quality ones, how to set an appropriate stop condition for weakly-supervised training, and how to initialize PAs pertaining to VAAS. To overcome these challenges, we propose a general Weakly-Supervised framework with a Wise Selection of training samples and model evaluation criterion (WS^2). Instead of blindly trusting quality-inconsistent PAs, WS^2 employs a learning-based selection to select effective PAs and a novel region integrity criterion as a stopping condition for weakly-supervised training. In addition, a 3D-Conv GCAM is devised to adapt to the VAAS task. Extensive experiments show that WS^2 achieves state-of-the-art performance on both weakly-supervised VOS and VAAS tasks and is on par with the best fully-supervised method on VAAS.
翻訳日:2022-12-18 14:00:19 公開日:2020-03-29
# 映画キャラクタ間のインタラクションの学習と関係

Learning Interactions and Relationships between Movie Characters ( http://arxiv.org/abs/2003.13158v1 )

ライセンス: Link先を確認
Anna Kukleva and Makarand Tapaswi and Ivan Laptev(参考訳) 人間の相互作用は、しばしば関係によって支配される。 逆に、社会的関係はいくつかの相互作用に基づいている。 2人の見知らぬ人は、時間とともに友達になりながら挨拶し、自己紹介する傾向にある。 我々は、この相互作用と関係の相互作用に魅了され、社会状況を理解する上で重要な側面であると信じている。 本研究では,対話や関係,関連する文字のペアを学習し,共同で予測するニューラルモデルを提案する。 インタラクションは視覚と対話の混合によって情報化され、意味のある情報を抽出するためのマルチモーダルアーキテクチャが提案される。 ビデオ中の対話的文字のペアをローカライズすることは時間を要するプロセスであり、クリップレベルの弱いラベルから学習するためにモデルをトレーニングする。 我々は,映画グラフデータセット上でモデルを評価し,モーダリティの影響,関係予測のための長い時間文脈の利用,接地ラベルと比較して弱いラベルを用いた促進性能を実現する。 コードはオンラインです。

Interactions between people are often governed by their relationships. On the flip side, social relationships are built upon several interactions. Two strangers are more likely to greet and introduce themselves while becoming friends over time. We are fascinated by this interplay between interactions and relationships, and believe that it is an important aspect of understanding social situations. In this work, we propose neural models to learn and jointly predict interactions, relationships, and the pair of characters that are involved. We note that interactions are informed by a mixture of visual and dialog cues, and present a multimodal architecture to extract meaningful information from them. Localizing the pair of interacting characters in video is a time-consuming process, instead, we train our model to learn from clip-level weak labels. We evaluate our models on the MovieGraphs dataset and show the impact of modalities, use of longer temporal context for predicting relationships, and achieve encouraging performance using weak labels as compared with ground-truth labels. Code is online.
翻訳日:2022-12-18 13:59:55 公開日:2020-03-29
# 名前付きエンティティ認識のためのドイツの法律文書のデータセット

A Dataset of German Legal Documents for Named Entity Recognition ( http://arxiv.org/abs/2003.13016v1 )

ライセンス: Link先を確認
Elena Leitner and Georg Rehm and Juli\'an Moreno-Schneider(参考訳) ドイツの連邦裁判所の決定において,名前付きエンティティ認識のために開発されたデータセットについて述べる。 近似からなる。 6万7千文 トークン200万枚以上 資料には、人、裁判官、弁護士、国、都市、街路、景観、組織、組織、機関、裁判所、ブランド、法律、条例、欧州の法的規範、規制、契約、裁判所決定、法文学の19の細かな意味クラスにマッピングされた54,000の注釈付きエンティティが含まれている。 さらに、法的文書には35,000以上のTimeMLベースの時間表現が自動的に注釈付けされた。 connl-2002フォーマットでcc-by 4.0ライセンスで利用可能であるデータセットは、euプロジェクトlynxでドイツの法律文書のnerサービスをトレーニングするために開発された。

We describe a dataset developed for Named Entity Recognition in German federal court decisions. It consists of approx. 67,000 sentences with over 2 million tokens. The resource contains 54,000 manually annotated entities, mapped to 19 fine-grained semantic classes: person, judge, lawyer, country, city, street, landscape, organization, company, institution, court, brand, law, ordinance, European legal norm, regulation, contract, court decision, and legal literature. The legal documents were, furthermore, automatically annotated with more than 35,000 TimeML-based time expressions. The dataset, which is available under a CC-BY 4.0 license in the CoNNL-2002 format, was developed for training an NER service for German legal documents in the EU project Lynx.
翻訳日:2022-12-18 13:59:39 公開日:2020-03-29
# 鉄鋼合金の諸特性の予測

Prediction of properties of steel alloys ( http://arxiv.org/abs/2004.06037v1 )

ライセンス: Link先を確認
Ciro Javier Diaz Penedo and Lucas Leonardo Silveira Costa(参考訳) 本稿では, 工業用鋼板の4つの機械的性質予測のための教師付き機械学習モデルに基づく予測器について検討する。 モデルの学習と評価のインプットとして文献で利用可能な実験データベースから得られた結果を得た。

We present a study of possible predictors based on four supervised machine learning models for the prediction of four mechanical properties of the main industrially used steels. The results were obtained from an experimental database available in the literature which were used as input to train and evaluate the models.
翻訳日:2022-12-18 13:59:25 公開日:2020-03-29
# ClusterVO: 移動インスタンスのクラスタ化と自己と周辺のためのビジュアルオドメトリの推定

ClusterVO: Clustering Moving Instances and Estimating Visual Odometry for Self and Surroundings ( http://arxiv.org/abs/2003.12980v1 )

ライセンス: Link先を確認
Jiahui Huang, Sheng Yang, Tai-Jiang Mu, Shi-Min Hu(参考訳) 本研究では,egoと周辺剛体クラスタ/オブジェクトの運動を同時にクラスターし,推定するステレオ視覚オドメトリであるclustervoを提案する。 バッチ入力やシーン構造や動的オブジェクトモデルへの事前設定に依存する従来のソリューションとは異なり、clustervoは一般的にオンラインであり、屋内のシーン理解や自動運転など、さまざまなシナリオで使用することができる。 システムの中核は,マルチレベル確率的結合機構と不均一条件確率場(crf)クラスタリング手法であり,意味的,空間的,動き的情報を組み合わせることで,各フレームのクラスタセグメンテーションをオンライン上で推定する。 カメラと動的オブジェクトのポーズは、スライディングウィンドウ最適化によって即座に解決される。 本システムは,Oxford Multimotion と KITTI を用いて定量的および定性的に評価し,計測と動的軌跡回復の両面での最先端解に匹敵する結果を得た。

We present ClusterVO, a stereo Visual Odometry which simultaneously clusters and estimates the motion of both ego and surrounding rigid clusters/objects. Unlike previous solutions relying on batch input or imposing priors on scene structure or dynamic object models, ClusterVO is online, general and thus can be used in various scenarios including indoor scene understanding and autonomous driving. At the core of our system lies a multi-level probabilistic association mechanism and a heterogeneous Conditional Random Field (CRF) clustering approach combining semantic, spatial and motion information to jointly infer cluster segmentations online for every frame. The poses of camera and dynamic objects are instantly solved through a sliding-window optimization. Our system is evaluated on Oxford Multimotion and KITTI dataset both quantitatively and qualitatively, reaching comparable results to state-of-the-art solutions on both odometry and dynamic trajectory recovery.
翻訳日:2022-12-18 13:59:21 公開日:2020-03-29
# 勾配誘導による構造保存超解像

Structure-Preserving Super Resolution with Gradient Guidance ( http://arxiv.org/abs/2003.13081v1 )

ライセンス: Link先を確認
Cheng Ma, Yongming Rao, Yean Cheng, Ce Chen, Jiwen Lu, Jie Zhou(参考訳) 単一画像超分解能(sisr)における構造物質。 GAN(Generative Adversarial Network)による最近の研究は、フォトリアリスティック画像の復元によるSISRの開発を促進している。 しかし、復元された画像には常に望ましくない構造歪みがある。 本稿では,ganを用いた知覚的詳細生成手法のメリットを維持しつつ,上記の課題を解消するための構造保存型超解像法を提案する。 具体的には,画像の勾配マップを用いて2つの側面の復元を導出する。 一方,高分解能勾配写像を勾配分岐により復元し,sr過程の事前構造を付加する。 一方,超解像に2次制限を課す勾配損失を提案する。 従来の画像空間損失関数とともに、勾配空間の目的は、生成ネットワークが幾何学的構造にもっと集中するのに役立つ。 さらに,本手法はsrネットワーク上で使用可能なモデル非依存である。 実験の結果,PSNRとSSIMは最先端の知覚駆動型SR法と比較すると,優れたPIとLPIPS性能が得られた。 視覚的な結果から,自然sr画像生成時の構造復元の優位性が示された。

Structures matter in single image super resolution (SISR). Recent studies benefiting from generative adversarial network (GAN) have promoted the development of SISR by recovering photo-realistic images. However, there are always undesired structural distortions in the recovered images. In this paper, we propose a structure-preserving super resolution method to alleviate the above issue while maintaining the merits of GAN-based methods to generate perceptual-pleasant details. Specifically, we exploit gradient maps of images to guide the recovery in two aspects. On the one hand, we restore high-resolution gradient maps by a gradient branch to provide additional structure priors for the SR process. On the other hand, we propose a gradient loss which imposes a second-order restriction on the super-resolved images. Along with the previous image-space loss functions, the gradient-space objectives help generative networks concentrate more on geometric structures. Moreover, our method is model-agnostic, which can be potentially used for off-the-shelf SR networks. Experimental results show that we achieve the best PI and LPIPS performance and meanwhile comparable PSNR and SSIM compared with state-of-the-art perceptual-driven SR methods. Visual results demonstrate our superiority in restoring structures while generating natural SR images.
翻訳日:2022-12-18 13:58:43 公開日:2020-03-29
# 光電界超解像のための高次残差ネットワーク

High-Order Residual Network for Light Field Super-Resolution ( http://arxiv.org/abs/2003.13094v1 )

ライセンス: Link先を確認
Nan Meng, Xiaofei Wu, Jianzhuang Liu, Edmund Y. Lam(参考訳) plenopticカメラは通常、異なる視点から幾何学情報を取得するためにサイスの空間分解能を犠牲にする。 このような空間角トレードオフを緩和するいくつかの方法が提案されているが、光場(LF)データの構造特性を効率的に利用することはめったにない。 本稿では,LFから階層的に幾何学的特徴を学習するための新しい高次残差ネットワークを提案する。 提案ネットワークの重要な構成要素は高次残差ブロック (hrb) であり、全ての入力ビューからの情報を考慮し、局所的な幾何学的特徴を学習する。 各hrbから得られた局所的な特徴を十分に把握した後,全球残差学習を通じて空間-三角形のアップサンプリングのための代表的な幾何学的特徴を抽出した。 さらに、知覚的損失を最小化して空間的詳細をさらに高めるために、精細化ネットワークが続く。 従来の研究と比較すると、我々のモデルはLFに固有のリッチな構造に合わせて調整されており、非ランベルト的領域や閉塞領域に近いアーティファクトを削減できる。 実験結果から, 挑戦地域においても高品質な再建が可能であり, 定量的評価と視覚的評価の両面から, 最先端の単一画像やLF再構成法よりも優れていた。

Plenoptic cameras usually sacrifice the spatial resolution of their SAIs to acquire geometry information from different viewpoints. Several methods have been proposed to mitigate such spatio-angular trade-off, but seldom make use of the structural properties of the light field (LF) data efficiently. In this paper, we propose a novel high-order residual network to learn the geometric features hierarchically from the LF for reconstruction. An important component in the proposed network is the high-order residual block (HRB), which learns the local geometric features by considering the information from all input views. After fully obtaining the local features learned from each HRB, our model extracts the representative geometric features for spatio-angular upsampling through the global residual learning. Additionally, a refinement network is followed to further enhance the spatial details by minimizing a perceptual loss. Compared with previous work, our model is tailored to the rich structure inherent in the LF, and therefore can reduce the artifacts near non-Lambertian and occlusion regions. Experimental results show that our approach enables high-quality reconstruction even in challenging regions and outperforms state-of-the-art single image or LF reconstruction methods with both quantitative measurements and visual evaluation.
翻訳日:2022-12-18 13:58:24 公開日:2020-03-29
# 確率勾配Descence を用いたマルチエージェント経路探索のための最適化方向ロードマップグラフ

Optimized Directed Roadmap Graph for Multi-Agent Path Finding Using Stochastic Gradient Descent ( http://arxiv.org/abs/2003.12924v1 )

ライセンス: Link先を確認
Christian Henkel and Marc Toussaint(参考訳) 我々はODRM(Optimized Directed Roadmap Graph)と呼ばれる新しいアプローチを提案する。 マルチロボットナビゲーションにおける衝突回避を可能にする有向ロードマップグラフを構築する方法である。 これは、例えば産業用自動運転車両など、非常に関連する問題である。 ODRMの中核となる考え方は、有向的なロードマップは、エージェントが同じ環境で互いに避けなければならない場合に有用である環境固有の特性をエンコードできるということである。 Probabilistic Roadmaps (PRMs)のように、ODRMの最初のステップは、C空間からサンプルを生成することだ。 2番目のステップでは、Stochastic Gradient Descent (SGD) によって頂点位置とエッジ方向を最適化する。 これは壁と平行な縁のような創発的な特性と、2車線の通りやラウンドアバウトに似たパターンをもたらす。 エージェントは、そのパスを独立して検索し、実行時に発生するエージェント・エージェント衝突を解決することで、このグラフをナビゲートすることができる。 ODRMが生成するグラフを最適化されていないグラフと比較すると、エージェントとエージェントの衝突が著しく少ない。 中央集権型と分散型の両方のプランナーでロードマップを評価します。 実験の結果,odrmでは,単純な集中型プランナーでも,多数のエージェントで解決できない問題を解決できることがわかった。 さらに、分散プランナーとオンライン衝突回避を備えたシミュレーションロボットを使用して、標準的なグリッドマップよりもエージェントがロードマップ上で非常に高速であることを示す。

We present a novel approach called Optimized Directed Roadmap Graph (ODRM). It is a method to build a directed roadmap graph that allows for collision avoidance in multi-robot navigation. This is a highly relevant problem, for example for industrial autonomous guided vehicles. The core idea of ODRM is, that a directed roadmap can encode inherent properties of the environment which are useful when agents have to avoid each other in that same environment. Like Probabilistic Roadmaps (PRMs), ODRM's first step is generating samples from C-space. In a second step, ODRM optimizes vertex positions and edge directions by Stochastic Gradient Descent (SGD). This leads to emergent properties like edges parallel to walls and patterns similar to two-lane streets or roundabouts. Agents can then navigate on this graph by searching their path independently and solving occurring agent-agent collisions at run-time. Using the graphs generated by ODRM compared to a non-optimized graph significantly fewer agent-agent collisions happen. We evaluate our roadmap with both, centralized and decentralized planners. Our experiments show that with ODRM even a simple centralized planner can solve problems with high numbers of agents that other multi-agent planners can not solve. Additionally, we use simulated robots with decentralized planners and online collision avoidance to show how agents are a lot faster on our roadmap than on standard grid maps.
翻訳日:2022-12-18 13:58:01 公開日:2020-03-29
# Web上でFAIR語彙とオントロジーを実装するためのベストプラクティス

Best Practices for Implementing FAIR Vocabularies and Ontologies on the Web ( http://arxiv.org/abs/2003.13084v1 )

ライセンス: Link先を確認
Daniel Garijo and Mar\'ia Poveda-Villal\'on(参考訳) セマンティックウェブ技術の導入に伴い、生物学から農業学、地球科学まで様々な領域で語彙やオントロジーが発展してきた。 しかし、これらのオントロジーの多くは、ドキュメントの欠如、uriの解決、バージョニングの問題などにより、研究者による発見、アクセス、理解が難しい。 この章では、Web上でアクセス可能で、理解可能で、再利用可能なオントロジーを作成するためのガイドラインとベストプラクティスを説明し、標準のプラクティスを使用し、Semantic Webコミュニティによって開発された既存のツールやフレームワークを指し示します。 ガイドラインを具体例で示し、研究者が将来の語彙でこれらのプラクティスを実践できるように支援します。

With the adoption of Semantic Web technologies, an increasing number of vocabularies and ontologies have been developed in different domains, ranging from Biology to Agronomy or Geosciences. However, many of these ontologies are still difficult to find, access and understand by researchers due to a lack of documentation, URI resolving issues, versioning problems, etc. In this chapter we describe guidelines and best practices for creating accessible, understandable and reusable ontologies on the Web, using standard practices and pointing to existing tools and frameworks developed by the Semantic Web community. We illustrate our guidelines with concrete examples, in order to help researchers implement these practices in their future vocabularies.
翻訳日:2022-12-18 13:57:41 公開日:2020-03-29
# Fast-MVSNet: プロパゲーションとガウスニュートンリファインメントを学習したSparse-to-Dense Multi-View Stereo

Fast-MVSNet: Sparse-to-Dense Multi-View Stereo With Learned Propagation and Gauss-Newton Refinement ( http://arxiv.org/abs/2003.13017v1 )

ライセンス: Link先を確認
Zehao Yu, Shenghua Gao(参考訳) これまでのほぼすべてのディープラーニングベースのマルチビューステレオ(mvs)アプローチは、リコンストラクションの品質向上に重点を置いている。 品質に加えて、実際のシナリオでは効率性もMVSにとって望ましい機能です。 そこで本論文では,MVSにおける高速かつ高精度な深度推定のための,スパース・トゥ・ディエンス・サース・トゥ・ファインメント・フレームワークであるFast-MVSNetを提案する。 特に、fast-mvsnetでは、スパースで高解像度な深度マップを学習するために、まずスパースコストボリュームを構築します。 次に、小さな畳み込みニューラルネットワークを用いて局所領域内の画素の深さ依存性を符号化し、スパース高解像度深度マップを密度化する。 最後に、深度マップをさらに最適化するために、単純で効率的なガウス・ニュートン層が提案されている。 一方,高分解能深度マップ,データ適応伝播法,ガウス・ニュートン層が共同で提案手法の有効性を保証している。 一方、Fast-MVSNetのすべてのモジュールは軽量であるため、このアプローチの効率性が保証されます。 また,スパース深度表現によるメモリフレンドリーな手法も提案した。 広範な実験結果から,本手法はpoint-mvsnetおよびr-mvsnetよりも5$\times$と14$\times$高速であることが判明した。 コードはhttps://github.com/svip-lab/FastMVSNetで入手できる。

Almost all previous deep learning-based multi-view stereo (MVS) approaches focus on improving reconstruction quality. Besides quality, efficiency is also a desirable feature for MVS in real scenarios. Towards this end, this paper presents a Fast-MVSNet, a novel sparse-to-dense coarse-to-fine framework, for fast and accurate depth estimation in MVS. Specifically, in our Fast-MVSNet, we first construct a sparse cost volume for learning a sparse and high-resolution depth map. Then we leverage a small-scale convolutional neural network to encode the depth dependencies for pixels within a local region to densify the sparse high-resolution depth map. At last, a simple but efficient Gauss-Newton layer is proposed to further optimize the depth map. On one hand, the high-resolution depth map, the data-adaptive propagation method and the Gauss-Newton layer jointly guarantee the effectiveness of our method. On the other hand, all modules in our Fast-MVSNet are lightweight and thus guarantee the efficiency of our approach. Besides, our approach is also memory-friendly because of the sparse depth representation. Extensive experimental results show that our method is 5$\times$ and 14$\times$ faster than Point-MVSNet and R-MVSNet, respectively, while achieving comparable or even better results on the challenging Tanks and Temples dataset as well as the DTU dataset. Code is available at https://github.com/svip-lab/FastMVSNet.
翻訳日:2022-12-18 13:51:35 公開日:2020-03-29
# ポイントクラウド上での3次元セマンティックセマンティックセグメンテーションのためのマルチパス領域マイニング

Multi-Path Region Mining For Weakly Supervised 3D Semantic Segmentation on Point Clouds ( http://arxiv.org/abs/2003.13035v1 )

ライセンス: Link先を確認
Jiacheng Wei, Guosheng Lin, Kim-Hui Yap, Tzu-Yi Hung, Lihua Xie(参考訳) 点雲は固有の幾何学的情報とシーン理解のための表面コンテキストを提供する。 既存のポイントクラウドセグメンテーションの方法は、大量のラベル付きデータを必要とする。 高度な深度センサーを使って、大規模な3dデータセットの収集はもはや面倒なプロセスではない。 しかし、大規模データセット上で手動でポイントレベルのラベルを生成するのは時間と労力がかかる。 本稿では,3次元点雲上の弱ラベルを用いた点レベルの予測手法を提案する。 弱いラベルで訓練された分類ネットワークから擬似点レベルラベルを生成するためのマルチパス領域マイニングモジュールを提案する。 異なるアテンションモジュールを使用して、ネットワークの特徴のさまざまな側面から各クラスのローカライゼーションのヒントを発掘する。 次に、ポイントレベルの擬似ラベルを使用して、ポイントクラウドセグメンテーションネットワークを完全に監督された方法でトレーニングします。 私たちの知る限りでは、これはクラウドレベルの弱いラベルを生の3d空間で使用してポイントクラウドセマンティクスセグメンテーションネットワークをトレーニングする最初の方法です。 我々の設定では、3D弱ラベルは入力サンプルに現れるクラスのみを示す。 本研究では,生の3dポイントクラウドデータに対して,シーンレベルとサブクラウドレベルの弱いラベルを共に検討し,詳細な実験を行う。 scannetデータセットでは、サブクラウドレベルのラベルでトレーニングされた結果が、完全な教師付きメソッドと互換性があります。

Point clouds provide intrinsic geometric information and surface context for scene understanding. Existing methods for point cloud segmentation require a large amount of fully labeled data. Using advanced depth sensors, collection of large scale 3D dataset is no longer a cumbersome process. However, manually producing point-level label on the large scale dataset is time and labor-intensive. In this paper, we propose a weakly supervised approach to predict point-level results using weak labels on 3D point clouds. We introduce our multi-path region mining module to generate pseudo point-level label from a classification network trained with weak labels. It mines the localization cues for each class from various aspects of the network feature using different attention modules. Then, we use the point-level pseudo labels to train a point cloud segmentation network in a fully supervised manner. To the best of our knowledge, this is the first method that uses cloud-level weak labels on raw 3D space to train a point cloud semantic segmentation network. In our setting, the 3D weak labels only indicate the classes that appeared in our input sample. We discuss both scene- and subcloud-level weakly labels on raw 3D point cloud data and perform in-depth experiments on them. On ScanNet dataset, our result trained with subcloud-level labels is compatible with some fully supervised methods.
翻訳日:2022-12-18 13:51:04 公開日:2020-03-29
# 注意回復とランドマーク推定の反復的協調によるディープフェイス超解法

Deep Face Super-Resolution with Iterative Collaboration between Attentive Recovery and Landmark Estimation ( http://arxiv.org/abs/2003.13063v1 )

ライセンス: Link先を確認
Cheng Ma, Zhenyu Jiang, Yongming Rao, Jiwen Lu, Jie Zhou(参考訳) ディープラーニングと顔認識に基づく最近の研究は、ひどく劣化した顔画像の超解像に成功している。 しかし、ランドマークやコンポーネントマップのような顔の事前知識は、常に解像度の低い画像や粗い超解像画像で推定されるため、既存の手法では十分に活用されていないため、回復性能に影響を及ぼす可能性がある。 本稿では,顔画像の復元とランドマーク推定に焦点をあてた2つの繰り返しネットワーク間の反復的協調による深層顔超解像(FSR)手法を提案する。 再帰ステップ毎に、リカバリブランチは、ランドマークの事前知識を利用して、より正確なランドマーク推定を容易にする高品質の画像を生成する。 したがって、2つのプロセス間の反復的な情報相互作用は、互いのパフォーマンスを徐々に向上させる。 さらに,新しい注意融合モジュールはランドマークマップの誘導を強化するために設計されており,顔成分を個別に生成し,注意深く集約して復元する。 定量的および定性的な実験結果から,提案手法は高品質な顔画像の復元において,最先端のFSR法よりも優れていた。

Recent works based on deep learning and facial priors have succeeded in super-resolving severely degraded facial images. However, the prior knowledge is not fully exploited in existing methods, since facial priors such as landmark and component maps are always estimated by low-resolution or coarsely super-resolved images, which may be inaccurate and thus affect the recovery performance. In this paper, we propose a deep face super-resolution (FSR) method with iterative collaboration between two recurrent networks which focus on facial image recovery and landmark estimation respectively. In each recurrent step, the recovery branch utilizes the prior knowledge of landmarks to yield higher-quality images which facilitate more accurate landmark estimation in turn. Therefore, the iterative information interaction between two processes boosts the performance of each other progressively. Moreover, a new attentive fusion module is designed to strengthen the guidance of landmark maps, where facial components are generated individually and aggregated attentively for better restoration. Quantitative and qualitative experimental results show the proposed method significantly outperforms state-of-the-art FSR methods in recovering high-quality face images.
翻訳日:2022-12-18 13:49:49 公開日:2020-03-29
# 生成的部分多視点クラスタリング

Generative Partial Multi-View Clustering ( http://arxiv.org/abs/2003.13088v1 )

ライセンス: Link先を確認
Qianqian Wang, Zhengming Ding, Zhiqiang Tao, Quanxue Gao, Yun Fu(参考訳) 近年,データ収集源や特徴抽出手法の急速な発展に伴い,多視点データの入手が容易になり,近年研究の注目が高まり,その中でも,多視点クラスタリング(MVC)が主流となる研究方向を形成し,データ解析に広く利用されている。 しかし、既存のMVCメソッドは主に、データ破損、センサーの故障、機器の故障などによる不完全なビューケースを考慮せずに、各サンプルがすべてのビューに現れることを前提にしています。 本研究では,欠落したビューのデータを明示的に生成することにより,不完全なマルチビュー問題に対処するため,GP-MVCと呼ばれる生成的部分的マルチビュークラスタリングモデルの設計と構築を行う。 GP-MVCの主な考え方は2倍である。 まず、マルチビューエンコーダネットワークをトレーニングして、一般的な低次元表現を学習し、次にクラスタリング層を使用して複数のビューをまたいだ一貫したクラスタ構造をキャプチャする。 第2に、他のビューが与える共有表現に基づいて、1つのビュー条件の欠落データを生成するために、ビュー固有の生成敵ネットワークを開発する。 これらの2つのステップは相互に促進され、共通表現の学習がデータ計算を促進し、生成されたデータはビューの一貫性をさらに探求する。 さらに、重み付き適応融合スキームを実装して、異なるビュー間の補完情報を利用する。 提案手法に対するGP-MVCの有効性を示すために,4つのベンチマークデータセット実験を行った。

Nowadays, with the rapid development of data collection sources and feature extraction methods, multi-view data are getting easy to obtain and have received increasing research attention in recent years, among which, multi-view clustering (MVC) forms a mainstream research direction and is widely used in data analysis. However, existing MVC methods mainly assume that each sample appears in all the views, without considering the incomplete view case due to data corruption, sensor failure, equipment malfunction, etc. In this study, we design and build a generative partial multi-view clustering model, named as GP-MVC, to address the incomplete multi-view problem by explicitly generating the data of missing views. The main idea of GP-MVC lies at two-fold. First, multi-view encoder networks are trained to learn common low-dimensional representations, followed by a clustering layer to capture the consistent cluster structure across multiple views. Second, view-specific generative adversarial networks are developed to generate the missing data of one view conditioning on the shared representation given by other views. These two steps could be promoted mutually, where learning common representations facilitates data imputation and the generated data could further explores the view consistency. Moreover, an weighted adaptive fusion scheme is implemented to exploit the complementary information among different views. Experimental results on four benchmark datasets are provided to show the effectiveness of the proposed GP-MVC over the state-of-the-art methods.
翻訳日:2022-12-18 13:49:30 公開日:2020-03-29
# ニューラルアーキテクチャ探索のための外乱免疫重み共有

Disturbance-immune Weight Sharing for Neural Architecture Search ( http://arxiv.org/abs/2003.13089v1 )

ライセンス: Link先を確認
Shuaicheng Niu, Jiaxiang Wu, Yifan Zhang, Yong Guo, Peilin Zhao, Junzhou Huang, Mingkui Tan(参考訳) neural architecture search (nas) はアーキテクチャ設計のコミュニティで注目を集めている。 この成功の鍵となる要因の1つは、ウェイトシェアリング(WS)技術によって生み出されたトレーニング効率である。 しかし、WSベースのNASメソッドは、しばしばパフォーマンス障害(PD)問題に悩まされる。 すなわち、後続のアーキテクチャのトレーニングは、部分的に共有された重みのために、事前にトレーニングされたアーキテクチャのパフォーマンスを必然的に妨げます。 これにより、以前のアーキテクチャの性能評価が不正確なため、優れた検索戦略を学ぶのが難しくなる。 性能乱れ問題を軽減するため,モデル更新のための新しい乱れ免疫更新戦略を提案する。 具体的には,先行アーキテクチャが学習した知識を保存すべく,直交勾配降下による直交空間における後続アーキテクチャの訓練を制約する。 この戦略を取り入れたNASのための新しい障害免疫トレーニング手法を提案する。 PDリスクを軽減するための戦略の有効性を理論的に分析する。 CIFAR-10とImageNetの大規模な実験により,本手法の優位性が確認された。

Neural architecture search (NAS) has gained increasing attention in the community of architecture design. One of the key factors behind the success lies in the training efficiency created by the weight sharing (WS) technique. However, WS-based NAS methods often suffer from a performance disturbance (PD) issue. That is, the training of subsequent architectures inevitably disturbs the performance of previously trained architectures due to the partially shared weights. This leads to inaccurate performance estimation for the previous architectures, which makes it hard to learn a good search strategy. To alleviate the performance disturbance issue, we propose a new disturbance-immune update strategy for model updating. Specifically, to preserve the knowledge learned by previous architectures, we constrain the training of subsequent architectures in an orthogonal space via orthogonal gradient descent. Equipped with this strategy, we propose a novel disturbance-immune training scheme for NAS. We theoretically analyze the effectiveness of our strategy in alleviating the PD risk. Extensive experiments on CIFAR-10 and ImageNet verify the superiority of our method.
翻訳日:2022-12-18 13:49:07 公開日:2020-03-29
# 医療事例報告における名前付きエンティティ:コーパスと実験

Named Entities in Medical Case Reports: Corpus and Experiments ( http://arxiv.org/abs/2003.13032v1 )

ライセンス: Link先を確認
Sarah Schulz and Jurica \v{S}eva and Samuel Rodriguez and Malte Ostendorff and Georg Rehm(参考訳) 本稿では, PubMed Centralのオープンアクセスライブラリを起源とする, 症例報告における医療機関のアノテーションを含む新しいコーパスを提案する。 症例報告では, 症例, 状況, 所見, 因子, 否定修飾因子に注釈を付した。 さらに、適用すれば、これらのエンティティ間の関係を注釈します。 この種のコーパスは、英語で科学コミュニティに提供される最初のものである。 これにより、名前付きエンティティ認識、関係抽出、(文/パラグラフ)関連検出といったタスクを通じて、ケースレポートから自動情報抽出を最初に行うことができる。 さらに,アノテートされたデータセットから医療機関を検出するための4つの強力なベースラインシステムを提案する。

We present a new corpus comprising annotations of medical entities in case reports, originating from PubMed Central's open access library. In the case reports, we annotate cases, conditions, findings, factors and negation modifiers. Moreover, where applicable, we annotate relations between these entities. As such, this is the first corpus of this kind made available to the scientific community in English. It enables the initial investigation of automatic information extraction from case reports through tasks like Named Entity Recognition, Relation Extraction and (sentence/paragraph) relevance detection. Additionally, we present four strong baseline systems for the detection of medical entities made available through the annotated dataset.
翻訳日:2022-12-18 13:41:48 公開日:2020-03-29
# Commonsense Reasoningのための自動推論の拡張

Extending Automated Deduction for Commonsense Reasoning ( http://arxiv.org/abs/2003.13159v1 )

ライセンス: Link先を確認
Tanel Tammet(参考訳) 常識推論は長い間、人工知能の聖杯の一つと見なされてきた。 この分野の最近の進歩の大部分は、自然言語処理のための新しい機械学習アルゴリズムによって達成されている。 しかし、論理的推論を組み込むことなく、これらのアルゴリズムは間違いなく浅いままである。 注目すべき例外を除いて、実用的な自動論理ベースの推論器の開発者は、問題に集中することをほとんど避けてきた。 本論文は,従来の一階述語論理の自動推論手法とアルゴリズムを,コモンセンス推論に拡張できると主張している。 新しい特殊論理を考案する代わりに、私たちは主流の解像度ベースの検索手法を拡張して、合理的な効率で実用的なコモンセンス推論のための検索タスクを実行可能にするフレームワークを提案します。 提案された拡張は、主に通常の証明木に依存し、不一致、デフォルト規則、分類法、話題、関連性、信頼性、類似性を含む常識知識ベースを扱うために考案された。 機械学習はコモンセンスの知識ベースを構築するのに最適であり、拡張された論理ベースの手法はこれらの知識ベースからのクエリに実際に答えるのに適している、と我々は主張する。

Commonsense reasoning has long been considered as one of the holy grails of artificial intelligence. Most of the recent progress in the field has been achieved by novel machine learning algorithms for natural language processing. However, without incorporating logical reasoning, these algorithms remain arguably shallow. With some notable exceptions, developers of practical automated logic-based reasoners have mostly avoided focusing on the problem. The paper argues that the methods and algorithms used by existing automated reasoners for classical first-order logic can be extended towards commonsense reasoning. Instead of devising new specialized logics we propose a framework of extensions to the mainstream resolution-based search methods to make these capable of performing search tasks for practical commonsense reasoning with reasonable efficiency. The proposed extensions mostly rely on operating on ordinary proof trees and are devised to handle commonsense knowledge bases containing inconsistencies, default rules, taxonomies, topics, relevance, confidence and similarity measures. We claim that machine learning is best suited for the construction of commonsense knowledge bases while the extended logic-based methods would be well-suited for actually answering queries from these knowledge bases.
翻訳日:2022-12-18 13:41:38 公開日:2020-03-29
# タイヤ硬化スケジューリング問題を解決するためのハイブリッド最適化手法

A hybrid optimization procedure for solving a tire curing scheduling problem ( http://arxiv.org/abs/2004.00425v1 )

ライセンス: Link先を確認
Joaqu\'in Vel\'azquez, H\'ector Cancela, Pedro Pi\~neyro(参考訳) 本稿では,タイヤ工場の硬化過程の研究から生じるロットサイズおよびスケジューリング問題の変種について述べる。 目的は、関連するリソースの可用性と互換性を考慮して、需要を満たすのに十分なタイヤを製造するために必要な最小のメイスパンを見つけることである。 この問題を解決するために、まずヒューリスティックを適用してmakespanの推定値を取得し、次に数学的モデルを解いて最小値を決定するハイブリッド手法を提案する。 モデルのサイズ(変数と制約の数)は、推定されたmakepanに大きく依存する。 提案手法の有効性を評価するため,実データに基づく異なるインスタンスに対する広範囲な数値実験を行った。 得られた結果から,ハイブリッドアプローチは,ヒューリスティックの結果によって数学的モデルのサイズを大幅に削減できるため,多数のインスタンス,あるいは大きなインスタンスに対して最適なメイズパンを実現することができることを指摘できる。

This paper addresses a lot-sizing and scheduling problem variant arising from the study of the curing process of a tire factory. The aim is to find the minimum makespan needed for producing enough tires to meet the demand requirements on time, considering the availability and compatibility of different resources involved. To solve this problem, we suggest a hybrid approach that consists in first applying a heuristic to obtain an estimated value of the makespan and then solving a mathematical model to determine the minimum value. We note that the size of the model (number of variables and constraints) depends significantly on the estimated makespan. Extensive numerical experiments over different instances based on real data are presented to evaluate the effectiveness of the hybrid procedure proposed. From the results obtained we can note that the hybrid approach is able to achieve the optimal makespan for many of the instances, even large ones, since the results provided by the heuristic allow to reduce significantly the size of the mathematical model.
翻訳日:2022-12-18 13:41:23 公開日:2020-03-29
# MBTAバスデータに基づく半動的バスルーティング基盤

A Semi-Dynamic Bus Routing Infrastructure based on MBTA Bus Data ( http://arxiv.org/abs/2004.00427v1 )

ライセンス: Link先を確認
Movses Musaelian, Anane Boateng, Md Zakirul Alam Bhuiyan(参考訳) スマートシティの新興エコシステムでは交通が急速に進化し、パーソナライズされたライドシェアリングサービスが急速に進歩している。 しかし、公共バスのインフラはこうした傾向に対応するのが遅い。 本研究では,データ駆動型で,バス輸送における関連するパラメータに応答する半動的バスルーティングフレームワークを提案する。 ボストンのバス路線から新たに公開されたバスイベントデータと、このフレームワークを作成し、その機能と結果を示すアルゴリズム的ヒューリスティックスを使用します。 このアプローチは、既存のシステムよりも賢く、よりダイナミックな、非常に有望なルーティングインフラストラクチャを生み出します。

Transportation is quickly evolving in the emerging smart city ecosystem with personalized ride sharing services quickly advancing. Yet, the public bus infrastructure has been slow to respond to these trends. With our research, we propose a semi-dynamic bus routing framework that is data-driven and responsive to relevant parameters in bus transport. We use newly published bus event data from a bus line in Boston and several algorithmic heuristics to create this framework and demonstrate the capabilities and results. We find that this approach yields a very promising routing infrastructure that is smarter and more dynamic than the existing system.
翻訳日:2022-12-18 13:41:09 公開日:2020-03-29
# 完全畳み込みネットワークによる超画素分割

Superpixel Segmentation with Fully Convolutional Networks ( http://arxiv.org/abs/2003.12929v1 )

ライセンス: Link先を確認
Fengting Yang, Qian Sun, Hailin Jin, Zihan Zhou(参考訳) コンピュータビジョンでは、スーパーピクセルはその後の処理で画像プリミティブの数を減らす効果的な方法として広く使われている。 しかし、深層ニューラルネットワークに組み込む試みはほんの数回しか行われていない。 主な理由は、標準畳み込み演算が正規格子上で定義され、スーパーピクセルに適用すると非効率になるためである。 従来のスーパーピクセルアルゴリズムで広く採用されている初期化戦略に触発され、単純な完全畳み込みネットワークを用いて正規画像グリッド上のスーパーピクセルを予測する新しい手法を提案する。 ベンチマーク実験の結果,50fpsで動作しながら,最先端のスーパーピクセルセグメンテーション性能が得られた。 予測したスーパーピクセルに基づいて,高密度予測タスクのための高分解能出力を生成することを目的とした,ディープネットワークのダウンサンプリング/アップサンプリング方式をさらに開発する。 具体的には、ステレオマッチングのために人気のあるネットワークアーキテクチャを変更し、スーパーピクセルと格差を同時に予測する。 公開データセット上では,精度の向上が期待できることを示す。

In computer vision, superpixels have been widely used as an effective way to reduce the number of image primitives for subsequent processing. But only a few attempts have been made to incorporate them into deep neural networks. One main reason is that the standard convolution operation is defined on regular grids and becomes inefficient when applied to superpixels. Inspired by an initialization strategy commonly adopted by traditional superpixel algorithms, we present a novel method that employs a simple fully convolutional network to predict superpixels on a regular image grid. Experimental results on benchmark datasets show that our method achieves state-of-the-art superpixel segmentation performance while running at about 50fps. Based on the predicted superpixels, we further develop a downsampling/upsampling scheme for deep networks with the goal of generating high-resolution outputs for dense prediction tasks. Specifically, we modify a popular network architecture for stereo matching to simultaneously predict superpixels and disparities. We show that improved disparity estimation accuracy can be obtained on public datasets.
翻訳日:2022-12-18 13:41:00 公開日:2020-03-29
# ロバスト背景初期化のためのスーパーピクセルを用いた共起背景モデル

Co-occurrence Background Model with Superpixels for Robust Background Initialization ( http://arxiv.org/abs/2003.12931v1 )

ライセンス: Link先を確認
Wenjun Zhou, Yuheng Deng, Bo Peng, Dong Liang and Shun'ichi Kaneko(参考訳) 背景初期化は,映像監視から映像インパインティングに至るまで,多くのハイレベルなビデオ処理アプリケーションにおいて重要なステップである。しかしながら,このプロセスは,照明変化,背景運動,カメラジッタ,間欠的運動などの実践的課題にしばしば影響される。この記事では,背景初期化を強固にするためのスーパーピクセルセグメンテーションを用いた共起背景モデルを開発する。 We first introduce a novel co-occurrence background modeling method called as Co-occurrence Pixel-Block Pairs(CPB)to generate a reliable initial background model,and the superpixel segmentation is utilized to further acquire the spatial texture Information of foreground and background.Then,the initial background can be determined by combining the foreground extraction results with the superpixel segmentation information.Experimental results obtained from the dataset of the challenging benchmark(SBMnet)validate it's performance under various challenges.

Background initialization is an important step in many high-level applications of video processing,ranging from video surveillance to video inpainting.However,this process is often affected by practical challenges such as illumination changes,background motion,camera jitter and intermittent movement,etc.In this paper,we develop a co-occurrence background model with superpixel segmentation for robust background initialization. We first introduce a novel co-occurrence background modeling method called as Co-occurrence Pixel-Block Pairs(CPB)to generate a reliable initial background model,and the superpixel segmentation is utilized to further acquire the spatial texture Information of foreground and background.Then,the initial background can be determined by combining the foreground extraction results with the superpixel segmentation information.Experimental results obtained from the dataset of the challenging benchmark(SBMnet)validate it's performance under various challenges.
翻訳日:2022-12-18 13:40:43 公開日:2020-03-29
# AutoTrack: 自動時空間正規化によるUAVのための高性能ビジュアルトラッキング

AutoTrack: Towards High-Performance Visual Tracking for UAV with Automatic Spatio-Temporal Regularization ( http://arxiv.org/abs/2003.12949v1 )

ライセンス: Link先を確認
Yiming Li, Changhong Fu, Fangqiang Ding, Ziyuan Huang, Geng Lu(参考訳) 識別相関フィルタ(DCF)に基づく既存のトラッカーのほとんどは、事前定義された正規化項を導入して、例えば、バックグラウンド学習の抑制や相関フィルタの変更率の制限によって、対象オブジェクトの学習を改善する。 しかし、事前定義されたパラメータはチューニングに多くの労力を要し、設計者が考えなかった新しい状況に適応できない。 本研究では,時空間正規化用語をオンライン上で自動かつ適応的に学習するための新しい手法を提案する。 空間的局所応答マップの変動を空間正規化として導入し、dcfがオブジェクトの信頼に値する部分の学習に焦点を合わせ、グローバル応答マップの変動がフィルタの更新率を決定する。 4つのUAVベンチマークに対する大規模な実験は、最先端のCPUとGPUベースのトラッカーと比較して、我々の手法の優位性を証明している。 我々のトラッカーは、UAVローカライゼーションに適用されるように提案されている。 室内の実用シナリオにおける相当なテストにより,ローカライズ手法の有効性と汎用性が証明された。 コードはhttps://github.com/vision4robotics/autotrackで入手できる。

Most existing trackers based on discriminative correlation filters (DCF) try to introduce predefined regularization term to improve the learning of target objects, e.g., by suppressing background learning or by restricting change rate of correlation filters. However, predefined parameters introduce much effort in tuning them and they still fail to adapt to new situations that the designer did not think of. In this work, a novel approach is proposed to online automatically and adaptively learn spatio-temporal regularization term. Spatially local response map variation is introduced as spatial regularization to make DCF focus on the learning of trust-worthy parts of the object, and global response map variation determines the updating rate of the filter. Extensive experiments on four UAV benchmarks have proven the superiority of our method compared to the state-of-the-art CPU- and GPU-based trackers, with a speed of ~60 frames per second running on a single CPU. Our tracker is additionally proposed to be applied in UAV localization. Considerable tests in the indoor practical scenarios have proven the effectiveness and versatility of our localization method. The code is available at https://github.com/vision4robotics/AutoTrack.
翻訳日:2022-12-18 13:40:28 公開日:2020-03-29
# アイデンティティとポーズの自己管理によるリアルな顔再現

Realistic Face Reenactment via Self-Supervised Disentangling of Identity and Pose ( http://arxiv.org/abs/2003.12957v1 )

ライセンス: Link先を確認
Xianfang Zeng, Yusu Pan, Mengmeng Wang, Jiangning Zhang, Yong Liu(参考訳) 最近の研究は、例えば、顔のランドマークや境界線といった幾何学的ガイダンスの監督の下で、いかに現実的な顔画像が得られるかを示している。 本稿では,手動アノテーションの需要を軽減するために,大量の未表示映像を自然に再現する方法を学習する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。 提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。 一方,変形するオートエンコーダを用い,アイデンティティとポーズ表現を分離する。 会話の顔ビデオの強い先行は、それぞれのフレームを2つの部分、すなわちビデオ固有のアイデンティティと、さまざまなポーズにエンコードできることである。 これに触発されて,マルチフレームデフォーミングオートエンコーダを用いて,各ビデオに対するポーズ不変組込み顔の学習を行う。 また,各フレームのポーズ関連情報を抽出するために,マルチスケールデフォーミングオートエンコーダを提案する。 一方、条件付きジェネレータは、詳細と全体的な現実性を高めることができる。 歪んだ特徴を活用して、写真リアリスティックでポーズのような顔画像を生成する。 我々はVoxCeleb1とRaFDデータセットを用いてモデルを評価する。 実験の結果,再現画像のクオリティが向上し,顔の動きを同一人物間で伝達する柔軟性が示された。

Recent works have shown how realistic talking face images can be obtained under the supervision of geometry guidance, e.g., facial landmark or boundary. To alleviate the demand for manual annotations, in this paper, we propose a novel self-supervised hybrid model (DAE-GAN) that learns how to reenact face naturally given large amounts of unlabeled videos. Our approach combines two deforming autoencoders with the latest advances in the conditional generation. On the one hand, we adopt the deforming autoencoder to disentangle identity and pose representations. A strong prior in talking face videos is that each frame can be encoded as two parts: one for video-specific identity and the other for various poses. Inspired by that, we utilize a multi-frame deforming autoencoder to learn a pose-invariant embedded face for each video. Meanwhile, a multi-scale deforming autoencoder is proposed to extract pose-related information for each frame. On the other hand, the conditional generator allows for enhancing fine details and overall reality. It leverages the disentangled features to generate photo-realistic and pose-alike face images. We evaluate our model on VoxCeleb1 and RaFD dataset. Experiment results demonstrate the superior quality of reenacted images and the flexibility of transferring facial movements between identities.
翻訳日:2022-12-18 13:40:09 公開日:2020-03-29
# GPS-Net:シーングラフ生成のためのグラフ特性センシングネットワーク

GPS-Net: Graph Property Sensing Network for Scene Graph Generation ( http://arxiv.org/abs/2003.12962v1 )

ライセンス: Link先を確認
Xin Lin, Changxing Ding, Jinquan Zeng, Dacheng Tao(参考訳) scene graph generation(sgg)は、画像内のオブジェクトとその対関係を検出することを目的としている。 近年の研究で過小評価されているシーングラフには,エッジ方向情報,ノード間の優先度差,長期にわたる関係分布という3つの重要な特性がある。 そこで本稿では,SGG の3つの特性を網羅する Graph Property Sensing Network (GPS-Net) を提案する。 まず,ノードの特徴をノード固有のコンテキスト情報で拡張し,三線形モデルを用いてエッジ方向情報を符号化する新しいメッセージパッシングモジュールを提案する。 第2に、トレーニング中のノード間の優先度の差を反映するノード優先性損失を導入する。 これは焦点損失の焦点パラメータを調整するマッピング関数を設計することによって達成される。 第3に、長い尾の分布問題によって関係の周波数が影響を受けるため、まず分布を軟化して、その視覚的外観に応じて各対象物対に適応させることにより、この問題を軽減する。 システム実験は,提案手法の有効性を実証する。 さらに、GPS-NetはVG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定やメトリクスの下で大幅に向上させる。 コードとモデルは \url{https://github.com/taksau/GPS-Net} で公開されている。

Scene graph generation (SGG) aims to detect objects in an image along with their pairwise relationships. There are three key properties of scene graph that have been underexplored in recent works: namely, the edge direction information, the difference in priority between nodes, and the long-tailed distribution of relationships. Accordingly, in this paper, we propose a Graph Property Sensing Network (GPS-Net) that fully explores these three properties for SGG. First, we propose a novel message passing module that augments the node feature with node-specific contextual information and encodes the edge direction information via a tri-linear model. Second, we introduce a node priority sensitive loss to reflect the difference in priority between nodes during training. This is achieved by designing a mapping function that adjusts the focusing parameter in the focal loss. Third, since the frequency of relationships is affected by the long-tailed distribution problem, we mitigate this issue by first softening the distribution and then enabling it to be adjusted for each subject-object pair according to their visual appearance. Systematic experiments demonstrate the effectiveness of the proposed techniques. Moreover, GPS-Net achieves state-of-the-art performance on three popular databases: VG, OI, and VRD by significant gains under various settings and metrics. The code and models are available at \url{https://github.com/taksau/GPS-Net}.
翻訳日:2022-12-18 13:39:52 公開日:2020-03-29
# 3次元点雲の教師なし表現学習のためのグローバルローカル双方向推論

Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds ( http://arxiv.org/abs/2003.12971v1 )

ライセンス: Link先を確認
Yongming Rao, Jiwen Lu, Jie Zhou(参考訳) オブジェクトの局所パターンとグローバルパターンは密接に関連している。 オブジェクトの各部分は不完全であるが、オブジェクトに関する基礎となる属性はすべての部分で共有されるため、単一の部分からオブジェクト全体を推論できる。 3dオブジェクトの強力な表現は、部品とオブジェクト全体の間で共有され、他のオブジェクトと区別できる属性をモデル化すべきであると仮定する。 この仮説に基づき、異なる抽象階層における局所構造と人間の監督なしにグローバル形状の双方向推論により、ポイントクラウド表現を学ぶことを提案する。 様々なベンチマークデータセットの実験結果は、教師なし学習された表現は、識別力、一般化能力、堅牢性において教師付き表現よりも優れていることを示している。 我々は,教師なしに訓練されたポイントクラウドモデルが,下流分類タスクにおいて教師なしクラウドモデルよりも優れていることを示す。 最も注目すべきは、ssg pointnet++のチャネル幅を単純に増やすことで、私たちの教師なしモデルは、合成および現実世界の3dオブジェクト分類データセットの両方で最先端の教師付きメソッドを超えます。 我々は、ポイントクラウド理解のためのヒューマンアノテーションではなく、データ構造からより良い表現を学ぶための新しい視点を提供することを期待している。

Local and global patterns of an object are closely related. Although each part of an object is incomplete, the underlying attributes about the object are shared among all parts, which makes reasoning the whole object from a single part possible. We hypothesize that a powerful representation of a 3D object should model the attributes that are shared between parts and the whole object, and distinguishable from other objects. Based on this hypothesis, we propose to learn point cloud representation by bidirectional reasoning between the local structures at different abstraction hierarchies and the global shape without human supervision. Experimental results on various benchmark datasets demonstrate the unsupervisedly learned representation is even better than supervised representation in discriminative power, generalization ability, and robustness. We show that unsupervisedly trained point cloud models can outperform their supervised counterparts on downstream classification tasks. Most notably, by simply increasing the channel width of an SSG PointNet++, our unsupervised model surpasses the state-of-the-art supervised methods on both synthetic and real-world 3D object classification datasets. We expect our observations to offer a new perspective on learning better representation from data structures instead of human annotations for point cloud understanding.
翻訳日:2022-12-18 13:39:29 公開日:2020-03-29
# 患者全体を見る:多ラベル医用テキスト分類技術を用いて医療コードの予測を促進する

Seeing The Whole Patient: Using Multi-Label Medical Text Classification Techniques to Enhance Predictions of Medical Codes ( http://arxiv.org/abs/2004.00430v1 )

ライセンス: Link先を確認
Vithya Yogarajan, Jacob Montiel, Tony Smith, Bernhard Pfahringer(参考訳) 機械学習に基づくマルチラベル医療テキスト分類は、人体の理解を深め、患者ケアの必要性を高めるために使用できる。 本稿では,マルチモルビディティ患者の医学的コードを予測する際に,テキストを表す特徴を最大化するための臨床的自然言語処理技術に関する広範な研究を行う。 18,50,155ラベルの多ラベル医療用テキスト分類問題について報告する。 組込み,テキストタグ付け,前処理など,いくつかのバリエーションを比較した。 不均衡なデータに対して、頻繁に発生するラベルは、埋め込みに組み込まれた追加機能から最も恩恵を受けることを示す。 また, 健康関連データを用いて事前学習した高次元埋め込みは, バイナリ分類の性能向上と同様に, マルチラベル設定において著しく改善することを示した。 この研究の高次元埋め込みは公共用途に利用可能である。

Machine learning-based multi-label medical text classifications can be used to enhance the understanding of the human body and aid the need for patient care. We present a broad study on clinical natural language processing techniques to maximise a feature representing text when predicting medical codes on patients with multi-morbidity. We present results of multi-label medical text classification problems with 18, 50 and 155 labels. We compare several variations to embeddings, text tagging, and pre-processing. For imbalanced data we show that labels which occur infrequently, benefit the most from additional features incorporated in embeddings. We also show that high dimensional embeddings pre-trained using health-related data present a significant improvement in a multi-label setting, similarly to the way they improve performance for binary classification. High dimensional embeddings from this research are made available for public use.
翻訳日:2022-12-18 13:33:08 公開日:2020-03-29
# 5Gにおける各種品質要件を考慮した無線リソース割当の深層学習

Deep Learning for Radio Resource Allocation with Diverse Quality-of-Service Requirements in 5G ( http://arxiv.org/abs/2004.00507v1 )

ライセンス: Link先を確認
Rui Dong, Changyang She, Wibowo Hardjawana, Yonghui Li, and Branka Vucetic(参考訳) 第5世代セルラーネットワークにおけるqos(quality-of-service)要求を満たすために、基地局は時変ネットワーク環境における無線資源のリアルタイム最適化が必要である。 これは、高いコンピューティングオーバーヘッドと長い処理遅延をもたらす。 本研究では,帯域幅を最適化し,送信電力を割り当てることにより,基地局の総消費電力を最小化する最適資源配分ポリシーを近似するディープラーニングフレームワークを開発する。 完全接続ニューラルネットワーク(NN)は,近似誤差とサブキャリア数の量子化誤差により,QoS要求を完全に保証できないことがわかった。 この問題に対処するために,第1のNNが最適帯域割り当てを近似し,第2のNNが与えられた帯域割り当てでQoS要求を満たすために必要な送信電力を出力する,NNのカスケード構造を提案する。 無線回線の分布と無線ネットワーク内のサービスの種類が非定常であることを考慮して,非定常無線ネットワークにおけるnns更新にディープトランスファー学習を適用する。 シミュレーションの結果、カスケードNNはQoS保証の観点から完全に接続されたNNよりも優れていた。 さらに、ディープトランスファー学習は、NNのトレーニングに必要なトレーニングサンプルの数を著しく削減することができる。

To accommodate diverse Quality-of-Service (QoS) requirements in the 5th generation cellular networks, base stations need real-time optimization of radio resources in time-varying network conditions. This brings high computing overheads and long processing delays. In this work, we develop a deep learning framework to approximate the optimal resource allocation policy that minimizes the total power consumption of a base station by optimizing bandwidth and transmit power allocation. We find that a fully-connected neural network (NN) cannot fully guarantee the QoS requirements due to the approximation errors and quantization errors of the numbers of subcarriers. To tackle this problem, we propose a cascaded structure of NNs, where the first NN approximates the optimal bandwidth allocation, and the second NN outputs the transmit power required to satisfy the QoS requirement with given bandwidth allocation. Considering that the distribution of wireless channels and the types of services in the wireless networks are non-stationary, we apply deep transfer learning to update NNs in non-stationary wireless networks. Simulation results validate that the cascaded NNs outperform the fully connected NN in terms of QoS guarantee. In addition, deep transfer learning can reduce the number of training samples required to train the NNs remarkably.
翻訳日:2022-12-18 13:32:55 公開日:2020-03-29
# 中期電力負荷予測のためのハイブリッド残留拡張lstm端指数平滑化モデル

A Hybrid Residual Dilated LSTM end Exponential Smoothing Model for Mid-Term Electric Load Forecasting ( http://arxiv.org/abs/2004.00508v1 )

ライセンス: Link先を確認
Grzegorz Dudek, Pawe{\l} Pe{\l}ka, Slawek Smyl(参考訳) 本研究は,中期負荷予測のためのハイブリッド型階層型ディープラーニングモデルを提案する。 このモデルは指数的平滑化(ETS)、高度な長短記憶(LSTM)とアンサンブルを組み合わせたものである。 ETSは個々の時系列の主成分を動的に抽出し、モデルが表現を学習できるようにする。 多層LSTMは、拡張された繰り返しスキップ接続と下層からの空間的ショートカットパスを備えており、モデルが長期の季節関係をよりよく捉え、より効率的なトレーニングを可能にする。 LSTMとETSの共通学習手順は、ピンボール損失をペナル化することにより、データの表現と予測性能を同時に最適化する。 さらに、3レベルのアンサンブルは強力な正規化を保証する。 欧州35か国における電力需要時系列のシミュレーション研究により、提案モデルの性能と、ARIMAやETSといった古典的モデルとの競争性、および機械学習に基づく最先端モデルとの競争性が確認された。

This work presents a hybrid and hierarchical deep learning model for mid-term load forecasting. The model combines exponential smoothing (ETS), advanced Long Short-Term Memory (LSTM) and ensembling. ETS extracts dynamically the main components of each individual time series and enables the model to learn their representation. Multi-layer LSTM is equipped with dilated recurrent skip connections and a spatial shortcut path from lower layers to allow the model to better capture long-term seasonal relationships and ensure more efficient training. A common learning procedure for LSTM and ETS, with a penalized pinball loss, leads to simultaneous optimization of data representation and forecasting performance. In addition, ensembling at three levels ensures a powerful regularization. A simulation study performed on the monthly electricity demand time series for 35 European countries confirmed the high performance of the proposed model and its competitiveness with classical models such as ARIMA and ETS as well as state-of-the-art models based on machine learning.
翻訳日:2022-12-18 13:32:35 公開日:2020-03-29
# 欠陥セグメンテーション:畳み込みニューラルネットワークを用いた地中レーダデータによる内部欠陥のマッピングトンネル

Defect segmentation: Mapping tunnel lining internal defects with ground penetrating radar data using a convolutional neural network ( http://arxiv.org/abs/2003.13120v1 )

ライセンス: Link先を確認
Senlin Yang, Zhengfang Wang, Jing Wang, Anthony G. Cohn, Jiaqi Zhang, Peng Jiang, Peng Jiang, Qingmei Sui(参考訳) 本研究では,内部欠陥を非破壊的に検出するための地中レーダ(gpr)データ処理手法を提案する。 自動トンネルライニング検出のこの重要なステップを実現するため,Lov\'aszソフトマックス損失関数と組み合わせたCNNを用いて内部欠陥構造をGPR合成データにマッピングし,欠陥検出の精度,自動化,効率を向上させる。 本手法は, 実データと合成データの両方の評価により, 従来のgprデータ解釈の難しさを克服し, 実データ上での手法の検証を行い, 既知の欠陥を含むテストモデルを設計, 構築し, 解析を行った。

This research proposes a Ground Penetrating Radar (GPR) data processing method for non-destructive detection of tunnel lining internal defects, called defect segmentation. To perform this critical step of automatic tunnel lining detection, the method uses a CNN called Segnet combined with the Lov\'asz softmax loss function to map the internal defect structure with GPR synthetic data, which improves the accuracy, automation and efficiency of defects detection. The novel method we present overcomes several difficulties of traditional GPR data interpretation as demonstrated by an evaluation on both synthetic and real datas -- to verify the method on real data, a test model containing a known defect was designed and built and GPR data was obtained and analyzed.
翻訳日:2022-12-18 13:31:14 公開日:2020-03-29
# カメラのモデルを予測する

Predict the model of a camera ( http://arxiv.org/abs/2004.03336v1 )

ライセンス: Link先を確認
Ciro Javier Diaz Penedo(参考訳) 本研究では,写真の内容に基づいてカメラのモデルを予測する問題に対処する。 画像の4レベル高速ウェーブレット分解を適用した離散ウェーブレット領域(DWD)から抽出した特性からなる特徴セットと、画像のアフターフィルタノイズから局所二元パターン(LBP)特徴セットの2つの特徴セットを用いる。 分類に用いられるアルゴリズムは、ロジスティック回帰、K-NN、ニューラルネットワークである。

In this work we address the problem of predicting the model of a camera based on the content of their photographs. We use two set of features, one set consist in properties extracted from a Discrete Wavelet Domain (DWD) obtained by applying a 4 level Fast Wavelet Decomposition of the images, and a second set are Local Binary Patterns (LBP) features from the after filter noise of images. The algorithms used for classification were Logistic regression, K-NN and Artificial Neural Networks
翻訳日:2022-12-18 13:30:59 公開日:2020-03-29
# 事前学習されたシーケンス列列とサルジェンシーモデルを組み合わせた抽象的要約

Abstractive Summarization with Combination of Pre-trained Sequence-to-Sequence and Saliency Models ( http://arxiv.org/abs/2003.13028v1 )

ライセンス: Link先を確認
Itsumi Saito, Kyosuke Nishida, Kosuke Nishida, Junji Tomita(参考訳) 事前訓練されたシーケンス・ツー・シークエンス(seq-to-seq)モデルは抽象的な要約を含む複数の言語生成タスクの精度を大幅に向上させた。 これらのモデルを微調整することで抽象要約の流束は大幅に改善されているが、要約に含まれるソーステキストの重要な部分も特定できるかどうかは不明である。 本研究では,テキストの重要部分と事前学習したSeq-to-seqモデルとを,広範囲な実験により同定するサリエンシモデルの有効性を検討した。 また,ソーステキストからトークンシーケンスを抽出するsaliencyモデルと,そのシーケンスを追加入力テキストとするseq-to-seqモデルを組み合わせた新しい組み合わせモデルを提案した。 実験結果から,CNN/DMとXSumの両方のデータセットにおいて,Seq-to-seqモデルが大規模コーパス上で事前学習されても,単純な微調整Seq-to-seqモデルよりも優れた結果が得られた。 さらに、CNN/DMデータセットの場合、提案した組み合わせモデルはROUGE-Lの1.33ポイント以上である。

Pre-trained sequence-to-sequence (seq-to-seq) models have significantly improved the accuracy of several language generation tasks, including abstractive summarization. Although the fluency of abstractive summarization has been greatly improved by fine-tuning these models, it is not clear whether they can also identify the important parts of the source text to be included in the summary. In this study, we investigated the effectiveness of combining saliency models that identify the important parts of the source text with the pre-trained seq-to-seq models through extensive experiments. We also proposed a new combination model consisting of a saliency model that extracts a token sequence from a source text and a seq-to-seq model that takes the sequence as an additional input text. Experimental results showed that most of the combination models outperformed a simple fine-tuned seq-to-seq model on both the CNN/DM and XSum datasets even if the seq-to-seq model is pre-trained on large-scale corpora. Moreover, for the CNN/DM dataset, the proposed combination model exceeded the previous best-performed model by 1.33 points on ROUGE-L.
翻訳日:2022-12-18 13:30:30 公開日:2020-03-29
# 複数分類手法によるクリックベイト検出

Clickbait Detection using Multiple Categorization Techniques ( http://arxiv.org/abs/2003.12961v1 )

ライセンス: Link先を確認
Abinash Pujahari and Dilip Singh Sisodia(参考訳) クリックベイト(clickbaits)は、意図したウェブページを開くように、ますます多くの読者を誘うために意図的に誤ったタイトルをデザインしたオンライン記事である。 クリックベイトは、訪問者が特定のリンクをクリックしてランディングページの収益化やセンセーショナル化のための偽ニュースの拡散を誘惑するために使われる。 ニュースアグリゲータポータルにクリックベイトが存在することは、読者にとって不快な体験につながるかもしれない。 ニュース見出しからのクリックベイト見出しの自動検出は、機械学習コミュニティにとって難しい問題となっている。 近年,クリックベイト記事の防止に多くの方法が提案されている。 しかし、最近のクリックベイト検出のテクニックはそれほど堅牢ではない。 本稿では,クリックベイトとノンクリックベイトを,異なる特徴,文構造,クラスタリングを統合したハイブリッド分類手法を提案する。 予備分類の間、見出しは11の特徴を使って分離される。 その後、見出しは文形式、構文的類似度を用いて再分類される。 最後のフェーズでは、t-Stochastic Neighbourhood Embedding (t-SNE)アプローチに基づいた単語ベクトル類似性を用いたクラスタリングを適用することで、見出しを再び分類する。 これらの見出しの分類後、機械学習モデルをデータセットに適用し、機械学習アルゴリズムを評価する。 得られた実験結果から,提案したハイブリッドモデルは実世界のデータセットに対する個々の分類手法よりも堅牢で信頼性が高く,効率的であることが示唆された。

Clickbaits are online articles with deliberately designed misleading titles for luring more and more readers to open the intended web page. Clickbaits are used to tempted visitors to click on a particular link either to monetize the landing page or to spread the false news for sensationalization. The presence of clickbaits on any news aggregator portal may lead to unpleasant experience to readers. Automatic detection of clickbait headlines from news headlines has been a challenging issue for the machine learning community. A lot of methods have been proposed for preventing clickbait articles in recent past. However, the recent techniques available in detecting clickbaits are not much robust. This paper proposes a hybrid categorization technique for separating clickbait and non-clickbait articles by integrating different features, sentence structure, and clustering. During preliminary categorization, the headlines are separated using eleven features. After that, the headlines are recategorized using sentence formality, syntactic similarity measures. In the last phase, the headlines are again recategorized by applying clustering using word vector similarity based on t-Stochastic Neighbourhood Embedding (t-SNE) approach. After categorization of these headlines, machine learning models are applied to the data set to evaluate machine learning algorithms. The obtained experimental results indicate the proposed hybrid model is more robust, reliable and efficient than any individual categorization techniques for the real-world dataset we used.
翻訳日:2022-12-18 13:24:46 公開日:2020-03-29
# マルチエージェント強化学習における並列知識伝達

Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2003.13085v1 )

ライセンス: Link先を確認
Yongyuan Liang, Bangwei Li(参考訳) マルチエージェント強化学習は,実世界のシナリオに適用されたマルチエージェントインタラクションをモデル化するための標準フレームワークである。 ヒューマングループでの体験共有にインスパイアされたエージェント間の学習知識の並列再利用は、特にマルチタスク環境でのチーム学習のパフォーマンスを促進する可能性がある。 すべてのエージェントが環境と対話して同時に学習する場合、各エージェントが他のエージェントの行動知識から選択的に学習する方法は、私たちが解決しなければならない問題である。 本稿では,MARL(Parallel Attentional Transfer)における新たな知識伝達フレームワークを提案する。 PAT,学生モード,自己学習モードの2つの動作モードを設計する。 このアプローチの各エージェントは、分散化された学生アクター批判を訓練し、各ステップでその演技モードを決定する。 エージェントが環境に不慣れな場合、学生モードの共有注意機構は、エージェントの行動を決定するために他のエージェントから学習知識を効果的に選択する。 PATは、先進的なアプローチに対して最先端の実証的評価結果を上回っている。 我々のアプローチはチーム学習率とグローバルパフォーマンスを著しく向上させるだけでなく、様々なマルチエージェントシステムに適用できる柔軟性と転送性も向上する。

Multi-agent reinforcement learning is a standard framework for modeling multi-agent interactions applied in real-world scenarios. Inspired by experience sharing in human groups, learning knowledge parallel reusing between agents can potentially promote team learning performance, especially in multi-task environments. When all agents interact with the environment and learn simultaneously, how each independent agent selectively learns from other agents' behavior knowledge is a problem that we need to solve. This paper proposes a novel knowledge transfer framework in MARL, PAT (Parallel Attentional Transfer). We design two acting modes in PAT, student mode and self-learning mode. Each agent in our approach trains a decentralized student actor-critic to determine its acting mode at each time step. When agents are unfamiliar with the environment, the shared attention mechanism in student mode effectively selects learning knowledge from other agents to decide agents' actions. PAT outperforms state-of-the-art empirical evaluation results against the prior advising approaches. Our approach not only significantly improves team learning rate and global performance, but also is flexible and transferable to be applied in various multi-agent systems.
翻訳日:2022-12-18 13:24:26 公開日:2020-03-29
# 修復問題に対する画像モデルと事前値の関係に関する集合論的研究

A Set-Theoretic Study of the Relationships of Image Models and Priors for Restoration Problems ( http://arxiv.org/abs/2003.12985v1 )

ライセンス: Link先を確認
Bihan Wen, Yanjun Li, Yuqi Li, and Yoram Bresler(参考訳) 画像先行モデリングは、画像回復、計算画像、圧縮センシング、その他の逆問題において重要な問題である。 近年,スパースモデルやローランクモデルなど,複数の有効な先行モデルを組み合わせたアルゴリズムは,様々なアプリケーションにおいて優れた性能を示している。 しかし、一般的な画像モデル間の関係は不明確であり、それらの関係を実証する理論は一般には存在しない。 本稿では,アプリケーションと画像の事前理解のギャップを埋めるため,画像モデルに関する理論的解析を行い,スパーシティ,グループ間スパース性,関節スパース性,低ランク性などについて述べる。 画像復元における各画像モデルの有効性を系統的に検討する。 さらに,複数のモデルと画像モデルの関係を組み合わせることにより,雑音化性能の向上を図る。 解析結果と一致した分別結果を比較するため,広範な実験を行った。 モデルベース手法に加えて,深層学習法によって不自然に悪用される画像特性を定量的に示し,その補完的画像モデルと組み合わせることで,ノイズ除去性能をさらに高めることができることを示す。

Image prior modeling is the key issue in image recovery, computational imaging, compresses sensing, and other inverse problems. Recent algorithms combining multiple effective priors such as the sparse or low-rank models, have demonstrated superior performance in various applications. However, the relationships among the popular image models are unclear, and no theory in general is available to demonstrate their connections. In this paper, we present a theoretical analysis on the image models, to bridge the gap between applications and image prior understanding, including sparsity, group-wise sparsity, joint sparsity, and low-rankness, etc. We systematically study how effective each image model is for image restoration. Furthermore, we relate the denoising performance improvement by combining multiple models, to the image model relationships. Extensive experiments are conducted to compare the denoising results which are consistent with our analysis. On top of the model-based methods, we quantitatively demonstrate the image properties that are inexplicitly exploited by deep learning method, of which can further boost the denoising performance by combining with its complementary image models.
翻訳日:2022-12-18 13:23:30 公開日:2020-03-29
# 変数分割の学習とテスト

Learning and Testing Variable Partitions ( http://arxiv.org/abs/2003.12990v1 )

ライセンス: Link先を確認
Andrej Bogdanov and Baoxiang Wang(参考訳) $Let $F$ は積集合 $\Sigma^n$ からアベリア群 $G$ への多変数函数である。 $k$-partition of $F$ with cost $\delta$ は変数の集合 $\mathbf{V}$ から $k$ 非空部分集合 $(\mathbf{X}_1, \dots, \mathbf{X}_k)$ への分割であり、$F(\mathbf{V})$ は $F_1(\mathbf{X}_1)+\dots+F_k(\mathbf{X}_k)$ に対して、与えられた誤差計量に関して $F_1, \dots, F_k$ となる。 我々は、様々なグループに対して$k$パーティションを学習し、$F$へのクエリアクセスを与えられたエラーメトリクスに対して$k$パーティショナビリティをテストするアルゴリズムを研究した。 特に、$k$-partition of cost$\delta$を持つ関数に対して、$\mathcal{o}(k n^2)(\delta + \epsilon)$ の分割は、$\tilde{\mathcal{o}}(n^2 \mathrm{poly} (1/\epsilon))$ 任意の$\epsilon > 0$ に対して学習できる。 対照的に、$k = 2$ と $n = 3$ では、コスト$\delta + \epsilon$ の分割はnp-hardである。 f$ が実数値で、エラーメトリックが 2-ノルムである場合、$\sqrt{\delta^2 + \epsilon}$ の2分割は $\tilde{\mathcal{o}}(n^5/\epsilon^2)$ で学習できる。 $f$ が $\mathbb{z}_q$-valued であり、エラーメトリクスが重くなり、$k$-partitionability は片側のエラーでテスト可能であり、$\mathcal{o}(kn^3/\epsilon)$ は非適応クエリである。 また、両面のテスタでさえ$k = 2$の場合に$\Omega(n)$クエリが必要であることも示しています。 この作業は、制御変数の集合を分割できる強化学習制御タスクによって動機づけられた。 パーティショニングはタスクを比較的学習しやすい複数の低次元のタスクに還元する。 第2のアルゴリズムは,この文脈で適用した従来のヒューリスティック分割法より得られたスコアを経験的に向上させる。

$ $Let $F$ be a multivariate function from a product set $\Sigma^n$ to an Abelian group $G$. A $k$-partition of $F$ with cost $\delta$ is a partition of the set of variables $\mathbf{V}$ into $k$ non-empty subsets $(\mathbf{X}_1, \dots, \mathbf{X}_k)$ such that $F(\mathbf{V})$ is $\delta$-close to $F_1(\mathbf{X}_1)+\dots+F_k(\mathbf{X}_k)$ for some $F_1, \dots, F_k$ with respect to a given error metric. We study algorithms for agnostically learning $k$ partitions and testing $k$-partitionability over various groups and error metrics given query access to $F$. In particular we show that $1.$ Given a function that has a $k$-partition of cost $\delta$, a partition of cost $\mathcal{O}(k n^2)(\delta + \epsilon)$ can be learned in time $\tilde{\mathcal{O}}(n^2 \mathrm{poly} (1/\epsilon))$ for any $\epsilon > 0$. In contrast, for $k = 2$ and $n = 3$ learning a partition of cost $\delta + \epsilon$ is NP-hard. $2.$ When $F$ is real-valued and the error metric is the 2-norm, a 2-partition of cost $\sqrt{\delta^2 + \epsilon}$ can be learned in time $\tilde{\mathcal{O}}(n^5/\epsilon^2)$. $3.$ When $F$ is $\mathbb{Z}_q$-valued and the error metric is Hamming weight, $k$-partitionability is testable with one-sided error and $\mathcal{O}(kn^3/\epsilon)$ non-adaptive queries. We also show that even two-sided testers require $\Omega(n)$ queries when $k = 2$. This work was motivated by reinforcement learning control tasks in which the set of control variables can be partitioned. The partitioning reduces the task into multiple lower-dimensional ones that are relatively easier to learn. Our second algorithm empirically increases the scores attained over previous heuristic partitioning methods applied in this context.
翻訳日:2022-12-18 13:23:10 公開日:2020-03-29
# テキスト分類におけるトポロジカルデータ分析:付加情報を用いた特徴抽出

Topological Data Analysis in Text Classification: Extracting Features with Additive Information ( http://arxiv.org/abs/2003.13138v1 )

ライセンス: Link先を確認
Shafie Gholizadeh, Ketki Savle, Armin Seyeditabari and Wlodek Zadrozny(参考訳) 高次元数値データに関する多くの研究でトポロジカルデータ解析の強みが研究されているが、テキストに適用することは依然として難しい課題である。 位相データ解析の主要な目的は数値データ内の形状を定義し、定量化することであり、ベクトル空間や概念空間の幾何学が情報検索や意味論に明らかに関係しているにもかかわらず、テキスト内の形状を定義することはずっと困難である。 本稿では,テキストからトポロジ的特徴を抽出する2つの手法を,単語埋め込みとTF-IDFベクトルの2つの最も一般的な方法として用いた。 単語埋め込み空間から位相的特徴を抽出するために,テキスト文書の埋め込みを高次元時系列として解釈し,頂点が異なる埋め込み次元に対応する基底グラフの位相解析を行う。 TF-IDF表現を用いたトポロジデータ解析では,テキスト文書中の異なるブロックのTF-IDFベクトルから頂点が得られたグラフのトポロジを分析する。 どちらの場合も、距離分解の異なる幾何学的構造を明らかにするためにホモロジー的永続性を適用する。 その結果,これらの位相的特徴は,従来のテキストマイニング法では捉えられていない情報を含むことがわかった。 実験では,アンサンブルモデルにおける従来の特徴にトポロジ的特徴を加えることにより,分類結果(最大5\%)が向上することが観察された。 一方、予想通り、トポロジカルな特徴だけでは効果的な分類には不十分かもしれない。 線形サポートベクトル分類器で得られたトップ結果から数ポイントの範囲で機能するように見えるため、単語埋め込みからのtda特徴が十分であるかどうかを確認することは、オープンな問題である。

While the strength of Topological Data Analysis has been explored in many studies on high dimensional numeric data, it is still a challenging task to apply it to text. As the primary goal in topological data analysis is to define and quantify the shapes in numeric data, defining shapes in the text is much more challenging, even though the geometries of vector spaces and conceptual spaces are clearly relevant for information retrieval and semantics. In this paper, we examine two different methods of extraction of topological features from text, using as the underlying representations of words the two most popular methods, namely word embeddings and TF-IDF vectors. To extract topological features from the word embedding space, we interpret the embedding of a text document as high dimensional time series, and we analyze the topology of the underlying graph where the vertices correspond to different embedding dimensions. For topological data analysis with the TF-IDF representations, we analyze the topology of the graph whose vertices come from the TF-IDF vectors of different blocks in the textual document. In both cases, we apply homological persistence to reveal the geometric structures under different distance resolutions. Our results show that these topological features carry some exclusive information that is not captured by conventional text mining methods. In our experiments we observe adding topological features to the conventional features in ensemble models improves the classification results (up to 5\%). On the other hand, as expected, topological features by themselves may be not sufficient for effective classification. It is an open problem to see whether TDA features from word embeddings might be sufficient, as they seem to perform within a range of few points from top results obtained with a linear support vector classifier.
翻訳日:2022-12-18 13:22:02 公開日:2020-03-29
# 加速度計によるジェスチャタイピングの可能性

Accelerography: Feasibility of Gesture Typing using Accelerometer ( http://arxiv.org/abs/2003.14310v1 )

ライセンス: Link先を確認
Arindam Roy Chowdhury, Abhinandan Dalal and Shubhajit Sen(参考訳) 本稿では,ジェスチャーを用いたアルファベット構築の実現可能性を検討することを目的とする。 主なアイデアは、記憶が容易で、再現が面倒で、識別が容易なジェスチャーを構築することである。 英語アルファベット全体のジェスチャを構築し,連続的に構築された場合でもジェスチャを識別するアルゴリズムを提供する。 ユーザの手の動きの無作為性の問題を考慮し、統計的にこの問題に取り組み、英語アルファベット全体の平均精度97.33%を達成した。

In this paper, we aim to look into the feasibility of constructing alphabets using gestures. The main idea is to construct gestures, that are easy to remember, not cumbersome to reproduce and easily identifiable. We construct gestures for the entire English alphabet and provide an algorithm to identify the gestures, even when they are constructed continuously. We tackle the problem statistically, taking into account the problem of randomness in the hand movement gestures of users, and achieve an average accuracy of 97.33% with the entire English alphabet.
翻訳日:2022-12-18 13:21:19 公開日:2020-03-29
# supernet --ニューラルネットワークセンシングの効率的な方法

SuperNet -- An efficient method of neural networks ensembling ( http://arxiv.org/abs/2003.13021v1 )

ライセンス: Link先を確認
Ludwik Bukowski, Witold Dzwinel(参考訳) ニューラルネットワークアンサンブルの主な欠点は、特に個々のサブモデルが大きなニューラルネットワークである場合、計算的に例外的に要求されていることである。 現代のdnnは非常に正確であり、それらは既に単純な分類器の巨大なアンサンブルであり、どんなアンサンブルに対しても同様の性能のより難解な圧縮ニューラルネットワークを構築することができることを念頭において、高価なスーパーネットを設計するという考えは疑わしい。 センセンブルリングは予測時間を増やし、魅力的ではない、という広く信じられているため、ml研究の主流は、より先進的で効率的なニューラルネットワークのための損失関数と学習戦略の開発に向けられている。 一方で、これらすべての要素はアーキテクチャをより複雑にし、オーバーフィッティングと高い計算複雑性、すなわち高度にパラメータ化されたスーパーネットが非難されるのと同じ欠陥をもたらす。 マスター論文の目標は、アンサンブル生成に必要な実行時間を短縮することである。 K不正確なサブモデルをトレーニングする代わりに、それぞれが単一のDNN(Huang et al., 2017; Gripov et al., 2018)のトレーニングのさまざまなフェーズ(損失関数のローカルなミニマを表現する)を表現できる。 したがって、スーパーネットの計算性能は、単一のサブモデルのトレーニングに費やされる最大cpu時間と、スーパーネット結合因子のトレーニングに要するcpu時間と同等である。

The main flaw of neural network ensembling is that it is exceptionally demanding computationally, especially, if the individual sub-models are large neural networks, which must be trained separately. Having in mind that modern DNNs can be very accurate, they are already the huge ensembles of simple classifiers, and that one can construct more thrifty compressed neural net of a similar performance for any ensemble, the idea of designing the expensive SuperNets can be questionable. The widespread belief that ensembling increases the prediction time, makes it not attractive and can be the reason that the main stream of ML research is directed towards developing better loss functions and learning strategies for more advanced and efficient neural networks. On the other hand, all these factors make the architectures more complex what may lead to overfitting and high computational complexity, that is, to the same flaws for which the highly parametrized SuperNets ensembles are blamed. The goal of the master thesis is to speed up the execution time required for ensemble generation. Instead of training K inaccurate sub-models, each of them can represent various phases of training (representing various local minima of the loss function) of a single DNN [Huang et al., 2017; Gripov et al., 2018]. Thus, the computational performance of the SuperNet can be comparable to the maximum CPU time spent on training its single sub-model, plus usually much shorter CPU time required for training the SuperNet coupling factors.
翻訳日:2022-12-18 13:15:03 公開日:2020-03-29
# ネットワークにおけるシーケンシャルトランスファー機械学習:データとニューラルネットの類似性がトランスファービリティに与える影響を計測する

Sequential Transfer Machine Learning in Networks: Measuring the Impact of Data and Neural Net Similarity on Transferability ( http://arxiv.org/abs/2003.13070v1 )

ライセンス: Link先を確認
Robin Hirt, Akash Srivastava, Carlos Berg and Niklas K\"uhl(参考訳) 同様の予測タスクに直面する独立したエンティティのネットワークでは、トランスファー機械学習は、生データを露光することなく、分散データセットを使用してニューラルネットワークを再利用し、改善することができる。 ビジネスネットワーク内のデータセットの数が増加し、すべてのニューラルネット転送が成功するわけではないため、ターゲットのパフォーマンス-イット転送性への影響を示す指標が必要である。 6つのレストランの販売データからなるユニークな実世界のユースケースについて実証的研究を行った。 これらのレストランの販売データを通じてニューラルネットをトレーニングし、転送可能性を測定します。 さらに、データの多様性、データ投影、ニューラルネット類似性の新しい指標に基づいて、転送可能性の潜在的指標を計算する。 移行率と測定指標との間に有意な負の相関関係が得られた。 これらの指標に基づいて転送経路を選択することができ、モデル転送を少なくしながらモデル性能を向上させることができる。

In networks of independent entities that face similar predictive tasks, transfer machine learning enables to re-use and improve neural nets using distributed data sets without the exposure of raw data. As the number of data sets in business networks grows and not every neural net transfer is successful, indicators are needed for its impact on the target performance-its transferability. We perform an empirical study on a unique real-world use case comprised of sales data from six different restaurants. We train and transfer neural nets across these restaurant sales data and measure their transferability. Moreover, we calculate potential indicators for transferability based on divergences of data, data projections and a novel metric for neural net similarity. We obtain significant negative correlations between the transferability and the tested indicators. Our findings allow to choose the transfer path based on these indicators, which improves model performance whilst simultaneously requiring fewer model transfers.
翻訳日:2022-12-18 13:14:18 公開日:2020-03-29
# rvflnnにおける直接リンクはレグレッションに必要か?

Are Direct Links Necessary in RVFL NNs for Regression? ( http://arxiv.org/abs/2003.13090v1 )

ライセンス: Link先を確認
Grzegorz Dudek(参考訳) ランダムベクトル汎関数リンクネットワーク(rvfl)は分類と回帰問題の普遍近似器として広く使われている。 RVFLの大きな利点は、バックプロパゲーションなしでの高速トレーニングである。 これは隠れたノードの重みとバイアスがランダムに選択され、訓練されていないためである。 近年,ランダム化学習による代替アーキテクチャが開発され,出力層に直接リンクやバイアス項が存在しない点において,rvflとは異なっている。 本研究では,直接リンクと出力ノードバイアスがRVFLの回帰特性に及ぼす影響について検討する。 隠れノードのランダムパラメータの生成には,最近提案された古典的手法と2つの新しい手法を用いる。 本研究では, 非線形, 強いゆらぎをもつ非線形, 線形成分をもつ非線形, 線形関数を持つ複数の関数近似問題に対して, RVFLの性能を検証した。 意外なことに、直リンクと出力ノードバイアスは典型的な非線形回帰問題に対するRVFL精度向上に重要な役割を果たさないことがわかった。

A random vector functional link network (RVFL) is widely used as a universal approximator for classification and regression problems. The big advantage of RVFL is fast training without backpropagation. This is because the weights and biases of hidden nodes are selected randomly and stay untrained. Recently, alternative architectures with randomized learning are developed which differ from RVFL in that they have no direct links and a bias term in the output layer. In this study, we investigate the effect of direct links and output node bias on the regression performance of RVFL. For generating random parameters of hidden nodes we use the classical method and two new methods recently proposed in the literature. We test the RVFL performance on several function approximation problems with target functions of different nature: nonlinear, nonlinear with strong fluctuations, nonlinear with linear component and linear. Surprisingly, we found that the direct links and output node bias do not play an important role in improving RVFL accuracy for typical nonlinear regression problems.
翻訳日:2022-12-18 13:13:56 公開日:2020-03-29
# パターン類似性に基づく月次電力需要予測

Ensemble Forecasting of Monthly Electricity Demand using Pattern Similarity-based Methods ( http://arxiv.org/abs/2004.00426v1 )

ライセンス: Link先を確認
Pawe{\l} Pe{\l}ka, Grzegorz Dudek(参考訳) 本稿では,パターン類似性に基づく予測手法(psfms)を用いた月次電力需要予測手法を提案する。 本研究で適用されるpsfmには,$k$-nearest neighbor model,ファジィ近傍モデル,カーネル回帰モデル,一般回帰ニューラルネットワークが含まれる。 PSFMの不可欠な部分は時系列シーケンスのパターンを用いた時系列表現である。 パターン表現は、トレンドをフィルタリングし、分散を等化することで、入力と出力データの統一を保証する。 2種類のアンサンブルが生成され、不均一と均質である。 前者は異なるタイプベースモデルで構成され、後者は単一のタイプベースモデルで構成されている。 5つの戦略は、均質なアプローチでメンバーの多様性を制御するために使用される。 多様性は、トレーニングデータの異なるサブセット、特徴の異なるサブセット、ランダムに乱れた入出力変数、ランダムに乱れたモデルパラメータを使用して生成される。 実証的な例では、アンサンブルモデルと個々のpsfmを用いて、欧州35カ国の毎月の電力需要予測と比較している。

This work presents ensemble forecasting of monthly electricity demand using pattern similarity-based forecasting methods (PSFMs). PSFMs applied in this study include $k$-nearest neighbor model, fuzzy neighborhood model, kernel regression model, and general regression neural network. An integral part of PSFMs is a time series representation using patterns of time series sequences. Pattern representation ensures the input and output data unification through filtering a trend and equalizing variance. Two types of ensembles are created: heterogeneous and homogeneous. The former consists of different type base models, while the latter consists of a single-type base model. Five strategies are used for controlling a diversity of members in a homogeneous approach. The diversity is generated using different subsets of training data, different subsets of features, randomly disrupted input and output variables, and randomly disrupted model parameters. An empirical illustration applies the ensemble models as well as individual PSFMs for comparison to the monthly electricity demand forecasting for 35 European countries.
翻訳日:2022-12-18 13:13:32 公開日:2020-03-29
# マルチソースドメイン適応のための相互学習ネットワーク

Mutual Learning Network for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2003.12944v1 )

ライセンス: Link先を確認
Zhenpeng Li, Zhen Zhao, Yuhong Guo, Haifeng Shen, Jieping Ye(参考訳) 初期のUnsupervised Domain Adaptation (UDA) メソッドは、主に、ラベル付きソースデータが同じディストリビューションから来る、単一のソースドメインの設定を前提としています。 しかし、実際にはラベル付きデータは、異なる分布を持つ複数のソースドメインから得ることができる。 このようなシナリオでは、異なるソースドメインにまたがるドメインシフトが存在するため、単一ソースドメイン適応メソッドがフェールし、マルチソースドメイン適応メソッドを設計する必要がある。 本稿では,マルチソースドメイン適応方式であるMultual Learning Network for Multiple Source Domain Adaptation (ML-MSDA)を提案する。 相互学習の枠組みに基づき,提案手法は,対象ドメインを単一ソースドメインにペアリングして,条件付き対向ドメイン適応ネットワークを分岐ネットワークとしてトレーニングすると同時に,条件付き対向ドメイン適応ネットワークを誘導ネットワークとしてトレーニングする。 複数の分岐ネットワークを誘導ネットワークにアライメントし、対応する目標データに対する予測確率分布よりもjs分割正規化を強制することにより相互学習を実現する。 複数のマルチソースドメイン適応ベンチマークデータセットについて広範な実験を行った。 その結果,ML-MSDA法は比較手法より優れ,最先端性能が得られた。

Early Unsupervised Domain Adaptation (UDA) methods have mostly assumed the setting of a single source domain, where all the labeled source data come from the same distribution. However, in practice the labeled data can come from multiple source domains with different distributions. In such scenarios, the single source domain adaptation methods can fail due to the existence of domain shifts across different source domains and multi-source domain adaptation methods need to be designed. In this paper, we propose a novel multi-source domain adaptation method, Mutual Learning Network for Multiple Source Domain Adaptation (ML-MSDA). Under the framework of mutual learning, the proposed method pairs the target domain with each single source domain to train a conditional adversarial domain adaptation network as a branch network, while taking the pair of the combined multi-source domain and target domain to train a conditional adversarial adaptive network as the guidance network. The multiple branch networks are aligned with the guidance network to achieve mutual learning by enforcing JS-divergence regularization over their prediction probability distributions on the corresponding target data. We conduct extensive experiments on multiple multi-source domain adaptation benchmark datasets. The results show the proposed ML-MSDA method outperforms the comparison methods and achieves the state-of-the-art performance.
翻訳日:2022-12-18 13:13:18 公開日:2020-03-29
# ストリーミングデータを用いた近接型アクティブラーニング:食事モーメント認識のパーソナライズ

Proximity-Based Active Learning on Streaming Data: A Personalized Eating Moment Recognition ( http://arxiv.org/abs/2003.13098v1 )

ライセンス: Link先を確認
Marjan Nourollahi, Seyed Ali Rokni, Hassan Ghasemzadeh(参考訳) 食事時の検出は、自動食事監視、薬物依存度評価、食事関連健康介入への重要なステップである。 ウェアラブル技術は、時系列センサーデータで動作する機械学習アルゴリズムを活用して食の瞬間を検出することにより、食生活監視ソリューションの設計において中心的な役割を果たす。 行動認識やモーメント検出アルゴリズムの開発には多くの研究がなされているが、一方のユーザがトレーニングしたモデルが新規ユーザによって利用されると、検出アルゴリズムの性能は大幅に低下する。 個人化モデルの開発を容易にするために,新規ユーザによるラベル付きデータの必要性を著しく低減することを目的とした,新しい近接型身振り認識モデルであるストリーミングデータを用いた近接型アクティブラーニングを提案する。 特に,ラベルなしデータを活用し,限定的なクエリ予算下でアクティブラーニングを行うための最適化問題を提案する。 制御された設定と制御されていない設定の両方で収集されたデータから、PLASのFスコアは10から60のクエリで22%から39%の範囲であることを示す。 さらに、最先端のアプローチと比較して、オフラインのpalは平均して40%高いリコールと12対%高いf-scoreを達成している。

Detecting when eating occurs is an essential step toward automatic dietary monitoring, medication adherence assessment, and diet-related health interventions. Wearable technologies play a central role in designing unubtrusive diet monitoring solutions by leveraging machine learning algorithms that work on time-series sensor data to detect eating moments. While much research has been done on developing activity recognition and eating moment detection algorithms, the performance of the detection algorithms drops substantially when the model trained with one user is utilized by a new user. To facilitate development of personalized models, we propose PALS, Proximity-based Active Learning on Streaming data, a novel proximity-based model for recognizing eating gestures with the goal of significantly decreasing the need for labeled data with new users. Particularly, we propose an optimization problem to perform active learning under limited query budget by leveraging unlabeled data. Our extensive analysis on data collected in both controlled and uncontrolled settings indicates that the F-score of PLAS ranges from 22% to 39% for a budget that varies from 10 to 60 query. Furthermore, compared to the state-of-the-art approaches, off-line PALS, on average, achieves to 40% higher recall and 12\% higher f-score in detecting eating gestures.
翻訳日:2022-12-18 13:12:57 公開日:2020-03-29
# フレキシブルな時間分解能を有するmrアンギオグラフィのための教師なし深層学習

Unsupervised Deep Learning for MR Angiography with Flexible Temporal Resolution ( http://arxiv.org/abs/2003.13096v1 )

ライセンス: Link先を確認
Eunju Cha, Hyungjin Chung, Eung Yeop Kim, and Jong Chul Ye(参考訳) 時間分解MRアンギオグラフィー(tMRA)は, 高速取得によるダイナミックコントラスト造影MRI(DCE-MRI)に広く用いられている。 tMRAでは、k空間データの周辺をスパースサンプリングし、隣接するフレームをマージして1つの時間フレームを構築する。 しかし、このビューシェアリング方式は時間分解能を基本的に制限しており、異なる時空間分解能トレードオフを達成するためにビューシェアリング番号を変更することはできない。 スパース標本からのMR再構成には近年,多くの深層学習手法が提案されているが,既存の手法ではtMRAには適さない教師付きトレーニングのために,完全にサンプリングされたk空間参照データにマッチする。 これは、tMRAでは高時空間分解能グラウンドトルース画像が利用できないためである。 そこで本研究では,最適移動駆動型サイクル整合生成逆ネットワーク(cyclegan)を用いた教師なし深層学習を提案する。 2組のジェネレータと判別器を備えた従来のサイクルガンとは対照的に、新しいアーキテクチャでは1組のジェネレータと判別器だけでよいため、トレーニングがずっと簡単になり、パフォーマンスが向上する。 in vivo tmraデータセットを用いた再構成結果から,提案手法は,様々な視点共有数の選択において,即座に高品質な再構成結果を生成することができ,時間分解 mr angiography における空間分解能と時間分解能のトレードオフを良好に活用できることを確認した。

Time-resolved MR angiography (tMRA) has been widely used for dynamic contrast enhanced MRI (DCE-MRI) due to its highly accelerated acquisition. In tMRA, the periphery of the k-space data are sparsely sampled so that neighbouring frames can be merged to construct one temporal frame. However, this view-sharing scheme fundamentally limits the temporal resolution, and it is not possible to change the view-sharing number to achieve different spatio-temporal resolution trade-off. Although many deep learning approaches have been recently proposed for MR reconstruction from sparse samples, the existing approaches usually require matched fully sampled k-space reference data for supervised training, which is not suitable for tMRA. This is because high spatio-temporal resolution ground-truth images are not available for tMRA. To address this problem, here we propose a novel unsupervised deep learning using optimal transport driven cycle-consistent generative adversarial network (cycleGAN). In contrast to the conventional cycleGAN with two pairs of generator and discriminator, the new architecture requires just a single pair of generator and discriminator, which makes the training much simpler and improves the performance. Reconstruction results using in vivo tMRA data set confirm that the proposed method can immediately generate high quality reconstruction results at various choices of view-sharing numbers, allowing us to exploit better trade-off between spatial and temporal resolution in time-resolved MR angiography.
翻訳日:2022-12-18 13:05:03 公開日:2020-03-29
# データ駆動型ニューロモルフィックDRAMベースCNNとRNN加速器

Data-Driven Neuromorphic DRAM-based CNN and RNN Accelerators ( http://arxiv.org/abs/2003.13006v1 )

ライセンス: Link先を確認
Tobi Delbruck, Shih-Chii Liu(参考訳) ハードウェアアクセラレーター上で大きなディープニューラルネットワーク(DNN)を実行することで消費されるエネルギーは、状態と重みの両方を保存するために大量の高速メモリを必要としている。 この大きなメモリは、現在DRAMを介してのみ経済的に利用可能である。 DRAMは高スループットで低コストのメモリ(SRAMより20倍安い)であるが、その長いランダムアクセスレイテンシはスパイキングニューラルネットワーク(SNN)の予測不可能なアクセスパターンにとって悪い。 さらに、DRAMからデータにアクセスするには、そのデータで算術を行うよりも、桁違いのエネルギーがかかる。 ローカルメモリが利用可能でスパイクが少ない場合、SNNはエネルギー効率がよい。 本稿では,SNNと同様の空間的・時間的間隔を生かしながら,SOAスループット,電力効率,遅延を生かし,大規模なDNNの重み付けと状態の保存にDRAMを用いた場合においても,過去5年間にわたる進化を報告する。

The energy consumed by running large deep neural networks (DNNs) on hardware accelerators is dominated by the need for lots of fast memory to store both states and weights. This large required memory is currently only economically viable through DRAM. Although DRAM is high-throughput and low-cost memory (costing 20X less than SRAM), its long random access latency is bad for the unpredictable access patterns in spiking neural networks (SNNs). In addition, accessing data from DRAM costs orders of magnitude more energy than doing arithmetic with that data. SNNs are energy-efficient if local memory is available and few spikes are generated. This paper reports on our developments over the last 5 years of convolutional and recurrent deep neural network hardware accelerators that exploit either spatial or temporal sparsity similar to SNNs but achieve SOA throughput, power efficiency and latency even with the use of DRAM for the required storage of the weights and states of large DNNs.
翻訳日:2022-12-18 13:04:38 公開日:2020-03-29
# 言語モデル条件付けと局所性モデリングに基づく抽象的テキスト要約

Abstractive Text Summarization based on Language Model Conditioning and Locality Modeling ( http://arxiv.org/abs/2003.13027v1 )

ライセンス: Link先を確認
Dmitrii Aksenov and Juli\'an Moreno-Schneider and Peter Bourgonje and Robert Schwarzenberg and Leonhard Hennig and Georg Rehm(参考訳) 我々は,事前学習された言語モデルに関する知識が,抽象的な要約作業にどの程度有用かを探究する。 そこで我々は,BERT言語モデル上でトランスフォーマーベースのニューラルモデルのエンコーダとデコーダの条件付け実験を行った。 さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。 また、局所性モデリング、すなわち局所文脈への計算の明示的な制限がトランスフォーマーの要約能力にどのように影響するかについても検討する。 これはエンコーダの第1層に2次元の畳み込み自己アテンションを導入することで実現される。 我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。 さらに、SwissTextデータセットでモデルをトレーニングして、ドイツ語でのユーザビリティを示しています。 どちらのモデルもROUGEのスコアを2つのデータセットで上回り、手動定性解析においてその優位性を示す。

We explore to what extent knowledge about the pre-trained language model that is used is beneficial for the task of abstractive summarization. To this end, we experiment with conditioning the encoder and decoder of a Transformer-based neural model on the BERT language model. In addition, we propose a new method of BERT-windowing, which allows chunk-wise processing of texts longer than the BERT window size. We also explore how locality modelling, i.e., the explicit restriction of calculations to the local context, can affect the summarization ability of the Transformer. This is done by introducing 2-dimensional convolutional self-attention into the first layers of the encoder. The results of our models are compared to a baseline and the state-of-the-art models on the CNN/Daily Mail dataset. We additionally train our model on the SwissText dataset to demonstrate usability on German. Both models outperform the baseline in ROUGE scores on two datasets and show its superiority in a manual qualitative analysis.
翻訳日:2022-12-18 13:04:03 公開日:2020-03-29
# 英語からewondoへの名前付きエンティティを投影するニューラルネットワーク

Neurals Networks for Projecting Named Entities from English to Ewondo ( http://arxiv.org/abs/2004.13841v1 )

ライセンス: Link先を確認
Michael Franklin Mbouopda, Paulin Melatagia Yonta and Guy Stephane B. Fedim Lombo(参考訳) 名前付きエンティティ認識は自然言語処理において重要なタスクである。 リッチ言語では非常によく研究されているが、低リソース言語ではまだ研究中である。 主な理由は、既存の技術が優れたパフォーマンスを得るために多くの注釈付きデータを必要としたからである。 近年、リッチ言語から低リソース言語へ名前付きエンティティを投影する新しい単語分布表現が提案されている。 この表現は、英語からカメルーンで話されているバントゥー語Ewondoに名前の付いたエンティティを投影するためにニューラルネットワークに結合されている。 提案手法は評価可能な結果に到達したが,使用するニューラルネットワークのサイズはデータセットのサイズに比較して大きすぎることがわかった。 さらに、モデルパラメータの影響は研究されていない。 本稿では,より小さなニューラルネットワークを用いて同じ結果が得られることを実験的に示す。 また,ネットワーク性能と高い相関を持つパラメータについても強調する。 この作業は、低リソース言語で名前付きエンティティプロジェクションのための信頼性と堅牢なネットワークアーキテクチャを構築するための一歩です。

Named entity recognition is an important task in natural language processing. It is very well studied for rich language, but still under explored for low-resource languages. The main reason is that the existing techniques required a lot of annotated data to reach good performance. Recently, a new distributional representation of words has been proposed to project named entities from a rich language to a low-resource one. This representation has been coupled to a neural network in order to project named entities from English to Ewondo, a Bantu language spoken in Cameroon. Although the proposed method reached appreciable results, the size of the used neural network was too large compared to the size of the dataset. Furthermore the impact of the model parameters has not been studied. In this paper, we show experimentally that the same results can be obtained using a smaller neural network. We also emphasize the parameters that are highly correlated to the network performance. This work is a step forward to build a reliable and robust network architecture for named entity projection in low resource languages.
翻訳日:2022-12-18 13:03:29 公開日:2020-03-29
# アラビア文字要約のためのBERTファインチューニング

BERT Fine-tuning For Arabic Text Summarization ( http://arxiv.org/abs/2004.14135v1 )

ライセンス: Link先を確認
Khalid N. Elmadani, Mukhtar Elgezouli, Anas Showk(参考訳) 本稿では,アラビア文字要約のための第1文書化モデルの構築と,そのアラビア文字要約における性能を示すために,この微細チューニング手法をアラビア語言語に適用する方法を紹介する。 我々のモデルは多言語BERTで動作する(アラビア語には独自の事前訓練されたBERTがない)。 抽出タスクと抽象タスクの両方でアラビア語コーパスに適用する前に、まず英語コーパスでそのパフォーマンスを示す。

Fine-tuning a pretrained BERT model is the state of the art method for extractive/abstractive text summarization, in this paper we showcase how this fine-tuning method can be applied to the Arabic language to both construct the first documented model for abstractive Arabic text summarization and show its performance in Arabic extractive summarization. Our model works with multilingual BERT (as Arabic language does not have a pretrained BERT of its own). We show its performance in English corpus first before applying it to Arabic corpora in both extractive and abstractive tasks.
翻訳日:2022-12-18 13:03:13 公開日:2020-03-29