このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200511となっている論文です。

PDF登録状況(公開日: 20200511)

TitleAuthorsAbstract論文公表日・翻訳日
# 連続主義と公正性について

On Consequentialism and Fairness ( http://arxiv.org/abs/2001.00329v2 )

ライセンス: Link先を確認
Dallas Card and Noah A. Smith(参考訳) 機械学習の公平性に関する最近の研究は、主に「公正」な結果を定義し、定量化し、奨励する方法を強調している。 しかし、そのような努力を裏付ける倫理的な基礎にはあまり注意が払われていない。 考慮すべき倫理的視点には、連続主義(consequentialism)があり、大まかに言えば、結果がすべて重要であるという立場である。 コンシークエンシズムは困難から解放されるものではなく、必ずしも(不確実性、主観性、集約の複合的な問題のために)行動を選択するための難解な方法を提供するわけではないが、しかしながら、機械学習の公正性に関する既存の文献を批判する強力な基盤を提供する。 さらに、誰が数えるかの問題、政策の使用の長所と短所、そして遠い未来の相対的な価値など、関係するトレードオフの一部をもたらします。 本稿では,機械学習におけるフェアネスの共通定義に対する帰結主義的批判と,帰結主義に関する機械学習の視点を提案する。 自動意思決定システムの倫理に重要な意味を持つ学習とランダム化の問題に関して、より広範な議論を締めくくっている。

Recent work on fairness in machine learning has primarily emphasized how to define, quantify, and encourage "fair" outcomes. Less attention has been paid, however, to the ethical foundations which underlie such efforts. Among the ethical perspectives that should be taken into consideration is consequentialism, the position that, roughly speaking, outcomes are all that matter. Although consequentialism is not free from difficulties, and although it does not necessarily provide a tractable way of choosing actions (because of the combined problems of uncertainty, subjectivity, and aggregation), it nevertheless provides a powerful foundation from which to critique the existing literature on machine learning fairness. Moreover, it brings to the fore some of the tradeoffs involved, including the problem of who counts, the pros and cons of using a policy, and the relative value of the distant future. In this paper we provide a consequentialist critique of common definitions of fairness within machine learning, as well as a machine learning perspective on consequentialism. We conclude with a broader discussion of the issues of learning and randomization, which have important implications for the ethics of automated decision making systems.
翻訳日:2023-01-16 03:46:53 公開日:2020-05-11
# 通信波長における標準量子限界を破る量子受信機の実験的実証

Experimental demonstration of a quantum receiver beating the standard quantum limit at the telecom wavelength ( http://arxiv.org/abs/2001.05902v2 )

ライセンス: Link先を確認
Shuro Izumi, Jonas S. Neergaard-Nielsen, Shigehito Miki, Hirotaka Terai, Ulrik L. Andersen(参考訳) 標準量子限界(sql)を超えるコヒーレント状態の識別は、量子情報処理だけでなく、光コヒーレント通信においても重要なタスクである。 遠距離光ファイバーネットワークを最適化するためには、SQLを叩き、テレコム波長で量子境界に近づく量子受信器を開発することが実際重要である。 本稿では,従来のSQLをテレコム波長で打ち負かす受信機を実験的に実証する。 ourreceiverは変位演算、単一フォトンカウンタ、リアルタイムアダプティブフィードバック演算で構成されている。 テレコム波長で動作する高性能単一光子検出器を用いることで,SQL以外の識別誤差を実現する。 テレコンバンドにおける実証は、コヒーレントな状態アルファベットを用いたSQL以外の量子および古典的な通信において重要な第一歩であり、この技術が長距離量子鍵分布、効率的な量子状態準備、量子推定に利用できることを想定する。

Discrimination of coherent states beyond the standard quantum limit (SQL) is an important tasknot only for quantum information processing but also for optical coherent communication. In orderto optimize long distance optical fiber networks, it is of practical importance to develop a quantumreceiver beating the SQL and approaching the quantum bound at telecom wavelength. In this paper,we experimentally demonstrate a receiver beating the conventional SQL at telecom wavelength. Ourreceiver is composed of a displacement operation, a single photon counter and a real time adaptivefeedback operation. By using a high performance single photon detector operating at the telecomwavelength, we achieve a discrimination error beyond the SQL. The demonstration in the telecomband provides the first step important towards quantum and classical communication beyond theSQL using a coherent state alphabet, and we envision that the technology can be used for long-distance quantum key distribution, effective quantum state preparation and quantum estimation.
翻訳日:2023-01-11 00:40:02 公開日:2020-05-11
# 共有課題:ドイツ語における語彙意味変化検出(学生プロジェクト報告)

Shared task: Lexical semantic change detection in German (Student Project Report) ( http://arxiv.org/abs/2001.07786v2 )

ライセンス: Link先を確認
Adnan Ahmad, Kiflom Desta, Fabian Lang and Dominik Schlechtweg(参考訳) 最近のnlpアーキテクチャは、時間とドメイン間で意味的変化を捉える方法を様々な方法で示しています。 しかし、評価面では、これらのシステムの性能を互いに比較するベンチマークが欠如している。 本研究は,Schlechtweg et al. (2019) による評価枠組みに基づいて,ドイツ語における非教師なし語彙意味変化検出(LSCD)に関する最初の共有タスクの結果を示す。

Recent NLP architectures have illustrated in various ways how semantic change can be captured across time and domains. However, in terms of evaluation there is a lack of benchmarks to compare the performance of these systems against each other. We present the results of the first shared task on unsupervised lexical semantic change detection (LSCD) in German based on the evaluation framework proposed by Schlechtweg et al. (2019).
翻訳日:2023-01-08 00:00:36 公開日:2020-05-11
# 決定論的関数のガウス過程近似のための最大確率推定と不確実量化

Maximum likelihood estimation and uncertainty quantification for Gaussian process approximation of deterministic functions ( http://arxiv.org/abs/2001.10965v3 )

ライセンス: Link先を確認
Toni Karvonen, George Wynne, Filip Tronarp, Chris J. Oates, Simo S\"arkk\"a(参考訳) ガウス過程回帰モデルの普遍性にもかかわらず、共分散核のパラメータがデータセットから推定される必要があるという事実を考慮した理論的な結果はほとんど得られない。 本稿では、ガウス過程回帰の文脈における最初の理論的分析の1つをノイズレスデータセットで提供する。 具体的には、ソボレフ核(例えばmat\'{e}rn核)のスケールパラメータが最大確率で推定されるシナリオを考える。 本研究は,データ生成関数の滑らかさとモデルが期待する値との差に拘わらず,モデルが最悪の場合には"低い"過信頼になり得るという意味で,スケールパラメータの最大推定がガウス過程モデルの誤特定に対して重要な適応を与えることを示す。 この分析は、非パラメトリック回帰と散乱データ補間による手法の組み合わせに基づいている。 理論的結果を支持する実験結果が提供される。

Despite the ubiquity of the Gaussian process regression model, few theoretical results are available that account for the fact that parameters of the covariance kernel typically need to be estimated from the dataset. This article provides one of the first theoretical analyses in the context of Gaussian process regression with a noiseless dataset. Specifically, we consider the scenario where the scale parameter of a Sobolev kernel (such as a Mat\'{e}rn kernel) is estimated by maximum likelihood. We show that the maximum likelihood estimation of the scale parameter alone provides significant adaptation against misspecification of the Gaussian process model in the sense that the model can become "slowly" overconfident at worst, regardless of the difference between the smoothness of the data-generating function and that expected by the model. The analysis is based on a combination of techniques from nonparametric regression and scattered data interpolation. Empirical results are provided in support of the theoretical findings.
翻訳日:2023-01-05 21:39:46 公開日:2020-05-11
# 動的環境のための多目的単眼スラム

Multi-object Monocular SLAM for Dynamic Environments ( http://arxiv.org/abs/2002.03528v2 )

ライセンス: Link先を確認
Gokul B. Nair, Swapnil Daga, Rahul Sajnani, Anirudha Ramesh, Junaid Ahmed Ansari, Krishna Murthy Jatavallabhula, K. Madhava Krishna(参考訳) 本稿では,モノクロカメラによる多体SLAMの問題に取り組む。 マルチボディという言葉は、カメラの動きと、シーン内の他のダイナミック参加者の動きを追跡することを意味する。 動く単眼カメラから動く物体を曖昧に三角測量することは不可能である。 既存のアプローチは問題の制限された変種を解くが、解は相対スケールの曖昧さに悩まされる(つまり、シーンの各運動に対して無限に多くの解が存在する)。 この難解な問題を、シングルビューのメトロロジー、ディープラーニングの進歩、およびカテゴリレベルの形状推定を利用して解決する。 本稿では,相対的および絶対的スケール係数の曖昧さを解消する多ポーズグラフ最適化法を提案する。 この最適化は、KITTIのような実世界のデータセット上での複数体の軌道における平均誤差を低減するのに役立つ。 我々の知識を最大限に活用するため,本手法はメートル法スケールの統一フレームワークにおいて動的マルチオブジェクトおよびエゴローカライゼーションを行うための,初の実用的モノクロマルチボディslamシステムである。

In this paper, we tackle the problem of multibody SLAM from a monocular camera. The term multibody, implies that we track the motion of the camera, as well as that of other dynamic participants in the scene. The quintessential challenge in dynamic scenes is unobservability: it is not possible to unambiguously triangulate a moving object from a moving monocular camera. Existing approaches solve restricted variants of the problem, but the solutions suffer relative scale ambiguity (i.e., a family of infinitely many solutions exist for each pair of motions in the scene). We solve this rather intractable problem by leveraging single-view metrology, advances in deep learning, and category-level shape estimation. We propose a multi pose-graph optimization formulation, to resolve the relative and absolute scale factor ambiguities involved. This optimization helps us reduce the average error in trajectories of multiple bodies over real-world datasets, such as KITTI. To the best of our knowledge, our method is the first practical monocular multi-body SLAM system to perform dynamic multi-object and ego localization in a unified framework in metric scale.
翻訳日:2023-01-02 09:29:01 公開日:2020-05-11
# sketch less for more: オンザフライのきめ細かなスケッチベースの画像検索

Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval ( http://arxiv.org/abs/2002.10310v4 )

ライセンス: Link先を確認
Ayan Kumar Bhunia, Yongxin Yang, Timothy M. Hospedales, Tao Xiang, Yi-Zhe Song(参考訳) きめ細かいスケッチベースの画像検索(fg-sbir)は、ユーザーの問合せスケッチから特定の写真インスタンスを取得する問題に対処する。 しかし、その適用性はスケッチを描くのに時間がかかり、ほとんどの人が完全で忠実なスケッチを描くのに苦労しているという事実によって妨げられている。 本稿では,これらの課題に取り組むために従来のfg-sbirフレームワークを再構成し,最小のストローク数でターゲット写真を取得することを最終的な目標とした。 さらに,ユーザが描画を開始するとすぐに検索を開始するオンザフライデザインを提案する。 そこで本研究では,全スケッチ描画エピソードにおいて,地軸写真のランクを直接最適化する強化学習に基づくクロスモーダル検索フレームワークを提案する。 さらに,無関係なスケッチストロークに関連する問題を回避し,検索中により一貫したランクリストを提供する新たな報奨スキームを導入する。 2つの公開きめ細かなスケッチ検索データセットにおいて,最先端手法や代替ベースラインよりも優れた早期リトライ効率を実現する。

Fine-grained sketch-based image retrieval (FG-SBIR) addresses the problem of retrieving a particular photo instance given a user's query sketch. Its widespread applicability is however hindered by the fact that drawing a sketch takes time, and most people struggle to draw a complete and faithful sketch. In this paper, we reformulate the conventional FG-SBIR framework to tackle these challenges, with the ultimate goal of retrieving the target photo with the least number of strokes possible. We further propose an on-the-fly design that starts retrieving as soon as the user starts drawing. To accomplish this, we devise a reinforcement learning-based cross-modal retrieval framework that directly optimizes rank of the ground-truth photo over a complete sketch drawing episode. Additionally, we introduce a novel reward scheme that circumvents the problems related to irrelevant sketch strokes, and thus provides us with a more consistent rank list during the retrieval. We achieve superior early-retrieval efficiency over state-of-the-art methods and alternative baselines on two publicly available fine-grained sketch retrieval datasets.
翻訳日:2022-12-29 04:16:01 公開日:2020-05-11
# 連合学習におけるラベルなしデータ活用に向けて--調査と展望

Towards Utilizing Unlabeled Data in Federated Learning: A Survey and Prospective ( http://arxiv.org/abs/2002.11545v2 )

ライセンス: Link先を確認
Yilun Jin, Xiguang Wei, Yang Liu, Qiang Yang(参考訳) 近年提案されたフェデレートラーニング(FL)は、データソースを分離し、コラボレーティブでプライベートな方法で機械学習モデルを構築することができるという点で、研究者から大きな注目を集めている。 しかし、キーボード予測のようなflのほとんどのアプリケーションでは、データラベリングは事実上追加の労力を必要とせず、一般的にはそうではない。 実際には、大規模なラベル付きデータセットの取得は非常にコストがかかり、ラベル付きデータを利用して機械学習モデルを構築する研究が動機となる。 しかし、私たちの知る限りでは、ラベルのないデータを活用して連合学習を強化する研究はほとんどなく、潜在的に有望な研究トピックを残している。 本稿では,flにおけるラベルなしデータの利用の必要性を特定し,その目的に寄与する可能性のある研究分野を調査した。

Federated Learning (FL) proposed in recent years has received significant attention from researchers in that it can bring separate data sources together and build machine learning models in a collaborative but private manner. Yet, in most applications of FL, such as keyboard prediction, labeling data requires virtually no additional efforts, which is not generally the case. In reality, acquiring large-scale labeled datasets can be extremely costly, which motivates research works that exploit unlabeled data to help build machine learning models. However, to the best of our knowledge, few existing works aim to utilize unlabeled data to enhance federated learning, which leaves a potentially promising research topic. In this paper, we identify the need to exploit unlabeled data in FL, and survey possible research fields that can contribute to the goal.
翻訳日:2022-12-28 14:14:51 公開日:2020-05-11
# デジタル時代の倫理

Ethics in the digital era ( http://arxiv.org/abs/2003.06530v3 )

ライセンス: Link先を確認
David Pastor-Escuredo(参考訳) 倫理は、文明の起源から人類にとっての古代の物質であり、倫理は最も関連する人間の関心や決定的な文化と関係している。 倫理は最初、宗教、政治、哲学に関連付けられ、その後特定の実践コミュニティに分断された。 人工知能とデータによって実現されるデジタル革命は、これらの技術の社会的応用に倫理的な邪悪な問題をもたらしている。 しかし、より広い視点も必要である。 現在では、グループや個人、特に最も脆弱な人々に影響を与える、グローバルで高いダイナミクスの課題に直面しています。 個人指向の倫理はもはや不十分であり、新しい倫理学は、現在の複雑な社会が組織されるいくつかの尺度と、異なるシステム間の相互接続を考慮する必要がある。 倫理はまた、外部要因や脅威によって生じる行動の体系的な変化に応答するべきである。 さらに、aiとデジタル技術はグローバルであり、よりコネクテッドでスマートだが、より均質で予測可能で、最終的には制御可能である。 倫理学は個人の権利と個性、文化的多様性を保存し維持する立場を採らなければならない。 デジタル技術は社会の新しいモデルの基礎となり、倫理的個人的価値と集団的価値の確保に役立つ。 これらの理由から、科学は複雑な世界を理解するのに役立つので、新しい倫理の中核である必要がある。 最後に、AIは物質を人間化するという野望を通じて進歩してきたので、我々は倫理が機械の将来の状態と人間との相互作用に反応することを期待する。

Ethics is an ancient matter for human kind, from the origin of civilizations ethics have been related with the most relevant human concerns and determined cultures. Ethics was initially related to religion, politics and philosophy to then be fragmented into specific communities of practice. The undergoing digital revolution enabled by Artificial Intelligence and Data are bringing ethical wicked problems in the social application of these technologies. However, a broader perspective is also necessary. We now face global and highly dynamics challenges that affect groups and individuals, specially those that are most vulnerable. Individual-oriented ethics are no longer sufficient, the new ethic has to consider the several scales in which the current complex society is organized and the interconnections between different systems. Ethics should also give a response to the systemic changes in behavior produced by external factors and threats. Furthermore, AI and digital technologies are global and make us more connected and smart but also more homogeneous, predictable and ultimately controllable. Ethic must take a stand to preserve and keep promoting individuals rights and uniqueness and cultural heterogeneity. Digital technologies have to the foundation for new models of society and help ensure ethical individual and collective values. For these reasons science has to be at the core of the new ethic as it helps understand the complex world. Finally, AI has advanced through the ambition to humanize matter, so we should expect ethics to give a response to the future status of machines and their interactions with humans.
翻訳日:2022-12-23 20:30:20 公開日:2020-05-11
# マルチタスク学習による単一画像デレイニング

Multi-Task Learning Enhanced Single Image De-Raining ( http://arxiv.org/abs/2003.09689v2 )

ライセンス: Link先を確認
Yulong Fan, Rong Chen, Bo Li(参考訳) 画像の降雨除去はコンピュータビジョンにおいて重要な課題であり、より多くの人々の注目を集めている。 本稿では,1枚の画像からレインストリークの視覚効果を除去する非自明な問題に対処する。 本手法は,既存の作業と異なり,降雨除去のためのマルチタスク回帰モデルにおいて,様々な意味制約タスクを組み合わせる。 これらのタスクは、それぞれコンテンツ、エッジ認識、およびローカルテクスチャ類似性からモデルの能力を補強する。 マルチタスク学習の性能向上のために,2つの単純だが強力な動的重み付けアルゴリズムを提案する。 提案するマルチタスク拡張ネットワーク(MENET)は,雨量除去のためのU-Netに基づく強力な畳み込みニューラルネットワークである。 また,適応重み付け方式によりネットワーク性能が向上したことも注目に値する。 人工降雨画像および実雨画像に関する実験を複数実施し, 雨の除去性能をsof-the-art (sota) 法で達成した。 本手法の全体的な効果は, 豪雨と豪雨の蓄積を分解しても印象的であり, ソースコードといくつかの結果はhttps://github.com/SumiHui/MENET.comで確認できる。

Rain removal in images is an important task in computer vision filed and attracting attentions of more and more people. In this paper, we address a non-trivial issue of removing visual effect of rain streak from a single image. Differing from existing work, our method combines various semantic constraint task in a proposed multi-task regression model for rain removal. These tasks reinforce the model's capabilities from the content, edge-aware, and local texture similarity respectively. To further improve the performance of multi-task learning, we also present two simple but powerful dynamic weighting algorithms. The proposed multi-task enhanced network (MENET) is a powerful convolutional neural network based on U-Net for rain removal research, with a specific focus on utilize multiple tasks constraints and exploit the synergy among them to facilitate the model's rain removal capacity. It is noteworthy that the adaptive weighting scheme has further resulted in improved network capability. We conduct several experiments on synthetic and real rain images, and achieve superior rain removal performance over several selected state-of-the-art (SOTA) approaches. The overall effect of our method is impressive, even in the decomposition of heavy rain and rain streak accumulation.The source code and some results can be found at:https://github.com/SumiHui/MENET.
翻訳日:2022-12-21 13:15:54 公開日:2020-05-11
# COVID-Net:胸部X線画像から新型コロナウイルスの症例を検出するためのニューラルネットワーク設計

COVID-Net: A Tailored Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest X-Ray Images ( http://arxiv.org/abs/2003.09871v4 )

ライセンス: Link先を確認
Linda Wang and Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界の人々の健康と幸福に打撃を与え続けている。 新型コロナウイルスとの戦いにおける重要なステップは、感染した患者の効果的なスクリーニングであり、重要なスクリーニング手法の1つは、胸部X線撮影を用いた放射線検査である。 そこで本研究では,研究コミュニティのオープンソース活動に触発され,オープンソースの胸部x線(cxr)画像から新型コロナウイルスの症例を検出するための深層畳み込みニューラルネットワークであるcovid-19-netについて紹介する。 著者たちの知る限りでは、COVID-Netは、最初のリリース時にCXRイメージからCOVID-19を検出するための、最初のオープンソースネットワーク設計の1つである。 また,13,870人の患者を対象に,13,975個のcxr画像から作成したオープンアクセスベンチマークデータセットであるcovid-19も紹介した。 さらに、CXR画像からの関連情報に基づいて意思決定を行っていることを検証するために、新型コロナウイルスの検査の改善に役立てるだけでなく、CXR画像から決定を下すための責任と透明性の面から、COVID-Netがいかにして説明可能性法による予測を行うかを検討する。 必ずしもプロダクション対応のソリューションではないので、オープンアクセスのCOVID-Netと、オープンソースのCOVIDxデータセットの構築の説明は、研究者と市民データサイエンティストの両方が利用して構築し、新型コロナウイルスの患者を検出し、最も必要とする人の治療を加速する、高度に正確かつ実用的なディープラーニングソリューションの開発を加速することを期待している。

The COVID-19 pandemic continues to have a devastating effect on the health and well-being of the global population. A critical step in the fight against COVID-19 is effective screening of infected patients, with one of the key screening approaches being radiology examination using chest radiography. Motivated by this and inspired by the open source efforts of the research community, in this study we introduce COVID-Net, a deep convolutional neural network design tailored for the detection of COVID-19 cases from chest X-ray (CXR) images that is open source and available to the general public. To the best of the authors' knowledge, COVID-Net is one of the first open source network designs for COVID-19 detection from CXR images at the time of initial release. We also introduce COVIDx, an open access benchmark dataset that we generated comprising of 13,975 CXR images across 13,870 patient patient cases, with the largest number of publicly available COVID-19 positive cases to the best of the authors' knowledge. Furthermore, we investigate how COVID-Net makes predictions using an explainability method in an attempt to not only gain deeper insights into critical factors associated with COVID cases, which can aid clinicians in improved screening, but also audit COVID-Net in a responsible and transparent manner to validate that it is making decisions based on relevant information from the CXR images. By no means a production-ready solution, the hope is that the open access COVID-Net, along with the description on constructing the open source COVIDx dataset, will be leveraged and build upon by both researchers and citizen data scientists alike to accelerate the development of highly accurate yet practical deep learning solutions for detecting COVID-19 cases and accelerate treatment of those who need it the most.
翻訳日:2022-12-21 05:34:39 公開日:2020-05-11
# 有意物体検出のための注意に基づく補助励起

Attention-based Assisted Excitation for Salient Object Detection ( http://arxiv.org/abs/2003.14194v2 )

ライセンス: Link先を確認
Saeed Masoudnia, Melika Kheirieh, Abdol-Hossein Vahabie, Babak Nadjar Araabi(参考訳) 様々な応用における畳み込みニューラルネットワーク(cnns)の視覚的な注目は大きな進歩をもたらす。 本稿では,人間の視覚野における物体に基づく注意を刺激し,CNNの特徴マップにアクティベーション変更のメカニズムを導入する。 このメカニズムでは、オブジェクトの位置のアクティベーションはフィーチャーマップで興奮しています。 このメカニズムは特に脳のオブジェクトベースの注意における注意に基づく利得変調にインスパイアされている。 視覚野における図形の分離を促進する。 脳と同じように、私たちはこのアイデアを使って、簡潔な境界を持つ背景から分離しながら物体の内部部分を集めるという、サルエントな物体検出における2つの課題に対処しています。 我々は、AlexNet、VGG、ResNetといったエンコーダ部分の異なるアーキテクチャを用いて、U-netモデルにおけるオブジェクトベースの注意を実装する。 提案手法はhku-is,msrb,pascal-sの3つのベンチマークデータセットで検討した。 実験結果から,本手法は平均絶対誤差とF測定の点で有意に改善できることがわかった。 また,提案手法は境界だけでなく物体内部も捉えることができることを示した。 したがって、上記の課題に取り組むことができる。

Visual attention brings significant progress for Convolution Neural Networks (CNNs) in various applications. In this paper, object-based attention in human visual cortex inspires us to introduce a mechanism for modification of activations in feature maps of CNNs. In this mechanism, the activations of object locations are excited in feature maps. This mechanism is specifically inspired by attention-based gain modulation in object-based attention in brain. It facilitates figure-ground segregation in the visual cortex. Similar to brain, we use the idea to address two challenges in salient object detection: gathering object interior parts while segregation from background with concise boundaries. We implement the object-based attention in the U-net model using different architectures in the encoder parts, including AlexNet, VGG, and ResNet. The proposed method was examined on three benchmark datasets: HKU-IS, MSRB, and PASCAL-S. Experimental results showed that our inspired method could significantly improve the results in terms of mean absolute error and F-measure. The results also showed that our proposed method better captured not only the boundary but also the object interior. Thus, it can tackle the mentioned challenges.
翻訳日:2022-12-18 01:23:42 公開日:2020-05-11
# ニューラルネットワークのフッドの下で:機能的ニューロン集団とネットワークアブレーションによる学習表現のキャラクタリゼーション

Under the Hood of Neural Networks: Characterizing Learned Representations by Functional Neuron Populations and Network Ablations ( http://arxiv.org/abs/2004.01254v2 )

ライセンス: Link先を確認
Richard Meyes, Constantin Waubert de Puiseau, Andres Posada-Moreno, Tobias Meisen(参考訳) 人工知能ネットワークにおける意思決定プロセスの透明性向上の必要性は、自律運転や医療診断といった安全性に批判的かつ倫理的に困難な領域における彼らの応用によって、着実に増大している。 今日のニューラルネットワークの透明性の欠如に対処し、学習タスクを遂行するネットワーク内の単一ニューロンとニューロンのグループの役割に光を当てています。 神経科学の分野での研究に触発され、活性化パターンとネットワークアブレーションによって学習された表現を特徴付け、機能的ニューロン集団を明らかにする。 a) 特定の刺激に応答して共同で行動すること b) アブレーション後のネットワークのパフォーマンスに同様の影響がある。 ニューロンの大きさやアクティベーションの選択性、ネットワーク性能への影響は、全体のタスクにおいてその重要性を示すのに十分な指標ではないことがわかりました。 このような指標は、転校学習と現代神経科学の今後の進歩に不可欠である。

The need for more transparency of the decision-making processes in artificial neural networks steadily increases driven by their applications in safety critical and ethically challenging domains such as autonomous driving or medical diagnostics. We address today's lack of transparency of neural networks and shed light on the roles of single neurons and groups of neurons within the network fulfilling a learned task. Inspired by research in the field of neuroscience, we characterize the learned representations by activation patterns and network ablations, revealing functional neuron populations that a) act jointly in response to specific stimuli or b) have similar impact on the network's performance after being ablated. We find that neither a neuron's magnitude or selectivity of activation, nor its impact on network performance are sufficient stand-alone indicators for its importance for the overall task. We argue that such indicators are essential for future advances in transfer learning and modern neuroscience.
翻訳日:2022-12-17 09:38:04 公開日:2020-05-11
# オーバーフィッティング制御によるオフラインWI手書き署名検証におけるBPSOに基づく特徴選択の改善

Improving BPSO-based feature selection applied to offline WI handwritten signature verification through overfitting control ( http://arxiv.org/abs/2004.03373v2 )

ライセンス: Link先を確認
Victor L. F. Souza, Adriano L. I. Oliveira, Rafael M. O. Cruz, Robert Sabourin(参考訳) 本稿では,2値粒子群最適化(BPSO)を用いて手書き署名検証(HSV)の文脈で特徴選択を行う際の過度適合の有無について検討する。 SigNetは、HSVコンテキストにおける特徴表現のためのDeep CNNモデルのステートであり、2048次元を含んでいる。 これらの次元のいくつかは、ライター非依存(WI)アプローチで使用される二分法変換(DT)によって生成される相似性表現空間における冗長情報を含むことができる。 解析はgpds-960データセット上で行われる。 提案手法は,最も識別的な表現の探索中に過剰フィッティングを制御できることを実証する。

This paper investigates the presence of overfitting when using Binary Particle Swarm Optimization (BPSO) to perform the feature selection in a context of Handwritten Signature Verification (HSV). SigNet is a state of the art Deep CNN model for feature representation in the HSV context and contains 2048 dimensions. Some of these dimensions may include redundant information in the dissimilarity representation space generated by the dichotomy transformation (DT) used by the writer-independent (WI) approach. The analysis is carried out on the GPDS-960 dataset. Experiments demonstrate that the proposed method is able to control overfitting during the search for the most discriminant representation.
翻訳日:2022-12-15 23:11:58 公開日:2020-05-11
# ビデオにおける人物再同定のための時空間相互作用ネットワーク

Co-Saliency Spatio-Temporal Interaction Network for Person Re-Identification in Videos ( http://arxiv.org/abs/2004.04979v2 )

ライセンス: Link先を確認
Jiawei Liu, Zheng-Jun Zha, Xierong Zhu, Na Jiang(参考訳) 人物再識別は、重複しないカメラネットワークで特定の歩行者を特定することを目的としている。 近年,複数のフレームから特徴を学習することで画像ベースのアプローチを拡大し,映像ベースの再同定手法が注目されている。 そこで本研究では,ビデオにおける人物再同定のための新しいコサリエンシー時空間インタラクションネットワーク(cstnet)を提案する。 映像のフレーム間で共通の突出したフォアグラウンド領域をキャプチャし、その領域から空間的-時間的長距離コンテキスト相互依存を探索し、識別的な歩行者表現を学ぶ。 具体的には、CSTNet内の複数の共存学習モジュールは、ビデオフレーム間の相関情報を利用してタスク関連領域から有能な特徴を抽出し、背景干渉を抑制するように設計されている。 さらに,CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用して特徴表現を強化する。 提案手法の有効性を2つのベンチマークで検証した。

Person re-identification aims at identifying a certain pedestrian across non-overlapping camera networks. Video-based re-identification approaches have gained significant attention recently, expanding image-based approaches by learning features from multiple frames. In this work, we propose a novel Co-Saliency Spatio-Temporal Interaction Network (CSTNet) for person re-identification in videos. It captures the common salient foreground regions among video frames and explores the spatial-temporal long-range context interdependency from such regions, towards learning discriminative pedestrian representation. Specifically, multiple co-saliency learning modules within CSTNet are designed to utilize the correlated information across video frames to extract the salient features from the task-relevant regions and suppress background interference. Moreover, multiple spatialtemporal interaction modules within CSTNet are proposed, which exploit the spatial and temporal long-range context interdependencies on such features and spatial-temporal information correlation, to enhance feature representation. Extensive experiments on two benchmarks have demonstrated the effectiveness of the proposed method.
翻訳日:2022-12-14 20:45:03 公開日:2020-05-11
# 多様な希少疾患の死亡予測のための類似課題への適応によるマルチタスク学習

Multi-task Learning via Adaptation to Similar Tasks for Mortality Prediction of Diverse Rare Diseases ( http://arxiv.org/abs/2004.05318v2 )

ライセンス: Link先を確認
Luchen Liu, Zequn Liu, Haoxian Wu, Zichang Wang, Jianhao Shen, Yiping Song, and Ming Zhang(参考訳) 電子健康記録(EHR)データを用いた多様な希少疾患の死亡予測は、知的医療にとって重要な課題である。 しかし、データ不足とまれな疾患の臨床的多様性により、個々の疾患データや異なる疾患のデータに基づいてディープラーニングモデルを直接訓練することは困難である。 異なる疾患を持つ患者に対する死亡予測は、データ不足とタスク数が大きいマルチタスク学習問題と見なすことができる。 しかし、トレーニングデータが少ないタスクは、マルチタスク学習モデルにおけるタスク固有のモジュールのトレーニングを難しくする。 データ不足とタスク多様性の課題に対処するために,動的に測定された類似タスクへの高速適応のためのパラメータ初期化を学習する,初期化共有マルチタスク学習法(Ada-Sit)を提案する。 我々はAda-Sitを用いて長期記憶ネットワーク(LSTM)に基づく長手EHRデータに基づく予測モデルを訓練する。 実験の結果,本モデルが多様なまれな疾患の死亡予測に有効であることが示された。

Mortality prediction of diverse rare diseases using electronic health record (EHR) data is a crucial task for intelligent healthcare. However, data insufficiency and the clinical diversity of rare diseases make it hard for directly training deep learning models on individual disease data or all the data from different diseases. Mortality prediction for these patients with different diseases can be viewed as a multi-task learning problem with insufficient data and large task number. But the tasks with little training data also make it hard to train task-specific modules in multi-task learning models. To address the challenges of data insufficiency and task diversity, we propose an initialization-sharing multi-task learning method (Ada-Sit) which learns the parameter initialization for fast adaptation to dynamically measured similar tasks. We use Ada-Sit to train long short-term memory networks (LSTM) based prediction models on longitudinal EHR data. And experimental results demonstrate that the proposed model is effective for mortality prediction of diverse rare diseases.
翻訳日:2022-12-14 10:07:59 公開日:2020-05-11
# 新型コロナウイルス対策のためのオープンデータリソース

Open Data Resources for Fighting COVID-19 ( http://arxiv.org/abs/2004.06111v3 )

ライセンス: Link先を確認
Teodoro Alamo and Daniel G. Reina and Martina Mammarella and Alberto Abella(参考訳) 我々は、Covid-19パンデミックの拡散とそのコントロールに関する研究に関連するオープンなデータリソースについての洞察を提供する。 我々は,季節的行動,地域死亡率,行政措置の有効性などの基本的な側面を分析するために必要な変数を同定する。 オープンデータリソースは、データ駆動の方法論とともに、ウイルスに対する異なる管理の応答を改善する多くの機会を提供する。 オープン・データ・リソースのほとんどで遭遇する現在の制限と困難について述べる。 主要なオープンデータポータルやリソースへのアクセスを容易にするため、世界規模で最も関連性の高い機関を特定し、Covid-19情報および/または補助変数(デコグラフ、モビリティなど)を提供する。 また、中国、イタリア、スペイン、フランス、ドイツ、米国など、全国レベルでCovid-19データセットにアクセスするためのオープンリソースについても記述する。 新型コロナウイルス(covid-19)の季節的行動研究への迅速な対応を促進するため、気象や気候変数の観点から主要なオープンリソースを列挙した。 CONCO-Team: この論文の著者はControl Covid-19 Teamに属しており、スペイン、イタリア、フランス、ドイツ、イギリス、アルゼンチンの各大学のさまざまな研究から成り立っている。 CONCO-Teamの主な目標は、パンデミックの理解とコントロールを改善するために、データ駆動手法を開発することです。

We provide an insight into the open data resources pertinent to the study of the spread of Covid-19 pandemic and its control. We identify the variables required to analyze fundamental aspects like seasonal behaviour, regional mortality rates, and effectiveness of government measures. Open data resources, along with data-driven methodologies, provide many opportunities to improve the response of the different administrations to the virus. We describe the present limitations and difficulties encountered in most of the open-data resources. To facilitate the access to the main open-data portals and resources, we identify the most relevant institutions, at a world scale, providing Covid-19 information and/or auxiliary variables (demographics, mobility, etc.). We also describe several open resources to access Covid-19 data-sets at a country-wide level (i.e. China, Italy, Spain, France, Germany, U.S., etc.). In an attempt to facilitate the rapid response to the study of the seasonal behaviour of Covid-19, we enumerate the main open resources in terms of weather and climate variables. CONCO-Team: The authors of this paper belong to the CONtrol COvid-19 Team, which is composed of different researches from universities of Spain, Italy, France, Germany, United Kingdom and Argentina. The main goal of CONCO-Team is to develop data-driven methods for the better understanding and control of the pandemic.
翻訳日:2022-12-14 00:18:50 公開日:2020-05-11
# DIET:対話システムのための軽量言語理解

DIET: Lightweight Language Understanding for Dialogue Systems ( http://arxiv.org/abs/2004.09936v3 )

ライセンス: Link先を確認
Tanja Bunk, Daksh Varshneya, Vladimir Vlasov, Alan Nichol(参考訳) 大規模な事前学習言語モデルは、GLUEやSuperGLUEのような言語理解ベンチマークで印象的な結果を示し、分散表現(GloVe)や純粋に教師付きアプローチのような他の事前学習方法よりも大幅に改善されている。 本稿では,2つの共通対話言語理解課題であるインテントとエンティティトランスフォーマ(diet)アーキテクチャを紹介し,インテントとエンティティ予測に対する異なる事前学習表現の有効性について検討する。 DIETは複雑なマルチドメインのNLUデータセット上で技術の現状を前進させ、他の単純なデータセット上でも同様に高いパフォーマンスを達成する。 意外なことに、このタスクに大規模な事前学習モデルを使用することには明確なメリットはなく、実際にDIETは、事前学習した埋め込みを伴わずに、純粋に管理された設定でも、最先端の技術を改良する。 私たちの最高のパフォーマンスモデルは、微調整のBERTよりも優れており、トレーニングの約6倍高速です。

Large-scale pre-trained language models have shown impressive results on language understanding benchmarks like GLUE and SuperGLUE, improving considerably over other pre-training methods like distributed representations (GloVe) and purely supervised approaches. We introduce the Dual Intent and Entity Transformer (DIET) architecture, and study the effectiveness of different pre-trained representations on intent and entity prediction, two common dialogue language understanding tasks. DIET advances the state of the art on a complex multi-domain NLU dataset and achieves similarly high performance on other simpler datasets. Surprisingly, we show that there is no clear benefit to using large pre-trained models for this task, and in fact DIET improves upon the current state of the art even in a purely supervised setup without any pre-trained embeddings. Our best performing model outperforms fine-tuning BERT and is about six times faster to train.
翻訳日:2022-12-11 06:46:48 公開日:2020-05-11
# Raccoons vs Demons:マルチクラスラベル付きP300データセット

Raccoons vs Demons: multiclass labeled P300 dataset ( http://arxiv.org/abs/2005.02251v2 )

ライセンス: Link先を確認
V. Goncharenko, R. Grigoryan, A. Samokhina(参考訳) バーチャルリアリティ(VR)ゲームRaccoons vs Demons(RvD)で実行される視覚的P300 BCIのデータセットを公開します。 データには、各刺激予測段階でモデルの信頼度を推定できるように選択された刺激に関する情報が組み込まれている。 データと実験コードはhttps://gitlab.com/impulse-neiry_public/raccoons-vs-demonsで利用可能である。

We publish dataset of visual P300 BCI performed in Virtual Reality (VR) game Raccoons versus Demons (RvD). Data contains reach labels incorporating information about stimulus chosen enabling us to estimate model's confidence at each stimulus prediction stage. Data and experiments code are available at https://gitlab.com/impulse-neiry_public/raccoons-vs-demons
翻訳日:2022-12-10 17:55:27 公開日:2020-05-11
# シーケンス生成のための非自己回帰モデルに関する研究

A Study of Non-autoregressive Model for Sequence Generation ( http://arxiv.org/abs/2004.10454v2 )

ライセンス: Link先を確認
Yi Ren, Jinglin Liu, Xu Tan, Zhou Zhao, Sheng Zhao, Tie-Yan Liu(参考訳) 非自己回帰型(nar)モデルでは、シーケンスのすべてのトークンを並列に生成し、自己回帰型(ar)モデルよりも高速な生成速度を実現するが、精度は低い。 ニューラルネットワーク翻訳(NMT)、自動音声認識(ASR)、テキスト・トゥ・スピーチ(TTS)といった様々なタスクにおいて、知識蒸留やソース・ターゲットアライメントなどの異なる手法がARとNARモデルのギャップを埋めるために提案されている。 これらの技術によって、NARモデルはいくつかのタスクにおいてARモデルの精度に追いつくことができるが、他のタスクでは追いつくことができない。 本研究では、NARシーケンス生成の難しさを理解するために研究を行い、(1) NARモデルがタスクにおいてARモデルに追いつくことができるのはなぜか? 2)なぜ知識蒸留やソースターゲットアライメントといった技術がNARモデルに役立つのか。 ARモデルとNARモデルの主な違いは、ARモデルがターゲットトークン間の依存性を使用しないことだが、直感的には、NARシーケンス生成の難しさはターゲットトークン間の依存性の強みに大きく依存する。 このような依存関係を定量化するために,異なるNARシーケンス生成タスクの難しさを特徴付けるために,CoMMAと呼ばれる解析モデルを提案する。 興味深い発見がいくつかあります 1) NMT, ASR, TTSタスクのうち, ASRが最もターゲットに依存するが, TTSは最小である。 2) 知識蒸留は, 目標系列の目標値依存性を減少させ, narモデルの精度を向上させる。 3) ソースターゲットアライメント制約は,ソーストークンへのターゲットトークンの依存性を促進し,NARモデルのトレーニングを容易にする。

Non-autoregressive (NAR) models generate all the tokens of a sequence in parallel, resulting in faster generation speed compared to their autoregressive (AR) counterparts but at the cost of lower accuracy. Different techniques including knowledge distillation and source-target alignment have been proposed to bridge the gap between AR and NAR models in various tasks such as neural machine translation (NMT), automatic speech recognition (ASR), and text to speech (TTS). With the help of those techniques, NAR models can catch up with the accuracy of AR models in some tasks but not in some others. In this work, we conduct a study to understand the difficulty of NAR sequence generation and try to answer: (1) Why NAR models can catch up with AR models in some tasks but not all? (2) Why techniques like knowledge distillation and source-target alignment can help NAR models. Since the main difference between AR and NAR models is that NAR models do not use dependency among target tokens while AR models do, intuitively the difficulty of NAR sequence generation heavily depends on the strongness of dependency among target tokens. To quantify such dependency, we propose an analysis model called CoMMA to characterize the difficulty of different NAR sequence generation tasks. We have several interesting findings: 1) Among the NMT, ASR and TTS tasks, ASR has the most target-token dependency while TTS has the least. 2) Knowledge distillation reduces the target-token dependency in target sequence and thus improves the accuracy of NAR models. 3) Source-target alignment constraint encourages dependency of a target token on source tokens and thus eases the training of NAR models.
翻訳日:2022-12-10 17:39:34 公開日:2020-05-11
# シングルナイトデータによるパーソナライズされた自動睡眠停止:KL-divergence Regularizationによるパイロット研究

Personalized Automatic Sleep Staging with Single-Night Data: a Pilot Study with KL-Divergence Regularization ( http://arxiv.org/abs/2004.11349v2 )

ライセンス: Link先を確認
Huy Phan, Kaare Mikkelsen, Oliver Y. Ch\'en, Philipp Koch, Alfred Mertins, Preben Kidmose, Maarten De Vos(参考訳) 脳波は人によって異なる。 縦断睡眠モニタリングのための自動睡眠ステージングを改善する明確な方法は、初夜のデータから抽出された個々の特性に基づくアルゴリズムのパーソナライズである。 睡眠ステージングモデルのトレーニングには,1晩のデータは極めて少ないため,この問題に対処するためにkullback-leibler (kl) divergence regularized transfer learningアプローチを提案する。 トレーニング済みのSeqSleepNet(即ち、対象独立モデル)を出発点として、一晩のパーソナライズデータを用いて微調整し、パーソナライズされたモデルを導出する。 これは、被写体独立モデルの出力とパーソナライズされたモデルの出力とを微調整中に損失関数にKL分散させることによって行われる。 事実上、kl-divergence正規化は、パーソナライズされたモデルを単夜のデータに過度に適合させ、主題独立モデルから遠ざかることを防ぐ。 被験者75名によるsleep-edf拡張データベースを用いた実験の結果,提案するkl-divergence正規化により,単夜データによる睡眠ステージのパーソナライズが可能であった。 平均すると、パーソナライズされた睡眠ステージングの精度は79.6%、コーエンのkappa 0.706、マクロf1-score 73.0%、感度71.8%、特異度94.2%である。 このアプローチは過剰フィッティングに対して頑健であり、非パーソナライゼーションと比較して4.5ポイント、正規化なしのパーソナライゼーションよりも2.2ポイント精度が向上する。

Brain waves vary between people. An obvious way to improve automatic sleep staging for longitudinal sleep monitoring is personalization of algorithms based on individual characteristics extracted from the first night of data. As a single night is a very small amount of data to train a sleep staging model, we propose a Kullback-Leibler (KL) divergence regularized transfer learning approach to address this problem. We employ the pretrained SeqSleepNet (i.e. the subject independent model) as a starting point and finetune it with the single-night personalization data to derive the personalized model. This is done by adding the KL divergence between the output of the subject independent model and the output of the personalized model to the loss function during finetuning. In effect, KL-divergence regularization prevents the personalized model from overfitting to the single-night data and straying too far away from the subject independent model. Experimental results on the Sleep-EDF Expanded database with 75 subjects show that sleep staging personalization with a single-night data is possible with help of the proposed KL-divergence regularization. On average, we achieve a personalized sleep staging accuracy of 79.6%, a Cohen's kappa of 0.706, a macro F1-score of 73.0%, a sensitivity of 71.8%, and a specificity of 94.2%. We find both that the approach is robust against overfitting and that it improves the accuracy by 4.5 percentage points compared to non-personalization and 2.2 percentage points compared to personalization without regularization.
翻訳日:2022-12-10 09:10:19 公開日:2020-05-11
# ニューラルマシン翻訳のための多スケール協調深層モデル

Multiscale Collaborative Deep Models for Neural Machine Translation ( http://arxiv.org/abs/2004.14021v3 )

ライセンス: Link先を確認
Xiangpeng Wei, Heng Yu, Yue Hu, Yue Zhang, Rongxiang Weng, Weihua Luo(参考訳) 最近のエビデンスは、より深いニューラルネットワークを持つニューラルマシン翻訳(nmt)モデルはより効果的であるが、訓練が困難であることを示している。 本稿では,従来よりもはるかに深いNMTモデルのトレーニングを容易にするため,MultiScale Collaborative (MSC) フレームワークを提案する。 我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。 そこで,各エンコーダブロックは,エンコーダスタック全体を直接,所望の表現を学習させる代わりに,よりきめ細かな表現を学習させ,コンテキストスケールの協調を用いて空間的依存関係を符号化することによって拡張させる。 我々は,msc網の最適化が容易であり,翻訳品質が大幅に向上することを示す実証的証拠を提供する。 3つの翻訳方向を持つIWSLT翻訳タスクでは、非常に深いモデル(72層エンコーダ)が+2.2~+3.1 BLEU点を超える。 さらに、我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNMTモデルよりも大幅に優れています。

Recent evidence reveals that Neural Machine Translation (NMT) models with deeper neural networks can be more effective but are difficult to train. In this paper, we present a MultiScale Collaborative (MSC) framework to ease the training of NMT models that are substantially deeper than those used previously. We explicitly boost the gradient back-propagation from top to bottom levels by introducing a block-scale collaboration mechanism into deep NMT models. Then, instead of forcing the whole encoder stack directly learns a desired representation, we let each encoder block learns a fine-grained representation and enhance it by encoding spatial dependencies using a context-scale collaboration. We provide empirical evidence showing that the MSC nets are easy to optimize and can obtain improvements of translation quality from considerably increased depth. On IWSLT translation tasks with three translation directions, our extremely deep models (with 72-layer encoders) surpass strong baselines by +2.2~+3.1 BLEU points. In addition, our deep MSC achieves a BLEU score of 30.56 on WMT14 English-German task that significantly outperforms state-of-the-art deep NMT models.
翻訳日:2022-12-08 13:44:02 公開日:2020-05-11
# KinGDOM:感情分析のための知識誘導DOMain適応

KinGDOM: Knowledge-Guided DOMain adaptation for sentiment analysis ( http://arxiv.org/abs/2005.00791v2 )

ライセンス: Link先を確認
Deepanway Ghosal, Devamanyu Hazarika, Abhinaba Roy, Navonil Majumder, Rada Mihalcea and Soujanya Poria(参考訳) 近年、クロスドメインの感情分析は、感情分析を利用する異なるアプリケーション間のドメインギャップと戦う必要性から、大きな注目を集めている。 本稿では,外部コモンセンス知識の役割を探求することで,この課題に対する新しい視点を取り上げる。 ドメイン固有の背景概念とドメイン一般の背景概念の両方を提供することで、ドキュメントの意味性を高めるためにconceptnetの知識グラフを利用する新しいフレームワークである kingdom を紹介します。 これらの概念は、ドメイン間の概念をドメイン不変の方法で活用するグラフ畳み込みオートエンコーダを訓練することによって学習される。 これらの学習概念を用いた一般的なドメイン・アドバイザリ・ベースライン・メソッドの条件付けは,提案フレームワークの有効性を実証し,最先端のアプローチよりも性能の向上に寄与する。

Cross-domain sentiment analysis has received significant attention in recent years, prompted by the need to combat the domain gap between different applications that make use of sentiment analysis. In this paper, we take a novel perspective on this task by exploring the role of external commonsense knowledge. We introduce a new framework, KinGDOM, which utilizes the ConceptNet knowledge graph to enrich the semantics of a document by providing both domain-specific and domain-general background concepts. These concepts are learned by training a graph convolutional autoencoder that leverages inter-domain concepts in a domain-invariant manner. Conditioning a popular domain-adversarial baseline method with these learned concepts helps improve its performance over state-of-the-art approaches, demonstrating the efficacy of our proposed framework.
翻訳日:2022-12-07 12:35:00 公開日:2020-05-11
# 機械の理解をテストするには, 理解の定義から始める

To Test Machine Comprehension, Start by Defining Comprehension ( http://arxiv.org/abs/2005.01525v2 )

ライセンス: Link先を確認
Jesse Dunietz, Gregory Burnham, Akash Bharadwaj, Owen Rambow, Jennifer Chu-Carroll, David Ferrucci(参考訳) 多くのタスクは、機械読解(MRC)を測定することを目的としており、しばしば難しいと思われる質問タイプに焦点を当てている。 しかし、タスクデザイナーが実際に理解すべきシステムを考えることから始めることは滅多にありません。 本稿では2つの重要な貢献をする。 まず、既存のアプローチは理解を適切に定義していない、と我々は主張する。 第二に、「理解のテンプレート」という理解の詳細な定義を、広く有用なテキスト、すなわち短い物語のクラスに提示する。 次に、既存のシステムが定義する物語理解のタスクに頼っていないことを強く示唆する実験を行う。

Many tasks aim to measure machine reading comprehension (MRC), often focusing on question types presumed to be difficult. Rarely, however, do task designers start by considering what systems should in fact comprehend. In this paper we make two key contributions. First, we argue that existing approaches do not adequately define comprehension; they are too unsystematic about what content is tested. Second, we present a detailed definition of comprehension -- a "Template of Understanding" -- for a widely useful class of texts, namely short narratives. We then conduct an experiment that strongly suggests existing systems are not up to the task of narrative understanding as we define it.
翻訳日:2022-12-07 00:03:00 公開日:2020-05-11
# プライオリティ情報を用いた最適Covid-19プールテスト

Optimal Covid-19 Pool Testing with a priori Information ( http://arxiv.org/abs/2005.02940v2 )

ライセンス: Link先を確認
Marc Beunardeau, \'Eric Brier, No\'emie Cartier, Aisling Connolly, Nathana\"el Courant, R\'emi G\'eraud-Stewart, David Naccache, Ofer Yifrach-Stav(参考訳) 世界規模の新型コロナウイルス(covid-19)感染の封じ込めに人類が苦戦する中、予防措置は検査キットの不足で大幅に減速している。 米食品医薬品局(FDA)は、米国でのコビッドウイルス検査の承認について、よりリベラルな措置を講じている。 イギリスでは、現地で生産されたテストキットの日数を10万に増やすことが認められた。 中国は最近、大規模なテスト製造プログラムを開始した。 しかし、これらすべての努力は不十分であり、多くの貧しい国はまだ脅威にさらされている。 テスト数を減らす一般的な方法は、サンプルをプールすること、すなわち患者のサンプルを混合し、混合サンプルを一度だけテストすることである。 すべてのサンプルが負の場合、プールは単体コストで成功する。 しかし、1つのサンプルが陽性であれば、どの患者が感染しているかは示さない。 本稿では,各患者が健康である確率を前提に,プール内の患者を最適に検出する方法について述べる。 これらの確率は、アンケート、教師付き機械学習、臨床検査によって推定できる。 結果として得られるアルゴリズムは、インフォームド・ディバイド・アンド・コンカマー戦略と解釈できるが、直感的ではない。 特許はない。 共著者はアルファベット順にリストされている。

As humanity struggles to contain the global Covid-19 infection, prophylactic actions are grandly slowed down by the shortage of testing kits. Governments have taken several measures to work around this shortage: the FDA has become more liberal on the approval of Covid-19 tests in the US. In the UK emergency measures allowed to increase the daily number of locally produced test kits to 100,000. China has recently launched a massive test manufacturing program. However, all those efforts are very insufficient and many poor countries are still under threat. A popular method for reducing the number of tests consists in pooling samples, i.e. mixing patient samples and testing the mixed samples once. If all the samples are negative, pooling succeeds at a unitary cost. However, if a single sample is positive, failure does not indicate which patient is infected. This paper describes how to optimally detect infected patients in pools, i.e. using a minimal number of tests to precisely identify them, given the a priori probabilities that each of the patients is healthy. Those probabilities can be estimated using questionnaires, supervised machine learning or clinical examinations. The resulting algorithms, which can be interpreted as informed divide-and-conquer strategies, are non-intuitive and quite surprising. They are patent-free. Co-authors are listed in alphabetical order.
翻訳日:2022-12-06 06:18:02 公開日:2020-05-11
# テキスト生成のためのToken Manipulation Generative Adversarial Network

Token Manipulation Generative Adversarial Network for Text Generation ( http://arxiv.org/abs/2005.02794v2 )

ライセンス: Link先を確認
DaeJin Jo(参考訳) MaskGANは、与えられたトークン間の空白を埋めることで、条件付き言語モデルのクエリを開く。 本稿では,空白を満たさなければならないという制約に対処することに注力する。 我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。 我々はこれらのタスクを階層的マルチエージェントRL問題とみなし、エージェントが目標を達成する条件付き逆学習を導入し、現実的なテキストを協調的に生成する。 提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。

MaskGAN opens the query for the conditional language model by filling in the blanks between the given tokens. In this paper, we focus on addressing the limitations caused by having to specify blanks to be filled. We decompose conditional text generation problem into two tasks, make-a-blank and fill-in-the-blank, and extend the former to handle more complex manipulations on the given tokens. We cast these tasks as a hierarchical multi agent RL problem and introduce a conditional adversarial learning that allows the agents to reach a goal, producing realistic texts, in cooperative setting. We show that the proposed model not only addresses the limitations but also provides good results without compromising the performance in terms of quality and diversity.
翻訳日:2022-12-06 04:39:29 公開日:2020-05-11
# ソーシャルネットワーク上の公平な影響最大化のための逆グラフ埋め込み

Adversarial Graph Embeddings for Fair Influence Maximization over Social Networks ( http://arxiv.org/abs/2005.04074v2 )

ライセンス: Link先を確認
Moein Khajehnejad, Ahmad Asgharian Rezaei, Mahmoudreza Babaei, Jessica Hoffmann, Mahdi Jalili and Adrian Weller(参考訳) 影響最大化(influence maximization)は、ネットワーク科学において広く研究されているトピックであり、ノード数を最大にすることを目的としている。 ウイルスのマーケティング、情報伝達、ニュースの拡散、ワクチン接種など、多くの分野で重要な応用がある。 しかし、目的は通常、影響のあるノードの最終セットが人種や性別のような繊細な属性に関して公平であるかどうかを考慮に入れない。 ここでは、より公平なマイノリティへの到達を目指して、公正な影響の最大化に対処する。 グラフ埋め込みのための自動エンコーダと、センシティブな属性を識別するための識別器を共同でトレーニングする。 これは同様にセンシティブな属性に分散した埋め込みにつながる。 次に、埋め込みをクラスタリングすることで良い初期セットを見つけます。 私たちは、公正な影響の最大化のタスクに埋め込みを最初に使うと信じています。 公平性と影響最大化の目的との間にはトレードオフが一般的だが,合成データと実世界のデータセットを用いた実験では,最先端の影響最大化手法との競争力を維持しつつ,不一致を劇的に低減する傾向が示されている。

Influence maximization is a widely studied topic in network science, where the aim is to reach the maximum possible number of nodes, while only targeting a small initial set of individuals. It has critical applications in many fields, including viral marketing, information propagation, news dissemination, and vaccinations. However, the objective does not usually take into account whether the final set of influenced nodes is fair with respect to sensitive attributes, such as race or gender. Here we address fair influence maximization, aiming to reach minorities more equitably. We introduce Adversarial Graph Embeddings: we co-train an auto-encoder for graph embedding and a discriminator to discern sensitive attributes. This leads to embeddings which are similarly distributed across sensitive attributes. We then find a good initial set by clustering the embeddings. We believe we are the first to use embeddings for the task of fair influence maximization. While there are typically trade-offs between fairness and influence maximization objectives, our experiments on synthetic and real-world datasets show that our approach dramatically reduces disparity while remaining competitive with state-of-the-art influence maximization methods.
翻訳日:2022-12-05 12:17:29 公開日:2020-05-11
# 効率的なドローン移動支援のための深層強化学習手法

A Deep Reinforcement Learning Approach to Efficient Drone Mobility Support ( http://arxiv.org/abs/2005.05229v1 )

ライセンス: Link先を確認
Yun Chen, Xingqin Lin, Talha Ahmed Khan, Mohammad Mozaffari(参考訳) ドローンの無数のアプリケーションへの展開は、ドローンの安全な制御と運用のためにシームレスで信頼性の高いワイヤレス接続に依存している。 セルラ技術は、空飛ぶドローンに必須のワイヤレスサービスを提供するための重要な手段である。 地上利用をターゲットとする既存の携帯電話ネットワークは、低高度ドローンユーザの初期展開を支援することができるが、モビリティサポートなどの課題もある。 本稿では,地上のセルネットワークによって提供されるドローンに対して,効率的な移動支援と信頼性の高い無線接続を実現するためのハンドオーバフレームワークを提案する。 深層強化学習のツールを用いて,ハンドオーバ決定を動的に最適化し,ドローンユーザの堅牢な接続性を確保するための深いq-learningアルゴリズムを開発した。 シミュレーションの結果,提案手法は,受信信号強度が最も高い基地局とドローンが常に接続するベースラインケースと比較して,信号強度の小さな損失を犠牲にして,ハンドオーバ数を大幅に削減できることがわかった。

The growing deployment of drones in a myriad of applications relies on seamless and reliable wireless connectivity for safe control and operation of drones. Cellular technology is a key enabler for providing essential wireless services to flying drones in the sky. Existing cellular networks targeting terrestrial usage can support the initial deployment of low-altitude drone users, but there are challenges such as mobility support. In this paper, we propose a novel handover framework for providing efficient mobility support and reliable wireless connectivity to drones served by a terrestrial cellular network. Using tools from deep reinforcement learning, we develop a deep Q-learning algorithm to dynamically optimize handover decisions to ensure robust connectivity for drone users. Simulation results show that the proposed framework significantly reduces the number of handovers at the expense of a small loss in signal strength relative to the baseline case where a drone always connect to a base station that provides the strongest received signal strength.
翻訳日:2022-12-04 21:04:59 公開日:2020-05-11
# DeepSELF: オープンソースのDeep Self-to-End Learningフレームワーク

deepSELF: An Open Source Deep Self End-to-End Learning Framework ( http://arxiv.org/abs/2005.06993v1 )

ライセンス: Link先を確認
Tomoya Koike and Kun Qian and Bj\"orn W. Schuller and Yoshiharu Yamamoto(参考訳) 本稿では,マルチモーダル信号のためのディープ・セルフ・エンド・ツー・エンド学習フレームワークのツールキットとして,ディープ・セルフ・エンド・ツー・エンド学習フレームワーク(deep self)を提案する。 私たちの知る限りでは、これは一連の最先端のディープラーニング技術を組み立てる最初の公開ツールキットです。 提案されたDeepSELFツールキットのハイライトは以下のとおりである。 まず、イメージ、オーディオ、シングルまたはマルチチャネルセンサーデータを含む、さまざまなマルチモーダル信号の分析に使用できる。 第2に、フーリエ変換やウェーブレット変換によるフィルタリングやスペクトル画像生成など、前処理の複数のオプションを提供する。 第3に、NN、1D/2D/3D CNN、RNN/LSTM/GRUといった多くのトポロジがカスタマイズ可能であり、AlexNet、VGGNet、ResNetといった事前訓練された2D CNNモデルも容易に利用できる。 最後に、これらの機能の上に、DeepSELFは単一のモデルとしてだけでなく、それらの融合としても柔軟に使用できる。

We introduce an open-source toolkit, i.e., the deep Self End-to-end Learning Framework (deepSELF), as a toolkit of deep self end-to-end learning framework for multi-modal signals. To the best of our knowledge, it is the first public toolkit assembling a series of state-of-the-art deep learning technologies. Highlights of the proposed deepSELF toolkit include: First, it can be used to analyse a variety of multi-modal signals, including images, audio, and single or multi-channel sensor data. Second, we provide multiple options for pre-processing, e.g., filtering, or spectrum image generation by Fourier or wavelet transformation. Third, plenty of topologies in terms of NN, 1D/2D/3D CNN, and RNN/LSTM/GRU can be customised and a series of pretrained 2D CNN models, e.g., AlexNet, VGGNet, ResNet can be used easily. Last but not least, above these features, deepSELF can be flexibly used not only as a single model but also as a fusion of such.
翻訳日:2022-12-04 21:04:28 公開日:2020-05-11
# ベイズ最適化を用いた仮想スクリーニングの高速化 : 新型コロナウイルス再導入に適した治療法の発見に向けて

Using Bayesian Optimization to Accelerate Virtual Screening for the Discovery of Therapeutics Appropriate for Repurposing for COVID-19 ( http://arxiv.org/abs/2005.07121v1 )

ライセンス: Link先を確認
Edward O. Pyzer-Knapp(参考訳) 武漢の新型コロナウイルス「SARS-CoV-2」は、非戦時環境に前例のない効果をもたらし、社会・経済・健康システムに打撃を与えている。 ~その効果に対処するために薬局の介入を負わせることは、この進行中の戦闘の潮流を転換する戦いの大きな転換点となる。 最近、世界で最も強力なスーパーコンピュータであるSUMMITは、SARS-CoV-2に対して高いスループットの仮想スクリーニングアプローチによって望まれる活性を持つ、既存の小さな分子薬品を識別するために使用された。 このコミュニケーションでは、ベイズ最適化がこれらの計算の優先順位付けにどのように役立つかを実証し、ハイパフォーマンスな候補の同定が高速化され、時間クリティカルスクリーニングのためのHPCシステムの実用範囲が拡大されることを示す。

The novel Wuhan coronavirus known as SARS-CoV-2 has brought almost unprecedented effects for a non-wartime setting, hitting social, economic and health systems hard.~ Being able to bring to bear pharmaceutical interventions to counteract its effects will represent a major turning point in the fight to turn the tides in this ongoing battle.~ Recently, the World's most powerful supercomputer, SUMMIT, was used to identify existing small molecule pharmaceuticals which may have the desired activity against SARS-CoV-2 through a high throughput virtual screening approach. In this communication, we demonstrate how the use of Bayesian optimization can provide a valuable service for the prioritisation of these calculations, leading to the accelerated identification of high-performing candidates, and thus expanding the scope of the utility of HPC systems for time critical screening
翻訳日:2022-12-04 21:03:48 公開日:2020-05-11
# ベクトルマシン訓練支援のための関係勾配Descentアルゴリズム

A Relational Gradient Descent Algorithm For Support Vector Machine Training ( http://arxiv.org/abs/2005.05325v1 )

ライセンス: Link先を確認
Mahmoud Abo-Khamis, Sungjin Im, Benjamin Moseley, Kirk Pruhs, Alireza Samadian(参考訳) 我々は、データをリレーショナル形式にする場合に、SVM(Support Vector Machine)トレーニングのためのアルゴリズムのような勾配勾配を考える。 SVM の目的の勾配は ``サブトラクション問題'' に苦しむため、既知の手法で効率的に計算することはできない。 まず, svm 目的関数の勾配の定数近似の計算は非巡回結合であっても $\#p$-hard であることを示すことにより, 減算問題は克服できないことを示した。 しかし、我々は、安定なインスタンスに注意を向けることによって減算問題を回避し、直感的には、ポイントがわずかに摂動した場合、ほぼ最適解がほぼ最適であるインスタンスである。 実際の勾配を用いて達成した値に匹敵する速度で安定インスタンスの収束を保証する `pseudo-gradient''' を計算する効率的なアルゴリズムを与える。 その結果,このような安定性が,減算問題が発生する他の学習問題に対して,関係データに基づくアルゴリズム設計の文脈において有用な知見をもたらす可能性が示唆された。

We consider gradient descent like algorithms for Support Vector Machine (SVM) training when the data is in relational form. The gradient of the SVM objective can not be efficiently computed by known techniques as it suffers from the ``subtraction problem''. We first show that the subtraction problem can not be surmounted by showing that computing any constant approximation of the gradient of the SVM objective function is $\#P$-hard, even for acyclic joins. We, however, circumvent the subtraction problem by restricting our attention to stable instances, which intuitively are instances where a nearly optimal solution remains nearly optimal if the points are perturbed slightly. We give an efficient algorithm that computes a ``pseudo-gradient'' that guarantees convergence for stable instances at a rate comparable to that achieved by using the actual gradient. We believe that our results suggest that this sort of stability the analysis would likely yield useful insight in the context of designing algorithms on relational data for other learning problems in which the subtraction problem arises.
翻訳日:2022-12-04 20:57:50 公開日:2020-05-11
# 微分シミュレーションによる力学モデル同定

Identifying Mechanical Models through Differentiable Simulations ( http://arxiv.org/abs/2005.05410v1 )

ライセンス: Link先を確認
Changkyu Song and Abdeslam Boularias(参考訳) 本稿では, 物体を初期配置から平坦面上の所定の目標配置に変位させる無理解動作の列を通して未知の物体を操作する新しい手法を提案する。 提案手法は, 微分可能な物理モデルの最近の進歩を利用して, 慣性行列, 摩擦係数, 物体に作用する外力など, 操作対象の未知の力学特性を同定する。 この目的のために、最近提案された二次元物体に対する微分可能な物理エンジンが本研究で採用され、三次元空間における力を扱うように拡張された。 提案するモデル同定手法は,物体の予測されたポーズと実際のポーズとの間の距離の勾配を解析的に計算し,その勾配を利用して現実のギャップを減少させる機械的特性の値を求める。 実物体を用いた実ロボットによるデータ収集実験により,提案手法がフライ上の異種物体の力学特性を同定できることが確認された。

This paper proposes a new method for manipulating unknown objects through a sequence of non-prehensile actions that displace an object from its initial configuration to a given goal configuration on a flat surface. The proposed method leverages recent progress in differentiable physics models to identify unknown mechanical properties of manipulated objects, such as inertia matrix, friction coefficients and external forces acting on the object. To this end, a recently proposed differentiable physics engine for two-dimensional objects is adopted in this work and extended to deal forces in the three-dimensional space. The proposed model identification technique analytically computes the gradient of the distance between forecasted poses of objects and their actual observed poses and utilizes that gradient to search for values of the mechanical properties that reduce the reality gap. Experiments with real objects using a real robot to gather data show that the proposed approach can identify the mechanical properties of heterogeneous objects on the fly.
翻訳日:2022-12-04 20:56:45 公開日:2020-05-11
# クロスモーダルドメイン適応を用いた非標識腹部MRIにおける脂肪組織分画

Adipose Tissue Segmentation in Unlabeled Abdomen MRI using Cross Modality Domain Adaptation ( http://arxiv.org/abs/2005.05761v1 )

ライセンス: Link先を確認
Samira Masoudi, Syed M. Anwar, Stephanie A. Harmon, Peter L. Choyke, Baris Turkbey, Ulas Bagci(参考訳) 腹部脂肪定量は、この領域内に複数の重要な臓器があるため重要である。 CT(Computed tomography)は体脂肪分画に対する高感度なモダリティであるが、この目的のためには磁気共鳴イメージング(MRI)が好ましい代替手段となる電離放射線を含んでいる。 さらに、MRIの優れた軟組織コントラストは、より正確な結果をもたらす可能性がある。 しかし、MRIスキャンでは、脂肪分画に非常に集中している。 本研究では,mr画像から脂肪組織を自動的に定量化する深層学習手法(s)に基づくアルゴリズムを提案する。 本手法はMRスキャンの教師付きラベル付けを必要としないが,既存のMRスキャンをCT画像中のHU(ハウンズフィールド単位)の記述的性質により,脂肪分画が比較的容易な合成CT(s-CT)画像に変換するパイプラインを構築するために,C-GAN (Cycle Generative Adversarial Network) を利用する。 MRI画像の脂肪分画は専門医により評価された。 MR画像における内皮下脂肪分画の平均成功率は3.80/5,4.54/5であった。

Abdominal fat quantification is critical since multiple vital organs are located within this region. Although computed tomography (CT) is a highly sensitive modality to segment body fat, it involves ionizing radiations which makes magnetic resonance imaging (MRI) a preferable alternative for this purpose. Additionally, the superior soft tissue contrast in MRI could lead to more accurate results. Yet, it is highly labor intensive to segment fat in MRI scans. In this study, we propose an algorithm based on deep learning technique(s) to automatically quantify fat tissue from MR images through a cross modality adaptation. Our method does not require supervised labeling of MR scans, instead, we utilize a cycle generative adversarial network (C-GAN) to construct a pipeline that transforms the existing MR scans into their equivalent synthetic CT (s-CT) images where fat segmentation is relatively easier due to the descriptive nature of HU (hounsfield unit) in CT images. The fat segmentation results for MRI scans were evaluated by expert radiologist. Qualitative evaluation of our segmentation results shows average success score of 3.80/5 and 4.54/5 for visceral and subcutaneous fat segmentation in MR images.
翻訳日:2022-12-04 20:56:28 公開日:2020-05-11
# パッチベース合成に関する調査:gpuの実装と最適化

A Survey on Patch-based Synthesis: GPU Implementation and Optimization ( http://arxiv.org/abs/2005.06278v1 )

ライセンス: Link先を確認
Hadi Abdi Khojasteh(参考訳) この論文は、小さな局所領域間の対応を見つけるためのパッチベースの合成とアルゴリズムの研究を調査する。 さらに,この新しい高速ランダムマッチング手法の多種多様な応用について検討する。 私たちが特に研究したアルゴリズムの1つがpatchmatchで、同様の領域や画像の"パッチ"を、以前の技術よりも1~2桁早く見つけることができます。 アルゴリズムプログラムは、自然画像に最も近い近傍の数学的性質を適用することによって駆動される。 隣り合う対応は似ているか「一貫性のある」傾向にあり、近似解に素早く収束するためにアルゴリズムでこの観測を用いる。 このアルゴリズムは、k-nearestの隣同士のマッチング、翻訳、回転、スケールのパッチ、任意のディスクリプタ、および2つ以上の画像の間にある最も一般的な形式である。 スピードアップは、これらの領域を超越した範囲で様々な技術で得られる。 PatchMatchマッチングアルゴリズムの多くの応用について検討した。 コンピュータグラフィックスでは,画像からの不要なオブジェクトの除去,画像内のオブジェクトのシームレスな移動,画像アスペクト比の変更,ビデオ要約について検討した。 コンピュータビジョンでは,画像の雑音化,物体検出,画像偽造の検出,対称性の検出について検討した。 本稿では,アルゴリズムプログラムの制約,GPUの実装,今後の分析分野について論じる。

This thesis surveys the research in patch-based synthesis and algorithms for finding correspondences between small local regions of images. We additionally explore a large kind of applications of this new fast randomized matching technique. One of the algorithms we have studied in particular is PatchMatch, can find similar regions or "patches" of an image one to two orders of magnitude faster than previous techniques. The algorithmic program is driven by applying mathematical properties of nearest neighbors in natural images. It is observed that neighboring correspondences tend to be similar or "coherent" and use this observation in algorithm in order to quickly converge to an approximate solution. The algorithm is the most general form can find k-nearest neighbor matching, using patches that translate, rotate, or scale, using arbitrary descriptors, and between two or more images. Speed-ups are obtained over various techniques in an exceeding range of those areas. We have explored many applications of PatchMatch matching algorithm. In computer graphics, we have explored removing unwanted objects from images, seamlessly moving objects in images, changing image aspect ratios, and video summarization. In computer vision we have explored denoising images, object detection, detecting image forgeries, and detecting symmetries. We conclude by discussing the restrictions of our algorithmic program, GPU implementation and areas for future analysis.
翻訳日:2022-12-04 20:56:05 公開日:2020-05-11
# Keen2Act:オンラインソーシャルコラボレーションプラットフォームにおけるアクティビティ推奨

Keen2Act: Activity Recommendation in Online Social Collaborative Platforms ( http://arxiv.org/abs/2005.04833v1 )

ライセンス: Link先を確認
Roy Ka-Wei Lee, Thong Hoang, Richard J. Oentaryo, David Lo(参考訳) GitHubやStack Overflowといったソーシャルなコラボレーションプラットフォームは、コラボレーションによる作業の生産性向上にますます利用されている。 これらのプラットフォームにおけるユーザエクスペリエンスを改善するためには、ユーザに対してアイテム(GitHubリポジトリなど)だけでなく、推奨項目(リポジトリのフォークなど)で実行されるアクティビティを推奨できるレコメンデーションシステムを持つことが望ましい。 そこで我々は,Keen2Actと呼ばれる新たなアプローチを提案し,推奨問題をキーンとアクトという2つの段階に分解する。 Keenのステップは、あるユーザに対して、興味を持つ可能性のあるアイテムの(サブ)セットを特定する。 次にactステップは、特定されたアイテムセットで実行するアクティビティをユーザに推奨する。 この分解は、複雑なアクティビティレコメンデーションタスクに取り組むための実用的なアプローチを提供し、高いレコメンデーション品質を生み出す。 提案手法を実世界の2つのデータセットを用いて評価し,Keen2Actがいくつかのベースラインモデルより優れる有望な結果を得た。

Social collaborative platforms such as GitHub and Stack Overflow have been increasingly used to improve work productivity via collaborative efforts. To improve user experiences in these platforms, it is desirable to have a recommender system that can suggest not only items (e.g., a GitHub repository) to a user, but also activities to be performed on the suggested items (e.g., forking a repository). To this end, we propose a new approach dubbed Keen2Act, which decomposes the recommendation problem into two stages: the Keen and Act steps. The Keen step identifies, for a given user, a (sub)set of items in which he/she is likely to be interested. The Act step then recommends to the user which activities to perform on the identified set of items. This decomposition provides a practical approach to tackling complex activity recommendation tasks while producing higher recommendation quality. We evaluate our proposed approach using two real-world datasets and obtain promising results whereby Keen2Act outperforms several baseline models.
翻訳日:2022-12-04 20:55:45 公開日:2020-05-11
# U-Net型アーキテクチャを用いた医用画像分割

Medical Image Segmentation Using a U-Net type of Architecture ( http://arxiv.org/abs/2005.05218v1 )

ライセンス: Link先を確認
Eshal Zahra and Bostan Ali and Wajahat Siddique(参考訳) 深層畳み込みニューラルネットワークは、画像セグメンテーション、画像分類、画像生成など、画像関連の分析やタスクに非常に効果的であることが証明されている。 近年,画像セグメンテーションのために多くの高度なCNNアーキテクチャが提案されている。 新たに設計されたネットワークのいくつかは、医療画像のセグメンテーション(v-net、u-netなどのモデル)の特定の目的に使われている。 医用画像セグメンテーションの領域においてU-Netは非常に有望な結果が得られることが示されているが,本論文では,U-Netのアーキテクチャとボトルネック層における教師付きトレーニング戦略を組み合わせることで,元のU-Netアーキテクチャと同等の結果が得られることを論じる。 より具体的には、U-Netのエンコーダブランチのボトルネックにおいて、完全に教師付きFC層に基づくピクセルワイズロスを導入する。 2層ベースのFCサブネットは、より多くのセマンティック情報を含むようにボトルネック表現をトレーニングし、デコーダ層が最終的なセグメンテーションマップを予測するために使用する。 fc層ベースのサブネットはピクセル単位のクロスエントロピー損失を用いて訓練され、u-netアーキテクチャはl1損失を用いて訓練される。

Deep convolutional neural networks have been proven to be very effective in image related analysis and tasks, such as image segmentation, image classification, image generation, etc. Recently many sophisticated CNN based architectures have been proposed for the purpose of image segmentation. Some of these newly designed networks are used for the specific purpose of medical image segmentation, models like V-Net, U-Net and their variants. It has been shown that U-Net produces very promising results in the domain of medical image segmentation.However, in this paper, we argue that the architecture of U-Net, when combined with a supervised training strategy at the bottleneck layer, can produce comparable results with the original U-Net architecture. More specifically, we introduce a fully supervised FC layers based pixel-wise loss at the bottleneck of the encoder branch of U-Net. The two layer based FC sub-net will train the bottleneck representation to contain more semantic information, which will be used by the decoder layers to predict the final segmentation map. The FC layer based sub-net is trained by employing the pixel-wise cross entropy loss, while the U-Net architectures trained by using L1 loss.
翻訳日:2022-12-04 20:48:34 公開日:2020-05-11
# フェアディビジョン:コンピュータ科学者の視点

Fair Division: The Computer Scientist's Perspective ( http://arxiv.org/abs/2005.04855v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 社会的選択における古典的かつ挑戦的な問題の最近の進展について調査する。 計算的視点が、アイテムを公平かつ効率的に分割する方法に関する興味深い洞察と理解を提供する方法について論じる。 このことは、知識表現、計算複雑性、近似方法、ゲーム理論、オンライン分析、通信複雑性などのベアツールに関係している。

I survey recent progress on a classic and challenging problem in social choice: the fair division of indivisible items. I discuss how a computational perspective has provided interesting insights into and understanding of how to divide items fairly and efficiently. This has involved bringing to bear tools such as those used in knowledge representation, computational complexity, approximation methods, game theory, online analysis and communication complexity
翻訳日:2022-12-04 20:47:20 公開日:2020-05-11
# 位置ゲームとqbf:the corrective encoding

Positional Games and QBF: The Corrective Encoding ( http://arxiv.org/abs/2005.05098v1 )

ライセンス: Link先を確認
Valentin Mayer-Eichberger, Abdallah Saffidine(参考訳) 位置ゲームは、Tic-tac-toeとその一般化を含む2人プレイヤゲームの数学的クラスである。 本稿では,これらのゲームが量子ブール式 (QBF) に符号化され,ゲームインスタンスが第1プレイヤーの勝利戦略を認め,対応する公式が真である場合に限る。 本手法は,従来のqbfエンコーディングを複数の方法で改善する。 まず、これはジェネリックであり、hexのような他の位置ゲームもエンコードできます。 第二に、位置ゲームの構造特性と不正な動きの慎重な処理により、最先端のQBFソルバによってより高速に解けるよりコンパクトなインスタンスを生成することができる。 我々は広範な実験を通じて後者の事実を確立する。 最後に、新しいエンコーディングのコンパクトさにより、現実的なゲーム問題への翻訳が可能になった。 歴史的に重要な問題をいくつか特定し,難易度向上のマイルストーンとして,QBFコミュニティに先駆けた。

Positional games are a mathematical class of two-player games comprising Tic-tac-toe and its generalizations. We propose a novel encoding of these games into Quantified Boolean Formulas (QBF) such that a game instance admits a winning strategy for first player if and only if the corresponding formula is true. Our approach improves over previous QBF encodings of games in multiple ways. First, it is generic and lets us encode other positional games, such as Hex. Second, structural properties of positional games together with a careful treatment of illegal moves let us generate more compact instances that can be solved faster by state-of-the-art QBF solvers. We establish the latter fact through extensive experiments. Finally, the compactness of our new encoding makes it feasible to translate realistic game problems. We identify a few such problems of historical significance and put them forward to the QBF community as milestones of increasing difficulty.
翻訳日:2022-12-04 20:47:14 公開日:2020-05-11
# システムレベルの予測メンテナンス:研究文献のレビューとギャップ分析

System-Level Predictive Maintenance: Review of Research Literature and Gap Analysis ( http://arxiv.org/abs/2005.05239v1 )

ライセンス: Link先を確認
Kyle Miller and Artur Dubrawski(参考訳) 本稿では,システムの観点から予測保守の分野における現在の文献を概観する。 複雑な資産の同じタスクを解くのに必要な機能と、現状の単純なコンポーネントに適用されている条件推定と失敗リスク予測の既存の能力とを区別する。 システムレベルの分析は、より複雑な潜在劣化状態に直面し、各コンポーネントレベルでのアクティブなメンテナンスプログラムを包括的に考慮し、異なるメンテナンスアクション間の結合を検討する必要がある。 その結果、リスク予測や個々のコンポーネントに関するメンテナンス決定の報知に有効な方法は、信頼性の高いサブシステムやシステムレベルの洞察を提供するために、容易にスケールできない。 利用可能な構造的および物理的知識を取り入れ、活発なフィールドと維持された資産の複雑さを自然に扱うために、新しい全体論的モデリングアプローチが必要である。

This paper reviews current literature in the field of predictive maintenance from the system point of view. We differentiate the existing capabilities of condition estimation and failure risk forecasting as currently applied to simple components, from the capabilities needed to solve the same tasks for complex assets. System-level analysis faces more complex latent degradation states, it has to comprehensively account for active maintenance programs at each component level and consider coupling between different maintenance actions, while reflecting increased monetary and safety costs for system failures. As a result, methods that are effective for forecasting risk and informing maintenance decisions regarding individual components do not readily scale to provide reliable sub-system or system level insights. A novel holistic modeling approach is needed to incorporate available structural and physical knowledge and naturally handle the complexities of actively fielded and maintained assets.
翻訳日:2022-12-04 20:47:00 公開日:2020-05-11
# GACELA -- ロングオーディオインペイントのための生成逆コンテキストエンコーダ

GACELA -- A generative adversarial context encoder for long audio inpainting ( http://arxiv.org/abs/2005.05032v1 )

ライセンス: Link先を確認
Andres Marafioti, Piotr Majdak, Nicki Holighaus, Nathana\"el Perraudin(参考訳) gacela(generative adversarial network, gan)は、数百ミリ秒から数秒の間隔で音楽データの欠落を復元し、長ギャップのオーディオインペインティングを行うためのネットワークである。 以前の研究は、短いギャップに対処するか、他の信号部分から利用可能な情報をコピーすることで、模範に頼っていた。 まず,受容野の分解能が増大する5つの並列判別器を頼りに,音声情報の様々な時間尺度を考える。 第2に、ギャップを取り巻く利用可能な情報、すなわちコンテキストだけでなく、条件付きGANの潜時変数にも条件付けされる。 これは、このような長いギャップにおいて、オーディオのマルチモーダル性に対処し、ユーザ定義のインペイントオプションを提供する。 GACELAは375〜msから1500〜msまでの様々な複雑さとギャップ期間の音楽信号の聴取試験を行った。 被検者はしばしば塗抹を検出できたが, 被検物の重症度は, 容認不能から軽度に低下した。 GACELAは、より聴覚に関連した機能やより明示的な音楽機能などの将来の改善を統合することができるフレームワークである。

We introduce GACELA, a generative adversarial network (GAN) designed to restore missing musical audio data with a duration ranging between hundreds of milliseconds to a few seconds, i.e., to perform long-gap audio inpainting. While previous work either addressed shorter gaps or relied on exemplars by copying available information from other signal parts, GACELA addresses the inpainting of long gaps in two aspects. First, it considers various time scales of audio information by relying on five parallel discriminators with increasing resolution of receptive fields. Second, it is conditioned not only on the available information surrounding the gap, i.e., the context, but also on the latent variable of the conditional GAN. This addresses the inherent multi-modality of audio inpainting at such long gaps and provides the option of user-defined inpainting. GACELA was tested in listening tests on music signals of varying complexity and gap durations ranging from 375~ms to 1500~ms. While our subjects were often able to detect the inpaintings, the severity of the artifacts decreased from unacceptable to mildly disturbing. GACELA represents a framework capable to integrate future improvements such as processing of more auditory-related features or more explicit musical features.
翻訳日:2022-12-04 20:46:44 公開日:2020-05-11
# 仮想5Gネットワークにおける認知ネットワークスライス管理の統合手法

Integrated Methodology to Cognitive Network Slice Management in Virtualized 5G Networks ( http://arxiv.org/abs/2005.04830v1 )

ライセンス: Link先を確認
Xenofon Vasilakos, Navid Nikaein, Dean H Lorenz, Berkay Koksal, Nasim Ferdosian(参考訳) 第5世代(5G)ネットワークはETSIが定義したゼロタッチネットワークとサービス管理(ZSM)の概念に従って完全に自律的であると想定されている。 この目的を達成するために、目的固有の機械学習(ML)モデルは、サービスレベルアグリーメント(SLA)のスライスに完全に準拠する方法で、物理的および仮想ネットワークリソースの管理と制御に使用することができ、基盤となる物理ネットワークオペレータの収益も向上する。 これは、特別に設計され、訓練されたMLモデルは、SLAの重大な罰則やランタイムコストを引き起こすスライス管理の問題に対して、積極的にかつ非常に効果的である可能性があるためです。 しかし、その点に達することは非常に難しい。 5Gネットワークは非常にダイナミックで複雑で、ネットワークスライスとして多種多様な高度なリソースを必要とする5Gサービスを大規模に提供する。 これにより、Cognitive Network and Slice Management (CNSM) 5Gシステムとして定義可能な、効率的なMLモデルを設計、構築、デプロイするための、明確に定義された、一般的な、ステップワイズなロードマップの必要性が高まっます。 このニーズに対処するために,具体的なeHealthのユースケースに基づく仮想5GネットワークにおけるCNSMの新たな統合手法の設計と提示を行い,それについて詳しく検討し,5Gスライス管理ユースケースの汎用的アプローチを導出する。 提案手法を構成する3つの基本的な構成要素は (i) 設計からmlモデルの最終的な展開まで、あらゆることを条件とした5gの認知ワークフローモデル。 (二 異常検出を重視した認知的スライス管理のための四段階的アプローチ (iii)異なるスライスライフサイクル管理問題を対象とした異なるmlモデルの協調のための積極的な制御方式。

Fifth Generation (5G) networks are envisioned to be fully autonomous in accordance to the ETSI-defined Zero touch network and Service Management (ZSM) concept. To this end, purpose-specific Machine Learning (ML) models can be used to manage and control physical as well as virtual network resources in a way that is fully compliant to slice Service Level Agreements (SLAs), while also boosting the revenue of the underlying physical network operator(s). This is because specially designed and trained ML models can be both proactive and very effective against slice management issues that can induce significant SLA penalties or runtime costs. However, reaching that point is very challenging. 5G networks will be highly dynamic and complex, offering a large scale of heterogeneous, sophisticated and resource-demanding 5G services as network slices. This raises a need for a well-defined, generic and step-wise roadmap to designing, building and deploying efficient ML models as collaborative components of what can be defined as Cognitive Network and Slice Management (CNSM) 5G systems. To address this need, we take a use case-driven approach to design and present a novel Integrated Methodology for CNSM in virtualized 5G networks based on a concrete eHealth use case, and elaborate on it to derive a generic approach for 5G slice management use cases. The three fundamental components that comprise our proposed methodology include (i) a 5G Cognitive Workflow model that conditions everything from the design up to the final deployment of ML models; (ii) a Four-stage approach to Cognitive Slice Management with an emphasis on anomaly detection; and (iii) a Proactive Control Scheme for the collaboration of different ML models targeting different slice life-cycle management problems.
翻訳日:2022-12-04 20:46:20 公開日:2020-05-11
# 構成分布意味論の論理否定に向けて

Towards logical negation for compositional distributional semantics ( http://arxiv.org/abs/2005.04929v1 )

ライセンス: Link先を確認
Martha Lewis(参考訳) 意味のカテゴリー構成分布モデルは、単語の合成を句に与え、文章は場所を誇りに思う。 しかし、これまでのところ論理否定のモデルに欠けていた。 本稿では,この演算子を,単語の直交部分空間への射影のバージョンとしてモデル化する。 文挿入作業における演算子の性能の小さな実演を行う。

The categorical compositional distributional model of meaning gives the composition of words into phrases and sentences pride of place. However, it has so far lacked a model of logical negation. This paper gives some steps towards providing this operator, modelling it as a version of projection onto the subspace orthogonal to a word. We give a small demonstration of the operators performance in a sentence entailment task.
翻訳日:2022-12-04 20:39:13 公開日:2020-05-11
# スパースカウントデータの確率的正準相関解析

Probabilistic Canonical Correlation Analysis for Sparse Count Data ( http://arxiv.org/abs/2005.04837v1 )

ライセンス: Link先を確認
Lin Qiu and Vernon M. Chinchilli(参考訳) 正準相関解析(CCA)は、2つの連続変数間の関係を探索する古典的かつ重要な多変量解析手法である。 CCAはゲノミクスやニューロイメージングなど多くの分野で応用されている。 意味のある特徴を抽出できるだけでなく、これらの特徴をその後の分析に使うことができる。 いくつかのスパースCCA法は高次元問題に対処するために開発されたが、連続データ用に特別に設計されており、いくつかの重要な特徴に対して非常に少ない数を示す次世代のシーケンシングプラットフォームからの整数値データを考慮していない。 2つのスパースカウントデータセット(PSCCA)の相関と正準相関推定のためのモデルに基づく確率的アプローチを提案する。 PSCCAは、自然パラメータレベルで推定される相関と正準相関が、原データに適用される従来の推定方法よりも適切であることを示した。 シミュレーションにより,PSCCAは他の標準相関法やスパースCCA法よりも自然パラメータレベルでの真の相関と正準相関を推定できることを示した。 さらに, 扁平上皮肺癌研究から得られたmirnaとmrnaの発現データセットの関連性をpscca法を用いて検討し, 標準相関法やばらばらなcca法に比べてpsccaが強い相関関係を持つペアを多数発見できることを見いだした。

Canonical correlation analysis (CCA) is a classical and important multivariate technique for exploring the relationship between two sets of continuous variables. CCA has applications in many fields, such as genomics and neuroimaging. It can extract meaningful features as well as use these features for subsequent analysis. Although some sparse CCA methods have been developed to deal with high-dimensional problems, they are designed specifically for continuous data and do not consider the integer-valued data from next-generation sequencing platforms that exhibit very low counts for some important features. We propose a model-based probabilistic approach for correlation and canonical correlation estimation for two sparse count data sets (PSCCA). PSCCA demonstrates that correlations and canonical correlations estimated at the natural parameter level are more appropriate than traditional estimation methods applied to the raw data. We demonstrate through simulation studies that PSCCA outperforms other standard correlation approaches and sparse CCA approaches in estimating the true correlations and canonical correlations at the natural parameter level. We further apply the PSCCA method to study the association of miRNA and mRNA expression data sets from a squamous cell lung cancer study, finding that PSCCA can uncover a large number of strongly correlated pairs than standard correlation and other sparse CCA approaches.
翻訳日:2022-12-04 20:39:08 公開日:2020-05-11
# 前方変動選択による解釈可能な森林モデル

Interpretable random forest models through forward variable selection ( http://arxiv.org/abs/2005.05113v1 )

ライセンス: Link先を確認
Jasper Velthoen, Juan-Juan Cai, Geurt Jongbloed(参考訳) ランダムフォレストは高次元共変量を扱う一般的な予測手法である。 しかし、得られる高次元および非パラメトリックモデルを理解することはしばしば不可能になる。 解釈可能な予測モデルを得るために,CRPS(Continuous Rank probability score)を損失関数として用いた前方変数選択法を開発した。 我々のステップワイドな手順は、CRPSリスクを著しく減少させる仮説テストを実行することで、CRPSリスクを最適化する最小の変数セットにつながる。 我々は,本手法が最適セットに達することを証明することによって,本手法の数学的モチベーションを提供する。 さらに, 定位関数のランダム森林推定器が一貫していれば, テストは一貫性があることを示す。 本研究では,提案手法の性能を既存変数選択法と比較し,異なるサンプルサイズと共変量相関強度について検討した。 本法は偽陽性率よりもはるかに低い値を示した。 また,オランダにおける日次最大気温予測の統計的後処理に本手法を適用した。 同じ予測力を保ちながら約10%の共変量を選択する。

Random forest is a popular prediction approach for handling high dimensional covariates. However, it often becomes infeasible to interpret the obtained high dimensional and non-parametric model. Aiming for obtaining an interpretable predictive model, we develop a forward variable selection method using the continuous ranked probability score (CRPS) as the loss function. Our stepwise procedure leads to a smallest set of variables that optimizes the CRPS risk by performing at each step a hypothesis test on a significant decrease in CRPS risk. We provide mathematical motivation for our method by proving that in population sense the method attains the optimal set. Additionally, we show that the test is consistent provided that the random forest estimator of a quantile function is consistent. In a simulation study, we compare the performance of our method with an existing variable selection method, for different sample sizes and different correlation strength of covariates. Our method is observed to have a much lower false positive rate. We also demonstrate an application of our method to statistical post-processing of daily maximum temperature forecasts in the Netherlands. Our method selects about 10% covariates while retaining the same predictive power.
翻訳日:2022-12-04 20:38:46 公開日:2020-05-11
# 拡張ラグランジアンおよび近位ステップによる不正確かつ確率的一般化条件勾配

Inexact and Stochastic Generalized Conditional Gradient with Augmented Lagrangian and Proximal Step ( http://arxiv.org/abs/2005.05158v1 )

ライセンス: Link先を確認
Antonio Silveti-Falls, Cesare Molinari, Jalal Fadili(参考訳) 本稿では,いくつかの重要な量の計算における誤りを許容するicgalpを記述し,著者らが先行する論文で開発したcgalpアルゴリズムの不正確かつ確率的なバージョンを提案する。 特にこれは、いくつかの勾配、近位項、および/または線形最小化神託を、機械学習問題でよく見られる高(あるいは無限)次元ヒルベルト空間のような計算集約的な設定へのアルゴリズムの実用的な適用を容易にするような、見掛けのつかない方法で計算することができる。 このアルゴリズムは、ある有界線型作用素に対して$Ax=b$という形のアフィン制約を受ける3つの凸固有半連続函数の和を含む合成最小化問題を解くことができる。 目的の関数のうち1つだけが微分可能と仮定され、他の2つはアクセス可能なprox演算子と線形最小化オラクルを持つと仮定される。 主な結果として、ラグランジアンをアフィン制約の最適かつ漸近的実現可能性に収束させ、双対変数を双対問題の解に弱収束させることをほぼ確実に示す。 ほぼ確実に、ポイントワイズとエルゴードの両方の収束率は、ラグランジアン値と実現可能性ギャップに対して与えられる。 また,予測収束率を検証した数値実験も行った。

In this paper we propose and analyze inexact and stochastic versions of the CGALP algorithm developed in the authors' previous paper, which we denote ICGALP, that allows for errors in the computation of several important quantities. In particular this allows one to compute some gradients, proximal terms, and/or linear minimization oracles in an inexact fashion that facilitates the practical application of the algorithm to computationally intensive settings, e.g. in high (or possibly infinite) dimensional Hilbert spaces commonly found in machine learning problems. The algorithm is able to solve composite minimization problems involving the sum of three convex proper lower-semicontinuous functions subject to an affine constraint of the form $Ax=b$ for some bounded linear operator $A$. Only one of the functions in the objective is assumed to be differentiable, the other two are assumed to have an accessible prox operator and a linear minimization oracle. As main results, we show convergence of the Lagrangian to an optimum and asymptotic feasibility of the affine constraint as well as weak convergence of the dual variable to a solution of the dual problem, all in an almost sure sense. Almost sure convergence rates, both pointwise and ergodic, are given for the Lagrangian values and the feasibility gap. Numerical experiments verifying the predicted rates of convergence are shown as well.
翻訳日:2022-12-04 20:38:30 公開日:2020-05-11
# 組織マイクロアレイ画像における深層学習を用いたグリーソンスコア予測

Gleason Score Prediction using Deep Learning in Tissue Microarray Image ( http://arxiv.org/abs/2005.04886v1 )

ライセンス: Link先を確認
Yi-hong Zhang, Jing Zhang, Yang Song, Chaomin Shen, Guang Yang(参考訳) 前立腺癌(PCa)は、世界中の男性において最も多いがんの1つである。 PCaの病変レベルを評価する最も正確な方法は、染色された生検組織の顕微鏡検査と、専門の病理医による組織マイクロアレイ(TMA)画像のグリーソンスコアの推定である。 しかし、病理学者が大きなTMA画像でグリーソン分解の細胞および腺パターンを特定するのに時間がかかる。 我々は、Gleason2019 Challengeデータセットを使用して、畳み込みニューラルネットワーク(CNN)モデルを構築し、TMA画像を異なるGleasonグレードのリージョンに分割し、グレーディングセグメンテーションに従ってGleasonスコアを予測する。 プレトレーニングした前立腺セグメンテーションモデルを用いて,Gleasonグレードセグメンテーションの精度を高めた。 このモデルはテストコホートで平均75.6%のDiceを達成し、Gleason2019 Challengeで4位となり、コーエンのカッパとf1スコアを組み合わせたスコアは0.778となった。

Prostate cancer (PCa) is one of the most common cancers in men around the world. The most accurate method to evaluate lesion levels of PCa is microscopic inspection of stained biopsy tissue and estimate the Gleason score of tissue microarray (TMA) image by expert pathologists. However, it is time-consuming for pathologists to identify the cellular and glandular patterns for Gleason grading in large TMA images. We used Gleason2019 Challenge dataset to build a convolutional neural network (CNN) model to segment TMA images to regions of different Gleason grades and predict the Gleason score according to the grading segmentation. We used a pre-trained model of prostate segmentation to increase the accuracy of the Gleason grade segmentation. The model achieved a mean Dice of 75.6% on the test cohort and ranked 4th in the Gleason2019 Challenge with a score of 0.778 combined of Cohen's kappa and the f1-score.
翻訳日:2022-12-04 20:37:25 公開日:2020-05-11
# 周期整合逆ドメイン適応を用いた誘導伝達学習法と脳腫瘍分節への応用

An Inductive Transfer Learning Approach using Cycle-consistent Adversarial Domain Adaptation with Application to Brain Tumor Segmentation ( http://arxiv.org/abs/2005.04906v1 )

ライセンス: Link先を確認
Yuta Tokuoka, Shuji Suzuki, Yohei Sugawara(参考訳) 近年、医用画像解析のための教師あり機械学習の進歩により、様々な領域の注釈付き医用画像データセットが広く共有されている。 アノテーションのラベル付けは医学的な専門知識を必要とするため、このようなラベルは可能な限り多くの学習タスクに適用されるべきである。 しかしながら、各注釈付き画像のマルチモーダル性は、アノテーションラベルを様々なタスク間で共有することが困難である。 本研究では,Cycle-GANに基づく教師なしドメイン適応(UDA)を用いて,ソースドメインデータセットのアノテーションラベルを対象ドメインデータセットのタスクに適用するための帰納的伝達学習(ITL)アプローチを提案する。 ITLアプローチの適用性を評価するため、MRI画像のソース領域データセットに脳組織アノテーションラベルを、MRIのターゲット領域データセット上の脳腫瘍のセグメンテーションのタスクに適用した。 その結果,脳腫瘍のセグメンテーション精度は有意に向上した。 提案手法は医用画像解析の分野に大きく貢献する可能性があり,医用画像を用いた各種タスクの改善・促進のための基本ツールを開発する。

With recent advances in supervised machine learning for medical image analysis applications, the annotated medical image datasets of various domains are being shared extensively. Given that the annotation labelling requires medical expertise, such labels should be applied to as many learning tasks as possible. However, the multi-modal nature of each annotated image renders it difficult to share the annotation label among diverse tasks. In this work, we provide an inductive transfer learning (ITL) approach to adopt the annotation label of the source domain datasets to tasks of the target domain datasets using Cycle-GAN based unsupervised domain adaptation (UDA). To evaluate the applicability of the ITL approach, we adopted the brain tissue annotation label on the source domain dataset of Magnetic Resonance Imaging (MRI) images to the task of brain tumor segmentation on the target domain dataset of MRI. The results confirm that the segmentation accuracy of brain tumor segmentation improved significantly. The proposed ITL approach can make significant contribution to the field of medical image analysis, as we develop a fundamental tool to improve and promote various tasks using medical images.
翻訳日:2022-12-04 20:37:05 公開日:2020-05-11
# Celeganser: 線虫の形態と年齢の自動解析

Celeganser: Automated Analysis of Nematode Morphology and Age ( http://arxiv.org/abs/2005.04884v1 )

ライセンス: Link先を確認
Linfeng Wang, Shu Kong, Zachary Pincus, Charless Fowlkes(参考訳) 線虫Caenorhabditis elegans(C. elegans)は、様々な生物学的研究において重要なモデル生物である。 本稿では,老化の要因である生活寿命,健康寿命および遺伝的要因を研究する目的で,c. elegans画像の自動解析を行うパイプラインを提案する。 本システムは, ワームを検出, 分割し, ワーム内の各ピクセル位置で体座標を推定する。 これらの座標は個々の動物間の密接な対応を提供し、有意義な比較分析を可能にする。 体座標回帰を行うために事前訓練されたモデルは、個々のワームの年齢を高精度に予測できる豊富な特徴を抽出する。 これは、臓器の生理的および生化学的状態と個々の生命/健康-スパンの関係を定量化する将来の研究の基盤となる。

The nematode Caenorhabditis elegans (C. elegans) serves as an important model organism in a wide variety of biological studies. In this paper we introduce a pipeline for automated analysis of C. elegans imagery for the purpose of studying life-span, health-span and the underlying genetic determinants of aging. Our system detects and segments the worm, and predicts body coordinates at each pixel location inside the worm. These coordinates provide dense correspondence across individual animals to allow for meaningful comparative analysis. We show that a model pre-trained to perform body-coordinate regression extracts rich features that can be used to predict the age of individual worms with high accuracy. This lays the ground for future research in quantifying the relation between organs' physiologic and biochemical state, and individual life/health-span.
翻訳日:2022-12-04 20:30:44 公開日:2020-05-11
# ユーザ特定コンテンツの条件付き画像生成と操作

Conditional Image Generation and Manipulation for User-Specified Content ( http://arxiv.org/abs/2005.04909v1 )

ライセンス: Link先を確認
David Stap, Maurits Bleeker, Sarah Ibrahimi, Maartje ter Hoeve(参考訳) 近年,gans(generative adversarial network)は,より印象的な実世界画像生成に向けて着実に改善されている。 コンテンツ作成などの目的のために、画像生成プロセスのステアリングが有用である。 これは、追加情報にモデルを条件付けすることで実現できる。 しかし、追加情報を条件付けする場合、特定の条件付けに一致する画像が多数存在する。 これは、生成された画像がユーザーによって正確に想定されているとは考えにくいため、顔合成画像やストック写真など、実用的なコンテンツ作成シナリオでは問題となる。 そこで本研究では,テキスト・画像生成と操作のための単一パイプラインを提案する。 パイプラインの前半では、テキストで条件付けされたモデルである textStyleGAN を導入しています。 パイプラインの第2部では、textstyleganのトレーニング済みウェイトを使用して、セマンティックな顔画像操作を行っています。 このアプローチは、潜在空間で意味的な方向を見つけることで機能する。 本手法は,様々な属性に対する顔画像の操作に使用できることを示す。 最後に,顔と対応するテキスト記述からなるCelebA-HQの拡張であるCelebTD-HQデータセットを紹介する。

In recent years, Generative Adversarial Networks (GANs) have improved steadily towards generating increasingly impressive real-world images. It is useful to steer the image generation process for purposes such as content creation. This can be done by conditioning the model on additional information. However, when conditioning on additional information, there still exists a large set of images that agree with a particular conditioning. This makes it unlikely that the generated image is exactly as envisioned by a user, which is problematic for practical content creation scenarios such as generating facial composites or stock photos. To solve this problem, we propose a single pipeline for text-to-image generation and manipulation. In the first part of our pipeline we introduce textStyleGAN, a model that is conditioned on text. In the second part of our pipeline we make use of the pre-trained weights of textStyleGAN to perform semantic facial image manipulation. The approach works by finding semantic directions in latent space. We show that this method can be used to manipulate facial images for a wide range of attributes. Finally, we introduce the CelebTD-HQ dataset, an extension to CelebA-HQ, consisting of faces and corresponding textual descriptions.
翻訳日:2022-12-04 20:30:25 公開日:2020-05-11
# 効率的なエンドツーエンドの局所化による細粒度視覚分類

Fine-Grained Visual Classification with Efficient End-to-end Localization ( http://arxiv.org/abs/2005.05123v1 )

ライセンス: Link先を確認
Harald Hanselmann and Hermann Ney(参考訳) 細粒度視覚分類(FGVC)という用語は、クラスが非常に類似しており、分類モデルが正しい予測を行うために微妙な違いを見つける必要がある分類タスクを指す。 最先端のアプローチは、入力画像の関連部分をローカライズすることで分類ネットワークを支援するように設計されたローカライゼーションステップを含むことが多い。 しかし、これは通常、複数のイテレーションを必要とするか、完全な分類ネットワークまたは複雑なトレーニングスケジュールを通過する。 本稿では,エンド・ツー・エンドの設定で分類ネットワークと融合できる効率的なローカライズモジュールを提案する。 一方、モジュールは分類ネットワークから逆流する勾配によって訓練される。 一方, 2つの自己教師付き損失関数を導入し, 位置推定精度を高めた。 我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で新しいモデルを評価し,競争力のある認識性能を実現する。

The term fine-grained visual classification (FGVC) refers to classification tasks where the classes are very similar and the classification model needs to be able to find subtle differences to make the correct prediction. State-of-the-art approaches often include a localization step designed to help a classification network by localizing the relevant parts of the input images. However, this usually requires multiple iterations or passes through a full classification network or complex training schedules. In this work we present an efficient localization module that can be fused with a classification network in an end-to-end setup. On the one hand the module is trained by the gradient flowing back from the classification network. On the other hand, two self-supervised loss functions are introduced to increase the localization accuracy. We evaluate the new model on the three benchmark datasets CUB200-2011, Stanford Cars and FGVC-Aircraft and are able to achieve competitive recognition performance.
翻訳日:2022-12-04 20:29:26 公開日:2020-05-11
# FroDO: 検出から3Dオブジェクトへ

FroDO: From Detections to 3D Objects ( http://arxiv.org/abs/2005.05125v1 )

ライセンス: Link先を確認
Kejie Li, Martin R\"unz, Meng Tang, Lingni Ma, Chen Kong, Tanner Schmidt, Ian Reid, Lourdes Agapito, Julian Straub, Steven Lovegrove, Richard Newcombe(参考訳) オブジェクト指向マップは、幾何学と意味論を共同で捉え、個々のインスタンス化とオブジェクトに対する意味のある推論を可能にするため、シーン理解にとって重要である。 オブジェクトの位置, ポーズ, 形状を粗い方法で推定するRGBビデオからのオブジェクトインスタンスの正確な3次元再構成手法であるFroDOを紹介する。 FroDOの鍵は、スパースポイントクラウドとディープSDFデコーディングのシームレスな切り替えを可能にする、新しい学習空間にオブジェクトの形状を埋め込むことである。 ローカライズされたrgbフレームの入力シーケンスが与えられると、フロドはまず2d検出を集約し、オブジェクトごとにカテゴリ対応の3dバウンディングボックスをインスタンス化する。 形状コードは、形状を最適化する前にエンコーダネットワークを用いて回帰し、疎密かつ密集した形状表現を用いて学習された形状の先行で更に振る舞う。 最適化には多視点幾何、測光、シルエットの損失を用いる。 Pix3D, Redwood-OS, ScanNetなどの実世界のデータセットを用いて, シングルビュー, マルチビュー, マルチオブジェクト再構成の評価を行った。

Object-oriented maps are important for scene understanding since they jointly capture geometry and semantics, allow individual instantiation and meaningful reasoning about objects. We introduce FroDO, a method for accurate 3D reconstruction of object instances from RGB video that infers object location, pose and shape in a coarse-to-fine manner. Key to FroDO is to embed object shapes in a novel learnt space that allows seamless switching between sparse point cloud and dense DeepSDF decoding. Given an input sequence of localized RGB frames, FroDO first aggregates 2D detections to instantiate a category-aware 3D bounding box per object. A shape code is regressed using an encoder network before optimizing shape and pose further under the learnt shape priors using sparse and dense shape representations. The optimization uses multi-view geometric, photometric and silhouette losses. We evaluate on real-world datasets, including Pix3D, Redwood-OS, and ScanNet, for single-view, multi-view, and multi-object reconstruction.
翻訳日:2022-12-04 20:29:11 公開日:2020-05-11
# 自己参照と密接な意味対応を用いた参照に基づくスケッチ画像のカラー化

Reference-Based Sketch Image Colorization using Augmented-Self Reference and Dense Semantic Correspondence ( http://arxiv.org/abs/2005.05207v1 )

ライセンス: Link先を確認
Junsoo Lee, Eungyeup Kim, Yunsung Lee, Dongjun Kim, Jaehyuk Chang, Jaegul Choo(参考訳) 本稿では,すでに色のついた参照画像が与えられたスケッチ画像の自動着色作業に取り組む。 スケッチ画像のカラー化は、漫画、アニメーション、その他のコンテンツ制作アプリケーションでは高い需要があるが、スケッチ画像の情報不足に悩まされている。 これを解決するために、参照画像は、信頼性とユーザ主導の方法で色付けプロセスをレンダリングすることができる。 しかし、与えられた参照を反映する色付き画像(例えば、基準グリーンカーに与えられた元の青い車のスケッチを着色するなど)に対して、意味的に意味のある画像のペアを十分に有する訓練データセットを作成することは困難である。 この課題に対処するために,仮想参照として幾何学的歪みを持つ同一画像を有効利用し,色付き出力画像に対する基底真理を確保することを提案する。 さらに,本手法は,筆跡からスケッチ入力への色移動に,内部の注意機構を利用する密接な意味対応のための基礎的真理を提供する。 提案手法の有効性を,様々な種類のスケッチ画像の定量化および既存手法に対する定性評価により示す。

This paper tackles the automatic colorization task of a sketch image given an already-colored reference image. Colorizing a sketch image is in high demand in comics, animation, and other content creation applications, but it suffers from information scarcity of a sketch image. To address this, a reference image can render the colorization process in a reliable and user-driven manner. However, it is difficult to prepare for a training data set that has a sufficient amount of semantically meaningful pairs of images as well as the ground truth for a colored image reflecting a given reference (e.g., coloring a sketch of an originally blue car given a reference green car). To tackle this challenge, we propose to utilize the identical image with geometric distortion as a virtual reference, which makes it possible to secure the ground truth for a colored output image. Furthermore, it naturally provides the ground truth for dense semantic correspondence, which we utilize in our internal attention mechanism for color transfer from reference to sketch input. We demonstrate the effectiveness of our approach in various types of sketch image colorization via quantitative as well as qualitative evaluation against existing methods.
翻訳日:2022-12-04 20:28:32 公開日:2020-05-11
# 関数特化語表現の多方向連想最適化

Multidirectional Associative Optimization of Function-Specific Word Representations ( http://arxiv.org/abs/2005.05264v1 )

ライセンス: Link先を確認
Daniela Gerz, Ivan Vuli\'c, Marek Rei, Roi Reichart, Anna Korhonen(参考訳) 本稿では,SVO構造に見られるような,関係する単語群間の関連を学習するためのニューラルネットワークフレームワークを提案する。 我々のモデルは結合関数固有の単語ベクトル空間を誘導し、例えば可塑性SVO合成のベクトルが近接する。 このモデルは,共同空間においても単語群メンバシップに関する情報を保持し,SVO構造上の複数のタスクに効果的に適用することができる。 選択選好とイベント類似度を推定するタスクについて,最先端の成果を報告することにより,提案フレームワークの堅牢性と汎用性を示す。 その結果,タスクに依存しないモデルで学習した表現の組み合わせは,タスク固有のアーキテクチャよりも優れており,パラメータの数を最大95%削減できることがわかった。

We present a neural framework for learning associations between interrelated groups of words such as the ones found in Subject-Verb-Object (SVO) structures. Our model induces a joint function-specific word vector space, where vectors of e.g. plausible SVO compositions lie close together. The model retains information about word group membership even in the joint space, and can thereby effectively be applied to a number of tasks reasoning over the SVO structure. We show the robustness and versatility of the proposed framework by reporting state-of-the-art results on the tasks of estimating selectional preference and event similarity. The results indicate that the combinations of representations learned with our task-independent model outperform task-specific architectures from prior work, while reducing the number of parameters by up to 95%.
翻訳日:2022-12-04 20:21:54 公開日:2020-05-11
# Integer-Weighted Clause を用いた Tsetlin マシンの拡張による解釈性の向上

Extending the Tsetlin Machine With Integer-Weighted Clauses for Increased Interpretability ( http://arxiv.org/abs/2005.05131v1 )

ライセンス: Link先を確認
K. Darshana Abeyrathna, Ole-Christoffer Granmo, Morten Goodwin(参考訳) かなりの努力にもかかわらず、解釈可能かつ正確であるモデルの構築は、多くのパターン認識問題に対する未解決の課題である。 一般に、ルールベースと線形モデルは正確性に欠けるが、ディープラーニングの解釈性は基礎となる推論の粗い近似に基づいている。 命題論理における連結節の線形結合を用いて、tsetlinマシン(tms)は様々なベンチマークで競合性能を示している。 しかし、そのためには多くの節が必要であり、解釈可能性に影響を与える。 本稿では,TM節に整数重みを付与することにより,機械学習における精度・解釈可能性の問題に対処する。 結果として得られたInteger Weighted TM (IWTM) は、どの節が不正確で、チームとして高い精度(低ウェイト節)を得るためには、どの節がより独立して操作するのに十分正確か(高ウェイト節)を学習する問題を扱う。 各TM節は、Tsetlin Automataのチームによって適応的に形成されるため、効果的な重みの同定は、オンライン学習の問題となる。 我々は,Tsetlin Automataの各チームをライン(SSL)オートマトン上で確率的に探索することで,この問題に対処する。 提案方式では,SSL オートマトンは対応する Tsetlin Automata チームと相互作用して節の重みを学習し,その重みによって節の構成を適応させる。 我々は5つのデータセットを用いてiwtmを経験的に評価する。 平均すると、IWTMはバニラTMの6.5倍のリテラルを使用し、実際の重量を持つTMの120倍のリテラルを使用する。 さらに、平均F1スコアでは、IWTMは、単純な多層ニューラルネットワーク、決定木、サポートベクトルマシン、K-Nearest Neighbor、Random Forest、XGBoost、説明可能なブースティングマシン、および標準および実値重み付きTMよりも優れている。

Despite significant effort, building models that are both interpretable and accurate is an unresolved challenge for many pattern recognition problems. In general, rule-based and linear models lack accuracy, while deep learning interpretability is based on rough approximations of the underlying inference. Using a linear combination of conjunctive clauses in propositional logic, Tsetlin Machines (TMs) have shown competitive performance on diverse benchmarks. However, to do so, many clauses are needed, which impacts interpretability. Here, we address the accuracy-interpretability challenge in machine learning by equipping the TM clauses with integer weights. The resulting Integer Weighted TM (IWTM) deals with the problem of learning which clauses are inaccurate and thus must team up to obtain high accuracy as a team (low weight clauses), and which clauses are sufficiently accurate to operate more independently (high weight clauses). Since each TM clause is formed adaptively by a team of Tsetlin Automata, identifying effective weights becomes a challenging online learning problem. We address this problem by extending each team of Tsetlin Automata with a stochastic searching on the line (SSL) automaton. In our novel scheme, the SSL automaton learns the weight of its clause in interaction with the corresponding Tsetlin Automata team, which, in turn, adapts the composition of the clause by the adjusting weight. We evaluate IWTM empirically using five datasets, including a study of interpetability. On average, IWTM uses 6.5 times fewer literals than the vanilla TM and 120 times fewer literals than a TM with real-valued weights. Furthermore, in terms of average F1-Score, IWTM outperforms simple Multi-Layered Artificial Neural Networks, Decision Trees, Support Vector Machines, K-Nearest Neighbor, Random Forest, XGBoost, Explainable Boosting Machines, and standard and real-value weighted TMs.
翻訳日:2022-12-04 20:20:26 公開日:2020-05-11
# 脳モデリング6の新しい考え方

New Ideas for Brain Modelling 6 ( http://arxiv.org/abs/2005.05137v1 )

ライセンス: Link先を確認
Kieran Greer(参考訳) 本稿では,論文シリーズに記述された3レベル認知モデルの実装詳細について述べる。 アーキテクチャ全体がモジュール化され、さまざまなレベルの情報が使用されるようになりました。 アンサンブルと階層の関係は、記憶オブジェクトとその関係を記憶するために、下位の最適化レベルと中間集約レベルに維持・配置される。 トップレベルの認知層は、光スケジューラでネットワーク構造にリファクタリングすることで、以前の論文の認知プロセス言語(cpl)をモデル化するために再設計された。 大脳皮質は、単純な特徴からより複雑な特徴まで階層的クラスターであると考えられている。 したがって、リファクタされたネットワークは、その脳領域における従来の思考に挑戦するかもしれない。 また、特に新しいトップレベルの機能と構造は、チャンキングの心理学理論と類似しているとも主張されている。 モデルはまだフレームワークに過ぎず、実際のインテリジェンスに十分な情報を持っていない。 しかし、フレームワークは設計全体を通して実装され、結果の可能性についてより完全な図を示せるようになります。

This paper describes implementation details for a 3-level cognitive model, described in the paper series. The whole architecture is now modular, with different levels using different types of information. The ensemble-hierarchy relationship is maintained and placed in the bottom optimising and middle aggregating levels, to store memory objects and their relations. The top-level cognitive layer has been re-designed to model the Cognitive Process Language (CPL) of an earlier paper, by refactoring it into a network structure with a light scheduler. The cortex brain region is thought to be hierarchical - clustering from simple to more complex features. The refactored network might therefore challenge conventional thinking on that brain region. It is also argued that the function and structure in particular, of the new top level, is similar to the psychology theory of chunking. The model is still only a framework and does not have enough information for real intelligence. But a framework is now implemented over the whole design and so can give a more complete picture about the potential for results.
翻訳日:2022-12-04 20:19:48 公開日:2020-05-11
# 多様体内の同値関係による学習記述子不変性:式不変3次元顔認識への新しいアプローチ

Learning Descriptors Invariance Through Equivalence Relations Within Manifold: A New Approach to Expression Invariant 3D Face Recognition ( http://arxiv.org/abs/2005.04823v1 )

ライセンス: Link先を確認
Faisal R. Al-Osaimi(参考訳) 本稿では,キーポイントディスクリプタの有効変種と悪質な変種,すなわちディスクリプタ(機能)空間における同一性と表現の変種を区別する一意なアプローチを提案する。 記述子の変化は、トレーニング例から学習される。 トレーニングデータのラベルに基づいて、記述者間の同値関係を確立する。 両方のディスクリプタのバリエーションはディスクリプタ多様体に埋め込まれたグラフによって表現される。 不変認識はグラフ探索問題として実行される。 この設定下での認識に適したヒューリスティックグラフ探索アルゴリズムを考案した。 提案されたアプローチはFRGC v2.0、Bosphorus、および3D TECデータセットの試験であった。 特に表現のバリエーションによって認識性能がかなり向上していることが示されている。

This paper presents a unique approach for the dichotomy between useful and adverse variations of key-point descriptors, namely the identity and the expression variations in the descriptor (feature) space. The descriptors variations are learned from training examples. Based on the labels of the training data, the equivalence relations among the descriptors are established. Both types of descriptor variations are represented by a graph embedded in the descriptor manifold. The invariant recognition is then conducted as a graph search problem. A heuristic graph search algorithm suitable for the recognition under this setup was devised. The proposed approach was tests on the FRGC v2.0, the Bosphorus and the 3D TEC datasets. It has shown to enhance the recognition performance, under expression variations in particular, by considerable margins.
翻訳日:2022-12-04 20:19:34 公開日:2020-05-11
# 生体組織のシリアルセクションにおける非定常同時剛体登録法

Non-iterative Simultaneous Rigid Registration Method for Serial Sections of Biological Tissue ( http://arxiv.org/abs/2005.04848v1 )

ライセンス: Link先を確認
Chang Shu, Xi Chen, Qiwei Xie, Chi Xiao, Hua Han(参考訳) 本稿では, 生体組織の連続断面の体積再構成における重要な要素である, 連続断面画像の最適剛性変換を同時に推定する新しい非定性アルゴリズムを提案する。 現在のアルゴリズムによる誤りの蓄積や伝播を避けるため、第1部と最後の部画像の位置が変わらないという余分な条件を加える。 この制約付き同時登録問題は以前にも解決されていない。 提案手法は非定型的であり,多数の直列断面画像に対して短時間で剛性変換を同時に計算することができる。 アルゴリズムが理想的な条件下で最適解を得ることを証明します。 そして,合成データと実データを用いてアルゴリズムをテストし,アルゴリズムの有効性を検証する。

In this paper, we propose a novel non-iterative algorithm to simultaneously estimate optimal rigid transformation for serial section images, which is a key component in volume reconstruction of serial sections of biological tissue. In order to avoid error accumulation and propagation caused by current algorithms, we add extra condition that the position of the first and the last section images should remain unchanged. This constrained simultaneous registration problem has not been solved before. Our algorithm method is non-iterative, it can simultaneously compute rigid transformation for a large number of serial section images in a short time. We prove that our algorithm gets optimal solution under ideal condition. And we test our algorithm with synthetic data and real data to verify our algorithm's effectiveness.
翻訳日:2022-12-04 20:19:22 公開日:2020-05-11
# マンモグラムにおける乳腺のBI-RADS分類のための遺伝子解析による新しいコンピュータ支援診断システム

A New Computer-Aided Diagnosis System with Modified Genetic Feature Selection for BI-RADS Classification of Breast Masses in Mammograms ( http://arxiv.org/abs/2005.05074v1 )

ライセンス: Link先を確認
Said Boumaraf, Xiabi Liu, Chokri Ferkous, and Xiaohong Ma(参考訳) マンモグラフィーは早期乳癌検診において最も一般的な画像診断ツールである。 マンモグラフィレポートの異常を記述するために使われる言語は、乳房イメージングレポートおよびデータシステム(bi-rads)に基づいている。 検査対象のマンモグラムに正しいBI-RADSカテゴリを割り当てることは、専門家にとっても厳しい課題である。 本稿では,マンモグラフィ集団をBI-RADSの4つの評価カテゴリに分類する,コンピュータ支援診断(CAD)システムを提案する。 質量領域は、まずヒストグラム等化を用いて拡張され、その後、領域成長技術に基づいて半自動分割される。 BI-RADSマンモグラフィーでいうように、合計130個の手作りBI-RADSの特徴は、各質量の形状、マージン、密度から、質量の大きさと患者の年齢とともに押出される。 次に,遺伝子アルゴリズム(GA)に基づく機能選択法を提案し,臨床上重要なBI-RADS機能を選択する。 最後に、バックプロパゲーションニューラルネットワーク(bpn)を用いて分類を行い、その精度をgaの適合度として用いる。 スクリーニングマンモグラフィ(DDSM)のデジタルデータベースからの500枚のマンモグラフィ画像のセットを用いて評価を行う。 分類精度,正の予測値,負の予測値,マシューズ相関係数はそれぞれ84.5%,84.4%,94.8%,79.3%である。 以上のことから,マンモグラフィにおけるBI-RADSの乳房腫瘤の分類は,放射線科医がBI-RADSを自動指定した分類に基づいて適切な患者管理を行えるように支援することが望まれている。

Mammography remains the most prevalent imaging tool for early breast cancer screening. The language used to describe abnormalities in mammographic reports is based on the breast Imaging Reporting and Data System (BI-RADS). Assigning a correct BI-RADS category to each examined mammogram is a strenuous and challenging task for even experts. This paper proposes a new and effective computer-aided diagnosis (CAD) system to classify mammographic masses into four assessment categories in BI-RADS. The mass regions are first enhanced by means of histogram equalization and then semiautomatically segmented based on the region growing technique. A total of 130 handcrafted BI-RADS features are then extrcated from the shape, margin, and density of each mass, together with the mass size and the patient's age, as mentioned in BI-RADS mammography. Then, a modified feature selection method based on the genetic algorithm (GA) is proposed to select the most clinically significant BI-RADS features. Finally, a back-propagation neural network (BPN) is employed for classification, and its accuracy is used as the fitness in GA. A set of 500 mammogram images from the digital database of screening mammography (DDSM) is used for evaluation. Our system achieves classification accuracy, positive predictive value, negative predictive value, and Matthews correlation coefficient of 84.5%, 84.4%, 94.8%, and 79.3%, respectively. To our best knowledge, this is the best current result for BI-RADS classification of breast masses in mammography, which makes the proposed system promising to support radiologists for deciding proper patient management based on the automatically assigned BI-RADS categories.
翻訳日:2022-12-04 20:12:48 公開日:2020-05-11
# 航空地理タグ画像を用いた大規模農場におけるパームツリーの自動計測と位置情報

Deep-Learning-based Automated Palm Tree Counting and Geolocation in Large Farms from Aerial Geotagged Images ( http://arxiv.org/abs/2005.05269v1 )

ライセンス: Link先を確認
Adel Ammar, Anis Koubaa(参考訳) 本稿では,畳み込みニューラルネットワークを用いた空中画像からヤシの木の自動計測と位置推定のためのディープラーニングフレームワークを提案する。 この目的のために、サウジアラビアのリヤドにあるkharj地区のヤシの木農場で、djiドローンを使って空中画像を収集し、約1万個のヤシの木をデータセットとして構築した。 そこで我々は,最先端の高速R-CNNアルゴリズムを用いた畳み込みニューラルネットワークモデルを開発した。 さらに, 航空画像のジオタグメタデータを用いて, 検出されたヤシの地理的位置を自動的に検出するために, 測光概念と距離補正を用いた。 この測地技術は2種類のドローン(DJI Mavic ProとPhantom 4 Pro)でテストされ、平均測地精度は2.8mと評価された。 このGPSタグ付けにより、ヤシの木を独自に識別し、一連のドローン画像からその数を数えることができ、画像重複の問題に正しく対処できます。 さらに、UAV画像内の他の物体の位置に一般化することができる。

In this paper, we propose a deep learning framework for the automated counting and geolocation of palm trees from aerial images using convolutional neural networks. For this purpose, we collected aerial images in a palm tree Farm in the Kharj region, in Riyadh Saudi Arabia, using DJI drones, and we built a dataset of around 10,000 instances of palms trees. Then, we developed a convolutional neural network model using the state-of-the-art, Faster R-CNN algorithm. Furthermore, using the geotagged metadata of aerial images, we used photogrammetry concepts and distance corrections to detect the geographical location of detected palms trees automatically. This geolocation technique was tested on two different types of drones (DJI Mavic Pro, and Phantom 4 Pro), and was assessed to provide an average geolocation accuracy of 2.8m. This GPS tagging allows us to uniquely identify palm trees and count their number from a series of drone images, while correctly dealing with the issue of image overlapping. Moreover, it can be generalized to the geolocation of any other objects in UAV images.
翻訳日:2022-12-04 20:11:50 公開日:2020-05-11
# 表現学習とニューロモルフィックコンピューティングを用いた深部医用画像解析

Deep Medical Image Analysis with Representation Learning and Neuromorphic Computing ( http://arxiv.org/abs/2005.05431v1 )

ライセンス: Link先を確認
Neil Getty, Thomas Brettin, Dong Jin, Rick Stevens, Fangfang Xia(参考訳) 我々は,脳がんMRIデータの分類ベンチマークにおいて,3つの研究ラインを探索し,本手法の有用性を実証する。 まず,回転とアフィン変換に頑健な表現を明示的に学習するカプセルネットワークを提案する。 このモデルはトレーニングデータが少なく、元の畳み込みベースラインと以前のカプセルネットワークの実装を上回っている。 第2に、最新のドメイン適応技術を活用して、新しい最先端の精度を実現する。 実験の結果,非医用画像はモデルの性能向上に有効であることがわかった。 最後に、intel loihiニューロモルフィックチップでトレーニングされたスパイクニューラルネットワークを設計する(図1は推論スナップショットを示す)。 このモデルは、モデル還元によって適切な精度を保ちながら、はるかに低い電力を消費する。 ハードウェアと学習の進歩を組み合わせたこの方向の研究が、将来の医療画像(オンデバイスai、少数ショット予測、アダプティブスキャン)に寄与すると確信している。

We explore three representative lines of research and demonstrate the utility of our methods on a classification benchmark of brain cancer MRI data. First, we present a capsule network that explicitly learns a representation robust to rotation and affine transformation. This model requires less training data and outperforms both the original convolutional baseline and a previous capsule network implementation. Second, we leverage the latest domain adaptation techniques to achieve a new state-of-the-art accuracy. Our experiments show that non-medical images can be used to improve model performance. Finally, we design a spiking neural network trained on the Intel Loihi neuromorphic chip (Fig. 1 shows an inference snapshot). This model consumes much lower power while achieving reasonable accuracy given model reduction. We posit that more research in this direction combining hardware and learning advancements will power future medical imaging (on-device AI, few-shot prediction, adaptive scanning).
翻訳日:2022-12-04 20:11:31 公開日:2020-05-11
# ニューラルネットワークを用いた単眼歩行者姿勢推定のためのオンラインモニタリング

Online Monitoring for Neural Network Based Monocular Pedestrian Pose Estimation ( http://arxiv.org/abs/2005.05451v1 )

ライセンス: Link先を確認
Arjun Gupta and Luca Carlone(参考訳) いくつかの自律パイプラインには、ディープラーニングアプローチに依存するコアコンポーネントがある。 これらのアプローチは名目上はうまく機能するが、自動運転車を含む安全クリティカルなアプリケーションで使用される場合、予期せぬ、深刻な障害モードが生じる傾向にある。 オフラインでのネットワークのロバスト性を特徴付ける作業はいくつかあるが、現在、運用中のネットワーク出力の正しさを監視するツールが不足している。 画像から3次元の人体形状とポーズを推定するニューラルネットワークのオンライン出力監視の問題点について検討する。 最初のコントリビューションは、人間の目的と形状の再構成ネットワークのためのモデルベースおよび学習ベースのモニターを提示、評価し、与えられたテスト入力の出力損失を予測する能力を評価することである。 第2の貢献として、データからの損失を効果的に予測する方法を学ぶAdversarially-Trained Online Monitor (ATOM)を導入する。 ATOMはモデルベースのベースラインを支配し、悪い出力を検出できるため、人間のポーズの出力品質が大幅に向上する。 最終的な貢献は、atomによる不正な出力の廃棄が平均エラーを12.5%改善し、最悪のケースエラーを126.5%改善することを示す、広範な実験的評価です。

Several autonomy pipelines now have core components that rely on deep learning approaches. While these approaches work well in nominal conditions, they tend to have unexpected and severe failure modes that create concerns when used in safety-critical applications, including self-driving cars. There are several works that aim to characterize the robustness of networks offline, but currently there is a lack of tools to monitor the correctness of network outputs online during operation. We investigate the problem of online output monitoring for neural networks that estimate 3D human shapes and poses from images. Our first contribution is to present and evaluate model-based and learning-based monitors for a human-pose-and-shape reconstruction network, and assess their ability to predict the output loss for a given test input. As a second contribution, we introduce an Adversarially-Trained Online Monitor ( ATOM ) that learns how to effectively predict losses from data. ATOM dominates model-based baselines and can detect bad outputs, leading to substantial improvements in human pose output quality. Our final contribution is an extensive experimental evaluation that shows that discarding outputs flagged as incorrect by ATOM improves the average error by 12.5%, and the worst-case error by 126.5%.
翻訳日:2022-12-04 20:11:18 公開日:2020-05-11
# ニューラルネットワークを用いた高次元ハミルトン・ヤコビ・ベルマンPDEの解法-制御拡散の理論と経路空間の測定から

Solving high-dimensional Hamilton-Jacobi-Bellman PDEs using neural networks: perspectives from the theory of controlled diffusions and measures on path space ( http://arxiv.org/abs/2005.05409v1 )

ライセンス: Link先を確認
Nikolas N\"usken, Lorenz Richter(参考訳) 拡散過程の最適制御は、ハミルトン・ヤコビ・ベルマン方程式を解く問題と密接に結びついている。 近年の機械学習による高次元PDEへのアプローチを基礎として,特に重要サンプリングや希少事象シミュレーションへの応用を考慮し,反復拡散最適化手法の可能性を検討する。 アルゴリズム設計の中心的な要素である適切な損失関数の選択により、既存の様々な手法を包含する経路測度の相違に基づく原理的枠組みを構築する。 前方方向のSDEとの接続によって動機付けされ、対応するモンテカルロ推定器の好ましい特性を示す新しい対数分散分散を提案し、研究する。 先進的なアプローチの期待は、高次元および準安定な数値例の範囲で示される。

Optimal control of diffusion processes is intimately connected to the problem of solving certain Hamilton-Jacobi-Bellman equations. Building on recent machine learning inspired approaches towards high-dimensional PDEs, we investigate the potential of iterative diffusion optimisation techniques, in particular considering applications in importance sampling and rare event simulation. The choice of an appropriate loss function being a central element in the algorithmic design, we develop a principled framework based on divergences between path measures, encompassing various existing methods. Motivated by connections to forward-backward SDEs, we propose and study the novel log-variance divergence, showing favourable properties of corresponding Monte Carlo estimators. The promise of the developed approach is exemplified by a range of high-dimensional and metastable numerical examples.
翻訳日:2022-12-04 20:10:38 公開日:2020-05-11
# 文レベル言語モデルによるより良いストーリーラインを目指して

Toward Better Storylines with Sentence-Level Language Models ( http://arxiv.org/abs/2005.05255v1 )

ライセンス: Link先を確認
Daphne Ippolito, David Grangier, Douglas Eck, Chris Callison-Burch(参考訳) 文レベルの言語モデルを提案し, 有限個の不規則な選択肢から, 物語中の次の文を選択する。 フルエンシーをモデル化する必要がないため、文レベルの言語モデルはより長い範囲の依存関係に焦点を当てることができる。 個々の単語を扱うのではなく,事前学習された文の埋め込みのリストとして扱い,単語の埋め込みを予測するよりも効率的な次の文の埋め込みを予測する。 特筆すべきは、トレーニング中に次の文の候補を多数検討できることです。 本手法は,教師なしストーリークローズタスクにおける最先端精度と,大規模次文予測タスクにおける有望な効果を示す。

We propose a sentence-level language model which selects the next sentence in a story from a finite set of fluent alternatives. Since it does not need to model fluency, the sentence-level language model can focus on longer range dependencies, which are crucial for multi-sentence coherence. Rather than dealing with individual words, our method treats the story so far as a list of pre-trained sentence embeddings and predicts an embedding for the next sentence, which is more efficient than predicting word embeddings. Notably this allows us to consider a large number of candidates for the next sentence during training. We demonstrate the effectiveness of our approach with state-of-the-art accuracy on the unsupervised Story Cloze task and with promising results on larger-scale next sentence prediction tasks.
翻訳日:2022-12-04 20:10:05 公開日:2020-05-11
# FedSplit: 高速なフェデレーション最適化のためのアルゴリズムフレームワーク

FedSplit: An algorithmic framework for fast federated optimization ( http://arxiv.org/abs/2005.05238v1 )

ライセンス: Link先を確認
Reese Pathak, Martin J. Wainwright(参考訳) 本稿では,分散最適化のハブ・アンド・スポークモデルについて考察し,中央機関が通信を制限しながら,多数のエージェント間で解の計算を協調させる。 まず, 従来のフェデレーション最適化手法について検討し, その固定点が, 決定論的更新を伴う単純な凸設定であっても, 元の最適化問題の定常点と一致しないことを示す。 これらの問題を解決するために,演算子分割法に基づくアルゴリズムであるFedSplitを導入し,分散凸最小化を加法構造で解く。 これらの手順が元の最適化問題の最適値に対応する正しい固定点を持つことを証明し、それらの収束率を異なる設定で特徴づける。 本理論は,これらの手法が中間局所量の不等式計算に頑健であることを示す。 我々は我々の理論を、実践における方法の利点を示すいくつかの簡単な実験で補完する。

Motivated by federated learning, we consider the hub-and-spoke model of distributed optimization in which a central authority coordinates the computation of a solution among many agents while limiting communication. We first study some past procedures for federated optimization, and show that their fixed points need not correspond to stationary points of the original optimization problem, even in simple convex settings with deterministic updates. In order to remedy these issues, we introduce FedSplit, a class of algorithms based on operator splitting procedures for solving distributed convex minimization with additive structure. We prove that these procedures have the correct fixed points, corresponding to optima of the original optimization problem, and we characterize their convergence rates under different settings. Our theory shows that these methods are provably robust to inexact computation of intermediate local quantities. We complement our theory with some simple experiments that demonstrate the benefits of our methods in practice.
翻訳日:2022-12-04 20:04:15 公開日:2020-05-11
# Si:Hナノワイヤの多結晶ガウスプロセスによる実証電位開発

Multi-Fidelity Gaussian Process based Empirical Potential Development for Si:H Nanowires ( http://arxiv.org/abs/2005.08638v1 )

ライセンス: Link先を確認
Moonseop Kim, Huayi Yin, Guang Lin(参考訳) 材料モデリングでは, 経験的ポテンシャルを用いた計算速度は, 第一原理計算に比べて速いが, 第一原理計算ほど正確ではない。 第一原理計算は正確だが、計算には時間がかかる。 本研究では,まずH-H結合エネルギーとH$_2$-H$_2$相互作用エネルギーを,テルソフ実験ポテンシャルに適用可能な第一原理計算を用いて計算する。 次に、H-Hパラメータを推定する。 H-Hパラメータを装着すると、機械的特性が得られる。 最後に、H-H結合エネルギーとH$_2$-H$_2$相互作用エネルギーを予測するために、低忠実性経験ポテンシャルデータと高忠実度第一原理計算のデータの両方を統合するために、多忠実性ガウス過程回帰を用いる。 数値計算により, 発達した経験的ポテンシャルの精度が示された。

In material modeling, the calculation speed using the empirical potentials is fast compared to the first principle calculations, but the results are not as accurate as of the first principle calculations. First principle calculations are accurate but slow and very expensive to calculate. In this work, first, the H-H binding energy and H$_2$-H$_2$ interaction energy are calculated using the first principle calculations which can be applied to the Tersoff empirical potential. Second, the H-H parameters are estimated. After fitting H-H parameters, the mechanical properties are obtained. Finally, to integrate both the low-fidelity empirical potential data and the data from the high-fidelity first-principle calculations, the multi-fidelity Gaussian process regression is employed to predict the H-H binding energy and the H$_2$-H$_2$ interaction energy. Numerical results demonstrate the accuracy of the developed empirical potentials.
翻訳日:2022-12-04 20:02:38 公開日:2020-05-11
# 視覚的ソーシャルディスタンシング問題

The Visual Social Distancing Problem ( http://arxiv.org/abs/2005.04813v1 )

ライセンス: Link先を確認
Marco Cristani, Alessio Del Bue, Vittorio Murino, Francesco Setti and Alessandro Vinciarelli(参考訳) 近年の流行を封じ込めた最も効果的な対策の1つは、いわゆる「ソーシャルディスタンシング(Social Distancing、SD)」の維持である。 この制約に従うために、職場、公共機関、交通機関、学校は、人間距離を最小限に制限する可能性が高い。 この実際のシナリオを考えると、そのような距離制限の考えられる原因を解明するために、私たちの人生におけるそのような物理的制約へのコンプライアンスを大規模に測定することが不可欠であり、このことがシーンの文脈によって起こりうる脅威を意味するかどうかを理解することが重要である。 これらすべては、プライバシーポリシーに従い、測定を許容するものだ。 そこで本研究では,画像からの個人間距離の自動推定と関連する人物集団のキャラクタリゼーションとして定義される視覚ソーシャルディスタンシング(vsd)問題を紹介する。 VSDは、人々がSD制限に準拠するかどうかを非侵襲分析し、この制約に違反するたびに特定の領域の安全性のレベルに関する統計を提供するために重要である。 次に,vsdがこれまでの社会信号処理における文献とどのように関連しているかを考察し,その課題を管理するために既存のコンピュータビジョン手法が利用できるかを示す。 我々は、VSDシステムの有効性、倫理的意味、将来のアプリケーションシナリオに関する今後の課題を結論付けている。

One of the main and most effective measures to contain the recent viral outbreak is the maintenance of the so-called Social Distancing (SD). To comply with this constraint, workplaces, public institutions, transports and schools will likely adopt restrictions over the minimum inter-personal distance between people. Given this actual scenario, it is crucial to massively measure the compliance to such physical constraint in our life, in order to figure out the reasons of the possible breaks of such distance limitations, and understand if this implies a possible threat given the scene context. All of this, complying with privacy policies and making the measurement acceptable. To this end, we introduce the Visual Social Distancing (VSD) problem, defined as the automatic estimation of the inter-personal distance from an image, and the characterization of the related people aggregations. VSD is pivotal for a non-invasive analysis to whether people comply with the SD restriction, and to provide statistics about the level of safety of specific areas whenever this constraint is violated. We then discuss how VSD relates with previous literature in Social Signal Processing and indicate which existing Computer Vision methods can be used to manage such problem. We conclude with future challenges related to the effectiveness of VSD systems, ethical implications and future application scenarios.
翻訳日:2022-12-04 20:02:23 公開日:2020-05-11
# 意味的類似度指標と経験的KL発散によるハッシュ学習

Learning to hash with semantic similarity metrics and empirical KL divergence ( http://arxiv.org/abs/2005.04917v1 )

ライセンス: Link先を確認
Heikki Arponen and Tom E. Bishop(参考訳) ハッシュの学習は、大規模データベースからの近接探索を正確に、そして近似的に行うための効率的なパラダイムである。 バイナリハッシュコードは、通常、cnnから出力された機能を丸めることで画像から抽出される。 このアプローチの欠点は次のとおりです。 (i)結果のコードは、必ずしも入力データの意味的類似性を捉えない (ii)丸めは情報損失をもたらし、検索性能の低下を表わす。 (iii) 目的としてクラスワイドの類似性のみを使用することで、より複雑な関係を学習するのではなく、単純に分類器出力を符号化する。 我々は乗り越える (i) 学習特徴の相対的なハッシュコード距離を目標から派生したものと一致させる新規な損失関数を介して。 挨拶します (ii) ネットワーク出力とバイナリターゲット分布のKL分散の微分可能な推定により、特徴がバイナリに丸められたときの情報損失が最小となる。 最後に私たちは (iii)階層的精度指標に着目した。 CIFAR-100, ImageNet, Conceptual Captionsデータセットのセマンティック画像検索では,WordNetラベル階層や文の埋め込みから推定される類似性を用いて,提案手法の有効性を示す。

Learning to hash is an efficient paradigm for exact and approximate nearest neighbor search from massive databases. Binary hash codes are typically extracted from an image by rounding output features from a CNN, which is trained on a supervised binary similar/ dissimilar task. Drawbacks of this approach are: (i) resulting codes do not necessarily capture semantic similarity of the input data (ii) rounding results in information loss, manifesting as decreased retrieval performance and (iii) Using only class-wise similarity as a target can lead to trivial solutions, simply encoding classifier outputs rather than learning more intricate relations, which is not detected by most performance metrics. We overcome (i) via a novel loss function encouraging the relative hash code distances of learned features to match those derived from their targets. We address (ii) via a differentiable estimate of the KL divergence between network outputs and a binary target distribution, resulting in minimal information loss when the features are rounded to binary. Finally, we resolve (iii) by focusing on a hierarchical precision metric. Efficiency of the methods is demonstrated with semantic image retrieval on the CIFAR-100, ImageNet and Conceptual Captions datasets, using similarities inferred from the WordNet label hierarchy or sentence embeddings.
翻訳日:2022-12-04 20:02:02 公開日:2020-05-11
# CTにおける組織局在の深部強化学習

Deep Reinforcement Learning for Organ Localization in CT ( http://arxiv.org/abs/2005.04974v1 )

ライセンス: Link先を確認
Fernando Navarro, Anjany Sekuboyina, Diana Waldmannstetter, Jan C. Peeken, Stephanie E. Combs and Bjoern H. Menze(参考訳) ctスキャンにおける臓器のロバストな局在は、臓器特異的画像検索、放射線治療計画、および介入画像解析のための常に前処理要件である。 大量のアノテートデータを必要とする全領域探索や領域提案に基づく現在のソリューションとは対照的に,CTにおける臓器局所化のための深層強化学習手法を提案する。 この研究において、人工エージェントは、その主張や誤りから学習することで、CT内の臓器の局所化を積極的に行う。 強化学習の文脈において,CTにおける臓器局所化に適した新しいアクションセットを提案する。 本手法は任意の臓器をローカライズするためのプラグアンドプレイモジュールとして使用できる。 様々な視野と複数の臓器を有するCTスキャンを含むパブリックVISCERALデータセット上で,提案手法の評価を行った。 我々は0.63、絶対中央壁距離2.25mm、中心壁距離3.65mmの全体交点を達成した。

Robust localization of organs in computed tomography scans is a constant pre-processing requirement for organ-specific image retrieval, radiotherapy planning, and interventional image analysis. In contrast to current solutions based on exhaustive search or region proposals, which require large amounts of annotated data, we propose a deep reinforcement learning approach for organ localization in CT. In this work, an artificial agent is actively self-taught to localize organs in CT by learning from its asserts and mistakes. Within the context of reinforcement learning, we propose a novel set of actions tailored for organ localization in CT. Our method can use as a plug-and-play module for localizing any organ of interest. We evaluate the proposed solution on the public VISCERAL dataset containing CT scans with varying fields of view and multiple organs. We achieved an overall intersection over union of 0.63, an absolute median wall distance of 2.25 mm, and a median distance between centroids of 3.65 mm.
翻訳日:2022-12-04 20:01:13 公開日:2020-05-11
# RKHSにおける滑らか関数のマルチスケールゼロ次最適化

Multi-Scale Zero-Order Optimization of Smooth Functions in an RKHS ( http://arxiv.org/abs/2005.04832v1 )

ライセンス: Link先を確認
Shubhanshu Shekhar, Tara Javidi(参考訳) ブラックボックス関数 $f:\mathcal{x} \mapsto \mathbb{r}$ を最適化するために、$f$ が h\"old smooth であると仮定し、与えられたカーネル $k$ に関連付けられた rkhs において有界ノルムを持つ。 この問題は、カーネル$K$で適切に構築されたGPサロゲートモデルを用いて、上位信頼境界(UCB)アルゴリズムを得るような、非依存のガウス過程(GP)バンディット解釈を持つことが知られている。 本稿では,H\"older smooth function $f$ の局所多項式 (LP) 推定器で通常のGPサロゲートモデルを拡張した新しいアルゴリズム (\texttt{LP-GP-UCB}) を提案し,オプティマイザの探索を導くマルチスケール UCB を構築する。 このアルゴリズムを解析し,その単純かつ累積的後悔に基づいて高い確率境界を求める。 すると、多くの共通RKHSの元が H\ より滑らかであり、対応する H\ より古い滑らか度パラメータが得られ、したがって、いくつかのよく使われるカーネルに対する後悔境界を特殊化する。 2乗指数 (se) カーネルに特化した場合、 \texttt{lp-gp-ucb} は最適性能に合致するが、mat\'ern カーネルの場合は $(k_{\nu})_{\nu>0} である。 最も注目すべきは、ある範囲の$\nu$に対して、アルゴリズムは単純かつ累積的後悔に対する準最適境界を達成し、アルゴリズムに依存しない下界をポリログ因子に一致させ、これらの値に対して既存の上界と下界の間の大きなギャップを閉じる。 さらに、我々の分析は、RQ(Rational-Quadratic)とGE(Gamma-Exponential)の予算$n$という最初の明示的な後悔境界を提供する。 最後に、CNNハイパーパラメータチューニングタスクと同様に合成関数を用いた実験により、既存のアルゴリズムに対するマルチスケールパーティショニングアプローチの実用的利点を数値的に示す。

We aim to optimize a black-box function $f:\mathcal{X} \mapsto \mathbb{R}$ under the assumption that $f$ is H\"older smooth and has bounded norm in the RKHS associated with a given kernel $K$. This problem is known to have an agnostic Gaussian Process (GP) bandit interpretation in which an appropriately constructed GP surrogate model with kernel $K$ is used to obtain an upper confidence bound (UCB) algorithm. In this paper, we propose a new algorithm (\texttt{LP-GP-UCB}) where the usual GP surrogate model is augmented with Local Polynomial (LP) estimators of the H\"older smooth function $f$ to construct a multi-scale UCB guiding the search for the optimizer. We analyze this algorithm and derive high probability bounds on its simple and cumulative regret. We then prove that the elements of many common RKHS are H\"older smooth and obtain the corresponding H\"older smoothness parameters, and hence, specialize our regret bounds for several commonly used kernels. When specialized to the Squared Exponential (SE) kernel, \texttt{LP-GP-UCB} matches the optimal performance, while for the case of Mat\'ern kernels $(K_{\nu})_{\nu>0}$, it results in uniformly tighter regret bounds for all values of the smoothness parameter $\nu>0$. Most notably, for certain ranges of $\nu$, the algorithm achieves near-optimal bounds on simple and cumulative regrets, matching the algorithm-independent lower bounds up to polylog factors, and thus closing the large gap between the existing upper and lower bounds for these values of $\nu$. Additionally, our analysis provides the first explicit regret bounds, in terms of the budget $n$, for the Rational-Quadratic (RQ) and Gamma-Exponential (GE). Finally, experiments with synthetic functions as well as a CNN hyperparameter tuning task demonstrate the practical benefits of our multi-scale partitioning approach over some existing algorithms numerically.
翻訳日:2022-12-04 19:54:32 公開日:2020-05-11
# 高次元データセットのためのアンサンブルスパース入力階層ネットワーク

Ensembled sparse-input hierarchical networks for high-dimensional datasets ( http://arxiv.org/abs/2005.04834v1 )

ライセンス: Link先を確認
Jean Feng and Noah Simon(参考訳) ニューラルネットワークは、既存の市販の機械学習手法よりも多くのハイパーパラメータをチューニングする必要があるため、サンプルサイズが小さい高次元データの予測に制限がある。 ネットワークアーキテクチャとトレーニング手順の小さな変更により、これらの設定において、高密度ニューラルネットワークが実用的なデータ分析ツールとなることを示す。 提案手法は,2つのL1ペナルティパラメータのみを調整し,それぞれが入力空間を制御し,もう1つは隠れた層やノードの数を制御することで,ネットワーク構造を適切に推定する。 この方法は、無関係な共変数が応答と弱相関しているだけであれば、真の支持から変数を選択する;さもなくば、強相関共変数が同様の速度で選択されるグループ化効果を示す。 EASIER-netは、異なるサイズの実世界のデータセットのコレクションにおいて、データ適応方式でネットワークアーキテクチャを選択し、平均的なオフザシェルフ手法よりも高い予測精度を達成した。

Neural networks have seen limited use in prediction for high-dimensional data with small sample sizes, because they tend to overfit and require tuning many more hyperparameters than existing off-the-shelf machine learning methods. With small modifications to the network architecture and training procedure, we show that dense neural networks can be a practical data analysis tool in these settings. The proposed method, Ensemble by Averaging Sparse-Input Hierarchical networks (EASIER-net), appropriately prunes the network structure by tuning only two L1-penalty parameters, one that controls the input sparsity and another that controls the number of hidden layers and nodes. The method selects variables from the true support if the irrelevant covariates are only weakly correlated with the response; otherwise, it exhibits a grouping effect, where strongly correlated covariates are selected at similar rates. On a collection of real-world datasets with different sizes, EASIER-net selected network architectures in a data-adaptive manner and achieved higher prediction accuracy than off-the-shelf methods on average.
翻訳日:2022-12-04 19:53:47 公開日:2020-05-11
# 降水量と応用機械学習技術のレーダベース流し込みの検討

A review of radar-based nowcasting of precipitation and applicable machine learning techniques ( http://arxiv.org/abs/2005.04988v1 )

ライセンス: Link先を確認
Rachel Prudden, Samantha Adams, Dmitry Kangin, Niall Robinson, Suman Ravuri, Shakir Mohamed, Alberto Arribas(参考訳) ノウキャスト(英:nowcast)は、気象予報の一種で、通常は2時間未満で、従来の数値的な天気予報が制限される期間である。 この種の気象予報は、商業航空、公共および屋外のイベント、建設産業、電力公益事業、および屋外での仕事の多くを行う地上輸送サービスにおいて重要な用途を持っている。 重要なのは、このような状況下での生活と財産の保護のために、大雨や洪水などの悪天候イベントの正確な警告を提供することである。 典型的な流し込み手法は、観測、主に降雨レーダに適用される単純な外挿モデルに基づいている。 本稿では,環境科学からのレーダベース放送の既存の手法と,機械学習の分野から適用可能な統計的アプローチについて述べる。 nowcastingは引き続き運用システムの重要なコンポーネントであり、環境科学と機械学習コミュニティの新たなパートナーシップによって、新たな進歩が可能になると信じています。

A 'nowcast' is a type of weather forecast which makes predictions in the very short term, typically less than two hours - a period in which traditional numerical weather prediction can be limited. This type of weather prediction has important applications for commercial aviation; public and outdoor events; and the construction industry, power utilities, and ground transportation services that conduct much of their work outdoors. Importantly, one of the key needs for nowcasting systems is in the provision of accurate warnings of adverse weather events, such as heavy rain and flooding, for the protection of life and property in such situations. Typical nowcasting approaches are based on simple extrapolation models applied to observations, primarily rainfall radar. In this paper we review existing techniques to radar-based nowcasting from environmental sciences, as well as the statistical approaches that are applicable from the field of machine learning. Nowcasting continues to be an important component of operational systems and we believe new advances are possible with new partnerships between the environmental science and machine learning communities.
翻訳日:2022-12-04 19:53:10 公開日:2020-05-11
# 無線ネットワークにおけるセンサローカライゼーションの統計的学習

Statistical learning for sensor localization in wireless networks ( http://arxiv.org/abs/2005.05097v1 )

ライセンス: Link先を確認
Daniel Alshamaa, Farah Chehade, Paul Honeine(参考訳) 無線センサネットワークにおける屋内ローカライズが重要な課題となっている。 本稿では,Wi-Fi信号を用いて屋内環境下で効率よく機能するゾーニング方式のローカライズ手法を提案する。 対象領域は複数のゾーンから構成されており、統計的学習に基づく観測モデルを用いてセンサのゾーンを決定することが目的である。

Indoor localization has become an important issue for wireless sensor networks. This paper presents a zoning-based localization technique that uses WiFi signals and works efficiently in indoor environments. The targeted area is composed of several zones, the objective being to determine the zone of the sensor using an observation model based on statistical learning.
翻訳日:2022-12-04 19:52:42 公開日:2020-05-11
# ECG-DelNet:ニューラルネットワークを用いた混合品質ラベル付心電図の表示

ECG-DelNet: Delineation of Ambulatory Electrocardiograms with Mixed Quality Labeling Using Neural Networks ( http://arxiv.org/abs/2005.05236v1 )

ライセンス: Link先を確認
Guillermo Jimenez-Perez and Alejandro Alcaine and Oscar Camara(参考訳) 心電図(ECG)の検出とデライン化は,心電図が心疾患の診断に最も有効な非侵襲的検査であるため,臨床実践における多くの課題において重要なステップである。 最先端のアルゴリズムはデジタル信号処理(DSP)を採用しており、新しい形態に厳格な規則を適用する必要がある。 対照的に、特に分類のためのディープラーニング(dl)アルゴリズムは、学術的および工業的な環境で重み付けされている。 しかし、モデル説明可能性の欠如と小さなデータベースが適用性を妨げている。 セグメンテーションフレームワークにECGの検出とデライン化を組み込むことにより、低解釈タスクにDLをうまく適用できることを実証する。 そこで我々は,画像分割のためのニューラルネットワークアーキテクチャであるU-Netを1次元データに適用し,検証した。 このモデルは、シングルリードシナリオとマルチリードシナリオのために、105個の増幅ECG記録からなるPhyloNetのQTデータベースを使用してトレーニングされた。 データ不足を軽減するため、低品質のデータラベルによる事前トレーニング、ECGベースのデータ拡張、強力なモデル正規化器をアーキテクチャに適用するといったデータ正規化手法を試みた。 モデル容量の他のバリエーション(u-netの深さと幅)と最先端の追加の適用について評価した。 これらのバリエーションは5倍のクロスバリデーション方法で徹底的に検証された。 最高の性能設定は90.12%、99.14%、98.25%の精度に達し、それぞれ98.73%、99.94%、99.88%のP波、QRS波、T波をDSPベースのアプローチで再現した。 DLベースのアプローチは、小さなデータセットでトレーニングされたデータハングリー技術であるにもかかわらず、従来のDSPベースのECG処理技術に代わる実行可能な代替手段であることを実証している。

Electrocardiogram (ECG) detection and delineation are key steps for numerous tasks in clinical practice, as ECG is the most performed non-invasive test for assessing cardiac condition. State-of-the-art algorithms employ digital signal processing (DSP), which require laborious rule adaptation to new morphologies. In contrast, deep learning (DL) algorithms, especially for classification, are gaining weight in academic and industrial settings. However, the lack of model explainability and small databases hinder their applicability. We demonstrate DL can be successfully applied to low interpretative tasks by embedding ECG detection and delineation onto a segmentation framework. For this purpose, we adapted and validated the most used neural network architecture for image segmentation, the U-Net, to one-dimensional data. The model was trained using PhysioNet's QT database, comprised of 105 ambulatory ECG recordings, for single- and multi-lead scenarios. To alleviate data scarcity, data regularization techniques such as pre-training with low-quality data labels, performing ECG-based data augmentation and applying strong model regularizers to the architecture were attempted. Other variations in the model's capacity (U-Net's depth and width), alongside the application of state-of-the-art additions, were evaluated. These variations were exhaustively validated in a 5-fold cross-validation manner. The best performing configuration reached precisions of 90.12%, 99.14% and 98.25% and recalls of 98.73%, 99.94% and 99.88% for the P, QRS and T waves, respectively, on par with DSP-based approaches. Despite being a data-hungry technique trained on a small dataset, DL-based approaches demonstrate to be a viable alternative to traditional DSP-based ECG processing techniques.
翻訳日:2022-12-04 19:52:15 公開日:2020-05-11
# 非ランダムラベル雑音を伴う部分ラベル学習のための多レベル生成モデル

Multi-Level Generative Models for Partial Label Learning with Non-random Label Noise ( http://arxiv.org/abs/2005.05407v1 )

ライセンス: Link先を確認
Yan Yan, Yuhong Guo(参考訳) 部分ラベル(PL)学習は、各トレーニングインスタンスが真のラベルと無関係なノイズラベルを含む候補ラベルのセットと関連付けられている問題に取り組む。 本稿では,ラベルベクトルとデータサンプルの双方向マッピングフレームワークを用いて,ラベルレベル逆生成器と特徴レベル逆生成器の両方を学習することにより,問題に対処する,部分ラベル学習のための多レベル生成モデル(mgpll)を提案する。 特に、mgpllは、条件付きノイズラベル生成ネットワークを使用して、非ランダムノイズラベルをモデル化し、ラベル修飾を行い、マルチクラス予測器を使用して、トレーニングインスタンスをデノー化ラベルベクトルにマッピングし、条件付きデータ特徴生成器を使用して、デノー化ラベルベクトルからデータサンプルへの逆マッピングを生成する。 ノイズラベル生成装置とデータ特徴生成装置とを、観測された候補ラベルとデータ特徴とをそれぞれ一致させる敵意的に学習する。 合成および実世界の部分ラベルデータセットに対して大規模な実験を行う。 提案手法は,部分ラベル学習における最先端性能を示す。

Partial label (PL) learning tackles the problem where each training instance is associated with a set of candidate labels that include both the true label and irrelevant noise labels. In this paper, we propose a novel multi-level generative model for partial label learning (MGPLL), which tackles the problem by learning both a label level adversarial generator and a feature level adversarial generator under a bi-directional mapping framework between the label vectors and the data samples. Specifically, MGPLL uses a conditional noise label generation network to model the non-random noise labels and perform label denoising, and uses a multi-class predictor to map the training instances to the denoised label vectors, while a conditional data feature generator is used to form an inverse mapping from the denoised label vectors to data samples. Both the noise label generator and the data feature generator are learned in an adversarial manner to match the observed candidate labels and data features respectively. Extensive experiments are conducted on synthesized and real-world partial label datasets. The proposed approach demonstrates the state-of-the-art performance for partial label learning.
翻訳日:2022-12-04 19:46:02 公開日:2020-05-11
# ドメイン特化前処理とBERTによるTwitterの副作用検出

Detecting Adverse Drug Reactions from Twitter through Domain-Specific Preprocessing and BERT Ensembling ( http://arxiv.org/abs/2005.06634v1 )

ライセンス: Link先を確認
Amy Breden, Lee Moore(参考訳) ソーシャルメディアにおける有害薬物反応(ADR)検出の自動化は、日常的に処方される薬物の安全性を確保するために、薬物規制、医薬品産業、一般大衆を支援する薬局の実践に革命をもたらす。 2019年8月のSocial Media Mining for Health (SMM4H) Applications Workshop & Shared Task(SMM4H)の公開手続きに続いて、Twitterのつぶやきの中でADRを分類する深層学習モデルの開発を目指していた。 提案手法は、$BERT_{LARGE}$と$BioBERT$と$Bio + ClinicalBERT$の2つのドメイン固有のBERT実装を微調整し、ドメイン固有のプリプロセッサを適用し、最大予測アンサンブルアプローチを開発した。 最終モデルは、$F_1$-score (0.6681) とリコール (0.7700) の両方で、SMM4H 2019と評価後のすべてのモデルを上回った。

The automation of adverse drug reaction (ADR) detection in social media would revolutionize the practice of pharmacovigilance, supporting drug regulators, the pharmaceutical industry and the general public in ensuring the safety of the drugs prescribed in daily practice. Following from the published proceedings of the Social Media Mining for Health (SMM4H) Applications Workshop & Shared Task in August 2019, we aimed to develop a deep learning model to classify ADRs within Twitter tweets that contain drug mentions. Our approach involved fine-tuning $BERT_{LARGE}$ and two domain-specific BERT implementations, $BioBERT$ and $Bio + clinicalBERT$, applying a domain-specific preprocessor, and developing a max-prediction ensembling approach. Our final model resulted in state-of-the-art performance on both $F_1$-score (0.6681) and recall (0.7700) outperforming all models submitted in SMM4H 2019 and during post-evaluation to date.
翻訳日:2022-12-04 19:44:27 公開日:2020-05-11
# 船舶軌道圧縮の最適化

Optimizing Vessel Trajectory Compression ( http://arxiv.org/abs/2005.05418v1 )

ライセンス: Link先を確認
Giannis Fikioris, Kostas Patroumpas, Alexander Artikis(参考訳) 前回の作業では,ais位置決めメッセージをオンラインで消費することにより,血管軌跡の要約表現を提供できる軌道検出モジュールを導入した。 この手法は、生データの少なくとも70%を冗長として廃棄することにより、元のコースからほとんど逸脱しない信頼性の高い軌道合成を提供することができる。 しかし、そのような軌道圧縮はパラメトリゼーションに非常に敏感である。 本稿では,パラメータ値の選択を微調整することを目的とする。 近似誤差と圧縮比の両面から, 軌道合成の精度を向上させるための適切な構成を提供するため, 各容器のタイプを考慮に入れた。 さらに,血管タイプ毎に適切な構成に収束する遺伝的アルゴリズムを用いる。 AISデータセットに対する我々のテストでは、圧縮効率は、面倒なデータ検査に頼らずに、デフォルトのパラメトリゼーションを持つものよりも同等かそれ以上良いことが示されている。

In previous work we introduced a trajectory detection module that can provide summarized representations of vessel trajectories by consuming AIS positional messages online. This methodology can provide reliable trajectory synopses with little deviations from the original course by discarding at least 70% of the raw data as redundant. However, such trajectory compression is very sensitive to parametrization. In this paper, our goal is to fine-tune the selection of these parameter values. We take into account the type of each vessel in order to provide a suitable configuration that can yield improved trajectory synopses, both in terms of approximation error and compression ratio. Furthermore, we employ a genetic algorithm converging to a suitable configuration per vessel type. Our tests against a publicly available AIS dataset have shown that compression efficiency is comparable or even better than the one with default parametrization without resorting to a laborious data inspection.
翻訳日:2022-12-04 19:44:04 公開日:2020-05-11
# 強化スパイクスによるシナプス学習

Synaptic Learning with Augmented Spikes ( http://arxiv.org/abs/2005.04820v1 )

ライセンス: Link先を確認
Qiang Yu, Shiming Song, Chenxiang Ma, Linqiang Pan, Kay Chen Tan(参考訳) 従来のニューロンモデルは情報表現と計算にアナログ値を使用し、スパイクはスパイクに使用される。 より脳的な処理パラダイムにより、スパイキングニューロンは効率と計算能力の向上を期待できる。 それらは従来のニューロンの計算を、全てまたは何も持たないスパイクによって、追加の次元の時間で拡張する。 アナログ値の精度とスパイクの時間処理能力の両方の利点があるだろうか? 本稿では,スパイク遅延に加えてスパイク係数を持つ補完情報を運ぶための拡張スパイクの概念を提案する。 新しい強化スパイクニューロンモデルとシナプス学習規則が提案され、強化スパイクのパターンを処理および学習する。 提案手法はスパイクパターンの分類,学習能力,因果関係の構築,特徴検出,ロバスト性,音響・視覚パターン認識などの実用的タスクへの適用性など,その特性と特性を体系的に把握する。 その結果,本手法の有効性と有益性を強調した。 重要なことは、我々の拡張アプローチは汎用的で、他のスパイクベースのシステムに容易に一般化することができ、ニューロモルフィックコンピューティングを含む潜在的な発展に寄与する。

Traditional neuron models use analog values for information representation and computation, while all-or-nothing spikes are employed in the spiking ones. With a more brain-like processing paradigm, spiking neurons are more promising for improvements on efficiency and computational capability. They extend the computation of traditional neurons with an additional dimension of time carried by all-or-nothing spikes. Could one benefit from both the accuracy of analog values and the time-processing capability of spikes? In this paper, we introduce a concept of augmented spikes to carry complementary information with spike coefficients in addition to spike latencies. New augmented spiking neuron model and synaptic learning rules are proposed to process and learn patterns of augmented spikes. We provide systematic insight into the properties and characteristics of our methods, including classification of augmented spike patterns, learning capacity, construction of causality, feature detection, robustness and applicability to practical tasks such as acoustic and visual pattern recognition. The remarkable results highlight the effectiveness and potential merits of our methods. Importantly, our augmented approaches are versatile and can be easily generalized to other spike-based systems, contributing to a potential development for them including neuromorphic computing.
翻訳日:2022-12-04 19:43:51 公開日:2020-05-11
# 予測報酬による部分観測環境における情報ゲインの最大化

Maximizing Information Gain in Partially Observable Environments via Prediction Reward ( http://arxiv.org/abs/2005.04912v1 )

ライセンス: Link先を確認
Yash Satsangi, Sungsu Lim, Shimon Whiteson, Frans Oliehoek, Martha White(参考訳) 部分的に観測可能な環境での情報収集は、報酬がエージェントの不確実性に依存する問題である強化学習(RL)として定式化することができる。 例えば、報酬は未知の(あるいは隠された)変数に対するエージェントの信念の負のエントロピーである。 通常、RLエージェントの報酬は状態-作用対の関数として定義され、エージェントの信念の関数としてではなく、そのようなタスクに対する深いRLメソッドの直接的な適用を妨げる。 本稿では, エージェントの信念の凸関数の最大化は, 予測報酬の最大化, 予測精度に基づく報酬の最大化によって近似できる, という単純な洞察を提供することにより, ディープRLエージェントに対する信念に基づく報酬の利用に挑戦する。 特に、負のエントロピーと期待される予測報酬の正確な誤差を導出する。 この洞察は、視覚的注意、質問応答システム、本質的なモチベーションなど、いくつかの分野における理論的な動機を与え、アクティブな知覚、アクティブな知覚、センサー配置の通常とは異なる分野との関係を強調している。 この知見に基づいて,エージェントが明確な信念推論を行うことなく,その不確実性を抑えることができる深層予測ネットワーク(DAN)を提案する。 本研究では,ショッピングモールにおける人物追跡のためのセンサ選択システムの構築と,ファッションmnist と mnist の数字分類に注目する離散モデルの学習という,dansの2つの応用について述べる。

Information gathering in a partially observable environment can be formulated as a reinforcement learning (RL), problem where the reward depends on the agent's uncertainty. For example, the reward can be the negative entropy of the agent's belief over an unknown (or hidden) variable. Typically, the rewards of an RL agent are defined as a function of the state-action pairs and not as a function of the belief of the agent; this hinders the direct application of deep RL methods for such tasks. This paper tackles the challenge of using belief-based rewards for a deep RL agent, by offering a simple insight that maximizing any convex function of the belief of the agent can be approximated by instead maximizing a prediction reward: a reward based on prediction accuracy. In particular, we derive the exact error between negative entropy and the expected prediction reward. This insight provides theoretical motivation for several fields using prediction rewards---namely visual attention, question answering systems, and intrinsic motivation---and highlights their connection to the usually distinct fields of active perception, active sensing, and sensor placement. Based on this insight we present deep anticipatory networks (DANs), which enables an agent to take actions to reduce its uncertainty without performing explicit belief inference. We present two applications of DANs: building a sensor selection system for tracking people in a shopping mall and learning discrete models of attention on fashion MNIST and MNIST digit classification.
翻訳日:2022-12-04 19:36:07 公開日:2020-05-11
# 構文スペル補正のための階層型注意変換器アーキテクチャ

Hierarchical Attention Transformer Architecture For Syntactic Spell Correction ( http://arxiv.org/abs/2005.04876v1 )

ライセンス: Link先を確認
Abhishek Niranjan, M Ali Basha Shaik, Kushal Verma(参考訳) シーケンシャル・トゥ・シーケンス問題における進歩において注目のメカニズムは促進的な役割を担っている。 トランスフォーマーアーキテクチャは機械翻訳の成果を新たに達成し、他のいくつかのシーケンス・ツー・シーケンス問題にも導入されている。 共通語彙を含む問題は、ソースおよびターゲット文における同様の意味構造と構文構造から恩恵を受けることができる。 携帯電話におけるテキスト関連のすべてのユースケースを支援するために,信頼性が高く高速なテキスト処理モジュールを構築する動機から,一般的な綴り訂正問題に取り組む。 本稿では,従来のトランスのマルチエンコーダ・シングルデコーダ変動について述べる。 文字レベル1-gramと2-gramと3-gramの入力を持つ3つのエンコーダからの出力は、デコーダの階層的な方式で処理される。 自己注意で区切られたエンコーダのコンテキストベクトルは、文字レベルでn-gram特性を増幅し、正確な復号を支援する。 samsung research によるスペル訂正データセットのモデルを示し,文字 (cer), 単語 (wer) および文 (ser) の0.11\%, 0.32\%, 0.69\%の有意な改善を報告した。 私たちのアーキテクチャも7.8倍高速で、次の最も正確なモデルから約1/3の大きさでしかありません。

The attention mechanisms are playing a boosting role in advancements in sequence-to-sequence problems. Transformer architecture achieved new state of the art results in machine translation, and it's variants are since being introduced in several other sequence-to-sequence problems. Problems which involve a shared vocabulary, can benefit from the similar semantic and syntactic structure in the source and target sentences. With the motivation of building a reliable and fast post-processing textual module to assist all the text-related use cases in mobile phones, we take on the popular spell correction problem. In this paper, we propose multi encoder-single decoder variation of conventional transformer. Outputs from the three encoders with character level 1-gram, 2-grams and 3-grams inputs are attended in hierarchical fashion in the decoder. The context vectors from the encoders clubbed with self-attention amplify the n-gram properties at the character level and helps in accurate decoding. We demonstrate our model on spell correction dataset from Samsung Research, and report significant improvement of 0.11\%, 0.32\% and 0.69\% in character (CER), word (WER) and sentence (SER) error rates from existing state-of-the-art machine-translation architectures. Our architecture is also trains ~7.8 times faster, and is only about 1/3 in size from the next most accurate model.
翻訳日:2022-12-04 19:35:07 公開日:2020-05-11
# 半監督個別処理効果推定のための実測的伝搬

Counterfactual Propagation for Semi-Supervised Individual Treatment Effect Estimation ( http://arxiv.org/abs/2005.05099v1 )

ライセンス: Link先を確認
Shonosuke Harada and Hisashi Kashima(参考訳) 個別治療効果(ITE)は、特定の目標に対して特定の行動をとる結果の期待された改善を表し、様々な領域における意思決定において重要な役割を果たす。 しかし、その評価問題は、介入研究が適用された治療に関する情報(例えば、行動)を収集し、その結果が時間的・金銭的コストの面で非常に高価であることから困難である。 本研究では,より容易に使用可能なラベル付きインスタンスを活用し,小さなラベル付きデータを用いたite推定の性能を向上させる,半教師付きite推定問題を考える。 因果推論と半教師付き学習,すなわちマッチングとラベル伝搬の2つのアイデアを組み合わせて,最初の半教師付きITT推定法である対実的伝搬を提案する。 セミリアルデータセットを用いた実験により,提案手法はITE推定におけるデータ不足問題を軽減できることを示した。

Individual treatment effect (ITE) represents the expected improvement in the outcome of taking a particular action to a particular target, and plays important roles in decision making in various domains. However, its estimation problem is difficult because intervention studies to collect information regarding the applied treatments (i.e., actions) and their outcomes are often quite expensive in terms of time and monetary costs. In this study, we consider a semi-supervised ITE estimation problem that exploits more easily-available unlabeled instances to improve the performance of ITE estimation using small labeled data. We combine two ideas from causal inference and semi-supervised learning, namely, matching and label propagation, respectively, to propose counterfactual propagation, which is the first semi-supervised ITE estimation method. Experiments using semi-real datasets demonstrate that the proposed method can successfully mitigate the data scarcity problem in ITE estimation.
翻訳日:2022-12-04 19:34:07 公開日:2020-05-11
# 2つの並列遺伝的アルゴリズムを用いた進化・高速・遅い特徴選択

Feature Selection with Evolving, Fast and Slow Using Two Parallel Genetic Algorithms ( http://arxiv.org/abs/2005.05268v1 )

ライセンス: Link先を確認
Uzay Cetin and Yunus Emre Gundogmus(参考訳) 特徴選択は、特に高次元データを扱う場合、マシンラーニングにおいて最も難しい問題のひとつです。 本稿では,特徴選択の問題に対処し,Evolving Fast and Slowと呼ばれる新しいアプローチを提案する。 この新しいアプローチは、それぞれ高い突然変異率と低い突然変異率を持つ2つの並列遺伝アルゴリズムを用いている。 高速かつ遅い進化には、高速に進化する自動システムと、ゆっくりと進化する努力のかかるシステムを組み合わせた、新しい並列アーキテクチャが必要である。 このアーキテクチャでは、探索と搾取を同時に同時に行うことができる。 高い突然変異率で高速に進化することは、長いジャンプで検索空間の新しい未知の場所を探索するのに有用であり、低突然変異率でゆっくりと進化することは、検索空間の既知の場所を短い動きで活用するのに有用である。 実験の結果,Evolving Fast と Slow は精度と特徴除去の両面で非常に良好な結果が得られることがわかった。

Feature selection is one of the most challenging issues in machine learning, especially while working with high dimensional data. In this paper, we address the problem of feature selection and propose a new approach called Evolving Fast and Slow. This new approach is based on using two parallel genetic algorithms having high and low mutation rates, respectively. Evolving Fast and Slow requires a new parallel architecture combining an automatic system that evolves fast and an effortful system that evolves slow. With this architecture, exploration and exploitation can be done simultaneously and in unison. Evolving fast, with high mutation rate, can be useful to explore new unknown places in the search space with long jumps; and Evolving Slow, with low mutation rate, can be useful to exploit previously known places in the search space with short movements. Our experiments show that Evolving Fast and Slow achieves very good results in terms of both accuracy and feature elimination.
翻訳日:2022-12-04 19:26:39 公開日:2020-05-11
# 読書理解における常識エビデンス生成と注入

Commonsense Evidence Generation and Injection in Reading Comprehension ( http://arxiv.org/abs/2005.05240v1 )

ライセンス: Link先を確認
Ye Liu, Tao Yang, Zeyu You, Wei Fan and Philip S. Yu(参考訳) 人間の取り組んだ理解は、与えられた文脈自体に基づくだけでなく、しばしば、それ以上の常識に依存している。 本稿では,コモンセンス推論による機械の学習を支援するために,CEGI という単語を読み取るためのCommonsense Evidence Generation and Injection フレームワークを提案する。 このフレームワークは、2種類の補助的な常識証拠を包括的な読み出しに注入し、機械に合理的な思考能力を持たせる。 第一のジェネレータは言語モデルを通じてテキスト証拠を生成することを目的としており、もう一方のジェネレータはグラフ補完後のコモンセンス知識グラフから事実証拠(自動的にアレンジされたテキストトリプル)を抽出することを目的としています。 これらの証拠にはコンテクスト・コモンセンスが組み込まれており、モデルへの追加入力として機能する。 その後,段落,質問,選択肢,証拠間の意味関係を抽出する深層文脈エンコーダを提案する。 最後に、カプセルネットワークを用いて関係から異なる言語単位(単語と句)を抽出し、抽出した単位に基づいて最適な選択肢を動的に予測する。 CosmosQAデータセットの実験では、提案されたCEGIモデルは現在の最先端のアプローチよりも優れており、リーダーボード上の精度(83.6%)が達成されている。

Human tackle reading comprehension not only based on the given context itself but often rely on the commonsense beyond. To empower the machine with commonsense reasoning, in this paper, we propose a Commonsense Evidence Generation and Injection framework in reading comprehension, named CEGI. The framework injects two kinds of auxiliary commonsense evidence into comprehensive reading to equip the machine with the ability of rational thinking. Specifically, we build two evidence generators: the first generator aims to generate textual evidence via a language model; the other generator aims to extract factual evidence (automatically aligned text-triples) from a commonsense knowledge graph after graph completion. Those evidences incorporate contextual commonsense and serve as the additional inputs to the model. Thereafter, we propose a deep contextual encoder to extract semantic relationships among the paragraph, question, option, and evidence. Finally, we employ a capsule network to extract different linguistic units (word and phrase) from the relations, and dynamically predict the optimal option based on the extracted units. Experiments on the CosmosQA dataset demonstrate that the proposed CEGI model outperforms the current state-of-the-art approaches and achieves the accuracy (83.6%) on the leaderboard.
翻訳日:2022-12-04 19:26:23 公開日:2020-05-11
# 多言語ニューラルマシン翻訳のための自己スーパービジョンによる単言語データ活用

Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2005.04816v1 )

ライセンス: Link先を確認
Aditya Siddhant, Ankur Bapna, Yuan Cao, Orhan Firat, Mia Chen, Sneha Kudugunta, Naveen Arivazhagan and Yonghui Wu(参考訳) ここ数年、低リソースニューラルネットワーク翻訳(NMT)における有望な2つの研究方向が浮上した。 1つ目は、多言語NMTによる低リソース言語の品質向上のために、高リソース言語の利用に焦点を当てている。 第2の方向では、単言語データと自己スーパービジョンを用いて、事前学習の翻訳モデルを使用し、少量の教師付きデータを微調整する。 本研究では,これらの2つの研究の行に加わり,多言語NMTにおける自己スーパービジョンによるモノリンガルデータの有効性を実証する。 主な成果は3つあります (i)単言語データを用いることで、多言語モデルにおける低リソース言語の翻訳品質が著しく向上する。 (II)自己監督は多言語モデルのゼロショット翻訳品質を改善する。 3) 単言語データを自己超越で活用することにより,複数言語モデルに新たな言語を追加し,並列データやバックトランスレーションを必要とせずに,ロエン翻訳において最大33 BLEUに達することができる。

Over the last few years two promising research directions in low-resource neural machine translation (NMT) have emerged. The first focuses on utilizing high-resource languages to improve the quality of low-resource languages via multilingual NMT. The second direction employs monolingual data with self-supervision to pre-train translation models, followed by fine-tuning on small amounts of supervised data. In this work, we join these two lines of research and demonstrate the efficacy of monolingual data with self-supervision in multilingual NMT. We offer three major results: (i) Using monolingual data significantly boosts the translation quality of low-resource languages in multilingual models. (ii) Self-supervision improves zero-shot translation quality in multilingual models. (iii) Leveraging monolingual data with self-supervision provides a viable path towards adding new languages to multilingual models, getting up to 33 BLEU on ro-en translation without any parallel data or back-translation.
翻訳日:2022-12-04 19:25:59 公開日:2020-05-11
# フェイクニュースの自動検出のための深層学習手法

A Deep Learning Approach for Automatic Detection of Fake News ( http://arxiv.org/abs/2005.04938v1 )

ライセンス: Link先を確認
Tanik Saikh, Arkadipta De, Asif Ekbal, Pushpak Bhattacharyya(参考訳) フェイクニュースの検出は、ジャーナリズムの分野で非常に顕著で重要な課題である。 この困難な問題は、これまでのところ政治の分野では見受けられるが、マルチドメインのプラットフォームで決定される場合には、さらに難しくなるかもしれない。 本稿では,複数のドメインのオンラインニュースコンテンツにおける偽ニュース検出問題を解決するために,ディープラーニングに基づく2つの効果的なモデルを提案する。 最近リリースされた2つのデータセット、すなわちフェイクニュースamtとセレブによるフェイクニュース検出に関する技術を評価した。 提案したシステムは、現在の手作りの特徴工学に基づく最先端システムよりも、それぞれ3.08%と9.3%の差で性能を向上する。 関連するタスクに利用可能なデータセットを活用するために、私たちはドメイン横断分析(FakeNews AMTでトレーニングされ、Celebrityでテストされたモデル)を行い、ドメイン全体にわたるシステムの適用性を調査します。

Fake news detection is a very prominent and essential task in the field of journalism. This challenging problem is seen so far in the field of politics, but it could be even more challenging when it is to be determined in the multi-domain platform. In this paper, we propose two effective models based on deep learning for solving fake news detection problem in online news contents of multiple domains. We evaluate our techniques on the two recently released datasets, namely FakeNews AMT and Celebrity for fake news detection. The proposed systems yield encouraging performance, outperforming the current handcrafted feature engineering based state-of-the-art system with a significant margin of 3.08% and 9.3% by the two models, respectively. In order to exploit the datasets, available for the related tasks, we perform cross-domain analysis (i.e. model trained on FakeNews AMT and tested on Celebrity and vice versa) to explore the applicability of our systems across the domains.
翻訳日:2022-12-04 19:25:43 公開日:2020-05-11
# 生医学領域におけるスパース解釈可能な単語埋め込みの評価

Evaluating Sparse Interpretable Word Embeddings for Biomedical Domain ( http://arxiv.org/abs/2005.05114v1 )

ライセンス: Link先を確認
Mohammad Amin Samadi, Mohammad Sadegh Akhondzadeh, Sayed Jalal Zahabi, Mohammad Hossein Manshaei, Zeinab Maleki, Payman Adibi(参考訳) 単語の埋め込みは、バイオメディカルドメインを含む幅広い自然言語処理タスクに応用されている。 これらのベクトル表現は、意味的および構文的な単語関係、隠れたパターン、データの傾向をうまく捉えるが、解釈可能性を提供しない。 解釈性は、生物医学的応用において不可欠な部分である正当化の鍵となる手段である。 医療領域における単語埋め込みの解釈可能性に関する包括的研究を行い,スパース法の役割に着目した。 単語ベクトル表現の解釈可能性に関する定性的かつ定量的な測定とメトリクスを提供する。 定量的評価のために,分類理論に基づく解釈可能性の定量化に使用できる広範な分類データセットを提案する。 また,本研究手法の本質的および外生的評価について述べる。 後者については,バイオメディカル領域における単語ベクトルの外部評価に有効なデータセットを提案する。 実験結果から, スパースワードベクトルは, 下流タスクにおける元のベクトルの性能を維持しつつ, はるかに高い解釈性を示すことがわかった。

Word embeddings have found their way into a wide range of natural language processing tasks including those in the biomedical domain. While these vector representations successfully capture semantic and syntactic word relations, hidden patterns and trends in the data, they fail to offer interpretability. Interpretability is a key means to justification which is an integral part when it comes to biomedical applications. We present an inclusive study on interpretability of word embeddings in the medical domain, focusing on the role of sparse methods. Qualitative and quantitative measurements and metrics for interpretability of word vector representations are provided. For the quantitative evaluation, we introduce an extensive categorized dataset that can be used to quantify interpretability based on category theory. Intrinsic and extrinsic evaluation of the studied methods are also presented. As for the latter, we propose datasets which can be utilized for effective extrinsic evaluation of word vectors in the biomedical domain. Based on our experiments, it is seen that sparse word vectors show far more interpretability while preserving the performance of their original vectors in downstream tasks.
翻訳日:2022-12-04 19:25:30 公開日:2020-05-11
# ルガンダ音声合成機

Luganda Text-to-Speech Machine ( http://arxiv.org/abs/2005.05447v1 )

ライセンス: Link先を確認
Irene Nandutu, Ernest Mwebaze(参考訳) ウガンダではルガンダ語が最も話されている言語である。 正式な取引だけでなく、非公式の通信にも用いられる。 TTSに関連するテクノロジースタートアップの開発は、主に英語、フランス語などの言語で行われている。 これらは、GoogleやMicrosoftなどによってTSエンジンに追加され、これらの領域の開発者はTS製品を革新することができる。 この言語はこれらのエンジンで構築され、訓練されていないため、lugandaはサポートされていない。 本研究では,luganda言語の構造と構造を分析し,luganda ttsの提案と開発を行った。 このシステムはローカルソースのLuganda言語テキストとオーディオを使って構築、訓練された。 エンジンはテキストをキャプチャして読み上げることができるようになった。 MRTとMOSを用いて精度を検証した。 MRTとMOSテストの結果は、MRTがより良い結果を得るのに非常によい。 総得点は71%であった。 本研究は, ウガンダにおけるNLPギャップに対する過去の解決方法を強化するとともに, この分野における他の研究が行えるように生データを提供する。

In Uganda, Luganda is the most spoken native language. It is used for communication in informal as well as formal business transactions. The development of technology startups globally related to TTS has mainly been with languages like English, French, etc. These are added in TTS engines by Google, Microsoft among others, allowing developers in these regions to innovate TTS products. Luganda is not supported because the language is not built and trained on these engines. In this study, we analyzed the Luganda language structure and constructions and then proposed and developed a Luganda TTS. The system was built and trained using locally sourced Luganda language text and audio. The engine is now able to capture text and reads it aloud. We tested the accuracy using MRT and MOS. MRT and MOS tests results are quite good with MRT having better results. The results general score was 71%. This study will enhance previous solutions to NLP gaps in Uganda, as well as provide raw data such that other research in this area can take place.
翻訳日:2022-12-04 19:24:56 公開日:2020-05-11
# 自由エネルギー原理を用いたモータプリミティブの自律学習と連鎖

Autonomous learning and chaining of motor primitives using the Free Energy Principle ( http://arxiv.org/abs/2005.05151v1 )

ライセンス: Link先を確認
Louis Annabi (ETIS), Alexandre Pitti (ETIS), Mathias Quoy (ETIS)(参考訳) 本稿では,運動プリミティブ学習の課題に対して,自由エネルギー原理を適用した。 エコーステートネットワークは、モータートラジェクタを生成するために使用される。 このネットワークには知覚モジュールと,そのダイナミクスに影響を与えるコントローラが組み合わさっている。 この新しい複合ネットワークは、運動路のレパートリーの自律学習を可能にする。 提案手法で構築したレパートリーを評価するために,プリミティブをチェーンして長距離シーケンスを生成する手書き作業に利用した。

In this article, we apply the Free-Energy Principle to the question of motor primitives learning. An echo-state network is used to generate motor trajectories. We combine this network with a perception module and a controller that can influence its dynamics. This new compound network permits the autonomous learning of a repertoire of motor trajectories. To evaluate the repertoires built with our method, we exploit them in a handwriting task where primitives are chained to produce long-range sequences.
翻訳日:2022-12-04 19:17:56 公開日:2020-05-11
# グラフのためのリングリザーバニューラルネットワーク

Ring Reservoir Neural Networks for Graphs ( http://arxiv.org/abs/2005.05294v1 )

ライセンス: Link先を確認
Claudio Gallicchio and Alessio Micheli(参考訳) グラフのための機械学習は、今日では統合関連の研究テーマとなっている。 この分野の一般的なアプローチは、複雑なディープニューラルネットワークアーキテクチャと、より効率的なソリューションの必要性を強調するトレーニングアルゴリズムを必要とする。 この文脈において、リザーバコンピューティング(rc)モデルのクラスは重要な役割を果たすことができ、訓練されていない再帰的アーキテクチャを通して実りあるグラフ埋め込みを開発することができる。 本稿では,グラフに対するRCニューラルネットワークの設計戦略の進歩的単純化について検討する。 我々の中心となる提案は、リングトポロジーに従うために隠れたニューロンの組織を形成することに基づいている。 グラフ分類タスクの実験結果から、リング・リザーバアーキテクチャは特に効果的なネットワーク構成を可能にし、予測性能の面で一貫した優位性を示す。

Machine Learning for graphs is nowadays a research topic of consolidated relevance. Common approaches in the field typically resort to complex deep neural network architectures and demanding training algorithms, highlighting the need for more efficient solutions. The class of Reservoir Computing (RC) models can play an important role in this context, enabling to develop fruitful graph embeddings through untrained recursive architectures. In this paper, we study progressive simplifications to the design strategy of RC neural networks for graphs. Our core proposal is based on shaping the organization of the hidden neurons to follow a ring topology. Experimental results on graph classification tasks indicate that ring-reservoirs architectures enable particularly effective network configurations, showing consistent advantages in terms of predictive performance.
翻訳日:2022-12-04 19:17:50 公開日:2020-05-11
# テキストスタイル転送のための強化報酬フレームワーク

Reinforced Rewards Framework for Text Style Transfer ( http://arxiv.org/abs/2005.05256v1 )

ライセンス: Link先を確認
Abhilasha Sancheti, Kundan Krishna, Balaji Vasan Srinivasan, Anandhavelu Natarajan(参考訳) スタイル転送は、コアコンテンツが保存されていることを保証しながら、あるテキストのスタイル特性を別のテキストに転送するアルゴリズムを扱う。 テキスト生成に広く適用されているため、テキストスタイル転送の分野には多くの関心が寄せられている。 既存の作品では、コンテンツ保存と転送強度に基づいてスタイル転送モデルを評価している。 そこで本研究では,これらの指標に対して直接報奨を与える強化学習ベースのフレームワークを提案する。 本稿では,3つの独立したタスクにおいて,テキストの形式を形式から形式へ,興奮度が高いから,興奮度が低い,現代英語からシェイクスピア英語への変換,逆転の3つのタスクを自動的・人為的評価に基づいて,提案フレームワークの性能向上を示す。 既存の最先端フレームワークに対する提案フレームワークのパフォーマンス向上は、アプローチの実行可能性を示している。

Style transfer deals with the algorithms to transfer the stylistic properties of a piece of text into that of another while ensuring that the core content is preserved. There has been a lot of interest in the field of text style transfer due to its wide application to tailored text generation. Existing works evaluate the style transfer models based on content preservation and transfer strength. In this work, we propose a reinforcement learning based framework that directly rewards the framework on these target metrics yielding a better transfer of the target style. We show the improved performance of our proposed framework based on automatic and human evaluation on three independent tasks: wherein we transfer the style of text from formal to informal, high excitement to low excitement, modern English to Shakespearean English, and vice-versa in all the three cases. Improved performance of the proposed framework over existing state-of-the-art frameworks indicates the viability of the approach.
翻訳日:2022-12-04 19:17:37 公開日:2020-05-11
# 連続制御のための遅延認識モデルに基づく強化学習

Delay-Aware Model-Based Reinforcement Learning for Continuous Control ( http://arxiv.org/abs/2005.05440v1 )

ライセンス: Link先を確認
Baiming Chen, Mengdi Xu, Liang Li, Ding Zhao(参考訳) アクション遅延は、多くの現実世界システムにおける強化学習の性能を低下させる。 本稿では,遅延対応マルコフ決定過程の形式的定義を提案し,マルコフ報酬プロセスを用いて拡張状態を持つ標準mdpに変換できることを実証する。 学習の手間をかけずに学習システムモデルに多段階遅延を組み込むことができる遅延対応モデルに基づく強化学習フレームワークを開発した。 Gym と MuJoCo プラットフォームを用いた実験により,提案した遅延認識型モデルベースアルゴリズムは,非政治モデルフリー強化学習法と比較して,遅延期間の異なるシステム間のトレーニングや転送がより効率的であることが示された。 コードはhttps://github.com/baimingc/dambrl.com/。

Action delays degrade the performance of reinforcement learning in many real-world systems. This paper proposes a formal definition of delay-aware Markov Decision Process and proves it can be transformed into standard MDP with augmented states using the Markov reward process. We develop a delay-aware model-based reinforcement learning framework that can incorporate the multi-step delay into the learned system models without learning effort. Experiments with the Gym and MuJoCo platforms show that the proposed delay-aware model-based algorithm is more efficient in training and transferable between systems with various durations of delay compared with off-policy model-free reinforcement learning methods. Codes available at: https://github.com/baimingc/dambrl.
翻訳日:2022-12-04 19:16:46 公開日:2020-05-11
# 事前選択は未知を識別するベイズニューラルネットワークの能力に影響を及ぼす

Prior choice affects ability of Bayesian neural networks to identify unknowns ( http://arxiv.org/abs/2005.04987v1 )

ライセンス: Link先を確認
Daniele Silvestro and Tobias Andermann(参考訳) ディープベイズニューラルネットワーク(BNN)は、予測に関する不確実性を共同で推定しながらパラメータ推定を行うために、計算的に要求される強力なツールである。 bnnは通常、モデルパラメータの任意の正規分布の事前分布を用いて実装される。 本稿では,bnnの分類タスクにおける異なる事前分布の影響を調査し,マルコフ連鎖モンテカルロサンプリングおよびベイズ係数の計算により近似された後確率に基づいて予測を支持する証拠を評価する。 我々は,事前選択が,モデルが正しいクラス(真の正の率)にデータを確実に割り当てる能力に重大な影響を与えることを示す。 事前選択は、BNNが配布外インスタンスを未知(偽陽性率)に識別する能力にも大きく影響する。 ニューラルネットワーク(NN)とモンテカルロのドロップアウトを比較してみると、BNNは一般的にNNよりも優れています。 最後に、テストでは、事前配布としてベストな選択がひとつも見つからなかったのです。 代わりに、各データセットは、異なる事前条件下で最高の結果を得ることができ、代替オプションのテストがBNNのパフォーマンスを改善する可能性があることを示している。

Deep Bayesian neural networks (BNNs) are a powerful tool, though computationally demanding, to perform parameter estimation while jointly estimating uncertainty around predictions. BNNs are typically implemented using arbitrary normal-distributed prior distributions on the model parameters. Here, we explore the effects of different prior distributions on classification tasks in BNNs and evaluate the evidence supporting the predictions based on posterior probabilities approximated by Markov Chain Monte Carlo sampling and by computing Bayes factors. We show that the choice of priors has a substantial impact on the ability of the model to confidently assign data to the correct class (true positive rates). Prior choice also affects significantly the ability of a BNN to identify out-of-distribution instances as unknown (false positive rates). When comparing our results against neural networks (NN) with Monte Carlo dropout we found that BNNs generally outperform NNs. Finally, in our tests we did not find a single best choice as prior distribution. Instead, each dataset yielded the best results under a different prior, indicating that testing alternative options can improve the performance of BNNs.
翻訳日:2022-12-04 19:16:15 公開日:2020-05-11
# MART:コヒーレントビデオパラグラフキャプションのためのメモリ拡張リカレントトランス

MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning ( http://arxiv.org/abs/2005.05402v1 )

ライセンス: Link先を確認
Jie Lei, Liwei Wang, Yelong Shen, Dong Yu, Tamara L. Berg, Mohit Bansal(参考訳) ビデオの多文記述の生成は、視覚的関連性だけでなく、段落内の文間の談話に基づくコヒーレンスも要求されるため、最も困難なキャプションタスクの1つである。 本研究の目的は,メモリモジュールを用いてトランスアーキテクチャを増強するメモリ拡張リカレントトランス (MART) と呼ばれる新しい手法を提案することである。 メモリモジュールは、ビデオセグメントと文履歴から高度に要約されたメモリ状態を生成し、次の文(w.r.t. coreference and repetition aspects)の予測に役立つようにし、コヒーレント段落生成を促進する。 ActivityNet Captions と YouCookII は、MART が入力されたビデオイベントとの関係を維持しながら、ベースラインの手法よりも一貫性と反復性の低い段落を生成することを示した。 すべてのコードは、https://github.com/jayleicn/recurrent-transformer.comで公開されている。

Generating multi-sentence descriptions for videos is one of the most challenging captioning tasks due to its high requirements for not only visual relevance but also discourse-based coherence across the sentences in the paragraph. Towards this goal, we propose a new approach called Memory-Augmented Recurrent Transformer (MART), which uses a memory module to augment the transformer architecture. The memory module generates a highly summarized memory state from the video segments and the sentence history so as to help better prediction of the next sentence (w.r.t. coreference and repetition aspects), thus encouraging coherent paragraph generation. Extensive experiments, human evaluations, and qualitative analyses on two popular datasets ActivityNet Captions and YouCookII show that MART generates more coherent and less repetitive paragraph captions than baseline methods, while maintaining relevance to the input video events. All code is available open-source at: https://github.com/jayleicn/recurrent-transformer
翻訳日:2022-12-04 19:15:57 公開日:2020-05-11
# モノトンブール関数、実現可能性/実現可能性、LP型問題、MaxCon

Monotone Boolean Functions, Feasibility/Infeasibility, LP-type problems and MaxCon ( http://arxiv.org/abs/2005.05490v1 )

ライセンス: Link先を確認
David Suter, Ruwan Tennakoon, Erchuan Zhang, Tat-Jun Chin and Alireza Bab-Hadiashar(参考訳) 本稿では,モノトンブール関数,LP型問題,最大合意問題との関係について概説する。 後者は、コンピュータビジョン(MaxCon)で人気がある、特定のタイプの堅牢なフィッティング特性を指す。 実際、これは私たちの主な動機ですが、これらの関係の研究結果がLP型問題(少なくとも、私たちが記述したように'Thresholded Version')にもっと広く適用できると信じています。 コンピュータビジョンの例で、結果の視点が新しいアルゴリズムを提案する。 実際、実験的な部分では、影響(関数がモノトンであれば特別な形式をとるブール関数の特性)がMaxConソリューションの探索を導くことができるかに焦点を当てています。

This paper outlines connections between Monotone Boolean Functions, LP-Type problems and the Maximum Consensus Problem. The latter refers to a particular type of robust fitting characterisation, popular in Computer Vision (MaxCon). Indeed, this is our main motivation but we believe the results of the study of these connections are more widely applicable to LP-type problems (at least 'thresholded versions', as we describe), and perhaps even more widely. We illustrate, with examples from Computer Vision, how the resulting perspectives suggest new algorithms. Indeed, we focus, in the experimental part, on how the Influence (a property of Boolean Functions that takes on a special form if the function is Monotone) can guide a search for the MaxCon solution.
翻訳日:2022-12-04 19:15:35 公開日:2020-05-11