このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210513)

# infn-cnafコンピューティングセンターのelastic(elk)スイートによるシステムログとプロトティpalアナリティクスサービスの収集と調和

Collection and harmonization of system logs and prototypal Analytics services with the Elastic (ELK) suite at the INFN-CNAF computing centre ( http://arxiv.org/abs/2106.02612v1 )

ライセンス: Link先を確認
Tommaso Diotalevi, Antonio Falabella, Barbara Martelli, Diego Michelotto, Lucia Morganti, Daniele Bonacorsi, Luca Giommi, Simone Rossi Tisbeni(参考訳) ジュネーブのLHC(Large Hadron Collider)における高エネルギー物理実験のための分散グリッドインフラストラクチャは、世界規模のLHCコンピューティンググリッド(WLCG)の一部として、世界中に広がる一連のコンピューティングセンターで構成されている。 イタリアでは、Tier-1機能はINFN-CNAFデータセンターによって提供され、20以上の非LHC実験にコンピューティングとストレージリソースを提供する。 そのため、多種多様な情報源から毎日大量のログが収集され、非常に異質で調和が難しい。 本報告では、CNAFデータソースからログ情報を収集、解析、表示するシステムの動作実装と、機械学習に基づく予測保守システムの調査について述べる。

The distributed Grid infrastructure for High Energy Physics experiments at the Large Hadron Collider (LHC) in Geneva comprises a set of computing centres, spread all over the world, as part of the Worldwide LHC Computing Grid (WLCG). In Italy, the Tier-1 functionalities are served by the INFN-CNAF data center, which provides also computing and storage resources to more than twenty non-LHC experiments. For this reason, a high amount of logs are collected each day from various sources, which are highly heterogeneous and difficult to harmonize. In this contribution, a working implementation of a system that collects, parses and displays the log information from CNAF data sources and the investigation of a Machine Learning based predictive maintenance system, is presented.
翻訳日:2021-06-13 13:56:37 公開日:2021-05-13
# 3次元形状表現のための奥行きテンプレート

Deep Implicit Templates for 3D Shape Representation ( http://arxiv.org/abs/2011.14565v2 )

ライセンス: Link先を確認
Zerong Zheng, Tao Yu, Qionghai Dai, Yebin Liu(参考訳) 3d形状表現の一種であるdif(deep implicit function)は、そのコンパクトさと強い表現力によって、3d視覚コミュニティでますます人気が高まっている。 しかしながら、ポリゴンメッシュベースのテンプレートとは異なり、difで表される形状間の密接な対応やその他の意味関係を推論することは依然として課題であり、テクスチャ転送や形状解析などへの応用は制限されている。 この制限を克服し、DIFをより解釈可能にするために、深い暗黙表現における明示的な対応推論をサポートする新しい3次元形状表現であるDeep Implicit Templatesを提案する。 我々のキーとなる考え方は、テンプレート暗黙関数の条件変形としてDIFを定式化することである。 そこで我々は,条件付き空間変換を複数のアフィン変換に分解し,一般化能力を保証した空間ウォーピングLSTMを提案する。 さらに、教師なしの精度で精度の高いテンプレートを学習しながら、高い復元精度を達成するために、トレーニング損失を慎重に設計する。 実験により,本手法は形状の集合に共通する暗黙のテンプレートを学習できるだけでなく,全ての形状を相互に相互に相互に相互に関連付けることができることがわかった。

Deep implicit functions (DIFs), as a kind of 3D shape representation, are becoming more and more popular in the 3D vision community due to their compactness and strong representation power. However, unlike polygon mesh-based templates, it remains a challenge to reason dense correspondences or other semantic relationships across shapes represented by DIFs, which limits its applications in texture transfer, shape analysis and so on. To overcome this limitation and also make DIFs more interpretable, we propose Deep Implicit Templates, a new 3D shape representation that supports explicit correspondence reasoning in deep implicit representations. Our key idea is to formulate DIFs as conditional deformations of a template implicit function. To this end, we propose Spatial Warping LSTM, which decomposes the conditional spatial transformation into multiple affine transformations and guarantees generalization capability. Moreover, the training loss is carefully designed in order to achieve high reconstruction accuracy while learning a plausible template with accurate correspondences in an unsupervised manner. Experiments show that our method can not only learn a common implicit template for a collection of shapes, but also establish dense correspondences across all the shapes simultaneously without any supervision.
翻訳日:2021-06-06 14:49:40 公開日:2021-05-13
# (参考訳) ロバスト特徴抽出による深部ネットワークの故障理解

Understanding Failures of Deep Networks via Robust Feature Extraction ( http://arxiv.org/abs/2012.01750v2 )

ライセンス: CC BY 4.0
Sahil Singla, Besmira Nushi, Shital Shah, Ece Kamar, Eric Horvitz(参考訳) テストセットにアグリゲーションスコアを報告する学習モデルの従来の評価基準は、機能やインスタンスに対する障害の重要かつ情報的なパターンを明らかにするには不十分です。 本研究は,視覚的特徴を識別し,不在や不在がパフォーマンスの低下を招き,失敗を特徴づけ,説明することを目的とした手法を提案する。 視覚属性のクラウドソースラベルに依存する以前の作業とは違って、分離されたロバストモデルの表現を活用して解釈可能な特徴を抽出し、これらの特徴を利用して障害モードを識別する。 さらに,このような特徴にエンコードされた意味を人間が理解できるようにする可視化手法を提案し,その特徴の理解可能性をテストする。 ImageNetデータセットの手法の評価では、 (i) 提案されたワークフローは、重要な障害モードを発見するのに効果的であり、 (ii) 可視化技術は、抽出した特徴を理解するのに役立ち、 (iii) 抽出した洞察は、エラー分析とデバッギングを支援する。

Traditional evaluation metrics for learned models that report aggregate scores over a test set are insufficient for surfacing important and informative patterns of failure over features and instances. We introduce and study a method aimed at characterizing and explaining failures by identifying visual attributes whose presence or absence results in poor performance. In distinction to previous work that relies upon crowdsourced labels for visual attributes, we leverage the representation of a separate robust model to extract interpretable features and then harness these features to identify failure modes. We further propose a visualization method aimed at enabling humans to understand the meaning encoded in such features and we test the comprehensibility of the features. An evaluation of the methods on the ImageNet dataset demonstrates that: (i) the proposed workflow is effective for discovering important failure modes, (ii) the visualization techniques help humans to understand the extracted features, and (iii) the extracted insights can assist engineers with error analysis and debugging.
翻訳日:2021-05-24 01:44:08 公開日:2021-05-13
# ストリートビュー画像とコンピュータビジョンによる自転車の乗り心地の評価

Assessing bikeability with street view imagery and computer vision ( http://arxiv.org/abs/2105.08499v1 )

ライセンス: Link先を確認
Koichi Ito, Filip Biljecki(参考訳) サイクリング性を評価する研究は通常、サイクリング条件を形作る空間指標を計算し、定量指標にまとめる。 多くの研究は、サイト訪問や従来の地理空間的アプローチに関係しており、仮想監査を行うためにストリートビューイメージ(SVI)を活用する研究はほとんどない。 これらは限られた範囲で評価されており、すべてがコンピュータビジョン(CV)を使用して自動化されているわけではない。 さらに、これらの技術のユーザビリティを徹底的に調査する研究はまだ行われていない。 本研究は,sviとcvを用いて自転車の乗り心地を総合的に評価できるかどうかを,空間スケールで実験し,複数の地形(シンガポール,東京)にまたがって検討した。 関連する作業を拡張し,34の指標からなる自転車の耐久性指数を開発した。 その結果,SVIとCVは総合的に自転車の運転性を評価するのに十分であることが示唆された。 彼らはSVI以外のものよりも広いマージンで優れており、SVIインジケータは都市部の自転車性の評価に優れており、従来の技術に取って代わって、独立して使用できる可能性がある。 しかし、この論文はいくつかの制限を明らかにし、SVIと非SVIの両方のアプローチを組み合わせるのが最善であることを示している。 新しい自転車性指標は交通と都市分析に寄与しており、サイクリングの魅力を広く評価することはスケーラブルである。

Studies evaluating bikeability usually compute spatial indicators shaping cycling conditions and conflate them in a quantitative index. Much research involves site visits or conventional geospatial approaches, and few studies have leveraged street view imagery (SVI) for conducting virtual audits. These have assessed a limited range of aspects, and not all have been automated using computer vision (CV). Furthermore, studies have not yet zeroed in on gauging the usability of these technologies thoroughly. We investigate, with experiments at a fine spatial scale and across multiple geographies (Singapore and Tokyo), whether we can use SVI and CV to assess bikeability comprehensively. Extending related work, we develop an exhaustive index of bikeability composed of 34 indicators. The results suggest that SVI and CV are adequate to evaluate bikeability in cities comprehensively. As they outperformed non-SVI counterparts by a wide margin, SVI indicators are also found to be superior in assessing urban bikeability, and potentially can be used independently, replacing traditional techniques. However, the paper exposes some limitations, suggesting that the best way forward is combining both SVI and non-SVI approaches. The new bikeability index presents a contribution in transportation and urban analytics, and it is scalable to assess cycling appeal widely.
翻訳日:2021-05-19 17:01:48 公開日:2021-05-13
# 信念伝播による効率的かつ正確な群検定--実証的研究

Efficient and accurate group testing via Belief Propagation: an empirical study ( http://arxiv.org/abs/2105.07882v1 )

ライセンス: Link先を確認
AminCoja-Oghlan, Max Hahn-Klimroth, Philipp Loick, Manuel Penschuck(参考訳) グループテストの問題は、稀な感染症に対して適度に大量のサンプルをスクリーニングできる効率的なプーリングスキームとアルゴリズムを要求する。 目標は感染したサンプルを正確に識別し、最小限の数の検査を行うことである。 本稿では,Belief Propagationメッセージパッシングアルゴリズムを中心とした手法の活用を探求し,結果の精度を大幅に向上させる新しいテスト設計を提案する。 新しい設計には、効率的な推論アルゴリズムとしての信念伝播がある。 漸近的な問題の大きさよりも実践的な結果を目指して実験を行った。

The group testing problem asks for efficient pooling schemes and algorithms that allow to screen moderately large numbers of samples for rare infections. The goal is to accurately identify the infected samples while conducting the least possible number of tests. Exploring the use of techniques centred around the Belief Propagation message passing algorithm, we suggest a new test design that significantly increases the accuracy of the results. The new design comes with Belief Propagation as an efficient inference algorithm. Aiming for results on practical rather than asymptotic problem sizes, we conduct an experimental study.
翻訳日:2021-05-18 14:32:17 公開日:2021-05-13
# (参考訳) プール型アクティブ分類のための改良アルゴリズム

Improved Algorithms for Agnostic Pool-based Active Classification ( http://arxiv.org/abs/2105.06499v1 )

ライセンス: CC BY 4.0
Julian Katz-Samuels, Jifan Zhang, Lalit Jain, Kevin Jamieson(参考訳) 我々は,非依存プール設定における二項分類のための能動的学習について検討する。 能動的学習におけるほとんどの研究は、現在のバージョン空間の不一致領域から各クエリを一様にサンプリングするCALアルゴリズムにインスパイアされている。 このようなアルゴリズムのサンプル複雑性は、仮説空間の幾何学と基礎となる確率空間の両方を捉える不一致係数として知られる量によって記述される。 これまでのところ、不一致係数は最小限の低い境界のみによって正当化されており、ドアはより優れたインスタンス依存サンプル複合体に開放されている。 本研究では,不一致領域上の一様サンプリングとは対照的に,実験的な設計問題を解くアルゴリズムを提案する。 提案手法は, 最良不一致係数ベース境界よりも決して悪くないサンプル複雑性境界を実現するが, 特定の場合において, 劇的に小さくすることができることを示す。 実用的な観点からは、提案アルゴリズムはチューニングするハイパーパラメータ(例えばサンプリングのアグレッシブ性を制御する)を必要とせず、経験的リスク最小化のオラクルへのアクセスを仮定して(いかなる制約も伴わない)計算的に効率的である。 実験により,画像分類データセットにおける技術非依存なアクティブラーニングアルゴリズムよりもアルゴリズムが優れていることを示す。

We consider active learning for binary classification in the agnostic pool-based setting. The vast majority of works in active learning in the agnostic setting are inspired by the CAL algorithm where each query is uniformly sampled from the disagreement region of the current version space. The sample complexity of such algorithms is described by a quantity known as the disagreement coefficient which captures both the geometry of the hypothesis space as well as the underlying probability space. To date, the disagreement coefficient has been justified by minimax lower bounds only, leaving the door open for superior instance dependent sample complexities. In this work we propose an algorithm that, in contrast to uniform sampling over the disagreement region, solves an experimental design problem to determine a distribution over examples from which to request labels. We show that the new approach achieves sample complexity bounds that are never worse than the best disagreement coefficient-based bounds, but in specific cases can be dramatically smaller. From a practical perspective, the proposed algorithm requires no hyperparameters to tune (e.g., to control the aggressiveness of sampling), and is computationally efficient by means of assuming access to an empirical risk minimization oracle (without any constraints). Empirically, we demonstrate that our algorithm is superior to state of the art agnostic active learning algorithms on image classification datasets.
翻訳日:2021-05-18 02:47:19 公開日:2021-05-13
# (参考訳) 塩分濃度法の衛生シミュレーション [全文訳有]

Sanity Simulations for Saliency Methods ( http://arxiv.org/abs/2105.06506v1 )

ライセンス: CC BY 4.0
Joon Sik Kim, Gregory Plumb, Ameet Talwalkar(参考訳) Saliency Methodは、入力画像中の「重要な」ピクセルを識別することによって、モデルの予測推論を捉えることを目的とした、人気のある機能属性ツールのクラスである。 しかし、現在、サリエンシ手法の開発と導入は、基礎となるモデル推論へのアクセスの欠如によって妨げられているため、正確な手法評価ができない。 本研究では,モデル推論の基盤となる複雑性を制御しつつ,サリエンシー法を基礎的に評価できる合成評価フレームワークsmerfを設計した。 SMERFによる実験評価は,SMERFの合成評価タスクの比較的単純さを考えると,既存のサリエンシ手法の限界が顕著である。 さらに、SMERFベンチマークスイートは、これらの制限を克服するための新しいサリエンシ手法の開発において有用なツールである。

Saliency methods are a popular class of feature attribution tools that aim to capture a model's predictive reasoning by identifying "important" pixels in an input image. However, the development and adoption of saliency methods are currently hindered by the lack of access to underlying model reasoning, which prevents accurate method evaluation. In this work, we design a synthetic evaluation framework, SMERF, that allows us to perform ground-truth-based evaluation of saliency methods while controlling the underlying complexity of model reasoning. Experimental evaluations via SMERF reveal significant limitations in existing saliency methods, especially given the relative simplicity of SMERF's synthetic evaluation tasks. Moreover, the SMERF benchmarking suite represents a useful tool in the development of new saliency methods to potentially overcome these limitations.
翻訳日:2021-05-18 02:46:05 公開日:2021-05-13
# (参考訳) IoT(Internet of Things)ベースのビデオ分析 - Smart Doorbellのユースケース [全文訳有]

Internet of Things (IoT) Based Video Analytics: a use case of Smart Doorbell ( http://arxiv.org/abs/2105.06508v1 )

ライセンス: CC BY 4.0
Shailesh Arya(参考訳) iot(internet of things, モノのインターネット)のビジョンは、今や現実だ。 IoTデバイスは安くなり、小さくなっている。 それらはますます計算量とエネルギー効率が増している。 IoTベースのビデオ分析のグローバル市場は近年大きく成長しており、市場セグメントが拡大すると予想されている。 iotベースのビデオ分析アプリケーションでは、コスト効率、広範な利用、柔軟な設計、正確なシーン検出、フレームワークの再利用性など、必要なキーポイントがほとんどない。 ビデオベースのスマートドアベルシステムは、消費者市場で多くの商用製品が提供されているビデオ分析のためのアプリケーションドメインである。 しかし、既存の製品は費用がかかり、モノリシックで、プロプライエタリである。 また、正確性とポータビリティの間にはトレードオフがある。 この問題を解決するために、スマートドアベルシステムを利用したビデオ分析のための分散フレームワークを提案しています。 提案されたフレームワークはベースプラットフォームとしてaws cloud servicesを使用しており、価格設定の制約を満たすため、システムは安価なraspberry piに実装された。 スマートドアベルは、その人物を最も正確に認識することができる。 スマートドアベルシステムは、有害な兵器検出、注目すべき車両検出、動物/ペット検出などの検出機能も備えている。 この実装のために開発されたiOSアプリケーションは、スマートドアベルからリアルタイムで通知を受け取ることができる。 最後に、ビデオ分析の古典的なアプローチ、このユースケースの実装可能性、フレーム内のオブジェクトを検出するのに必要な精度と時間の比較分析についても言及する。 その結果、AWSクラウドベースのアプローチは、このスマートドアベルユースケースにふさわしいと結論付けている。

The vision of the internet of things (IoT) is a reality now. IoT devices are getting cheaper, smaller. They are becoming more and more computationally and energy-efficient. The global market of IoT-based video analytics has seen significant growth in recent years and it is expected to be a growing market segment. For any IoT-based video analytics application, few key points required, such as cost-effectiveness, widespread use, flexible design, accurate scene detection, reusability of the framework. Video-based smart doorbell system is one such application domain for video analytics where many commercial offerings are available in the consumer market. However, such existing offerings are costly, monolithic, and proprietary. Also, there will be a trade-off between accuracy and portability. To address the foreseen problems, I'm proposing a distributed framework for video analytics with a use case of a smart doorbell system. The proposed framework uses AWS cloud services as a base platform and to meet the price affordability constraint, the system was implemented on affordable Raspberry Pi. The smart doorbell will be able to recognize the known/unknown person with at most accuracy. The smart doorbell system is also having additional detection functionalities such as harmful weapon detection, noteworthy vehicle detection, animal/pet detection. An iOS application is specifically developed for this implementation which can receive the notification from the smart doorbell in real-time. Finally, the paper also mentions the classical approaches for video analytics, their feasibility in implementing with this use-case, and comparative analysis in terms of accuracy and time required to detect an object in the frame is carried out. Results conclude that AWS cloud-based approach is worthy for this smart doorbell use case.
翻訳日:2021-05-18 02:33:59 公開日:2021-05-13
# (参考訳) nlpは不十分 -- チャットボットにおけるユーザ入力のコンテキスト化 [全文訳有]

NLP is Not enough -- Contextualization of User Input in Chatbots ( http://arxiv.org/abs/2105.06511v1 )

ライセンス: CC BY 4.0
Nathan Dolbir, Triyasha Dastidar, and Kaushik Roy(参考訳) AIチャットボットは近年、テクノロジーの改善に大きく貢献しており、すでに多くの業界で運用されている。 ディープネットワークに基づく高度な自然言語処理技術は、ユーザの要求を効率的に処理して機能を実行する。 チャットボットが勢いを増すにつれ、医療への適用性は、オーバーバーデンドシステムの経済と人件費の削減によって、魅力的なものとなる。 しかし、医療用ボットには安全かつ医療的に正確な情報収集が必要です。 記号構造に関する知識は正確な推論に適しているが、自然言語処理を直接扱うことはできない。 そこで本研究では,知識と神経表現の組み合わせがチャットボットの安全性,精度,理解に及ぼす影響について検討する。

AI chatbots have made vast strides in technology improvement in recent years and are already operational in many industries. Advanced Natural Language Processing techniques, based on deep networks, efficiently process user requests to carry out their functions. As chatbots gain traction, their applicability in healthcare is an attractive proposition due to the reduced economic and people costs of an overburdened system. However, healthcare bots require safe and medically accurate information capture, which deep networks aren't yet capable of due to user text and speech variations. Knowledge in symbolic structures is more suited for accurate reasoning but cannot handle natural language processing directly. Thus, in this paper, we study the effects of combining knowledge and neural representations on chatbot safety, accuracy, and understanding.
翻訳日:2021-05-18 02:26:37 公開日:2021-05-13
# (参考訳) 低複雑性ネットワークトレーニングのための蒸留BERT [全文訳有]

Distilling BERT for low complexity network training ( http://arxiv.org/abs/2105.06514v1 )

ライセンス: CC BY-SA 4.0
Bansidhar Mangalwedhekar(参考訳) 本稿では,SST-2データセットの感情分析を用いて,BERT学習を BiLSTM や BiLSTM などの低複雑性モデルに伝達する効率について検討する。 また、BERTモデルとこれらのより低い複雑性モデルとの推論の複雑さを比較し、モバイル、タブレット、Raspberry PiのようなMCU開発ボードなどのエッジデバイスで高性能なNLPモデルを実現する上で、これらのテクニックの重要性を強調している。 そしてエキサイティングな新しい応用を可能にします

This paper studies the efficiency of transferring BERT learnings to low complexity models like BiLSTM, BiLSTM with attention and shallow CNNs using sentiment analysis on SST-2 dataset. It also compares the complexity of inference of the BERT model with these lower complexity models and underlines the importance of these techniques in enabling high performance NLP models on edge devices like mobiles, tablets and MCU development boards like Raspberry Pi etc. and enabling exciting new applications.
翻訳日:2021-05-18 02:20:16 公開日:2021-05-13
# (参考訳) CrossRoI: 大規模リアルタイムビデオ分析のための関心最適化のクロスカメラ領域 [全文訳有]

CrossRoI: Cross-camera Region of Interest Optimization for Efficient Real Time Video Analytics at Scale ( http://arxiv.org/abs/2105.06524v1 )

ライセンス: CC BY 4.0
Hongpeng Guo, Shuochao Yao, Zhe Yang, Qian Zhou, Klara Nahrstedt(参考訳) ビデオカメラは公共の利益やコミュニティの安全のために都市規模で広く展開されている。 交通監視や被疑者追跡など)。 しかし、大規模ビデオフィードをリアルタイムに分析することはデータ集約であり、今日ではネットワークや計算システムに深刻な課題となっている。 本稿では,ビデオコンテンツのアソシエーションと冗長性を活用したリアルタイムビデオ解析を実現する,リソース効率の高いシステムであるcrossroiを提案する。 CrossRoIは、クロスカメラ視野の固有の物理的相関を利用して、通信と計算コストを大幅に削減する。 CrossRoIは、複数のカメラで同じ物体の残酷な外観を取り除き、シーンの包括的カバレッジを損なうことはない。 crossroiは、カメラ間相関を確立するオフラインフェーズと、リアルタイムビデオ推論のための効率的なオンラインフェーズの2つのフェーズで動作する。 実世界のビデオフィードにおける実験によると、crossroiは、ベースラインメソッドと比較して、リアルタイムビデオ分析アプリケーションにおいて、ネットワークオーバーヘッドの42%から65%、応答遅延の25%から34%の削減を達成している。 SotAフレームフィルタリングシステムと統合すると、CrossRoIのパフォーマンス向上率は50%から80%(ネットワークオーバーヘッド)、33%61%(エンドツーエンド遅延)に達する。

Video cameras are pervasively deployed in city scale for public good or community safety (i.e. traffic monitoring or suspected person tracking). However, analyzing large scale video feeds in real time is data intensive and poses severe challenges to network and computation systems today. We present CrossRoI, a resource-efficient system that enables real time video analytics at scale via harnessing the videos content associations and redundancy across a fleet of cameras. CrossRoI exploits the intrinsic physical correlations of cross-camera viewing fields to drastically reduce the communication and computation costs. CrossRoI removes the repentant appearances of same objects in multiple cameras without harming comprehensive coverage of the scene. CrossRoI operates in two phases - an offline phase to establish cross-camera correlations, and an efficient online phase for real time video inference. Experiments on real-world video feeds show that CrossRoI achieves 42% - 65% reduction for network overhead and 25% - 34% reduction for response delay in real time video analytics applications with more than 99% query accuracy, when compared to baseline methods. If integrated with SotA frame filtering systems, the performance gains of CrossRoI reach 50% - 80% (network overhead) and 33% - 61% (end-to-end delay).
翻訳日:2021-05-18 02:12:27 公開日:2021-05-13
# (参考訳) 多くのfMRI研究における脳のロバストな階層パターンの学習 [全文訳有]

Learning Robust Hierarchical Patterns of Human Brain across Many fMRI Studies ( http://arxiv.org/abs/2105.06535v1 )

ライセンス: CC BY 4.0
Dushyant Sahoo, Christos Davatzikos(参考訳) 静止状態fMRIは、様々な疾患の分析のための代理バイオマーカーを提供する。 さらに、fMRIデータは、休息状態とタスク誘発活動中の脳の機能的働きを理解するのに役立つ。 バイオマーカーの統計力と脳の理解メカニズムを改善するため、多施設研究のプール化が盛んに行われている。 しかし、複数のサイトからデータをプールすることは、ハードウェア、ソフトウェア、環境によるバリエーションをもたらす。 本稿では,複数のサイトで取得したfMRIデータにおける階層的疎結合パターン(hSCP)の推定問題について考察する。 本稿では,生体関連変異を保ちつつ,サイト関連効果を低減できる簡易かつ効果的なマトリックス因子化に基づく定式化を提案する。 我々は,教師なし体制における敵学習を活用し,コンポーネントの再現性を向上させる。 シミュレーションデータセットの実験により,提案手法は精度と再現性を向上したコンポーネントを推定できることを示した。 また,複数のサイトから収集した実際のデータセットの年齢変化を保存しながら,部品の再現性の向上を実証した。

Resting-state fMRI has been shown to provide surrogate biomarkers for the analysis of various diseases. In addition, fMRI data helps in understanding the brain's functional working during resting state and task-induced activity. To improve the statistical power of biomarkers and the understanding mechanism of the brain, pooling of multi-center studies has become increasingly popular. But pooling the data from multiple sites introduces variations due to hardware, software, and environment. In this paper, we look at the estimation problem of hierarchical Sparsity Connectivity Patterns (hSCPs) in fMRI data acquired on multiple sites. We introduce a simple yet effective matrix factorization based formulation to reduce site-related effects while preserving biologically relevant variations. We leverage adversarial learning in the unsupervised regime to improve the reproducibility of the components. Experiments on simulated datasets display that the proposed method can estimate components with improved accuracy and reproducibility. We also demonstrate the improved reproducibility of the components while preserving age-related variation on a real dataset compiled from multiple sites.
翻訳日:2021-05-18 01:50:11 公開日:2021-05-13
# (参考訳) バイオマニュファクチャリングプロセスのベイズネットワークハイブリッドモデルにおけるポリシー最適化

Policy Optimization in Bayesian Network Hybrid Models of Biomanufacturing Processes ( http://arxiv.org/abs/2105.06543v1 )

ライセンス: CC BY 4.0
Hua Zheng, Wei Xie, Ilya O. Ryzhov, Dongming Xie(参考訳) バイオ医薬品製造は、事実上全ての分野に影響を及ぼす急速に成長する産業である。 バイオマニュファクチャリングプロセスは、多くの相互依存因子を持つ複雑なバイオプロセスダイナミクスの存在や、高いコストと長期間の実験のために非常に限られたデータを含む、密接な監視と制御を必要とする。 低データ環境における人間レベルの制御を実現するためのモデルベース強化学習フレームワークを開発した。 このモデルは確率的知識グラフを用いて確率的決定過程の要因間の因果的相互依存性を捉え、実世界の実験データを取り入れながら、異なる単位操作からの既存の運動モデルからの情報を活用している。 次に,政策最適化のための計算効率,確率収束確率勾配法を提案する。 検証は多次元連続状態変数を持つ現実的なアプリケーション上で行われる。

Biopharmaceutical manufacturing is a rapidly growing industry with impact in virtually all branches of medicine. Biomanufacturing processes require close monitoring and control, in the presence of complex bioprocess dynamics with many interdependent factors, as well as extremely limited data due to the high cost and long duration of experiments. We develop a novel model-based reinforcement learning framework that can achieve human-level control in low-data environments. The model uses a probabilistic knowledge graph to capture causal interdependencies between factors in the underlying stochastic decision process, leveraging information from existing kinetic models from different unit operations while incorporating real-world experimental data. We then present a computationally efficient, provably convergent stochastic gradient method for policy optimization. Validation is conducted on a realistic application with a multi-dimensional, continuous state variable.
翻訳日:2021-05-18 01:27:21 公開日:2021-05-13
# (参考訳) Visual Cortex Anatomy Alike Neural Nets を用いたストローク病変分割 [全文訳有]

Stroke Lesion Segmentation with Visual Cortex Anatomy Alike Neural Nets ( http://arxiv.org/abs/2105.06544v1 )

ライセンス: CC BY 4.0
Chuanlong Li(参考訳) 脳血管障害または脳卒中は、患者や医療システムに大きな影響を与える急性疾患であり、世界で2番目に大きな死因である。 迅速かつ正確な脳卒中病変の検出と位置は、脳卒中診断、治療、予後に関して極めて重要なプロセスである。 手動セグメンテーションと従来のセグメンテーションのアプローチを除いて、機械学習ベースのセグメンテーション手法は効率と精度を考慮して最も有望な手法であり、畳み込みニューラルネットワークベースのモデルはこの種の最初のものである。 しかし、これらのニューラルネットワークモデルの多くは、脳の解剖学的構造と実際には一致しない。 直感的には、この研究は人間の視覚皮質の解剖学的構造を模倣する、より脳に似たモデルを提示している。 脳卒中病変セグメンテーションタスクに関する予備実験により,提案モデルが最先端モデルと同等の性能を発揮することが判明した。

Cerebrovascular accident or stroke, is an acute disease with extreme impact on patients and healthcare systems and is the second largest cause of death worldwide. Fast and precise stroke lesion detection and location is an extreme important process with regards to stroke diagnosis, treatment, and prognosis. Except from the manual segmentation and traditional segmentation approach, machine learning based segmentation methods are the most promising ones when considering efficiency and accuracy, and convolutional neural network based models are the first of its kind. However, most of these neural network models do not really align with the brain anatomical structures. Intuitively, this work presents a more brain alike model which mimics the anatomical structure of the human visual cortex. Through the preliminary experiments on stroke lesion segmentation task, the proposed model is found to be able to perform equally well to some of the state-of-the-art models.
翻訳日:2021-05-18 01:26:12 公開日:2021-05-13
# (参考訳) SpikeMS:モーションセグメンテーションのためのディープスパイキングニューラルネットワーク [全文訳有]

SpikeMS: Deep Spiking Neural Network for Motion Segmentation ( http://arxiv.org/abs/2105.06562v1 )

ライセンス: CC BY 4.0
Chethan M. Parameshwara, Simin Li, Cornelia Ferm\"uller, Nitin J. Sanket, Matthew S. Evanusa, Yiannis Aloimonos(参考訳) spiking neural networks (snn) は、生物学的脳の機能により密接にマッチしようとする、いわゆる第3世代のニューラルネットワークである。 それらは本質的に時間データをエンコードし、エネルギー使用量が少なく、神経質なハードウェアでコーディングする場合、非常にエネルギー効率が良いトレーニングを可能にする。 さらに、SNNのイベントベースの性質と一致するイベントベースのセンサーを含むタスクにも適している。 しかしながら、SNNはアルゴリズムとトレーニングの複雑さのため、標準的なニューラルネットワーク(ANN)ほど、現実世界の大規模タスクには効果的には適用されていない。 さらに状況を悪化させるためには、入力表現は非従来的であり、慎重に分析と深い理解が必要である。 本稿では,イベントベースのdvsカメラを入力として,実世界のモーションセグメンテーションの大規模問題に対して,最初のディープエンコーダ-デコーダsnアーキテクチャである \textit{spikems} を提案する。 そこで本研究では,SNNバックプロパゲーションに新たな手法を用いることで,スパイク数と分類ラベルの両方を含む新しい時空間損失定式化を提案する。 さらに, \textit{SpikeMS} は, トレーニングデータよりも少ない量のテストデータからの予測や, \textit{incremental prediction} が可能であることを示す。 これは低遅延アプリケーションのための部分入力データや高速な予測を必要とするデータでも出力を提供するのに有用である。 我々は、EV-IMO、EED、MODのデータセットから合成および実世界の配列を抽出し、ANN法と同等の精度で結果を得るが、50倍の電力を使用する可能性があることを評価した。

Spiking Neural Networks (SNN) are the so-called third generation of neural networks which attempt to more closely match the functioning of the biological brain. They inherently encode temporal data, allowing for training with less energy usage and can be extremely energy efficient when coded on neuromorphic hardware. In addition, they are well suited for tasks involving event-based sensors, which match the event-based nature of the SNN. However, SNNs have not been as effectively applied to real-world, large-scale tasks as standard Artificial Neural Networks (ANNs) due to the algorithmic and training complexity. To exacerbate the situation further, the input representation is unconventional and requires careful analysis and deep understanding. In this paper, we propose \textit{SpikeMS}, the first deep encoder-decoder SNN architecture for the real-world large-scale problem of motion segmentation using the event-based DVS camera as input. To accomplish this, we introduce a novel spatio-temporal loss formulation that includes both spike counts and classification labels in conjunction with the use of new techniques for SNN backpropagation. In addition, we show that \textit{SpikeMS} is capable of \textit{incremental predictions}, or predictions from smaller amounts of test data than it is trained on. This is invaluable for providing outputs even with partial input data for low-latency applications and those requiring fast predictions. We evaluated \textit{SpikeMS} on challenging synthetic and real-world sequences from EV-IMO, EED and MOD datasets and achieving results on a par with a comparable ANN method, but using potentially 50 times less power.
翻訳日:2021-05-18 01:18:46 公開日:2021-05-13
# (参考訳) 物理人工知能:次世代人工知能の概念拡張 [全文訳有]

Physical Artificial Intelligence: The Concept Expansion of Next-GenerationArtif icial Intelligence ( http://arxiv.org/abs/2105.06564v1 )

ライセンス: CC BY 4.0
Yingbo Li, Yucong Duan, Anamaria-Beatrice Spulber, Haoyang Che, Zakaria Maamar, Zhao Li, Chen Yang, Yu lei(参考訳) 人工知能は我々の社会にとって成長の触媒であり、すべての産業を基本技術とみなしている。 しかし、その開発は、他のセンサーから生成された、収集されたデータに依存する信号処理領域に限られている。 近年、デジタル人工知能と物理人工知能の概念が登場しており、これは人工知能の理論的発展における大きなステップであると考えられる。 本稿では,身体的人工的知性の概念を探求し,統合的身体的人工的知性と分散的身体的人工的知性という2つのサブドメインを提案する。 この論文は、物理学的芸術的知性の動向とガバナンスについても検討する。

Artificial Intelligence has been a growth catalyst to our society and is cosidered across all idustries as a fundamental technology. However, its development has been limited to the signal processing domain that relies on the generated and collected data from other sensors. In recent research, concepts of Digital Artificial Intelligence and Physicial Artifical Intelligence have emerged and this can be considered a big step in the theoretical development of Artifical Intelligence. In this paper we explore the concept of Physicial Artifical Intelligence and propose two subdomains: Integrated Physicial Artifical Intelligence and Distributed Physicial Artifical Intelligence. The paper will also examine the trend and governance of Physicial Artifical Intelligence.
翻訳日:2021-05-18 01:05:13 公開日:2021-05-13
# (参考訳) K45-like Godel modal logicの単純クリプキ意味論とその公理的拡張 [全文訳有]

Simplified Kripke semantics for K45-like Godel modal logics and its axiomatic extensions ( http://arxiv.org/abs/2105.06570v1 )

ライセンス: CC BY 4.0
Ricardo Rodriguez and Olim Tuyt and Lluis Godo and Francesc Esteva(参考訳) 本稿では,論理K45(G)の簡易意味論,すなわち論理K45(G)について述べる。 古典的な様相論理 K45 の多くの値を持つゴデル より正確には、K45(G) を、W が空でない世界の集合で \pi: W \to [0, 1] が W 上の可能性分布であるような確率論的ゴデル・クリプケフレームのクラスの有効公式の集合として特徴づける。

In this paper, we provide simplified semantics for the logic K45(G), i.e. the many-valued Godel counterpart of the classical modal logic K45. More precisely, we characterize K45(G) as the set of valid formulae of the class of possibilistic Godel Kripke Frames <W,\pi> where W is a non-empty set of worlds and \pi: W \to [0, 1] is a possibility distribution on W.
翻訳日:2021-05-18 00:56:47 公開日:2021-05-13
# (参考訳) 適応的および機械学習アプローチを用いたオンラインアルゴリズムとポリシー

Online Algorithms and Policies Using Adaptive and Machine Learning Approaches ( http://arxiv.org/abs/2105.06577v1 )

ライセンス: CC BY 4.0
Anuradha M. Annaswamy, Anubhav Guha, Yingnan Cui, Joseph E. Gaudio, Jos\'e M. Moreu(参考訳) 本稿では,不確実性を考慮した動的システムにおけるリアルタイム制御と学習の問題について考察する。 この問題を解決するために,強化学習(rl)と機械学習(ml)の手法とツールを組み合わせた適応的アプローチが提案されている。 アルゴリズムは、リアルタイムに発生するパラメトリック不確実性の存在下での安定した動作を保証するオンライン制御ポリシーにつながる、適応的なアプローチとRLを組み合わせた連続的に提案される。 パラメータおよび出力推定のための適応的アプローチと、時間変化レグレッタの存在下でも安定した推定を保証し、持続的な励振を伴うパラメータの学習を高速化するML手法を組み合わせた離散時間でアルゴリズムが提案される。 全アルゴリズムの数値検証は、移動プラットフォーム上の四重項ランディングタスクとMLのベンチマーク問題を用いて行われる。 すべての結果は、リアルタイム制御と学習に対する適応的アプローチの利点を明確に示しています。

This paper considers the problem of real-time control and learning in dynamic systems subjected to uncertainties. Adaptive approaches are proposed to address the problem, which are combined to with methods and tools in Reinforcement Learning (RL) and Machine Learning (ML). Algorithms are proposed in continuous-time that combine adaptive approaches with RL leading to online control policies that guarantee stable behavior in the presence of parametric uncertainties that occur in real-time. Algorithms are proposed in discrete-time that combine adaptive approaches proposed for parameter and output estimation and ML approaches proposed for accelerated performance that guarantee stable estimation even in the presence of time-varying regressors, and for accelerated learning of the parameters with persistent excitation. Numerical validations of all algorithms are carried out using a quadrotor landing task on a moving platform and benchmark problems in ML. All results clearly point out the advantage of adaptive approaches for real-time control and learning.
翻訳日:2021-05-17 23:56:35 公開日:2021-05-13
# (参考訳) 新規な手書き認識 [全文訳有]

Handwriting Recognition with Novelty ( http://arxiv.org/abs/2105.06582v1 )

ライセンス: CC BY 4.0
Derek S. Prijatelj (1), Samuel Grieggs (1), Futoshi Yumoto (2), Eric Robertson (2), Walter J. Scheirer (1) ((1) University of Notre Dame, (2) PAR Government)(参考訳) 本稿では,手書き文字認識(HWR)の視覚認識領域における新規性を扱うエージェント中心のアプローチを提案する。 理想的な転写剤は、人間の知覚に匹敵し、画像中の既知の文字や新しい文字を認識でき、文書内または文書間で起こるスタイリスティックな変化を検出できる。 鍵となるのは、ノベルティの存在であり、これらのタスクに最適な機械学習ベースのアルゴリズムでさえもスタイリングを続けている。 手書きの文書では、新規性は、ライター、文字属性、書き込み属性、あるいはドキュメント全体の外観の変更である。 それぞれの側面を独立して見るのではなく、既知の文字と新規性を同時に処理できる統合エージェントがより良い戦略であると提案する。 本稿では,手書き認識の領域をノベルティで定式化し,ベースラインエージェントを記述し,ベンチマークデータを用いた評価プロトコルを導入し,最先端の設定実験を提供する。 結果はエージェント中心のアプローチが実現可能であることを示しているが、読解能力の人間レベルへのアプローチにはより多くの作業が必要であり、hwrコミュニティがこの困難な問題を解決するための正式な基礎を与えている。

This paper introduces an agent-centric approach to handle novelty in the visual recognition domain of handwriting recognition (HWR). An ideal transcription agent would rival or surpass human perception, being able to recognize known and new characters in an image, and detect any stylistic changes that may occur within or across documents. A key confound is the presence of novelty, which has continued to stymie even the best machine learning-based algorithms for these tasks. In handwritten documents, novelty can be a change in writer, character attributes, writing attributes, or overall document appearance, among other things. Instead of looking at each aspect independently, we suggest that an integrated agent that can process known characters and novelties simultaneously is a better strategy. This paper formalizes the domain of handwriting recognition with novelty, describes a baseline agent, introduces an evaluation protocol with benchmark data, and provides experimentation to set the state-of-the-art. Results show feasibility for the agent-centric approach, but more work is needed to approach human-levels of reading ability, giving the HWR community a formal basis to build upon as they solve this challenging problem.
翻訳日:2021-05-17 23:55:34 公開日:2021-05-13
# 方向性gan:生成ネットワークのための新しい条件付け戦略

Directional GAN: A Novel Conditioning Strategy for Generative Networks ( http://arxiv.org/abs/2105.05712v2 )

ライセンス: Link先を確認
Shradha Agrawal, Shankar Venkitachalam, Dhanya Raghu, Deepak Pai(参考訳) 画像コンテンツは、マーケティングキャンペーン、ウェブサイト、バナーの主要な要素である。 今日、マーケターやデザイナーは、このようなプロフェッショナルな品質コンテンツの作成にかなりの時間とお金を費やしている。 我々は、GAN(Generative Adversarial Networks)を用いて、このプロセスを単純化する。 本論文では,無条件画像生成タスク用に訓練された生成器を用いて,与えられた意味属性に基づく画像生成を可能にする,単純で新しい条件付け戦略を提案する。 我々のアプローチは、潜在空間における関連する意味属性の方向ベクトルを用いて、潜在ベクトルを変更することに基づいている。 本手法は離散的(バイナリとマルチクラス)と連続的なイメージ属性の両方で動作するように設計されている。 提案手法であるDirectional GANを複数のパブリックデータセットに適用し,属性毎に平均86.4%の精度で適用可能であることを示す。

Image content is a predominant factor in marketing campaigns, websites and banners. Today, marketers and designers spend considerable time and money in generating such professional quality content. We take a step towards simplifying this process using Generative Adversarial Networks (GANs). We propose a simple and novel conditioning strategy which allows generation of images conditioned on given semantic attributes using a generator trained for an unconditional image generation task. Our approach is based on modifying latent vectors, using directional vectors of relevant semantic attributes in latent space. Our method is designed to work with both discrete (binary and multi-class) and continuous image attributes. We show the applicability of our proposed approach, named Directional GAN, on multiple public datasets, with an average accuracy of 86.4% across different attributes.
翻訳日:2021-05-17 12:56:55 公開日:2021-05-13
# 人間と機械のディープフェイク検出と影響的・全体的処理の比較

Comparing Human and Machine Deepfake Detection with Affective and Holistic Processing ( http://arxiv.org/abs/2105.06496v1 )

ライセンス: Link先を確認
Matthew Groh, Ziv Epstein, Chaz Firestone, Rosalind Picard(参考訳) ディープフェイク動画が最近登場したことで、社会的な重要な疑問が生まれました。 15,016人の参加者を含む3つのオンライン研究で、本物のビデオとディープフェイクを紹介し、参加者にどれがどれであるかを尋ねます。 我々は,コンピュータビジョンの深度検出モデルに対して,一般参加者のパフォーマンスを比較し,異なる種類の誤りを犯しながら,同様の精度で検出する。 共に、モデルの予測にアクセスできる参加者は、単独よりも正確であるが、不正確なモデル予測は、しばしば参加者の精度を低下させる。 偶然の怒りは参加者のパフォーマンスを低下させ、顔の全体的視覚処理を阻害すると同時に、ほとんどモデルに影響を与えない一方で、参加者のパフォーマンスを阻害する。 これらの結果は, 感情的影響を考慮し, 一般人の特殊視覚処理を活用すれば, 機械操作メディアに対する防衛効果が期待できることが示唆された。

The recent emergence of deepfake videos leads to an important societal question: how can we know if a video that we watch is real or fake? In three online studies with 15,016 participants, we present authentic videos and deepfakes and ask participants to identify which is which. We compare the performance of ordinary participants against the leading computer vision deepfake detection model and find them similarly accurate while making different kinds of mistakes. Together, participants with access to the model's prediction are more accurate than either alone, but inaccurate model predictions often decrease participants' accuracy. We embed randomized experiments and find: incidental anger decreases participants' performance and obstructing holistic visual processing of faces also hinders participants' performance while mostly not affecting the model's. These results suggest that considering emotional influences and harnessing specialized, holistic visual processing of ordinary people could be promising defenses against machine-manipulated media.
翻訳日:2021-05-17 12:54:31 公開日:2021-05-13
# すべての記憶が平等に作られたわけではない

Not All Memories are Created Equal: Learning to Forget by Expiring ( http://arxiv.org/abs/2105.06548v1 )

ライセンス: Link先を確認
Sainbayar Sukhbaatar, Da Ju, Spencer Poff, Stephen Roller, Arthur Szlam, Jason Weston, Angela Fan(参考訳) 注意機構は、長期記憶を必要とするシーケンスモデリングタスクにおいて有望な結果を示している。 最近の研究は、記憶の保存と保存の計算コストを削減するメカニズムを調査した。 しかし、過去のすべてのコンテンツが同じように重要であるわけではない。 本稿では,重要情報の保持を学習し,無関係情報を期限とするExpire-Spanを提案する。 この記憶の忘れにより、トランスフォーマーは、前の全ての状態が保存されているわけではないため、何万もの前のタイムステップを効率的に処理できる。 Expire-Spanは、モデルが重要な情報を識別し、保持し、この機能に挑戦するために特別に設計された強化学習タスクにおいて強力な性能を発揮することを示す。 次に、Expire-Spanは数万のメモリにスケール可能であることを示し、文字レベルの言語モデリングやフレーム単位の移動オブジェクトタスクなど、信じられないほど長いコンテキストタスクに新しい技術状態を設定する。 最後に,既存の手法と比較して有効期限スパンの効率を解析し,高速にトレーニングでき,メモリ使用量も少ないことを示す。

Attention mechanisms have shown promising results in sequence modeling tasks that require long-term memory. Recent work investigated mechanisms to reduce the computational cost of preserving and storing memories. However, not all content in the past is equally important to remember. We propose Expire-Span, a method that learns to retain the most important information and expire the irrelevant information. This forgetting of memories enables Transformers to scale to attend over tens of thousands of previous timesteps efficiently, as not all states from previous timesteps are preserved. We demonstrate that Expire-Span can help models identify and retain critical information and show it can achieve strong performance on reinforcement learning tasks specifically designed to challenge this functionality. Next, we show that Expire-Span can scale to memories that are tens of thousands in size, setting a new state of the art on incredibly long context tasks such as character-level language modeling and a frame-by-frame moving objects task. Finally, we analyze the efficiency of Expire-Span compared to existing approaches and demonstrate that it trains faster and uses less memory.
翻訳日:2021-05-17 12:54:15 公開日:2021-05-13
# AIとMLアルゴリズムによるバイアス、公平性、説明責任

Bias, Fairness, and Accountability with AI and ML Algorithms ( http://arxiv.org/abs/2105.06558v1 )

ライセンス: Link先を確認
Nengfeng Zhou, Zach Zhang, Vijayan N. Nair, Harsh Singhal, Jie Chen, and Agus Sudjianto(参考訳) AIとMLアルゴリズムの出現は、課題だけでなく機会にも繋がった。 本稿では,MLアルゴリズムを用いた場合のバイアス問題と公平性問題の概要について述べる。 データバイアスのタイプとソースを説明し、アルゴリズムの不公平性の性質について論じる。 これに続いて、文献における公正度メトリクスのレビュー、それらの制限に関する議論、モデルライフサイクルにおける非バイアス(または緩和)技術の説明が続く。

The advent of AI and ML algorithms has led to opportunities as well as challenges. In this paper, we provide an overview of bias and fairness issues that arise with the use of ML algorithms. We describe the types and sources of data bias, and discuss the nature of algorithmic unfairness. This is followed by a review of fairness metrics in the literature, discussion of their limitations, and a description of de-biasing (or mitigation) techniques in the model life cycle.
翻訳日:2021-05-17 12:52:25 公開日:2021-05-13
# アルファ発散最小化のためのバイアスド手法の実証評価

Empirical Evaluation of Biased Methods for Alpha Divergence Minimization ( http://arxiv.org/abs/2105.06587v1 )

ライセンス: Link先を確認
Tomas Geffner and Justin Domke(参考訳) 本稿では,アルファダイバージェンス最小化のためのバイアスド手法を実験的に評価する。 特に、バイアスが最終解にどのように影響するか、そしてこれが問題の次元性に依存するかに焦点を当てる。 これらの手法によって返される解は、(i)伝統的な「排他的」KL偏差(KL(q||p)の最小値に対して強く偏りがあり、(ii)高次元では、この偏差を緩和し、実際にα偏差を最小化する解を得るために、急激に大量の計算が必要である。

In this paper we empirically evaluate biased methods for alpha-divergence minimization. In particular, we focus on how the bias affects the final solutions found, and how this depends on the dimensionality of the problem. We find that (i) solutions returned by these methods appear to be strongly biased towards minimizers of the traditional "exclusive" KL-divergence, KL(q||p), and (ii) in high dimensions, an impractically large amount of computation is needed to mitigate this bias and obtain solutions that actually minimize the alpha-divergence of interest.
翻訳日:2021-05-17 12:52:18 公開日:2021-05-13
# 自動車運転における強化学習に基づく安全意思決定

Reinforcement Learning Based Safe Decision Making for Highway Autonomous Driving ( http://arxiv.org/abs/2105.06517v1 )

ライセンス: Link先を確認
Arash Mohammadhasani, Hamed Mehrivash, Alan Lynch, Zhan Shu(参考訳) 本稿では,複数車線単一エージェント環境での自動運転車の安全な意思決定手法を提案する。 提案手法は, 深い強化学習(rl)を用いて, 安全な戦術的意思決定のためのハイレベルな方針を実現する。 自律ナビゲーションでのみ発生する2つの大きな課題に対処する。 まず、提案アルゴリズムは衝突が起こらないことを保証し、学習プロセスを加速する。 第二に、提案アルゴリズムは環境中の観測不能な状態を考慮に入れている。 これらの状態は、主に自動車や歩行者などの他のエージェントの予測不能な行動によって現れ、自律航行を扱う際にマルコフ決定プロセス(mdp)が問題となる。 有名な自動運転車シミュレータによるシミュレーションによる提案手法の適用性実証

In this paper, we develop a safe decision-making method for self-driving cars in a multi-lane, single-agent setting. The proposed approach utilizes deep reinforcement learning (RL) to achieve a high-level policy for safe tactical decision-making. We address two major challenges that arise solely in autonomous navigation. First, the proposed algorithm ensures that collisions never happen, and therefore accelerate the learning process. Second, the proposed algorithm takes into account the unobservable states in the environment. These states appear mainly due to the unpredictable behavior of other agents, such as cars, and pedestrians, and make the Markov Decision Process (MDP) problematic when dealing with autonomous navigation. Simulations from a well-known self-driving car simulator demonstrate the applicability of the proposed method
翻訳日:2021-05-17 12:50:09 公開日:2021-05-13
# ギフトによるマルチエージェントゲームにおける創発的社会性

Emergent Prosociality in Multi-Agent Games Through Gifting ( http://arxiv.org/abs/2105.06593v1 )

ライセンス: Link先を確認
Woodrow Z. Wang, Mark Beliaev, Erdem B{\i}y{\i}k, Daniel A. Lazar, Ramtin Pedarsani, Dorsa Sadigh(参考訳) コーディネーションは、多エージェントゲームにおいて全てのエージェントが受ける報酬の総和を増加させる行動である、社会的行動を形成するためにしばしば重要である。 しかし, 技術強化学習アルゴリズムの現状は, 複数の平衡が存在する場合には, 社会的に望ましい均衡に陥ることがしばしばある。 以前は、エージェントが社会的に強制されるという強い仮定を必要とする明確な報酬形成によって、この問題に対処していた。 我々は,より社会的に望ましい均衡に向けてエージェントを誘導し,エージェントを自己中心的かつ分散的に維持する,制約の少ないピアリワード機構,ギフト(ギフト)を用いることを提案する。 贈与により、各エージェントは他のエージェントに報酬を与えることができる。 動的システムにおいて、平衡のアトラクションの流域を特徴付けることにより、社会均衡に収束する際のギフトの利益を捉える理論的枠組みを用いる。 ギフト化により,高リスク,一般サムコーディネートゲームが,数値解析と実験を通じて,社会均衡に収束することを示す。

Coordination is often critical to forming prosocial behaviors -- behaviors that increase the overall sum of rewards received by all agents in a multi-agent game. However, state of the art reinforcement learning algorithms often suffer from converging to socially less desirable equilibria when multiple equilibria exist. Previous works address this challenge with explicit reward shaping, which requires the strong assumption that agents can be forced to be prosocial. We propose using a less restrictive peer-rewarding mechanism, gifting, that guides the agents toward more socially desirable equilibria while allowing agents to remain selfish and decentralized. Gifting allows each agent to give some of their reward to other agents. We employ a theoretical framework that captures the benefit of gifting in converging to the prosocial equilibrium by characterizing the equilibria's basins of attraction in a dynamical system. With gifting, we demonstrate increased convergence of high risk, general-sum coordination games to the prosocial equilibrium both via numerical analysis and experiments.
翻訳日:2021-05-17 12:49:58 公開日:2021-05-13
# マルチメッセンジャーソースのモデリングとリアルタイム検出のための機械学習とディープラーニングの進歩

Advances in Machine and Deep Learning for Modeling and Real-time Detection of Multi-Messenger Sources ( http://arxiv.org/abs/2105.06479v1 )

ライセンス: Link先を確認
E. A. Huerta and Zhizhen Zhao(参考訳) 私たちは時々住んでいます。 科学コミュニティには、宇宙を前例のない詳細で研究するための宇宙伝令の武器が備わっている。 重力波、電磁波、ニュートリノ、宇宙線は幅広い波長と時間スケールをカバーしている。 ボリューム、速度、寸法の異なるこれらのデータセットを結合し、処理するには、専門的な人間と技術インフラとの機器調整、資金提供、国際コラボレーションの新たなモードが必要となる。 大規模な科学施設の出現と相まって、過去10年間はコンピューティングと信号処理アルゴリズムに先例のない変革を経験してきた。 グラフィックス処理ユニット、ディープラーニング、オープンソースの高品質データセットの可用性の組み合わせは、人工知能の台頭を支えている。 このデジタル革命は今や数十億ドルの産業を支え、テクノロジーと社会に大きく影響している。 本章では、マルチメッセンジャー天体物理学における計算上の大きな課題に対処するために人工知能アルゴリズムを適用するための先駆的な取り組みについて述べる。 2017年初頭に導入された1級のアルゴリズムから、現在アーキテクチャ設計と最適化のスキームにドメインの専門知識を取り入れている高度なアルゴリズムまで、これらの破壊的アルゴリズムの急速な進化をレビューします。 本稿では,モデルとデータ間の相互作用から,観察時間削減と新たな知識獲得における科学的可視化と超大規模計算の重要性について論じる。

We live in momentous times. The science community is empowered with an arsenal of cosmic messengers to study the Universe in unprecedented detail. Gravitational waves, electromagnetic waves, neutrinos and cosmic rays cover a wide range of wavelengths and time scales. Combining and processing these datasets that vary in volume, speed and dimensionality requires new modes of instrument coordination, funding and international collaboration with a specialized human and technological infrastructure. In tandem with the advent of large-scale scientific facilities, the last decade has experienced an unprecedented transformation in computing and signal processing algorithms. The combination of graphics processing units, deep learning, and the availability of open source, high-quality datasets, have powered the rise of artificial intelligence. This digital revolution now powers a multi-billion dollar industry, with far-reaching implications in technology and society. In this chapter we describe pioneering efforts to adapt artificial intelligence algorithms to address computational grand challenges in Multi-Messenger Astrophysics. We review the rapid evolution of these disruptive algorithms, from the first class of algorithms introduced in early 2017, to the sophisticated algorithms that now incorporate domain expertise in their architectural design and optimization schemes. We discuss the importance of scientific visualization and extreme-scale computing in reducing time-to-insight and obtaining new knowledge from the interplay between models and data.
翻訳日:2021-05-17 12:48:03 公開日:2021-05-13
# 混乱の陰影:対話的コミュニケーションタスクにおける語彙の不確かさがアドホック調整を変調する

Shades of confusion: Lexical uncertainty modulates ad hoc coordination in an interactive communication task ( http://arxiv.org/abs/2105.06546v1 )

ライセンス: Link先を確認
Sonia K. Murthy and Robert D. Hawkins and Thomas L. Griffiths(参考訳) コミュニケーションパートナーが相互作用をもたらし、誤解の可能性を生んでいるという期待には、かなりのばらつきがある。 これらのギャップと克服する能力を直接調査するため,カラーコンセプション関連に基づくコミュニケーションタスクを提案する。 実験1では、近年の確率論に基づいて、これらの期待の心的表現のいくつかの重要な特性、すなわち「前述語」を確立する。 関連性は抽象概念に対してより可変的であり、変動性は個々の不確実性として表現され、不確実性は他者が同一の関連を共有できるかどうかの正確な予測を可能にする。 実験2では、コミュニケーションのためのこれらの表現の下流結果を調べる。 より可変な関係を持つ概念についてコミュニケーションする場合、当初は正確性は低いが、参加者がアドホックな規約を形成すると急速に増加する。 その結果,パートナーに対する不確実性や適切な適応性を維持することで,変動性に対処できることが示唆された。

There is substantial variability in the expectations that communication partners bring into interactions, creating the potential for misunderstandings. To directly probe these gaps and our ability to overcome them, we propose a communication task based on color-concept associations. In Experiment 1, we establish several key properties of the mental representations of these expectations, or \emph{lexical priors}, based on recent probabilistic theories. Associations are more variable for abstract concepts, variability is represented as uncertainty within each individual, and uncertainty enables accurate predictions about whether others are likely to share the same association. In Experiment 2, we then examine the downstream consequences of these representations for communication. Accuracy is initially low when communicating about concepts with more variable associations, but rapidly increases as participants form ad hoc conventions. Together, our findings suggest that people cope with variability by maintaining well-calibrated uncertainty about their partner and appropriately adaptable representations of their own.
翻訳日:2021-05-17 12:47:42 公開日:2021-05-13
# 顔強調のためのネットワークアーキテクチャ探索

Network Architecture Search for Face Enhancement ( http://arxiv.org/abs/2105.06528v1 )

ライセンス: Link先を確認
Rajeev Yasarla, Hamid Reza Vaezi Joze, and Vishal M Patel(参考訳) 周囲の照明条件、騒音、動きのぼやけなど、様々な要因がある。 捉えた顔の画質に影響を与えます 品質の悪い顔画像は、しばしば顔分析と認識システムの性能を低下させる。 したがって,このような状況下で収集した顔画像の品質を高めることが重要である。 本稿では,NASFE (Network Architecture Search for Face Enhancement) と呼ばれるマルチタスクの顔復元ネットワークを提案する。 ノイズやぼやけ)、あるいは複数の劣化(ノイズ+ブラル+ローライト)。 トレーニング中、NASFEは劣化した画像に存在する人物のきれいな顔画像を使用して、画像の復元のための特徴の観点から識別情報を抽出する。 さらに、ネットワークは、復元された画像においてアイデンティティインフォーメーションが維持されるようにid損失によって誘導される。 さらに,タスク固有のエンコーダを用いて抽出されるタスク固有の特徴を融合するNASFEにおけるネットワークアーキテクチャ検索に基づく融合ネットワークを提案する。 本稿では,fft-op および deveiling operator を fusion network に導入し,タスク固有の機能を効率的に融合する。 合成画像および実画像に関する包括的実験により, 提案手法は, 定量的, 視覚的性能の面で, 最新の顔復元法, 強化法を上回っていることが示された。

Various factors such as ambient lighting conditions, noise, motion blur, etc. affect the quality of captured face images. Poor quality face images often reduce the performance of face analysis and recognition systems. Hence, it is important to enhance the quality of face images collected in such conditions. We present a multi-task face restoration network, called Network Architecture Search for Face Enhancement (NASFE), which can enhance poor quality face images containing a single degradation (i.e. noise or blur) or multiple degradations (noise+blur+low-light). During training, NASFE uses clean face images of a person present in the degraded image to extract the identity information in terms of features for restoring the image. Furthermore, the network is guided by an identity-loss so that the identity in-formation is maintained in the restored image. Additionally, we propose a network architecture search-based fusion network in NASFE which fuses the task-specific features that are extracted using the task-specific encoders. We introduce FFT-op and deveiling operators in the fusion network to efficiently fuse the task-specific features. Comprehensive experiments on synthetic and real images demonstrate that the proposed method outperforms many recent state-of-the-art face restoration and enhancement methods in terms of quantitative and visual performance.
翻訳日:2021-05-17 12:45:13 公開日:2021-05-13
# 過パラメータニューラルネットワークの勾配降下のダイナミクス

The Dynamics of Gradient Descent for Overparametrized Neural Networks ( http://arxiv.org/abs/2105.06569v1 )

ライセンス: Link先を確認
Siddhartha Satpathi and R Srikant(参考訳) 正方形損失関数を持つ単一隠れ層ニューラルネットワークの過パラメータ化における勾配降下(GD)のダイナミクスを考察する。 近年,いくつかの条件下では,gdを用いたパラメータ値がトレーニング誤差をゼロにし,初期条件が適切に選択された場合によく一般化できることが示されている。 ここでは、リアプノフ解析により、GDのニューラルネットワーク重みのダイナミクスが、ニューラルネットワークへの線形近似を用いた場合のトレーニング誤差がないという条件の下で、最小標準解に近い点に収束することを示す。 この結果の適用例を示すために,gd は well を一般化する予測関数に収束し,arora などにおける一般化結果の代替的な証明を提供する。 (2019).

We consider the dynamics of gradient descent (GD) in overparameterized single hidden layer neural networks with a squared loss function. Recently, it has been shown that, under some conditions, the parameter values obtained using GD achieve zero training error and generalize well if the initial conditions are chosen appropriately. Here, through a Lyapunov analysis, we show that the dynamics of neural network weights under GD converge to a point which is close to the minimum norm solution subject to the condition that there is no training error when using the linear approximation to the neural network. To illustrate the application of this result, we show that the GD converges to a prediction function that generalizes well, thereby providing an alternative proof of the generalization results in Arora et al. (2019).
翻訳日:2021-05-17 12:41:03 公開日:2021-05-13
# 勾配ブースティングによるモデルの拡張:メンデルモデルへの応用

Extending Models Via Gradient Boosting: An Application to Mendelian Models ( http://arxiv.org/abs/2105.06559v1 )

ライセンス: Link先を確認
Theodore Huang, Gregory Idos, Christine Hong, Stephen Gruber, Giovanni Parmigiani, Danielle Braun(参考訳) 既存の広く受け入れられた予測モデルを改善することは、スクラッチから新しいモデルをトレーニングするよりも、進歩に向けて効率的で堅牢な方法であることが多い。 既存のモデルは(a)複雑な機械的知識を取り入れ、(b)プロプライエタリな情報を活用し、(c)導入の障壁を克服することができる。 モデルのトレーニングと比べて、モデルの改善と修正は注意を引かない。 本稿では,従来のモデルとグラデーションブースティングを組み合わせることで,既存の重要な特性を維持しつつ,モデル性能を向上させる手法を提案する。 例として,家族系譜と家族の健康履歴を用いて,疾患感受性を規定する遺伝子変異を携帯する確率を推定するmendelian modelの文脈を考察する。 シミュレーションによって、既存のメンデルモデルとの勾配ブースティングの統合は、そのモデルと勾配ブースティングだけで構築されたモデルの両方を上回る改良されたモデルを生み出すことができることを示します。 本稿では,USC-Stanford Cancer Genetics Hereditary Cancer Panel (HCP) の遺伝子検査データに対するアプローチについて述べる。

Improving existing widely-adopted prediction models is often a more efficient and robust way towards progress than training new models from scratch. Existing models may (a) incorporate complex mechanistic knowledge, (b) leverage proprietary information and, (c) have surmounted barriers to adoption. Compared to model training, model improvement and modification receive little attention. In this paper we propose a general approach to model improvement: we combine gradient boosting with any previously developed model to improve model performance while retaining important existing characteristics. To exemplify, we consider the context of Mendelian models, which estimate the probability of carrying genetic mutations that confer susceptibility to disease by using family pedigrees and health histories of family members. Via simulations we show that integration of gradient boosting with an existing Mendelian model can produce an improved model that outperforms both that model and the model built using gradient boosting alone. We illustrate the approach on genetic testing data from the USC-Stanford Cancer Genetics Hereditary Cancer Panel (HCP) study.
翻訳日:2021-05-17 12:37:38 公開日:2021-05-13
# Stochastic-Shield:量子CNNにおける学習自由敵防衛に向けた確率論的アプローチ

Stochastic-Shield: A Probabilistic Approach Towards Training-Free Adversarial Defense in Quantized CNNs ( http://arxiv.org/abs/2105.06512v1 )

ライセンス: Link先を確認
Lorena Qendro, Sangwon Ha, Ren\'e de Jong, Partha Maji(参考訳) 量子ニューラルネットワーク(NN)は、小さなハードウェアプラットフォームにディープラーニングモデルを効率的にデプロイするための一般的な標準である。 しかし、量子化NNは完全精度モデルと同じくらい敵攻撃に弱いことに気づいた。 私たちが持ち運んだり囲んだりする小さなデバイス上でのニューラルネットワークの拡散により、悪性摂動の存在下での予測に対する信頼を犠牲にすることなく効率的なモデルが必要である。 現在の緩和アプローチは、しばしば敵の訓練を必要とするか、敵の例の強さが増すとバイパスされる。 本研究では,先述した量子化深層学習モデルの制約を克服する上で,確率的フレームワークがいかに役立つかを検討する。 入力フィルタリングとモンテカルロドロップアウトによって実現される確率的ディープラーニングアプローチを活用した,柔軟な防御機構である。 再トレーニングやアドホックな微調整の負担を伴わずに,各モジュールを高精度に実現することにより,効率とロバスト性が両立できることを示す。

Quantized neural networks (NN) are the common standard to efficiently deploy deep learning models on tiny hardware platforms. However, we notice that quantized NNs are as vulnerable to adversarial attacks as the full-precision models. With the proliferation of neural networks on small devices that we carry or surround us, there is a need for efficient models without sacrificing trust in the prediction in presence of malign perturbations. Current mitigation approaches often need adversarial training or are bypassed when the strength of adversarial examples is increased. In this work, we investigate how a probabilistic framework would assist in overcoming the aforementioned limitations for quantized deep learning models. We explore Stochastic-Shield: a flexible defense mechanism that leverages input filtering and a probabilistic deep learning approach materialized via Monte Carlo Dropout. We show that it is possible to jointly achieve efficiency and robustness by accurately enabling each module without the burden of re-retraining or ad hoc fine-tuning.
翻訳日:2021-05-17 12:37:20 公開日:2021-05-13
# CoCoNet:分散機械学習のための計算と通信の最適化

CoCoNet: Co-Optimizing Computation and Communication for Distributed Machine Learning ( http://arxiv.org/abs/2105.05720v2 )

ライセンス: Link先を確認
Abhinav Jangda, Jun Huang, Guodong Liu, Amir Hossein Nodehi Sabet, Saeed Maleki, Youshan Miao, Madanlal Musuvathi, Todd Mytkowicz, Olli Sarikivi(参考訳) データ、モデル、パイプラインの並列化は、開発者がcublasやncclといったライブラリで最適化された計算と通信カーネルを中心に、ワークロードを慎重に再構成する必要がある。 計算と通信の論理的分離は、抽象境界を越えた最適化の機会を逃すことなく、テーブル上のパフォーマンスを損なう。 このような機会を探るため,計算と通信の両方でプログラムを表現する計算言語であるCoCoNet,プログラムに変換を適用するスケジューリング言語,高性能カーネルを生成するコンパイラを提案する。 計算と通信の両方を第一クラスとして提供することで、計算との通信の重複や融合といった新しい最適化が可能になる。 CoCoNetを使用することで、既存のディープラーニングシステムの並列ワークロードを、数行のコードで最適化できるようになりました。 新規coconet生成カーネルの統合により,大幅な改善が見られた。

Modern deep learning workloads run on distributed hardware and are difficult to optimize -- data, model, and pipeline parallelism require a developer to thoughtfully restructure their workload around optimized computation and communication kernels in libraries such as cuBLAS and NCCL. The logical separation between computation and communication leaves performance on the table with missed optimization opportunities across abstraction boundaries. To explore these opportunities, this paper presents CoCoNet, which consists of a compute language to express programs with both computation and communication, a scheduling language to apply transformations on such programs, and a compiler to generate high performance kernels. Providing both computation and communication as first class constructs enables new optimizations, such as overlapping or fusion of communication with computation. CoCoNet allowed us to optimize several data, model and pipeline parallel workloads in existing deep learning systems with very few lines of code. We show significant improvements after integrating novel CoCoNet generated kernels.
翻訳日:2021-05-17 12:35:14 公開日:2021-05-13
# 信頼できる機械学習研究の解釈可能なグラフベースマッピング

An Interpretable Graph-based Mapping of Trustworthy Machine Learning Research ( http://arxiv.org/abs/2105.06591v1 )

ライセンス: Link先を確認
Noemi Derzsy, Subhabrata Majumdar, Rajat Malik(参考訳) 機械学習(ML)フレームワークが社会的に責任を負った振る舞いを確実にすることへの関心が高まっている。 近年、信頼に値するml(twml)の分野でかなりの進歩が見られたが、この進歩の現在の特徴の多くは定性的である。 その結果、信頼度や将来の研究目標の課題に対処する方法に関する決定は、しばしば関心のある研究者に委ねられる。 本稿では,TwML研究の理解を特徴付けるための最初の定量的アプローチを提案する。 我々は、7000以上のピアレビューされた最近のML論文からなるWebスクラッドコーパスを使用して、単語の共起ネットワークを構築します。 我々はコミュニティ検出を用いて、TwMLトピックの相対的な位置を推測できる、このネットワークにおける単語の意味的クラスタを得る。 本稿では,個々の単語に対する確率的類似度スコアを得るための新しいフィンガープリントアルゴリズムを提案する。 分析の結果から,TwML研究の進展に関する興味深い知見が数多く得られている。

There is an increasing interest in ensuring machine learning (ML) frameworks behave in a socially responsible manner and are deemed trustworthy. Although considerable progress has been made in the field of Trustworthy ML (TwML) in the recent past, much of the current characterization of this progress is qualitative. Consequently, decisions about how to address issues of trustworthiness and future research goals are often left to the interested researcher. In this paper, we present the first quantitative approach to characterize the comprehension of TwML research. We build a co-occurrence network of words using a web-scraped corpus of more than 7,000 peer-reviewed recent ML papers -- consisting of papers both related and unrelated to TwML. We use community detection to obtain semantic clusters of words in this network that can infer relative positions of TwML topics. We propose an innovative fingerprinting algorithm to obtain probabilistic similarity scores for individual words, then combine them to give a paper-level relevance score. The outcomes of our analysis inform a number of interesting insights on advancing the field of TwML research.
翻訳日:2021-05-17 12:34:59 公開日:2021-05-13
# 擬似LiDAR法によるモノクロ3次元物体検出における信頼の欠如

Are we Missing Confidence in Pseudo-LiDAR Methods for Monocular 3D Object Detection? ( http://arxiv.org/abs/2012.05796v2 )

ライセンス: Link先を確認
Andrea Simonelli, Samuel Rota Bul\`o, Lorenzo Porzi, Peter Kontschieder, Elisa Ricci(参考訳) 擬似LiDARを用いたモノクロ3Dオブジェクト検出法は,KITTI3Dベンチマークで示された性能向上により,コミュニティで注目されている。 これにより、RGB画像のみを扱う手法よりもPseudo-LiDAR(PLベース)アプローチの方が優れているという歪んだ印象が生じる。 最初のコントリビューションは、plベースのメソッドが公開する検証結果が実質的に偏っていることを指摘し、実験的に示すことで、この見解を正すことにあります。 バイアスの源は、KITTI3Dオブジェクト検出検証セットと、PLベースの方法を提供する深度予測器のトレーニングに使用されるトレーニング/バリデーションセットの重複に存在する。 驚いたことに、このバイアスは地理的に重複を取り除いた後にも残る。 このことは、PLベースのメソッドが排他的でないテストセットを唯一信頼できる比較セットとして残している。 2つ目のコントリビューションは、PLベースのメソッドを3D信頼度予測モジュールを導入した新しいディープアーキテクチャの設計とともにランキングに戻すことです。 rgbのみの3d検出アプローチから得られた3d信頼度推定手法をフレームワークに統合し,さらに,新たに設計した3d信頼度尺度で性能改善が得られ,kitti3dベンチマークで最先端のパフォーマンスが得られた。

Pseudo-LiDAR-based methods for monocular 3D object detection have received considerable attention in the community due to the performance gains exhibited on the KITTI3D benchmark, in particular on the commonly reported validation split. This generated a distorted impression about the superiority of Pseudo-LiDAR-based (PL-based) approaches over methods working with RGB images only. Our first contribution consists in rectifying this view by pointing out and showing experimentally that the validation results published by PL-based methods are substantially biased. The source of the bias resides in an overlap between the KITTI3D object detection validation set and the training/validation sets used to train depth predictors feeding PL-based methods. Surprisingly, the bias remains also after geographically removing the overlap. This leaves the test set as the only reliable set for comparison, where published PL-based methods do not excel. Our second contribution brings PL-based methods back up in the ranking with the design of a novel deep architecture which introduces a 3D confidence prediction module. We show that 3D confidence estimation techniques derived from RGB-only 3D detection approaches can be successfully integrated into our framework and, more importantly, that improved performance can be obtained with a newly designed 3D confidence measure, leading to state-of-the-art performance on the KITTI3D benchmark.
翻訳日:2021-05-15 06:20:54 公開日:2021-05-13
# (参考訳) マルチエピックトレーニングはなぜ役に立つのか? [全文訳有]

Why Does Multi-Epoch Training Help? ( http://arxiv.org/abs/2105.06015v1 )

ライセンス: CC BY 4.0
Yi Xu, Qi Qian, Hao Li, Rong Jin(参考訳) 確率的勾配降下(sgd)は、その単純さ、更新ステップごとの計算コストの低さ、優れた性能により、大規模ディープニューラルネットワークのトレーニングにおいて最も魅力的な最適化手法となっている。 標準的な過剰なリスク境界は、SGDがトレーニングデータに1回のパスしか必要とせず、より多くのパスがパフォーマンス向上に役立たなかったことを示している。 経験的に、SGDがトレーニングデータ(マルチパスSGD)を1回以上通過するのに対し、SGDはトレーニングデータ(ワンパスSGD)を1回のみ通過するのに比べて、過剰なリスクバウンド性能がはるかに優れていることが観察されている。 しかし、この現象を理論でどう説明するかは明らかになっていない。 本稿では,トレーニングデータの複数パスが,ある状況下での性能向上に役立つ理由を理論的に説明する。 具体的には,目的関数が非凸最小二乗損失である滑らかなリスク最小化問題を考える。 polyak-lojasiewicz (pl) 条件下では, 1パスsgdよりも多パスsgdに拘束される過大リスクの収束率が速い。

Stochastic gradient descent (SGD) has become the most attractive optimization method in training large-scale deep neural networks due to its simplicity, low computational cost in each updating step, and good performance. Standard excess risk bounds show that SGD only needs to take one pass over the training data and more passes could not help to improve the performance. Empirically, it has been observed that SGD taking more than one pass over the training data (multi-pass SGD) has much better excess risk bound performance than the SGD only taking one pass over the training data (one-pass SGD). However, it is not very clear that how to explain this phenomenon in theory. In this paper, we provide some theoretical evidences for explaining why multiple passes over the training data can help improve performance under certain circumstance. Specifically, we consider smooth risk minimization problems whose objective function is non-convex least squared loss. Under Polyak-Lojasiewicz (PL) condition, we establish faster convergence rate of excess risk bound for multi-pass SGD than that for one-pass SGD.
翻訳日:2021-05-15 00:56:54 公開日:2021-05-13
# (参考訳) PIMD/SMID児の二分行動と多クラス行動の分類に関する機械学習による検討 [全文訳有]

Machine-learning-bas ed investigation on classifying binary and multiclass behavior outcomes of children with PIMD/SMID ( http://arxiv.org/abs/2105.06025v1 )

ライセンス: CC BY 4.0
Von Ralph Dane Marquez Herbuela, Tomonori Karita, Yoshiya Furukawa, Yoshinori Wada, Yoshihiro Yagi, Shuichiro Senba, Eiko Onishi, Tatsuo Saeki(参考訳) 近年,重度知的・多障害児(PIMD)や重症運動・知的障害児(SMID)のコミュニケーションの文脈をよりよく理解するための気象パラメータと位置情報の重要性が提案されている。 しかし,これらのデータを用いてシステム最適化の動作を分類できるかどうかについて,独立したコミュニケーションと移動性に関する行動予測は行われていない。 そこで本研究では,eXtreme Gradient Boosting(XGB),サポートベクターマシン(SVM),ランダムフォレスト(RF),ニューラルネットワーク(NN)分類器を用いて,位置情報と気象データの組み合わせと特徴選択法トレーニング(Boruta)を併用することにより,二分分類結果と多クラス分類結果のより正確な分類が可能になるかを検討した。 PIMD/SMIDまたは重度・重度知的障害児とその介護者20名を対象に,複数の単目的対面およびビデオ記録セッションを行った。

Recently, the importance of weather parameters and location information to better understand the context of the communication of children with profound intellectual and multiple disabilities (PIMD) or severe motor and intellectual disorders (SMID) has been proposed. However, an investigation on whether these data can be used to classify their behavior for system optimization aimed for predicting their behavior for independent communication and mobility has not been done. Thus, this study investigates whether recalibrating the datasets including either minor or major behavior categories or both, combining location and weather data and feature selection method training (Boruta) would allow more accurate classification of behavior discriminated to binary and multiclass classification outcomes using eXtreme Gradient Boosting (XGB), support vector machine (SVM), random forest (RF), and neural network (NN) classifiers. Multiple single-subject face-to-face and video-recorded sessions were conducted among 20 purposively sampled 8 to 10 -year old children diagnosed with PIMD/SMID or severe or profound intellectual disabilities and their caregivers.
翻訳日:2021-05-15 00:26:10 公開日:2021-05-13
# (参考訳) ドイツ語要約の人間フリー自動品質評価に向けて [全文訳有]

Towards Human-Free Automatic Quality Evaluation of German Summarization ( http://arxiv.org/abs/2105.06027v1 )

ライセンス: CC BY 4.0
Neslihan Iskender, Oleg Vasilyev, Tim Polzehl, John Bohannon, Sebastian M\"oller(参考訳) ヒトを用いた大規模な要約コーパスの評価は,組織的,財政的両面から高く評価されている。 そのため, 要約品質を迅速かつ再現可能な方法で測定するために, 自動評価指標が多数開発されている。 しかし、指標のほとんどはまだ人間に依存しており、言語の専門家が生成する金の標準要約が必要である。 BLANCは黄金の要約を必要とせず、基礎となる言語モデルも利用できると考えられるため、ドイツ語の要約評価への応用を検討する。 この研究は、BLANCメトリックを英語以外の言語に調整する方法を示す。 我々は、BLANCのスコアを、ドイツの要約データセットで一般的に使用される自動メトリクスと同様に、群衆や専門家の評価と比較する。 以上の結果から,ドイツ語のBLANCは情報性の評価に特に有用であることが示唆された。

Evaluating large summarization corpora using humans has proven to be expensive from both the organizational and the financial perspective. Therefore, many automatic evaluation metrics have been developed to measure the summarization quality in a fast and reproducible way. However, most of the metrics still rely on humans and need gold standard summaries generated by linguistic experts. Since BLANC does not require golden summaries and supposedly can use any underlying language model, we consider its application to the evaluation of summarization in German. This work demonstrates how to adjust the BLANC metric to a language other than English. We compare BLANC scores with the crowd and expert ratings, as well as with commonly used automatic metrics on a German summarization data set. Our results show that BLANC in German is especially good in evaluating informativeness.
翻訳日:2021-05-14 23:59:03 公開日:2021-05-13
# (参考訳) 半定義型プログラミングによる共同コミュニティ検出と回転同期

Joint Community Detection and Rotational Synchronization via Semidefinite Programming ( http://arxiv.org/abs/2105.06031v1 )

ライセンス: CC BY 4.0
Yifeng Fan, Yuehaw Khoo and Zhizhen Zhao(参考訳) ランダムに回転したオブジェクトを複数の下位カテゴリに分類する異種データが存在する場合、それらをクラスタに分類し、ペア関係に基づいて同期させることは困難である。 これにより、コミュニティの検出と同期に関する共同問題が発生する。 本論文では, 確率ブロックモデルを, 回転とクラスタの同一性の両方が決定されるような新しい環境に拡張する際の, 半有限緩和法を提案する。 数値実験により,提案アルゴリズムの有効性を実証し,精密回復のための鋭い相転移を示す理論的結果を確認した。

In the presence of heterogeneous data, where randomly rotated objects fall into multiple underlying categories, it is challenging to simultaneously classify them into clusters and synchronize them based on pairwise relations. This gives rise to the joint problem of community detection and synchronization. We propose a series of semidefinite relaxations, and prove their exact recovery when extending the celebrated stochastic block model to this new setting where both rotations and cluster identities are to be determined. Numerical experiments demonstrate the efficacy of our proposed algorithms and confirm our theoretical result which indicates a sharp phase transition for exact recovery.
翻訳日:2021-05-14 23:50:24 公開日:2021-05-13
# (参考訳) Sketch-Guided Conditional GANによる極端顔の塗装 [全文訳有]

Extreme Face Inpainting with Sketch-Guided Conditional GAN ( http://arxiv.org/abs/2105.06033v1 )

ライセンス: CC BY 4.0
Nilesh Pandey, Andreas Savakis(参考訳) 特に仮面や損傷領域が非常に大きい場合において、ひどく損傷した顔画像の復元は有用だが困難な作業である。 主な課題の1つは、トレーニングデータセットの外の顔にシステムを一般化する能力である。 本稿では,エッジなどの構造情報を利用した条件付きジェネレーティブ・アドバイザリアル・ネットワーク(GAN)を前提条件として,この極端な塗装作業に取り組むことを提案する。 部分マスキング画像と構造的に類似した画像又は手描きからエッジ情報を得ることができる。 提案した条件GANでは,学習重みと入力条件入力との分布の整合性を維持しつつ,エンコーダの各層に条件入力を渡す。 本手法の有効性を顔の損傷例で示す。

Recovering badly damaged face images is a useful yet challenging task, especially in extreme cases where the masked or damaged region is very large. One of the major challenges is the ability of the system to generalize on faces outside the training dataset. We propose to tackle this extreme inpainting task with a conditional Generative Adversarial Network (GAN) that utilizes structural information, such as edges, as a prior condition. Edge information can be obtained from the partially masked image and a structurally similar image or a hand drawing. In our proposed conditional GAN, we pass the conditional input in every layer of the encoder while maintaining consistency in the distributions between the learned weights and the incoming conditional input. We demonstrate the effectiveness of our method with badly damaged face examples.
翻訳日:2021-05-14 23:49:16 公開日:2021-05-13
# (参考訳) 特徴写像の定量化類似性に基づくモデルプルーニング [全文訳有]

Model Pruning Based on Quantified Similarity of Feature Maps ( http://arxiv.org/abs/2105.06052v1 )

ライセンス: CC BY 4.0
Zidu Wang, Xuexin Liu, Long Huang, Yunqing Chen, Yufei Zhang, Zhikang Lin, Rui Wang(参考訳) 高精度cnnには、通常高次元テンソルに格納される巨大なパラメータが伴うことが多い。 しかし、高次元テンソルに格納されたパラメータの冗長な情報を求める方法はほとんど存在せず、cnnの圧縮に関する理論的ガイダンスが欠如している。 本稿では,3次元テンソル,すなわち特徴写像の量子化類似性(qsfm)において冗長な情報を見つけるための新しい理論を提案し,この理論を用いて畳み込みニューラルネットワークを用いて推論速度を向上させる。 本手法は,特別なライブラリを使わずに実装可能なフィルタプルーニングに属する。 本手法は,共通の畳み込み層だけでなく,奥行き分離可能な畳み込み層などの特殊な畳み込み層にも適用する。 実験により、QSFMはニューラルネットワーク内の冗長な情報を効果的に見つけることができることが示された。 微調整がなければ、QSFM は CIFAR-10 上で ResNet-56 を圧縮できる(48.27%のFLOPと57.90%のパラメータ削減)。 QSFMはまた、ResNet-56、VGG-16、MobileNetV2を微調整操作で作成する。

A high-accuracy CNN is often accompanied by huge parameters, which are usually stored in the high-dimensional tensors. However, there are few methods can figure out the redundant information of the parameters stored in the high-dimensional tensors, which leads to the lack of theoretical guidance for the compression of CNNs. In this paper, we propose a novel theory to find redundant information in three dimensional tensors, namely Quantified Similarity of Feature Maps (QSFM), and use this theory to prune convolutional neural networks to enhance the inference speed. Our method belongs to filter pruning, which can be implemented without using any special libraries. We perform our method not only on common convolution layers but also on special convolution layers, such as depthwise separable convolution layers. The experiments prove that QSFM can find the redundant information in the neural network effectively. Without any fine-tuning operation, QSFM can compress ResNet-56 on CIFAR-10 significantly (48.27% FLOPs and 57.90% parameters reduction) with only a loss of 0.54% in the top-1 accuracy. QSFM also prunes ResNet-56, VGG-16 and MobileNetV2 with fine-tuning operation, which also shows excellent results.
翻訳日:2021-05-14 23:41:13 公開日:2021-05-13
# (参考訳) superevents: イベントベースのカメラのネイティブセマンティクスセグメンテーションに向けて [全文訳有]

Superevents: Towards Native Semantic Segmentation for Event-based Cameras ( http://arxiv.org/abs/2105.06091v1 )

ライセンス: CC BY 4.0
Weng Fei Low, Ankit Sonthalia, Zhi Gao, Andr\'e van Schaik, Bharath Ramesh(参考訳) 最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。 これらの中間レベルの表現はイベントカメラでは探索されていないが、特に視覚的に疎く、しばしばイベントストリーム内の空間情報に関連がある。 局所的に一貫した中間表現をスーパーイベントと呼び、セマンティックセグメンテーション、視覚的追跡、深度推定といった多くの視覚的タスクが有用である。 本質的にスーパーイベントは知覚的に一貫性のあるローカルユニットであり、シーン内のオブジェクトの一部を記述します。 近年のディープラーニングアーキテクチャに触発されて,スーパーイベントを抽出するために,完全畳み込みネットワークに供給されるイベントストリーム表現を得るために,ライフタイム拡張を用いた新しい手法を提案する。 ベンチマークデータセットのいくつかのシーケンスに対する定性的かつ定量的な実験結果は、イベントベースのダウンストリームアプリケーションにとって重要な可能性を浮き彫りにしている。

Most successful computer vision models transform low-level features, such as Gabor filter responses, into richer representations of intermediate or mid-level complexity for downstream visual tasks. These mid-level representations have not been explored for event cameras, although it is especially relevant to the visually sparse and often disjoint spatial information in the event stream. By making use of locally consistent intermediate representations, termed as superevents, numerous visual tasks ranging from semantic segmentation, visual tracking, depth estimation shall benefit. In essence, superevents are perceptually consistent local units that delineate parts of an object in a scene. Inspired by recent deep learning architectures, we present a novel method that employs lifetime augmentation for obtaining an event stream representation that is fed to a fully convolutional network to extract superevents. Our qualitative and quantitative experimental results on several sequences of a benchmark dataset highlights the significant potential for event-based downstream applications.
翻訳日:2021-05-14 23:27:14 公開日:2021-05-13
# (参考訳) テーマ適合ビット:イベント参加者表現のためのアノテーションの品質と量 [全文訳有]

Thematic fit bits: Annotation quality and quantity for event participant representation ( http://arxiv.org/abs/2105.06097v1 )

ライセンス: CC BY-SA 4.0
Yuval Marton, Asad Sayeed(参考訳) セマンティック適合のモデリング(動詞-代名詞合成意味論タスク)は、現在非常に大量のデータを必要とする。 言語的に機械に指示された大きなコーパスでトレーニングされた動詞の適応度をモデル化し、高品質なタガーから出力されたコーパス層に置き換える。 深層学習時代には、より多くのデータが高質なアノテーションと同じくらい有効であるという一般的な考えに反して、高いアノテーションの品質はデータ要件を劇的に削減し、教師付き述語-代用分類がより優れていることが分かりました。 しかし、トレーニング対象外の心理言語学的タスクにモデルを適用すると、2つのテーマ適合推定タスクのうち1つに小さな利益しか得られず、もう1つには利益は得られなかった。 我々は、ある役割表現の詳細を変更しながら以前の研究を再現し、少数のデータを用いて、イベントモデリングにおける新しい最先端を設定した。

Modeling thematic fit (a verb--argument compositional semantics task) currently requires a very large burden of data. We take a high-performing neural approach to modeling verb--argument fit, previously trained on a linguistically machine-annotated large corpus, and replace corpus layers with output from higher-quality taggers. Contrary to popular beliefs that, in the deep learning era, more data is as effective as higher quality annotation, we discover that higher annotation quality dramatically reduces our data requirement while demonstrating better supervised predicate-argument classification. But in applying the model to a psycholinguistic task outside the training objective, we saw only small gains in one of two thematic fit estimation tasks, and none in the other. We replicate previous studies while modifying certain role representation details, and set a new state-of-the-art in event modeling, using a fraction of the data.
翻訳日:2021-05-14 23:13:40 公開日:2021-05-13
# (参考訳) 過去10年間の否定的選択アルゴリズム研究と応用:レビュー [全文訳有]

Negative Selection Algorithm Research and Applications in the last decade: A Review ( http://arxiv.org/abs/2105.06109v1 )

ライセンス: CC BY 4.0
Kishor Datta Gupta and Dipankar Dasgupta(参考訳) 負選択アルゴリズム (NSA) は、免疫学的計算(または人工免疫システム)分野において重要な手法の1つである。 長年にわたり、このアルゴリズム(nsa)を異なる領域の問題を解決するための効率的なアプローチに変えるいくつかの進歩があった。 このレビューは、過去10年間のこれらの進歩の兆候を考慮に入れ、異なる特性とパフォーマンスに基づいてそれらを分類する。 我々の研究は、NSAの進化は、最も顕著なNSAのバリエーションと、異なるアプリケーションドメインにおけるそれらの制限を強調する4つの方法でラベル付けできることを示している。 また、比較と分析のためにNSAに代替アプローチを提案する。 NSAは他のほとんどの方法よりも非線形表現に優れており、計算時間でニューラルネットワークモデルより優れていることは明らかである。 NSAの開発を要約し、他の類似モデルと比較してNSAの研究における課題を強調します。

The Negative selection Algorithm (NSA) is one of the important methods in the field of Immunological Computation (or Artificial Immune Systems). Over the years, some progress was made which turns this algorithm (NSA) into an efficient approach to solve problems in different domain. This review takes into account these signs of progress during the last decade and categorizes those based on different characteristics and performances. Our study shows that NSA's evolution can be labeled in four ways highlighting the most notable NSA variations and their limitations in different application domains. We also present alternative approaches to NSA for comparison and analysis. It is evident that NSA performs better for nonlinear representation than most of the other methods, and it can outperform neural-based models in computation time. We summarize NSA's development and highlight challenges in NSA research in comparison with other similar models.
翻訳日:2021-05-14 22:57:41 公開日:2021-05-13
# (参考訳) 蒸留スムースガイダンスによる深層無監督ハッシュ [全文訳有]

Deep Unsupervised Hashing by Distilled Smooth Guidance ( http://arxiv.org/abs/2105.06125v1 )

ライセンス: CC BY 4.0
Xiao Luo, Zeyu Ma, Daqing Wu, Huasong Zhong, Chong Chen, Jinwen Ma, Minghua Deng(参考訳) ハッシュ処理は、そのストレージと計算効率のほぼ近傍の探索に広く使われている。 深い教師付きハッシュ手法はラベル付きデータの欠如、特にドメインが転送された場合にはあまり使われない。 一方、教師なしのディープハッシュモデルは、信頼できる類似性信号がないため、十分な性能を達成できない。 そこで本研究では,類似性信号とスムーズな信頼性信号からなる蒸留データセットを学習可能な,新しい非教師付きハッシュ法であるDistilled Smooth Guidance (DSG)を提案する。 具体的には、局所構造から得られた初期ノイズ類似性信号に基づいて類似度信頼度を求め、スムーズな類似性保存学習のための優先損失関数を構築する。 また、クラスタリングに基づくグローバル情報を用いて、矛盾する類似性信号を取り除き、画像対を蒸留する。 広く使用されている3つのベンチマークデータセットの大規模な実験により、提案したDSGは最先端の検索方法よりも一貫して優れていることが示された。

Hashing has been widely used in approximate nearest neighbor search for its storage and computational efficiency. Deep supervised hashing methods are not widely used because of the lack of labeled data, especially when the domain is transferred. Meanwhile, unsupervised deep hashing models can hardly achieve satisfactory performance due to the lack of reliable similarity signals. To tackle this problem, we propose a novel deep unsupervised hashing method, namely Distilled Smooth Guidance (DSG), which can learn a distilled dataset consisting of similarity signals as well as smooth confidence signals. To be specific, we obtain the similarity confidence weights based on the initial noisy similarity signals learned from local structures and construct a priority loss function for smooth similarity-preservin g learning. Besides, global information based on clustering is utilized to distill the image pairs by removing contradictory similarity signals. Extensive experiments on three widely used benchmark datasets show that the proposed DSG consistently outperforms the state-of-the-art search methods.
翻訳日:2021-05-14 22:32:57 公開日:2021-05-13
# (参考訳) SAFIN:自覚的因子化インスタンス正規化による任意型転送 [全文訳有]

SAFIN: Arbitrary Style Transfer With Self-Attentive Factorized Instance Normalization ( http://arxiv.org/abs/2105.06129v1 )

ライセンス: CC BY 4.0
Aaditya Singh, Shreeshail Hingane, Xinyu Gong, Zhangyang Wang(参考訳) 芸術的スタイル転送は、ある画像のスタイル特性を他の画像に移し、その内容を保持することを目的としている。 既存のアプローチでは、様々な正規化手法が一般的に利用されているが、様々なテクスチャを異なる空間に適切に転送する上では限界がある。 自己注意に基づくアプローチは、部分的な成功でこの問題に対処しているが、望ましくない成果物に悩まされている。 これらの観察に動機づけられ、本論文は両世界の最善(自己着脱と正規化)を組み合わせることを目的としている。 これにより、Slf-Attentive Fac-torized Instance Normalization (SAFIN)と呼ばれる新しいプラグインとプレイモジュールが生成される。 SAFINは本質的に空間適応正規化モジュールであり、パラメータはコンテンツやスタイルの画像に注意して推測される。 SAFINを他の最先端手法のベースネットワークに差し込むとスタイリゼーションが向上することを示した。 また,SAFINと組み合わせることで,より少ないテクスチャで視覚的に魅力的な結果が得られるウェーブレット変換を用いた新しいベースネットワークを開発した。

Artistic style transfer aims to transfer the style characteristics of one image onto another image while retaining its content. Existing approaches commonly leverage various normalization techniques, although these face limitations in adequately transferring diverse textures to different spatial locations. Self-Attention-based approaches have tackled this issue with partial success but suffer from unwanted artifacts. Motivated by these observations, this paper aims to combine the best of both worlds: self-attention and normalization. That yields a new plug-and-play module that we nameSelf-Attentive Fac-torized Instance Normalization(SAFIN) . SAFIN is essentially a spatially adaptive normalization module whose parameters are inferred through attention on the content and style image. We demonstrate that plugging SAFIN into the base network of another state-of-the-art method results in enhanced stylization. We also develop a novel base network composed of Wavelet Transform for multi-scale style transfer, which when combined with SAFIN, produces visually appealing results with lesser unwanted textures.
翻訳日:2021-05-14 22:19:14 公開日:2021-05-13
# (参考訳) コントラスト情報を用いた教師なしハッシュ [全文訳有]

Unsupervised Hashing with Contrastive Information Bottleneck ( http://arxiv.org/abs/2105.06138v1 )

ライセンス: CC BY 4.0
Zexuan Qiu, Qinliang Su, Zijing Ou, Jianxing Yu and Changyou Chen(参考訳) 多くの教師なしハッシュ法は、入力データの再構築という考え方に基づいて暗黙的に確立されている。 しかし、この要件はモデルが不適切な背景情報を再構築するのに多くの労力を費やす一方で、ハッシュ処理においてより重要となる識別的意味情報の保存を無視する可能性がある。 この問題に取り組むために,連続表現の学習におけるコントラスト学習の最近の成功に触発されて,このフレームワークをバイナリハッシュコード学習に適応させることを提案する。 具体的には、まず、ハッシュの特定の要件を満たすために目的関数を変更し、モデル全体のエンドツーエンドトレーニングを容易にする確率的バイナリ表現層をモデルに導入することを提案する。 さらに,提案するコントラスト学習に基づくハッシュ手法と相互情報との強い関係を証明し,提案手法を情報ボトルネック(ib)のより広い枠組みで検討できることを示す。 この観点から、より一般的なハッシュモデルが自然に得られる。 3つのベンチマーク画像データセットの広範な実験結果から,提案手法が既存のベースラインを大きく上回っていることが分かる。

Many unsupervised hashing methods are implicitly established on the idea of reconstructing the input data, which basically encourages the hashing codes to retain as much information of original data as possible. However, this requirement may force the models spending lots of their effort on reconstructing the unuseful background information, while ignoring to preserve the discriminative semantic information that is more important for the hashing task. To tackle this problem, inspired by the recent success of contrastive learning in learning continuous representations, we propose to adapt this framework to learn binary hashing codes. Specifically, we first propose to modify the objective function to meet the specific requirement of hashing and then introduce a probabilistic binary representation layer into the model to facilitate end-to-end training of the entire model. We further prove the strong connection between the proposed contrastive-learning -based hashing method and the mutual information, and show that the proposed model can be considered under the broader framework of the information bottleneck (IB). Under this perspective, a more general hashing model is naturally obtained. Extensive experimental results on three benchmark image datasets demonstrate that the proposed hashing method significantly outperforms existing baselines.
翻訳日:2021-05-14 22:09:40 公開日:2021-05-13
# (参考訳) 知識蒸留による軽量深度推定の促進 [全文訳有]

Boosting Light-Weight Depth Estimation Via Knowledge Distillation ( http://arxiv.org/abs/2105.06143v1 )

ライセンス: CC BY 4.0
Junjie Hu, Chenyou Fan, Hualie Jiang, Xiyue Guo, Xiangyong Lu, and Tin Lun Lam(参考訳) 深度推定の高度な性能は、大規模で複雑なニューラルネットワークの雇用によって達成される。 性能は相変わらず改善されているが、深さの推定は正確かつ効率的でなければならない。 これは現実世界のアプリケーションに対する予備的な要件です。 しかし、高速深度推定はモデルのキャパシティと精度のトレードオフとして性能を低下させる傾向にある。 本稿では,軽量ネットワークを用いて高精度な深度推定をアーカイブする。 この目的のために,我々はまず,リアルタイムに深度マップを推定できる小型ネットワークを導入する。 次に,軽量ネットワークの性能向上のための2つの補完的かつ必要な戦略を技術的に示す。 実世界のシーンの数は無限であるため、第一はトレーニングデータの多様性を高める補助データの採用である。 2つめは、さらなるパフォーマンス向上のための知識蒸留の利用です。 広範かつ厳密な実験により,提案手法は推定精度,計算効率,一般化の点で,従来の軽量手法よりも優れていることを示す。 一方,本手法では,1%のパラメータしか持たない最先端手法と比較して,他の軽量手法よりも優れた性能が得られる。

The advanced performance of depth estimation is achieved by the employment of large and complex neural networks. While the performance has still been continuously improved, we argue that the depth estimation has to be accurate and efficient. It's a preliminary requirement for real-world applications. However, fast depth estimation tends to lower the performance as the trade-off between the model's capacity and accuracy. In this paper, we attempt to archive highly accurate depth estimation with a light-weight network. To this end, we first introduce a compact network that can estimate a depth map in real-time. We then technically show two complementary and necessary strategies to improve the performance of the light-weight network. As the number of real-world scenes is infinite, the first is the employment of auxiliary data that increases the diversity of training data. The second is the use of knowledge distillation to further boost the performance. Through extensive and rigorous experiments, we show that our method outperforms previous light-weight methods in terms of inference accuracy, computational efficiency and generalization. We can achieve comparable performance compared to state-of-the-of-art methods with only 1% parameters, on the other hand, our method outperforms other light-weight methods by a significant margin.
翻訳日:2021-05-14 21:55:27 公開日:2021-05-13
# (参考訳) PassFlow: 生成フローによるパスワードの誘導 [全文訳有]

PassFlow: Guessing Passwords with Generative Flows ( http://arxiv.org/abs/2105.06165v1 )

ライセンス: CC BY 4.0
Giulio Pagnotta, Dorjan Hitaj, Fabio De Gaspari, Luigi V. Mancini(参考訳) 最近の生成機械学習モデルの進歩は、パスワード推測の分野での研究の関心を呼び起こした。 GAN、言語モデル、深層潜伏変数モデルに基づくデータ駆動型パスワード推測手法は、優れた一般化性能を示し、パスワード推測のタスクに魅力的な特性を提供する。 本稿では,フローベース生成モデルによるパスワード推定手法を提案する。 フローベースのモデルは、正確なログライクな計算と最適化を可能にし、正確な潜在変数推論を可能にする。 さらに、フローベースモデルは有意義な潜在空間表現を提供し、潜在空間の特定の部分空間の探索や補間のような操作を可能にする。 本稿では,画像生成の連続空間に主に制限されるフローネットワークの従来の応用から外れた,パスワード推測の文脈における生成フローの適用性を示す。 上述した特性により、フローベースモデルでは、従来よりも桁違いの小さいトレーニングセットを使用しながら、深い潜伏変数モデルアプローチを上回り、パスワード推測タスクにおける最先端のGANと競合し続けることができる。 さらに、生成したサンプルの質的分析により、フローベースのネットワークが元のパスワード分布を正確にモデル化できることを示した。

Recent advances in generative machine learning models rekindled research interest in the area of password guessing. Data-driven password guessing approaches based on GANs, language models and deep latent variable models show impressive generalization performance and offer compelling properties for the task of password guessing. In this paper, we propose a flow-based generative model approach to password guessing. Flow-based models allow for precise log-likelihood computation and optimization, which enables exact latent variable inference. Additionally, flow-based models provide meaningful latent space representation, which enables operations such as exploration of specific subspaces of the latent space and interpolation. We demonstrate the applicability of generative flows to the context of password guessing, departing from previous applications of flow networks which are mainly limited to the continuous space of image generation. We show that the above-mentioned properties allow flow-based models to outperform deep latent variable model approaches and remain competitive with state-of-the-art GANs in the password guessing task, while using a training set that is orders of magnitudes smaller than that of previous art. Furthermore, a qualitative analysis of the generated samples shows that flow-based networks are able to accurately model the original passwords distribution, with even non-matched samples closely resembling human-like passwords.
翻訳日:2021-05-14 21:43:24 公開日:2021-05-13
# (参考訳) 天文遷移への注意:時系列変換器を用いた光度分類 [全文訳有]

Paying Attention to Astronomical Transients: Photometric Classification with the Time-Series Transformer ( http://arxiv.org/abs/2105.06178v1 )

ライセンス: CC BY-SA 4.0
Tarek Allam Jr., Jason D. McEwen(参考訳) ベラ・C・ルービン天文台のレガシー・サーベイ・オブ・スペース・アンド・タイム(LSST)のような将来の調査では、それまでのどの調査よりも天体物理学的な過渡現象が観測される。 この大量の測光データによって、このような事象を人間だけで分類することは不可能である。 近年,天文学的過渡分類の課題に取り組むために,機械学習手法の活用が試みられている。 Transformersは、自然言語処理のために最初に提案された、最近開発されたディープラーニングアーキテクチャである。 本研究では,マルチヘッドの自己注意をコアに用い,多変量時系列データのための新しいトランスフォーマーアーキテクチャを提案する。 さらに、提案された時系列トランスフォーマアーキテクチャは、任意の数の追加機能を含むと同時に、解釈可能性も提供する。 時系列トランスフォーマーを測光分類のタスクに適用し,特徴選択のための専門家領域知識の信頼性を最小化し,最先端の測光分類法に匹敵する結果を得る。 我々は、光度LSST天文時系列分類チャレンジ(PLAsTiCC)のデータを用いて、不均衡なデータに基づいて0.507の重み付き対数ロスを達成する。 さらに、曲線0.98のマイクロ平均受信特性領域と曲線0.87のマイクロ平均精度再生領域を実現する。

Future surveys such as the Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will observe an order of magnitude more astrophysical transient events than any previous survey before. With this deluge of photometric data, it will be impossible for all such events to be classified by humans alone. Recent efforts have sought to leverage machine learning methods to tackle the challenge of astronomical transient classification, with ever improving success. Transformers are a recently developed deep learning architecture, first proposed for natural language processing, that have shown a great deal of recent success. In this work we develop a new transformer architecture, which uses multi-head self attention at its core, for general multi-variate time-series data. Furthermore, the proposed time-series transformer architecture supports the inclusion of an arbitrary number of additional features, while also offering interpretability. We apply the time-series transformer to the task of photometric classification, minimising the reliance of expert domain knowledge for feature selection, while achieving results comparable to state-of-the-art photometric classification methods. We achieve a weighted logarithmic-loss of 0.507 on imbalanced data in a representative setting using data from the Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC). Moreover, we achieve a micro-averaged receiver operating characteristic area under curve of 0.98 and micro-averaged precision-recall area under curve of 0.87.
翻訳日:2021-05-14 21:14:06 公開日:2021-05-13
# (参考訳) Global Wheat Challenge 2020: 競争設計と勝利モデルの分析 [全文訳有]

Global Wheat Challenge 2020: Analysis of the competition design and winning models ( http://arxiv.org/abs/2105.06182v1 )

ライセンス: CC BY 4.0
Etienne David, Franklin Ogidi, Wei Guo, Frederic Baret, Ian Stavness(参考訳) データコンペティションは、一般および専門的なデータサイエンス問題に対する新しいデータ分析手法をクラウドソースする一般的なアプローチとなっている。 植物表現型では、データコンペティションは豊富な歴史を持ち、新しい屋外フィールドデータセットは新たなデータコンペティションの可能性を秘めている。 我々は,フィールド画像からコムギの頭部を検出する方法が世界中の様々な地域で有効かどうかを確認するため,Global Wheat Challengeを開発した。 本稿では,その頑健さと,モデルおよびデータ拡張設計決定の相対的重要性の観点から,勝者の挑戦解を解析する。 コンペティションの設計が勝敗ソリューションの選択に影響を与え、より堅牢な勝敗ソリューションの獲得を目的として、将来のコンペティションにレコメンデーションを提供することがわかった。

Data competitions have become a popular approach to crowdsource new data analysis methods for general and specialized data science problems. In plant phenotyping, data competitions have a rich history, and new outdoor field datasets have potential for new data competitions. We developed the Global Wheat Challenge as a generalization competition to see if solutions for wheat head detection from field images would work in different regions around the world. In this paper, we analyze the winning challenge solutions in terms of their robustness and the relative importance of model and data augmentation design decisions. We found that the design of the competition influence the selection of winning solutions and provide recommendations for future competitions in an attempt to garner more robust winning solutions.
翻訳日:2021-05-14 20:35:36 公開日:2021-05-13
# (参考訳) 解析スパース符号化のための量子化近平均化ネットワーク [全文訳有]

Quantized Proximal Averaging Network for Analysis Sparse Coding ( http://arxiv.org/abs/2105.06211v1 )

ライセンス: CC BY 4.0
Kartheek Kumar Reddy Nareddy, Mani Madhoolika Bulusu, Praveen Kumar Pokala, Chandra Sekhar Seelamantula(参考訳) 我々は凸と非凸間隔の組合せを考慮した解析スパース符号化問題を解く。 マルチペナルティの定式化は近位平均化を含む反復アルゴリズムをもたらす。 次に、反復アルゴリズムをトレーニング可能なネットワークに展開し、事前の間隔の学習を容易にする。 ネットワーク重みの定量化についても検討する。 量子化は、推論中のメモリと計算の両面でニューラルネットワークを効率よくし、低精度のハードウェアデプロイメントと互換性を持たせる。 我々の学習アルゴリズムはADAMオプティマイザの変種に基づいており、量子化器は前方通過の一部であり、損失関数の勾配は高精度な重みの帳簿保存を行いながら量子化重みに応じて評価される。 圧縮画像復元と磁気共鳴画像再構成への応用を実証する。 提案手法は、最先端の展開技術よりも再現精度と品質が優れており、重みが極端に量子化しても性能劣化は最小限である。

We solve the analysis sparse coding problem considering a combination of convex and non-convex sparsity promoting penalties. The multi-penalty formulation results in an iterative algorithm involving proximal-averaging. We then unfold the iterative algorithm into a trainable network that facilitates learning the sparsity prior. We also consider quantization of the network weights. Quantization makes neural networks efficient both in terms of memory and computation during inference, and also renders them compatible for low-precision hardware deployment. Our learning algorithm is based on a variant of the ADAM optimizer in which the quantizer is part of the forward pass and the gradients of the loss function are evaluated corresponding to the quantized weights while doing a book-keeping of the high-precision weights. We demonstrate applications to compressed image recovery and magnetic resonance image reconstruction. The proposed approach offers superior reconstruction accuracy and quality than state-of-the-art unfolding techniques and the performance degradation is minimal even when the weights are subjected to extreme quantization.
翻訳日:2021-05-14 20:21:56 公開日:2021-05-13
# (参考訳) アダプタを用いた検索自由知識区間対話応答生成 [全文訳有]

Retrieval-Free Knowledge-Grounded Dialogue Response Generation with Adapters ( http://arxiv.org/abs/2105.06232v1 )

ライセンス: CC0 1.0
Yan Xu, Etsuko Ishii, Zihan Liu, Genta Indra Winata, Dan Su, Andrea Madotto, Pascale Fung(参考訳) 近年,生成した対話応答の多様化と豊か化のために,知識基底対話が研究されている。 既存の手法の成功にもかかわらず、それらは主に、大きなコーパス上で関連文を検索し、時間とリソースを消費する明示的な余分な情報で対話を増強するパラダイムに従っている。 本稿では,事前学習した言語モデルに,軽量なアダプタで事前知識を注入することにより,検索プロセスをバイパスするエンドツーエンドフレームワークであるKnowExpertを提案する。 私たちの知る限りでは、これは世代ベースのアプローチのみに依存するこのタスクに取り組む最初の試みです。 実験の結果,KnowExpertは検索ベースラインと相容れない性能を示し,提案する方向の可能性を実証した。

To diversify and enrich generated dialogue responses, knowledge-grounded dialogue has been investigated in recent years. Despite the success of the existing methods, they mainly follow the paradigm of retrieving the relevant sentences over a large corpus and augment the dialogues with explicit extra information, which is time- and resource-consuming. In this paper, we propose KnowExpert, an end-to-end framework to bypass the retrieval process by injecting prior knowledge into the pre-trained language models with lightweight adapters. To the best of our knowledge, this is the first attempt to tackle this task relying solely on a generation-based approach. Experimental results show that KnowExpert performs comparably with the retrieval-based baselines, demonstrating the potential of our proposed direction.
翻訳日:2021-05-14 20:03:55 公開日:2021-05-13
# (参考訳) Deeplab3+:多発性骨髄腫血漿細胞分画の顕微鏡的観察 [全文訳有]

Multi-scale Regional Attention Deeplab3+: Multiple Myeloma Plasma Cells Segmentation in Microscopic Images ( http://arxiv.org/abs/2105.06238v1 )

ライセンス: CC BY 4.0
Afshin Bozorgpour, Reza Azad, Eman Showkatian, Alaa Sulaiman(参考訳) 多発性骨髄腫(multiple myeloma cancer)は、骨髄において異常な血漿細胞の増殖が制御不能になったときに発生する血液がんの一種である。 骨髄における多発性骨髄腫の診断には、血球計数検査(cbc)や、手作業による可視化や画像処理によるアスピレートスライド画像中の骨髄腫血漿細胞の計数など様々な方法がある。 本研究では,多発性骨髄腫細胞の検出とセグメンテーションのための自動深層学習法について検討した。 この目的のために、2段階の深層学習法を設計する。 第1段階では、核検出ネットワークを利用して、興味のあるセルの各インスタンスを抽出する。 抽出されたインスタンスはマルチスケール関数に供給され、マルチスケール表現を生成する。 マルチスケール機能の目的は、形状変化を捉え、細胞質セグメンテーションネットワークにおけるオブジェクトスケールの影響を減少させることである。 生成されたスケールは、様々なスケールでセグメンテーションマップを学ぶために、細胞質ネットワークのピラミッドに供給される。 細胞質セグメンテーションネットワーク上には,最終予測を洗練・生成するスケールアグリゲーション機能が含まれていた。 提案手法はSegPC2021グランドチャレンジで評価され、全チームの最終テストフェーズで2位にランクされた。

Multiple myeloma cancer is a type of blood cancer that happens when the growth of abnormal plasma cells becomes out of control in the bone marrow. There are various ways to diagnose multiple myeloma in bone marrow such as complete blood count test (CBC) or counting myeloma plasma cell in aspirate slide images using manual visualization or through image processing technique. In this work, an automatic deep learning method for the detection and segmentation of multiple myeloma plasma cell have been explored. To this end, a two-stage deep learning method is designed. In the first stage, the nucleus detection network is utilized to extract each instance of a cell of interest. The extracted instance is then fed to the multi-scale function to generate a multi-scale representation. The objective of the multi-scale function is to capture the shape variation and reduce the effect of object scale on the cytoplasm segmentation network. The generated scales are then fed into a pyramid of cytoplasm networks to learn the segmentation map in various scales. On top of the cytoplasm segmentation network, we included a scale aggregation function to refine and generate a final prediction. The proposed approach has been evaluated on the SegPC2021 grand-challenge and ranked second on the final test phase among all teams.
翻訳日:2021-05-14 19:53:19 公開日:2021-05-13
# (参考訳) ベイズネットワークの類似性とパラメータ優先 [全文訳有]

Likelihoods and Parameter Priors for Bayesian Networks ( http://arxiv.org/abs/2105.06241v1 )

ライセンス: CC BY 4.0
David Heckerman and Dan Geiger(参考訳) 本研究では,ベイズネットワークのパラメータと構造を学ぶための,確率とパラメータの優先順位を設定するための簡単な手法を開発した。 特に,少数の評価から,多数のベイズネットワーク構造に対する確率とパラメータの事前設定を許容する仮定をいくつか導入する。 もっとも顕著な仮定は、データが条件付き独立性の同じ主張を符号化するネットワーク構造を識別するのに役に立たない、等値性である。 本稿では,これらの仮定から導かれる構成について述べるとともに,無観測のランダムサンプルの限界確率を直接計算する方法を提案する。 また,これらの仮定が多変量分布のパラメータ優先を特徴付ける一般的な枠組みにどのようにつながるかを示す。

We develop simple methods for constructing likelihoods and parameter priors for learning about the parameters and structure of a Bayesian network. In particular, we introduce several assumptions that permit the construction of likelihoods and parameter priors for a large number of Bayesian-network structures from a small set of assessments. The most notable assumption is that of likelihood equivalence, which says that data can not help to discriminate network structures that encode the same assertions of conditional independence. We describe the constructions that follow from these assumptions, and also present a method for directly computing the marginal likelihood of a random sample with no missing observations. Also, we show how these assumptions lead to a general framework for characterizing parameter priors of multivariate distributions.
翻訳日:2021-05-14 19:45:08 公開日:2021-05-13
# (参考訳) アルゴリズム情報理論を用いた知性と曖昧性 [全文訳有]

Intelligence and Unambitiousness Using Algorithmic Information Theory ( http://arxiv.org/abs/2105.06268v1 )

ライセンス: CC BY 4.0
Michael K. Cohen, Badri Vellambi, Marcus Hutter(参考訳) アルゴリズム情報理論は、一般知能(AGI)の難解な構築にインスピレーションを与え、未発見の抽出可能近似は実現可能である。 強化学習(Reinforcement Learning, RL)は、エージェントが任意の解決可能な問題を解決するために学習する支配的なパラダイムであり、エージェントに危険なインセンティブを与える。 我々は,Hutter (2005) AIXIのような知的アルゴリズム情報理論の強化学習者が,私たちを含む任意の力を求めるという議論を概観する。 そして、情報理論的な探索スケジュールと因果影響理論に触発された設定を用いて、任意の力を求めないように学習するAIXIの変種を提示する。 我々のエージェントは、少なくとも人間のメンターと同様に報酬を得るように学習し、そのメンターを確率を下げて頼りにする。 そして、我々が経験的に探究する正式な仮定を考えると、エージェントの世界モデルには、最終的には次の事実が組み込まれている:「外部の世界」に介入することは、報酬獲得に影響を与えない。

Algorithmic Information Theory has inspired intractable constructions of general intelligence (AGI), and undiscovered tractable approximations are likely feasible. Reinforcement Learning (RL), the dominant paradigm by which an agent might learn to solve arbitrary solvable problems, gives an agent a dangerous incentive: to gain arbitrary "power" in order to intervene in the provision of their own reward. We review the arguments that generally intelligent algorithmic-informat ion-theoretic reinforcement learners such as Hutter's (2005) AIXI would seek arbitrary power, including over us. Then, using an information-theoreti c exploration schedule, and a setup inspired by causal influence theory, we present a variant of AIXI which learns to not seek arbitrary power; we call it "unambitious". We show that our agent learns to accrue reward at least as well as a human mentor, while relying on that mentor with diminishing probability. And given a formal assumption that we probe empirically, we show that eventually, the agent's world-model incorporates the following true fact: intervening in the "outside world" will have no effect on reward acquisition; hence, it has no incentive to shape the outside world.
翻訳日:2021-05-14 19:30:00 公開日:2021-05-13
# (参考訳) 1クラス協調フィルタリングのためのユーザおよびアイテム表現のブートストラップ [全文訳有]

Bootstrapping User and Item Representations for One-Class Collaborative Filtering ( http://arxiv.org/abs/2105.06323v1 )

ライセンス: CC BY 4.0
Dongha Lee, SeongKu Kang, Hyunjun Ju, Chanyoung Park, Hwanjo Yu(参考訳) OCCF(One-class collaborative filtering)の目標は、肯定的な関連性があるがまだ相互作用していないユーザ-イットのペアを識別することであり、ユーザ-イットの相互作用のごく一部(例えば、ユーザの暗黙のフィードバック)が観察される。 正の相互作用と負の相互作用の間の識別的モデリングでは、以前の研究のほとんどは、負のサンプリングにある程度依存していた。 しかし、負のサンプリングスキームは「正だが観測されていない」ペアを負として選ぶことができるため、限界がある。 本稿では,新たなOCCFフレームワークであるBUIRを提案する。 第1のエンコーダは、第2のエンコーダの出力を目標として予測するように訓練され、第2のエンコーダは、第1のエンコーダをゆっくりと近似して一貫したターゲットを提供する。 さらに、BUIRは、エンコーダ入力に確率的データ拡張を適用することにより、OCCFのデータ空間問題を効果的に軽減する。 ユーザやアイテムの周辺情報に基づいて、BUIRは符号化されるたびに各ポジティブなインタラクションの強化ビューをランダムに生成し、さらにこの自己スーパービジョンによってモデルをトレーニングする。 広範な実験により、buirは、特に負の相互作用に関する仮定が妥当でない多くのスパースデータセットにおいて、ベースラインメソッドを一貫して著しく上回っています。

The goal of one-class collaborative filtering (OCCF) is to identify the user-item pairs that are positively-related but have not been interacted yet, where only a small portion of positive user-item interactions (e.g., users' implicit feedback) are observed. For discriminative modeling between positive and negative interactions, most previous work relied on negative sampling to some extent, which refers to considering unobserved user-item pairs as negative, as actual negative ones are unknown. However, the negative sampling scheme has critical limitations because it may choose "positive but unobserved" pairs as negative. This paper proposes a novel OCCF framework, named as BUIR, which does not require negative sampling. To make the representations of positively-related users and items similar to each other while avoiding a collapsed solution, BUIR adopts two distinct encoder networks that learn from each other; the first encoder is trained to predict the output of the second encoder as its target, while the second encoder provides the consistent targets by slowly approximating the first encoder. In addition, BUIR effectively alleviates the data sparsity issue of OCCF, by applying stochastic data augmentation to encoder inputs. Based on the neighborhood information of users and items, BUIR randomly generates the augmented views of each positive interaction each time it encodes, then further trains the model by this self-supervision. Our extensive experiments demonstrate that BUIR consistently and significantly outperforms all baseline methods by a large margin especially for much sparse datasets in which any assumptions about negative interactions are less valid.
翻訳日:2021-05-14 18:40:05 公開日:2021-05-13
# (参考訳) 視覚誘導型アクティブ触覚によるき裂検出と再建 [全文訳有]

Vision-Guided Active Tactile Perception for Crack Detection and Reconstruction ( http://arxiv.org/abs/2105.06325v1 )

ライセンス: CC BY 4.0
Jiaqi Jiang, Guanqun Cao, Daniel Fernandes Gomes and Shan Luo(参考訳) ひび割れ検出は、人々がアクセスするための厳しい環境である橋や地下パイプラインなどのインフラの完全性と健全性を監視する上で非常に重要である。 近年,コンクリート構造物の亀裂検出にコンピュータビジョン技術が応用されている。 しかし、光条件や影のばらつきに悩まされ、頑丈さに欠け、多くの偽陽性が生じる。 視覚の不確実性に対処するため、人間の検査官は、自律的なき裂検出では研究されていない視覚によって導かれる構造の表面に積極的に触れる。 本稿では,視覚誘導型アクティブ触覚認識を用いたコンクリート構造物のひび割れ検出と復元のための新しい手法を提案する。 構造物のrgb-d画像が与えられると、まず構造表面のき裂の粗さプロファイルを微調整された深い畳み込みニューラルネットワークでセグメント化し、カメラベースの光学触覚センサにより触覚画像の収集をガイドする一連の接触点を生成する。 接触すると、触覚画像からクラックの画素回りマスクを得ることができ、RGB−D画像と触覚画像とを整列させてクラックのプロファイルを洗練することができる。 提案手法は, 目視のみによるき裂検出と比較して, き裂検出・復元の有効性と堅牢性を大幅に向上し, コンクリート構造物の検査・修理をロボットが支援できる可能性が示唆された。

Crack detection is of great significance for monitoring the integrity and well-being of the infrastructure such as bridges and underground pipelines, which are harsh environments for people to access. In recent years, computer vision techniques have been applied in detecting cracks in concrete structures. However, they suffer from variances in light conditions and shadows, lacking robustness and resulting in many false positives. To address the uncertainty in vision, human inspectors actively touch the surface of the structures, guided by vision, which has not been explored in autonomous crack detection. In this paper, we propose a novel approach to detect and reconstruct cracks in concrete structures using vision-guided active tactile perception. Given an RGB-D image of a structure, the rough profile of the crack in the structure surface will first be segmented with a fine-tuned Deep Convolutional Neural Networks, and a set of contact points are generated to guide the collection of tactile images by a camera-based optical tactile sensor. When contacts are made, a pixel-wise mask of the crack can be obtained from the tactile images and therefore the profile of the crack can be refined by aligning the RGB-D image and the tactile images. Extensive experiment results have shown that the proposed method improves the effectiveness and robustness of crack detection and reconstruction significantly, compared to crack detection with vision only, and has the potential to enable robots to help humans with the inspection and repair of the concrete infrastructure.
翻訳日:2021-05-14 18:20:33 公開日:2021-05-13
# (参考訳) インフォームド方程式学習 [全文訳有]

Informed Equation Learning ( http://arxiv.org/abs/2105.06331v1 )

ライセンス: CC BY 4.0
Matthias Werner, Andrej Junginger, Philipp Hennig, Georg Martius(参考訳) データをコンパクトで解釈可能な解析方程式に蒸留することは科学の目的の1つである。 代わりに、現代の教師付き機械学習手法は、ほとんどが入力から出力までの非構造化かつ密接なマップを生成する。 特にディープラーニングでは、この性質は単純な標準リンク関数の一般的な性質に負っている。 写像ではなく方程式を学習するために、標準的な非線形性は原子関数の構造的構造ブロックに置き換えられる。 しかし、空間性や構造に強い先行がなければ、表現複雑性と数値条件付けはこの直接的なアプローチを制限する。 科学と工学の現実的な設定にスケールするために,情報方程式学習システムを提案する。 これは、許可または禁止された方程式コンポーネントに関する専門家の知識と、ドメイン依存の構造化された空間を前もって組み込む方法を提供する。 このシステムは, 特異性を示す原子関数を持つ方程式を学習するためにロバストな手法を用いる。 対数と分数。 工学領域からの人工的および実世界のいくつかの実験を実演し、高い予測力の解釈可能なモデルを学ぶ。

Distilling data into compact and interpretable analytic equations is one of the goals of science. Instead, contemporary supervised machine learning methods mostly produce unstructured and dense maps from input to output. Particularly in deep learning, this property is owed to the generic nature of simple standard link functions. To learn equations rather than maps, standard non-linearities can be replaced with structured building blocks of atomic functions. However, without strong priors on sparsity and structure, representational complexity and numerical conditioning limit this direct approach. To scale to realistic settings in science and engineering, we propose an informed equation learning system. It provides a way to incorporate expert knowledge about what are permitted or prohibited equation components, as well as a domain-dependent structured sparsity prior. Our system then utilizes a robust method to learn equations with atomic functions exhibiting singularities, as e.g. logarithm and division. We demonstrate several artificial and real-world experiments from the engineering domain, in which our system learns interpretable models of high predictive power.
翻訳日:2021-05-14 18:07:50 公開日:2021-05-13
# (参考訳) グラフ学習に基づくレコメンダシステム:レビュー [全文訳有]

Graph Learning based Recommender Systems: A Review ( http://arxiv.org/abs/2105.06339v1 )

ライセンス: CC BY 4.0
Shoujin Wang, Liang Hu, Yan Wang, Xiangnan He, Quan Z. Sheng, Mehmet A. Orgun, Longbing Cao, Francesco Ricci, Philip S. Yu(参考訳) 近年、グラフ学習ベースのレコメンダシステム(GLRS)が急速に発展していくのを目撃している。 GLRSは高度なグラフ学習アプローチを用いてユーザの好みや意図をモデル化し、レコメンデーションの項目の特徴もモデル化する。 コンテンツベースのフィルタリングや協調フィルタリングを含む他のRSアプローチとは異なり、GLRSは、ユーザ、アイテム、属性といった重要なオブジェクトが明示的にあるいは暗黙的に接続されているグラフ上に構築されている。 グラフ学習技術の急速な発展により、グラフにおける同種関係や異種関係の探索と活用はより効果的なRSを構築する上で有望な方向である。 本稿では, グラフに基づく表現から重要な知識を抽出し, 精度, 信頼性, 説明可能性の向上を図ることで, GLRSの体系的なレビューを行う。 まず、GLRSを特徴付け、形式化し、その後、この新しい研究領域における主要な課題と主要な進歩を要約し、分類する。 最後に、この活気ある地域で新しい研究の方向性を共有します。

Recent years have witnessed the fast development of the emerging topic of Graph Learning based Recommender Systems (GLRS). GLRS employ advanced graph learning approaches to model users' preferences and intentions as well as items' characteristics for recommendations. Differently from other RS approaches, including content-based filtering and collaborative filtering, GLRS are built on graphs where the important objects, e.g., users, items, and attributes, are either explicitly or implicitly connected. With the rapid development of graph learning techniques, exploring and exploiting homogeneous or heterogeneous relations in graphs are a promising direction for building more effective RS. In this paper, we provide a systematic review of GLRS, by discussing how they extract important knowledge from graph-based representations to improve the accuracy, reliability and explainability of the recommendations. First, we characterize and formalize GLRS, and then summarize and categorize the key challenges and main progress in this novel research area. Finally, we share some new research directions in this vibrant area.
翻訳日:2021-05-14 17:47:29 公開日:2021-05-13
# (参考訳) 機械学習における公平性、バイアス、クラス不均衡に対処する - fbi-loss [全文訳有]

Addressing Fairness, Bias and Class Imbalance in Machine Learning: the FBI-loss ( http://arxiv.org/abs/2105.06345v1 )

ライセンス: CC BY-SA 4.0
Elisa Ferrari, Davide Bacciu(参考訳) クラス不均衡とバイアスの一体化に対するレジリエンスと公平性保証の保証は、実生活に影響を及ぼす自律的意思決定システムの非常に望ましい特性である。 これら3つの問題を別々に扱うために、多くの異なるターゲットのソリューションが提案されているが、統一的な視点は欠落しているようだ。 この研究により、一般的な形式化を提供し、それらが不均衡の異なる表現であることを示す。 この直感に従って、公正性、バイアス、不均衡(FBI損失)に関連する問題に対処するため、統一的な損失補正を定式化する。 提案手法の補正性能は, 検討中の課題の1つに関連する3つの実世界のベンチマークと, 異なる複雑度を有する課題に対する損失の有効性をよりよく検討するために合成データ群で評価した。 実証的な結果は、fbi-lossの柔軟な定式化は、単一問題に特化した文学的ソリューションに関して、競争力のあるパフォーマンスをもたらすことを強調する。

Resilience to class imbalance and confounding biases, together with the assurance of fairness guarantees are highly desirable properties of autonomous decision-making systems with real-life impact. Many different targeted solutions have been proposed to address separately these three problems, however a unifying perspective seems to be missing. With this work, we provide a general formalization, showing that they are different expressions of unbalance. Following this intuition, we formulate a unified loss correction to address issues related to Fairness, Biases and Imbalances (FBI-loss). The correction capabilities of the proposed approach are assessed on three real-world benchmarks, each associated to one of the issues under consideration, and on a family of synthetic data in order to better investigate the effectiveness of our loss on tasks with different complexities. The empirical results highlight that the flexible formulation of the FBI-loss leads also to competitive performances with respect to literature solutions specialised for the single problems.
翻訳日:2021-05-14 17:24:17 公開日:2021-05-13
# (参考訳) スクロール操作によるテキスト読みやすさの予測 [全文訳有]

Predicting Text Readability from Scrolling Interactions ( http://arxiv.org/abs/2105.06354v1 )

ライセンス: CC BY 4.0
Sian Gooding, Yevgeni Berzak, Tony Mak, Matt Sharifi(参考訳) テキストの読みやすさの判断には,テキストの単純化を行う場合や,言語学習者のための読み出し資料のソーシングなど,多くの重要な応用がある。 本稿では,スクロール動作がテキストの可読性にどのように関係するかを518名の参加者で調査する。 筆者らは,(1)読者がテキストレベルに応じてテキストと対話する方法に統計的に有意な違いがあること,(2)テキストの可読性を予測するのにこのような尺度が用いられること,(3)読み手の背景が読みやすさに影響すること,およびテキストの難易度に寄与する要因について明らかにした。

Judging the readability of text has many important applications, for instance when performing text simplification or when sourcing reading material for language learners. In this paper, we present a 518 participant study which investigates how scrolling behaviour relates to the readability of a text. We make our dataset publicly available and show that (1) there are statistically significant differences in the way readers interact with text depending on the text level, (2) such measures can be used to predict the readability of text, and (3) the background of a reader impacts their reading interactions and the factors contributing to text difficulty.
翻訳日:2021-05-14 16:59:12 公開日:2021-05-13
# (参考訳) メタデータを用いたビデオファイルの法医学的解析 [全文訳有]

Forensic Analysis of Video Files Using Metadata ( http://arxiv.org/abs/2105.06361v1 )

ライセンス: CC BY 4.0
Ziyue Xiang, J\'anos Horv\'ath, Sriram Baireddy, Paolo Bestagini, Stefano Tubaro, Edward J. Delp(参考訳) ビデオコンテンツの操作の容易さと能力は、操作されたメディアの急速な普及につながった。 近年、ビデオ編集ツールの利用が大幅に増加し、写真のリアルな変更を容易に生成できるようになった。 このような操作は、ビデオファイルに埋め込まれたメタデータにトレースを残せる。 このメタデータ情報は、ビデオ操作、ビデオ録画装置のブランド、ビデオ編集ツールの種類、その他の重要な証拠を決定するために使用できる。 本稿では,MP4ビデオラッパー/コンテナに含まれるメタデータに焦点を当てる。 本稿では,MP4木構造を用いたメタデータ抽出手法について述べる。 ビデオメタデータを解析するためのアプローチは、よりコンパクトな表現を生み出す。 本稿では,メタデータから機能を構築する方法を説明し,ビデオファイルの法医学的解析に次元的縮小と近傍の分類を用いる。 このアプローチにより,メタデータ特徴の分布を視覚的に検査し,意思決定を行うことができる。 実験により,提案手法の性能が他の手法を上回っていることを確認した。

The unprecedented ease and ability to manipulate video content has led to a rapid spread of manipulated media. The availability of video editing tools greatly increased in recent years, allowing one to easily generate photo-realistic alterations. Such manipulations can leave traces in the metadata embedded in video files. This metadata information can be used to determine video manipulations, brand of video recording device, the type of video editing tool, and other important evidence. In this paper, we focus on the metadata contained in the popular MP4 video wrapper/container. We describe our method for metadata extractor that uses the MP4's tree structure. Our approach for analyzing the video metadata produces a more compact representation. We will describe how we construct features from the metadata and then use dimensionality reduction and nearest neighbor classification for forensic analysis of a video file. Our approach allows one to visually inspect the distribution of metadata features and make decisions. The experimental results confirm that the performance of our approach surpasses other methods.
翻訳日:2021-05-14 16:47:45 公開日:2021-05-13
# (参考訳) HiDeNN-PGD:低次階層型ディープラーニングニューラルネットワーク

HiDeNN-PGD: reduced-order hierarchical deep learning neural networks ( http://arxiv.org/abs/2105.06363v1 )

ライセンス: CC BY 4.0
Lei Zhang (1 and 3), Ye Lu (2), Shaoqiang Tang (1) and Wing Kam Liu (2) ((1) Peking University, Beijing, China, (2) Northwestern University, Evanston, USA, (3) Visiting student, Department of Mechanical Engineering, Northwestern University)(参考訳) 本稿では階層型深層学習ニューラルネットワーク(hidenn)の固有一般化分解モデル(pgd)を提案する。 提案手法は HiDeNN-PGD 法と HiDeNN-PGD 法の両方の利点を保っている。 自動メッシュ適応により、HiDeNN-PGDは有限要素法(FEM)や従来のPGDよりも精度が高く、FEM自由度の一部を使用することができる。 この手法の精度と収束性は、fem, pgd, hidenn, deep neural networksなどの異なる手法と比較し、理論的および数値的に研究されている。 さらに, PGDはモード増加時にFEMに収束し, PGD誤差はFEM誤差とモード縮小誤差の直接和であることを示した。 提案する hidenn-pgd は自由度が桁違いに小さいほど高い精度で動作し,大規模な工学的問題に対して高い精度で高速計算を実現する可能性を示す。

This paper presents a proper generalized decomposition (PGD) based reduced-order model of hierarchical deep-learning neural networks (HiDeNN). The proposed HiDeNN-PGD method keeps both advantages of HiDeNN and PGD methods. The automatic mesh adaptivity makes the HiDeNN-PGD more accurate than the finite element method (FEM) and conventional PGD, using a fraction of the FEM degrees of freedom. The accuracy and convergence of the method have been studied theoretically and numerically, with a comparison to different methods, including FEM, PGD, HiDeNN and Deep Neural Networks. In addition, we theoretically showed that the PGD converges to FEM at increasing modes, and the PGD error is a direct sum of the FEM error and the mode reduction error. The proposed HiDeNN-PGD performs high accuracy with orders of magnitude fewer degrees of freedom, which shows a high potential to achieve fast computations with a high level of accuracy for large-size engineering problems.
翻訳日:2021-05-14 16:33:03 公開日:2021-05-13
# (参考訳) 生成モデルを用いた逆問題に対する可解収束アルゴリズム [全文訳有]

Provably Convergent Algorithms for Solving Inverse Problems Using Generative Models ( http://arxiv.org/abs/2105.06371v1 )

ライセンス: CC BY-SA 4.0
Viraj Shah, Rakib Hyder, M. Salman Asif, Chinmay Hegde(参考訳) 逆問題解決のための手作り先行(例えば疎らさ)の伝統的なアプローチは、徐々に(深い生成ネットワークによってモデル化されたような)より豊かな学習先の使用に置き換えられている。 本研究では,このような学習に基づくアプローチのアルゴリズム的側面を理論的に検討する。 ある生成的ネットワークアーキテクチャに対して、(a)線形および非線形逆問題に対する線形収束保証を理論的に享受し、(b)バックプロパゲーションのような従来の手法を実証的に改善する単純な非凸アルゴリズムアプローチを確立する。 様々な逆問題を解くための実験結果を用いて,我々の主張を支持する。 また、モデルミスマッチ(つまり、生成ネットワークが事前に適用されない状況)を処理する手法の拡張も提案する。 共に、我々の貢献は、より完全なアルゴリズム理解を伴う逆問題における生成モデルの原理的利用への構築ブロックとして役立ちます。

The traditional approach of hand-crafting priors (such as sparsity) for solving inverse problems is slowly being replaced by the use of richer learned priors (such as those modeled by deep generative networks). In this work, we study the algorithmic aspects of such a learning-based approach from a theoretical perspective. For certain generative network architectures, we establish a simple non-convex algorithmic approach that (a) theoretically enjoys linear convergence guarantees for certain linear and nonlinear inverse problems, and (b) empirically improves upon conventional techniques such as back-propagation. We support our claims with the experimental results for solving various inverse problems. We also propose an extension of our approach that can handle model mismatch (i.e., situations where the generative network prior is not exactly applicable). Together, our contributions serve as building blocks towards a principled use of generative models in inverse problems with more complete algorithmic understanding.
翻訳日:2021-05-14 16:31:59 公開日:2021-05-13
# (参考訳) 空間ラベル付き3dを伴わない3次元空間認識 [全文訳有]

3D Spatial Recognition without Spatially Labeled 3D ( http://arxiv.org/abs/2105.06461v1 )

ライセンス: CC BY 4.0
Zhongzheng Ren, Ishan Misra, Alexander G. Schwing, and Rohit Girdhar(参考訳) Weakly-supervised framework for Point cloud Recognitionでは,シーンレベルのクラスタグのみを監視対象とするWyPRを紹介した。 wyprは、ポイントレベルのセマンティックセグメンテーション、3d提案生成、3dオブジェクト検出という3つのコア3d認識タスクを共同で扱う。 標準のマルチインスタンス学習目標と組み合わせることで、wyprはトレーニング時に任意の空間ラベルにアクセスせずに、ポイントクラウドデータ内のオブジェクトを検出し、セグメンテーションすることができる。 ScanNetとS3DISデータセットを用いてその有効性を実証し、弱教師付きセグメンテーションを6%以上向上させた。 さらに、WyPRが標準的なアプローチより優れ、将来の作業の強力なベースラインを確立するため、両方のデータセットで弱教師付き3Dオブジェクト検出のための最初のベンチマークを設定しました。

We introduce WyPR, a Weakly-supervised framework for Point cloud Recognition, requiring only scene-level class tags as supervision. WyPR jointly addresses three core 3D recognition tasks: point-level semantic segmentation, 3D proposal generation, and 3D object detection, coupling their predictions through self and cross-task consistency losses. We show that in conjunction with standard multiple-instance learning objectives, WyPR can detect and segment objects in point cloud data without access to any spatial labels at training time. We demonstrate its efficacy using the ScanNet and S3DIS datasets, outperforming prior state of the art on weakly-supervised segmentation by more than 6% mIoU. In addition, we set up the first benchmark for weakly-supervised 3D object detection on both datasets, where WyPR outperforms standard approaches and establishes strong baselines for future work.
翻訳日:2021-05-14 15:52:26 公開日:2021-05-13
# (参考訳) 条件放射場を編集する [全文訳有]

Editing Conditional Radiance Fields ( http://arxiv.org/abs/2105.06466v1 )

ライセンス: CC BY 4.0
Steven Liu, Xiuming Zhang, Zhoutong Zhang, Richard Zhang, Jun-Yan Zhu, Bryan Russell(参考訳) ニューラルレイディアンス場(NeRF)は、シーンごとに最適化された高品質なビュー合成をサポートするシーンモデルである。 本稿では, 形状カテゴリーで学習したカテゴリレベルのNeRF(条件放射場)のユーザ編集を可能にする方法について検討する。 具体的には,局所領域の色や形状を変更するために,粗い2Dユーザを3次元空間に伝播する手法を提案する。 まず、オブジェクトインスタンス間で共有される形状分岐を含む、新しいモジュラーネットワークコンポーネントを組み込んだ条件付き放射場を提案する。 同じカテゴリの複数のインスタンスを観測することで、我々のモデルは、監督なしに基礎となる部分の意味を学習し、3D領域全体(例えば椅子座)に粗い2Dユーザスクリブルの伝播を可能にする。 次に,効率と精度のバランスをとる特定のネットワークコンポーネントを対象としたハイブリッドネットワーク更新戦略を提案する。 ユーザインタラクションでは、ユーザの制約を満たす最適化問題を定式化し、元のオブジェクト構造を保存する。 3つの形状データセット上の様々な編集タスクに対する我々のアプローチを実証し、従来のニューラル編集手法よりも優れていることを示す。 最後に、実際の写真の外観と形状を編集し、その編集が新規なビューの外挿に伝播することを示す。

A neural radiance field (NeRF) is a scene model supporting high-quality view synthesis, optimized per scene. In this paper, we explore enabling user editing of a category-level NeRF - also known as a conditional radiance field - trained on a shape category. Specifically, we introduce a method for propagating coarse 2D user scribbles to the 3D space, to modify the color or shape of a local region. First, we propose a conditional radiance field that incorporates new modular network components, including a shape branch that is shared across object instances. Observing multiple instances of the same category, our model learns underlying part semantics without any supervision, thereby allowing the propagation of coarse 2D user scribbles to the entire 3D region (e.g., chair seat). Next, we propose a hybrid network update strategy that targets specific network components, which balances efficiency and accuracy. During user interaction, we formulate an optimization problem that both satisfies the user's constraints and preserves the original object structure. We demonstrate our approach on various editing tasks over three shape datasets and show that it outperforms prior neural editing approaches. Finally, we edit the appearance and shape of a real photograph and show that the edit propagates to extrapolated novel views.
翻訳日:2021-05-14 15:25:01 公開日:2021-05-13
# (参考訳) 動的単眼映像からの動的ビュー合成 [全文訳有]

Dynamic View Synthesis from Dynamic Monocular Video ( http://arxiv.org/abs/2105.06468v1 )

ライセンス: CC BY 4.0
Chen Gao, Ayush Saraf, Johannes Kopf, Jia-Bin Huang(参考訳) 動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップで新しいビューを生成するアルゴリズムを提案する。 我々の研究は、ニューラル暗黙表現の最近の進歩に基づいており、時間変化の構造とシーンの外観をモデル化するために連続的かつ微分可能な関数を用いています。 我々は、時間不変の静的NeRFと時間変化の動的NeRFを共同で訓練し、結果を教師なしの方法でブレンドする方法を学ぶ。 しかし、この暗黙の関数を単一のビデオから学ぶことは、非常に不適切である(入力ビデオにマッチするソリューションは無限に多い)。 あいまいさを解決するため、より物理的に妥当な解を促すために正規化損失を導入する。 カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。

We present an algorithm for generating novel views at arbitrary viewpoints and any input time step given a monocular video of a dynamic scene. Our work builds upon recent advances in neural implicit representation and uses continuous and differentiable functions for modeling the time-varying structure and the appearance of the scene. We jointly train a time-invariant static NeRF and a time-varying dynamic NeRF, and learn how to blend the results in an unsupervised manner. However, learning this implicit function from a single video is highly ill-posed (with infinitely many solutions that match the input video). To resolve the ambiguity, we introduce regularization losses to encourage a more physically plausible solution. We show extensive quantitative and qualitative results of dynamic view synthesis from casually captured videos.
翻訳日:2021-05-14 15:01:25 公開日:2021-05-13
# (参考訳) Grad-TTS:テキスト音声の拡散確率モデル [全文訳有]

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech ( http://arxiv.org/abs/2105.06337v1 )

ライセンス: CC BY 4.0
Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov(参考訳) 近年,拡散確率モデルと生成スコアマッチングは複雑なデータ分布をモデル化する上で高い可能性を示し,確率計算はこれらの手法の統一的な視点を提供し、フレキシブルな推論スキームを実現している。 本稿では,符号化器によって予測される雑音を徐々に変換し,モノトニックアライメント探索によりテキスト入力と整合させることにより,メルスペクトログラムを生成するスコアベースデコーダを備えた,新しいテキスト対音声モデルgrad-ttsを提案する。 確率微分方程式の枠組みは, 音質と推定速度のトレードオフを明示的に制御することにより, 従来の拡散確率モデルを, 異なるパラメータのノイズからデータを再構成する場合に一般化するのに役立つ。 主観評価の結果,Grad-TTS は平均オピニオンスコアにおいて最先端の音声合成手法と競合していることがわかった。 私たちはまもなくそのコードを公開します。

Recently, denoising diffusion probabilistic models and generative score matching have shown high potential in modelling complex data distributions while stochastic calculus has provided a unified point of view on these techniques allowing for flexible inference schemes. In this paper we introduce Grad-TTS, a novel text-to-speech model with score-based decoder producing mel-spectrograms by gradually transforming noise predicted by encoder and aligned with text input by means of Monotonic Alignment Search. The framework of stochastic differential equations helps us to generalize conventional diffusion probabilistic models to the case of reconstructing data from noise with different parameters and allows to make this reconstruction flexible by explicitly controlling trade-off between sound quality and inference speed. Subjective human evaluation shows that Grad-TTS is competitive with state-of-the-art text-to-speech approaches in terms of Mean Opinion Score. We will make the code publicly available shortly.
翻訳日:2021-05-14 14:33:26 公開日:2021-05-13
# 事前訓練された言語モデルの方が一様に優れているか? インスタンスレベルでのパフォーマンスの比較

Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level ( http://arxiv.org/abs/2105.06020v1 )

ライセンス: Link先を確認
Ruiqi Zhong, Dhruba Ghosh, Dan Klein, Jacob Steinhardt(参考訳) より大きな言語モデルは平均して高い精度を持っていますが、すべてのインスタンス(データポイント)でより優れているのでしょうか? ある研究は、より大きなモデルは分布外ロバスト性が高く、ある研究は希少部分群において精度が低いことを示唆している。 これらの違いを理解するために、各インスタンスのレベルでこれらのモデルを調査する。 しかし、1つの大きな課題は、個々の予測がトレーニングのランダム性におけるノイズに非常に敏感であることである。 以上の結果から,MNLI,SST-2,QQPのインスタンスの少なくとも1~4%において,BERT-MiniよりもBERT-Largeの方が2~10%の精度で改善していることがわかった。 BERT-Mini から BERT-Medium への改良は BERT-Medium から BERT-Large への改良と相関する。 以上の結果から,インスタンスレベルの予測は豊富な情報源を提供することが示唆され,モデル重みをモデル予測で補うことを研究者に推奨した。

Larger language models have higher accuracy on average, but are they better on every single instance (datapoint)? Some work suggests larger models have higher out-of-distribution robustness, while other work suggests they have lower accuracy on rare subgroups. To understand these differences, we investigate these models at the level of individual instances. However, one major challenge is that individual predictions are highly sensitive to noise in the randomness in training. We develop statistically rigorous methods to address this, and after accounting for pretraining and finetuning noise, we find that our BERT-Large is worse than BERT-Mini on at least 1-4% of instances across MNLI, SST-2, and QQP, compared to the overall accuracy improvement of 2-10%. We also find that finetuning noise increases with model size and that instance-level accuracy has momentum: improvement from BERT-Mini to BERT-Medium correlates with improvement from BERT-Medium to BERT-Large. Our findings suggest that instance-level predictions provide a rich source of information; we therefore, recommend that researchers supplement model weights with model predictions.
翻訳日:2021-05-14 14:13:53 公開日:2021-05-13
# モデルベースアプローチによるオフラインポリシー評価における一様収束の特徴:オフライン学習、タスク非依存、報酬フリー

Characterizing Uniform Convergence in Offline Policy Evaluation via model-based approach: Offline Learning, Task-Agnostic and Reward-Free ( http://arxiv.org/abs/2105.06029v1 )

ライセンス: Link先を確認
Ming Yin, Yu-Xiang Wang(参考訳) 本研究では, オフライン政策評価(OPE)問題に対する一様収束の統計的限界を, エピソードMDP設定下でのモデルベース手法を用いて検討する。 一様 OPE $\sup_\Pi|Q^\pi-\hat{Q}^\pi|<\epsilon$ (Yinらにより開始)。 2021)は、point-wise (fixed policy) opeよりも強力な尺度であり、$\pi$がすべてのポリシーを含んでいる場合のオフラインポリシー学習を保証する。 本稿では,大域的統一 OPE に対して$\Omega(H^2 S/d_m\epsilon^2)$ lower bound (over model-based family) を確立する。 S/d_m\epsilon^2$の順序から、グローバルな均一なOPEタスクは、S$の余分な要素のため、本質的にオフラインポリシー学習よりも難しいことが分かる。 次に、本研究では、mdp の変遷を持つ mdp に対する全ての \emph{near-empirically optimal} ポリシーに適用する一様収束に対して、$\tilde{o}(h^2/d_m\epsilon^2)$ のエピソード複雑性を確立する。 その結果、オフライン学習に最適なサンプル複雑性が示され、グローバルケースから局所均一OPEを分離する。 オフラインタスク非依存と、最適な複雑性を伴うオフライン報酬フリー $\tilde{o}(h^2\log(k)/d_m\epsilon ^2)$ ($k$ is the number of tasks)と$\tilde{o}(h^2s/d_m\epsilon^2)$ それぞれ異なるオフラインrl問題を解決するための統一フレームワークを提供する。

We study the statistical limits of uniform convergence for offline policy evaluation (OPE) problems (uniform OPE for short) with model-based methods under episodic MDP setting. Uniform OPE $\sup_\Pi|Q^\pi-\hat{Q}^\pi|<\epsilon$ (initiated by Yin et al. 2021) is a stronger measure than the point-wise (fixed policy) OPE and ensures offline policy learning when $\Pi$ contains all policies (we call it global policy class). In this paper, we establish an $\Omega(H^2 S/d_m\epsilon^2)$ lower bound (over model-based family) for the global uniform OPE, where $d_m$ is the minimal state-action distribution induced by the behavior policy. The order $S/d_m\epsilon^2$ reveals global uniform OPE task is intrinsically harder than offline policy learning due to the extra $S$ factor. Next, our main result establishes an episode complexity of $\tilde{O}(H^2/d_m\epsilon^2)$ for \emph{local} uniform convergence that applies to all \emph{near-empirically optimal} policies for the MDPs with \emph{stationary} transition. The result implies the optimal sample complexity for offline learning and separates local uniform OPE from the global case. Paramountly, the model-based method combining with our new analysis technique (singleton absorbing MDP) can be adapted to the new settings: offline task-agnostic and the offline reward-free with optimal complexity $\tilde{O}(H^2\log(K)/d_m\epsilon ^2)$ ($K$ is the number of tasks) and $\tilde{O}(H^2S/d_m\epsilon^2)$ respectively, which provides a unified framework for simultaneously solving different offline RL problems.
翻訳日:2021-05-14 14:13:33 公開日:2021-05-13
# 互換性を考慮した異種視覚検索

Compatibility-aware Heterogeneous Visual Search ( http://arxiv.org/abs/2105.06047v1 )

ライセンス: Link先を確認
Rahul Duggal, Hao Zhou, Shuo Yang, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto(参考訳) 我々はリソース制約下でビジュアル検索の問題に取り組む。 既存のシステムは、クエリとギャラリーイメージの表現(埋め込み)を計算するために同じ埋め込みモデルを使用している。 埋め込みモデルは高い精度を保証するのに十分な大きさでなければならないが、リソース制約のあるプラットフォームでのクエリ埋め込み計算を可能にするには十分小さい。 もしギャラリー埋め込みが大きなモデルから生成され、クエリ埋め込みがコンパクトモデルを使って抽出されたら、このトレードオフは軽減できる。 このようなシステムを構築するための鍵は、クエリとギャラリーモデルの表現互換性を確保することである。 本稿では,組込みを計算する各モデルのパラメータを変更することで実施される2種類の互換性について述べる。 もうひとつは、埋め込みを計算するアーキテクチャを変更することで、互換性を意識したニューラルアーキテクチャサーチ(CMP-NAS)につながる。 ファッション画像(DeepFashion2)と顔画像(IJB-C)の検索課題についてCMP-NASをテストする。 最大埋め込みモデル(パラゴン)を用いた通常の(均一な)ビジュアルサーチと比較して、CMP-NASは80倍と23倍のコスト削減を実現し、それぞれDeepFashion2とIJB-Cのパラゴンの0.3%と1.6%の精度を維持した。

We tackle the problem of visual search under resource constraints. Existing systems use the same embedding model to compute representations (embeddings) for the query and gallery images. Such systems inherently face a hard accuracy-efficiency trade-off: the embedding model needs to be large enough to ensure high accuracy, yet small enough to enable query-embedding computation on resource-constrained platforms. This trade-off could be mitigated if gallery embeddings are generated from a large model and query embeddings are extracted using a compact model. The key to building such a system is to ensure representation compatibility between the query and gallery models. In this paper, we address two forms of compatibility: One enforced by modifying the parameters of each model that computes the embeddings. The other by modifying the architectures that compute the embeddings, leading to compatibility-aware neural architecture search (CMP-NAS). We test CMP-NAS on challenging retrieval tasks for fashion images (DeepFashion2), and face images (IJB-C). Compared to ordinary (homogeneous) visual search using the largest embedding model (paragon), CMP-NAS achieves 80-fold and 23-fold cost reduction while maintaining accuracy within 0.3% and 1.6% of the paragon on DeepFashion2 and IJB-C respectively.
翻訳日:2021-05-14 14:12:17 公開日:2021-05-13
# 自己監督による顔表現の改善

Using Self-Supervised Co-Training to Improve Facial Representation ( http://arxiv.org/abs/2105.06421v1 )

ライセンス: Link先を確認
Mahdi Pourmirzaei, Farzaneh Esmaili, Gholam Ali Montazer(参考訳) 本稿では,まず,画像ネットによる表情認識(fer)の事前学習による影響について検討した。 この結果から、ImageNetの強化レベルの微調整に比べて、スクラッチからのトレーニングがパフォーマンスの向上につながることが分かる。 その後,MTL(Multi-Task Learning)方式で,自己監督学習とSLを併用した,HL(Hybrid Learning)と呼ばれる標準スーパービジョン学習のためのフレームワークが提案された。 自己監視学習(SSL)を活用することで、メインのSLタスクに役立つ顔から空間情報などの入力データから追加情報を得ることができる。 この手法がjigsaw puzzlingやin-paintingといった自己教師付きプリタスクのfer問題にどのように使われるか検討されている。 教師付きヘッド(SH)は、同じトレーニング環境で異なる拡張と低いデータ構造の下でエラー率を下げる2つの方法によって助けられた。 AffectNetの最先端は、2つのまったく異なるHLメソッドを通じて、追加のデータセットを使わずに到達した。 さらに、hlの効果は、頭部ポーズ推定と性別認識という2つの異なる顔関連問題に対して示され、それぞれ9%と1%の誤差率を低下させる結果となった。 また,HL法ではモデルがオーバーフィットするのを防ぐことができた。

In this paper, at first, the impact of ImageNet pre-training on Facial Expression Recognition (FER) was tested under different augmentation levels. It could be seen from the results that training from scratch could reach better performance compared to ImageNet fine-tuning at stronger augmentation levels. After that, a framework was proposed for standard Supervised Learning (SL), called Hybrid Learning (HL) which used Self-Supervised co-training with SL in Multi-Task Learning (MTL) manner. Leveraging Self-Supervised Learning (SSL) could gain additional information from input data like spatial information from faces which helped the main SL task. It is been investigated how this method could be used for FER problems with self-supervised pre-tasks such as Jigsaw puzzling and in-painting. The supervised head (SH) was helped by these two methods to lower the error rate under different augmentations and low data regime in the same training settings. The state-of-the-art was reached on AffectNet via two completely different HL methods, without utilizing additional datasets. Moreover, HL's effect was shown on two different facial-related problem, head poses estimation and gender recognition, which concluded to reduce in error rate by up to 9% and 1% respectively. Also, we saw that the HL methods prevented the model from reaching overfitting.
翻訳日:2021-05-14 14:11:55 公開日:2021-05-13
# 半教師付き変分推論による医療対話生成

Semi-Supervised Variational Reasoning for Medical Dialogue Generation ( http://arxiv.org/abs/2105.06071v1 )

ライセンス: Link先を確認
Dongdong Li, Zhaochun Ren, Pengjie Ren, Zhumin Chen, Miao Fan, Jun Ma, Maarten de Rijke(参考訳) 医療対話生成は、医師が診断や治療の提案を効果的に得るために、自動的かつ正確な応答を提供することを目的としている。 医療対話では、患者状態(症状、薬品など)と医師行動(診断、治療など)の2つの重要な特徴が反応生成に関係している。 医療シナリオでは、コストとプライバシの要求が高いため、大規模なヒューマンアノテーションは通常利用できない。 したがって、現在の医療対話生成のアプローチは、一般的に患者の状態や医師の行動を明確に説明せず、代わりに暗黙的な表現に焦点を当てている。 医療対話生成におけるエンドツーエンドの変分推論手法を提案する。 ラベル付きデータの限られた量に対処するために,患者状態追跡と医師方針学習のためのカテゴリー優先変数として,患者状態と医師行動の両方を潜在変数として導入する。 患者状態と医師行動の後方分布を近似するための変分ベイズ生成法を提案する。 モデルの学習中にバイアスを減らすために, 2段階崩壊推定法が提案されている。 行動分類器と2つの推論検出器からなる医師政策ネットワークが,推論能力の向上のために提案されている。 医療プラットフォームから収集した3つのデータセットについて実験を行った。 実験の結果,提案手法は客観的および主観的評価指標において,最先端のベースラインよりも優れていた。 また,本提案手法は,医師の政策学習における最先端の完全教師付き学習ベースラインと同等の性能を発揮することを示す。

Medical dialogue generation aims to provide automatic and accurate responses to assist physicians to obtain diagnosis and treatment suggestions in an efficient manner. In medical dialogues two key characteristics are relevant for response generation: patient states (such as symptoms, medication) and physician actions (such as diagnosis, treatments). In medical scenarios large-scale human annotations are usually not available, due to the high costs and privacy requirements. Hence, current approaches to medical dialogue generation typically do not explicitly account for patient states and physician actions, and focus on implicit representation instead. We propose an end-to-end variational reasoning approach to medical dialogue generation. To be able to deal with a limited amount of labeled data, we introduce both patient state and physician action as latent variables with categorical priors for explicit patient state tracking and physician policy learning, respectively. We propose a variational Bayesian generative approach to approximate posterior distributions over patient states and physician actions. We use an efficient stochastic gradient variational Bayes estimator to optimize the derived evidence lower bound, where a 2-stage collapsed inference method is proposed to reduce the bias during model training. A physician policy network composed of an action-classifier and two reasoning detectors is proposed for augmented reasoning ability. We conduct experiments on three datasets collected from medical platforms. Our experimental results show that the proposed method outperforms state-of-the-art baselines in terms of objective and subjective evaluation metrics. Our experiments also indicate that our proposed semi-supervised reasoning method achieves a comparable performance as state-of-the-art fully supervised learning baselines for physician policy learning.
翻訳日:2021-05-14 14:11:32 公開日:2021-05-13
# ビデオ質問応答のための関係認識階層的注意フレームワーク

Relation-aware Hierarchical Attention Framework for Video Question Answering ( http://arxiv.org/abs/2105.06160v1 )

ライセンス: Link先を確認
Fangtao Li, Ting Bai, Chenyu Cao, Zihe Liu, Chenghao Yan, Bin Wu(参考訳) Video Question Answering (VideoQA)は、質問とビデオの両方の深い理解を必要とするため、難しいビデオ理解タスクである。 従来の研究は主に、洗練された視覚・言語埋め込みの抽出に重点を置いており、手作りの繊細なネットワークで活用されてきたが、既存の手法では無視されている時間とともに、質問に対するフレーム、オブジェクト、モダリティの関連性が変化している。 オブジェクト間の動的関係と相互作用の理解の欠如は、ビデオQAタスクに大きな課題をもたらし、この問題に対処するために、ビデオ内のオブジェクトの静的関係と動的関係の両方を学ぶための新しいRHA(Relation-aware Hierarchical Attention)フレームワークを提案する。 特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。 次に、グラフに基づく関係エンコーダを用いて、視覚オブジェクト間の静的関係を抽出し、異なる映像フレームにおけるマルチモーダルオブジェクトの動的変化を捉え、時間的、空間的、意味的関係を考察し、階層的注意機構によりマルチモーダル特徴を融合させ、回答を予測する。 我々は大規模なビデオQAデータセットで広範な実験を行い、実験結果からRHAが最先端の手法よりも優れていることが示された。

Video Question Answering (VideoQA) is a challenging video understanding task since it requires a deep understanding of both question and video. Previous studies mainly focus on extracting sophisticated visual and language embeddings, fusing them by delicate hand-crafted networks.However, the relevance of different frames, objects, and modalities to the question are varied along with the time, which is ignored in most of existing methods. Lacking understanding of the the dynamic relationships and interactions among objects brings a great challenge to VideoQA task.To address this problem, we propose a novel Relation-aware Hierarchical Attention (RHA) framework to learn both the static and dynamic relations of the objects in videos. In particular, videos and questions are embedded by pre-trained models firstly to obtain the visual and textual features. Then a graph-based relation encoder is utilized to extract the static relationship between visual objects.To capture the dynamic changes of multimodal objects in different video frames, we consider the temporal, spatial, and semantic relations, and fuse the multimodal features by hierarchical attention mechanism to predict the answer. We conduct extensive experiments on a large scale VideoQA dataset, and the experimental results demonstrate that our RHA outperforms the state-of-the-art methods.
翻訳日:2021-05-14 14:11:10 公開日:2021-05-13
# SizeNet:Object Real Size-based Convolutional Networkによるオブジェクト認識

SizeNet: Object Recognition via Object Real Size-based convolutional networks ( http://arxiv.org/abs/2105.06188v1 )

ライセンス: Link先を確認
Xiaofei Li, Zhong Dong(参考訳) 現実の物体を実現する際に、人間が物体の実際の大きさに対応する視覚野の領域を選択して物体の特徴を分析するという結論にインスパイアされた。 本稿では、オブジェクト認識問題を解決するために、オブジェクトの実際のサイズと特徴の両方に基づいてSizeNetというフレームワークを提案する。 SizeNetは自家製Rsizeデータセットのオブジェクト認識実験に使われ、State-of-the-art Methods AlexNet, VGG-16, Inception V3, Resnet-18 DenseNet-121と比較された。 その結果、sizenetは他のアルゴリズムよりもオブジェクト認識の精度がずっと高いことがわかった。 sizenetは、特徴が非常に似ているが実際のサイズが明らかに異なるオブジェクトを正確に認識する2つの問題を解決することができ、ターゲットオブジェクトとターゲットオブジェクトとは明らかに実際のサイズが異なる干渉オブジェクトを正しく区別することができる。 これは、SizeNetが機能だけでなく実際のサイズもオブジェクトとして認識しているためである。 オブジェクトの実際のサイズは、実際のサイズ範囲がオブジェクトの実際のサイズと一致しない干渉オブジェクトカテゴリを排除するのに役立つ。 sizenetは、解釈可能なコンピュータビジョンの研究に非常に重要である。 コードとデータセットは公開されます。

Inspired by the conclusion that human choose the visual cortex regions which corresponding to the real size of the object to analyze the features of the object, when realizing the objects in the real world. This paper presents a framework -- SizeNet which based on both the real sizes and the features of objects, to solve objects recognition problems. SizeNet was used for the objects recognition experiments on the homemade Rsize dataset, and compared with State-of-the-art Methods AlexNet, VGG-16, Inception V3, Resnet-18 DenseNet-121. The results show that SizeNet provides much higher accuracy rates for the objects recognition than the other algorithms. SizeNet can solve the two problems that correctly recognize the objects whose features are highly similar but the real sizes are obviously different from each other, and correctly distinguish the target object from the interference objects whose real sizes are obviously different from the target object. This is because SizeNet recognizes the object based not only the features, but also the real size. The real size of the object can help to exclude the interference object categories whose real size ranges do not match the real size of the object, which greatly reducing the object categories' number in the label set used for the downstream object recognition based on object features. SizeNet is of great significance to the study of interpretable computer vision. Our code and dataset will be made public.
翻訳日:2021-05-14 14:10:44 公開日:2021-05-13
# 視覚・言語ナビゲーション用エピソディクストランスフォーマ

Episodic Transformer for Vision-and-Language Navigation ( http://arxiv.org/abs/2105.06453v1 )

ライセンス: Link先を確認
Alexander Pashevich and Cordelia Schmid and Chen Sun(参考訳) 動的環境における自然言語命令によって定義された相互作用とナビゲーションは、ニューラルエージェントに重大な課題をもたらす。 本稿では,サブタスクの長いシーケンスを扱うこと,複雑なヒューマン命令を理解すること,という2つの課題に着目する。 エピソード変換器(E.T.)を提案する。 言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。 学習を改善するために,自然言語指示のバリエーションから環境の視覚的な外観の理解を分離する中間表現として合成指示を用いる。 構成課題の解決にはトランスフォーマーによる履歴の符号化が不可欠であり,合成指導による事前訓練と合同訓練がさらに向上することを示す。 我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテスト分割で38.4%と8.5%のタスク成功率を達成した。

Interaction and navigation defined by natural language instructions in dynamic environments pose significant challenges for neural agents. This paper focuses on addressing two challenges: handling long sequence of subtasks, and understanding complex human instructions. We propose Episodic Transformer (E.T.), a multimodal transformer that encodes language inputs and the full episode history of visual observations and actions. To improve training, we leverage synthetic instructions as an intermediate representation that decouples understanding the visual appearance of an environment from the variations of natural language instructions. We demonstrate that encoding the history with a transformer is critical to solve compositional tasks, and that pretraining and joint training with synthetic instructions further improve the performance. Our approach sets a new state of the art on the challenging ALFRED benchmark, achieving 38.4% and 8.5% task success rates on seen and unseen test splits.
翻訳日:2021-05-14 14:10:21 公開日:2021-05-13
# SaRoCo:新しいルーマニアのニュース記事のコーパスでサファイアを検出する

SaRoCo: Detecting Satire in a Novel Romanian Corpus of News Articles ( http://arxiv.org/abs/2105.06456v1 )

ライセンス: Link先を確認
Ana-Cristina Rogoz, Mihaela Gaman, Radu Tudor Ionescu(参考訳) 本稿では,ルーマニアニュースにおける風刺検出のためのコーパスを提案する。 我々は、複数の現実および風刺的なニュースソースから55,608件のニュース記事を収集し、言語に関係なく、ルーマニア語で唯一風刺検出のための最大のコーパスの1つを作成した。 本稿では,テストニュース記事と異なる情報源に属するニュース記事のトレーニングを行うためのテキストサンプルを公式に分割し,過度な適合のため,モデルがハイパフォーマンスを達成できないことを保証する。 2つの最先端のディープニューラルモデルで実験を行い、その結果、新しいコーパスの強力なベースラインが出来上がった。 その結果,ルーマニア語における風刺検出の機械レベルの精度は,人間レベルの精度(87%)に比べ非常に低く,今後の研究に十分な改善の余地を残していることがわかった。

In this work, we introduce a corpus for satire detection in Romanian news. We gathered 55,608 public news articles from multiple real and satirical news sources, composing one of the largest corpora for satire detection regardless of language and the only one for the Romanian language. We provide an official split of the text samples, such that training news articles belong to different sources than test news articles, thus ensuring that models do not achieve high performance simply due to overfitting. We conduct experiments with two state-of-the-art deep neural models, resulting in a set of strong baselines for our novel corpus. Our results show that the machine-level accuracy for satire detection in Romanian is quite low (under 73% on the test set) compared to the human-level accuracy (87%), leaving enough room for improvement in future research.
翻訳日:2021-05-14 14:09:52 公開日:2021-05-13
# AlphaZeroライクな深層強化学習における適応型ワームスタートMCTS

Adaptive Warm-Start MCTS in AlphaZero-like Deep Reinforcement Learning ( http://arxiv.org/abs/2105.06136v1 )

ライセンス: Link先を確認
Hui Wang and Mike Preuss and Aske Plaat(参考訳) alphazeroは、ニューラルネットワークの検索とトレーニングを自己プレイで組み合わせることで、深層強化学習において素晴らしいパフォーマンスを達成している。 多くの研究者は、他のゲームやタスクの結果を再現し改善する方法を探している。 しかし、アーキテクチャはスクラッチから学習するために設計されており、セルフプレイでコールドスタート問題を受け入れる。 近年,モンテカルロ木探索の自己再生開始フェーズを改善するため,暖かく開始する手法が提案されている。 ウォームスタートの長さを制御するために固定パラメータ $i^\prime$ を用いる。 パフォーマンス向上は小さなボードゲームでも報告された。 本稿では,適応スイッチ方式を用いて結果を示す。 実験により、我々のアプローチは固定された$I^\prime$よりもうまく機能し、特に「深み」、戦術、ゲーム(オセロとコネクテッド・フォー)に対して有効であることが示された。 我々は、$I^\prime$の適応値もゲームのサイズに影響され、平均$I^\prime$はゲームサイズによって増加すると予想する。 適応的ロールアウトに基づくウォームスタートによるαzeroライクなディープ強化学習は,15年前のロールアウトベースの強化学習において,迅速なアクション値推定が有効であった。

AlphaZero has achieved impressive performance in deep reinforcement learning by utilizing an architecture that combines search and training of a neural network in self-play. Many researchers are looking for ways to reproduce and improve results for other games/tasks. However, the architecture is designed to learn from scratch, tabula rasa, accepting a cold-start problem in self-play. Recently, a warm-start enhancement method for Monte Carlo Tree Search was proposed to improve the self-play starting phase. It employs a fixed parameter $I^\prime$ to control the warm-start length. Improved performance was reported in small board games. In this paper we present results with an adaptive switch method. Experiments show that our approach works better than the fixed $I^\prime$, especially for "deep," tactical, games (Othello and Connect Four). We conjecture that the adaptive value for $I^\prime$ is also influenced by the size of the game, and that on average $I^\prime$ will increase with game size. We conclude that AlphaZero-like deep reinforcement learning benefits from adaptive rollout based warm-start, as Rapid Action Value Estimate did for rollout-based reinforcement learning 15 years ago.
翻訳日:2021-05-14 14:09:04 公開日:2021-05-13
# ミャンマー音声認識のためのCTCに基づくエンドツーエンド手法の探索

Exploring CTC Based End-to-End Techniques for Myanmar Speech Recognition ( http://arxiv.org/abs/2105.06253v1 )

ライセンス: Link先を確認
Khin Me Me Chit, Laet Laet Lin(参考訳) 本研究では,ミャンマー語における接続型時間分類(CTC)に基づくエンドツーエンド自動音声認識(ASR)モデルについて検討する。 畳み込み層を追加・ドロップするモデルのトポロジーに一連の実験を行い、双方向長短期記憶層(BLSTM)の深度を異なるラベル符号化法を用いて検討した。 実験はミャンマーの音声コーパスを26時間近く使用して低リソースシナリオで実施した。 最良のモデルは4.72%の文字誤り率(CER)と12.38%の音節誤り率(SER)を達成する。

In this work, we explore a Connectionist Temporal Classification (CTC) based end-to-end Automatic Speech Recognition (ASR) model for the Myanmar language. A series of experiments is presented on the topology of the model in which the convolutional layers are added and dropped, different depths of bidirectional long short-term memory (BLSTM) layers are used and different label encoding methods are investigated. The experiments are carried out in low-resource scenarios using our recorded Myanmar speech corpus of nearly 26 hours. The best model achieves character error rate (CER) of 4.72% and syllable error rate (SER) of 12.38% on the test set.
翻訳日:2021-05-14 14:08:43 公開日:2021-05-13
# 不正検出のための説明可能な機械学習

Explainable Machine Learning for Fraud Detection ( http://arxiv.org/abs/2105.06314v1 )

ライセンス: Link先を確認
Ismini Psychoula, Andreas Gutmann, Pradip Mainali, S. H. Lee, Paul Dunphy, Fabien A. P. Petitcolas(参考訳) 大規模なデータセットの処理をサポートする機械学習の応用は、金融サービスを含む多くの業界で有望である。 しかし、機械学習をフルに採用するための実践的な問題は、複雑なモデルによってなされる決定や予測を理解し、説明できる点にある。 本稿では,教師付きモデルと教師なしモデルの両方において,適切な背景データセットと実行時のトレードオフを選択することにより,リアルタイム不正検出の領域における説明可能性について検討する。

The application of machine learning to support the processing of large datasets holds promise in many industries, including financial services. However, practical issues for the full adoption of machine learning remain with the focus being on understanding and being able to explain the decisions and predictions made by complex models. In this paper, we explore explainability methods in the domain of real-time fraud detection by investigating the selection of appropriate background datasets and runtime trade-offs on both supervised and unsupervised models.
翻訳日:2021-05-14 14:08:32 公開日:2021-05-13
# MapGo: 目標指向タスクに対するモデル支援ポリシ最適化

MapGo: Model-Assisted Policy Optimization for Goal-Oriented Tasks ( http://arxiv.org/abs/2105.06350v1 )

ライセンス: Link先を確認
Menghui Zhu, Minghuan Liu, Jian Shen, Zhicheng Zhang, Sheng Chen, Weinan Zhang, Deheng Ye, Yong Yu, Qiang Fu, Wei Yang(参考訳) 目標志向の強化学習では、過去の経験から生の目標を緩和して、エージェントに後見能力を提供することが、報酬空間の問題に対する主要な解決策である。 本稿では,relabeled目標の多様性を高めるために,fgi (foresight goal inference) という新しいrelabeling戦略を開発した。 また,サンプル効率を向上させるため,政策学習のためのシミュレーション軌道を生成するために動的モデルを提案する。 これら2つの改善を統合することで、mapgoフレームワーク(目標指向タスクに対するモデル支援ポリシー最適化)を導入します。 実験では,まずfgi戦略の有効性を示すとともに,複雑なタスク群におけるモデルフリーのベースラインと比較して,mapgoフレームワークが高いサンプル効率を達成することを示す。

In Goal-oriented Reinforcement learning, relabeling the raw goals in past experience to provide agents with hindsight ability is a major solution to the reward sparsity problem. In this paper, to enhance the diversity of relabeled goals, we develop FGI (Foresight Goal Inference), a new relabeling strategy that relabels the goals by looking into the future with a learned dynamics model. Besides, to improve sample efficiency, we propose to use the dynamics model to generate simulated trajectories for policy training. By integrating these two improvements, we introduce the MapGo framework (Model-Assisted Policy Optimization for Goal-oriented tasks). In our experiments, we first show the effectiveness of the FGI strategy compared with the hindsight one, and then show that the MapGo framework achieves higher sample efficiency when compared to model-free baselines on a set of complicated tasks.
翻訳日:2021-05-14 14:08:23 公開日:2021-05-13
# bwcp:バッチホワイトニングによるconvnetsの確率的学習-pruneチャネル

BWCP: Probabilistic Learning-to-Prune Channels for ConvNets via Batch Whitening ( http://arxiv.org/abs/2105.06423v1 )

ライセンス: Link先を確認
Wenqi Shao, Hang Yu, Zhaoyang Zhang, Hang Xu, Zhenguo Li, Ping Luo(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)を高速化する確率的チャネルプルーニング手法を提案する。 従来のプルーニング法は、決定論的な方法でのトレーニングにおいて重要でないチャネルをゼロにすることが多いため、cnnの学習能力が減少し、結果として最適以下のパフォーマンスが得られる。 この問題に対処するため,我々は,チャネルの活性化確率をモデル化することにより,重要でないチャネルを確率的に破棄できるバッチ・ホワイトニング・チャネル・プルーニング(bwcp)と呼ばれる確率ベースのプルーニングアルゴリズムを開発した。 BWCPにはいくつかの利点がある。 1)cnnをスクラッチから、確率論的に同時に訓練し、決定論的方法よりも大きなネットワーク空間を探索する。 2) BWCPは,提案したバッチ白化ツールによって強化され,非重要チャネルの活性化確率を,余分なパラメータや計算コストを加えることなく,経験的かつ理論的に向上させることができる。 3) CIFAR-10, CIFAR-100, ImageNet の様々なネットワークアーキテクチャによる大規模な実験により, BWCP は計算予算が限られているため, 精度が向上し, 性能が向上した。 例えば、BWCPによって刈り取られたResNet50は、ImageNet上で0.70\%のTop-1精度低下しかなく、通常のResNet50の43.1\%FLOPを削減している。

This work presents a probabilistic channel pruning method to accelerate Convolutional Neural Networks (CNNs). Previous pruning methods often zero out unimportant channels in training in a deterministic manner, which reduces CNN's learning capacity and results in suboptimal performance. To address this problem, we develop a probability-based pruning algorithm, called batch whitening channel pruning (BWCP), which can stochastically discard unimportant channels by modeling the probability of a channel being activated. BWCP has several merits. (1) It simultaneously trains and prunes CNNs from scratch in a probabilistic way, exploring larger network space than deterministic methods. (2) BWCP is empowered by the proposed batch whitening tool, which is able to empirically and theoretically increase the activation probability of useful channels while keeping unimportant channels unchanged without adding any extra parameters and computational cost in inference. (3) Extensive experiments on CIFAR-10, CIFAR-100, and ImageNet with various network architectures show that BWCP outperforms its counterparts by achieving better accuracy given limited computational budgets. For example, ResNet50 pruned by BWCP has only 0.70\% Top-1 accuracy drop on ImageNet, while reducing 43.1\% FLOPs of the plain ResNet50.
翻訳日:2021-05-14 14:08:08 公開日:2021-05-13
# ロバストな動的マルチモーダルデータフュージョン:モデル不確実性の観点から

Robust Dynamic Multi-Modal Data Fusion: A Model Uncertainty Perspective ( http://arxiv.org/abs/2105.06018v1 )

ライセンス: Link先を確認
Bin Liu(参考訳) 本稿では,非線形非ガウス力学過程における予期せぬモダリティ障害下でのマルチモーダルデータ融合(MMDF)について述べる。 この問題に取り組むための効率的な枠組みを提案する。 特に、1 または 0 の値を取る「モダリティ」と呼ばれる概念は、このモダリティの観察が有用かどうかを示すために用いられる。 関連する n$ のモダリティに対して、それらの "usefulness" の値の組み合わせは 2^n$ である。 各組み合わせは、真のデータ生成過程の仮説モデルを定義する。 次に, モデル不確実性下での非線形非ガウス状態フィルタリングの課題として関心の問題は定式化され, 動的モデル平均化に基づく粒子フィルタアルゴリズムによって解決される。 実験の結果,提案手法は最先端の手法よりも優れていた。 コードとデータはhttps://github.com/r obinlau 1981/fusionで入手できる。

This paper is concerned with multi-modal data fusion (MMDF) under unexpected modality failures in nonlinear non-Gaussian dynamic processes. An efficient framework to tackle this problem is proposed. In particular, a notion termed modality "usefulness", which takes a value of 1 or 0, is used for indicating whether the observation of this modality is useful or not. For $n$ modalities involved, $2^n$ combinations of their "usefulness" values exist. Each combination defines one hypothetical model of the true data generative process. Then the problem of concern is formalized as a task of nonlinear non-Gaussian state filtering under model uncertainty, which is addressed by a dynamic model averaging based particle filter algorithm. Experimental results show that the proposed solution outperforms remarkably state-of-the-art methods. Code and data are available at https://github.com/r obinlau1981/fusion.
翻訳日:2021-05-14 14:07:40 公開日:2021-05-13
# 衛星画像を用いた住宅価格予測

House Price Prediction using Satellite Imagery ( http://arxiv.org/abs/2105.06060v1 )

ライセンス: Link先を確認
Sina Jandaghi Semnani, Hoormazd Rezaei(参考訳) 本稿では,衛星画像を用いて住宅価格推定モデルの精度を向上させる方法について述べる。 ロサンゼルス郡の資産評価データセットを用いて、ImageNetで事前訓練されたInception-v3モデルから学習を移すことで、住宅の非イメージの特徴のみを使用する2つのベースラインモデルと比較して、R-2乗スコアが約10%向上できる。

In this paper we show how using satellite images can improve the accuracy of housing price estimation models. Using Los Angeles County's property assessment dataset, by transferring learning from an Inception-v3 model pretrained on ImageNet, we could achieve an improvement of ~10% in R-squared score compared to two baseline models that only use non-image features of the house.
翻訳日:2021-05-14 14:07:27 公開日:2021-05-13
# コントラスト学習によるビデオコーパスモーメント検索

Video Corpus Moment Retrieval with Contrastive Learning ( http://arxiv.org/abs/2105.06247v1 )

ライセンス: Link先を確認
Hao Zhang, Aixin Sun, Wei Jing, Guoshun Nan, Liangli Zhen, Joey Tianyi Zhou, Rick Siow Mong Goh(参考訳) ビデオコーパスモーメント検索(VCMR、英: video corpus moment search)とは、ビデオの断片である時間モーメントを、あるテキストクエリに意味的に対応するものとして検索することである。 ビデオとテキストは2つの異なる特徴空間から成り立っているため、VCMRに対処する2つの一般的なアプローチがある: (i) それぞれのモダリティ表現を個別にエンコードし、クエリ処理のために2つのモダリティ表現をアライメントし、 (ii) クエリ処理のためのマルチモーダル表現を学ぶために細粒度なクロスモーダル相互作用を採用する。 第2のアプローチは検索精度の向上につながることが多いが,第1のアプローチの方がはるかに効率的だ。 本稿では,VCMRのためのRetrieval and Localization Network with Contrastive Learning (ReLoCLNet)を提案する。 第1のアプローチを採用し,ビデオエンコーダとテキストエンコーダを洗練し,ビデオとテキストの表現を別々に学習する。 ビデオコントラスト学習(VideoCL)は,ビデオレベルでのクエリと候補ビデオ間の相互情報の最大化である。 フレームコントラスト学習(FrameCL)は、ビデオ内のフレームレベルのクエリに対応するモーメント領域を強調することを目的としている。 実験の結果,ReLoCLNetはテキストと動画を別々にエンコードして効率を向上するが,その検索精度は相互モーダルな相互作用学習を採用するベースラインに匹敵することがわかった。

Given a collection of untrimmed and unsegmented videos, video corpus moment retrieval (VCMR) is to retrieve a temporal moment (i.e., a fraction of a video) that semantically corresponds to a given text query. As video and text are from two distinct feature spaces, there are two general approaches to address VCMR: (i) to separately encode each modality representations, then align the two modality representations for query processing, and (ii) to adopt fine-grained cross-modal interaction to learn multi-modal representations for query processing. While the second approach often leads to better retrieval accuracy, the first approach is far more efficient. In this paper, we propose a Retrieval and Localization Network with Contrastive Learning (ReLoCLNet) for VCMR. We adopt the first approach and introduce two contrastive learning objectives to refine video encoder and text encoder to learn video and text representations separately but with better alignment for VCMR. The video contrastive learning (VideoCL) is to maximize mutual information between query and candidate video at video-level. The frame contrastive learning (FrameCL) aims to highlight the moment region corresponds to the query at frame-level, within a video. Experimental results show that, although ReLoCLNet encodes text and video separately for efficiency, its retrieval accuracy is comparable with baselines adopting cross-modal interaction learning.
翻訳日:2021-05-14 14:07:18 公開日:2021-05-13
# オンライン数式認識のための学習記号関係木

Learning symbol relation tree for online mathematical expression recognition ( http://arxiv.org/abs/2105.06084v1 )

ライセンス: Link先を確認
Thanh-Nghia Truong, Hung Tuan Nguyen, Cuong Tuan Nguyen and Masaki Nakagawa(参考訳) 本稿では,記号関係木(SRT)をストローク列から直接構築することで,オンライン手書き数式(OnHME)を認識できる手法を提案する。 双方向リカレントニューラルネットワークは、SRTの複数の派生経路から学習し、グローバルコンテキストを用いてシンボル間のシンボルと空間的関係を予測する。 認識システムは、時間分類器とツリーコネクタの2つの部分を有する。 時間分類器は、OnHMEパターンを認識してSRTを生成する。 ツリーコネクタはSRTをいくつかのサブSRTに分割する。 最終SRTは、これらのサブSRTの中で最高の組み合わせを見出すことによって形成される。 また,様々なストロークオーダーに対応するツリーソート手法も採用している。 認識実験により,提案するOnHME認識システムは,他の手法と競合することが示された。 認識システムは、オンライン手書き数式認識コンペティション(CROHME)2014と2016のテストセットで44.12%と41.76%の表現認識率を達成した。

This paper proposes a method for recognizing online handwritten mathematical expressions (OnHME) by building a symbol relation tree (SRT) directly from a sequence of strokes. A bidirectional recurrent neural network learns from multiple derived paths of SRT to predict both symbols and spatial relations between symbols using global context. The recognition system has two parts: a temporal classifier and a tree connector. The temporal classifier produces an SRT by recognizing an OnHME pattern. The tree connector splits the SRT into several sub-SRTs. The final SRT is formed by looking up the best combination among those sub-SRTs. Besides, we adopt a tree sorting method to deal with various stroke orders. Recognition experiments indicate that the proposed OnHME recognition system is competitive to other methods. The recognition system achieves 44.12% and 41.76% expression recognition rates on the Competition on Recognition of Online Handwritten Mathematical Expressions (CROHME) 2014 and 2016 testing sets.
翻訳日:2021-05-14 14:06:25 公開日:2021-05-13
# 近隣認識型ニューラルアーキテクチャ探索

Neighborhood-Aware Neural Architecture Search ( http://arxiv.org/abs/2105.06369v1 )

ライセンス: Link先を確認
Xiaofang Wang, Shengcao Cao, Mengtian Li, Kris M. Kitani(参考訳) 既存のneural architecture search (nas)メソッドは、検索性能は良いが、テスト設定が不十分なアーキテクチャを返すことが多い。 探索空間における平坦なミニマアーキテクチャを,フラットなミニマがシャープなミニマよりも一般化できるという前提のもとに,新しい近傍認識型NASの定式化を提案する。 フラットミニマアーキテクチャ(flat-minima architecture)とは、アーキテクチャの小さな摂動下で性能が安定しているアーキテクチャを指す(例えば、畳み込みをスキップ接続で置き換える)。 我々の定式化は、アーキテクチャの「平坦性」を考慮に入れ、このアーキテクチャの近傍における性能を集約する。 提案手法は,サンプリングに基づくアルゴリズムや勾配に基づくアルゴリズムなど,既存の検索アルゴリズムに適用する原理的手法を示す。 また,グラデーションに基づくアルゴリズムの適用を容易にするために,アーキテクチャ近傍の微分可能表現を提案する。 本定式化に基づき,近隣対応型ランダムサーチ (NA-RS) と周辺対応型差別化アーキテクチャサーチ (NA-DARTS) を提案する。 NA-DARTSは、私たちの定式化でDARTSを単純に拡張することで、CIFAR-10、CIFAR-100、ImageNetといった確立したベンチマーク上で、最先端のNASメソッドで見つかったアーキテクチャと同等または同等の性能のアーキテクチャを見つける。

Existing neural architecture search (NAS) methods often return an architecture with good search performance but generalizes poorly to the test setting. To achieve better generalization, we propose a novel neighborhood-aware NAS formulation to identify flat-minima architectures in the search space, with the assumption that flat minima generalize better than sharp minima. The phrase "flat-minima architecture" refers to architectures whose performance is stable under small perturbations in the architecture (e.g., replacing a convolution with a skip connection). Our formulation takes the "flatness" of an architecture into account by aggregating the performance over the neighborhood of this architecture. We demonstrate a principled way to apply our formulation to existing search algorithms, including sampling-based algorithms and gradient-based algorithms. To facilitate the application to gradient-based algorithms, we also propose a differentiable representation for the neighborhood of architectures. Based on our formulation, we propose neighborhood-aware random search (NA-RS) and neighborhood-aware differentiable architecture search (NA-DARTS). Notably, by simply augmenting DARTS with our formulation, NA-DARTS finds architectures that perform better or on par with those found by state-of-the-art NAS methods on established benchmarks, including CIFAR-10, CIFAR-100 and ImageNet.
翻訳日:2021-05-14 14:06:11 公開日:2021-05-13
# ニューラルレンダリングのためのSyntheticFurデータセット

SyntheticFur dataset for neural rendering ( http://arxiv.org/abs/2105.06409v1 )

ライセンス: Link先を確認
Trung Le, Ryan Poplin, Fred Bertsch, Andeep Singh Toor, Margaret L. Oh(参考訳) 機械学習トレーニングに特化したSyntheticFurという新しいデータセットを導入しました。 データセットは、対応するラスタ化入力バッファとシミュレーションデータファイルを備えたレイトレース合成ファーレンダリングからなる。 Houdiniで約14万の画像と15のシミュレーションを手続き的に生成した。 画像は、異なる肌のプリミティブを身にまとい、あらかじめ定義された照明環境で様々な動きで動きます。 また,ニューラルネットワークを用いて,条件付き生成対向ネットワークを学習することで,安価な入力バッファを用いてファイングラフィックスを著しく改善する方法について実証した。 このような高忠実度ファームレンダリングが利用可能になることで、さまざまなアプリケーションに対するニューラルレンダリングによる新たな進歩が期待できる。

We introduce a new dataset called SyntheticFur built specifically for machine learning training. The dataset consists of ray traced synthetic fur renders with corresponding rasterized input buffers and simulation data files. We procedurally generated approximately 140,000 images and 15 simulations with Houdini. The images consist of fur groomed with different skin primitives and move with various motions in a predefined set of lighting environments. We also demonstrated how the dataset could be used with neural rendering to significantly improve fur graphics using inexpensive input buffers by training a conditional generative adversarial network with perceptual loss. We hope the availability of such high fidelity fur renders will encourage new advances with neural rendering for a variety of applications.
翻訳日:2021-05-14 14:05:44 公開日:2021-05-13
# discobox: 弱い教師付きインスタンスセグメンテーションとボックス監督からのセマンティック対応

DiscoBox: Weakly Supervised Instance Segmentation and Semantic Correspondence from Box Supervision ( http://arxiv.org/abs/2105.06464v1 )

ライセンス: Link先を確認
Shiyi Lan, Zhiding Yu, Christopher Choy, Subhashree Radhakrishnan, Guilin Liu, Yuke Zhu, Larry S. Davis, Anima Anandkumar(参考訳) 本稿では,バウンディングボックスを用いたインスタンスセグメンテーションとセマンティクス対応を共同で学習する新しいフレームワークであるdiscoboxを紹介する。 具体的には,境界ボックスの監督に加えて,インスタンスセグメンテーションと意味対応を構造化教師が共同で指導する自己センシングフレームワークを提案する。 教師は、箱内と箱内の両方の画素関係をモデル化するために、ペアワイズ電位とクロスイメージ電位を組み込んだ構造化エネルギーモデルである。 教師のエネルギーの最小化は、タスクネットワークを監督するために擬似ラベルとして扱われるクラス内オブジェクト間の洗練されたオブジェクトマスクと密接な対応を同時に生成し、密集的学習のための正/負の対応ペアを提供する。 2つの課題が相互に利益を享受する共生関係を示す。 我々の最良のモデルは、COCOインスタンスのセグメンテーションにおいて37.9%のAPを達成し、以前の弱い教師付き手法を超越し、教師付き手法と競合する。 また,PASCAL VOC12 と PF-PASCAL に対して,リアルタイムの推論で弱教師付きの結果が得られた。

We introduce DiscoBox, a novel framework that jointly learns instance segmentation and semantic correspondence using bounding box supervision. Specifically, we propose a self-ensembling framework where instance segmentation and semantic correspondence are jointly guided by a structured teacher in addition to the bounding box supervision. The teacher is a structured energy model incorporating a pairwise potential and a cross-image potential to model the pairwise pixel relationships both within and across the boxes. Minimizing the teacher energy simultaneously yields refined object masks and dense correspondences between intra-class objects, which are taken as pseudo-labels to supervise the task network and provide positive/negative correspondence pairs for dense constrastive learning. We show a symbiotic relationship where the two tasks mutually benefit from each other. Our best model achieves 37.9% AP on COCO instance segmentation, surpassing prior weakly supervised methods and is competitive to supervised methods. We also obtain state of the art weakly supervised results on PASCAL VOC12 and PF-PASCAL with real-time inference.
翻訳日:2021-05-14 14:05:35 公開日:2021-05-13
# DeepQAMVS:マルチビデオ要約のためのクエリ対応階層型ポインタネットワーク

DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization ( http://arxiv.org/abs/2105.06441v1 )

ライセンス: Link先を確認
Safa Messaoud, Ismini Lourentzou, Assma Boughoula, Mona Zehni, Zhizhen Zhao, Chengxiang Zhai, Alexander G. Schwing(参考訳) 近年のWebビデオ共有プラットフォームの成長により、ビデオコンテンツを効率的に閲覧、検索、要約できるシステムへの需要が高まっている。 クエリ対応のマルチビデオ要約はこの需要に対応する有望なテクニックである。 本稿では,(1)簡潔さ,(2)重要なクエリ関連事象の表現性,(3)時系列音性といった複数の基準を協調的に最適化する,マルチビデオ要約のためのクエリ対応階層型ポインタネットワークについて紹介する。 3つの分布を分解し,それぞれ異なるモダリティから証拠を収集する階層的注意モデルと,要約に含まれるフレームを選択するポインターネットワークを設計した。 DeepQAMVSは強化学習でトレーニングされており、代表性、多様性、クエリ適応性、時間的コヒーレンスをキャプチャする報酬を取り入れている。 MVS1Kデータセット上で、入力されたビデオフレーム数と線形にスケーリングする推論時間を用いて、最先端の結果を得る。

The recent growth of web video sharing platforms has increased the demand for systems that can efficiently browse, retrieve and summarize video content. Query-aware multi-video summarization is a promising technique that caters to this demand. In this work, we introduce a novel Query-Aware Hierarchical Pointer Network for Multi-Video Summarization, termed DeepQAMVS, that jointly optimizes multiple criteria: (1) conciseness, (2) representativeness of important query-relevant events and (3) chronological soundness. We design a hierarchical attention model that factorizes over three distributions, each collecting evidence from a different modality, followed by a pointer network that selects frames to include in the summary. DeepQAMVS is trained with reinforcement learning, incorporating rewards that capture representativeness, diversity, query-adaptability and temporal coherence. We achieve state-of-the-art results on the MVS1K dataset, with inference time scaling linearly with the number of input video frames.
翻訳日:2021-05-14 14:05:03 公開日:2021-05-13
# deepobliviate:ディープニューラルネットワークにおけるデータ残量メモリ消去のための強力な魅力

DeepObliviate: A Powerful Charm for Erasing Data Residual Memory in Deep Neural Networks ( http://arxiv.org/abs/2105.06209v1 )

ライセンス: Link先を確認
Yingzhe He, Guozhu Meng, Kai Chen, Jinwen He, Xingbo Hu(参考訳) 機械学習はモデルのセキュリティを保証し、ユーザのプライバシを保護する上で非常に重要である。 さらに、多くの法的条項は、ユーザがモデルプロバイダに対して、トレーニングセットから自身のデータを削除する権利、すなわち忘れられる権利を要求できることを明確に規定している。 非学習データの単純な方法は、スクラッチからモデルを再トレーニングすることであり、現代のディープニューラルネットワークの規模で非常に時間とリソースを消費するようになる。 モデルやトレーニングデータのリファクタリングによる他のアンラーニングアプローチは、オーバーヘッドとモデルのユーザビリティのバランスを取るのに苦労している。 本稿では,通常の学習モードを変更することなく,機械学習を効率的に実装する手法であるdeepobliviateを提案する。 本手法は,中間モデルをハードディスク上に格納することで,元のトレーニングプロセスを改善する。 学習すべきデータポイントが与えられたら、まず、記憶されたモデルに残っている時間的残差メモリを定量化する。 影響したモデルを再トレーニングし、残メモリのオンザフライ傾向に基づいて再トレーニングをいつ終了するかを決定する。 最後に、再トレーニングされたモデルと影響のないモデルを組み合わせて、未学習のモデルを縫い合わせる。 5つのデータセットとディープラーニングモデルにアプローチを幅広く評価する。 スクラッチから再トレーニングする方法と比較して、我々の手法は99.0%、95.0%、91.9%、96.7%、74.1%の精度、66.7$\times$、75.0$\times$、33.3$\times$、29.4$\times$、13.7$\times$、MNIST、SVHN、CIFAR-10、Purchase、ImageNetデータセットでそれぞれスピードアップできる。 最先端の未学習アプローチと比較して、精度は5.8%、予測速度は32.5$\times$で、これらのデータセットで平均して同じ設定で同等のリトレーニングスピードアップに達する。 さらにDeepObliviateは、バックドアベースの未学習検証をパスすることもできる。

Machine unlearning has great significance in guaranteeing model security and protecting user privacy. Additionally, many legal provisions clearly stipulate that users have the right to demand model providers to delete their own data from training set, that is, the right to be forgotten. The naive way of unlearning data is to retrain the model without it from scratch, which becomes extremely time and resource consuming at the modern scale of deep neural networks. Other unlearning approaches by refactoring model or training data struggle to gain a balance between overhead and model usability. In this paper, we propose an approach, dubbed as DeepObliviate, to implement machine unlearning efficiently, without modifying the normal training mode. Our approach improves the original training process by storing intermediate models on the hard disk. Given a data point to unlearn, we first quantify its temporal residual memory left in stored models. The influenced models will be retrained and we decide when to terminate the retraining based on the trend of residual memory on-the-fly. Last, we stitch an unlearned model by combining the retrained models and uninfluenced models. We extensively evaluate our approach on five datasets and deep learning models. Compared to the method of retraining from scratch, our approach can achieve 99.0%, 95.0%, 91.9%, 96.7%, 74.1% accuracy rates and 66.7$\times$, 75.0$\times$, 33.3$\times$, 29.4$\times$, 13.7$\times$ speedups on the MNIST, SVHN, CIFAR-10, Purchase, and ImageNet datasets, respectively. Compared to the state-of-the-art unlearning approach, we improve 5.8% accuracy, 32.5$\times$ prediction speedup, and reach a comparable retrain speedup under identical settings on average on these datasets. Additionally, DeepObliviate can also pass the backdoor-based unlearning verification.
翻訳日:2021-05-14 14:04:17 公開日:2021-05-13
# SIDE:私は学びたい国家を推測する

SIDE: I Infer the State I Want to Learn ( http://arxiv.org/abs/2105.06228v1 )

ライセンス: Link先を確認
Zhiwei Xu, Yunpeng Bai, Dapeng Li, Bin Zhang, Guoliang Fan(参考訳) Dec-POMDP問題の解決策の1つとして、近年、値分解法は良い結果を得た。 しかし、ほとんどの値分解法はトレーニング中にグローバル状態を必要とするが、グローバル状態が得られないいくつかのシナリオでは実現不可能である。 そこで我々は, 最適制御と状態推論という2つの問題の解を求めることによって, 真の状態を知る必要性をなくし, 価値分解のための状態推論(side)という新しい価値分解フレームワークを提案する。 SIDEは任意の値分解法や、Dec-POMDPの場合の他の種類のマルチエージェントアルゴリズムにも拡張できる。 starcraft iiのマイクロマネジメントタスクにおける様々なアルゴリズムのパフォーマンス結果に基づいて,過去の局所観測に基づく強化学習プロセスに寄与する現在の状態をサイドが構築できることを確認した。

As one of the solutions to the Dec-POMDP problem, the value decomposition method has achieved good results recently. However, most value decomposition methods require the global state during training, but this is not feasible in some scenarios where the global state cannot be obtained. Therefore, we propose a novel value decomposition framework, named State Inference for value DEcomposition (SIDE), which eliminates the need to know the true state by simultaneously seeking solutions to the two problems of optimal control and state inference. SIDE can be extended to any value decomposition method, as well as other types of multi-agent algorithms in the case of Dec-POMDP. Based on the performance results of different algorithms in Starcraft II micromanagement tasks, we verified that SIDE can construct the current state that contributes to the reinforcement learning process based on past local observations.
翻訳日:2021-05-14 14:03:37 公開日:2021-05-13
# 連続空間の幾何学的モデル検査

Geometric Model Checking of Continuous Space ( http://arxiv.org/abs/2105.06194v1 )

ライセンス: Link先を確認
Nick Bezhanishvili and Vincenzo Ciancia and David Gabelaia and Gianluca Grilletti and Diego Latella and Mieke Massink(参考訳) トポロジカル空間モデルチェックは、モデルチェックとモーダル論理のトポロジカル解釈を組み合わせた最近のパラダイムである。 閉包空間の空間論理(SLCS)は、モーダル論理を到達可能性接続で拡張し、「近く」や「囲まれている」といった興味深い空間特性を表現するのに使用できる。 SLCS は、グラフやデジタル画像などの離散空間を準離散閉包空間として解釈するソリッド論理フレームワークの核を構成する。 特に、SLCSの拡張版を用いた空間モデルチェッカーVoxLogicAは、医用画像の領域でうまく使われている。 しかし、SLCS は離散空間に制限されない。 最近開発されたモーダル論理の幾何学的意味論に従えば、ポリヘドラに基づくモデルに頼ってモデル検査手順を認めることで、連続空間におけるSLCSに解釈を割り当てることが可能であることを示す。 医用画像におけるこのような空間の表現は、メッシュ処理を利用する3Dスキャンと可視化技術の発展により、ますます重要になっている。 我々は、VoxLogicAですでに採用されている最適化手法を継承しつつ、ポリヘドラ上でのSLCS公式の効率的な検証を目的とした新しいツールPolyLogicAによるアプローチの実現可能性を示す。 最後に、双相同性の幾何学的定義を求め、論理同値性を特徴付ける。

Topological Spatial Model Checking is a recent paradigm that combines Model Checking with the topological interpretation of Modal Logic. The Spatial Logic of Closure Spaces, SLCS, extends Modal Logic with reachability connectives that, in turn, can be used for expressing interesting spatial properties, such as "being near to" or "being surrounded by". SLCS constitutes the kernel of a solid logical framework for reasoning about discrete space, such as graphs and digital images, interpreted as quasi discrete closure spaces. In particular, the spatial model checker VoxLogicA, that uses an extended version of SLCS, has been used successfully in the domain of medical imaging. However, SLCS is not restricted to discrete space. Following a recently developed geometric semantics of Modal Logic, we show that it is possible to assign an interpretation to SLCS in continuous space, admitting a model checking procedure, by resorting to models based on polyhedra. In medical imaging such representations of space are increasingly relevant, due to recent developments of 3D scanning and visualisation techniques that exploit mesh processing. We demonstrate feasibility of our approach via a new tool, PolyLogicA, aimed at efficient verification of SLCS formulas on polyhedra, while inheriting some well-established optimization techniques already adopted in VoxLogicA. Finally, we cater for a geometric definition of bisimilarity, proving that it characterises logical equivalence.
翻訳日:2021-05-14 14:03:24 公開日:2021-05-13
# 可逆マルコフ鎖の同一性試験

Identity testing of reversible Markov chains ( http://arxiv.org/abs/2105.06347v1 )

ライセンス: Link先を確認
Sela Fried and Geoffrey Wolfer(参考訳) daskalakisらによって導入された距離概念の下での観測の単一の軌道に基づくマルコフ連鎖の同一性テストの問題を考える。 [2018a]およびChrapanamjeri と Bartlett [2019] によりさらに解析された。 どちらの作品も、検討中のマルコフ連鎖が対称であるという制限的な仮定を与えた。 この研究において、対称性の仮定を可逆性のより自然な仮定に緩和し、参照と未知マルコフ連鎖が同じ定常分布を共有することを仮定する。

We consider the problem of identity testing of Markov chains based on a single trajectory of observations under the distance notion introduced by Daskalakis et al. [2018a] and further analyzed by Cherapanamjeri and Bartlett [2019]. Both works made the restrictive assumption that the Markov chains under consideration are symmetric. In this work we relax the symmetry assumption to the more natural assumption of reversibility, still assuming that both the reference and the unknown Markov chains share the same stationary distribution.
翻訳日:2021-05-14 14:02:22 公開日:2021-05-13
# 低消費電力cpuの適応テスト時間拡張

Adaptive Test-Time Augmentation for Low-Power CPU ( http://arxiv.org/abs/2105.06183v1 )

ライセンス: Link先を確認
Luca Mocerino, Roberto G. Rizzo, Valentino Peluso, Andrea Calimera, Enrico Macii(参考訳) 畳み込みニューラルネットワーク(ConvNets)は、利用可能な数少ないデータを使用してオフラインでトレーニングされるため、予測不可能な外部条件下で受信された未知の入力パターンがモデルを誤解させるようなフィールドへの移植時にかなりの精度の損失を被る可能性がある。 Test-Time Augmentation (TTA) 技術は、推論時にそのような共通副作用を軽減することを目的としており、まず複数のフィードフォワードパスを同じ入力サンプルの一連の変更バージョンで実行し、次に集約された予測のコンセンサスを通じて主要な結果を計算する。 残念なことに、組み込みCPUへのTTAの実装は、エッジアプリケーションへの採用を制限する遅延ペナルティを導入している。 本稿では、入力の複雑さに応じてフィードフォワードパス数を動的に制御するTTAの適応的実装であるAdapTTAを提案する。 商用のARM Cortex-A CPU上に展開された画像分類のための最先端のConvNetの実験結果は、AdapTTAが1.49Xから2.21Xまでの驚くべきレイテンシの節約を達成したことを実証している。

Convolutional Neural Networks (ConvNets) are trained offline using the few available data and may therefore suffer from substantial accuracy loss when ported on the field, where unseen input patterns received under unpredictable external conditions can mislead the model. Test-Time Augmentation (TTA) techniques aim to alleviate such common side effect at inference-time, first running multiple feed-forward passes on a set of altered versions of the same input sample, and then computing the main outcome through a consensus of the aggregated predictions. Unfortunately, the implementation of TTA on embedded CPUs introduces latency penalties that limit its adoption on edge applications. To tackle this issue, we propose AdapTTA, an adaptive implementation of TTA that controls the number of feed-forward passes dynamically, depending on the complexity of the input. Experimental results on state-of-the-art ConvNets for image classification deployed on a commercial ARM Cortex-A CPU demonstrate AdapTTA reaches remarkable latency savings, from 1.49X to 2.21X, and hence a higher frame rate compared to static TTA, still preserving the same accuracy gain.
翻訳日:2021-05-14 14:02:15 公開日:2021-05-13
# CT画像と臨床データを用いたハイブリッド機械学習/深層学習型COVID-19重症度予測モデル

A hybrid machine learning/deep learning COVID-19 severity predictive model from CT images and clinical data ( http://arxiv.org/abs/2105.06141v1 )

ライセンス: Link先を確認
Matteo Chieregato, Fabio Frangiamore, Mauro Morassi, Claudia Baresi, Stefania Nici, Chiara Bassetti, Claudio Bn\`a and Marco Galelli(参考訳) 新型コロナウイルス(covid-19)の臨床症状と予後は、無症候性および側頭症から急性呼吸窮迫症候群、多臓器関与まで、非常に多様である。 我々は,2020年2月~5月にイタリア北部の病院で入院した558人の患者を用いて,非ICUとICUの2つの結果カテゴリーに分類するハイブリッド機械学習/深層学習モデルを開発した。 ベースラインCT画像上のフル3次元患者レベルCNN分類器を特徴抽出器として用いる。 実験データや臨床データとともに抽出された特徴は、shapゲーム理論値を持つborutaアルゴリズムで選択するために供給される。 CatBoostグラデーションブースティングアルゴリズムを用いて、縮小された特徴空間上に分類器を構築し、ホールドアウトテストセットで0.949の確率 AUC に達する。 本モデルは,臨床診断を医師に提供し,結果クラスに属する確率スコアと特徴のケースベースSHAPによる解釈を提供することを目的としている。

COVID-19 clinical presentation and prognosis are highly variable, ranging from asymptomatic and paucisymptomatic cases to acute respiratory distress syndrome and multi-organ involvement. We developed a hybrid machine learning/deep learning model to classify patients in two outcome categories, non-ICU and ICU (intensive care admission or death), using 558 patients admitted in a northern Italy hospital in February/May of 2020. A fully 3D patient-level CNN classifier on baseline CT images is used as feature extractor. Features extracted, alongside with laboratory and clinical data, are fed for selection in a Boruta algorithm with SHAP game theoretical values. A classifier is built on the reduced feature space using CatBoost gradient boosting algorithm and reaching a probabilistic AUC of 0.949 on holdout test set. The model aims to provide clinical decision support to medical doctors, with the probability score of belonging to an outcome class and with case-based SHAP interpretation of features importance.
翻訳日:2021-05-14 14:01:54 公開日:2021-05-13
# HyKnow: ハイブリッド知識管理によるタスク指向対話モデリング

HyKnow: End-to-End Task-Oriented Dialog Modeling with Hybrid Knowledge Management ( http://arxiv.org/abs/2105.06041v1 )

ライセンス: Link先を確認
Silin Gao, Ryuichi Takanobu, Wei Peng, Qun Liu, Minlie Huang(参考訳) タスク指向対話(TOD)システムは通常、構造化知識(例)を管理する。 目標指向の会話をガイドするオントロジーとデータベース)。 しかし、それらは非構造化知識(例えば、)に基づくダイアログの処理に不足している。 レビューと文書)。 本稿では,構造化知識と非構造化知識の両方に基づくTODモデリングの課題を定式化する。 この課題に対処するため,ハイブリッドな知識管理を行うTODシステムHyKnowを提案する。 これは、構造化知識と非構造化知識の両方を管理するための信念状態を拡張し、これらの2種類の知識に基づいてダイアログモデリングを協調的に最適化する最初のエンドツーエンドモデルである。 我々はMultiWOZ 2.1データセットの修正版について実験を行い、ダイアログはハイブリッド知識に基づく。 実験の結果,HyKnowは既存のTODシステムと比較して,エンドツーエンドの性能が強いことがわかった。 また、パイプライン知識管理スキームよりも優れ、非構造化知識の精度が高い。

Task-oriented dialog (TOD) systems typically manage structured knowledge (e.g. ontologies and databases) to guide the goal-oriented conversations. However, they fall short of handling dialog turns grounded on unstructured knowledge (e.g. reviews and documents). In this paper, we formulate a task of modeling TOD grounded on both structured and unstructured knowledge. To address this task, we propose a TOD system with hybrid knowledge management, HyKnow. It extends the belief state to manage both structured and unstructured knowledge, and is the first end-to-end model that jointly optimizes dialog modeling grounded on these two kinds of knowledge. We conduct experiments on the modified version of MultiWOZ 2.1 dataset, where dialogs are grounded on hybrid knowledge. Experimental results show that HyKnow has strong end-to-end performance compared to existing TOD systems. It also outperforms the pipeline knowledge management schemes, with higher unstructured knowledge retrieval accuracy.
翻訳日:2021-05-14 14:00:49 公開日:2021-05-13
# 言語にインスパイアされたグラフ分析

Linguistic Inspired Graph Analysis ( http://arxiv.org/abs/2105.06216v1 )

ライセンス: Link先を確認
Andrew Broekman and Linda Marshall(参考訳) 同型(isomorphisms)は、人間の認識によって、ある領域から別の領域に潜在的に解決不能な問題を書き起こせるようにする。 現在のアプローチでは、ソースからターゲット構造への構造情報の書き起こしにのみ焦点をあて、意味的および実用的情報を無視する。 関数型言語理論は、言語の分類と理解のための5つのサブコンストラクタを提供する。 言語学とグラフ理論のメタモデル間のマッピングを導出することにより、現在、意味的および実用的情報の表現のための標準グラフに構築物は存在しないことが示される。 同型が意味的および実用的情報をキャプチャできるようにするために、グラフのエンリッチメントの方法を理解するために、さらなる作業が必要であることが判明した。 この追加情報の取得は、ソース構造に対する理解と、含んでいる関係の操作と尋問の強化につながる可能性がある。 一般的な定義における現在の数学的グラフ構造は、ソースのより高い情報レベルの表現を許さない。

Isomorphisms allow human cognition to transcribe a potentially unsolvable problem from one domain to a different domain where the problem might be more easily addressed. Current approaches only focus on transcribing structural information from the source to target structure, ignoring semantic and pragmatic information. Functional Language Theory presents five subconstructs for the classification and understanding of languages. By deriving a mapping between the metamodels in linguistics and graph theory it will be shown that currently, no constructs exist in canonical graphs for the representation of semantic and pragmatic information. It is found that further work needs to be done to understand how graphs can be enriched to allow for isomorphisms to capture semantic and pragmatic information. This capturing of additional information could lead to understandings of the source structure and enhanced manipulations and interrogations of the contained relationships. Current mathematical graph structures in their general definition do not allow for the expression of higher information levels of a source.
翻訳日:2021-05-14 14:00:37 公開日:2021-05-13
# 野生におけるブラインド顔修復のためのGANプリエンベッドネットワーク

GAN Prior Embedded Network for Blind Face Restoration in the Wild ( http://arxiv.org/abs/2105.06070v1 )

ライセンス: Link先を確認
Tao Yang (1), Peiran Ren (1), Xuansong Xie (1) and Lei Zhang (1 and 2) ((1) DAMO Academy, Alibaba Group, (2) Department of Computing, The Hong Kong Polytechnic University)(参考訳) 野生のひどく劣化した顔画像からのブラインド顔復元(BFR)は非常に難しい問題である。 問題の高い疾患と複雑な未知の劣化のため、ディープニューラルネットワーク(DNN)を直接トレーニングすることは、通常は許容できる結果をもたらすことができない。 既存のgenerative adversarial network (gan) ベースの手法は、より良い結果を生み出すが、過剰な回復をもたらす傾向がある。 本研究では,まず高品質の顔画像生成のためのganを学習し,それを先行デコーダとしてu字型dnnに埋め込み,合成された低品質顔画像を用いてganプリエントdnnを微調整する手法を提案する。 GANブロックは、GANに入力された潜時符号とノイズが、DNNの深い特徴と浅い特徴からそれぞれ生成され、大域的な顔構造、局所的な顔の詳細および再構成画像の背景を制御するように設計されている。 提案したGPEN (GPEN) は実装が容易であり, 視覚的に写真リアルな結果を生成することができる。 実験により,提案したGPENは,最先端のBFR法において,定量的かつ定性的に,特に野生の高度に劣化した顔画像の復元において,極めて優れた結果が得られることが示された。 ソースコードとモデルはhttps://github.com/y angxy/GPENで確認できる。

Blind face restoration (BFR) from severely degraded face images in the wild is a very challenging problem. Due to the high illness of the problem and the complex unknown degradation, directly training a deep neural network (DNN) usually cannot lead to acceptable results. Existing generative adversarial network (GAN) based methods can produce better results but tend to generate over-smoothed restorations. In this work, we propose a new method by first learning a GAN for high-quality face image generation and embedding it into a U-shaped DNN as a prior decoder, then fine-tuning the GAN prior embedded DNN with a set of synthesized low-quality face images. The GAN blocks are designed to ensure that the latent code and noise input to the GAN can be respectively generated from the deep and shallow features of the DNN, controlling the global face structure, local face details and background of the reconstructed image. The proposed GAN prior embedded network (GPEN) is easy-to-implement, and it can generate visually photo-realistic results. Our experiments demonstrated that the proposed GPEN achieves significantly superior results to state-of-the-art BFR methods both quantitatively and qualitatively, especially for the restoration of severely degraded face images in the wild. The source code and models can be found at https://github.com/y angxy/GPEN.
翻訳日:2021-05-14 13:59:36 公開日:2021-05-13
# TAR:弱監視学習を用いたディープフェイク検出のための一般化された法医学的枠組み

TAR: Generalized Forensic Framework to Detect Deepfakes using Weakly Supervised Learning ( http://arxiv.org/abs/2105.06117v1 )

ライセンス: Link先を確認
Sangyup Lee, Shahroz Tariq, Junyaup Kim, and Simon S. Woo(参考訳) ディープフェイクは重要な社会問題となり、それらを検出することが最も重要である。 また, ディープフェイク生成法が進歩し, 検出が困難になっている。 多くのディープフェイク検出モデルは異なるタイプのディープフェイクを別々に検出できるが、複数のタイプのディープフェイクに対する検出性能の一般化には不十分である。 これは、様々な種類のディープフェイクを検出する一般化されたモデルを開発する動機となる。 そこで本研究では,異なるタイプのディープフェイクを同時に検出する実用的なデジタル法医学ツールを導入し,Residualsを用いたTransfer Learning-based Autoencoderを提案する。 私たちの研究の最終的な目標は、現実世界の環境でうまく機能する少数のトレーニングサンプルだけで、様々な種類のディープフェイクビデオを高精度に検出する統一モデルを開発することです。 本研究では,残差ブロックを用いたオートエンコーダに基づく検出モデルを開発し,異なるタイプのディープフェイクを同時に検出するトランスファー学習を行う。 提案手法はFaceForensics++データセットの最先端手法よりもはるかに高い汎用検出性能を実現する。 さらに、インターネット上で利用可能な50人の有名人による200の現実世界のDeepfake-in-the-Wild (DW)ビデオ上でモデルを評価し、89.49%のゼロショット精度を実現した。

Deepfakes have become a critical social problem, and detecting them is of utmost importance. Also, deepfake generation methods are advancing, and it is becoming harder to detect. While many deepfake detection models can detect different types of deepfakes separately, they perform poorly on generalizing the detection performance over multiple types of deepfake. This motivates us to develop a generalized model to detect different types of deepfakes. Therefore, in this work, we introduce a practical digital forensic tool to detect different types of deepfakes simultaneously and propose Transfer learning-based Autoencoder with Residuals (TAR). The ultimate goal of our work is to develop a unified model to detect various types of deepfake videos with high accuracy, with only a small number of training samples that can work well in real-world settings. We develop an autoencoder-based detection model with Residual blocks and sequentially perform transfer learning to detect different types of deepfakes simultaneously. Our approach achieves a much higher generalized detection performance than the state-of-the-art methods on the FaceForensics++ dataset. In addition, we evaluate our model on 200 real-world Deepfake-in-the-Wild (DW) videos of 50 celebrities available on the Internet and achieve 89.49% zero-shot accuracy, which is significantly higher than the best baseline model (gaining 10.77%), demonstrating and validating the practicability of our approach.
翻訳日:2021-05-14 13:59:03 公開日:2021-05-13
# 人間のポーズ推定がロバスト性を満たすとき - 逆アルゴリズムとベンチマーク

When Human Pose Estimation Meets Robustness: Adversarial Algorithms and Benchmarks ( http://arxiv.org/abs/2105.06152v1 )

ライセンス: Link先を確認
Jiahang Wang, Sheng Jin, Wentao Liu, Weizhong Liu, Chen Qian, Ping Luo(参考訳) 人間のポーズ推定は、人間の解剖学的キーポイントのローカライズを目的とした、コンピュータビジョンにおける基本的な課題である。 しかし、ぼかしやピクセル化のような様々なデータ破損に対して堅牢な人間のビジョンとは異なり、現在のポーズ推定器はこれらの腐敗によって容易に混乱する。 本研究は,現在の先進的なポーズ推定器の弱点を評価するために,coco-c,mpii-c,ochum an-cと呼ばれる厳密なロバストなベンチマークを構築し,この問題を包括的に研究し,解決する。 私たちの仕事はいくつかの独特な利点があります。 1)AdvMixはモデルに依存しず,ポーズ推定モデルの範囲が広い。 2)AdvMixは対向的な増量と知識蒸留からなる。 敵対的拡張は、2つのニューラルネットワークモジュールを共謀的に競合的に訓練し、生成ネットワークは異なる劣化した画像を混合してポーズ推定器を混乱させ、より厳しいサンプルから学習することでポーズ推定器の堅牢性を向上させる。 対向拡大によるノイズパターンの補償のために、クリーンポーズ構造知識を目標ポーズ推定器に転送するために知識蒸留を適用する。 (3)AdvMixは,さまざまなベンチマークデータセットにおいて,クリーンなデータの精度を維持しつつ,さまざまな汚職におけるポーズ推定の堅牢性を大幅に向上することを示した。

Human pose estimation is a fundamental yet challenging task in computer vision, which aims at localizing human anatomical keypoints. However, unlike human vision that is robust to various data corruptions such as blur and pixelation, current pose estimators are easily confused by these corruptions. This work comprehensively studies and addresses this problem by building rigorous robust benchmarks, termed COCO-C, MPII-C, and OCHuman-C, to evaluate the weaknesses of current advanced pose estimators, and a new algorithm termed AdvMix is proposed to improve their robustness in different corruptions. Our work has several unique benefits. (1) AdvMix is model-agnostic and capable in a wide-spectrum of pose estimation models. (2) AdvMix consists of adversarial augmentation and knowledge distillation. Adversarial augmentation contains two neural network modules that are trained jointly and competitively in an adversarial manner, where a generator network mixes different corrupted images to confuse a pose estimator, improving the robustness of the pose estimator by learning from harder samples. To compensate for the noise patterns by adversarial augmentation, knowledge distillation is applied to transfer clean pose structure knowledge to the target pose estimator. (3) Extensive experiments show that AdvMix significantly increases the robustness of pose estimations across a wide range of corruptions, while maintaining accuracy on clean data in various challenging benchmark datasets.
翻訳日:2021-05-14 13:58:37 公開日:2021-05-13
# TransferI2I:小さなデータセットからの画像間変換のためのトランスファー学習

TransferI2I: Transfer Learning for Image-to-Image Translation from Small Datasets ( http://arxiv.org/abs/2105.06219v1 )

ライセンス: Link先を確認
Yaxing Wang, Hector Laria Mantecon, Joost van de WeijerLaura Lopez-Fuentes, Bogdan Raducanu(参考訳) 画像から画像への変換(I2I)は近年成熟しており、高品質なリアルな画像を生成することができる。 しかし、現在の成功にもかかわらず、小さなドメインに適用する場合、依然として重要な課題に直面している。 既存の方法はi2i翻訳に転送学習を使用するが、それでも数百万のパラメータをスクラッチから学習する必要がある。 この欠点は、小さなドメインへの適用を厳しく制限する。 本稿では,I2I翻訳のための新しいトランスファー学習(TransferI2I)を提案する。 学習プロセスを画像生成ステップとI2I翻訳ステップに分離する。 最初のステップでは、ソースターゲットの初期化とアダプタ層の自己初期化という2つの新しい手法を提案する。 前者は、ソースおよびターゲットデータに対して事前訓練された生成モデル(例えばstylegan)を微調整する。 後者では、データを必要としないネットワークパラメータを初期化することができる。 これらの技術は、I2I翻訳ステップのより優れた初期化を提供する。 さらに,小データセットからでも深部I2Iシステムのトレーニングを容易にする補助的なGANを導入する。 3つのデータセット(Animal face, Birds, Foods)の広範な実験では、既存の手法よりも優れており、mFIDは25以上の点を持つ複数のデータセットで改善されている。

Image-to-image (I2I) translation has matured in recent years and is able to generate high-quality realistic images. However, despite current success, it still faces important challenges when applied to small domains. Existing methods use transfer learning for I2I translation, but they still require the learning of millions of parameters from scratch. This drawback severely limits its application on small domains. In this paper, we propose a new transfer learning for I2I translation (TransferI2I). We decouple our learning process into the image generation step and the I2I translation step. In the first step we propose two novel techniques: source-target initialization and self-initialization of the adaptor layer. The former finetunes the pretrained generative model (e.g., StyleGAN) on source and target data. The latter allows to initialize all non-pretrained network parameters without the need of any data. These techniques provide a better initialization for the I2I translation step. In addition, we introduce an auxiliary GAN that further facilitates the training of deep I2I systems even from small datasets. In extensive experiments on three datasets, (Animal faces, Birds, and Foods), we show that we outperform existing methods and that mFID improves on several datasets with over 25 points.
翻訳日:2021-05-14 13:58:11 公開日:2021-05-13
# VSR:ビジョン,セマンティックス,関係性を組み合わせたドキュメントレイアウト分析のための統一フレームワーク

VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations ( http://arxiv.org/abs/2105.06220v1 )

ライセンス: Link先を確認
Peng Zhang and Can Li and Liang Qiao and Zhanzhan Cheng and Shiliang Pu and Yi Niu and Fei Wu(参考訳) 文書構造を理解するには文書レイアウト解析が不可欠である。 このタスクでは、ドキュメントのビジョンとセマンティクス、レイアウトコンポーネント間の関係が理解プロセスに寄与します。 上記の情報を利用するために多くの研究が提案されているが、不十分な結果を示している。 nlpベースのメソッド シーケンスラベリングタスクとしてモデルレイアウト解析を行い、レイアウトモデリングにおいて不十分な能力を示す。 CV-based method model layout analysis as a detection or segmentation task but bear limit of in efficient modality fusion and lack of relation modeling between layout components。 上記の制約に対処するために,視覚,意味論,関係性を組み合わせた文書レイアウト解析のための統合フレームワークVSRを提案する。 VSRはNLPベースの方法とCVベースの方法の両方をサポートしている。 具体的には、まず、テキスト埋め込みマップによる文書画像と意味論によるビジョンを紹介する。 次に、相補的な情報をフル活用するために適応的に融合された2つのストリームネットワークを用いて、様相特異的な視覚的および意味的特徴を抽出する。 最後に、コンポーネント候補が与えられた場合、グラフニューラルネットワークに基づく関係モジュールは、コンポーネント間の関係をモデル化し、最終結果を出力する。 3つの人気のあるベンチマークで、VSRは以前のモデルよりも大きなマージンで性能を上げた。 コードはまもなくリリースされる。

Document layout analysis is crucial for understanding document structures. On this task, vision and semantics of documents, and relations between layout components contribute to the understanding process. Though many works have been proposed to exploit the above information, they show unsatisfactory results. NLP-based methods model layout analysis as a sequence labeling task and show insufficient capabilities in layout modeling. CV-based methods model layout analysis as a detection or segmentation task, but bear limitations of inefficient modality fusion and lack of relation modeling between layout components. To address the above limitations, we propose a unified framework VSR for document layout analysis, combining vision, semantics and relations. VSR supports both NLP-based and CV-based methods. Specifically, we first introduce vision through document image and semantics through text embedding maps. Then, modality-specific visual and semantic features are extracted using a two-stream network, which are adaptively fused to make full use of complementary information. Finally, given component candidates, a relation module based on graph neural network is incorported to model relations between components and output final results. On three popular benchmarks, VSR outperforms previous models by large margins. Code will be released soon.
翻訳日:2021-05-14 13:57:55 公開日:2021-05-13
# LGPMA: 局所およびグローバルピラミッドマスクアライメントを用いたテーブル構造認識

LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment ( http://arxiv.org/abs/2105.06224v1 )

ライセンス: Link先を確認
Liang Qiao and Zaisheng Li and Zhanzhan Cheng and Peng Zhang and Shiliang Pu and Yi Niu and Wenqi Ren and Wenming Tan and Fei Wu(参考訳) テーブル構造認識は、様々な構造と複雑な細胞間関係のために難しい課題である。 それまでの方法では、異なる粒度の要素(バラやコラム、テキスト領域)から始まる問題に対処していましたが、それは何らかの形で、ヒューリスティックなルールの喪失や、空の細胞分裂の無視といった問題に陥りました。 表構造特性に基づいて,テキスト領域のアラインドバウンディングボックスを取得することで,関連するセルの範囲全体を効果的に維持できることがわかった。 しかし,視覚のあいまいさから,アライメントされた境界ボックスを正確に予測することは困難である。 本稿では,提案するローカル特徴とグローバル特徴のセル関係の両テキスト領域からの視覚情報を完全に活用して,より信頼性の高いアライメント境界ボックスを実現することを目的とする。 具体的には、局所的およびグローバル的ピラミッドマスクアライメントの枠組みを提案し、局所的およびグローバル的特徴マップにソフトピラミッドマスク学習機構を採用する。 これにより、予測される境界ボックスの境界は、元の提案の制限を突破することができる。 その後、ピラミッドマスクの再装飾モジュールが統合され、ローカルおよびグローバル情報を侵害し、予測された境界を洗練する。 最後に, 最終構造を得るための頑健なテーブル構造回復パイプラインを提案し, 空のセルの位置と分割の問題を効果的に解決する。 実験結果から,提案手法は,いくつかの公開ベンチマークにおいて,競争力および新たな最先端性能を実現することが示された。

Table structure recognition is a challenging task due to the various structures and complicated cell spanning relations. Previous methods handled the problem starting from elements in different granularities (rows/columns, text regions), which somehow fell into the issues like lossy heuristic rules or neglect of empty cell division. Based on table structure characteristics, we find that obtaining the aligned bounding boxes of text region can effectively maintain the entire relevant range of different cells. However, the aligned bounding boxes are hard to be accurately predicted due to the visual ambiguities. In this paper, we aim to obtain more reliable aligned bounding boxes by fully utilizing the visual information from both text regions in proposed local features and cell relations in global features. Specifically, we propose the framework of Local and Global Pyramid Mask Alignment, which adopts the soft pyramid mask learning mechanism in both the local and global feature maps. It allows the predicted boundaries of bounding boxes to break through the limitation of original proposals. A pyramid mask re-scoring module is then integrated to compromise the local and global information and refine the predicted boundaries. Finally, we propose a robust table structure recovery pipeline to obtain the final structure, in which we also effectively solve the problems of empty cells locating and division. Experimental results show that the proposed method achieves competitive and even new state-of-the-art performance on several public benchmarks.
翻訳日:2021-05-14 13:57:36 公開日:2021-05-13
# シーンテキスト認識における明示的タスクと暗黙的タスクによる相互特徴学習

Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene Text Recognition ( http://arxiv.org/abs/2105.06229v1 )

ライセンス: Link先を確認
Hui Jiang and Yunlu Xu and Zhanzhan Cheng and Shiliang Pu and Yi Niu and Wenqi Ren and Fei Wu and Wenming Tan(参考訳) テキスト認識は幅広い用途で人気のあるトピックである。 本研究では,従来のテキスト認識における文字数という暗黙的な課題を,追加の作業注記コストを伴わずに発掘する。 暗黙的タスクはシーケンシャル認識を補完する補助ブランチとして機能する。 両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。 明示的なタスクと暗黙的なタスクの補完効果を活用することで、この機能は確実に強化される。 7つのベンチマークの大規模な実験は、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点を示している。 さらに、可変ネットワークやタスクを備えるのも便利だが効果的である。 我々はアブレーション研究を豊富に行い,課題を深く理解した実験を一般化する。 コードは利用可能。

Text recognition is a popular topic for its broad applications. In this work, we excavate the implicit task, character counting within the traditional text recognition, without additional labor annotation cost. The implicit task plays as an auxiliary branch for complementing the sequential recognition. We design a two-branch reciprocal feature learning framework in order to adequately utilize the features from both the tasks. Through exploiting the complementary effect between explicit and implicit tasks, the feature is reliably enhanced. Extensive experiments on 7 benchmarks show the advantages of the proposed methods in both text recognition and the new-built character counting tasks. In addition, it is convenient yet effective to equip with variable networks and tasks. We offer abundant ablation studies, generalizing experiments with deeper understanding on the tasks. Code is available.
翻訳日:2021-05-14 13:57:13 公開日:2021-05-13
# フレームスキッピングとコントラスト強化による顔面マクロ・マイクロ圧縮スポッティングの高効率軽量3D-CNN

Efficient Lightweight 3D-CNN using Frame Skipping and Contrast Enhancement for Facial Macro- and Micro-expression Spotting ( http://arxiv.org/abs/2105.06340v1 )

ライセンス: Link先を確認
Chuin Hong Yap, Moi Hoon Yap, Adrian K. Davison, Ryan Cunningham(参考訳) マイクロ表現スポッティング(micro-expression spotting)は、過剰な偽陽性を避けるため、任意のマイクロ表現関連分析の予備段階である。 マクロ表現とマイクロ表現の時間差を生かした,効率的な軽量なマクロ表現とマイクロ表現のスポッティング手法を提案する。 フレームスキップ, 局所コントラスト正規化, 奥行き分離可能な畳み込み, 残差接続を用いて, フレームスキッピングとコントラストエンハンスメント(EL-FACE)を用いた高効率軽量3次元畳み込みネットワークを構築した。 我々のモデルはSAMM Long Videosの最先端性能を実現し,CAS(ME)2データセットの競争力を維持した。

Micro-expression spotting is the preliminary step for any micro-expression related analysis to avoid excessive false positives. We propose an efficient lightweight macro- and micro-expression spotting method which takes advantage of the duration differences of macro- and micro-expressions. Using effective frame skips, local contrast normalisation, depthwise separable convolutions and residual connections, we construct Efficient Lightweight 3D-Convolutional Network using Frame Skipping and Contrast Enhancement (EL-FACE) for the micro-expression spotting task. Our model achieves state-of-the-art performance in SAMM Long Videos and remained competitive in the CAS(ME)2 dataset.
翻訳日:2021-05-14 13:57:01 公開日:2021-05-13
# トランスを用いた高分解能複合シーン合成

High-Resolution Complex Scene Synthesis with Transformers ( http://arxiv.org/abs/2105.06458v1 )

ライセンス: Link先を確認
Manuel Jahn and Robin Rombach and Bj\"orn Ommer(参考訳) 複雑なシーン画像の深い生成モデルによる制御可能な合成に粗い粒度のレイアウトを用いることが近年人気を集めている。 しかし、現在のアプローチの結果は、高分解能合成の約束に届かない。 これは主に、補助的な損失やマスクジェネレータのような中間ステップに依存するこれらのアプローチの高度に設計された性質によるものであると仮定する。 本稿では,この課題に対する直交的アプローチについて述べる。 そこで我々はまず,個別の遅延ボトルネックによる入力の再構成を学習し,テクスチャなどの高周波の詳細の潜在表現を効果的に除去する強力な圧縮モデルを提案する。 その後、自己回帰トランスフォーマーモデルを訓練し、トークン化されたレイアウトで条件付けられた離散画像表現の分布を学習する。 提案手法は,与えられたレイアウトに整合した高品質画像を合成できることを示す。 特に,COCO-StuffおよびVisual Genomeの最先端FIDスコアを最大19%,53%向上させ,COCOおよびOpen Imagesの512×512pxまでの画像合成を実証した。

The use of coarse-grained layouts for controllable synthesis of complex scene images via deep generative models has recently gained popularity. However, results of current approaches still fall short of their promise of high-resolution synthesis. We hypothesize that this is mostly due to the highly engineered nature of these approaches which often rely on auxiliary losses and intermediate steps such as mask generators. In this note, we present an orthogonal approach to this task, where the generative model is based on pure likelihood training without additional objectives. To do so, we first optimize a powerful compression model with adversarial training which learns to reconstruct its inputs via a discrete latent bottleneck and thereby effectively strips the latent representation of high-frequency details such as texture. Subsequently, we train an autoregressive transformer model to learn the distribution of the discrete image representations conditioned on a tokenized version of the layouts. Our experiments show that the resulting system is able to synthesize high-quality images consistent with the given layouts. In particular, we improve the state-of-the-art FID score on COCO-Stuff and on Visual Genome by up to 19% and 53% and demonstrate the synthesis of images up to 512 x 512 px on COCO and Open Images.
翻訳日:2021-05-14 13:56:23 公開日:2021-05-13
# 仮想トライオンのための生成3次元ガーメントモデルによる自己監督型衝突処理

Self-Supervised Collision Handling via Generative 3D Garment Models for Virtual Try-On ( http://arxiv.org/abs/2105.06462v1 )

ライセンス: Link先を確認
Igor Santesteban, Nils Thuerey, Miguel A. Otaduy, Dan Casas(参考訳) 本研究では, 仮想試行錯誤を効果的に処理するデータ駆動型仮想試行法を, 初めて学習できる新しい3次元衣服変形生成モデルを提案する。 テスト時に被服体間を固定するために不要な後処理ステップを必要とする既存の手法とは対照的に,本手法では被服体と衝突しない3D衣服構成を直接出力する。 私たちの成功の鍵は、新しい拡散人体モデルによって既に捕獲されたポーズと形状の変形を除去し、肌の重みやブレンド形状などの体表面特性を任意の3dポイントに推定する、衣料の新たな標準空間です。 我々は,この表現を活用して,衣服本体の相互接続を確実に解き明かす新しい自己教師型衝突項で生成モデルを訓練する。 本研究では,最近提案したデータ駆動手法と比較し,本手法が現実性や細部を損なうことなく,不明瞭な身体形状や動きの身体接触に対処する最初の方法であることを示す。

We propose a new generative model for 3D garment deformations that enables us to learn, for the first time, a data-driven method for virtual try-on that effectively addresses garment-body collisions. In contrast to existing methods that require an undesirable postprocessing step to fix garment-body interpenetrations at test time, our approach directly outputs 3D garment configurations that do not collide with the underlying body. Key to our success is a new canonical space for garments that removes pose-and-shape deformations already captured by a new diffused human body model, which extrapolates body surface properties such as skinning weights and blendshapes to any 3D point. We leverage this representation to train a generative model with a novel self-supervised collision term that learns to reliably solve garment-body interpenetrations. We extensively evaluate and compare our results with recently proposed data-driven methods, and show that our method is the first to successfully address garment-body contact in unseen body shapes and motions, without compromising realism and detail.
翻訳日:2021-05-14 13:56:02 公開日:2021-05-13
# クロスビデオを用いた画像表現のコントラスト学習

Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency ( http://arxiv.org/abs/2105.06463v1 )

ライセンス: Link先を確認
Haiping Wu, Xiaolong Wang(参考訳) 最近の研究は、自己指導型表現学習の性能を大きなマージンで向上させてきた。 これらの方法の核心は画像内不変性学習である。 1つの画像インスタンスの2つの異なる変換は正のサンプルペアと見なされ、様々なタスクはペアを比較して不変表現を学ぶように設計されている。 アナロジー的には、ビデオデータの場合、同じビデオのフレームの表現は他のビデオのフレームよりも近いように訓練される。 ビデオ内不変性。 しかし,視覚表現学習ではビデオ間関係がほとんど研究されていない。 ビデオ内不変性とは異なり、ビデオ間関係の地道ラベルは通常、人間の労力なしでは利用できない。 本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。 これにより、さまざまなビデオインスタンスにまたがってポジティブなサンプルペアを収集することが可能になります。 提案手法は,視覚物体追跡,画像分類,行動認識など,複数の下流タスクに画像表現を転送することで検証する。 我々は、最先端のコントラスト学習法よりも大幅に改善した。 プロジェクトページはhttps://happywu.gith ub.io/cycle_contrast _videoで閲覧できる。

Recent works have advanced the performance of self-supervised representation learning by a large margin. The core among these methods is intra-image invariance learning. Two different transformations of one image instance are considered as a positive sample pair, where various tasks are designed to learn invariant representations by comparing the pair. Analogically, for video data, representations of frames from the same video are trained to be closer than frames from other videos, i.e. intra-video invariance. However, cross-video relation has barely been explored for visual representation learning. Unlike intra-video invariance, ground-truth labels of cross-video relation is usually unavailable without human labors. In this paper, we propose a novel contrastive learning method which explores the cross-video relation by using cycle-consistency for general image representation learning. This allows to collect positive sample pairs across different video instances, which we hypothesize will lead to higher-level semantics. We validate our method by transferring our image representation to multiple downstream tasks including visual object tracking, image classification, and action recognition. We show significant improvement over state-of-the-art contrastive learning methods. Project page is available at https://happywu.gith ub.io/cycle_contrast _video.
翻訳日:2021-05-14 13:55:42 公開日:2021-05-13
# 双方向フィードバッククロース-要素関係ネットワークを用いたクロスドメイン契約要素抽出

Cross-Domain Contract Element Extraction with a Bi-directional Feedback Clause-Element Relation Network ( http://arxiv.org/abs/2105.06083v1 )

ライセンス: Link先を確認
Zihan Wang, Hongye Song, Zhaochun Ren, Pengjie Ren, Zhumin Chen, Xiaozhong Liu, Hongsong Li, Maarten de Rijke(参考訳) 契約要素抽出(CEE)は、契約日、支払い、契約からの法律参照などの法的に関係のある要素を自動的に識別し、抽出する新しいタスクである。 このタスクの自動メソッドは、シーケンスラベリング問題と見なし、人的労力を劇的に削減する。 しかしながら、契約のジャンルや要素のタイプが多種多様であるため、このシーケンスラベリングタスクの重要な課題は、あるドメインから別のドメイン、すなわちクロスドメインceeへの知識の転送方法である。 ドメイン間CEEは2つの重要な方法でドメイン間の名前付きエンティティ認識(NER)とは異なる。 まず、コントラクト要素は名前付きエンティティよりもはるかにきめの細かい要素であり、抽出子の転送を妨げる。 第2に、クロスドメインCEEの抽出ゾーンはクロスドメインNERよりもはるかに大きい。 その結果、異なるドメインの要素のコンテキストはより多様になる。 上記の課題に対処するクロスドメインCEEタスクに対して、双方向フィードバックcLause-Element relaTionネットワーク(Bi-FLEET)を提案する。 Bi-FLEETには、(1)コンテキストエンコーダ、(2)節-要素関係エンコーダ、(3)推論層という3つの主要なコンポーネントがある。 要素タイプと節タイプに関する不変知識を組み込むため、節要素グラフをドメイン間で構成し、節要素関係エンコーダに階層グラフニューラルネットワークを採用する。 文脈変動の影響を低減するため、双方向フィードバックスキームを有するマルチタスクフレームワークを推論層に設計し、節分類と要素抽出の両方を行う。 クロスドメインNERとCEEの両方のタスクに対する実験結果から、Bi-FLEETは最先端のベースラインを大きく上回ることが示された。

Contract element extraction (CEE) is the novel task of automatically identifying and extracting legally relevant elements such as contract dates, payments, and legislation references from contracts. Automatic methods for this task view it as a sequence labeling problem and dramatically reduce human labor. However, as contract genres and element types may vary widely, a significant challenge for this sequence labeling task is how to transfer knowledge from one domain to another, i.e., cross-domain CEE. Cross-domain CEE differs from cross-domain named entity recognition (NER) in two important ways. First, contract elements are far more fine-grained than named entities, which hinders the transfer of extractors. Second, the extraction zones for cross-domain CEE are much larger than for cross-domain NER. As a result, the contexts of elements from different domains can be more diverse. We propose a framework, the Bi-directional Feedback cLause-Element relaTion network (Bi-FLEET), for the cross-domain CEE task that addresses the above challenges. Bi-FLEET has three main components: (1) a context encoder, (2) a clause-element relation encoder, and (3) an inference layer. To incorporate invariant knowledge about element and clause types, a clause-element graph is constructed across domains and a hierarchical graph neural network is adopted in the clause-element relation encoder. To reduce the influence of context variations, a multi-task framework with a bi-directional feedback scheme is designed in the inference layer, conducting both clause classification and element extraction. The experimental results over both cross-domain NER and CEE tasks show that Bi-FLEET significantly outperforms state-of-the-art baselines.
翻訳日:2021-05-14 13:55:24 公開日:2021-05-13
# ソーシャルグッドのための会話型AIシステム:機会と課題

Conversational AI Systems for Social Good: Opportunities and Challenges ( http://arxiv.org/abs/2105.06457v1 )

ライセンス: Link先を確認
Peng Qi, Jing Huang, Youzheng Wu, Xiaodong He, Bowen Zhou(参考訳) 会話型人工知能(ConvAI)システムは近年、学術的、商業的な注目を集め、両面で大きな進歩を遂げている。 しかし、これらのシステムが社会的利益のためにどのように開発され、デプロイされるかについては、既存の研究はほとんど議論されていない。 本稿では,convaiシステムの改善に向けたコミュニティの進展を簡単に見直すとともに,既存の技術がconvai特有の,あるいはコミュニティの共通知識になっていないさまざまな角度から,ソーシャル・グッド・イニシアティブを進める上でどのように役立つのかを振り返る。 我々はさらに、convaiシステムがこれらの目標を達成するのを助け、現実の世界での開発と展開に関わるリスクを浮き彫りにする上での課題について論じる。

Conversational artificial intelligence (ConvAI) systems have attracted much academic and commercial attention recently, making significant progress on both fronts. However, little existing work discusses how these systems can be developed and deployed for social good. In this paper, we briefly review the progress the community has made towards better ConvAI systems and reflect on how existing technologies can help advance social good initiatives from various angles that are unique for ConvAI, or not yet become common knowledge in the community. We further discuss about the challenges ahead for ConvAI systems to better help us achieve these goals and highlight the risks involved in their development and deployment in the real world.
翻訳日:2021-05-14 13:54:54 公開日:2021-05-13
# 最適ブートストラップと後方誘導による原理探索

Principled Exploration via Optimistic Bootstrapping and Backward Induction ( http://arxiv.org/abs/2105.06022v1 )

ライセンス: Link先を確認
Chenjia Bai, Lingxiao Wang, Zhaoran Wang, Lei Han, Jianye Hao, Animesh Garg, Peng Liu(参考訳) 高い信頼度境界(UCB)をボーナスとして値関数に組み込むことが、有効に探索するための原則的なアプローチである。 しかし、UTBは線形および表の設定を扱うよう指定されており、Deep Reinforcement Learning (DRL)と互換性がない。 本稿では,楽観的ブートストラップと逆誘導(ob2i)によるdrlの原理的探索法を提案する。 OB2IはDRLの非パラメトリックブートストラップを通じて汎用的なUCB結合を構築する。 UCB結合は、楽観的な探索のための状態-作用対の疫学的な不確実性を推定する。 提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。 我々は,理論上の利点を生かしてサンプル効率を実証的に向上させるエピソジックな後方更新を通じて,将来的な不確実性を時間的一貫性を持って伝播する。 MNIST迷路とアタリスイートの実験では、OB2Iがいくつかの最先端探査手法より優れていることが示唆された。

One principled approach for provably efficient exploration is incorporating the upper confidence bound (UCB) into the value function as a bonus. However, UCB is specified to deal with linear and tabular settings and is incompatible with Deep Reinforcement Learning (DRL). In this paper, we propose a principled exploration method for DRL through Optimistic Bootstrapping and Backward Induction (OB2I). OB2I constructs a general-purpose UCB-bonus through non-parametric bootstrap in DRL. The UCB-bonus estimates the epistemic uncertainty of state-action pairs for optimistic exploration. We build theoretical connections between the proposed UCB-bonus and the LSVI-UCB in a linear setting. We propagate future uncertainty in a time-consistent manner through episodic backward update, which exploits the theoretical advantage and empirically improves the sample-efficiency. Our experiments in the MNIST maze and Atari suite suggest that OB2I outperforms several state-of-the-art exploration approaches.
翻訳日:2021-05-14 13:53:07 公開日:2021-05-13
# GIPA:グラフ学習のための汎用情報伝搬アルゴリズム

GIPA: General Information Propagation Algorithm for Graph Learning ( http://arxiv.org/abs/2105.06035v1 )

ライセンス: Link先を確認
Qinkai Zheng, Houyi Li, Peng Zhang, Zhixiong Yang, Guowei Zhang, Xintan Zeng, Yongchao Liu(参考訳) グラフニューラルネットワーク(gnns)は,ノード分類やリンク予測,ネットワークレコメンデーションなど,さまざまなアプリケーションで有望な結果を示すグラフ構造化データの解析に広く使用されている。 本稿では,属性付きグラフデータ学習のための新しいグラフ注意ニューラルネットワークGIPAを提案する。 GIPAは3つの重要なコンポーネントで構成されている。 具体的には,多層パーセプトロンをベースとしたマルチヘッドを導入し,ドット積などの従来の実装よりも非線形の特徴マッピングと表現性が向上した。 伝搬コンポーネントはノード機能だけでなくエッジ機能も考慮しており、ノード機能のみを考慮した既存のGNNとは異なる。 集約コンポーネントは、最後の埋め込みを生成するために残留接続を使用する。 我々は, Open Graph Benchmark protein (ogbn-oproteins for short) を用いたGIPAの性能評価を行った。 実験の結果、GIPAは予測精度の点で最先端モデルに勝るものであることが判明した。例えば、GIPAは平均ROC-AUC$0.8700\pm 0.0010$を達成し、ogbn- Proteinsのリーダーボードにリストされたすべての手法を上回っている。

Graph neural networks (GNNs) have been popularly used in analyzing graph-structured data, showing promising results in various applications such as node classification, link prediction and network recommendation. In this paper, we present a new graph attention neural network, namely GIPA, for attributed graph data learning. GIPA consists of three key components: attention, feature propagation and aggregation. Specifically, the attention component introduces a new multi-layer perceptron based multi-head to generate better non-linear feature mapping and representation than conventional implementations such as dot-product. The propagation component considers not only node features but also edge features, which differs from existing GNNs that merely consider node features. The aggregation component uses a residual connection to generate the final embedding. We evaluate the performance of GIPA using the Open Graph Benchmark proteins (ogbn-proteins for short) dataset. The experimental results reveal that GIPA can beat the state-of-the-art models in terms of prediction accuracy, e.g., GIPA achieves an average ROC-AUC of $0.8700\pm 0.0010$ and outperforms all the previous methods listed in the ogbn-proteins leaderboard.
翻訳日:2021-05-14 13:52:52 公開日:2021-05-13
# 一階非凸最適化における非一様性の利用

Leveraging Non-uniformity in First-order Non-convex Optimization ( http://arxiv.org/abs/2105.06072v1 )

ライセンス: Link先を確認
Jincheng Mei, Yue Gao, Bo Dai, Csaba Szepesvari, Dale Schuurmans(参考訳) 一階法に対する古典的な大域収束の結果は一様滑らかさとojasiewicz不等式に依存する。 機械学習で生じる目的関数の性質に動機付けられて、これらの概念の非一様洗練を提案し、それによって \emph{Non-uniform Smoothness} (NS) と \emph{Non-uniform \L{}ojasiewicz inequality} (N\L{}) が導かれる。 新しい定義は、古典的な$\Omega(1/t^2)$下界よりも早く大域的最適性に収束できる新しい幾何学的一階法を刺激する。 これらの幾何学的手法とその非一様解析のパワーを説明するために,強化学習におけるポリシー勾配最適化(PG)と教師あり学習における一般化線形モデルトレーニング(GLM)という,機械学習における2つの重要な問題を考える。 PGの場合、勾配上昇法を正規化することで、既存のアルゴリズムよりもオーバーヘッドが少なく、$O(e^{-t})$への収束を加速できる。 GLMの場合、幾何認識の正規化勾配勾配は線形収束率も達成でき、最もよく知られた結果が大幅に向上することを示した。 また,提案手法は標準勾配降下よりも高速に地形台地を脱出することを示す。 実験結果は理論的な知見を説明・補完するために用いられる。

Classical global convergence results for first-order methods rely on uniform smoothness and the \L{}ojasiewicz inequality. Motivated by properties of objective functions that arise in machine learning, we propose a non-uniform refinement of these notions, leading to \emph{Non-uniform Smoothness} (NS) and \emph{Non-uniform \L{}ojasiewicz inequality} (N\L{}). The new definitions inspire new geometry-aware first-order methods that are able to converge to global optimality faster than the classical $\Omega(1/t^2)$ lower bounds. To illustrate the power of these geometry-aware methods and their corresponding non-uniform analysis, we consider two important problems in machine learning: policy gradient optimization in reinforcement learning (PG), and generalized linear model training in supervised learning (GLM). For PG, we find that normalizing the gradient ascent method can accelerate convergence to $O(e^{-t})$ while incurring less overhead than existing algorithms. For GLM, we show that geometry-aware normalized gradient descent can also achieve a linear convergence rate, which significantly improves the best known results. We additionally show that the proposed geometry-aware descent methods escape landscape plateaus faster than standard gradient descent. Experimental results are used to illustrate and complement the theoretical findings.
翻訳日:2021-05-14 13:52:30 公開日:2021-05-13
# ガウス過程を用いたバリュー・アット・リスク最適化

Value-at-Risk Optimization with Gaussian Processes ( http://arxiv.org/abs/2105.06126v1 )

ライセンス: Link先を確認
Quoc Phong Nguyen and Zhongxiang Dai and Bryan Kian Hsiang Low and Patrick Jaillet(参考訳) バリュー・アット・リスク(var)は、無作為な環境要因を持つ臨界実世界応用におけるリスクを評価するための確立された尺度である。 本稿では, ブラックボックス目的関数のVaRを最小化するための新しいVaRアッパー信頼境界(V-UCB)アルゴリズムを提案する。 これを実現するために、まずVaRの信頼境界を導出し、次に環境ランダム変数の値の存在を証明し、VaRの信頼境界がそれらの値で評価された目的関数の範囲内にあることを示す。 我々のV-UCBアルゴリズムは、ベンチマーク関数の最適化、ポートフォリオ最適化問題、シミュレーションロボットタスクにおける最先端性能を実証的に実証する。

Value-at-risk (VaR) is an established measure to assess risks in critical real-world applications with random environmental factors. This paper presents a novel VaR upper confidence bound (V-UCB) algorithm for maximizing the VaR of a black-box objective function with the first no-regret guarantee. To realize this, we first derive a confidence bound of VaR and then prove the existence of values of the environmental random variable (to be selected to achieve no regret) such that the confidence bound of VaR lies within that of the objective function evaluated at such values. Our V-UCB algorithm empirically demonstrates state-of-the-art performance in optimizing synthetic benchmark functions, a portfolio optimization problem, and a simulated robot task.
翻訳日:2021-05-14 13:51:58 公開日:2021-05-13
# 過パラメータ線形ネットワークの収束と暗黙バイアスにおける初期化の明示的役割について

On the Explicit Role of Initialization on the Convergence and Implicit Bias of Overparametrized Linear Networks ( http://arxiv.org/abs/2105.06351v1 )

ライセンス: Link先を確認
Hancheng Min, Salma Tarmoun, Rene Vidal, Enrique Mallada(参考訳) ランダム初期化と正規化のない勾配降下によってトレーニングされたニューラルネットワークは、高過パラメータ化にもかかわらず、実際には優れた一般化性能を享受する。 この現象を説明する有望な方向は、トレーニングアルゴリズムの収束と暗黙のバイアスに初期化と過剰パラメータ化がどのように影響するかを研究することである。 本稿では,初期化,最適化,過パラメトリゼーションを結合する勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。 まず、二乗損失は初期化の不均衡のレベルに依存する速度で指数関数的にその最適値に収束することを示す。 第二に、適切な初期化は、不変集合内にあるネットワークパラメータのダイナミクスを制約することを示す。 逆に、この集合上の損失を最小化することは、ミンノルム解につながる。 最後に,大規模層幅と(適切にスケールした)ランダム初期化により,トレーニング中にそのような不変集合に近づき,トレーニングされたネットワークとmin-norm解との距離で新たな非漸近上界を導出できることを示す。

Neural networks trained via gradient descent with random initialization and without any regularization enjoy good generalization performance in practice despite being highly overparametrized. A promising direction to explain this phenomenon is to study how initialization and overparametrization affect convergence and implicit bias of training algorithms. In this paper, we present a novel analysis of single-hidden-layer linear networks trained under gradient flow, which connects initialization, optimization, and overparametrization. Firstly, we show that the squared loss converges exponentially to its optimum at a rate that depends on the level of imbalance of the initialization. Secondly, we show that proper initialization constrains the dynamics of the network parameters to lie within an invariant set. In turn, minimizing the loss over this set leads to the min-norm solution. Finally, we show that large hidden layer width, together with (properly scaled) random initialization, ensures proximity to such an invariant set during training, allowing us to derive a novel non-asymptotic upper-bound on the distance between the trained network and the min-norm solution.
翻訳日:2021-05-14 13:51:42 公開日:2021-05-13
# 補助ラベルを用いた因果的ショートカット除去

Causally-motivated Shortcut Removal Using Auxiliary Labels ( http://arxiv.org/abs/2105.06422v1 )

ライセンス: Link先を確認
Maggie Makar, Ben Packer, Dan Moldovan, Davis Blalock, Yoni Halpern, Alexander D'Amour(参考訳) 特定の分散シフトに対するロバスト性は多くのMLアプリケーションにおいて重要な要件である。 しばしば、関連する分布シフトは入力データを生成するプロセスへの介入の観点から定式化することができる。 本稿では,このようなシフトのリスクが不変である予測器を学習する問題を考察する。 このようなリスク不変量予測器を学ぶ上での鍵となる課題は、近道学習や、シフト不変量に基づく予測器が原理上最適なi.i.d一般化を実現できる場合でも、モデルが実際にスプリアス相関に依存する傾向である。 この課題に対処するために、フレキシブルで因果的なアプローチを提案する。 具体的には、トレーニング時にしばしば利用できる潜在的なショートカット機能に補助ラベルを利用する正規化方式を提案する。 問題の因果構造を考察し,主ラベルと補助ラベルの予測に使用される表現間の条件付き独立性(条件付き独立性)を強制する。 この因果的モチベーションによる正規化スキームが、分布内および分布シフトの双方をよく一般化し、標準正規化や重み付けアプローチよりも優れたサンプル効率をもたらす頑健な予測子をもたらすことを理論的および実証的に示す。

Robustness to certain distribution shifts is a key requirement in many ML applications. Often, relevant distribution shifts can be formulated in terms of interventions on the process that generates the input data. Here, we consider the problem of learning a predictor whose risk across such shifts is invariant. A key challenge to learning such risk-invariant predictors is shortcut learning, or the tendency for models to rely on spurious correlations in practice, even when a predictor based on shift-invariant features could achieve optimal i.i.d generalization in principle. We propose a flexible, causally-motivated approach to address this challenge. Specifically, we propose a regularization scheme that makes use of auxiliary labels for potential shortcut features, which are often available at training time. Drawing on the causal structure of the problem, we enforce a conditional independence between the representation used to predict the main label and the auxiliary labels. We show both theoretically and empirically that this causally-motivated regularization scheme yields robust predictors that generalize well both in-distribution and under distribution shifts, and does so with better sample efficiency than standard regularization or weighting approaches.
翻訳日:2021-05-14 13:51:22 公開日:2021-05-13
# クラウドベースのディープニューラルネットワークにおけるプライバシ推論攻撃と防御:調査

Privacy Inference Attacks and Defenses in Cloud-based Deep Neural Network: A Survey ( http://arxiv.org/abs/2105.06300v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Chao Chen, Yi Xie, Xiaofeng Chen, Jun Zhang, Yang Xiang(参考訳) 最も強力な機械学習アルゴリズムの1つであるDeep Neural Network(DNN)は、高度な科学開発を促進するために、大量のデータを効果的に探索し分析するボトルネックを克服するために、ますます活用されている。 クラウドコンピューティングプロバイダーがクラウドベースのDNNをアウト・オブ・ボックスサービスとして提供しているのは驚きではない。 クラウドベースのDNNにはいくつかのメリットがあるが、クラウド内の2つないし複数のエンティティ間のインタラクションメカニズムは、必然的に新たなプライバシリスクを引き起こす。 この調査は、クラウドベースのニューラルネットワークサービスに現れる、プライバシ攻撃と防御に関する最新の知見を示している。 我々は、クラウドベースのDNNサービスのパイプライン、すなわちデータ操作、トレーニング、予測におけるプライバシ攻撃と防御を体系的かつ徹底的にレビューする。 特に、クラウドベースのMLプライバシーゲームと呼ばれる新しい理論は、最近発表された論文から抽出され、最先端の研究の深い理解を提供する。 最後に、研究者がプライバシー攻撃者とディフェンダーとの競争を推し進めるために、課題と今後の課題が提示される。

Deep Neural Network (DNN), one of the most powerful machine learning algorithms, is increasingly leveraged to overcome the bottleneck of effectively exploring and analyzing massive data to boost advanced scientific development. It is not a surprise that cloud computing providers offer the cloud-based DNN as an out-of-the-box service. Though there are some benefits from the cloud-based DNN, the interaction mechanism among two or multiple entities in the cloud inevitably induces new privacy risks. This survey presents the most recent findings of privacy attacks and defenses appeared in cloud-based neural network services. We systematically and thoroughly review privacy attacks and defenses in the pipeline of cloud-based DNN service, i.e., data manipulation, training, and prediction. In particular, a new theory, called cloud-based ML privacy game, is extracted from the recently published literature to provide a deep understanding of state-of-the-art research. Finally, the challenges and future work are presented to help researchers to continue to push forward the competitions between privacy attackers and defenders.
翻訳日:2021-05-14 13:50:44 公開日:2021-05-13
# HINet:画像復元のためのハーフインスタンス正規化ネットワーク

HINet: Half Instance Normalization Network for Image Restoration ( http://arxiv.org/abs/2105.06086v1 )

ライセンス: Link先を確認
Liangyu Chen, Xin Lu, Jie Zhang, Xiaojie Chu, Chengpeng Chen(参考訳) 本稿では,低レベル視覚タスクにおけるインスタンス正規化の役割について検討する。 具体的には,画像復元ネットワークの性能を向上させるため,新しいブロックであるハーフインスタンス正規化ブロック(hinブロック)を提案する。 HINブロックに基づいて、2つのサブネットワークからなるHINetという,シンプルで強力なマルチステージネットワークを設計する。 HIN Blockの助けを借りて、HINetは様々な画像復元タスクの最先端(SOTA)を超越している。 SIDDデータセットでは0.11dBと0.28dBを超え、乗算器演算(MAC)の7.5%と30%、それぞれ6.8倍と2.9倍のスピードアップしかありません。 画像劣化では、MACの22.5%、REDSおよびGoProデータセットの3.3倍のスピードアップで同等のパフォーマンスが得られる。 画像参照の場合、1.4倍のスピードアップを持つ複数のデータセットの平均結果から、psnrでは0.3dbを超える。 HINetでは、NTIRE 2021 Image Deblurring Challenge - Track2で1位を獲得しました。 JPEG Artifacts、PSNRは29.70。 コードはhttps://github.com/m egvii-model/hinetで入手できる。

In this paper, we explore the role of Instance Normalization in low-level vision tasks. Specifically, we present a novel block: Half Instance Normalization Block (HIN Block), to boost the performance of image restoration networks. Based on HIN Block, we design a simple and powerful multi-stage network named HINet, which consists of two subnetworks. With the help of HIN Block, HINet surpasses the state-of-the-art (SOTA) on various image restoration tasks. For image denoising, we exceed it 0.11dB and 0.28 dB in PSNR on SIDD dataset, with only 7.5% and 30% of its multiplier-accumulat or operations (MACs), 6.8 times and 2.9 times speedup respectively. For image deblurring, we get comparable performance with 22.5% of its MACs and 3.3 times speedup on REDS and GoPro datasets. For image deraining, we exceed it by 0.3 dB in PSNR on the average result of multiple datasets with 1.4 times speedup. With HINet, we won 1st place on the NTIRE 2021 Image Deblurring Challenge - Track2. JPEG Artifacts, with a PSNR of 29.70. The code is available at https://github.com/m egvii-model/HINet.
翻訳日:2021-05-14 13:49:44 公開日:2021-05-13
# MR画像のエンド・ツー・エンドシーケンスサンプリングと再構成

End-to-End Sequential Sampling and Reconstruction for MR Imaging ( http://arxiv.org/abs/2105.06460v1 )

ライセンス: Link先を確認
Tianwei Yin, Zihui Wu, He Sun, Adrian V. Dalca, Yisong Yue, Katherine L. Bouman(参考訳) 加速度MRIは、測定k空間のサブサンプリングにより取得時間を短縮する。 サブサンプル測定から高忠実な解剖学的画像の復元には,(1)サブサンプルパターンを選択するサンプルと,(2)不完全な測定から画像を復元するリコンストラクタの2つの要素の密接な連携が必要である。 本稿では,MRI計測のシーケンシャルな性質を活用し,再構成戦略と同時に逐次サンプリングポリシを共同で学習する,完全に微分可能なフレームワークを提案する。 この共同設計のフレームワークは、特定の目標に対して最も情報性の高い測定値を取得するために、取得中に適応することができる(図1)。 高速MRI膝関節データセットの実験結果から,提案手法はサンプリング過程の中間情報を有効利用し,再構成性能を向上することを示した。 特に, 提案手法は, 96.96%の試験試料において, 最先端のk空間サンプリングベースラインよりも優れていた。 また,逐次サンプリングおよび共同設計戦略の個人的および集団的メリットについても検討した。 コードとさらなる可視化はhttp://imaging.cms.c altech.edu/seq-mriで利用可能である。

Accelerated MRI shortens acquisition time by subsampling in the measurement k-space. Recovering a high-fidelity anatomical image from subsampled measurements requires close cooperation between two components: (1) a sampler that chooses the subsampling pattern and (2) a reconstructor that recovers images from incomplete measurements. In this paper, we leverage the sequential nature of MRI measurements, and propose a fully differentiable framework that jointly learns a sequential sampling policy simultaneously with a reconstruction strategy. This co-designed framework is able to adapt during acquisition in order to capture the most informative measurements for a particular target (Figure 1). Experimental results on the fastMRI knee dataset demonstrate that the proposed approach successfully utilizes intermediate information during the sampling process to boost reconstruction performance. In particular, our proposed method outperforms the current state-of-the-art learned k-space sampling baseline on up to 96.96% of test samples. We also investigate the individual and collective benefits of the sequential sampling and co-design strategies. Code and more visualizations are available at http://imaging.cms.c altech.edu/seq-mri
翻訳日:2021-05-14 13:49:25 公開日:2021-05-13
# 善と悪の最適化モデル:rockafelliansからの洞察

Good and Bad Optimization Models: Insights from Rockafellians ( http://arxiv.org/abs/2105.06073v1 )

ライセンス: Link先を確認
Johannes O. Royset(参考訳) 数学的モデルの基本的な要件は、モデルのパラメータ(入力)が摂動している場合、その解(出力)があまり変化しないことである。 これは、パラメータの正確な値は分かっておらず、間違った値を使って得られた出力によって誤解されるのを避けるために重要である。 したがって、モデルを定式化し、結果の最適化問題を解決し、ソリューションを答えとして提示することで、アプリケーションに取り組むのに十分なことはめったにない。 モデルが適切であること、すなわち「良い」であることを確認する必要があり、少なくとも部分的には、関心のあるパラメータを摂動させることで構築された最適化問題のファミリーを考えることで達成できる。 その結果得られた感度分析により,不安定解が問題となる状況が明らかになり,より優れたモデル定式化が示された。 問題の族に実際の関心の問題を埋め込むことは、最適条件への主要な経路であり、また計算的に魅力的な代替問題であり、理想的な状況下で、適切に調整された場合には、実際の問題の最小値さえも与える。 これらの代替問題のチューニングは最適条件における乗算器の発見と密接に結びついており、いくつかの最適化アルゴリズムの主成分として現れる。 実際、チューニングは特定の双対最適化問題の解法に等しい。 このチュートリアルでは、この幅広い視点で得られる機会と洞察について論じる。

A basic requirement for a mathematical model is often that its solution (output) shouldn't change much if the model's parameters (input) are perturbed. This is important because the exact values of parameters may not be known and one would like to avoid being mislead by an output obtained using incorrect values. Thus, it's rarely enough to address an application by formulating a model, solving the resulting optimization problem and presenting the solution as the answer. One would need to confirm that the model is suitable, i.e., "good," and this can, at least in part, be achieved by considering a family of optimization problems constructed by perturbing parameters of concern. The resulting sensitivity analysis uncovers troubling situations with unstable solutions, which we referred to as "bad" models, and indicates better model formulations. Embedding an actual problem of interest within a family of problems is also a primary path to optimality conditions as well as computationally attractive, alternative problems, which under ideal circumstances, and when properly tuned, may even furnish the minimum value of the actual problem. The tuning of these alternative problems turns out to be intimately tied to finding multipliers in optimality conditions and thus emerges as a main component of several optimization algorithms. In fact, the tuning amounts to solving certain dual optimization problems. In this tutorial, we'll discuss the opportunities and insights afforded by this broad perspective.
翻訳日:2021-05-14 13:48:32 公開日:2021-05-13
# HeunNet: Heunのメソッドを使ってResNetを拡張する

HeunNet: Extending ResNet using Heun's Methods ( http://arxiv.org/abs/2105.06168v1 )

ライセンス: Link先を確認
Mehrdad Maleki and Mansura Habiba and Barak A. Pearlmutter(参考訳) ディープニューラルネットワークのためのResNet(Residual Network)アーキテクチャとODEのためのEulerソルバとの間には類似性がある。 各層が行う変換は、ODEを解く際のオイラーステップに似ている。 We consider the Heun Method, which with a single predictor-corrector cycle, and complete the analogy, building a predictor-corrector variant of ResNet, which we called a HeunNet。 HeunNetの手法がEulerの手法よりも正確であるように、実験により、HeunNetはバニラ再帰ニューラルネットワークや他のResNetの変種と比較して、低計算時間(トレーニングとテストの両方)で高い精度を達成することが示された。

There is an analogy between the ResNet (Residual Network) architecture for deep neural networks and an Euler solver for an ODE. The transformation performed by each layer resembles an Euler step in solving an ODE. We consider the Heun Method, which involves a single predictor-corrector cycle, and complete the analogy, building a predictor-corrector variant of ResNet, which we call a HeunNet. Just as Heun's method is more accurate than Euler's, experiments show that HeunNet achieves high accuracy with low computational (both training and test) time compared to both vanilla recurrent neural networks and other ResNet variants.
翻訳日:2021-05-14 13:48:09 公開日:2021-05-13
# 複数のカルーセルを用いたユーザインタフェースにおけるレコメンダシステムのオフライン評価手法

A Methodology for the Offline Evaluation of Recommender Systems in a User Interface with Multiple Carousels ( http://arxiv.org/abs/2105.06275v1 )

ライセンス: Link先を確認
Nicol\`o Felicioni, Maurizio Ferrari Dacrema, Paolo Cremonesi(参考訳) 多くのビデオオンデマンドおよび音楽ストリーミングサービスは、ユーザにいくつかの推奨リストからなるページを提供する。 ウィジェットまたはスワイプ可能なカルーセルで、それぞれ特定の基準(例)で構築される。 最近ではテレビシリーズなど)。 展示するカルーセルを選択するための効率的な戦略を見つけることは、大きな産業的関心の活発な研究課題である。 この設定では、個々の推奨品質のみを測定することで、新しいアルゴリズムの推奨の全体的な品質を評価することはできない。 むしろ、他のレコメンデーションリストがすでに利用可能なコンテキストで評価され、相互補完の方法が考慮される必要がある。 これは従来のオフライン評価プロトコルでは考慮されていない。 そこで本研究では,すでに利用可能なカルーセルセットに対して,モデルの推奨品質をどの程度改善するかによって測定するカルーセル設定のためのオフライン評価プロトコルを提案する。 我々は,映画領域における公開データセットに関する実験を報告し,アルゴリズム変更のランキングを設定するカルーセルにおいて注意する。 特に、SLIMカルーセルが利用できる場合、行列分解モデルは好まれ、アイテムベースモデルはペナル化される。 また,2次元カルーセル配置にランキング指標を拡張して,既知の位置バイアス,すなわち位置バイアスを考慮することを提案する。 ユーザーはリストを連続的に探すのではなく、画面の左上の隅に集中する。

Many video-on-demand and music streaming services provide the user with a page consisting of several recommendation lists, i.e. widgets or swipeable carousels, each built with a specific criterion (e.g. most recent, TV series, etc.). Finding efficient strategies to select which carousels to display is an active research topic of great industrial interest. In this setting, the overall quality of the recommendations of a new algorithm cannot be assessed by measuring solely its individual recommendation quality. Rather, it should be evaluated in a context where other recommendation lists are already available, to account for how they complement each other. This is not considered by traditional offline evaluation protocols. Hence, we propose an offline evaluation protocol for a carousel setting in which the recommendation quality of a model is measured by how much it improves upon that of an already available set of carousels. We report experiments on publicly available datasets on the movie domain and notice that under a carousel setting the ranking of the algorithms change. In particular, when a SLIM carousel is available, matrix factorization models tend to be preferred, while item-based models are penalized. We also propose to extend ranking metrics to the two-dimensional carousel layout in order to account for a known position bias, i.e. users will not explore the lists sequentially, but rather concentrate on the top-left corner of the screen.
翻訳日:2021-05-14 13:47:37 公開日:2021-05-13
# 検証基準付き共有データおよび機械学習モデルにおける保証と精査可能性の提供

Providing Assurance and Scrutability on Shared Data and Machine Learning Models with Verifiable Credentials ( http://arxiv.org/abs/2105.06370v1 )

ライセンス: Link先を確認
Iain Barclay, Alun Preece, Ian Taylor, Swapna K. Radha, Jarek Nabrzyski(参考訳) 共有データリソースを採用するには、データの起源者に信頼を置く必要がある。 共有データが後に人工知能(AI)システムや機械学習(ML)モデルの開発に使用されるとき、信頼関係はシステムのユーザ(典型的には医療や金融などの分野の実践者)に拡張される。 実践者は、関連する信頼できるデータを使用することにAI開発者を頼っているが、洞察と会話が限られている可能性がある。 本稿では,自己主権的アイデンティティの分野からデザインパターンに基づくシステムのソフトウェアアーキテクチャと実装を紹介する。 科学者は、データリソースの品質を検証する署名された証明書を発行することができる。 MLモデルへのデータコントリビューションはBOM(Bill of Materials)に記録され、そのモデルに検証可能なクレデンシャルとして格納される。 BOMは、AIシステムのサプライチェーンのトレース可能な記録を提供する。 認証されたbomとその認定データ品質とのリンクは、ai scrutineer(ai scrutineer)で使用されている。これは、mlモデルの構成要素に関する専門家の洞察を提供し、もしバイアスのあるデータを持っていたり、その他のクレジットが下がったりした場合に、採択されたデータセットに関するあらゆる問題をハイライトするために設計されたwebベースのツールである。

Adopting shared data resources requires scientists to place trust in the originators of the data. When shared data is later used in the development of artificial intelligence (AI) systems or machine learning (ML) models, the trust lineage extends to the users of the system, typically practitioners in fields such as healthcare and finance. Practitioners rely on AI developers to have used relevant, trustworthy data, but may have limited insight and recourse. This paper introduces a software architecture and implementation of a system based on design patterns from the field of self-sovereign identity. Scientists can issue signed credentials attesting to qualities of their data resources. Data contributions to ML models are recorded in a bill of materials (BOM), which is stored with the model as a verifiable credential. The BOM provides a traceable record of the supply chain for an AI system, which facilitates on-going scrutiny of the qualities of the contributing components. The verified BOM, and its linkage to certified data qualities, is used in the AI Scrutineer, a web-based tool designed to offer practitioners insight into ML model constituents and highlight any problems with adopted datasets, should they be found to have biased data or be otherwise discredited.
翻訳日:2021-05-14 13:46:11 公開日:2021-05-13
# OpenFL:フェデレートラーニングのためのオープンソースフレームワーク

OpenFL: An open-source framework for Federated Learning ( http://arxiv.org/abs/2105.06413v1 )

ライセンス: Link先を確認
G Anthony Reina, Alexey Gruzdev, Patrick Foley, Olga Perepelkina, Mansi Sharma, Igor Davidyuk, Ilya Trushkin, Maksim Radionov, Aleksandr Mokrov, Dmitry Agapov, Jason Martin, Brandon Edwards, Micah J. Sheller, Sarthak Pati, Prakash Narayana Moorthy, Shih-han Wang, Prashant Shah, Spyridon Bakas(参考訳) Federated Learning(FL)は、機械学習(ML)プロジェクトで、患者記録、財務データ、機密情報などの機密データを共有せずに協力することを可能にする計算パラダイムである。 Open Federated Learning (OpenFL https://github.com/i ntel/openfl) は、FLのデータプライベートな協調学習パラダイムを使用してMLアルゴリズムをトレーニングするオープンソースフレームワークである。 openflはtensorflowとpytorchの両方で構築されたトレーニングパイプラインで動作し、他のmlおよびディープラーニングフレームワークにも容易に拡張することができる。 本稿では、実運用環境における既存のMLモデルトレーニングへの適用を促進することを目的として、OpenFLのモチベーションと開発特性を要約する。 最後に、国際医療機関のコンソーシアムにおけるコンセンサスMLモデルをトレーニングするためのOpenFLフレームワークの最初の使用と、それがFLにおける最初の計算競争を促進する方法について述べる。

Federated learning (FL) is a computational paradigm that enables organizations to collaborate on machine learning (ML) projects without sharing sensitive data, such as, patient records, financial data, or classified secrets. Open Federated Learning (OpenFL https://github.com/i ntel/openfl) is an open-source framework for training ML algorithms using the data-private collaborative learning paradigm of FL. OpenFL works with training pipelines built with both TensorFlow and PyTorch, and can be easily extended to other ML and deep learning frameworks. Here, we summarize the motivation and development characteristics of OpenFL, with the intention of facilitating its application to existing ML model training in a production environment. Finally, we describe the first use of the OpenFL framework to train consensus ML models in a consortium of international healthcare organizations, as well as how it facilitates the first computational competition on FL.
翻訳日:2021-05-14 13:45:48 公開日:2021-05-13
# ハイテイク政策設定における現実問題に対するバイアス削減手法の実証比較

An Empirical Comparison of Bias Reduction Methods on Real-World Problems in High-Stakes Policy Settings ( http://arxiv.org/abs/2105.06442v1 )

ライセンス: Link先を確認
Hemank Lamba and Kit T. Rodolfa and Rayid Ghani(参考訳) 機械学習(ML)の教育、刑事司法、医療、社会サービス提供といった高額な政策設定への適用は近年急速に増加しており、これらのシステムから公正な成果を確実にする方法に関する重要な議論を引き起こしている。 機械学習研究コミュニティは、MLモデルのフェアネス向上戦略を幅広く提案して、この問題に対処してきたが、開発されている多くのメソッドにもかかわらず、これらの手法を現実の環境で評価する経験的な成果はほとんどない。 本稿では,4つの実世界の公共政策と社会善問題にまたがるmlパイプラインの異なる点で動作する複数の手法の性能を調査することにより,この研究のギャップを埋めることを目的とする。 これらの問題全体で、モデルフェアネスを改善するための多くの手法の多変量性と不整合性を見出したが、グループ固有のスコアしきい値を選択する事による後処理は、常に相違を排除し、機械学習を実践するML研究コミュニティと実践者の両方にとって重要な意味を持つ。

Applications of machine learning (ML) to high-stakes policy settings -- such as education, criminal justice, healthcare, and social service delivery -- have grown rapidly in recent years, sparking important conversations about how to ensure fair outcomes from these systems. The machine learning research community has responded to this challenge with a wide array of proposed fairness-enhancing strategies for ML models, but despite the large number of methods that have been developed, little empirical work exists evaluating these methods in real-world settings. Here, we seek to fill this research gap by investigating the performance of several methods that operate at different points in the ML pipeline across four real-world public policy and social good problems. Across these problems, we find a wide degree of variability and inconsistency in the ability of many of these methods to improve model fairness, but post-processing by choosing group-specific score thresholds consistently removes disparities, with important implications for both the ML research community and practitioners deploying machine learning to inform consequential policy decisions.
翻訳日:2021-05-14 13:45:33 公開日:2021-05-13
# ステロイドの特徴相互作用:MLモデルの構成について

Feature Interactions on Steroids: On the Composition of ML Models ( http://arxiv.org/abs/2105.06449v1 )

ライセンス: Link先を確認
Christian K\"astner, Eunsuk Kang, Sven Apel(参考訳) 仕様の欠如は、従来のソフトウェアエンジニアリングと機械学習の主な違いである。 システム設計における分割/参照のアプローチに対する考え方と、再利用、テスト、デバッグ活動にどのように影響するかを議論する。 伝統的に、仕様は構成的推論とコンポーネントから大規模で複雑なシステムを構築する方法の分割と分割戦略の基盤となるが、機械駆動のコンポーネントでは実現が難しい。 仕様の欠如は一見すると基本的な新しい問題のように思えるが、実際には、ソフトウェアエンジニアは日常的に、脆弱な仕様、間違った仕様、予期せぬコンポーネントとその仕様間のインタラクションに直面している。 機械学習はわれわれをさらに推し進めるかもしれないが、問題は基本的に新しいものではない。 機能相互作用の問題の観点から機械学習モデルの構成を再考することで、統合テストの重要性、要件エンジニアリング、設計など、前進方法について1つか2つのことを教えてくれるかもしれません。

The lack of specifications is a key difference between traditional software engineering and machine learning. We discuss how it drastically impacts how we think about divide-and-conquer approaches to system design, and how it impacts reuse, testing and debugging activities. Traditionally, specifications provide a cornerstone for compositional reasoning and for the divide-and-conquer strategy of how we build large and complex systems from components, but those are hard to come by for machine-learned components. While the lack of specification seems like a fundamental new problem at first sight, in fact software engineers routinely deal with iffy specifications in practice: we face weak specifications, wrong specifications, and unanticipated interactions among components and their specifications. Machine learning may push us further, but the problems are not fundamentally new. Rethinking machine-learning model composition from the perspective of the feature interaction problem, we may even teach us a thing or two on how to move forward, including the importance of integration testing, of requirements engineering, and of design.
翻訳日:2021-05-14 13:45:12 公開日:2021-05-13
# TopoTxR : 乳癌治療反応予測のためのトポロジカルバイオマーカー

TopoTxR: A Topological Biomarker for Predicting Treatment Response in Breast Cancer ( http://arxiv.org/abs/2105.06049v1 )

ライセンス: Link先を確認
Fan Wang, Saarthak Kapse, Steven Liu, Prateek Prasanna, Chao Chen(参考訳) dynamic contrast-enhanced magnetic resonance imaging (dce-mri) における乳腺壁の性状診断は,組織構造が複雑であることから困難である。 放射線学や深層学習モデルを含む現在の定量的アプローチでは、線維芽細胞組織のような複雑で微妙な組織構造を明示的に捉えていない。 本稿では,生物学的に関係のある組織構造を取り巻くボクセルの集合にニューラルネットワークの注意を向ける新しい手法を提案する。 高い塩分率で多次元トポロジー構造を抽出することで、トポロジー由来のバイオマーカーtopotxrを構築する。 乳癌における新アジュバント化学療法に対するTopoTxRの有効性について検討した。 以上の結果から,治療に好意的に反応する症例とそうでない症例では,乳房組織の局所的挙動が異なることが示唆された。

Characterization of breast parenchyma on dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI) is a challenging task owing to the complexity of underlying tissue structures. Current quantitative approaches, including radiomics and deep learning models, do not explicitly capture the complex and subtle parenchymal structures, such as fibroglandular tissue. In this paper, we propose a novel method to direct a neural network's attention to a dedicated set of voxels surrounding biologically relevant tissue structures. By extracting multi-dimensional topological structures with high saliency, we build a topology-derived biomarker, TopoTxR. We demonstrate the efficacy of TopoTxR in predicting response to neoadjuvant chemotherapy in breast cancer. Our qualitative and quantitative results suggest differential topological behavior of breast tissue on treatment-na\"ive imaging, in patients who respond favorably to therapy versus those who do not.
翻訳日:2021-05-14 13:44:56 公開日:2021-05-13
# 音響情報と意味情報の合成による音声キャプション

Audio Captioning with Composition of Acoustic and Semantic Information ( http://arxiv.org/abs/2105.06355v1 )

ライセンス: Link先を確認
Ay\c{s}eg\"ul \"Ozkaya Eren and Mustafa Sert(参考訳) オーディオキャプションの生成は、オーディオと自然言語処理を組み合わせた新しい研究領域であり、オーディオクリップに意味のあるテキスト記述を生成する。 この問題に対処するため、従来の研究では、意味情報を考慮せずにエンコーダ-デコーダモデルを用いていた。 このギャップを埋めるために,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。 音声クリップキャプションから主語と動詞を抽出してセマンティック埋め込みを抽出し,これらの埋め込みとオーディオ埋め込みを組み合わせることで,BiGRUベースのエンコーダデコーダモデルを提供する。 テスト音声のセマンティック埋め込みを可能にするために,これらのクリップのセマンティック埋め込みを予測するための多層パーセプトロン分類器を導入する。 また,提案する音声キャプションタスクに対して,様々な特徴やデータセットの効率性を示すための徹底的な実験を行った。 音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。 2つの音声キャプションデータセットである clotho と audiocaps の広範な実験により,提案モデルが,評価指標の異なる音声キャプションモデルよりも優れており,意味情報を用いることでキャプション性能が向上することが示された。 キーワード:オーディオキャプション、PANN、VGGish、GRU、BiGRU。

Generating audio captions is a new research area that combines audio and natural language processing to create meaningful textual descriptions for audio clips. To address this problem, previous studies mostly use the encoder-decoder based models without considering semantic information. To fill this gap, we present a novel encoder-decoder architecture using bi-directional Gated Recurrent Units (BiGRU) with audio and semantic embeddings. We extract semantic embedding by obtaining subjects and verbs from the audio clip captions and combine these embedding with audio embedding to feed the BiGRU-based encoder-decoder model. To enable semantic embeddings for the test audios, we introduce a Multilayer Perceptron classifier to predict the semantic embeddings of those clips. We also present exhaustive experiments to show the efficiency of different features and datasets for our proposed model the audio captioning task. To extract audio features, we use the log Mel energy features, VGGish embeddings, and a pretrained audio neural network (PANN) embeddings. Extensive experiments on two audio captioning datasets Clotho and AudioCaps show that our proposed model outperforms state-of-the-art audio captioning models across different evaluation metrics and using the semantic information improves the captioning performance. Keywords: Audio captioning; PANNs; VGGish; GRU; BiGRU.
翻訳日:2021-05-14 13:44:00 公開日:2021-05-13
# 不確実性定量化のためのインターバル深層学習

Interval Deep Learning for Uncertainty Quantification in Safety Applications ( http://arxiv.org/abs/2105.06438v1 )

ライセンス: Link先を確認
David Betancourt and Rafi Muhanna(参考訳) 深層ニューラルネットワーク(DNN)は、予測の信頼性が最重要である重要な安全クリティカルなアプリケーションにおいて、より普及しつつある。 例外的な予測機能にもかかわらず、現在のDNNは、重要な入力データの不確実性を定量化し、伝播する暗黙のメカニズムを持っていません。 多くの場合、この不確実性は疫学であり、データ生成過程に関する知識の欠如、不正確さ、無知、物理現象の理解不足など、複数の情報源から生じる可能性がある。 近年、パラメータの不確かさの定量化に焦点が当てられているが、認識的入力データ不確実性を伴うDNNのエンドツーエンドトレーニングへのアプローチは、より限定的で、主に問題固有である。 本研究では,入力とパラメータの不確かさを区間解析によって定量化できる勾配に基づく手法を最適化したdnnを提案する。 センサの不確実性のある大気汚染データセットの実験を行い、不確実な入力データからDINNが正確な有界推定を行うことを示す。

Deep neural networks (DNNs) are becoming more prevalent in important safety-critical applications, where reliability in the prediction is paramount. Despite their exceptional prediction capabilities, current DNNs do not have an implicit mechanism to quantify and propagate significant input data uncertainty -- which is common in safety-critical applications. In many cases, this uncertainty is epistemic and can arise from multiple sources, such as lack of knowledge about the data generating process, imprecision, ignorance, and poor understanding of physics phenomena. Recent approaches have focused on quantifying parameter uncertainty, but approaches to end-to-end training of DNNs with epistemic input data uncertainty are more limited and largely problem-specific. In this work, we present a DNN optimized with gradient-based methods capable to quantify input and parameter uncertainty by means of interval analysis, which we call Deep Interval Neural Network (DINN). We perform experiments on an air pollution dataset with sensor uncertainty and show that the DINN can produce accurate bounded estimates from uncertain input data.
翻訳日:2021-05-14 13:43:31 公開日:2021-05-13
# 非決定論的隠れマルコフモデルの量子実装のメモリ圧縮と熱効率

Memory compression and thermal efficiency of quantum implementations of non-deterministic hidden Markov models ( http://arxiv.org/abs/2105.06285v1 )

ライセンス: Link先を確認
Thomas J. Elliott(参考訳) 確率モデリングは定量的科学の重要な要素であり、隠れマルコフモデル(HMM)が中心的な役割を果たすことが多い。 同時に、量子技術の台頭は、一般に時間やメモリなどの必要なリソースのスケーリングの観点から、計算問題において多くの利点を約束する。 HMMは例外ではなく、最近の結果は、決定論的HMMの量子的実装が古典的なHMMと比較して優れたメモリと熱効率を示すことを示している。 しかし、多くの文脈において、非決定論的 HMM は現実的な代替品であり、それらと比べ、現在の量子実装の利点は必ずしも成り立たない。 ここでは、このより広いクラスに対する量子的優位性を再確立する非決定論的HMMの量子的実装を構築するための体系的な処方則を提供する。 重要な点は、古典的実装が時間-局所的な方法で情報を処理する必要性のために熱的散逸に苦しむ場合、量子的実装は、この散逸のいくつかを緩和し、メモリ圧縮の利点を達成することである。

Stochastic modelling is an essential component of the quantitative sciences, with hidden Markov models (HMMs) often playing a central role. Concurrently, the rise of quantum technologies promises a host of advantages in computational problems, typically in terms of the scaling of requisite resources such as time and memory. HMMs are no exception to this, with recent results highlighting quantum implementations of deterministic HMMs exhibiting superior memory and thermal efficiency relative to their classical counterparts. In many contexts however, non-deterministic HMMs are viable alternatives; compared to them the advantages of current quantum implementations do not always hold. Here, we provide a systematic prescription for constructing quantum implementations of non-deterministic HMMs that re-establish the quantum advantages against this broader class. Crucially, we show that whenever the classical implementation suffers from thermal dissipation due to its need to process information in a time-local manner, our quantum implementations will both mitigate some of this dissipation, and achieve an advantage in memory compression.
翻訳日:2021-05-14 13:43:12 公開日:2021-05-13
# (参考訳) 線形モデルに対する厳密な導入

A rigorous introduction for linear models ( http://arxiv.org/abs/2105.04240v2 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) このノートは線形モデルとその背後にある理論について紹介することを目的としている。 私たちのゴールは、通常の最小二乗に先立って読者に厳格な紹介を行うことです。 機械学習では、出力は通常、入力の非線形関数である。 ディープラーニングは、大量の計算を必要とする多数の層を持つ非線形依存を見つけることでさえも目指している。 しかし、これらのアルゴリズムのほとんどは単純な線形モデルに基づいている。 次に、異なる視点から線形モデルを記述し、モデルの背後にある特性と理論を見つける。 線形モデルは回帰問題の主要な手法であり、その主なツールは最小二乗近似であり、二乗誤差の総和を最小化する。 これは、対応する2乗誤差を最小限に抑える回帰関数を見つけることに関心がある場合、自然な選択です。 まず、ランダムノイズとガウス雑音でモデルを乱す3つの異なる視点から、通常の最小二乗を記述する。 ガウス雑音により、モデルが最大確率推定子を導入するように確率を与える。 また、このガウスの混乱を通じて、いくつかの分布理論を発展させている。 最小二乗の分布理論は、様々な質問に答え、関連する応用を導入するのに役立つ。 次に、最小二乗法が平均二乗誤差の意味で最良の偏りのない線形モデルであることを証明し、最も重要なことは、実際に理論上の極限に近づくことである。 ベイズ的アプローチとそれ以上の線形モデルに終止符を打つ。

This note is meant to provide an introduction to linear models and the theories behind them. Our goal is to give a rigorous introduction to the readers with prior exposure to ordinary least squares. In machine learning, the output is usually a nonlinear function of the input. Deep learning even aims to find a nonlinear dependence with many layers which require a large amount of computation. However, most of these algorithms build upon simple linear models. We then describe linear models from different views and find the properties and theories behind the models. The linear model is the main technique in regression problems and the primary tool for it is the least squares approximation which minimizes a sum of squared errors. This is a natural choice when we're interested in finding the regression function which minimizes the corresponding expected squared error. We first describe ordinary least squares from three different points of view upon which we disturb the model with random noise and Gaussian noise. By Gaussian noise, the model gives rise to the likelihood so that we introduce a maximum likelihood estimator. It also develops some distribution theories for it via this Gaussian disturbance. The distribution theory of least squares will help us answer various questions and introduce related applications. We then prove least squares is the best unbiased linear model in the sense of mean squared error and most importantly, it actually approaches the theoretical limit. We end up with linear models with the Bayesian approach and beyond.
翻訳日:2021-05-14 12:25:24 公開日:2021-05-13
# (参考訳) 深層学習に基づく対話システムの最新動向

Recent Advances in Deep Learning-based Dialogue Systems ( http://arxiv.org/abs/2105.04387v2 )

ライセンス: CC BY 4.0
Jinjie Ni, Tom Young, Vlad Pandelea, Fuzhao Xue, Vinay Adiga, Erik Cambria(参考訳) 対話システムは、実際のアプリケーションで有望な自然言語処理(NLP)タスクとして人気がある。 多くのNLPタスクが研究に関わっているため、これは複雑なタスクでもある。 その結果、この課題に関する数多くの新しい研究が行われ、そのほとんどは卓越した性能のため、深層学習に基づくものである。 本研究では,深層学習に基づく対話システムに着目した。 対話システムにおける最先端の研究成果を総合的にレビューし,モデルタイプとシステムタイプという2つの角度から分析する。 具体的には,対話システムにおいて広く用いられている異なるモデルの原理,特徴,応用について述べる。 これは、研究者がこれらのモデルを知り、それが最先端のフレームワークにどのように適用されているかを確認するのに役立つ。 システムタイプの角度から,タスク指向とオープンドメインの対話システムを2つの研究の流れとして論じ,関連する話題について考察する。 さらに,対話システムの評価手法とデータセットを概観的に検討し,今後の研究の道を開く。 最後に、最近の研究成果に基づいて、いくつかの研究トレンドが特定される。 私たちの知る限りでは、この調査は対話システムや対話関連タスクの領域で現在最も包括的で最新のもので、人気のあるフレームワーク、トピック、データセットを幅広くカバーしています。 キーワード:対話システム、チャットボット、会話AI、タスク指向、オープンドメイン、チャットチャット、質問回答、人工知能、自然言語処理、情報検索、ディープラーニング、ニューラルネットワーク、CNN、RNN、階層的リカレントエンコーダ-デコーダ、メモリネットワーク、注意、トランスフォーマー、ポインタネット、コピーネット、強化学習、GAN、知識グラフ、調査、レビュー。

Dialogue systems are a popular Natural Language Processing (NLP) task as it is promising in real-life applications. It is also a complicated task since many NLP tasks deserving study are involved. As a result, a multitude of novel works on this task are carried out, and most of them are deep learning-based due to the outstanding performance. In this survey, we mainly focus on the deep learning-based dialogue systems. We comprehensively review state-of-the-art research outcomes in dialogue systems and analyze them from two angles: model type and system type. Specifically, from the angle of model type, we discuss the principles, characteristics, and applications of different models that are widely used in dialogue systems. This will help researchers acquaint these models and see how they are applied in state-of-the-art frameworks, which is rather helpful when designing a new dialogue system. From the angle of system type, we discuss task-oriented and open-domain dialogue systems as two streams of research, providing insight into the hot topics related. Furthermore, we comprehensively review the evaluation methods and datasets for dialogue systems to pave the way for future research. Finally, some possible research trends are identified based on the recent research outcomes. To the best of our knowledge, this survey is the most comprehensive and up-to-date one at present in the area of dialogue systems and dialogue-related tasks, extensively covering the popular frameworks, topics, and datasets. Keywords: Dialogue Systems, Chatbots, Conversational AI, Task-oriented, Open Domain, Chit-chat, Question Answering, Artificial Intelligence, Natural Language Processing, Information Retrieval, Deep Learning, Neural Networks, CNN, RNN, Hierarchical Recurrent Encoder-Decoder, Memory Networks, Attention, Transformer, Pointer Net, CopyNet, Reinforcement Learning, GANs, Knowledge Graph, Survey, Review
翻訳日:2021-05-14 12:24:29 公開日:2021-05-13
# (参考訳) ローカライゼーション・フュージョンのタンパリングのためのオペレーションワイドアテンションネットワーク [全文訳有]

Operation-wise Attention Network for Tampering Localization Fusion ( http://arxiv.org/abs/2105.05515v2 )

ライセンス: CC BY 4.0
Polychronis Charitidis, Giorgos Kordopatis-Zilos, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) 本研究では,画像改ざんのための深層学習に基づくアプローチを提案する。 このアプローチは、複数の画像解析アルゴリズムの結果を組み合わせることを目的としており、専門家の知識を必要とせず、エンドユーザによる解釈が容易な、融合したローカライズマップを提供する。 我々の融合フレームワークは、JPEG画像上のローカライズをスプライシングするための5つの個別タンパリングローカライズ手法を含む。 提案するディープラーニング融合モデルは,入力信号に応じて適切な操作を選択するための注意機構により重み付けされ,複数の操作を並列に実行する画像復元タスクのために最初に提案された適応型アーキテクチャである。 この重み付けプロセスは、複数の画像解析アルゴリズムの出力信号が組み合わされた場合のように、入力信号が非常に多様である場合に非常に有用である。 公に入手可能な3つの鑑識データセットにおける評価は、提案手法のパフォーマンスが競合的であることを示しており、多くのケースにおいて、個々の鑑識技術や最近提案された別の融合フレームワークを上回っている。

In this work, we present a deep learning-based approach for image tampering localization fusion. This approach is designed to combine the outcomes of multiple image forensics algorithms and provides a fused tampering localization map, which requires no expert knowledge and is easier to interpret by end users. Our fusion framework includes a set of five individual tampering localization methods for splicing localization on JPEG images. The proposed deep learning fusion model is an adapted architecture, initially proposed for the image restoration task, that performs multiple operations in parallel, weighted by an attention mechanism to enable the selection of proper operations depending on the input signals. This weighting process can be very beneficial for cases where the input signal is very diverse, as in our case where the output signals of multiple image forensics algorithms are combined. Evaluation in three publicly available forensics datasets demonstrates that the performance of the proposed approach is competitive, outperforming the individual forensics techniques as well as another recently proposed fusion framework in the majority of cases.
翻訳日:2021-05-14 12:23:07 公開日:2021-05-13
# (参考訳) オープンピット鉱山における鉱業のレガシ問題--再自然化と土地利用の革新と支援 [全文訳有]

Mining Legacy Issues in Open Pit Mining Sites: Innovation & Support of Renaturalization and Land Utilization ( http://arxiv.org/abs/2105.05557v2 )

ライセンス: CC BY 4.0
Christopher Schr\"oder, Kim B\"urgl, Yves Annanias, Andreas Niekler, Lydia M\"uller, Daniel Wiegreffe, Christian Bender, Christoph Mengs, Gerik Scheuermann, Gerhard Heyer(参考訳) 露天掘り鉱山は世界中に多くの地域を残した。 これらの地域を再利用するには、土地全体を自然化する必要がある。 その後の持続的使用や新しい一次利用への移動には、多くの汚染された場所や土壌情報を永久に管理する必要がある。 ほとんどの場合、この情報は、非構造化データコレクションやファイルフォルダ内の専門家レポート形式で利用可能であり、最善のケースではデジタル化される。 データのサイズと複雑さのため、信頼できるステートメントを作成できるように、このデータの概観を得ることは困難である。 これは、これらの領域をアフターユースに迅速に移行する上で最も重要な障害の1つである。 この問題に対する情報に基づくアプローチは、環境問題、健康、気候活動に関する持続可能な開発目標の達成を支援する。 我々は,光学的文字認識,テキスト分類,アクティブラーニング,地理情報システムの可視化のスタックを用いて,その情報を効果的にマイニングし,可視化する。 次に,抽出した情報を地理座標にリンクし,地理情報システムを用いて可視化する。 私たちのデータセットはトレーニングデータを提供しないので、アクティブラーニングは重要な役割を果たす。 合計で9つのカテゴリを処理し、データセットでその表現を積極的に学習します。 我々は,OCR,アクティブラーニング,テキスト分類を別々に評価し,システムの性能を報告する。 アクティブラーニングとテキスト分類の結果は2つある: 制約に関するカテゴリが十分に機能する($.85 F1)のに対して、7つのトピック指向のカテゴリは人間のコーダーにとって複雑であり、その結果、中等度評価スコア($.70 F1)を得た。

Open pit mines left many regions worldwide inhospitable or uninhabitable. To put these regions back into use, entire stretches of land must be renaturalized. For the sustainable subsequent use or transfer to a new primary use, many contaminated sites and soil information have to be permanently managed. In most cases, this information is available in the form of expert reports in unstructured data collections or file folders, which in the best case are digitized. Due to size and complexity of the data, it is difficult for a single person to have an overview of this data in order to be able to make reliable statements. This is one of the most important obstacles to the rapid transfer of these areas to after-use. An information-based approach to this issue supports fulfilling several Sustainable Development Goals regarding environment issues, health and climate action. We use a stack of Optical Character Recognition, Text Classification, Active Learning and Geographic Information System Visualization to effectively mine and visualize this information. Subsequently, we link the extracted information to geographic coordinates and visualize them using a Geographic Information System. Active Learning plays a vital role because our dataset provides no training data. In total, we process nine categories and actively learn their representation in our dataset. We evaluate the OCR, Active Learning and Text Classification separately to report the performance of the system. Active Learning and text classification results are twofold: Whereas our categories about restrictions work sufficient ($>$.85 F1), the seven topic-oriented categories were complicated for human coders and hence the results achieved mediocre evaluation scores ($<$.70 F1).
翻訳日:2021-05-14 12:12:52 公開日:2021-05-13
# (参考訳) イマジネーションを実践する:モデルに基づく強化学習における想像軌道の信頼 [全文訳有]

Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning ( http://arxiv.org/abs/2105.05716v2 )

ライセンス: CC BY-SA 4.0
Adrian Remonda, Eduardo Veas, Granit Luzhnica(参考訳) モデルベース強化学習(MBRL)は、世界の不完全なモデルを用いて将来の状態の軌跡を想像し、報酬関数を最大化するために最良の行動を計画する。 これらの軌道は不完全であり、MBRLはモデル予測制御(MPC)に頼って軌道をゼロから連続的に再現することでこれを克服しようとする。 このような想像された軌道の再生成は、大きな計算コストと、長い後退地平線を持つタスクの複雑さの増加をもたらす。 本論文は, 将来, 想定される軌道が, 許容される報酬を維持しつつ, どこまで信頼できるかを検討することを目的とする。 まず,いくつかの難解なベンチマーク制御タスクにおいて,連続するステップ数に対して系統的スキップ再計算を行うための誤り解析を行った。 第2に,想定された軌道を信頼し行動するタイミング,期待に対する最近の誤りを見る方法,あるいはその実行に対して想定される行動の信頼性を比較する方法を提案する。 第3に,世界のモデルを訓練しながら,想像力に及ぼす行動の影響を評価する。 その結果、想像力に基づく行動は、許容される報酬を保ちながら、環境に応じて計算を少なくとも20%、最大80%削減できることが示された。

Model based reinforcement learning (MBRL) uses an imperfect model of the world to imagine trajectories of future states and plan the best actions to maximize a reward function. These trajectories are imperfect and MBRL attempts to overcome this by relying on model predictive control (MPC) to continuously re-imagine trajectories from scratch. Such re-generation of imagined trajectories carries the major computational cost and increasing complexity in tasks with longer receding horizon. This paper aims to investigate how far in the future the imagined trajectories can be relied upon while still maintaining acceptable reward. Firstly, an error analysis is presented for systematic skipping recalculations for varying number of consecutive steps.% in several challenging benchmark control tasks. Secondly, we propose two methods offering when to trust and act upon imagined trajectories, looking at recent errors with respect to expectations, or comparing the confidence in an action imagined against its execution. Thirdly, we evaluate the effects of acting upon imagination while training the model of the world. Results show that acting upon imagination can reduce calculations by at least 20% and up to 80%, depending on the environment, while retaining acceptable reward.
翻訳日:2021-05-14 11:59:02 公開日:2021-05-13
# (参考訳) BertGCN:GCNとBERTを組み合わせたトランスダクティブテキスト分類 [全文訳有]

BertGCN: Transductive Text Classification by Combining GCN and BERT ( http://arxiv.org/abs/2105.05727v2 )

ライセンス: CC BY-SA 4.0
Yuxiao Lin, Yuxian Meng, Xiaofei Sun, Qinghong Han, Kun Kuang, Jiwei Li and Fei Wu(参考訳) 本研究では,テキスト分類のための大規模事前学習とトランスダクティブ学習を組み合わせたモデルbertgcnを提案する。 BertGCNはデータセット上に異種グラフを構築し、BERT表現を使用してドキュメントをノードとして表現する。 BertGCN内でBERTとGCNモジュールを共同でトレーニングすることにより、大量の生データを活用する大規模事前学習と、グラフ畳み込みによってラベルの影響を伝播することにより、トレーニングデータと未ラベルテストデータの表現を共同で学習するトランスダクティブ学習という、両方の世界の利点を活用することができる。 実験により、BertGCNは幅広いテキスト分類データセット上でSOTA性能を達成することが示された。 コードはhttps://github.com/Z eroRin/BertGCN.comで入手できる。

In this work, we propose BertGCN, a model that combines large scale pretraining and transductive learning for text classification. BertGCN constructs a heterogeneous graph over the dataset and represents documents as nodes using BERT representations. By jointly training the BERT and GCN modules within BertGCN, the proposed model is able to leverage the advantages of both worlds: large-scale pretraining which takes the advantage of the massive amount of raw data and transductive learning which jointly learns representations for both training data and unlabeled test data by propagating label influence through graph convolution. Experiments show that BertGCN achieves SOTA performances on a wide range of text classification datasets. Code is available at https://github.com/Z eroRin/BertGCN.
翻訳日:2021-05-14 11:41:39 公開日:2021-05-13
# 画像合成における拡散モデルビートgans

Diffusion Models Beat GANs on Image Synthesis ( http://arxiv.org/abs/2105.05233v3 )

ライセンス: Link先を確認
Prafulla Dhariwal, Alex Nichol(参考訳) 拡散モデルでは,現在の生成モデルよりも画像サンプルの品質が向上することを示す。 我々は,一連のアブレーションにより,より優れたアーキテクチャを求めることにより,無条件画像合成においてこれを実現する。 条件付き画像合成では、分類器からの勾配を用いて、サンプル品質の多様性をトレードオフする単純で計算効率のよい方法である分類器ガイダンスにより、サンプル品質をさらに改善する。 ImageNet 128$\times$128, ImageNet 256$\times$256, ImageNet 512$\times$512では7.72, ImageNet 128$\times$128, 4.59, ImageNet 512$\times$512で2.97のFIDを実現しています。 最後に、分類器誘導はアップサンプリング拡散モデルとうまく結合し、ImageNet 512$\times$512でFIDを3.85に改善する。 コードをhttps://github.com/o penai/guided-diffusi onでリリースします。

We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for sample quality using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128$\times$128, 4.59 on ImageNet 256$\times$256, and 7.72 on ImageNet 512$\times$512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.85 on ImageNet 512$\times$512. We release our code at https://github.com/o penai/guided-diffusi on
翻訳日:2021-05-14 11:32:42 公開日:2021-05-13
# 教師なしドメイン適応人物再同定のためのグラフ一貫性に基づく平均指導

Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2105.04776v2 )

ライセンス: Link先を確認
Xiaobin Liu, Shiliang Zhang(参考訳) 近年の研究では、平均学習は教師なしドメイン適応型人物再同定に有効なフレームワークであることが示されている。 しかし,既存の手法では,教師と学生のネットワーク間の選択したサンプルに対して,擬似ラベルのノイズに敏感なコントラスト学習を行い,ほとんどのサンプル間の関係を無視する。 さらに、これらの手法は異なる教師ネットワークの協調に有効ではない。 本稿では,教師と生徒のネットワーク間のグラフ一貫性制約(gcc)を構築することにより,グラフ一貫性に基づく平均指導法を提案する。 具体的には,教師ネットワークを用いて対応する特徴を抽出し,教師ネットワーク毎に教師グラフを作成し,学習画像間の類似性を記述する。 表現学習を強化するために、異なる教師グラフを融合させ、生徒ネットワークを最適化するための監督信号を提供する。 GCMTは、教師ネットワークによって予測される類似性関係を監督として融合し、より多くのサンプル関係を持つ学生ネットワークを効果的に最適化する。 マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。 特にGCMTは、より深いバックボーンを使用する以前のメソッドよりも優れています。 実験の結果、gcmtは、複数の教師と学生ネットワークのパフォーマンスを効果的に向上できることが示された。 私たちのコードはhttps://github.com/l iu-xb/GCMTで利用可能です。

Recent works show that mean-teaching is an effective framework for unsupervised domain adaptive person re-identification. However, existing methods perform contrastive learning on selected samples between teacher and student networks, which is sensitive to noises in pseudo labels and neglects the relationship among most samples. Moreover, these methods are not effective in cooperation of different teacher networks. To handle these issues, this paper proposes a Graph Consistency based Mean-Teaching (GCMT) method with constructing the Graph Consistency Constraint (GCC) between teacher and student networks. Specifically, given unlabeled training images, we apply teacher networks to extract corresponding features and further construct a teacher graph for each teacher network to describe the similarity relationships among training images. To boost the representation learning, different teacher graphs are fused to provide the supervise signal for optimizing student networks. GCMT fuses similarity relationships predicted by different teacher networks as supervision and effectively optimizes student networks with more sample relationships involved. Experiments on three datasets, i.e., Market-1501, DukeMTMCreID, and MSMT17, show that proposed GCMT outperforms state-of-the-art methods by clear margin. Specially, GCMT even outperforms the previous method that uses a deeper backbone. Experimental results also show that GCMT can effectively boost the performance with multiple teacher and student networks. Our code is available at https://github.com/l iu-xb/GCMT .
翻訳日:2021-05-14 11:32:18 公開日:2021-05-13
# SemEval-2021 Task 1: Enhancing Model Generalization and Robustness for Lexical Complexity Prediction

OCHADAI-KYODAI at SemEval-2021 Task 1: Enhancing Model Generalization and Robustness for Lexical Complexity Prediction ( http://arxiv.org/abs/2105.05535v2 )

ライセンス: Link先を確認
Yuki Taya, Lis Kanashiro Pereira, Fei Cheng, Ichiro Kobayashi(参考訳) 本稿では,単語と多語表現(mwes)の語彙複雑性を予測するアンサンブルモデルを提案する。 モデルは、目的語またはMWEandを入力として入力し、その複雑性スコアを出力する。 このタスクの重要な課題は、注釈付きデータのサイズが限られていることを踏まえると、我々のモデルは、さまざまな最先端トランスフォーマーベースの言語モデル(bertとroberta)からの事前学習された文脈表現と、モデルの一般化と堅牢性をさらに強化するための様々なトレーニング方法に依存している。 さらに,訓練中に手作りの特徴を追加することで,文脈表現の充実を図ることを提案する。 本モデルは,両サブタスクの上位10システムにランクインした。

We propose an ensemble model for predicting the lexical complexity of words and multiword expressions (MWEs). The model receives as input a sentence with a target word or MWEand outputs its complexity score. Given that a key challenge with this task is the limited size of annotated data, our model relies on pretrained contextual representations from different state-of-the-art transformer-based language models (i.e., BERT and RoBERTa), and on a variety of training methods for further enhancing model generalization and robustness:multi-ste p fine-tuning and multi-task learning, and adversarial training. Additionally, we propose to enrich contextual representations by adding hand-crafted features during training. Our model achieved competitive results and ranked among the top-10 systems in both sub-tasks.
翻訳日:2021-05-14 11:31:54 公開日:2021-05-13
# WildGait: ローサーベイランスストリームからの歩行表現の学習

WildGait: Learning Gait Representations from Raw Surveillance Streams ( http://arxiv.org/abs/2105.05528v2 )

ライセンス: Link先を確認
Adrian Cosma, Emilian Radoi(参考訳) 個人識別における歩行の使用は、非侵襲的、控えめで、協力を必要とせず、他のバイオメトリックスと比べて見えにくいといった重要な利点がある。 既存の歩行認識手法では、カメラの前で1人が何回も直線で歩き回っているような、協調歩行シナリオが必要となる。 我々は、カメラフィードが複数の人を捉え、多くの場合、カメラの前に1回しか通らない現実のシナリオの難題に対処することを目指している。 我々は,歩行者の動作情報のみを使用して,見た目に基づく情報を持たないプライバシー問題に対処する。 そこで本研究では,生のリアルタイム監視ストリームから得られた多数の自動注釈付きスケルトンシーケンス上で時空間グラフ畳み込みネットワークを訓練し,有用な歩行シグネチャを学習する,新しい弱教師付き学習フレームワークwildgaitを提案する。 以上の結果から,現状のポーズに基づく歩容認識ソリューションは,微調整により認識精度を上回った。 提案手法は,制約のない環境,特にアノテート量が少ない環境での歩行認識の訓練において信頼性が高い。 CASIA-Bでは84.43%、FVGでは71.3%、トレーニングデータでは10%に過ぎなかった。 これは、事前トレーニングせずに同じネットワークを使用する場合の、各データセットの29%と38%の精度向上からなる。

The use of gait for person identification has important advantages such as being non-invasive, unobtrusive, not requiring cooperation and being less likely to be obscured compared to other biometrics. Existing methods for gait recognition require cooperative gait scenarios, in which a single person is walking multiple times in a straight line in front of a camera. We aim to address the hard challenges of real-world scenarios in which camera feeds capture multiple people, who in most cases pass in front of the camera only once. We address privacy concerns by using only motion information of walking individuals, with no identifiable appearance-based information. As such, we propose a novel weakly supervised learning framework, WildGait, which consists of training a Spatio-Temporal Graph Convolutional Network on a large number of automatically annotated skeleton sequences obtained from raw, real-world, surveillance streams to learn useful gait signatures. Our results show that, with fine-tuning, we surpass in terms of recognition accuracy the current state-of-the-art pose-based gait recognition solutions. Our proposed method is reliable in training gait recognition methods in unconstrained environments, especially in settings with scarce amounts of annotated data. We obtain an accuracy of 84.43% on CASIA-B and 71.3% on FVG, while using only 10% of the available training data. This consists of 29% and 38% accuracy improvement on the respective datasets when using the same network without pretraining.
翻訳日:2021-05-14 11:31:36 公開日:2021-05-13
# Wassersteinの不確かさ下でのロバストグラフ学習

Robust Graph Learning Under Wasserstein Uncertainty ( http://arxiv.org/abs/2105.04210v2 )

ライセンス: Link先を確認
Xiang Zhang, Yinfei Xu, Qinghe Liu, Zhicheng Liu, Jian Lu and Qiao Wang(参考訳) グラフは信号間の内在的な関係を明らかにする強力なツールであるため、さまざまな分野で重要な役割を果たす。 多くのシナリオでは、信号を表す正確なグラフ構造は全く利用できず、観察した信号から直接信頼できるグラフ構造を学ぶ動機となる。 しかし,実生活では,ノイズ測定や観測可能性の制限により観測信号に不確実性が存在することが避けられないため,学習グラフの信頼性が低下する。 そこで本研究では,wasserstein distributionally robust optimization (wdro) を用いたグラフ学習フレームワークを提案する。 具体的には、2つのモデルが開発され、1つは不確かさ集合のすべての分布がガウス分布であると仮定し、もう1つは事前分布仮定を持たない。 インテリアポイント法を直接使用する代わりに,対応するモデルを解くための2つのアルゴリズムを提案し,アルゴリズムがより時間節約されていることを示す。 さらに,2つのモデルをSDP(Semi-Definite Programming)に再構成し,大規模グラフのシナリオにおいてそれらが難解であることを示す。 提案手法が不確実性の文脈で信頼性のあるグラフを学習できることを実証するために, 合成データと実世界のデータの両方を用いて実験を行った。

Graphs are playing a crucial role in different fields since they are powerful tools to unveil intrinsic relationships among signals. In many scenarios, an accurate graph structure representing signals is not available at all and that motivates people to learn a reliable graph structure directly from observed signals. However, in real life, it is inevitable that there exists uncertainty in the observed signals due to noise measurements or limited observability, which causes a reduction in reliability of the learned graph. To this end, we propose a graph learning framework using Wasserstein distributionally robust optimization (WDRO) which handles uncertainty in data by defining an uncertainty set on distributions of the observed data. Specifically, two models are developed, one of which assumes all distributions in uncertainty set are Gaussian distributions and the other one has no prior distributional assumption. Instead of using interior point method directly, we propose two algorithms to solve the corresponding models and show that our algorithms are more time-saving. In addition, we also reformulate both two models into Semi-Definite Programming (SDP), and illustrate that they are intractable in the scenario of large-scale graph. Experiments on both synthetic and real world data are carried out to validate the proposed framework, which show that our scheme can learn a reliable graph in the context of uncertainty.
翻訳日:2021-05-14 11:31:13 公開日:2021-05-13
# 群集距離に基づく2つの新しい特徴選択アルゴリズム

Two novel features selection algorithms based on crowding distance ( http://arxiv.org/abs/2105.05212v2 )

ライセンス: Link先を確認
Abdesslem Layeb(参考訳) 本稿では,特徴選択のための2つの新しいアルゴリズムを提案する。 ひとつはフィルタメソッド、もうひとつはラッパーメソッドです。 提案するアルゴリズムはいずれも,多目的最適化で使用される混雑距離を指標として,特徴のソートを行う。 混み合わない機能は、ターゲット属性(クラス)に大きな影響を与えます。 実験により,提案アルゴリズムの有効性とロバスト性を示した。

In this paper, two novel algorithms for features selection are proposed. The first one is a filter method while the second is wrapper method. Both the proposed algorithms use the crowding distance used in the multiobjective optimization as a metric in order to sort the features. The less crowded features have great effects on the target attribute (class). The experimental results have shown the effectiveness and the robustness of the proposed algorithms.
翻訳日:2021-05-14 11:30:51 公開日:2021-05-13
# モバイルエッジネットワークにおける強化学習支援キャッシングに関する調査

A Survey on Reinforcement Learning-Aided Caching in Mobile Edge Networks ( http://arxiv.org/abs/2105.05564v2 )

ライセンス: Link先を確認
Nikolaos Nomikos, Spyros Zoupanos, Themistoklis Charalambous, Ioannis Krikidis, Athina Petropulu(参考訳) モバイルネットワークは、データ量とユーザ密度が大幅に増加している。 この問題を軽減する効率的な手法は、固定アクセスポイントやモバイルアクセスポイント、さらにはユーザデバイスといったエッジネットワークノードのキャッシュを利用して、データをユーザに近づけることである。 一方、機械学習と無線ネットワークの融合は、複雑性の高い従来の最適化アプローチとは対照的に、ネットワーク最適化のための実行可能な手段を提供する。 さまざまな機械学習カテゴリの中で、強化学習はトレーニングのための大量の履歴データに頼ることなく、オンラインおよび自律的な操作を行う。 本調査では,従来のキャッシュ方式よりもネットワークゲインの達成率を高めることを目的とした,強化学習支援モバイルエッジキャッシュを提案する。 固定, 車両, 飛行ネットワークなどの無線環境における第6世代(6G)ネットワークの不均一性を考慮し, 従来のアーキテクチャから離れて学習支援エッジキャッシングを行う。 さらに、スペクトル、エネルギー及びキャッシング効率、平均遅延、バックホール及びフロントホールオフロード等の所望の性能指標に応じた分類を提供する。 最後に、この重要な研究分野へのさらなる関心を刺激するために、いくつかのオープンな課題について論じる。

Mobile networks are experiencing tremendous increase in data volume and user density. An efficient technique to alleviate this issue is to bring the data closer to the users by exploiting the caches of edge network nodes, such as fixed or mobile access points and even user devices. Meanwhile, the fusion of machine learning and wireless networks offers a viable way for network optimization as opposed to traditional optimization approaches which incur high complexity, or fail to provide optimal solutions. Among the various machine learning categories, reinforcement learning operates in an online and autonomous manner without relying on large sets of historical data for training. In this survey, reinforcement learning-aided mobile edge caching is presented, aiming at highlighting the achieved network gains over conventional caching approaches. Taking into account the heterogeneity of sixth generation (6G) networks in various wireless settings, such as fixed, vehicular and flying networks, learning-aided edge caching is presented, departing from traditional architectures. Furthermore, a categorization according to the desirable performance metric, such as spectral, energy and caching efficiency, average delay, and backhaul and fronthaul offloading is provided. Finally, several open issues are discussed, targeting to stimulate further interest in this important research field.
翻訳日:2021-05-14 11:30:47 公開日:2021-05-13