このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210323となっている論文です。

PDF登録状況(公開日: 20210323)

TitleAuthorsAbstract論文公表日・翻訳日
# 座標に基づく神経表現の最適化のための学習初期化

Learned Initializations for Optimizing Coordinate-Based Neural Representations ( http://arxiv.org/abs/2012.02189v2 )

ライセンス: Link先を確認
Matthew Tancik, Ben Mildenhall, Terrance Wang, Divi Schmidt, Pratul P. Srinivasan, Jonathan T. Barron, Ren Ng(参考訳) 座標に基づく神経表現は、複雑な低次元信号に対する離散的な配列に基づく表現の代替として大きな期待が持たれている。 しかし、新しい信号ごとにランダムに初期化された重みから座標ネットワークを最適化するのは非効率である。 提案するメタラーニングアルゴリズムは,表現される信号の下位クラス(例えば,顔の画像や椅子の3次元モデル)に基づいて,これらの完全接続ネットワークの初期重みパラメータを学習する。 実装の小さな変更しか必要としないが、学習された初期重みを用いることで、最適化中により高速な収束が可能になり、モデル化される信号クラスよりも強力なプリエンスとして機能し、与えられた信号の部分的な観測のみが可能な場合の一般化が向上する。 2次元画像の表現、ctスキャンの再構成、および2次元画像からの3次元形状とシーンの復元など、さまざまなタスクでこれらの利点を探求する。

Coordinate-based neural representations have shown significant promise as an alternative to discrete, array-based representations for complex low dimensional signals. However, optimizing a coordinate-based network from randomly initialized weights for each new signal is inefficient. We propose applying standard meta-learning algorithms to learn the initial weight parameters for these fully-connected networks based on the underlying class of signals being represented (e.g., images of faces or 3D models of chairs). Despite requiring only a minor change in implementation, using these learned initial weights enables faster convergence during optimization and can serve as a strong prior over the signal class being modeled, resulting in better generalization when only partial observations of a given signal are available. We explore these benefits across a variety of tasks, including representing 2D images, reconstructing CT scans, and recovering 3D shapes and scenes from 2D image observations.
翻訳日:2021-05-23 14:51:44 公開日:2021-03-23
# 全スケールでのパノプティカルセグメンテーションの改善

Improving Panoptic Segmentation at All Scales ( http://arxiv.org/abs/2012.07717v2 )

ライセンス: Link先を確認
Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder(参考訳) クロップベースのトレーニング戦略は、トレーニング解決をGPUメモリ消費から切り離し、マルチメガピクセルイメージに大容量の汎光学セグメントネットワークを使用できる。 しかし、作物を使うことは大きな物体の切り離しや欠落にバイアスをもたらす可能性がある。 そこで本研究では,作物の外側に延ばすために過剰にペナルティを与えることなく,切り取られた物体の目に見える部分と一致した予測を促進させる新しい作物認識バウンディングボックスレグレッションロス(cabbロス)を提案する。 さらに,オブジェクトサイズの不均衡な分布に対抗して,スケール全体の一般化を改善する新しいデータサンプリング・拡張戦略も導入する。 これら2つの貢献と、慎重に設計されたトップダウンのパンオプティカルセグメンテーションアーキテクチャを組み合わせることで、従来のmvdのアプローチを+4.5%pqと+5.2%のmapで上回る、挑戦的なmapillary vistas(mvd)、インドの運転および都市景観データセットに関する最新の結果が得られる。

Crop-based training strategies decouple training resolution from GPU memory consumption, allowing the use of large-capacity panoptic segmentation networks on multi-megapixel images. Using crops, however, can introduce a bias towards truncating or missing large objects. To address this, we propose a novel crop-aware bounding box regression loss (CABB loss), which promotes predictions to be consistent with the visible parts of the cropped objects, while not over-penalizing them for extending outside of the crop. We further introduce a novel data sampling and augmentation strategy which improves generalization across scales by counteracting the imbalanced distribution of object sizes. Combining these two contributions with a carefully designed, top-down panoptic segmentation architecture, we obtain new state-of-the-art results on the challenging Mapillary Vistas (MVD), Indian Driving and Cityscapes datasets, surpassing the previously best approach on MVD by +4.5% PQ and +5.2% mAP.
翻訳日:2021-05-08 14:28:19 公開日:2021-03-23
# (参考訳) CSKG: CommonSenseの知識グラフ [全文訳有]

CSKG: The CommonSense Knowledge Graph ( http://arxiv.org/abs/2012.11490v2 )

ライセンス: CC BY 4.0
Filip Ilievski, Pedro Szekely, Bin Zhang(参考訳) 常識知識の源泉は、自然言語理解、コンピュータビジョン、知識グラフの応用を支援する。 相補性を考えると、統合が望まれる。 しかし、それらの異なる焦点、モデリングアプローチ、スパースオーバーラップは統合を困難にする。 本稿では,コモンセンス知識を5つの原則に従って統合し,第1統合コモンセンス知識グラフ(CSKG)に7つのキーソースを組み合わせる。 我々はCSKGとその各種テキストおよびグラフ埋め込みを分析し、CSKGが十分に接続されており、その埋め込みがグラフへの有用なエントリポイントを提供することを示す。 CSKGは、一般化可能な下流推論と言語モデルの事前学習のための証拠を提供する。 CSKGとその埋め込みは、コモンセンス知識の統合と推論に関するさらなる研究を支援するために公開されている。

Sources of commonsense knowledge support applications in natural language understanding, computer vision, and knowledge graphs. Given their complementarity, their integration is desired. Yet, their different foci, modeling approaches, and sparse overlap make integration difficult. In this paper, we consolidate commonsense knowledge by following five principles, which we apply to combine seven key sources into a first integrated CommonSense Knowledge Graph (CSKG). We analyze CSKG and its various text and graph embeddings, showing that CSKG is well-connected and that its embeddings provide a useful entry point to the graph. We demonstrate how CSKG can provide evidence for generalizable downstream reasoning and for pre-training of language models. CSKG and all its embeddings are made publicly available to support further research on commonsense knowledge integration and reasoning.
翻訳日:2021-04-27 11:38:53 公開日:2021-03-23
# 行動単位検出と特徴集約による目的クラスに基づくマイクロ圧縮認識

Objective Class-based Micro-Expression Recognition through Simultaneous Action Unit Detection and Feature Aggregation ( http://arxiv.org/abs/2012.13148v2 )

ライセンス: Link先を確認
Ling Zhou, Qirong Mao, Ming Dong(参考訳) 顔の異なる動作領域で微妙な変化が起こるため、マイクロ表現認識(mer)は難しい課題である。 顔のアクション領域の変化はアクションユニット(AU)として形成され、マイクロ表現におけるAUは協調グループ活動におけるアクターとして見ることができる。 本稿では,auレベルの特徴を同時に検出し,グラフ畳み込みネットワーク(gcn)によるマイクロ表現レベル表現に集約する,客観的クラスベースmerのための深層ニューラルネットワークモデルを提案する。 具体的には,より効果的なau特徴学習のためのau検出モジュールにおいて,注意機構とバランスド検出損失関数という2つの新しい戦略を提案する。 これら2つの戦略により、すべてのauを統一したモデルで学習し、エラー検出プロセスと各auに対する退屈な分離トレーニングを排除する。 さらに,本モデルでは,GCNがAUレベルの特徴をマイクロ圧縮レベルの特徴表現に集約しやすくする目的クラスベースAUナレッジグラフを組み込んでいる。 MEGC 2018における2つのタスクに関する大規模な実験は、我々のアプローチがMERの最先端技術よりも大幅に優れていることを示している。 さらに, 単一モデルによるau検出結果についても報告する。

Micro-Expression Recognition (MER) is a challenging task as the subtle changes occur over different action regions of a face. Changes in facial action regions are formed as Action Units (AUs), and AUs in micro-expressions can be seen as the actors in cooperative group activities. In this paper, we propose a novel deep neural network model for objective class-based MER, which simultaneously detects AUs and aggregates AU-level features into micro-expression-lev el representation through Graph Convolutional Networks (GCN). Specifically, we propose two new strategies in our AU detection module for more effective AU feature learning: the attention mechanism and the balanced detection loss function. With those two strategies, features are learned for all the AUs in a unified model, eliminating the error-prune landmark detection process and tedious separate training for each AU. Moreover, our model incorporates a tailored objective class-based AU knowledge-graph, which facilitates the GCN to aggregate the AU-level features into a micro-expression-lev el feature representation. Extensive experiments on two tasks in MEGC 2018 show that our approach significantly outperforms the current state-of-the-arts in MER. Additionally, we also report our single model-based micro-expression AU detection results.
翻訳日:2021-04-25 08:15:29 公開日:2021-03-23
# 多目的コンフリクトに基づくマルチエージェント経路探索

Multi-objective Conflict-based Search for Multi-agent Path Finding ( http://arxiv.org/abs/2101.03805v2 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) 従来のマルチエージェントパスプランナーは通常、経路長のような単一の目的を最適化しながら経路のアンサンブルを計算する。 しかし、多くのアプリケーションでは、燃料消費や完了時間といった複数の目的を計画中に同時に最適化する必要があり、これらの基準は容易に比較されず、時には互いに競合することもある。 既存の多目的探索アルゴリズムをマルチエージェントパス探索に適用することは、可能解の空間のサイズ、すなわちパレート最適集合がエージェントの数(探索空間の次元)とともに指数関数的に増加するため、非効率であることが証明される。 本稿では,多目的コンフリクトベースサーチ(mo-cbs)という手法を提案する。これは,先行的コンフリクトベースサーチ(cbs),単一目的マルチエージェントパス探索のためのよく知られたアルゴリズム,多目的最適化文献からの優位性の原則を利用して,このいわゆる次元の呪いを回避している。 我々はMO-CBSがパレート最適集合全体を計算できることを証明する。 以上の結果から,MO-CBS は標準多目的 A* アルゴリズムが有界時間内に見つからない数百のパレート最適解の問題を解くことができることがわかった。

Conventional multi-agent path planners typically compute an ensemble of paths while optimizing a single objective, such as path length. However, many applications may require multiple objectives, say fuel consumption and completion time, to be simultaneously optimized during planning and these criteria may not be readily compared and sometimes lie in competition with each other. Naively applying existing multi-objective search algorithms to multi-agent path finding may prove to be inefficient as the size of the space of possible solutions, i.e., the Pareto-optimal set, can grow exponentially with the number of agents (the dimension of the search space). This article presents an approach named Multi-objective Conflict-based Search (MO-CBS) that bypasses this so-called curse of dimensionality by leveraging prior Conflict-based Search (CBS), a well-known algorithm for single-objective multi-agent path finding, and principles of dominance from multi-objective optimization literature. We prove that MO-CBS is able to compute the entire Pareto-optimal set. Our results show that MO-CBS can solve problem instances with hundreds of Pareto-optimal solutions which the standard multi-objective A* algorithms could not find within a bounded time.
翻訳日:2021-04-04 14:34:00 公開日:2021-03-23
# 階層的幅型計画と学習

Hierarchical Width-Based Planning and Learning ( http://arxiv.org/abs/2101.06177v2 )

ライセンス: Link先を確認
Miquel Junyent, Vicen\c{c} G\'omez, Anders Jonsson(参考訳) 幅ベースの検索手法は、古典的な計画問題からatariゲームのようなイメージベースのシミュレータまで、幅広いテストベッドで最先端のパフォーマンスを示している。 これらの方法は状態空間の大きさとは独立にスケールするが、問題幅は指数関数的に大きくなる。 実際には、1より大きい幅でアルゴリズムを実行するのは計算が難しいため、iwは高い幅の問題を解決することができない。 本稿では,2段階の抽象化を計画する階層型アルゴリズムを提案する。 ハイレベルプランナーは、低レベルのプルーニング決定から徐々に発見される抽象的な機能を使用する。 我々は,このアルゴリズムを従来のプランニングpddlドメインとピクセルベースのシミュレータドメインで示す。 古典的な計画では、2つの抽象レベルでiw(1)がどのように幅2の問題を解決するかを示す。 画素ベースのドメインでは、学習ポリシーと学習価値関数を組み合わせることで、提案した階層型IWが、アタリゲームにおける現在のフラットIWベースのプランナーを、少ない報酬で上回ることを示す。

Width-based search methods have demonstrated state-of-the-art performance in a wide range of testbeds, from classical planning problems to image-based simulators such as Atari games. These methods scale independently of the size of the state-space, but exponentially in the problem width. In practice, running the algorithm with a width larger than 1 is computationally intractable, prohibiting IW from solving higher width problems. In this paper, we present a hierarchical algorithm that plans at two levels of abstraction. A high-level planner uses abstract features that are incrementally discovered from low-level pruning decisions. We illustrate this algorithm in classical planning PDDL domains as well as in pixel-based simulator domains. In classical planning, we show how IW(1) at two levels of abstraction can solve problems of width 2. For pixel-based domains, we show how in combination with a learned policy and a learned value function, the proposed hierarchical IW can outperform current flat IW-based planners in Atari games with sparse rewards.
翻訳日:2021-03-28 11:20:52 公開日:2021-03-23
# ベイジアンネットワーク構造学習のあらゆる部分

Any Part of Bayesian Network Structure Learning ( http://arxiv.org/abs/2103.13810v1 )

ライセンス: Link先を確認
Zhaolong Ling, Kui Yu, Hao Wang, Lin Liu, and Jiuyong Li(参考訳) ベイズネットワーク(BN)構造の一部を学習し、興味深く挑戦的な問題を研究する。 この課題では、既存のグローバルBN構造学習アルゴリズムを用いて、関心のあるBN構造の一部を達成するためにBN構造全体の探索を行う。 そして、ローカルBN構造学習アルゴリズムは、この課題に対処するために直接使用される際に、偽エッジ指向問題に遭遇する。 本稿では,まず,局所的なBN構造学習手法がなぜ疑似エッジ指向問題を持つのかを説明するために,拡張-バックトラックという新しい概念を提案し,その上で,効率よく正確なBN構造学習アルゴリズムであるAPSLを提案する。 具体的には、apslはv-構造をマーカフブランケット(mb)のv-構造と非コリダーv-構造に分割し、次にv-構造が興味のあるノードから始まり、衝突型v-構造と非コリダー型v-構造の両方を、我々が関心を持つbn構造の一部が向き付けられるまで再帰的に発見する。 我々はAPSLの効率を改善するために,特徴選択を用いたAPSL-FSアルゴリズム,APSL-FSを設計する。 6つのベンチマークBNを用いて,提案手法の有効性と精度を検証した。

We study an interesting and challenging problem, learning any part of a Bayesian network (BN) structure. In this challenge, it will be computationally inefficient using existing global BN structure learning algorithms to find an entire BN structure to achieve the part of a BN structure in which we are interested. And local BN structure learning algorithms encounter the false edge orientation problem when they are directly used to tackle this challenging problem. In this paper, we first present a new concept of Expand-Backtracking to explain why local BN structure learning methods have the false edge orientation problem, then propose APSL, an efficient and accurate Any Part of BN Structure Learning algorithm. Specifically, APSL divides the V-structures in a Markov blanket (MB) into two types: collider V-structure and non-collider V-structure, then it starts from a node of interest and recursively finds both collider V-structures and non-collider V-structures in the found MBs, until the part of a BN structure in which we are interested are oriented. To improve the efficiency of APSL, we further design the APSL-FS algorithm using Feature Selection, APSL-FS. Using six benchmark BNs, the extensive experiments have validated the efficiency and accuracy of our methods.
翻訳日:2021-03-26 13:57:31 公開日:2021-03-23
# 逆学習によるロバスト・高精度物体検出

Robust and Accurate Object Detection via Adversarial Learning ( http://arxiv.org/abs/2103.13886v1 )

ライセンス: Link先を確認
Xiangning Chen, Cihang Xie, Mingxing Tan, Li Zhang, Cho-Jui Hsieh, Boqing Gong(参考訳) データ拡張は、ハイパフォーマンスなディープイメージ分類器をトレーニングするためのデファクトコンポーネントになっているが、オブジェクト検出には未検討である。 多くの最先端のオブジェクト検出器は、事前訓練された分類器を微調整することで恩恵を受けることに注意し、まず、様々なデータ拡張転送からオブジェクト検出への分類器の利得について検討する。 結果は抑えられ、精度または堅牢性の観点から微調整すると利得は減少する。 この研究は、モデル依存のデータ拡張と見なすことができる敵の例を探索することで、オブジェクト検出器の微調整段階を補強する。 本手法は,検出器の分類と位置化枝から得られる強い対向画像を動的に選択し,検出器とともに進化させ,拡張ポリシーの現在および関連性を維持する。 このモデル依存の強化は、特定の検出器に基づいて探索されるモデル非依存の拡張ポリシーであるautoaugmentよりも、異なるオブジェクト検出器に一般化する。 提案手法は,COCOオブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。 また、検出器の自然な歪みに対する堅牢性は+3.8 mAP、ドメインシフトに対する+1.3 mAP向上する。

Data augmentation has become a de facto component for training high-performance deep image classifiers, but its potential is under-explored for object detection. Noting that most state-of-the-art object detectors benefit from fine-tuning a pre-trained classifier, we first study how the classifiers' gains from various data augmentations transfer to object detection. The results are discouraging; the gains diminish after fine-tuning in terms of either accuracy or robustness. This work instead augments the fine-tuning stage for object detectors by exploring adversarial examples, which can be viewed as a model-dependent data augmentation. Our method dynamically selects the stronger adversarial images sourced from a detector's classification and localization branches and evolves with the detector to ensure the augmentation policy stays current and relevant. This model-dependent augmentation generalizes to different object detectors better than AutoAugment, a model-agnostic augmentation policy searched based on one particular detector. Our approach boosts the performance of state-of-the-art EfficientDets by +1.1 mAP on the COCO object detection benchmark. It also improves the detectors' robustness against natural distortions by +3.8 mAP and against domain shift by +1.3 mAP.
翻訳日:2021-03-26 13:49:28 公開日:2021-03-23
# 進化的知識蒸留による学生ネットワーク学習

Student Network Learning via Evolutionary Knowledge Distillation ( http://arxiv.org/abs/2103.13811v1 )

ライセンス: Link先を確認
Kangkai Zhang, Chunhui Zhang, Shikun Li, Dan Zeng, Shiming Ge(参考訳) 知識蒸留は、教師-学生学習を通じて知識を伝達する効果的な方法を提供し、既存の蒸留アプローチのほとんどは、教師として一定の事前学習モデルを適用して学生ネットワークの学習を監督する。 この方法は通常、学習中に教師と学生のネットワークの間に大きなギャップをもたらす。 近年の研究では、教師と学生の能力格差が知識伝達を促進することが報告されている。 そこで我々は,教師の知識の伝達効率を向上させるために,進化的知識蒸留手法を提案する。 進化的教師は、固定された予習教師の代わりにオンラインで学習され、学生ネットワーク学習を監督するために、中間的知識を継続的に伝達する。 中間知識表現と模倣を強化するため、教師-学生ブロック間でいくつかの簡単なガイド付きモジュールが導入された。 このようにして、学生は豊富な内部知識を同時に獲得し、その成長過程を捉え、効果的なネットワーク学習につながる。 広汎な実験により、低解像度・少数サンプルの視覚認識シナリオにおいて、我々のアプローチの有効性と適応性が明らかとなった。

Knowledge distillation provides an effective way to transfer knowledge via teacher-student learning, where most existing distillation approaches apply a fixed pre-trained model as teacher to supervise the learning of student network. This manner usually brings in a big capability gap between teacher and student networks during learning. Recent researches have observed that a small teacher-student capability gap can facilitate knowledge transfer. Inspired by that, we propose an evolutionary knowledge distillation approach to improve the transfer effectiveness of teacher knowledge. Instead of a fixed pre-trained teacher, an evolutionary teacher is learned online and consistently transfers intermediate knowledge to supervise student network learning on-the-fly. To enhance intermediate knowledge representation and mimicking, several simple guided modules are introduced between corresponding teacher-student blocks. In this way, the student can simultaneously obtain rich internal knowledge and capture its growth process, leading to effective student network learning. Extensive experiments clearly demonstrate the effectiveness of our approach as well as good adaptability in the low-resolution and few-sample visual recognition scenarios.
翻訳日:2021-03-26 13:32:33 公開日:2021-03-23
# リフレーミング需要予測--間欠需要と間欠需要の2倍のアプローチ

Reframing demand forecasting: a two-fold approach for lumpy and intermittent demand ( http://arxiv.org/abs/2103.13812v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Dunja Mladeni\'c(参考訳) 需要予測は需要管理の重要な要素である。 予測の地平線を短くすることで、より最近のデータと不確実性が少なくなりますが、これはしばしば、データ集約レベルを低くし、より重要なデータスパリティを意味します。 スパース需要データは通常、スパースと不規則な需要間隔を持つ欠如または断続的な需要パターンをもたらす。 統計モデルと機械学習モデルでは、このようなシナリオでは良い予測が得られない。 本研究は,需要発生予測と需要規模推定の2つのモデルにより,競争需要予測が得られることを示す。 本研究では,局所的およびグローバルな機械学習モデルの利用状況を分析し,ベースライン手法と比較する。 最後に,塊状および間欠的な需要予測モデルの性能評価基準を提案する。 本研究は,需要イベントの発生予測において,グローバル分類モデルが最善の選択であることを示す。 需要規模を予測する際には, 簡易指数平滑化予測を用いて最適な結果を得た。 我々は,ヨーロッパの自動車機器メーカーの日常需要に対応する3年連続時系列516を用いて,実世界のデータに対するアプローチを検証した。

Demand forecasting is a crucial component of demand management. While shortening the forecasting horizon allows for more recent data and less uncertainty, this frequently means lower data aggregation levels and a more significant data sparsity. Sparse demand data usually results in lumpy or intermittent demand patterns, which have sparse and irregular demand intervals. Usual statistical and machine learning models fail to provide good forecasts in such scenarios. Our research shows that competitive demand forecasts can be obtained through two models: predicting the demand occurrence and estimating the demand size. We analyze the usage of local and global machine learning models for both cases and compare results against baseline methods. Finally, we propose a novel evaluation criterion of lumpy and intermittent demand forecasting models' performance. Our research shows that global classification models are the best choice when predicting demand event occurrence. When predicting demand sizes, we achieved the best results using Simple Exponential Smoothing forecast. We tested our approach on real-world data consisting of 516 three-year-long time series corresponding to European automotive original equipment manufacturers' daily demand.
翻訳日:2021-03-26 13:32:17 公開日:2021-03-23
# 電子イオン化質量分析のための自動フラグメント同定:ハロカーボンの大気計測への応用

Automated fragment identification for electron ionisation mass spectrometry: application to atmospheric measurements of halocarbons ( http://arxiv.org/abs/2103.13807v1 )

ライセンス: Link先を確認
Myriam Guillevic (EMPA), Aurore Guillevic (CARAMBA), Martin Vollmer (EMPA), Paul Schlauri (EMPA), Matthias Hill (EMPA), Lukas Emmenegger (EMPA), Stefan Reimann (EMPA)(参考訳) 背景: 標的でないスクリーニングは、疑わしい、あるいは未知のすべての現在の物質のサンプルを探索することであり、サンプルに関する事前知識はほとんどない。 このアプローチは10年以上前に水分析の分野で導入されたが、大気の微量ガス組成をよりよく理解する必要性はあるものの、室内および大気中の微量ガス測定にはまだ不足している。 大気中に出現する微量ガスを系統的に検出するために、新しい強力な分析法は、高濃度試料のガスクロマトグラフィー(GC)、続いて電子イオン化、高分解能質量分析法(EI-HRMS)である。 本研究では,gc-ei-hrmsによる未知化合物の自動同定を可能にするデータ解析ツールを提案する。 結果: 質量/電荷の破片を共同計算し, 効率的なコンビネータとグラフ理論を用いて, 破片の化学式を確実に再構築する革新的なデータ解析法を開発した。 i) 分子イオンの存在を必要とせず、EIスペクトルの40パーセントに満たないため、(ii) より高精度に測定された質量/電荷比により多くの重みを与えながら、すべての測定データを使用することができる。 本手法は, 30-330 g mol-1 のモル質量を持つ50のハロカーボンおよび炭化水素に対して, 質量分解能のアポックスで測定した。 3500. 90%以上の化合物では、再構成された信号の90%以上が正しい。 誤認例は、検出された1化合物あたりの破片の不足(質量/電荷が6つ未満)や、同位体制限の欠如(稀な同位体が検出されない)に起因する。 結論: 本手法は, スペクトルデータベースから独立して, 最も可能性の高い化学式を再構成できる。 したがって、非ターゲット分析のためのEI-HRMSデータの適合性を実証し、EI質量スペクトルがデータベースに登録されていない物質を識別する方法を舗装する。 本手法は,大気微量ガスに対する性能を示し,他の多くの試料にも適している可能性が示唆された。

Background: Non-target screening consists in searching a sample for all present substances, suspected or unknown, with very little prior knowledge about the sample. This approach has been introduced more than a decade ago in the field of water analysis, but is still very scarce for indoor and atmospheric trace gas measurements, despite the clear need for a better understanding of the atmospheric trace gas composition. For a systematic detection of emerging trace gases in the atmosphere, a new and powerful analytical method is gas chromatography (GC) of preconcentrated samples, followed by electron ionisation, high resolution mass spectrometry (EI-HRMS). In this work, we present data analysis tools to enable automated identification of unknown compounds measured by GC-EI-HRMS. Results: Based on co-eluting mass/charge fragments, we developed an innovative data analysis method to reliably reconstruct the chemical formulae of the fragments, using efficient combinatorics and graph theory. The method (i) does not to require the presence of the molecular ion, which is absent in $\sim$40% of EI spectra, and (ii) permits to use all measured data while giving more weight to mass/charge ratios measured with better precision. Our method has been trained and validated on >50 halocarbons and hydrocarbons with a molar masses of 30-330 g mol-1 , measured with a mass resolution of approx. 3500. For >90% of the compounds, more than 90% of the reconstructed signal is correct. Cases of wrong identification can be attributed to the scarcity of detected fragments per compound (less than six measured mass/charge) or the lack of isotopic constrain (no rare isotopocule detected). Conclusions: Our method enables to reconstruct most probable chemical formulae independently from spectral databases. Therefore, it demonstrates the suitability of EI-HRMS data for non-target analysis and paves the way for the identification of substances for which no EI mass spectrum is registered in databases. We illustrate the performances of our method for atmospheric trace gases and suggest that it may be well suited for many other types of samples.
翻訳日:2021-03-26 13:29:57 公開日:2021-03-23
# (参考訳) 実環境における結核検診の自動カフ分類 [全文訳有]

Automatic Cough Classification for Tuberculosis Screening in a Real-World Environment ( http://arxiv.org/abs/2103.13300v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Marisa Klopper, Byron Reeve, Grant Theron, Rob Warren, Thomas Niesler(参考訳) 本研究は,結核患者(tb)の発声音と,他の肺疾患患者が発する発声音とを,実環境の騒音環境下で自動的に判別できることを示す第1報である。 本実験は, TB患者16名, 呼吸器疾患患者33名, TB以外の患者33名を対象に, 実世界の診療所で得られたコークス記録のデータセットに基づいて行った。 我々は,nexted k-fold cross-validation内で,ロジスティック回帰(LR),サポートベクタマシン(SVM),k-nearest neighbor(KNN),多層パーセプトロン(MLP),畳み込みニューラルネットワーク(CNN)などの機械学習分類器を訓練・評価し,すべての場合において分類が可能であるが,最高の性能をLR分類器を用いて達成することを発見した。 逐次フォワードサーチ(SFS)による特徴選択と組み合わせて、最高のLRシステムは78個の高分解能メル周波数ケプストラム係数(MFCC)から選択された23個の特徴を用いて、OC曲線(AUC)の0.94以下の領域を達成する。 このシステムは95%の特異度で93%の感度を達成し、コミュニティベースのtbトリアージテストの最小要件としてwhoが考慮している70%の特異度仕様で90\%の感度を超える。 以上の結果から, 音素の自動分類は, TBの低コストで展開可能なフロントラインスクリーニングの手段として有望であり, 開発途上国のTB負荷に大きく貢献すると考えられる。

We present first results showing that it is possible to automatically discriminate between the coughing sounds produced by patients with tuberculosis (TB) and those produced by patients with other lung ailments in a real-world noisy environment. Our experiments are based on a dataset of cough recordings obtained in a real-world clinic setting from 16 patients confirmed to be suffering from TB and 33 patients that are suffering from respiratory conditions, confirmed as other than TB. We have trained and evaluated several machine learning classifiers, including logistic regression (LR), support vector machines (SVM), k-nearest neighbour (KNN), multilayer perceptrons (MLP) and convolutional neural networks (CNN) inside a nested k-fold cross-validation and find that, although classification is possible in all cases, the best performance is achieved using the LR classifier. In combination with feature selection by sequential forward search (SFS), our best LR system achieves an area under the ROC curve (AUC) of 0.94 using 23 features selected from a set of 78 high-resolution mel-frequency cepstral coefficients (MFCCs). This system achieves a sensitivity of 93% at a specificity of 95% and thus exceeds the 90\% sensitivity at 70% specificity specification considered by the WHO as minimal requirements for community-based TB triage test. We conclude that automatic classification of cough audio sounds is promising as a viable means of low-cost easily-deployable front-line screening for TB, which will greatly benefit developing countries with a heavy TB burden.
翻訳日:2021-03-26 02:39:13 公開日:2021-03-23
# (参考訳) フィッシングサイトの検出 - 概要 [全文訳有]

Detecting Phishing Sites -- An Overview ( http://arxiv.org/abs/2103.12739v1 )

ライセンス: CC BY 4.0
P.Kalaharsha (1, 2), B.M.Mehtre (1) ((1) Center of excellence in cyber security, Institute for Development and Research in Banking Technology (IDRBT), Hyderabad, India, (2) School of Computer Science and Information Sciences (SCIS), University of Hyderabad, Hyderabad, India)(参考訳) フィッシングは、研究者が解決策を見つけようとする最も厳しいサイバー攻撃の1つだ。 フィッシングでは、攻撃者はエンドユーザを誘惑し、個人情報を盗む。 フィッシングによるダメージを最小限に抑えるためには、できるだけ早く検出する必要がある。 フィッシング攻撃には、槍のフィッシング、捕鯨、バイシング、スミッシング、ファムリングなどがある。 ホワイトリスト、ブラックリスト、コンテンツベース、URLベース、ビジュアル類似性、機械学習に基づくさまざまなフィッシング検出技術がある。 本稿では,フィッシングサイト検出のためのフィッシング攻撃,攻撃ベクトル,検出技術について論じる。 18の異なるモデルと9つの異なるデータセットのパフォーマンス比較が与えられる。 フィッシング検出技術の課題もあげられる。

Phishing is one of the most severe cyber-attacks where researchers are interested to find a solution. In phishing, attackers lure end-users and steal their personal in-formation. To minimize the damage caused by phishing must be detected as early as possible. There are various phishing attacks like spear phishing, whaling, vishing, smishing, pharming and so on. There are various phishing detection techniques based on white-list, black-list, content-based, URL-based, visual-similarity and machine-learning. In this paper, we discuss various kinds of phishing attacks, attack vectors and detection techniques for detecting the phishing sites. Performance comparison of 18 different models along with nine different sources of datasets are given. Challenges in phishing detection techniques are also given.
翻訳日:2021-03-26 02:19:40 公開日:2021-03-23
# (参考訳) 固定点ネットワーク:ジャコビアンフリーバックプロップを用いた入射深さモデル [全文訳有]

Fixed Point Networks: Implicit Depth Models with Jacobian-Free Backprop ( http://arxiv.org/abs/2103.12803v1 )

ライセンス: CC BY 4.0
Samy Wu Fung, Howard Heaton, Qiuwei Li, Daniel McKenzie, Stanley Osher, Wotao Yin(参考訳) 深層学習のトレンドは、ネットワーク深度が無限に近づくにつれて、限界の近似によって固定深度モデルを置き換える。 このアプローチでは、ネットワークウェイトの一部を制限条件の定義によって振る舞いを規定する。 これにより、提供されるデータとエラー耐性に基づいて、ネットワークの深さが暗黙的に変化する。 さらに、既存の暗黙のモデルは、追加の計算コストと引き換えに、固定メモリコストで実装および訓練することができる。 特に、暗黙の深さモデルによるバックプロパゲーションは、暗黙の関数定理から生じるヤコビアン方程式を解く必要がある。 ネットワーク重みと入力データによって定義された一意の極限への前方伝播の収束を保証する暗黙深度学習のための単純なセットアップである固定点ネットワーク(FPN)を提案する。 我々の重要な貢献は、固定メモリコストを維持しながら、ヤコビ方程式を解く必要性を回避する新しいヤコビ自由バックプロパゲーション(JFB)方式を提供することである。 これにより、FPNはトレーニングがずっと安く、実装が簡単になる。 数値例は,暗黙の奥行きモデルとそれに対応する明示的なモデルに対して,芸術分類結果の状態を導出する。

A growing trend in deep learning replaces fixed depth models by approximations of the limit as network depth approaches infinity. This approach uses a portion of network weights to prescribe behavior by defining a limit condition. This makes network depth implicit, varying based on the provided data and an error tolerance. Moreover, existing implicit models can be implemented and trained with fixed memory costs in exchange for additional computational costs. In particular, backpropagation through implicit depth models requires solving a Jacobian-based equation arising from the implicit function theorem. We propose fixed point networks (FPNs), a simple setup for implicit depth learning that guarantees convergence of forward propagation to a unique limit defined by network weights and input data. Our key contribution is to provide a new Jacobian-free backpropagation (JFB) scheme that circumvents the need to solve Jacobian-based equations while maintaining fixed memory costs. This makes FPNs much cheaper to train and easy to implement. Our numerical examples yield state of the art classification results for implicit depth models and outperform corresponding explicit models.
翻訳日:2021-03-26 02:02:27 公開日:2021-03-23
# (参考訳) 対話型動的モデルを用いた信念伝播を用いたマルチパススラム [全文訳有]

Multipath-based SLAM using Belief Propagation with Interacting Multiple Dynamic Models ( http://arxiv.org/abs/2103.12809v1 )

ライセンス: CC BY 4.0
Erik Leitinger and Stefan Grebien and Klaus Witrisal(参考訳) 本稿では,複数モデル(IMM)パラメータを連続的に適用し,移動エージェント状態のダイナミクスを記述したベイズ型マルチパス同時局所化マッピング(SLAM)アルゴリズムを提案する。 IMMパラメータの時間進化はマルコフ連鎖によって記述され、パラメータはSLAM問題の統計構造を表す因子グラフ構造に組み込まれる。 提案した信念伝達アルゴリズムは,エージェントとマップの特徴状態とともにモデルパラメータを共同で推定することにより,時間変化のシステムモデルにオンライン的に適応する。 提案アルゴリズムの性能をシミュレーションシナリオで評価する。 数値シミュレーションの結果,提案アルゴリズムはエージェント状態の強い変化に対処できることがわかった。

In this paper, we present a Bayesian multipath-based simultaneous localization and mapping (SLAM) algorithm that continuously adapts interacting multiple models (IMM) parameters to describe the mobile agent state dynamics. The time-evolution of the IMM parameters is described by a Markov chain and the parameters are incorporated into the factor graph structure that represents the statistical structure of the SLAM problem. The proposed belief propagation (BP)-based algorithm adapts, in an online manner, to time-varying system models by jointly inferring the model parameters along with the agent and map feature states. The performance of the proposed algorithm is finally evaluating with a simulated scenario. Our numerical simulation results show that the proposed multipath-based SLAM algorithm is able to cope with strongly changing agent state dynamics.
翻訳日:2021-03-26 01:26:03 公開日:2021-03-23
# (参考訳) MSLマストカム操作と新規検出機能の統合によるデータ解析 [全文訳有]

Integrating Novelty Detection Capabilities with MSL Mastcam Operations to Enhance Data Analysis ( http://arxiv.org/abs/2103.12815v1 )

ライセンス: CC BY 4.0
Paul Horton, Hannah R. Kerner, Samantha Jacob, Ernest Cisneros, Kiri L. Wagstaff, James Bell(参考訳) 科学機器の革新によって火星探査機のミッション能力の境界が押し上げられたが、データ複雑さの増大により、火星科学研究所(MSL)と将来の火星探査機運用スタッフは複雑なデータセットを迅速に分析し、戦術的および戦略的な計画スケジュールを徐々に短縮した。 mslwebは、オペレーションスタッフがマストカメラマストカメラで撮影された一連の製品であるmsl画像シーケンスのファーストパス分析を行うために使用する内部データ追跡ツールである。 Mastcamのマルチバンドマルチスペクトル画像シーケンスは、標準の3バンドRGB画像よりも複雑な解析を必要とする。 通常、これらは従来の方法で分析され、シーケンス内のユニークな特徴を識別する。 ダウンリンクされた画像を(次のアップリンクの5~10時間前に)分析する必要がある戦術計画の短い時間枠を考えると、シーケンスの最も重要なシーケンスと部分に焦点を当てるために分析時間をトリアージする必要がある。 撮影シーン内で検出された新規または非定型的な組成や鉱物学を診断する可能性のある異常なデータを運用スタッフが識別するのに役立つ。 1)画像中の新しい領域を特定するために各シーケンス用の製品を作成し,2)マルチスペクトルシーケンスをソート可能なノベルティスコアに割り当てることで,2つの方法で達成した。 これらの新製品は、運用スタッフが迅速にダウンリンクデータをレビューし、新しいタイプの診断マルチスペクトルシグネチャの分析に集中するために使用できる、推測されたノベルティのカラー化ヒートマップを提供する。 このアプローチは、単純な色の複合材料では検出できない微妙な変化に素早く注意を向けることで、科学者を新たな発見へと導く可能性を秘めている。

While innovations in scientific instrumentation have pushed the boundaries of Mars rover mission capabilities, the increase in data complexity has pressured Mars Science Laboratory (MSL) and future Mars rover operations staff to quickly analyze complex data sets to meet progressively shorter tactical and strategic planning timelines. MSLWEB is an internal data tracking tool used by operations staff to perform first pass analysis on MSL image sequences, a series of products taken by the Mast camera, Mastcam. Mastcam's multiband multispectral image sequences require more complex analysis compared to standard 3-band RGB images. Typically, these are analyzed using traditional methods to identify unique features within the sequence. Given the short time frame of tactical planning in which downlinked images might need to be analyzed (within 5-10 hours before the next uplink), there exists a need to triage analysis time to focus on the most important sequences and parts of a sequence. We address this need by creating products for MSLWEB that use novelty detection to help operations staff identify unusual data that might be diagnostic of new or atypical compositions or mineralogies detected within an imaging scene. This was achieved in two ways: 1) by creating products for each sequence to identify novel regions in the image, and 2) by assigning multispectral sequences a sortable novelty score. These new products provide colorized heat maps of inferred novelty that operations staff can use to rapidly review downlinked data and focus their efforts on analyzing potentially new kinds of diagnostic multispectral signatures. This approach has the potential to guide scientists to new discoveries by quickly drawing their attention to often subtle variations not detectable with simple color composites.
翻訳日:2021-03-26 01:10:30 公開日:2021-03-23
# (参考訳) Fr'echetタスク距離によるニューラルアーキテクチャ検索 [全文訳有]

Neural Architecture Search From Fr\'echet Task Distance ( http://arxiv.org/abs/2103.12827v1 )

ライセンス: CC BY 4.0
Cat P. Le, Mohammadreza Soltani, Robert Ravier, Trevor Standley, Silvio Savarese, Vahid Tarokh(参考訳) 我々はFr'echet型非対称距離をフィッシャー情報行列に基づいて定式化する。 対象タスクと与えられたベースラインタスクの集合における各タスク間の距離が、対象タスクのニューラルアーキテクチャ探索スペースを減らすためにどのように使用できるかを示す。 タスク固有のアーキテクチャに対する検索空間の複雑さの低減は、このサイド情報を用いることなく完全な検索を行う代わりに、類似したタスクのために最適化されたアーキテクチャ上に構築することで達成される。 実験の結果,提案手法の有効性と最新手法の改善が示された。

We formulate a Fr\'echet-type asymmetric distance between tasks based on Fisher Information Matrices. We show how the distance between a target task and each task in a given set of baseline tasks can be used to reduce the neural architecture search space for the target task. The complexity reduction in search space for task-specific architectures is achieved by building on the optimized architectures for similar tasks instead of doing a full search without using this side information. Experimental results demonstrate the efficacy of the proposed approach and its improvements over the state-of-the-art methods.
翻訳日:2021-03-26 00:58:10 公開日:2021-03-23
# (参考訳) 不均一医療データにおける不調和の受容 [全文訳有]

Embracing the Disharmony in Heterogeneous Medical Data ( http://arxiv.org/abs/2103.12857v1 )

ライセンス: CC BY 4.0
Rongguang Wang, Pratik Chaudhari, Christos Davatzikos(参考訳) 医用画像データの不均一性は、機械学習の文脈において、ドメイン不変性、すなわち、しばしば取り組まれる。 ドメインシフトに対して堅牢なモデル(例:ドメイン内の両方)を導出する。 人口統計)、およびドメイン全体(例えば、) スキャナー/プロトコール特性)。 しかし、この手法は、クラス内およびドメイン間の一般化を改善するために、クラス内変数の平均化を必要とし、学習モデルの識別力を低下させるため、パフォーマンスに有害である。 本稿では,この不均一性を取り込んでマルチタスク学習問題として扱い,訓練された分類器をサイト間およびサイト内不均一性の両方に明示的に適応させる。 本研究は,脳磁場共鳴画像(MRI)データセットに対するベース分類器の誤差を,患者の特定の人口動態や異なる取得プロトコルに適応することにより,特定のタスクにおいて2~3倍に低減できることを実証する。 ドメインシフトの特徴の学習は、一般的に利用可能なデータと変数、例えば、補助的な学習タスクによって達成される。 人口統計 実験では,ソースサイト上でトレーニングされたネットワーク重みが対象サイトのデータに適応するのを支援する補助タスクとして,性別分類と年齢回帰を用いて,主な分類タスク上のデータセット間での分類精度を5~30%向上することを示した。 病気の分類。

Heterogeneity in medical imaging data is often tackled, in the context of machine learning, using domain invariance, i.e. deriving models that are robust to domain shifts, which can be both within domain (e.g. demographics) and across domains (e.g. scanner/protocol characteristics). However this approach can be detrimental to performance because it necessitates averaging across intra-class variability and reduces discriminatory power of learned models, in order to achieve better intra- and inter-domain generalization. This paper instead embraces the heterogeneity and treats it as a multi-task learning problem to explicitly adapt trained classifiers to both inter-site and intra-site heterogeneity. We demonstrate that the error of a base classifier on challenging 3D brain magnetic resonance imaging (MRI) datasets can be reduced by 2-3 times, in certain tasks, by adapting to the specific demographics of the patients, and different acquisition protocols. Learning the characteristics of domain shifts is achieved via auxiliary learning tasks leveraging commonly available data and variables, e.g. demographics. In our experiments, we use gender classification and age regression as auxiliary tasks helping the network weights trained on a source site adapt to data from a target site; we show that this approach improves classification accuracy by 5-30 % across different datasets on the main classification tasks, e.g. disease classification.
翻訳日:2021-03-26 00:34:43 公開日:2021-03-23
# (参考訳) 確率的LTI系に対するPAC-ベイズ理論 [全文訳有]

PAC-Bayesian theory for stochastic LTI systems ( http://arxiv.org/abs/2103.12866v1 )

ライセンス: CC BY 4.0
Deividas Eringis and John Leth and Zheng-Hua Tan and Rafal Wisniewski and Mihaly Petreczky(参考訳) 本稿では,自律確率 LTI 状態空間モデルに対する PAC-Bayesian 誤差を導出する。 このような誤差境界を導出する動機は、リカレントニューラルネットワークを含むより一般的な力学系で同様の誤差境界を導出できることである。 PACBayesの誤差境界は、機械学習アルゴリズムの分析や新しいアルゴリズムの導出に有用であることが知られている。

In this paper we derive a PAC-Bayesian error bound for autonomous stochastic LTI state-space models. The motivation for deriving such error bounds is that they will allow deriving similar error bounds for more general dynamical systems, including recurrent neural networks. In turn, PACBayesian error bounds are known to be useful for analyzing machine learning algorithms and for deriving new ones.
翻訳日:2021-03-26 00:26:29 公開日:2021-03-23
# (参考訳) 加速学習と制御のための高次チューナー

A High-order Tuner for Accelerated Learning and Control ( http://arxiv.org/abs/2103.12868v1 )

ライセンス: CC BY 4.0
Spencer McDonald, Yingnan Cui, Joseph E. Gaudio and Anuradha M. Annaswamy(参考訳) 勾配拡散型反復アルゴリズムは、推定、予測、学習、制御、最適化といった様々な問題にまたがる。 近年,高次情報に基づく反復的アルゴリズムが,学習を高速化するために研究されている。 本稿では,線形パラメタライズドシステムにおける時間変化レグレシタの安定性と,一定の回帰器による収束の促進を図った高次チューナについて検討する。 このチューナーは,雑音により勾配が劣化しても境界パラメータ推定を継続することを示す。 さらに,パラメータ推定値は,ノイズの統計量に依存するコンパクト集合に指数関数的に収束することを示した。 HTアルゴリズムは、推定、フィルタリング、制御、機械学習の幅広い問題に適用できるため、本論文で得られた結果は、リアルタイムおよび高速な意思決定のトピックに対する重要な拡張である。

Gradient-descent based iterative algorithms pervade a variety of problems in estimation, prediction, learning, control, and optimization. Recently iterative algorithms based on higher-order information have been explored in an attempt to lead to accelerated learning. In this paper, we explore a specific a high-order tuner that has been shown to result in stability with time-varying regressors in linearly parametrized systems, and accelerated convergence with constant regressors. We show that this tuner continues to provide bounded parameter estimates even if the gradients are corrupted by noise. Additionally, we also show that the parameter estimates converge exponentially to a compact set whose size is dependent on noise statistics. As the HT algorithms can be applied to a wide range of problems in estimation, filtering, control, and machine learning, the result obtained in this paper represents an important extension to the topic of real-time and fast decision making.
翻訳日:2021-03-25 23:50:38 公開日:2021-03-23
# (参考訳) フライングアドホックネットワークにおける擬似アニーリング推論を用いた完全音声Qルーチン [全文訳有]

Fully-echoed Q-routing with Simulated Annealing Inference for Flying Adhoc Networks ( http://arxiv.org/abs/2103.12870v1 )

ライセンス: CC BY 4.0
Arnau Rovira-Sugranes, Fatemeh Afghah, Junsuo Qu, Abolfazl Razi(参考訳) 現在のネットワークプロトコルは、無人航空機(uav)ネットワークの2つの重要な課題、すなわちネットワーク接続損失とエネルギー制限を満たさないと考えている。 これらの問題を解決するアプローチの1つは、学習ベースのルーティングプロトコルを使用して、ネットワークノードによる最適なローカル決定を行い、Q-routingはそのようなプロトコルの大胆な例である。 しかし、Qルーティングアルゴリズムの現在の実装の性能は、主に継続的なトポロジー変化への適応性の欠如のために、まだ満足できない。 本稿では,シミュレーションアニーリング(SA)最適化を用いた自己適応学習率を用いたQ-routingアルゴリズムを提案し,温度低下率を用いてアルゴリズムの探索率を制御し,Q-値の経験的変動率によって制御する。 提案手法は,遷移点における手動再初期化を必要とせず,ネットワークの動的性に適応することを示す。 提案手法は,Qルーティングプロトコルの現状と比較して,7%から82%までのエネルギー消費を削減し,パケット送出率を2.6倍に向上させる。

Current networking protocols deem inefficient in accommodating the two key challenges of Unmanned Aerial Vehicle (UAV) networks, namely the network connectivity loss and energy limitations. One approach to solve these issues is using learning-based routing protocols to make close-to-optimal local decisions by the network nodes, and Q-routing is a bold example of such protocols. However, the performance of the current implementations of Q-routing algorithms is not yet satisfactory, mainly due to the lack of adaptability to continued topology changes. In this paper, we propose a full-echo Q-routing algorithm with a self-adaptive learning rate that utilizes Simulated Annealing (SA) optimization to control the exploration rate of the algorithm through the temperature decline rate, which in turn is regulated by the experienced variation rate of the Q-values. Our results show that our method adapts to the network dynamicity without the need for manual re-initialization at transition points (abrupt network topology changes). Our method exhibits a reduction in the energy consumption ranging from 7% up to 82%, as well as a 2.6 fold gain in successful packet delivery rate}, compared to the state of the art Q-routing protocols
翻訳日:2021-03-25 23:49:30 公開日:2021-03-23
# (参考訳) 物語の形式モデルに向けて [全文訳有]

Towards a Formal Model of Narratives ( http://arxiv.org/abs/2103.12872v1 )

ライセンス: CC BY 4.0
Louis Castricato and Stella Biderman and Rogelio E. Cardona-Rivera and David Thue(参考訳) 本稿では,物語をモデル化するための形式的枠組みの始まりを提案する。 我々のフレームワークは、ナレーターから読者への情報の流れ、時間とともに読者のストーリーモデルの進化、そして読者の不確実性など、ストーリーとそのコミュニケーションの重要な品質について議論する能力を提供する。 本稿では,情報伝達精度を計測するための明示的なアルゴリズムと2つの新しいストーリーコヒーレンス測定を行うことにより,計算ナラトロジーへの適用性を実証する。

In this paper, we propose the beginnings of a formal framework for modeling narrative \textit{qua} narrative. Our framework affords the ability to discuss key qualities of stories and their communication, including the flow of information from a Narrator to a Reader, the evolution of a Reader's story model over time, and Reader uncertainty. We demonstrate its applicability to computational narratology by giving explicit algorithms for measuring the accuracy with which information was conveyed to the Reader and two novel measurements of story coherence.
翻訳日:2021-03-25 23:25:42 公開日:2021-03-23
# (参考訳) メタラーニングによるプロセス発見手法の提案 [全文訳有]

Using Meta-learning to Recommend Process Discovery Methods ( http://arxiv.org/abs/2103.12874v1 )

ライセンス: CC BY 4.0
Sylvio Barbon Jr, Paolo Ceravolo, Ernesto Damiani, Gabriel Marques Tavares(参考訳) プロセス発見手法はプロセスマイニングにおいて顕著な成果を上げ、管理能力を高めるために理解可能なプロセスモデルを提供する。 しかし、特定のイベントログに適した方法の選択は、人間の専門知識に大きく依存し、幅広い応用を妨げる。 メタラーニング(mtl)に基づくソリューションは、人的支援を減らすシステムの構築に有望である。 本論文では,モデル品質を相補次元に応じて最大化するプロセス発見手法を提案する。 mtlパイプラインのおかげで、イベントログを記述する軽量機能を使用して、92%の精度で発見方法を推奨することができた。 我々の実験分析は、発見アルゴリズムをより深く理解するために、レコメンデーションの生成におけるログ機能の重要性に関する重要な洞察も提供した。

Process discovery methods have obtained remarkable achievements in Process Mining, delivering comprehensible process models to enhance management capabilities. However, selecting the suitable method for a specific event log highly relies on human expertise, hindering its broad application. Solutions based on Meta-learning (MtL) have been promising for creating systems with reduced human assistance. This paper presents a MtL solution for recommending process discovery methods that maximize model quality according to complementary dimensions. Thanks to our MtL pipeline, it was possible to recommend a discovery method with 92% of accuracy using light-weight features that describe the event log. Our experimental analysis also provided significant insights on the importance of log features in generating recommendations, paving the way to a deeper understanding of the discovery algorithms.
翻訳日:2021-03-25 23:12:21 公開日:2021-03-23
# (参考訳) 自由テキスト知識グラフを用いた複雑なファクトイド質問応答

Complex Factoid Question Answering with a Free-Text Knowledge Graph ( http://arxiv.org/abs/2103.12876v1 )

ライセンス: CC BY 4.0
Chen Zhao, Chenyan Xiong, Xin Qian and Jordan Boyd-Graber(参考訳) DELFTは,知識グラフ質問応答アプローチのニュアンスと深さを,自由文の広範なカバレッジと組み合わせたファクトイド質問応答システムである。 DELFTはウィキペディアから自由テキスト知識グラフを構築し、エンティティをノードとして、エンティティをエッジとして共起する文として提供する。 各質問に対して、DELFTは、テキストをエッジとして使用する候補に質問エンティティノードをリンクするサブグラフを見つけ、密度の高い高カバレッジセマンティックグラフを作成する。 新しいグラフニューラルネットワークは、エッジ文に関する情報を介して、ノード上の自由テキストグラフのエビデンスを合成し、最終回答を選択する。 3つの質問応答データセットの実験では、DELFTは、マシン読み取りベースのモデル、bertベースの回答ランキング、メモリネットワークよりも、エンティティリッチな質問に答えることができる。 DELFTの利点は、その自由テキスト知識グラフ(dbpediaリレーションシップの倍以上)の高カバレッジと、リッチだがノイズの多い自由テキストエビデンスに基づく新しいグラフニューラルネットワークの両方にある。

We introduce DELFT, a factoid question answering system which combines the nuance and depth of knowledge graph question answering approaches with the broader coverage of free-text. DELFT builds a free-text knowledge graph from Wikipedia, with entities as nodes and sentences in which entities co-occur as edges. For each question, DELFT finds the subgraph linking question entity nodes to candidates using text sentences as edges, creating a dense and high coverage semantic graph. A novel graph neural network reasons over the free-text graph-combining evidence on the nodes via information along edge sentences-to select a final answer. Experiments on three question answering datasets show DELFT can answer entity-rich questions better than machine reading based models, bert-based answer ranking and memory networks. DELFT's advantage comes from both the high coverage of its free-text knowledge graph-more than double that of dbpedia relations-and the novel graph neural network which reasons on the rich but noisy free-text evidence.
翻訳日:2021-03-25 22:57:58 公開日:2021-03-23
# (参考訳) SETGAN:モバイルプラットフォームにおける画像アプリケーションのためのスケールとエネルギーのトレードオフGAN [全文訳有]

SETGAN: Scale and Energy Trade-off GANs for Image Applications on Mobile Platforms ( http://arxiv.org/abs/2103.12896v1 )

ライセンス: CC BY 4.0
Nitthilan Kannappan Jayakodi, Janardhan Rao Doppa, Partha Pratim Pande(参考訳) 本稿では,画像生成ネットワーク(gans)を用いて,モバイルプラットフォーム上での非条件画像生成(高品質で多彩なサンプル生成)の課題について考察する。 本稿では,SETGAN(Scale-Energy Tradeoff GAN)と呼ばれる,リアルタイムに消費されるエネルギー(コンピュテーション)に対するGANのトレードオフ画像生成精度の新たなアプローチを提案する。 ganは通常、トレーニングと巨大なメモリ消費に長い時間がかかるため、エッジデバイスでの実行が難しくなる。 画像生成タスクにおけるSETGANの鍵となるアイデアは、与えられた入力画像に対して、リモートサーバ上でGANをトレーニングし、エッジデバイス上でトレーニングされたモデルを使用することである。 我々は、画像の異なるスケールでパッチ分布を学習する責任を負う、完全な畳み込みGANのピラミッドを含む単一の画像非条件生成モデルであるSinGANを使用する。 トレーニング過程において,与えられた入力画像に対する最適スケール数と目標エッジ装置からのエネルギー制約を決定する。 その結果、SETGANのユニークなクライアントサーバベースのアーキテクチャでは、3%から12%のSSIM精度を失うことで、エネルギーの56%のアップを実現できた。 また、並列マルチスケールトレーニングでは、サーバ上でのトレーニング時間の約4倍のゲインが得られる。

We consider the task of photo-realistic unconditional image generation (generate high quality, diverse samples that carry the same visual content as the image) on mobile platforms using Generative Adversarial Networks (GANs). In this paper, we propose a novel approach to trade-off image generation accuracy of a GAN for the energy consumed (compute) at run-time called Scale-Energy Tradeoff GAN (SETGAN). GANs usually take a long time to train and consume a huge memory hence making it difficult to run on edge devices. The key idea behind SETGAN for an image generation task is for a given input image, we train a GAN on a remote server and use the trained model on edge devices. We use SinGAN, a single image unconditional generative model, that contains a pyramid of fully convolutional GANs, each responsible for learning the patch distribution at a different scale of the image. During the training process, we determine the optimal number of scales for a given input image and the energy constraint from the target edge device. Results show that with SETGAN's unique client-server-based architecture, we were able to achieve a 56% gain in energy for a loss of 3% to 12% SSIM accuracy. Also, with the parallel multi-scale training, we obtain around 4x gain in training time on the server.
翻訳日:2021-03-25 22:49:11 公開日:2021-03-23
# 語彙制御と強化学習を用いた教師なし文脈パラフレーズ生成

Unsupervised Contextual Paraphrase Generation using Lexical Control and Reinforcement Learning ( http://arxiv.org/abs/2103.12777v1 )

ライセンス: Link先を確認
Sonal Garg, Sumanth Prabhu, Hemant Misra, and G. Srinivasaraghavan(参考訳) チャットによるカスタマーサポートには、最低待ち時間と顧客満足度で顧客クエリを解決する必要がある。 エージェントと顧客の両方がさまざまなレベルのリテラシーを持つことができるため、エージェントが提供した反応の質は、事前に定義されていないと貧弱になる傾向がある。 しかし、静的レスポンスのみを使用すると、顧客はもはや人間と対話していないと感じやすいため、顧客の減退につながる可能性がある。 したがって、応答の単調さを減らすために静的応答のバリエーションを持つことが不可欠である。 しかし、そのようなバリエーションのリストを維持することはコストがかかる。 会話コンテキストとエージェント応答を考慮し,自己回帰モデルを用いて文脈パラフレーズを生成するための教師なしフレームワークを提案する。 また,文脈パラフレーズの質を評価するために,意味的類似性,テキスト的包含性,表現の多様性,フラレンシに基づく自動計測法を提案し,自動計測を報酬関数として用いた強化学習(rl)による性能改善を実証する。

Customer support via chat requires agents to resolve customer queries with minimum wait time and maximum customer satisfaction. Given that the agents as well as the customers can have varying levels of literacy, the overall quality of responses provided by the agents tend to be poor if they are not predefined. But using only static responses can lead to customer detraction as the customers tend to feel that they are no longer interacting with a human. Hence, it is vital to have variations of the static responses to reduce monotonicity of the responses. However, maintaining a list of such variations can be expensive. Given the conversation context and the agent response, we propose an unsupervised frame-work to generate contextual paraphrases using autoregressive models. We also propose an automated metric based on Semantic Similarity, Textual Entailment, Expression Diversity and Fluency to evaluate the quality of contextual paraphrases and demonstrate performance improvement with Reinforcement Learning (RL) fine-tuning using the automated metric as the reward function.
翻訳日:2021-03-25 14:14:52 公開日:2021-03-23
# 教師探索学習:オープンセット認識のための新しい学習方法

Teacher-Explorer-Stu dent Learning: A Novel Learning Method for Open Set Recognition ( http://arxiv.org/abs/2103.12871v1 )

ライセンス: Link先を確認
Jaeyeon Jang and Chang Ouk Kim(参考訳) 訓練中に見当たらない未知の例が現れると、ほとんどの認識システムは一般に一般化された結果を生成し、その例が既知のクラスの1つに属すると判断する。 そこで本研究では,未知のサンプルを拒否することを目的としたオープンセット認識(osr)の概念を取り入れ,既知のサンプルの分類性能の損失を最小限に抑える教師・研究者・学生(t/e/s)学習を提案する。 本手法では、未知の様々な可能性を探ることにより、深層学習分類器の一般化を著しく削減する。 ここで,教師ネットワークは,未学習の知識を蒸留して未知のヒントを抽出し,その知識を学生に提供する。 蒸留知識を学習した後、学生ネットワークは学習情報をエクスプローラネットワークと共有する。 そして、未知のサンプルを生成し、そのサンプルを学生ネットワークに供給することで、探索結果を共有する。 この交互学習プロセスを繰り返して、学生ネットワークは様々な合成未知を経験し、過剰一般化を減らす。 広範な実験を行い,本論文で提案する各コンポーネントがosrの性能向上に大きく寄与することを示した。 その結果,提案手法は現在の最先端手法よりも優れていた。

If an unknown example that is not seen during training appears, most recognition systems usually produce overgeneralized results and determine that the example belongs to one of the known classes. To address this problem, teacher-explorer-stu dent (T/E/S) learning, which adopts the concept of open set recognition (OSR) that aims to reject unknown samples while minimizing the loss of classification performance on known samples, is proposed in this study. In this novel learning method, overgeneralization of deep learning classifiers is significantly reduced by exploring various possibilities of unknowns. Here, the teacher network extracts some hints about unknowns by distilling the pretrained knowledge about knowns and delivers this distilled knowledge to the student. After learning the distilled knowledge, the student network shares the learned information with the explorer network. Then, the explorer network shares its exploration results by generating unknown-like samples and feeding the samples to the student network. By repeating this alternating learning process, the student network experiences a variety of synthetic unknowns, reducing overgeneralization. Extensive experiments were conducted, and the experimental results showed that each component proposed in this paper significantly contributes to the improvement in OSR performance. As a result, the proposed T/E/S learning method outperformed current state-of-the-art methods.
翻訳日:2021-03-25 14:13:46 公開日:2021-03-23
# Co-matching: Augmentation Anchoringによるノイズラベルの圧縮

Co-matching: Combating Noisy Labels by Augmentation Anchoring ( http://arxiv.org/abs/2103.12814v1 )

ライセンス: Link先を確認
Yangdi Lu, Yang Bo, Wenbo He(参考訳) ノイズラベルによるディープラーニングは、ディープニューラルネットワークがノイズラベルを記憶する能力が高いため、難しい。 本稿では,拡張アンカーによる2つのネットワーク間の一貫性と発散のバランスをとる,コマッチングと呼ばれる学習アルゴリズムを提案する。 具体的には,弱い画像に対する予測からアンカーラベルを生成するネットワークがある。 一方、我々はピアネットワークを強制し、入力と同じ画像の強化されたバージョンを入力として、アンカーラベルに近い予測を生成する。 次に,非教師付きマッチング損失(すなわち,2つのネットワークの一貫性を測定する)と教師付き分類損失(すなわち)の両方を最小化するために,小損失インスタンスを選択することで,同時に2つのネットワークを更新する。 分類性能を測定する)。 また,教師なしのマッチング損失はノイズラベルに大きく依存せず,ノイズラベルの記憶を阻害する。 3つのベンチマークデータセットの実験は、コマッチングが最先端の手法に匹敵する結果を達成することを示した。

Deep learning with noisy labels is challenging as deep neural networks have the high capacity to memorize the noisy labels. In this paper, we propose a learning algorithm called Co-matching, which balances the consistency and divergence between two networks by augmentation anchoring. Specifically, we have one network generate anchoring label from its prediction on a weakly-augmented image. Meanwhile, we force its peer network, taking the strongly-augmented version of the same image as input, to generate prediction close to the anchoring label. We then update two networks simultaneously by selecting small-loss instances to minimize both unsupervised matching loss (i.e., measure the consistency of the two networks) and supervised classification loss (i.e. measure the classification performance). Besides, the unsupervised matching loss makes our method not heavily rely on noisy labels, which prevents memorization of noisy labels. Experiments on three benchmark datasets demonstrate that Co-matching achieves results comparable to the state-of-the-art methods.
翻訳日:2021-03-25 14:11:40 公開日:2021-03-23
# 制約付きマスク言語モデリングを用いたデコンパイルバイナリコードの変数名復元

Variable Name Recovery in Decompiled Binary Code using Constrained Masked Language Modeling ( http://arxiv.org/abs/2103.12801v1 )

ライセンス: Link先を確認
Pratyay Banerjee, Kuntal Kumar Pal, Fish Wang, Chitta Baral(参考訳) 逆コンパイル(英: Decompilation)とは、バイナリプログラムをソースコードなどのハイレベルな表現に変換する手順である。 現代の逆コンパイラは、コンパイル中に破棄される多くの情報を再構築し、復元することができるが、変数名の推論は依然として極めて困難である。 近年の自然言語処理の進歩に触発されて,Masked Language Modeling,Byte-Pair Encoding, Transformers, BERTなどのニューラルアーキテクチャに基づく,非コンパイルコードの変数名を推論する新しい手法を提案する。 提案手法は,提案手法である制約付きマスケッド言語モデリング(Constrained Masked Language Modeling)を用いて,意味論的に意味のある少ないコードをインプットとして利用する。 制約付きマスク言語モデリングを使用すると、元の変数名のマスクトークン数を予測するという課題が発生する。 この \textit{count of token prediction} 課題を処理後アルゴリズムで解決します。 最先端のアプローチと比較して、トレーニング済みのVarBERTモデルはよりシンプルで、はるかに優れたパフォーマンスを実現しています。 164,632のバイナリを持つ既存の大規模データセット上でモデルを評価し,84.15\%までの確率で元のソースコードに存在する変数名と同一の変数名を予測できることを示した。

Decompilation is the procedure of transforming binary programs into a high-level representation, such as source code, for human analysts to examine. While modern decompilers can reconstruct and recover much information that is discarded during compilation, inferring variable names is still extremely difficult. Inspired by recent advances in natural language processing, we propose a novel solution to infer variable names in decompiled code based on Masked Language Modeling, Byte-Pair Encoding, and neural architectures such as Transformers and BERT. Our solution takes \textit{raw} decompiler output, the less semantically meaningful code, as input, and enriches it using our proposed \textit{finetuning} technique, Constrained Masked Language Modeling. Using Constrained Masked Language Modeling introduces the challenge of predicting the number of masked tokens for the original variable name. We address this \textit{count of token prediction} challenge with our post-processing algorithm. Compared to the state-of-the-art approaches, our trained VarBERT model is simpler and of much better performance. We evaluated our model on an existing large-scale data set with 164,632 binaries and showed that it can predict variable names identical to the ones present in the original source code up to 84.15\% of the time.
翻訳日:2021-03-25 14:10:45 公開日:2021-03-23
# 最適化を学ぶ:プライマーとベンチマーク

Learning to Optimize: A Primer and A Benchmark ( http://arxiv.org/abs/2103.12828v1 )

ライセンス: Link先を確認
Tianlong Chen, Xiaohan Chen, Wuyang Chen, Howard Heaton, Jialin Liu, Zhangyang Wang, Wotao Yin(参考訳) 学習の最適化(L2O)は、機械学習を活用して最適化手法を開発する、新たなアプローチである。 一連のトレーニング問題に基づく最適化手法の設計を,その性能に基づいて自動化する。 このデータ駆動プロシージャは、トレーニングと同じような問題を効率的に解決できる方法を生成する。 対照的に、最適化手法の典型的および伝統的な設計は理論駆動であり、理論によって指定された問題のクラスに対する性能保証が得られる。 この違いにより、L2Oは特定のデータ分布に対するある種の最適化問題を繰り返し解決するのに適しているが、通常は分布外問題で失敗する。 l2oの実用性は、目標最適化の種類、学習する方法の選択したアーキテクチャ、訓練手順に依存する。 この新しいパラダイムは、研究者のコミュニティにL2Oを探索し、研究結果を報告する動機となった。 この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。 分類学を設定し、既存の研究と研究の方向性を分類し、洞察を示し、オープンな課題を特定する。 また、いくつかの一般的な最適化問題に対して、既存のL2Oアプローチをベンチマークした。 再現可能な研究と公正なベンチマークの目的のために、私たちはソフトウェア実装とデータを https://github.com/V ITA-Group/Open-L2O.c om のパッケージに公開しました。

Learning to optimize (L2O) is an emerging approach that leverages machine learning to develop optimization methods, aiming at reducing the laborious iterations of hand engineering. It automates the design of an optimization method based on its performance on a set of training problems. This data-driven procedure generates methods that can efficiently solve problems similar to those in the training. In sharp contrast, the typical and traditional designs of optimization methods are theory-driven, so they obtain performance guarantees over the classes of problems specified by the theory. The difference makes L2O suitable for repeatedly solving a certain type of optimization problems over a specific distribution of data, while it typically fails on out-of-distribution problems. The practicality of L2O depends on the type of target optimization, the chosen architecture of the method to learn, and the training procedure. This new paradigm has motivated a community of researchers to explore L2O and report their findings. This article is poised to be the first comprehensive survey and benchmark of L2O for continuous optimization. We set up taxonomies, categorize existing works and research directions, present insights, and identify open challenges. We also benchmarked many existing L2O approaches on a few but representative optimization problems. For reproducible research and fair benchmarking purposes, we released our software implementation and data in the package Open-L2O at https://github.com/V ITA-Group/Open-L2O.
翻訳日:2021-03-25 14:09:40 公開日:2021-03-23
# BERT-based Post-Editing による代名詞の修復

Repairing Pronouns in Translation with BERT-Based Post-Editing ( http://arxiv.org/abs/2103.12838v1 )

ライセンス: Link先を確認
Reid Pryzant, Melvin Johnson, Hideto Kazawa(参考訳) 名詞はテキストの意味の重要な決定要因であるが、翻訳が難しい。 これは、代名詞の選択が前の文で記述されたエンティティに依存することができ、一部の言語では、参照が文脈から推測できないときに代名詞をドロップできるためである。 これらの問題は、神経機械翻訳(NMT)システムに、不明瞭さを損なうこと、さらには性バイアスを補強する代名詞に重大なエラーを与える可能性がある。 本稿では,(1)一部の領域において,代名詞選択がnmtシステムの誤差の半分以上を占めること,(2)代名詞が認識される翻訳品質に不釣り合いに大きな影響を与えること,など,代名詞問題の重大性について検討する。 提案手法は,情報源側文のチャンクを用いて代名詞予測タスクを微調整し,その結果の分類器を用いて既存のNMTモデルの翻訳を修復する。 日本語と英語のペアに対して,この手法の最初の事例研究を行い,人間の評価値によって少数の翻訳が著しく改善されていることを観察した。

Pronouns are important determinants of a text's meaning but difficult to translate. This is because pronoun choice can depend on entities described in previous sentences, and in some languages pronouns may be dropped when the referent is inferrable from the context. These issues can lead Neural Machine Translation (NMT) systems to make critical errors on pronouns that impair intelligibility and even reinforce gender bias. We investigate the severity of this pronoun issue, showing that (1) in some domains, pronoun choice can account for more than half of a NMT systems' errors, and (2) pronouns have a disproportionately large impact on perceived translation quality. We then investigate a possible solution: fine-tuning BERT on a pronoun prediction task using chunks of source-side sentences, then using the resulting classifier to repair the translations of an existing NMT model. We offer an initial case study of this approach for the Japanese-English language pair, observing that a small number of translations are significantly improved according to human evaluators.
翻訳日:2021-03-25 14:08:13 公開日:2021-03-23
# TeCoMiner: 短期的コミュニティ検出によるトピック発見

TeCoMiner: Topic Discovery Through Term Community Detection ( http://arxiv.org/abs/2103.12882v1 )

ライセンス: Link先を確認
Andreas Hamm, Jana Thelen, Rasmus Beckmann, Simon Odrowski (German Aerospace Center DLR)(参考訳) このメモは、テキストコレクションのトピック内容を探索するインタラクティブツールであるTeCoMinerの短い説明である。 他のトピックモデリングツールとは異なり、TeCoMinerは生成確率モデルではなく、用語の共起ネットワークに関するトポロジ的考察に基づいている。 我々は,過去10年間に欧州委員会が公表した環境問題に関する政策関連科学ニュースのコーパスを用いて,トピックの識別,ツールの特徴の説明,アプリケーションのスケッチに使用される手法の概要を述べる。

This note is a short description of TeCoMiner, an interactive tool for exploring the topic content of text collections. Unlike other topic modeling tools, TeCoMiner is not based on some generative probabilistic model but on topological considerations about co-occurrence networks of terms. We outline the methods used for identifying topics, describe the features of the tool, and sketch an application, using a corpus of policy related scientific news on environmental issues published by the European Commission over the last decade.
翻訳日:2021-03-25 14:07:55 公開日:2021-03-23
# 生産における意思決定のための行動可能な認知双生児

Actionable Cognitive Twins for Decision Making in Manufacturing ( http://arxiv.org/abs/2103.12854v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Jinzhi Lu, Jan Rupnik, Maja \v{S}krjanc, Dunja Mladeni\'c, Bla\v{z} Fortuna, Xiaochen Zheng, Dimitris Kiritsis(参考訳) Actionable Cognitive Twinsは、知識グラフと人工知能モデルを通じて認知能力に強化された次世代のDigital Twinsで、ユーザに洞察と意思決定オプションを提供する。 知識グラフは、製造環境に関連するエンティティと相互関係に関するドメイン固有の知識を記述する。 また、プランナーやロジスティックスのような意思決定者を支援する可能性のある意思決定オプションの情報も含まれている。 本稿では,生産プラントにおける需要予測と生産計画に関する特定の知識を捉えるための,行動可能な認知双生児構築のための知識グラフモデリング手法を提案する。 ナレッジグラフは、データ識別やシミュレーション、人工知能アルゴリズムやそれらをサポートするための予測など、生産ラインとプロセスのセマンティック記述とコンテキスト化を提供する。 このようなセマンティクスは、創造的、誘惑的、定義的、帰納的といった異なる知識タイプを推論するための基盤を提供する。 ユースケースを完全に記述する知識グラフモデルを開発するために,オントロジーを設計,検証し,知識グラフを開発し,行動可能な認知双生児を構築するシステム思考手法を提案する。 最後に,欧州水平2020プロジェクトFACTLOGの一環として,欧州の自動車関連機器メーカーが開発する2つのユースケースについて検討を行った。

Actionable Cognitive Twins are the next generation Digital Twins enhanced with cognitive capabilities through a knowledge graph and artificial intelligence models that provide insights and decision-making options to the users. The knowledge graph describes the domain-specific knowledge regarding entities and interrelationships related to a manufacturing setting. It also contains information on possible decision-making options that can assist decision-makers, such as planners or logisticians. In this paper, we propose a knowledge graph modeling approach to construct actionable cognitive twins for capturing specific knowledge related to demand forecasting and production planning in a manufacturing plant. The knowledge graph provides semantic descriptions and contextualization of the production lines and processes, including data identification and simulation or artificial intelligence algorithms and forecasts used to support them. Such semantics provide ground for inferencing, relating different knowledge types: creative, deductive, definitional, and inductive. To develop the knowledge graph models for describing the use case completely, systems thinking approach is proposed to design and verify the ontology, develop a knowledge graph and build an actionable cognitive twin. Finally, we evaluate our approach in two use cases developed for a European original equipment manufacturer related to the automotive industry as part of the European Horizon 2020 project FACTLOG.
翻訳日:2021-03-25 14:06:37 公開日:2021-03-23
# DA4Event:ドメイン適応を用いたイベントカメラのSim-to-Realギャップのブリッジ化

DA4Event: towards bridging the Sim-to-Real Gap for Event Cameras using Domain Adaptation ( http://arxiv.org/abs/2103.12768v1 )

ライセンス: Link先を確認
Mirco Planamente and Chiara Plizzari and Marco Cannici and Marco Ciccone and Francesco Strada and Andrea Bottino and Matteo Matteucci and Barbara Caputo(参考訳) イベントカメラは、バイオインスパイアされた新しいセンサーであり、"イベント"の形でピクセルレベルの強度変化を非同期に捉える。 データを取得する革新的な方法は、標準デバイス、特に低照度と高速な動作条件において、いくつかの利点を示す。 しかし、これらのセンサーの新規性により、その潜在能力を完全に解き放つことのできる大量のトレーニングデータが欠如している。 この問題に対処するために研究者が実施する最も一般的なアプローチは、シミュレーションされたイベントデータを活用することである。 しかし、このアプローチにはオープンな研究の質問が伴っている。 そこで我々は,従来のコンピュータビジョンにおける近年のドメイン適応(da)の進歩を生かして,イベントデータに適用したda技術がsim対現実のギャップの低減に寄与することを示す。 そこで本稿では,多視点DA4E(Multi-View DA4E)と呼ばれる新しいアーキテクチャを提案する。 N-Caltech101に対するDA法とMV-DA4Eの有効性を実験的に検証した。 さらに,RGB-D Object Dataset (ROD) のクロスドメイン解析により実世界のシナリオにおける音質を検証し,イベントモダリティ(RGB-E)まで拡張した。

Event cameras are novel bio-inspired sensors, which asynchronously capture pixel-level intensity changes in the form of "events". The innovative way they acquire data presents several advantages over standard devices, especially in poor lighting and high-speed motion conditions. However, the novelty of these sensors results in the lack of a large amount of training data capable of fully unlocking their potential. The most common approach implemented by researchers to address this issue is to leverage simulated event data. Yet, this approach comes with an open research question: how well simulated data generalize to real data? To answer this, we propose to exploit, in the event-based context, recent Domain Adaptation (DA) advances in traditional computer vision, showing that DA techniques applied to event data help reduce the sim-to-real gap. To this purpose, we propose a novel architecture, which we call Multi-View DA4E (MV-DA4E), that better exploits the peculiarities of frame-based event representations while also promoting domain invariant characteristics in features. Through extensive experiments, we prove the effectiveness of DA methods and MV-DA4E on N-Caltech101. Moreover, we validate their soundness in a real-world scenario through a cross-domain analysis on the popular RGB-D Object Dataset (ROD), which we extended to the event modality (RGB-E).
翻訳日:2021-03-25 14:06:19 公開日:2021-03-23
# 時間的マスク一貫性を有するビデオに対する弱教師付きインスタンスセグメンテーション

Weakly Supervised Instance Segmentation for Videos with Temporal Mask Consistency ( http://arxiv.org/abs/2103.12886v1 )

ライセンス: Link先を確認
Qing Liu, Vignesh Ramanathan, Dhruv Mahajan, Alan Yuille, Zhenheng Yang(参考訳) 弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。 しかしながら、画像レベルのクラスラベルにのみ依存する既存のアプローチは、(a)オブジェクトの部分的なセグメンテーションと(b)オブジェクトの不足によるエラーが主な原因である。 画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。 ビデオでは、フレーム間の予測の運動と時間的一貫性は、セグメンテーションに役立つ補完的な信号を提供する。 私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。 我々はこの情報をモデルに活用する方法を2つ提案する。 まず、画素間関係ネットワーク(IRN)を適用し、トレーニング中の動作情報を効果的に活用する。 第二に、トレーニング中に隣接するフレーム間で安定した予測を転送することで、オブジェクトインスタンスの欠落の問題に対処する新しいMaskConsistモジュールを導入する。 2つのデータセット(Youtube-VIS)とCityscapes(Cityscape s)の動画フレーム上でのインスタンスセグメンテーションの指標である$AP_{50}$をそれぞれ5\%、$3\%改善することが実証された。

Weakly supervised instance segmentation reduces the cost of annotations required to train models. However, existing approaches which rely only on image-level class labels predominantly suffer from errors due to (a) partial segmentation of objects and (b) missing object predictions. We show that these issues can be better addressed by training with weakly labeled videos instead of images. In videos, motion and temporal consistency of predictions across frames provide complementary signals which can help segmentation. We are the first to explore the use of these video signals to tackle weakly supervised instance segmentation. We propose two ways to leverage this information in our model. First, we adapt inter-pixel relation network (IRN) to effectively incorporate motion information during training. Second, we introduce a new MaskConsist module, which addresses the problem of missing object instances by transferring stable predictions between neighboring frames during training. We demonstrate that both approaches together improve the instance segmentation metric $AP_{50}$ on video frames of two datasets: Youtube-VIS and Cityscapes by $5\%$ and $3\%$ respectively.
翻訳日:2021-03-25 14:05:56 公開日:2021-03-23
# 人文科学の基盤的真実

Ground Truths for the Humanities ( http://arxiv.org/abs/2103.12841v1 )

ライセンス: Link先を確認
Yvette Oortwijn, Hein van den Berg, and Arianna Betti(参考訳) データとの忠実な相互作用と人文科学の表現を保証することは、専門家によって構成された基礎的真理に依存するべきである。

Ensuring a faithful interaction with data and its representation for humanities can and should depend on expert-constructed ground truths.
翻訳日:2021-03-25 13:53:54 公開日:2021-03-23
# 路線上の施設移転

Facility Reallocation on the Line ( http://arxiv.org/abs/2103.12894v1 )

ライセンス: Link先を確認
Bart de Keijzer and Dominik Wojtczak(参考訳) 実線上では,n$エージェントが報告した場所に基づいて,施設が時間間隔で移動している,多段階的な施設配置問題を考える。 再配置アルゴリズムの目的は、社会コストを最小化することであり、すなわち、施設と全てのエージェントのあらゆる段階の合計距離の合計と、施設を移動させるコストを最小化することである。 オフライン設定とオンライン設定の両方でこの問題を研究する。 オフラインの場合、アルゴリズムは全ての将来の段階におけるエージェントの位置の完全な知識を持ち、オンライン設定では、アルゴリズムはこれらの将来の位置を知らないので、ステージごとに施設の位置を決定する必要がある。 どちらの場合にも最適アルゴリズムを導出する。 オンライン環境では、その競合比は$(n+2)/(n+1)$である。 いずれのアルゴリズムも戦略防御機構は得られないため、奇数$n$に対して$(n+3)/(n+1)$、偶数$(n+4)/n$が$(n+4)/n$という競合比を持つ別の戦略防御機構を提案する。 また,複数の施設と重み付きエージェントによる一般化についても検討し,一定数の施設で最適値を多項式時間で計算できることを示した。

We consider a multi-stage facility reallocation problems on the real line, where a facility is being moved between time stages based on the locations reported by $n$ agents. The aim of the reallocation algorithm is to minimise the social cost, i.e., the sum over the total distance between the facility and all agents at all stages, plus the cost incurred for moving the facility. We study this problem both in the offline setting and online setting. In the offline case the algorithm has full knowledge of the agent locations in all future stages, and in the online setting the algorithm does not know these future locations and must decide the location of the facility on a stage-per-stage basis. We derive the optimal algorithm in both cases. For the online setting we show that its competitive ratio is $(n+2)/(n+1)$. As neither of these algorithms turns out to yield a strategy-proof mechanism, we propose another strategy-proof mechanism which has a competitive ratio of $(n+3)/(n+1)$ for odd $n$ and $(n+4)/n$ for even $n$, which we conjecture to be the best possible. We also consider a generalisation with multiple facilities and weighted agents, for which we show that the optimum can be computed in polynomial time for a fixed number of facilities.
翻訳日:2021-03-25 13:51:50 公開日:2021-03-23
# 分散ビジュアル・慣性協調ローカライズ

Distributed Visual-Inertial Cooperative Localization ( http://arxiv.org/abs/2103.12770v1 )

ライセンス: Link先を確認
Pengxiang Zhu, Patrick Geneva, Wei Ren, and Guoquan Huang(参考訳) 本稿では,時間とロボットにまたがる環境特性とループクロージャ制約を効率的に融合するマルチロボット協調ローカライゼーション(cl)のための一貫性と分散状態推定器を提案する。 特に,共分散交叉(covariance intersection,ci)を利用して,各ロボットが自己状態と自己共分散のみを追跡し,ロボット間の未知の相関を補償する。 一般的な環境SLAMの特徴を利用するための2つの新しい手法を導入し、精度と効率の点で評価した。 さらに,計算コストを大幅に増加させることなく,ループクロージャ測定制約を他のロボットの歴史的なポーズに適用することにより,ドリフトフリーな推定を可能にする。 提案した分散CL推定器は,シミュレーションと実世界の実験の両方において,非実時間集中型に対して有効である。

In this paper we present a consistent and distributed state estimator for multi-robot cooperative localization (CL) which efficiently fuses environmental features and loop-closure constraints across time and robots. In particular, we leverage covariance intersection (CI) to allow each robot to only track its own state and autocovariance and compensate for the unknown correlations between robots. Two novel different methods for utilizing common environmental temporal SLAM features are introduced and evaluated in terms of accuracy and efficiency. Moreover, we adapt CI to enable drift-free estimation through the use of loop-closure measurement constraints to other robots' historical poses without a significant increase in computational cost. The proposed distributed CL estimator is validated against its naive non-realtime centralized counterpart extensively in both simulations and real-world experiments.
翻訳日:2021-03-25 13:51:26 公開日:2021-03-23
# psiminer:コードからリッチな抽象構文木をマイニングするツール

PSIMiner: A Tool for Mining Rich Abstract Syntax Trees from Code ( http://arxiv.org/abs/2103.12778v1 )

ライセンス: Link先を確認
Egor Spirin, Egor Bogomolov, Vladimir Kovalenko, Timofey Bryksin(参考訳) 機械学習アルゴリズムのソースコードへの適用は、ここ数年で増えている。 これらのアルゴリズムは入力データに非常に敏感であるため、研究者が入力表現を試すことは驚くべきことではない。 現在、コードを表現するための一般的な出発点は抽象構文木(AST)である。 抽象構文木は、様々なソフトウェアエンジニアリングドメイン、特にIDEで長い間使われてきた。 現代的なIDEのAPIはASTの操作やトラバース、コード要素間の参照の解決などを可能にします。 このようなアルゴリズムはASTを新しいデータで豊かにすることができるため、MLベースのコード解析に有用である。 この作業では、IntelliJ PlatformからPSIツリーを処理するツールであるPSIMinerを紹介します。 PSIツリーはコード構文木とそれらを扱う関数を含んでいるため、現代のIDEの静的解析アルゴリズムを使ってコード表現を豊かにするために使うことができる。 このアイデアを実証するために、我々のツールはJava ASTの型識別子を推論し、メソッド名予測問題に対するcode2seqモデルを拡張します。

The application of machine learning algorithms to source code has grown in the past years. Since these algorithms are quite sensitive to input data, it is not surprising that researchers experiment with input representations. Nowadays, a popular starting point to represent code is abstract syntax trees (ASTs). Abstract syntax trees have been used for a long time in various software engineering domains, and in particular in IDEs. The API of modern IDEs allows to manipulate and traverse ASTs, resolve references between code elements, etc. Such algorithms can enrich ASTs with new data and therefore may be useful in ML-based code analysis. In this work, we present PSIMiner - a tool for processing PSI trees from the IntelliJ Platform. PSI trees contain code syntax trees as well as functions to work with them, and therefore can be used to enrich code representation using static analysis algorithms of modern IDEs. To showcase this idea, we use our tool to infer types of identifiers in Java ASTs and extend the code2seq model for the method name prediction problem.
翻訳日:2021-03-25 13:49:38 公開日:2021-03-23
# X線CTによる微小骨折の検出

Detecting micro fractures with X-ray computed tomography ( http://arxiv.org/abs/2103.12821v1 )

ライセンス: Link先を確認
Dongwon Lee, Nikolaos Karadimitriou, Matthias Ruf and Holger Steeb(参考訳) X-ray Computed Tomography (XRCT) を用いた多孔質岩体の研究は不透明多孔質媒質の非破壊的可視化の標準手法として確立されている。 xrctの分野における最近の進歩にもかかわらず、生み出したデータに固有のノイズや画像のアーティファクトがあるため、いくつかの課題は残る。 これらの問題は、骨折や骨折ネットワークの同定が目的であれば、さらに深刻になる。 課題は、関心のある地域と近隣地域の間の限定的なコントラストである。 この限られたコントラストは、主に骨折の微小開口によるものである。 この課題を克服するために、フィルタリングなどのデジタル画像処理を適用して、信号対雑音比を高めるというアプローチが一般的である。 さらに、閾値/形態素スキームに基づくセグメンテーション手法を用いて、興味のある特徴から強化された情報を得ることができる。 しかし、このワークフローには入力パラメータを微調整する熟練したオペレータが必要であり、利用可能なメソッドの複雑さとデータセットの大量さにより、必要な計算時間は大幅に増加する。 本研究では,XRCTを用いたカララ大理石のフラクチャーネットワークの可視化に成功したデータに基づいて,多くのセグメント化手法によるセグメント化結果を示す。 従来の3つの手法と2つの機械学習に基づく手法を評価した。 セグメンテーション品質と時間効率の観点から、5つの方法すべてから得られたセグメンテーション結果を比較した。 メモリ制限のため、公平な比較を達成するために、すべてのメソッドが2Dスキームで使用される。 機械学習に基づくセグメンテーション手法の1つである2次元U-netモデルの出力は、セグメンテーションの品質と必要な処理時間に関して最高の性能を示す。

Studying porous rock materials with X-Ray Computed Tomography (XRCT) has been established as a standard procedure for the non-destructive visualization of flow and transport in opaque porous media. Despite the recent advances in the field of XRCT, some challenges still remain due to the inherent noise and imaging artefacts in the produced data. These issues become even more profound when the objective is the identification of fractures, and/or fracture networks. The challenge is the limited contrast between the regions of interest and the neighboring areas. This limited contrast can mostly be attributed to the minute aperture of the fractures. In order to overcome this challenge, it has been a common approach to apply digital image processing, such as filtering, to enhance the signal-to-noise ratio. Additionally, segmentation methods based on threshold-/morpholog y schemes can be employed to obtain enhanced information from the features of interest. However, this workflow needs a skillful operator to fine-tune its input parameters, and the required computation time significantly increases due to the complexity of the available methods, and the large volume of the data-set. In this study, based on a data-set produced by the successful visualization of a fracture network in Carrara marble with XRCT, we present the segmentation results from a number of segmentation methods. Three conventional and two machine-learning-bas ed methods are evaluated. The segmentation results from all five methods are compared to each other in terms of segmentation quality and time efficiency. Due to memory limitations, and in order to accomplish a fair comparison, all the methods are employed in a 2D scheme. The output of the 2D U-net model, which is one of the adopted machine-learning-bas ed segmentation methods, shows the best performance regarding the quality of segmentation and the required processing time.
翻訳日:2021-03-25 13:49:23 公開日:2021-03-23
# 予算制約付き動的ブロットーゲームのためのバンディット学習

Bandit Learning for Dynamic Colonel Blotto Game with a Budget Constraint ( http://arxiv.org/abs/2103.12833v1 )

ライセンス: Link先を確認
Vincent Leon, S. Rasoul Etesami(参考訳) プレイヤーの1人が学習者であり、有限時間地平線上で割り当てる限られた兵力(予算)を有する動的大佐ブロットーゲーム(CBG)を考える。 各段階において、学習者は、過去の観測に基づいて戦場間で割り当てる予算とその配分を戦略的に決定する。 他のプレイヤーは敵であり、一定のが未知の分布からランダムに予算配分戦略を選択する。 学習者の目的は後悔を最小限に抑えることであり、これは学習アルゴリズムに従えば、最良のダイナミックポリシーの観点で最適のペイオフと実現されたペイオフとの差として定義される。 動的CBGは,クナプサックと組み合わせバンドイットおよびバンドイットの枠組みの下で解析される。 まず,動的cbgを予算制約付きでグラフ上の経路計画問題に変換する。 次に、経路計画グラフ上のEdgeを別のアルゴリズムであるLagrangeBwKのサブルーチンとして使用する学習者に対して効率的な動的ポリシーを考案する。 提案方針の下では,予算制約のない繰り返しCBGの動的CBGとの一致(対数係数まで)に対する学習者の後悔が,予算制約を伴わないことを示す。

We consider a dynamic Colonel Blotto game (CBG) in which one of the players is the learner and has limited troops (budget) to allocate over a finite time horizon. At each stage, the learner strategically determines the budget and its distribution to allocate among the battlefields based on past observations. The other player is the adversary, who chooses its budget allocation strategies randomly from some fixed but unknown distribution. The learner's objective is to minimize the regret, which is defined as the difference between the optimal payoff in terms of the best dynamic policy and the realized payoff by following a learning algorithm. The dynamic CBG is analyzed under the framework of combinatorial bandit and bandit with knapsacks. We first convert the dynamic CBG with the budget constraint to a path planning problem on a graph. We then devise an efficient dynamic policy for the learner that uses a combinatorial bandit algorithm Edge on the path planning graph as a subroutine for another algorithm LagrangeBwK. A high-probability regret bound is derived, and it is shown that under the proposed policy, the learner's regret in the budget-constrained dynamic CBG matches (up to a logarithmic factor) that of the repeated CBG without budget constraints.
翻訳日:2021-03-25 13:44:29 公開日:2021-03-23
# (参考訳) CMMNとDCRの有効性と有用性の評価 [全文訳有]

Evaluating Perceived Usefulness and Ease of Use of CMMN and DCR ( http://arxiv.org/abs/2103.11218v2 )

ライセンス: CC BY 4.0
Amin Jalali(参考訳) ケース管理は徐々に進化し、知識集約型ビジネスプロセス管理をサポートし、宣言、動的条件応答(dcr)、ケース管理モデルと表記法(cmmn)といった異なるモデリング言語を開発してきた。 ユーザが受け入れて使用しなければ、言語は死にます – 絶滅した人間の言語と同じように。 したがって、ユーザーがいかに言語を知覚し、改善の必要性を判断するかを評価することが重要である。 プロセスデザイナがDeclareとDCRをどのように認識しているかを調査する研究もあるが、CMMNをどのように知覚するかは研究されていない。 そこで本研究では,プロセスデザイナがCMMNとDCRの有用性と使いやすさを技術アクセプタンスモデルに基づいて認識する方法について検討した。 DCRは、研究結果を以前のものと比較するために含まれている。 この研究は、これらの言語を8週間にわたってマスターレベルの学生に教育することで行われ、バイアスを減らすために課題に対するフィードバックを与える。 学生の知覚は、試験の最終練習に対するフィードバックの前後のアンケートによって収集される。 結果として、十分に訓練されたにもかかわらず、参加者の知覚がフィードバックを受けてどのように変化するかが示される。 応答の信頼性は cronbach の alpha を用いてテストされ、両言語は有用性と使いやすさの両方において許容できるレベルであることが示された。

Case Management has been gradually evolving to support Knowledge-intensive business process management, which resulted in developing different modeling languages, e.g., Declare, Dynamic Condition Response (DCR), and Case Management Model and Notation (CMMN). A language will die if users do not accept and use it in practice - similar to extinct human languages. Thus, it is important to evaluate how users perceive languages to determine if there is a need for improvement. Although some studies have investigated how the process designers perceived Declare and DCR, there is a lack of research on how they perceive CMMN. Therefore, this study investigates how the process designers perceive the usefulness and ease of use of CMMN and DCR based on the Technology Acceptance Model. DCR is included to enable comparing the study result with previous ones. The study is performed by educating master level students with these languages over eight weeks by giving feedback on their assignments to reduce perceptions biases. The students' perceptions are collected through questionnaires before and after sending feedback on their final practice in the exam. Thus, the result shows how the perception of participants can change by receiving feedback - despite being well trained. The reliability of responses is tested using Cronbach's alpha, and the result indicates that both languages have an acceptable level for both perceived usefulness and ease of use.
翻訳日:2021-03-25 12:47:48 公開日:2021-03-23
# (参考訳) 記号解析を用いた時系列データのマルコフモデリング

Markov Modeling of Time-Series Data using Symbolic Analysis ( http://arxiv.org/abs/2103.11238v2 )

ライセンス: CC BY 4.0
Devesh K. Jha(参考訳) マルコフモデルは、統計学習アプリケーションのためのシーケンシャルデータの時間パターンを捉えるためにしばしば用いられる。 隠れマルコフモデリングに基づく学習メカニズムは文献でよく研究されているが、記号力学にインスパイアされたアプローチを解析する。 この傘の下では、マルコフの時系列データのモデリングは2つの主要なステップから成り、連続的な属性の離散化と、離散化されたシーケンスの時間記憶の大きさを推定する。 これら2つのステップは、離散空間における時系列データの正確かつ簡潔な表現に不可欠である。 離散化は、結果の離散化シーケンスの情報内容を管理する。 一方、シンボルシーケンスのメモリ推定は、離散化されたデータの予測パターンを抽出するのに役立ちます。 離散マルコフ過程としての信号表現の有効性はどちらのステップにも依存する。 本稿では,離散確率過程における離散化とメモリ推定の異なる手法について概説する。 特に、離散確率過程における離散化と順序推定の個々の問題に焦点を当てる。 本稿では,情報理論と統計学習の概念を用いた力学系理論の分割と順序推定に関する文献からの結果を紹介する。 また,データ解析のシンボリックフレームワークを用いて,機械学習や統計学習に有用な,関連する問題定式化についても述べる。 提案手法を用いたジェットタービンエンジンのリーン予混合燃焼における複素熱音響不安定現象の統計的解析結果について述べる。

Markov models are often used to capture the temporal patterns of sequential data for statistical learning applications. While the Hidden Markov modeling-based learning mechanisms are well studied in literature, we analyze a symbolic-dynamics inspired approach. Under this umbrella, Markov modeling of time-series data consists of two major steps -- discretization of continuous attributes followed by estimating the size of temporal memory of the discretized sequence. These two steps are critical for the accurate and concise representation of time-series data in the discrete space. Discretization governs the information content of the resultant discretized sequence. On the other hand, memory estimation of the symbolic sequence helps to extract the predictive patterns in the discretized data. Clearly, the effectiveness of signal representation as a discrete Markov process depends on both these steps. In this paper, we will review the different techniques for discretization and memory estimation for discrete stochastic processes. In particular, we will focus on the individual problems of discretization and order estimation for discrete stochastic process. We will present some results from literature on partitioning from dynamical systems theory and order estimation using concepts of information theory and statistical learning. The paper also presents some related problem formulations which will be useful for machine learning and statistical learning application using the symbolic framework of data analysis. We present some results of statistical analysis of a complex thermoacoustic instability phenomenon during lean-premixed combustion in jet-turbine engines using the proposed Markov modeling method.
翻訳日:2021-03-25 12:35:47 公開日:2021-03-23
# (参考訳) オープンドメイン質問応答における補完的証拠同定 [全文訳有]

Complementary Evidence Identification in Open-Domain Question Answering ( http://arxiv.org/abs/2103.11643v2 )

ライセンス: CC BY 4.0
Xiangyang Mou, Mo Yu, Shiyu Chang, Yufei Feng, Li Zhang and Hui Su(参考訳) 本稿では,オープンドメイン質問応答(qa)に対する補完的証拠同定の新たな問題を提案する。 この問題は、複雑な問題に答えるために、複数の側面から完全な証拠を網羅する小節を効率的に見つけることを目的としている。 そこで本研究では,選択された集合のベクトル表現を学習し,選択された集合内の十分性と多様性をモデル化する手法を提案する。 実験により,本手法は支持するエビデンス内の依存性を考慮し,qa領域における補完的証拠選択の精度を著しく向上することを示した。

This paper proposes a new problem of complementary evidence identification for open-domain question answering (QA). The problem aims to efficiently find a small set of passages that covers full evidence from multiple aspects as to answer a complex question. To this end, we proposes a method that learns vector representations of passages and models the sufficiency and diversity within the selected set, in addition to the relevance between the question and passages. Our experiments demonstrate that our method considers the dependence within the supporting evidence and significantly improves the accuracy of complementary evidence selection in QA domain.
翻訳日:2021-03-25 05:41:09 公開日:2021-03-23
# (参考訳) F-SIOL-310:Few-Shot Incremental Object Learningのためのロボットデータセットとベンチマーク [全文訳有]

F-SIOL-310: A Robotic Dataset and Benchmark for Few-Shot Incremental Object Learning ( http://arxiv.org/abs/2103.12242v1 )

ライセンス: CC BY 4.0
Ali Ayub, Alan R. Wagner(参考訳) ディープラーニングは、imagenetのような大規模データセットを利用可能にすることで、オブジェクト認識タスクで著しく成功した。 しかし、ディープラーニングシステムは、古いデータを再生せずにインクリメンタルに学習するときに壊滅的な忘れに苦しむ。 現実世界のアプリケーションでは、ロボットは新しいオブジェクトを漸進的に学習する必要がある。 さらに、ロボットは人的支援が限られているため、いくつかの例から学ぶ必要がある。 しかし、ロボットビジョンのインクリメンタル学習能力をテストするために、オブジェクト認識データセットやベンチマークはごくわずかである。 さらに、いくつかの例からインクリメンタルなオブジェクト学習用に特別に設計されたデータセットやベンチマークはありません。 このギャップを埋めるために,ロボットビジョンのためのマイナショットインクリメンタルオブジェクト学習機能をテストするために,f-siol-310(few-shot incremental object learning)と呼ばれる新しいデータセットを提案する。 また,F-SIOL-310における8つのインクリメンタル学習アルゴリズムのベンチマークと評価を行った。 以上の結果から,ロボットビジョンにおけるインクリメンタルな物体学習問題の解決には程遠いことが示唆された。

Deep learning has achieved remarkable success in object recognition tasks through the availability of large scale datasets like ImageNet. However, deep learning systems suffer from catastrophic forgetting when learning incrementally without replaying old data. For real-world applications, robots also need to incrementally learn new objects. Further, since robots have limited human assistance available, they must learn from only a few examples. However, very few object recognition datasets and benchmarks exist to test incremental learning capability for robotic vision. Further, there is no dataset or benchmark specifically designed for incremental object learning from a few examples. To fill this gap, we present a new dataset termed F-SIOL-310 (Few-Shot Incremental Object Learning) which is specifically captured for testing few-shot incremental object learning capability for robotic vision. We also provide benchmarks and evaluations of 8 incremental learning algorithms on F-SIOL-310 for future comparisons. Our results demonstrate that the few-shot incremental object learning problem for robotic vision is far from being solved.
翻訳日:2021-03-25 02:55:13 公開日:2021-03-23
# (参考訳) セマンティックセグメンテーションのためのDilated SpineNet [全文訳有]

Dilated SpineNet for Semantic Segmentation ( http://arxiv.org/abs/2103.12270v1 )

ライセンス: CC BY 4.0
Abdullah Rashwan and Xianzhi Du and Xiaoqi Yin and Jing Li(参考訳) スケール置換されたネットワークは、オブジェクト境界ボックスの検出とインスタンスセグメンテーションに有望な結果を示している。 スケールの置換とクロススケールな機能の融合により、ネットワークは空間解像度を維持しながらマルチスケールのセマンティクスをキャプチャできる。 本稿では,セマンティックセグメンテーションにおけるメタアーキテクチャ設計について評価する。ネットワークの異なる段階において,高い空間分解能とマルチスケール機能融合の利点を享受するもう1つのビジョンタスクである。 拡張畳み込み処理のさらなる活用により,DeepLabv3システムからNASによって発見されたネットワークであるSpineNet-Segを提案する。 spinenet-segは、セマンティックセグメンテーションタスクでブロック毎の拡張比をカスタマイズした、スケール順に変化するネットワークトポロジーで設計されている。 SpineNet-Segモデルは、DeepLabv3/v3+のベースラインを、スピードと精度で複数の人気のあるベンチマークで上回っている。 特に,私たちのSpineNet-S143+モデルは,人気の高いCityscapesベンチマークの83.04% mIoUでの最先端性を達成し,PASCAL VOC2012ベンチマークの85.56% mIoUでの強いパフォーマンスを達成した。 SpineNet-Segモデルは、挑戦的なストリートビューセグメンテーションデータセットで有望な結果を示す。 コードとチェックポイントはオープンソースになる。

Scale-permuted networks have shown promising results on object bounding box detection and instance segmentation. Scale permutation and cross-scale fusion of features enable the network to capture multi-scale semantics while preserving spatial resolution. In this work, we evaluate this meta-architecture design on semantic segmentation - another vision task that benefits from high spatial resolution and multi-scale feature fusion at different network stages. By further leveraging dilated convolution operations, we propose SpineNet-Seg, a network discovered by NAS that is searched from the DeepLabv3 system. SpineNet-Seg is designed with a better scale-permuted network topology with customized dilation ratios per block on a semantic segmentation task. SpineNet-Seg models outperform the DeepLabv3/v3+ baselines at all model scales on multiple popular benchmarks in speed and accuracy. In particular, our SpineNet-S143+ model achieves the new state-of-the-art on the popular Cityscapes benchmark at 83.04% mIoU and attained strong performance on the PASCAL VOC2012 benchmark at 85.56% mIoU. SpineNet-Seg models also show promising results on a challenging Street View segmentation dataset. Code and checkpoints will be open-sourced.
翻訳日:2021-03-25 02:42:30 公開日:2021-03-23
# (参考訳) 中国の述語頭と関連要素の注釈

Annotation of Chinese Predicate Heads and Relevant Elements ( http://arxiv.org/abs/2103.12280v1 )

ライセンス: CC BY 4.0
Yanping Chen and Yongbin Qin and Ruizhang Huang and Qinghua Zheng and Ping Chen(参考訳) 述語頭(predicate head)は、文の構造的中心としての役割を果たす言語表現である。 述語首の特定は文を理解するのに不可欠である。 主語要素、副詞要素などを含む文中の関連する統語要素を整理する上で、主要な役割を担っている。 英語など一部の言語では、単語形態学は述語頭を特定するのに有用である。 しかし、中国語は文法的な役割を示す形態的な情報を提供していない。 中国語の文には複数の動詞表現が含まれており、述語頭の役割を担う表現を特定することは容易ではない。 また、漢文は構造に不注意であり、語間関係は生じない。 したがって、中国の述語頭の識別には大きな困難が伴う。 中国語情報抽出では,述語頭部認識における研究はほとんど行われていない。 一般的に受け入れられる評価データセットは、この重要な領域での作業をサポートしません。 本稿では,中国の述語頭とその構文要素に対する注釈ガイドラインを開発するための最初の試みについて述べる。 この注釈ガイドラインは文の構造中心としての述語の役割を強調している。 関連する構文要素アノテーションの設計もこの原則に従う。 この目的を達成するために、例えば述語頭部のパターン、平らなアノテーション構造、より単純な構文単位型など、多くの考察がなされている。 提案した注釈ガイドラインに基づいて1500以上の文書が手作業で注釈付けされた。 コーパスはオンラインで公開されている。 このガイドラインと注釈付きコーパスにより、中国情報抽出分野の研究を広範囲に影響を与え、推進し、長い間欠落していた重要な資源を研究コミュニティに提供することが目的である。

A predicate head is a verbal expression that plays a role as the structural center of a sentence. Identifying predicate heads is critical to understanding a sentence. It plays the leading role in organizing the relevant syntactic elements in a sentence, including subject elements, adverbial elements, etc. For some languages, such as English, word morphologies are valuable for identifying predicate heads. However, Chinese offers no morphological information to indicate words` grammatical roles. A Chinese sentence often contains several verbal expressions; identifying the expression that plays the role of the predicate head is not an easy task. Furthermore, Chinese sentences are inattentive to structure and provide no delimitation between words. Therefore, identifying Chinese predicate heads involves significant challenges. In Chinese information extraction, little work has been performed in predicate head recognition. No generally accepted evaluation dataset supports work in this important area. This paper presents the first attempt to develop an annotation guideline for Chinese predicate heads and their relevant syntactic elements. This annotation guideline emphasizes the role of the predicate as the structural center of a sentence. The design of relevant syntactic element annotation also follows this principle. Many considerations are proposed to achieve this goal, e.g., patterns of predicate heads, a flattened annotation structure, and a simpler syntactic unit type. Based on the proposed annotation guideline, more than 1,500 documents were manually annotated. The corpus will be available online for public access. With this guideline and annotated corpus, our goal is to broadly impact and advance the research in the area of Chinese information extraction and to provide the research community with a critical resource that has been lacking for a long time.
翻訳日:2021-03-25 02:27:00 公開日:2021-03-23
# (参考訳) ndt-transformer:正規分布変換表現を用いた大規模3dポイントクラウドローカライズ [全文訳有]

NDT-Transformer: Large-Scale 3D Point Cloud Localisation using the Normal Distribution Transform Representation ( http://arxiv.org/abs/2103.12292v1 )

ライセンス: CC BY 4.0
Zhicheng Zhou, Cheng Zhao, Daniel Adolfsson, Songzhi Su, Yang Gao, and Tom Duckett, Li Sun(参考訳) 3Dポイントのクラウドベースの位置認識は、GPSで照らされた環境での自律運転によって非常に要求され、必須のコンポーネント(つまり)として機能する。 lidarベースのslamシステムにおけるループクロージャ検出) 本稿では,3次元点雲を用いたリアルタイム・大規模位置認識のための新しい手法 NDT-Transformer を提案する。 具体的には、3D正規分布変換(NDT)表現を用いて、生で密度の高い3D点雲を確率分布(NDTセル)として凝縮させ、幾何学的形状記述を提供する。 そして、新しいNDT-Transformerネットワークは、3次元NDTセル表現の集合からグローバルディスクリプタを学習する。 NDT表現とNDT-Transformerネットワークの利点により、学習したグローバルディスクリプタは幾何学的情報と文脈的情報の両方に富んでいる。 最後に、位置認識のためのクエリデータベースを用いて記述子検索を行う。 最先端の手法と比較して、提案手法は平均トップ1リコールで7.52%、オックスフォード・ロボカーベンチマークで平均トップ1%リコールで2.73%の改善を達成している。

3D point cloud-based place recognition is highly demanded by autonomous driving in GPS-challenged environments and serves as an essential component (i.e. loop-closure detection) in lidar-based SLAM systems. This paper proposes a novel approach, named NDT-Transformer, for realtime and large-scale place recognition using 3D point clouds. Specifically, a 3D Normal Distribution Transform (NDT) representation is employed to condense the raw, dense 3D point cloud as probabilistic distributions (NDT cells) to provide the geometrical shape description. Then a novel NDT-Transformer network learns a global descriptor from a set of 3D NDT cell representations. Benefiting from the NDT representation and NDT-Transformer network, the learned global descriptors are enriched with both geometrical and contextual information. Finally, descriptor retrieval is achieved using a query-database for place recognition. Compared to the state-of-the-art methods, the proposed approach achieves an improvement of 7.52% on average top 1 recall and 2.73% on average top 1% recall on the Oxford Robotcar benchmark.
翻訳日:2021-03-25 02:25:58 公開日:2021-03-23
# (参考訳) SuctionNet-1Billion: Suction Grasping用の大規模ベンチマーク [全文訳有]

SuctionNet-1Billion: A Large-Scale Benchmark for Suction Grasping ( http://arxiv.org/abs/2103.12311v1 )

ライセンス: CC BY 4.0
Hanwen Cao, Hao-Shu Fang, Wenhai Liu, Cewu Lu(参考訳) 吸引は長年にわたるロボットの把握問題にとって重要な解決法である。 他の種類の把持と比較すると、吸引把持は表現が容易であり、しばしば実用上より信頼性が高い。 多くのシナリオで好まれるが、十分に調査されておらず、十分なトレーニングデータや評価ベンチマークが欠けている。 そこで本研究では, まず, 吸引把持のシール形成とレンチ抵抗を解析的に評価するための新しい物理モデルを提案する。 第2に,実世界の雑然としたシナリオで収集された大規模データセット上でアノテーションを生成するために,2段階の手法が採用されている。 第3に, 連続操作空間における吸入ポーズを評価するための標準オンライン評価システムを提案し, 徹底的なラベル付けを必要とせずに, 異なるアルゴリズムを公平にベンチマークできる。 実ロボット実験により,アノテーションが実世界とよく一致していることを示す。 一方,散らばったシーンのRGB-D画像から多数の吸引ポーズを予測し,従来手法に対する優位性を実証する手法を提案する。 結果分析は、読者がこの分野の課題をより深く理解するのに役立ちます。 データとソースコードはwww.graspnet.netで公開されている。

Suction is an important solution for the longstanding robotic grasping problem. Compared with other kinds of grasping, suction grasping is easier to represent and often more reliable in practice. Though preferred in many scenarios, it is not fully investigated and lacks sufficient training data and evaluation benchmarks. To address that, firstly, we propose a new physical model to analytically evaluate seal formation and wrench resistance of a suction grasping, which are two key aspects of grasp success. Secondly, a two-step methodology is adopted to generate annotations on a large-scale dataset collected in real-world cluttered scenarios. Thirdly, a standard online evaluation system is proposed to evaluate suction poses in continuous operation space, which can benchmark different algorithms fairly without the need of exhaustive labeling. Real-robot experiments are conducted to show that our annotations align well with real world. Meanwhile, we propose a method to predict numerous suction poses from an RGB-D image of a cluttered scene and demonstrate our superiority against several previous methods. Result analyses are further provided to help readers better understand the challenges in this area. Data and source code are publicly available at www.graspnet.net.
翻訳日:2021-03-25 02:11:02 公開日:2021-03-23
# (参考訳) 人間の知覚原理を用いた異常検出

Anomaly detection using principles of human perception ( http://arxiv.org/abs/2103.12323v1 )

ライセンス: CC BY 4.0
Nassir Mohammad(参考訳) 統計学と教師なし機械学習の分野において、基本的なよく研究された問題は異常検出である。 異常は定義が難しいが、多くのアルゴリズムが提案されている。 アプローチの根底にあるのは、異常はまれであり、異常であり、データの大半と矛盾しているという誤った理解である。 本研究は, ユーザの介入を最小限に抑えて, 異常を明確に定義し, 効率的な検出アルゴリズムを開発するための哲学的アプローチを提供する。 Gestalt School of PsychologyとHelmholtzの人間の知覚原理に触発されたこの考え方は、異常がデータの大部分によって作られた特定のグループ化に関して予期しない観察であると仮定することである。 したがって、適切な確率変数モデリング異常は、観測を構成する要素の分布を一様かつ独立的に仮定した一連のデータに直接見出され、あるビューにおける要素の発生の期待が$<1$であるような観測に対応する。 人間の知覚の基本原理から、単純でリアルタイムでパラメータフリーな教師なし異常検出アルゴリズムを開発した。 実験結果から,多変量データのグローバル異常検出における有望な性能を示す。

In the fields of statistics and unsupervised machine learning a fundamental and well-studied problem is anomaly detection. Although anomalies are difficult to define, many algorithms have been proposed. Underlying the approaches is the nebulous understanding that anomalies are rare, unusual or inconsistent with the majority of data. The present work gives a philosophical approach to clearly define anomalies and to develop an algorithm for their efficient detection with minimal user intervention. Inspired by the Gestalt School of Psychology and the Helmholtz principle of human perception, the idea is to assume anomalies are observations that are unexpected to occur with respect to certain groupings made by the majority of the data. Thus, under appropriate random variable modelling anomalies are directly found in a set of data under a uniform and independent random assumption of the distribution of constituent elements of the observations; anomalies correspond to those observations where the expectation of occurrence of the elements in a given view is $<1$. Starting from fundamental principles of human perception an unsupervised anomaly detection algorithm is developed that is simple, real-time and parameter-free. Experiments suggest it as the prime choice for univariate data and it shows promising performance on the detection of global anomalies in multivariate data.
翻訳日:2021-03-25 01:56:09 公開日:2021-03-23
# (参考訳) 忠実な画像マッチング [全文訳有]

Salient Image Matting ( http://arxiv.org/abs/2103.12337v1 )

ライセンス: CC BY 4.0
Rahul Deora, Rishab Sharma and Dinesh Samuel Sathia Raj(参考訳) 本稿では,画像中の最も鮮やかな前景の画素あたりの不透明度値を推定する,Salient Image Mattingという画像マッチングフレームワークを提案する。 画像における大量の意味的多様性に対処するには、オブジェクトの意味論に関する重要なガイダンスをマットニングプロセスに提供するために、従来はトリマップが必要である。 しかし、良いトリマップを作ることは、しばしば高価で時間を要する。 SIMフレームワークは、完全に自動化され、エンド・ツー・エンドの方法で広範囲のセマンティクスと健全なオブジェクトタイプを学ぶという課題を同時に扱う。 特に,本フレームワークは,RGB入力から直接の列車データとはまったく異なる文脈で,前景オブジェクトや人などの前景クラスが出現するケースに対して,高精度なアルファマットを生成することができる。 これは、高レベルのオブジェクトセマンティクスに関するマットングモデルを導くために、画像内の最もサルエントなオブジェクトのトリマップを生成するためにサルエントオブジェクト検出モデルを使用することによって行われる。 我々のフレームワークは、大量の粗いアノテーションとヒューリスティックなトリマップ生成スキームを併用してトリマップ予測ネットワークをトレーニングし、任意のフォアグラウンドに対してトリマップを生成する。 さらに,より微細で低レベルな不透明なセマンティクスを捉えるために,マルチスケールの融合アーキテクチャを導入する。 trimapネットワークによって提供される高レベルなガイダンスにより、我々のフレームワークは、様々な入力に対してアルファマットを作成できる一方で、他の自動メソッドと比較して、ほんの少しの高価なマットングデータしか必要としません。 我々は,多種多様な画像のフレームワークを実演し,このフレームワークがトリマップを必要とせず,テクストマッチング手法の状態を好適に比較した。

In this paper, we propose an image matting framework called Salient Image Matting to estimate the per-pixel opacity value of the most salient foreground in an image. To deal with a large amount of semantic diversity in images, a trimap is conventionally required as it provides important guidance about object semantics to the matting process. However, creating a good trimap is often expensive and timeconsuming. The SIM framework simultaneously deals with the challenge of learning a wide range of semantics and salient object types in a fully automatic and an end to end manner. Specifically, our framework is able to produce accurate alpha mattes for a wide range of foreground objects and cases where the foreground class, such as human, appears in a very different context than the train data directly from an RGB input. This is done by employing a salient object detection model to produce a trimap of the most salient object in the image in order to guide the matting model about higher-level object semantics. Our framework leverages large amounts of coarse annotations coupled with a heuristic trimap generation scheme to train the trimap prediction network so it can produce trimaps for arbitrary foregrounds. Moreover, we introduce a multi-scale fusion architecture for the task of matting to better capture finer, low-level opacity semantics. With high-level guidance provided by the trimap network, our framework requires only a fraction of expensive matting data as compared to other automatic methods while being able to produce alpha mattes for a diverse range of inputs. We demonstrate our framework on a range of diverse images and experimental results show our framework compares favourably against state of art matting methods without the need for a trimap
翻訳日:2021-03-25 01:55:08 公開日:2021-03-23
# (参考訳) 重なり合うBiLayerを用いた深部閉塞型インスタンスセグメンテーション [全文訳有]

Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers ( http://arxiv.org/abs/2103.12340v1 )

ライセンス: CC BY 4.0
Lei Ke, Yu-Wing Tai and Chi-Keung Tang(参考訳) 高い重なり合うオブジェクトのセグメンテーションは、通常、実際のオブジェクトの輪郭と閉塞境界の間に区別はなされないため、難しい。 従来の2段階のインスタンス分割法とは異なり,画像形成を重なり合う2層の合成としてモデル化し,上層gcn層がoccluder(occluder)を検出し,下層gcn層がoccluded instance(occludee)を推定するbilayer convolutional network(bcnet)を提案する。 二重層構造との咬合関係の明示的なモデリングは、隠蔽と隠蔽の双方の境界を自然に分離し、マスク回帰中の相互作用を考察する。 バックボーンとネットワーク層の選択が異なる1段と2段の物体検出器の2層分離の有効性を検証する。 その単純さにもかかわらず、COCOとKINSに関する広範な実験により、BCNetは特に重閉塞の場合において、大規模かつ一貫したパフォーマンス向上を実現している。 コードはhttps://github.com/l keab/BCNetで入手できる。

Segmenting highly-overlapping objects is challenging, because typically no distinction is made between real object contours and occlusion boundaries. Unlike previous two-stage instance segmentation methods, we model image formation as composition of two overlapping layers, and propose Bilayer Convolutional Network (BCNet), where the top GCN layer detects the occluding objects (occluder) and the bottom GCN layer infers partially occluded instance (occludee). The explicit modeling of occlusion relationship with bilayer structure naturally decouples the boundaries of both the occluding and occluded instances, and considers the interaction between them during mask regression. We validate the efficacy of bilayer decoupling on both one-stage and two-stage object detectors with different backbones and network layer choices. Despite its simplicity, extensive experiments on COCO and KINS show that our occlusion-aware BCNet achieves large and consistent performance gain especially for heavy occlusion cases. Code is available at https://github.com/l keab/BCNet.
翻訳日:2021-03-25 01:39:30 公開日:2021-03-23
# (参考訳) 分布外検出のための表現空間間のジョイント分布 [全文訳有]

Joint Distribution across Representation Space for Out-of-Distribution Detection ( http://arxiv.org/abs/2103.12344v1 )

ライセンス: CC BY 4.0
JingWei Xu, Siyuan Zhu, Zenan Li, Chang Xu(参考訳) ディープニューラルネットワーク(DNN)は多くの現代のソフトウェアアプリケーションにおいて重要な部分となっている。 トレーニングと検証の後、DNNは無効なコンポーネントとしてデプロイされ、現実世界のシナリオに適用される。 ほとんどのDNNは、大量のトレーニングデータで慎重に構築されているが、実際のデータはDNNモデルにはまだ知られておらず、実行時アウトオブディストリビューション(OOD)検出の重要な要件となっている。 しかし、1) 分類器のトレーニングやパラメータチューニングのために ood データを必要とする、2) 隠された各層のスコアを ood 検出のための特徴のアンサンブルとして結合する、といった多くの既存のアプローチがある。 本稿では,各隠れ層から生成した潜在特徴を表現空間をまたいだジョイント分布として,分散データに対する新しい展望を提案する。 分布内潜在特徴のみを表現空間で包括的に理解するため、OODデータの介入なしに、分布内データとOODデータの内部差を自然に明らかにすることができる。 具体的には,Latent Sequential Gaussian Mixture (LSGM) と呼ばれる生成モデルを構築し,DNN推論のトレースから分布しない潜在特徴がどのように生成されるかを記述する。 まず,隠れ層ごとに分布しない潜在特性に基づいてガウス混合モデル(GMM)を構築し,その後,推定トレースの遷移確率を介してGMMを接続する。 一般的なベンチマークOODデータセットとモデルを用いた実験により,OOD検出における最先端手法よりも提案手法の優位性を検証した。

Deep neural networks (DNNs) have become a key part of many modern software applications. After training and validating, the DNN is deployed as an irrevocable component and applied in real-world scenarios. Although most DNNs are built meticulously with huge volumes of training data, data in real-world still remain unknown to the DNN model, which leads to the crucial requirement of runtime out-of-distribution (OOD) detection. However, many existing approaches 1) need OOD data for classifier training or parameter tuning, or 2) simply combine the scores of each hidden layer as an ensemble of features for OOD detection. In this paper, we present a novel outlook on in-distribution data in a generative manner, which takes their latent features generated from each hidden layer as a joint distribution across representation spaces. Since only the in-distribution latent features are comprehensively understood in representation space, the internal difference between in-distribution and OOD data can be naturally revealed without the intervention of any OOD data. Specifically, We construct a generative model, called Latent Sequential Gaussian Mixture (LSGM), to depict how the in-distribution latent features are generated in terms of the trace of DNN inference across representation spaces. We first construct the Gaussian Mixture Model (GMM) based on in-distribution latent features for each hidden layer, and then connect GMMs via the transition probabilities of the inference traces. Experimental evaluations on popular benchmark OOD datasets and models validate the superiority of the proposed method over the state-of-the-art methods in OOD detection.
翻訳日:2021-03-25 01:22:20 公開日:2021-03-23
# (参考訳) フォント形状と印象の共有潜在空間 [全文訳有]

Shared Latent Space of Font Shapes and Impressions ( http://arxiv.org/abs/2103.12347v1 )

ライセンス: CC BY 4.0
Jihun Kang, Daichi Haraguchi, Akisato Kimura, Seiichi Uchida(参考訳) フォントのスタイル(font)から特定の印象があり、フォントの形状と印象の間に相関があることを示唆している。 この仮説に基づいて,フォント形状画像とその印象語がクロスモーダルな方法で埋め込まれた共有潜在空間を実現する。 この潜在空間は、スタイル印象相関を理解し、複数の印象語を指定してフォント画像を生成するのに有用である。 大きなスタイルインプレッションデータセットを用いた実験結果は、特に形状関連印象語において、共有潜在空間を正確に認識することができ、その空間を用いて様々な印象を持つフォント画像を生成することができることを証明している。

We have specific impressions from the style of a typeface (font), suggesting that there are correlations between font shape and its impressions. Based on this hypothesis, we realize a shared latent space where a font shape image and its impression words are embedded in a cross-modal manner. This latent space is useful to understand the style-impression correlation and generate font images by specifying several impression words. Experimental results with a large style-impression dataset prove that it is possible to accurately realize the shared latent space, especially for shape-relevant impression words, and then use the space to generate font images with various impressions.
翻訳日:2021-03-25 01:09:26 公開日:2021-03-23
# (参考訳) 表情認識のための階層型階層型ピラミッドニューラルアーキテクチャ [全文訳有]

A Sub-Layered Hierarchical Pyramidal Neural Architecture for Facial Expression Recognition ( http://arxiv.org/abs/2103.12362v1 )

ライセンス: CC BY 4.0
Henrique Siqueira, Pablo Barros, Sven Magg, Cornelius Weber and Stefan Wermter(参考訳) ロボット工学のような計算資源やラベル付きデータに制限がある領域では、数百万の重みを持つディープネットワークが最適解ではないかもしれない。 本稿では,ピラミッド型アーキテクチャの学習能力を向上させるための接続方式を提案する。 視覚障害者の表情認識実験は, 一般化性能と計算コストの低さから, 資源制限によるアプリケーションへのアプローチが潜在的な候補であることを示す。 この手法は畳み込み型アーキテクチャと同様に一般化するが、学習可能なパラメータは少なく、低解像度の顔ではより堅牢である。

In domains where computational resources and labeled data are limited, such as in robotics, deep networks with millions of weights might not be the optimal solution. In this paper, we introduce a connectivity scheme for pyramidal architectures to increase their capacity for learning features. Experiments on facial expression recognition of unseen people demonstrate that our approach is a potential candidate for applications with restricted resources, due to good generalization performance and low computational cost. We show that our approach generalizes as well as convolutional architectures in this task but uses fewer trainable parameters and is more robust for low-resolution faces.
翻訳日:2021-03-25 00:57:14 公開日:2021-03-23
# (参考訳) ドメイン適応型人物再識別のためのグループ認識ラベル転送 [全文訳有]

Group-aware Label Transfer for Domain Adaptive Person Re-identification ( http://arxiv.org/abs/2103.12366v1 )

ライセンス: CC BY 4.0
Kecheng Zheng, Wu Liu, Lingxiao He, Tao Mei, Jiebo Luo, Zheng-Jun Zha(参考訳) Unsupervised Domain Adaptive (UDA) person re-identification (ReID) は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、追加アノテーションなしでターゲットドメインデータセットに適応させることを目的としている。 最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。 しかし、これらの2つのステップ間のオフライン相互作用は、ノイズの多い擬似ラベルがモデルの能力を著しく阻害する可能性がある。 本稿では,擬似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ対応ラベル転送(GLT)アルゴリズムを提案する。 具体的には、ラベル転送アルゴリズムは擬似ラベルを同時に使用し、擬似ラベルをオンラインクラスタリングアルゴリズムとして精錬する。 オンラインラベル精製問題を最適な輸送問題として扱い、MサンプルをN個の擬似ラベルに割り当てる際の最小コストを検討する。 さらに重要なことは、暗黙的な属性グループIDをサンプルに割り当てるグループ認識戦略を導入することである。 オンラインラベル精錬アルゴリズムとグループウェア戦略の組み合わせは、ノイズの多い疑似ラベルをオンラインのやり方で修正し、ターゲットのアイデンティティの検索スペースを狭めることができる。 提案したGLTの有効性は, Market1501$\to$DukeM TMC (82.0\%) と DukeMTMC$\to$Market1 501 (92.2\%) の実験結果(Rank-1の精度)により実証された。

Unsupervised Domain Adaptive (UDA) person re-identification (ReID) aims at adapting the model trained on a labeled source-domain dataset to a target-domain dataset without any further annotations. Most successful UDA-ReID approaches combine clustering-based pseudo-label prediction with representation learning and perform the two steps in an alternating fashion. However, offline interaction between these two steps may allow noisy pseudo labels to substantially hinder the capability of the model. In this paper, we propose a Group-aware Label Transfer (GLT) algorithm, which enables the online interaction and mutual promotion of pseudo-label prediction and representation learning. Specifically, a label transfer algorithm simultaneously uses pseudo labels to train the data while refining the pseudo labels as an online clustering algorithm. It treats the online label refinery problem as an optimal transport problem, which explores the minimum cost for assigning M samples to N pseudo labels. More importantly, we introduce a group-aware strategy to assign implicit attribute group IDs to samples. The combination of the online label refining algorithm and the group-aware strategy can better correct the noisy pseudo label in an online fashion and narrow down the search space of the target identity. The effectiveness of the proposed GLT is demonstrated by the experimental results (Rank-1 accuracy) for Market1501$\to$DukeM TMC (82.0\%) and DukeMTMC$\to$Market1 501 (92.2\%), remarkably closing the gap between unsupervised and supervised performance on person re-identification.
翻訳日:2021-03-25 00:51:56 公開日:2021-03-23
# (参考訳) 感性分析を用いたテキスト分類の新しいアプローチ [全文訳有]

A New Approach To Text Rating Classification Using Sentiment Analysis ( http://arxiv.org/abs/2103.12368v1 )

ライセンス: CC BY 4.0
Thomas Konstantinovsky(参考訳) 感情分析の典型的なユースケースは、ある感情に属するテキストの確率を評価し、それに関する洞察を導出することを中心に展開される。 本稿では,三角構造構築ブロックとしての感情比の値を再定義し,製品レビューの形式で与えられたテキストを高評価群と低評価群に分類する新しい公式の変数を導出し,感情と評価との間に依存性があることを実証する。

Typical use cases of sentiment analysis usually revolve around assessing the probability of a text belonging to a certain sentiment and deriving insight concerning it; little work has been done to explore further use cases derived using those probabilities in the context of rating. In this paper, we redefine the sentiment proportion values as building blocks for a triangle structure, allowing us to derive variables for a new formula for classifying text given in the form of product reviews into a group of higher and a group of lower ratings and prove a dependence exists between the sentiments and the ratings.
翻訳日:2021-03-25 00:37:54 公開日:2021-03-23
# (参考訳) ReCU: バイナリニューラルネットワークのデッドウェイトを復活させる [全文訳有]

ReCU: Reviving the Dead Weights in Binary Neural Networks ( http://arxiv.org/abs/2103.12369v1 )

ライセンス: CC BY 4.0
Zihan Xu, Mingbao Lin, Jianzhuang Liu, Jie Chen, Ling Shao, Yue Gao, Yonghong Tian, Rongrong Ji(参考訳) バイナリニューラルネットワーク(BNN)は、計算とメモリの大幅な削減により注目を集めている。 既存のほとんどの研究は、完全精度の重みと双項化の間のギャップを最小化することによる量子化誤差の低減、あるいは勾配のミスマッチを軽減するために勾配近似を設計することに焦点を当てている。 これにより、BNNのトレーニング時の収束が遅くなる。 本稿では,BNNのトレーニング中にほとんど更新されていない重み群に対する「死重み」の影響を初めて検討し,更新のための「死重み」を復活させるために修正クランプユニット(ReCU)を導入する。 ReCUによる「死重み」の復活は、量子化誤差が小さくなることを示す。 さらに、重みの情報エントロピーも考慮し、重みの標準化がBNNにとって有益である理由を数学的に分析する。 量子化誤差の最小化と情報エントロピーの最大化との間に本質的な矛盾を示すとともに,「死重み」の範囲を同定するための適応型指数型スケジューラを提案する。 CIFAR-10 や ImageNet 上での高速な BNN 訓練だけでなく,近年の手法と比較して最先端のパフォーマンスも実現している。 コードは[このhttps URL](https://github.com/ z-hXu/ReCU)で入手できる。

Binary neural networks (BNNs) have received increasing attention due to their superior reductions of computation and memory. Most existing works focus on either lessening the quantization error by minimizing the gap between the full-precision weights and their binarization or designing a gradient approximation to mitigate the gradient mismatch, while leaving the "dead weights" untouched. This leads to slow convergence when training BNNs. In this paper, for the first time, we explore the influence of "dead weights" which refer to a group of weights that are barely updated during the training of BNNs, and then introduce rectified clamp unit (ReCU) to revive the "dead weights" for updating. We prove that reviving the "dead weights" by ReCU can result in a smaller quantization error. Besides, we also take into account the information entropy of the weights, and then mathematically analyze why the weight standardization can benefit BNNs. We demonstrate the inherent contradiction between minimizing the quantization error and maximizing the information entropy, and then propose an adaptive exponential scheduler to identify the range of the "dead weights". By considering the "dead weights", our method offers not only faster BNN training, but also state-of-the-art performance on CIFAR-10 and ImageNet, compared with recent methods. Code can be available at [this https URL](https://github.com/ z-hXu/ReCU).
翻訳日:2021-03-25 00:31:53 公開日:2021-03-23
# (参考訳) 高周波特徴を用いた顔偽造検出の一般化 [全文訳有]

Generalizing Face Forgery Detection with High-frequency Features ( http://arxiv.org/abs/2103.12376v1 )

ライセンス: CC BY 4.0
Yuchen Luo, Yong Zhang, Junchi Yan, Wei Liu(参考訳) 現在の顔偽造検出法は、同じアルゴリズムでトレーニングとテストの偽造を合成するデータベース内シナリオにおいて高い精度を達成する。 しかし、トレーニングとテストの偽造を異なるアルゴリズムで合成するクロスデータベースシナリオでは、パフォーマンスを満足できるものはほとんどない。 本稿では,現在のCNNベースの検出器は,手法固有の色彩テクスチャに過度に適合し,一般化に失敗する傾向にあることを示す。 画像ノイズが色のテクスチャを除去し,真偽領域と改ざん領域の相違を露呈するのを見て,その高周波ノイズを顔偽造検出に用いることを提案する。 高周波機能を完全に活用するために、3つの機能モジュールを慎重に設計する。 1つは、複数のスケールで高周波ノイズを抽出し、新しいモダリティを構成するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルのRGB特徴抽出器を誘導し、新しい視点から偽の痕跡に集中させる残留誘導型空間アテンションモジュールである。 最後に、2つの補完的モダリティ間の相関を利用して互いに機能学習を促進するクロスモダリティアテンションモジュールがある。 いくつかのベンチマークデータベースにおける総合評価は,提案手法の優れた一般化性能を裏付けるものである。

Current face forgery detection methods achieve high accuracy under the within-database scenario where training and testing forgeries are synthesized by the same algorithm. However, few of them gain satisfying performance under the cross-database scenario where training and testing forgeries are synthesized by different algorithms. In this paper, we find that current CNN-based detectors tend to overfit to method-specific color textures and thus fail to generalize. Observing that image noises remove color textures and expose discrepancies between authentic and tampered regions, we propose to utilize the high-frequency noises for face forgery detection. We carefully devise three functional modules to take full advantage of the high-frequency features. The first is the multi-scale high-frequency feature extraction module that extracts high-frequency noises at multiple scales and composes a novel modality. The second is the residual-guided spatial attention module that guides the low-level RGB feature extractor to concentrate more on forgery traces from a new perspective. The last is the cross-modality attention module that leverages the correlation between the two complementary modalities to promote feature learning for each other. Comprehensive evaluations on several benchmark databases corroborate the superior generalization performance of our proposed method.
翻訳日:2021-03-25 00:15:12 公開日:2021-03-23
# (参考訳) GPT-3によるヘイトスピーチの検出 [全文訳有]

Detecting Hate Speech with GPT-3 ( http://arxiv.org/abs/2103.12407v1 )

ライセンス: CC BY 4.0
Ke-Li Chiu and Rohan Alexander(参考訳) OpenAIのGPT-3のような洗練された言語モデルは、疎外グループをターゲットにしたヘイトフルテキストを生成することができる。 この能力を考えると、大きな言語モデルを使ってヘイトスピーチを識別し、テキストをセクシストや人種差別主義者に分類できるかに興味があります。 gpt-3を用いて、ゼロ、ワン、マイショットの学習でセクシストや人種差別的な文章を識別する。 ゼロ・ワンショットの学習では、GPT-3は性別や人種差別のテキストを48%から69%の精度で識別できる。 プロンプトに少量の学習とインストラクションが組み込まれており、モデルの精度は最大で78パーセントである。 我々は,大規模言語モデルがヘイトスピーチの検出において果たす役割と,ヘイトスピーチや自己警察に対抗するためにさらなる開発言語モデルを使用することを結論した。

Sophisticated language models such as OpenAI's GPT-3 can generate hateful text that targets marginalized groups. Given this capacity, we are interested in whether large language models can be used to identify hate speech and classify text as sexist or racist? We use GPT-3 to identify sexist and racist text passages with zero-, one-, and few-shot learning. We find that with zero- and one-shot learning, GPT-3 is able to identify sexist or racist text with an accuracy between 48 per cent and 69 per cent. With few-shot learning and an instruction included in the prompt, the model's accuracy can be as high as 78 per cent. We conclude that large language models have a role to play in hate speech detection, and that with further development language models could be used to counter hate speech and even self-police.
翻訳日:2021-03-25 00:01:19 公開日:2021-03-23
# (参考訳) 連続バイオマーカー分布のテールクォンタイルを用いた二元性疾患予測 [全文訳有]

Binary disease prediction using tail quantiles of the distribution of continuous biomarkers ( http://arxiv.org/abs/2103.12409v1 )

ライセンス: CC BY 4.0
Michiel H.J. Paus, Edwin R. van den Heuvel, Marc J.M. Meddens(参考訳) 二元性疾患分類では, 単一バイオマーカーは有意な識別力を持たず, 多数のバイオマーカーから複数のバイオマーカーを選択すべきである。 多くのアプローチが存在するが、それはケースとコントロールの間のバイオマーカーの平均的な違いに対してのみうまく機能する。 しかし、生物学的プロセスはより異質であり、他の分布特性(例えば、)にも相違が生じる可能性がある。 ばらつき、歪み)。 多くの機械学習技術は、高次分布差を利用して、時には説明可能性の犠牲になる。 本研究では,複数の連続バイオマーカーの選択に基づく2値分類法であるqbp(quanttile based prediction)を提案する。 QBPは、ケースとコントロールのバイオマーカー分布の尾を使って単一のスコアを生成する。 この単一スコアはROC分析によって評価され、予測力を調べることができる。 QBPの性能は、広範囲なシミュレーション研究による教師あり学習法と比較され、主要なうつ病障害とトリソミーの2つのケーススタディである。 同時に、既存のテクニックの分類性能を相互に評価する。 QBPの重要な強みは、関連するバイオマーカーを選択する機会と、バイオマーカーが主にケースとコントロールの違いを示す場合における優れた分類性能である。 バイオマーカーに平均シフトのみが存在する場合、QBPは劣った性能を得た。 最後に,QBPは病原性バイオマーカーが欠如している場合には非バイアスであり,MDD症例では他の方法よりも優れていた。 性能改善の機会がいくつかあるため、QBPをさらに最適化するにはさらなる研究が必要である。 ここで、qbpの原理を紹介し、その可能性を示す。

In the analysis of binary disease classification, single biomarkers might not have significant discriminating power and multiple biomarkers from a large set of biomarkers should be selected. Numerous approaches exist, but they merely work well for mean differences in biomarkers between cases and controls. Biological processes are however much more heterogeneous, and differences could also occur in other distributional characteristics (e.g. variances, skewness). Many machine learning techniques are better capable of utilizing these higher order distributional differences, sometimes at cost of explainability. In this study we propose quantile based prediction (QBP), a binary classification method that is based on the selection of multiple continuous biomarkers. QBP generates a single score using the tails of the biomarker distributions for cases and controls. This single score can then be evaluated by ROC analysis to investigate its predictive power. The performance of QBP is compared to supervised learning methods using extensive simulation studies, and two case studies: major depression disorder and trisomy. Simultaneously, the classification performance of the existing techniques in relation to each other is assessed. The key strengths of QBP are the opportunity to select relevant biomarkers and the outstanding classification performance in the case biomarkers predominantly show variance differences between cases and controls. When only shifts in means were present in the biomarkers, QBP obtained an inferior performance. Lastly, QBP proved to be unbiased in case of absence of disease relevant biomarkers and outperformed the other methods on the MDD case study. More research is needed to further optimize QBP, since it has several opportunities to improve its performance. Here we wanted to introduce the principle of QBP and show its potential.
翻訳日:2021-03-24 23:51:19 公開日:2021-03-23
# (参考訳) ディープマルチタスク学習を用いたヘイトスピーチ検出のための多領域異種データ活用 [全文訳有]

Leveraging Multi-domain, Heterogeneous Data using Deep Multitask Learning for Hate Speech Detection ( http://arxiv.org/abs/2103.12412v1 )

ライセンス: CC BY 4.0
Prashant Kapil, Asif Ekbal(参考訳) ソーシャルメディア上のユーザ生成webコンテンツの指数関数的な増加に伴い、インターネットのさまざまなセクションにわたる個人やグループへの乱用言語の普及も急速に増加している。 人間のモデレーターが攻撃内容を特定し、それらをフィルタリングするのは非常に難しい。 ディープニューラルネットワークは、ヘイトスピーチ検出とアライアンスアプリケーションに適切な精度で保証されている。 しかし、分類器はトレーニングデータのサイズと品質に大きく依存している。 このような高品質の大規模データセットは入手が容易ではない。 また、近年出現した既存のデータセットは、同じアノテーションガイドラインに従って作成されておらず、憎悪に関連する異なるタイプやサブタイプに関心を持つことが多い。 このデータの分散化問題を解決するため,CNNに基づくマルチタスク学習モデル(MTLs)\footnote{codeはhttps://github.com/i mprasshant/STL-MTL}で利用可能であり,複数の情報源からの情報を活用する。 3つのベンチマークデータセットで行った実証分析では、既存のシステムに対して最先端のパフォーマンスを得るための精度とf-scoreの大幅な改善が提案手法の有効性を示している。

With the exponential rise in user-generated web content on social media, the proliferation of abusive languages towards an individual or a group across the different sections of the internet is also rapidly increasing. It is very challenging for human moderators to identify the offensive contents and filter those out. Deep neural networks have shown promise with reasonable accuracy for hate speech detection and allied applications. However, the classifiers are heavily dependent on the size and quality of the training data. Such a high-quality large data set is not easy to obtain. Moreover, the existing data sets that have emerged in recent times are not created following the same annotation guidelines and are often concerned with different types and sub-types related to hate. To solve this data sparsity problem, and to obtain more global representative features, we propose a Convolution Neural Network (CNN) based multi-task learning models (MTLs)\footnote{code is available at https://github.com/i mprasshant/STL-MTL} to leverage information from multiple sources. Empirical analysis performed on three benchmark datasets shows the efficacy of the proposed approach with the significant improvement in accuracy and F-score to obtain state-of-the-art performance with respect to the existing systems.
翻訳日:2021-03-24 23:25:39 公開日:2021-03-23
# (参考訳) スイスの山岳湖における最近の氷の傾向:MODIS画像の20年間の解析 [全文訳有]

Recent Ice Trends in Swiss Mountain Lakes: 20-year Analysis of MODIS Imagery ( http://arxiv.org/abs/2103.12434v1 )

ライセンス: CC BY 4.0
Manu Tom and Tianyu Wu and Emmanuel Baltsavias and Konrad Schindler(参考訳) 湖氷の枯渇は、海面上昇や氷河の後退と同様に、気候変動の指標となる。 いくつかの湖氷現象(LIP)は、地域や地球規模の気候変動を理解するためにセンチネルとして機能している。 したがって、長期の湖氷と融解パターンのモニタリングは非常に有用である。 本稿では,20年(2000年~2020年)の光学衛星画像から,スイス・オーバーエンガディン地域には,小規模・中規模の山岳湖が複数存在し,口唇現象の観察に焦点をあてた。 我々は、これらのアルパイン湖の氷の空間分解マップを教師付き機械学習で推定することにより、MODIS画像の時系列(およびVIIRSデータとのクロスチェック)を分析した。 分類器の訓練には、公開されているWebカメラ画像に基づいて手動で注釈付けされた参照データを利用する。 氷の地図から長期のLIP傾向を導き出す。 Webカメラのデータは2つの冬にしか利用できないため、運用用MODISおよびVIIRS雪氷製品に対しても検証を行う。 シルス湖とシルバプラナ湖では,総凍結期間 (CFD) が-0.76日と-0.89日 (d/a) に変化した。 さらに,湖の凍結・解凍傾向を,近くの気象観測所で観測された気温,日照,降水,風などの気候データと比較した。

Depleting lake ice can serve as an indicator for climate change, just like sea level rise or glacial retreat. Several Lake Ice Phenological (LIP) events serve as sentinels to understand the regional and global climate change. Hence, monitoring the long-term lake freezing and thawing patterns can prove very useful. In this paper, we focus on observing the LIP events such as freeze-up, break-up and temporal freeze extent in the Oberengadin region of Switzerland, where there are several small- and medium-sized mountain lakes, across two decades (2000-2020) from optical satellite images. We analyse time-series of MODIS imagery (and additionally cross-check with VIIRS data when available), by estimating spatially resolved maps of lake ice for these Alpine lakes with supervised machine learning. To train the classifier we rely on reference data annotated manually based on publicly available webcam images. From the ice maps we derive long-term LIP trends. Since the webcam data is only available for two winters, we also validate our results against the operational MODIS and VIIRS snow products. We find a change in Complete Freeze Duration (CFD) of -0.76 and -0.89 days per annum (d/a) for lakes Sils and Silvaplana respectively. Furthermore, we correlate the lake freezing and thawing trends with climate data such as temperature, sunshine, precipitation and wind measured at nearby meteorological stations.
翻訳日:2021-03-24 23:15:14 公開日:2021-03-23
# (参考訳) 多様体空間における部分マッチング [全文訳有]

Partial Matching in the Space of Varifolds ( http://arxiv.org/abs/2103.12441v1 )

ライセンス: CC BY 4.0
Pierre-Louis Antonsanti, Joan Glaun\`es, Thomas Benseghir, Vincent Jugnon, Ir\`ene Kaltenmark(参考訳) コンピュータビジョンと医用画像において、マッチング構造の問題は自動アノテーションからデータ再構成への多くの応用を見出す。 しかし、同じ解剖学に対応するデータは、しばしば位相や形状において大きく異なり、部分的に一致するだけである。 曲線や曲面などの様々な幾何学的形状に対する非対称データ不同性項を導入する。 この用語は多様体の形状表現に基づいており、点間の対応に頼らずに別の図形への埋め込みを評価する。 大変形拡散型計量マッピング(LDDMM)フレームワーク用のデータアタッチメントとして設計されており、一方の形状を他方のサブセットに有意な変形を計算することができる。 CT (Computed Tomography) とCBCT (Cone Beam Computed Tomography) の2つの異なるモードから合成3D曲線, 実血管木, 肝表面の登録を図示した。 すべての実験は、このデータ差分項が位相的差にもかかわらずコヒーレントな部分マッチングをもたらすことを示した。

In computer vision and medical imaging, the problem of matching structures finds numerous applications from automatic annotation to data reconstruction. The data however, while corresponding to the same anatomy, are often very different in topology or shape and might only partially match each other. We introduce a new asymmetric data dissimilarity term for various geometric shapes like sets of curves or surfaces. This term is based on the Varifold shape representation and assesses the embedding of a shape into another one without relying on correspondences between points. It is designed as data attachment for the Large Deformation Diffeomorphic Metric Mapping (LDDMM) framework, allowing to compute meaningful deformation of one shape onto a subset of the other. Registrations are illustrated on sets of synthetic 3D curves, real vascular trees and livers' surfaces from two different modalities: Computed Tomography (CT) and Cone Beam Computed Tomography (CBCT). All experiments show that this data dissimilarity term leads to coherent partial matching despite the topological differences.
翻訳日:2021-03-24 22:34:39 公開日:2021-03-23
# (参考訳) ニューラルネットワークモデルは優れたプラジャリストか? ニューラルパラフレーズ検出のためのベンチマーク [全文訳有]

Are Neural Language Models Good Plagiarists? A Benchmark for Neural Paraphrase Detection ( http://arxiv.org/abs/2103.12450v1 )

ライセンス: CC BY-SA 4.0
Jan Philip Wahle, Terry Ruas, Norman Meuschke, Bela Gipp(参考訳) BERTのような言語モデルの台頭は、高品質なテキストパラフレーズを可能にする。 これは、オリジナルコンテンツとマシン生成コンテンツの区別が難しいため、学術的整合性の問題である。 本稿では,Transformerアーキテクチャに依存する最近の言語モデルを用いて,パラフレーズ付き記事からなるベンチマークを提案する。 本研究は,従来の文書とパラフレーズの集合,その構造,最先端システムを用いた分類実験,そしてその成果を公開することによって,パラフレーズ検出システムの将来的な研究を促進するものである。

The rise of language models such as BERT allows for high-quality text paraphrasing. This is a problem to academic integrity, as it is difficult to differentiate between original and machine-generated content. We propose a benchmark consisting of paraphrased articles using recent language models relying on the Transformer architecture. Our contribution fosters future research of paraphrase detection systems as it offers a large collection of aligned original and paraphrased documents, a study regarding its structure, classification experiments with state-of-the-art systems, and we make our findings publicly available.
翻訳日:2021-03-24 22:19:53 公開日:2021-03-23
# (参考訳) 多くの最適な腕を持つバンディット

Bandits with many optimal arms ( http://arxiv.org/abs/2103.12452v1 )

ライセンス: CC BY 4.0
Rianne de Heide and James Cheshire and Pierre M\'enard and Alexandra Carpentier(参考訳) 我々は、おそらく無限の腕を持つ確率的バンディット問題を考える。 最適アームの比率は$p^*$ であり、最適アームと準最適アームの間の最小平均ガップは$\delta$ である。 我々は、累積的な後悔の設定と、問題のパラメータである$t$(予算)、$p^*$、$\delta$という観点で、最適学習率を特徴付ける。 累積的後悔を最小限に抑えるため、位数$\Omega(\log(T)/(p^*\Delta))$と、上限値が$\log(1/\Delta)$に一致するUPBスタイルのアルゴリズムを提供する。 我々のアルゴリズムはパラメータを校正するために$p^*$を必要とし、この設定で$p^*$に適応することは不可能であるため、この知識が必要であることを証明します。 最良アームの識別には、$c>0$ が絶対定数である部分最適アームを出力する確率について、$\omega(\exp(-ct\del ta^2p^*))$ という順序の下限も与える。 また、指数関数において下界が$\log(1/\Delta)$の係数に一致する上限を持つ除去アルゴリズムを提供し、パラメータとして$p^*$や$\Delta$を必要としない。

We consider a stochastic bandit problem with a possibly infinite number of arms. We write $p^*$ for the proportion of optimal arms and $\Delta$ for the minimal mean-gap between optimal and sub-optimal arms. We characterize the optimal learning rates both in the cumulative regret setting, and in the best-arm identification setting in terms of the problem parameters $T$ (the budget), $p^*$ and $\Delta$. For the objective of minimizing the cumulative regret, we provide a lower bound of order $\Omega(\log(T)/(p^*\Delta))$ and a UCB-style algorithm with matching upper bound up to a factor of $\log(1/\Delta)$. Our algorithm needs $p^*$ to calibrate its parameters, and we prove that this knowledge is necessary, since adapting to $p^*$ in this setting is impossible. For best-arm identification we also provide a lower bound of order $\Omega(\exp(-cT\Del ta^2p^*))$ on the probability of outputting a sub-optimal arm where $c>0$ is an absolute constant. We also provide an elimination algorithm with an upper bound matching the lower bound up to a factor of order $\log(1/\Delta)$ in the exponential, and that does not need $p^*$ or $\Delta$ as parameter.
翻訳日:2021-03-24 22:11:17 公開日:2021-03-23
# (参考訳) DualConv: 形状対応のためのデュアルメッシュ畳み込みネットワーク [全文訳有]

DualConv: Dual Mesh Convolutional Networks for Shape Correspondence ( http://arxiv.org/abs/2103.12459v1 )

ライセンス: CC BY 4.0
Nitika Verma, Adnane Boukhayma, Jakob Verbeek, Edmond Boyer(参考訳) 畳み込みニューラルネットワークは2d画像で非常に成功し、3dボクセルデータを扱うために容易に拡張されている。 メッシュはより一般的な3次元形状表現であり、ボクセルのように周囲空間ではなく形状表面を定量化し、通常の形状や外観のような表面の性質にアクセスできる。 しかし、メッシュ上のディープニューラルネットワークの定式化は、近隣のノードの数が異なる不規則なデータ構造であるため、より複雑である。 グラフ畳み込みネットワークは従来,メッシュ頂点データ上で提案されてきたが,本論文では,ノードが頂点の代わりに三角形の面を表す三角メッシュの二重面表現にどのように拡張できるかを考察する。 原始頂点メッシュと比較して、その顔双対はいくつかの利点があり、重要なことに、各三角形の面がちょうど3つの隣り合わせを持つという意味では、二重メッシュは正規である。 さらに、デュアルメッシュは、表面正規値や顔領域など、顔上で自然に定義される多くの入力機能の使用を示唆している。 FAUSTの人体形状データセットにおける形状対応タスクに対する2つのアプローチをメッシュトポロジによって評価した。 While applying generic graph convolutions to the dual mesh shows already improvements over primal mesh inputs, our experiments demonstrate that building additionally convolutional models that explicitly leverage the neighborhood size regularity of dual meshes enables learning shape representations that perform on par or better than previous approaches in terms of correspondence accuracy and mean geodesic error, while being more robust to topological changes in the meshes between training and testing shapes.

Convolutional neural networks have been extremely successful for 2D images and are readily extended to handle 3D voxel data. Meshes are a more common 3D shape representation that quantize the shape surface instead of the ambient space as with voxels, hence giving access to surface properties such as normals or appearances. The formulation of deep neural networks on meshes is, however, more complex since they are irregular data structures where the number of neighbors varies across vertices. While graph convolutional networks have previously been proposed over mesh vertex data, in this paper we explore how these networks can be extended to the dual face-based representation of triangular meshes, where nodes represent triangular faces in place of vertices. In comparison to the primal vertex mesh, its face dual offers several advantages, including, importantly, that the dual mesh is regular in the sense that each triangular face has exactly three neighbors. Moreover, the dual mesh suggests the use of a number of input features that are naturally defined over faces, such as surface normals and face areas. We evaluate the dual approach on the shape correspondence task on the FAUST human shape dataset and other versions of it with varying mesh topology. While applying generic graph convolutions to the dual mesh shows already improvements over primal mesh inputs, our experiments demonstrate that building additionally convolutional models that explicitly leverage the neighborhood size regularity of dual meshes enables learning shape representations that perform on par or better than previous approaches in terms of correspondence accuracy and mean geodesic error, while being more robust to topological changes in the meshes between training and testing shapes.
翻訳日:2021-03-24 22:10:09 公開日:2021-03-23
# (参考訳) RPATTACK: 汎用オブジェクト検出器に対するパッチ攻撃の修正 [全文訳有]

RPATTACK: Refined Patch Attack on General Object Detectors ( http://arxiv.org/abs/2103.12469v1 )

ライセンス: CC0 1.0
Hao Huang, Yongtao Wang, Zhaoyu Chen, Zhi Tang, Wenqiang Zhang and Kai-Kuang Ma(参考訳) 今日では、YOLOやFaster R-CNNのような一般的な物体検出器やその変種は、多くのアプリケーションで広く利用されている。 多くの研究により、これらの検出器は敵対的なパッチ攻撃に対して極めて脆弱であることが判明した。 以前のパッチベースの物体検出装置に対する攻撃によって生じる摂動領域は非常に大きく、人間の目にとって攻撃には必要ない。 より少ないがより効率的な摂動を生成するために,汎用物体検出器を攻撃するためのパッチベース手法を提案する。 まず,不連続な摂動を徐々に取り除き,攻撃に最も重要となる画素を見つけるためのパッチ選択と精細化手法を提案する。 安定なアンサンブル攻撃では、検知器の勾配のバランスを保ち、トレーニングフェーズ中に過度に最適化されるのを避ける。 我々のRPAttackは、2007年のVOCテストセットで0.32%のピクセルだけを修正しながら、Yolo v4とFaster R-CNNの両方で100%の見逃し検出率を達成することができる。 私たちのコードはhttps://github.com/V DIGPKU/RPAttack.comで公開されています。

Nowadays, general object detectors like YOLO and Faster R-CNN as well as their variants are widely exploited in many applications. Many works have revealed that these detectors are extremely vulnerable to adversarial patch attacks. The perturbed regions generated by previous patch-based attack works on object detectors are very large which are not necessary for attacking and perceptible for human eyes. To generate much less but more efficient perturbation, we propose a novel patch-based method for attacking general object detectors. Firstly, we propose a patch selection and refining scheme to find the pixels which have the greatest importance for attack and remove the inconsequential perturbations gradually. Then, for a stable ensemble attack, we balance the gradients of detectors to avoid over-optimizing one of them during the training phase. Our RPAttack can achieve an amazing missed detection rate of 100% for both Yolo v4 and Faster R-CNN while only modifies 0.32% pixels on VOC 2007 test set. Our code is available at https://github.com/V DIGPKU/RPAttack.
翻訳日:2021-03-24 21:50:39 公開日:2021-03-23
# (参考訳) 交通アクターの将来予測における長尺道路の設置について [全文訳有]

On Exposing the Challenging Long Tail in Future Prediction of Traffic Actors ( http://arxiv.org/abs/2103.12474v1 )

ライセンス: CC BY-SA 4.0
Osama Makansi, \"Ozg\"un Cicek, Yassine Marrakchi, and Thomas Brox(参考訳) 自律システムにとって、動的交通アクターの状態をフューチャーに予測することは、安全かつ効率的に運用することが重要である。 驚くべきことに、最も重要なシナリオは、非クリティカルシナリオよりもあまり頻繁で複雑ではない。 そこで,本論文では,データセット分布のロングテールにおける難解なsce-nariosについて述べる。 以上より,共通損失は埋込み空間に準最適にchalleng-ing caseを配置する傾向を示した。 この結果から,従来の損失を補うために,難解な事例が互いに近づき合うような余暇を補うことを提案する。 このトリガーは、困難なケース間で情報を共有し、特定の予測機能を学ぶ。 4つのpub-licデータセットで、全体的なパフォーマンスが安定しながら、カオスシナリオのパフォーマンスが向上することを示した。 アプローチは agnostic w.r.t. である。 使用されるネットワークアーキテクチャ、入力モダリティまたは視点は、既存のソリューションに容易に分類できる。

Predicting the states of dynamic traffic actors into the fu-ture is important for autonomous systems to operate safelyand efficiently. Remarkably, the most critical scenarios aremuch less frequent and more complex than the uncriticalones. Therefore, uncritical cases dominate the prediction.In this paper, we address specifically the challenging sce-narios at the long tail of the dataset distribution. Our anal-ysis shows that the common losses tend to place challeng-ing cases sub-optimally in the embedding space. As a con-sequence, we propose to supplement the usual loss with aloss that places challenging cases closer to each other. Thistriggers sharing information among challenging cases andlearning specific predictive features. We show on four pub-lic datasets that this leads to improved performance on thechallenging scenarios while the overall performance staysstable. The approach is agnostic w.r.t. the used networkarchitecture, input modality or viewpoint, and can be inte-grated into existing solutions easily.
翻訳日:2021-03-24 21:39:44 公開日:2021-03-23
# (参考訳) 旅行推薦における次の都市への意識に基づくニューラルリランクアプローチ [全文訳有]

Attention-based neural re-ranking approach for next city in trip recommendations ( http://arxiv.org/abs/2103.12475v1 )

ライセンス: CC BY 4.0
Aleksandr Petrov, Yuriy Makarov(参考訳) 本稿では,旅行予約システムにおける次の目的地都市レコメンデーション問題を解決するためのアプローチについて述べる。 本研究では,候補選択のためのヒューリスティックアプローチと,候補再選のための注意ニューラルネットワークモデルを提案する。 提案手法は,自然言語処理,特にトランスフォーマーアーキテクチャにおけるリストワイズ学習と最近の発展に着想を得たものである。 このアプローチを使ってbooking.comのレコメンデーションチャレンジを解いたのですが、この方法では、データセットのクローズド部分に0.555 accuracy@4値の5位を獲得しました。

This paper describes an approach to solving the next destination city recommendation problem for a travel reservation system. We propose a two stages approach: a heuristic approach for candidates selection and an attention neural network model for candidates re-ranking. Our method was inspired by listwise learning-to-rank methods and recent developments in natural language processing and the transformer architecture in particular. We used this approach to solve the Booking.com recommendations challenge Our team achieved 5th place on the challenge using this method, with 0.555 accuracy@4 value on the closed part of the dataset.
翻訳日:2021-03-24 21:21:00 公開日:2021-03-23
# (参考訳) ゼロショットグラフ埋め込みのための意味知識の拡張 [全文訳有]

Expanding Semantic Knowledge for Zero-shot Graph Embedding ( http://arxiv.org/abs/2103.12491v1 )

ライセンス: CC BY 4.0
Zheng Wang, Ruihang Shao, Changping Wang, Changjun Hu, Chaokun Wang, Zhiguo Gong(参考訳) ゼロショットグラフ埋め込みは教師付きグラフ学習の大きな課題である。 RECTの最近の手法は有望な性能を示しているが、その動作メカニズムは明確ではなく、まだ多くのトレーニングデータが必要である。 本稿では、RECTに関する深い洞察を与え、その基本的な限界に対処する。 その核となる部分はgnnの原型モデルであり、クラスプロトタイプはその平均特徴ベクトルによって記述される。 そのため、RECTは生のインプット特徴空間から中間レベルのセマンティック空間にノードをマッピングし、生のインプット特徴を見えるクラスと見えないクラスの両方に接続する。 このメカニズムにより、RECTは目に見えるクラスと目に見えないクラスの両方でうまく機能する。 その全可能性を実現するために,ラベル拡張戦略を2つ提案する。 具体的には、目に見えないクラスのラベル付きノードセットを拡張することに加えて、目に見えないクラスの拡張も可能です。 実世界のデータセットの実験は、我々の方法の優越性を検証する。

Zero-shot graph embedding is a major challenge for supervised graph learning. Although a recent method RECT has shown promising performance, its working mechanisms are not clear and still needs lots of training data. In this paper, we give deep insights into RECT, and address its fundamental limits. We show that its core part is a GNN prototypical model in which a class prototype is described by its mean feature vector. As such, RECT maps nodes from the raw-input feature space into an intermediate-level semantic space that connects the raw-input features to both seen and unseen classes. This mechanism makes RECT work well on both seen and unseen classes, which however also reduces the discrimination. To realize its full potentials, we propose two label expansion strategies. Specifically, besides expanding the labeled node set of seen classes, we can also expand that of unseen classes. Experiments on real-world datasets validate the superiority of our methods.
翻訳日:2021-03-24 21:13:24 公開日:2021-03-23
# (参考訳) グローバル相関ネットワーク:エンドツーエンドの複数物体検出と追跡 [全文訳有]

Global Correlation Network: End-to-End Joint Multi-Object Detection and Tracking ( http://arxiv.org/abs/2103.12511v1 )

ライセンス: CC BY 4.0
Xuewu Lin, Yu-ang Guo, Jianqiang Wang(参考訳) 近年、マルチオブジェクトトラッキング(mot)は大きな進歩を遂げているが、まだいくつか問題がある。 ほとんどのMOTアルゴリズムは、検出と追跡を2つの独立した部分に分離するトラッキング・バイ・検出フレームワークに従う。 早期追跡検出アルゴリズムは、検出と追跡のために2つの特徴抽出を行う必要がある。 近年,特定のネットワークに特徴抽出を行うアルゴリズムもあるが,追跡部はデータアソシエーションに依存しており,ライフサイクル管理に複雑な後処理が必要である。 これらの手法は検出と追跡をうまく組み合わせていない。 本稿では,GCNet(Global correlation Network)と呼ばれる,複数物体の同時検出と追跡をエンドツーエンドで実現する新しいネットワークを提案する。 多くのオブジェクト検出方法とは異なり、GCNetはオフセット予測の代わりに絶対サイズの回帰とバウンディングボックスの座標のグローバル相関層を導入している。 GCNetによる検出と追跡のパイプラインは概念的にはシンプルで、非最大抑制、データアソシエーション、その他の複雑な追跡戦略を必要としない。 GCNetはマルチサイクルトラッキングデータセットであるUA-DETRACで評価され、最先端の検出器やトラッカーと比較して有望な性能を示す。

Multi-object tracking (MOT) has made great progress in recent years, but there are still some problems. Most MOT algorithms follow tracking-by-detectio n framework, which separates detection and tracking into two independent parts. Early tracking-by-detectio n algorithms need to do two feature extractions for detection and tracking. Recently, some algorithms make the feature extraction into one network, but the tracking part still relies on data association and needs complex post-processing for life cycle management. Those methods do not combine detection and tracking well. In this paper, we present a novel network to realize joint multi-object detection and tracking in an end-to-end way, called Global Correlation Network (GCNet). Different from most object detection methods, GCNet introduces the global correlation layer for regression of absolute size and coordinates of bounding boxes instead of offsets prediction. The pipeline of detection and tracking by GCNet is conceptually simple, which does not need non-maximum suppression, data association, and other complicated tracking strategies. GCNet was evaluated on a multi-vehicle tracking dataset, UA-DETRAC, and demonstrates promising performance compared to the state-of-the-art detectors and trackers.
翻訳日:2021-03-24 21:06:34 公開日:2021-03-23
# (参考訳) マルチソース特徴に基づく短期電力負荷予測における支配的特徴の発見 [全文訳有]

Uncovering Dominant Features in Short-term Power Load Forecasting Based on Multi-source Feature ( http://arxiv.org/abs/2103.12534v1 )

ライセンス: CC BY 4.0
Pan Zeng, Md Fazla Elahe, Junlin Xu, Min Jin(参考訳) データ可用性の限界により、従来の電力負荷予測手法は、負荷変動パターンの研究と、負荷変動の内部メカニズムを明らかにすることができない温度やホリデーなど、少数の要因の影響に重点を置いている。 本論文は, 電力負荷変動と影響要因の複雑な関係を研究するため, 天文学, 地理学, 社会から80の潜在的特徴を抽出し, 短時間電力負荷予測法を提案する。 ケーススタディでは,最先端手法と比較して,予測精度を33.0%から34.7%向上した。 その結果, 地理的特徴が負荷予測精度の向上に最も大きな影響を与えていることが明らかとなった。 天文学的な特徴は社会的な特徴よりも大きな影響を及ぼし、太陽に関連する特徴が重要な役割を果たす。 土曜日と月曜日が最も重要な社会的特徴である。 温度、太陽のゼニス角、トワイライト持続時間、ラグした空グローバル水平放射光は、電力負荷とv字型の関係を持ち、それらのバランスポイントが存在することを示している。 グローバル水平照射は電力負荷に負の関係がある。

Due to the limitation of data availability, traditional power load forecasting methods focus more on studying the load variation pattern and the influence of only a few factors such as temperature and holidays, which fail to reveal the inner mechanism of load variation. This paper breaks the limitation and collects 80 potential features from astronomy, geography, and society to study the complex nexus between power load variation and influence factors, based on which a short-term power load forecasting method is proposed. Case studies show that, compared with the state-of-the-art methods, the proposed method improves the forecasting accuracy by 33.0% to 34.7%. The forecasting result reveals that geographical features have the most significant impact on improving the load forecasting accuracy, in which temperature is the dominant feature. Astronomical features have more significant influence than social features and features related to the sun play an important role, which are obviously ignored in previous research. Saturday and Monday are the most important social features. Temperature, solar zenith angle, civil twilight duration, and lagged clear sky global horizontal irradiance have a V-shape relationship with power load, indicating that there exist balance points for them. Global horizontal irradiance is negatively related to power load.
翻訳日:2021-03-24 20:54:16 公開日:2021-03-23
# (参考訳) 時間的ダイナミクスと多様性を考慮したニュースレコメンダシステム [全文訳有]

A News Recommender System Considering Temporal Dynamics and Diversity ( http://arxiv.org/abs/2103.12537v1 )

ライセンス: CC BY 4.0
Shaina Raza(参考訳) ニュースレコメンデーションシステムでは、読者の好みは時間とともに変化する。 いくつかの嗜好は突然に(短期的な嗜好)漂うが、一方で長い期間(長期的な嗜好)で変化する。 既存のニュースレコメンダシステムは読者の全履歴を考慮しているが、読者の行動のダイナミクスを無視することが多い。 したがって、ニュース読者の時間によって異なる嗜好に対する要求を満たすことはできない。 さらに、最先端のニュースレコメンデーションモデルは、従来のレコメンデーションシナリオでうまく機能する正確な予測を提供することにしばしば重点を置いている。 しかし、ニュースレコメンデーションシステムでは、多様性はニュース読者の関与を維持するだけでなく、民主主義社会において重要な役割を果たすためにも不可欠である。 この博士論文の目標は、これらの2つの課題に対処するニュースレコメンデーションシステムを構築することです。 本システムでは, 読者行動のダイナミクスに適応し, (i) 推薦モデルの設計において, 精度と多様性の両方を考慮すべきである。 ニュースレコメンダシステムは、ニュースアイテムの豊富なサイド情報を活用し、私たちのモデルに暗黙的なフィードバックを含めることで、非プロファイル、匿名、短期の読者にも機能します。 提案手法の有効性を実証するため,複数の評価尺度(精度と多様性指向指標の両方)を用いて評価を行った。

In a news recommender system, a reader's preferences change over time. Some preferences drift quite abruptly (short-term preferences), while others change over a longer period of time (long-term preferences). Although the existing news recommender systems consider the reader's full history, they often ignore the dynamics in the reader's behavior. Thus, they cannot meet the demand of the news readers for their time-varying preferences. In addition, the state-of-the-art news recommendation models are often focused on providing accurate predictions, which can work well in traditional recommendation scenarios. However, in a news recommender system, diversity is essential, not only to keep news readers engaged, but also to play a key role in a democratic society. In this PhD dissertation, our goal is to build a news recommender system to address these two challenges. Our system should be able to: (i) accommodate the dynamics in reader behavior; and (ii) consider both accuracy and diversity in the design of the recommendation model. Our news recommender system can also work for unprofiled, anonymous and short-term readers, by leveraging the rich side information of the news items and by including the implicit feedback in our model. We evaluate our model with multiple evaluation measures (both accuracy and diversity-oriented metrics) to demonstrate the effectiveness of our methods.
翻訳日:2021-03-24 20:43:16 公開日:2021-03-23
# (参考訳) BoXHED 2.0:生存分析における関数データのスケーラビリティ向上 [全文訳有]

BoXHED 2.0: Scalable boosting of functional data in survival analysis ( http://arxiv.org/abs/2103.12591v1 )

ライセンス: CC BY 4.0
Arash Pakbin, Xiaochen Wang, Bobak J. Mortazavi, Donald K.K. Lee(参考訳) 生存分析の現代的応用は、関数データの形式を構成する時間依存の共変体をますます含んでいる。 関数データからの学習は通常、数値的に高価である時間積分の繰り返し評価を伴う。 本研究では,機能データを非機能データに変換する軽量データ前処理ステップを提案する。 非機能データの実装を加速することで、トレーニングフェーズの一部として必要な数値統合が無償で可能になる。 この手法を用いて、木組みのハザードパッケージであるBoXHED 1.0に対する量子飛躍であるBoXHED 2.0を開発した。 BoXHED 2.0はBoXHED 1.0をAalenの乗算強度モデルに拡張する。 また、前処理やXGBoostのコアコンポーネントから借用されているため、非常にスケーラブルである。 BoXHED 2.0はGPUとマルチコアCPUの使用をサポートし、GitHubから入手できる。

Modern applications of survival analysis increasingly involve time-dependent covariates, which constitute a form of functional data. Learning from functional data generally involves repeated evaluations of time integrals which is numerically expensive. In this work we propose a lightweight data preprocessing step that transforms functional data into nonfunctional data. Boosting implementations for nonfunctional data can then be used, whereby the required numerical integration comes for free as part of the training phase. We use this to develop BoXHED 2.0, a quantum leap over the tree-boosted hazard package BoXHED 1.0. BoXHED 2.0 extends BoXHED 1.0 to Aalen's multiplicative intensity model, which covers censoring schemes far beyond right-censoring and also supports recurrent events data. It is also massively scalable because of preprocessing and also because it borrows from the core components of XGBoost. BoXHED 2.0 supports the use of GPUs and multicore CPUs, and is available from GitHub: www.github.com/BoXHE D.
翻訳日:2021-03-24 20:32:45 公開日:2021-03-23
# (参考訳) MRIにおけるマルチスキャナ変動を模倣する拡張戦略 [全文訳有]

An augmentation strategy to mimic multi-scanner variability in MRI ( http://arxiv.org/abs/2103.12595v1 )

ライセンス: CC BY 4.0
Maria Ines Meyer, Ezequiel de la Rosa, Nuno Barros, Roberto Paolella, Koen Van Leemput and Diana M. Sima(参考訳) 一般に公開されているほとんどの脳MRIデータセットは、スキャナーとプロトコルの観点から非常に均一であり、そのようなデータから学習したモデルがマルチセンターおよびマルチスキャナーデータに一般化することは困難である。 本研究では,実世界の臨床データにみられる強度とコントラストの差分を近似するために,新しいデータ拡張手法を提案する。 ガウス混合モデルを用いて組織強度を個別に変化させ,解剖学的情報を保存しながら新たなコントラストを生成する。 我々は、単一のスキャナーデータセットでディープラーニングモデルをトレーニングし、マルチセンターおよびマルチスキャナーデータセットで評価する。 提案手法は,トレーニングデータに存在しない他のスキャナへのモデルの一般化能力を向上させる。

Most publicly available brain MRI datasets are very homogeneous in terms of scanner and protocols, and it is difficult for models that learn from such data to generalize to multi-center and multi-scanner data. We propose a novel data augmentation approach with the aim of approximating the variability in terms of intensities and contrasts present in real world clinical data. We use a Gaussian Mixture Model based approach to change tissue intensities individually, producing new contrasts while preserving anatomical information. We train a deep learning model on a single scanner dataset and evaluate it on a multi-center and multi-scanner dataset. The proposed approach improves the generalization capability of the model to other scanners not present in the training data.
翻訳日:2021-03-24 20:22:02 公開日:2021-03-23
# (参考訳) ラップ歌詞の韻律強調表現学習のための一般的なフレームワーク [全文訳有]

A General Framework for Learning Prosodic-Enhanced Representation of Rap Lyrics ( http://arxiv.org/abs/2103.12615v1 )

ライセンス: CC BY 4.0
Hongru Liang, Haozheng Wang, Qian Li, Jun Wang, Guandong Xu, Jiawei Chen, Jin-Mao Wei, Zhenglu Yang(参考訳) ラップ歌詞の学習と分析は、World Wide Webにおけるデジタル音楽の豊富な供給源のため、音楽推薦、自動分類、音楽情報検索など、多くのウェブアプリケーションにとって重要な基盤となっている。 多くの研究がこの話題を探求しているが、韻律情報やその効果的な表現といった重要な問題や様々な特徴の適切な統合は無視されるため、この分野の知識は十分ではない。 本稿では,rap歌詞表現学習における意味的特徴と韻律的特徴を同時に考慮した階層的注意変動オートエンコーダフレームワーク(havae)を提案する。 具体的には、韻律的特徴の表現は、新しい効果的な戦略(すなわちrhyme2vec)を持つ音韻的転写によって符号化される。 さらに,様々な特徴を適切に統合し,韻律強調表現を生成する特徴集約戦略を提案する。 包括的実証的評価により,提案フレームワークはラップ歌詞学習タスクにおいて,様々な指標で最先端のアプローチを上回っていることが示された。

Learning and analyzing rap lyrics is a significant basis for many web applications, such as music recommendation, automatic music categorization, and music information retrieval, due to the abundant source of digital music in the World Wide Web. Although numerous studies have explored the topic, knowledge in this field is far from satisfactory, because critical issues, such as prosodic information and its effective representation, as well as appropriate integration of various features, are usually ignored. In this paper, we propose a hierarchical attention variational autoencoder framework (HAVAE), which simultaneously consider semantic and prosodic features for rap lyrics representation learning. Specifically, the representation of the prosodic features is encoded by phonetic transcriptions with a novel and effective strategy~(i.e., rhyme2vec). Moreover, a feature aggregation strategy is proposed to appropriately integrate various features and generate prosodic-enhanced representation. A comprehensive empirical evaluation demonstrates that the proposed framework outperforms the state-of-the-art approaches under various metrics in different rap lyrics learning tasks.
翻訳日:2021-03-24 20:14:00 公開日:2021-03-23
# (参考訳) 遺伝的列生成:多次元最適輸送問題の高速計算 [全文訳有]

Genetic column generation: Fast computation of high-dimensional multi-marginal optimal transport problems ( http://arxiv.org/abs/2103.12624v1 )

ライセンス: CC BY-SA 4.0
Gero Friesecke, Andreas S. Schulz, and Daniela V\"ogler(参考訳) 本稿では, 密度汎関数理論によるMMOT(Multi-marginal optimal transport)問題を数値的に解くための, 単純, 正確, 極めて効率的な手法を提案する。 この方法は、(i)最適計画のスパース性(それぞれ$\ell$ gridpoints で区別された$n$ marginals に対して、一般のカントロヴィチ計画では $\ell^n$ gridpoints を必要とするが、オプティマイザのサポートは $o(\ell\cdot n)$ [fv18]]、(ii)我々の知識が mmot で使われていない離散最適化によるカラム生成(cg)の方法、(iii)機械学習からのアイデアに依存する。 CGにおけるよく知られたボトルネックは、新しい候補列を効率的に生成することであり、我々の文脈では、最良の新しい列を見つけることはNP完全問題であることを示す。 このボトルネックを克服するために、我々は、CG内の二重状態がWasserstein GANsと緩やかな類似性において「逆境」の役割を果たすMMOT用に作られた遺伝的学習法を用いている。 最大120のグリッドポイントと最大30のマージンを持つベンチマーク問題に対して,本手法は常に最適化器を見出した。 さらに、それらを見つけるのに必要な計算ステップの数は、N$と$\ell$が同時に増加するときのみ多項式的にスケールするように見える(粒子系の熱力学限界を模倣するためにそれらの比率を固定している)。

We introduce a simple, accurate, and extremely efficient method for numerically solving the multi-marginal optimal transport (MMOT) problems arising in density functional theory. The method relies on (i) the sparsity of optimal plans [for $N$ marginals discretized by $\ell$ gridpoints each, general Kantorovich plans require $\ell^N$ gridpoints but the support of optimizers is of size $O(\ell\cdot N)$ [FV18]], (ii) the method of column generation (CG) from discrete optimization which to our knowledge has not hitherto been used in MMOT, and (iii) ideas from machine learning. The well-known bottleneck in CG consists in generating new candidate columns efficiently; we prove that in our context, finding the best new column is an NP-complete problem. To overcome this bottleneck we use a genetic learning method tailormade for MMOT in which the dual state within CG plays the role of an "adversary", in loose similarity to Wasserstein GANs. On a sequence of benchmark problems with up to 120 gridpoints and up to 30 marginals, our method always found the exact optimizers. Moreover, empirically the number of computational steps needed to find them appears to scale only polynomially when both $N$ and $\ell$ are simultaneously increased (while keeping their ratio fixed to mimic a thermodynamic limit of the particle system).
翻訳日:2021-03-24 19:52:54 公開日:2021-03-23
# (参考訳) 外れ値はすべて同じですか? OOD検出における外乱の多様性の理解について [全文訳有]

Are all outliers alike? On Understanding the Diversity of Outliers for Detecting OODs ( http://arxiv.org/abs/2103.12628v1 )

ライセンス: CC BY 4.0
Ramneet Kaur, Susmit Jha, Anirban Roy, Oleg Sokolsky, Insup Lee(参考訳) ディープニューラルネットワーク(DNN)は、オフ・オブ・ディストリビューション(OOD)の入力に非常に高い信頼性を持つ誤った予測を生成することが知られている。 この制限は、自律運転、航空交通管理、医療診断などの高信頼システムにおけるディープラーニングモデルの採用における重要な課題の1つである。 この課題は最近大きな注目を集めており、モデルの予測が信頼できない入力を検出する技術がいくつか開発されている。 これらの技法は異なる統計学的、幾何学的、位相的特徴を用いる。 本稿では,OOD外乱入力の出自と不確実性の性質に基づく分類法を提案する。 既存の検出アプローチが、ある種の外れ値の検出に失敗する様子を実証する。 これらの知見を応用して、異なるタイプの外れ値に対応する複数の属性を利用する新しい統合検出手法を開発する。 CIFAR10, SVHN, MNISTをin-distriionとして, Imagenet, LSUN, SVHN (for CIFAR10), CIFAR10 (for SVHN), KMNIST, F-MNISTを, ResNet34, WideResNet, DenseNet, LeNet5などの異なるDNNアーキテクチャのOODデータとして実験した。

Deep neural networks (DNNs) are known to produce incorrect predictions with very high confidence on out-of-distribution (OOD) inputs. This limitation is one of the key challenges in the adoption of deep learning models in high-assurance systems such as autonomous driving, air traffic management, and medical diagnosis. This challenge has received significant attention recently, and several techniques have been developed to detect inputs where the model's prediction cannot be trusted. These techniques use different statistical, geometric, or topological signatures. This paper presents a taxonomy of OOD outlier inputs based on their source and nature of uncertainty. We demonstrate how different existing detection approaches fail to detect certain types of outliers. We utilize these insights to develop a novel integrated detection approach that uses multiple attributes corresponding to different types of outliers. Our results include experiments on CIFAR10, SVHN and MNIST as in-distribution data and Imagenet, LSUN, SVHN (for CIFAR10), CIFAR10 (for SVHN), KMNIST, and F-MNIST as OOD data across different DNN architectures such as ResNet34, WideResNet, DenseNet, and LeNet5.
翻訳日:2021-03-24 19:30:34 公開日:2021-03-23
# (参考訳) Pairwise Adjusted Mutual Information [全文訳有]

Pairwise Adjusted Mutual Information ( http://arxiv.org/abs/2103.12641v1 )

ライセンス: CC BY 4.0
Denys Lazarenko, Thomas Bonald(参考訳) 2つのクラスタリング間の類似性を定量化するためのよく知られた計量は、調整された相互情報である。 相互情報と比較し、ラベルのランダムな置換に基づく補正項を導入し、2つのクラスタリングが偶然に類似することを防止する。 残念ながら、この調整は計量を計算的に高価にする。 本稿では,ラベルの完全置換ではなく, {pairwise} ラベルの置換に基づく新しい調整を提案する。 具体的には、ランダムに選択された2つのサンプルだけがラベルを交換する置換を考える。 提案手法では,クラスタの質を評価するための標準調整相互情報と同様に,時間的複雑性をはるかに低減しつつ,対応する調整されたメトリックが振る舞うことを示す。 両方のメトリクスは、合成データと実データに基づく実験における品質と性能の点で比較される。

A well-known metric for quantifying the similarity between two clusterings is the adjusted mutual information. Compared to mutual information, a corrective term based on random permutations of the labels is introduced, preventing two clusterings being similar by chance. Unfortunately, this adjustment makes the metric computationally expensive. In this paper, we propose a novel adjustment based on {pairwise} label permutations instead of full label permutations. Specifically, we consider permutations where only two samples, selected uniformly at random, exchange their labels. We show that the corresponding adjusted metric, which can be expressed explicitly, behaves similarly to the standard adjusted mutual information for assessing the quality of a clustering, while having a much lower time complexity. Both metrics are compared in terms of quality and performance on experiments based on synthetic and real data.
翻訳日:2021-03-24 19:13:40 公開日:2021-03-23
# (参考訳) 世界で何人のオンラインワーカーがいますか。 データ駆動評価 [全文訳有]

How Many Online Workers are there in the World? A Data-Driven Assessment ( http://arxiv.org/abs/2103.12648v1 )

ライセンス: CC BY-SA 4.0
Otto K\"assi, Vili Lehdonvirta, Fabian Stephany(参考訳) 世界中の未知の人々が、UpworkやAmazon Mechanical Turkといったオンライン労働プラットフォームを通じて収入を得ている。 さまざまなソースから収集されたデータを組み合わせて、世界中のオンラインワーカー(オンラインフリーランサーとしても知られる)の数をデータ駆動で評価します。 オンライン労働プラットフォームには1億6300万のフリーランサーのプロフィールが登録されている。 約1900万人が少なくとも1度はプラットフォームを通じて作業を受けており、500万人が少なくとも10のプロジェクトを完成させたか、1,000ドル以上を稼いだ。 これらの数字は、2015年以降の登録労働者数の増加を示しているが、労働者が完了した作業量の増加ははるかに少ない。 この結果から、オンラインフリーランシングは、現在、非自明な労働の一部でありながら、国やセクターに分散していることを示している。

An unknown number of people around the world are earning income by working through online labour platforms such as Upwork and Amazon Mechanical Turk. We combine data collected from various sources to build a data-driven assessment of the number of such online workers (also known as online freelancers) globally. Our headline estimate is that there are 163 million freelancer profiles registered on online labour platforms globally. Approximately 19 million of them have obtained work through the platform at least once, and 5 million have completed at least 10 projects or earned at least $1000. These numbers suggest a substantial growth from 2015 in registered worker accounts, but much less growth in amount of work completed by workers. Our results indicate that online freelancing represents a non-trivial segment of labour today, but one that is spread thinly across countries and sectors.
翻訳日:2021-03-24 19:04:39 公開日:2021-03-23
# (参考訳) マルチパラメトリック磁気共鳴画像における前立腺癌の完全自動検出, 分節, グリーソングレード推定のためのディープラーニング [全文訳有]

Deep Learning for fully automatic detection, segmentation, and Gleason Grade estimation of prostate cancer in multiparametric Magnetic Resonance Images ( http://arxiv.org/abs/2103.12650v1 )

ライセンス: CC BY 4.0
Oscar J. Pellicer-Valero, Jos\'e L. Marenco Jim\'enez, Victor Gonzalez-Perez, Juan Luis Casanova Ram\'on-Borja, Isabel Mart\'in Garc\'ia, Mar\'ia Barrios Benito, Paula Pelechano G\'omez, Jos\'e Rubio-Briones, Mar\'ia Jos\'e Rup\'erez, Jos\'e D. Mart\'in-Guerrero(参考訳) 多核磁気共鳴画像(MPMRI)の出現は前立腺癌(PCa)の診断に大きな影響を与えており、これは西欧の男性において最も多い悪性腫瘍である。 しかし,これらの画像解析は専門家にとっても複雑であり,コンピュータ支援診断システムによる把握の機会が開けることになる。 本稿では,PCa-suspect 患者から前立腺 mpMRI を抽出し,網膜 U-Net 検出フレームワークを活用することにより,PCa 病変の特定とセグメント化を行い,最も可能性の高い Gleason グレードグループ (GGG) を予測する,Deep Learning に基づく完全自動システムを提案する。 トレーニング/バリデーションには490mpMRIを使用し、ProstateXとIVO(Valencia Oncology Institute Foundation)という2つの異なるデータセットから75人の患者を検査する。 テストセットでは、GGG$\geq$2の重要基準であるProstateXデータセットは0.96/1.00/0.79、IVOデータセットは0.95/1.00/0.80に優れた病変レベルAUC/感度/特異性を達成している。 患者レベルでの評価では、ProstateXは0.87/1.00/0.375、IVOは0.91/1.00/0.762である。 さらに、オンラインのprostatex grand challengeにおいて、モデルは0.85(prostatexデータのみに基づいてトレーニングされた場合0.87)のaucを取得した。 IVO放射線技師のPI-RADS 4の感度/特異性は病変レベル0.88/0.56、患者レベル0.85/0.58であった。 自動前立腺領域分割とmpMRIの非剛性配列登録のための追加サブシステムも、最終完全自動システムを生成するために使用された。 ProstateXでトレーニングされたシステムのコードはhttps://github.com/O scarPellicer/prostat e_lesion_detectionで公開されている。 これは将来の研究が利用し、比較し、改善するためのランドマークになることを期待しています。

The emergence of multi-parametric magnetic resonance imaging (mpMRI) has had a profound impact on the diagnosis of prostate cancers (PCa), which is the most prevalent malignancy in males in the western world, enabling a better selection of patients for confirmation biopsy. However, analyzing these images is complex even for experts, hence opening an opportunity for computer-aided diagnosis systems to seize. This paper proposes a fully automatic system based on Deep Learning that takes a prostate mpMRI from a PCa-suspect patient and, by leveraging the Retina U-Net detection framework, locates PCa lesions, segments them, and predicts their most likely Gleason grade group (GGG). It uses 490 mpMRIs for training/validation, and 75 patients for testing from two different datasets: ProstateX and IVO (Valencia Oncology Institute Foundation). In the test set, it achieves an excellent lesion-level AUC/sensitivity/spec ificity for the GGG$\geq$2 significance criterion of 0.96/1.00/0.79 for the ProstateX dataset, and 0.95/1.00/0.80 for the IVO dataset. Evaluated at a patient level, the results are 0.87/1.00/0.375 in ProstateX, and 0.91/1.00/0.762 in IVO. Furthermore, on the online ProstateX grand challenge, the model obtained an AUC of 0.85 (0.87 when trained only on the ProstateX data, tying up with the original winner of the challenge). For expert comparison, IVO radiologist's PI-RADS 4 sensitivity/specific ity were 0.88/0.56 at a lesion level, and 0.85/0.58 at a patient level. Additional subsystems for automatic prostate zonal segmentation and mpMRI non-rigid sequence registration were also employed to produce the final fully automated system. The code for the ProstateX-trained system has been made openly available at https://github.com/O scarPellicer/prostat e_lesion_detection. We hope that this will represent a landmark for future research to use, compare and improve upon.
翻訳日:2021-03-24 18:56:24 公開日:2021-03-23
# (参考訳) 解けるか? OSSタスクの完了に必要なAPIの特定 [全文訳有]

Can I Solve It? Identifying APIs Required to Complete OSS Task ( http://arxiv.org/abs/2103.12653v1 )

ライセンス: CC BY 4.0
Fabio Santos, Igor Wiese, Bianca Trinkenreich, Igor Steinmacher, Anita Sarma and Marco Gerosa(参考訳) オープンソースソフトウェアプロジェクトは、コントリビュータがタスクを選択するのを助けるために、オープンイシューにラベルを追加する。 しかし、手動でラベル付けするのは時間がかかり、エラーが発生しやすい。 ラベルを作成するための現在の自動アプローチは、主にバグ/非バグの分類に限られている。 本稿では,タスク完了に必要なAPIのドメインによるラベル付け問題の実現可能性と妥当性について検討する。 問題の記述とプロジェクト履歴を利用して予測モデルを構築し,精度を最大82%まで向上させ,最大97.8%をリコールした。 また,これらのラベルの潜在的貢献者との関連性を評価するために,ユーザ調査(n=74)を実施した。 その結果、ラベルはタスク選択の参加者にとって有用であり、apiドメインラベルは既存のアーキテクチャベースのラベルよりも多く選択された。 私たちの結果は、問題を自動的にラベル付けするツールの作成を刺激し、開発者がスキルに合致するタスクを見つけるのに役立ちます。

Open Source Software projects add labels to open issues to help contributors choose tasks. However, manually labeling issues is time-consuming and error-prone. Current automatic approaches for creating labels are mostly limited to classifying issues as a bug/non-bug. In this paper, we investigate the feasibility and relevance of labeling issues with the domain of the APIs required to complete the tasks. We leverage the issues' description and the project history to build prediction models, which resulted in precision up to 82% and recall up to 97.8%. We also ran a user study (n=74) to assess these labels' relevancy to potential contributors. The results show that the labels were useful to participants in choosing tasks, and the API-domain labels were selected more often than the existing architecture-based labels. Our results can inspire the creation of tools to automatically label issues, helping developers to find tasks that better match their skills.
翻訳日:2021-03-24 18:22:39 公開日:2021-03-23
# (参考訳) Replacing Rewards with Examples: Example-based Policy Search via Recursive Classification [全文訳有]

Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification ( http://arxiv.org/abs/2103.12656v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Sergey Levine, and Ruslan Salakhutdinov(参考訳) 標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。 しかし、多くのシナリオでは、ユーザーは単語や数字でタスクを記述できないが、タスクが解決された場合、世界がどのように見えるかを簡単に示すことができる。 この観察によって動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的とした第一原理から導かれる。 2段階のプロセスで同様の問題設定にアプローチし、まず補助報酬関数を学習し、次に別の強化学習アルゴリズムを用いて報酬関数を最適化する。 対照的に,補助報酬関数を回避し,その代わりに遷移や成功から価値関数を直接学習する再帰的分類に基づく手法を導出する。 したがって、チューニングするハイパーパラメータとデバッグするコードの行数が少なくなる。 本手法は,従来の報酬関数の代用として,新しいデータ駆動ベルマン方程式を満たしていることを示す。 実験の結果,提案手法は明示的な報酬関数を学習する先行手法よりも優れていた。

In the standard Markov decision process formalism, users specify tasks by writing down a reward function. However, in many scenarios, the user is unable to describe the task in words or numbers, but can readily provide examples of what the world would look like if the task were solved. Motivated by this observation, we derive a control algorithm from first principles that aims to visit states that have a high probability of leading to successful outcomes, given only examples of successful outcome states. Prior work has approached similar problem settings in a two-stage process, first learning an auxiliary reward function and then optimizing this reward function using another reinforcement learning algorithm. In contrast, we derive a method based on recursive classification that eschews auxiliary reward functions and instead directly learns a value function from transitions and successful outcomes. Our method therefore requires fewer hyperparameters to tune and lines of code to debug. We show that our method satisfies a new data-driven Bellman equation, where examples take the place of the typical reward function term. Experiments show that our approach outperforms prior methods that learn explicit reward functions.
翻訳日:2021-03-24 18:00:44 公開日:2021-03-23
# (参考訳) HRIの成功への道 - AI, Trust, ethicS-TRAITS

The Road to a Successful HRI: AI, Trust and ethicS-TRAITS ( http://arxiv.org/abs/2103.12679v1 )

ライセンス: CC BY 4.0
Antonio Andriella, Alessandra Rossi, Silvia Rossi, Anouk van Maris(参考訳) 本ワークショップの目的は,学界や産業の研究者に対して,人間とロボットの関係の相互・複数学際的性質を効果的かつ長期にわたるコラボレーションに向けて議論する機会を提供することである。 このワークショップは、HRIとロボットコミュニティのためのフォーラムを提供し、人間とロボットのインタラクション(HRI)の成功を探求し、その成功に影響を及ぼすさまざまな側面を分析する。 特に焦点は、自律的なインタラクションを実装するために必要なAIアルゴリズムと、ロボットに対する人間の信頼を高め、弱体化させ、回復させる要因である。 最後に、潜在的な倫理的および法的懸念、そしてそれらの対処方法を検討する。 ウェブサイト: https://sites.com google。 com/view/traits-hri

The aim of this workshop is to give researchers from academia and industry the possibility to discuss the inter-and multi-disciplinary nature of the relationships between people and robots towards effective and long-lasting collaborations. This workshop will provide a forum for the HRI and robotics communities to explore successful human-robot interaction (HRI) to analyse the different aspects of HRI that impact its success. Particular focus are the AI algorithms required to implement autonomous interactions, and the factors that enhance, undermine, or recover humans' trust in robots. Finally, potential ethical and legal concerns, and how they can be addressed will be considered. Website: https://sites. google. com/view/traits-hri
翻訳日:2021-03-24 17:32:56 公開日:2021-03-23
# (参考訳) 生成最小化ネットワーク:競争のないGANのトレーニング [全文訳有]

Generative Minimization Networks: Training GANs Without Competition ( http://arxiv.org/abs/2103.12685v1 )

ライセンス: CC BY 4.0
Paulina Grnarova, Yannic Kilcher, Kfir Y. Levy, Aurelien Lucchi, Thomas Hofmann(参考訳) 機械学習の多くの応用は最小化問題としてフレーム化でき、勾配に基づく手法で効率的に解ける。 しかし、生成モデル、特にGANの最近の応用は、標準最適化技術が適さないようなmin-maxゲームへの関心を喚起している。 実践者が経験する既知の問題の1つは、収束保証の欠如や非最適サイクルへの収束である。 これらの問題の核心は、プレイヤー間の非自明な依存関係を生成するGAN目標のmin-max構造である。 ゲーム理論との双対性ギャップの概念を用いて、min-max構造を回避できる異なる目的を最適化することにより、この問題に対処することを提案する。 この目的に対して新たな収束保証を提供し,得られた極限点が既知技術よりも優れた解法であることを実証する。

Many applications in machine learning can be framed as minimization problems and solved efficiently using gradient-based techniques. However, recent applications of generative models, particularly GANs, have triggered interest in solving min-max games for which standard optimization techniques are often not suitable. Among known problems experienced by practitioners is the lack of convergence guarantees or convergence to a non-optimum cycle. At the heart of these problems is the min-max structure of the GAN objective which creates non-trivial dependencies between the players. We propose to address this problem by optimizing a different objective that circumvents the min-max structure using the notion of duality gap from game theory. We provide novel convergence guarantees on this objective and demonstrate why the obtained limit point solves the problem better than known techniques.
翻訳日:2021-03-24 17:32:06 公開日:2021-03-23
# (参考訳) チューリングマシンの回路およびニューラルネットワークによるPAC学習ゲイン

PAC-learning gains of Turing machines over circuits and neural networks ( http://arxiv.org/abs/2103.12686v1 )

ライセンス: CC BY 4.0
Brieuc Pinon and Jean-Charles Delvenne and Rapha\"el Jungers(参考訳) 現在のDeep Learningアプローチの多くのアプリケーションに注意すべき点は、大規模なデータが必要であることだ。 コルモゴロフの複雑性の結果から示唆される改善の1つは、最小記述長原理を計算的普遍モデルに適用することである。 このアプローチが原則としてもたらすことのできるサンプル効率の潜在的な向上について検討する。 多項式時間チューリングマシンを用いて計算の普遍的モデルとブール回路を表現し,有限精度桁に作用する人工ニューラルネットワーク(anns)を表現する。 我々の分析は、質問と計算複雑性の直接的な関係を解明する。 ANNの代わりにチューリングマシンで適用したMDL間のサンプル効率の潜在利得について, 下位および上位境界を提供する。 私たちの境界は、学習すべきブール関数の入力のビットサイズに依存する。 さらに,回路の複雑度における古典的オープン問題の密接な関係を浮き彫りにする。

A caveat to many applications of the current Deep Learning approach is the need for large-scale data. One improvement suggested by Kolmogorov Complexity results is to apply the minimum description length principle with computationally universal models. We study the potential gains in sample efficiency that this approach can bring in principle. We use polynomial-time Turing machines to represent computationally universal models and Boolean circuits to represent Artificial Neural Networks (ANNs) acting on finite-precision digits. Our analysis unravels direct links between our question and Computational Complexity results. We provide lower and upper bounds on the potential gains in sample efficiency between the MDL applied with Turing machines instead of ANNs. Our bounds depend on the bit-size of the input of the Boolean function to be learned. Furthermore, we highlight close relationships between classical open problems in Circuit Complexity and the tightness of these.
翻訳日:2021-03-24 17:05:17 公開日:2021-03-23
# (参考訳) 意思決定課題に対するメタ逆逆強化学習による適応的政策の学習 [全文訳有]

Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement Learning for Decision-making Tasks ( http://arxiv.org/abs/2103.12694v1 )

ライセンス: CC BY 4.0
Pin Wang, Hanhan Li, Ching-Yao Chan(参考訳) デモから学ぶことは、ここ数年で大きな進歩を遂げた。 しかし、一般的には空腹でタスク固有のデータである。 言い換えれば、特定のタスクで適切なモデルをトレーニングするためには大量のデータが必要である。 実際には、新しいタスクからのデモンストレーションは継続的に観察され、データはラベル付けされないか、部分的にラベル付けされるだけである。 したがって、トレーニングされたモデルは、データサンプルが限られている新しいタスクに適応することが望ましい。 本研究ではメタラーニングと逆逆強化学習(Meta-AIRL)を統合した適応可能な模倣学習モデルを構築する。 対戦型学習と逆強化学習のメカニズムを利用して、利用可能なトレーニングタスクからポリシーと関数を同時に学習し、メタ学習フレームワークでそれらを新しいタスクに適応させる。 シミュレーションの結果,Meta-AIRLでトレーニングした適応型ポリシは,限られた数のデモンストレーションから効果的に学習でき,未確認タスクの専門家に匹敵するパフォーマンスに素早く到達できることがわかった。

Learning from demonstrations has made great progress over the past few years. However, it is generally data hungry and task specific. In other words, it requires a large amount of data to train a decent model on a particular task, and the model often fails to generalize to new tasks that have a different distribution. In practice, demonstrations from new tasks will be continuously observed and the data might be unlabeled or only partially labeled. Therefore, it is desirable for the trained model to adapt to new tasks that have limited data samples available. In this work, we build an adaptable imitation learning model based on the integration of Meta-learning and Adversarial Inverse Reinforcement Learning (Meta-AIRL). We exploit the adversarial learning and inverse reinforcement learning mechanisms to learn policies and reward functions simultaneously from available training tasks and then adapt them to new tasks with the meta-learning framework. Simulation results show that the adapted policy trained with Meta-AIRL can effectively learn from limited number of demonstrations, and quickly reach the performance comparable to that of the experts on unseen tasks.
翻訳日:2021-03-24 17:04:23 公開日:2021-03-23
# (参考訳) パラメータ効率の良い視覚バックボーンのための局所自己注意のスケーリング [全文訳有]

Scaling Local Self-Attention For Parameter Efficient Visual Backbones ( http://arxiv.org/abs/2103.12731v1 )

ライセンス: CC BY 4.0
Ashish Vaswani, Prajit Ramachandran, Aravind Srinivas, Niki Parmar, Blake Hechtman, Jonathon Shlens(参考訳) セルフアテンションは、コンボリューションのパラメータ依存スケーリングやコンボリューションのコンボリューション依存相互作用とは対照的に、レセプティブフィールドのパラメータ非依存スケーリングとコンボリューション依存相互作用によるコンピュータビジョンシステムの改善を約束する。 セルフアテンションモデルは最近、resnet-50のようなベースライン畳み込みモデルと比較して、精度パラメータトレードオフの改善を奨励していることが示されている。 本研究は,標準ベースラインモデルだけでなく,高パフォーマンス畳み込みモデルにも勝る自己着想モデルを開発することを目的としている。 我々は,より効率的なセルフアテンションの実装とともに,これらのモデルの速度,メモリ使用量,精度を向上させる2つの自己アテンション拡張を提案する。 我々はこれらの改良を活用し、ImageNet分類ベンチマークのパラメータ制限設定で最先端の精度に達する新しい自己注意モデルファミリである \emph{HaloNets} を開発する。 予備的な転送学習実験では、HaloNetモデルの方がはるかに大きなモデルより優れ、推論性能が良いことが判明した。 オブジェクト検出やインスタンスセグメンテーションといった難しいタスクでは、単純なローカルなセルフアテンションと畳み込みのハイブリッドが、非常に強力なベースラインに対して改善を示しています。 これらの結果は、伝統的に畳み込みモデルによって支配される設定における自己注意モデルの有効性を示す別のステップである。

Self-attention has the promise of improving computer vision systems due to parameter-independen t scaling of receptive fields and content-dependent interactions, in contrast to parameter-dependent scaling and content-independent interactions of convolutions. Self-attention models have recently been shown to have encouraging improvements on accuracy-parameter trade-offs compared to baseline convolutional models such as ResNet-50. In this work, we aim to develop self-attention models that can outperform not just the canonical baseline models, but even the high-performing convolutional models. We propose two extensions to self-attention that, in conjunction with a more efficient implementation of self-attention, improve the speed, memory usage, and accuracy of these models. We leverage these improvements to develop a new self-attention model family, \emph{HaloNets}, which reach state-of-the-art accuracies on the parameter-limited setting of the ImageNet classification benchmark. In preliminary transfer learning experiments, we find that HaloNet models outperform much larger models and have better inference performance. On harder tasks such as object detection and instance segmentation, our simple local self-attention and convolutional hybrids show improvements over very strong baselines. These results mark another step in demonstrating the efficacy of self-attention models on settings traditionally dominated by convolutional models.
翻訳日:2021-03-24 16:53:13 公開日:2021-03-23
# (参考訳) PanGEA: Panoramic Graph Environment Annotation Toolkit [全文訳有]

PanGEA: The Panoramic Graph Environment Annotation Toolkit ( http://arxiv.org/abs/2103.12703v1 )

ライセンス: CC BY 4.0
Alexander Ku and Peter Anderson and Jordi Pont-Tuset and Jason Baldridge(参考訳) PanGEAはパノラマグラフ環境アノテーションツールキットであり、フォトリアリスティックな3D環境で音声やテキストのアノテーションを収集するための軽量ツールキットである。 PanGEAはアノテータをウェブベースのシミュレーションに没入させ、話すときや聞くときに簡単に動き回れるようにする。 データベースとクラウドストレージの統合に加えて、記録された音声と手書きの書き起こしとアノテータの仮想ポーズを自動的に調整するユーティリティが含まれている。 PanGEAは、ナビゲーション指示とナビゲーション指示の収集という2つのタスクをサポートしており、ウォーキングツアーのアノテート、ランドマークやオブジェクトの発見とラベル付け、同様のタスクに容易に適応できる。 私たちは、Room-Across-Roomデータセット収集のために20,000時間のアノテーションでPanGEAを使用して学んだベストプラクティスを共有します。 当社のオープンソースアノテーションツールキットとインサイトが,将来のデータ収集活動の迅速化と,環境がサポート可能な基盤的言語タスクのイノベーションの促進の両方を期待しています。

PanGEA, the Panoramic Graph Environment Annotation toolkit, is a lightweight toolkit for collecting speech and text annotations in photo-realistic 3D environments. PanGEA immerses annotators in a web-based simulation and allows them to move around easily as they speak and/or listen. It includes database and cloud storage integration, plus utilities for automatically aligning recorded speech with manual transcriptions and the virtual pose of the annotators. Out of the box, PanGEA supports two tasks -- collecting navigation instructions and navigation instruction following -- and it could be easily adapted for annotating walking tours, finding and labeling landmarks or objects, and similar tasks. We share best practices learned from using PanGEA in a 20,000 hour annotation effort to collect the Room-Across-Room dataset. We hope that our open-source annotation toolkit and insights will both expedite future data collection efforts and spur innovation on the kinds of grounded language tasks such environments can support.
翻訳日:2021-03-24 16:31:14 公開日:2021-03-23
# (参考訳) 確率分布間の深さに基づく擬似計量 [全文訳有]

Depth-based pseudo-metrics between probability distributions ( http://arxiv.org/abs/2103.12711v1 )

ライセンス: CC BY 4.0
Guillaume Staerman, Pavlo Mozharovskyi, St\'ephan Cl\'emen\c{c}on and Florence d'Alch\'e-Buc(参考訳) データ深度は、(w.r.t) に関する任意の元 $x\in\mathbb{R}^d$ の集中度を測定する非パラメトリック統計ツールである。 確率分布またはデータセット。 これは多変数の場合への累積分布関数(cdf)の自然な中央値指向拡張である。 その結果、その上層集合、すなわち深さトリミングされた領域は、多変量体の定義をもたらす。 本研究では,データ深度に基づく連続確率測度と関連する中心領域の2つの新しい擬似測度を提案する。 1つ目はデータ深度w.r.t間のlp距離として構築される。 それぞれの分布は、第2の分布は、その分位域の間のハウスドルフ距離に依存する。 これはさらに、分位数とcdfを含むワッサースタイン距離の1次元公式を多変量空間に拡張する元の方法と見なすことができる。 これらの擬計量の性質を議論し、距離を定義する条件を与えると、ワッサーシュタイン距離との類似性が強調される。 興味深いことに、導出された非漸近的境界は、ワッサーシュタイン距離とは対照的に、提案された擬計量は次元の呪いを伴わないことを示している。 さらに,凸体の支持関数に基づいて,線形時間複雑性 w.r.t を持つ効率的な近似を提案する。 データセットのサイズとその次元です この近似の質と提案手法の性能は実験で示される。 さらに、構成により、領域ベースの擬計量はロバスト w.r.t であるように見える。 アウトリアーとヘビーテールの両方が数値実験で見られた挙動である。

Data depth is a non parametric statistical tool that measures centrality of any element $x\in\mathbb{R}^d$ with respect to (w.r.t.) a probability distribution or a data set. It is a natural median-oriented extension of the cumulative distribution function (cdf) to the multivariate case. Consequently, its upper level sets -- the depth-trimmed regions -- give rise to a definition of multivariate quantiles. In this work, we propose two new pseudo-metrics between continuous probability measures based on data depth and its associated central regions. The first one is constructed as the Lp-distance between data depth w.r.t. each distribution while the second one relies on the Hausdorff distance between their quantile regions. It can further be seen as an original way to extend the one-dimensional formulae of the Wasserstein distance, which involves quantiles and cdfs, to the multivariate space. After discussing the properties of these pseudo-metrics and providing conditions under which they define a distance, we highlight similarities with the Wasserstein distance. Interestingly, the derived non-asymptotic bounds show that in contrast to the Wasserstein distance, the proposed pseudo-metrics do not suffer from the curse of dimensionality. Moreover, based on the support function of a convex body, we propose an efficient approximation possessing linear time complexity w.r.t. the size of the data set and its dimension. The quality of this approximation as well as the performance of the proposed approach are illustrated in experiments. Furthermore, by construction the regions-based pseudo-metric appears to be robust w.r.t. both outliers and heavy tails, a behavior witnessed in the numerical experiments.
翻訳日:2021-03-24 16:23:51 公開日:2021-03-23
# (参考訳) セルフ・スーパーバイザード・プレトレーニングは自己スーパーバイザード・プレトレーニングを改善する [全文訳有]

Self-Supervised Pretraining Improves Self-Supervised Pretraining ( http://arxiv.org/abs/2103.12718v1 )

ライセンス: CC BY 4.0
Colorado J. Reed and Xiangyu Yue and Ani Nrusimha and Sayna Ebrahimi and Vivek Vijaykumar and Richard Mao and Bo Li and Shanghang Zhang and Devin Guillory and Sean Metzger and Kurt Keutzer and Trevor Darrell(参考訳) 自己教師付き事前訓練は多くのコンピュータビジョンタスクに有益であることが証明されているが、高価で長い計算と大量のデータを必要とし、データ拡張に敏感である。 以前の研究では、imagenetでトレーニングされた胸部x線モデルやスクラッチからトレーニングされたアンダーパーフォームモデルなど、ターゲットデータと異なるデータセットで事前トレーニングされたモデルが示されている。 事前トレーニングするリソースを持たないユーザは、パフォーマンスの低い既存のモデルを使用する必要がある。 本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 16種類の視覚データセットを実験することにより、HPTは最大80倍の速度で収束し、タスク間の精度を向上し、自己教師付き事前学習プロセスの堅牢性を改善し、画像強化ポリシーや事前学習データの量を変更する。 HPTは計算資源の少ないより優れた事前訓練された表現を得るためのシンプルなフレームワークを提供する。

While self-supervised pretraining has proven beneficial for many computer vision tasks, it requires expensive and lengthy computation, large amounts of data, and is sensitive to data augmentation. Prior work demonstrates that models pretrained on datasets dissimilar to their target data, such as chest X-ray models trained on ImageNet, underperform models trained from scratch. Users that lack the resources to pretrain must use existing models with lower performance. This paper explores Hierarchical PreTraining (HPT), which decreases convergence time and improves accuracy by initializing the pretraining process with an existing pretrained model. Through experimentation on 16 diverse vision datasets, we show HPT converges up to 80x faster, improves accuracy across tasks, and improves the robustness of the self-supervised pretraining process to changes in the image augmentation policy or amount of pretraining data. Taken together, HPT provides a simple framework for obtaining better pretrained representations with less computational resources.
翻訳日:2021-03-24 15:52:21 公開日:2021-03-23
# (参考訳) 政策情報能力:深層強化学習における課題複雑度に関する情報理論尺度

Policy Information Capacity: Information-Theoreti c Measure for Task Complexity in Deep Reinforcement Learning ( http://arxiv.org/abs/2103.12726v1 )

ライセンス: CC BY 4.0
Hiroki Furuta, Tatsuya Matsushima, Tadashi Kozuno, Yutaka Matsuo, Sergey Levine, Ofir Nachum, Shixiang Shane Gu(参考訳) 深層強化学習(RL)研究の進歩は、主にベンチマークタスク環境によって実現されている。 しかし、これらの環境の性質を分析することはしばしば見過ごされる。 特に、各タスクが基本的に異なるアクション、観察、ダイナミクス、報酬を持ち、多様なRLアルゴリズムに対処できることを考えると、タスクの難易度や解決可能性を測定するための合意可能な方法がない。 本研究では,政策パラメータと政策最適情報容量 (poic) の相互情報である政策情報容量 (pic) と政策パラメータと政策最適情報容量 (poic) を,課題難易度に対する環境非依存でアルゴリズム非依存な2つの定量的指標として提案する。 OpenAI GymとDeepMind Control Suiteの連続制御ベンチマークタスクだけでなく、おもちゃ環境のメトリクスを評価することで、これらの情報理論メトリクスが、さまざまな代替手段よりも正常化タスクの可解性スコアと高い相関関係があることを実証的に実証します。 最後に、これらの指標は、報酬形成やポリシーアーキテクチャ、MDPプロパティといった重要な設計パラメータの高速かつ効率的な最適化にも利用でき、完全なRL実験を行なわずにRLアルゴリズムによる解法性を向上させることができることを示す。

Progress in deep reinforcement learning (RL) research is largely enabled by benchmark task environments. However, analyzing the nature of those environments is often overlooked. In particular, we still do not have agreeable ways to measure the difficulty or solvability of a task, given that each has fundamentally different actions, observations, dynamics, rewards, and can be tackled with diverse RL algorithms. In this work, we propose policy information capacity (PIC) -- the mutual information between policy parameters and episodic return -- and policy-optimal information capacity (POIC) -- between policy parameters and episodic optimality -- as two environment-agnostic , algorithm-agnostic quantitative metrics for task difficulty. Evaluating our metrics across toy environments as well as continuous control benchmark tasks from OpenAI Gym and DeepMind Control Suite, we empirically demonstrate that these information-theoreti c metrics have higher correlations with normalized task solvability scores than a variety of alternatives. Lastly, we show that these metrics can also be used for fast and compute-efficient optimizations of key design parameters such as reward shaping, policy architectures, and MDP properties for better solvability by RL algorithms without ever running full RL experiments.
翻訳日:2021-03-24 14:17:03 公開日:2021-03-23
# 多言語自動回帰エンティティリンク

Multilingual Autoregressive Entity Linking ( http://arxiv.org/abs/2103.12528v1 )

ライセンス: Link先を確認
Nicola De Cao, Ledell Wu, Kashyap Popat, Mikel Artetxe, Naman Goyal, Mikhail Plekhanov, Luke Zettlemoyer, Nicola Cancedda, Sebastian Riedel, Fabio Petroni(参考訳) 本稿では,多言語エンティティリンク(mel)問題に対して,多言語知識ベース(kb)への言語固有の言及を解決するタスクであるmgenreを提案する。 与えられた言語に言及するために、mGENREは自己回帰的な方法でターゲットエンティティの名前を予測する。 自己回帰的定式化(autoregressive formula)により、参照ベクトルとエンティティベクトルの間の標準ドット積よりも多くのインタラクションを効果的にエンコードできる。 また、参照テーブルに表示されず、大規模なベクトルインデックスを必要とせずに、大きなKB内で高速な検索を可能にする。 以前のMELでは、各エンティティに1つの表現を使用していたが、できるだけ多くの言語のエンティティ名と一致し、ソース入力とターゲット名の間の言語接続を活用できる。 さらに、トレーニングデータを全く持たない言語上のゼロショット設定では、mGENREは、ターゲット言語を予測時に辺縁化される潜在変数として扱う。 これにより平均精度が50%以上向上する。 提案手法の有効性を,mGENREが新しい最先端結果を確立する3つのMELベンチマーク実験を含む広範囲な評価により示す。 code and pre-trained model at https://github.com/f acebookresearch/GENR E

We present mGENRE, a sequence-to-sequence system for the Multilingual Entity Linking (MEL) problem -- the task of resolving language-specific mentions to a multilingual Knowledge Base (KB). For a mention in a given language, mGENRE predicts the name of the target entity left-to-right, token-by-token in an autoregressive fashion. The autoregressive formulation allows us to effectively cross-encode mention string and entity names to capture more interactions than the standard dot product between mention and entity vectors. It also enables fast search within a large KB even for mentions that do not appear in mention tables and with no need for large-scale vector indices. While prior MEL works use a single representation for each entity, we match against entity names of as many languages as possible, which allows exploiting language connections between source input and target name. Moreover, in a zero-shot setting on languages with no training data at all, mGENRE treats the target language as a latent variable that is marginalized at prediction time. This leads to over 50% improvements in average accuracy. We show the efficacy of our approach through extensive evaluation including experiments on three popular MEL benchmarks where mGENRE establishes new state-of-the-art results. Code and pre-trained models at https://github.com/f acebookresearch/GENR E.
翻訳日:2021-03-24 14:15:07 公開日:2021-03-23
# 定数準最適ギャップを持つ線形実現mdpに対する指数下限

An Exponential Lower Bound for Linearly-Realizable MDPs with Constant Suboptimality Gap ( http://arxiv.org/abs/2103.12690v1 )

ライセンス: Link先を確認
Yuanhao Wang, Ruosong Wang, Sham M. Kakade(参考訳) 強化学習の理論における基本的な質問は、 最適な$q$-関数が与えられた$d$ 次元特徴マッピングの線形スパンにあると仮定すると、標本効率強化学習(rl)は可能か? Weiszらによる最近の顕著な成果。 (2020)はこの問題を負で解決し、指数関数的な($d$)サンプルサイズ下限を提供し、たとえエージェントが環境の生成モデルにアクセスしたとしても保持する。 RL のこの情報理論的障壁は、さらに好ましい仮定を仮定することで回避できると期待できるかもしれない: 最良のアクションの最適な$Q$-値と第2のアクション(すべての状態)の間に \emph{constant suboptimality gap} が存在する。 大きめの最適性ギャップを持つことで、最適な行動の同定がより容易になるので、問題を抽出できる。実際に、エージェントが生成モデルにアクセスできれば、このより好ましい仮定を追加することで、サンプル効率のよいRLが実際に可能である。 私たちのハードネスの結果は、線形に実現可能な最適な$q$-関数を持つことに加えて、一定な準最適性ギャップが仮定されたとしても、指数的サンプル複雑性の下限が依然として保持されていることを示している。 おそらく驚くことに、これはオンラインrl設定と生成モデル設定の指数関数的な分離を意味する。 負の硬さの結果を補うために、サンプル効率の良いrlは、追加の低分散仮定でも、新しいハイパーコントラクティビティ仮定でも実現可能であることを示す2つのポジティブな結果を与える(どちらも、基礎となるダイナミクスモデルに暗黙的に強い条件を与える)。

A fundamental question in the theory of reinforcement learning is: suppose the optimal $Q$-function lies in the linear span of a given $d$ dimensional feature mapping, is sample-efficient reinforcement learning (RL) possible? The recent and remarkable result of Weisz et al. (2020) resolved this question in the negative, providing an exponential (in $d$) sample size lower bound, which holds even if the agent has access to a generative model of the environment. One may hope that this information theoretic barrier for RL can be circumvented by further supposing an even more favorable assumption: there exists a \emph{constant suboptimality gap} between the optimal $Q$-value of the best action and that of the second-best action (for all states). The hope is that having a large suboptimality gap would permit easier identification of optimal actions themselves, thus making the problem tractable; indeed, provided the agent has access to a generative model, sample-efficient RL is in fact possible with the addition of this more favorable assumption. This work focuses on this question in the standard online reinforcement learning setting, where our main result resolves this question in the negative: our hardness result shows that an exponential sample complexity lower bound still holds even if a constant suboptimality gap is assumed in addition to having a linearly realizable optimal $Q$-function. Perhaps surprisingly, this implies an exponential separation between the online RL setting and the generative model setting. Complementing our negative hardness result, we give two positive results showing that provably sample-efficient RL is possible either under an additional low-variance assumption or under a novel hypercontractivity assumption (both implicitly place stronger conditions on the underlying dynamics model).
翻訳日:2021-03-24 14:14:24 公開日:2021-03-23
# IAIA-BL:デジタルマンモグラフィにおける大量病変分類のためのケースベース解釈型深層学習モデル

IAIA-BL: A Case-based Interpretable Deep Learning Model for Classification of Mass Lesions in Digital Mammography ( http://arxiv.org/abs/2103.12308v1 )

ライセンス: Link先を確認
Alina Jade Barnett, Fides Regina Schwartz, Chaofan Tao, Chaofan Chen, Yinhao Ren, Joseph Y. Lo and Cynthia Rudin(参考訳) 機械学習モデルの解釈性は、マンモグラフィ検査に基づいて生検を注文するかどうかなど、ハイステイクの決定において重要である。 マンモグラフィは、他のコンピュータビジョンタスクには存在しない重要な課題を提起する: データセットは小さく、情報が共有されており、放射線科医がマンモグラムのみに基づいて、注意深い待機と生検のどちらを選ぶかを決めることは困難である。 本稿では,機械学習に基づくマンモグラフィのためのフレームワークを提案する。 病変が悪性か良性かの予測に加えて,各画像の臨床的意味的特徴(質量マージンの特徴など)を検出するための放射線科医の推論プロセスにも追従することを目的としている。 このフレームワークは、マンモグラフィーにケースベースの推論を使用する、新しい解釈可能なニューラルネットワークアルゴリズムを含んでいる。 本アルゴリズムは,画像のラベル付きデータと画素別アノテーション付きデータの組み合わせを組み込むことで,少ない画像でも精度と解釈性が向上する。 我々の解釈可能なモデルは画像の分類関連部分を強調することができるが、他の方法では健全な組織と結合した情報を強調する。 私たちのモデルは、意思決定者ではなく、人間と機械のコラボレーションをより良くするための意思決定支援です。 同じデータに基づいてトレーニングされたブラックボックスニューラルネットワークでは,マスマージン分類精度の低下は観測できない。

Interpretability in machine learning models is important in high-stakes decisions, such as whether to order a biopsy based on a mammographic exam. Mammography poses important challenges that are not present in other computer vision tasks: datasets are small, confounding information is present, and it can be difficult even for a radiologist to decide between watchful waiting and biopsy based on a mammogram alone. In this work, we present a framework for interpretable machine learning-based mammography. In addition to predicting whether a lesion is malignant or benign, our work aims to follow the reasoning processes of radiologists in detecting clinically relevant semantic features of each image, such as the characteristics of the mass margins. The framework includes a novel interpretable neural network algorithm that uses case-based reasoning for mammography. Our algorithm can incorporate a combination of data with whole image labelling and data with pixel-wise annotations, leading to better accuracy and interpretability even with a small number of images. Our interpretable models are able to highlight the classification-relev ant parts of the image, whereas other methods highlight healthy tissue and confounding information. Our models are decision aids, rather than decision makers, aimed at better overall human-machine collaboration. We do not observe a loss in mass margin classification accuracy over a black box neural network trained on the same data.
翻訳日:2021-03-24 14:12:58 公開日:2021-03-23
# ニューラルネットワークにおける対比推論

Contrastive Reasoning in Neural Networks ( http://arxiv.org/abs/2103.12329v1 )

ライセンス: Link先を確認
Mohit Prabhushankar and Ghassan AlRegib(参考訳) ニューラルネットワークは、データを高次元多様体内の訓練された重みの投影として表現する。 トレーニングされた重みは、因果クラスの依存関係からなる知識ベースとして機能する。 これらの依存関係を特定する機能に基づいて構築された推論は、フィードフォワード推論と呼ばれる。 このような推論機構は古典的因果推論モデルに基づいて正当化される。 帰納的推論に基づくフィードフォワード推論はその数学的単純さと操作容易さのために広く使われている。 それにもかかわらず、フィードフォワードモデルは訓練されていない状況にうまく一般化しない。 この一般化の課題を軽減するため,帰納的な推論モデルを提案する。 ここでは、特定の効果が与えられた既存の重み依存からの変化を表す。 この変化をコントラストと呼び、それに続く推論機構をコントラスト推論と呼ぶ。 本稿では,コントラスト推論の構造を形式化し,ニューラルネットワークのコントラスト概念を抽出する手法を提案する。 ニューラルネットワークの推論パイプラインの2段階において、対照的な推論の価値を実証する。 提案するcifar-10c,stl-10,vis daデータセットにおける平均精度の3.47%,2.56%,5.48%の改善を報告し,歪み下の画像のコントラスト認識の価値を示す。

Neural networks represent data as projections on trained weights in a high dimensional manifold. The trained weights act as a knowledge base consisting of causal class dependencies. Inference built on features that identify these dependencies is termed as feed-forward inference. Such inference mechanisms are justified based on classical cause-to-effect inductive reasoning models. Inductive reasoning based feed-forward inference is widely used due to its mathematical simplicity and operational ease. Nevertheless, feed-forward models do not generalize well to untrained situations. To alleviate this generalization challenge, we propose using an effect-to-cause inference model that reasons abductively. Here, the features represent the change from existing weight dependencies given a certain effect. We term this change as contrast and the ensuing reasoning mechanism as contrastive reasoning. In this paper, we formalize the structure of contrastive reasoning and propose a methodology to extract a neural network's notion of contrast. We demonstrate the value of contrastive reasoning in two stages of a neural network's reasoning pipeline : in inferring and visually explaining decisions for the application of object recognition. We illustrate the value of contrastively recognizing images under distortions by reporting an improvement of 3.47%, 2.56%, and 5.48% in average accuracy under the proposed contrastive framework on CIFAR-10C, noisy STL-10, and VisDA datasets respectively.
翻訳日:2021-03-24 14:12:36 公開日:2021-03-23
# Watermark Faker:デジタル画像透かしの偽造を目指して

Watermark Faker: Towards Forgery of Digital Image Watermarking ( http://arxiv.org/abs/2103.12489v1 )

ライセンス: Link先を確認
Ruowei Wang, Chenguo Lin, Qijun Zhao, Feiyu Zhu(参考訳) デジタル透かしはマルチメディアデータの著作権と完全性を保護するために広く使われている。 従来の研究は主に、埋め込まれた透かしを破壊する攻撃に対して頑健な透かし技術の設計に重点を置いている。 しかし、深層学習に基づく画像生成技術は、回避のために偽の透かし画像を生成することができるかどうかという新たなオープンな問題を提起している。 本稿では,生成的対角学習を用いて,デジタル画像透かし偽造物の開発を初めて試みる。 対象の透かしによって生成されたオリジナル画像と透かし画像のペア画像が利用可能であると仮定し、入力が元の画像であるバックボーンとしてU-Netで透かしフェイカーを訓練し、ドメイン固有の前処理の後、偽の透かし画像を出力する。 実験の結果,提案手法は空間領域と周波数領域のデジタル画像透かしを効果的に解読し,そのような偽造攻撃の危険性を示唆している。

Digital watermarking has been widely used to protect the copyright and integrity of multimedia data. Previous studies mainly focus on designing watermarking techniques that are robust to attacks of destroying the embedded watermarks. However, the emerging deep learning based image generation technology raises new open issues that whether it is possible to generate fake watermarked images for circumvention. In this paper, we make the first attempt to develop digital image watermark fakers by using generative adversarial learning. Suppose that a set of paired images of original and watermarked images generated by the targeted watermarker are available, we use them to train a watermark faker with U-Net as the backbone, whose input is an original image, and after a domain-specific preprocessing, it outputs a fake watermarked image. Our experiments show that the proposed watermark faker can effectively crack digital image watermarkers in both spatial and frequency domains, suggesting the risk of such forgery attacks.
翻訳日:2021-03-24 14:12:19 公開日:2021-03-23
# マルチエージェント移動操作のための空間意図マップ

Spatial Intention Maps for Multi-Agent Mobile Manipulation ( http://arxiv.org/abs/2103.12710v1 )

ライセンス: Link先を確認
Jimmy Wu, Xingyuan Sun, Andy Zeng, Shuran Song, Szymon Rusinkiewicz, Thomas Funkhouser(参考訳) 意図を伝える能力により、分散されたマルチエージェントロボットは、物理的タスクを実行しながら協調することができる。 本研究では,分散移動マニピュレータ間の協調性を改善する多エージェント視覚に基づく深層強化学習のための空間意図マップを提案する。 この表現では、各エージェントの意図は他のエージェントに提供され、視覚的な観察と一致したオーバーヘッド2Dマップに描画される。 これは、状態と行動表現が空間的に整合している、最近提案された空間的行動マップフレームワークと相乗効果があり、物体を互いに渡したり衝突を避けたりといった空間的協調を必要とする創発的協調行動を促進する誘導バイアスを与える。 多様な能力を持つ異種ロボットチーム(リフティング、プッシュ、投球)を含む様々なマルチエージェント環境における実験により、空間意図マップを組み込むことで、異なる移動操作タスクのパフォーマンスが向上し、協調行動が著しく向上することが示された。

The ability to communicate intention enables decentralized multi-agent robots to collaborate while performing physical tasks. In this work, we present spatial intention maps, a new intention representation for multi-agent vision-based deep reinforcement learning that improves coordination between decentralized mobile manipulators. In this representation, each agent's intention is provided to other agents, and rendered into an overhead 2D map aligned with visual observations. This synergizes with the recently proposed spatial action maps framework, in which state and action representations are spatially aligned, providing inductive biases that encourage emergent cooperative behaviors requiring spatial coordination, such as passing objects to each other or avoiding collisions. Experiments across a variety of multi-agent environments, including heterogeneous robot teams with different abilities (lifting, pushing, or throwing), show that incorporating spatial intention maps improves performance for different mobile manipulation tasks while significantly enhancing cooperative behaviors.
翻訳日:2021-03-24 14:11:43 公開日:2021-03-23
# TMR: タフ・メンションのNERリコールの評価

TMR: Evaluating NER Recall on Tough Mentions ( http://arxiv.org/abs/2103.12312v1 )

ライセンス: Link先を確認
Jingxuan Tu and Constantine Lignos(参考訳) 従来の名前付きエンティティ認識(ner)の評価を補完するために、tmr(t tough mentions recall)メトリクスを提案し、"tough"参照の特定のサブセットのリコールを調べる。 本稿では,最近の5つのニューラルアーキテクチャを用いて,英語,スペイン語,オランダ語のコーパスを評価することにより,これらの指標の有用性を示す。 2つの英語NERコーパスにおけるBERTとFrairの性能の微妙な差異を同定し、スペイン語の現行モデルの性能の弱点を同定する。 結論として,tmrメトリクスは,類似するスコーリングシステム間の差別化と,全体的な精度,リコール,f1から注目されないパフォーマンスパターンの識別を可能にする。

We propose the Tough Mentions Recall (TMR) metrics to supplement traditional named entity recognition (NER) evaluation by examining recall on specific subsets of "tough" mentions: unseen mentions, those whose tokens or token/type combination were not observed in training, and type-confusable mentions, token sequences with multiple entity types in the test data. We demonstrate the usefulness of these metrics by evaluating corpora of English, Spanish, and Dutch using five recent neural architectures. We identify subtle differences between the performance of BERT and Flair on two English NER corpora and identify a weak spot in the performance of current models in Spanish. We conclude that the TMR metrics enable differentiation between otherwise similar-scoring systems and identification of patterns in performance that would go unnoticed from overall precision, recall, and F1.
翻訳日:2021-03-24 14:11:26 公開日:2021-03-23
# 知識に基づくVQAのためのマルチモーダル回答検証

Multi-Modal Answer Validation for Knowledge-Based VQA ( http://arxiv.org/abs/2103.12248v1 )

ライセンス: Link先を確認
Jialin Wu, Jiasen Lu, Ashish Sabharwal, Roozbeh Mottaghi(参考訳) 知識に基づく視覚的質問応答の問題は、画像の内容に加えて外部知識を必要とする質問に答えることである。 このような知識は通常、視覚的、テキスト的、常識的な知識を含む様々な形態で提供される。 しかし、より多くの知識ソースを使用することで、より無関係または騒がしい事実を検索する可能性も高まり、事実を理解して答えを見つけるのが難しくなる。 この課題を解決するために,外部知識を用いたマルチモーダル回答検証(MAVEx)を提案する。 これは、しばしば無関係な事実を大量に集めて答えを求める既存のアプローチとは対照的である。 我々のアプローチは、回答候補ごとにどの知識ソースを信頼すべきか、そのソースを使って候補を検証する方法を学ぶことを目的としています。 我々は、Googleで検索した画像、Wikipediaの記事の文、ConceptNetのコンセプトなど、テキストと視覚の両方の知識リソースに依存したマルチモーダルな設定を考える。 難解な知識に基づくVQAデータセットであるOK-VQAを用いた実験により、MAVExが新しい最先端の結果を得ることを示す。

The problem of knowledge-based visual question answering involves answering questions that require external knowledge in addition to the content of the image. Such knowledge typically comes in a variety of forms, including visual, textual, and commonsense knowledge. The use of more knowledge sources, however, also increases the chance of retrieving more irrelevant or noisy facts, making it difficult to comprehend the facts and find the answer. To address this challenge, we propose Multi-modal Answer Validation using External knowledge (MAVEx), where the idea is to validate a set of promising answer candidates based on answer-specific knowledge retrieval. This is in contrast to existing approaches that search for the answer in a vast collection of often irrelevant facts. Our approach aims to learn which knowledge source should be trusted for each answer candidate and how to validate the candidate using that source. We consider a multi-modal setting, relying on both textual and visual knowledge resources, including images searched using Google, sentences from Wikipedia articles, and concepts from ConceptNet. Our experiments with OK-VQA, a challenging knowledge-based VQA dataset, demonstrate that MAVEx achieves new state-of-the-art results.
翻訳日:2021-03-24 14:11:10 公開日:2021-03-23
# ユニバーサル病変検出のための境界マップを用いた条件付きトレーニング

Conditional Training with Bounding Map for Universal Lesion Detection ( http://arxiv.org/abs/2103.12277v1 )

ライセンス: Link先を確認
Han Li, Long Chen, Hu Han, S. Kevin Zhou(参考訳) コンピュータ断層撮影におけるユニバーサル病変検出(ULD)は,コンピュータ支援診断において重要な役割を担っている。 ULDの結果は粗大な2段階検出法によって報告されているが、これらの2段階検出法は正の対価の不均衡などの問題に悩まされている。 対象提案中の負のアンカーと、ローカライゼーション回帰および関心領域(RoI)提案の分類における不十分な監督問題。 有界マップ(BM)のような擬似セグメンテーションマスクを利用することで、上記の問題をある程度低減することができるが、UDDの多様な病変形状や大きさを効果的に扱うことは未解決の問題である。 本稿では,従来のiouに基づく規則に代えてアンカーサンプリングを行うbm-based conditioning (bmc) 機構を用いて,負のアンカー不均衡を低減できる2段階uddに対するbm-based conditional trainingを提案する。 最新の4つの手法を用いた実験により,提案手法は,病変マスクのアノテーションを必要とせず,ほぼ無償で検出精度を向上できることが示された。

Universal Lesion Detection (ULD) in computed tomography plays an essential role in computer-aided diagnosis. Promising ULD results have been reported by coarse-to-fine two-stage detection approaches, but such two-stage ULD methods still suffer from issues like imbalance of positive v.s. negative anchors during object proposal and insufficient supervision problem during localization regression and classification of the region of interest (RoI) proposals. While leveraging pseudo segmentation masks such as bounding map (BM) can reduce the above issues to some degree, it is still an open problem to effectively handle the diverse lesion shapes and sizes in ULD. In this paper, we propose a BM-based conditional training for two-stage ULD, which can (i) reduce positive vs. negative anchor imbalance via BM-based conditioning (BMC) mechanism for anchor sampling instead of traditional IoU-based rule; and (ii) adaptively compute size-adaptive BM (ABM) from lesion bounding box, which is used for improving lesion localization accuracy via ABMsupervised segmentation. Experiments with four state-of-the-art methods show that the proposed approach can bring an almost free detection accuracy improvement without requiring expensive lesion mask annotations.
翻訳日:2021-03-24 14:10:49 公開日:2021-03-23
# 自己指導型コントラスト学習における意味集中を促す背景強化の活用

Leveraging background augmentations to encourage semantic focus in self-supervised contrastive learning ( http://arxiv.org/abs/2103.12719v1 )

ライセンス: Link先を確認
Chaitanya K. Ryali, David J. Schwab, Ari S. Morcos(参考訳) 教師なし表現学習(unsupervised representation learning)は、コンピュータビジョンにおいて重要な課題である。 高性能な自己監督手法において重要な要素は、埋め込み空間に同じ画像の異なる拡張ビューを配置するためのトレーニングモデルによるデータ拡張の利用である。 しかし、一般的に使用される拡張パイプラインは、画像の一部の意味的関連性を無視して、画像を階層的に扱う。 主題と背景は、散発的な相関の学習につながる可能性がある。 本研究は,画像の背景に焦点を合わせないようにすることで,モデルが意味的に関連のあるコンテンツに焦点を合わせることを奨励する,シンプルで効果的な"背景拡張"のクラスを調査することによって,この問題に対処する。 背景拡張により、さまざまなタスクにおける最先端の自己監督メソッド(MoCov2、BYOL、SwaV)のスペクトルにわたるパフォーマンスが大幅に改善され(ImageNet-1kでは+1-2%)、教師付きパフォーマンスの0.3%以内に到達できます。 また,背景の強化により,自然敵の例,背景の課題,敵の攻撃,ReaL ImageNetなど,多数の配布設定の堅牢性が向上することを示す。

Unsupervised representation learning is an important challenge in computer vision, with self-supervised learning methods recently closing the gap to supervised representation learning. An important ingredient in high-performing self-supervised methods is the use of data augmentation by training models to place different augmented views of the same image nearby in embedding space. However, commonly used augmentation pipelines treat images holistically, disregarding the semantic relevance of parts of an image-e.g. a subject vs. a background-which can lead to the learning of spurious correlations. Our work addresses this problem by investigating a class of simple, yet highly effective "background augmentations", which encourage models to focus on semantically-relevan t content by discouraging them from focusing on image backgrounds. Background augmentations lead to substantial improvements (+1-2% on ImageNet-1k) in performance across a spectrum of state-of-the art self-supervised methods (MoCov2, BYOL, SwAV) on a variety of tasks, allowing us to reach within 0.3% of supervised performance. We also demonstrate that background augmentations improve robustness to a number of out of distribution settings, including natural adversarial examples, the backgrounds challenge, adversarial attacks, and ReaL ImageNet.
翻訳日:2021-03-24 14:10:24 公開日:2021-03-23
# シーケンス学習による音声認識誤りの幻覚

Hallucination of speech recognition errors with sequence to sequence learning ( http://arxiv.org/abs/2103.12258v1 )

ライセンス: Link先を確認
Prashant Serai and Vishal Sunder and Eric Fosler-Lussier(参考訳) 自動音声認識 (Automatic Speech Recognition, ASR) は、プレーンテキストや文字起こしと比較して、ASR出力テキストのミスマッチを生じる不完全なプロセスである。 平易なテキストデータが音声言語理解システム(ASR)の訓練に使用される場合、そのミスマッチを減らし劣化を防ぐための実証された戦略は、ASRの出力に金の転写を与えることを幻覚させることである。 このドメインでの以前の作業は、音韻レベルでのエラーのモデル化に重点を置いており、レキシコンを使用して携帯電話を単語に変換する。 本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。 これにより、ドメイン内ASRシステムの未確認データの書き起こしによるエラーのリコールや、非関連タスクからのドメイン外ASRシステムのオーディオの書き起こしから、さらにテストASRシステムからの限られた特徴データが取得可能な場合の中間シナリオを探索する。 また,本手法の非本質的妥当性を検証するため,音声質問分類器の訓練に幻覚的ASR誤りを用いることで,列車時間帯にタスク固有の音声が不足あるいはゼロであった場合に,下流タスクにおける実際のASR誤りに対してロバスト性を実現することを確認した。

Automatic Speech Recognition (ASR) is an imperfect process that results in certain mismatches in ASR output text when compared to plain written text or transcriptions. When plain text data is to be used to train systems for spoken language understanding or ASR, a proven strategy to reduce said mismatch and prevent degradations, is to hallucinate what the ASR outputs would be given a gold transcription. Prior work in this domain has focused on modeling errors at the phonetic level, while using a lexicon to convert the phones to words, usually accompanied by an FST Language model. We present novel end-to-end models to directly predict hallucinated ASR word sequence outputs, conditioning on an input word sequence as well as a corresponding phoneme sequence. This improves prior published results for recall of errors from an in-domain ASR system's transcription of unseen data, as well as an out-of-domain ASR system's transcriptions of audio from an unrelated task, while additionally exploring an in-between scenario when limited characterization data from the test ASR system is obtainable. To verify the extrinsic validity of the method, we also use our hallucinated ASR errors to augment training for a spoken question classifier, finding that they enable robustness to real ASR errors in a downstream task, when scarce or even zero task-specific audio was available at train-time.
翻訳日:2021-03-24 14:10:00 公開日:2021-03-23
# 汎用ロバストグラフ畳み込みネットワークのための時空間スペーシング

Spatio-Temporal Sparsification for General Robust Graph Convolution Networks ( http://arxiv.org/abs/2103.12256v1 )

ライセンス: Link先を確認
Mingming Lu, Ya Zhang(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ構造データへの応用の成功により、注目を集めている。 しかし、近年の研究では、敵対的攻撃がGNNの機能を脅かしていることが示されている。 様々な視点から敵攻撃を守るために多くの研究が提案されているが、そのほとんどは特定のシナリオでのみ攻撃に対して堅牢である。 このようなロバストな一般化の欠如に対処するために,GNN隠れノード表現に時空間スペーサー化(ST-Sparse)を適用することにより,GNNに対する敵攻撃を防御することを提案する。 st-sparse は spirit の dropout regularization に似ている。 Through intensive experiment evaluation with GCN as the target GNN model, we identify the benefits of ST-Sparse as follows: (1) ST-Sparse shows the defense performance improvement in most cases, as it can effectively increase the robust accuracy by up to 6\% improvement; (2) ST-Sparse illustrates its robust generalization capability by integrating with the existing defense methods, similar to the integration of Dropout into various deep learning models as a standard regularization technique; (3) ST-Sparse also shows its ordinary generalization capability on clean datasets, in that ST-SparseGCN (the integration of ST-Sparse and the original GCN) even outperform the original GCN, while the other three representative defense methods are inferior to the original GCN.

Graph Neural Networks (GNNs) have attracted increasing attention due to its successful applications on various graph-structure data. However, recent studies have shown that adversarial attacks are threatening the functionality of GNNs. Although numerous works have been proposed to defend adversarial attacks from various perspectives, most of them can be robust against the attacks only on specific scenarios. To address this shortage of robust generalization, we propose to defend the adversarial attacks on GNN through applying the Spatio-Temporal sparsification (called ST-Sparse) on the GNN hidden node representation. ST-Sparse is similar to the Dropout regularization in spirit. Through intensive experiment evaluation with GCN as the target GNN model, we identify the benefits of ST-Sparse as follows: (1) ST-Sparse shows the defense performance improvement in most cases, as it can effectively increase the robust accuracy by up to 6\% improvement; (2) ST-Sparse illustrates its robust generalization capability by integrating with the existing defense methods, similar to the integration of Dropout into various deep learning models as a standard regularization technique; (3) ST-Sparse also shows its ordinary generalization capability on clean datasets, in that ST-SparseGCN (the integration of ST-Sparse and the original GCN) even outperform the original GCN, while the other three representative defense methods are inferior to the original GCN.
翻訳日:2021-03-24 14:09:02 公開日:2021-03-23
# drop-bottleneck: ノイズロバスト探索のための離散圧縮表現の学習

Drop-Bottleneck: Learning Discrete Compressed Representation for Noise-Robust Exploration ( http://arxiv.org/abs/2103.12300v1 )

ライセンス: Link先を確認
Jaekyeom Kim, Minjung Kim, Dongyeon Woo, Gunhee Kim(参考訳) 本稿では,ターゲット変数と無関係な特徴を離散的にドロップする,drop-bottleneckという新しい情報ボトルネック法を提案する。 Drop-Bottleneckは単純な圧縮目的だけでなく、一貫した表現を必要とする推論タスクに有用な入力変数の決定論的圧縮表現も提供する。 さらに、特徴抽出器を共同で学習し、目的タスクに対する各特徴次元の関連性を考慮した特徴を選択できるが、ほとんどのニューラルネットワークベースのIB手法では達成できない。 強化学習タスクのためのDrop-Bottleneckに基づく探索手法を提案する。 VizDoom (Kempka et al., 2016) と DMLab (Beattie et al., 2016) の多数のノイズおよび報奨迷路ナビゲーションタスクにおいて, この探索手法は最先端の性能を達成する。 In a new IB framework, we demonstrate that Drop-Bottleneck are outperforms variational Information Bottleneck (VIB) (Alemi et al., 2017) in multiple aspects including adversarial robustness and dimensionality reduction。

We propose a novel information bottleneck (IB) method named Drop-Bottleneck, which discretely drops features that are irrelevant to the target variable. Drop-Bottleneck not only enjoys a simple and tractable compression objective but also additionally provides a deterministic compressed representation of the input variable, which is useful for inference tasks that require consistent representation. Moreover, it can jointly learn a feature extractor and select features considering each feature dimension's relevance to the target task, which is unattainable by most neural network-based IB methods. We propose an exploration method based on Drop-Bottleneck for reinforcement learning tasks. In a multitude of noisy and reward sparse maze navigation tasks in VizDoom (Kempka et al., 2016) and DMLab (Beattie et al., 2016), our exploration method achieves state-of-the-art performance. As a new IB framework, we demonstrate that Drop-Bottleneck outperforms Variational Information Bottleneck (VIB) (Alemi et al., 2017) in multiple aspects including adversarial robustness and dimensionality reduction.
翻訳日:2021-03-24 14:08:43 公開日:2021-03-23
# NNrepair: ニューラルネットワーク分類器の制約に基づく修復

NNrepair: Constraint-based Repair of Neural Network Classifiers ( http://arxiv.org/abs/2103.12535v1 )

ライセンス: Link先を確認
Muhammad Usman, Divya Gopinath, Youcheng Sun, Yannic Noller and Corina Pasareanu(参考訳) 本稿では,ニューラルネットワーク分類器の修復手法であるNNrepairを提案する。 この技術は、中間層または最終層でネットワークのロジックを修正することを目的としている。 NNrepairはまず障害のローカライゼーションを使用して、潜在的な障害のあるネットワークパラメータ(重み付けなど)を見つけ、続いて制約解決を使用して修復を行い、パラメータに小さな修正を加えて欠陥を修復する。 本稿では,中間層修復のオーラクルとして機能する正当性仕様の推測や,各クラスの専門家の生成など,正確かつ効率的な修復を可能にする新しい手法を提案する。 本手法は,(1)モデルの全体的な精度の向上,(2)訓練データの汚染によるセキュリティ上の脆弱性の修正,(3)敵攻撃に対するネットワークの堅牢性の向上,の3つのシナリオで実証されている。 MNIST と CIFAR-10 モデルによる評価の結果,NNrepair は毒データでは 45.56 ポイント,敵対データでは 10.40 ポイント の精度を向上できることがわかった。 NNrepairはまた、新しいデータや再トレーニングを必要とせずに、モデルの全体的な精度をわずかに改善する。

We present NNrepair, a constraint-based technique for repairing neural network classifiers. The technique aims to fix the logic of the network at an intermediate layer or at the last layer. NNrepair first uses fault localization to find potentially faulty network parameters (such as the weights) and then performs repair using constraint solving to apply small modifications to the parameters to remedy the defects. We present novel strategies to enable precise yet efficient repair such as inferring correctness specifications to act as oracles for intermediate layer repair, and generation of experts for each class. We demonstrate the technique in the context of three different scenarios: (1) Improving the overall accuracy of a model, (2) Fixing security vulnerabilities caused by poisoning of training data and (3) Improving the robustness of the network against adversarial attacks. Our evaluation on MNIST and CIFAR-10 models shows that NNrepair can improve the accuracy by 45.56 percentage points on poisoned data and 10.40 percentage points on adversarial data. NNrepair also provides small improvement in the overall accuracy of models, without requiring new data or re-training.
翻訳日:2021-03-24 14:08:26 公開日:2021-03-23
# 隠れマルコフモデルの混合の解釈可能性に向けて

Towards interpretability of Mixtures of Hidden Markov Models ( http://arxiv.org/abs/2103.12576v1 )

ライセンス: Link先を確認
Negar Safinianaini and Henrik Bostr\"om(参考訳) 隠れマルコフモデル(MHMM)の混合は、シーケンシャルデータのクラスタリングに頻繁に使用される。 クラスタリングアプローチにおけるMHMMの重要な側面は、それらが解釈可能であり、データから新たな洞察を得ることができることである。 しかし、解釈可能性の適切な測定方法がなければ、新規貢献の評価は困難であり、この特性を直接最適化する手法を考案することは事実上不可能である。 本研究では,MHMMの解釈可能性に対する情報理論測度(エントロピー)を提案し,それに基づいてモデル解釈可能性を改善する新しい手法,すなわちエントロピー規則化期待最大化(EM)アルゴリズムを提案する。 この新しいアプローチは、MHMM内のマルコフ連鎖(状態遷移行列を含む)のエントロピーを低減すること、すなわちクラスタリング中に共通状態遷移により高い重みを割り当てることを目的としている。 このエントロピーの低減は一般に、クラスタの最も影響力があり重要な状態遷移をより容易に特定できるため、解釈可能性の向上につながると論じられている。 実験的な研究により, クラスタリング性能と計算コストを犠牲にすることなく, エントロピーによって測定されたMHMMの解釈可能性を向上させることが可能であることが確認された。

Mixtures of Hidden Markov Models (MHMMs) are frequently used for clustering of sequential data. An important aspect of MHMMs, as of any clustering approach, is that they can be interpretable, allowing for novel insights to be gained from the data. However, without a proper way of measuring interpretability, the evaluation of novel contributions is difficult and it becomes practically impossible to devise techniques that directly optimize this property. In this work, an information-theoreti c measure (entropy) is proposed for interpretability of MHMMs, and based on that, a novel approach to improve model interpretability is proposed, i.e., an entropy-regularized Expectation Maximization (EM) algorithm. The new approach aims for reducing the entropy of the Markov chains (involving state transition matrices) within an MHMM, i.e., assigning higher weights to common state transitions during clustering. It is argued that this entropy reduction, in general, leads to improved interpretability since the most influential and important state transitions of the clusters can be more easily identified. An empirical investigation shows that it is possible to improve the interpretability of MHMMs, as measured by entropy, without sacrificing (but rather improving) clustering performance and computational costs, as measured by the v-measure and number of EM iterations, respectively.
翻訳日:2021-03-24 14:08:06 公開日:2021-03-23
# ハイパーパラメータ最適化による公平性向上

Promoting Fairness through Hyperparameter Optimization ( http://arxiv.org/abs/2103.12715v1 )

ライセンス: Link先を確認
Andr\'e F. Cruz, Pedro Saleiro, Catarina Bel\'em, Carlos Soares, Pedro Bizarro(参考訳) 考慮すべき研究努力はアルゴリズムの公正性に向けて導かれてきたが、実際のバイアス低減技術の採用はいまだに少ない。 既存のメソッドはメトリックまたはモデル固有であり、推論時に機密属性へのアクセスを必要とするか、開発とデプロイメントのコストが高い。 この研究は、現実世界の不正検出アプリケーション、従来のmlモデル開発から生じる不公平さ、そして、シンプルでデプロイが容易な介入(フェアネス・アウェア・ハイパーパラメータ最適化(ho))によってどのように緩和するか、という文脈で探求する。 本稿では,一般的な3つのhoアルゴリズム,fair random search,fair tpe,fairbandの提案と評価を行う。 本手法により,既存の業務の運用を,非摩擦的かつ制御可能な公正なトレードオフを伴うフェアネス目標に適応させることができる。 さらに、既存のバイアス低減技術と組み合わせて、ハイパーパラメータを調整することもできる。 我々は、現実の銀行口座の不正使用事例のオープニングと、フェアネス文献からの3つのデータセットに対するアプローチを検証する。 その結果, トレーニングコストを余分に抑えると, 平均フェアネスが111%増加し, 予測精度が6%低下するモデルが, 標準フェアネスブラインドHOと比較して見いだせることがわかった。

Considerable research effort has been guided towards algorithmic fairness but real-world adoption of bias reduction techniques is still scarce. Existing methods are either metric- or model-specific, require access to sensitive attributes at inference time, or carry high development and deployment costs. This work explores, in the context of a real-world fraud detection application, the unfairness that emerges from traditional ML model development, and how to mitigate it with a simple and easily deployed intervention: fairness-aware hyperparameter optimization (HO). We propose and evaluate fairness-aware variants of three popular HO algorithms: Fair Random Search, Fair TPE, and Fairband. Our method enables practitioners to adapt pre-existing business operations to accommodate fairness objectives in a frictionless way and with controllable fairness-accuracy trade-offs. Additionally, it can be coupled with existing bias reduction techniques to tune their hyperparameters. We validate our approach on a real-world bank account opening fraud use case, as well as on three datasets from the fairness literature. Results show that, without extra training cost, it is feasible to find models with 111% average fairness increase and just 6% decrease in predictive accuracy, when compared to standard fairness-blind HO.
翻訳日:2021-03-24 14:07:45 公開日:2021-03-23
# Tsallis-INFアルゴリズムの確率的マルチアームバンドの逆転破壊に対するロバスト性の改善

Improved Analysis of Robustness of the Tsallis-INF Algorithm to Adversarial Corruptions in Stochastic Multiarmed Bandits ( http://arxiv.org/abs/2103.12487v1 )

ライセンス: Link先を確認
Saeed Masoudian, Yevgeny Seldin(参考訳) 我々は、Zimmert and Seldin (2021) の Tsallis-INF アルゴリズムの後悔境界を改善した。 自制的な制約のある敵対体制と、敵対的腐敗を伴う確率的体制において、我々は腐敗のマグニチュード$c$ の依存性を改善する。 特に、$C = \Theta\left(\frac{T}{\log T}\right)$の場合、$T$は時間地平線であり、Zimmert と Seldin (2021) の境界に対して$\sqrt{\frac{\log T}{\log\log T}}$の乗法係数によって改善される。 また、時間軸に束縛された後悔の依存性を、$\log t$ から $\log \frac{(k-1)t}{(\sum_{i\neq i^*}\frac{1}{\delta_i})^2}$ まで改善する。 さらに,Tsallis-INFを多腕包帯以外の設定に一般化する上で,同様の改良を実現するための一般解析も提供する。

We derive improved regret bounds for the Tsallis-INF algorithm of Zimmert and Seldin (2021). In the adversarial regime with a self-bounding constraint and the stochastic regime with adversarial corruptions as its special case we improve the dependence on corruption magnitude $C$. In particular, for $C = \Theta\left(\frac{T}{\log T}\right)$, where $T$ is the time horizon, we achieve an improvement by a multiplicative factor of $\sqrt{\frac{\log T}{\log\log T}}$ relative to the bound of Zimmert and Seldin (2021). We also improve the dependence of the regret bound on time horizon from $\log T$ to $\log \frac{(K-1)T}{(\sum_{i\neq i^*}\frac{1}{\Delta_i})^2}$, where $K$ is the number of arms, $\Delta_i$ are suboptimality gaps for suboptimal arms $i$, and $i^*$ is the optimal arm. Additionally, we provide a general analysis, which allows to achieve the same kind of improvement for generalizations of Tsallis-INF to other settings beyond multiarmed bandits.
翻訳日:2021-03-24 14:07:09 公開日:2021-03-23
# 限定ラベル分類のための因果視覚特徴抽出

Extracting Causal Visual Features for Limited label Classification ( http://arxiv.org/abs/2103.12322v1 )

ライセンス: Link先を確認
Mohit Prabhushankar and Ghassan AlRegib(参考訳) 画像を分類するために訓練されたニューラルネットワークは、クラスを区別できる特徴を識別する。 これらの特徴セットは因果関係または文脈依存である。 Grad-CAMは両方の機能を視覚化する一般的な方法である。 本稿では,この特徴分割を形式化し,Grad-CAMから因果的特徴を抽出する手法を提案する。 私たちは、予測されたクラスと任意のコントラストクラスのコントラストを可能にする機能としてコンテキスト機能を定義します。 次に、covid-19 ctスキャンのコントラスト特徴と因果関係を分離するために、セット理論的アプローチを適用した。 提案する因果的特徴を持つ画像領域は,Grad-CAMに比べて平均3%の分類精度で,Huffman符号化を用いて符号化する場合,平均15%少ないビットを必要とすることを示す。 さらに,ネットワーク間の因果的特徴の伝達可能性を検証するとともに,現在のネットワークの非人間的解釈可能な因果的性質についてコメントする。

Neural networks trained to classify images do so by identifying features that allow them to distinguish between classes. These sets of features are either causal or context dependent. Grad-CAM is a popular method of visualizing both sets of features. In this paper, we formalize this feature divide and provide a methodology to extract causal features from Grad-CAM. We do so by defining context features as those features that allow contrast between predicted class and any contrast class. We then apply a set theoretic approach to separate causal from contrast features for COVID-19 CT scans. We show that on average, the image regions with the proposed causal features require 15% less bits when encoded using Huffman encoding, compared to Grad-CAM, for an average increase of 3% classification accuracy, over Grad-CAM. Moreover, we validate the transfer-ability of causal features between networks and comment on the non-human interpretable causal nature of current networks.
翻訳日:2021-03-24 14:05:50 公開日:2021-03-23
# bossnas:block-wisely self-supervised neural architectureによるハイブリッドcnn-transformerの探索

BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search ( http://arxiv.org/abs/2103.12424v1 )

ライセンス: Link先を確認
Changlin Li, Tao Tang, Guangrun Wang, Jiefeng Peng, Bing Wang, Xiaodan Liang and Xiaojun Chang(参考訳) 視覚認識のための手作りのニューラルアーキテクチャのブレークスルーは、多様化したビルディングブロックで構成されるハイブリッドアーキテクチャを調査する緊急の必要性を強調している。 一方、ニューラルアーキテクチャーの探索手法は、人間の努力を減らすことを期待して急増している。 しかし、NAS法が異なる候補を持つ多種多様な検索空間を効率的に効果的に扱えるかどうか(例えば、等)。 CNNとトランスフォーマー)はまだオープンな質問だ。 本研究では,大重量共有空間による不正確なアーキテクチャ評価の問題に対処し,従来の手法における偏りのある監視手法であるBlock-wise Self-supervised Neural Architecture Search (BossNAS)を提案する。 より具体的には、探索空間をブロックに分類し、アンサンブルブートストラッピング(enmble bootstrapping)と呼ばれる新しい自己教師型トレーニングスキームを用いて、各ブロックを集団中心に向けて検索する前に個別に訓練する。 また,ファブリックのようなハイブリッドCNN変換器検索空間であるHyTra検索空間について述べる。 この挑戦的な検索空間において、我々の検索モデルであるBossNet-Tは、ImageNet上で82.2%の精度を達成し、EfficientNetを2.1%上回った。 さらに,imagenet を用いた正準 mbconv 探索空間と cifar-100 による nats-bench サイズ探索空間では 0.78 と 0.76 のスピアマン相関が,最先端の nas 法を上回っている。 コードと事前トレーニングされたモデルはhttps://github.com/c hanglin31/BossNAS で入手できる。

A myriad of recent breakthroughs in hand-crafted neural architectures for visual recognition have highlighted the urgent need to explore hybrid architectures consisting of diversified building blocks. Meanwhile, neural architecture search methods are surging with an expectation to reduce human efforts. However, whether NAS methods can efficiently and effectively handle diversified search spaces with disparate candidates (e.g. CNNs and transformers) is still an open question. In this work, we present Block-wisely Self-supervised Neural Architecture Search (BossNAS), an unsupervised NAS method that addresses the problem of inaccurate architecture rating caused by large weight-sharing space and biased supervision in previous methods. More specifically, we factorize the search space into blocks and utilize a novel self-supervised training scheme, named ensemble bootstrapping, to train each block separately before searching them as a whole towards the population center. Additionally, we present HyTra search space, a fabric-like hybrid CNN-transformer search space with searchable down-sampling positions. On this challenging search space, our searched model, BossNet-T, achieves up to 82.2% accuracy on ImageNet, surpassing EfficientNet by 2.1% with comparable compute time. Moreover, our method achieves superior architecture rating accuracy with 0.78 and 0.76 Spearman correlation on the canonical MBConv search space with ImageNet and on NATS-Bench size search space with CIFAR-100, respectively, surpassing state-of-the-art NAS methods. Code and pretrained models are available at https://github.com/c hanglin31/BossNAS .
翻訳日:2021-03-24 14:05:35 公開日:2021-03-23
# インクリメンタル学習のためのバランスのとれたソフトマックスクロスエントロピー

Balanced Softmax Cross-Entropy for Incremental Learning ( http://arxiv.org/abs/2103.12532v1 )

ライセンス: Link先を確認
Quentin Jodelet, Xin Liu and Tsuyoshi Murata(参考訳) ディープニューラルネットワークは、新しいデータへの適応として新しいクラスや新しいタスクを漸進的にトレーニングした場合に壊滅的な忘れがちになり、古いクラスやタスクのパフォーマンスが大幅に低下する。 リハーサルと知識の蒸留に小さなメモリを使用することで、破滅的な忘れを軽減できることが証明されている。 しかし、メモリサイズが限られているため、古いクラスと新しいクラスで利用可能なデータ量との間に大きな不均衡が残っているため、モデルの全体的な精度は低下する。 この問題に対処するために,バランスド・ソフトマックス・クロス・エントロピー・ロス(英語版)を用いることを提案し,段階的学習の終了法と組み合わせて性能を向上させるとともに,訓練手順の計算コストを低減できることを示す。 競合するImageNet、subImageNet、CIFAR100データセットに関する完全な実験は、最先端の結果を示している。

Deep neural networks are prone to catastrophic forgetting when incrementally trained on new classes or new tasks as adaptation to the new data leads to a drastic decrease of the performance on the old classes and tasks. By using a small memory for rehearsal and knowledge distillation, recent methods has proven to be effective to mitigate catastrophic forgetting. However due to the limited size of the memory, large imbalance between the amount of data available for the old and new classes still remains which results in a deterioration of the overall accuracy of the model. To address this problem, we propose the use of the Balanced Softmax Cross-Entropy loss and show that it can be combined with exiting methods for incremental learning to improve their performances while also decreasing the computational cost of the training procedure in some cases. Complete experiments on the competitive ImageNet, subImageNet and CIFAR100 datasets show states-of-the-art results.
翻訳日:2021-03-24 14:05:06 公開日:2021-03-23
# 自己監督型単眼深度推定の再検討

Revisiting Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2103.12496v1 )

ライセンス: Link先を確認
Ue-Hwan Kim, Jong-Hwan Kim(参考訳) ロボット工学や自動運転車における幅広いタスクを実現するため、深度マップの予測と単眼ビデオシーケンスからのモーション推定の自己監督的な学習が重要である。 多くの研究が照明の変動、咬合、ダイナミックな物体に取り組み、いくつかの名前をつけることで性能を高めている。 しかし、これらの取り組みは個別の目標を目標とし、個別の作業として耐えられる。 さらに、以前の作品のほとんどが同じCNNアーキテクチャを採用しており、アーキテクチャ上のメリットを享受していない。 そのため, 従来の手法の相互依存性と, 建築要因の影響について検討する必要がある。 これらの目的を達成するために,これまでに提案してきた,深度と運動の合同学習のための自己教師あり手法,総合的な実験研究を行い,複数の重要な知見を提示する。 さらに,本研究の結果,従来の最先端性能よりも性能が著しく向上した。

Self-supervised learning of depth map prediction and motion estimation from monocular video sequences is of vital importance -- since it realizes a broad range of tasks in robotics and autonomous vehicles. A large number of research efforts have enhanced the performance by tackling illumination variation, occlusions, and dynamic objects, to name a few. However, each of those efforts targets individual goals and endures as separate works. Moreover, most of previous works have adopted the same CNN architecture, not reaping architectural benefits. Therefore, the need to investigate the inter-dependency of the previous methods and the effect of architectural factors remains. To achieve these objectives, we revisit numerous previously proposed self-supervised methods for joint learning of depth and motion, perform a comprehensive empirical study, and unveil multiple crucial insights. Furthermore, we remarkably enhance the performance as a result of our study -- outperforming previous state-of-the-art performance.
翻訳日:2021-03-24 14:04:50 公開日:2021-03-23
# ハマーとナット: ポゾン線形分類器にバイレベル最適化は本当に必要か?

The Hammer and the Nut: Is Bilevel Optimization Really Needed to Poison Linear Classifiers? ( http://arxiv.org/abs/2103.12399v1 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Sebastiano Vascon, Ambra Demontis, Battista Biggio, Fabio Roli, Marcello Pelillo(参考訳) 現代のaiシステムの最も懸念されている脅威の1つはデータ中毒であり、攻撃者は悪意ある訓練データを注入してシステムの動作をテスト時に台無しにする。 アベイラビリティー中毒(Availability poisoning)は、攻撃者がDoS攻撃を起こそうとする、特に厄介な毒攻撃のサブセットである。 しかし、最先端のアルゴリズムは複雑な二値最適化問題(「ハンマー」)を解こうとするので計算コストが高い。 我々は,特に,対象モデルが線形である場合(ナット)において,計算コストのかかる手順の使用を回避できることを観察した。 対象システムの性能が極めて損なわれるようにトレーニングセットを汚染することを可能にする,直観的かつ効率的なヒューリスティックを提案する。 さらに、最適化する変数の数を減少させる再パラメータ化手法を提案する。 最後に、検討された設定の下で、我々のフレームワークは攻撃者の目的に匹敵するパフォーマンスを達成し、計算効率は著しく向上することを示した。

One of the most concerning threats for modern AI systems is data poisoning, where the attacker injects maliciously crafted training data to corrupt the system's behavior at test time. Availability poisoning is a particularly worrisome subset of poisoning attacks where the attacker aims to cause a Denial-of-Service (DoS) attack. However, the state-of-the-art algorithms are computationally expensive because they try to solve a complex bi-level optimization problem (the "hammer"). We observed that in particular conditions, namely, where the target model is linear (the "nut"), the usage of computationally costly procedures can be avoided. We propose a counter-intuitive but efficient heuristic that allows contaminating the training set such that the target system's performance is highly compromised. We further suggest a re-parameterization trick to decrease the number of variables to be optimized. Finally, we demonstrate that, under the considered settings, our framework achieves comparable, or even better, performances in terms of the attacker's objective while being significantly more computationally efficient.
翻訳日:2021-03-24 14:03:58 公開日:2021-03-23
# 自動取引パターン抽出のための解釈可能なML駆動戦略

Interpretable ML-driven Strategy for Automated Trading Pattern Extraction ( http://arxiv.org/abs/2103.12419v1 )

ライセンス: Link先を確認
Artur Sokolovsky, Luca Arnaboldi, Jaume Bacardit, Thomas Gross(参考訳) 金融市場は非定常多次元時系列の源であり、数十年間注目されてきた。 それぞれの金融機器は、時間的特性に応じて変化し、分析が複雑なタスクとなる。 金融時系列分析手法の理解と開発の改善は、金融市場における運用成功に不可欠である。 本研究では,金融時系列を機械学習パイプラインに適したものにするためのボリュームベースデータ前処理手法を提案する。 本手法の性能評価には統計的手法を用いる。 すなわち、仮説を正式に表明し、関連する分類タスクをセットアップし、信頼区間で効果サイズを計算し、仮説を検証する統計的テストを実行する。 また,提案手法のトレーディング性能を過去のデータから評価し,以前に公表した手法と比較する。 提案手法は,金融時系列パターンの分類を成功させるとともに,より流動的な金融商品に特有な価格行動に基づく手法よりも優れた分類性能をもたらすことを示す。 最後に,CatBoost推定器の例を例に,木質モデルから直接特徴的相互作用を求める手法を提案するとともに,提案手法とSHAP特徴的相互作用と肯定的な結果との相関性を正式に評価する。

Financial markets are a source of non-stationary multidimensional time series which has been drawing attention for decades. Each financial instrument has its specific changing over time properties, making their analysis a complex task. Improvement of understanding and development of methods for financial time series analysis is essential for successful operation on financial markets. In this study we propose a volume-based data pre-processing method for making financial time series more suitable for machine learning pipelines. We use a statistical approach for assessing the performance of the method. Namely, we formally state the hypotheses, set up associated classification tasks, compute effect sizes with confidence intervals, and run statistical tests to validate the hypotheses. We additionally assess the trading performance of the proposed method on historical data and compare it to a previously published approach. Our analysis shows that the proposed volume-based method allows successful classification of the financial time series patterns, and also leads to better classification performance than a price action-based method, excelling specifically on more liquid financial instruments. Finally, we propose an approach for obtaining feature interactions directly from tree-based models on example of CatBoost estimator, as well as formally assess the relatedness of the proposed approach and SHAP feature interactions with a positive outcome.
翻訳日:2021-03-24 14:03:41 公開日:2021-03-23
# 学習可能な自律性を保証するメタ認知強化学習フレームワーク

Assured Learning-enabled Autonomy: A Metacognitive Reinforcement Learning Framework ( http://arxiv.org/abs/2103.12558v1 )

ライセンス: Link先を確認
Aquib Mustafa, Majid Mazouchi, Subramanya Nageshrao, Hamidreza Modares(参考訳) 所定の報酬関数を持つ強化学習(RL)エージェントは、不確実なシステムが遭遇する可能性のあるさまざまな状況において、保証された安全を提供することはできない。 各種状況における安全制約の満足度を確保しつつ,性能を保証するため,メタ認知学習機能を備えたRLアルゴリズムを応用し,自律制御フレームワークを提案する。 より具体的には、RLエージェントの報酬関数パラメータをメタ認知的意思決定層に適応させ、RLエージェントの実現性を保証する。 すなわち、RLエージェントによる学習ポリシーは、信号時間論理によって規定された安全制約を満たすとともに、可能な限り多くの性能を達成する。 メタ認知層は、RLエージェントの作用の下で将来の安全違反を監視し、上位層のベイズRLアルゴリズムを用いて、下位層のRLエージェントに対する報酬関数を積極的に適応させる。 高層ベイズRLの介入を最小限に抑えるために、メタ認知層により適合機能を利用し、安全性と生活性に満足して低層RLエージェントの成功を評価するとともに、低層ベイズRL故障のリスクがある場合にのみ、高層ベイズRLが介入する。 最後に,提案手法の有効性を検証するためのシミュレーション例を示す。

Reinforcement learning (RL) agents with pre-specified reward functions cannot provide guaranteed safety across variety of circumstances that an uncertain system might encounter. To guarantee performance while assuring satisfaction of safety constraints across variety of circumstances, an assured autonomous control framework is presented in this paper by empowering RL algorithms with metacognitive learning capabilities. More specifically, adapting the reward function parameters of the RL agent is performed in a metacognitive decision-making layer to assure the feasibility of RL agent. That is, to assure that the learned policy by the RL agent satisfies safety constraints specified by signal temporal logic while achieving as much performance as possible. The metacognitive layer monitors any possible future safety violation under the actions of the RL agent and employs a higher-layer Bayesian RL algorithm to proactively adapt the reward function for the lower-layer RL agent. To minimize the higher-layer Bayesian RL intervention, a fitness function is leveraged by the metacognitive layer as a metric to evaluate success of the lower-layer RL agent in satisfaction of safety and liveness specifications, and the higher-layer Bayesian RL intervenes only if there is a risk of lower-layer RL failure. Finally, a simulation example is provided to validate the effectiveness of the proposed approach.
翻訳日:2021-03-24 14:03:23 公開日:2021-03-23
# ステップサイズ削減による有限サム最適化とサンプリングのための適応的重要度サンプリング

Adaptive Importance Sampling for Finite-Sum Optimization and Sampling with Decreasing Step-Sizes ( http://arxiv.org/abs/2103.12243v1 )

ライセンス: Link先を確認
Ayoub El Hanchi, David A. Stephens(参考訳) 勾配推定器の分散を減少させることは、確率的勾配に基づく最適化およびサンプリングアルゴリズムの収束率を改善することが知られている。 分散還元を達成する一つの方法は、重要なサンプリング戦略を設計することである。 近年,このようなスキームの設計問題は,バンディットフィードバックを伴うオンライン学習問題として定式化され,サブリニアな静的後悔を伴うアルゴリズムが設計されている。 そこで本研究では,有限サム最適化のための適応的重要度サンプリングアルゴリズムであるAvareを提案し,ステップサイズを小さくしたサンプリングを行う。 標準的な技術的条件下では、Avare は $\mathcal{O}(T^{2/3})$ と $\mathcal{O}(T^{5/6})$ を、それぞれ $\mathcal{O}(1/t)$ のステップサイズで実行するときに、SGD と SGLD の動的後悔を達成する。 我々は,アルゴリズムが定義する力学の知識を活用し,オンライン学習と分散還元確率最適化のアイデアを組み合わせることで,この動的後悔を克服する。 我々は,アルゴリズムの性能を実証的に検証し,それが大きな改善をもたらす設定を特定する。

Reducing the variance of the gradient estimator is known to improve the convergence rate of stochastic gradient-based optimization and sampling algorithms. One way of achieving variance reduction is to design importance sampling strategies. Recently, the problem of designing such schemes was formulated as an online learning problem with bandit feedback, and algorithms with sub-linear static regret were designed. In this work, we build on this framework and propose Avare, a simple and efficient algorithm for adaptive importance sampling for finite-sum optimization and sampling with decreasing step-sizes. Under standard technical conditions, we show that Avare achieves $\mathcal{O}(T^{2/3})$ and $\mathcal{O}(T^{5/6})$ dynamic regret for SGD and SGLD respectively when run with $\mathcal{O}(1/t)$ step sizes. We achieve this dynamic regret bound by leveraging our knowledge of the dynamics defined by the algorithm, and combining ideas from online learning and variance-reduced stochastic optimization. We validate empirically the performance of our algorithm and identify settings in which it leads to significant improvements.
翻訳日:2021-03-24 14:02:52 公開日:2021-03-23
# 確率的再重み付け勾配降下

Stochastic Reweighted Gradient Descent ( http://arxiv.org/abs/2103.12293v1 )

ライセンス: Link先を確認
Ayoub El Hanchi, David A. Stephens(参考訳) 分散削減された有限サム最適化アルゴリズムが楽しめるという強い理論的保証にもかかわらず、その適用性は、導入するメモリオーバーヘッド(sag/saga)や必要な周期フルグラデーション計算(svrg/sarah)に制限されている。 これらの欠点を避けながら分散削減を実現するための有望なアプローチは、制御変数の代わりに重要サンプリングを使用することである。 このような手法は文献に多く提案されているが、結果の最適化アルゴリズムの収束性を改善することが直接証明されている。 本研究では,srg(stochastic reweighted gradient)と呼ばれる重要サンプリングに基づくアルゴリズムを提案する。 強凸の場合におけるsrgの収束を解析し, 制御変数の線形率を回復しないが, sgdよりも優れていることを示す。 我々は,提案手法の時間とメモリオーバーヘッドに特に注意を払い,その効率的な実装を可能にする特別な赤黒木を設計する。 最後に,本研究の成果を裏付ける実証的結果を示す。

Despite the strong theoretical guarantees that variance-reduced finite-sum optimization algorithms enjoy, their applicability remains limited to cases where the memory overhead they introduce (SAG/SAGA), or the periodic full gradient computation they require (SVRG/SARAH) are manageable. A promising approach to achieving variance reduction while avoiding these drawbacks is the use of importance sampling instead of control variates. While many such methods have been proposed in the literature, directly proving that they improve the convergence of the resulting optimization algorithm has remained elusive. In this work, we propose an importance-sampling- based algorithm we call SRG (stochastic reweighted gradient). We analyze the convergence of SRG in the strongly-convex case and show that, while it does not recover the linear rate of control variates methods, it provably outperforms SGD. We pay particular attention to the time and memory overhead of our proposed method, and design a specialized red-black tree allowing its efficient implementation. Finally, we present empirical results to support our findings.
翻訳日:2021-03-24 14:02:28 公開日:2021-03-23
# AdaBoostの成功とポートフォリオ管理への応用

The Success of AdaBoost and Its Application in Portfolio Management ( http://arxiv.org/abs/2103.12345v1 )

ライセンス: Link先を確認
Yijian Chuan, Chaoyi Zhao, Zhenrui He, and Lan Wu(参考訳) AdaBoostが成功した分類器である理由を説明するための新しいアプローチを開発する。 2値分類問題に対するトレーニングデータにノイズポイント(ION)の影響の尺度を導入することにより、イオンとテストエラーとの間には強い関係があることを証明した。 さらに,基本学習者の反復数や複雑性が増加するにつれて,AdaBoostのIONが減少することを確認した。 我々は,AdaBoostの基礎学習者が複雑な状況下で,深い木を含まない一貫した分類器を入手することは不可能であることを確認した。 adaboostを中国市場における実証研究を通じてポートフォリオ管理に適用し,理論的な提案を裏付ける。

We develop a novel approach to explain why AdaBoost is a successful classifier. By introducing a measure of the influence of the noise points (ION) in the training data for the binary classification problem, we prove that there is a strong connection between the ION and the test error. We further identify that the ION of AdaBoost decreases as the iteration number or the complexity of the base learners increases. We confirm that it is impossible to obtain a consistent classifier without deep trees as the base learners of AdaBoost in some complicated situations. We apply AdaBoost in portfolio management via empirical studies in the Chinese market, which corroborates our theoretical propositions.
翻訳日:2021-03-24 14:02:12 公開日:2021-03-23
# clip: ニューラルネットワークの安価なリプシッツトレーニング

CLIP: Cheap Lipschitz Training of Neural Networks ( http://arxiv.org/abs/2103.12531v1 )

ライセンス: Link先を確認
Leon Bungert, Ren\'e Raab, Tim Roith, Leo Schwinn, Daniel Tenbrinck(参考訳) 近年のディープニューラルネットワーク(DNN)の成功にもかかわらず、ほとんどのニューラルネットワークは安定性の点で数学的保証を欠いている。 例えば、DNNは、小さな、あるいは知覚不能な入力摂動に対して脆弱であり、いわゆる逆例と呼ばれ、誤った予測を引き起こす可能性がある。 この不安定性は、人間の健康と安全に影響を与える応用、例えば、バイオメディカルイメージングや自律運転に深刻な影響を及ぼす可能性がある。 ニューラルネットワークのリプシッツ定数のバウンディングは安定性を向上させるが、ほとんどの方法は各層のリプシッツ定数の制限に依存しており、実際のリプシッツ定数のバウンドが貧弱である。 本稿では,ニューラルネットワークのリプシッツ定数を制御するためのCLIPという変分正規化手法について検討する。 提案モデルを数学的に解析し,特にネットワークの出力に対する選択正規化パラメータの影響について考察した。 最後に,非線形回帰問題とMNIST分類データベースとFashion-MNIST分類データベースの両方について数値評価を行い,重み付け正規化手法との比較を行った。

Despite the large success of deep neural networks (DNN) in recent years, most neural networks still lack mathematical guarantees in terms of stability. For instance, DNNs are vulnerable to small or even imperceptible input perturbations, so called adversarial examples, that can cause false predictions. This instability can have severe consequences in applications which influence the health and safety of humans, e.g., biomedical imaging or autonomous driving. While bounding the Lipschitz constant of a neural network improves stability, most methods rely on restricting the Lipschitz constants of each layer which gives a poor bound for the actual Lipschitz constant. In this paper we investigate a variational regularization method named CLIP for controlling the Lipschitz constant of a neural network, which can easily be integrated into the training procedure. We mathematically analyze the proposed model, in particular discussing the impact of the chosen regularization parameter on the output of the network. Finally, we numerically evaluate our method on both a nonlinear regression problem and the MNIST and Fashion-MNIST classification databases, and compare our results with a weight regularization approach.
翻訳日:2021-03-24 14:02:00 公開日:2021-03-23
# 12誘導心電図データからの自己教師あり表現学習

Self-supervised representation learning from 12-lead ECG data ( http://arxiv.org/abs/2103.12676v1 )

ライセンス: Link先を確認
Temesgen Mehari, Nils Strodthoff(参考訳) 臨床12誘導心電図(ECG)データの短い部分からの自己監督的表現学習の包括的評価を行った。 そこで本研究では,コンピュータビジョン(SimCLR, BYOL, SwAV)と音声(CPC)による最先端の自己教師型学習アルゴリズムの適応について検討する。 第1段階では,コントラスト表現を学習し,下流分類タスクにおける線形評価性能に基づいてその品質を評価する。 最適性能評価手法であるCPCでは、線形評価性能は教師付き性能よりわずか0.8%低い。 第2のステップでは,自己教師付きプリトレーニングが心電図分類器に与える影響を,純粋に教師付きパフォーマンスと比較して分析し,下流性能が1%以上向上し,ラベル効率が向上し,生理的ノイズに対するロバスト性が向上した。 すべての実験は、ecgデータからの自己教師あり表現学習に使われる、過去最大のコレクションである公開データセットのみで行われ、ecg表現学習の分野における再現可能な研究を促進する。

We put forward a comprehensive assessment of self-supervised representation learning from short segments of clinical 12-lead electrocardiography (ECG) data. To this end, we explore adaptations of state-of-the-art self-supervised learning algorithms from computer vision (SimCLR, BYOL, SwAV) and speech (CPC). In a first step, we learn contrastive representations and evaluate their quality based on linear evaluation performance on a downstream classification task. For the best-performing method, CPC, we find linear evaluation performances only 0.8% below supervised performance. In a second step, we analyze the impact of self-supervised pretraining on finetuned ECG classifiers as compared to purely supervised performance and find improvements in downstream performance of more than 1%, label efficiency, as well as an increased robustness against physiological noise. All experiments are carried out exclusively on publicly available datasets, the to-date largest collection used for self-supervised representation learning from ECG data, to foster reproducible research in the field of ECG representation learning.
翻訳日:2021-03-24 14:01:40 公開日:2021-03-23
# 線形回帰のための定数ステップサイズSGDの良性オーバーフィッティング

Benign Overfitting of Constant-Stepsize SGD for Linear Regression ( http://arxiv.org/abs/2103.12692v1 )

ライセンス: Link先を確認
Difan Zou and Jingfeng Wu and Vladimir Braverman and Quanquan Gu and Sham M. Kakade(参考訳) 経験的には、確率勾配降下(SGD)のような自然学習アルゴリズムの過度なパラメータ設定において、明示的な正規化がほとんど、あるいは全く行われていない良性過剰適合現象がしばしば見られる。 この研究は、この問題をおそらく最も基本的な設定で考える: 過度にパラメータ化されたレジームにおける線形回帰のための定数ステップサイズsgd(反復平均化を伴う)。 我々の主な結果は、データ共分散行列の完全な固有スペクトル(英語版)の言葉で述べたシャープな過剰なリスク境界(英語版)を提供し、これは、一般化可能時に特徴付けるバイアス-分散分解(英語版)を明らかにする: (i) 分散境界は、有効次元(SGD特有の)の言葉で特徴づけられ、 (ii) バイアス境界は、初期イテレートの位置(およびデータ共分散行列との整合性)で鋭い幾何学的特徴を与える。 正規化SGDのアルゴリズム正則化と最小二乗法(最小ノルム補間)とリッジ回帰の相違点について考察した。

There is an increasing realization that algorithmic inductive biases are central in preventing overfitting; empirically, we often see a benign overfitting phenomenon in overparameterized settings for natural learning algorithms, such as stochastic gradient descent (SGD), where little to no explicit regularization has been employed. This work considers this issue in arguably the most basic setting: constant-stepsize SGD (with iterate averaging) for linear regression in the overparameterized regime. Our main result provides a sharp excess risk bound, stated in terms of the full eigenspectrum of the data covariance matrix, that reveals a bias-variance decomposition characterizing when generalization is possible: (i) the variance bound is characterized in terms of an effective dimension (specific for SGD) and (ii) the bias bound provides a sharp geometric characterization in terms of the location of the initial iterate (and how it aligns with the data covariance matrix). We reflect on a number of notable differences between the algorithmic regularization afforded by (unregularized) SGD in comparison to ordinary least squares (minimum-norm interpolation) and ridge regression.
翻訳日:2021-03-24 14:01:22 公開日:2021-03-23
# SLOE:高次元ロジスティック回帰における統計的推論の高速化

SLOE: A Faster Method for Statistical Inference in High-Dimensional Logistic Regression ( http://arxiv.org/abs/2103.12725v1 )

ライセンス: Link先を確認
Steve Yadlowsky, Taedong Yun, Cory McLean, Alexander D'Amour(参考訳) ロジスティック回帰は、応用統計、機械学習、データサイエンスにおいて最も広く使われているツールの1つである。 実際のデータセットには、サンプルサイズに対して$d$というかなりの数の機能があることが多い。 これらの場合、ロジスティック回帰最大確率推定器(mle)は偏りがあり、標準の大型サンプル近似は貧弱である。 本稿では,予測の偏りを低減し,そのようなデータセットに対する頻繁な不確実性を推定する手法を開発した。 我々は,MLEの漸近的統計的挙動を特徴付ける最近の研究の上に構築されている。例えば,$d/n$のアスペクト比が,$d$の個数ではなく,$n$が大きくなるにつれて固定される。 原理的には、この近似はバイアスと不確実性補正を促進するが、実際にはこれらの補正は予測器の信号強度を推定する必要がある。 我々の主な貢献はSLOEであり、信号強度をコンバージェンス保証で推定し、等級による推定と推定の計算時間を短縮する。 バイアス補正は予測のばらつきを減少させ、真の基礎となる確率とパラメータのより高い(有意な)カバレッジでより狭い信頼区間をもたらす。 本手法のオープンソースパッケージはhttps://github.com/g oogle-research/sloe- logistic.comで公開しています。

Logistic regression remains one of the most widely used tools in applied statistics, machine learning and data science. Practical datasets often have a substantial number of features $d$ relative to the sample size $n$. In these cases, the logistic regression maximum likelihood estimator (MLE) is biased, and its standard large-sample approximation is poor. In this paper, we develop an improved method for debiasing predictions and estimating frequentist uncertainty for such datasets. We build on recent work characterizing the asymptotic statistical behavior of the MLE in the regime where the aspect ratio $d / n$, instead of the number of features $d$, remains fixed as $n$ grows. In principle, this approximation facilitates bias and uncertainty corrections, but in practice, these corrections require an estimate of the signal strength of the predictors. Our main contribution is SLOE, an estimator of the signal strength with convergence guarantees that reduces the computation time of estimation and inference by orders of magnitude. The bias correction that this facilitates also reduces the variance of the predictions, yielding narrower confidence intervals with higher (valid) coverage of the true underlying probabilities and parameters. We provide an open source package for this method, available at https://github.com/g oogle-research/sloe- logistic.
翻訳日:2021-03-24 14:00:58 公開日:2021-03-23
# SelfExplain: ニューラルネットワーク分類のための自己説明型アーキテクチャ

SelfExplain: A Self-Explaining Architecture for Neural Text Classifiers ( http://arxiv.org/abs/2103.12279v1 )

ライセンス: Link先を確認
Dheeraj Rajagopal, Vidhisha Balachandran, Eduard Hovy, Yulia Tsvetkov(参考訳) 我々は,句に基づく概念を用いてテキスト分類器の予測を説明する,新しい自己説明フレームワークであるselfexplainを紹介する。 自己説明は、(1)与えられたサンプルのトレーニングセットにおいて最も影響力のある概念を識別するグローバル解釈可能な層と、(2)予測されたラベルに対する関連性スコアを計算して各局所入力概念の寄与を定量化する局所解釈可能な層を付加することにより、既存の神経分類器を増強する。 5つのテキスト分類データセットの実験から、SelfExplainはパフォーマンスを犠牲にすることなく解釈しやすくしている。 最も重要なのは、自己説明による説明は、既存の広く使われている基準よりも、より理解しやすく、適切に正当化され、信頼できるものと認識されていることである。

We introduce SelfExplain, a novel self-explaining framework that explains a text classifier's predictions using phrase-based concepts. SelfExplain augments existing neural classifiers by adding (1) a globally interpretable layer that identifies the most influential concepts in the training set for a given sample and (2) a locally interpretable layer that quantifies the contribution of each local input concept by computing a relevance score relative to the predicted label. Experiments across five text-classification datasets show that SelfExplain facilitates interpretability without sacrificing performance. Most importantly, explanations from SelfExplain are perceived as more understandable, adequately justifying and trustworthy by human judges compared to existing widely-used baselines.
翻訳日:2021-03-24 14:00:19 公開日:2021-03-23
# Masked Memory Network と Transformer を用いた多人数会話における感情の発見とフリップの推論

Discovering Emotion and Reasoning its Flip in Multi-Party Conversations using Masked Memory Network and Transformer ( http://arxiv.org/abs/2103.12360v1 )

ライセンス: Link先を確認
Shivani Kumar, Anubhav Shrimal, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 多人数会話における話者の感情状態の効率的な発見は、人間のような会話エージェントを設計する上で非常に重要である。 会話中、話者の認知状態はしばしば過去の発話によって変化し、それが彼女の感情状態のフリップにつながる可能性がある。 したがって、会話中の感情のフリップの背後にある理由(トリガー)を発見することは、個々の発話の感情ラベルを説明する上で重要である。 本稿では,会話における感情認識(ERC)の課題に対処すると共に,感情状態が一定時間反転した過去の発話を識別することを目的とした,感情フリップ推論(EFR)という新たなタスクを導入する。 本稿では,前者に対応するマスク付きメモリネットワークと後者のタスクのためのトランスフォーマーベースネットワークを提案する。 この目的のために,マルチパーティ会話における感情認識のベンチマークデータセットであるMELDについて検討し,ERFのための新たな基盤構造ラベルを付加した。 4つの最先端モデルとの比較により,両タスクのモデルの性能改善が示唆された。 さらに,ベースラインと比較してモデルの優越性を支持するために,逸話的証拠と定性的および定量的な誤り解析を提示する。

Efficient discovery of emotion states of speakers in a multi-party conversation is highly important to design human-like conversational agents. During the conversation, the cognitive state of a speaker often alters due to certain past utterances, which may lead to a flip in her emotion state. Therefore, discovering the reasons (triggers) behind one's emotion flip during conversation is important to explain the emotion labels of individual utterances. In this paper, along with addressing the task of emotion recognition in conversations (ERC), we introduce a novel task -- Emotion Flip Reasoning (EFR) that aims to identify past utterances which have triggered one's emotion state to flip at a certain time. We propose a masked memory network to address the former and a Transformer-based network for the latter task. To this end, we consider MELD, a benchmark emotion recognition dataset in multi-party conversations for the task of ERC and augment it with new ground-truth labels for EFR. An extensive comparison with four state-of-the-art models suggests improved performances of our models for both the tasks. We further present anecdotal evidences and both qualitative and quantitative error analyses to support the superiority of our models compared to the baselines.
翻訳日:2021-03-24 14:00:05 公開日:2021-03-23
# 運動? あなたは「過激なフライドポテト」だと思った: 文の分割とマルチホップの注意をミームの影響分析に活用する

Exercise? I thought you said 'Extra Fries': Leveraging Sentence Demarcations and Multi-hop Attention for Meme Affect Analysis ( http://arxiv.org/abs/2103.12377v1 )

ライセンス: Link先を確認
Shraman Pramanick, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 今日のインターネットは、ユーモラスで風刺的、皮肉で人々を笑わせるため、ミームに溢れています。 調査によれば、年齢層(13~35歳)のソーシャルメディアユーザーの33%が毎日ミームを送信しており、50%以上が毎週送信している。 これらのミームのいくつかは、非常に短い時間枠内で急速に広まり、そのバイラル性は、その(テキストと視覚)コンテンツの新規性に依存する。 何人かは面白い言葉やモチベーション的な引用などポジティブなメッセージを伝え、他は皮肉や不快なメッセージを通じて誰かの感情をモックしたり傷つけたりすることを目的としている。 ミームの魅力やソーシャルメディア上での急速な出現にもかかわらず、ミームの効果的な分析は十分に試みられていない。 本稿では,SemEval'20-Memotion Analysisコンペティションで提案されている課題の集合を解く。 視覚的モダリティ(画像)と様々なテキストセグメント間の空間領域対応を利用して、分類のためのきめ細かい特徴表現を抽出することを目的として,MHA-MEMEと呼ばれるマルチホップ注目に基づくディープニューラルネットワークフレームワークを提案する。 MHA-MEMEを3つのサブタスク(感情分類、影響分類、クラス定量化)すべてに対して'Memotion Analysis'データセット上で評価する。 コンペに参加した上位システムと比較して,MHA-MEMEの3つのタスクごとのソタパフォーマンスを比較検討した。 MHA-MEMEは3つのタスクすべてで矛盾なく実行されるベースラインとは異なり、平均して全てのタスクにおいてベースラインより優れている。 さらに,mha-memeの他の手作業によるテストサンプルの一般化を検証し,その一貫性を確認した。 最後に,MHA-MEMEの解釈可能性を確立する。

Today's Internet is awash in memes as they are humorous, satirical, or ironic which make people laugh. According to a survey, 33% of social media users in age bracket [13-35] send memes every day, whereas more than 50% send every week. Some of these memes spread rapidly within a very short time-frame, and their virality depends on the novelty of their (textual and visual) content. A few of them convey positive messages, such as funny or motivational quotes; while others are meant to mock/hurt someone's feelings through sarcastic or offensive messages. Despite the appealing nature of memes and their rapid emergence on social media, effective analysis of memes has not been adequately attempted to the extent it deserves. In this paper, we attempt to solve the same set of tasks suggested in the SemEval'20-Memotion Analysis competition. We propose a multi-hop attention-based deep neural network framework, called MHA-MEME, whose prime objective is to leverage the spatial-domain correspondence between the visual modality (an image) and various textual segments to extract fine-grained feature representations for classification. We evaluate MHA-MEME on the 'Memotion Analysis' dataset for all three sub-tasks - sentiment classification, affect classification, and affect class quantification. Our comparative study shows sota performances of MHA-MEME for all three tasks compared to the top systems that participated in the competition. Unlike all the baselines which perform inconsistently across all three tasks, MHA-MEME outperforms baselines in all the tasks on average. Moreover, we validate the generalization of MHA-MEME on another set of manually annotated test samples and observe it to be consistent. Finally, we establish the interpretability of MHA-MEME.
翻訳日:2021-03-24 13:59:44 公開日:2021-03-23
# ソーシャルメディアにおける苦情の重大さのモデル化

Modeling the Severity of Complaints in Social Media ( http://arxiv.org/abs/2103.12428v1 )

ライセンス: Link先を確認
Mali Jin and Nikolaos Aletras(参考訳) 不平を言う言動は、人間が不利な状況に対する反応として現実と期待の間の負のミスマッチを伝えるために用いられる。 プラグマティクスの言語理論は、苦情を、苦情者が受け取ろうとする顔の脅威に基づいて、様々な深刻度レベルに分類する。 これは、不満者の意図や人間が適切な謝罪戦略をどのように展開するかを理解するのに特に有用である。 本稿では,計算機言語学において初めて苦情の重大度レベルについて検討する。 これを容易にするために,4つの重大カテゴリを持つ苦情集合を公開し,言語情報と55.7マクロF1を併用したトランスフォーマーネットワークを訓練する。 また, 88.2マクロf1まで到達した2次苦情検出において, 新たな最先端結果を達成するマルチタスク環境において, バイナリ苦情分類と苦情重大度を共同でモデル化した。 最後に、苦情の重大度を予測するためのモデルの振る舞いを定性的に分析する。

The speech act of complaining is used by humans to communicate a negative mismatch between reality and expectations as a reaction to an unfavorable situation. Linguistic theory of pragmatics categorizes complaints into various severity levels based on the face-threat that the complainer is willing to undertake. This is particularly useful for understanding the intent of complainers and how humans develop suitable apology strategies. In this paper, we study the severity level of complaints for the first time in computational linguistics. To facilitate this, we enrich a publicly available data set of complaints with four severity categories and train different transformer-based networks combined with linguistic information achieving 55.7 macro F1. We also jointly model binary complaint classification and complaint severity in a multi-task setting achieving new state-of-the-art results on binary complaint detection reaching up to 88.2 macro F1. Finally, we present a qualitative analysis of the behavior of our models in predicting complaint severity levels.
翻訳日:2021-03-24 13:59:11 公開日:2021-03-23
# safeval: 事実に基づく評価を求める要約

SAFEval: Summarization Asks for Fact-based Evaluation ( http://arxiv.org/abs/2103.12693v1 )

ライセンス: Link先を確認
Thomas Scialom, Paul-Alexis Dray, Patrick Gallinari, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano, Alex Wang(参考訳) ROUGEのような現在の指標は限定的であり、人間の判断と相関しにくいことが知られている。 この問題を軽減するため、最近の研究では、サマリがソースドキュメントにすべての関連情報を含んでいるかどうかを評価するために、質問応答モデルに依存する評価メトリクスを提案している。 将来性はあるものの、提案されたアプローチは人間の判断とROUGEよりは相関しない。 本稿では,従来のアプローチを拡張し,safevalという統一フレームワークを提案する。 ROUGEやBERTScoreのような確立したメトリクスとは対照的に、SAFEvalは基盤真実参照を必要としない。 しかしながら,SAFEvalは,4つの評価次元(一貫性,コヒーレンス,流布性,関連性)において,人間の判断との相関性を大幅に改善する。

Summarization evaluation remains an open research problem: current metrics such as ROUGE are known to be limited and to correlate poorly with human judgments. To alleviate this issue, recent work has proposed evaluation metrics which rely on question answering models to assess whether a summary contains all the relevant information in its source document. Though promising, the proposed approaches have so far failed to correlate better than ROUGE with human judgments. In this paper, we extend previous approaches and propose a unified framework, named SAFEval. In contrast to established metrics such as ROUGE or BERTScore, SAFEval does not require any ground-truth reference. Nonetheless, SAFEval substantially improves the correlation with human judgments over four evaluation dimensions (consistency, coherence, fluency, and relevance), as shown in the extensive experiments we report.
翻訳日:2021-03-24 13:58:56 公開日:2021-03-23
# A*+BFHS:ハイブリッドヒューリスティック検索アルゴリズム

A*+BFHS: A Hybrid Heuristic Search Algorithm ( http://arxiv.org/abs/2103.12701v1 )

ライセンス: Link先を確認
Zhaoxing Bu and Richard E. Korf(参考訳) 本稿では,A* と IDA* がメモリ制限や多くの短周期の存在により失敗する難題を解くためのアルゴリズム A*+BFHS を提案する。 a*+bfhsは、a*および幅優先ヒューリスティック探索(bfhs)に基づいている。 A*+BFHSは、A*のノードオーダリング、BFHSのメモリセーブ、および両方のアルゴリズムの重複検出という、両方のアルゴリズムの利点を組み合わせる。 簡単な問題では、A*+BFHS は A* と同じ振る舞いをする。 難しい問題では、A*よりも遅いが、大量のメモリを節約する。 BFIDA*と比較すると、A*+BFHSは様々な計画領域において検索時間やメモリ要求を数回削減する。

We present a new algorithm A*+BFHS for solving hard problems where A* and IDA* fail due to memory limitations and/or the existence of many short cycles. A*+BFHS is based on A* and breadth-first heuristic search (BFHS). A*+BFHS combines advantages from both algorithms, namely A*'s node ordering, BFHS's memory savings, and both algorithms' duplicate detection. On easy problems, A*+BFHS behaves the same as A*. On hard problems, it is slower than A* but saves a large amount of memory. Compared to BFIDA*, A*+BFHS reduces the search time and/or memory requirement by several times on a variety of planning domains.
翻訳日:2021-03-24 13:58:43 公開日:2021-03-23
# 行動認識のための総合的動作表現の学習

Learning Comprehensive Motion Representation for Action Recognition ( http://arxiv.org/abs/2103.12278v1 )

ライセンス: Link先を確認
Mingyu Wu, Boyuan Jiang, Donghao Luo, Junchi Yan, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Xiaokang Yang(参考訳) 動作認識学習では、2次元cnnベースの手法は効率的であるが、各フレームに同じ2次元畳み込みカーネルを適用することで冗長な特徴が得られる。 最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。 さらに、特徴増強は、しばしば、行動認識においてチャネルまたは空間次元によってのみ実行される。 これらの問題に対処するため,我々はまずチャネルワイド・ゲートベクトルを用いて動的情報に関連するチャネルを適応的に強調するチャネルワイド・モーション・エンハンスメント(CME)モジュールを考案した。 CMEが生成したチャネルゲートには、ビデオ内の他のすべてのフレームの情報が含まれている。 さらに,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に注目する空間的運動強調(SME)モジュールを提案する。 直感的には、背景の変化は典型的には運動領域よりも遅い。 CMEもSMEも、アクションの手がかりを捉える際に明確な物理的意味を持っている。 2つのモジュールをオフザシェルフ2Dネットワークに統合することにより,動作認識のための包括的動作表現(CMR)学習法が最終的に得られ,Something V1 & V2 と Kinetics-400 の競合性能を実現する。 時間的推論データセットでは,16フレームを入力として使用する場合,現在の最先端値を2.3%,1.9%上回っている。

For action recognition learning, 2D CNN-based methods are efficient but may yield redundant features due to applying the same 2D convolution kernel to each frame. Recent efforts attempt to capture motion information by establishing inter-frame connections while still suffering the limited temporal receptive field or high latency. Moreover, the feature enhancement is often only performed by channel or space dimension in action recognition. To address these issues, we first devise a Channel-wise Motion Enhancement (CME) module to adaptively emphasize the channels related to dynamic information with a channel-wise gate vector. The channel gates generated by CME incorporate the information from all the other frames in the video. We further propose a Spatial-wise Motion Enhancement (SME) module to focus on the regions with the critical target in motion, according to the point-to-point similarity between adjacent feature maps. The intuition is that the change of background is typically slower than the motion area. Both CME and SME have clear physical meaning in capturing action clues. By integrating the two modules into the off-the-shelf 2D network, we finally obtain a Comprehensive Motion Representation (CMR) learning method for action recognition, which achieves competitive performance on Something-Something V1 & V2 and Kinetics-400. On the temporal reasoning datasets Something-Something V1 and V2, our method outperforms the current state-of-the-art by 2.3% and 1.9% when using 16 frames as input, respectively.
翻訳日:2021-03-24 13:56:03 公開日:2021-03-23
# 連続領域適応のための勾配正規化コントラスト学習

Gradient Regularized Contrastive Learning for Continual Domain Adaptation ( http://arxiv.org/abs/2103.12294v1 )

ライセンス: Link先を確認
Shixiang Tang, Peng Su, Dapeng Chen and Wanli Ouyang(参考訳) 人間は学習経験を生かして環境変化に迅速に適応することができる。 しかし、機械学習アルゴリズムによるディープニューラルネットワークの動的環境への適応は依然として課題である。 この問題をより深く理解するために,モデルはラベル付きソースドメインとラベルなしターゲットドメインのシーケンスで表現される,連続的ドメイン適応の問題について検討する。 この問題の障害は、ドメインシフトと破滅的な忘れ物の両方である。 障害を解決するため,グラディエント正規化コントラスト学習(GRCL)を提案する。 本手法のコアとなるのは,(1)対象領域に対するモデルの適応性を向上できるソース特徴の識別能力を損なうことなく勾配を強制すること,(2)対象ドメインに対する分類損失を増大させないよう勾配を拘束すること,という2つの重要な役割を担っている。 Digits、DomainNet、Office-Caltechベンチマークの実験は、他の最先端の手法と比較して、我々のアプローチの強いパフォーマンスを示している。

Human beings can quickly adapt to environmental changes by leveraging learning experience. However, adapting deep neural networks to dynamic environments by machine learning algorithms remains a challenge. To better understand this issue, we study the problem of continual domain adaptation, where the model is presented with a labelled source domain and a sequence of unlabelled target domains. The obstacles in this problem are both domain shift and catastrophic forgetting. We propose Gradient Regularized Contrastive Learning (GRCL) to solve the obstacles. At the core of our method, gradient regularization plays two key roles: (1) enforcing the gradient not to harm the discriminative ability of source features which can, in turn, benefit the adaptation ability of the model to target domains; (2) constraining the gradient not to increase the classification loss on old target domains, which enables the model to preserve the performance on old target domains when adapting to an in-coming target domain. Experiments on Digits, DomainNet and Office-Caltech benchmarks demonstrate the strong performance of our approach when compared to the other state-of-the-art methods.
翻訳日:2021-03-24 13:55:35 公開日:2021-03-23
# 深層学習を用いた適応照明に基づく深度センシング

Adaptive Illumination based Depth Sensing using Deep Learning ( http://arxiv.org/abs/2103.12297v1 )

ライセンス: Link先を確認
Qiqin Dai, Fengqiang Li, Oliver Cossairt, and Aggelos K Katsaggelos(参考訳) 密度深度マップキャプチャは、LiDARのような既存のアクティブスパース照明に基づく深度取得技術において困難である。 RGB画像とスパース深度マップの融合に基づく深度マップを推定する様々な手法が提案されている。 ハードウェアの最近の進歩により、適応的な深度測定が可能となり、深度マップ推定がさらに改善された。 本稿では,深部サンプリングによる深部密集度の推定について検討する。 適応スパース深度サンプリングネットワークは、RGB画像とスパース深度との融合ネットワークで共同で訓練され、最適な適応サンプリングマスクを生成する。 このような適応的なサンプリングマスクは、様々なサンプリングレート($0.0625\%$)の下で、多くのrgbおよびスパース深度融合アルゴリズムにうまく一般化できることを示す。 提案する適応サンプリング法は完全に微分可能であり、上流知覚アルゴリズムを用いてエンドツーエンドで訓練できる柔軟性がある。

Dense depth map capture is challenging in existing active sparse illumination based depth acquisition techniques, such as LiDAR. Various techniques have been proposed to estimate a dense depth map based on fusion of the sparse depth map measurement with the RGB image. Recent advances in hardware enable adaptive depth measurements resulting in further improvement of the dense depth map estimation. In this paper, we study the topic of estimating dense depth from depth sampling. The adaptive sparse depth sampling network is jointly trained with a fusion network of an RGB image and sparse depth, to generate optimal adaptive sampling masks. We show that such adaptive sampling masks can generalize well to many RGB and sparse depth fusion algorithms under a variety of sampling rates (as low as $0.0625\%$). The proposed adaptive sampling method is fully differentiable and flexible to be trained end-to-end with upstream perception algorithms.
翻訳日:2021-03-24 13:55:16 公開日:2021-03-23
# ビデオレイニングのための時空間インタラクション学習の強化 - より高速で優れたフレームワーク

Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A Faster and Better Framework ( http://arxiv.org/abs/2103.12318v1 )

ライセンス: Link先を確認
Kaihao Zhang, Dongxu Li, Wenhan Luo, Wen-Yan Lin, Fang Zhao, Wenqi Ren, Wei Liu, Hongdong Li(参考訳) ビデオデライニングは、望ましくない雨がビデオの可視性を妨げ、ほとんどの屋外視覚システムの堅牢性を損なうため、コンピュータビジョンにおいて重要なタスクである。 近年, ビデオデライニングにおいて大きな成功を収めたにもかかわらず, 1) 空間領域と時間領域の両方にわたる強力な時空間特徴を抽出するために, 連続フレーム間の膨大な情報を利用する方法, 2) 高品質なデライニング映像を高速に復元する方法の2つの大きな課題が残っている。 本稿では,現在最先端のビデオデライニングの品質と速度を大幅に向上させる,ESTINet(Enhanced Spatio-Temporal Interaction Network)という,エンドツーエンドのビデオデライニングフレームワークを提案する。 エスティネットは、深い残留ネットワークと畳み込み型長期記憶の利点を生かしており、計算源の少ないコストで継続フレーム間の空間的特徴と時間的相関を捉えることができる。 3つの公開データセットに対する大規模な実験は、提案されたESTINetが競合他社よりも高速に動作でき、最先端の手法よりも優れたパフォーマンスを維持していることを示している。

Video deraining is an important task in computer vision as the unwanted rain hampers the visibility of videos and deteriorates the robustness of most outdoor vision systems. Despite the significant success which has been achieved for video deraining recently, two major challenges remain: 1) how to exploit the vast information among continuous frames to extract powerful spatio-temporal features across both the spatial and temporal domains, and 2) how to restore high-quality derained videos with a high-speed approach. In this paper, we present a new end-to-end video deraining framework, named Enhanced Spatio-Temporal Interaction Network (ESTINet), which considerably boosts current state-of-the-art video deraining quality and speed. The ESTINet takes the advantage of deep residual networks and convolutional long short-term memory, which can capture the spatial features and temporal correlations among continuing frames at the cost of very little computational source. Extensive experiments on three public datasets show that the proposed ESTINet can achieve faster speed than the competitors, while maintaining better performance than the state-of-the-art methods.
翻訳日:2021-03-24 13:55:03 公開日:2021-03-23
# コンテンツベース画像検索のための離散潜在コードへの医用画像の正規および異常特徴の分解

Decomposing Normal and Abnormal Features of Medical Images into Discrete Latent Codes for Content-Based Image Retrieval ( http://arxiv.org/abs/2103.12328v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Ryuichiro Hataya, Yusuke Kurose, Mototaka Miyake, Masamichi Takahashi, Akiko Nakagawa, Tatsuya Harada, Ryuji Hamamoto(参考訳) 画像診断では、疾患の純粋由来の特徴は、異常所見が正常な特徴から逸脱する程度を反映しるべきである。 実際、医師は興味のある異常な所見のない対応する画像や、逆に正常な解剖学的文脈に関わらず同様の異常な所見を含む画像を必要とすることが多い。 これは、医療画像の比較診断読取と呼ばれ、正しい診断に必須である。 医用画像の正常な特徴と異常な特徴を2つの分離可能な意味成分として選択的に活用できるコンテンツベース画像検索(CBIR)が有用である。 そこで我々は,医用画像の意味成分を,正常な解剖コードと異常な解剖コードという2つの潜在コードに分解するニューラルネットワークアーキテクチャを提案する。 正常な解剖コードは、サンプルが正常であれば存在したはずの正常な解剖であり、異常な解剖コードは、正常な基準線からの逸脱を反映した異常な変化である。 これらの潜在コードはベクトル量子化によって離散化され、バイナリハッシュ化が可能となり、類似性探索時の計算負荷を軽減できる。 グリオーマの脳磁気共鳴画像からなるデータセットから、正常または異常な解剖符号と2つの符号の組み合わせに基づいて類似性を計算することにより、選択した意味成分に従って画像を取得することができる。 我々のcbirシステムは定性的かつ定量的に優れた結果を得る。

In medical imaging, the characteristics purely derived from a disease should reflect the extent to which abnormal findings deviate from the normal features. Indeed, physicians often need corresponding images without abnormal findings of interest or, conversely, images that contain similar abnormal findings regardless of normal anatomical context. This is called comparative diagnostic reading of medical images, which is essential for a correct diagnosis. To support comparative diagnostic reading, content-based image retrieval (CBIR), which can selectively utilize normal and abnormal features in medical images as two separable semantic components, will be useful. Therefore, we propose a neural network architecture to decompose the semantic components of medical images into two latent codes: normal anatomy code and abnormal anatomy code. The normal anatomy code represents normal anatomies that should have existed if the sample is healthy, whereas the abnormal anatomy code attributes to abnormal changes that reflect deviation from the normal baseline. These latent codes are discretized through vector quantization to enable binary hashing, which can reduce the computational burden at the time of similarity search. By calculating the similarity based on either normal or abnormal anatomy codes or the combination of the two codes, our algorithm can retrieve images according to the selected semantic component from a dataset consisting of brain magnetic resonance images of gliomas. Our CBIR system qualitatively and quantitatively achieves remarkable results.
翻訳日:2021-03-24 13:54:41 公開日:2021-03-23
# 一般化ドメイン条件適応ネットワーク

Generalized Domain Conditioned Adaptation Network ( http://arxiv.org/abs/2103.12339v1 )

ライセンス: Link先を確認
Shuang Li, Binhui Xie, Qiuxia Lin, Chi Harold Liu, Gao Huang and Guoren Wang(参考訳) ドメイン適応(da)は、ラベル付きソースドメインで学習された知識を、大量のターゲット監視を必要とせずにラベル付きだが関連するターゲットドメインに転送しようとする。 DAの最近の進歩は、主にソースとターゲットの分布を調整することで進んでいる。 大幅な成功にもかかわらず、ソースとターゲットドメインが大きな分散不一致に直面したとき、適応性能は依然として低下する。 なぜなら、ほとんどの研究は単にタスク固有のレイヤにおけるドメイン一般の機能学習に集中し、完全に共有された畳み込みネットワーク(convnets)を統合して両方のドメインで共通の特徴を生成するためである。 本稿では,従来のDA手法で採用されていた完全共有共振器の仮定を緩和し,複数の経路構造を持つドメイン条件付きチャネルアテンションモジュールを導入し,各ドメインのチャネルアクティベーションを個別に励起するドメイン条件付き適応ネットワーク(DCAN)を提案する。 このような部分共有共振器モジュールは、低レベルのドメイン特化特徴を適切に探索することができる。 さらに、畳み込み層とともに変化する知識伝達可能性を考慮して、各注目モジュールでドメインチャネルアクティベーションを個別にモデル化すべきかどうかを自動決定する一般化ドメイン条件適応ネットワーク(GDCAN)を開発した。 その後、クリティカルドメイン特化知識は、ドメイン統計ギャップに応じて適応的に抽出することができる。 私たちが知る限りでは、深いDAネットワークのためにドメインワイドの畳み込みチャネルアクティベーションを別々に検討するのはこれが初めてです。 さらに、ドメイン間の高レベルな特徴分布を効果的に一致させるために、タスク固有のレイヤの後に特徴適応ブロックを配置することを検討する。

Domain Adaptation (DA) attempts to transfer knowledge learned in the labeled source domain to the unlabeled but related target domain without requiring large amounts of target supervision. Recent advances in DA mainly proceed by aligning the source and target distributions. Despite the significant success, the adaptation performance still degrades accordingly when the source and target domains encounter a large distribution discrepancy. We consider this limitation may attribute to the insufficient exploration of domain-specialized features because most studies merely concentrate on domain-general feature learning in task-specific layers and integrate totally-shared convolutional networks (convnets) to generate common features for both domains. In this paper, we relax the completely-shared convnets assumption adopted by previous DA methods and propose Domain Conditioned Adaptation Network (DCAN), which introduces domain conditioned channel attention module with a multi-path structure to separately excite channel activation for each domain. Such a partially-shared convnets module allows domain-specialized features in low-level to be explored appropriately. Further, given the knowledge transferability varying along with convolutional layers, we develop Generalized Domain Conditioned Adaptation Network (GDCAN) to automatically determine whether domain channel activations should be separately modeled in each attention module. Afterward, the critical domain-specialized knowledge could be adaptively extracted according to the domain statistic gaps. As far as we know, this is the first work to explore the domain-wise convolutional channel activations separately for deep DA networks. Additionally, to effectively match high-level feature distributions across domains, we consider deploying feature adaptation blocks after task-specific layers, which can explicitly mitigate the domain discrepancy.
翻訳日:2021-03-24 13:54:20 公開日:2021-03-23
# 映像における表現理解に意味的注意を向けた共同グラウンドネットワーク

Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos ( http://arxiv.org/abs/2103.12346v1 )

ライセンス: Link先を確認
Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo and Shih-Fu Chang(参考訳) 本稿では,複雑な表現やシーンのダイナミクスのため,ビデオにおける表現理解の参照の問題に対処する。 複数の段階(すなわち追跡、提案に基づくマッチング)でこの問題を解決する従来の方法とは異なり、私たちは新しい視点から、エレガントな一段階フレームワークである \textbf{co-grounding} という問題に取り組む。 本稿では,意味的注意学習による単一フレーム接地精度の向上と,共同接地機能学習によるクロスフレーム接地一貫性の向上を図る。 意味的注意学習は、異なる属性で参照する手がかりを明示的に解析し、複雑な表現の曖昧さを減少させる。 コグラウンド機能学習は、時間的相関を統合して視覚的特徴表現を高め、シーンダイナミクスによるあいまいさを低減する。 実験結果から,ビデオグラウンドデータセットのVIDとLiOTBにおいて,フレーム間の正確かつ安定した結果を生成する上で,我々のフレームワークが優れていることを示す。 また、RefCOCOデータセットの性能向上により、画像中の表現理解を参照することも可能である。 私たちのプロジェクトはhttps://sijiesong.gi thub.io/コグラウンドで利用可能です。

In this paper, we address the problem of referring expression comprehension in videos, which is challenging due to complex expression and scene dynamics. Unlike previous methods which solve the problem in multiple stages (i.e., tracking, proposal-based matching), we tackle the problem from a novel perspective, \textbf{co-grounding}, with an elegant one-stage framework. We enhance the single-frame grounding accuracy by semantic attention learning and improve the cross-frame grounding consistency with co-grounding feature learning. Semantic attention learning explicitly parses referring cues in different attributes to reduce the ambiguity in the complex expression. Co-grounding feature learning boosts visual feature representations by integrating temporal correlation to reduce the ambiguity caused by scene dynamics. Experiment results demonstrate the superiority of our framework on the video grounding datasets VID and LiOTB in generating accurate and stable results across frames. Our model is also applicable to referring expression comprehension in images, illustrated by the improved performance on the RefCOCO dataset. Our project is available at https://sijiesong.gi thub.io/co-grounding .
翻訳日:2021-03-24 13:53:53 公開日:2021-03-23
# iMAP:リアルタイムの入射マッピングと位置決め

iMAP: Implicit Mapping and Positioning in Real-Time ( http://arxiv.org/abs/2103.12352v1 )

ライセンス: Link先を確認
Edgar Sucar, Shikun Liu, Joseph Ortiz, Andrew J. Davison(参考訳) ハンドヘルドRGB-DカメラのリアルタイムSLAMシステムにおいて,マルチ層パーセプトロン(MLP)が唯一のシーン表現として機能することを示す。 われわれのネットワークは、事前のデータを使わずに、ライブ操作で訓練され、集中した、シーン固有の暗黙の3dモデルを構築します。 ライブ画像ストリームに対するニューラルネットワークの継続的なトレーニングによるリアルタイムslamの実現には,大幅なイノベーションが必要だ。 我々のiMAPアルゴリズムはキーフレーム構造とマルチプロセスの計算フローを使い、動的情報誘導ピクセルサンプリングにより速度を10Hzで追跡し、グローバルマップを2Hzで更新する。 標準的な高密度SLAM技術よりも暗黙的なMLPの利点は、自動細部制御による効率的な幾何表現と、物体の裏面のような観測されていない領域の滑らかで可視な埋め込みである。

We show for the first time that a multilayer perceptron (MLP) can serve as the only scene representation in a real-time SLAM system for a handheld RGB-D camera. Our network is trained in live operation without prior data, building a dense, scene-specific implicit 3D model of occupancy and colour which is also immediately used for tracking. Achieving real-time SLAM via continual training of a neural network against a live image stream requires significant innovation. Our iMAP algorithm uses a keyframe structure and multi-processing computation flow, with dynamic information-guided pixel sampling for speed, with tracking at 10 Hz and global map updating at 2 Hz. The advantages of an implicit MLP over standard dense SLAM techniques include efficient geometry representation with automatic detail control and smooth, plausible filling-in of unobserved regions such as the back surfaces of objects.
翻訳日:2021-03-24 13:53:35 公開日:2021-03-23
# コントラスト学習を用いた粗い特徴アライメント法による教師なし領域適応

Unsupervised domain adaptation via coarse-to-fine feature alignment method using contrastive learning ( http://arxiv.org/abs/2103.12371v1 )

ライセンス: Link先を確認
Shiyu Tang, Peijun Tang, Yanxiang Gong, Zheng Ma, Mei Xie(参考訳) 非教師付きドメイン適応(UDA)における以前の機能アライメント手法は、クラスワイド機能間のミスマッチを考慮せずに、大域的機能のみをアライメントする。 そこで本研究では,CFContraと呼ばれるコントラスト学習を用いた特徴アライメント手法を提案する。 これは、粗い機能アライメントやクラスワイド機能アライメントよりもクラスワイドの機能を引き出すため、モデルの性能を大幅に改善する。 エントロピー最小化(Entropy minimization)と呼ばれる,UDAの最も効果的な手法の1つである。 特に,セマンティクスセグメンテーションに対比的損失を適用する場合の過大なメモリ占有を防止するために,メモリバンクを構築し更新する新しい方法を提案する。 このようにして、限られたメモリでアルゴリズムをより効率的かつ有効にする。 GTA5からCityscapesのデータセットでトレーニングした手法とモデルの有効性は、MinEntアルゴリズムと比較して3.5倍に向上した。 私たちのコードは公開されます。

Previous feature alignment methods in Unsupervised domain adaptation(UDA) mostly only align global features without considering the mismatch between class-wise features. In this work, we propose a new coarse-to-fine feature alignment method using contrastive learning called CFContra. It draws class-wise features closer than coarse feature alignment or class-wise feature alignment only, therefore improves the model's performance to a great extent. We build it upon one of the most effective methods of UDA called entropy minimization to further improve performance. In particular, to prevent excessive memory occupation when applying contrastive loss in semantic segmentation, we devise a new way to build and update the memory bank. In this way, we make the algorithm more efficient and viable with limited memory. Extensive experiments show the effectiveness of our method and model trained on the GTA5 to Cityscapes dataset has boost mIOU by 3.5 compared to the MinEnt algorithm. Our code will be publicly available.
翻訳日:2021-03-24 13:53:22 公開日:2021-03-23
# 見知らぬままの学習:オープンゼロショット学習を目指して

Learning without Seeing nor Knowing: Towards Open Zero-Shot Learning ( http://arxiv.org/abs/2103.12437v1 )

ライセンス: Link先を確認
Federico Marmoreo, Julio Ivan Davila Carrazco, Vittorio Murino, Jacopo Cavazza(参考訳) Generalized Zero-Shot Learning (GZSL)では、クラス埋め込み(例えば、それらを記述する属性のリスト)と補完的なクラスのプール(ビジュアルデータとクラス埋め込みの両方でペアリングされる)を活用することで、目に見えないカテゴリ(トレーニング時に視覚データを利用できない)を予測することができる。 GZSLは間違いなく難しいが、クラス埋め込み、特に目に見えないカテゴリについて事前に知ることは、現実のシナリオに対するGZSLの適用性の実際の限界である、と仮定する。 この仮定を緩和するため、オープンワールド設定に向けてGZSLを拡張するためにOpen Zero-Shot Learning (OZSL)を提案する。 我々はOZSLを(GZSLのように)見知らぬクラスを認識する問題として定式化し、未知のカテゴリからのインスタンスを拒否するが、視覚データやクラス埋め込みは提供されない。 我々は、評価プロトコル、エラーメトリクス、ベンチマークデータセットを導入したOZSL問題を定式化する。 また,未知の特徴生成(GZSLで行われているような未確認特徴生成のみではなく)を行うことにより,OZSL問題に取り組むことを提案する。 未知のクラス埋め込みのサンプル化のために生成プロセスを最適化し、見当たらないものや見当たらないものを補完する。 我々は,これらの成果が今後の研究を促進する基盤となることを目指しており,新しいオープンワールド学習(OZSL)と標準クローズドワールドゼロショット学習(GZSL)を拡張している。

In Generalized Zero-Shot Learning (GZSL), unseen categories (for which no visual data are available at training time) can be predicted by leveraging their class embeddings (e.g., a list of attributes describing them) together with a complementary pool of seen classes (paired with both visual data and class embeddings). Despite GZSL is arguably challenging, we posit that knowing in advance the class embeddings, especially for unseen categories, is an actual limit of the applicability of GZSL towards real-world scenarios. To relax this assumption, we propose Open Zero-Shot Learning (OZSL) to extend GZSL towards the open-world settings. We formalize OZSL as the problem of recognizing seen and unseen classes (as in GZSL) while also rejecting instances from unknown categories, for which neither visual data nor class embeddings are provided. We formalize the OZSL problem introducing evaluation protocols, error metrics and benchmark datasets. We also suggest to tackle the OZSL problem by proposing the idea of performing unknown feature generation (instead of only unseen features generation as done in GZSL). We achieve this by optimizing a generative process to sample unknown class embeddings as complementary to the seen and the unseen. We intend these results to be the ground to foster future research, extending the standard closed-world zero-shot learning (GZSL) with the novel open-world counterpart (OZSL).
翻訳日:2021-03-24 13:53:07 公開日:2021-03-23
# 適応的知識蓄積による生涯人物再同定

Lifelong Person Re-Identification via Adaptive Knowledge Accumulation ( http://arxiv.org/abs/2103.12462v1 )

ライセンス: Link先を確認
Nan Pu, Wei Chen, Yu Liu, Erwin M. Bakker and Michael S. Lew(参考訳) Person ReIDメソッドは、常に所定のデータセットの選択によって固定された固定ドメインを通して学習する。 多くのコンテキスト(例えば生涯学習)において、これらのメソッドは、複数のドメインにわたるインクリメンタルな学習が潜在的に必要となる場合において、ドメインが継続的に変化するため、非効率である。 本研究では,複数の領域にまたがって継続的に学習し,新たな領域や未知領域を一般化することを可能にする,lreid(lifelong person re-identification)という,新たな挑戦的なreidタスクについて検討する。 人間の脳における認知過程に従って、知識表現と知識操作という2つの重要な能力を持つ適応的知識蓄積(Aka)フレームワークを設計する。 本手法は見かけのドメインの破滅的な忘れることを軽減し,未知のドメインに一般化する能力を示す。 また,LReIDの新しい大規模ベンチマークも提供する。 大規模な実験により,本手法は他の競技者よりも5.8% mAPのマージンで優れ,評価が一般化された。

Person ReID methods always learn through a stationary domain that is fixed by the choice of a given dataset. In many contexts (e.g., lifelong learning), those methods are ineffective because the domain is continually changing in which case incremental learning over multiple domains is required potentially. In this work we explore a new and challenging ReID task, namely lifelong person re-identification (LReID), which enables to learn continuously across multiple domains and even generalise on new and unseen domains. Following the cognitive processes in the human brain, we design an Adaptive Knowledge Accumulation (AKA) framework that is endowed with two crucial abilities: knowledge representation and knowledge operation. Our method alleviates catastrophic forgetting on seen domains and demonstrates the ability to generalize to unseen domains. Correspondingly, we also provide a new and large-scale benchmark for LReID. Extensive experiments demonstrate our method outperforms other competitors by a margin of 5.8% mAP in generalising evaluation.
翻訳日:2021-03-24 13:52:39 公開日:2021-03-23
# ステレオオブジェクトマッチングネットワーク

Stereo Object Matching Network ( http://arxiv.org/abs/2103.12498v1 )

ライセンス: Link先を確認
Jaesung Choe, Kyungdon Joo, Francois Rameau, In So Kweon(参考訳) 本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。 ボリューム空間内のステレオ画像間のピクセルレベルの対応(すなわちコストボリューム)のみに焦点を当てた既存のステレオマッチング手法とは異なり、このボリューム構造を異なる方法で活用する。 コストボリュームはその相違軸に沿って3D情報を明示的に包含するので、オブジェクトから3Dコンテキスト情報をカプセル化できる特権構造である。 しかし、不均一値が3次元距離空間を非線形にマッピングするので、それは簡単ではない。 そこで我々は,3次元オブジェクトレベルの情報をシームレスに統合し,オブジェクト境界領域付近で正確な深度性能を実現するために,選択サンプリング(RoISelect)と2D-3D融合(fusion-by-occupancy )の2つの新しい手法を提案する。 我々の深度推定は、KITTIデータセットとVirtual-KITTI 2.0データセットの競合性能を達成する。

This paper presents a stereo object matching method that exploits both 2D contextual information from images as well as 3D object-level information. Unlike existing stereo matching methods that exclusively focus on the pixel-level correspondence between stereo images within a volumetric space (i.e., cost volume), we exploit this volumetric structure in a different manner. The cost volume explicitly encompasses 3D information along its disparity axis, therefore it is a privileged structure that can encapsulate the 3D contextual information from objects. However, it is not straightforward since the disparity values map the 3D metric space in a non-linear fashion. Thus, we present two novel strategies to handle 3D objectness in the cost volume space: selective sampling (RoISelect) and 2D-3D fusion (fusion-by-occupancy ), which allow us to seamlessly incorporate 3D object-level information and achieve accurate depth performance near the object boundary regions. Our depth estimation achieves competitive performance in the KITTI dataset and the Virtual-KITTI 2.0 dataset.
翻訳日:2021-03-24 13:52:22 公開日:2021-03-23
# 深層学習を用いたタバコ使用分類のための領域抽出法

Region extraction based approach for cigarette usage classification using deep learning ( http://arxiv.org/abs/2103.12523v1 )

ライセンス: Link先を確認
Anshul Pundhir, Deepak Verma, Puneet Kumar, Balasubramanian Raman(参考訳) 本稿では,深層学習を用いた画像から関連する領域を抽出し,被験者の喫煙行動の分類方法を提案する。 分類後,yolo-v3に基づく条件検出モジュールを提案し,モデルの性能を向上し,その複雑さを低減した。 私たちの知る限りでは、このデータセットに取り組むのは当社が初めてです。 このデータセットには、様々な環境条件下で喫煙者や非喫煙者を含む合計2,400の画像が含まれている。 提案手法の有効性を定量的かつ定性的な尺度を用いて評価し,その妥当性を確認した。 提案手法は,このデータセット上で96.74%の分類精度を達成している。

This paper has proposed a novel approach to classify the subjects' smoking behavior by extracting relevant regions from a given image using deep learning. After the classification, we have proposed a conditional detection module based on Yolo-v3, which improves model's performance and reduces its complexity. As per the best of our knowledge, we are the first to work on this dataset. This dataset contains a total of 2,400 images that include smokers and non-smokers equally in various environmental settings. We have evaluated the proposed approach's performance using quantitative and qualitative measures, which confirms its effectiveness in challenging situations. The proposed approach has achieved a classification accuracy of 96.74% on this dataset.
翻訳日:2021-03-24 13:52:04 公開日:2021-03-23
# 微分可能アーキテクチャ探索のための拡張勾配

Enhanced Gradient for Differentiable Architecture Search ( http://arxiv.org/abs/2103.12529v1 )

ライセンス: Link先を確認
Haichao Zhang, Kuangrong Hao, Lei Gao, Xuesong Tang, and Bing Wei(参考訳) 近年,画像分類におけるタスク指向ネットワークアーキテクチャの自動生成のためのニューラルアーキテクチャ探索(nas)手法が提案されている。 しかし、既存のNASアプローチで得られたアーキテクチャは分類性能にのみ最適化されており、限られた計算資源を持つデバイスに適応しない。 そこで本研究では,ネットワーク性能の向上(分類精度など)とネットワーク複雑性の低減を目的としたニューラルネットワークアーキテクチャ探索アルゴリズムを提案する。 提案フレームワークは,ブロックレベルの検索とネットワークレベルの検索という2段階のネットワークアーキテクチャを自動構築する。 ブロックレベル探索の段階では、高機能かつ低複雑さなブロックを設計するための拡張勾配を用いて勾配に基づく緩和法を提案する。 ネットワークレベル探索の段階では、ブロックから対象ネットワークへの自動設計を完了させるために進化的多目的アルゴリズムを適用する。 提案手法は,CIFAR10の誤差率とCIFAR100の誤差率で,画像分類において評価されたすべての手作りネットワークより優れており,どちらも1メガビット未満のネットワークパラメータサイズである。 さらに,他のニューラルアーキテクチャ探索法と比較して,設計したネットワークアーキテクチャパラメータが大幅に削減される。

In recent years, neural architecture search (NAS) methods have been proposed for the automatic generation of task-oriented network architecture in image classification. However, the architectures obtained by existing NAS approaches are optimized only for classification performance and do not adapt to devices with limited computational resources. To address this challenge, we propose a neural network architecture search algorithm aiming to simultaneously improve network performance (e.g., classification accuracy) and reduce network complexity. The proposed framework automatically builds the network architecture at two stages: block-level search and network-level search. At the stage of block-level search, a relaxation method based on the gradient is proposed, using an enhanced gradient to design high-performance and low-complexity blocks. At the stage of network-level search, we apply an evolutionary multi-objective algorithm to complete the automatic design from blocks to the target network. The experiment results demonstrate that our method outperforms all evaluated hand-crafted networks in image classification, with an error rate of on CIFAR10 and an error rate of on CIFAR100, both at network parameter size less than one megabit. Moreover, compared with other neural architecture search methods, our method offers a tremendous reduction in designed network architecture parameters.
翻訳日:2021-03-24 13:51:54 公開日:2021-03-23
# ドメイン適応のための転送可能意味拡張

Transferable Semantic Augmentation for Domain Adaptation ( http://arxiv.org/abs/2103.12562v1 )

ライセンス: Link先を確認
Shuang Li, Mixue Xie, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Wei Li(参考訳) ドメイン適応はラベル豊富なソースドメインから関連するがラベルのないターゲットドメインに知識を移すことで広く研究されている。 既存のほとんどのドメイン適応アルゴリズムは、2つのドメインにまたがる特徴表現を、共有ソース管理分類器のガイダンスで適用する。 しかし、そのような分類器はラベルなしの標的認識への一般化能力を制限する。 そこで本研究では,対象意味論に対して暗黙的にソース特徴を生成させることで分類器適応能力を向上させるためのtsa(transportable semantic augmentation)手法を提案する。 特に、TSAは、ある方向への深い特徴変換が、元の入力空間において意味のある意味変化として表せるという事実に着想を得ている。 したがって、ソース機能は、より転送可能な分類器をトレーニングするために、ターゲットセマンティクスに効果的に装備するように拡張することができる。 これを実現するために、まず、ドメイン間特徴平均差と対象クラス内特徴共分散を用いて、多変量正規分布を構築する。 次に,分布から無作為な方向をクラスワイズに拡張する。 興味深いことに、そのようなソース拡張は、期待される損失の上限が導出され最小化され、計算オーバーヘッドが無視できる、拡張されたソース分布上の転送可能なクロスエントロピー損失によって暗黙的に実装される。 軽量で汎用的な技術として、TSAは様々な領域適応手法に簡単に接続でき、顕著な改善をもたらす。 tsaの有効性を検証するクロスドメインベンチマークに関する包括的な実験。

Domain adaptation has been widely explored by transferring the knowledge from a label-rich source domain to a related but unlabeled target domain. Most existing domain adaptation algorithms attend to adapting feature representations across two domains with the guidance of a shared source-supervised classifier. However, such classifier limits the generalization ability towards unlabeled target recognition. To remedy this, we propose a Transferable Semantic Augmentation (TSA) approach to enhance the classifier adaptation ability through implicitly generating source features towards target semantics. Specifically, TSA is inspired by the fact that deep feature transformation towards a certain direction can be represented as meaningful semantic altering in the original input space. Thus, source features can be augmented to effectively equip with target semantics to train a more transferable classifier. To achieve this, for each class, we first use the inter-domain feature mean difference and target intra-class feature covariance to construct a multivariate normal distribution. Then we augment source features with random directions sampled from the distribution class-wisely. Interestingly, such source augmentation is implicitly implemented through an expected transferable cross-entropy loss over the augmented source distribution, where an upper bound of the expected loss is derived and minimized, introducing negligible computational overhead. As a light-weight and general technique, TSA can be easily plugged into various domain adaptation methods, bringing remarkable improvements. Comprehensive experiments on cross-domain benchmarks validate the efficacy of TSA.
翻訳日:2021-03-24 13:51:37 公開日:2021-03-23
# MetaSAug: 長期視覚認識のためのメタセマンティック拡張

MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2103.12579v1 )

ライセンス: Link先を確認
Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng(参考訳) 実世界のトレーニングデータは、通常、多くのクラスが残りのマイノリティクラスよりもかなり多くのサンプルを持つロングテール分布を示す。 この不均衡は、バランスの取れたトレーニングセット用に設計された典型的な教師付き学習アルゴリズムの性能を劣化させる。 本稿では,最近提案された暗黙的意味データ拡張 (ISDA) アルゴリズムを用いてマイノリティクラスを拡大することでこの問題に対処する。 さらに,isdaが意味的指示を得るためにクラス条件統計を推定していることを考えると,訓練データ不足のためマイノリティクラスでこれを行うのに効果がないことがわかった。 そこで本稿では,メタ学習で意味の変換を自動学習する手法を提案する。 具体的には、トレーニング中の強化戦略を動的に最適化し、メタ更新ステップによって近似される小さなバランスの取れた検証セットの損失を最小限に抑える。 CIFAR-LT-10/100, ImageNet-LT, iNaturalist 2017/2018の広範な実験結果から, 本手法の有効性が検証された。

Real-world training data usually exhibits long-tailed distribution, where several majority classes have a significantly larger number of samples than the remaining minority classes. This imbalance degrades the performance of typical supervised learning algorithms designed for balanced training sets. In this paper, we address this issue by augmenting minority classes with a recently proposed implicit semantic data augmentation (ISDA) algorithm, which produces diversified augmented samples by translating deep features along many semantically meaningful directions. Importantly, given that ISDA estimates the class-conditional statistics to obtain semantic directions, we find it ineffective to do this on minority classes due to the insufficient training data. To this end, we propose a novel approach to learn transformed semantic directions with meta-learning automatically. In specific, the augmentation strategy during training is dynamically optimized, aiming to minimize the loss on a small balanced validation set, which is approximated via a meta update step. Extensive empirical results on CIFAR-LT-10/100, ImageNet-LT, and iNaturalist 2017/2018 validate the effectiveness of our method.
翻訳日:2021-03-24 13:51:11 公開日:2021-03-23
# MonoRUn:自己監督的再構成と不確実性伝播による単眼3次元物体検出

MonoRUn: Monocular 3D Object Detection by Self-Supervised Reconstruction and Uncertainty Propagation ( http://arxiv.org/abs/2103.12605v1 )

ライセンス: Link先を確認
Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao, Lu Xiong(参考訳) 3次元空間における物体の局在化は、単眼的3次元物体検出において難しい側面である。 6dofポーズ推定の最近の進歩は、画像と物体の3dモデル間の密接な2d-3d対応マップの予測と、遠近法(pnp)アルゴリズムによる物体ポーズの推定により、顕著な位置推定精度が得られることを示している。 しかし、これらの手法は、実際の屋外シーンでは取得が難しいオブジェクト幾何の基底的真理を用いたトレーニングに依存している。 この問題に対処するために,単純な3次元バウンディングボックスアノテーションを用いて,高密度対応と幾何を自己教師付きで学習する新しい検出フレームワークMonoRUnを提案する。 画素関連3Dオブジェクト座標の回帰には,不確実性を考慮した地域再構成ネットワークを用いる。 自己監督訓練では、予測された3D座標が画像平面に投影される。 不確実性重み付き再射誤差を最小限に抑えるためにロバストKL損失を提案する。 テストフェーズでは、ネットワークの不確実性を利用して、すべての下流モジュールを伝播する。 具体的には、不確実性駆動型PnPアルゴリズムを利用して、オブジェクトのポーズとその共分散を推定する。 広範な実験により,提案手法がkittiベンチマークの最先端手法を上回ることを実証した。

Object localization in 3D space is a challenging aspect in monocular 3D object detection. Recent advances in 6DoF pose estimation have shown that predicting dense 2D-3D correspondence maps between image and object 3D model and then estimating object pose via Perspective-n-Point (PnP) algorithm can achieve remarkable localization accuracy. Yet these methods rely on training with ground truth of object geometry, which is difficult to acquire in real outdoor scenes. To address this issue, we propose MonoRUn, a novel detection framework that learns dense correspondences and geometry in a self-supervised manner, with simple 3D bounding box annotations. To regress the pixel-related 3D object coordinates, we employ a regional reconstruction network with uncertainty awareness. For self-supervised training, the predicted 3D coordinates are projected back to the image plane. A Robust KL loss is proposed to minimize the uncertainty-weighted reprojection error. During testing phase, we exploit the network uncertainty by propagating it through all downstream modules. More specifically, the uncertainty-driven PnP algorithm is leveraged to estimate object pose and its covariance. Extensive experiments demonstrate that our proposed approach outperforms current state-of-the-art methods on KITTI benchmark.
翻訳日:2021-03-24 13:50:51 公開日:2021-03-23
# 極値解析器によるインクリメンタルゼロショット検出

Incrementally Zero-Shot Detection by an Extreme Value Analyzer ( http://arxiv.org/abs/2103.12609v1 )

ライセンス: Link先を確認
Zheng Sixiao and Fu Yanwei and Hou Yanxi(参考訳) 人間は、新しい未知のクラスを認識できるだけでなく、新しいクラスを既存の知識に段階的に組み込むこともできる。 しかし、ゼロショット学習モデルは、すべてのクラスを事前に知っておくべきだと仮定する一方で、漸進学習モデルは目に見えないクラスを認識できない。 本稿では、実世界の物体検出におけるゼロショット学習とクラスインクリメンタル学習の両方のための実践的戦略であるインクリメンタルゼロショット検出(IZSD)の新規かつ挑戦的な課題を紹介する。 革新的なエンドツーエンドモデル -- IZSD-EVer は、新しいクラスを段階的に検出し、今まで見たことのないクラスを検出する必要があるこのタスクに取り組むために提案された。 具体的には、新しい極値解析器を提案し、古い見え方、新しい見え方、見えないクラスからオブジェクトを同時に検出する。 さらに,画像の背景と前景の極端な不均衡を緩和する背景-前景平均二乗誤差損失と,古い目に見えるクラスの視覚空間と意味空間を整合する投影距離損失の2つの革新的損失を提案する。 実験では, 対象物の検出におけるモデルの有効性を実証し, Pascal VOCおよびMSCOCOデータセット上での代替モデルよりも優れた性能を示した。

Human beings not only have the ability to recognize novel unseen classes, but also can incrementally incorporate the new classes to existing knowledge preserved. However, zero-shot learning models assume that all seen classes should be known beforehand, while incremental learning models cannot recognize unseen classes. This paper introduces a novel and challenging task of Incrementally Zero-Shot Detection (IZSD), a practical strategy for both zero-shot learning and class-incremental learning in real-world object detection. An innovative end-to-end model -- IZSD-EVer was proposed to tackle this task that requires incrementally detecting new classes and detecting the classes that have never been seen. Specifically, we propose a novel extreme value analyzer to detect objects from old seen, new seen, and unseen classes, simultaneously. Additionally and technically, we propose two innovative losses, i.e., background-foregroun d mean squared error loss alleviating the extreme imbalance of the background and foreground of images, and projection distance loss aligning the visual space and semantic spaces of old seen classes. Experiments demonstrate the efficacy of our model in detecting objects from both the seen and unseen classes, outperforming the alternative models on Pascal VOC and MSCOCO datasets.
翻訳日:2021-03-24 13:50:31 公開日:2021-03-23
# 正規化流を用いた黒色腫の分布外検出

Out-of-Distribution Detection of Melanoma using Normalizing Flows ( http://arxiv.org/abs/2103.12672v1 )

ライセンス: Link先を確認
M.M.A. Valiuddin, C.G.A. Viviers(参考訳) 生成的モデリングは、機械学習研究の最前線でかなりの時間にわたって話題になっている。 機械学習の分野、特にディープラーニングにおける最近の成功により、説明可能で解釈可能な機械学習への関心が高まっている。 分布をモデル化し、密度推定と正確なデータ度に関する洞察を提供する能力は、そのような特徴の例である。 比較的新しい生成モデルの研究分野である正規化フロー(NFs)は、競争力のある生成結果を実現しつつ、比較的低コストでこれを正確に行うことができるため、かなりの注目を集めている。 典型的にはNFの生成能力について検討するが、アウト・オブ・ディストリビューション(OOD)検出のためのデータ分散モデルの検討に注力する。 最先端のNFモデルであるGLOWを用いて,ISICデータセットにおけるOODサンプルの検出を試みる。 このモデルが関連する研究に適合していることに気付く。 OOD検出を改善するために,結合層の共適応を抑制するマスキング法を検討したが,大きな改善は得られなかった。 さらに、特定の周波数成分をフィルタリングできるウェーブレットを用いたウェーブレットフローを用いて、完全な画像の代わりにデータ駆動の条件付きウェーブレット係数へのモデリングプロセスを単純化する。 これにより、OODのより関連性の高い特徴を捉えることを期待して、より大きな解像度画像を効率的にモデル化できる。 Wavelet Flowを導入した論文は、主に高解像度画像のサンプリング機能に焦点を当てており、OOD検出は扱わなかった。 本稿では、周波数成分の制御、異なるウェーブレットの使用、その他の最先端NFアーキテクチャの活用など、いくつかの改善案を提案する。

Generative modelling has been a topic at the forefront of machine learning research for a substantial amount of time. With the recent success in the field of machine learning, especially in deep learning, there has been an increased interest in explainable and interpretable machine learning. The ability to model distributions and provide insight in the density estimation and exact data likelihood is an example of such a feature. Normalizing Flows (NFs), a relatively new research field of generative modelling, has received substantial attention since it is able to do exactly this at a relatively low cost whilst enabling competitive generative results. While the generative abilities of NFs are typically explored, we focus on exploring the data distribution modelling for Out-of-Distribution (OOD) detection. Using one of the state-of-the-art NF models, GLOW, we attempt to detect OOD examples in the ISIC dataset. We notice that this model under performs in conform related research. To improve the OOD detection, we explore the masking methods to inhibit co-adaptation of the coupling layers however find no substantial improvement. Furthermore, we utilize Wavelet Flow which uses wavelets that can filter particular frequency components, thus simplifying the modeling process to data-driven conditional wavelet coefficients instead of complete images. This enables us to efficiently model larger resolution images in the hopes that it would capture more relevant features for OOD. The paper that introduced Wavelet Flow mainly focuses on its ability of sampling high resolution images and did not treat OOD detection. We present the results and propose several ideas for improvement such as controlling frequency components, using different wavelets and using other state-of-the-art NF architectures.
翻訳日:2021-03-24 13:50:07 公開日:2021-03-23
# UltraSR:空間エンコーディングは、画像機能に基づく任意スケール超解法に欠かせない鍵

UltraSR: Spatial Encoding is a Missing Key for Implicit Image Function-based Arbitrary-Scale Super-Resolution ( http://arxiv.org/abs/2103.12716v1 )

ライセンス: Link先を確認
Xingqian Xu, Zhangyang Wang, Humphrey Shi(参考訳) nerfや他の関連する暗黙的ニューラルネットワークの手法の成功により、ピクセル値が格納された離散的な2d配列から参照される必要はなくなったが、連続的な空間領域上のニューラルネットワークモデルから推測できる、連続的な画像表現のための新しい経路が開かれた。 LIIFによる最近の研究は、任意のスケールの超解像処理において、そのような新しい手法が優れた性能を発揮することを示したが、高頻度テクスチャの欠陥予測による構造歪みがしばしば現れる。 本研究では,空間座標と周期符号化を暗黙のニューラル表現と深く統合した暗黙のイメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。 空間符号化は,広汎な実験とアブレーション研究を通じて,次世代の高精度暗黙的画像機能への欠落鍵であることを示す。 我々のUltraSRは、従来の最先端手法と比較して、すべての超高解像度スケールでDIV2Kベンチマークに新しい最先端性能を設定します。 UltraSRは、他の標準ベンチマークデータセットよりも優れたパフォーマンスを実現している。 私たちのコードはhttps://github.com/S HI-Labs/UltraSR-Arbi trary-Scale-Super-Re solutionでリリースされます。

The recent success of NeRF and other related implicit neural representation methods has opened a new path for continuous image representation, where pixel values no longer need to be looked up from stored discrete 2D arrays but can be inferred from neural network models on a continuous spatial domain. Although the recent work LIIF has demonstrated that such novel approach can achieve good performance on the arbitrary-scale super-resolution task, their upscaled images frequently show structural distortion due to the faulty prediction on high-frequency textures. In this work, we propose UltraSR, a simple yet effective new network design based on implicit image functions in which spatial coordinates and periodic encoding are deeply integrated with the implicit neural representation. We show that spatial encoding is indeed a missing key towards the next-stage high-accuracy implicit image function through extensive experiments and ablation studies. Our UltraSR sets new state-of-the-art performance on the DIV2K benchmark under all super-resolution scales comparing to previous state-of-the-art methods. UltraSR also achieves superior performance on other standard benchmark datasets in which it outperforms prior works in almost all experiments. Our code will be released at https://github.com/S HI-Labs/UltraSR-Arbi trary-Scale-Super-Re solution.
翻訳日:2021-03-24 13:49:41 公開日:2021-03-23
# DeFLOCNet:フレキシブル低レベル制御による深層画像編集

DeFLOCNet: Deep Image Editing via Flexible Low-level Controls ( http://arxiv.org/abs/2103.12723v1 )

ライセンス: Link先を確認
Hongyu Liu, Ziyu Wan, Wei Huang, Yibing Song, Xintong Han, Jing Liao, Bing Jiang, Wei Liu(参考訳) ユーザ意図の視覚コンテンツは、画像編集シナリオにおいて入力画像の穴領域を埋める。 粗い低レベルの入力は、通常、スパーススケッチラインとカラードットで構成され、コンテンツ作成のためのユーザの意図を伝える(自由形式の編集)。 既存の手法では入力画像とcnn入力の低レベル制御を組み合わせるが、対応する特徴表現はユーザの意図を伝えるのに十分ではなく、不適切なコンテンツを生成する。 本稿では,DeFLOCNetを提案する。DeFLOCNetはディープエンコーダデコーダCNNを利用して,これらの制御のガイダンスを深層特徴表現に保持する。 各スキップ接続層では、構造生成ブロックを設計する。 入力画像に低レベル制御を付加する代わりに、これらの制御を各構造生成ブロックに直接注入し、cnn特徴空間におけるスケッチラインの洗練とカラー伝搬を行う。 次に、構造生成のために変調された特徴とオリジナルのデコーダの特徴を結合する。 一方、DeFLOCNetはテクスチャ生成と詳細拡張のための別のデコーダブランチを含んでいる。 構造とテクスチャはデコーダでレンダリングされ、ユーザが意図した編集結果につながる。 ベンチマークの実験では、DeFLOCNetは視覚的に喜ばしいコンテンツを作成するために、様々なユーザの意図を効果的に変換している。

User-intended visual content fills the hole regions of an input image in the image editing scenario. The coarse low-level inputs, which typically consist of sparse sketch lines and color dots, convey user intentions for content creation (\ie, free-form editing). While existing methods combine an input image and these low-level controls for CNN inputs, the corresponding feature representations are not sufficient to convey user intentions, leading to unfaithfully generated content. In this paper, we propose DeFLOCNet which relies on a deep encoder-decoder CNN to retain the guidance of these controls in the deep feature representations. In each skip-connection layer, we design a structure generation block. Instead of attaching low-level controls to an input image, we inject these controls directly into each structure generation block for sketch line refinement and color propagation in the CNN feature space. We then concatenate the modulated features with the original decoder features for structure generation. Meanwhile, DeFLOCNet involves another decoder branch for texture generation and detail enhancement. Both structures and textures are rendered in the decoder, leading to user-intended editing results. Experiments on benchmarks demonstrate that DeFLOCNet effectively transforms different user intentions to create visually pleasing content.
翻訳日:2021-03-24 13:49:21 公開日:2021-03-23
# 欠失キーフレーズの再定義と検索効果への影響

Redefining Absent Keyphrases and their Effect on Retrieval Effectiveness ( http://arxiv.org/abs/2103.12440v1 )

ライセンス: Link先を確認
Florian Boudin and Ygor Gallina(参考訳) ニューラルキーフレーズ生成モデルは、最近、欠落キーフレーズ、すなわち、ソーステキストに現れないキーフレーズを出力する能力により、多くの関心を集めている。 本稿では,情報検索(ir)の観点から,欠落キーフレーズの有用性を考察し,現在キーフレーズと欠落キーフレーズの区別が十分に明確化されていないことを示す。 本稿では,キーフレーズの欠落が科学文書検索に与える影響について,より詳細に分類する手法を提案する。 この方式では,キーフレーズを構成する単語の約20%のみが実際に文書拡張の役割を果たすが,検索効果で観察される多くの成果の背後には,このわずかな単語が隠れていることがわかった。 また,提案手法がニューラルキーフレーズ生成モデルの出力を評価する新しい角度を提供する方法についても論じる。

Neural keyphrase generation models have recently attracted much interest due to their ability to output absent keyphrases, that is, keyphrases that do not appear in the source text. In this paper, we discuss the usefulness of absent keyphrases from an Information Retrieval (IR) perspective, and show that the commonly drawn distinction between present and absent keyphrases is not made explicit enough. We introduce a finer-grained categorization scheme that sheds more light on the impact of absent keyphrases on scientific document retrieval. Under this scheme, we find that only a fraction (around 20%) of the words that make up keyphrases actually serves as document expansion, but that this small fraction of words is behind much of the gains observed in retrieval effectiveness. We also discuss how the proposed scheme can offer a new angle to evaluate the output of neural keyphrase generation models.
翻訳日:2021-03-24 13:49:02 公開日:2021-03-23
# 高次元関数近似のための勾配強調多忠実ニューラルネットワーク

Gradient-enhanced multifidelity neural networks for high-dimensional function approximation ( http://arxiv.org/abs/2103.12247v1 )

ライセンス: Link先を確認
Jethro Nagawkar and Leifur Leifsson(参考訳) 本研究では,グラデーション強調型マルチフィデリティニューラルネットワーク(gemfnns)という,新しいマルチフィデリティ機械学習(ml)モデルを提案する。 このモデルはグラデーションエンハンスドニューラルネットワーク(genns)のマルチフィデリティバージョンであり、複数のレベルのフィデリティで利用可能な機能情報と勾配情報の両方を使用して関数近似を行う。 その構成は、multifidelity neural networks (mfnns) に似ている。 このモデルは,3つの解析関数,1,2,20変数関数で検証される。 また、ニューラルネットワーク(NN)、GENN(英語版)、MFNN(英語版)と比較され、世界的精度0.99の判定係数(R^2)に達するために必要なサンプル数を測定する。 gemfnnは18, 120, 600の高忠実度サンプルを必要とし、それぞれ1, 2, 20次元のケースで目標の精度を満たした。 NNは1つの変数の場合で最善を尽くし、10つのサンプルしか必要とせず、GENNは2つの変数の場合で最善を尽くし、120のサンプルを必要とした。 GEMFNNは20の可変ケースで最もうまく機能し、最も近い競合であるGENNの8倍近いサンプルを必要とする。 この場合、nnsとmfnnは1万個の高忠実度サンプルを使用しても目標のグローバル精度に達しなかった。 本研究は,高次元問題に対するNNにおける勾配と多忠実性情報の利用の利点を示す。

In this work, a novel multifidelity machine learning (ML) model, the gradient-enhanced multifidelity neural networks (GEMFNNs), is proposed. This model is a multifidelity version of gradient-enhanced neural networks (GENNs) as it uses both function and gradient information available at multiple levels of fidelity to make function approximations. Its construction is similar to multifidelity neural networks (MFNNs). This model is tested on three analytical function, a one, two, and a 20 variable function. It is also compared to neural networks (NNs), GENNs, and MFNNs, and the number of samples required to reach a global accuracy of 0.99 coefficient of determination (R^2) is measured. GEMFNNs required 18, 120, and 600 high-fidelity samples for the one, two, and 20 dimensional cases, respectively, to meet the target accuracy. NNs performed best on the one variable case, requiring only ten samples, while GENNs worked best on the two variable case, requiring 120 samples. GEMFNNs worked best for the 20 variable case, while requiring nearly eight times fewer samples than its nearest competitor, GENNs. For this case, NNs and MFNNs did not reach the target global accuracy even after using 10,000 high-fidelity samples. This work demonstrates the benefits of using gradient as well as multifidelity information in NNs for high-dimensional problems.
翻訳日:2021-03-24 13:48:30 公開日:2021-03-23
# ニューラルODEプロセス

Neural ODE Processes ( http://arxiv.org/abs/2103.12413v1 )

ライセンス: Link先を確認
Alexander Norcliffe, Cristian Bodnar, Ben Day, Jacob Moss, Pietro Li\`o(参考訳) ニューラル正規微分方程式 (Neural Ordinary Differential Equations, NODE) は、システムの状態の即時変化率をモデル化するためにニューラルネットワークを使用する。 しかしながら、動的にグラデーションされた時系列に対して明らかな適合性にもかかわらず、NODEはいくつかの欠点を提示する。 まず、自然の方向によって課されるリアルタイムアプリケーションの基本要件である、入ってくるデータポイントに適応できない。 第二に、時系列は多くの場合、多くの考えられる力学によって説明できる、ばらばらな測定値からなる。 ノードはこの不確かさを捉えない。 対照的に、ニューラル・プロセス(英語版)(nps)は不確実性推定と高速なデータ適応を提供するモデル群であるが、時間の流れを明示的に処理しない。 これらの問題に対処するために、ニューラルODE上の分布によって決定される新しい確率過程であるNeural ODE Processs (NDP)を導入する。 基礎となる ode 上の適応的データ依存分布を維持することで, 少数のデータポイントから低次元システムのダイナミクスをうまく捉えることができることを示す。 同時に、NDPは、回転するMNIST桁などの未知の潜在ダイナミクスを持つ高次元時系列にスケールアップすることを示した。

Neural Ordinary Differential Equations (NODEs) use a neural network to model the instantaneous rate of change in the state of a system. However, despite their apparent suitability for dynamics-governed time-series, NODEs present a few disadvantages. First, they are unable to adapt to incoming data-points, a fundamental requirement for real-time applications imposed by the natural direction of time. Second, time-series are often composed of a sparse set of measurements that could be explained by many possible underlying dynamics. NODEs do not capture this uncertainty. In contrast, Neural Processes (NPs) are a family of models providing uncertainty estimation and fast data-adaptation, but lack an explicit treatment of the flow of time. To address these problems, we introduce Neural ODE Processes (NDPs), a new class of stochastic processes determined by a distribution over Neural ODEs. By maintaining an adaptive data-dependent distribution over the underlying ODE, we show that our model can successfully capture the dynamics of low-dimensional systems from just a few data-points. At the same time, we demonstrate that NDPs scale up to challenging high-dimensional time-series with unknown latent dynamics such as rotating MNIST digits.
翻訳日:2021-03-24 13:48:07 公開日:2021-03-23
# 植物設計情報の再利用性向上のためのグラフマッチング手法の適用

Applying graph matching techniques to enhance reuse of plant design information ( http://arxiv.org/abs/2103.12466v1 )

ライセンス: Link先を確認
Miia Rantala, Hannu Niemist\"o, Tommi Karhela, Seppo Sierla, Valeriy Vyatkin(参考訳) 本稿では,前設計の再利用を支援するため,プラント設計データにグラフマッチングを適用する方法について検討する。 既存のグラフマッチングアルゴリズムの文献レビューを行い、さらなるテストのためにアルゴリズムのグループを選択する。 初期のプラント設計のユースケースを紹介する。 既存のグラフマッチングアルゴリズムをプロセスプラントドメインに適用できるように,グラフ単純化アルゴリズムとノード類似度測定を含む,ユースケースに対処する手法を提案する。 提案手法は,いくつかのパルプおよび紙工場の設計データからなる工業事例で実証的に評価した。

This article investigates how graph matching can be applied to process plant design data in order to support the reuse of previous designs. A literature review of existing graph matching algorithms is performed, and a group of algorithms is chosen for further testing. A use case from early phase plant design is presented. A methodology for addressing the use case is proposed, including graph simplification algorithms and node similarity measures, so that existing graph matching algorithms can be applied in the process plant domain. The proposed methodology is evaluated empirically on an industrial case consisting of design data from several pulp and paper plants.
翻訳日:2021-03-24 13:47:48 公開日:2021-03-23
# DIG:グラフ深層学習研究のためのターンキーライブラリ

DIG: A Turnkey Library for Diving into Graph Deep Learning Research ( http://arxiv.org/abs/2103.12608v1 )

ライセンス: Link先を確認
Meng Liu, Youzhi Luo, Limei Wang, Yaochen Xie, Hao Yuan, Shurui Gui, Zhao Xu, Haiyang Yu, Jingtun Zhang, Yi Liu, Keqiang Yan, Bora Oztekin, Haoran Liu, Xuan Zhang, Cong Fu, Shuiwang Ji(参考訳) グラフの深層学習のためのライブラリはいくつか存在するが、グラフの深層学習のための基本的な操作の実装を目指している。 リサーチコミュニティでは、さまざまな高度なタスクの実装とベンチマークは、既存のライブラリでは依然として苦痛と時間を要する。 グラフ深層学習の研究を容易にするために、DIG: Dive into Graphsは、いくつかの高度なタスクに対して共通のグラフ深層学習アルゴリズムの統一的で拡張可能な実装を統合する研究指向のライブラリである。 現在、グラフ生成、グラフの自己教師型学習、グラフニューラルネットワークの説明可能性、および3Dグラフの深層学習について検討している。 それぞれの方向に対して、データインターフェース、共通アルゴリズム、評価メトリクスの統合実装を提供します。 さらに、DIGは、研究者が新しいメソッドを開発し、広く使われているデータセットと評価メトリクスを使用して共通のベースラインと比較するための拡張性、オープンソース、ターンキーライブラリである。 ソースコードとドキュメントはhttps://github.com/d ivelab/DIG/で入手できる。

Although there exist several libraries for deep learning on graphs, they are aiming at implementing basic operations for graph deep learning. In the research community, implementing and benchmarking various advanced tasks are still painful and time-consuming with existing libraries. To facilitate graph deep learning research, we introduce DIG: Dive into Graphs, a research-oriented library that integrates unified and extensible implementations of common graph deep learning algorithms for several advanced tasks. Currently, we consider graph generation, self-supervised learning on graphs, explainability of graph neural networks, and deep learning on 3D graphs. For each direction, we provide unified implementations of data interfaces, common algorithms, and evaluation metrics. Altogether, DIG is an extensible, open-source, and turnkey library for researchers to develop new methods and effortlessly compare with common baselines using widely used datasets and evaluation metrics. Source code and documentations are available at https://github.com/d ivelab/DIG/.
翻訳日:2021-03-24 13:47:40 公開日:2021-03-23
# 学習率を低下させる方法

How to decay your learning rate ( http://arxiv.org/abs/2103.12682v1 )

ライセンス: Link先を確認
Aitor Lewkowycz(参考訳) 複雑な学習率のスケジュールは、ディープラーニングの不可欠な部分となっている。 一般的な微調整スケジュールは、ウェイトノルムのバウンス後に学習率を低下させる。 これにより、abel: 重みの規範を追跡することで学習率を低下させる自動スケジューラが提案される。 ABELのパフォーマンスは調整されたスケジュールと一致し、パラメータに関してより堅牢である。 視覚、nlp、rlにおける広範囲な実験を通じて、重量規範が跳ね返らない場合、パフォーマンスの損失を伴わずにさらにスケジュールを単純化できることを示した。 このような場合、複雑なスケジュールは、訓練終了時の減衰を伴う一定の学習率に類似する性能を有する。

Complex learning rate schedules have become an integral part of deep learning. We find empirically that common fine-tuned schedules decay the learning rate after the weight norm bounces. This leads to the proposal of ABEL: an automatic scheduler which decays the learning rate by keeping track of the weight norm. ABEL's performance matches that of tuned schedules and is more robust with respect to its parameters. Through extensive experiments in vision, NLP, and RL, we show that if the weight norm does not bounce, we can simplify schedules even further with no loss in performance. In such cases, a complex schedule has similar performance to a constant learning rate with a decay at the end of training.
翻訳日:2021-03-24 13:47:24 公開日:2021-03-23
# マルチロボットタスク割り当て -- 複雑さと近似

Multi-Robot Task Allocation -- Complexity and Approximation ( http://arxiv.org/abs/2103.12370v1 )

ライセンス: Link先を確認
Haris Aziz, Hau Chan, \'Agnes Cseh, Bo Li, Fahimeh Ramezani, Chenhao Wang(参考訳) マルチロボットタスクアロケーションは、ロボット工学における最も基本的な問題の1つであり、探索、救助、地域探索といった様々な現実世界のロボットアプリケーションに不可欠である。 単一タスクロボットとマルチロボットタスク 即時アサインメント(ST-MR-IA)では、各タスクが少なくとも1つのロボットを必要とし、各ロボットは1つのタスクで作業でき、各タスクに対して運用コストがかかる。 本研究の目的は,予算制約に係わるタスクの最大数をロボットに割り当てる自然計算問題を検討することである。 本研究では,(1)総予算,(2)タスク予算,(3)ロボット予算の3種類の予算制約について考察する。 一般設定と重要な制限設定のための多項式時間アルゴリズムと同様に近似結果を含む詳細な複雑性解析を提供する。

Multi-robot task allocation is one of the most fundamental classes of problems in robotics and is crucial for various real-world robotic applications such as search, rescue and area exploration. We consider the Single-Task robots and Multi-Robot tasks Instantaneous Assignment (ST-MR-IA) setting where each task requires at least a certain number of robots and each robot can work on at most one task and incurs an operational cost for each task. Our aim is to consider a natural computational problem of allocating robots to complete the maximum number of tasks subject to budget constraints. We consider budget constraints of three different kinds: (1) total budget, (2) task budget, and (3) robot budget. We provide a detailed complexity analysis including results on approximations as well as polynomial-time algorithms for the general setting and important restricted settings.
翻訳日:2021-03-24 13:47:13 公開日:2021-03-23
# フレキテストの語彙は何か? 拡張された複製

What is the Vocabulary of Flaky Tests? An Extended Replication ( http://arxiv.org/abs/2103.12670v1 )

ライセンス: Link先を確認
B. H. P. Camara, M. A. G. Silva, A. T. Endo, S. R. Vergilio(参考訳) 自動テストの普及により、ソフトウェアシステムは継続的に進化し、高品質で提供されてきた。 このシナリオを傷つける繰り返しの問題は、非決定的に通過または失敗する可能性のあるテストケースである、不安定なテストの存在である。 有望だが、より実証的な証拠が欠けているアプローチは、自動テストの静的データを収集し、それらのフレキネスを予測することである。 本稿では,テストフラキネスの予測にコード識別子を用いた場合について,実験的検討を行った。 そのため、我々はPinto~et~al.~(MSR~20 20)の以前の研究の大部分をまず複製する。 このレプリケーションは、異なるML Pythonプラットフォーム(Scikit-learn)を使用して、分析に異なる学習アルゴリズムを追加することで拡張された。 そして、他の不安定なテストと異なるプロジェクトによるデータセットを使用して、トレーニングされたモデルのパフォーマンスを検証する。 我々は、pinto~et~al.~(2020)の結果の再現に成功し、scikit-learnと若干の違いがあった。 検証に関して、トレーニングされたモデルのリコールは小さく、分類器は様々な範囲の減少を示した。 これはプロジェクト内およびプロジェクト間テストのフラキネス予測の両方で観察された。

Software systems have been continuously evolved and delivered with high quality due to the widespread adoption of automated tests. A recurring issue hurting this scenario is the presence of flaky tests, a test case that may pass or fail non-deterministicall y. A promising, but yet lacking more empirical evidence, approach is to collect static data of automated tests and use them to predict their flakiness. In this paper, we conducted an empirical study to assess the use of code identifiers to predict test flakiness. To do so, we first replicate most parts of the previous study of Pinto~et~al.~(MSR~20 20). This replication was extended by using a different ML Python platform (Scikit-learn) and adding different learning algorithms in the analyses. Then, we validated the performance of trained models using datasets with other flaky tests and from different projects. We successfully replicated the results of Pinto~et~al.~(2020), with minor differences using Scikit-learn; different algorithms had performance similar to the ones used previously. Concerning the validation, we noticed that the recall of the trained models was smaller, and classifiers presented a varying range of decreases. This was observed in both intra-project and inter-projects test flakiness prediction.
翻訳日:2021-03-24 13:46:59 公開日:2021-03-23
# 深層学習を用いた胎児心エコー図におけるマルチビュー・マルチクラス画像分割

Multiview and Multiclass Image Segmentation using Deep Learning in Fetal Echocardiography ( http://arxiv.org/abs/2103.12245v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Elena S. Sinkovskaya, Alfred Z. Abuhamad, Tanveer Syeda-Mahmood(参考訳) 先天性心疾患(英: congenital heart disease、chd)は、アメリカ合衆国で最も多い先天性疾患である。 過去数年間の超音波の訓練と進歩にもかかわらず、CHDは出生前超音波検査でしばしば見逃される異常である。 したがって, chdのコンピュータ支援検出は, スクリーニングと診断を改善することにより, 出生前ケアにおいて重要な役割を果たすことができる。 多くのchdは構造異常を伴うため、解剖学的構造の自動分割は胎児心エコー解析の重要なステップである。 既存の手法は主に4室ビューに焦点を絞っているが,3室トラチーアと4室ビューの両方で14の解剖学的構造をカバーするより包括的なディープラーニングセグメンテーションフレームワークを提案する。 具体的には,V-Netを空間的ドロップアウト,グループ正規化,深い監督によって強化し,異常に関わらず両ビューに適用可能なセグメンテーションモデルをトレーニングする。 いくつかの画像でラベルが使用できない場合のサイコロロスの使用の落とし穴を特定することにより、このフレームワークは複数のビューからの情報を統合し、解剖学的異常による欠損構造に頑健であり、平均サイコロスコアは79%となる。

Congenital heart disease (CHD) is the most common congenital abnormality associated with birth defects in the United States. Despite training efforts and substantial advancement in ultrasound technology over the past years, CHD remains an abnormality that is frequently missed during prenatal ultrasonography. Therefore, computer-aided detection of CHD can play a critical role in prenatal care by improving screening and diagnosis. Since many CHDs involve structural abnormalities, automatic segmentation of anatomical structures is an important step in the analysis of fetal echocardiograms. While existing methods mainly focus on the four-chamber view with a small number of structures, here we present a more comprehensive deep learning segmentation framework covering 14 anatomical structures in both three-vessel trachea and four-chamber views. Specifically, our framework enhances the V-Net with spatial dropout, group normalization, and deep supervision to train a segmentation model that can be applied on both views regardless of abnormalities. By identifying the pitfall of using the Dice loss when some labels are unavailable in some images, this framework integrates information from multiple views and is robust to missing structures due to anatomical anomalies, achieving an average Dice score of 79%.
翻訳日:2021-03-24 13:46:40 公開日:2021-03-23
# 深部陰影移動最小二乗関数による3次元再構成

Deep Implicit Moving Least-Squares Functions for 3D Reconstruction ( http://arxiv.org/abs/2103.12266v1 )

ライセンス: Link先を確認
Shi-Lin Liu, Hao-Xiang Guo, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu(参考訳) point setは3dディープラーニングに広く使われている柔軟で軽量な表現である。 しかし、それらの離散的な性質は、連続的かつ微細な幾何学を表現するのを妨げ、学習に基づく形状生成の大きな問題を引き起こす。 本研究では,点集合上の局所的暗黙的関数を自然に定義するよく知られた暗黙的移動最小二乗(imls)曲面定式化を導入することにより,離散点集合を滑らかな曲面に変換する。 IMLS表面生成を深層ニューラルネットワークに組み込んで、点集合の柔軟性と暗黙曲面の高品質の両方を継承する。 imlsnetはoctree構造を,必要であればmlsポイントを生成するための足場として予測し,学習した局所的優先度で形状形状を特徴付ける。 さらに,mls点が予測された時点では,暗黙的関数評価はニューラルネットワークとは独立であり,実行時の高速評価を可能にする。 3次元オブジェクト再構成実験により、IMLSNetは、再構築品質と計算効率の点で最先端の学習手法より優れていることが示された。 広範なアブレーションテストもネットワーク設計と損失関数を検証する。

Point set is a flexible and lightweight representation widely used for 3D deep learning. However, their discrete nature prevents them from representing continuous and fine geometry, posing a major issue for learning-based shape generation. In this work, we turn the discrete point sets into smooth surfaces by introducing the well-known implicit moving least-squares (IMLS) surface formulation, which naturally defines locally implicit functions on point sets. We incorporate IMLS surface generation into deep neural networks for inheriting both the flexibility of point sets and the high quality of implicit surfaces. Our IMLSNet predicts an octree structure as a scaffold for generating MLS points where needed and characterizes shape geometry with learned local priors. Furthermore, our implicit function evaluation is independent of the neural network once the MLS points are predicted, thus enabling fast runtime evaluation. Our experiments on 3D object reconstruction demonstrate that IMLSNets outperform state-of-the-art learning-based methods in terms of reconstruction quality and computational efficiency. Extensive ablation tests also validate our network design and loss functions.
翻訳日:2021-03-24 13:46:20 公開日:2021-03-23
# ロバストlidarカメラキャリブレーションのためのサンプル選択の最適化

Optimising the selection of samples for robust lidar camera calibration ( http://arxiv.org/abs/2103.12287v1 )

ライセンス: Link先を確認
Darren Tsai, Stewart Worrall, Mao Shan, Anton Lohr, Eduardo Nebot(参考訳) シーン全体に適したキャリブレーションパラメータを推定するためのキャリブレーションサンプルの選択を最適化する,ロバストなキャリブレーションパイプラインを提案する。 本稿では,データ選択プロセスの自動化によるユーザエラーの最小化を,サンプルのキャリブレーションセット毎にスコアを与える“variability of quality(voq)”と呼ばれるメトリクスによって行う。 このVOQスコアは,推定キャリブレーションパラメータがシーン全体に対して適切に一般化する能力と相関し,既存のキャリブレーションアルゴリズムのオーバーフィット問題を克服することを示す。 本手法は, キャリブレーションの専門知識レベルの実践者に対して, キャリブレーションプロセスの簡易化と, キャリブレーションパイプラインの入出力データの品質を客観的に測定することによる。 さらに,キャリブレーションパラメータの精度を評価する新しい手法を提案する。 シーン全体の再プロジェクションエラーを計算し、パラメータがシーン内のすべての機能に適切に適合するようにします。 提案するキャリブレーションパイプラインは90秒で1-1.2cm,標準偏差0.4-0.5cmで46のシーンに均等に分布する。 このプロセスは、高解像度、ソフトウェア定義可能なライダーBaraja Spectrum-Scan、低解像度のVelodyne VLP-16の実験によって検証されている。 ライダー技術に大きな違いがあるにも関わらず,提案手法は両者のロバストなキャリブレーションパラメータを推定できることを示した。 この論文に使用するコードとデータセットは、オープンソースとして利用可能です。

We propose a robust calibration pipeline that optimises the selection of calibration samples for the estimation of calibration parameters that fit the entire scene. We minimise user error by automating the data selection process according to a metric, called Variability of Quality (VOQ) that gives a score to each calibration set of samples. We show that this VOQ score is correlated with the estimated calibration parameter's ability to generalise well to the entire scene, thereby overcoming the overfitting problems of existing calibration algorithms. Our approach has the benefits of simplifying the calibration process for practitioners of any calibration expertise level and providing an objective measure of the quality for our calibration pipeline's input and output data. We additionally use a novel method of assessing the accuracy of the calibration parameters. It involves computing reprojection errors for the entire scene to ensure that the parameters are well fitted to all features in the scene. Our proposed calibration pipeline takes 90s, and obtains an average reprojection error of 1-1.2cm, with standard deviation of 0.4-0.5cm over 46 poses evenly distributed in a scene. This process has been validated by experimentation on a high resolution, software definable lidar, Baraja Spectrum-Scan; and a low, fixed resolution lidar, Velodyne VLP-16. We have shown that despite the vast differences in lidar technologies, our proposed approach manages to estimate robust calibration parameters for both. Our code and data set used for this paper are made available as open-source.
翻訳日:2021-03-24 13:46:01 公開日:2021-03-23
# 医用セグメンテーション評価のための粗さ指標と粗さ距離

Roughness Index and Roughness Distance for Benchmarking Medical Segmentation ( http://arxiv.org/abs/2103.12350v1 )

ライセンス: Link先を確認
Vidhiwar Singh Rathour, Kashu Yamakazi and T. Hoang Ngan Le(参考訳) 医用画像分割は医用画像解析において最も困難な課題の一つであり、多くの臨床応用において広く開発されてきた。 既存の測定基準のほとんどは、まず自然画像用に設計され、その後医療画像に拡張された。 対象表面は医学的セグメンテーションや定量的分析において重要な役割を果たす。 脳腫瘍表面の分析、灰白質容積の測定、既存の測定のほとんどは、物体表面の分析、特に与えられた体積物の表面の滑らかさや粗さ、あるいはトポロジカルエラーの分析に関して制限されている。 本稿では,既存の医用画像セグメンテーション指標の長所と短所,特にボリュームデータについて分析を行った。 次に、医用画像分割分析および評価のための適切な粗さ指数と粗さ距離を提案する。 提案手法は,2種類のセグメンテーションエラー(つまり)に対処する。 (i)境界/表面上の位相誤差と境界/表面上の(ii)不規則性 本研究の貢献は, (i) 表面上の不規則なスパイク/ホールを検出し, (ii) 所定の物体の表面粗さを測定する粗さ指数を提案し, (iii) 提案した粗さ指数を利用して2つの境界/表面の距離を測定する粗さ距離を提案し, (iv) 不規則なスパイク/ホールを除去して表面を滑らかにするアルゴリズムを提案する。 提案する粗さ指数と粗さ距離は,土木工学でうまく開発された固体表面粗さパラメータに基づいている。

Medical image segmentation is one of the most challenging tasks in medical image analysis and has been widely developed for many clinical applications. Most of the existing metrics have been first designed for natural images and then extended to medical images. While object surface plays an important role in medical segmentation and quantitative analysis i.e. analyze brain tumor surface, measure gray matter volume, most of the existing metrics are limited when it comes to analyzing the object surface, especially to tell about surface smoothness or roughness of a given volumetric object or to analyze the topological errors. In this paper, we first analysis both pros and cons of all existing medical image segmentation metrics, specially on volumetric data. We then propose an appropriate roughness index and roughness distance for medical image segmentation analysis and evaluation. Our proposed method addresses two kinds of segmentation errors, i.e. (i)topological errors on boundary/surface and (ii)irregularities on the boundary/surface. The contribution of this work is four-fold: (i) detect irregular spikes/holes on a surface, (ii) propose roughness index to measure surface roughness of a given object, (iii) propose a roughness distance to measure the distance of two boundaries/surfaces by utilizing the proposed roughness index and (iv) suggest an algorithm which helps to remove the irregular spikes/holes to smooth the surface. Our proposed roughness index and roughness distance are built upon the solid surface roughness parameter which has been successfully developed in the civil engineering.
翻訳日:2021-03-24 13:45:32 公開日:2021-03-23
# OFFSEG:オフロード運転のためのセマンティックセグメンテーションフレームワーク

OFFSEG: A Semantic Segmentation Framework For Off-Road Driving ( http://arxiv.org/abs/2103.12417v1 )

ライセンス: Link先を確認
Kasi Viswanath, Kartikeya Singh, Peng Jiang, Sujit P.B. and Srikanth Saripalli(参考訳) オフロード画像セマンティックセグメンテーションは、不均一な地形、非構造的なクラス境界、不規則な特徴、強いテクスチャが存在するため、困難である。 これらの側面は、情報が経路計画に使用される車両の知覚に影響を与える。 現在のオフロードデータセットは、クラス不均衡や様々な環境地形の理解のような困難を示す。 これらの問題を克服するために,我々は,オフセグメンテーションと呼ばれる,オフセグメンテーションの枠組みを提案する。 (i) 特定のサブクラス(草,水たまり,土,砂利など)を区分するカラーセグメンテーション方法論 (ii) 最先端のディープラーニングアーキテクチャを用いた,4つのクラス(スキー,トラバーサブル領域,非トラバーサブル領域,障害)のプールクラスセグメンテーション (プールドクラスセグメンテーション) を含む。 より良いシーン理解のために トラバーサブル地域から このフレームワークの評価は、RELLIS-3DとRUGDの2つのオフロード駆動データセット上で行われる。 また,IISERBキャンパスフレームにおける提案フレームワークの検証を行った。 以上の結果から,OFFSEGは良好な性能を示し,またトラバース可能な領域に関する詳細な情報も提供する。

Off-road image semantic segmentation is challenging due to the presence of uneven terrains, unstructured class boundaries, irregular features and strong textures. These aspects affect the perception of the vehicle from which the information is used for path planning. Current off-road datasets exhibit difficulties like class imbalance and understanding of varying environmental topography. To overcome these issues we propose a framework for off-road semantic segmentation called as OFFSEG that involves (i) a pooled class semantic segmentation with four classes (sky, traversable region, non-traversable region and obstacle) using state-of-the-art deep learning architectures (ii) a colour segmentation methodology to segment out specific sub-classes (grass, puddle, dirt, gravel, etc.) from the traversable region for better scene understanding. The evaluation of the framework is carried out on two off-road driving datasets, namely, RELLIS-3D and RUGD. We have also tested proposed framework in IISERB campus frames. The results show that OFFSEG achieves good performance and also provides detailed information on the traversable region.
翻訳日:2021-03-24 13:45:06 公開日:2021-03-23
# 非視線イメージングのための仮想光輸送行列

Virtual light transport matrices for non-line-of-sight imaging ( http://arxiv.org/abs/2103.12622v1 )

ライセンス: Link先を確認
Julio Marco, Adrian Jarabo, Ji Hyun Nam, Xiaochun Liu, Miguel \'Angel Cosculluela, Andreas Velten, Diego Gutierrez(参考訳) 光移動マトリックス(light transport matrix, ltm)は、光がシーンとどのように相互作用するかを説明し、照明部品の照明や分離といった応用を可能にする、視線(los)イメージングのインストゥルメンタルツールである。 我々は,NLOS画像のための最近の仮想フォワード光伝搬モデルとLOS光伝達方程式を結合して,NLOSシナリオのLTMを推定するフレームワークを提案する。 計算プロジェクタ・カメラのセットアップを設計し,これらの仮想イメージングシステムを用いて隠れシーンの移動行列を推定する。 行列の異なる要素を計算するための特定の照明関数を導入し、NLOSセットアップの挑戦的な広開口条件を克服する。 私たちのnlos light transport matrixは、隠れたシーンの特定の場所を(再)照らし、既存のlos技術に似た、複雑な散らかった隠れたシーンの直接、一階、高階の間接照明を分離できます。

The light transport matrix (LTM) is an instrumental tool in line-of-sight (LOS) imaging, describing how light interacts with the scene and enabling applications such as relighting or separation of illumination components. We introduce a framework to estimate the LTM of non-line-of-sight (NLOS) scenarios, coupling recent virtual forward light propagation models for NLOS imaging with the LOS light transport equation. We design computational projector-camera setups, and use these virtual imaging systems to estimate the transport matrix of hidden scenes. We introduce the specific illumination functions to compute the different elements of the matrix, overcoming the challenging wide-aperture conditions of NLOS setups. Our NLOS light transport matrix allows us to (re)illuminate specific locations of a hidden scene, and separate direct, first-order indirect, and higher-order indirect illumination of complex cluttered hidden scenes, similar to existing LOS techniques.
翻訳日:2021-03-24 13:44:36 公開日:2021-03-23
# Reward-Consistent Demonstration を用いた 6DoF Grasping の学習

Learning 6DoF Grasping Using Reward-Consistent Demonstration ( http://arxiv.org/abs/2103.12321v1 )

ライセンス: Link先を確認
Daichi Kawakami, Ryoichi Ishikawa, Menandro Roxas, Yoshihiro Sato, Takeshi Oishi(参考訳) ロボットの自由度が増加するにつれて、ロボットの動きの実装はより複雑で困難になる。 本研究では,6DOF-grasping動作の学習に着目し,把握動作を複数のタスクに分割することを検討する。 目的の動作をより効率的に学習するために,模倣と強化学習を組み合わせることを提案する。 模倣学習のための教師データとして実演データを集めるために,ロボットを直感的に操作できるバーチャルリアリティ(vr)インタフェースを開発した。 さらに,より単純なタスクに動作を分割することにより,強化学習のための報酬関数の設計を簡素化し,把持動作の学習に必要なステップの短縮を実験で示す。

As the number of the robot's degrees of freedom increases, the implementation of robot motion becomes more complex and difficult. In this study, we focus on learning 6DOF-grasping motion and consider dividing the grasping motion into multiple tasks. We propose to combine imitation and reinforcement learning in order to facilitate a more efficient learning of the desired motion. In order to collect demonstration data as teacher data for the imitation learning, we created a virtual reality (VR) interface that allows humans to operate the robot intuitively. Moreover, by dividing the motion into simpler tasks, we simplify the design of reward functions for reinforcement learning and show in our experiments a reduction in the steps required to learn the grasping motion.
翻訳日:2021-03-24 13:43:49 公開日:2021-03-23
# リコメンダシステムの多様性規則化利子モデリング

Diversity Regularized Interests Modeling for Recommender Systems ( http://arxiv.org/abs/2103.12404v1 )

ライセンス: Link先を確認
Junmei Hao, Jingcheng Shi, Qing Da, Anxiang Zeng, Yujie Dun, Xueming Qian, Qianying Lin(参考訳) eコマースの急速な発展とアイテムの量の増加により、ユーザーはより多くのアイテムを提示されるため、興味が広がる。 単一のユーザベクトルとアイテムベクトルを組み合わせることで,ユーザの好みをモデル化する従来の手法によるユーザ意図のモデル化がますます困難になっている。 近年,複数のユーザ関心ベクトルを生成し,従来の手法よりも優れた性能を実現する手法が提案されている。 しかし、実証的な研究により、これらの多利子法から生成されるベクトルは時として同質であり、それが準最適性能をもたらすことが示されている。 本稿では,レコメンダシステムのための新しい多様性正規化関心モデリング(drim)手法を提案する。 複数のユーザ興味ベクトルを生成するために,カプセルネットワークを多目的抽出器に適用する。 ユーザの興味はある程度の差異を持つべきであり,複数のユーザ関心ベクトルを分離する多様性正規化セパレータとして3つの戦略を導入する。 パブリックデータセットと産業データセットに関する実験結果から,利用者の興味の相違と,提案手法の優れた性能を把握できるモデルの有効性が示された。

With the rapid development of E-commerce and the increase in the quantity of items, users are presented with more items hence their interests broaden. It is increasingly difficult to model user intentions with traditional methods, which model the user's preference for an item by combining a single user vector and an item vector. Recently, some methods are proposed to generate multiple user interest vectors and achieve better performance compared to traditional methods. However, empirical studies demonstrate that vectors generated from these multi-interests methods are sometimes homogeneous, which may lead to sub-optimal performance. In this paper, we propose a novel method of Diversity Regularized Interests Modeling (DRIM) for Recommender Systems. We apply a capsule network in a multi-interest extractor to generate multiple user interest vectors. Each interest of the user should have a certain degree of distinction, thus we introduce three strategies as the diversity regularized separator to separate multiple user interest vectors. Experimental results on public and industrial data sets demonstrate the ability of the model to capture different interests of a user and the superior performance of the proposed approach.
翻訳日:2021-03-24 13:43:37 公開日:2021-03-23
# 局所的異種行動グラフを用いた健康状態予測

Health Status Prediction with Local-Global Heterogeneous Behavior Graph ( http://arxiv.org/abs/2103.12456v1 )

ライセンス: Link先を確認
Xuan Ma, Xiaoshan Yang, Junyu Gao, and Changsheng Xu(参考訳) 健康管理は世界中で注目を集めています。 しかし、既存の健康管理は主に、複雑で不定期な病院の診察と治療に依存している。 モバイルデバイスの出現は、人々の健康状態を便利かつ即時的に管理することを可能にする。 ウェアラブルセンサから継続的に収集されるさまざまなデータストリームを用いて、健康状態の推定を行うことができる。 しかし、これらのデータストリームは多ソースで異種であり、局所的な文脈とグローバルな時間的側面を持つ複雑な時間構造を含んでいるため、特徴学習とデータ共同利用は困難である。 本研究では,複数の局所コンテキストサブグラフを含む行動関連多元データストリームをモデル化し,ヘテロジニアスグラフニューラルネットワークを用いた短期的局所コンテキスト情報学習と,自己接続ネットワークを用いた長期依存学習のためのグローバル時間サブグラフを提案する。 そして、ローカル・グローバル行動グラフから学習した構造認識表現に基づいて、健康状態を予測する。 学生生活データセットを用いて実験を行い,提案モデルの有効性を実証した。

Health management is getting increasing attention all over the world. However, existing health management mainly relies on hospital examination and treatment, which are complicated and untimely. The emerging of mobile devices provides the possibility to manage people's health status in a convenient and instant way. Estimation of health status can be achieved with various kinds of data streams continuously collected from wearable sensors. However, these data streams are multi-source and heterogeneous, containing complex temporal structures with local contextual and global temporal aspects, which makes the feature learning and data joint utilization challenging. We propose to model the behavior-related multi-source data streams with a local-global graph, which contains multiple local context sub-graphs to learn short term local context information with heterogeneous graph neural networks and a global temporal sub-graph to learn long term dependency with self-attention networks. Then health status is predicted based on the structure-aware representation learned from the local-global behavior graph. We take experiments on StudentLife dataset, and extensive results demonstrate the effectiveness of our proposed model.
翻訳日:2021-03-24 13:43:19 公開日:2021-03-23
# 大規模クエリ負荷の正確なコスト推定のための効率的なディープラーニングパイプライン

Efficient Deep Learning Pipelines for Accurate Cost Estimations Over Large Scale Query Workload ( http://arxiv.org/abs/2103.12465v1 )

ライセンス: Link先を確認
Johan Kok Zhi Kang, Gaurav, Sien Yi Tan, Feng Cheng, Shixuan Sun, Bingsheng He(参考訳) SQLクエリのリソース消費パターンを予測するためのディープラーニングモデルの使用は、最近よく研究されている分野である。 多くの企業がデータレイクを大規模分析のためにクラウドプラットフォームを使用しているため、これらのモデルはクラウドリソースのプロビジョニングを管理するパイプラインの重要な部分を形成している。 これらのモデルは有望な正確性を示しているが、大規模産業ワークロードでのトレーニングは高価である。 大量のクエリと多種多様なクエリプランにまたがるシェイプ一貫性を強制するために使用される過剰なパディングに対するエンコーディング技術の非効率性は、1) モデルトレーニング時間が長く、2) バッチトレーニングをサポートするための高価なスケールアップインフラストラクチャの必要性を暗示している。 そこで我々は,クエリトレースのリソース消費パターンを正確に予測する木畳み込みに基づくデータサイエンスパイプラインであるPrestroidを開発した。 我々は20pb以上のデータを持つデータレイク上で,grabによる1k以上のpresto olapクエリを評価した。 実験結果は、パイプラインが予測精度のベンチマークを上回り、大規模ワークロードのリソース予測をより正確にすると同時に、バッチ毎のメモリフットプリントを13.5倍、エピック毎のトレーニング時間を3.45倍削減することを示している。 Microsoft Azure VM上での大規模なバッチモデルトレーニングでは,最大13.2倍のコスト削減を実演する。

The use of deep learning models for forecasting the resource consumption patterns of SQL queries have recently been a popular area of study. With many companies using cloud platforms to power their data lakes for large scale analytic demands, these models form a critical part of the pipeline in managing cloud resource provisioning. While these models have demonstrated promising accuracy, training them over large scale industry workloads are expensive. Space inefficiencies of encoding techniques over large numbers of queries and excessive padding used to enforce shape consistency across diverse query plans implies 1) longer model training time and 2) the need for expensive, scaled up infrastructure to support batched training. In turn, we developed Prestroid, a tree convolution based data science pipeline that accurately predicts resource consumption patterns of query traces, but at a much lower cost. We evaluated our pipeline over 19K Presto OLAP queries from Grab, on a data lake of more than 20PB of data. Experimental results imply that our pipeline outperforms benchmarks on predictive accuracy, contributing to more precise resource prediction for large-scale workloads, yet also reduces per-batch memory footprint by 13.5x and per-epoch training time by 3.45x. We demonstrate direct cost savings of up to 13.2x for large batched model training over Microsoft Azure VMs.
翻訳日:2021-03-24 13:43:02 公開日:2021-03-23
# ESCORT:Deep Neural NetworkとTransfer Learningを用いたEthereum Smart COntRacTs脆弱性検出

ESCORT: Ethereum Smart COntRacTs Vulnerability Detection using Deep Neural Network and Transfer Learning ( http://arxiv.org/abs/2103.12607v1 )

ライセンス: Link先を確認
Oliver Lutz and Huili Chen and Hossein Fereidooni and Christoph Sendner and Alexandra Dmitrienko and Ahmad Reza Sadeghi and Farinaz Koushanfar(参考訳) Ethereumスマートコントラクトは、買い手と売り手の合意条件を記述したブロックチェーン上の自動分散アプリケーションであり、信頼できる仲介者や仲裁の必要性を減らす。 しかし、smart contractsの展開は、暗号通貨システムに新しい攻撃ベクターを導入する。 特に、スマートコントラクトにおけるプログラミングの欠陥は、巨額の財政的利益を得るためにすでに悪用されている。 したがって、コントラクト内の異なるクラスの脆弱性を効率的に検出する上で、新興かつ重要な問題である。 既存の機械学習ベースの脆弱性検出方法は限定的であり、スマートコントラクトが脆弱かどうかを検査するか、特定の脆弱性ごとに個別の分類器をトレーニングするか、拡張性を考慮することなくマルチクラス脆弱性検出を示すだけである。 既存の作業のスケーラビリティと一般化の限界を克服するために、私たちは、ethereumスマートコントラクトのための最初のディープニューラルネットワーク(dnn)ベースの脆弱性検出フレームワークであるaweelを提案します。 escortは2つの部分からなるマルチアウトプットnnアーキテクチャを活用している: (i) 入力コントラクトのセマンティクスを学ぶ共通機能抽出器; (ii) 各ブランチが特徴抽出器から得られた特徴に基づいて特定の脆弱性タイプを学習する複数のブランチ構造。 実験の結果, ESCORTは6種類の脆弱性に対して平均95%のF1スコアを達成し, 検出時間は約0.02秒であった。 新しい脆弱性タイプに拡張すると、平均F1スコアは93%になる。 私たちの知る限りでは、ESCORTはDNNモデルアーキテクチャの変更を最小限に抑え、オーバーヘッドを再トレーニングする新しい脆弱性タイプでのトランスファー学習を可能にする最初のフレームワークです。

Ethereum smart contracts are automated decentralized applications on the blockchain that describe the terms of the agreement between buyers and sellers, reducing the need for trusted intermediaries and arbitration. However, the deployment of smart contracts introduces new attack vectors into the cryptocurrency systems. In particular, programming flaws in smart contracts can be and have already been exploited to gain enormous financial profits. It is thus an emerging yet crucial issue to detect vulnerabilities of different classes in contracts in an efficient manner. Existing machine learning-based vulnerability detection methods are limited and only inspect whether the smart contract is vulnerable, or train individual classifiers for each specific vulnerability, or demonstrate multi-class vulnerability detection without extensibility consideration. To overcome the scalability and generalization limitations of existing works, we propose ESCORT, the first Deep Neural Network (DNN)-based vulnerability detection framework for Ethereum smart contracts that support lightweight transfer learning on unseen security vulnerabilities, thus is extensible and generalizable. ESCORT leverages a multi-output NN architecture that consists of two parts: (i) A common feature extractor that learns the semantics of the input contract; (ii) Multiple branch structures where each branch learns a specific vulnerability type based on features obtained from the feature extractor. Experimental results show that ESCORT achieves an average F1-score of 95% on six vulnerability types and the detection time is 0.02 seconds per contract. When extended to new vulnerability types, ESCORT yields an average F1-score of 93%. To the best of our knowledge, ESCORT is the first framework that enables transfer learning on new vulnerability types with minimal modification of the DNN model architecture and re-training overhead.
翻訳日:2021-03-24 13:42:37 公開日:2021-03-23
# ヘロイン消費リスク評価のためのGA-SVM

GA-SVM for Evaluating Heroin Consumption Risk ( http://arxiv.org/abs/2103.12633v1 )

ライセンス: Link先を確認
Sean-Kelly Palicki, R. Muhammad Atif Azad(参考訳) 2017年には米国で7万人以上の薬物過剰摂取が死亡している。 約半数はヘロインのようなオピオイドの使用であった。 この研究は、ヘロイン消費につながる要因をさらに理解することで、オピオイドの流行と戦う取り組みを支援している。 以前の研究では、ヘロイン依存の原因を議論しており、この現象は処方用オピオイドからの遷移であると説明する者や、様々な精神社会的要因を指摘する者もいる。 本研究は、ヘロイン消費量を予測するために、人格、人口動態、薬物摂取行動に関する自己報告情報を用いた。 遺伝的アルゴリズム (GA-SVM Hybrid) に最適化されたサポートベクトルマシンアルゴリズムを適用して, 予測特徴とモデルパラメータを同時に同定することにより, ヘロインの使用率を従来研究よりも正確に予測できるモデルを開発した。 すべての要因が予測力を持っていたが、これらの結果は、他の薬物(処方薬と違法の両方)の摂取が、精神社会的要因よりもヘロインの使用の予測因子が強いことを示した。 ヘロイン使用の強力な予測因子としての処方薬の使用は、発見を邪魔するが、ヘロイン使用と戦うのに役立つ。

There were over 70,000 drug overdose deaths in the USA in 2017. Almost half of those involved the use of Opioids such as Heroin. This research supports efforts to combat the Opioid Epidemic by further understanding factors that lead to Heroin consumption. Previous research has debated the cause of Heroin addiction, with some explaining the phenomenon as a transition from prescription Opioids, and others pointing to various psycho-social factors. This research used self-reported information about personality, demographics and drug consumption behavior to predict Heroin consumption. By applying a Support Vector Machine algorithm optimized with a Genetic Algorithm (GA-SVM Hybrid) to simultaneously identify predictive features and model parameters, this research produced several models that were more accurate in predicting Heroin use than those produced in previous studies. Although all factors had predictive power, these results showed that consumption of other drugs (both prescription and illicit) were stronger predictors of Heroin use than psycho-social factors. The use of prescription drugs as a strong predictor of Heroin use is an important though disturbing discovery but that can help combat Heroin use.
翻訳日:2021-03-24 13:42:06 公開日:2021-03-23
# スマートフォンを用いたマルチモーダル個人耳認証

Multimodal Personal Ear Authentication Using Smartphones ( http://arxiv.org/abs/2103.12575v1 )

ライセンス: Link先を確認
S. Itani, S. Kita and Y. Kajikawa(参考訳) 近年,指紋認証や顔認識が主流となって,スマートフォンの生体認証技術が普及している。 しかし、手が濡れている場合は指紋認証が使用できず、マスクを着用している場合には顔認識が使用できない。 そこで,スマートフォンにおける生体認証の新しいアプローチとしてピンナを用いた個人認証システムを提案する。 ピンナの音響伝達関数(PRTF: Pinna Related Transfer Function)に基づく認証システムについて検討した。 しかし,各測定値における位置変動により認証精度が低下する。 本稿では,PRTFを用いたスマートフォン上でのマルチモーダル個人認証を提案する。 PRTFでは、ピンナ画像と位置センサ情報を使用し、認証方法の有効性を検討した。 提案する認証システムは,各測定における位置変化を補償し,ロバスト性を向上させる。

In recent years, biometric authentication technology for smartphones has become widespread, with the mainstream methods being fingerprint authentication and face recognition. However, fingerprint authentication cannot be used when hands are wet, and face recognition cannot be used when a person is wearing a mask. Therefore, we examine a personal authentication system using the pinna as a new approach for biometric authentication on smartphones. Authentication systems based on the acoustic transfer function of the pinna (PRTF: Pinna Related Transfer Function) have been investigated. However, the authentication accuracy decreases due to the positional fluctuation across each measurement. In this paper, we propose multimodal personal authentication on smartphones using PRTF. The pinna image and positional sensor information are used with the PRTF, and the effectiveness of the authentication method is examined. We demonstrate that the proposed authentication system can compensate for the positional changes in each measurement and improve robustness.
翻訳日:2021-03-24 13:41:46 公開日:2021-03-23
# 自律載荷修正のためのニューラルネットワーク制御

Neural Network Controller for Autonomous Pile Loading Revised ( http://arxiv.org/abs/2103.12379v1 )

ライセンス: Link先を確認
Wenyan Yang, Nataliya Strokina, Nikolay Serbenyuk, Joni Pajarinen, Reza Ghabcheloo, Juho Vihonen, Mohammad M. Aref and Joni-Kristian K\"am\"ar\"ainen(参考訳) 我々は最近,人間の実演から学ぶ2つの積み荷制御器を提案した。ニューラルネットワーク(nnet)[1]とランダムフォレスト(rf)コントローラ[2]である。 フィールド実験では、RFコントローラは明らかにより良い成功率を得た。 本研究は,冬期における夏期訓練コントローラの実験により,前報を大幅に改善した。 冬の実験では、センサーの追加、トレーニングデータの追加、そしてこれらを活用できるコントローラーの必要性が明らかになった。 そこで本研究では,より表現力のある構造を有し,センサの重要な部分と制御信号に焦点を当てたニューラルアテンション機構を用いた改良ニューラルコントローラ(nnetv2)を提案する。 同じデータとセンサーを使って3つのコントローラーを訓練しテストし、NNetV2は劇的に変化する条件に対する堅牢性と、より優れた成功率を達成する。 私たちの知る限りでは、これは、屋外の状況が大幅に変化し、冬に高い成功率を達成して、夏にトレーニングされる、ヘビーデューティマシンの学習ベースのコントローラをテストする最初の作業です。

We have recently proposed two pile loading controllers that learn from human demonstrations: a neural network (NNet) [1] and a random forest (RF) controller [2]. In the field experiments the RF controller obtained clearly better success rates. In this work, the previous findings are drastically revised by experimenting summer time trained controllers in winter conditions. The winter experiments revealed a need for additional sensors, more training data, and a controller that can take advantage of these. Therefore, we propose a revised neural controller (NNetV2) which has a more expressive structure and uses a neural attention mechanism to focus on important parts of the sensor and control signals. Using the same data and sensors to train and test the three controllers, NNetV2 achieves better robustness against drastically changing conditions and superior success rate. To the best of our knowledge, this is the first work testing a learning-based controller for a heavy-duty machine in drastically varying outdoor conditions and delivering high success rate in winter, being trained in summer.
翻訳日:2021-03-24 13:41:03 公開日:2021-03-23
# Deep KKL: 非線形システムのデータ駆動出力予測

Deep KKL: Data-driven Output Prediction for Non-Linear Systems ( http://arxiv.org/abs/2103.12443v1 )

ライセンス: Link先を確認
Steeven Janny, Vincent Andrieu, Madiha Nadri, Christian Wolf(参考訳) 我々は出力予測の問題に対処します。 将来の観測を予測できる 自律非線形システムのモデルの設計 まず,このような出力予測器の開発に必要な特性をまとめる汎用フレームワークを定義する。 特に、制御理論とデータ駆動技術(機械学習)という2つの異なる視点からこの問題を考察し、一貫した方法で定式化し、2つの分野間のギャップを減らそうとする。 この定式化と問題定義に基づいて、Kazantzis-Kravaris/L uenberger(KKL)オブザーバに基づく予測構造を提案し、KKLが我々の一般的なフレームワークに適していることを示す。 最後に, この予測器に対して, システムから測定した軌道の小さな集合のみに依存する構成的解を提案する。 実験の結果,観測空間のサブセット上で効率的な予測器が得られることがわかった。

We address the problem of output prediction, ie. designing a model for autonomous nonlinear systems capable of forecasting their future observations. We first define a general framework bringing together the necessary properties for the development of such an output predictor. In particular, we look at this problem from two different viewpoints, control theory and data-driven techniques (machine learning), and try to formulate it in a consistent way, reducing the gap between the two fields. Building on this formulation and problem definition, we propose a predictor structure based on the Kazantzis-Kravaris/L uenberger (KKL) observer and we show that KKL fits well into our general framework. Finally, we propose a constructive solution for this predictor that solely relies on a small set of trajectories measured from the system. Our experiments show that our solution allows to obtain an efficient predictor over a subset of the observation space.
翻訳日:2021-03-24 13:40:46 公開日:2021-03-23
# 重みの表現的部分空間におけるreluネットワークの初期化

Initializing ReLU networks in an expressive subspace of weights ( http://arxiv.org/abs/2103.12499v1 )

ライセンス: Link先を確認
Dayal Singh and Sreejith G J(参考訳) 信号伝搬の平均場理論を用いて、相関重み付きReLUネットワークを介して伝播する2つの信号間の相関の進化を解析する。 信号は非相関重みを持つ深いReLUネットワークにおいて高い相関関係を持つ。 反相関重みを持つReLUネットワークは、この運命を回避でき、相関関係がユニタリ以下に飽和するカオス相を持つことを示す。 この分析と一致して,反相関重み付きネットワークは,カオス相における表現力の増大を生かして,より速く(教師と学生の環境で)訓練できることがわかった。 これを非対称初期化を用いてデッドルル確率を減少させる戦略と組み合わせることで、最もよく知られた方法よりも高速なトレーニングと学習を可能にする初期化スキームを提案する。

Using a mean-field theory of signal propagation, we analyze the evolution of correlations between two signals propagating through a ReLU network with correlated weights. Signals become highly correlated in deep ReLU networks with uncorrelated weights. We show that ReLU networks with anti-correlated weights can avoid this fate and have a chaotic phase where the correlations saturate below unity. Consistent with this analysis, we find that networks initialized with anti-correlated weights can train faster (in a teacher-student setting) by taking advantage of the increased expressivity in the chaotic phase. Combining this with a previously proposed strategy of using an asymmetric initialization to reduce dead ReLU probability, we propose an initialization scheme that allows faster training and learning than the best-known methods.
翻訳日:2021-03-24 13:40:32 公開日:2021-03-23
# 仮想フロー計測のためのグレーボックスモデリングについて

On gray-box modeling for virtual flow metering ( http://arxiv.org/abs/2103.12513v1 )

ライセンス: Link先を確認
Mathilde Hotvedt, Bjarne Grimstad, Dag Ljungquist, Lars Imsland(参考訳) 石油生産システムにおける流量の連続予測を可能にする仮想流量計(vfm)。 予測された流量は石油資産の日々の制御と最適化に役立つ可能性がある。 グレイボックスモデリングは、力学とデータ駆動モデリングを組み合わせたアプローチである。 目的は、機械的VFMよりも高精度で、データ駆動型VFMよりも科学的一貫性の高いVFMを作成することである。 本稿では,10個の石油井における5種類のグレーボックスモデルについて検討する。 この研究は、物理学とデータからの学習のバランスをとるという非自明なタスクに光を当てている。 その結果, 機械モデルにデータ駆動要素を組み込むことにより, モデル予測性能が向上し, 科学的一貫性が向上することが示唆された。 しかし、結果は利用可能なデータに影響される。 この発見は、オンライン学習といくつかの井戸のデータを取り入れた方法の利用に関する今後の研究を奨励するものである。

A virtual flow meter (VFM) enables continuous prediction of flow rates in petroleum production systems. The predicted flow rates may aid the daily control and optimization of a petroleum asset. Gray-box modeling is an approach that combines mechanistic and data-driven modeling. The objective is to create a VFM with higher accuracy than a mechanistic VFM, and with a higher scientific consistency than a data-driven VFM. This article investigates five different gray-box model types in an industrial case study on 10 petroleum wells. The study casts light upon the nontrivial task of balancing learning from physics and data. The results indicate that the inclusion of data-driven elements in a mechanistic model improves the predictive performance of the model while insignificantly influencing the scientific consistency. However, the results are influenced by the available data. The findings encourage future research into online learning and the utilization of methods that incorporate data from several wells.
翻訳日:2021-03-24 13:40:17 公開日:2021-03-23
# 微分可能なエージェントベースシミュレーションによる勾配誘導シミュレーションに基づく最適化

Differentiable Agent-Based Simulation for Gradient-Guided Simulation-Based Optimization ( http://arxiv.org/abs/2103.12476v1 )

ライセンス: Link先を確認
Philipp Andelfinger(参考訳) エージェントベースモデルを用いたシミュレーションに基づく最適化は、入力に対するシミュレーション出力の感度を記述する勾配を直接評価できないという仮定の下で行われる。 局所最適への最適化を効率的に行うグラデーションベース最適化法を引き続き適用し、グラデーション推定法を適用できるようにする。 しかし、入力次元が大きい場合の正確な推定を得るためには、多くのシミュレーション実行が必要である。 自動微分(automatic differentiation, aad)は、一般プログラムの勾配を直接計算する手法である。 本稿では、時間駆動エージェントベースシミュレーションにおけるADの利用について検討する。 条件分岐などの一般的な離散モデル要素をスムーズな近似で置換することにより、モデル論理における不連続性にまたがる勾配情報を得る。 微視的交通モデルと疫病モデルの例において、微分可能なモデルの忠実度とオーバーヘッド、勾配に基づく最適化による収束速度と解の質を、勾配のない手法と比較して検討する。 高入力次元の信号タイミング最適化問題では、勾配に基づく手法の方がかなり優れた性能を示す。 最後に,モデル論理に埋め込まれたニューラルネットワーク制御シミュレーションエンティティの勾配に基づくトレーニングを可能にすることを実証する。

Simulation-based optimization using agent-based models is typically carried out under the assumption that the gradient describing the sensitivity of the simulation output to the input cannot be evaluated directly. To still apply gradient-based optimization methods, which efficiently steer the optimization towards a local optimum, gradient estimation methods can be employed. However, many simulation runs are needed to obtain accurate estimates if the input dimension is large. Automatic differentiation (AD) is a family of techniques to compute gradients of general programs directly. Here, we explore the use of AD in the context of time-driven agent-based simulations. By substituting common discrete model elements such as conditional branching with smooth approximations, we obtain gradient information across discontinuities in the model logic. On the example of microscopic traffic models and an epidemics model, we study the fidelity and overhead of the differentiable models, as well as the convergence speed and solution quality achieved by gradient-based optimization compared to gradient-free methods. In traffic signal timing optimization problems with high input dimension, the gradient-based methods exhibit substantially superior performance. Finally, we demonstrate that the approach enables gradient-based training of neural network-controlled simulation entities embedded in the model logic.
翻訳日:2021-03-24 13:40:07 公開日:2021-03-23
# 単純錯体に対する有限インパルス応答フィルタ

Finite Impulse Response Filters for Simplicial Complexes ( http://arxiv.org/abs/2103.12587v1 )

ライセンス: Link先を確認
Maosheng Yang and Elvin Isufi and Michael T. Schaub and Geert Leus(参考訳) 本稿では,ノード,エッジ,三角形など,単純複素数上で定義された信号を処理する線形フィルタについて検討する。 単純なコンプレックスで、グラフ信号のフィルタリング操作を一般化します。 ホッジラプラシアンに基づく有限インパルス応答フィルタを提案し、このフィルタが単純化された信号のスペクトル成分の増幅や減衰にどのように役立つかを実証する。 具体的には、ノード信号とは異なり、エッジ信号の文脈におけるフーリエ変換が、ホッジ分解から生じる勾配-フロー信号とカール-フロー信号に対応する2つの直交部分空間でどのように理解できるかについて議論する。 ホッジラプラシアンの関連項に異なるフィルタ係数を割り当てることで、これらの信号タイプをよりニュアンスに制御できる部分空間可変フィルタを開発する。 サブコンポーネント抽出, 復調, モデル近似のための簡易フィルタの可能性を示す数値実験を行った。

In this paper, we study linear filters to process signals defined on simplicial complexes, i.e., signals defined on nodes, edges, triangles, etc. of a simplicial complex, thereby generalizing filtering operations for graph signals. We propose a finite impulse response filter based on the Hodge Laplacian, and demonstrate how this filter can be designed to amplify or attenuate certain spectral components of simplicial signals. Specifically, we discuss how, unlike in the case of node signals, the Fourier transform in the context of edge signals can be understood in terms of two orthogonal subspaces corresponding to the gradient-flow signals and curl-flow signals arising from the Hodge decomposition. By assigning different filter coefficients to the associated terms of the Hodge Laplacian, we develop a subspace-varying filter which enables more nuanced control over these signal types. Numerical experiments are conducted to show the potential of simplicial filters for sub-component extraction, denoising and model approximation.
翻訳日:2021-03-24 13:39:49 公開日:2021-03-23
# (参考訳) 強化学習と実証による産業会議のロバストなマルチモーダル政策--大規模研究 [全文訳有]

Robust Multi-Modal Policies for Industrial Assembly via Reinforcement Learning and Demonstrations: A Large-Scale Study ( http://arxiv.org/abs/2103.11512v2 )

ライセンス: CC BY 4.0
Jianlan Luo, Oleg Sushkov, Rugile Pevceviciute, Wenzhao Lian, Chang Su, Mel Vecerik, Ning Ye, Stefan Schaal, Jon Scholz(参考訳) 過去数年間、産業集合体への学習に基づくアプローチにかなりの研究投資がなされてきたが、大きな進歩にもかかわらず、これらの技術はまだ産業に採用されていない。 私たちは、この採用の欠如に対して真に責任を負うのは、アルゴリズム上の制限ではなく、深層強化学習(drl)のための、非常に大きな設計空間であると主張する。 これらのテクニックを産業の主流に押し込むには、学術的な考え方と大きく異なる産業指向のパラダイムが必要です。 本稿では,産業指向drlの基準を定義し,これら1つの学習手法であるdrlを,最近確立したnistアセンブリベンチマークにおいて,プロの産業インテグレータに対して徹底的に比較する。 設計の選択肢を説明し、数年にわたる調査を表現し、drlシステムは、速度と信頼性の両面で、インテグレータベースラインを一貫して上回ることを可能にしました。 最後に、DRLシステムと人間との競合を、ランダムに動くターゲットに挿入するチャレンジタスクで結論付ける。 この研究は、DRLが確立された技術アプローチだけでなく、人間のモーターシステムにも優れており、改善の余地が依然として大きいことを示唆している。 ビデオはプロジェクトのWebサイトで見ることができる。

Over the past several years there has been a considerable research investment into learning-based approaches to industrial assembly, but despite significant progress these techniques have yet to be adopted by industry. We argue that it is the prohibitively large design space for Deep Reinforcement Learning (DRL), rather than algorithmic limitations per se, that are truly responsible for this lack of adoption. Pushing these techniques into the industrial mainstream requires an industry-oriented paradigm which differs significantly from the academic mindset. In this paper we define criteria for industry-oriented DRL, and perform a thorough comparison according to these criteria of one family of learning approaches, DRL from demonstration, against a professional industrial integrator on the recently established NIST assembly benchmark. We explain the design choices, representing several years of investigation, which enabled our DRL system to consistently outperform the integrator baseline in terms of both speed and reliability. Finally, we conclude with a competition between our DRL system and a human on a challenge task of insertion into a randomly moving target. This study suggests that DRL is capable of outperforming not only established engineered approaches, but the human motor system as well, and that there remains significant room for improvement. Videos can be found on our project website: https://sites.google .com/view/shield-nis t.
翻訳日:2021-03-24 12:10:22 公開日:2021-03-23
# (参考訳) 深層学習による酵母顕微鏡画像の生成とシミュレーション

Generation and Simulation of Yeast Microscopy Imagery with Deep Learning ( http://arxiv.org/abs/2103.11834v2 )

ライセンス: CC BY-SA 4.0
Christoph Reich(参考訳) 時間経過蛍光顕微鏡(tlfm)は、合成生物学研究において重要かつ強力なツールである。 実データに基づくtlfm実験のモデリングにより、研究者はわずかな労力で実験を繰り返すことができる。 この論文は、画像レベルでのTLFM実験の深層学習に基づくモデリングに関する研究である。 TLFM実験のモデル化は、酵母細胞を捕獲した例によって、2つのタスクに分けられる。 最初の課題は、実画像データに基づいて合成画像データを生成することである。 この問題を解決するために,条件付きおよび無条件画像生成のための新しい生成型逆ネットワークを提案する。 第2の課題は、複数の離散時間ステップにおけるブライトフィールド顕微鏡画像のシミュレーションである。 このシミュレーションタスクに取り組むために、高度な将来のフレーム予測モデルが導入される。 提案したモデルは、この論文で提示された新しいデータセットでトレーニングされ、テストされる。 その結果,深層学習によるtlfm実験のモデル化は適切なアプローチであるが,実世界の実験を効果的にモデル化するには今後の研究が必要であることがわかった。

Time-lapse fluorescence microscopy (TLFM) is an important and powerful tool in synthetic biological research. Modeling TLFM experiments based on real data may enable researchers to repeat certain experiments with minor effort. This thesis is a study towards deep learning-based modeling of TLFM experiments on the image level. The modeling of TLFM experiments, by way of the example of trapped yeast cells, is split into two tasks. The first task is to generate synthetic image data based on real image data. To approach this problem, a novel generative adversarial network, for conditionalized and unconditionalized image generation, is proposed. The second task is the simulation of brightfield microscopy images over multiple discrete time-steps. To tackle this simulation task an advanced future frame prediction model is introduced. The proposed models are trained and tested on a novel dataset that is presented in this thesis. The obtained results showed that the modeling of TLFM experiments, with deep learning, is a proper approach, but requires future research to effectively model real-world experiments.
翻訳日:2021-03-24 11:40:49 公開日:2021-03-23
# 教師なしアクションセグメンテーションのための時間重み付き階層クラスタリング

Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation ( http://arxiv.org/abs/2103.11264v2 )

ライセンス: Link先を確認
M. Saquib Sarfraz, Naila Murray, Vivek Sharma, Ali Diba, Luc Van Gool, Rainer Stiefelhagen(参考訳) アクションセグメンテーション(action segmentation)とは、ビデオにおける意味的に一貫した視覚概念の境界を推測することであり、多くのビデオ理解タスクにおいて重要な要件である。 これと他のビデオ理解タスクのために、監督されたアプローチはパフォーマンスを奨励するが、フレームレベルの詳細なアノテーションを必要とする。 ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。 提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。 我々の主な発見は、時間進行を考慮し、1-nearestの隣のグラフでビデオを表現することで、各クラスタがビデオ内の何らかのアクションを表現できる、意味的かつ時間的に一貫したフレームのクラスタを形成するのに十分であるということです。 さらに、アクションセグメンテーションのための強力な教師なしベースラインを確立し、5つの挑戦的アクションセグメンテーションデータセット上の教師なしメソッドよりも優れたパフォーマンス改善を示す。 また,これら4つのデータセットにおいて,弱教師付きメソッドを大きなマージンで上回る手法を提案する。 興味深いことに、これらのデータセットで結果を報告した多くの完全教師付き手法よりも優れた結果が得られる。 私たちのコードはhttps://github.com/s sarfraz/FINCH-Cluste ring/tree/master/TW- FINCHで利用可能です。

Action segmentation refers to inferring boundaries of semantically consistent visual concepts in videos and is an important requirement for many video understanding tasks. For this and other video understanding tasks, supervised approaches have achieved encouraging performance but require a high volume of detailed frame-level annotations. We present a fully automatic and unsupervised approach for segmenting actions in a video that does not require any training. Our proposal is an effective temporally-weighted hierarchical clustering algorithm that can group semantically consistent frames of the video. Our main finding is that representing a video with a 1-nearest neighbor graph by taking into account the time progression is sufficient to form semantically and temporally consistent clusters of frames where each cluster may represent some action in the video. Additionally, we establish strong unsupervised baselines for action segmentation and show significant performance improvements over published unsupervised methods on five challenging action segmentation datasets. Our approach also outperforms weakly-supervised methods by large margins on 4 of these datasets. Interestingly, we also achieve better results than many fully-supervised methods that have reported results on these datasets. Our code is available at https://github.com/s sarfraz/FINCH-Cluste ring/tree/master/TW- FINCH
翻訳日:2021-03-24 11:38:20 公開日:2021-03-23
# NameRec*: 高精度できめ細かい人物名認識

NameRec*: Highly Accurate and Fine-grained Person Name Recognition ( http://arxiv.org/abs/2103.11360v2 )

ライセンス: Link先を確認
Rui Zhang, Yimeng Dai, Shijie Liu(参考訳) 本稿では,高精度できめ細かい人物名認識を目的としたNameRec*タスクを提案する。 従来の名前付きエンティティ認識モデルは、ニュース記事のような一貫性のある完全な構文を持つテキストから、よくできた人名を認識するのに優れたパフォーマンスを持つ。 しかし, 文が不完全な構文であり, ユーザ生成コンテンツや学術ホームページなど, 名称が多様であるケースが急速に増えている。 この文脈で人名認識に対処するために,人類学に基づく微粒なアノテーションスキームを提案する。 粒度の細かいアノテーションを最大限に活用するために,人名認識のためのコグナーニューラルネットワーク(CogNN)を提案する。 CogNNは、名前形式の文内コンテキストと豊富な訓練信号を完全に探求している。 長期文書における人物の認識に極めて不可欠である文間コンテキストと暗黙の関係をよりよく活用するために,文間BERTモデル(IsBERT)を提案する。 IsBERTは重なり合う入力プロセッサと、双方向重なり合うコンテキスト埋め込み学習とマルチホップ推論機構を備えた文間エンコーダを備えている。 多様な文脈を持つ異なる文書から利益を得るため、異なる文書に対する相互関係重なり比を動的に調整する高度な適応的相互関係bertモデル(ada-isbert)を提案する。 学術ホームページとニュース記事の両方において,提案手法の優越性を示すため,広範な実験を行った。

In this paper, we introduce the NameRec* task, which aims to do highly accurate and fine-grained person name recognition. Traditional Named Entity Recognition models have good performance in recognising well-formed person names from text with consistent and complete syntax, such as news articles. However, there are rapidly growing scenarios where sentences are of incomplete syntax and names are in various forms such as user-generated contents and academic homepages. To address person name recognition in this context, we propose a fine-grained annotation scheme based on anthroponymy. To take full advantage of the fine-grained annotations, we propose a Co-guided Neural Network (CogNN) for person name recognition. CogNN fully explores the intra-sentence context and rich training signals of name forms. To better utilize the inter-sentence context and implicit relations, which are extremely essential for recognizing person names in long documents, we further propose an Inter-sentence BERT Model (IsBERT). IsBERT has an overlapped input processor, and an inter-sentence encoder with bidirectional overlapped contextual embedding learning and multi-hop inference mechanisms. To derive benefit from different documents with a diverse abundance of context, we propose an advanced Adaptive Inter-sentence BERT Model (Ada-IsBERT) to dynamically adjust the inter-sentence overlapping ratio to different documents. We conduct extensive experiments to demonstrate the superiority of the proposed methods on both academic homepages and news articles.
翻訳日:2021-03-24 11:38:02 公開日:2021-03-23
# TDIOT:ディープビデオオブジェクト追跡のためのターゲット駆動推論

TDIOT: Target-driven Inference for Deep Video Object Tracking ( http://arxiv.org/abs/2103.11017v2 )

ライセンス: Link先を確認
Filiz Gurkan, Llukman Cerkezi, Ozgun Cirakman, Bilge Gunsel(参考訳) 最近のトラッキングバイ検出アプローチでは、静止画像で高い性能を発揮するため、深部物体検出をターゲット検出ベースラインとして使用している。 効果的なビデオオブジェクト追跡のために、オブジェクト検出は、カスタムデザイン推論アーキテクチャまたはトラッキング目的のためのエンドツーエンドのジョイントトレーニングによって実行されるデータ関連ステップと統合される。 本研究では,従来のアプローチを採用し,トレーニング済みのMask R-CNNディープオブジェクト検出器をベースラインとして利用する。 マスクr-cnnのfpn-resnet101バックボーン上に配置した新しい推論アーキテクチャを導入し,追跡目的のための追加のトレーニングを必要とせず,検出と追跡を共同で行う。 提案する単一オブジェクトトラッカであるtdiotは、データアソシエーションに外観類似性に基づく時間マッチングを適用する。 追跡不連続性に対処するため,短期追跡のためにSiamFCを利用する推論ヘッド層に局所探索およびマッチングモジュールを組み込む。 さらに,スケール変化に対するロバスト性を向上させるために,ターゲットのトレースによって指定された適応的に拡大した空間近傍でターゲットを探索できるスケール適応領域提案ネットワークを提案する。 長期追跡要件を満たすために、lbpヒストグラムモデルに基づいてターゲットの存在を監視するために、低コスト検証層を推論アーキテクチャに組み込む。 VOT2016、VOT2018、VOT-LT2018データセットのビデオのパフォーマンス評価では、TDIOTは最先端の短期トラッカーに比べて精度が高く、長期追跡では同等のパフォーマンスを提供する。

Recent tracking-by-detectio n approaches use deep object detectors as target detection baseline, because of their high performance on still images. For effective video object tracking, object detection is integrated with a data association step performed by either a custom design inference architecture or an end-to-end joint training for tracking purpose. In this work, we adopt the former approach and use the pre-trained Mask R-CNN deep object detector as the baseline. We introduce a novel inference architecture placed on top of FPN-ResNet101 backbone of Mask R-CNN to jointly perform detection and tracking, without requiring additional training for tracking purpose. The proposed single object tracker, TDIOT, applies an appearance similarity-based temporal matching for data association. In order to tackle tracking discontinuities, we incorporate a local search and matching module into the inference head layer that exploits SiamFC for short term tracking. Moreover, in order to improve robustness to scale changes, we introduce a scale adaptive region proposal network that enables to search the target at an adaptively enlarged spatial neighborhood specified by the trace of the target. In order to meet long term tracking requirements, a low cost verification layer is incorporated into the inference architecture to monitor presence of the target based on its LBP histogram model. Performance evaluation on videos from VOT2016, VOT2018 and VOT-LT2018 datasets demonstrate that TDIOT achieves higher accuracy compared to the state-of-the-art short-term trackers while it provides comparable performance in long term tracking.
翻訳日:2021-03-24 11:37:38 公開日:2021-03-23
# TICaM: 飛行中の車載キャビンモニタリングデータセット

TICaM: A Time-of-flight In-car Cabin Monitoring Dataset ( http://arxiv.org/abs/2103.11719v2 )

ライセンス: Link先を確認
Jigyasa Singh Katrolia, Bruno Mirbach, Ahmed El-Sherif, Hartmut Feld, Jason Rambach, Didier Stricker(参考訳) 広角深度カメラを用いた車両内監視のための飛行時間内キャビン監視データセットであるTICaMを提案する。 当社のデータセットは,ラベル付きクラスや記録されたシナリオ,アノテーションなど,現在利用可能な車内データセットの不足に対処しています。 運転中の動作の徹底したリストを記録し,マルチモーダルラベル付き画像(深度,rgb,ir)に対して,2dおよび3dオブジェクト検出,インスタンスおよび意味セグメンテーション,rgbフレームのアクティビティアノテーションの完全なアノテーションを提供する。 実写に加えて,同種の画像とアノテーションを用いた車室内画像の合成データセットも提供し,車室内監視システムを効果的に訓練し,ドメイン適応アプローチを評価するために,合成データと実データを組み合わせたユニークな,極めて有益な組み合わせを提供する。 データセットはhttps://vizta-tof.kl .dfki.de/で入手できる。

We present TICaM, a Time-of-flight In-car Cabin Monitoring dataset for vehicle interior monitoring using a single wide-angle depth camera. Our dataset addresses the deficiencies of currently available in-car cabin datasets in terms of the ambit of labeled classes, recorded scenarios and provided annotations; all at the same time. We record an exhaustive list of actions performed while driving and provide for them multi-modal labeled images (depth, RGB and IR), with complete annotations for 2D and 3D object detection, instance and semantic segmentation as well as activity annotations for RGB frames. Additional to real recordings, we provide a synthetic dataset of in-car cabin images with same multi-modality of images and annotations, providing a unique and extremely beneficial combination of synthetic and real data for effectively training cabin monitoring systems and evaluating domain adaptation approaches. The dataset is available at https://vizta-tof.kl .dfki.de/.
翻訳日:2021-03-24 11:37:17 公開日:2021-03-23
# DeepViT:より深いビジョントランスを目指して

DeepViT: Towards Deeper Vision Transformer ( http://arxiv.org/abs/2103.11886v2 )

ライセンス: Link先を確認
Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Qibin Hou, Jiashi Feng(参考訳) 近年,視覚変換器 (ViT) が画像分類タスクに応用されている。 本稿では、より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深くスケールすると急速に飽和することを示す。 より具体的には、このようなスケーリングの難しさは注意の崩壊の問題によって引き起こされていると経験的に観察する。 言い換えれば、機能マップは深いViTモデルの上位層で同一である傾向がある。 この事実は、ViTの深い層では、自己認識メカニズムが表現学習の効果的な概念を学習できず、期待されるパフォーマンス向上を妨げていることを示している。 上記の観察に基づいて,注意マップを再生成し,異なる層におけるその多様性を無視できる計算量とメモリコストで高めるための,単純かつ効果的な手法であるre-attentionを提案する。 提案手法により、既存のViTモデルに小さな修正を加えることで、より深いViTモデルを一貫した性能で訓練することが可能となる。 特に、32個のトランスブロックを持つ深部ViTモデルのトレーニングでは、ImageNet上でTop-1の分類精度が1.6%向上する。 コードは公開されます

Vision transformers (ViTs) have been successfully applied in image classification tasks recently. In this paper, we show that, unlike convolution neural networks (CNNs)that can be improved by stacking more convolutional layers, the performance of ViTs saturate fast when scaled to be deeper. More specifically, we empirically observe that such scaling difficulty is caused by the attention collapse issue: as the transformer goes deeper, the attention maps gradually become similar and even much the same after certain layers. In other words, the feature maps tend to be identical in the top layers of deep ViT models. This fact demonstrates that in deeper layers of ViTs, the self-attention mechanism fails to learn effective concepts for representation learning and hinders the model from getting expected performance gain. Based on above observation, we propose a simple yet effective method, named Re-attention, to re-generate the attention maps to increase their diversity at different layers with negligible computation and memory cost. The pro-posed method makes it feasible to train deeper ViT models with consistent performance improvements via minor modification to existing ViT models. Notably, when training a deep ViT model with 32 transformer blocks, the Top-1 classification accuracy can be improved by 1.6% on ImageNet. Code will be made publicly available
翻訳日:2021-03-24 11:37:00 公開日:2021-03-23
# ベイズ分布政策の勾配

Bayesian Distributional Policy Gradients ( http://arxiv.org/abs/2103.11265v2 )

ライセンス: Link先を確認
Luchen Li, A. Aldo Faisal(参考訳) distributional reinforcement learning (rl) は報酬から解放までの確率分布全体を維持している。 このリターンは、政策パフォーマンスに関連する不確実性を考慮したより多くの学習シグナルを提供することで、探索や搾取、政策学習全般の取引に有益である可能性がある。 分散RLにおける従来の研究は、状態-作用-復帰分布の計算を中心に、状態-復帰分布をモデル化する。 これにより、状態値に基づく従来のRLアルゴリズムを分散RLに変換することができる。 分布ベルマン演算を,ターゲット/モデルリターン分布間のwassersteinメトリックを最小化する推論に基づく自動エンコーディングプロセスとして定式化する。 提案アルゴリズムであるBDPG (Bayesian Distributional Policy Gradients) は,共用コントラスト学習における逆方向学習を用いて回帰から変動後部を推定する。 さらに, 回帰予測の不確かさを情報ゲインとして解釈し, bdpgの探索を活発かつ効率的に支援する新たな好奇心の指標を得ることができた。 我々は,Atari 2600 ゲームと MuJoCo タスクのスイートにおいて,BDPG が参照分布 RL アルゴリズムよりも一般に速く,漸近的な性能で学習する方法を実証する。

Distributional Reinforcement Learning (RL) maintains the entire probability distribution of the reward-to-go, i.e. the return, providing more learning signals that account for the uncertainty associated with policy performance, which may be beneficial for trading off exploration and exploitation and policy learning in general. Previous works in distributional RL focused mainly on computing the state-action-return distributions, here we model the state-return distributions. This enables us to translate successful conventional RL algorithms that are based on state values into distributional RL. We formulate the distributional Bellman operation as an inference-based auto-encoding process that minimises Wasserstein metrics between target/model return distributions. The proposed algorithm, BDPG (Bayesian Distributional Policy Gradients), uses adversarial training in joint-contrastive learning to estimate a variational posterior from the returns. Moreover, we can now interpret the return prediction uncertainty as an information gain, which allows to obtain a new curiosity measure that helps BDPG steer exploration actively and efficiently. We demonstrate in a suite of Atari 2600 games and MuJoCo tasks, including well known hard-exploration challenges, how BDPG learns generally faster and with higher asymptotic performance than reference distributional RL algorithms.
翻訳日:2021-03-24 11:36:37 公開日:2021-03-23
# Deep Hedging: リスクニュートラルによるボラティリティダイナミクスの学習

Deep Hedging: Learning Risk-Neutral Implied Volatility Dynamics ( http://arxiv.org/abs/2103.11948v2 )

ライセンス: Link先を確認
Hans Buehler, Phillip Murray, Mikko S. Pakkanen, Ben Wood(参考訳) 本研究では, コンベックス取引コストと凸取引制約下での有限地平線まで, 模擬スポットとオプション価格の経路に対するリスク中立度を数値的に効率よく学習する手法を提案する。 このアプローチは、次の2ステップで確率的含意ボラティリティモデルを実装するのに使うことができる。 最近議論したように、オプション価格の市場シミュレータをトレーニングする。 リスク・ニュートラル密度、特に極小エントロピー・マーティンゲール測度を見つける。 結果として得られるモデルは、リスク中立的な価格設定や、トランザクションコストやトレーディング制約の場合にDeep Hedgingに使用できる。 提案手法を動機付けるために,市場ダイナミクスがリスク中立的手法に従う場合に限り,取引コストの欠如による「統計的仲裁」を免れることを示した。 さらに、凸取引コストや取引制約が存在する場合のより一般的な特徴も提供します。 これらの結果は、取引摩擦下での統計的仲裁のための資産価格の基本的な定理の類似と見なされ、独立した関心を持つ。

We present a numerically efficient approach for learning a risk-neutral measure for paths of simulated spot and option prices up to a finite horizon under convex transaction costs and convex trading constraints. This approach can then be used to implement a stochastic implied volatility model in the following two steps: 1. Train a market simulator for option prices, as discussed for example in our recent; 2. Find a risk-neutral density, specifically the minimal entropy martingale measure. The resulting model can be used for risk-neutral pricing, or for Deep Hedging in the case of transaction costs or trading constraints. To motivate the proposed approach, we also show that market dynamics are free from "statistical arbitrage" in the absence of transaction costs if and only if they follow a risk-neutral measure. We additionally provide a more general characterization in the presence of convex transaction costs and trading constraints. These results can be seen as an analogue of the fundamental theorem of asset pricing for statistical arbitrage under trading frictions and are of independent interest.
翻訳日:2021-03-24 11:36:16 公開日:2021-03-23
# リチウムイオン電池の電気化学モデリングと機械学習の統合

Integrating Electrochemical Modeling with Machine Learning for Lithium-Ion Batteries ( http://arxiv.org/abs/2103.11580v2 )

ライセンス: Link先を確認
Hao Tu, Scott Moura, Huazhen Fang(参考訳) リチウムイオン電池(LiBs)の数学的モデリングは、高度な電池管理において重要な課題である。 本稿では,LiBの高精度モデリングを実現するために,物理モデルと機械学習を統合する新しい手法を提案する。 このアプローチは、物理モデルの動的状態を機械学習モデルに通知することを提案し、物理と機械学習の深い統合を可能にする。 本稿では,1粒子モデルと熱力学(SPMT)をフィードフォワードニューラルネットワーク(FNN)とを混合して,LiBの動的挙動の物理インフォームド学習を行うアプローチに基づく2つのハイブリッド物理機械学習モデルを提案する。 提案したモデルは構造的に比較的類似しており、広範囲なシミュレーションで示されるように、高いCレートでもかなりの予測精度が得られる。

Mathematical modeling of lithium-ion batteries (LiBs) is a central challenge in advanced battery management. This paper presents a new approach to integrate a physics-based model with machine learning to achieve high-precision modeling for LiBs. This approach uniquely proposes to inform the machine learning model of the dynamic state of the physical model, enabling a deep integration between physics and machine learning. We propose two hybrid physics-machine learning models based on the approach, which blend a single particle model with thermal dynamics (SPMT) with a feedforward neural network (FNN) to perform physics-informed learning of a LiB's dynamic behavior. The proposed models are relatively parsimonious in structure and can provide considerable predictive accuracy even at high C-rates, as shown by extensive simulations.
翻訳日:2021-03-24 11:35:59 公開日:2021-03-23
# 境界属性は正規(ベクトル)説明を与える

Boundary Attributions Provide Normal (Vector) Explanations ( http://arxiv.org/abs/2103.11257v2 )

ライセンス: Link先を確認
Zifan Wang, Matt Fredrikson, Anupam Datta(参考訳) 近年、Deep Neural Networks (DNN) の説明研究は、入力機能に対するモデルの出力スコアの寄与に焦点を当てている。 しかし、分類問題に関して、より根本的な問題は、各機能がモデルの入力インスタンスを特定のクラスに分類する決定にどの程度貢献しているかである。 最初のコントリビューションは境界属性(Boundary Attribution)です。 BAは活性化領域の幾何学的理解を利用する。 具体的には、ターゲット入力に対する局所的な決定境界の正規ベクトルを計算(および集約)する。 第2の貢献は,ネットワークの対向的ロバスト性と勾配に基づく説明の質を結びつけた分析結果のセットである。 具体的には、2つの定理をReLUネットワークに対して証明する: ランダム化されたスムーズなネットワークのBAや頑健に訓練されたネットワークは、標準ネットワークよりも非有界帰属法に近い。 これらの分析は、高品質な説明のためのモデルロバスト性を改善することをユーザに促している。 最後に,imagenetにおける提案手法を評価し,basが非境界画像に比べてより集中的かつシャープな可視化を実現することを示す。 さらに,本手法は,必要であればベースライン入力に対する帰属感度の低減にも寄与することを示す。

Recent work on explaining Deep Neural Networks (DNNs) focuses on attributing the model's output scores to input features. However, when it comes to classification problems, a more fundamental question is how much does each feature contributes to the model's decision to classify an input instance into a specific class. Our first contribution is Boundary Attribution, a new explanation method to address this question. BA leverages an understanding of the geometry of activation regions. Specifically, they involve computing (and aggregating) normal vectors of the local decision boundaries for the target input. Our second contribution is a set of analytical results connecting the adversarial robustness of the network and the quality of gradient-based explanations. Specifically, we prove two theorems for ReLU networks: BA of randomized smoothed networks or robustly trained networks is much closer to non-boundary attribution methods than that in standard networks. These analytics encourage users to improve model robustness for high-quality explanations. Finally, we evaluate the proposed methods on ImageNet and show BAs produce more concentrated and sharper visualizations compared with non-boundary ones. We further demonstrate that our method also helps to reduce the sensitivity of attributions to the baseline input if one is required.
翻訳日:2021-03-24 11:35:46 公開日:2021-03-23