このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211105となっている論文です。

PDF登録状況(公開日: 20211105)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) SPANN: 高効率な数十億ドル規模の近似的近隣検索 [全文訳有]

SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2111.08566v1 )

ライセンス: CC BY 4.0
Qi Chen, Bing Zhao, Haidong Wang, Mingqin Li, Chuanjie Liu, Zengzhong Li, Mao Yang, Jingdong Wang(参考訳) 近距離探索(anns)のためのインメモリアルゴリズムは高速高リコール検索で大きな成功を収めているが、大規模データベースを扱う場合は非常に高価である。 そのため、小型メモリと安価なソリッドステートドライブ(SSD)を備えたハイブリッドANNSソリューションの要求が高まっている。 本稿では,逆インデックス手法に準拠した簡易かつ効率的なメモリ・ディスクハイブリッドインデックス・検索システムspannを提案する。 ポストリストのセントロイドポイントをメモリに、大きなポストリストをディスクに格納する。 ディスクアクセス数を効果的に削減し、高品質なポストリストを取得することにより、ディスクアクセス効率(低レイテンシ)と高リコールの両方を保証します。 インデックス構築段階では,ポストリストの長さのバランスをとるために階層的均衡クラスタリングアルゴリズムを採用し,対応するクラスタのクロージャにポイントを追加することでポストリストを拡大する。 検索段階では、クエリ対応スキームを使用して不要な投稿リストへのアクセスを動的にプルークする。 実験の結果、SPANNは最先端のANNSソリューションであるDiskANNよりも2$\times$速く、同じリコール品質に到達し、30億スケールのデータセットで同じメモリコストで90$%であることがわかった。 約1ミリ秒で$90\%$ recall@1 と recall@10 に到達でき、メモリは32gbに抑えられる。 コードは次の通りである。 {\footnotesize\color{blue}{\url{https://github.com/m icrosoft/SPTAG}}}。

The in-memory algorithms for approximate nearest neighbor search (ANNS) have achieved great success for fast high-recall search, but are extremely expensive when handling very large scale database. Thus, there is an increasing request for the hybrid ANNS solutions with small memory and inexpensive solid-state drive (SSD). In this paper, we present a simple but efficient memory-disk hybrid indexing and search system, named SPANN, that follows the inverted index methodology. It stores the centroid points of the posting lists in the memory and the large posting lists in the disk. We guarantee both disk-access efficiency (low latency) and high recall by effectively reducing the disk-access number and retrieving high-quality posting lists. In the index-building stage, we adopt a hierarchical balanced clustering algorithm to balance the length of posting lists and augment the posting list by adding the points in the closure of the corresponding clusters. In the search stage, we use a query-aware scheme to dynamically prune the access of unnecessary posting lists. Experiment results demonstrate that SPANN is 2$\times$ faster than the state-of-the-art ANNS solution DiskANN to reach the same recall quality $90\%$ with same memory cost in three billion-scale datasets. It can reach $90\%$ recall@1 and recall@10 in just around one millisecond with only 32GB memory cost. Code is available at: {\footnotesize\color{blue}{\url{https://github.com/m icrosoft/SPTAG}}}.
翻訳日:2021-11-21 16:38:49 公開日:2021-11-05
# AIを用いた公衆衛生決定におけるデジタル重力の克服

Overcoming Digital Gravity when using AI in Public Health Decisions ( http://arxiv.org/abs/2111.07779v1 )

ライセンス: Link先を確認
Sekou L Remy, Aisha Walcott-Bryant, Nelson K Bore, Charles M Wachira, Julian Kuenhert(参考訳) 一般的な用途では、データ重力(data gravity)とは、データ本体がアプリケーション、サービス、その他のデータを引き付ける能力を指す。 本稿では、データだけでなく、ai/mlワークフローの他の要素を含む、より広い概念である「デジタル重力」を紹介します。 このコンセプトは、公衆衛生環境での使用を目的とした、AIベースの意思決定支援プラットフォームの開発とデプロイに関する最近の経験から生まれたものです。 データに加えて、コンピューティング(インフラストラクチャとソフトウェア)、DevSecOps(人事とプラクティス)、アルゴリズム/プログラム、コントロールプレーン、ミドルウェア(プログラムとは別々に考える)、さらには企業/サービスプロバイダなども考慮されている。 ディジタル重力が導入経路に与える影響を議論し,それに起因する摩擦を概念化し緩和するための予備的アプローチを提案する。

In popular usage, Data Gravity refers to the ability of a body of data to attract applications, services and other data. In this work we introduce a broader concept, "Digital Gravity" which includes not just data, but other elements of the AI/ML workflow. This concept is born out of our recent experiences in developing and deploying an AI-based decision support platform intended for use in a public health context. In addition to data, examples of additional considerations are compute (infrastructure and software), DevSecOps (personnel and practices), algorithms/programs, control planes, middleware (considered separately from programs), and even companies/service providers. We discuss the impact of Digital Gravity on the pathway to adoption and suggest preliminary approaches to conceptualize and mitigate the friction caused by it.
翻訳日:2021-11-21 14:52:06 公開日:2021-11-05
# 多面ビデオにおける視覚-聴覚の塩分予測と音源定位に関する共同学習

Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos ( http://arxiv.org/abs/2111.08567v1 )

ライセンス: Link先を確認
Minglang Qiao, Yufan Liu, Mai Xu, Xin Deng, Bing Li, Weiming Hu, Ali Borji(参考訳) 視覚イベントと音声イベントが同時に発生し、双方が注目を集める。 しかし、既存のサリエンシ予測は音声の影響を無視し、視覚のモダリティのみを考慮する。 本稿では,視覚,音声,顔の情報を活用し,多面映像におけるビジュアル・オーディオ・サリエンシー予測と音源定位のためのマルチタスク学習手法を提案する。 具体的には、視線追跡データと音源アノテーションを含む視覚音響条件(MVVA)における多面映像の大規模データベースについて紹介する。 このデータベースを用いて、音が人間の注意に影響を与え、会話的注意は多面ビデオの音源を決定する手がかりとなる。 これらの結果から,視覚聴覚マルチタスクネットワーク (vam-net) を導入し,サリエンシーの予測と音源の同定を行った。 VAM-Netは視覚、オーディオ、顔のモダリティに対応する3つのブランチで構成される。 ビジュアルブランチは、空間的および時間的情報をキャプチャする2ストリームアーキテクチャを持つ。 顔と音声の分岐は、それぞれ音声信号と顔を符号化する。 最後に、複数の面間の相互作用をモデル化するために、時空間マルチモーダルグラフ(STMG)を構築する。 これらの分岐を共同で最適化することにより、相性予測や音源定位といったタスクの本質的な相関を生かし、その性能を向上する。 実験により,提案手法は,現在進行中のサリエンシー予測手法12を上回り,音源定位における競合結果を得ることができた。

Visual and audio events simultaneously occur and both attract attention. However, most existing saliency prediction works ignore the influence of audio and only consider vision modality. In this paper, we propose a multitask learning method for visual-audio saliency prediction and sound source localization on multi-face video by leveraging visual, audio and face information. Specifically, we first introduce a large-scale database of multi-face video in visual-audio condition (MVVA), containing eye-tracking data and sound source annotations. Using this database, we find that sound influences human attention, and conversly attention offers a cue to determine sound source on multi-face video. Guided by these findings, a visual-audio multi-task network (VAM-Net) is introduced to predict saliency and locate sound source. VAM-Net consists of three branches corresponding to visual, audio and face modalities. Visual branch has a two-stream architecture to capture spatial and temporal information. Face and audio branches encode audio signals and faces, respectively. Finally, a spatio-temporal multi-modal graph (STMG) is constructed to model the interaction among multiple faces. With joint optimization of these branches, the intrinsic correlation of the tasks of saliency prediction and sound source localization is utilized and their performance is boosted by each other. Experiments show that the proposed method outperforms 12 state-of-the-art saliency prediction methods, and achieves competitive results in sound source localization.
翻訳日:2021-11-21 14:51:51 公開日:2021-11-05
# 混合整数線形プログラミング問題における分岐と境界:技術と動向の調査

Branch and Bound in Mixed Integer Linear Programming Problems: A Survey of Techniques and Trends ( http://arxiv.org/abs/2111.06257v1 )

ライセンス: Link先を確認
Lingying Huang, Xiaomeng Chen, Wei Huo, Jiazheng Wang, Fan Zhang, Bo Bai, Ling Shi(参考訳) 本稿では, 分岐変数選択, ノード選択, ノードプルーニング, 切削平面選択という, 一般分岐境界(B&B)アルゴリズムにおける4つの臨界成分に対する異なるアプローチとアルゴリズムについて検討した。 しかし、B&Bアルゴリズムの複雑さは常に決定変数次元の増加に関して指数関数的に増大する。 近年,B&Bアルゴリズムの高速化のために,このアルゴリズムに学習技術が導入されている。 さらに、B&Bアルゴリズムの4つの重要なコンポーネントを改善するために機械学習をどのように利用できるかを調査した。 一般に、教師付き学習法は、専門家を模倣するが、速度を大幅に改善するポリシーを生成するのに役立つ。 教師なし学習法は、特徴に基づいて異なる方法を選択するのに役立つ。 さらに、強化学習で訓練されたモデルは、十分なトレーニングと教師付き初期化によって専門家の方針を破ることができる。 異なるアルゴリズム間の詳細な比較が調査にまとめられている。 最後に,論文におけるアルゴリズムのさらなる高速化と改良に向けた今後の研究の方向性について論じる。

In this paper, we surveyed the existing literature studying different approaches and algorithms for the four critical components in the general branch and bound (B&B) algorithm, namely, branching variable selection, node selection, node pruning, and cutting-plane selection. However, the complexity of the B&B algorithm always grows exponentially with respect to the increase of the decision variable dimensions. In order to improve the speed of B&B algorithms, learning techniques have been introduced in this algorithm recently. We further surveyed how machine learning can be used to improve the four critical components in B&B algorithms. In general, a supervised learning method helps to generate a policy that mimics an expert but significantly improves the speed. An unsupervised learning method helps choose different methods based on the features. In addition, models trained with reinforcement learning can beat the expert policy, given enough training and a supervised initialization. Detailed comparisons between different algorithms have been summarized in our survey. Finally, we discussed some future research directions to accelerate and improve the algorithms further in the literature.
翻訳日:2021-11-14 15:27:24 公開日:2021-11-05
# (参考訳) 深部強化学習によるRNA二次構造設計の改善 [全文訳有]

Improving RNA Secondary Structure Design using Deep Reinforcement Learning ( http://arxiv.org/abs/2111.04504v1 )

ライセンス: CC BY 4.0
Alexander Whatley, Zhekun Luo, Xiangru Tang(参考訳) 近年、新薬や治療法の開発コストが高まり、生体分子設計の最適化技術が広く研究されている。 現在、生体分子設計において最も広く使われているアプローチは、生物の進化をシミュレートするグレディ・ヒルクライミング・アルゴリズムである方向進化である。 本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。 標準ライブラリから各強化学習アルゴリズムのバニラ実装を実験することに加えて,アルゴリズムの報酬関数を変更し,モデルのハイパーパラメータをチューニングするアルゴリズムの変種を分析した。 これらのアルゴリズムに対して行うアブレーション解析の結果と、バッチ間でのアルゴリズムの性能を示すグラフと、RNA配列の可能な空間を探索する能力を示す。 我々のDQNアルゴリズムは、テストされた全てのアルゴリズムの中でPPOがベストであるのとは対照的に、この設定においてはるかに優れた性能を発揮する。 本研究は,分子設計における機械学習に関する今後の実験のベースラインとして,生体分子設計コミュニティの人々の関心を喚起する。

Rising costs in recent years of developing new drugs and treatments have led to extensive research in optimization techniques in biomolecular design. Currently, the most widely used approach in biomolecular design is directed evolution, which is a greedy hill-climbing algorithm that simulates biological evolution. In this paper, we propose a new benchmark of applying reinforcement learning to RNA sequence design, in which the objective function is defined to be the free energy in the sequence's secondary structure. In addition to experimenting with the vanilla implementations of each reinforcement learning algorithm from standard libraries, we analyze variants of each algorithm in which we modify the algorithm's reward function and tune the model's hyperparameters. We show results of the ablation analysis that we do for these algorithms, as well as graphs indicating the algorithm's performance across batches and its ability to search the possible space of RNA sequences. We find that our DQN algorithm performs by far the best in this setting, contrasting with, in which PPO performs the best among all tested algorithms. Our results should be of interest to those in the biomolecular design community and should serve as a baseline for future experiments involving machine learning in molecule design.
翻訳日:2021-11-11 08:15:15 公開日:2021-11-05
# (参考訳) データフェデレーティブイノベーションのための特徴概念 [全文訳有]

Feature Concepts for Data Federative Innovations ( http://arxiv.org/abs/2111.04505v1 )

ライセンス: CC BY 4.0
Yukio Ohsawa, Sae Kondo, Teruaki Hayashi(参考訳) データフェデレーティブなイノベーションプロセスの本質である特徴概念は、データから得られる概念のモデルとして提示される。 特徴概念は単一の変数のような単純な特徴であるが、データから得られる抽象的な情報の概念的な説明である可能性が高い。 例えば、ツリーとクラスタはそれぞれ、決定木学習とクラスタリングのための機能概念である。 データのユーザ要求を満たすための有用な機能概念は、データ市場における利害関係者間の創造的なコミュニケーションを通じて、これまで提供されてきた。 本稿では,このような創造的なコミュニケーションを概観し,市場や地震における説明の変更など,いくつかの応用例を示し,これらの事例で引き起こされる特徴概念を強調する。

A feature concept, the essence of the data-federative innovation process, is presented as a model of the concept to be acquired from data. A feature concept may be a simple feature, such as a single variable, but is more likely to be a conceptual illustration of the abstract information to be obtained from the data. For example, trees and clusters are feature concepts for decision tree learning and clustering, respectively. Useful feature concepts for satis-fying the requirements of users of data have been elicited so far via creative communication among stakeholders in the market of data. In this short paper, such a creative communication is reviewed, showing a couple of appli-cations, for example, change explanation in markets and earthquakes, and highlight the feature concepts elicited in these cases.
翻訳日:2021-11-11 08:07:15 公開日:2021-11-05
# (参考訳) Oracleの教師: より良い知識蒸留を目指して [全文訳有]

Oracle Teacher: Towards Better Knowledge Distillation ( http://arxiv.org/abs/2111.03664v1 )

ライセンス: CC BY-SA 4.0
Ji Won Yoon, Hyung Yong Kim, Hyeonseung Lee, Sunghwan Ahn, and Nam Soo Kim(参考訳) モデル圧縮の効果的な方法として知られる知識蒸留(KD)は、より大きなネットワーク(教師)の知識をはるかに小さなネットワーク(学生)に転送することを目的としている。 従来のKD手法では、通常は教師モデルを用いて、出力ラベルはターゲットとしてのみ扱われる。 本手法をさらに拡張し,学生に伝達されるより正確な知識を抽出するために,ソース入力と出力ラベルの両方の埋め込みを利用する,KDの新しいタイプの教師モデル,すなわちOracle Teacherを導入する。 提案モデルは、トランスフォーマネットワークのエンコーダ・デコーダの注意構造に従い、モデルが出力ラベルからの関連情報に対応することができる。 大規模な実験は,音声認識,シーンテキスト認識,機械翻訳の3つの異なるシーケンス学習タスクで実施される。 実験結果から,教師モデルの学習時間を大幅に短縮しながら,提案モデルが各課題の生徒を改善できることを実証的に示した。

Knowledge distillation (KD), best known as an effective method for model compression, aims at transferring the knowledge of a bigger network (teacher) to a much smaller network (student). Conventional KD methods usually employ the teacher model trained in a supervised manner, where output labels are treated only as targets. Extending this supervised scheme further, we introduce a new type of teacher model for KD, namely Oracle Teacher, that utilizes the embeddings of both the source inputs and the output labels to extract a more accurate knowledge to be transferred to the student. The proposed model follows the encoder-decoder attention structure of the Transformer network, which allows the model to attend to related information from the output labels. Extensive experiments are conducted on three different sequence learning tasks: speech recognition, scene text recognition, and machine translation. From the experimental results, we empirically show that the proposed model improves the students across these tasks while achieving a considerable speed-up in the teacher model's training time.
翻訳日:2021-11-11 07:57:09 公開日:2021-11-05
# (参考訳) 高解像度リモートセンシングシーン分類における事前学習の役割 [全文訳有]

The Role of Pre-Training in High-Resolution Remote Sensing Scene Classification ( http://arxiv.org/abs/2111.03690v1 )

ライセンス: CC BY 4.0
Vladimir Risojevi\'c and Vladan Stojni\'c(参考訳) ラベル付きデータの不足のため、imagenetで事前トレーニングされたモデルを使用することは、リモートセンシングシーン分類のデファクトスタンダードである。 最近、いくつかの大規模な高解像度リモートセンシング(HRRS)データセットが新しいベンチマークを確立する目的で登場したが、これらのデータセットをスクラッチからトレーニングしようとする試みは散発的である。 本稿では、複数の新しいデータセットをスクラッチからトレーニングすることで、ImageNetで事前トレーニングされたモデルに匹敵する結果が得られることを示す。 さらに、hrrsデータセットで学習した表現は他のhrrsシーン分類タスクに、imagenetで学んだものと同様に、あるいは少なくとも同じように転送される。 最後に,ドメイン内データを用いた第2ラウンドの事前学習,すなわちドメイン適応型事前学習を用いて,最良の表現が得られることを示す。 ソースコードと事前訓練されたモデルは、 \url{https://github.com/r isojevicv/RSSC-trans fer.comで入手できる。 }

Due to the scarcity of labeled data, using models pre-trained on ImageNet is a de facto standard in remote sensing scene classification. Although, recently, several larger high resolution remote sensing (HRRS) datasets have appeared with a goal of establishing new benchmarks, attempts at training models from scratch on these datasets are sporadic. In this paper, we show that training models from scratch on several newer datasets yields comparable results to fine-tuning the models pre-trained on ImageNet. Furthermore, the representations learned on HRRS datasets transfer to other HRRS scene classification tasks better or at least similarly as those learned on ImageNet. Finally, we show that in many cases the best representations are obtained by using a second round of pre-training using in-domain data, i.e. domain-adaptive pre-training. The source code and pre-trained models are available at \url{https://github.com/r isojevicv/RSSC-trans fer.}
翻訳日:2021-11-11 07:17:36 公開日:2021-11-05
# (参考訳) 衛星からの災害マッピング:クラウドソースによる損傷検出 [全文訳有]

Disaster mapping from satellites: damage detection with crowdsourced point labels ( http://arxiv.org/abs/2111.03693v1 )

ライセンス: CC BY 4.0
Danil Kuzin, Olga Isupova, Brooke D. Simmons, Steven Reece(参考訳) 災害発生直後の高分解能衛星画像は,建物の被害や洪水,アクセス経路の障害といった重要なインフラ状況の広範な認識を促進するため,対応計画に不可欠である。 この規模での損傷マッピングは、何百人もの専門家時間を必要とするだろう。 しかし、クラウドソーシングと最近のディープラーニングの進歩が組み合わさって、数時間のリアルタイム実行に要する労力を削減している。 実際の被害地域の形状とは対照的に、ボランティアにポイントマークを付けるよう促すことは、災害時の対応に必要な分析時間を著しく短縮する。 しかし、異なるボランティアはマークに矛盾する可能性がある。 本研究は、ニューラルネットワーク損傷検出装置を訓練するために、潜在的に矛盾する損傷痕を集約する方法を提案する。

High-resolution satellite imagery available immediately after disaster events is crucial for response planning as it facilitates broad situational awareness of critical infrastructure status such as building damage, flooding, and obstructions to access routes. Damage mapping at this scale would require hundreds of expert person-hours. However, a combination of crowdsourcing and recent advances in deep learning reduces the effort needed to just a few hours in real time. Asking volunteers to place point marks, as opposed to shapes of actual damaged areas, significantly decreases the required analysis time for response during the disaster. However, different volunteers may be inconsistent in their marking. This work presents methods for aggregating potentially inconsistent damage marks to train a neural network damage detector.
翻訳日:2021-11-11 07:06:22 公開日:2021-11-05
# (参考訳) 目標空間:情報的有界エージェントの認知幾何学 [全文訳有]

A space of goals: the cognitive geometry of informationally bounded agents ( http://arxiv.org/abs/2111.03699v1 )

ライセンス: CC BY 4.0
Karen Archer, Nicola Catenacci Volpi, Franziska Br\"oker, Daniel Polani(参考訳) 伝統的にユークリッド幾何学は科学者によって先駆的・目的として扱われる。 しかし,エージェントの立場を取るとき,最適な経路を選択するという問題は,エージェントの能力,その具体化,特に認知的努力にも影響を及ぼすべきである。 本稿では,情報処理コストを適切な空間距離に組み込むことにより,世界の状態間の移動の観点で幾何学を考える。 このことは、情報コストがますます重要になるにつれて、特定の世界の元の幾何学とますます異なる幾何学を導き出す。 我々は、認識論的および情報節約戦略の出現とピボット状態を反映した、異なる歪みを示す2次元および3次元空間に投影することで、この \textit{"cognitive geometry"}を可視化する。 伝統的なコストベースのジオメトリと付加的な情報的コストによって引き起こされるものとの類似性は、伝統的な測地学の概念を最も安価なルートとして一般化し、 \textit{infodesics} の概念へと導く。 重要なことに、インフォデシクスの概念は、始点から測地線に沿ってゴールに移動するような通常の幾何学的性質を近似し、目的だけでなく、全ての中間点が始点から最適コストで等しく訪れる。

Traditionally, Euclidean geometry is treated by scientists as a priori and objective. However, when we take the position of an agent, the problem of selecting a best route should also factor in the abilities of the agent, its embodiment and particularly its cognitive effort. In this paper we consider geometry in terms of travel between states within a world by incorporating information processing costs with the appropriate spatial distances. This induces a geometry that increasingly differs from the original geometry of the given world, as information costs become increasingly important. We visualize this \textit{"cognitive geometry"} by projecting it onto 2- and 3-dimensional spaces showing distinct distortions reflecting the emergence of epistemic and information-saving strategies as well as pivot states. The analogies between traditional cost-based geometries and those induced by additional informational costs invite a generalization of the traditional notion of geodesics as cheapest routes towards the notion of \textit{infodesics}. Crucially, the concept of infodesics approximates the usual geometric property that, travelling from a start to a goal along a geodesic, not only the goal, but all intermediate points are equally visited at optimal cost from the start.
翻訳日:2021-11-11 06:58:12 公開日:2021-11-05
# (参考訳) 空隙画像からの損傷推定と位置推定 [全文訳有]

Damage Estimation and Localization from Sparse Aerial Imagery ( http://arxiv.org/abs/2111.03708v1 )

ライセンス: CC BY 4.0
Rene Garcia Franceschini, Jeffrey Liu, Saurabh Amin(参考訳) 航空画像は、ハリケーンなどの自然災害に対応するために重要な状況認識を提供する。 被害推定と位置推定(del)の情報提供に適しており、災害後の被害の種類や空間的範囲を特徴付ける。 近年のセンシング技術や無人航空機技術は進歩しているものの、航空画像の多くは小型で有人で固定翼の航空機から手持ちのDSLRカメラで撮影されている。 しかし、これらのハンドヘルドカメラはIMU情報に欠けており、撮影後にオペレーターによって撮影される。 そのため、こうした画像からのDELは依然として手作業と時間を要するプロセスである。 本研究では, 航空画像の損傷を検知し, 世界座標に局在させる手法を提案し, 特に洪水の検出と局所化に焦点をあてた。 このアプローチは、運動から画像座標を射影変換を通して世界座標に関連付ける構造を用いており、クラス活性化マッピングを使用して画像の損傷範囲を検出し、射影変換を適用して世界座標の損傷を局所化する。 2016年ルイジアナ洪水後のデータに対する我々のアプローチの性能を評価し、我々のアプローチが88%の精度を達成することを見出した。 限られたデータを用いた高精度化を考えると,ハンドヘルド空中画像から災害対応のための高速かつ効果的なDELを実現することが可能である。

Aerial images provide important situational awareness for responding to natural disasters such as hurricanes. They are well-suited for providing information for damage estimation and localization (DEL); i.e., characterizing the type and spatial extent of damage following a disaster. Despite recent advances in sensing and unmanned aerial systems technology, much of post-disaster aerial imagery is still taken by handheld DSLR cameras from small, manned, fixed-wing aircraft. However, these handheld cameras lack IMU information, and images are taken opportunistically post-event by operators. As such, DEL from such imagery is still a highly manual and time-consuming process. We propose an approach to both detect damage in aerial images and localize it in world coordinates, with specific focus on detecting and localizing flooding. The approach is based on using structure from motion to relate image coordinates to world coordinates via a projective transformation, using class activation mapping to detect the extent of damage in an image, and applying the projective transformation to localize damage in world coordinates. We evaluate the performance of our approach on post-event data from the 2016 Louisiana floods, and find that our approach achieves a precision of 88%. Given this high precision using limited data, we argue that this approach is currently viable for fast and effective DEL from handheld aerial imagery for disaster response.
翻訳日:2021-11-11 06:28:47 公開日:2021-11-05
# (参考訳) 感情検出課題解決のための知覚分析知識の活用 [全文訳有]

Leveraging Sentiment Analysis Knowledge to Solve Emotion Detection Tasks ( http://arxiv.org/abs/2111.03715v1 )

ライセンス: CC0 1.0
Maude Nguyen-The, Guillaume-Alexandre Bilodeau and Jan Rockemann(参考訳) テキスト中の感情や感情を識別し理解することは、複数の自然言語処理アプリケーションにおいて重要なコンポーネントである。 単純な極性感情分析はよく研究されている対象であるが、テキストデータのみを用いてより複雑できめ細かい感情を特定するための進歩は少ない。 本稿では,CMU-MOSEIのような大規模データセットにおける感情検出タスクを改善するために,より単純な感情分析タスクからの知識を活用し,適応層を融合したトランスフォーマーモデルを提案する。 提案手法は他の手法と競合することを示す。 CMU-MOSEIの感情認識には,テキストのモダリティのみを用いながら,現状の成果を得た。

Identifying and understanding underlying sentiment or emotions in text is a key component of multiple natural language processing applications. While simple polarity sentiment analysis is a well-studied subject, fewer advances have been made in identifying more complex, finer-grained emotions using only textual data. In this paper, we present a Transformer-based model with a Fusion of Adapter layers which leverages knowledge from more simple sentiment analysis tasks to improve the emotion detection task on large scale dataset, such as CMU-MOSEI, using the textual modality only. Results show that our proposed method is competitive with other approaches. We obtained state-of-the-art results for emotion recognition on CMU-MOSEI even while using only the textual modality.
翻訳日:2021-11-11 06:14:33 公開日:2021-11-05
# (参考訳) 分布解析による半導体ウェハの欠陥検出

Defect Detection on Semiconductor Wafers by Distribution Analysis ( http://arxiv.org/abs/2111.03727v1 )

ライセンス: CC BY 4.0
Thomas Olschewski(参考訳) 分布解析に基づくオブジェクト分類手法を提案する。 また,関連する特徴の発見と,このアルゴリズムを他の分類アルゴリズムと統合する手法を提案する。 提示された分類アルゴリズムは,複数の製品タイプから10万枚近いチップをウェーハで作製した実世界の計測データにうまく適用されている。 提案アルゴリズムは,高次元探索空間において,優れたレーダを求めるよりも,低次元探索空間で最高のレーダを求めることを好む。 提案手法は,実世界のウェハデータに対する予測精度や検出品質に優れる,高速(量子線形)な手法であるという点で興味深い。

A method for object classification that is based on distribution analysis is proposed. In addition, a method for finding relevant features and the unification of this algorithm with another classification algorithm is proposed. The presented classification algorithm has been applied successfully to real-world measurement data from wafer fabrication of close to hundred thousand chips of several product types. The presented algorithm prefers finding the best rater in a low-dimensional search space over finding a good rater in a high-dimensional search space. Our approach is interesting in that it is fast (quasi-linear) and reached good to excellent prediction or detection quality for real-world wafer data.
翻訳日:2021-11-11 06:05:52 公開日:2021-11-05
# (参考訳) Frugal Machine Learning

Frugal Machine Learning ( http://arxiv.org/abs/2111.03731v1 )

ライセンス: CC BY 4.0
Mikhail Evchenko, Joaquin Vanschoren, Holger H. Hoos, Marc Schoenauer, Mich\`ele Sebag(参考訳) すでに多くのシステムやアプリケーションの中核にある機械学習は、ウェアラブルデバイスやIoT(Internet of Things, モノのインターネット)の急速な普及により、ますます普及しつつある。 ほとんどの機械学習アプリケーションにおいて、主な焦点は達成された結果の品質(例えば予測精度)であり、従って大量のデータが収集され、モデルを構築するのにかなりの計算資源を必要とする。 しかし、多くのシナリオでは、大規模な集中型データリポジトリをセットアップすることは不可能あるいは非現実的です。 例えば、個人の健康では、プライバシー問題は詳細な個人情報の共有を妨げる可能性がある。 このような場合、機械学習はウェアラブルデバイス自身で理想的に行われるべきであり、スマートウォッチのバッテリー容量のような大きな計算上の制限が生まれる。 そこで本稿では,最少量のリソースを用いて,最も正確なモデルを構築することを目的としたfrugal learningについて検討する。 広い範囲の学習アルゴリズムをフルーゴールレンズを用いて検討し、その精度/実行性能を幅広いデータセットで分析する。 その後、最も有望なアルゴリズムは、スマートウォッチに実装し、時計自体のアクティビティ認識モデルを学ぶことによって、現実世界のシナリオで評価される。

Machine learning, already at the core of increasingly many systems and applications, is set to become even more ubiquitous with the rapid rise of wearable devices and the Internet of Things. In most machine learning applications, the main focus is on the quality of the results achieved (e.g., prediction accuracy), and hence vast amounts of data are being collected, requiring significant computational resources to build models. In many scenarios, however, it is infeasible or impractical to set up large centralized data repositories. In personal health, for instance, privacy issues may inhibit the sharing of detailed personal data. In such cases, machine learning should ideally be performed on wearable devices themselves, which raises major computational limitations such as the battery capacity of smartwatches. This paper thus investigates frugal learning, aimed to build the most accurate possible models using the least amount of resources. A wide range of learning algorithms is examined through a frugal lens, analyzing their accuracy/runtime performance on a wide range of data sets. The most promising algorithms are thereafter assessed in a real-world scenario by implementing them in a smartwatch and letting them learn activity recognition models on the watch itself.
翻訳日:2021-11-11 06:05:07 公開日:2021-11-05
# ゲノムワイド関連研究における線形混合モデルのトレードオフ

Tradeoffs of Linear Mixed Models in Genome-wide Association Studies ( http://arxiv.org/abs/2111.03739v1 )

ライセンス: Link先を確認
Haohan Wang, Bryon Aragam, Eric Xing(参考訳) ゲノムワイド・アソシエーション研究(GWAS)の文献からよく知られる経験的議論に動機付けられ, 線形混合モデル(LMM)の統計的性質について検討した。 まず, 計算速度を高速化するためにしばしば行われる交配行列における候補snpの包含に対するlmmの感度について検討する。 その結果,候補SNPを含む誤差の大きさに光を当て,この手法の正当性を証明し,速度と精度のトレードオフを図った。 第2に、混合モデルが従来の手法よりもLMMの利点として広く受け入れられているGWASの共創者を補正する方法について検討する。 人口階層化と環境共生要因の2つの要因を考察し,この2つの共生要因の実践的トレードオフにおいて一般的に用いられる方法の相違について検討する。

Motivated by empirical arguments that are well-known from the genome-wide association studies (GWAS) literature, we study the statistical properties of linear mixed models (LMMs) applied to GWAS. First, we study the sensitivity of LMMs to the inclusion of a candidate SNP in the kinship matrix, which is often done in practice to speed up computations. Our results shed light on the size of the error incurred by including a candidate SNP, providing a justification to this technique in order to trade-off velocity against veracity. Second, we investigate how mixed models can correct confounders in GWAS, which is widely accepted as an advantage of LMMs over traditional methods. We consider two sources of confounding factors, population stratification and environmental confounding factors, and study how different methods that are commonly used in practice trade-off these two confounding factors differently.
翻訳日:2021-11-09 17:54:11 公開日:2021-11-05
# CloudRCA: クラウドコンピューティングプラットフォームのための根本原因分析フレームワーク

CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms ( http://arxiv.org/abs/2111.03753v1 )

ライセンス: Link先を確認
Yingying Zhang, Zhengxiong Guan, Huajie Qian, Leili Xu, Hengbo Liu, Qingsong Wen, Liang Sun, Junwei Jiang, Lunting Fan, Min Ke(参考訳) Alibabaのビジネスが世界中の業界で拡大するにつれ、Alibaba Cloudのインフラストラクチャを構成するビッグデータクラウドコンピューティングプラットフォームのサービス品質と信頼性に、より高い標準が課されている。 しかし、これらのプラットフォームにおける根本原因分析は複雑なシステムアーキテクチャのため自明ではない。 本稿では,キーパフォーマンス指標(KPI)やログ,トポロジといった異種マルチソースデータを利用したCloudRCAと呼ばれる根本原因分析フレームワークを提案し,最先端の異常検出とログ解析技術を用いて重要な特徴を抽出する。 得られた特徴は、知識インフォームド階層ベイズネットワーク(KHBN)モデルで利用され、高い精度と効率で根本原因を推測する。 アブレーション研究と総合的な実験比較では、既存のフレームワークであるCloudRCAと比較して、 1) 異なるクラウドシステム間でf1スコアの既存のアプローチを一貫して上回ります。 2) KHBNの階層構造のおかげで、新しいタイプの根本原因を処理できる。 3)アルゴリズムの構成に関してより堅牢に実行する。 4)データと機能サイズにおいて、より好適にスケールする。 また、クロスプラットフォーム転送学習機構を採用することで、精度をさらに10%以上向上できることを示す実験も行われている。 CloudRCAはAlibaba Cloudの診断システムに統合され、MaxCompute、Realtime Compute、Hologresの3つの典型的なクラウドコンピューティングプラットフォームに採用されている。 サイト信頼性エンジニア(sre)が過去12ヶ月の障害解決に費やした費用を20〜%以上削減し、サービスの信頼性を大幅に向上します。

As business of Alibaba expands across the world among various industries, higher standards are imposed on the service quality and reliability of big data cloud computing platforms which constitute the infrastructure of Alibaba Cloud. However, root cause analysis in these platforms is non-trivial due to the complicated system architecture. In this paper, we propose a root cause analysis framework called CloudRCA which makes use of heterogeneous multi-source data including Key Performance Indicators (KPIs), logs, as well as topology, and extracts important features via state-of-the-art anomaly detection and log analysis techniques. The engineered features are then utilized in a Knowledge-informed Hierarchical Bayesian Network (KHBN) model to infer root causes with high accuracy and efficiency. Ablation study and comprehensive experimental comparisons demonstrate that, compared to existing frameworks, CloudRCA 1) consistently outperforms existing approaches in f1-score across different cloud systems; 2) can handle novel types of root causes thanks to the hierarchical structure of KHBN; 3) performs more robustly with respect to algorithmic configurations; and 4) scales more favorably in the data and feature sizes. Experiments also show that a cross-platform transfer learning mechanism can be adopted to further improve the accuracy by more than 10\%. CloudRCA has been integrated into the diagnosis system of Alibaba Cloud and employed in three typical cloud computing platforms including MaxCompute, Realtime Compute and Hologres. It saves Site Reliability Engineers (SREs) more than $20\%$ in the time spent on resolving failures in the past twelve months and improves service reliability significantly.
翻訳日:2021-11-09 17:53:53 公開日:2021-11-05
# 信用報告書による死亡予測

Predicting Mortality from Credit Reports ( http://arxiv.org/abs/2111.03662v1 )

ライセンス: Link先を確認
Giacomo De Giorgi, Matthew Harding, Gabriel Vasconcelos(参考訳) 個々の消費者金融行動(クレジットカードやローン活動など)に関連する数百の変数に関するデータは、多くの国で定期的に収集され、融資決定において重要な役割を果たす。 このデータの詳細な性質は、個々の健康など、一見無関係な領域での結果を予測するために使われる可能性があると仮定する。 私たちは、個人死亡率を予測するために信用レポートデータを使用できることを示すために、一連の機械学習モデルを構築します。 クレジットカードや様々なローン(主に未担保ローン)に関連する可変グループは、重要な予測力を持っていることが示されている。 これらの変数のラグも重要であり、ダイナミクスも重要であることを示している。 消費者金融データに基づく死亡率予測の改善は、保険市場で重要な経済的影響をもたらすが、プライバシーの懸念も引き起こす可能性がある。

Data on hundreds of variables related to individual consumer finance behavior (such as credit card and loan activity) is routinely collected in many countries and plays an important role in lending decisions. We postulate that the detailed nature of this data may be used to predict outcomes in seemingly unrelated domains such as individual health. We build a series of machine learning models to demonstrate that credit report data can be used to predict individual mortality. Variable groups related to credit cards and various loans, mostly unsecured loans, are shown to carry significant predictive power. Lags of these variables are also significant thus indicating that dynamics also matters. Improved mortality predictions based on consumer finance data can have important economic implications in insurance markets but may also raise privacy concerns.
翻訳日:2021-11-09 17:25:26 公開日:2021-11-05
# リフレクタンス一貫性を考慮した自己監督型固有画像分解ネットワーク

Self-Supervised Intrinsic Image Decomposition Network Considering Reflectance Consistency ( http://arxiv.org/abs/2111.04506v1 )

ライセンス: Link先を確認
Yuma Kinoshita and Hitoshi Kiya(参考訳) 反射率一貫性を考慮した新しい固有画像分解ネットワークを提案する。 内在的な画像分解は、画像をそれぞれ「反射」と「陰影」と呼ばれる照明不変成分と照明可変成分に分解することを目的としている。 反射率と陰影を満たすべき構成は3つあるが、白光分解モデルと様々な照明・色条件下で同じ物体を撮影する訓練画像の欠如により、ほとんどの従来の研究は反射率に関する一貫性を十分に考慮していない。 このため,色照明モデルを用いて,様々な照明条件で撮影した画像から計算した損失を用いてネットワークを訓練することにより,提案するネットワークにおいて3つの構成を考察する。 また、様々な照明条件をシミュレートできるため、提案ネットワークを自己監視で訓練することができる。 実験の結果,ネットワークは画像を反射率とシェーディング成分に分解できることがわかった。

We propose a novel intrinsic image decomposition network considering reflectance consistency. Intrinsic image decomposition aims to decompose an image into illumination-invaria nt and illumination-variant components, referred to as ``reflectance'' and ``shading,'' respectively. Although there are three consistencies that the reflectance and shading should satisfy, most conventional work does not sufficiently account for consistency with respect to reflectance, owing to the use of a white-illuminant decomposition model and the lack of training images capturing the same objects under various illumination-brightn ess and -color conditions. For this reason, the three consistencies are considered in the proposed network by using a color-illuminant model and training the network with losses calculated from images taken under various illumination conditions. In addition, the proposed network can be trained in a self-supervised manner because various illumination conditions can easily be simulated. Experimental results show that our network can decompose images into reflectance and shading components.
翻訳日:2021-11-09 17:12:22 公開日:2021-11-05
# 適応エコー状態ネットワークを用いた遅延系の非訓練複素ダイナミクスの推定

Inferring untrained complex dynamics of delay systems using an adapted echo state network ( http://arxiv.org/abs/2111.03706v1 )

ライセンス: Link先を確認
Mirko Goldmann, Claudio R. Mirasso, Ingo Fischer, Miguel C. Soriano(参考訳) 有限信号伝播速度により、多くの複雑な系は、高次元のカオス的振る舞いを誘発し、予測を複雑にする時間遅延を特徴とする。 本稿では,任意の遅延を持つ系の物理に適応可能なエコー状態ネットワークを提案する。 ネットワークをトレーニングして、ユニークで十分に長い遅延でシステムを予測した後、システムダイナミクスを他のすべての遅延に対して予測することを学びました。 ネットワークトポロジーの単純な適応により、より短く長い遅延で現れる高次元カオスアトラクタ、分岐、さらには多重安定性など、訓練されていない特徴を推測することができる。 このように、遅延システムの物理的知識とデータ駆動機械学習の融合は、高い一般化能力と前例のない予測精度のモデルをもたらす。

Caused by finite signal propagation velocities, many complex systems feature time delays that may induce high-dimensional chaotic behavior and make forecasting intricate. Here, we propose an echo state network adaptable to the physics of systems with arbitrary delays. After training the network to forecast a system with a unique and sufficiently long delay, it already learned to predict the system dynamics for all other delays. A simple adaptation of the network's topology allows us to infer untrained features such as high-dimensional chaotic attractors, bifurcations, and even multistabilities, that emerge with shorter and longer delays. Thus, the fusion of physical knowledge of the delay system and data-driven machine learning yields a model with high generalization capabilities and unprecedented prediction accuracy.
翻訳日:2021-11-09 17:09:22 公開日:2021-11-05
# AIと黒人:バイアスと表現を超えて進む

AI and Blackness: Towards moving beyond bias and representation ( http://arxiv.org/abs/2111.03687v1 )

ライセンス: Link先を確認
Christopher L. Dancy and P. Khalil Saucier(参考訳) 本稿では、AI倫理が人種に基づく表現と偏見の概念を超えて、これらのシステムがどのように設計、開発、デプロイされているかに影響を及ぼす深い関係を調査すべきである、と論じる。 近年、AIシステムにおけるバイアスに関する倫理的考察は、人種的バイアスを中心に議論されている。 AIにおけるアンチブラックネスは、AIシステムの設計、開発、展開の基盤を提供する存在論的空間の検査よりも必要である、と我々は主張する。 我々は、この論争の意味を、AIシステムが反黒人人種差別(反黒人主義)との交差点を設計、開発、展開する社会文化的文脈の観点から検討する。 これらの複数の視点を結合し、デバイアスの試みに直面したアンチブラックネスの例を示すために、既存のオープンソースセマンティックネットワーク(conceptnet)の監査結果について論じる。 この議論は、AIシステムの設計、開発、展開におけるアンチブラックネスをさらに文脈化するために使われ、AIシステムにおけるアンチブラックネスと戦おうとする際の質問を提案する。

In this paper, we argue that AI ethics must move beyond the concepts of race-based representation and bias, and towards those that probe the deeper relations that impact how these systems are designed, developed, and deployed. Many recent discussions on ethical considerations of bias in AI systems have centered on racial bias. We contend that antiblackness in AI requires more of an examination of the ontological space that provides a foundation for the design, development, and deployment of AI systems. We examine what this contention means from the perspective of the sociocultural context in which AI systems are designed, developed, and deployed and focus on intersections with anti-Black racism (antiblackness). To bring these multiple perspectives together and show an example of antiblackness in the face of attempts at de-biasing, we discuss results from auditing an existing open-source semantic network (ConceptNet). We use this discussion to further contextualize antiblackness in design, development, and deployment of AI systems and suggest questions one may ask when attempting to combat antiblackness in AI systems.
翻訳日:2021-11-09 16:45:00 公開日:2021-11-05
# 時空間グラフ学習とモデルベース推定の統合による非同期協調的局所化

Asynchronous Collaborative Localization by Integrating Spatiotemporal Graph Learning with Model-Based Estimation ( http://arxiv.org/abs/2111.03751v1 )

ライセンス: Link先を確認
Peng Gao, Brian Reily, Rui Guo, Hongsheng Lu, Qingzhao Zhu and Hao Zhang(参考訳) 協調的ローカライゼーションは、コネクテッドカーのようなロボットチームにとって、複数の視点からオブジェクトの位置を協調的に推定する重要な能力である。 協調的ローカライゼーションを実現するためには、観察対象間の複雑な関係のモデル化、任意の数の協調ロボットからの観察の活用、局所的不確かさの定量化、ロボット通信のレイテンシの対処など、4つの重要な課題に対処する必要がある。 本稿では,不確実性を考慮した時空間グラフ学習とモデルに基づく状態推定を統合し,協調的に物体をローカライズする新しい手法を提案する。 具体的には,時空間グラフを学習し,各ロボットが時間をかけて観測した物体の歴史的な動きを表現し,物体の局在に不確実性を与える,不確実性対応グラフ学習モデルを提案する。 さらに,任意の数のロボットから得られた非同期観測を融合して協調的局所化を行う,統合学習とモデルベース状態推定のための新しい手法を提案する。 シミュレーションと実ロボットにおける2つの協調物体位置決めシナリオにおけるアプローチの評価を行った。 実験の結果,提案手法は従来の手法より優れ,非同期な協調的ローカライゼーションにおける最先端性能を実現していることがわかった。

Collaborative localization is an essential capability for a team of robots such as connected vehicles to collaboratively estimate object locations from multiple perspectives with reliant cooperation. To enable collaborative localization, four key challenges must be addressed, including modeling complex relationships between observed objects, fusing observations from an arbitrary number of collaborating robots, quantifying localization uncertainty, and addressing latency of robot communications. In this paper, we introduce a novel approach that integrates uncertainty-aware spatiotemporal graph learning and model-based state estimation for a team of robots to collaboratively localize objects. Specifically, we introduce a new uncertainty-aware graph learning model that learns spatiotemporal graphs to represent historical motions of the objects observed by each robot over time and provides uncertainties in object localization. Moreover, we propose a novel method for integrated learning and model-based state estimation, which fuses asynchronous observations obtained from an arbitrary number of robots for collaborative localization. We evaluate our approach in two collaborative object localization scenarios in simulations and on real robots. Experimental results show that our approach outperforms previous methods and achieves state-of-the-art performance on asynchronous collaborative localization.
翻訳日:2021-11-09 16:44:41 公開日:2021-11-05
# DeSkew-LSHをベースとしたCode-to-Code Recommendation Engine

DeSkew-LSH based Code-to-Code Recommendation Engine ( http://arxiv.org/abs/2111.04473v1 )

ライセンス: Link先を確認
Fran Silavong, Sean Moran, Antonios Georgiadis, Rohan Saphal, Robert Otter(参考訳) ソースコード上の機械学習(MLOnCode)は、大規模なコードリポジトリの可用性と、ソースコードをマイニングするための強力な確率的およびディープラーニングモデルの開発によって、人気のある研究分野である。 コード・ツー・コード・レコメンデーション(Code-to-code recommendation)はMLOnCodeのタスクであり、開発者が開発環境(IDE)で現在記述しているコードを便利に拡張する、関連性があり多様な簡潔なコードスニペットを推奨することを目的としている。 コード間リコメンデーションエンジンは、IDEからのコンテキスト切り替えを減らし、コード再利用を増やすことで、開発者の生産性を高めるという約束を守ります。 既存のコード間リコメンデーションエンジンは、大規模なコードベースに優雅にスケールしないため、コードリポジトリのサイズが大きくなるにつれて、クエリ時間が線形に増加します。 さらに、既存のコードからコードへのレコメンデーションエンジンは、コードスニペットの長さの分布など、ランキング機能内のコードリポジトリのグローバル統計を考慮せず、最適な検索結果につながる。 どちらも、新しいコード間リコメンデーションエンジンである \emph{Senatus} で対処しています。 Senatus のコアとなるのが \emph{De-Skew} LSH である。LSH (Locality sensitive hashing) アルゴリズムは、データを高速(準線形時間)な検索のためにインデックス付けすると同時に、新しい抽象構文木に基づく特徴スコアリングと選択アルゴリズムを用いてスニペット長分布の歪を補正する。 我々はsenatusを自動評価および熟練開発者ユーザ調査により評価し、より高速な検索を実現しつつ、競合ベースラインよりも高品質な推奨事項を見出した。 例えば、CodeSearchNetデータセットでは、Senatusがパフォーマンスを6.7\%向上し、コード・ツー・コードレコメンデーションのタスクにおいて、クエリ時間16xがFacebook Aromaよりも高速であることを示す。

Machine learning on source code (MLOnCode) is a popular research field that has been driven by the availability of large-scale code repositories and the development of powerful probabilistic and deep learning models for mining source code. Code-to-code recommendation is a task in MLOnCode that aims to recommend relevant, diverse and concise code snippets that usefully extend the code currently being written by a developer in their development environment (IDE). Code-to-code recommendation engines hold the promise of increasing developer productivity by reducing context switching from the IDE and increasing code-reuse. Existing code-to-code recommendation engines do not scale gracefully to large codebases, exhibiting a linear growth in query time as the code repository increases in size. In addition, existing code-to-code recommendation engines fail to account for the global statistics of code repositories in the ranking function, such as the distribution of code snippet lengths, leading to sub-optimal retrieval results. We address both of these weaknesses with \emph{Senatus}, a new code-to-code recommendation engine. At the core of Senatus is \emph{De-Skew} LSH a new locality sensitive hashing (LSH) algorithm that indexes the data for fast (sub-linear time) retrieval while also counteracting the skewness in the snippet length distribution using novel abstract syntax tree-based feature scoring and selection algorithms. We evaluate Senatus via automatic evaluation and with an expert developer user study and find the recommendations to be of higher quality than competing baselines, while achieving faster search. For example, on the CodeSearchNet dataset we show that Senatus improves performance by 6.7\% F1 and query time 16x is faster compared to Facebook Aroma on the task of code-to-code recommendation.
翻訳日:2021-11-09 16:41:37 公開日:2021-11-05
# クレジットカード不正検出のためのスーパーアプリケーションとテレコミュニケーション代替データソースの融合

Feature-Level Fusion of Super-App and Telecommunication Alternative Data Sources for Credit Card Fraud Detection ( http://arxiv.org/abs/2111.03707v1 )

ライセンス: Link先を確認
Jaime D. Acevedo-Viloria, Sebasti\'an Soriano P\'erez, Jesus Solano, David Zarruk-Valencia, Fernando G. Paulin, Alejandro Correa-Bahnsen(参考訳) 顧客のアイデンティティを裏付けるデータが不足している場合、クレジットカード会社にとってアイデンティティ盗難は大きな問題です。 多くの異なるサービスを包含するスーパーアプリの大きなデジタルプラットフォームでは、この問題はさらに重要になります。 本稿では,クレジットカード不正を早期に検出するための,スーパーアプリ顧客情報,携帯電話回線データ,従来型の信用リスク変数などの機能レベル融合の有効性について検討する。 提案手法により,入力が代替データと従来の信用局データの融合であるモデルを用いて,OC AUCスコア0.81を達成し,より優れた性能を実現した。 クレジットカードのデジタルプラットフォームデータベースから約9万人のユーザを対象に,我々のアプローチを評価した。 評価は従来のMLメトリクスだけでなく、金銭的コストも使用した。

Identity theft is a major problem for credit lenders when there's not enough data to corroborate a customer's identity. Among super-apps large digital platforms that encompass many different services this problem is even more relevant; losing a client in one branch can often mean losing them in other services. In this paper, we review the effectiveness of a feature-level fusion of super-app customer information, mobile phone line data, and traditional credit risk variables for the early detection of identity theft credit card fraud. Through the proposed framework, we achieved better performance when using a model whose input is a fusion of alternative data and traditional credit bureau data, achieving a ROC AUC score of 0.81. We evaluate our approach over approximately 90,000 users from a credit lender's digital platform database. The evaluation was performed using not only traditional ML metrics but the financial costs as well.
翻訳日:2021-11-09 16:02:13 公開日:2021-11-05
# ヒューマンアライメントによるクロスドメインロバストモデル学習に向けて

Toward Learning Human-aligned Cross-domain Robust Models by Countering Misaligned Features ( http://arxiv.org/abs/2111.03740v1 )

ライセンス: Link先を確認
Haohan Wang, Zeyi Huang, Hanlin Zhang, Eric Xing(参考訳) 機械学習は、i.dデータよりも顕著な予測精度を示しているが、他の分布のデータでテストすると、精度は低下することが多い。 本稿では、この精度低下の背景にある理由は、データアノテータがこれらの2つのデータセット間でどのように類似しているかに一致しない機能に対するモデルの依存である、という観点から、この問題に対する別の見解を提供する。 これらの機能を不整合機能と呼んでいる。 従来の一般化誤差を新しいものに拡張し,ラベルにミスアライメント機能がどのように関連付けられているかを知る。 我々の分析はこの問題に対する一連の技術を提供しており、これらの技術は頑健な機械学習文学における多くの従来の手法と自然に関連付けられている。 また,これらの手法が組み合わさった場合の性能を実証した経験的強度を比較検討した。

Machine learning has demonstrated remarkable prediction accuracy over i.i.d data, but the accuracy often drops when tested with data from another distribution. In this paper, we aim to offer another view of this problem in a perspective assuming the reason behind this accuracy drop is the reliance of models on the features that are not aligned well with how a data annotator considers similar across these two datasets. We refer to these features as misaligned features. We extend the conventional generalization error bound to a new one for this setup with the knowledge of how the misaligned features are associated with the label. Our analysis offers a set of techniques for this problem, and these techniques are naturally linked to many previous methods in robust machine learning literature. We also compared the empirical strength of these methods demonstrated the performance when these previous techniques are combined.
翻訳日:2021-11-09 16:01:59 公開日:2021-11-05
# フラワードメインにおける肺液細胞アノテーションのゲーム化に関する第1歩

First steps on Gamification of Lung Fluid Cells Annotations in the Flower Domain ( http://arxiv.org/abs/2111.03663v1 )

ライセンス: Link先を確認
Sonja Kunzmann, Christian Marzahl, Felix Denzinger, Christof A. Bertram, Robert Klopfleisch, Katharina Breininger, Vincent Christlein, Andreas Maier(参考訳) データのアノテート、特に医療領域では、専門家の知識と多くの労力が必要です。 これは実験のための利用可能な医療データセットの量と/または有用性を制限する。 そのため、必要なドメイン知識を下げながらアノテーションの数を増やす戦略の開発が注目される。 可能な戦略はゲーミフィケーションの使用であり、つまりアノテーションタスクをゲームに変換することである。 そこで本研究では,病理画像から肺液細胞を注視するタスクをゲーミフィケーションする手法を提案する。 このドメインは、未熟練のアノテータには未知であるため、RetinaNetアーキテクチャで検出された細胞のイメージを花の領域に変換する。 このドメイン転送は、異なる細胞タイプのためのCycleGANアーキテクチャで実行される。 このより評価しやすい領域では、非専門家の注釈家は(t)遊び心のある設定で異なる種類の花に注釈をつけることができる。 本研究は,実セル上で訓練された画像分類ネットワークを評価し,サイクガンネットワークによって生成されたセルイメージ上でテストすることにより,ドメイン転送が可能となることを示す。 分類ネットワークは、それぞれ97.48%、95.16%の精度で元の肺液細胞と形質転換肺液細胞に到達した。 本研究では,CycleGANを用いたゲーミフィケーション研究の基礎を築いた。

Annotating data, especially in the medical domain, requires expert knowledge and a lot of effort. This limits the amount and/or usefulness of available medical data sets for experimentation. Therefore, developing strategies to increase the number of annotations while lowering the needed domain knowledge is of interest. A possible strategy is the use of gamification, that is i.e. transforming the annotation task into a game. We propose an approach to gamify the task of annotating lung fluid cells from pathological whole slide images. As this domain is unknown to non-expert annotators, we transform images of cells detected with a RetinaNet architecture to the domain of flower images. This domain transfer is performed with a CycleGAN architecture for different cell types. In this more assessable domain, non-expert annotators can be (t)asked to annotate different kinds of flowers in a playful setting. In order to provide a proof of concept, this work shows that the domain transfer is possible by evaluating an image classification network trained on real cell images and tested on the cell images generated by the CycleGAN network. The classification network reaches an accuracy of 97.48% and 95.16% on the original lung fluid cells and transformed lung fluid cells, respectively. With this study, we lay the foundation for future research on gamification using CycleGANs.
翻訳日:2021-11-09 15:33:32 公開日:2021-11-05
# 材料強度のニューラルネットワーク予測を説明する

Explaining neural network predictions of material strength ( http://arxiv.org/abs/2111.03729v1 )

ライセンス: Link先を確認
Ian A. Palmer and T. Nathan Mundhenk and Brian Gallagher and Yong Han(参考訳) 本研究では, 材料結晶の走査型電子顕微鏡(SEM)画像を用いて, 材料の臨界ピーク応力を決定する深層学習法を開発した。 しかし、それがいつ予測されるのかは、ネットワークがどのような特徴を持っているのかは定かではない。 コンピュータビジョンでは、説明可能なAI唾液マップを使用して、画像のどの部分がネットワークの決定に重要であるかを伝えることが一般的である。 通常、これらの静かな場所を見ることで重要な特徴を推測することができる。 しかし、結晶のsem画像は自然画像写真よりも人間の観察者にとって抽象的である。 結果として、最も有能な場所において、どの機能が重要かを知るのは容易ではない。 そこで我々は,SEM画像中の重要な位置から,解釈しやすい非抽象的なテクスチャへ特徴をマッピングする手法を開発した。

We recently developed a deep learning method that can determine the critical peak stress of a material by looking at scanning electron microscope (SEM) images of the material's crystals. However, it has been somewhat unclear what kind of image features the network is keying off of when it makes its prediction. It is common in computer vision to employ an explainable AI saliency map to tell one what parts of an image are important to the network's decision. One can usually deduce the important features by looking at these salient locations. However, SEM images of crystals are more abstract to the human observer than natural image photographs. As a result, it is not easy to tell what features are important at the locations which are most salient. To solve this, we developed a method that helps us map features from important locations in SEM images to non-abstract textures that are easier to interpret.
翻訳日:2021-11-09 15:32:00 公開日:2021-11-05
# 人間-機械協調のための感覚形成の共有モデル

Shared Model of Sense-making for Human-Machine Collaboration ( http://arxiv.org/abs/2111.03728v1 )

ライセンス: Link先を確認
Gheorghe Tecuci, Dorin Marcu, Louis Kaiser and Mihai Boicu(参考訳) 本稿では,知的アナリストと知識ベースエージェントの協調を大いに促進する感覚形成モデルを提案する。 これは、証拠科学と仮説生成と検証の科学的方法に基づく一般的なモデルであり、観察を説明する感覚形成仮説が生成され、関連する証拠が発見され、発見された証拠に基づいて仮説が検証される。 このモデルによって、分析者が、兵器の生産(化学兵器など)の可能な状況や、その領域からの他の状況(例えば、遠心分離濃縮ウランの生産やステルス戦闘機の生産)の理解において、どのようにエージェントがより有能になるかを直接的に理解できるようになるかを説明する。

We present a model of sense-making that greatly facilitates the collaboration between an intelligent analyst and a knowledge-based agent. It is a general model grounded in the science of evidence and the scientific method of hypothesis generation and testing, where sense-making hypotheses that explain an observation are generated, relevant evidence is then discovered, and the hypotheses are tested based on the discovered evidence. We illustrate how the model enables an analyst to directly instruct the agent to understand situations involving the possible production of weapons (e.g., chemical warfare agents) and how the agent becomes increasingly more competent in understanding other situations from that domain (e.g., possible production of centrifuge-enriched uranium or of stealth fighter aircraft).
翻訳日:2021-11-09 15:24:58 公開日:2021-11-05
# MQBench: 再現性とデプロイ可能なモデル量子化ベンチマークを目指す

MQBench: Towards Reproducible and Deployable Model Quantization Benchmark ( http://arxiv.org/abs/2111.03759v1 )

ライセンス: Link先を確認
Yuhang Li, Mingzhu Shen, Jian Ma, Yan Ren, Mingxin Zhao, Qi Zhang, Ruihao Gong, Fengwei Yu, Junjie Yan(参考訳) モデル量子化は深層学習推論を加速させるには不可欠である。 研究者は量子化アルゴリズムのフロンティアを推し進めているが、既存の量子化の作業はしばしば再現不可能で、展開不能である。 これは、一貫したトレーニングパイプラインを選択したり、ハードウェアデプロイメントの要件を無視したりしないためである。 本研究では,モデル量子化アルゴリズムの再現性とデプロイ性の評価,解析,ベンチマークを行う最初の試みであるモデル量子化ベンチマーク(mqbench)を提案する。 我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、統一されたトレーニングパイプラインの下で、最先端の量子化アルゴリズムを評価する。 MQBenchは、アルゴリズムとハードウェアを接続するためのブリッジのように振る舞う。 包括的な分析を行い、かなりの直感的あるいは直感的な洞察を見出す。 トレーニング設定を合わせることで、既存のアルゴリズムが従来のアカデミックトラックでほぼ同じパフォーマンスを持つことがわかった。 ハードウェアにデプロイ可能な量子化については、未解決のままの巨大な精度ギャップがある。 意外なことに、MQBenchのあらゆる課題に対して既存のアルゴリズムが勝利することはない。

Model quantization has emerged as an indispensable technique to accelerate deep learning inference. While researchers continue to push the frontier of quantization algorithms, existing quantization work is often unreproducible and undeployable. This is because researchers do not choose consistent training pipelines and ignore the requirements for hardware deployments. In this work, we propose Model Quantization Benchmark (MQBench), a first attempt to evaluate, analyze, and benchmark the reproducibility and deployability for model quantization algorithms. We choose multiple different platforms for real-world deployments, including CPU, GPU, ASIC, DSP, and evaluate extensive state-of-the-art quantization algorithms under a unified training pipeline. MQBench acts like a bridge to connect the algorithm and the hardware. We conduct a comprehensive analysis and find considerable intuitive or counter-intuitive insights. By aligning the training settings, we find existing algorithms have about the same performance on the conventional academic track. While for the hardware-deployable quantization, there is a huge accuracy gap which remains unsettled. Surprisingly, no existing algorithm wins every challenge in MQBench, and we hope this work could inspire future research directions.
翻訳日:2021-11-09 14:59:22 公開日:2021-11-05
# フェデレーション平均化のためのシャープ境界(ローカルSGD)と連続的展望

Sharp Bounds for Federated Averaging (Local SGD) and Continuous Perspective ( http://arxiv.org/abs/2111.03741v1 )

ライセンス: Link先を確認
Margalit Glasgow, Honglin Yuan, Tengyu Ma(参考訳) フェデレート平均化(Federated Averaging、FedAvg、ローカルSGD)は、フェデレート学習(Federated Learning、FL)において最も人気のあるアルゴリズムの一つである。 その単純さと人気にもかかわらず、FedAvgの収束率は決定されていない。 最も単純な仮定(凸、滑らか、均一、有界共分散)の下でも、最もよく知られた上界と下界は一致せず、既存の解析がアルゴリズムの容量を捉えるかどうかは不明である。 本稿では,既存のFedAvg上界解析が即効的でないことを示す,既存の上限値と一致したFedAvgの下界を提供することで,この問題を最初に解決する。 さらに,既存の上界とほぼ一致する不均質な設定において下界を確立する。 下限はFedAvgの限界を示すが、3階の滑らかさを仮定すると、凸面と非凸面の両方でより楽観的な収束結果が証明される。 我々の分析は反復バイアス (iterate bias) と呼ばれる概念に起因しており、これは同じ初期化を持つ無騒音勾配降下軌道からsgd軌道の期待値の偏差によって定義される。 この量に対する新しい鋭い境界を証明し、確率微分方程式(sde)の観点から直感的にその量を分析する方法を示す。

Federated Averaging (FedAvg), also known as Local SGD, is one of the most popular algorithms in Federated Learning (FL). Despite its simplicity and popularity, the convergence rate of FedAvg has thus far been undetermined. Even under the simplest assumptions (convex, smooth, homogeneous, and bounded covariance), the best-known upper and lower bounds do not match, and it is not clear whether the existing analysis captures the capacity of the algorithm. In this work, we first resolve this question by providing a lower bound for FedAvg that matches the existing upper bound, which shows the existing FedAvg upper bound analysis is not improvable. Additionally, we establish a lower bound in a heterogeneous setting that nearly matches the existing upper bound. While our lower bounds show the limitations of FedAvg, under an additional assumption of third-order smoothness, we prove more optimistic state-of-the-art convergence results in both convex and non-convex settings. Our analysis stems from a notion we call iterate bias, which is defined by the deviation of the expectation of the SGD trajectory from the noiseless gradient descent trajectory with the same initialization. We prove novel sharp bounds on this quantity, and show intuitively how to analyze this quantity from a Stochastic Differential Equation (SDE) perspective.
翻訳日:2021-11-09 14:53:37 公開日:2021-11-05
# 反復サンプリングによるデータ多様性の向上とパフォーマンス向上

Increasing Data Diversity with Iterative Sampling to Improve Performance ( http://arxiv.org/abs/2111.03743v1 )

ライセンス: Link先を確認
Devrim Cavusoglu, Ogulcan Eryuksel, Sinan Altinuc(参考訳) データ中心aiコンペティションの一環として,反復サンプリングによるトレーニングサンプルの多様性を向上させるためのデータ中心アプローチを提案する。 この手法自体は、拡張サンプルの忠実度と拡張方法の多様性に強く依存している。 さらに,難解なクラスに対して,特に,手元にあるモデルが誤分類している可能性のあるエッジケースに,より近いサンプルを提供することにより,パフォーマンスをさらに向上させる。

As a part of the Data-Centric AI Competition, we propose a data-centric approach to improve the diversity of the training samples by iterative sampling. The method itself relies strongly on the fidelity of augmented samples and the diversity of the augmentation methods. Moreover, we improve the performance further by introducing more samples for the difficult classes especially providing closer samples to edge cases potentially those the model at hand misclassifies.
翻訳日:2021-11-09 14:09:09 公開日:2021-11-05
# 心と機械におけるメタ認知のアルゴリズム理論

An Algorithmic Theory of Metacognition in Minds and Machines ( http://arxiv.org/abs/2111.03745v1 )

ライセンス: Link先を確認
Rylan Schaeffer(参考訳) 人間は、追加の情報がない場合でも、自らが最適でない、あるいは間違っていると認識できる行動を選択できる。 どのようにして可能か? 本稿では,価値に基づくRLとポリシーに基づくRLとの強化学習におけるトレードオフをよく理解したメタ認知のアルゴリズム理論を提案する。 認知的(ニューロ)科学コミュニティに対して,本理論は,なぜ情報をエラー検出に使用できるのか,行動選択に利用できないのかという疑問に答える。 機械学習のコミュニティにとって,提案理論はアクターとアクター・クリティカルエージェントの新たな相互作用を生み出し,RLとベイズ最適化の新たな関係について述べる。 我々は提案するエージェントをメタ認知アクター批判(MAC)と呼ぶ。 我々は、ディープMACを実装することで、マシン内でメタ認知を作成する方法を示し、外部情報や遅延なしに、自身の準最適動作を検出できることを示す。

Humans sometimes choose actions that they themselves can identify as sub-optimal, or wrong, even in the absence of additional information. How is this possible? We present an algorithmic theory of metacognition based on a well-understood trade-off in reinforcement learning (RL) between value-based RL and policy-based RL. To the cognitive (neuro)science community, our theory answers the outstanding question of why information can be used for error detection but not for action selection. To the machine learning community, our proposed theory creates a novel interaction between the Actor and Critic in Actor-Critic agents and notes a novel connection between RL and Bayesian Optimization. We call our proposed agent the Metacognitive Actor Critic (MAC). We conclude with showing how to create metacognition in machines by implementing a deep MAC and showing that it can detect (some of) its own suboptimal actions without external information or delay.
翻訳日:2021-11-09 14:09:02 公開日:2021-11-05
# エンサンブルインバージョンによるMLモデルの学習データ再構成

Reconstructing Training Data from Diverse ML Models by Ensemble Inversion ( http://arxiv.org/abs/2111.03702v1 )

ライセンス: Link先を確認
Qian Wang, Daniel Kurz(参考訳) model inversion (mi)は、敵がトレーニングされた機械学習(ml)モデルにアクセスし、元のトレーニングデータに関する機密情報を推測しようとするもので、研究の注目を集めている。 MIの間、訓練されたモデルアンダーアタック(MUA)は通常凍結され、ジェネレーティブ・アドバイサル・ネットワーク(GAN)のようなジェネレータのトレーニングを誘導し、そのモデルのオリジナルのトレーニングデータの分布を再構築するために使用される。 これが元のトレーニングサンプルの漏洩を引き起こす可能性があり、もし成功すれば、トレーニングデータが個人識別情報(pii)を含んでいる場合、データセットの被験者のプライバシが危険にさらされる。 したがって、mi技術の可能性を深く調査することが、対応する防御技術の開発に不可欠である。 単一モデルに基づくトレーニングデータの高品質な再構築は困難である。 しかし、既存のmi文学では、複数のモデルをターゲットにした研究は行わず、敵にさらなる情報と多様な視点を提供する可能性がある。 本稿では,訓練モデルのアンサンブル(または集合)によって制約される生成器を共有対象または実体で訓練することにより,オリジナルトレーニングデータの分布を推定するアンサンブルインバージョン手法を提案する。 この技術は、単一のMLモデルのMIと比較して、データセットエンティティの区別可能な特徴を持つ生成されたサンプルの品質を顕著に向上させる。 我々は,データセットを使わずに高品質な結果を得るとともに,推定されたトレーニングデータと類似した補助データセットの活用によって結果が改善されることを示す。 アンサンブルにおけるモデルの多様性の影響を徹底的に調査し、再構成されたサンプルに対する鋭い予測と高い活性化を促すために追加の制約を活用し、より正確なトレーニング画像の再構成に繋がる。

Model Inversion (MI), in which an adversary abuses access to a trained Machine Learning (ML) model attempting to infer sensitive information about its original training data, has attracted increasing research attention. During MI, the trained model under attack (MUA) is usually frozen and used to guide the training of a generator, such as a Generative Adversarial Network (GAN), to reconstruct the distribution of the original training data of that model. This might cause leakage of original training samples, and if successful, the privacy of dataset subjects will be at risk if the training data contains Personally Identifiable Information (PII). Therefore, an in-depth investigation of the potentials of MI techniques is crucial for the development of corresponding defense techniques. High-quality reconstruction of training data based on a single model is challenging. However, existing MI literature does not explore targeting multiple models jointly, which may provide additional information and diverse perspectives to the adversary. We propose the ensemble inversion technique that estimates the distribution of original training data by training a generator constrained by an ensemble (or set) of trained models with shared subjects or entities. This technique leads to noticeable improvements of the quality of the generated samples with distinguishable features of the dataset entities compared to MI of a single ML model. We achieve high quality results without any dataset and show how utilizing an auxiliary dataset that's similar to the presumed training data improves the results. The impact of model diversity in the ensemble is thoroughly investigated and additional constraints are utilized to encourage sharp predictions and high activations for the reconstructed samples, leading to more accurate reconstruction of training images.
翻訳日:2021-11-09 13:47:16 公開日:2021-11-05
# (参考訳) 動的部分モジュラー最大化の複雑性について

On the Complexity of Dynamic Submodular Maximization ( http://arxiv.org/abs/2111.03198v1 )

ライセンス: CC BY 4.0
Xi Chen, Binghui Peng(参考訳) 我々は,n$挿入と削除のストリーム上で単調部分モジュラ関数を最大化する問題に対する動的アルゴリズムについて検討する。 濃度制約の下で$(0.5+\epsilon)$-approxima te の解を維持するアルゴリズムは、定数 $\epsilon>0$ に対して$\mathit{polynomial}$ in $n$ の償却クエリ複雑性を持つ必要がある。 さらに、0.584$-approximateソリューションを維持するには、線形アモータイズされたクエリの複雑さが必要である。 これは[lmnf+20, mon20] の最近の動的アルゴリズムとは対照的で、$(0.5-\epsilon)$近似を$\mathsf{poly}\log(n)$ amortized query complexityで達成している。 正の側では、ストリームが挿入のみである場合、基数制約の下で、近似付きマトロイド制約の下で問題に対する効率的なアルゴリズムを示し、1-1/e-\epsilon$ と amortized query complexities $\smash{o(\log (k/\epsilon)/\epsilo n^2)}$ と $\smash{k^{\tilde{o}(1/\epsilon^2)}\log n}$ をそれぞれ示す。

We study dynamic algorithms for the problem of maximizing a monotone submodular function over a stream of $n$ insertions and deletions. We show that any algorithm that maintains a $(0.5+\epsilon)$-approxima te solution under a cardinality constraint, for any constant $\epsilon>0$, must have an amortized query complexity that is $\mathit{polynomial}$ in $n$. Moreover, a linear amortized query complexity is needed in order to maintain a $0.584$-approximate solution. This is in sharp contrast with recent dynamic algorithms of [LMNF+20, Mon20] that achieve $(0.5-\epsilon)$-app roximation with a $\mathsf{poly}\log(n)$ amortized query complexity. On the positive side, when the stream is insertion-only, we present efficient algorithms for the problem under a cardinality constraint and under a matroid constraint with approximation guarantee $1-1/e-\epsilon$ and amortized query complexities $\smash{O(\log (k/\epsilon)/\epsilo n^2)}$ and $\smash{k^{\tilde{O}(1/\epsilon^2)}\log n}$, respectively, where $k$ denotes the cardinality parameter or the rank of the matroid.
翻訳日:2021-11-09 00:50:27 公開日:2021-11-05
# (参考訳) 直流マイクログリッド用DC/DCコンバータのニューラルネットワークによる電圧制御 [全文訳有]

Artificial Neural Network-Based Voltage Control of DC/DC Converter for DC Microgrid Applications ( http://arxiv.org/abs/2111.03207v1 )

ライセンス: CC BY 4.0
Hussain Sarwar Khan, Ihab S. Mohamed, Kimmo Kauhaniemi, and Lantao Liu(参考訳) 再生可能エネルギー技術の急速な成長により、マイクログリッド(mg)の概念が電力システムに広く受け入れられるようになった。 エネルギー貯蔵の容易な統合やシステム損失の低減といったDC配電システムの利点により、近年はDC MGが注目されている。 PIやPIDなどのリニアコントローラは、電力電子産業によって成熟して広く使用されるが、システムパラメータを変更するため、その性能は最適ではない。 本研究では,dc-dcブーストコンバータに対して,ニューラルネットワークを用いた電圧制御手法を提案する。 本稿では,モデル予測制御(MPC)をエキスパートとして使用し,提案したANNをトレーニングするためのデータを提供する。 ANNは微調整されるので、ステップアップDCコンバータの制御に直接使用される。 annの主な利点は、ニューラルネットワークシステムの識別が不正確なパラメータでもシステムモデルの不正確さを減少させ、並列構造のためmpcに比べて計算負荷が小さいことである。 提案手法の有効性を検証するため,MATLAB/Simulinkシミュレーションを行った。 シミュレーションの結果, PIコントローラと比較して, 異なる負荷条件下でのANN制御は良好な性能を示した。 トレーニングされたANNモデルの精度は約97%であり、DCマイクログリッドアプリケーションに使用するのに適している。

The rapid growth of renewable energy technology enables the concept of microgrid (MG) to be widely accepted in the power systems. Due to the advantages of the DC distribution system such as easy integration of energy storage and less system loss, DC MG attracts significant attention nowadays. The linear controller such as PI or PID is matured and extensively used by the power electronics industry, but their performance is not optimal as system parameters are changed. In this study, an artificial neural network (ANN) based voltage control strategy is proposed for the DC-DC boost converter. In this paper, the model predictive control (MPC) is used as an expert, which provides the data to train the proposed ANN. As ANN is tuned finely, then it is utilized directly to control the step-up DC converter. The main advantage of the ANN is that the neural network system identification decreases the inaccuracy of the system model even with inaccurate parameters and has less computational burden compared to MPC due to its parallel structure. To validate the performance of the proposed ANN, extensive MATLAB/Simulink simulations are carried out. The simulation results show that the ANN-based control strategy has better performance under different loading conditions comparison to the PI controller. The accuracy of the trained ANN model is about 97%, which makes it suitable to be used for DC microgrid applications.
翻訳日:2021-11-09 00:49:03 公開日:2021-11-05
# (参考訳) イベント抽出とその応用の概要 [全文訳有]

An overview of event extraction and its applications ( http://arxiv.org/abs/2111.03212v1 )

ライセンス: CC BY 4.0
Jiangwei Liu, Liangyu Min and Xiaohong Huang(参考訳) 情報技術の急速な発展により、オンラインプラットフォームは膨大なテキストリソースを生み出した。 イベント抽出(EE)は、情報抽出(IE)の特定の形態として、人間の言語からイベントを自動的に抽出する能力によって人気が高まっている。 しかし、イベント抽出に関する文献調査は限られている。 既存のレビューは、様々なアプローチの詳細を説明するのに多くの時間を費やすか、特定の分野にフォーカスする。 本研究は,クローズドドメインとオープンドメインイベント抽出を含む,テキストからのイベント抽出手法とそれらの応用に関する包括的概要を提供する。 この調査の特徴は、特定のアプローチの詳細が多すぎることを避けるため、適度な複雑さの概観を提供することだ。 本研究は,代表作の共通文字,応用分野,メリット,不利を論じ,個々のアプローチの特異性を無視することに焦点を当てる。 最後に、一般的な問題、現在の解決策、今後の研究の方向性をまとめる。 この研究が、研究者や実践者が最近のイベント抽出のクイックオーバービューを得るのに役立つことを願っている。

With the rapid development of information technology, online platforms have produced enormous text resources. As a particular form of Information Extraction (IE), Event Extraction (EE) has gained increasing popularity due to its ability to automatically extract events from human language. However, there are limited literature surveys on event extraction. Existing review works either spend much effort describing the details of various approaches or focus on a particular field. This study provides a comprehensive overview of the state-of-the-art event extraction methods and their applications from text, including closed-domain and open-domain event extraction. A trait of this survey is that it provides an overview in moderate complexity, avoiding involving too many details of particular approaches. This study focuses on discussing the common characters, application fields, advantages, and disadvantages of representative works, ignoring the specificities of individual approaches. Finally, we summarize the common issues, current solutions, and future research directions. We hope this work could help researchers and practitioners obtain a quick overview of recent event extraction.
翻訳日:2021-11-09 00:38:45 公開日:2021-11-05
# (参考訳) エッジベース可逆再校正ネットワークによる高速カモフラージュ物体検出

Fast Camouflaged Object Detection via Edge-based Reversible Re-calibration Network ( http://arxiv.org/abs/2111.03216v1 )

ライセンス: CC BY 4.0
Ge-Peng Ji, Lei Zhu, Mingchen Zhuge, Keren Fu(参考訳) camouflaged object detection (cod) は、周囲に類似したパターン(テクスチャ、強度、色など)を持つ物体を検出することを目的としており、近年は研究の関心が高まっている。 カモフラージュされたオブジェクトは、しばしば非常にあいまいな境界が存在するため、オブジェクトの位置と弱い境界を決定する方法は困難であり、またこのタスクの鍵でもある。 人間の観察者が迷彩された物体を発見する際の生物学的視覚知覚過程に着想を得て,新しいエッジベース可逆再結合ネットワークerrnetを提案する。 本モデルの特徴は,視覚的知覚行動のモデル化と,潜在的なカモフラージュ領域と背景領域の相互比較を目的とした,選択的エッジアグリゲーション(SEA)と可逆的再校正ユニット(RRU)の2つの革新的設計である。 さらに重要なことは、RRUは既存のCODモデルと比較したより包括的な情報で、様々な事前情報を組み込んでいることだ。 実験の結果,ERRNetは3つのCODデータセットと5つの医用画像セグメンテーションデータセットで既存の最先端ベースラインよりも優れていた。 特に、既存の top-1 モデル sinet と比較すると、errnet は cod タスクの汎用的かつ堅牢なソリューションとして、特に高速 (79.3 fps) で $\sim$6% (平均 e-measure) の性能を大幅に改善している。

Camouflaged Object Detection (COD) aims to detect objects with similar patterns (e.g., texture, intensity, colour, etc) to their surroundings, and recently has attracted growing research interest. As camouflaged objects often present very ambiguous boundaries, how to determine object locations as well as their weak boundaries is challenging and also the key to this task. Inspired by the biological visual perception process when a human observer discovers camouflaged objects, this paper proposes a novel edge-based reversible re-calibration network called ERRNet. Our model is characterized by two innovative designs, namely Selective Edge Aggregation (SEA) and Reversible Re-calibration Unit (RRU), which aim to model the visual perception behaviour and achieve effective edge prior and cross-comparison between potential camouflaged regions and background. More importantly, RRU incorporates diverse priors with more comprehensive information comparing to existing COD models. Experimental results show that ERRNet outperforms existing cutting-edge baselines on three COD datasets and five medical image segmentation datasets. Especially, compared with the existing top-1 model SINet, ERRNet significantly improves the performance by $\sim$6% (mean E-measure) with notably high speed (79.3 FPS), showing that ERRNet could be a general and robust solution for the COD task.
翻訳日:2021-11-09 00:06:11 公開日:2021-11-05
# (参考訳) 一般化線形モデルによる信号回復のためのセンシングスペクトルの解析

Analysis of Sensing Spectral for Signal Recovery Under a Generalized Linear Model ( http://arxiv.org/abs/2111.03237v1 )

ライセンス: CC BY 4.0
Junjie Ma, Ji Xu, Arian Maleki(参考訳) 非線形逆問題 $\mathbf{y}= f(\mathbf{Ax})$, ここで、観測 $\mathbf{y} \in \mathbb{R}^m$ は $\mathbf{Ax} \in \mathbb{R}^m$, $\mathbf{x} \in \mathbb{R}^n$ の成分的に非線形変換であり、$\mathbf{A}$ は興味の信号であり、$\mathbf{A}$ は既知の線型写像である。 非線形処理関数を適切に指定することにより、圧縮センシングや位相探索を含む多くの信号処理問題に特化することができる。 本論文の主な目的は,センサ行列,具体的にはセンサ行列のスペクトルが,$\mathbf{x}$から$\mathbf{y}$を回収することの難しさに与える影響を理解することである。 この目的に向けて、我々は最も成功した回復手法の一つ、すなわち期待伝搬アルゴリズム(EP)の性能について検討する。 我々は、$\mathbf{A}$のスペクトルのスパイキネスの概念を定義し、EPのパフォーマンスにおいてこの尺度の重要性を示す。 スペクトルのスパイキネスがEPの回復性能を損なうか否かは、$f$に依存する。 私たちは、epリカバリに対するスペクトルのスパイクネスの影響を記述できる$f$という関数に基づいて、一定の量を定義する。 この枠組みに基づき、例えば位相検索問題では、スパイカースペクトルを持つ行列はEPよりよいが、1ビット圧縮されたセンシング問題では、より少ないスパイキー(平ら)スペクトルはより良い回復をもたらすことを示した。 本結果は,ガウス行列と直交行列を比較した既存の結果を一元化し,実質的に一般化し,最適センシングシステムを設計するためのプラットフォームを提供する。

We consider a nonlinear inverse problem $\mathbf{y}= f(\mathbf{Ax})$, where observations $\mathbf{y} \in \mathbb{R}^m$ are the componentwise nonlinear transformation of $\mathbf{Ax} \in \mathbb{R}^m$, $\mathbf{x} \in \mathbb{R}^n$ is the signal of interest and $\mathbf{A}$ is a known linear mapping. By properly specifying the nonlinear processing function, this model can be particularized to many signal processing problems, including compressed sensing and phase retrieval. Our main goal in this paper is to understand the impact of sensing matrices, or more specifically the spectrum of sensing matrices, on the difficulty of recovering $\mathbf{x}$ from $\mathbf{y}$. Towards this goal, we study the performance of one of the most successful recovery methods, i.e. the expectation propagation algorithm (EP). We define a notion for the spikiness of the spectrum of $\mathbf{A}$ and show the importance of this measure in the performance of the EP. Whether the spikiness of the spectrum can hurt or help the recovery performance of EP depends on $f$. We define certain quantities based on the function $f$ that enables us to describe the impact of the spikiness of the spectrum on EP recovery. Based on our framework, we are able to show that for instance, in phase-retrieval problems, matrices with spikier spectrums are better for EP, while in 1-bit compressed sensing problems, less spiky (flatter) spectrums offer better recoveries. Our results unify and substantially generalize the existing results that compare sub-Gaussian and orthogonal matrices, and provide a platform toward designing optimal sensing systems.
翻訳日:2021-11-09 00:05:03 公開日:2021-11-05
# (参考訳) リモートセンシング画像の超解像と物体検出:ベンチマークと最先端技術

Remote Sensing Image Super-resolution and Object Detection: Benchmark and State of the Art ( http://arxiv.org/abs/2111.03260v1 )

ライセンス: CC BY 4.0
Yi Wang, Syed Muhammad Arsalan Bashir, Mahrukh Khan, Qudrat Ullah, Rui Wang, Yilin Song, Zhe Guo, Yilong Niu(参考訳) 過去20年間、リモートセンシング(RS)画像における物体検出手法の開発に多大な努力が続けられてきた。 ほとんどの場合、リモートセンシング画像における小さな物体検出のためのデータセットは不十分である。 多くの研究者は、オブジェクト検出にシーン分類データセットを使用しており、その制限がある。 これにより、RS画像中の小さな物体検出器の検出性能にさらに影響を及ぼす。 本稿では、リモートセンシング画像の現在のデータセットとオブジェクト検出方法(深層学習に基づく)について述べる。 また,大規模で一般公開のベンチマークであるRemote Sensing Super- resolution Object Detection (RSSOD)データセットを提案する。 RSSODデータセットは、1,759個の手書き画像と22,091個の超高解像度画像で構成され、空間解像度は0.05mである。 クラスごとに異なるラベルの頻度を持つ5つのクラスがある。 画像パッチは衛星画像から抽出され、具体的なスケール歪みやスキュー歪みなどの実際の画像歪みを含む。 また, 残差特徴集約 (mcgr) と補助yolov5検出器を用いた, 画像超解像に基づく物体検出のベンチマークを行い, 画像超解像 (sr) に基づく既存の最先端手法との比較を行った。 提案したMCGRは、現在のNLSN法と比較して1.2dBPSNRの改善により、画像SRの最先端性能を達成した。 MCGRは、それぞれ5クラス、4クラス、2クラス、シングルクラスの0.758、0.881、0.841、0.983のオブジェクト検出mAPを達成し、それぞれ最先端のオブジェクト検出器YOLOv5、EfficientDet、Faster RCNN、SSD、RetinaNetの性能を上回った。

For the past two decades, there have been significant efforts to develop methods for object detection in Remote Sensing (RS) images. In most cases, the datasets for small object detection in remote sensing images are inadequate. Many researchers used scene classification datasets for object detection, which has its limitations; for example, the large-sized objects outnumber the small objects in object categories. Thus, they lack diversity; this further affects the detection performance of small object detectors in RS images. This paper reviews current datasets and object detection methods (deep learning-based) for remote sensing images. We also propose a large-scale, publicly available benchmark Remote Sensing Super-resolution Object Detection (RSSOD) dataset. The RSSOD dataset consists of 1,759 hand-annotated images with 22,091 instances of very high resolution (VHR) images with a spatial resolution of ~0.05 m. There are five classes with varying frequencies of labels per class. The image patches are extracted from satellite images, including real image distortions such as tangential scale distortion and skew distortion. We also propose a novel Multi-class Cyclic super-resolution Generative adversarial network with Residual feature aggregation (MCGR) and auxiliary YOLOv5 detector to benchmark image super-resolution-bas ed object detection and compare with the existing state-of-the-art methods based on image super-resolution (SR). The proposed MCGR achieved state-of-the-art performance for image SR with an improvement of 1.2dB PSNR compared to the current state-of-the-art NLSN method. MCGR achieved best object detection mAPs of 0.758, 0.881, 0.841, and 0.983, respectively, for five-class, four-class, two-class, and single classes, respectively surpassing the performance of the state-of-the-art object detectors YOLOv5, EfficientDet, Faster RCNN, SSD, and RetinaNet.
翻訳日:2021-11-09 00:03:32 公開日:2021-11-05
# (参考訳) フレームレット正規化器によるグラフDenoising [全文訳有]

Graph Denoising with Framelet Regularizer ( http://arxiv.org/abs/2111.03264v1 )

ライセンス: CC BY 4.0
Bingxin Zhou, Ruikun Li, Xuebin Zheng, Yu Guang Wang, Junbin Gao(参考訳) 実世界から収集されたグラフデータは単なるノイズフリーであるため、実用的なグラフ表現はノイズに対して堅牢であるべきである。 既存の研究は通常、特徴の平滑化に焦点を当てているが、幾何学的構造には触れられていない。 さらに、ほとんどの研究は、グラフニューラルネットワークの表現性を制限する大域的な滑らかさを追求するL2ノルムを用いる。 本稿では,乗算器の交互方向法(ADMM)により目的関数を効率よく解き,特徴雑音と構造雑音の両方の観点からグラフデータの正規化を行う。 提案手法では,オーバースムーシングを心配することなく複数の層を選択でき,最適解への収束を保証できる。 実験により, グラフの汚染度が高い場合でも, 一般的なグラフ畳み込みと比較して, モデルの性能が著しく向上することが実証された。

As graph data collected from the real world is merely noise-free, a practical representation of graphs should be robust to noise. Existing research usually focuses on feature smoothing but leaves the geometric structure untouched. Furthermore, most work takes L2-norm that pursues a global smoothness, which limits the expressivity of graph neural networks. This paper tailors regularizers for graph data in terms of both feature and structure noises, where the objective function is efficiently solved with the alternating direction method of multipliers (ADMM). The proposed scheme allows to take multiple layers without the concern of over-smoothing, and it guarantees convergence to the optimal solutions. Empirical study proves that our model achieves significantly better performance compared with popular graph convolutions even when the graph is heavily contaminated.
翻訳日:2021-11-09 00:02:12 公開日:2021-11-05
# (参考訳) ラスタ化のないベクトルグラフの認識 [全文訳有]

Recognizing Vector Graphics without Rasterization ( http://arxiv.org/abs/2111.03281v1 )

ライセンス: CC BY 4.0
Xinyang Jiang, Lu Liu, Caihua Shan, Yifei Shen, Xuanyi Dong, Dongsheng Li(参考訳) 本稿では,ベクトルグラフィックスという,画像の異なるデータ形式について考察する。 画像認識で広く使われているラスターグラフィックスとは対照的に、ベクトルグラフィックスは文書のプリミティブの解析的表現のため、エイリアスや情報損失なしに任意の解像度にスケールアップまたは縮小することができる。 さらに、ベクターグラフィックスは、低レベル要素がどのようにグループ化され、ハイレベルな形状や構造を形成するかに関する追加の構造情報を提供することができる。 これらのグラフィックベクトルの利点は、既存の手法では十分に活用されていない。 このデータフォーマットを探索するために、オブジェクトのローカライゼーションと分類という基本的な認識タスクを対象とする。 本稿では,グラフィックをピクセル(ラスタライゼーション)にレンダリングしない効率的なCNNフリーパイプラインを提案し,ベクトルグラフィックスのテキスト文書を入力として,YOLaT(You Only Look at Text)と呼ぶ。 YOLaTは、ベクトルグラフィックスにおける構造情報と空間情報をモデル化するマルチグラフを構築し、グラフからオブジェクトを検出するために、デュアルストリームグラフニューラルネットワークを提案する。 実験では,ベクトルグラフィックスを直接操作することで,平均精度と効率の両面でラスタグラフィックに基づく物体検出ベースラインを上回ることを示した。

In this paper, we consider a different data format for images: vector graphics. In contrast to raster graphics which are widely used in image recognition, vector graphics can be scaled up or down into any resolution without aliasing or information loss, due to the analytic representation of the primitives in the document. Furthermore, vector graphics are able to give extra structural information on how low-level elements group together to form high level shapes or structures. These merits of graphic vectors have not been fully leveraged in existing methods. To explore this data format, we target on the fundamental recognition tasks: object localization and classification. We propose an efficient CNN-free pipeline that does not render the graphic into pixels (i.e. rasterization), and takes textual document of the vector graphics as input, called YOLaT (You Only Look at Text). YOLaT builds multi-graphs to model the structural and spatial information in vector graphics, and a dual-stream graph neural network is proposed to detect objects from the graph. Our experiments show that by directly operating on vector graphics, YOLaT out-performs raster-graphic based object detection baselines in terms of both average precision and efficiency.
翻訳日:2021-11-08 23:26:11 公開日:2021-11-05
# (参考訳) 時間スケール表現の再解析による時間依存学習のための繰り返しニューラルネットワーク [全文訳有]

Recurrent Neural Networks for Learning Long-term Temporal Dependencies with Reanalysis of Time Scale Representation ( http://arxiv.org/abs/2111.03282v1 )

ライセンス: CC BY 4.0
Kentaro Ohno, Atsutoshi Kumagai(参考訳) LSTMやGRUのようなゲーティング機構を備えたリカレントニューラルネットワークは、シーケンシャルデータをモデル化するための強力なツールである。 この機構では、rnnの隠れた状態における情報フローを制御するために導入されたrelookゲートが、最近、入力に関する情報を保持するrnnの時間スケールを表すものとして再解釈されている。 この解釈に基づいて、データの時間的依存関係に関する事前知識を活用するためのパラメータ初期化手法が提案され、学習性が改善された。 しかし、解釈は特定の時点の後に入力がないというような様々な非現実的な仮定に依存している。 本稿では,より現実的な設定で,このルターゲートの解釈を再考する。 まず、ゲートRNNに関する既存の理論を一般化し、入力が連続的に与えられる場合を考える。 次に,時間とともに損失の勾配が指数関数的に減少する場合には,時間的表現としての忘れ門の解釈が有効であると主張する。 実験により,既存のrnnが複数のタスクの初期トレーニング段階でこの勾配条件を満たすことを実証し,従来の初期化法とよく一致した。 そこで本研究では,従来のモデルよりも長い時間スケールを表現できる新しいRNNの構築手法を提案する。 本手法の有効性を実世界データセットを用いた実験により検証する。

Recurrent neural networks with a gating mechanism such as an LSTM or GRU are powerful tools to model sequential data. In the mechanism, a forget gate, which was introduced to control information flow in a hidden state in the RNN, has recently been re-interpreted as a representative of the time scale of the state, i.e., a measure how long the RNN retains information on inputs. On the basis of this interpretation, several parameter initialization methods to exploit prior knowledge on temporal dependencies in data have been proposed to improve learnability. However, the interpretation relies on various unrealistic assumptions, such as that there are no inputs after a certain time point. In this work, we reconsider this interpretation of the forget gate in a more realistic setting. We first generalize the existing theory on gated RNNs so that we can consider the case where inputs are successively given. We then argue that the interpretation of a forget gate as a temporal representation is valid when the gradient of loss with respect to the state decreases exponentially as time goes back. We empirically demonstrate that existing RNNs satisfy this gradient condition at the initial training phase on several tasks, which is in good agreement with previous initialization methods. On the basis of this finding, we propose an approach to construct new RNNs that can represent a longer time scale than conventional models, which will improve the learnability for long-term sequential data. We verify the effectiveness of our method by experiments with real-world datasets.
翻訳日:2021-11-08 23:09:50 公開日:2021-11-05
# (参考訳) 実世界画像の高分解能化のための周波数認識物理学に基づく分解モデル [全文訳有]

Frequency-Aware Physics-Inspired Degradation Model for Real-World Image Super-Resolution ( http://arxiv.org/abs/2111.03301v1 )

ライセンス: CC BY 4.0
Zhenxing Dong, Hong Cao, Wang Shen, Yu Gan, Yuye Ling, Guangtao Zhai, Yikai Su(参考訳) 現在の学習に基づくsingle image super- resolution (sisr)アルゴリズムは、実際のシナリオで想定される分解過程のずれのために実データに過小評価される。 従来の劣化過程では、高分解能(hr)画像にぼかし、ノイズ、ダウンサンプリング(典型的にはbicubic downsampling)を適用して低分解能(lr)画像を生成する。 しかし,光学画像システムの物理的側面を考慮に入れた劣化モデリングの研究はほとんどない。 本稿では,空間周波数領域における実世界のLR-HR対の特性を光学的に解析し,その特性を明らかにする。 撮像系の物理的劣化を低パスフィルタとしてモデル化し、その遮断周波数は物体距離、レンズの焦点長、画像センサの画素サイズによって決定される。 特に、畳み込みニューラルネットワーク(CNN)を用いて、実世界の劣化過程の遮断周波数を学習することを提案する。 学習したネットワークを用いて、未ペアのHR画像からLR画像を合成する。 合成HR-LRイメージペアは後にSISRネットワークのトレーニングに使用される。 異なる撮像システムで撮像した実世界の画像に対する劣化モデルの有効性と一般化能力を評価する。 実験の結果,本合成データを用いてトレーニングしたsisrネットワークは,従来の劣化モデルを用いたネットワークに対して好適に機能することが示された。 さらに,現実のLR-HRペアを用いてトレーニングした同じネットワークで得られたものと比較し,実際のシーンで取得することが困難である。

Current learning-based single image super-resolution (SISR) algorithms underperform on real data due to the deviation in the assumed degrada-tion process from that in the real-world scenario. Conventional degradation processes consider applying blur, noise, and downsampling (typicallybicubic downsampling) on high-resolution (HR) images to synthesize low-resolution (LR) counterparts. However, few works on degradation modelling have taken the physical aspects of the optical imaging system intoconsideration. In this paper, we analyze the imaging system optically andexploit the characteristics of the real-world LR-HR pairs in the spatial frequency domain. We formulate a real-world physics-inspired degradationmodel by considering bothopticsandsensord egradation; The physical degradation of an imaging system is modelled as a low-pass filter, whose cut-off frequency is dictated by the object distance, the focal length of thelens, and the pixel size of the image sensor. In particular, we propose to use a convolutional neural network (CNN) to learn the cutoff frequency of real-world degradation process. The learned network is then applied to synthesize LR images from unpaired HR images. The synthetic HR-LR image pairs are later used to train an SISR network. We evaluatethe effectiveness and generalization capability of the proposed degradation model on real-world images captured by different imaging systems. Experimental results showcase that the SISR network trained by using our synthetic data performs favorably against the network using the traditional degradation model. Moreover, our results are comparable to that obtained by the same network trained by using real-world LR-HR pairs, which are challenging to obtain in real scenes.
翻訳日:2021-11-08 22:54:19 公開日:2021-11-05
# (参考訳) 非信頼環境における機密機械学習計算:システムセキュリティの観点から [全文訳有]

Confidential Machine Learning Computation in Untrusted Environments: A Systems Security Perspective ( http://arxiv.org/abs/2111.03308v1 )

ライセンス: CC BY 4.0
Kha Dinh Duy, Taehyun Noh, Siwon Huh, Hojoon Lee(参考訳) 機械学習(ML)技術とアプリケーションが多くのコンピューティング領域を急速に変化させているため、MLに関連するセキュリティ問題も浮上している。 システムセキュリティの分野では、MLモデルとデータの機密性を保証するために多くの取り組みがなされている。 ML計算は、信頼できない環境で必然的に実行され、複雑なマルチパーティセキュリティ要件が伴う。 そのため、研究者はTrusted Execution Environments (TEEs)を活用して、秘密のML計算システムを構築した。 本稿では,TEE保護された秘密ML計算における攻撃ベクトルの分類と緩和による系統的かつ包括的な調査を行い,マルチパーティのMLセキュリティ要件を分析し,関連するエンジニアリング課題について論じる。

As machine learning (ML) technologies and applications are rapidly changing many domains of computing, security issues associated with ML are also emerging. In the domain of systems security, many endeavors have been made to ensure ML model and data confidentiality. ML computations are often inevitably performed in untrusted environments and entail complex multi-party security requirements. Hence, researchers have leveraged the Trusted Execution Environments (TEEs) to build confidential ML computation systems. This paper conducts a systematic and comprehensive survey by classifying attack vectors and mitigation in TEE-protected confidential ML computation in the untrusted environment, analyzes the multi-party ML security requirements, and discusses related engineering challenges.
翻訳日:2021-11-08 22:38:20 公開日:2021-11-05
# (参考訳) ランダムボールの学習はグラフパラメータの推定に十分である [全文訳有]

Learning on Random Balls is Sufficient for Estimating (Some) Graph Parameters ( http://arxiv.org/abs/2111.03317v1 )

ライセンス: CC BY 4.0
Takanori Maehara and Hoang NT(参考訳) グラフ学習法の理論的解析は、しばしば入力グラフの完全な観察を仮定する。 このような仮定は、実際にスケーラビリティの問題のために、どんなサイズのグラフを扱うのにも役に立たないかもしれない。 本研究では,部分的観測設定(すなわち部分グラフサンプリング)におけるグラフ分類問題に対する理論的枠組みを開発する。 グラフ極限理論からの洞察を得て、ランダムにサンプリングされた部分グラフに作用する新しいグラフ分類モデルと、モデルの表現可能性を特徴付ける新しいトポロジーを提案する。 理論的な枠組みは,グラフ上のミニバッチ学習の理論的検証に寄与し,入力の仮定を伴わないサイズ一般化可能性だけでなく,一般化境界に関する新しい学習理論的結果をもたらす。

Theoretical analyses for graph learning methods often assume a complete observation of the input graph. Such an assumption might not be useful for handling any-size graphs due to the scalability issues in practice. In this work, we develop a theoretical framework for graph classification problems in the partial observation setting (i.e., subgraph samplings). Equipped with insights from graph limit theory, we propose a new graph classification model that works on a randomly sampled subgraph and a novel topology to characterize the representability of the model. Our theoretical framework contributes a theoretical validation of mini-batch learning on graphs and leads to new learning-theoretic results on generalization bounds as well as size-generalizabilit y without assumptions on the input.
翻訳日:2021-11-08 21:42:15 公開日:2021-11-05
# (参考訳) 時間表現がメタファー検出に及ぼす影響について [全文訳有]

On the Impact of Temporal Representations on Metaphor Detection ( http://arxiv.org/abs/2111.03320v1 )

ライセンス: CC BY-SA 4.0
Giorgio Ottolina, Matteo Palmonari, Mehwish Alam, Manuel Vimercati(参考訳) メタファ検出のための最先端のアプローチは、ニューラルネットワークに基づく逐次的メタファ分類器を使用して、そのリテラル(あるいはコア)の意味と文脈的意味を比較する。 文字通りの意味を表す信号はしばしば(文脈的でない)単語埋め込みによって表現される。 しかし、文化や社会的影響など様々な理由により、比喩表現は時間とともに進化していく。 メタファー的表現は、言語やリテラルな単語の意味と共進化することが知られており、ある程度この進化を促している。 これは、異なる、おそらく時間固有のリテラルの意味の表現がメタファー検出タスクに影響を及ぼすかどうかという問題を引き起こす。 本研究は,リテラル意味の異なる表現を説明するために,時間的および静的な単語埋め込みが使用される詳細な探索分析を用いて,メタファ検出タスクを検討する最初の研究である。 実験分析は,メタファ検出に使用される3つのベンチマークと,異なるコーパスから抽出された単語埋め込みと,時折異なる最先端のアプローチに基づく。 その結果、異なる単語埋め込みはメタファー検出タスクに影響を与え、いくつかの時間的単語埋め込みはいくつかのパフォーマンス測定において静的メソッドよりもわずかに優れることが示唆された。 しかし, 時間的単語埋め込みは, 語の中核的な意味の表現をメタファー的意味に近づきすぎ, 分類を混乱させる可能性が示唆された。 全体的に、時間的言語の進化とメタファー検出の相互作用は、実験で使用されたベンチマークデータセットではほとんど見えません。 このことは、この重要な言語現象の計算解析のための今後の研究は、まずこの相互作用をより良く表現できる新しいデータセットを作成することから始めるべきであることを示唆している。

State-of-the-art approaches for metaphor detection compare their literal - or core - meaning and their contextual meaning using sequential metaphor classifiers based on neural networks. The signal that represents the literal meaning is often represented by (non-contextual) word embeddings. However, metaphorical expressions evolve over time due to various reasons, such as cultural and societal impact. Metaphorical expressions are known to co-evolve with language and literal word meanings, and even drive, to some extent, this evolution. This rises the question whether different, possibly time-specific, representations of literal meanings may impact on the metaphor detection task. To the best of our knowledge, this is the first study which examines the metaphor detection task with a detailed exploratory analysis where different temporal and static word embeddings are used to account for different representations of literal meanings. Our experimental analysis is based on three popular benchmarks used for metaphor detection and word embeddings extracted from different corpora and temporally aligned to different state-of-the-art approaches. The results suggest that different word embeddings do impact on the metaphor detection task and some temporal word embeddings slightly outperform static methods on some performance measures. However, results also suggest that temporal word embeddings may provide representations of words' core meaning even too close to their metaphorical meaning, thus confusing the classifier. Overall, the interaction between temporal language evolution and metaphor detection appears tiny in the benchmark datasets used in our experiments. This suggests that future work for the computational analysis of this important linguistic phenomenon should first start by creating a new dataset where this interaction is better represented.
翻訳日:2021-11-08 21:08:14 公開日:2021-11-05
# (参考訳) FINN.no Slates Dataset:新しいシーケンシャルデータセットロギングインタラクション、AllViewed Items、Click Responses/No-Click for Recommender Systems Research [全文訳有]

FINN.no Slates Dataset: A new Sequential Dataset Logging Interactions, allViewed Items and Click Responses/No-Click for Recommender Systems Research ( http://arxiv.org/abs/2111.03340v1 )

ライセンス: CC BY 4.0
Simen Eide, Arnoldo Frigessi, Helge Jenssen, David S. Leslie, Joakim Rishaug, Sofie Verrewaere(参考訳) 本稿では,ユーザとオンラインマーケットプレース間のシーケンシャルなインタラクションを記録する,新たなレコメンダシステムデータセットを提案する。 ユーザは、マーケットプレースからスレートと呼ばれるアイテムのランク付けリストの形で、レコメンデーションと検索結果の両方を順次提示される。 データセットには、各ラウンドで提示されたスレート、ユーザがこれらのアイテムをクリックしたかどうか、ユーザがクリックしたアイテムが含まれている。 推奨システムにおける露出データの利用は増加しているが,我々の知る限り,対話毎に提示される項目のスレートを含む大規模レコメンデータシステムデータセットは存在しない。 その結果、レコメンダシステムに関する記事の多くは、この露出情報を使用しない。 その代わり、提案されたモデルはユーザーのクリック応答にのみ依存し、ユーザーが各ステップでアイテム宇宙のすべてのアイテムに露出していると仮定する(しばしば一様候補サンプリングと呼ばれる)。 これは不完全な仮定であり、ユーザーが公開していないかもしれない項目を考慮に入れる。 この方法では、アイテムはユーザにとって興味がないと見なされるかもしれません。 実際に表示されたスレートを考慮に入れれば、バンディットや強化学習の文献でよく見られるように、アイテムの露出セットのクリック確率に基づいて、モデルがより自然な可能性を利用することができる。 \cite{eide2021dynamicsampl ing} は、一様候補サンプリング(および類似の仮定)に基づく確率が、プラットフォームがユーザに最も関連する項目のみを示すと暗黙的に仮定していることを示している。 これにより、リコメンダシステムは暗黙的にフィードバックループを強化し、以前公開されたアイテムに対してバイアスを負う。

We present a novel recommender systems dataset that records the sequential interactions between users and an online marketplace. The users are sequentially presented with both recommendations and search results in the form of ranked lists of items, called slates, from the marketplace. The dataset includes the presented slates at each round, whether the user clicked on any of these items and which item the user clicked on. Although the usage of exposure data in recommender systems is growing, to our knowledge there is no open large-scale recommender systems dataset that includes the slates of items presented to the users at each interaction. As a result, most articles on recommender systems do not utilize this exposure information. Instead, the proposed models only depend on the user's click responses, and assume that the user is exposed to all the items in the item universe at each step, often called uniform candidate sampling. This is an incomplete assumption, as it takes into account items the user might not have been exposed to. This way items might be incorrectly considered as not of interest to the user. Taking into account the actually shown slates allows the models to use a more natural likelihood, based on the click probability given the exposure set of items, as is prevalent in the bandit and reinforcement learning literature. \cite{Eide2021DynamicSampl ing} shows that likelihoods based on uniform candidate sampling (and similar assumptions) are implicitly assuming that the platform only shows the most relevant items to the user. This causes the recommender system to implicitly reinforce feedback loops and to be biased towards previously exposed items to the user.
翻訳日:2021-11-08 20:50:55 公開日:2021-11-05
# (参考訳) DVFL:動的データのための垂直フェデレーション学習法 [全文訳有]

DVFL: A Vertical Federated Learning Method for Dynamic Data ( http://arxiv.org/abs/2111.03341v1 )

ライセンス: CC BY 4.0
Yuzhi Liang and Yixiang Chen(参考訳) 複数の計算デバイスを分散システムに接続することでデータアイランドの問題を解決するフェデレーション・ラーニングは、プライバシ保存機械学習の有望なパラダイムとなっている。 本稿では,共同作業を行う組織が,同じユーザ集合を共有できるが,機能に相容れないシナリオに対処する,垂直連合学習(VFL)について検討する。 現在のvflメソッドは主に、アクティブなパーティとパッシブなパーティが最初からすべてのデータを持ち、変更しない静的なシナリオで使用される。 しかし、実生活のデータはしばしば動的に変化する。 この問題を軽減するため,我々は,知識蒸留による動的データ分布変化に対応する新しい垂直フェデレーション学習法であるdvflを提案する。 DVFLでは、ほとんどの計算はデータセキュリティとモデル効率を改善するためにローカルに保持される。 DVFLは静的シーンにおける既存のVFL手法に近い結果を得るだけでなく,動的シナリオにおけるデータ分布の変化にも適応できることを示す。

Federated learning, which solves the problem of data island by connecting multiple computational devices into a decentralized system, has become a promising paradigm for privacy-preserving machine learning. This paper studies vertical federated learning (VFL), which tackles the scenarios where collaborating organizations share the same set of users but disjoint features. Contemporary VFL methods are mainly used in static scenarios where the active party and the passive party have all the data from the beginning and will not change. However, the data in real life often changes dynamically. To alleviate this problem, we propose a new vertical federation learning method, DVFL, which adapts to dynamic data distribution changes through knowledge distillation. In DVFL, most of the computations are held locally to improve data security and model efficiency. Our extensive experimental results show that DVFL can not only obtain results close to existing VFL methods in static scenes, but also adapt to changes in data distribution in dynamic scenarios.
翻訳日:2021-11-08 20:46:00 公開日:2021-11-05
# (参考訳) 暗黒でのCOVID-19対策--同型暗号化DNNを用いた推論改善手法 [全文訳有]

Fighting COVID-19 in the Dark: Methodology for Improved Inference Using Homomorphically Encrypted DNN ( http://arxiv.org/abs/2111.03362v1 )

ライセンス: CC BY 4.0
Moran Baruch, Lev Greenberg and Guy Moshkowich(参考訳) プライバシ保存型ディープニューラルネットワーク(DNN)推論は、医療、金融、小売など、さまざまな規制された業界で必須である。 近年,準同型暗号(he)は,プライバシの懸念に対処しつつ分析を可能にする手段として利用されている。 HEは暗号化データに対するセキュアな予測を可能にする。 しかし、DNNサイズ制限やいくつかの操作タイプのサポートの欠如など、HEの使用に関するいくつかの課題がある。 特によく使われるReLUアクティベーションはHE方式ではサポートされない。 本稿では,reluを二次多項式アクティベーションに置き換える構造化手法を提案する。 精度低下問題に対処するために,「訓練可能アクティベーション」機能や知識蒸留といった手法を用いて,他のheフレンドリーなモデルを訓練する事前学習モデルを用いる。 我々は、胸部x線およびctデータセットを用いて、alexnetアーキテクチャに関する方法論を実証する。 実験の結果,本手法では,reluで学習したモデルのf1得点と精度の差を1.1~5.3%程度まで狭めることができた。

Privacy-preserving deep neural network (DNN) inference is a necessity in different regulated industries such as healthcare, finance, and retail. Recently, homomorphic encryption (HE) has been used as a method to enable analytics while addressing privacy concerns. HE enables secure predictions over encrypted data. However, there are several challenges related to the use of HE, including DNN size limitations and the lack of support for some operation types. Most notably, the commonly used ReLU activation is not supported under some HE schemes. We propose a structured methodology to replace ReLU with a quadratic polynomial activation. To address the accuracy degradation issue, we use a pre-trained model that trains another HE-friendly model, using techniques such as "trainable activation" functions and knowledge distillation. We demonstrate our methodology on the AlexNet architecture, using the chest X-Ray and CT datasets for COVID-19 detection. Our experiments show that by using our approach, the gap between the F1 score and accuracy of the models trained with ReLU and the HE-friendly model is narrowed down to within a mere 1.1 - 5.3 percent degradation.
翻訳日:2021-11-08 20:35:21 公開日:2021-11-05
# (参考訳) 誘導バイアス型マルチヘッド自己注意3Dswin-transformerに基づく肝血管分節 [全文訳有]

Hepatic vessel segmentation based on 3Dswin-transformer with inductive biased multi-head self-attention ( http://arxiv.org/abs/2111.03368v1 )

ライセンス: CC0 1.0
Mian Wu, Yinling Qian, Xiangyun Liao, Qiong Wang and Pheng-Ann Heng(参考訳) 目的: 手術計画に先立って, CT画像からの肝血管の分画が不可欠であり, 画像分析コミュニティにおいて幅広い関心を集めている。 複雑な構造と低コントラストの背景から、肝血管の自動分割は特に困難である。 関連する研究の多くは、FCN、U-net、V-netをバックボーンとして採用している。 しかし,これらの手法は主に,畳み込み演算子の局所性受信フィールドの制限により,誤分類されたボクセルを生成する可能性のある,大規模局所特徴の捕捉に重点を置いている。 方法:スウィントランスを3dに拡張し,畳み込みと自己付着の効果的な組み合わせを用いて,インダクティブバイアスドマルチヘッドアテンション容器ネット(ibimhav-net)と呼ばれる頑健なエンドツーエンド容器セグメンテーションネットワークを提案する。 実際には,肝血管の正確なボクセルを同定するためにパッチワイズ埋め込みではなくボクセルワイズ埋め込みを導入し,局所的な空間情報を得るためにマルチスケール畳み込み演算子を採用する。 一方,初期化絶対位置埋め込みから誘導バイアスによる相対的位置埋め込みを学習する誘導バイアス付きマルチヘッド自己アテンションを提案する。 これに基づいて、より信頼性の高いクエリとキーマトリックスを得ることができます。 モデルの一般化を検証するため,構造的複雑さの異なるサンプルを検証した。 結果: 3DIRCADbデータセットを用いて実験を行った。 4例の平均diceと感度は74.8%と77.5%であり、既存のディープラーニング法と改良グラフカット法の結果を上回った。 結論: 提案したモデルIBIMHAV-Netは,CTボリュームのグローバルな空間的特徴と局所的特徴をよりよく活用するインターリーブアーキテクチャを備えた,自動的かつ正確な3次元肝血管分割を提供する。 他の臨床データにも拡張できる。

Purpose: Segmentation of liver vessels from CT images is indispensable prior to surgical planning and aroused broad range of interests in the medical image analysis community. Due to the complex structure and low contrast background, automatic liver vessel segmentation remains particularly challenging. Most of the related researches adopt FCN, U-net, and V-net variants as a backbone. However, these methods mainly focus on capturing multi-scale local features which may produce misclassified voxels due to the convolutional operator's limited locality reception field. Methods: We propose a robust end-to-end vessel segmentation network called Inductive BIased Multi-Head Attention Vessel Net(IBIMHAV-Net) by expanding swin transformer to 3D and employing an effective combination of convolution and self-attention. In practice, we introduce the voxel-wise embedding rather than patch-wise embedding to locate precise liver vessel voxels, and adopt multi-scale convolutional operators to gain local spatial information. On the other hand, we propose the inductive biased multi-head self-attention which learns inductive biased relative positional embedding from initialized absolute position embedding. Based on this, we can gain a more reliable query and key matrix. To validate the generalization of our model, we test on samples which have different structural complexity. Results: We conducted experiments on the 3DIRCADb datasets. The average dice and sensitivity of the four tested cases were 74.8% and 77.5%, which exceed results of existing deep learning methods and improved graph cuts method. Conclusion: The proposed model IBIMHAV-Net provides an automatic, accurate 3D liver vessel segmentation with an interleaved architecture that better utilizes both global and local spatial features in CT volumes. It can be further extended for other clinical data.
翻訳日:2021-11-08 20:24:10 公開日:2021-11-05
# (参考訳) 2次元脳MRI画像のセグメンテーション [全文訳有]

Segmentation of 2D Brain MR Images ( http://arxiv.org/abs/2111.03370v1 )

ライセンス: CC BY 4.0
Angad Ripudaman Singh Bajwa(参考訳) 脳腫瘍のセグメンテーションは、医療画像処理に欠かせない課題である。 脳腫瘍の早期診断は治療可能性の向上と患者の生存率の向上に重要な役割を担っている。 多数のmri画像から、がん診断のための脳腫瘍の手動分割は、困難かつ時間のかかる作業である。 自動脳腫瘍画像セグメンテーションの必要性がある。 本研究の目的は,MRI画像の自動脳腫瘍分割法を提供することである。

Brain tumour segmentation is an essential task in medical image processing. Early diagnosis of brain tumours plays a crucial role in improving treatment possibilities and increases the survival rate of the patients. Manual segmentation of the brain tumours for cancer diagnosis, from large number of MRI images, is both a difficult and time-consuming task. There is a need for automatic brain tumour image segmentation. The purpose of this project is to provide an automatic brain tumour segmentation method of MRI images to help locate the tumour accurately and quickly.
翻訳日:2021-11-08 20:10:31 公開日:2021-11-05
# (参考訳) ドラビディアン言語に対する攻撃的言語識別のための共有タスクの開発 [全文訳有]

Developing Successful Shared Tasks on Offensive Language Identification for Dravidian Languages ( http://arxiv.org/abs/2111.03375v1 )

ライセンス: CC BY 4.0
Bharathi Raja Chakravarthi, Dhivya Chinnappa, Ruba Priyadharshini, Anand Kumar Madasamy, Sangeetha Sivanesan, Subalalitha Chinnaudayar Navaneethakrishnan, Sajeetha Thavareesan, Dhanalakshmi Vadivel, Rahul Ponnusamy, Prasanna Kumar Kumaresan(参考訳) モバイルコンピューティングとウェブ技術の急速な成長に伴い、攻撃的言語はソーシャルネットワークプラットフォームでより普及している。 地域言語における攻撃的言語識別は,ソーシャルメディアコンテンツの穏健化に不可欠であるため,本稿では,マレーヤラム語,タミル語,カンナダ語という3つのドラビダ語言語を用いて作業する。 本稿では, EACL 2021 の FIRE 2020-HASOC-Dravidian CodeMix および DravidianLangTech における評価課題について述べる。 本稿では、データの作成、タスクの定義、参加するシステムのリスト、様々な方法について述べる。

With the fast growth of mobile computing and Web technologies, offensive language has become more prevalent on social networking platforms. Since offensive language identification in local languages is essential to moderate the social media content, in this paper we work with three Dravidian languages, namely Malayalam, Tamil, and Kannada, that are under-resourced. We present an evaluation task at FIRE 2020- HASOC-DravidianCodeM ix and DravidianLangTech at EACL 2021, designed to provide a framework for comparing different approaches to this problem. This paper describes the data creation, defines the task, lists the participating systems, and discusses various methods.
翻訳日:2021-11-08 20:06:31 公開日:2021-11-05
# (参考訳) 生成ニューラルネットワークによるてんかんの推論 [全文訳有]

Epidemic inference through generative neural networks ( http://arxiv.org/abs/2111.03383v1 )

ライセンス: CC BY 4.0
Indaco Biazzo, Alfredo Braunstein, Luca Dall'Asta, Fabio Mazza(参考訳) ネットワーク上での感染拡大における欠落情報の再構築は, 予防と封じ込め戦略において不可欠である。 例えば、感染性だが無症状の個人(例えば、手動接触追跡など)を特定し警告することは、COVID-19パンデミックの流行を抑えるのに役立った。 起こりうる流行のカスケードの数は、通常、関与する個体数とともに指数関数的に増加する。 流行過程における推論問題によって生じる課題は、証拠(例えば医療検査)に適合する部分集合のほとんど無視できない部分集合を特定することが困難であることから生じる。 本稿では、観察と互換性のある最も可能性の高い感染カスケードをサンプリングできる新しい生成型ニューラルネットワークフレームワークを提案する。 さらに、この枠組みは感染拡大を規定するパラメータを推測することができる。 提案手法は, 患者ゼロ問題に対する既往の方法, リスクアセスメント, 職場や病院における感染拡大など, 総合的, 実例シナリオにおける感染パラメータの推測について, より良い, あるいは同等の結果を得る。

Reconstructing missing information in epidemic spreading on contact networks can be essential in prevention and containment strategies. For instance, identifying and warning infective but asymptomatic individuals (e.g., manual contact tracing) helped contain outbreaks in the COVID-19 pandemic. The number of possible epidemic cascades typically grows exponentially with the number of individuals involved. The challenge posed by inference problems in the epidemics processes originates from the difficulty of identifying the almost negligible subset of those compatible with the evidence (for instance, medical tests). Here we present a new generative neural networks framework that can sample the most probable infection cascades compatible with observations. Moreover, the framework can infer the parameters governing the spreading of infections. The proposed method obtains better or comparable results with existing methods on the patient zero problem, risk assessment, and inference of infectious parameters in synthetic and real case scenarios like spreading infections in workplaces and hospitals.
翻訳日:2021-11-08 19:42:20 公開日:2021-11-05
# (参考訳) シームレス衛星画像合成 [全文訳有]

Seamless Satellite-image Synthesis ( http://arxiv.org/abs/2111.03384v1 )

ライセンス: CC BY 4.0
Jialin Zhu and Tom Kelly(参考訳) 地図データからスケール・アンド・スペース連続衛星テクスチャを作成する新しいニューラルネットワークであるSeamless Satellite-image Synthesis (SSS)を紹介する。 2dマップデータは安価で簡単に合成できるが、正確な衛星画像は高価であり、しばしば使用できない。 提案手法は,空間規模を任意に拡大してシームレスなテクスチャを生成する。 画像から画像への変換アプローチにおけるタイルサイズ制限を克服するために、SSSはタイル画像間の縫い目を意味的に意味のある方法で除去することを学ぶ。 スケールスペース連続性は、スタイルと地図データに基づくネットワーク階層によって達成される。 定性的かつ定量的な評価は,いくつかの重要な領域における最先端のシステムを改善することを示す。 本稿では,テキスト生成プロシージャ生成と対話型衛星画像操作への応用について述べる。

We introduce Seamless Satellite-image Synthesis (SSS), a novel neural architecture to create scale-and-space continuous satellite textures from cartographic data. While 2D map data is cheap and easily synthesized, accurate satellite imagery is expensive and often unavailable or out of date. Our approach generates seamless textures over arbitrarily large spatial extents which are consistent through scale-space. To overcome tile size limitations in image-to-image translation approaches, SSS learns to remove seams between tiled images in a semantically meaningful manner. Scale-space continuity is achieved by a hierarchy of networks conditioned on style and cartographic data. Our qualitative and quantitative evaluations show that our system improves over the state-of-the-art in several key areas. We show applications to texturing procedurally generation maps and interactive satellite image manipulation.
翻訳日:2021-11-08 19:26:30 公開日:2021-11-05
# (参考訳) 植物葉の画像合成のためのディープラーニング生成モデルアプローチ [全文訳有]

A Deep Learning Generative Model Approach for Image Synthesis of Plant Leaves ( http://arxiv.org/abs/2111.03388v1 )

ライセンス: CC BY 4.0
Alessandrop Benfenati and Davide Bolzi and Paola Causin and Roberto Oberti(参考訳) 目的。 我々は,高度深層学習(DL)技術を用いて,人工葉画像の自動生成を行う。 我々は、現代の作物管理のためのAIアプリケーションのためのトレーニングサンプルのソースを処分することを目指している。 このようなアプリケーションは大量のデータを必要とし、葉のイメージは本当に不足していないが、画像収集とアノテーションは非常に時間がかかるプロセスである。 データの不足は、小さなデータセットに属するサンプルの単純な変換による拡張技術によって対処できるが、拡張データの豊かさは限られている。 メソッド。 dl生成モデルに基づくアプローチを追求し, 残差変分オートエンコーダによる合成葉骨格(リーフプロファイルと静脈)の生成と, 実画像の2値化骨格からの合成葉骨格(リーフプロファイルと静脈)の生成を2段階構成したリーフ・ツー・リーフ変換(l2l)手法を提案する。 第2のステップでは、条件付きジェネレータ対向ネットワークを用いて葉の羽根の着色を再現し、形状と静脈パターンを保存するPix2pixフレームワークを用いて翻訳を行う。 結果だ L2L法は、現実的な外観で葉の合成画像を生成する。 本評価では,実試料に対する合成葉の異常度を定量化するdl異常検出戦略を採用する。 結論だ 生成型DLアプローチは、コンピュータ支援アプリケーションに低コストで有意義な合成サンプルを提供するための新しいパラダイムとなる可能性がある。 現在のl2lアプローチはこの目標に向けての一歩であり、実際の葉と関連する質的かつ定量的に類似した合成サンプルを生成することができる。

Objectives. We generate via advanced Deep Learning (DL) techniques artificial leaf images in an automatized way. We aim to dispose of a source of training samples for AI applications for modern crop management. Such applications require large amounts of data and, while leaf images are not truly scarce, image collection and annotation remains a very time--consuming process. Data scarcity can be addressed by augmentation techniques consisting in simple transformations of samples belonging to a small dataset, but the richness of the augmented data is limited: this motivates the search for alternative approaches. Methods. Pursuing an approach based on DL generative models, we propose a Leaf-to-Leaf Translation (L2L) procedure structured in two steps: first, a residual variational autoencoder architecture generates synthetic leaf skeletons (leaf profile and veins) starting from companions binarized skeletons of real images. In a second step, we perform translation via a Pix2pix framework, which uses conditional generator adversarial networks to reproduce the colorization of leaf blades, preserving the shape and the venation pattern. Results. The L2L procedure generates synthetic images of leaves with a realistic appearance. We address the performance measurement both in a qualitative and a quantitative way; for this latter evaluation, we employ a DL anomaly detection strategy which quantifies the degree of anomaly of synthetic leaves with respect to real samples. Conclusions. Generative DL approaches have the potential to be a new paradigm to provide low-cost meaningful synthetic samples for computer-aided applications. The present L2L approach represents a step towards this goal, being able to generate synthetic samples with a relevant qualitative and quantitative resemblance to real leaves.
翻訳日:2021-11-08 19:07:54 公開日:2021-11-05
# (参考訳) U-Netと時間領域適応によるトラフィック4Cast競合の解決 [全文訳有]

Solving Traffic4Cast Competition with U-Net and Temporal Domain Adaptation ( http://arxiv.org/abs/2111.03421v1 )

ライセンス: CC BY 4.0
Vsevolod Konyakhin, Nina Lukashina, Aleksei Shpilman(参考訳) 本技術報告では,前回の時刻情報に基づいて,参加者が60分前に交通状況を予測するアルゴリズムを開発するよう依頼したTraffic4Cast 2021 Core Challengeに対して,その解決策を提示する。 これまで開催されていた競争とは対照的に、今年の課題は新型コロナウイルスのパンデミックによるトラフィックの時間的ドメインシフトに焦点を当てている。 過去のu-netの成功に続き、将来の交通マップの予測に利用する。 さらに, densitynet や efficientnet のような事前学習されたエンコーダの使用法を探求し,ドメインシフトと戦うために複数のドメイン適応手法を用いる。 我々の解決策は決勝戦で3位になった。 コードはhttps://github.com/j br-ai-labs/traffic4c ast-2021で入手できる。

In this technical report, we present our solution to the Traffic4Cast 2021 Core Challenge, in which participants were asked to develop algorithms for predicting a traffic state 60 minutes ahead, based on the information from the previous hour, in 4 different cities. In contrast to the previously held competitions, this year's challenge focuses on the temporal domain shift in traffic due to the COVID-19 pandemic. Following the past success of U-Net, we utilize it for predicting future traffic maps. Additionally, we explore the usage of pre-trained encoders such as DenseNet and EfficientNet and employ multiple domain adaptation techniques to fight the domain shift. Our solution has ranked third in the final competition. The code is available at https://github.com/j br-ai-labs/traffic4c ast-2021.
翻訳日:2021-11-08 18:56:52 公開日:2021-11-05
# (参考訳) バイナリ出力を用いた文脈ベイズ最適化 [全文訳有]

Contextual Bayesian optimization with binary outputs ( http://arxiv.org/abs/2111.03447v1 )

ライセンス: CC BY 4.0
Tristan Fauvel and Matthew Chalk(参考訳) ベイズ最適化(BO)は高価なブラックボックス関数を最適化する効率的な方法である。 対象関数評価が与えられたテストの成功/失敗や、異なるパラメータ設定間の優先といった、確率的なバイナリフィードバックを返すシナリオに一般化されている。 実世界の多くの状況において、客観的関数は直接観測に影響を与える制御された「文脈」または「環境」で評価することができる。 例えば、システムのパフォーマンスを評価するために使用されるテストの"難易度"を直接変更することができる。 バイナリフィードバックにより、コンテキストは各観測から得られた情報を決定する。 例えば、テストが簡単/困難すぎる場合、システムは必ず成功/失敗し、不規則なバイナリ出力を生成する。 ここではベイズアクティブラーニングと最適化のアイデアを組み合わせて、各イテレーションで最適なコンテキストと最適化パラメータを効率的に選択する。 本稿では,本アルゴリズムの性能を実証し,視覚心理物理学における具体的応用への対処法を示す。

Bayesian optimization (BO) is an efficient method to optimize expensive black-box functions. It has been generalized to scenarios where objective function evaluations return stochastic binary feedback, such as success/failure in a given test, or preference between different parameter settings. In many real-world situations, the objective function can be evaluated in controlled 'contexts' or 'environments' that directly influence the observations. For example, one could directly alter the 'difficulty' of the test that is used to evaluate a system's performance. With binary feedback, the context determines the information obtained from each observation. For example, if the test is too easy/hard, the system will always succeed/fail, yielding uninformative binary outputs. Here we combine ideas from Bayesian active learning and optimization to efficiently choose the best context and optimization parameter on each iteration. We demonstrate the performance of our algorithm and illustrate how it can be used to tackle a concrete application in visual psychophysics: efficiently improving patients' vision via corrective lenses, using psychophysics measurements.
翻訳日:2021-11-08 18:48:51 公開日:2021-11-05
# (参考訳) 気象予報のための変分U-Net [全文訳有]

A Variational U-Net for Weather Forecasting ( http://arxiv.org/abs/2111.03476v1 )

ライセンス: CC BY 4.0
Pak Hay Kwok and Qi Qi(参考訳) 大気データからパターンや洞察を見つけることは、より正確な天気予報を可能にするだけでなく、気候変動に取り組む上で有用な情報を提供するかもしれない。 weather4castは、将来の大気状態を予測する機械学習アルゴリズムの能力を評価するオープンコンペティションである。 ここでは、Weather4castの3番目のソリューションについて説明します。 本稿では,データの確率性を考慮した変分オートエンコーダと,詳細な詳細を復元するU-Netの機能を組み合わせた新しい変分U-Netを提案する。 このソリューションは、私たちの4番目のソリューションから、多くの共通点を持つtraffic4cast 2020への進化であり、天候や交通といった、非常に異なるドメインに適用可能であることを示唆している。

Not only can discovering patterns and insights from atmospheric data enable more accurate weather predictions, but it may also provide valuable information to help tackle climate change. Weather4cast is an open competition that aims to evaluate machine learning algorithms' capability to predict future atmospheric states. Here, we describe our third-place solution to Weather4cast. We present a novel Variational U-Net that combines a Variational Autoencoder's ability to consider the probabilistic nature of data with a U-Net's ability to recover fine-grained details. This solution is an evolution from our fourth-place solution to Traffic4cast 2020 with many commonalities, suggesting its applicability to vastly different domains, such as weather and traffic.
翻訳日:2021-11-08 18:24:50 公開日:2021-11-05
# (参考訳) 変圧器付きトークン型発電機による画像合成の視覚品質向上 [全文訳有]

Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers ( http://arxiv.org/abs/2111.03481v1 )

ライセンス: CC BY 4.0
Yanhong Zeng, Huan Yang, Hongyang Chao, Jianbo Wang, Jianlong Fu(参考訳) 本稿では,このタスクを視覚トークン生成問題とみなして,画像合成の新たな視点を示す。 単一の入力(例えば潜在コード)から全画像を直接合成する既存のパラダイムとは異なり、新しい定式化により、異なる画像領域に対して柔軟な局所操作が可能となり、画像合成のためのコンテンツ認識ときめ細かいスタイル制御を学ぶことができる。 具体的には、画像合成のための視覚的トークンを予測するために、潜在トークンのシーケンスを入力する。 この観点から,トークンベースのジェネレータ(tokengan)を提案する。 特に、TokenGANは2つの意味的に異なる視覚トークン、すなわち学習された一定のコンテンツトークンと潜在空間からスタイルトークンを入力する。 一連のスタイルトークンが与えられると、tokenganはトランスフォーマによる注意機構によってコンテンツトークンにスタイルを割り当てることで画像合成を制御できる。 提案するTokenGANは,FFHQやLSUN CHURCHなど,さまざまな解像度の画像合成ベンチマークにおいて,最先端の成果を得られたことを示す。 特に、ジェネレータは1024×1024サイズで高忠実な画像を合成でき、畳み込みを完全に排除できる。

We present a new perspective of achieving image synthesis by viewing this task as a visual token generation problem. Different from existing paradigms that directly synthesize a full image from a single input (e.g., a latent code), the new formulation enables a flexible local manipulation for different image regions, which makes it possible to learn content-aware and fine-grained style control for image synthesis. Specifically, it takes as input a sequence of latent tokens to predict the visual tokens for synthesizing an image. Under this perspective, we propose a token-based generator (i.e.,TokenGAN). Particularly, the TokenGAN inputs two semantically different visual tokens, i.e., the learned constant content tokens and the style tokens from the latent space. Given a sequence of style tokens, the TokenGAN is able to control the image synthesis by assigning the styles to the content tokens by attention mechanism with a Transformer. We conduct extensive experiments and show that the proposed TokenGAN has achieved state-of-the-art results on several widely-used image synthesis benchmarks, including FFHQ and LSUN CHURCH with different resolutions. In particular, the generator is able to synthesize high-fidelity images with 1024x1024 size, dispensing with convolutions entirely.
翻訳日:2021-11-08 18:16:49 公開日:2021-11-05
# (参考訳) ケアの異なるパターンに対する自動監視特徴選択 [全文訳有]

Automated Supervised Feature Selection for Differentiated Patterns of Care ( http://arxiv.org/abs/2111.03495v1 )

ライセンス: CC BY 4.0
Catherine Wanjiru, William Ogallo, Girmaw Abebe Tadesse, Charles Wachira, Isaiah Onando Mulang', Aisha Walcott-Bryant(参考訳) DPOC(Disferiating Patterns of Care)に最適な特徴を選択するために,最新の特徴選択技術を用いて自動特徴選択パイプラインを開発した。 パイプラインには3種類の機能選択技術が含まれている。フィルタ、ラッパー、埋め込みメソッドでトップkの機能を選択する。 バイナリ依存変数を持つ5つの異なるデータセットを使用し、各トップKの最適な特徴を選択した。 選択された特徴は, 既存の多次元サブセットスキャン(MDSS)において, 最も異常なサブセット, ほとんど異常なサブセット, 確率スコア, 測定結果が記録された。 このパフォーマンスは、MDSSパイプラインのデータセット内のすべての共変量を使用して得た4つの類似メトリクスと比較された。 その結果,使用する特徴の選択手法が異なるにも関わらず,使用する技術を決定する際には,データ分布が重要となることがわかった。

An automated feature selection pipeline was developed using several state-of-the-art feature selection techniques to select optimal features for Differentiating Patterns of Care (DPOC). The pipeline included three types of feature selection techniques; Filters, Wrappers and Embedded methods to select the top K features. Five different datasets with binary dependent variables were used and their different top K optimal features selected. The selected features were tested in the existing multi-dimensional subset scanning (MDSS) where the most anomalous subpopulations, most anomalous subsets, propensity scores, and effect of measures were recorded to test their performance. This performance was compared with four similar metrics gained after using all covariates in the dataset in the MDSS pipeline. We found out that despite the different feature selection techniques used, the data distribution is key to note when determining the technique to use.
翻訳日:2021-11-08 18:02:41 公開日:2021-11-05
# (参考訳) 新しい話題の出現を検知する単語埋め込みの幾何学的性質のモニタリング [全文訳有]

Monitoring geometrical properties of word embeddings for detecting the emergence of new topics ( http://arxiv.org/abs/2111.03496v1 )

ライセンス: CC BY 4.0
Cl\'ement Christophe, Julien Velcin, Jairo Cugliari, Manel Boumghar, Philippe Suignard(参考訳) トピック検出の遅さは、さまざまな単語の振る舞いを短時間に集約するイベント検出と、その長期的な進化を監視する言語進化の間のタスクである。 本研究では,徐々に出現するトピックを早期に検出する問題に対処する。 この目的のために、我々は単語レベルで弱い信号の証拠を収集する。 本稿では,埋め込み空間における単語表現の挙動を監視し,その幾何学的特性の1つを用いてトピックの出現を特徴付けることを提案する。 評価はこの種のタスクでは一般的に難しいので,定量的評価のための枠組みを提案する。 論文と学術論文の2つの公開データセットにおいて,最先端の手法よりも優れた結果が得られた。

Slow emerging topic detection is a task between event detection, where we aggregate behaviors of different words on short period of time, and language evolution, where we monitor their long term evolution. In this work, we tackle the problem of early detection of slowly emerging new topics. To this end, we gather evidence of weak signals at the word level. We propose to monitor the behavior of words representation in an embedding space and use one of its geometrical properties to characterize the emergence of topics. As evaluation is typically hard for this kind of task, we present a framework for quantitative evaluation. We show positive results that outperform state-of-the-art methods on two public datasets of press and scientific articles.
翻訳日:2021-11-08 17:53:32 公開日:2021-11-05
# (参考訳) NLPパイプラインを用いた解離原因・影響関係抽出 [全文訳有]

Disengagement Cause-and-Effect Relationships Extraction Using an NLP Pipeline ( http://arxiv.org/abs/2111.03511v1 )

ライセンス: CC BY 4.0
Yangtao Zhang, X. Jessie Yang, Feng Zhou(参考訳) 機械学習と人工知能の進歩は、公道での自動運転車(AV)のテストと展開を促進している。 カリフォルニア州自動車局(ca dmv)は、自動運転から自動運転車の離脱(avd)に関するレポートを収集し、公開する自動運転車試験プログラムを開始した。 AVDの原因を理解することは、AVシステムの安全性と安定性を改善し、AVテストと展開のためのガイダンスを提供するために重要である。 本研究では,2014年から2020年にかけてリリースされた分離レポートの収集,処理,モデル化,分析を行うために,自然言語処理によるディープトランスファー学習を用いて,スケーラブルなエンドツーエンドパイプラインを構築した。 分類, 可視化, 統計検査による解離データの解析により, AV検査の傾向, 原因頻度の分類, AVDの原因と影響の有意な関係が明らかになった。 その結果,(1) 製造業者は春・冬期に過度にAVを試験し,(2) テストドライバーは80%以上の解離を開始し,一方, 75%以上の解離は, AVシステム自体の誤認識, 局所化・マッピング, 計画・制御, (3) AVDの開始要因と原因カテゴリーとの間に有意な相関があることが判明した。 本研究は,事前学習モデルを用いた深層移動学習の実践として成功し,他の研究者のさらなる調査を可能にする統合解離データベースを生成する。

The advancement in machine learning and artificial intelligence is promoting the testing and deployment of autonomous vehicles (AVs) on public roads. The California Department of Motor Vehicles (CA DMV) has launched the Autonomous Vehicle Tester Program, which collects and releases reports related to Autonomous Vehicle Disengagement (AVD) from autonomous driving. Understanding the causes of AVD is critical to improving the safety and stability of the AV system and provide guidance for AV testing and deployment. In this work, a scalable end-to-end pipeline is constructed to collect, process, model, and analyze the disengagement reports released from 2014 to 2020 using natural language processing deep transfer learning. The analysis of disengagement data using taxonomy, visualization and statistical tests revealed the trends of AV testing, categorized cause frequency, and significant relationships between causes and effects of AVD. We found that (1) manufacturers tested AVs intensively during the Spring and/or Winter, (2) test drivers initiated more than 80% of the disengagement while more than 75% of the disengagement were led by errors in perception, localization & mapping, planning and control of the AV system itself, and (3) there was a significant relationship between the initiator of AVD and the cause category. This study serves as a successful practice of deep transfer learning using pre-trained models and generates a consolidated disengagement database allowing further investigation for other researchers.
翻訳日:2021-11-08 17:41:51 公開日:2021-11-05
# (参考訳) フェデレーション学習における効率的なモデル更新のためのデータ選択 [全文訳有]

Data Selection for Efficient Model Update in Federated Learning ( http://arxiv.org/abs/2111.03512v1 )

ライセンス: CC BY-SA 4.0
Hongrui Shi, Valentin Radu(参考訳) 分散データで集中型モデルをトレーニングする連合学習ワークフローの人気が高まっている。 しかし、最近まで、これは同様の計算能力を持つクライアントに貢献する領域だった。 急速に拡大するiot空間とエッジで生成および処理されるデータは、ヘテロジニアスシステムを含むように連合学習を拡大する努力を奨励している。 従来のアプローチでは、ローカルデータの特徴を蒸留するために、より小さなモデルをクライアントに分散していた。 しかし、クライアント側で大量のローカルデータを扱うトレーニングの問題はいまだに残っている。 我々は,グローバルモデルのトレーニングに必要な局所データ量を削減することを提案する。 本手法では, 局所データの特徴により敏感な部分と, 一般特徴抽出のための下位部分と, 上位部分とにモデルを分割する。 ローカルデータをクラスタリングし、トレーニングに使用する最も代表的なサンプルのみを選択することで、上部のトレーニングに必要なデータ量を削減します。 私たちの実験では、ローカルデータの1%未満が、クライアントデータの特性をslitネットワークアプローチでグローバルモデルに転送できることを示しています。 これらの予備的な結果は、限られたコンピューティングリソースを持つデバイス上のデータ量を削減しながら、グローバルモデルに寄与するための重要な情報を保持する、連合学習の継続を奨励している。

The Federated Learning workflow of training a centralized model with distributed data is growing in popularity. However, until recently, this was the realm of contributing clients with similar computing capabilities. The fast expanding IoT space and data being generated and processed at the edge are encouraging more effort into expanding federated learning to include heterogeneous systems. Previous approaches distribute smaller models to clients for distilling the characteristic of local data. But the problem of training with vast amounts of local data on the client side still remains. We propose to reduce the amount of local data that is needed to train a global model. We do this by splitting the model into a lower part for generic feature extraction and an upper part that is more sensitive to the characteristics of the local data. We reduce the amount of data needed to train the upper part by clustering the local data and selecting only the most representative samples to use for training. Our experiments show that less than 1% of the local data can transfer the characteristics of the client data to the global model with our slit network approach. These preliminary results are encouraging continuing towards federated learning with reduced amount of data on devices with limited computing resources, but which hold critical information to contribute to the global model.
翻訳日:2021-11-08 17:23:24 公開日:2021-11-05
# (参考訳) データ拡張のための対実的手法によるクラス不均衡問題の解法

Solving the Class Imbalance Problem Using a Counterfactual Method for Data Augmentation ( http://arxiv.org/abs/2111.03516v1 )

ライセンス: CC BY 4.0
Mohammed Temraz and Mark T. Keane(参考訳) クラス不均衡データセットから学ぶことは、多くの機械学習アルゴリズムに課題をもたらす。 多くの現実世界のドメインは、定義上、少数派よりも多くのインスタンスを持つ多数派クラス(例えば、本物の銀行取引は詐欺的取引よりもはるかに頻繁に起こる)を持つため、不均衡なクラスである。 クラス不均衡問題を解決するために多くの手法が提案されているが、最も一般的なのはオーバーサンプリング技術である(SMOTEなど)。 これらの手法はマイノリティクラスで合成インスタンスを生成し、データセットのバランスをとり、予測機械学習(ML)モデルの性能を向上させるデータ拡張を実行する。 本稿では,マイノリティクラスで合成された反事実インスタンスを生成する新しいデータ拡張法(説明可能なaiから適応する)を考案する。 他のオーバーサンプリング技術とは異なり、この方法はインスタンス間の値を補間するのではなく、実際の機能値を使用してデータセットから存在インスタンスを適応的に結合する。 4つの異なる分類器と25のデータセットを用いたいくつかの実験を報告し、本手法(CFA)がマイノリティクラスで有用な合成データポイントを生成することを示す。 これらの実験は、CFAがSMOTEの変種である多くのオーバーサンプリング手法と競合していることを示している。 CFAのパフォーマンスの基礎は、将来のテストでより良く、または悪くなる可能性がある条件とともに議論される。

Learning from class imbalanced datasets poses challenges for many machine learning algorithms. Many real-world domains are, by definition, class imbalanced by virtue of having a majority class that naturally has many more instances than its minority class (e.g. genuine bank transactions occur much more often than fraudulent ones). Many methods have been proposed to solve the class imbalance problem, among the most popular being oversampling techniques (such as SMOTE). These methods generate synthetic instances in the minority class, to balance the dataset, performing data augmentations that improve the performance of predictive machine learning (ML) models. In this paper we advance a novel data augmentation method (adapted from eXplainable AI), that generates synthetic, counterfactual instances in the minority class. Unlike other oversampling techniques, this method adaptively combines exist-ing instances from the dataset, using actual feature-values rather than interpolating values between instances. Several experiments using four different classifiers and 25 datasets are reported, which show that this Counterfactual Augmentation method (CFA) generates useful synthetic data points in the minority class. The experiments also show that CFA is competitive with many other oversampling methods many of which are variants of SMOTE. The basis for CFAs performance is discussed, along with the conditions under which it is likely to perform better or worse in future tests.
翻訳日:2021-11-08 17:12:44 公開日:2021-11-05
# (参考訳) S-multi-SNE:マルチビューデータの半スーパービジョン分類と可視化 [全文訳有]

S-multi-SNE: Semi-Supervised Classification and Visualisation of Multi-View Data ( http://arxiv.org/abs/2111.03519v1 )

ライセンス: CC BY-SA 4.0
Theodoulos Rodosthenous and Vahid Shahrezaei and Marina Evangelou(参考訳) 複数の分野の研究によって、多視点データの増加が報告されている。 このタイプのデータは、複数のデータビューに対応し、それぞれが同じサンプルセットの異なるアスペクトを表現する。 我々は最近,t-SNEの拡張であるMulti-SNEを提案し,マルチビューデータの単一可視化を行った。 マルチSNEアプローチは、異なるデータビューを通じて反復的に更新されたサンプルの低次元埋め込みを提供する。 ここでは,複数SNEを半教師付きアプローチに拡張し,ラベル付け情報を付加データビューとして分類する。 我々は,マルチSNEとその拡張であるS-multi-SNEの性能,限界,強度について,異なる課題を持つ様々なマルチビューデータセットに2つの手法を適用した。 ラベル情報を含めることで,サンプルの投影が劇的に向上し,強力な分類性能が伴うことを示す。

An increasing number of multi-view data are being published by studies in several fields. This type of data corresponds to multiple data-views, each representing a different aspect of the same set of samples. We have recently proposed multi-SNE, an extension of t-SNE, that produces a single visualisation of multi-view data. The multi-SNE approach provides low-dimensional embeddings of the samples, produced by being updated iteratively through the different data-views. Here, we further extend multi-SNE to a semi-supervised approach, that classifies unlabelled samples by regarding the labelling information as an extra data-view. We look deeper into the performance, limitations and strengths of multi-SNE and its extension, S-multi-SNE, by applying the two methods on various multi-view datasets with different challenges. We show that by including the labelling information, the projection of the samples improves drastically and it is accompanied by a strong classification performance.
翻訳日:2021-11-08 17:11:14 公開日:2021-11-05
# (参考訳) II/III期大腸癌の生存率と化学療法効果予測のための深層学習モデルを用いた振り返り分析 [全文訳有]

A Retrospective Analysis using Deep-Learning Models for Prediction of Survival Outcome and Benefit of Adjuvant Chemotherapy in Stage II/III Colorectal Cancer ( http://arxiv.org/abs/2111.03532v1 )

ライセンス: CC BY 4.0
Xingyu Li and Jitendra Jonnagaddala and Shuhua Yang and Hong Zhang and Xu Steven Xu(参考訳) ほとんどの早期大腸癌(CRC)患者は手術単独で治すことができ、一部の早期CRC患者は補助的化学療法の恩恵を受ける。 しかし, 術後化学療法の生存率を正確に予測できるバイオマーカーはごくわずかである。 分子・細胞腫瘍学(MCO)の全スライディング画像を用いて,第IIステージ/IIIステージCRCにおけるアジュバント化学療法の生存可能性を予測する新しいディープラーニングアルゴリズム(CRCNet)を開発した。 The Cancer Genome Atlas (TCGA) の独立したコホートを用いて, CRCNet を内部的および外部的に検証した。 CRCNetは生存予後だけでなく,アジュバント化学療法の治療効果も正確に予測できることを示した。 CRCNetはアジュバント化学療法による高リスクサブグループ効果を認め,化学療法患者の生存期間は有意に長かった。 逆に、CRCNetの低リスクおよび中リスクサブグループでは、最小限の化学療法効果が観察される。 そのため、CRCNetはStage II/III CRCの誘導治療に有用である可能性がある。

Most early-stage colorectal cancer (CRC) patients can be cured by surgery alone, and only certain high-risk early-stage CRC patients benefit from adjuvant chemotherapies. However, very few validated biomarkers are available to accurately predict survival benefit from postoperative chemotherapy. We developed a novel deep-learning algorithm (CRCNet) using whole-slide images from Molecular and Cellular Oncology (MCO) to predict survival benefit of adjuvant chemotherapy in stage II/III CRC. We validated CRCNet both internally through cross-validation and externally using an independent cohort from The Cancer Genome Atlas (TCGA). We showed that CRCNet can accurately predict not only survival prognosis but also the treatment effect of adjuvant chemotherapy. The CRCNet identified high-risk subgroup benefits from adjuvant chemotherapy most and significant longer survival is observed among chemo-treated patients. Conversely, minimal chemotherapy benefit is observed in the CRCNet low- and medium-risk subgroups. Therefore, CRCNet can potentially be of great use in guiding treatments for Stage II/III CRC.
翻訳日:2021-11-08 16:59:13 公開日:2021-11-05
# (参考訳) クラスタリングを用いたサハラ以南アフリカにおけるゾウの動きデータの解析 [全文訳有]

An Analysis of Elephants' Movement Data in Sub-Saharan Africa Using Clustering ( http://arxiv.org/abs/2111.03533v1 )

ライセンス: CC BY 4.0
Gregory Glatzer, Prasenjit Mitra, and Johnson Kinyua(参考訳) 動物の動きを理解することは保存活動に不可欠である。 過去の研究は、動物が生息地に戻る場所ではなく、運動に影響を与える要因に焦点を当てた。 我々は,サハラ以南のアフリカゾウの生息地を特定するためにクラスタリングを用いた。 解析は、南アフリカのクルーガー国立公園(knp)、ナミビアのエトシャ国立公園、およびブルキナファソとコンゴの地域において、アフリカゾウを追跡するための一般公開データセットを用いて実施した。 dbscanとkmeansクラスタリングアルゴリズムを使用して、クラスタとcentroidsを計算し、エレファント移動データを簡単にし、関心のある重要な場所を強調する。 特徴空間と温度を比較した結果, 温度は移動のクラスタリングを説明する上で重要な特徴であることがわかった。 温度の重要性を認識し、温度データを持たない他の地理空間データセットにapiから外部の温度データを追加する手法を開発した。 異なるタイムスタンプで外部データを使用する際のハードルに対処した後、このデータの品質と、この外部温度データに基づいて算出されたクラスタのセントロイドの品質を考察する。 最後に、これらのセントロイドを衛星画像と人間の居住地の位置に重ね合わせ、計算されたセントロイドの実際の応用を検証することにより、ゾウの興味のある場所を特定する。 予想通り、ゾウは水源周辺や人間の居住地、特に水穴のある場所を中心に移動する傾向にあることを確認した。 象にとって重要な場所を特定することは、象の動きを予測し、密猟を防ぐのに有用である。 これらの方法は将来、ゾウ以外の動物にも応用され、彼らの興味のある場所を特定することができる。

Understanding the movement of animals is crucial to conservation efforts. Past research often focuses on factors affecting movement, rather than locations of interest that animals return to or habitat. We explore the use of clustering to identify locations of interest to African Elephants in regions of Sub-Saharan Africa. Our analysis was performed using publicly available datasets for tracking African elephants at Kruger National Park (KNP), South Africa; Etosha National Park, Namibia; as well as areas in Burkina Faso and the Congo. Using the DBSCAN and KMeans clustering algorithms, we calculate clusters and centroids to simplify elephant movement data and highlight important locations of interest. Through a comparison of feature spaces with and without temperature, we show that temperature is an important feature to explain movement clustering. Recognizing the importance of temperature, we develop a technique to add external temperature data from an API to other geospatial datasets that would otherwise not have temperature data. After addressing the hurdles of using external data with marginally different timestamps, we consider the quality of this data, and the quality of the centroids of the clusters calculated based on this external temperature data. Finally, we overlay these centroids onto satellite imagery and locations of human settlements to validate the real-life applications of the calculated centroids to identify locations of interest for elephants. As expected, we confirmed that elephants tend to cluster their movement around sources of water as well as some human settlements, especially those with water holes. Identifying key locations of interest for elephants is beneficial in predicting the movement of elephants and preventing poaching. These methods may in the future be applied to other animals beyond elephants to identify locations of interests for them.
翻訳日:2021-11-08 16:49:11 公開日:2021-11-05
# (参考訳) クイーンズランドにおける鉱業計画報告の理解のためのトピックモデリング手法の検討 [全文訳有]

Investigation of Topic Modelling Methods for Understanding the Reports of the Mining Projects in Queensland ( http://arxiv.org/abs/2111.03576v1 )

ライセンス: CC BY 4.0
Yasuko Okamoto, Thirunavukarasu Balasubramaniam, Richi Nayak(参考訳) 鉱業では、プロジェクト管理プロセスにおいて多くの報告が生成される。 これらの過去の文書は、将来の成功のための優れた知識資源である。 しかし、文書が整理されず、構造化されていない場合、必要な情報を回収するのは面倒で難しい作業である。 文書クラスタリングはこの問題に対処するための強力なアプローチであり、多くの手法が過去の研究に導入されている。 それにもかかわらず、あらゆる種類の文書に対して最善を尽くす銀の弾丸は存在しない。 したがって、新しいデータセットにクラスタリング手法を適用するためには探索的研究が必要である。 本研究では,複数トピックモデリング(TM)手法について検討する。 目的は、クイーンズランド州地質調査所(英語版)、クイーンズランド州資源省(英語版)のデータセットを用いて、鉱業プロジェクトレポートの適切なアプローチを見つけ、それらを整理する方法のアイデアを得るための内容を理解することである。 3つのTM法,潜在ディリクレ割当(LDA),非負行列因子化(NMF),非負テンソル因子化(NTF)を統計的,質的に比較した。 評価後、ldaはデータセットに対して最善を尽くしていると結論づけるが、いくつかの改善で他の方法が採用される可能性は残る。

In the mining industry, many reports are generated in the project management process. These past documents are a great resource of knowledge for future success. However, it would be a tedious and challenging task to retrieve the necessary information if the documents are unorganized and unstructured. Document clustering is a powerful approach to cope with the problem, and many methods have been introduced in past studies. Nonetheless, there is no silver bullet that can perform the best for any types of documents. Thus, exploratory studies are required to apply the clustering methods for new datasets. In this study, we will investigate multiple topic modelling (TM) methods. The objectives are finding the appropriate approach for the mining project reports using the dataset of the Geological Survey of Queensland, Department of Resources, Queensland Government, and understanding the contents to get the idea of how to organise them. Three TM methods, Latent Dirichlet Allocation (LDA), Nonnegative Matrix Factorization (NMF), and Nonnegative Tensor Factorization (NTF) are compared statistically and qualitatively. After the evaluation, we conclude that the LDA performs the best for the dataset; however, the possibility remains that the other methods could be adopted with some improvements.
翻訳日:2021-11-08 16:36:49 公開日:2021-11-05
# 脳波信号を用いた発作検出のための自動心電図読取

Automated Human Mind Reading Using EEG Signals for Seizure Detection ( http://arxiv.org/abs/2111.03270v1 )

ライセンス: Link先を確認
Virender Ranga, Shivam Gupta, Jyoti Meena, Priyansh Agrawal(参考訳) てんかん(英: epilepsy)は、紀元前4000年に世界中で発生した神経疾患の1つである。 現在、全年齢の約5000万人に影響を及ぼしている。 この病気の特徴は再発性発作である。 過去数十年間、発作治療のための治療法は、医学とテクノロジーの分野での進歩とともに大幅に改善されてきた。 脳波(Electroencephalogra m、EEG)は脳活動のモニタリングに広く用いられ、発作領域の検出に広く用いられている技術である。 手術前に行うとともに、神経刺激装置で有用な時間手術時の発作を予測する。 しかし多くの場合、視覚検査は神経学者によって病気のパターンを検出し分類するために行われるが、多くの事前知識と経験を必要とする。 これにより神経外科医に圧力がかかり、時間の浪費につながり、精度と効率が低下します。 神経科医を支援する深層学習におけるニューラルネットワークの利用など、情報技術の領域では、いくつかの自動化システムが必要である。 本稿では,自動化システムの開発に使用できる98.33%の精度を与えるためのモデルを提案する。 開発されたシステムは、神経科医のパフォーマンスを著しく改善する。

Epilepsy is one of the most occurring neurological disease globally emerged back in 4000 BC. It is affecting around 50 million people of all ages these days. The trait of this disease is recurrent seizures. In the past few decades, the treatments available for seizure control have improved a lot with the advancements in the field of medical science and technology. Electroencephalogram (EEG) is a widely used technique for monitoring the brain activity and widely popular for seizure region detection. It is performed before surgery and also to predict seizure at the time operation which is useful in neuro stimulation device. But in most of cases visual examination is done by neurologist in order to detect and classify patterns of the disease but this requires a lot of pre-domain knowledge and experience. This all in turns put a pressure on neurosurgeons and leads to time wastage and also reduce their accuracy and efficiency. There is a need of some automated systems in arena of information technology like use of neural networks in deep learning which can assist neurologists. In the present paper, a model is proposed to give an accuracy of 98.33% which can be used for development of automated systems. The developed system will significantly help neurologists in their performance.
翻訳日:2021-11-08 16:26:32 公開日:2021-11-05
# 周期ゼロサムゲームにおけるオンライン学習

Online Learning in Periodic Zero-Sum Games ( http://arxiv.org/abs/2111.03377v1 )

ライセンス: Link先を確認
Tanner Fiez, Ryann Sim, Stratis Skoulakis, Georgios Piliouras, Lillian Ratliff(参考訳) ゲーム理論の独創的な結果はフォン・ノイマンのミンマックスの定理であり、ゼロサムゲームは本質的に一意な平衡解を与える。 古典的学習の結果は、オンラインのノンレグレット力学がゼロサムゲームにおける平均時間感覚の平衡に収束することを示すためにこの定理に基づいている。 過去数年間、重要な研究の方向性は、そのような力学の日々の挙動を特徴付けることに焦点を当ててきた。 この方向の一般的な結果は、オンライン学習ダイナミクスの幅広いクラスが循環的であり、ゼロサムゲームにおいて形式的にはpoincar\'{e}リカレントであることを示している。 時間不変均衡を持つ周期的ゼロサムゲームの場合のオンライン学習行動の堅牢性を分析する。 このモデルは、通常繰り返されるゲームの定式化を一般化し、また、日中の効果、週ごとの傾向、季節性といった外因性環境の変化に依存するプレイヤー間の競争の現実的で自然なモデルである。 興味深いことに、時間平均収束は、平衡が固定されているにもかかわらず、最も単純な設定でも失敗する可能性がある。 対照的に、新しい解析手法を用いて、これらの力学系の複雑で非自明な性質にもかかわらず、ポアンカーの再発が証明可能な一般化を示す。

A seminal result in game theory is von Neumann's minmax theorem, which states that zero-sum games admit an essentially unique equilibrium solution. Classical learning results build on this theorem to show that online no-regret dynamics converge to an equilibrium in a time-average sense in zero-sum games. In the past several years, a key research direction has focused on characterizing the day-to-day behavior of such dynamics. General results in this direction show that broad classes of online learning dynamics are cyclic, and formally Poincar\'{e} recurrent, in zero-sum games. We analyze the robustness of these online learning behaviors in the case of periodic zero-sum games with a time-invariant equilibrium. This model generalizes the usual repeated game formulation while also being a realistic and natural model of a repeated competition between players that depends on exogenous environmental variations such as time-of-day effects, week-to-week trends, and seasonality. Interestingly, time-average convergence may fail even in the simplest such settings, in spite of the equilibrium being fixed. In contrast, using novel analysis methods, we show that Poincar\'{e} recurrence provably generalizes despite the complex, non-autonomous nature of these dynamical systems.
翻訳日:2021-11-08 16:26:16 公開日:2021-11-05
# FedLess: サーバレスコンピューティングを使用したセキュアでスケーラブルなフェデレーション学習

FedLess: Secure and Scalable Federated Learning Using Serverless Computing ( http://arxiv.org/abs/2111.03396v1 )

ライセンス: Link先を確認
Andreas Grafberger, Mohak Chadha, Anshul Jindal, Jianfeng Gu, Michael Gerndt(参考訳) 従来のクラウド中心のDL(Deep Learning)アプローチでは、トレーニングデータを中央サーバで収集、処理する必要がある。 これに向けて、プライバシとデータオーナシップの問題に対処しながら、これらのドメインにDLの可能性をもたらす、フェデレートラーニング(FL)と呼ばれる新しい学習パラダイムが提案されている。 FLは、データをローカルに保ちながら、リモートクライアントが共有MLモデルを学ぶことを可能にする。 しかしながら、従来のflシステムはスケーラビリティ、複雑なインフラストラクチャ管理、無駄な計算、アイドルクライアントによるコスト削減など、いくつかの課題に直面している。 FLシステムのこれらの課題は、サーバレスコンピューティングとFaaS(Function-as-a-S ervice)プラットフォームが目指す中核的な問題と密接に一致している。 これには、高速なスケーラビリティ、インフラストラクチャ管理なし、アイドルクライアントのゼロへの自動スケーリング、使用課金モデルなどが含まれる。 そこで我々はFedLessと呼ばれるサーバーレスFLのための新しいシステムとフレームワークを提案する。 当社のシステムは,複数の商用およびセルフホストのFaaSプロバイダをサポートし,クラウド,オンプレミスの機関データセンタ,エッジデバイスにデプロイすることができる。 私たちの知る限りでは、セキュリティや微分プライバシといった重要な機能を提供しながら、異種FaaSプロバイダの大規模なファブリックでFLを有効にするのは、私たちが初めてです。 我々は,200以上のクライアント機能で異なるタスクに対してdnnのトレーニングを成功させることが,システムを用いて容易に可能であることを示す。 さらに,従来のflシステムと比較することにより,本手法の実用性を示すとともに,より安価で資源効率が高いことを示す。

The traditional cloud-centric approach for Deep Learning (DL) requires training data to be collected and processed at a central server which is often challenging in privacy-sensitive domains like healthcare. Towards this, a new learning paradigm called Federated Learning (FL) has been proposed that brings the potential of DL to these domains while addressing privacy and data ownership issues. FL enables remote clients to learn a shared ML model while keeping the data local. However, conventional FL systems face several challenges such as scalability, complex infrastructure management, and wasted compute and incurred costs due to idle clients. These challenges of FL systems closely align with the core problems that serverless computing and Function-as-a-Servic e (FaaS) platforms aim to solve. These include rapid scalability, no infrastructure management, automatic scaling to zero for idle clients, and a pay-per-use billing model. To this end, we present a novel system and framework for serverless FL, called FedLess. Our system supports multiple commercial and self-hosted FaaS providers and can be deployed in the cloud, on-premise in institutional data centers, and on edge devices. To the best of our knowledge, we are the first to enable FL across a large fabric of heterogeneous FaaS providers while providing important features like security and Differential Privacy. We demonstrate with comprehensive experiments that the successful training of DNNs for different tasks across up to 200 client functions and more is easily possible using our system. Furthermore, we demonstrate the practical viability of our methodology by comparing it against a traditional FL system and show that it can be cheaper and more resource-efficient.
翻訳日:2021-11-08 16:25:52 公開日:2021-11-05
# 有限Alphabet信号を用いたMIMOチャネルの深層学習に基づく線形プリコーディング

Deep-Learning Based Linear Precoding for MIMO Channels with Finite-Alphabet Signaling ( http://arxiv.org/abs/2111.03504v1 )

ライセンス: Link先を確認
Maksym A. Girnyk(参考訳) 本稿では,有限アルファベット信号を用いたMIMO通信路の線形プリコーディング問題について検討する。 既存の解は通常、コンステレーションが制約された相互情報のコストのかかる計算のために高い計算複雑性に苦しむ。 既存の研究とは対照的に,本論文ではMIMOプリコーディング問題に対処する方法が異なる。 すなわち、ディープラーニングに基づくデータ駆動型アプローチを提案する。 オフライントレーニングフェーズでは、ディープニューラルネットワークがMIMOチャネル行列のセット上で最適な解を学習する。 これにより、オンライン推論フェーズにおけるプリコーダ最適化の計算複雑性を低減できる。 数値計算により, 提案手法である vis-\`a-vis の既存プリコーディングアルゴリズムの効率性が, 複雑性の大幅な低減と最適に近い性能で示される。

This paper studies the problem of linear precoding for multiple-input multiple-output (MIMO) communication channels employing finite-alphabet signaling. Existing solutions typically suffer from high computational complexity due to costly computations of the constellation-constr ained mutual information. In contrast to existing works, this paper takes a different path of tackling the MIMO precoding problem. Namely, a data-driven approach, based on deep learning, is proposed. In the offline training phase, a deep neural network learns the optimal solution on a set of MIMO channel matrices. This allows the reduction of the computational complexity of the precoder optimization in the online inference phase. Numerical results demonstrate the efficiency of the proposed solution vis-\`a-vis existing precoding algorithms in terms of significantly reduced complexity and close-to-optimal performance.
翻訳日:2021-11-08 16:25:25 公開日:2021-11-05
# スライディングウィンドウガウスプロセスを用いた適応型低パスフィルタ

Adaptive Low-Pass Filtering using Sliding Window Gaussian Processes ( http://arxiv.org/abs/2111.03617v1 )

ライセンス: Link先を確認
Alejandro J. Ord\'o\~nez-Conejo, Armin Lederer, Sandra Hirche(参考訳) 信号が物理的センサーで測定されると、ノイズによって摂動する。 ノイズを低減するために、低域通過フィルタは、ノイズや実際の信号によらず、受信信号の高周波成分を減衰させるために一般的に用いられる。 したがって、信号の著しい劣化を避けるために、低域通過フィルタを慎重に調整する必要がある。 このチューニングは信号に関する事前知識を必要とするが、強化学習や学習ベースの制御のようなアプリケーションでは利用できないことが多い。 この制限を克服するために,ガウス過程の回帰に基づく適応型低域通過フィルタを提案する。 過去の観測の一定の窓を考慮し、現実世界のフィルタリングアプリケーションに十分な速さで更新と予測を実現することができる。 さらに、ハイパーパラメータのオンライン最適化は、事前チューニングを必要としないような低パス動作の適応につながる。 提案手法の評価誤差は一様有界であり,いくつかのシミュレーションにおいて,アプローチの柔軟性と効率を示す。

When signals are measured through physical sensors, they are perturbed by noise. To reduce noise, low-pass filters are commonly employed in order to attenuate high frequency components in the incoming signal, regardless if they come from noise or the actual signal. Therefore, low-pass filters must be carefully tuned in order to avoid significant deterioration of the signal. This tuning requires prior knowledge about the signal, which is often not available in applications such as reinforcement learning or learning-based control. In order to overcome this limitation, we propose an adaptive low-pass filter based on Gaussian process regression. By considering a constant window of previous observations, updates and predictions fast enough for real-world filtering applications can be realized. Moreover, the online optimization of hyperparameters leads to an adaptation of the low-pass behavior, such that no prior tuning is necessary. We show that the estimation error of the proposed method is uniformly bounded, and demonstrate the flexibility and efficiency of the approach in several simulations.
翻訳日:2021-11-08 16:25:15 公開日:2021-11-05
# (参考訳) COVID-19における時空間交通パターンの変動を理解するための非負の行列因子化 [全文訳有]

Nonnegative Matrix Factorization to understand Spatio-Temporal Traffic Pattern Variations during COVID-19: A Case Study ( http://arxiv.org/abs/2111.03592v1 )

ライセンス: CC BY 4.0
Anandkumar Balasubramaniam, Thirunavukarasu Balasubramaniam, Rathinaraja Jeyaraj, Anand Paul, Richi Nayak(参考訳) インテリジェントトランスポーテーションシステム(ITS)の急速な発展と道路上の車両数の増加により、道路交通データが大量に生成され、利用可能になっている。 このデータから時空間的な交通パターンを理解することは重要であり、交通計画や道路建設などに効果的に役立っている。 しかし、新型コロナウイルスのパンデミックにおける交通パターンの理解は、人や車の走行行動パターンの長期的差異が大きいため、非常に困難で重要なものである。 本稿では,新型コロナウイルス感染時の時空間交通パターンの変化を理解するために事例研究を行った。 非負行列因子化(NMF)を帰納パターンに適用する。 NMFモデルのアウトプットは、2019年と2020年に、それぞれパンデミック前とパンデミックの状況で観察された時空間パターンの傾向に基づいて分析される。 分析した時空間交通パターン変動のアウトプットは、インテリジェントトランスポーテーションシステムにおける交通管理や、パンデミックのさまざまな段階における交通管理や、道路交通と関係のないシナリオにおいて有用である。

Due to the rapid developments in Intelligent Transportation System (ITS) and increasing trend in the number of vehicles on road, abundant of road traffic data is generated and available. Understanding spatio-temporal traffic patterns from this data is crucial and has been effectively helping in traffic plannings, road constructions, etc. However, understanding traffic patterns during COVID-19 pandemic is quite challenging and important as there is a huge difference in-terms of people's and vehicle's travel behavioural patterns. In this paper, a case study is conducted to understand the variations in spatio-temporal traffic patterns during COVID-19. We apply nonnegative matrix factorization (NMF) to elicit patterns. The NMF model outputs are analysed based on the spatio-temporal pattern behaviours observed during the year 2019 and 2020, which is before pandemic and during pandemic situations respectively, in Great Britain. The outputs of the analysed spatio-temporal traffic pattern variation behaviours will be useful in the fields of traffic management in Intelligent Transportation System and management in various stages of pandemic or unavoidable scenarios in-relation to road traffic.
翻訳日:2021-11-08 16:24:33 公開日:2021-11-05
# TermiNeRF:効率的なニューラルレンダリングのための光終端予測

TermiNeRF: Ray Termination Prediction for Efficient Neural Rendering ( http://arxiv.org/abs/2111.03643v1 )

ライセンス: Link先を確認
Martin Piala, Ronald Clark(参考訳) ニューラルフィールドを用いたボリュームレンダリングは、3dシーンの新しいビューをキャプチャし、合成する上で非常に有望である。 しかし、この種のアプローチでは、画像をレンダリングするために、ビューレイごとに複数のポイントでボリュームネットワークをクエリする必要があるため、レンダリング時間が非常に遅い。 本稿では,この限界を克服するために,画素の最終的な外観に影響を与える可能性が最も高い位置へのカメラ線からの直接マッピングを学習する手法を提案する。 このアプローチを使用することで、ボリュームレンダリングされたニューラルネットワークモデルを、標準的なアプローチよりも桁違いに高速にレンダリング、トレーニング、微調整することが可能になります。 既存の方法とは異なり、私たちのアプローチは一般的なボリュームで動作し、エンドツーエンドでトレーニングすることができます。

Volume rendering using neural fields has shown great promise in capturing and synthesizing novel views of 3D scenes. However, this type of approach requires querying the volume network at multiple points along each viewing ray in order to render an image, resulting in very slow rendering times. In this paper, we present a method that overcomes this limitation by learning a direct mapping from camera rays to locations along the ray that are most likely to influence the pixel's final appearance. Using this approach we are able to render, train and fine-tune a volumetrically-rende red neural field model an order of magnitude faster than standard approaches. Unlike existing methods, our approach works with general volumes and can be trained end-to-end.
翻訳日:2021-11-08 16:14:50 公開日:2021-11-05
# フォトリアリスティック・スーパーレゾリューションのためのフレキシブル忠実度目標としてのフローの正規化

Normalizing Flow as a Flexible Fidelity Objective for Photo-Realistic Super-resolution ( http://arxiv.org/abs/2111.03649v1 )

ライセンス: Link先を確認
Andreas Lugmayr, Martin Danelljan, Fisher Yu, Luc Van Gool, Radu Timofte(参考訳) 超解像は不適切な問題であり、高分解能画像は可算解空間の1つの可能性を表す。 しかし、支配的なパラダイムは、L_1のようなピクセル単位の損失を採用することで、ぼやけた平均への予測を促進する。 これは、最終品質を低下させる敵の損失と組み合わせることで、目的を根本的に矛盾させる。 本稿では,L_1損失を再検討し,一層条件流に対応することを示す。 この関係に触発されて、l_1 目標の忠実性に基づく代替として一般流れを探求する。 深い流れの柔軟性は、逆の損失と組み合わせることで、より良い視覚品質と一貫性をもたらすことを実証する。 3つのデータセットとスケールファクタに関する広範なユーザ調査を実施し,フォトリアリスティック・スーパーレゾリューションの最先端手法よりも優れた手法を提示する。 コードとトレーニングされたモデルはgit.io/adflowで利用可能になる

Super-resolution is an ill-posed problem, where a ground-truth high-resolution image represents only one possibility in the space of plausible solutions. Yet, the dominant paradigm is to employ pixel-wise losses, such as L_1, which drive the prediction towards a blurry average. This leads to fundamentally conflicting objectives when combined with adversarial losses, which degrades the final quality. We address this issue by revisiting the L_1 loss and show that it corresponds to a one-layer conditional flow. Inspired by this relation, we explore general flows as a fidelity-based alternative to the L_1 objective. We demonstrate that the flexibility of deeper flows leads to better visual quality and consistency when combined with adversarial losses. We conduct extensive user studies for three datasets and scale factors, where our approach is shown to outperform state-of-the-art methods for photo-realistic super-resolution. Code and trained models will be available at: git.io/AdFlow
翻訳日:2021-11-08 16:14:38 公開日:2021-11-05
# ハイブリッド分光法と波形源分離

Hybrid Spectrogram and Waveform Source Separation ( http://arxiv.org/abs/2111.03600v1 )

ライセンス: Link先を確認
Alexandre D\'efossez(参考訳) ソース分離モデルは、スペクトログラムまたは波形領域で動作する。 本研究では、エンド・ツー・エンドのハイブリッド・ソース分離を行う方法を示し、各ソースに最適なドメインをモデルで決定し、その両方を組み合わせる。 demucsアーキテクチャのハイブリッドバージョンが、sonyが主催するmusic demixing challenge 2021で優勝した。 このアーキテクチャには、圧縮された残枝、局所的な注意、特異値正規化など、さらなる改善も加えられている。 総合的に、MusDB HQデータセットで測定されたすべてのソースにおいて、SDR(Signal-To-Distor tion)の1.4dB改善が観測され、ヒトの主観評価による改善が確認され、全体的な品質は5点中2.83点(2.36点)、汚染は3.04点(非ハイブリッドデミュースでは2.37点、2.44点)であった。

Source separation models either work on the spectrogram or waveform domain. In this work, we show how to perform end-to-end hybrid source separation, letting the model decide which domain is best suited for each source, and even combining both. The proposed hybrid version of the Demucs architecture won the Music Demixing Challenge 2021 organized by Sony. This architecture also comes with additional improvements, such as compressed residual branches, local attention or singular value regularization. Overall, a 1.4 dB improvement of the Signal-To-Distortion (SDR) was observed across all sources as measured on the MusDB HQ dataset, an improvement confirmed by human subjective evaluation, with an overall quality rated at 2.83 out of 5 (2.36 for the non hybrid Demucs), and absence of contamination at 3.04 (against 2.37 for the non hybrid Demucs and 2.44 for the second ranking model submitted at the competition).
翻訳日:2021-11-08 16:13:58 公開日:2021-11-05
# 深部生成モデルを用いた遠隔支援のためのセンサデータの圧縮

Compressing Sensor Data for Remote Assistance of Autonomous Vehicles using Deep Generative Models ( http://arxiv.org/abs/2111.03201v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Johannes Jestram, Jonas Rauch, Christin Scheib, Moritz Wittig, J. Marius Z\"ollner(参考訳) 近い将来、自動運転車は自分では解決できない状況で人間の支援を必要とするだろう。 このようなシナリオでは、人間からの遠隔支援は、車両の運転継続に必要な入力を提供することができる。 自動運転車で使用される典型的なセンサーは、カメラとライダーセンサーである。 大量のセンサデータをリアルタイムに送信する必要があるため、ネットワークインフラストラクチャの過負荷を防ぐために、高効率なデータ圧縮が基本である。 ディープジェネレーティブニューラルネットワークを用いたセンサデータ圧縮は、画像データとライダーデータの両方に対する従来の圧縮アプローチよりも、圧縮速度と再構成品質において優れていることが示されている。 しかし,遠隔支援のための生成ニューラルネットベースの圧縮アルゴリズムの性能に関する研究は乏しい。 遠隔支援における深層生成モデルの実現可能性について考察するため,その適用可能性に関する最先端アルゴリズムを評価し,潜在的な弱点を特定する。 さらに,センサデータ処理のためのオンラインパイプラインを実装し,CARLAシミュレータを用いた遠隔支援の性能を示す。

In the foreseeable future, autonomous vehicles will require human assistance in situations they can not resolve on their own. In such scenarios, remote assistance from a human can provide the required input for the vehicle to continue its operation. Typical sensors used in autonomous vehicles include camera and lidar sensors. Due to the massive volume of sensor data that must be sent in real-time, highly efficient data compression is elementary to prevent an overload of network infrastructure. Sensor data compression using deep generative neural networks has been shown to outperform traditional compression approaches for both image and lidar data, regarding compression rate as well as reconstruction quality. However, there is a lack of research about the performance of generative-neural-ne twork-based compression algorithms for remote assistance. In order to gain insights into the feasibility of deep generative models for usage in remote assistance, we evaluate state-of-the-art algorithms regarding their applicability and identify potential weaknesses. Further, we implement an online pipeline for processing sensor data and demonstrate its performance for remote assistance using the CARLA simulator.
翻訳日:2021-11-08 16:11:52 公開日:2021-11-05
# epilnet: 人工知能を用いたiotベースのてんかん発作予測・診断システムへの新しいアプローチ

EpilNet: A Novel Approach to IoT based Epileptic Seizure Prediction and Diagnosis System using Artificial Intelligence ( http://arxiv.org/abs/2111.03265v1 )

ライセンス: Link先を確認
Shivam Gupta, Virender Ranga, Priyansh Agrawal(参考訳) てんかんは最も発症する神経疾患の1つである。 この疾患の主な特徴は頻繁な発作であり、脳の電気的不均衡である。 一般的には、体の部分や鉛(ファインティング)の揺れが伴う。 過去数年間、多くの治療法が生まれてきた。 これらは主に発作の予防に抗青少年薬の使用を含む。 しかし、70%の症例ではこれらの薬は効果がなく、手術は症状が悪化する唯一の解決策である。 そのため、患者は発作を起こしながら自分の世話をし、安全である必要がある。 ウェアラブル脳波(EEG)デバイスは、医学と技術の発展に繋がっている。 これらの装置は脳電気活動の分析に役立つ。 eegは、影響を受ける皮質領域を見つけるのに役立ちます。 最も重要なことは、事前に発作を予知できることである。 これにより、効果的で効率的な発作予測および診断システムに対する需要が急上昇した。 本稿ではてんかん発作の予測・診断システムepilnetに対する新しいアプローチを提案する。 1次元(1次元)畳み込みニューラルネットワークである。 epilnetは5つのクラスで79.13%の精度を示し、関連する作品と比較して6-7%の大幅な増加をもたらした。 開発されたWeb APIは、EpilNetを実用化するのに役立ちます。 したがって、患者と医師の双方のための統合システムである。 このシステムは、患者が怪我や事故を予防し、病院の医師による治療プロセスの効率化を支援する。

Epilepsy is one of the most occurring neurological diseases. The main characteristic of this disease is a frequent seizure, which is an electrical imbalance in the brain. It is generally accompanied by shaking of body parts and even leads (fainting). In the past few years, many treatments have come up. These mainly involve the use of anti-seizure drugs for controlling seizures. But in 70% of cases, these drugs are not effective, and surgery is the only solution when the condition worsens. So patients need to take care of themselves while having a seizure and be safe. Wearable electroencephalogram (EEG) devices have come up with the development in medical science and technology. These devices help in the analysis of brain electrical activities. EEG helps in locating the affected cortical region. The most important is that it can predict any seizure in advance on-site. This has resulted in a sudden increase in demand for effective and efficient seizure prediction and diagnosis systems. A novel approach to epileptic seizure prediction and diagnosis system EpilNet is proposed in the present paper. It is a one-dimensional (1D) convolution neural network. EpilNet gives the testing accuracy of 79.13% for five classes, leading to a significant increase of about 6-7% compared to related works. The developed Web API helps in bringing EpilNet into practical use. Thus, it is an integrated system for both patients and doctors. The system will help patients prevent injury or accidents and increase the efficiency of the treatment process by doctors in the hospitals.
翻訳日:2021-11-08 16:11:37 公開日:2021-11-05
# ニューラルネットワークによるてんかん性脳波の検出と分類

Neural Network Based Epileptic EEG Detection and Classification ( http://arxiv.org/abs/2111.03268v1 )

ライセンス: Link先を確認
Shivam Gupta, Jyoti Meena and O.P Gupta(参考訳) 時間的診断はてんかん患者の救命に重要である。 ここ数年では、てんかんに対する治療が数多く行われている。 これらの治療は抗精神病薬の使用を必要とするが、発作の頻度を制御するには有効ではない。 手術で患部を切除する必要がある。 脳波(Electroencephalogra m、EEG)は脳活動のモニタリングに広く用いられ、発作領域の検出に広く用いられている技術である。 手術前に病原領域の特定に使用される。 この手動のプロセスは、EEGグラフを使用して、時間がかかり、深い専門知識を必要とします。 本稿では,脳波信号の真の性質をテキスト的一次元ベクトルとして保存するモデルを提案する。 提案モデルでは,5つのクラスの脳波データの分類において,平均感度,特異度81%,特異度81.4%のbonn大学データセットの芸術性能が向上した。 また、99.9%を達成したバイナリ分類では、99.5%のスコアが、他の研究者が使用する2Dモデルの代わりに特異性と感度を示す。 したがって、発達したシステムは神経外科医の能力向上に大きく貢献する。

Timely diagnosis is important for saving the life of epileptic patients. In past few years, a lot of treatments are available for epilepsy. These treatments require use of anti-seizure drugs but are not effective in controlling frequency of seizure. There is need of removal of an affected region using surgery. Electroencephalogram (EEG) is a widely used technique for monitoring the brain activity and widely popular for seizure region detection. It is used before surgery for locating affected region. This manual process, using EEG graphs, is time consuming and requires deep expertise. In the present paper, a model has been proposed that preserves the true nature of an EEG signal in form of textual one-dimensional vector. The proposed model achieves a state of art performance for Bonn University dataset giving an average sensitivity, specificity of 81% and 81.4% respectively for classification of EEG data among all five classes. Also for binary classification achieving 99.9%, 99.5% score value for specificity and sensitivity instead of 2D models used by other researchers. Thus, developed system will significantly help neurosurgeons in the increase of their performance.
翻訳日:2021-11-08 16:11:21 公開日:2021-11-05
# Recommender システムのためのアドバンテージアクター・クライブ

Supervised Advantage Actor-Critic for Recommender Systems ( http://arxiv.org/abs/2111.03474v1 )

ライセンス: Link先を確認
Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Joemon M. Jose(参考訳) 報酬信号によるセッションベースまたは逐次レコメンデーションの強化学習(rl)は、累積利益を最大化するレコメンデーションシステム(rs)に対する有望な研究方向である。 しかし、RS設定でのRLアルゴリズムの直接使用は、政治外のトレーニング、巨大なアクションスペース、十分な報酬信号の欠如といった課題のため、現実的ではない。 RSに対する最近のRLアプローチは、RLと(自己)教師付きシーケンシャルラーニングを組み合わせることでこれらの課題に対処しようとするが、それでも一定の制限に悩まされている。 例えば、Q値の推定は負の報酬信号の欠如により正の値に偏っている傾向にある。 さらに、Q値はシーケンスの特定のタイムスタンプにも大きく依存する。 上記の問題に対処するために,rlコンポーネントをトレーニングし,教師付き逐次学習と組み合わせるための負のサンプリング戦略を提案する。 この手法を Supervised Negative Q-learning (SNQN) と呼ぶ。 サンプリングされた(負の)作用(items)に基づいて、平均の場合に対する正の作用の「アドバンテージ」を計算することができ、さらに教師付き逐次部分を学ぶための正規化重みとして利用できる。 これは別の学習フレームワーク、Supervised Advantage Actor-Critic (SA2C)につながります。 SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。 実験結果から,提案手法は最先端の教師付き手法や既存の自己教師付きRL手法よりもはるかに優れた性能を示した。 コードはオープンソースになる。

Casting session-based or sequential recommendation as reinforcement learning (RL) through reward signals is a promising research direction towards recommender systems (RS) that maximize cumulative profits. However, the direct use of RL algorithms in the RS setting is impractical due to challenges like off-policy training, huge action spaces and lack of sufficient reward signals. Recent RL approaches for RS attempt to tackle these challenges by combining RL and (self-)supervised sequential learning, but still suffer from certain limitations. For example, the estimation of Q-values tends to be biased toward positive values due to the lack of negative reward signals. Moreover, the Q-values also depend heavily on the specific timestamp of a sequence. To address the above problems, we propose negative sampling strategy for training the RL component and combine it with supervised sequential learning. We call this method Supervised Negative Q-learning (SNQN). Based on sampled (negative) actions (items), we can calculate the "advantage" of a positive action over the average case, which can be further utilized as a normalized weight for learning the supervised sequential part. This leads to another learning framework: Supervised Advantage Actor-Critic (SA2C). We instantiate SNQN and SA2C with four state-of-the-art sequential recommendation models and conduct experiments on two real-world datasets. Experimental results show that the proposed approaches achieve significantly better performance than state-of-the-art supervised methods and existing self-supervised RL methods . Code will be open-sourced.
翻訳日:2021-11-08 16:10:42 公開日:2021-11-05
# 反応原子-原子衝突系における初期反応状態からの機械学習製品状態分布

Machine Learning Product State Distributions from Initial Reactant States for a Reactive Atom-Diatom Collision System ( http://arxiv.org/abs/2111.03563v1 )

ライセンス: Link先を確認
Julian Arnold, Juan Carlos San Vicente Veliz, Debasish Koner, Narendra Singh, Raymond J. Bemish, and Markus Meuwly(参考訳) N($^4$S)+O$_{2}$(X$^3 \Sigma_{\rm g}^{-}$)$\rightarrow$ NO(X$^2\Pi$)+O($^3$P)反応において、反応原子-原子衝突に対する特定の初期状態(状態-分布またはSTD)から製品状態分布を予測するための機械学習(ML)モデルを提示し、定量的に検証する。 ニューラルネットワーク(NN)をトレーニングするための参照データセットは、$\sim 2000$の初期条件に対する明示的準古典軌道(QCT)シミュレーションから決定される最終状態分布からなる。 総じて、ルート平均二乗差$(\sim 0.003)$と基準QCTとSTDモデルの予測の間の$R^2$$(\sim 0.99)$の予測精度は、テストセットとオフグリッド状態特定初期条件、および翻訳、回転、振動温度を特徴とする反応状態分布から引き出された初期条件に対して高い。 同じ初期状態分布で評価されるより粗い粒度分布-分配(dtd)モデルと比較すると、stdモデルは反応生成における状態分解能の付加的な利点と同等の性能を示す。 特定の初期状態から始めると、DTDと比較してより表現力のあるニューラルネットワークを必要とする最終的な状態分布がより多様になる。 明示的なQCTシミュレーション、STDモデル、そして広く使用されているLarsen-Borgnakke (LB)モデルとの直接比較は、STDモデルが定量的であるのに対して、LBモデルは回転分布が$P(j')$で定性的であり、振動分布が$P(v')$で失敗することを示している。 このように、stdモデルは直接シミュレーションモンテカルロ法を用いた非平衡高速流れのシミュレーションに適している。

A machine learned (ML) model for predicting product state distributions from specific initial states (state-to-distributi on or STD) for reactive atom-diatom collisions is presented and quantitatively tested for the N($^4$S)+O$_{2}$(X$^3 \Sigma_{\rm g}^{-}$) $\rightarrow$ NO(X$^2\Pi$) +O($^3$P) reaction. The reference data set for training the neural network (NN) consists of final state distributions determined from explicit quasi-classical trajectory (QCT) simulations for $\sim 2000$ initial conditions. Overall, the prediction accuracy as quantified by the root-mean-squared difference $(\sim 0.003)$ and the $R^2$ $(\sim 0.99)$ between the reference QCT and predictions of the STD model is high for the test set and off-grid state specific initial conditions and for initial conditions drawn from reactant state distributions characterized by translational, rotational and vibrational temperatures. Compared with a more coarse grained distribution-to-dist ribution (DTD) model evaluated on the same initial state distributions, the STD model shows comparable performance with the additional benefit of the state resolution in the reactant preparation. Starting from specific initial states also leads to a more diverse range of final state distributions which requires a more expressive neural network to be used compared with DTD. Direct comparison between explicit QCT simulations, the STD model, and the widely used Larsen-Borgnakke (LB) model shows that the STD model is quantitative whereas the LB model is qualitative at best for rotational distributions $P(j')$ and fails for vibrational distributions $P(v')$. As such the STD model can be well-suited for simulating nonequilibrium high-speed flows, e.g., using the direct simulation Monte Carlo method.
翻訳日:2021-11-08 16:08:22 公開日:2021-11-05
# 点雲からの境界推定:アルゴリズム,保証,応用

Boundary Estimation from Point Clouds: Algorithms, Guarantees and Applications ( http://arxiv.org/abs/2111.03217v1 )

ライセンス: Link先を確認
Jeff Calder, Sangmin Park, Dejan Slep\v{c}ev(参考訳) 領域内のサンプル点から領域の境界を特定する。 我々は、境界への正規ベクトルの新たな推定子、境界への点の距離、および境界ストリップ内に点が存在するかどうかのテストを導入する。 推定器は効率的に計算でき、文献に存在するものよりも正確である。 推定器の厳密な誤差推定を行う。 さらに,検出された境界点を用いて点雲上のPDEの境界値問題を解く。 点雲上のラプラス方程式と固有方程式の誤差推定を証明する。 最後に, 境界推定器の性能, 点雲上のPDEへの応用, 画像データセット上でのテストなど, 様々な数値実験を行った。

We investigate identifying the boundary of a domain from sample points in the domain. We introduce new estimators for the normal vector to the boundary, distance of a point to the boundary, and a test for whether a point lies within a boundary strip. The estimators can be efficiently computed and are more accurate than the ones present in the literature. We provide rigorous error estimates for the estimators. Furthermore we use the detected boundary points to solve boundary-value problems for PDE on point clouds. We prove error estimates for the Laplace and eikonal equations on point clouds. Finally we provide a range of numerical experiments illustrating the performance of our boundary estimators, applications to PDE on point clouds, and tests on image data sets.
翻訳日:2021-11-08 16:07:40 公開日:2021-11-05
# (参考訳) 奥行き及びrgb画像フレームのサブミリ秒精度同期型スマートフォンビデオ記録システム [全文訳有]

Synchronized Smartphone Video Recording System of Depth and RGB Image Frames with Sub-millisecond Precision ( http://arxiv.org/abs/2111.03552v1 )

ライセンス: CC BY-SA 4.0
Marsel Faizullin, Anastasiia Kornilova, Azat Akhmetyanov, Konstantin Pakulev, Andrey Sadkov and Gonzalo Ferrer(参考訳) 本稿では,スマートフォン,深度カメラ,IMUなどの異種センサからなるリアルタイム同期(同期)精度の記録システムを提案する。 スマートフォンの一般的な関心と普及により、当社のシステムに少なくとも1つのデバイスが組み込まれています。 この異質なシステムは、スマートフォンとMCUという2つの異なる時間当局のためにハイブリッド同期を必要とします。 rgbカメラとアクティブな赤外線深度を混合したカスタムシステム上での同期結果の評価を行った。 我々のシステムは、時間同期のサブミリ秒精度を実現する。 さらに,この精度で全RGB深度画像ペアを同時に公開する。 特に構成を示すが、システムの背後にある一般的な原則は他のプロジェクトによって複製される可能性がある。

In this paper, we propose a recording system with high time synchronization (sync) precision which consists of heterogeneous sensors such as smartphone, depth camera, IMU, etc. Due to the general interest and mass adoption of smartphones, we include at least one of such devices into our system. This heterogeneous system requires a hybrid synchronization for the two different time authorities: smartphone and MCU, where we combine a hardware wired-based trigger sync with software sync. We evaluate our sync results on a custom and novel system mixing active infra-red depth with RGB camera. Our system achieves sub-millisecond precision of time sync. Moreover, our system exposes every RGB-depth image pair at the same time with this precision. We showcase a configuration in particular but the general principles behind our system could be replicated by other projects.
翻訳日:2021-11-08 16:04:43 公開日:2021-11-05
# 教師なし領域適応のための画像間変換における意味的一貫性

Semantic Consistency in Image-to-Image Translation for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2111.03522v1 )

ライセンス: Link先を確認
Stephan Brehm and Sebastian Scherer and Rainer Lienhart(参考訳) Unsupervised Domain Adaptation (UDA)は、ソースドメインでトレーニングされたモデルを、ラベル付きデータが使用できない新しいターゲットドメインに適応させることを目的としている。 本研究では,合成コンピュータ生成ドメインから意味セグメンテーション学習のための類似だが実世界のドメインまで,udaの問題を考察する。 UDAの整合性正規化手法と組み合わせて意味論的に一貫した画像から画像への変換法を提案する。 合成画像を実写画像に転送する従来の制限を克服する。 両領域のセマンティックラベルから付加的なフィードバックを受ける生成画像から画像への変換モデルを学習するために擬似ラベルを利用する。 本手法は,GTA5からCityscapesへ,SynTHIAからCityscapesへ,関連する領域適応ベンチマーク上で,画像から画像への変換と半教師あり学習を組み合わせた最先端の手法より優れている。

Unsupervised Domain Adaptation (UDA) aims to adapt models trained on a source domain to a new target domain where no labelled data is available. In this work, we investigate the problem of UDA from a synthetic computer-generated domain to a similar but real-world domain for learning semantic segmentation. We propose a semantically consistent image-to-image translation method in combination with a consistency regularisation method for UDA. We overcome previous limitations on transferring synthetic images to real looking images. We leverage pseudo-labels in order to learn a generative image-to-image translation model that receives additional feedback from semantic labels on both domains. Our method outperforms state-of-the-art methods that combine image-to-image translation and semi-supervised learning on relevant domain adaption benchmarks, i.e., on GTA5 to Cityscapes and SYNTHIA to Cityscapes.
翻訳日:2021-11-08 15:51:49 公開日:2021-11-05
# 高分解能ビデオ塗装のための空間時間残差凝集

Spatial-Temporal Residual Aggregation for High Resolution Video Inpainting ( http://arxiv.org/abs/2111.03574v1 )

ライセンス: Link先を確認
Vishnu Sanjay Ramiya Srinivasan, Rui Ma, Qiang Tang, Zili Yi, Zhan Xu(参考訳) 最近の学習ベースの塗装アルゴリズムは、望ましくない物体をビデオから取り除いた後に、欠落した領域を完了させる魅力的な結果を得た。 フレーム間の時間的一貫性を維持するため、3次元空間的および時間的操作はディープネットワークで頻繁に使用される。 しかし、これらの手法は通常メモリの制約に苦しめられ、低解像度ビデオしか扱えない。 STRA-Netは,高分解能ビデオインペイントのための空間時間残差集約フレームワークである。 鍵となるアイデアは、まず低解像度の低解像度ビデオに空間的および時間的塗装ネットワークを学習し、適用することである。 次に,学習した空間的および時間的画像残差(詳細)をアップサンプリングしたフレームに集約することにより,低解像度の画像を洗練する。 定量的および定性的な評価は、高解像度ビデオの現像方法よりも、時間的コヒーレントで視覚的に魅力的な結果が得られることを示している。

Recent learning-based inpainting algorithms have achieved compelling results for completing missing regions after removing undesired objects in videos. To maintain the temporal consistency among the frames, 3D spatial and temporal operations are often heavily used in the deep networks. However, these methods usually suffer from memory constraints and can only handle low resolution videos. We propose STRA-Net, a novel spatial-temporal residual aggregation framework for high resolution video inpainting. The key idea is to first learn and apply a spatial and temporal inpainting network on the downsampled low resolution videos. Then, we refine the low resolution results by aggregating the learned spatial and temporal image residuals (details) to the upsampled inpainted frames. Both the quantitative and qualitative evaluations show that we can produce more temporal-coherent and visually appealing results than the state-of-the-art methods on inpainting high resolution videos.
翻訳日:2021-11-08 15:51:32 公開日:2021-11-05
# AGPCNet:赤外小ターゲット検出のための注意誘導ピラミッドコンテキストネットワーク

AGPCNet: Attention-Guided Pyramid Context Networks for Infrared Small Target Detection ( http://arxiv.org/abs/2111.03580v1 )

ライセンス: Link先を確認
Tianfang Zhang, Siying Cao, Tian Pu, Zhenming Peng(参考訳) 赤外線小目標検出は,地球観測,軍事偵察,災害救助など多くの分野において重要な問題であり,近年注目されている。 本稿では,Attention-Guided Pyramid Context Network (AGPCNet)アルゴリズムを提案する。 主なコンポーネントは、Attention-Guided Context Block (AGCB)、Context Pyramid Module (CPM)、非対称核融合モジュール (AFM) である。 AGCBは、特徴マップをパッチに分割して、局所的な関連を計算し、GCA(Global Context Attention)を使用してセマンティクス間のグローバルな関連を計算し、CPMはマルチスケールAGCBからの機能を統合する。 実験結果は、agpcnetが利用可能な2つの赤外線小目標データセットで新たな最先端性能を達成したことを示している。 ソースコードはhttps://github.com/T ianfang-Zhang/AGPCNe tで入手できる。

Infrared small target detection is an important problem in many fields such as earth observation, military reconnaissance, disaster relief, and has received widespread attention recently. This paper presents the Attention-Guided Pyramid Context Network (AGPCNet) algorithm. Its main components are an Attention-Guided Context Block (AGCB), a Context Pyramid Module (CPM), and an Asymmetric Fusion Module (AFM). AGCB divides the feature map into patches to compute local associations and uses Global Context Attention (GCA) to compute global associations between semantics, CPM integrates features from multi-scale AGCBs, and AFM integrates low-level and deep-level semantics from a feature-fusion perspective to enhance the utilization of features. The experimental results illustrate that AGPCNet has achieved new state-of-the-art performance on two available infrared small target datasets. The source codes are available at https://github.com/T ianfang-Zhang/AGPCNe t.
翻訳日:2021-11-08 15:51:17 公開日:2021-11-05
# ガウス過程回帰を用いたエッジトレース

Edge Tracing using Gaussian Process Regression ( http://arxiv.org/abs/2111.03605v1 )

ライセンス: Link先を確認
Jamie Burke and Stuart King(参考訳) ガウス過程回帰を用いた新しいエッジトレースアルゴリズムを提案する。 エッジベースセグメンテーションアルゴリズムはガウス過程回帰を用いて関心のエッジをモデル化し,再帰ベイズスキームを用いてエッジ画素の画像を反復的に検索する。 この手順は、画像勾配からの局所エッジ情報と、モデルの後部予測分布からサンプリングされた後部曲線からのグローバルな構造情報を組み合わせて、エッジピクセルの観測セットを順次構築・洗練する。 このピクセルの蓄積は、分布を関心の端まで収束させる。 ハイパーパラメータは初期化時にユーザによって調整され、洗練された観測セットによって最適化される。 このチューニング可能なアプローチは、事前のトレーニングを必要とせず、特定のタイプのイメージングドメインに制限されない。 モデルの不確かさの定量化のため、アルゴリズムは画像のエッジの品質と連続性を低下させるアーティファクトやオクルージョンに対して頑健である。 提案手法では,画像の先行画像として,画像列内のエッジを効率的にトレースする機能も備えている。 医療画像と衛星画像の様々な応用は、この技術の検証に使われ、2つの一般的なエッジトレースアルゴリズムと比較される。

We introduce a novel edge tracing algorithm using Gaussian process regression. Our edge-based segmentation algorithm models an edge of interest using Gaussian process regression and iteratively searches the image for edge pixels in a recursive Bayesian scheme. This procedure combines local edge information from the image gradient and global structural information from posterior curves, sampled from the model's posterior predictive distribution, to sequentially build and refine an observation set of edge pixels. This accumulation of pixels converges the distribution to the edge of interest. Hyperparameters can be tuned by the user at initialisation and optimised given the refined observation set. This tunable approach does not require any prior training and is not restricted to any particular type of imaging domain. Due to the model's uncertainty quantification, the algorithm is robust to artefacts and occlusions which degrade the quality and continuity of edges in images. Our approach also has the ability to efficiently trace edges in image sequences by using previous-image edge traces as a priori information for consecutive images. Various applications to medical imaging and satellite imaging are used to validate the technique and comparisons are made with two commonly used edge tracing algorithms.
翻訳日:2021-11-08 15:50:57 公開日:2021-11-05
# bbc-オックスフォード英国手話データセット

BBC-Oxford British Sign Language Dataset ( http://arxiv.org/abs/2111.03635v1 )

ライセンス: Link先を確認
Samuel Albanie, G\"ul Varol, Liliane Momeni, Hannah Bull, Triantafyllos Afouras, Himel Chowdhury, Neil Fox, Bencie Woll, Rob Cooper, Andrew McParland, Andrew Zisserman(参考訳) 本稿では,BBC-Oxford British Sign Language (BOBSL)データセットを紹介する。 BOBSLはBSL-1Kデータセットに基づいた拡張および公開データセットである。 データセットのモチベーションと統計、利用可能なアノテーションについて説明する。 我々は,手話認識,手話アライメント,手話翻訳のタスクのベースラインを提供する実験を行う。 最後に,機械学習や言語学の観点からのデータの強みと限界,データセットに存在するバイアスの注記,手話技術の文脈におけるbobslの可能性について論じる。 データセットはhttps://www.robots.o x.ac.uk/~vgg/data/bo bsl/で入手できる。

In this work, we introduce the BBC-Oxford British Sign Language (BOBSL) dataset, a large-scale video collection of British Sign Language (BSL). BOBSL is an extended and publicly released dataset based on the BSL-1K dataset introduced in previous work. We describe the motivation for the dataset, together with statistics and available annotations. We conduct experiments to provide baselines for the tasks of sign recognition, sign language alignment, and sign language translation. Finally, we describe several strengths and limitations of the data from the perspectives of machine learning and linguistics, note sources of bias present in the dataset, and discuss potential applications of BOBSL in the context of sign language technology. The dataset is available at https://www.robots.o x.ac.uk/~vgg/data/bo bsl/.
翻訳日:2021-11-08 15:50:39 公開日:2021-11-05
# スタッタ不変性より弱い条件下でのLTL

LTL under reductions with weaker conditions than stutter-invariance ( http://arxiv.org/abs/2111.03342v1 )

ライセンス: Link先を確認
Emmanuel Paviot-Adet, Denis Poitrenaud, Etienne Renault (LRDE), Yann Thierry-Mieg(参考訳) ltlのような正規言語として表現される特性の検証は、様々な還元戦略を用いて、スタッター非感受性から大きな利益を得られる。 しかし、例えば LTL の NeXt 演算子の使用や論理学における何らかの数え方により、スタッター非感受性を持たない性質は、一般にこれらの手法によってカバーされない。 本稿では, スタッタ感度よりも弱い特性について検討する。 単語へのstutterの追加と削除の両方が受け付けを変えない頑固な非感受性言語では、任意のstutteringを抽象化することができ、この等価関係を2つの意味に分解することで、より弱い条件が得られる。 我々は、言語内の単語よりも短い単語も言語に属する必要があるという短大化非感受性言語を定義する。 延長不感な言語は二重性を持つ。 次に、半決定手順を導入し、システムの縮小に取り組みながら、無感性特性の短縮や無感性特性の延長の否定を確実に証明する。 削減には、実行の短縮しかできない特性がある。 リプトンの取引削減あるいはペトリネット集積は、許容される構造的削減戦略の例である。 ストッターに敏感なほとんどの非ランダム性は、実際には、非感受性の短縮または延長であることを示す実装および実験的エビデンスを提供する。 モデル検査コンペティションによる大規模な(ランダムな)ベンチマーク実験のパフォーマンスは、半決定手順であるにもかかわらず、この手法は依然として技術検証ツールの状態を改善することができることを示している。

Verification of properties expressed as-regular languages such as LTL can benefit hugely from stutter-insensitivit y, using a diverse set of reduction strategies. However properties that are not stutter-insensitive, for instance due to the use of the neXt operator of LTL or to some form of counting in the logic, are not covered by these techniques in general. We propose in this paper to study a weaker property than stutter-insensitivit y. In a stutter insensitive language both adding and removing stutter to a word does not change its acceptance, any stuttering can be abstracted away; by decomposing this equivalence relation into two implications we obtain weaker conditions. We define a shortening insensitive language where any word that stutters less than a word in the language must also belong to the language. A lengthening insensitive language has the dual property. A semi-decision procedure is then introduced to reliably prove shortening insensitive properties or deny lengthening insensitive properties while working with a reduction of a system. A reduction has the property that it can only shorten runs. Lipton's transaction reductions or Petri net agglomerations are examples of eligible structural reduction strategies. An implementation and experimental evidence is provided showing most nonrandom properties sensitive to stutter are actually shortening or lengthening insensitive. Performance of experiments on a large (random) benchmark from the model-checking competition indicate that despite being a semi-decision procedure, the approach can still improve state of the art verification tools.
翻訳日:2021-11-08 15:50:27 公開日:2021-11-05
# グラフコントラスト学習の強化--方法論的欠陥とより良い実践に向けて

Augmentations in Graph Contrastive Learning: Current Methodological Flaws & Towards Better Practices ( http://arxiv.org/abs/2111.03220v1 )

ライセンス: Link先を確認
Puja Trivedi, Ekdeep Singh Lubana, Yujun Yan, Yaoqing Yang, Danai Koutra(参考訳) グラフ分類は、バイオインフォマティクス、社会科学、自動フェイクニュース検出、webドキュメント分類などに応用されている。 ラベルの不足や入手が難しいWebスケールアプリケーションなど、多くの実践シナリオにおいて、教師なし学習は自然なパラダイムですが、パフォーマンスのトレードオフがあります。 近年、コントラスト学習(CL)により、教師なしコンピュータビジョンモデルと教師なしコンピュータビジョンモデルとの競争が活発化している。 ビジュアルCLフレームワークを分析する理論的かつ実証的な研究は、フレームワークの成功には大規模なデータセットとドメイン認識の強化を活用することが不可欠である。 興味深いことに、グラフCLフレームワークは、桁違いの小さなデータを使用しながら高いパフォーマンスを報告し、グラフの基本特性を損なう可能性のあるドメインに依存しない拡張(ノードやエッジのドロップ、フィーチャーの摂動など)を採用する。 これらの不一致に動機づけられ 決定を迫られます i) 弱い拡張と限られたデータにもかかわらず、既存のグラフCLフレームワークがよく機能する理由 (ii)ビジュアルcl原則に固執することでグラフ分類タスクのパフォーマンスを向上させることができるか。 広範な分析を通じて、グラフデータ拡張および評価プロトコルにおける欠陥のあるプラクティスを同定し、将来の研究と応用のために改善されたプラクティスと健全性チェックを提案する。 小さなベンチマークデータセットでは、グラフニューラルネットワークの帰納的バイアスが既存のフレームワークの制限を大幅に補うことができる。 グラフ分類タスクが比較的大きい場合、一般的に使用されるドメインに依存しない拡張は、視覚的CLの原則に従うことで、性能が著しく向上する。 例えば、より優れたWeb検索に使用できるグラフベースの文書分類では、タスク関連拡張により精度が20%向上することを示す。

Graph classification has applications in bioinformatics, social sciences, automated fake news detection, web document classification, and more. In many practical scenarios, including web-scale applications, where labels are scarce or hard to obtain, unsupervised learning is a natural paradigm but it trades off performance. Recently, contrastive learning (CL) has enabled unsupervised computer vision models to compete well against supervised ones. Theoretical and empirical works analyzing visual CL frameworks find that leveraging large datasets and domain aware augmentations is essential for framework success. Interestingly, graph CL frameworks often report high performance while using orders of magnitude smaller data, and employing domain-agnostic augmentations (e.g., node or edge dropping, feature perturbations) that can corrupt the graphs' underlying properties. Motivated by these discrepancies, we seek to determine: (i) why existing graph CL frameworks perform well despite weak augmentations and limited data; and (ii) whether adhering to visual CL principles can improve performance on graph classification tasks. Through extensive analysis, we identify flawed practices in graph data augmentation and evaluation protocols that are commonly used in the graph CL literature, and propose improved practices and sanity checks for future research and applications. We show that on small benchmark datasets, the inductive bias of graph neural networks can significantly compensate for the limitations of existing frameworks. In case studies with relatively larger graph classification tasks, we find that commonly used domain-agnostic augmentations perform poorly, while adhering to principles in visual CL can significantly improve performance. For example, in graph-based document classification, which can be used for better web search, we show task-relevant augmentations improve accuracy by 20%.
翻訳日:2021-11-08 15:48:45 公開日:2021-11-05
# ゲーティングネットワークを用いた動的データ拡張

Dynamic Data Augmentation with Gating Networks ( http://arxiv.org/abs/2111.03253v1 )

ライセンス: Link先を確認
Daisuke Oba, Shinnosuke Matsuo and Brian Kenji Iwana(参考訳) データ拡張は、データセットのサイズを大きくすることで、機械学習メソッドの一般化能力を改善する技術である。 しかしながら、すべての拡張メソッドはすべてのデータセットに等しく有効ではないため、ベストメソッドを慎重に選択する必要があります。 本稿では,互いに有利なゲーティングネットワークと特徴整合損失を用いて,最適な組み合わせを動的に選択するニューラルネットワークを提案する。 ゲーティングネットワークは、各データ拡張がネットワーク内の表現にどれだけ使われているかを制御することができる。 一方、機能一貫性の損失は、同じ入力から拡張された機能を同じものにすべきという制約を与えます。 実験では,2018年のudr時系列アーカイブから得られた12大時系列データセットに対する提案手法の有効性を実証し,提案手法の解析によるデータ拡張手法の関係を明らかにする。

Data augmentation is a technique to improve the generalization ability of machine learning methods by increasing the size of the dataset. However, since every augmentation method is not equally effective for every dataset, you need to carefully select the best method. We propose a neural network that dynamically selects the best combination using a mutually beneficial gating network and a feature consistency loss. The gating network is able to control how much of each data augmentation is used for the representation within the network. The feature consistency loss, on the other hand, gives a constraint that augmented features from the same input should be in similar. In experiments, we demonstrate the effectiveness of the proposed method on the 12 largest time-series datasets from 2018 UCR Time Series Archive and reveal the relationships between the data augmentation methods through analysis of the proposed method.
翻訳日:2021-11-08 15:48:15 公開日:2021-11-05
# 因果条件シフト下での転送可能な時系列予測

Transferable Time-Series Forecasting under Causal Conditional Shift ( http://arxiv.org/abs/2111.03422v1 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Tom Z.J Fu, Kun Zhang(参考訳) 本稿では,時間系列予測における {textcolor{black}{semi-supervised} ドメイン適応の問題に焦点をあてる。 実際、これらのドメイン固有の条件依存は主にデータオフセット、タイムラグ、および変動データ分散によって導かれる。 この問題に対処するために,時系列データにおける変分条件依存性を分析し,その因果構造が異なる領域間で安定であると考え,さらに因果条件シフトの仮定を提起する。 この仮定に照らし合わせて,時系列データの因果生成過程を考察し,転送可能な時系列予測のためのエンドツーエンドモデルを提案する。 提案手法は、クロスドメイン \textit{Granger Causality} だけでなく、クロスドメインの時系列予測問題にも対処できる。 また、予測された結果のある程度の解釈性も提供できる。 さらに、提案手法の優位性を理論的に分析し、対象領域上の一般化誤差は、ソースとターゲット領域に対する経験的リスクだけでなく、異なるドメインの因果構造間の類似性によっても制限される。 合成データと実データの両方の実験結果から,転送可能な時系列予測法の有効性が示された。

This paper focuses on the problem of \textcolor{black}{semi-supervised} domain adaptation for time-series forecasting, which is an easily neglected but challenging problem due to the changeable and complex conditional dependencies. In fact, these domain-specific conditional dependencies are mainly led by the data offset, the time lags, and the variant data distribution. In order to cope with this problem, we analyze the variational conditional dependencies in time-series data and consider that the causal structures are stable among different domains, and further raise the causal conditional shift assumption. Enlightened by this assumption, we consider the causal generation process for time-series data and devise an end-to-end model for transferable time-series forecasting. The proposed method can not only discover the cross-domain \textit{Granger Causality} but also address the cross-domain time-series forecasting problem. It can even provide the interpretability of the predicted results to some extent. We further theoretically analyze the superiority of the proposed methods, where the generalization error on the target domain is not only bounded by the empirical risks on the source and target domains but also by the similarity between the causal structures from different domains. Experimental results on both synthetic and real data demonstrate the effectiveness of the proposed method for transferable time-series forecasting.
翻訳日:2021-11-08 15:48:01 公開日:2021-11-05
# 分布ミスマッチによる摂動複雑性:カーネルヒルベルト空間再生における強化学習の体系的解析

Perturbational Complexity by Distribution Mismatch: A Systematic Analysis of Reinforcement Learning in Reproducing Kernel Hilbert Space ( http://arxiv.org/abs/2111.03469v1 )

ライセンス: Link先を確認
Jihao Long, Jiequn Han(参考訳) 強化学習(RL)の理論的解析は,高次元空間と不確実な環境との関数近似を扱うのが困難であるため,表の設定や線形モデルに限られている。 この研究は、一般再生カーネルヒルベルト空間(RKHS)におけるRLの分析により、この問題に対する新たな視点を提供する。 マルコフ決定過程の族 $\mathcal{M}$ を考えると、報酬関数は RKHS の単位球内にあり、遷移確率は与えられた任意の集合内にある。 分布ミスマッチ$\Delta_{\mathcal{M}}(\epsilon)$によって摂動複雑性と呼ばれる量を定義し、スケール$\epsilon$のRKHSの摂動に応答して許容状態-作用分布空間の複雑さを特徴づける。 我々は、$\Delta_{\mathcal{M}}(\epsilon)$が全ての可能なアルゴリズムの誤差の下位境界とRL問題に対する2つの特定のアルゴリズム(報奨と適合Q-イテレーション)の上限の両方を与えることを示した。 従って、$\epsilon$に対する$\delta_\mathcal{m}(\epsilon)$の崩壊は、$\mathcal{m}$におけるrl問題の難易度を測定する。 さらに具体例をいくつか提示し、これらの例で$\Delta_{\mathcal{M}}(\epsilon)$崩壊が速いかどうかについて議論する。 副産物として、報酬関数が高次元のRKHSにあるとき、遷移確率が知られ、作用空間が有限であるとしても、RL問題は次元性の呪いに苦しむことができることを示す。

Most existing theoretical analysis of reinforcement learning (RL) is limited to the tabular setting or linear models due to the difficulty in dealing with function approximation in high dimensional space with an uncertain environment. This work offers a fresh perspective into this challenge by analyzing RL in a general reproducing kernel Hilbert space (RKHS). We consider a family of Markov decision processes $\mathcal{M}$ of which the reward functions lie in the unit ball of an RKHS and transition probabilities lie in a given arbitrary set. We define a quantity called perturbational complexity by distribution mismatch $\Delta_{\mathcal{M}}(\epsilon)$ to characterize the complexity of the admissible state-action distribution space in response to a perturbation in the RKHS with scale $\epsilon$. We show that $\Delta_{\mathcal{M}}(\epsilon)$ gives both the lower bound of the error of all possible algorithms and the upper bound of two specific algorithms (fitted reward and fitted Q-iteration) for the RL problem. Hence, the decay of $\Delta_\mathcal{M}(\epsilon)$ with respect to $\epsilon$ measures the difficulty of the RL problem on $\mathcal{M}$. We further provide some concrete examples and discuss whether $\Delta_{\mathcal{M}}(\epsilon)$ decays fast or not in these examples. As a byproduct, we show that when the reward functions lie in a high dimensional RKHS, even if the transition probability is known and the action space is finite, it is still possible for RL problems to suffer from the curse of dimensionality.
翻訳日:2021-11-08 15:47:39 公開日:2021-11-05
# autokd: 学生建築ファミリーへの知識の自動蒸留

AUTOKD: Automatic Knowledge Distillation Into A Student Architecture Family ( http://arxiv.org/abs/2111.03555v1 )

ライセンス: Link先を確認
Roy Henha Eyono, Fabio Maria Carlucci, Pedro M Esperan\c{c}a, Binxin Ru, Phillip Torr(参考訳) ディープラーニングにおける最先端の成果は、大きなモデルを使用することによって、着実に改善されている。 しかし、デバイスハードウェアの制限によって広く使われているため、最先端のモデルと小さなデバイスに効果的にデプロイできるモデルとで実質的なパフォーマンスの差が生じる。 知識蒸留(KD)は理論上、小学生がより大きな教師モデルをエミュレートすることを可能にするが、実際には優れた学生アーキテクチャを選択するにはかなりの専門知識が必要である。 神経アーキテクチャ探索(neural architecture search, nas)は、この問題に対する自然な解決策として現れるが、ほとんどのアプローチは非効率である可能性がある。 本稿では,教師から学ぶことが得意であるという特性を共有する,学生建築の家族を探すことを提案する。 ベイジアン最適化を応用したAutoKDはフレキシブルなグラフベースの検索空間を探索し,既存の最先端技術と比較して20倍の効率で,最適な学生アーキテクチャ分布とKDパラメータを自動学習する。 提案手法を3つのデータセット上で評価し,大規模画像上では3倍のメモリと10倍のパラメータを用いて教師のパフォーマンス向上を図る。 最後に、autokdは従来のkd損失を使うが、手作りの学生を使った高度なkdモデルよりも優れている。

State-of-the-art results in deep learning have been improving steadily, in good part due to the use of larger models. However, widespread use is constrained by device hardware limitations, resulting in a substantial performance gap between state-of-the-art models and those that can be effectively deployed on small devices. While Knowledge Distillation (KD) theoretically enables small student models to emulate larger teacher models, in practice selecting a good student architecture requires considerable human expertise. Neural Architecture Search (NAS) appears as a natural solution to this problem but most approaches can be inefficient, as most of the computation is spent comparing architectures sampled from the same distribution, with negligible differences in performance. In this paper, we propose to instead search for a family of student architectures sharing the property of being good at learning from a given teacher. Our approach AutoKD, powered by Bayesian Optimization, explores a flexible graph-based search space, enabling us to automatically learn the optimal student architecture distribution and KD parameters, while being 20x more sample efficient compared to existing state-of-the-art. We evaluate our method on 3 datasets; on large images specifically, we reach the teacher performance while using 3x less memory and 10x less parameters. Finally, while AutoKD uses the traditional KD loss, it outperforms more advanced KD variants using hand-designed students.
翻訳日:2021-11-08 15:47:10 公開日:2021-11-05
# リスク-逆ヘテロセダスティックベイズ最適化

Risk-averse Heteroscedastic Bayesian Optimization ( http://arxiv.org/abs/2111.03637v1 )

ライセンス: Link先を確認
Anastasiia Makarova, Ilnura Usmanova, Ilija Bogunovic, Andreas Krause(参考訳) 高スループットアプリケーションで発生する多くのブラックボックス最適化タスクは、リスク回避の決定を必要とする。 しかし、標準的なベイズ最適化(BO)パラダイムは期待値のみを最適化する。 我々は、boを取引平均と目的の入力依存分散に一般化し、どちらも優先順位が不明であると仮定する。 特に,高利得かつ低雑音分散の解をフライ時の雑音分布を学習しながら同定することを目的とした,リスク逆ヘテロセダスティックベイズ最適化アルゴリズム(RAHBO)を提案する。 この目的のために、予測と分散を(未知の)RKHS関数としてモデル化し、新しいリスク認識獲得関数を提案する。 当社のアプローチを後悔しており、単一のソリューションのみを特定すべきアプリケーションの最終決定ポイントを報告するための堅牢なルールを提供しています。 本稿では,合成ベンチマーク関数とハイパーパラメータチューニングタスクにおけるrahboの有効性を示す。

Many black-box optimization tasks arising in high-stakes applications require risk-averse decisions. The standard Bayesian optimization (BO) paradigm, however, optimizes the expected value only. We generalize BO to trade mean and input-dependent variance of the objective, both of which we assume to be unknown a priori. In particular, we propose a novel risk-averse heteroscedastic Bayesian optimization algorithm (RAHBO) that aims to identify a solution with high return and low noise variance, while learning the noise distribution on the fly. To this end, we model both expectation and variance as (unknown) RKHS functions, and propose a novel risk-aware acquisition function. We bound the regret for our approach and provide a robust rule to report the final decision point for applications where only a single solution must be identified. We demonstrate the effectiveness of RAHBO on synthetic benchmark functions and hyperparameter tuning tasks.
翻訳日:2021-11-08 15:46:45 公開日:2021-11-05
# 人間のエルゴノミクスリスク予測とロボット行動適応に基づく動的人間ロボットの役割配分

Dynamic Human-Robot Role Allocation based on Human Ergonomics Risk Prediction and Robot Actions Adaptation ( http://arxiv.org/abs/2111.03630v1 )

ライセンス: Link先を確認
Elena Merlo (1,2), Edoardo Lamon (1), Fabio Fusaro (1,3), Marta Lorenzini (1), Alessandro Carf\`i (2), Fulvio Mastrogiovanni (2), and Arash Ajoudani (1). ((1) Human-Robot Interfaces and Physical Interaction, Istituto Italiano di Tecnologia, Genoa, Italy, (2) Dept. of Informatics, Bioengineering, Robotics, and Systems Engineering, University of Genoa, Genoa, Italy, (3) Dept. of Electronics, Information and Bioengineering, Politecnico di Milano, Italy)(参考訳) cobotは製造プロセスやロジスティックなプロセスにいくつかの利点をもたらす可能性があるが、変化する環境への迅速な(再)デプロイはまだ限られている。 新規の製品需要に迅速に適応し、割り当てられたタスクに対する人間の労働者の適合性を高めるために、組み立て戦略を最適化し、人間ロボット協調作業における労働者の努力を分配する新しい手法を提案する。 協調モデルでは、役割割り当て問題にも適合したAND/ORグラフを利用する。 割り当てアルゴリズムは、人間操作者の人間工学的ステータスとタスク特性を記述するために、オンラインで計算される定量的測定を考察する。 提案手法がタスク割当プロセスの制御に成功し,人間作業者の安全と人間工学的条件を確保することを実証する予備実験を行った。

Despite cobots have high potential in bringing several benefits in the manufacturing and logistic processes, but their rapid (re-)deployment in changing environments is still limited. To enable fast adaptation to new product demands and to boost the fitness of the human workers to the allocated tasks, we propose a novel method that optimizes assembly strategies and distributes the effort among the workers in human-robot cooperative tasks. The cooperation model exploits AND/OR Graphs that we adapted to solve also the role allocation problem. The allocation algorithm considers quantitative measurements that are computed online to describe human operator's ergonomic status and task properties. We conducted preliminary experiments to demonstrate that the proposed approach succeeds in controlling the task allocation process to ensure safe and ergonomic conditions for the human worker.
翻訳日:2021-11-08 15:45:14 公開日:2021-11-05
# 高次元不均衡分類における除算およびコンカレント閾値規則

Divide-and-Conquer Hard-thresholding Rules in High-dimensional Imbalanced Classification ( http://arxiv.org/abs/2111.03306v1 )

ライセンス: Link先を確認
Arezou Mojiri, Abbas Khalili, Ali Zeinal Hamadani(参考訳) 二項分類において、不均衡とは、1つのクラスが非常に過小評価されている状況を指す。 この問題の原因は、データ収集プロセスか、あるいは1つのクラスが人口で実際にまれであるからである。 不均衡な分類はしばしば生物学、医学、工学、社会科学などの応用に現れる。 本論文では,高次元の線形判別分析(lda)におけるクラスサイズの不均衡の影響を初めて理論的に検討する。 特徴空間の高次元性やマイノリティクラスと呼ばれる1つのクラスにおけるデータの不足により、LDAはマイノリティクラスを無視し、最大誤分類率を得ることを示した。 そこで本研究では, 分割・分割法に基づく強固化ルールを新たに構築し, 誤分類率の差を大きく低減する手法を提案する。 提案手法は漸近的に最適であることを示す。 さらに,不均衡症例におけるLDAのスパースバージョンについて検討した。 我々はシミュレーションと2つの実データ解析により,異なる手法の有限サンプル性能を評価する。 その結果,提案手法は競合より優れているか,選択した特徴のより小さなサブセットに基づいて同等の性能を示す一方,計算効率は向上した。

In binary classification, imbalance refers to situations in which one class is heavily under-represented. This issue is due to either a data collection process or because one class is indeed rare in a population. Imbalanced classification frequently arises in applications such as biology, medicine, engineering, and social sciences. In this manuscript, for the first time, we theoretically study the impact of imbalance class sizes on the linear discriminant analysis (LDA) in high dimensions. We show that due to data scarcity in one class, referred to as the minority class, and high-dimensionality of the feature space, the LDA ignores the minority class yielding a maximum misclassification rate. We then propose a new construction of a hard-thresholding rule based on a divide-and-conquer technique that reduces the large difference between the misclassification rates. We show that the proposed method is asymptotically optimal. We further study two well-known sparse versions of the LDA in imbalanced cases. We evaluate the finite-sample performance of different methods using simulations and by analyzing two real data sets. The results show that our method either outperforms its competitors or has comparable performance based on a much smaller subset of selected features, while being computationally more efficient.
翻訳日:2021-11-08 15:44:58 公開日:2021-11-05
# ディープラーニングによる株価指数オプションのデータ駆動ヘッジ

Data-driven Hedging of Stock Index Options via Deep Learning ( http://arxiv.org/abs/2111.03477v1 )

ライセンス: Link先を確認
Jie Chen, Lingfei Li(参考訳) 我々は、オプションデータから直接s&p500インデックスオプションのヘッジ比を学ぶためのディープラーニングモデルを開発した。 特徴の異なる組み合わせを比較して,成熟までの時間を伴うフィードフォワードニューラルネットワークモデル,black-scholes delta,感情変数(putに対するコールとインデックスリターンのvix)が,入力機能がサンプルテストで最高の性能を発揮することを示す。 このモデルは、black-scholes deltaと最近のデータ駆動モデルを使用する標準的なヘッジプラクティスを大幅に上回っている。 以上の結果から,ヘッジ戦略開発においてこれまで無視されていた,ヘッジ効率の市場感情の重要性が示唆された。

We develop deep learning models to learn the hedge ratio for S&P500 index options directly from options data. We compare different combinations of features and show that a feedforward neural network model with time to maturity, Black-Scholes delta and a sentiment variable (VIX for calls and index return for puts) as input features performs the best in the out-of-sample test. This model significantly outperforms the standard hedging practice that uses the Black-Scholes delta and a recent data-driven model. Our results demonstrate the importance of market sentiment for hedging efficiency, a factor previously ignored in developing hedging strategies.
翻訳日:2021-11-08 15:44:42 公開日:2021-11-05
# 集中治療室における抗菌力の予測

Predicting Antimicrobial Resistance in the Intensive Care Unit ( http://arxiv.org/abs/2111.03575v1 )

ライセンス: Link先を確認
Taiyao Wang, Kyle R. Hansen, Joshua Loving, Ioannis Ch. Paschalidis, Helen van Aggelen and Eran Simhon(参考訳) 抗微生物抵抗性(AMR)は、患者のリスクと医療システムの負担である。 しかし、AMRアッセイは通常数日かかる。 本研究は, 患者統計, 病院滞在データ, 診断, 臨床特徴, 微生物・抗菌特性など, 容易に利用できる臨床・微生物学的予測因子に基づくAMRの予測モデルを構築し, 微生物・抗菌特性のみを用いたナイーブ・アンチバイオグラムモデルと比較した。 培養前の耐性を正確に予測する能力は、臨床意思決定に役立ち、行動までの時間を短縮することができる。 ここでの機械学習アルゴリズムは, 生物6種, 抗生物質10種に対してPhilips eICU Research Institute (eRI)データベースを用いて, ナイーブモデル(受信操作特性曲線0.88-0.89)に対して, 分類性能の改善(受信操作特性曲線0.08-0.89)を示した。 この方法は、患者の予後を改善し、不要または非有効抗生物質の使用を減らすことを目的として、抗菌治療を導くのに役立つ。

Antimicrobial resistance (AMR) is a risk for patients and a burden for the healthcare system. However, AMR assays typically take several days. This study develops predictive models for AMR based on easily available clinical and microbiological predictors, including patient demographics, hospital stay data, diagnoses, clinical features, and microbiological/anti microbial characteristics and compares those models to a naive antibiogram based model using only microbiological/anti microbial characteristics. The ability to predict the resistance accurately prior to culturing could inform clinical decision-making and shorten time to action. The machine learning algorithms employed here show improved classification performance (area under the receiver operating characteristic curve 0.88-0.89) versus the naive model (area under the receiver operating characteristic curve 0.86) for 6 organisms and 10 antibiotics using the Philips eICU Research Institute (eRI) database. This method can help guide antimicrobial treatment, with the objective of improving patient outcomes and reducing the usage of unnecessary or ineffective antibiotics.
翻訳日:2021-11-08 15:44:29 公開日:2021-11-05
# クロス発話言語モデルのための効果的な融合手法を用いた会話音声認識

Conversational speech recognition leveraging effective fusion methods for cross-utterance language modeling ( http://arxiv.org/abs/2111.03333v1 )

ライセンス: Link先を確認
Bi-Cheng Yan, Hsin-Wei Wang, Shih-Hsuan Chiu, Hsuan-Sheng Chiu, Berlin Chen(参考訳) 会話音声は通常、発話レベルでのゆるい構文構造で具現化されるが、同時に連続する発話間での局所的コヒーレンス関係を示す。 以前の研究では、リカレントニューラルネットワークや長期記憶言語モデル(LM)で長いコンテキスト情報をキャプチャすることは、長距離コンテキストを除外しながら、最近のバイアスに悩まされることが示されている。 単語間および発話間の長期的な意味的相互作用を捉えるために,会話音声の自動音声認識(asr)における言語モデルのための異なる会話履歴融合手法を提案する。 さらに、現在の発話の音響埋め込みと対応する会話履歴のセマンティックコンテンツとを協調的に融合・活用する新しい音声融合機構を導入する。 そこで我々は,ASR N-best仮説再構成タスクを予測問題とみなし,特定のN-best仮説リストからオラクル仮説の選択を容易にするために,象徴的事前学習LMであるBERTを活用する。 AMIベンチマークデータセット上で実施した実証実験は,現在のトップ・オブ・ライン手法の有効性と有効性を示すものと思われる。

Conversational speech normally is embodied with loose syntactic structures at the utterance level but simultaneously exhibits topical coherence relations across consecutive utterances. Prior work has shown that capturing longer context information with a recurrent neural network or long short-term memory language model (LM) may suffer from the recent bias while excluding the long-range context. In order to capture the long-term semantic interactions among words and across utterances, we put forward disparate conversation history fusion methods for language modeling in automatic speech recognition (ASR) of conversational speech. Furthermore, a novel audio-fusion mechanism is introduced, which manages to fuse and utilize the acoustic embeddings of a current utterance and the semantic content of its corresponding conversation history in a cooperative way. To flesh out our ideas, we frame the ASR N-best hypothesis rescoring task as a prediction problem, leveraging BERT, an iconic pre-trained LM, as the ingredient vehicle to facilitate selection of the oracle hypothesis from a given N-best hypothesis list. Empirical experiments conducted on the AMI benchmark dataset seem to demonstrate the feasibility and efficacy of our methods in relation to some current top-of-line methods.
翻訳日:2021-11-08 15:44:06 公開日:2021-11-05
# 放射光不整合損失を有するセンチネル-2のマルチスペクトル多重画像超解像と建物配置への影響

Multi-Spectral Multi-Image Super-Resolution of Sentinel-2 with Radiometric Consistency Losses and Its Effect on Building Delineation ( http://arxiv.org/abs/2111.03231v1 )

ライセンス: Link先を確認
Muhammed Razzak, Gonzalo Mateo-Garcia, Luis G\'omez-Chova, Yarin Gal, Freddie Kalaitzis(参考訳) 高解像度リモートセンシング画像は、物体の検出や分類を含む幅広いタスクで使用される。 しかし、高解像度画像は高価であるが、低解像度画像はしばしば無料で提供され、社会的に良い用途に広く使われる。 そのために、SpaceNet 7チャレンジのPlanetScopeイメージを高解像度基準として、低解像度画像と同じ画像を複数のSentinel-2リビジョンとして、マルチスペクトルマルチイメージ超解像データセットをキュレートする。 マルチスペクトルリモートセンシング画像にMISR(Multi-image Super- resolution)を適用した最初の結果を示す。 さらに,センチネル2センサの高分解能を維持するために,MISRモデルにラジオメトリック整合モジュールを導入する。 我々は,MISRが画像の忠実度測定値において,単一画像の超解像やその他のベースラインよりも優れていることを示す。 さらに,複数画像の高分解能化の有用性を第一に評価し,複数の画像の活用により下流タスクの性能が向上することを示す。

High resolution remote sensing imagery is used in broad range of tasks, including detection and classification of objects. High-resolution imagery is however expensive, while lower resolution imagery is often freely available and can be used by the public for range of social good applications. To that end, we curate a multi-spectral multi-image super-resolution dataset, using PlanetScope imagery from the SpaceNet 7 challenge as the high resolution reference and multiple Sentinel-2 revisits of the same imagery as the low-resolution imagery. We present the first results of applying multi-image super-resolution (MISR) to multi-spectral remote sensing imagery. We, additionally, introduce a radiometric consistency module into MISR model the to preserve the high radiometric resolution of the Sentinel-2 sensor. We show that MISR is superior to single-image super-resolution and other baselines on a range of image fidelity metrics. Furthermore, we conduct the first assessment of the utility of multi-image super-resolution on building delineation, showing that utilising multiple images results in better performance in these downstream tasks.
翻訳日:2021-11-08 15:43:46 公開日:2021-11-05
# 自動変調認識のための周波数時間注意機構の学習

Learning of Frequency-Time Attention Mechanism for Automatic Modulation Recognition ( http://arxiv.org/abs/2111.03258v1 )

ライセンス: Link先を確認
Shangao Lin, Yuan Zeng, Yi Gong(参考訳) 近年の学習に基づく画像分類と音声認識手法は、注意機構を広範囲に活用して最先端の認識能力を実現し、注意機構の有効性を示す。 本稿では,変調された無線信号の周波数と時間情報が変調モード認識に不可欠であることから,畳み込みニューラルネットワーク(CNN)に基づく変調認識フレームワークの周波数時間アテンション機構を提案する。 提案する周波数時間アテンションモジュールは、cnnにおいてどのチャネル、周波数、時間情報がより有意義であるかを学習し、変調認識を行うように設計されている。 提案手法の有効性を分析し,既存の2つの学習手法との比較を行った。 オープンソースの変調認識データセットを用いた実験により,提案フレームワークの認識性能は,周波数時間に着目しないフレームワークや既存の学習ベース手法よりも優れていることが示された。

Recent learning-based image classification and speech recognition approaches make extensive use of attention mechanisms to achieve state-of-the-art recognition power, which demonstrates the effectiveness of attention mechanisms. Motivated by the fact that the frequency and time information of modulated radio signals are crucial for modulation mode recognition, this paper proposes a frequency-time attention mechanism for a convolutional neural network (CNN)-based modulation recognition framework. The proposed frequency-time attention module is designed to learn which channel, frequency and time information is more meaningful in CNN for modulation recognition. We analyze the effectiveness of the proposed frequency-time attention mechanism and compare the proposed method with two existing learning-based methods. Experiments on an open-source modulation recognition dataset show that the recognition performance of the proposed framework is better than those of the framework without frequency-time attention and existing learning-based methods.
翻訳日:2021-11-08 15:43:26 公開日:2021-11-05
# 汎用学習ビデオ圧縮

Versatile Learned Video Compression ( http://arxiv.org/abs/2111.03386v1 )

ライセンス: Link先を確認
Runsen Feng, Zongyu Guo, Zhizheng Zhang, Zhibo Chen(参考訳) 学習したビデオ圧縮手法は、従来のビデオコーデックのr-d性能に追いつくことに大きな期待を寄せている。 しかし、既存の学習ビデオ圧縮方式は、予測モードと固定ネットワークフレームワークの結合によって制限される。 様々な相互予測モードをサポートできないため、さまざまなシナリオに適用できない。 本稿では,この制限を破るために,一つのモデルを用いて全ての予測モードをサポートする多目的学習ビデオ圧縮(VLVC)フレームワークを提案する。 具体的には,空間-時空間における重み付き三重項ゆがみに対して,複数の3次元運動ベクトル場(すなわちボクセル流)を適用する運動補償モジュールを構築した。 voxelフローは、フレーム設計から予測モードを切り離すのに役立つ時間的参照位置の情報を伝達する。 次に,複数参照フレーム予測を行う場合,フロー予測モジュールを適用し,多項式関数を統一した正確な動き軌跡予測を行う。 フロー予測モジュールは, ボクセルフローの伝送コストを大幅に削減できることを示す。 実験の結果,提案するVLVCは様々な設定で多目的圧縮をサポートするだけでなく,MS-SSIMの点で最新のVVC標準と同等なR-D性能を実現していることがわかった。

Learned video compression methods have demonstrated great promise in catching up with traditional video codecs in their rate-distortion (R-D) performance. However, existing learned video compression schemes are limited by the binding of the prediction mode and the fixed network framework. They are unable to support various inter prediction modes and thus inapplicable for various scenarios. In this paper, to break this limitation, we propose a versatile learned video compression (VLVC) framework that uses one model to support all possible prediction modes. Specifically, to realize versatile compression, we first build a motion compensation module that applies multiple 3D motion vector fields (i.e., voxel flows) for weighted trilinear warping in spatial-temporal space. The voxel flows convey the information of temporal reference position that helps to decouple inter prediction modes away from framework designing. Secondly, in case of multiple-reference-f rame prediction, we apply a flow prediction module to predict accurate motion trajectories with a unified polynomial function. We show that the flow prediction module can largely reduce the transmission cost of voxel flows. Experimental results demonstrate that our proposed VLVC not only supports versatile compression in various settings but also achieves comparable R-D performance with the latest VVC standard in terms of MS-SSIM.
翻訳日:2021-11-08 15:42:02 公開日:2021-11-05
# 胸部x線におけるcovid-19検出を改善する骨抑制モデル

A bone suppression model ensemble to improve COVID-19 detection in chest X-rays ( http://arxiv.org/abs/2111.03404v1 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Gregg Cohen, Les folio, and Sameer Antani(参考訳) 胸部X線(Chest X-ray, CXR)は胸腔内の組織や臓器の異常を検出する放射線検査である。 新型コロナウイルスなどの肺の異常の検出は、リブや鎖骨などの骨構造がみつからないため困難になり、スクリーニングや診断の誤認が生じる。 骨の自動抑制は骨構造を抑制し、軟部組織の可視性を高めるのに役立つ。 本研究では,前頭部CXRの骨の抑制,分類性能の向上,COVID-19検出に関する解釈誤りの低減を目的とした畳み込みニューラルネットワークモデルの構築を提案する。 アンサンブルは建設されています 一 トップ3の骨圧縮モデルにより予測される骨抑制画像のサブブロックと、その各接地真実軟部画像の対応するサブブロックとのマルチスケール構造類似度指数(MS-SSIM)のスコアを測定し、 2) 各サブブロックで計算されたMS-SSIMスコアの多数投票を行い、最大MS-SSIMスコアでサブブロックを識別し、最終的な骨抑制画像の構築に使用する。 骨抑制性能に優れたサブブロックサイズを実験的に決定する。 骨抑制モデルでは,MS-SSIMなどの指標で個々のモデルよりも優れた性能を示した。 cxr様相特異的分類モデルは、非骨抑制画像および骨抑制画像上で再訓練され、正常肺または他のcovid-19様症状を示すと分類される。 骨抑制型モデルトレーニングは,非骨抑制型画像で訓練されたモデルを大きく上回り,covid-19症状の検出に寄与した。

Chest X-ray (CXR) is a widely performed radiology examination that helps to detect abnormalities in the tissues and organs in the thoracic cavity. Detecting pulmonary abnormalities like COVID-19 may become difficult due to that they are obscured by the presence of bony structures like the ribs and the clavicles, thereby resulting in screening/diagnostic misinterpretations. Automated bone suppression methods would help suppress these bony structures and increase soft tissue visibility. In this study, we propose to build an ensemble of convolutional neural network models to suppress bones in frontal CXRs, improve classification performance, and reduce interpretation errors related to COVID-19 detection. The ensemble is constructed by (i) measuring the multi-scale structural similarity index (MS-SSIM) score between the sub-blocks of the bone-suppressed image predicted by each of the top-3 performing bone-suppression models and the corresponding sub-blocks of its respective ground truth soft-tissue image, and (ii) performing a majority voting of the MS-SSIM score computed in each sub-block to identify the sub-block with the maximum MS-SSIM score and use it in constructing the final bone-suppressed image. We empirically determine the sub-block size that delivers superior bone suppression performance. It is observed that the bone suppression model ensemble outperformed the individual models in terms of MS-SSIM and other metrics. A CXR modality-specific classification model is retrained and evaluated on the non-bone-suppressed and bone-suppressed images to classify them as showing normal lungs or other COVID-19-like manifestations. We observed that the bone-suppressed model training significantly outperformed the model trained on non-bone-suppressed images toward detecting COVID-19 manifestations.
翻訳日:2021-11-08 15:41:39 公開日:2021-11-05
# MSC-VO:マンハッタンの爆発と視覚計測のための構造制約

MSC-VO: Exploiting Manhattan and Structural Constraints for Visual Odometry ( http://arxiv.org/abs/2111.03408v1 )

ライセンス: Link先を確認
Joan P. Company-Corcoles, Emilio Garcia-Fidalgo, Alberto Ortiz(参考訳) 視覚オドメトリアルゴリズムは、低テキストのシーン(例えば人造環境から)に直面すると劣化する傾向があり、十分な数の点特徴を見つけるのが困難である。 このようなシナリオでよく見られる線のような幾何学的な視覚的な手掛かりは、特に有用である。 さらに、これらのシナリオは典型的には並列性や直交性のような構造的正則性を示し、マンハッタン世界仮定を保持する。 これらの前提のもと、本研究では、RGB-Dに基づく視覚的オドメトリー手法であるMSC-VOを導入し、点と線の特徴を組み合わせ、もし存在するならば、その構造規則性とシーンのマンハッタン軸を利用する。 提案手法では,これらの構造的制約を,抽出された直線の3次元位置を正確に推定するために使用する。 これらの制約は、マンハッタン軸の推定値と点と線の再投影誤差とを合わせ、局所地図最適化によってカメラポーズを洗練させる。 このような組み合わせにより、上記の制約がなくても、我々のアプローチが動作し、より幅広いシナリオでメソッドを動作させることができる。 さらに,主に線特徴に依存する新しいマルチビューマンハッタン軸推定手法を提案する。 MSC-VOは、いくつかの公開データセットを使用して評価され、他の最先端ソリューションよりも優れ、SLAMメソッドと比較しても好ましい。

Visual odometry algorithms tend to degrade when facing low-textured scenes -from e.g. human-made environments-, where it is often difficult to find a sufficient number of point features. Alternative geometrical visual cues, such as lines, which can often be found within these scenarios, can become particularly useful. Moreover, these scenarios typically present structural regularities, such as parallelism or orthogonality, and hold the Manhattan World assumption. Under these premises, in this work, we introduce MSC-VO, an RGB-D -based visual odometry approach that combines both point and line features and leverages, if exist, those structural regularities and the Manhattan axes of the scene. Within our approach, these structural constraints are initially used to estimate accurately the 3D position of the extracted lines. These constraints are also combined next with the estimated Manhattan axes and the reprojection errors of points and lines to refine the camera pose by means of local map optimization. Such a combination enables our approach to operate even in the absence of the aforementioned constraints, allowing the method to work for a wider variety of scenarios. Furthermore, we propose a novel multi-view Manhattan axes estimation procedure that mainly relies on line features. MSC-VO is assessed using several public datasets, outperforming other state-of-the-art solutions, and comparing favourably even with some SLAM methods.
翻訳日:2021-11-08 15:41:08 公開日:2021-11-05
# カスケード2レベルマルチモデルフィッティングによるイベントベースモーションセグメンテーション

Event-based Motion Segmentation by Cascaded Two-Level Multi-Model Fitting ( http://arxiv.org/abs/2111.03483v1 )

ライセンス: Link先を確認
Xiuyuan Lu, Yi Zhou and Shaojie Shen(参考訳) 動的シーンと相互作用する合成エージェントの前提条件の中で、独立して動くオブジェクトを識別する能力は特に重要である。 アプリケーションの観点からは、標準的なカメラは攻撃的な動きと困難な照明条件下で著しく劣化する可能性がある。 対照的に、生物にインスパイアされた新しいセンサーのカテゴリーであるイベントベースのカメラは、これらの課題に対処するための利点を提供する。 迅速な反応と非同期性により、視覚刺激をシーンのダイナミックスと全く同じ速度で捉えることができる。 本稿では,独立に動く物体(運動分割問題)を単眼イベントカメラで識別するための,ケースド2段階のマルチモデルフィッティング法を提案する。 第1レベルはイベント機能のトラッキングを活用し、プログレッシブなマルチモデルフィッティングスキームの下で特徴クラスタリング問題を解決する。 結果のモーションモデルインスタンスで初期化され、第2レベルはさらに時空間グラフカット法を用いてイベントクラスタリング問題に対処する。 この組み合わせは、それらのどれかだけでは達成できない、効率的で正確なイベントワイズモーションセグメンテーションをもたらす。 異なる動きパターンと無数の独立移動物体を持つ実世界のシーンにおいて,本手法の有効性と汎用性を示す実験を行った。

Among prerequisites for a synthetic agent to interact with dynamic scenes, the ability to identify independently moving objects is specifically important. From an application perspective, nevertheless, standard cameras may deteriorate remarkably under aggressive motion and challenging illumination conditions. In contrast, event-based cameras, as a category of novel biologically inspired sensors, deliver advantages to deal with these challenges. Its rapid response and asynchronous nature enables it to capture visual stimuli at exactly the same rate of the scene dynamics. In this paper, we present a cascaded two-level multi-model fitting method for identifying independently moving objects (i.e., the motion segmentation problem) with a monocular event camera. The first level leverages tracking of event features and solves the feature clustering problem under a progressive multi-model fitting scheme. Initialized with the resulting motion model instances, the second level further addresses the event clustering problem using a spatio-temporal graph-cut method. This combination leads to efficient and accurate event-wise motion segmentation that cannot be achieved by any of them alone. Experiments demonstrate the effectiveness and versatility of our method in real-world scenes with different motion patterns and an unknown number of independently moving objects.
翻訳日:2021-11-08 15:40:43 公開日:2021-11-05
# 強化学習とニューラルスタイル伝達を用いたクロスモダリティ3次元ナビゲーション

Cross Modality 3D Navigation Using Reinforcement Learning and Neural Style Transfer ( http://arxiv.org/abs/2111.03485v1 )

ライセンス: Link先を確認
Cesare Magnetti, Hadrien Reynaud, Bernhard Kainz(参考訳) 本稿では,マルチエージェント強化学習(marl)を用いて医用画像から3次元解剖学的ボリュームのナビゲーションを行う。 我々はNeural Style Transferを用いて人工CT(Computed Tomography)エージェントジム環境を作成し,臨床CTボリュームに対するエージェントの一般化能力を評価する。 我々のフレームワークはラベル付き臨床データを必要としないため、複数の画像翻訳技術と容易に統合でき、クロスモダリティアプリケーションを可能にする。 さらに, エージェントを2次元スライスにのみ条件付けし, 超音波画像などのより難しい画像モダリティで3次元誘導の場を破る。 これは、標準化された診断ビュープレーンの取得におけるユーザガイダンスへの重要なステップであり、診断整合性を改善し、より良いケース比較を容易にする。

This paper presents the use of Multi-Agent Reinforcement Learning (MARL) to perform navigation in 3D anatomical volumes from medical imaging. We utilize Neural Style Transfer to create synthetic Computed Tomography (CT) agent gym environments and assess the generalization capabilities of our agents to clinical CT volumes. Our framework does not require any labelled clinical data and integrates easily with several image translation techniques, enabling cross modality applications. Further, we solely condition our agents on 2D slices, breaking grounds for 3D guidance in much more difficult imaging modalities, such as ultrasound imaging. This is an important step towards user guidance during the acquisition of standardised diagnostic view planes, improving diagnostic consistency and facilitating better case comparison.
翻訳日:2021-11-08 15:40:24 公開日:2021-11-05
# レイン埋め込み整合性と層状LSTMを用いた単一画像評価ネットワーク

Single Image Deraining Network with Rain Embedding Consistency and Layered LSTM ( http://arxiv.org/abs/2111.03615v1 )

ライセンス: Link先を確認
Yizhou Li and Yusuke Monno and Masatoshi Okutomi(参考訳) 単一画像のレーディングは、通常、入力された雨画像から雨層を予測するために残留学習として取り扱われる。 この目的のために、エンコーダ・デコーダネットワークは、後続の復号ステージの性能を決定する高品質の降雨埋め込みをエンコーダにエンコードし、雨層を再構築する。 しかし、既存の研究の多くは雨の埋込み品質の重要性を無視しており、オーバー・アンダー・デリンディングによる性能の低下に繋がる。 本稿では,雨と雨の混入による高雨層復元性能の観察から,雨の埋込を理想的な雨の埋込とし,雨の埋込と排水網のエンコーダによる雨の埋込の一貫性を向上させることにより,雨の埋込性能を向上させることを目的とした「雨の埋込一貫性」の考え方を紹介する。 これを実現するために、RLCN(Rectified Local Contrast Normalization)を候補の雨画素を効果的に抽出するガイドとして、Rain Embedding Lossを適用してエンコーディングプロセスを直接監督する。 また,異なるスケールを考慮した繰り返しデラリニングおよび微細エンコーダ機能改善のための層状LSTMを提案する。 定性的かつ定量的な実験により,提案手法は,特に実世界のデータセットにおいて,従来の最先端手法よりも優れていることを示した。 ソースコードはhttp://www.ok.sc.e.。 titech.ac.jp/res/SIR /

Single image deraining is typically addressed as residual learning to predict the rain layer from an input rainy image. For this purpose, an encoder-decoder network draws wide attention, where the encoder is required to encode a high-quality rain embedding which determines the performance of the subsequent decoding stage to reconstruct the rain layer. However, most of existing studies ignore the significance of rain embedding quality, thus leading to limited performance with over/under-deraining . In this paper, with our observation of the high rain layer reconstruction performance by an rain-to-rain autoencoder, we introduce the idea of "Rain Embedding Consistency" by regarding the encoded embedding by the autoencoder as an ideal rain embedding and aim at enhancing the deraining performance by improving the consistency between the ideal rain embedding and the rain embedding derived by the encoder of the deraining network. To achieve this, a Rain Embedding Loss is applied to directly supervise the encoding process, with a Rectified Local Contrast Normalization (RLCN) as the guide that effectively extracts the candidate rain pixels. We also propose Layered LSTM for recurrent deraining and fine-grained encoder feature refinement considering different scales. Qualitative and quantitative experiments demonstrate that our proposed method outperforms previous state-of-the-art methods particularly on a real-world dataset. Our source code is available at http://www.ok.sc.e.t itech.ac.jp/res/SIR/ .
翻訳日:2021-11-08 15:40:10 公開日:2021-11-05
# (参考訳) グリッド世界の規則的決定過程 [全文訳有]

Regular Decision Processes for Grid Worlds ( http://arxiv.org/abs/2111.03647v1 )

ライセンス: CC BY 4.0
Nicky Lenaers and Martijn van Otterlo(参考訳) マルコフ決定プロセスは一般に不確実性下での逐次意思決定に使用される。 しかし、多くの面において、制約のある仕様や安全な仕様からタスクや報酬構造における様々な時間的(非マルコフ的)依存まで、拡張が必要である。 この目的のために、近年、強化学習と時間論理の組み合わせ、すなわち、堅牢な検証と保証を備えた柔軟な行動学習手法の組み合わせに注目が集まっている。 本稿では,最近導入された非マルコフ報酬関数と遷移関数の両方をサポートする規則的決定過程について実験的に検討する。 特に、正規決定プロセスのためのツールチェーン、オンライン、インクリメンタルラーニングに関連するアルゴリズム拡張、モデルフリーおよびモデルベースソリューションアルゴリズムの実証的評価、そして正規だが非マルコフ的グリッドワールドにおける応用を提供する。

Markov decision processes are typically used for sequential decision making under uncertainty. For many aspects however, ranging from constrained or safe specifications to various kinds of temporal (non-Markovian) dependencies in task and reward structures, extensions are needed. To that end, in recent years interest has grown into combinations of reinforcement learning and temporal logic, that is, combinations of flexible behavior learning methods with robust verification and guarantees. In this paper we describe an experimental investigation of the recently introduced regular decision processes that support both non-Markovian reward functions as well as transition functions. In particular, we provide a tool chain for regular decision processes, algorithmic extensions relating to online, incremental learning, an empirical evaluation of model-free and model-based solution algorithms, and applications in regular, but non-Markovian, grid worlds.
翻訳日:2021-11-08 15:36:58 公開日:2021-11-05
# SocialVec: ソーシャルエンティティの埋め込み

SocialVec: Social Entity Embeddings ( http://arxiv.org/abs/2111.03514v1 )

ライセンス: Link先を確認
Nir Lotan, Einat Minkov(参考訳) 本稿では,ソーシャル世界の知識をソーシャルネットワークから引き出す汎用フレームワークであるsocialvecを紹介し,このフレームワークをtwitterに適用する。 SocialVecは、アカウント内の共起パターンとそれに続く個々のユーザに基づいて、一般的な関心の実体を表す人気アカウントの低次元埋め込みを学習し、ソシオデミノグラフィー用語でエンティティの類似性をモデル化する。 テキスト処理に関わるタスクを容易にする単語埋め込みと同様に、ソーシャルエンティティ埋め込みは、ソーシャルフレーバーのタスクに役立つことを期待している。 我々は、約20万の人気アカウントのソーシャル埋め込みを、13万人以上のユーザーとフォローしているアカウントを含むTwitterネットワークのサンプルから学び、2つの異なるタスクに対する結果の埋め込みを評価する。 最初のタスクは、ソーシャルメディアのプロフィールからユーザーの個人的特徴を自動的に推測することである。 別の研究では、Twitterのニュースソースの政治的偏見を増幅するためにSocialVecの埋め込みを利用する。 どちらの場合でも、既存のエンティティ埋め込みスキームと比較してsocialvec組み込みが有利であることを証明します。 Twitterに反映されたソーシャルワールド知識のさらなる探索を支援するために、SocialVecエンティティを公開します。

This paper introduces SocialVec, a general framework for eliciting social world knowledge from social networks, and applies this framework to Twitter. SocialVec learns low-dimensional embeddings of popular accounts, which represent entities of general interest, based on their co-occurrences patterns within the accounts followed by individual users, thus modeling entity similarity in socio-demographic terms. Similar to word embeddings, which facilitate tasks that involve text processing, we expect social entity embeddings to benefit tasks of social flavor. We have learned social embeddings for roughly 200,000 popular accounts from a sample of the Twitter network that includes more than 1.3 million users and the accounts that they follow, and evaluate the resulting embeddings on two different tasks. The first task involves the automatic inference of personal traits of users from their social media profiles. In another study, we exploit SocialVec embeddings for gauging the political bias of news sources in Twitter. In both cases, we prove SocialVec embeddings to be advantageous compared with existing entity embedding schemes. We will make the SocialVec entity embeddings publicly available to support further exploration of social world knowledge as reflected in Twitter.
翻訳日:2021-11-08 15:14:14 公開日:2021-11-05
# ニューラルネットワークの検索初期化に対するデータ駆動アプローチ

A Data-driven Approach to Neural Architecture Search Initialization ( http://arxiv.org/abs/2111.03524v1 )

ライセンス: Link先を確認
Kalifou Ren\'e Traor\'e, Andr\'es Camero and Xiao Xiang Zhu(参考訳) neural architecture search(nas)のアルゴリズム設計は、パフォーマンスの向上と計算コストの削減を目的として、多くの注目を集めている。 大きな進歩にもかかわらず、nasの初期化技術を調整することを提案した著者はほとんどいない。 しかし、文献によれば、解のよい初期集合は最適解の発見を容易にする。 そこで本研究では,人口ベースNASアルゴリズムを初期化するデータ駆動手法を提案する。 特に,二段階法を提案する。 まず,探索空間のクラスタリング解析を行い,次にセンタロイドを抽出してnasアルゴリズムの初期化を行う。 CIFAR-10上で,遺伝的アルゴリズム,進化アルゴリズム,老化進化の3つのアルゴリズムを用いて,ランダムおよびラテンハイパーキューブサンプリング初期化に対する提案手法をベンチマークした。 具体的には、NASベンチマークの可用性を活用するためにNAS-Bench-101を使用します。 提案手法は,ランダムおよびラテンハイパーキューブサンプリングと比較して,検索ベースラインの2つ,時には様々な検索シナリオ(各種トレーニング予算)において,大幅な長期的改善を実現することができることを示す。 さらに,得られた解の分布を分析し,データ駆動初期化法により得られた集団が,高適合性および類似構成の局所最適値(maxima)を取得できることを見出した。

Algorithmic design in neural architecture search (NAS) has received a lot of attention, aiming to improve performance and reduce computational cost. Despite the great advances made, few authors have proposed to tailor initialization techniques for NAS. However, literature shows that a good initial set of solutions facilitate finding the optima. Therefore, in this study, we propose a data-driven technique to initialize a population-based NAS algorithm. Particularly, we proposed a two-step methodology. First, we perform a calibrated clustering analysis of the search space, and second, we extract the centroids and use them to initialize a NAS algorithm. We benchmark our proposed approach against random and Latin hypercube sampling initialization using three population-based algorithms, namely a genetic algorithm, evolutionary algorithm, and aging evolution, on CIFAR-10. More specifically, we use NAS-Bench-101 to leverage the availability of NAS benchmarks. The results show that compared to random and Latin hypercube sampling, the proposed initialization technique enables achieving significant long-term improvements for two of the search baselines, and sometimes in various search scenarios (various training budgets). Moreover, we analyze the distributions of solutions obtained and find that that the population provided by the data-driven initialization technique enables retrieving local optima (maxima) of high fitness and similar configurations.
翻訳日:2021-11-08 15:13:56 公開日:2021-11-05
# 可変適応線形帯域と水平自由線形混合MDPのレギュレット解析の改善

Improved Regret Analysis for Variance-Adaptive Linear Bandits and Horizon-Free Linear Mixture MDPs ( http://arxiv.org/abs/2111.03289v1 )

ライセンス: Link先を確認
Yeoneung Kim, Insoon Yang, Kwang-Sung Jun(参考訳) オンライン学習問題において、低分散の活用は、厳密なパフォーマンス保証を得る上で重要な役割を果たすが、分散が優先事項として知られていない場合が多いため、難しい。 最近では Zhang et al. (2021) によって、分散の知識のない線形包帯に対する分散適応的後悔境界と、線形混合マルコフ決定過程(MDPs)に対する水平自由な後悔境界が得られている。 本稿では,その後悔関係を著しく改善する新しい分析法を提案する。 線形包帯に対して、$\tilde O(d^{1.5}\sqrt{\sum_{k}^K \sigma_k^2} + d^2)$ ここで、$d$は特徴の次元、$K$は時間軸、$\sigma_k^2$は時間ステップのノイズ分散、$\tilde O$はポリログ依存を無視し、$d^3$の改善の要因である。 線形混合mdpの場合、$d$ は基本モデル数、$k$ はエピソード数、$\tilde o(d^{1.5}\sqrt{k} + d^3)$ となる。 これは、先行項で$d^3$改善、下位項で$d^6$改善の係数である。 我々の分析は、新しい楕円ポテンシャル ‘count' 補題に批判的に依存している。 この補題は剥がしに基づく後悔の分析を可能にし、独立した関心を持つことができる。

In online learning problems, exploiting low variance plays an important role in obtaining tight performance guarantees yet is challenging because variances are often not known a priori. Recently, a considerable progress has been made by Zhang et al. (2021) where they obtain a variance-adaptive regret bound for linear bandits without knowledge of the variances and a horizon-free regret bound for linear mixture Markov decision processes (MDPs). In this paper, we present novel analyses that improve their regret bounds significantly. For linear bandits, we achieve $\tilde O(d^{1.5}\sqrt{\sum_{k}^K \sigma_k^2} + d^2)$ where $d$ is the dimension of the features, $K$ is the time horizon, and $\sigma_k^2$ is the noise variance at time step $k$, and $\tilde O$ ignores polylogarithmic dependence, which is a factor of $d^3$ improvement. For linear mixture MDPs, we achieve a horizon-free regret bound of $\tilde O(d^{1.5}\sqrt{K} + d^3)$ where $d$ is the number of base models and $K$ is the number of episodes. This is a factor of $d^3$ improvement in the leading term and $d^6$ in the lower order term. Our analysis critically relies on a novel elliptical potential `count' lemma. This lemma allows a peeling-based regret analysis, which can be of independent interest.
翻訳日:2021-11-08 15:12:44 公開日:2021-11-05
# 深層学習を用いた血液細胞の病理学的解析

Pathological Analysis of Blood Cells Using Deep Learning Techniques ( http://arxiv.org/abs/2111.03274v1 )

ライセンス: Link先を確認
Virender Ranga, Shivam Gupta, Priyansh Agrawal and Jyoti Meena(参考訳) 病理学は、身体サンプルを分析して病気の原因を発見する実践を扱う。 この分野で最もよく使われる方法は、細胞や組織の微細な構造を研究し、観察する組織学を使うことである。 スライド表示法は,高解像度画像を生成するために広く使われ,デジタル形式に変換されている。 これにより、ディープラーニングと機械学習の領域が、この医療科学の分野に深く入り込んだ。 本研究では, 血液細胞像を様々なカテゴリに分類するためのニューラルネットワークが提案されている。 入力画像が提案したアーキテクチャを通過し、提案アルゴリズムに従って全てのハイパーパラメータとドロップアウト比値が使用される場合、モデルが95.24%の精度で血液画像の分類を行う。 提案モデルの性能は、既存の標準アーキテクチャや様々な研究者による作業よりも優れている。 このようにモデルにより、ヒトのエラーを減らし、実験室の男性に毎日負荷をかける病的システムの開発が可能になる。 これは、病理学者がより効率的かつ効果的に仕事を遂行するのに役立つだろう。

Pathology deals with the practice of discovering the reasons for disease by analyzing the body samples. The most used way in this field, is to use histology which is basically studying and viewing microscopic structures of cell and tissues. The slide viewing method is widely being used and converted into digital form to produce high resolution images. This enabled the area of deep learning and machine learning to deep dive into this field of medical sciences. In the present study, a neural based network has been proposed for classification of blood cells images into various categories. When input image is passed through the proposed architecture and all the hyper parameters and dropout ratio values are used in accordance with proposed algorithm, then model classifies the blood images with an accuracy of 95.24%. The performance of proposed model is better than existing standard architectures and work done by various researchers. Thus model will enable development of pathological system which will reduce human errors and daily load on laboratory men. This will in turn help pathologists in carrying out their work more efficiently and effectively.
翻訳日:2021-11-08 15:10:58 公開日:2021-11-05
# 依存木補正を用いた構文誘導文法的誤り補正モデル

A Syntax-Guided Grammatical Error Correction Model with Dependency Tree Correction ( http://arxiv.org/abs/2111.03294v1 )

ライセンス: Link先を確認
Zhaohong Wan and Xiaojun Wan(参考訳) 文法的誤り訂正(英: grammatical error correction、gec)は、文中の文法的誤りを検出し修正する作業である。 近年,この課題に対するニューラルネットワーク翻訳システムが普及している。 しかし,これらの手法は文法的誤りの訂正に重要な役割を果たす構文知識を欠いている。 本研究では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。 文法的不正確な原文の係り受け木が不正確な構文知識をもたらす可能性があることを考慮し,それに対処する係り受け木補正タスクを提案する。 データ拡張手法と組み合わせることで,大規模な事前学習モデルを用いることなく,強力な性能を実現する。 我々は,gecタスクの公開ベンチマークでモデルを評価し,競争結果を得る。

Grammatical Error Correction (GEC) is a task of detecting and correcting grammatical errors in sentences. Recently, neural machine translation systems have become popular approaches for this task. However, these methods lack the use of syntactic knowledge which plays an important role in the correction of grammatical errors. In this work, we propose a syntax-guided GEC model (SG-GEC) which adopts the graph attention mechanism to utilize the syntactic knowledge of dependency trees. Considering the dependency trees of the grammatically incorrect source sentences might provide incorrect syntactic knowledge, we propose a dependency tree correction task to deal with it. Combining with data augmentation method, our model achieves strong performances without using any large pre-trained models. We evaluate our model on public benchmarks of GEC task and it achieves competitive results.
翻訳日:2021-11-08 15:10:44 公開日:2021-11-05
# 低周波・ゼロ周波N-gramの特徴選択比推定器

Feature Selective Likelihood Ratio Estimator for Low- and Zero-frequency N-grams ( http://arxiv.org/abs/2111.03350v1 )

ライセンス: Link先を確認
Masato Kikuchi and Mitsuo Yoshida and Kyoji Umemura and Tadachika Ozono(参考訳) 自然言語処理(NLP)では、N-gramの確率比(LR)が周波数情報からしばしば推定される。 しかし、コーパスは可能なN-グラムのごく一部しか含んでおらず、ほとんどは頻繁に起こる。 したがって、低周波および零周波N-gramに対するLR推定器を求める。 これを実現する一つの方法は、N-グラムを文字や単語などの離散値に分解し、LRの積を値として取ることである。 しかし、この手法は多くの離散値を扱うため、推定のための実行時間とメモリ使用量は問題となる。 また、不要な離散値を用いることで推定精度が低下する。 そこで本稿では, 上記の手法と文書分類に用いる特徴選択法を組み合わせることで, 低周波およびゼロ周波のN-gramに対して有効かつ効率的な推定結果が得られることを示す。

In natural language processing (NLP), the likelihood ratios (LRs) of N-grams are often estimated from the frequency information. However, a corpus contains only a fraction of the possible N-grams, and most of them occur infrequently. Hence, we desire an LR estimator for low- and zero-frequency N-grams. One way to achieve this is to decompose the N-grams into discrete values, such as letters and words, and take the product of the LRs for the values. However, because this method deals with a large number of discrete values, the running time and memory usage for estimation are problematic. Moreover, use of unnecessary discrete values causes deterioration of the estimation accuracy. Therefore, this paper proposes combining the aforementioned method with the feature selection method used in document classification, and shows that our estimator provides effective and efficient estimation results for low- and zero-frequency N-grams.
翻訳日:2021-11-08 15:10:30 公開日:2021-11-05
# リアルタイム乗用車移動と価格決定のための学習モデル予測制御

Learning Model Predictive Controllers for Real-Time Ride-Hailing Vehicle Relocation and Pricing Decisions ( http://arxiv.org/abs/2111.03204v1 )

ライセンス: Link先を確認
Enpeng Yuan, Pascal Van Hentenryck(参考訳) 大規模配車システムは、個々の要求レベルでのリアルタイムルーティングと、動的価格設定と車両の移動のためのマクロなモデル予測制御(MPC)の最適化を組み合わせることが多い。 MPCは需要予測に依存し、経路最適化の神秘的な性質を補うために長い時間的地平線を最適化する。 しかし、より長い地平線は計算の複雑さを増大させ、MPCは粗い空間時間的粒度の操作を強制し、その決定の質を低下させる。 本稿では,mpc最適化の学習による計算課題について述べる。 結果の機械学習モデルは最適化プロキシとして機能し、その最適解を予測する。 これにより、最適化は解決されオフラインで学習できるため、より高い空間的時間的忠実度でmpcを使うことができる。 実験結果から,提案手法はニューヨーク市のデータセットから,課題のあるインスタンスのサービス品質を向上させることが示された。

Large-scale ride-hailing systems often combine real-time routing at the individual request level with a macroscopic Model Predictive Control (MPC) optimization for dynamic pricing and vehicle relocation. The MPC relies on a demand forecast and optimizes over a longer time horizon to compensate for the myopic nature of the routing optimization. However, the longer horizon increases computational complexity and forces the MPC to operate at coarser spatial-temporal granularity, degrading the quality of its decisions. This paper addresses these computational challenges by learning the MPC optimization. The resulting machine-learning model then serves as the optimization proxy and predicts its optimal solutions. This makes it possible to use the MPC at higher spatial-temporal fidelity, since the optimizations can be solved and learned offline. Experimental results show that the proposed approach improves quality of service on challenging instances from the New York City dataset.
翻訳日:2021-11-08 15:10:15 公開日:2021-11-05
# 技術報告:精密部分レベルアクションパーシングのためのアンタングル型アクションパーシングネットワーク

Technical Report: Disentangled Action Parsing Networks for Accurate Part-level Action Parsing ( http://arxiv.org/abs/2111.03225v1 )

ライセンス: Link先を確認
Xuanhan Wang and Xiaojia Chen and Lianli Gao and Lechao Chen and Jingkuan Song(参考訳) Part-level Action Parsingは、ビデオにおけるアクション認識を促進するための部分状態解析を目的としている。 映像分類研究の分野における劇的な進歩にもかかわらず、コミュニティが直面している深刻な問題は、人間の行動の詳細な理解が無視されていることである。 私たちのモチベーションは、人間の行動を解析するには、特定の問題に焦点を当てたモデルを構築する必要があります。 本稿では,DAP(disentangled action parsing)というシンプルなアプローチを提案する。 具体的には,パートレベルの動作解析を3段階に分けた。 1) 映像からすべての人物を検知し、かつ、事例レベルの行動認識を行うために、人物検出を採用する。 2) 検出された人物画像から人間の部分を認識するための部分パースモデルが提案されている部分パース 3) アクションパース、マルチモーダルアクションパースネットワークを使用して、前段から得られたすべての検出結果に基づいてアクションカテゴリ条件付けを解析する。 これら3つの主要なモデルを適用することで、DAPのアプローチは2021 Kinetics-TPS Challengeで世界平均0.605ドルのスコアを記録します。

Part-level Action Parsing aims at part state parsing for boosting action recognition in videos. Despite of dramatic progresses in the area of video classification research, a severe problem faced by the community is that the detailed understanding of human actions is ignored. Our motivation is that parsing human actions needs to build models that focus on the specific problem. We present a simple yet effective approach, named disentangled action parsing (DAP). Specifically, we divided the part-level action parsing into three stages: 1) person detection, where a person detector is adopted to detect all persons from videos as well as performs instance-level action recognition; 2) Part parsing, where a part-parsing model is proposed to recognize human parts from detected person images; and 3) Action parsing, where a multi-modal action parsing network is used to parse action category conditioning on all detection results that are obtained from previous stages. With these three major models applied, our approach of DAP records a global mean of $0.605$ score in 2021 Kinetics-TPS Challenge.
翻訳日:2021-11-08 15:08:25 公開日:2021-11-05
# FBNet:都市シーンセグメンテーションのための特徴バランスネットワーク

FBNet: Feature Balance Network for Urban-Scene Segmentation ( http://arxiv.org/abs/2111.03286v1 )

ライセンス: Link先を確認
Lei Gan, Huabin Huang, Banghuai Li, Ye Yuan(参考訳) 都市景観におけるイメージセグメンテーションは, 自動運転システムの成功により近年注目されている。 しかし、例えば交通信号や電柱など、懸念される前景目標の性能の低下は、そのさらなる実用的応用を制限している。 都市のシーンでは、特別なカメラの位置と3D視点投影のため、前景のターゲットは常に周囲の物に隠されている。 さらに悪いことに、受信フィールドの連続的な拡張により、フォアグラウンドとバックグラウンドクラスの高レベルな特徴のバランスが悪化します。 これをFeature Camouflageと呼びます。 本稿では,都市間セグメンテーションにおける特徴カモフラージュをなくすために,機能バランスネットワーク(fbnet)と呼ばれる新しいアドオンモジュールを提案する。 FBNetはBlock-wise BCE(BwBCE)とDual Feature Modulator(DFM)の2つの重要なコンポーネントで構成されている。 BwBCEは、バックプロパゲーション中に前景や周囲の均一な勾配を確保する補助的損失として機能する。 同時に、dfmはbwbceの監督下で、高レベル特徴における前景クラスの深い表現を適応的に強化することを意図している。 これら2つのモジュールは、機能カモフラージュを効果的に容易にするために、全体として相互に役立ちます。 提案手法は,都市景観とBDD100Kの2つの挑戦的な都市景観ベンチマークにおいて,最先端のセグメンテーション性能を実現する。 コードは再生のためにリリースされます。

Image segmentation in the urban scene has recently attracted much attention due to its success in autonomous driving systems. However, the poor performance of concerned foreground targets, e.g., traffic lights and poles, still limits its further practical applications. In urban scenes, foreground targets are always concealed in their surrounding stuff because of the special camera position and 3D perspective projection. What's worse, it exacerbates the unbalance between foreground and background classes in high-level features due to the continuous expansion of the reception field. We call it Feature Camouflage. In this paper, we present a novel add-on module, named Feature Balance Network (FBNet), to eliminate the feature camouflage in urban-scene segmentation. FBNet consists of two key components, i.e., Block-wise BCE(BwBCE) and Dual Feature Modulator(DFM). BwBCE serves as an auxiliary loss to ensure uniform gradients for foreground classes and their surroundings during backpropagation. At the same time, DFM intends to enhance the deep representation of foreground classes in high-level features adaptively under the supervision of BwBCE. These two modules facilitate each other as a whole to ease feature camouflage effectively. Our proposed method achieves a new state-of-the-art segmentation performance on two challenging urban-scene benchmarks, i.e., Cityscapes and BDD100K. Code will be released for reproduction.
翻訳日:2021-11-08 15:08:09 公開日:2021-11-05
# KORSAL:オンラインリアルタイム時空間行動定位に基づくキーポイント検出

KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal Action Localization ( http://arxiv.org/abs/2111.03319v1 )

ライセンス: Link先を確認
Kalana Abeywardena, Shechem Sumanthiran, Sakuna Jayasundara, Sachira Karunasena, Ranga Rodrigo, Peshala Jayasekara(参考訳) ビデオ内のリアルタイムおよびオンラインのアクションローカライズは、非常に難しい問題である。 正確な行動ローカライゼーションには時間的情報と空間的情報の両方を活用する必要がある。 最近の試みでは、計算集約的な3D CNNアーキテクチャや、光学フローを持つ高冗長な2ストリームアーキテクチャを使うことで実現されている。 リアルタイム制約下でのアクティビティローカライズを実現するために,行動の空間的ローカライズのための高速かつ効率的なキーポイントベース境界ボックス予測手法を提案する。 次に, 咬合の存在下での作用管の連続性を時間的に維持するチューブリンクアルゴリズムを提案する。 さらに、時間的・空間的な情報をひとつのネットワークへのケースドインプットに組み合わせることで、2ストリームアーキテクチャの必要性を解消し、ネットワークが両方のタイプの情報から学習できるようにする。 計算集約的な光フローとは対照的に、構造的類似度指数マップを用いて、時間情報を効率的に抽出する。 このアプローチの単純さにもかかわらず、私たちの軽量なエンドツーエンドアーキテクチャは、挑戦的なUCF101-24データセット上で74.7%の最先端のフレーム-mAPを実現しています。 また、オンラインとオフラインの両方の手法と比較して、最先端のビデオmAP結果が得られる。 さらに,現代のリアルタイム手法よりも10.7%向上した41.8FPSのフレームレートを実現した。

Real-time and online action localization in a video is a critical yet highly challenging problem. Accurate action localization requires the utilization of both temporal and spatial information. Recent attempts achieve this by using computationally intensive 3D CNN architectures or highly redundant two-stream architectures with optical flow, making them both unsuitable for real-time, online applications. To accomplish activity localization under highly challenging real-time constraints, we propose utilizing fast and efficient key-point based bounding box prediction to spatially localize actions. We then introduce a tube-linking algorithm that maintains the continuity of action tubes temporally in the presence of occlusions. Further, we eliminate the need for a two-stream architecture by combining temporal and spatial information into a cascaded input to a single network, allowing the network to learn from both types of information. Temporal information is efficiently extracted using a structural similarity index map as opposed to computationally intensive optical flow. Despite the simplicity of our approach, our lightweight end-to-end architecture achieves state-of-the-art frame-mAP of 74.7% on the challenging UCF101-24 dataset, demonstrating a performance gain of 6.4% over the previous best online methods. We also achieve state-of-the-art video-mAP results compared to both online and offline methods. Moreover, our model achieves a frame rate of 41.8 FPS, which is a 10.7% improvement over contemporary real-time methods.
翻訳日:2021-11-08 15:07:48 公開日:2021-11-05
# SSA: コストを伴わない弱画像量予測のための意味構造認識

SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense Predictions without Cost ( http://arxiv.org/abs/2111.03392v1 )

ライセンス: Link先を確認
Yanpeng Sun and Zechao Li(参考訳) 弱監督に基づく画素単位の高密度予測タスクは、現在、クラス注意マップ(CAM)を使用して、擬似マスクを地道として生成している。 しかし、既存の方法は通常、計算のオーバーヘッドと複雑なトレーニング手順を研削する、面倒なトレーニングモジュールに依存する。 本研究では,CNNネットワークの異なる段階に隠された意味構造情報を探索し,モデル推論における高品質なCAMを生成するために,意味構造認識推論(SSA)を提案する。 具体的には、セマンティック構造モデリングモジュール(SSM)が最初に提案され、クラスに依存しないセマンティック相関表現を生成する。 次に、ドット積演算による未熟なCAMを研磨するために構造的特徴表現を探索する。 最後に、異なるバックボーンステージからの研磨CAMを出力として溶融する。 提案手法はパラメータを持たない利点があり、訓練する必要はない。 したがって、弱教師付き画素ワイド予測タスクの幅広い範囲に適用することができる。 弱教師付きオブジェクトローカライズと弱教師付きセマンティックセグメンテーションタスクの両方に関する実験結果は,提案手法の有効性を示すものである。

The pixel-wise dense prediction tasks based on weakly supervisions currently use Class Attention Maps (CAM) to generate pseudo masks as ground-truth. However, the existing methods typically depend on the painstaking training modules, which may bring in grinding computational overhead and complex training procedures. In this work, the semantic structure aware inference (SSA) is proposed to explore the semantic structure information hidden in different stages of the CNN-based network to generate high-quality CAM in the model inference. Specifically, the semantic structure modeling module (SSM) is first proposed to generate the class-agnostic semantic correlation representation, where each item denotes the affinity degree between one category of objects and all the others. Then the structured feature representation is explored to polish an immature CAM via the dot product operation. Finally, the polished CAMs from different backbone stages are fused as the output. The proposed method has the advantage of no parameters and does not need to be trained. Therefore, it can be applied to a wide range of weakly-supervised pixel-wise dense prediction tasks. Experimental results on both weakly-supervised object localization and weakly-supervised semantic segmentation tasks demonstrate the effectiveness of the proposed method, which achieves the new state-of-the-art results on these two tasks.
翻訳日:2021-11-08 15:07:22 公開日:2021-11-05
# 空中画像における物体検出のためのサンプリング同変自己アテンションネットワーク

Sampling Equivariant Self-attention Networks for Object Detection in Aerial Images ( http://arxiv.org/abs/2111.03420v1 )

ライセンス: Link先を確認
Guo-Ye Yang, Xiang-Li Li, Ralph R. Martin, Shi-Min Hu(参考訳) 空中画像の物体は、通常の画像よりもスケールや方向のバリエーションが大きいため、検出は困難である。 畳み込みニューラルネットワークは、異なる変換対象のオブジェクトを識別するために、さまざまな周波数および向き特異的なカーネルを使用する。 サンプリング等価ネットワークは、入力特徴マップからのサンプリングをオブジェクトの変換に従って調整することができ、カーネルは異なる変換の下でオブジェクトの特徴を抽出することができる。 そのためパラメータは少なくなり、ネットワークは空中画像のような変形可能な物体を表現するのにより適している。 しかし、変形可能な畳み込みネットワークのような手法は、サンプリングに使用される場所のため、特定の状況下でサンプリング等価性しか提供できない。 本稿では,局所画像パッチに制限された自己アテンションを,位置の代わりにマスクを用いた畳み込みサンプリングとして考慮した同変自己アテンションネットワークのサンプリングを提案し,同変サンプリング能力をさらに向上させる変換埋め込みモジュールの設計を行う。 また,航空画像データに制限があるため,オーバーフィッティングに取り組むために,新しいランダム化正規化モジュールを用いる。 私たちのモデルは (i)追加の監督なしに、既存の方法よりもサンプリング等価性が大幅に向上する。 (ii)imagenetの分類の改善、及び (iii)計算量を増やすことなく、DOTAデータセットの最先端結果を達成する。

Objects in aerial images have greater variations in scale and orientation than in typical images, so detection is more difficult. Convolutional neural networks use a variety of frequency- and orientation-specific kernels to identify objects subject to different transformations; these require many parameters. Sampling equivariant networks can adjust sampling from input feature maps according to the transformation of the object, allowing a kernel to extract features of an object under different transformations. Doing so requires fewer parameters, and makes the network more suitable for representing deformable objects, like those in aerial images. However, methods like deformable convolutional networks can only provide sampling equivariance under certain circumstances, because of the locations used for sampling. We propose sampling equivariant self-attention networks which consider self-attention restricted to a local image patch as convolution sampling with masks instead of locations, and design a transformation embedding module to further improve the equivariant sampling ability. We also use a novel randomized normalization module to tackle overfitting due to limited aerial image data. We show that our model (i) provides significantly better sampling equivariance than existing methods, without additional supervision, (ii) provides improved classification on ImageNet, and (iii) achieves state-of-the-art results on the DOTA dataset, without increased computation.
翻訳日:2021-11-08 15:06:59 公開日:2021-11-05
# (参考訳) 見えないタスクのためのチェックポイントの動物園を爆発させる [全文訳有]

Exploiting a Zoo of Checkpoints for Unseen Tasks ( http://arxiv.org/abs/2111.03628v1 )

ライセンス: CC BY 4.0
Jiaji Huang, Qiang Qiu, Kenneth Church(参考訳) 文献には多くのモデルがあり、新しいタスクにどのような組み合わせが有効になるかを決めるのは困難である。 本稿では,Web上で公開されたチェックポイント間の関係を捉えることによって,この問題に対処する。 タスクの空間をガウス過程としてモデル化する。 共分散はチェックポイントとラベルなしの検査データから推定できる。 ガウス過程により、最大相互情報量による代表チェックポイントの特定が可能となる。 この目的はモジュラーである。 greedyメソッドは、タスク空間を"カバー"する可能性のある代表者を特定する。 これらの代表者は優れた性能を持つ新しいタスクに一般化する。 経験的証拠は、計算言語学とコンピュータビジョンの両方から応用される。

There are so many models in the literature that it is difficult for practitioners to decide which combinations are likely to be effective for a new task. This paper attempts to address this question by capturing relationships among checkpoints published on the web. We model the space of tasks as a Gaussian process. The covariance can be estimated from checkpoints and unlabeled probing data. With the Gaussian process, we can identify representative checkpoints by a maximum mutual information criterion. This objective is submodular. A greedy method identifies representatives that are likely to "cover" the task space. These representatives generalize to new tasks with superior performance. Empirical evidence is provided for applications from both computational linguistics as well as computer vision.
翻訳日:2021-11-08 15:04:20 公開日:2021-11-05
# バイアスパリティスコアに基づく損失関数正規化による予測の公平性の向上

Increasing Fairness in Predictions Using Bias Parity Score Based Loss Function Regularization ( http://arxiv.org/abs/2111.03638v1 )

ライセンス: Link先を確認
Bhanu Jain, Manfred Huber, Ramez Elmasri(参考訳) 機械学習に基づく意思決定支援システムの利用の増加は、すべての利害関係者に対して正確かつ公平な予測結果の必要性を強調している。 本稿では,トレーニング中のニューラルネットワークモデルの公平性を高めるための新しいアプローチを提案する。 従来のバイナリクロスエントロピーに基づく精度損失と合わせて使用する正則化成分の公平性向上のファミリを導入する。 これらの損失関数は、単一の数でモデルのバイアスを定量化するスコアであるバイアスパリティスコア(BPS)に基づいている。 本研究では,これらの正規化成分のバイアスに対する挙動と影響について検討する。 我々は、人口統計に基づく成人所得データセットと同様に、再分配予測タスクの文脈に展開する。 その結果,不均衡データセットであっても精度を損なうことなく,フェアネス損失関数を適切に選択すれば,トレーニングモデルのバイアスを低減できることがわかった。

Increasing utilization of machine learning based decision support systems emphasizes the need for resulting predictions to be both accurate and fair to all stakeholders. In this work we present a novel approach to increase a Neural Network model's fairness during training. We introduce a family of fairness enhancing regularization components that we use in conjunction with the traditional binary-cross-entropy based accuracy loss. These loss functions are based on Bias Parity Score (BPS), a score that helps quantify bias in the models with a single number. In the current work we investigate the behavior and effect of these regularization components on bias. We deploy them in the context of a recidivism prediction task as well as on a census-based adult income dataset. The results demonstrate that with a good choice of fairness loss function we can reduce the trained model's bias without deteriorating accuracy even in unbalanced dataset.
翻訳日:2021-11-08 14:46:04 公開日:2021-11-05
# スイッチボードデータセットのためのコンフォーマベースハイブリッドasrシステム

Conformer-based Hybrid ASR System for Switchboard Dataset ( http://arxiv.org/abs/2111.03442v1 )

ライセンス: Link先を確認
Mohammad Zeineldeen, Jingjing Xu, Christoph L\"uscher, Wilfried Michel, Alexander Gerstenberger, Ralf Schl\"uter, Hermann Ney(参考訳) 最近提案されたコンバータアーキテクチャは、異なるデータセット上で最先端のパフォーマンスを達成するために、エンドツーエンドの自動音声認識(ASR)アーキテクチャに成功している。 我々の知る限り、ハイブリッドASRにおけるコンフォメータ音響モデルの使用が及ぼす影響は調査されていない。 本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。 単語誤り率の向上と学習速度の向上を目的として,異なる訓練側面と方法を検討した。 効率的なトレーニングにタイムダウンサンプリング手法を適用し,変換された畳み込みを用いて出力シーケンスを再度サンプリングする。 我々はSwitchboard 300hデータセット上で実験を行い、コンバータベースのハイブリッドモデルは、他のアーキテクチャと比較して競合的な結果を得る。 Hub5'01テストセットで非常によく一般化され、BLSTMベースのハイブリッドモデルよりも大幅に優れている。

The recently proposed conformer architecture has been successfully used for end-to-end automatic speech recognition (ASR) architectures achieving state-of-the-art performance on different datasets. To our best knowledge, the impact of using conformer acoustic model for hybrid ASR is not investigated. In this paper, we present and evaluate a competitive conformer-based hybrid model training recipe. We study different training aspects and methods to improve word-error-rate as well as to increase training speed. We apply time downsampling methods for efficient training and use transposed convolutions to upsample the output sequence again. We conduct experiments on Switchboard 300h dataset and our conformer-based hybrid model achieves competitive results compared to other architectures. It generalizes very well on Hub5'01 test set and outperforms the BLSTM-based hybrid model significantly.
翻訳日:2021-11-08 14:45:50 公開日:2021-11-05
# 異質性蒸留--異種処理効果モデルの説明から解釈可能な方針へ

Distilling Heterogeneity: From Explanations of Heterogeneous Treatment Effect Models to Interpretable Policies ( http://arxiv.org/abs/2111.03267v1 )

ライセンス: Link先を確認
Han Wu, Sarah Tan, Weiwei Li, Mia Garrard, Adam Obeng, Drew Dimmery, Shaun Singh, Hanson Wang, Daniel Jiang, Eytan Bakshy(参考訳) インターネット企業は、機械学習モデルを使用して、個人ごとに最適な予測された治療を割り当てるパーソナライズされたポリシーを作成しつつある。 これらは、個々のレベルの治療効果を予測するブラックボックス不均一治療効果(HTE)モデルからしばしば導かれる。 本稿では,(1)HTEモデルの学習説明,(2)治療課題を規定する解釈可能な政策の学習に焦点を当てる。 また,解釈可能性を失うことなく複数の解釈可能なポリシーをアンサンブルするためのガイダンスツリーを提案する。 これらのルールベースの解釈可能なポリシーは、デプロイが容易で、本番環境でHTEモデルをメンテナンスする必要がない。

Internet companies are increasingly using machine learning models to create personalized policies which assign, for each individual, the best predicted treatment for that individual. They are frequently derived from black-box heterogeneous treatment effect (HTE) models that predict individual-level treatment effects. In this paper, we focus on (1) learning explanations for HTE models; (2) learning interpretable policies that prescribe treatment assignments. We also propose guidance trees, an approach to ensemble multiple interpretable policies without the loss of interpretability. These rule-based interpretable policies are easy to deploy and avoid the need to maintain a HTE model in a production environment.
翻訳日:2021-11-08 14:45:30 公開日:2021-11-05
# Maillardのサンプリング:ボルツマン探査が最適に

Maillard Sampling: Boltzmann Exploration Done Optimally ( http://arxiv.org/abs/2111.03290v1 )

ライセンス: Link先を確認
Jie Bian, Kwang-Sung Jun(参考訳) the phd thesis of maillard (2013)は、$k$-armed bandit問題のランダム化アルゴリズムを示している。 筆者らがMaillard sample (MS)と呼ぶこのあまり知られていないアルゴリズムは、各アームをクローズドな形で選択する確率を計算する。 このようなメリットに動機づけられて、我々はmsを再検討し、漸近的最適性と$\sqrt{kt\log{t}}$ minimax regret bound where $t$ is the time horizon, これは標準漸近的最適ucbのパフォーマンスと一致することを示した。 次に、漸近的最適性を失うことなく、その最小値が$\sqrt{kt\log{k}}$となるms$^+$と呼ばれる変種を提案する。 ms$^+$は、既存のbanditアルゴリズムでは利用できないユニークな機能である理論的保証を失うことなく、アグレッシブであるように調整することもできる。 数値評価の結果,ms$^+$の有効性が示された。

The PhD thesis of Maillard (2013) presents a randomized algorithm for the $K$-armed bandit problem. This less-known algorithm, which we call Maillard sampling (MS), computes the probability of choosing each arm in a closed form, which is useful for counterfactual evaluation from bandit-logged data but was lacking from Thompson sampling, a widely-adopted bandit algorithm in the industry. Motivated by such merit, we revisit MS and perform an improved analysis to show that it achieves both the asymptotical optimality and $\sqrt{KT\log{T}}$ minimax regret bound where $T$ is the time horizon, which matches the standard asymptotically optimal UCB's performance. We then propose a variant of MS called MS$^+$ that improves its minimax bound to $\sqrt{KT\log{K}}$ without losing the asymptotic optimality. MS$^+$ can also be tuned to be aggressive (i.e., less exploration) without losing theoretical guarantees, a unique feature unavailable from existing bandit algorithms. Our numerical evaluation shows the effectiveness of MS$^+$.
翻訳日:2021-11-08 14:45:22 公開日:2021-11-05
# 高次統計を用いた時系列の長距離確率予測

Long Range Probabilistic Forecasting in Time-Series using High Order Statistics ( http://arxiv.org/abs/2111.03394v1 )

ライセンス: Link先を確認
Prathamesh Deshpande, Sunita Sarawagi(参考訳) 長距離予測は、予測値の高レベル集約パターンから推論を引き出す必要がある多くの意思決定支援システムの出発点である。 最先端の時系列予測手法は、ロングホライゾン予測のコンセプトドリフトを受けるか、コヒーレントで正確なハイレベルアグリゲーションを正確に予測できないかのいずれかである。 本稿では,ベースレベルと予測集計統計量で一貫性のある予測を生成する新しい確率的予測手法を提案する。 予測ベースレベル統計と集計統計のコヒーレンスを,新しい推論法を用いて達成する。 提案手法はKL分割に基づいており, クローズドな方法で効率的に解ける。 提案手法は,3つの領域にまたがる実際のデータセットにおいて,ベースレベルと非表示アグリゲーションの両方で予測性能を向上することを示す。

Long range forecasts are the starting point of many decision support systems that need to draw inference from high-level aggregate patterns on forecasted values. State of the art time-series forecasting methods are either subject to concept drift on long-horizon forecasts, or fail to accurately predict coherent and accurate high-level aggregates. In this work, we present a novel probabilistic forecasting method that produces forecasts that are coherent in terms of base level and predicted aggregate statistics. We achieve the coherency between predicted base-level and aggregate statistics using a novel inference method. Our inference method is based on KL-divergence and can be solved efficiently in closed form. We show that our method improves forecast performance across both base level and unseen aggregates post inference on real datasets ranging three diverse domains.
翻訳日:2021-11-08 14:44:56 公開日:2021-11-05
# ばらばらな変分ガウス過程の双対パラメータ化

Dual Parameterization of Sparse Variational Gaussian Processes ( http://arxiv.org/abs/2111.03412v1 )

ライセンス: Link先を確認
Vincent Adam, Paul E. Chang, Mohammad Emtiyaz Khan, Arno Solin(参考訳) スパース変分ガウス過程(SVGP)法は計算上の利点から非共役ガウス過程推論において一般的な選択である。 本稿では,各データ例に2つのパラメータを割り当てた二重パラメータ化を用いて,予測伝搬に使用するサイトパラメータと同様の計算効率を向上させる。 我々の双対パラメタライゼーションは、自然勾配降下を用いた推定を高速化し、ハイパーパラメータ学習においてより厳密な証拠を提供する。 このアプローチは、現在のSVGPメソッドと同じメモリコストを持つが、より速く、より正確である。

Sparse variational Gaussian process (SVGP) methods are a common choice for non-conjugate Gaussian process inference because of their computational benefits. In this paper, we improve their computational efficiency by using a dual parameterization where each data example is assigned dual parameters, similarly to site parameters used in expectation propagation. Our dual parameterization speeds-up inference using natural gradient descent, and provides a tighter evidence lower bound for hyperparameter learning. The approach has the same memory cost as the current SVGP methods, but it is faster and more accurate.
翻訳日:2021-11-08 14:44:43 公開日:2021-11-05
# 深層学習における局所不確かさ改善のためのラプラス近似の混合

Mixtures of Laplace Approximations for Improved Post-Hoc Uncertainty in Deep Learning ( http://arxiv.org/abs/2111.03577v1 )

ライセンス: Link先を確認
Runa Eschenhagen, Erik Daxberger, Philipp Hennig, Agustinus Kristiadi(参考訳) ディープニューラルネットワークは、外れ値の予測を過信する傾向がある。 ベイズニューラルネットワークとディープアンサンブルはどちらも、この問題をある程度緩和することを示した。 本研究では,この2つのアプローチの利点を,個別に学習した深層ニューラルネットワークのラプラス近似の重み付き和からなるガウス混合モデルと組み合わせて予測することを目的としている。 この方法は、プレトレーニングされたネットワークの任意のセットでポストホックを使うことができるが、通常のアンサンブルと比較して計算とメモリのオーバーヘッドが小さいだけである。 我々は,本手法がトレーニングデータから「遠方」に過信を緩和し,標準不確実性定量化ベンチマークにおける最先端のベースラインを実証的に比較することを理論的に検証した。

Deep neural networks are prone to overconfident predictions on outliers. Bayesian neural networks and deep ensembles have both been shown to mitigate this problem to some extent. In this work, we aim to combine the benefits of the two approaches by proposing to predict with a Gaussian mixture model posterior that consists of a weighted sum of Laplace approximations of independently trained deep neural networks. The method can be used post hoc with any set of pre-trained networks and only requires a small computational and memory overhead compared to regular ensembles. We theoretically validate that our approach mitigates overconfidence "far away" from the training data and empirically compare against state-of-the-art baselines on standard uncertainty quantification benchmarks.
翻訳日:2021-11-08 14:43:37 公開日:2021-11-05
# 否定的サンプルは、独自の方法で否定的:画像テキスト検索のための否定的文の整理

Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences for Image-Text Retrieval ( http://arxiv.org/abs/2111.03349v1 )

ライセンス: Link先を確認
Zhihao Fan, Zhongyu Wei, Zejun Li, Siyuan Wang, Jianqing Fan(参考訳) マッチングモデルは、Image-Text Retrievalフレームワークに不可欠である。 既存の研究は通常、三重項損失でモデルを訓練し、データセットで難しい否定文を取得するための様々な戦略を探求する。 現在の検索に基づく負のサンプル構築手法はデータセットの規模に制限があるため、画像毎に高い難易度を示す負のサンプルを特定することができない。 識別・修正(tags-dc)により合成文を自動的に負のサンプルとして生成する手法を提案する。 TAGS-DCはマスキングと補充によって構成され、より難易度の高い合成陰文を生成する。 トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。 否定文におけるミスマッチのきめ細かい意味を更に活用するために,単語識別と単語訂正という2つの補助的タスクを提案する。 実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を現在の最先端モデルと比較し検証し,その堅牢性と忠実性を示す。 私たちのコードはhttps://github.com/l ibertfan/tagsで利用可能です。

Matching model is essential for Image-Text Retrieval framework. Existing research usually train the model with a triplet loss and explore various strategy to retrieve hard negative sentences in the dataset. We argue that current retrieval-based negative sample construction approach is limited in the scale of the dataset thus fail to identify negative sample of high difficulty for every image. We propose our TAiloring neGative Sentences with Discrimination and Correction (TAGS-DC) to generate synthetic sentences automatically as negative samples. TAGS-DC is composed of masking and refilling to generate synthetic negative sentences with higher difficulty. To keep the difficulty during training, we mutually improve the retrieval and generation through parameter sharing. To further utilize fine-grained semantic of mismatch in the negative sentence, we propose two auxiliary tasks, namely word discrimination and word correction to improve the training. In experiments, we verify the effectiveness of our model on MS-COCO and Flickr30K compared with current state-of-the-art models and demonstrates its robustness and faithfulness in the further analysis. Our code is available in https://github.com/L ibertFan/TAGS.
翻訳日:2021-11-08 14:43:24 公開日:2021-11-05
# DriveGuard:Deep Spatio-Temporal Convolutional Autoencoderによる自動走行システムのロバスト化

DriveGuard: Robustification of Automated Driving Systems with Deep Spatio-Temporal Convolutional Autoencoder ( http://arxiv.org/abs/2111.03480v1 )

ライセンス: Link先を確認
Andreas Papachristodoulou, Christos Kyrkou, Theocharis Theocharides(参考訳) 自動運転車は、知覚とシーンの理解のためのインプットと、それらのモデルが環境や物体を、悪条件や画像ノイズの下で分類する能力を提供するために、ますますカメラに依存している。 意図せず、あるいは標的攻撃によって入力が低下した場合、自律車両の信頼性が損なわれる。 このような現象を緩和するために,自律走行車における画像分割プロセスの強化を目的とした軽量時空間オートエンコーダであるDriveGuardを提案する。 DriveGuardでカメラ画像を処理することで、ノイズの多い入力で各知覚モデルを再学習するよりも、より普遍的なソリューションを提供する。 我々は,異なるオートエンコーダアーキテクチャの空間を探索し,実画像と合成画像とを併用した多様なデータセット上で評価し,時空間情報を多成分損失と組み合わせることで,元のモデルがクリーン画像の5~6%以内の悪画像効果に対するロバスト性を著しく向上させることを示した。

Autonomous vehicles increasingly rely on cameras to provide the input for perception and scene understanding and the ability of these models to classify their environment and objects, under adverse conditions and image noise is crucial. When the input is, either unintentionally or through targeted attacks, deteriorated, the reliability of autonomous vehicle is compromised. In order to mitigate such phenomena, we propose DriveGuard, a lightweight spatio-temporal autoencoder, as a solution to robustify the image segmentation process for autonomous vehicles. By first processing camera images with DriveGuard, we offer a more universal solution than having to re-train each perception model with noisy input. We explore the space of different autoencoder architectures and evaluate them on a diverse dataset created with real and synthetic images demonstrating that by exploiting spatio-temporal information combined with multi-component loss we significantly increase robustness against adverse image effects reaching within 5-6% of that of the original model on clean images.
翻訳日:2021-11-08 14:43:03 公開日:2021-11-05
# 音声認識用コンテキストアウェアトランストランストランスデューサ

Context-Aware Transformer Transducer for Speech Recognition ( http://arxiv.org/abs/2111.03250v1 )

ライセンス: Link先を確認
Feng-Ju Chang, Jing Liu, Martin Radfar, Athanasios Mouchtaris, Maurizio Omologo, Ariya Rastrow, Siegfried Kunzmann(参考訳) E2E(End-to-end)自動音声認識(ASR)システムは、トレーニングデータに稀に現れる珍しい単語を認識するのが難しい場合が多い。 このような稀な単語の認識精度を向上させるための1つの有望な方法は、推論時にパーソナライズ/コンテキスト情報にラッチを付けることである。 本研究では,そのコンテキスト信号を利用して,最先端のトランスフォーマーベースASRシステムを改善する新しいコンテクスト対応トランスデューサ(CATT)ネットワークを提案する。 具体的には,asrサブネットワークの他の部分と共同でトレーニングを行うマルチヘッドアテンションに基づくコンテキストバイアスネットワークを提案する。 コンテクストデータをエンコードし,最後のアテンションコンテキストベクトルを作成するための様々な手法を検討する。 また、BLSTMとトレーニング済みBERTベースのモデルの両方を利用して、コンテキストデータをエンコードし、ネットワークトレーニングをガイドします。 社内の遠視野データセットを用いて,BERTベースのコンテキストエンコーダを用いたCATTは,ベースライントランスデューサの単語誤り率を改善し,既存の深部文脈モデルをそれぞれ24.2%,19.4%向上させることを示した。

End-to-end (E2E) automatic speech recognition (ASR) systems often have difficulty recognizing uncommon words, that appear infrequently in the training data. One promising method, to improve the recognition accuracy on such rare words, is to latch onto personalized/context ual information at inference. In this work, we present a novel context-aware transformer transducer (CATT) network that improves the state-of-the-art transformer-based ASR system by taking advantage of such contextual signals. Specifically, we propose a multi-head attention-based context-biasing network, which is jointly trained with the rest of the ASR sub-networks. We explore different techniques to encode contextual data and to create the final attention context vectors. We also leverage both BLSTM and pretrained BERT based models to encode contextual data and guide the network training. Using an in-house far-field dataset, we show that CATT, using a BERT based context encoder, improves the word error rate of the baseline transformer transducer and outperforms an existing deep contextual model by 24.2% and 19.4% respectively.
翻訳日:2021-11-08 14:42:43 公開日:2021-11-05
# フェイクニュース検知とファクト検証のデータセット:調査

Dataset of Fake News Detection and Fact Verification: A Survey ( http://arxiv.org/abs/2111.03299v1 )

ライセンス: Link先を確認
Taichi Murayama(参考訳) フェイクニュースの急速な増加は社会に大きなダメージを与え、フェイクニュース検出や事実検証技術の開発など、フェイクニュース関連の多くの研究の引き金となる。 これらの研究のリソースは主に、Webデータから取得した公開データセットとして利用可能である。 1)偽ニュース検出,(2)事実検証,(3)その他の課題,例えば偽ニュースの分析,風刺検出の3つの視点から,偽ニュース研究に関連する118のデータセットを調査した。 また,その利用課題とその特徴について詳述する。 最後に、フェイクニュースデータセットの構築における課題と、これらの課題に対処するいくつかの研究機会を強調する。 我々の調査は、車輪を再発明することなく、研究者が適切なデータセットを見つけるのを助けることでフェイクニュース研究を促進する。

The rapid increase in fake news, which causes significant damage to society, triggers many fake news related studies, including the development of fake news detection and fact verification techniques. The resources for these studies are mainly available as public datasets taken from Web data. We surveyed 118 datasets related to fake news research on a large scale from three perspectives: (1) fake news detection, (2) fact verification, and (3) other tasks; for example, the analysis of fake news and satire detection. We also describe in detail their utilization tasks and their characteristics. Finally, we highlight the challenges in the fake news dataset construction and some research opportunities that address these challenges. Our survey facilitates fake news research by helping researchers find suitable datasets without reinventing the wheel, and thereby, improves fake news studies in depth.
翻訳日:2021-11-08 14:42:23 公開日:2021-11-05
# メタ強化学習による未知エージェントとの協調学習

Learning to Cooperate with Unseen Agent via Meta-Reinforcement Learning ( http://arxiv.org/abs/2111.03431v1 )

ライセンス: Link先を確認
Rujikorn Charakorn, Poramate Manoonpong, Nat Dilokthanakul(参考訳) アドホックなチームワーク問題は、エージェントが共通の目標を達成するために、以前は目に見えないエージェントと協力しなければならない状況を記述する。 エージェントがこれらのシナリオで成功するためには、適切な協調技術が必要である。 ドメイン知識を使ってエージェントの振る舞いを設計することで、エージェントに協調的なスキルを実装できる。 しかし、複雑なドメインでは、ドメイン知識は利用できないかもしれない。 したがって、データから協調的スキルを直接学習する方法を探求する価値がある。 本研究では,メタ強化学習(meta-RL)の定式化を,アドホックなチームワーク問題に応用する。 提案手法は,協調環境の異なる2つの協調環境において,社会的コンプライアンスと言語解釈において堅牢な協調エージェントを生成できることを示す。 (これは拡張抽象版の全文である。)

Ad hoc teamwork problem describes situations where an agent has to cooperate with previously unseen agents to achieve a common goal. For an agent to be successful in these scenarios, it has to have a suitable cooperative skill. One could implement cooperative skills into an agent by using domain knowledge to design the agent's behavior. However, in complex domains, domain knowledge might not be available. Therefore, it is worthwhile to explore how to directly learn cooperative skills from data. In this work, we apply meta-reinforcement learning (meta-RL) formulation in the context of the ad hoc teamwork problem. Our empirical results show that such a method could produce robust cooperative agents in two cooperative environments with different cooperative circumstances: social compliance and language interpretation. (This is a full paper of the extended abstract version.)
翻訳日:2021-11-08 14:42:10 公開日:2021-11-05
# (参考訳) the curious layperson: エキスパートラベルのないきめ細かな画像認識 [全文訳有]

The Curious Layperson: Fine-Grained Image Recognition without Expert Labels ( http://arxiv.org/abs/2111.03651v1 )

ライセンス: CC BY 4.0
Subhabrata Choudhury, Iro Laina, Christian Rupprecht, Andrea Vedaldi(参考訳) 私たちのほとんどは鳥類学のような特定の分野の専門家ではありません。 それでも私たちは、専門家のリソースにマッチさせるために使用する、一般的なイメージと言語理解機能を持っています。 これにより、アドホックな外部監視なしに知識を拡大し、新しいタスクを実行できます。 それとは対照的に、機械はその知識を念頭において特別に訓練しない限り、専門家が計算した知識ベースをコンサルティングするのは非常に難しい。 そこで,本稿では,web百科事典で利用可能な膨大な知識を活用し,専門家のアノテーションを使わずにきめ細かい画像認識を行うという新しい問題を考える。 まず,非熟練画像記述を用いて物体の視覚的外観を記述するモデルを学ぶ。 次に、画像記述と文書を文レベルで一致させる微細なテキスト類似モデルを訓練する。 提案手法を2つのデータセット上で評価し,複数の強いベースラインとクロスモーダル検索における技術状況を比較した。 コードは、https://github.com/s ubhc/cleverで入手できる。

Most of us are not experts in specific fields, such as ornithology. Nonetheless, we do have general image and language understanding capabilities that we use to match what we see to expert resources. This allows us to expand our knowledge and perform novel tasks without ad-hoc external supervision. On the contrary, machines have a much harder time consulting expert-curated knowledge bases unless trained specifically with that knowledge in mind. Thus, in this paper we consider a new problem: fine-grained image recognition without expert annotations, which we address by leveraging the vast knowledge available in web encyclopedias. First, we learn a model to describe the visual appearance of objects using non-expert image descriptions. We then train a fine-grained textual similarity model that matches image descriptions with documents on a sentence-level basis. We evaluate the method on two datasets and compare with several strong baselines and the state of the art in cross-modal retrieval. Code is available at: https://github.com/s ubhc/clever
翻訳日:2021-11-08 14:40:10 公開日:2021-11-05
# 対向ロバスト性の統一ゲーム理論的解釈

A Unified Game-Theoretic Interpretation of Adversarial Robustness ( http://arxiv.org/abs/2111.03536v1 )

ライセンス: Link先を確認
Jie Ren, Die Zhang, Yisen Wang, Lu Chen, Zhanpeng Zhou, Yiting Chen, Xu Cheng, Xin Wang, Meng Zhou, Jie Shi, Quanshi Zhang(参考訳) 本稿では,DNNの入力変数間の多次相互作用の視点として,異なる敵攻撃と防御方法を説明する統一的な視点を提供する。 マルチオーダーの相互作用に基づいて、敵攻撃がDNNを騙すために主に高階の相互作用に影響を与えることが判明した。 さらに、敵対的に訓練されたDNNのロバスト性は、カテゴリー固有の低次相互作用に由来する。 本研究は,既存の防衛手法を原理的に説明できる,敵対的摂動とロバスト性を統合する可能性を示す。 また,本研究は,前回から学習した特徴の形状バイアスに対する不正確な理解の修正も行っている。

This paper provides a unified view to explain different adversarial attacks and defense methods, \emph{i.e.} the view of multi-order interactions between input variables of DNNs. Based on the multi-order interaction, we discover that adversarial attacks mainly affect high-order interactions to fool the DNN. Furthermore, we find that the robustness of adversarially trained DNNs comes from category-specific low-order interactions. Our findings provide a potential method to unify adversarial perturbations and robustness, which can explain the existing defense methods in a principle way. Besides, our findings also make a revision of previous inaccurate understanding of the shape bias of adversarially learned features.
翻訳日:2021-11-08 14:23:39 公開日:2021-11-05
# lila: 言語に変形した潜在アクション

LILA: Language-Informed Latent Actions ( http://arxiv.org/abs/2111.03205v1 )

ライセンス: Link先を確認
Siddharth Karamcheti, Megha Srivastava, Percy Liang, Dorsa Sadigh(参考訳) 本稿では,自然言語インタフェースの学習フレームワークであるLanguage-Informed Latent Actions (LILA)を紹介する。 個別の言語入力を提供するのに加えて、人間には低次元のコントローラが与えられ、例えば2自由度(dof)ジョイスティックは左右に移動でき、ロボットを操作するのに1ドル(約1万2000円)もかかる。 LILAは、言語による制御空間を提供する:「トレイにシリアルボウルを置く」という命令を与えられたLILAは、ロボットのエンドエフェクターからボウルまでの距離を1次元が制御する2-DoF空間を学習し、他の次元がロボットのエンドエフェクターがボウルのグリップポイントに対してポーズする。 7-DoFのFranka Emika Panda Armを動作させると、LILAを実世界のユーザスタディで評価し、複雑な操作タスクを完了させる。 LILAモデルは、模擬学習やエンドエフェクタ制御ベースラインよりもサンプリング効率が高く、性能も高いだけでなく、ユーザによって定性的に好まれることを示す。

We introduce Language-Informed Latent Actions (LILA), a framework for learning natural language interfaces in the context of human-robot collaboration. LILA falls under the shared autonomy paradigm: in addition to providing discrete language inputs, humans are given a low-dimensional controller $-$ e.g., a 2 degree-of-freedom (DoF) joystick that can move left/right and up/down $-$ for operating the robot. LILA learns to use language to modulate this controller, providing users with a language-informed control space: given an instruction like "place the cereal bowl on the tray," LILA may learn a 2-DoF space where one dimension controls the distance from the robot's end-effector to the bowl, and the other dimension controls the robot's end-effector pose relative to the grasp point on the bowl. We evaluate LILA with real-world user studies, where users can provide a language instruction while operating a 7-DoF Franka Emika Panda Arm to complete a series of complex manipulation tasks. We show that LILA models are not only more sample efficient and performant than imitation learning and end-effector control baselines, but that they are also qualitatively preferred by users.
翻訳日:2021-11-08 14:23:26 公開日:2021-11-05
# 事実的不整合意識を伴う対話検査要約

Dialogue Inspectional Summarization with Factual Inconsistency Awareness ( http://arxiv.org/abs/2111.03284v1 )

ライセンス: Link先を確認
Leilei Gan, Yating Zhang, Kun Kuang, Lin Yuan, Shuo Li, Changlong Sun, Xiaozhong Liu, Fei Wu(参考訳) 対話要約は広く研究され、先行研究は主に、入力対話と出力要約を整合させる優れたモデル構造を探ることに焦点を当てている。 しかし、専門的な対話(例えば法的議論や医学的診断)では、意味的/統計的アライメントは、入力対話と外部知識による要約出力の間の論理的/実的ギャップを埋めることができない。 本稿では,非事前学習・事前学習環境下での対話検査要約(DIS)の現実的不整合問題を主に検討する。 進化的なエンドツーエンドの対話要約生成フレームワークとして,期待的アスペクト正規化(EFAR)とMFED(Missing Factual Entity Discrimination)の2つの補助タスクを提案する。 包括的実験により,提案モデルがより読みやすい要約を生成でき,かつ,人間の介入により入力対話から検出された潜在的な欠落事実をユーザに知らせることができることを示した。

Dialogue summarization has been extensively studied and applied, where the prior works mainly focused on exploring superior model structures to align the input dialogue and the output summary. However, for professional dialogues (e.g., legal debate and medical diagnosis), semantic/statistical alignment can hardly fill the logical/factual gap between input dialogue discourse and summary output with external knowledge. In this paper, we mainly investigate the factual inconsistency problem for Dialogue Inspectional Summarization (DIS) under non-pretraining and pretraining settings. An innovative end-to-end dialogue summary generation framework is proposed with two auxiliary tasks: Expectant Factual Aspect Regularization (EFAR) and Missing Factual Entity Discrimination (MFED). Comprehensive experiments demonstrate that the proposed model can generate a more readable summary with accurate coverage of factual aspects as well as informing the user with potential missing facts detected from the input dialogue for further human intervention.
翻訳日:2021-11-08 14:22:22 公開日:2021-11-05
# 2つの並列ストリームによる構造認識画像の描画

Structure-aware Image Inpainting with Two Parallel Streams ( http://arxiv.org/abs/2111.03414v1 )

ライセンス: Link先を確認
Zhilin Huang, Chujun Qin, Ruixin Liu, Zhenyu Weng and Yuesheng Zhu(参考訳) 画像の塗布における最近の研究は、構造情報が視覚的快楽の回復に重要な役割を果たしていることを示している。 本稿では,2つの並列 unet ベースのストリームである main stream (ms) と structure stream (ss) からなるエンドツーエンドアーキテクチャを提案する。 SSの助けを借りて、MSは合理的な構造と現実的な詳細を持つもっともらしい結果を生み出すことができる。 特に、msは、欠落した構造とテクスチャを同時に推測して詳細な画像を再構成し、ssは、トレーニングプロセスにおいて、ssと相互作用することで、msのエンコーダから階層情報を処理して、欠落した構造のみを復元する。 SSがMSの構造に焦点を合わせ、MSのテクスチャが影響を受けるのを防ぐため、SSとSS間の情報フローにおける構造関連アクティベーションを抑えるためにゲートユニットを提案する。 さらに、SS内のマルチスケール構造特徴写像を用いて、融合ブロックを介してMSデコーダにおける構造許容画像再構成を明示的に導く。 celeba, paris streetviewおよびplaces2データセットの広範な実験により,提案手法が最先端手法よりも優れていることが示された。

Recent works in image inpainting have shown that structural information plays an important role in recovering visually pleasing results. In this paper, we propose an end-to-end architecture composed of two parallel UNet-based streams: a main stream (MS) and a structure stream (SS). With the assistance of SS, MS can produce plausible results with reasonable structures and realistic details. Specifically, MS reconstructs detailed images by inferring missing structures and textures simultaneously, and SS restores only missing structures by processing the hierarchical information from the encoder of MS. By interacting with SS in the training process, MS can be implicitly encouraged to exploit structural cues. In order to help SS focus on structures and prevent textures in MS from being affected, a gated unit is proposed to depress structure-irrelevant activations in the information flow between MS and SS. Furthermore, the multi-scale structure feature maps in SS are utilized to explicitly guide the structure-reasonable image reconstruction in the decoder of MS through the fusion block. Extensive experiments on CelebA, Paris StreetView and Places2 datasets demonstrate that our proposed method outperforms state-of-the-art methods.
翻訳日:2021-11-08 14:20:17 公開日:2021-11-05
# ディープニューラルネットワークを用いたツイートおよびgabにおける性差別同定

Sexism Identification in Tweets and Gabs using Deep Neural Networks ( http://arxiv.org/abs/2111.03612v1 )

ライセンス: Link先を確認
Amikul Kalra, Arkaitz Zubiaga(参考訳) 匿名化とアクセシビリティを通じて、ソーシャルメディアプラットフォームはヘイトスピーチの拡散を促進し、これらのテキストを識別する自動手法の開発において研究が進められている。 本稿では,long-short-term memory (lstms) や convolutional neural networks (cnns) などの深層ニューラルネットワークモデルアーキテクチャを用いて,テキストにおける性差別の分類について検討する。 これらのネットワークは、Transformers (BERT) と DistilBERT モデルによる双方向エンコーダ表現(英語版)という形式でのトランスファーラーニングと組み合わせて、IberLEF 2021 の Social neTworks (EXIST) タスクにおける sEXism Identification から、つぶやきとガブのデータセットのバイナリとマルチクラスの性差別分類を行う。 これらのモデルは、bertとマルチフィルタcnnモデルを使った最高のパフォーマンスで、競争相手と比較してパフォーマンスが向上している。 データ拡張は、マルチクラス分類タスクのこれらの結果をさらに改善する。 また,これらのモデルによる誤りを考察し,ラベルの主観性やソーシャルメディアで使用される自然言語の複雑さによる性差別の自動分類の難しさについて論じた。

Through anonymisation and accessibility, social media platforms have facilitated the proliferation of hate speech, prompting increased research in developing automatic methods to identify these texts. This paper explores the classification of sexism in text using a variety of deep neural network model architectures such as Long-Short-Term Memory (LSTMs) and Convolutional Neural Networks (CNNs). These networks are used in conjunction with transfer learning in the form of Bidirectional Encoder Representations from Transformers (BERT) and DistilBERT models, along with data augmentation, to perform binary and multiclass sexism classification on the dataset of tweets and gabs from the sEXism Identification in Social neTworks (EXIST) task in IberLEF 2021. The models are seen to perform comparatively to those from the competition, with the best performances seen using BERT and a multi-filter CNN model. Data augmentation further improves these results for the multi-class classification task. This paper also explores the errors made by the models and discusses the difficulty in automatically classifying sexism due to the subjectivity of the labels and the complexity of natural language used in social media.
翻訳日:2021-11-08 14:19:54 公開日:2021-11-05
# グラウンドドグラフデコーディングによる質問応答における合成一般化の改善

Grounded Graph Decoding Improves Compositional Generalization in Question Answering ( http://arxiv.org/abs/2111.03642v1 )

ライセンス: Link先を確認
Yu Gai, Paras Jain, Wendi Zhang, Joseph E. Gonzalez, Dawn Song, Ion Stoica(参考訳) 質問応答モデルは、長いシーケンスやより複雑なテスト構造のようなトレーニングパターンの新しい構成に一般化するのに苦労する。 現在のエンドツーエンドモデルは、入力構文コンテキストを失う可能性のあるフラットな入力埋め込みを学ぶ。 従来の手法は置換不変モデルを学習することで一般化を改善するが、これらの手法はより複雑な列車-試験分割にスケールしない。 構造化された予測をアテンション機構でグラウンド化することで,言語表現の合成一般化を改善する手法であるグラウンドドグラフデコーディングを提案する。 グラウンド化により、モデルは入力からの構文情報を保持できるため、複雑な入力に対する一般化が大幅に向上する。 クエリー節の結合を含む構造化グラフを予測することにより、ターゲット領域に仮定することなくグループ不変表現を学習する。 本モデルは,質問応答における合成一般化のための挑戦的ベンチマークであるCFQデータセットにおいて,最先端のベースラインを著しく上回る。 さらに, MCD1分割を98%精度で効果的に解いた。

Question answering models struggle to generalize to novel compositions of training patterns, such to longer sequences or more complex test structures. Current end-to-end models learn a flat input embedding which can lose input syntax context. Prior approaches improve generalization by learning permutation invariant models, but these methods do not scale to more complex train-test splits. We propose Grounded Graph Decoding, a method to improve compositional generalization of language representations by grounding structured predictions with an attention mechanism. Grounding enables the model to retain syntax information from the input in thereby significantly improving generalization over complex inputs. By predicting a structured graph containing conjunctions of query clauses, we learn a group invariant representation without making assumptions on the target domain. Our model significantly outperforms state-of-the-art baselines on the Compositional Freebase Questions (CFQ) dataset, a challenging benchmark for compositional generalization in question answering. Moreover, we effectively solve the MCD1 split with 98% accuracy.
翻訳日:2021-11-08 14:19:29 公開日:2021-11-05
# POSHAN: ニュースヘッドライン同期のための心POSパターンガイド

POSHAN: Cardinal POS Pattern Guided Attention for News Headline Incongruence ( http://arxiv.org/abs/2111.03547v1 )

ライセンス: Link先を確認
Rahul Mishra and Shuo Zhang(参考訳) クリックベイトと矛盾するニュースの見出しを自動的に検出することは、Webの信頼性を維持するために不可欠であり、多くの研究の注目を集めている。 しかし、ほとんどの既存手法は、ニュース見出しが量や量などの文脈的に重要な基数を含む場合、性能が劣る。 そこで本研究では,本事例に着目し,新しい音声(pos)タグパターンに基づく階層的注意ネットワークであるposhanを用いて,ニュース記事中の文章の効果的な表現を学習するニューラル・アテンション・ベース・ソリューションを提案する。 また,文脈的に重要な基数値と隣接した単語の単語埋め込みを用いた新しい基数句指導注意について検討する。 2つの公開データセットで実施した実験では,提案手法が基数値に対して適切な意味を持ち,すべての基数を上回ることを観察した。 POSHANのアブレーション研究は,基数POSタグパターンに基づく階層的注意が基数値を含む場合において非常に有効であることを示している。

Automatic detection of click-bait and incongruent news headlines is crucial to maintaining the reliability of the Web and has raised much research attention. However, most existing methods perform poorly when news headlines contain contextually important cardinal values, such as a quantity or an amount. In this work, we focus on this particular case and propose a neural attention based solution, which uses a novel cardinal Part of Speech (POS) tag pattern based hierarchical attention network, namely POSHAN, to learn effective representations of sentences in a news article. In addition, we investigate a novel cardinal phrase guided attention, which uses word embeddings of the contextually-importa nt cardinal value and neighbouring words. In the experiments conducted on two publicly available datasets, we observe that the proposed methodgives appropriate significance to cardinal values and outperforms all the baselines. An ablation study of POSHAN shows that the cardinal POS-tag pattern-based hierarchical attention is very effective for the cases in which headlines contain cardinal values.
翻訳日:2021-11-08 14:19:12 公開日:2021-11-05
# コラボレーティブグラフコントラスト学習: グラフ表現学習にデータ拡張合成は必要ないかもしれない

Collaborative Graph Contrastive Learning: Data Augmentation Composition May Not be Necessary for Graph Representation Learning ( http://arxiv.org/abs/2111.03262v1 )

ライセンス: Link先を確認
Yuxiang Ren and Jiawei Zhang(参考訳) 教師なしグラフ表現学習はグラフデータの非自明なトピックである。 構造化データの教師なし表現学習における対比学習と自己教師あり学習の成功は、グラフにおける同様の試みを刺激する。 現在の教師なしグラフ表現学習とコントラスト損失を用いた事前学習は主に手作り拡張グラフデータ間のコントラストに基づいて行われる。 しかし、グラフデータの拡張は予測不能な不変性のため、まだ十分に検討されていない。 本稿では,複数のグラフエンコーダを用いてグラフを観測する,新しい協調グラフニューラルネットワークコントラスト学習フレームワーク(CGCL)を提案する。 異なるビューから観察される特徴は、グラフエンコーダ間の対比学習のためのグラフ拡張として働き、不変性を保証するために摂動を避けている。 CGCLはグラフレベルとノードレベルの表現学習の両方を扱うことができる。 非教師付きグラフ表現学習におけるCGCLの利点と、グラフ表現学習のための手作りデータ拡張合成の非必要性を実証した。

Unsupervised graph representation learning is a non-trivial topic for graph data. The success of contrastive learning and self-supervised learning in the unsupervised representation learning of structured data inspires similar attempts on the graph. The current unsupervised graph representation learning and pre-training using the contrastive loss are mainly based on the contrast between handcrafted augmented graph data. However, the graph data augmentation is still not well-explored due to the unpredictable invariance. In this paper, we propose a novel collaborative graph neural networks contrastive learning framework (CGCL), which uses multiple graph encoders to observe the graph. Features observed from different views act as the graph augmentation for contrastive learning between graph encoders, avoiding any perturbation to guarantee the invariance. CGCL is capable of handling both graph-level and node-level representation learning. Extensive experiments demonstrate the advantages of CGCL in unsupervised graph representation learning and the non-necessity of handcrafted data augmentation composition for graph representation learning.
翻訳日:2021-11-08 14:18:21 公開日:2021-11-05
# (参考訳) ニューラルカーネルバンドの実証的研究 [全文訳有]

An Empirical Study of Neural Kernel Bandits ( http://arxiv.org/abs/2111.03543v1 )

ライセンス: CC BY 4.0
Michal Lisicki, Arash Afkanpour, Graham W. Taylor(参考訳) ニューラルバンディットは、非線形報酬関数の問題を効果的に操作することを可能にする。 一般に、文脈的帯域幅は意思決定にガウス過程(GP)予測分布を用いるが、最も成功した神経変種は導出の最終層パラメータのみを使用する。 ニューラルネットワーク(NK)の研究は、最近、NNのパラメータをすべて考慮し、ほとんどのベイズNNよりも効率的にトレーニングできるディープネットワークとGPの対応を確立した。 本稿では,NK誘起分布を直接適用して,高信頼境界やトンプソンサンプリングに基づく政策を導出する。 NK帯域幅は,非線形構造データ上での最先端性能を示す。 さらに,訓練頻度やモデル分割といった実践的考察も分析した。 当社の作業は、応用設定におけるNKの利用の影響をよりよく理解する上で有効だと信じています。

Neural bandits have enabled practitioners to operate efficiently on problems with non-linear reward functions. While in general contextual bandits commonly utilize Gaussian process (GP) predictive distributions for decision making, the most successful neural variants use only the last layer parameters in the derivation. Research on neural kernels (NK) has recently established a correspondence between deep networks and GPs that take into account all the parameters of a NN and can be trained more efficiently than most Bayesian NNs. We propose to directly apply NK-induced distributions to guide an upper confidence bound or Thompson sampling-based policy. We show that NK bandits achieve state-of-the-art performance on highly non-linear structured data. Furthermore, we analyze practical considerations such as training frequency and model partitioning. We believe our work will help better understand the impact of utilizing NKs in applied settings.
翻訳日:2021-11-08 14:17:27 公開日:2021-11-05
# グローバルディープ表現と局所適応を組み合わせたメタ予測

Meta-Forecasting by combining Global DeepRepresentations with Local Adaptation ( http://arxiv.org/abs/2111.03418v1 )

ライセンス: Link先を確認
Riccardo Grazzi, Valentin Flunkert, David Salinas, Tim Januschowski, Matthias Seeger, Cedric Archambeau(参考訳) 古典的時系列予測は個別の時系列を個別に考慮するが,近年の深層学習による進歩は,関連時系列の大きなプールからの共同学習によって予測精度が向上することを示した。 しかし、サンプル外の時系列をモデル化する場合、これらの手法の精度は著しく低下し、従来の予測手法に比べて適用性が著しく制限される。 このギャップを埋めるために,時系列予測問題のメタラーニング・ビューを採用する。 我々はメタグローバルローカル自動回帰(Meta-GLAR)と呼ばれる新しい予測手法を導入し、リカレントニューラルネットワーク(RNN)が生成した表現からワンステップアヘッド予測へのマッピングをクローズドフォームで学習することで各時系列に適応する。 重要なことは、RNNのパラメータはクローズドフォーム適応機構を通して、複数の時系列にわたって学習される。 実験により,本手法は先行研究で報告されたサンプル外予測精度において,最先端の手法と競合することを示す。

While classical time series forecasting considers individual time series in isolation, recent advances based on deep learning showed that jointly learning from a large pool of related time series can boost the forecasting accuracy. However, the accuracy of these methods suffers greatly when modeling out-of-sample time series, significantly limiting their applicability compared to classical forecasting methods. To bridge this gap, we adopt a meta-learning view of the time series forecasting problem. We introduce a novel forecasting method, called Meta Global-Local Auto-Regression (Meta-GLAR), that adapts to each time series by learning in closed-form the mapping from the representations produced by a recurrent neural network (RNN) to one-step-ahead forecasts. Crucially, the parameters ofthe RNN are learned across multiple time series by backpropagating through the closed-form adaptation mechanism. In our extensive empirical evaluation we show that our method is competitive with the state-of-the-art in out-of-sample forecasting accuracy reported in earlier work.
翻訳日:2021-11-08 14:00:37 公開日:2021-11-05
# NAS-Bench-x11と学習曲線のパワー

NAS-Bench-x11 and the Power of Learning Curves ( http://arxiv.org/abs/2111.03602v1 )

ライセンス: Link先を確認
Shen Yan, Colin White, Yash Savani, Frank Hutter(参考訳) ニューラルアーキテクチャサーチ(NAS)の初期の研究は極端な計算資源を必要としていたが、最近のグラフおよびサロゲートベンチマークのリリースはNAS研究のスピードと再現性を大幅に向上させた。 しかし、最も人気のあるベンチマークのうち2つは、各アーキテクチャの完全なトレーニング情報を提供していない。 結果として、これらのベンチマークでは、任意のエポックでのアーキテクチャの評価を必要とする学習曲線外挿など、多くの種類のマルチフィデリティ技術を実行することはできない。 本研究では,NAS-Bench-111,NAS-B ench-311,NAS-Bench-N LP11というサロゲートベンチマークを作成するための特異値分解とノイズモデリングを用いた手法を提案する。 学習曲線外挿フレームワークを導入することで,学習情報の利用のパワーを実証し,学習曲線外挿フレームワークを用いて単一忠実度アルゴリズムを修正することにより,リリース時の最先端を主張する一般的な単一忠実度アルゴリズムよりも改善することを示す。 私たちのコードと事前トレーニングされたモデルは、https://github.com/a utoml/nas-bench-x11で利用可能です。

While early research in neural architecture search (NAS) required extreme computational resources, the recent releases of tabular and surrogate benchmarks have greatly increased the speed and reproducibility of NAS research. However, two of the most popular benchmarks do not provide the full training information for each architecture. As a result, on these benchmarks it is not possible to run many types of multi-fidelity techniques, such as learning curve extrapolation, that require evaluating architectures at arbitrary epochs. In this work, we present a method using singular value decomposition and noise modeling to create surrogate benchmarks, NAS-Bench-111, NAS-Bench-311, and NAS-Bench-NLP11, that output the full training information for each architecture, rather than just the final validation accuracy. We demonstrate the power of using the full training information by introducing a learning curve extrapolation framework to modify single-fidelity algorithms, showing that it leads to improvements over popular single-fidelity algorithms which claimed to be state-of-the-art upon release. Our code and pretrained models are available at https://github.com/a utoml/nas-bench-x11.
翻訳日:2021-11-08 14:00:18 公開日:2021-11-05
# 3Dポイントクラウド処理におけるDNNの表現品質の解釈

Interpreting Representation Quality of DNNs for 3D Point Cloud Processing ( http://arxiv.org/abs/2111.03549v1 )

ライセンス: Link先を確認
Wen Shen, Qihan Ren, Dongrui Liu, Quanshi Zhang(参考訳) 本稿では,ディープニューラルネットワーク(DNN)で符号化された3Dポイントクラウド処理における知識表現の質を評価する。 本稿では, モデル全体の脆弱性を回転, 翻訳, スケール, 局所的な3次元構造に対する感度に分解する手法を提案する。 また、3次元構造を符号化する空間的滑らかさとDNNの表現複雑さを評価する指標も提案する。 このような分析に基づいて、実験は古典的DNNによる表現問題を明らかにし、敵の訓練の有用性を説明する。

In this paper, we evaluate the quality of knowledge representations encoded in deep neural networks (DNNs) for 3D point cloud processing. We propose a method to disentangle the overall model vulnerability into the sensitivity to the rotation, the translation, the scale, and local 3D structures. Besides, we also propose metrics to evaluate the spatial smoothness of encoding 3D structures, and the representation complexity of the DNN. Based on such analysis, experiments expose representation problems with classic DNNs, and explain the utility of the adversarial training.
翻訳日:2021-11-08 13:59:59 公開日:2021-11-05
# dnnにおける中間視覚パターンの出現の可視化

Visualizing the Emergence of Intermediate Visual Patterns in DNNs ( http://arxiv.org/abs/2111.03505v1 )

ライセンス: Link先を確認
Mingjie Li, Shaobo Wang, Quanshi Zhang(参考訳) 本稿では,DNNで符号化された中間層視覚パターンの識別能力を可視化する手法を提案する。 具体的には、(1)訓練過程において、DNNが各中間層の局所的な視覚パターンを徐々に学習する様子を可視化し、(2)低層の非識別パターンを用いてDNNが前方伝播を通して中高層の識別パターンを構築する効果を可視化する。 可視化手法を用いて,DNNが学習した知識点(識別的視覚パターンの数)を定量化し,DNNの表現能力を評価する。 さらに, 本手法は, 既存の深層学習技術の信号処理行動に関する新たな知見を提供する。

This paper proposes a method to visualize the discrimination power of intermediate-layer visual patterns encoded by a DNN. Specifically, we visualize (1) how the DNN gradually learns regional visual patterns in each intermediate layer during the training process, and (2) the effects of the DNN using non-discriminative patterns in low layers to construct disciminative patterns in middle/high layers through the forward propagation. Based on our visualization method, we can quantify knowledge points (i.e., the number of discriminative visual patterns) learned by the DNN to evaluate the representation capacity of the DNN. Furthermore, this method also provides new insights into signal-processing behaviors of existing deep-learning techniques, such as adversarial attacks and knowledge distillation.
翻訳日:2021-11-08 13:59:49 公開日:2021-11-05
# (参考訳) ニューラルネットワークを用いた遺伝子発現データからの年齢推定 [全文訳有]

Human Age Estimation from Gene Expression Data using Artificial Neural Networks ( http://arxiv.org/abs/2111.02692v2 )

ライセンス: CC BY 4.0
Salman Mohamadi, Gianfranco.Doretto, Nasser M. Nasrabadi, Donald A. Adjeroh(参考訳) ゲノムバイオマーカーによる老化のシグネチャの研究は、老化のメカニズムを理解し、年齢を正確に予測するモデルを開発するのに一役買うことができる。 以前の研究では、正確な年齢予測を目的とした遺伝子発現とdnaメチル化データを用いた。 本稿では,ヒト皮膚線維芽細胞遺伝子発現データから情報を得たヒト年齢推定のための新しい枠組みを提案する。 まず、新しい空間表現と、遺伝子発現データに対するデータ拡張アプローチを提案する。 次に、年齢を予測するために、ニューラルネットワークのアーキテクチャを設計し、アンサンブル分類アプローチとして、この新しいオリジナルデータと拡張データの表現に適用する。 実験結果は,dnaメチル化法と遺伝子発現データを用いた最先端年齢推定法よりも,提案フレームワークが優れていることを示唆する。

The study of signatures of aging in terms of genomic biomarkers can be uniquely helpful in understanding the mechanisms of aging and developing models to accurately predict the age. Prior studies have employed gene expression and DNA methylation data aiming at accurate prediction of age. In this line, we propose a new framework for human age estimation using information from human dermal fibroblast gene expression data. First, we propose a new spatial representation as well as a data augmentation approach for gene expression data. Next in order to predict the age, we design an architecture of neural network and apply it to this new representation of the original and augmented data, as an ensemble classification approach. Our experimental results suggest the superiority of the proposed framework over state-of-the-art age estimation methods using DNA methylation and gene expression data.
翻訳日:2021-11-08 13:09:23 公開日:2021-11-05
# (参考訳) 大規模多種多様な組合せ最適化:espnファンタジーフットボール選手の取引 [全文訳有]

Large Scale Diverse Combinatorial Optimization: ESPN Fantasy Football Player Trades ( http://arxiv.org/abs/2111.02859v2 )

ライセンス: CC BY 4.0
Aaron Baughman, Daniel Bohm, Micah Forster, Eduardo Morales, Jeff Powell, Shaun McPartlin, Raja Hebbar, Kavitha Yogaraj, Yoshika Chhabra, Sudeep Ghosh, Rukhsan Ul Haq, Arjun Kashyap(参考訳) 熟練したファンタジーフットボールのマネージャーでさえ、シーズン半ばのロスターたちに失望することがある。 チームマネージャは、チームが最高のアクティブプレイヤーを始めても、スコアの天井が低いことをすぐに発見できます。 新たな多種多様な組み合わせ最適化システムは、取引の公平さのバランスをとるために、補完的なチーム間での高ボリュームかつ独特な取引を提案する。 量子サポートベクトル分類器(qsvc-pi)、累積局所効果(qsvc-ale)を持つ量子サポートベクトル分類器(qsvc-ale)、置換重要度(vqc-pi)を持つ変分量子回路(vqc-pi)、置換重要度(hqnn-pi)を持つハイブリッド量子ニューラルネットワーク(hqnn-pi)、極端な勾配強調分類器(xgb)、主題エキスパート(sme)ルール。 各選手の評価はリーグルール、ロースター、選択に基づいてパーソナライズされる。 プレイヤーを交換するコストは、位置の深さ、スロット数、位置の重要性など、チームのロースターに関係している。 チームが強みと弱みを相殺できるように、チームはコサインの相違点に基づいて取引のためにペアを組む。 knapsack 0-1アルゴリズムは各チームのアウトゴープレイヤを計算する。 ポストプロセッサは分析モデルとディープラーニングモデルを適用し、各取引に関する6つの客観的指標を測定します。 2020年と2021年のNFLでは、IBMとESPNの24人の専門家が、フットボールエラー分析ツール(FEAT)の10セッションを通じて、貿易品質を評価した。 我々のシステムは高品質取引の76.9%から始まり、高品質取引の97.3%で2021年シーズンに展開した。 取引量を増やすために、量子、古典、ルールベースのコンピューティングは、100%取引のユニークさを持っています。 私たちはqiskitの量子シミュレータを作業中に使用しています。

Even skilled fantasy football managers can be disappointed by their mid-season rosters as some players inevitably fall short of draft day expectations. Team managers can quickly discover that their team has a low score ceiling even if they start their best active players. A novel and diverse combinatorial optimization system proposes high volume and unique player trades between complementary teams to balance trade fairness. Several algorithms create the valuation of each fantasy football player with an ensemble of computing models: Quantum Support Vector Classifier with Permutation Importance (QSVC-PI), Quantum Support Vector Classifier with Accumulated Local Effects (QSVC-ALE), Variational Quantum Circuit with Permutation Importance (VQC-PI), Hybrid Quantum Neural Network with Permutation Importance (HQNN-PI), eXtreme Gradient Boosting Classifier (XGB), and Subject Matter Expert (SME) rules. The valuation of each player is personalized based on league rules, roster, and selections. The cost of trading away a player is related to a team's roster, such as the depth at a position, slot count, and position importance. Teams are paired together for trading based on a cosine dissimilarity score so that teams can offset their strengths and weaknesses. A knapsack 0-1 algorithm computes outgoing players for each team. Postprocessors apply analytics and deep learning models to measure 6 different objective measures about each trade. Over the 2020 and 2021 National Football League (NFL) seasons, a group of 24 experts from IBM and ESPN evaluated trade quality through 10 Football Error Analysis Tool (FEAT) sessions. Our system started with 76.9% of high-quality trades and was deployed for the 2021 season with 97.3% of high-quality trades. To increase trade quantity, our quantum, classical, and rules-based computing have 100% trade uniqueness. We use Qiskit's quantum simulators throughout our work.
翻訳日:2021-11-08 12:57:07 公開日:2021-11-05
# (参考訳) 薬局側効果, 組合せシナジー, 薬物と薬物の相互作用予測のための関係深層学習の統一的視点 [全文訳有]

A Unified View of Relational Deep Learning for Polypharmacy Side Effect, Combination Synergy, and Drug-Drug Interaction Prediction ( http://arxiv.org/abs/2111.02916v2 )

ライセンス: CC BY 4.0
Benedek Rozemberczki and Stephen Bonner and Andriy Nikolov and Michael Ughetto and Sebastian Nilsson and Eliseo Papa(参考訳) 近年,多薬品副作用の同定,薬物・薬物相互作用予測,併用療法設計の課題を解決しようとする機械学習モデルが数多く提案されている。 本稿では,これらの課題に対処可能な関係機械学習モデルの統一的理論的考察を示す。 基本的な定義を提供し、既存のモデルアーキテクチャを比較し、パフォーマンスメトリクス、データセット、評価プロトコルについて議論します。 さらに,本領域における可能性の高いアプリケーションと今後の重要な研究方向性を強調した。

In recent years, numerous machine learning models which attempt to solve polypharmacy side effect identification, drug-drug interaction prediction and combination therapy design tasks have been proposed. Here, we present a unified theoretical view of relational machine learning models which can address these tasks. We provide fundamental definitions, compare existing model architectures and discuss performance metrics, datasets and evaluation protocols. In addition, we emphasize possible high impact applications and important future research directions in this domain.
翻訳日:2021-11-08 12:40:32 公開日:2021-11-05
# 摂動と最大積:離散エネルギーモデルにおけるサンプリングと学習

Perturb-and-max-prod uct: Sampling and learning in discrete energy-based models ( http://arxiv.org/abs/2111.02458v2 )

ライセンス: Link先を確認
Miguel Lazaro-Gredilla, Antoine Dedieu, Dileep George(参考訳) Perturb-and-MAPは、摂動バージョンのMAP構成を計算し、エネルギーベースモデル(EBM)からおよそサンプルを抽出するエレガントなアプローチを提供する。 サンプリングは学習を可能にする。 しかし、この研究はMAP計算の一般的な難易度によって妨げられている。 トラクタブルなモデル外で動作する作業はほとんどなく、それらが実行された場合、線形プログラミングアプローチを使用します。 本稿では,個別のebmにおけるサンプリングと学習のための並列かつスケーラブルなメカニズムであるperturb-and-max-prod uct (pmp)を提案する。 モデルは、抽出可能な要素を使って構築される限り任意のものとなる。 私たちはそれを示します (a) iting モデルの場合、pmp は、gibbs や gibbs-with-gradients (gwg) を学習し、類似又は良好な品質のサンプルを生成する場合において、桁違いに速い。 b)PMPは、RBMから学習し、サンプリングすることができる。 (c) GibbsとGWGが混在しない大きな絡み合ったグラフィカルモデルでは、PMPは成功する。

Perturb-and-MAP offers an elegant approach to approximately sample from a energy-based model (EBM) by computing the maximum-a-posteriori (MAP) configuration of a perturbed version of the model. Sampling in turn enables learning. However, this line of research has been hindered by the general intractability of the MAP computation. Very few works venture outside tractable models, and when they do, they use linear programming approaches, which as we will show, have several limitations. In this work we present perturb-and-max-prod uct (PMP), a parallel and scalable mechanism for sampling and learning in discrete EBMs. Models can be arbitrary as long as they are built using tractable factors. We show that (a) for Ising models, PMP is orders of magnitude faster than Gibbs and Gibbs-with-Gradients (GWG) at learning and generating samples of similar or better quality; (b) PMP is able to learn and sample from RBMs; (c) in a large, entangled graphical model in which Gibbs and GWG fail to mix, PMP succeeds.
翻訳日:2021-11-08 12:20:41 公開日:2021-11-05
# ネットワークを想像し

Imagine Networks ( http://arxiv.org/abs/2111.03048v2 )

ライセンス: Link先を確認
Seokjun Kim, Jaeeun Jang, Hyeoncheol Kim(参考訳) 本稿では,グラフツリーニューラルネットワークを用いて自己をシミュレートできるImagine Networkを提案する。 グラフツリーニューラルネットワークモデルのうち、関連性、推論、メモリネットワークが学習され、識別器と強化学習モデルを組み合わせてネットワークが生成される。 このモデルは、環境で生成されたさまざまなデータセットやデータサンプルを学習し、新しいデータサンプルを生成することができる。

In this paper, we introduce an Imagine Network that can simulate itself through graph tree neural networks. Among the graph tree neural networks models, association, deduction, and memory networks are learned, and a network is created by combining the discriminator and reinforcement learning models. This model can learn various datasets or data samples generated in environments and generate new data samples.
翻訳日:2021-11-08 12:20:18 公開日:2021-11-05
# lvisチャレンジトラック技術報告 第1回:大語彙インスタンスセグメンテーションにおける分散バランスと境界細分化

LVIS Challenge Track Technical Report 1st Place Solution: Distribution Balanced and Boundary Refinement for Large Vocabulary Instance Segmentation ( http://arxiv.org/abs/2111.02668v2 )

ライセンス: Link先を確認
WeiFu Fu, CongChong Nie, Ting Sun, Jun Liu, TianLiang Zhang, Yong Liu(参考訳) 本報告では,LVIS Challenge 2021のFuXi-Fresherチームの技術的詳細を紹介する。 本手法では, 長テール分布とマスクと境界のセグメンテーション品質という2つの側面に着目した。 先進的なHTCインスタンスセグメンテーションアルゴリズムに基づいて、CBNetv2にインスパイアされた複合接続を介してトランスフォーマーバックボーン(Swin-L)を接続し、ベースライン結果を強化する。 ロングテール分布の問題を緩和するため,データセットバランスと損失関数バラックモジュールを含む分散バランス手法を設計した。 さらに,マスクスコアリングアルゴリズムと精細マスクアルゴリズムを組み合わせたMask and Boundary Refinement法を用いて,セグメンテーションの品質を向上する。 また,早期停止法とEMA法を併用することで,大幅な改善が期待できる。 最後に,LVISチャレンジ2021のvalセットにおいて,マルチスケールテストと画像毎の検出対象数上限の増大により,45.4%以上の境界APを達成した。 LVIS Challenge 2021のテストデータでは、第1位、第48.1%のAPを達成した。 APr 47.5%はAPf 48.0%に非常に閉じている。

This report introduces the technical details of the team FuXi-Fresher for LVIS Challenge 2021. Our method focuses on the problem in following two aspects: the long-tail distribution and the segmentation quality of mask and boundary. Based on the advanced HTC instance segmentation algorithm, we connect transformer backbone(Swin-L) through composite connections inspired by CBNetv2 to enhance the baseline results. To alleviate the problem of long-tail distribution, we design a Distribution Balanced method which includes dataset balanced and loss function balaced modules. Further, we use a Mask and Boundary Refinement method composed with mask scoring and refine-mask algorithms to improve the segmentation quality. In addition, we are pleasantly surprised to find that early stopping combined with EMA method can achieve a great improvement. Finally, by using multi-scale testing and increasing the upper limit of the number of objects detected per image, we achieved more than 45.4% boundary AP on the val set of LVIS Challenge 2021. On the test data of LVIS Challenge 2021, we rank 1st and achieve 48.1% AP. Notably, our APr 47.5% is very closed to the APf 48.0%.
翻訳日:2021-11-08 12:20:12 公開日:2021-11-05