このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210715となっている論文です。

PDF登録状況(公開日: 20210715)

TitleAuthorsAbstract論文公表日・翻訳日
# 大型Alphabetによるマルチセット圧縮

Compressing Multisets with Large Alphabets ( http://arxiv.org/abs/2107.09202v1 )

ライセンス: Link先を確認
Daniel Severo, James Townsend, Ashish Khisti, Alireza Makhzani, Karen Ullrich(参考訳) マルチセットを最適に圧縮する現在の方法は、計算時間はアルファベットサイズと線形にスケールするため、高次元シンボルには適していない。 市販のコーデックで順序列としてマルチセットを圧縮するのは計算効率が良いが、シンボル間の順序を符号化するビットが無駄になるため、準最適圧縮速度を持つ。 シンボルを i.i.d. と仮定して、平均時間複雑性で $\mathcal{o}(|\mathcal{m}|\log m)$ のコストで、$|\mathcal{m}|$ と $m$ を多重集合内の記号の総数と一意な数とする。 本手法はプレフィックスフリーコードと互換性がある。 実験により,効率的なコーダと組み合わせることで,画像の多重セットやJSONファイルのコレクションなどの高次元ソースを効率よく圧縮できることがわかった。

Current methods that optimally compress multisets are not suitable for high-dimensional symbols, as their compute time scales linearly with alphabet size. Compressing a multiset as an ordered sequence with off-the-shelf codecs is computationally more efficient, but has a sub-optimal compression rate, as bits are wasted encoding the order between symbols. We present a method that can recover those bits, assuming symbols are i.i.d., at the cost of an additional $\mathcal{O}(|\mathcal{M}|\log M)$ in average time complexity, where $|\mathcal{M}|$ and $M$ are the total and unique number of symbols in the multiset. Our method is compatible with any prefix-free code. Experiments show that, when paired with efficient coders, our method can efficiently compress high-dimensional sources such as multisets of images and collections of JSON files.
翻訳日:2021-07-25 11:58:06 公開日:2021-07-15
# (参考訳) DSVDD前の逆自動エンコーダを用いたウェーハマップの一クラス分類 [全文訳有]

One-Class Classification for Wafer Map using Adversarial Autoencoder with DSVDD Prior ( http://arxiv.org/abs/2107.08823v1 )

ライセンス: CC BY 4.0
Ha Young Jo, Seong-Whan Lee(参考訳) 近年、半導体の需要は、仮想現実、スマートフォン、ウェアラブルデバイス、物のインターネット、ロボティクス、自動車などで爆発的に増えている。 半導体メーカーは高収率の半導体を作りたがっている。 そのため、メーカーは多くの品質保証活動を行っている。 ウェーハマップパターンの分類は品質保証の典型的な方法である。 ウェハマップの欠陥パターンは、どのプロセスに問題があるかを教えてくれます。 既存のウェハマップ分類法の多くは教師付き手法に基づいている。 教師付き手法は高い性能を持つ傾向にあるが、バランスの取れた分布を念頭に置いたラベル付きデータセットを作成するには、広範な労働力と専門家の知識が必要である。 半導体製造プロセスでは, 平衡分布を持つ欠陥データを得るのが困難である。 本稿では,DSVDDのハイパースフィア内における乱ベクトルを生成するDep Support Vector Data Description (DSVDD) を先行した Adversarial Autoencoder (AAE) を用いた一クラス分類法を提案する。 We use the WM-811k dataset, which are a real-world wafer map。 我々のモデルのf1スコア性能をdsvddとaaeと比較した。

Recently, semiconductors' demand has exploded in virtual reality, smartphones, wearable devices, the internet of things, robotics, and automobiles. Semiconductor manufacturers want to make semiconductors with high yields. To do this, manufacturers conduct many quality assurance activities. Wafer map pattern classification is a typical way of quality assurance. The defect pattern on the wafer map can tell us which process has a problem. Most of the existing wafer map classification methods are based on supervised methods. The supervised methods tend to have high performance, but they require extensive labor and expert knowledge to produce labeled datasets with a balanced distribution in mind. In the semiconductor manufacturing process, it is challenging to get defect data with balanced distribution. In this paper, we propose a one-class classification method using an Adversarial Autoencoder (AAE) with Deep Support Vector Data Description (DSVDD) prior, which generates random vectors within the hypersphere of DSVDD. We use the WM-811k dataset, which consists of a real-world wafer map. We compare the F1 score performance of our model with DSVDD and AAE.
翻訳日:2021-07-21 14:24:23 公開日:2021-07-15
# 教育のための強化学習 : 機会と課題

Reinforcement Learning for Education: Opportunities and Challenges ( http://arxiv.org/abs/2107.08828v1 )

ライセンス: Link先を確認
Adish Singla, Anna N. Rafferty, Goran Radanovic, Neil T. Heffernan(参考訳) この調査記事は、教育データマイニング(EDM)2021カンファレンスで著者らが主催したRL4EDワークショップから生まれたものだ。 我々はこのワークショップを,強化学習(RL)と教育(ED)の幅広い分野に関心を持つ研究者や実践者を集結させるために,コミュニティ構築活動の一環として組織した。 本稿では,ワークショップ活動の概要と,rl for edの分野における主な研究方向について概説する。

This survey article has grown out of the RL4ED workshop organized by the authors at the Educational Data Mining (EDM) 2021 conference. We organized this workshop as part of a community-building effort to bring together researchers and practitioners interested in the broad areas of reinforcement learning (RL) and education (ED). This article aims to provide an overview of the workshop activities and summarize the main research directions in the area of RL for ED.
翻訳日:2021-07-20 15:14:56 公開日:2021-07-15
# (参考訳) odoviz:3次元オドメトリの可視化と処理ツール [全文訳有]

OdoViz: A 3D Odometry Visualization and Processing Tool ( http://arxiv.org/abs/2107.07557v1 )

ライセンス: CC BY 4.0
Saravanabalagi Ramachandran and John McDonald(参考訳) odovizは、視覚位置認識研究で一般的なタスクをサポートするように設計された自動運転車データセットの3d可視化と処理を行う、リアクティブなwebベースのツールである。 システムは、GPS/INSのポーズ、ポイントクラウド、カメライメージのロード、検査、可視化、処理の機能を提供する。 一般的に使用される多くの駆動データセットをサポートし、最小限の労力でカスタムデータセットをロードすることができる。 OdoVizの設計は、リッチクライアントフロントエンドと組み合わせてデータセットを提供するスリムサーバで構成されている。 この設計では、単一のユーザによるスタンドアロンインストール、社内でデータセットを提供するリサーチグループインストレーション、あるいはデータセットの探索と対話のためのオンラインインターフェースを提供するパブリックアクセスのwebフロントエンドを含む、複数のデプロイメント構成をサポートする。 このツールは、複数の異なる時間帯で同時に横断する完全な車両軌跡を見ることができるので、サブサンプリング、比較、シーケンス内におけるポーズ対応の検索などのタスクが容易になる。 これにより、機械学習タスク用の既存のデータセットからデータサブセットを作成するのに必要な労力が大幅に削減される。 さらに、このシステムは、他の潜在的なデータ管理、可視化、処理タスクのために、ソフトウェアの機能を拡張するカスタム拡張とプラグインの追加もサポートする。 このプラットフォームは、その利用を促進し、研究コミュニティからのさらなる貢献を促進するためにオープンソース化されている。

OdoViz is a reactive web-based tool for 3D visualization and processing of autonomous vehicle datasets designed to support common tasks in visual place recognition research. The system includes functionality for loading, inspecting, visualizing, and processing GPS/INS poses, point clouds and camera images. It supports a number of commonly used driving datasets and can be adapted to load custom datasets with minimal effort. OdoViz's design consists of a slim server to serve the datasets coupled with a rich client frontend. This design supports multiple deployment configurations including single user stand-alone installations, research group installations serving datasets internally across a lab, or publicly accessible web-frontends for providing online interfaces for exploring and interacting with datasets. The tool allows viewing complete vehicle trajectories traversed at multiple different time periods simultaneously, facilitating tasks such as sub-sampling, comparing and finding pose correspondences both across and within sequences. This significantly reduces the effort required in creating subsets of data from existing datasets for machine learning tasks. Further to the above, the system also supports adding custom extensions and plugins to extend the capabilities of the software for other potential data management, visualization and processing tasks. The platform has been open-sourced to promote its use and encourage further contributions from the research community.
翻訳日:2021-07-20 00:55:03 公開日:2021-07-15
# (参考訳) リモート従業員追跡のためのリアルタイム顔認識システム [全文訳有]

Real-Time Face Recognition System for Remote Employee Tracking ( http://arxiv.org/abs/2107.07576v1 )

ライセンス: CC0 1.0
Mohammad Sabik Irbaz, MD Abdullah Al Nasim, Refat E Ferdous(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、人間と人間の相互作用のほとんどは停止された。 新型コロナウイルスの感染拡大を緩和するため、従業員が在宅勤務できるように多くの事務所が主導した。 しかし、従業員を追跡して、彼らが本当にやるべきことを実行しているかどうかを知ることは、"Work From Home"を促進するすべての企業や組織にとって深刻な課題です。 この課題を効果的に対処するために、私たちは、顔認識で従業員を追跡するソリューションを考え出した。 私たちはこのシステムをオフィスで実験的にテストしています。 顔認識モジュールのトレーニングには、Llabeled Faces in the Wild (LFW)データセットを使用して、KNNでFaceNetを使用し、97.8%の精度を達成した。 トレーニングされたモデルを中央システムに統合し、従業員が時間をログしたのです。 本稿では,これまで実験してきたシステムと,システムの長所と短所について簡潔に述べる。

During the COVID-19 pandemic, most of the human-to-human interactions have been stopped. To mitigate the spread of deadly coronavirus, many offices took the initiative so that the employees can work from home. But, tracking the employees and finding out if they are really performing what they were supposed to turn out to be a serious challenge for all the companies and organizations who are facilitating "Work From Home". To deal with the challenge effectively, we came up with a solution to track the employees with face recognition. We have been testing this system experimentally for our office. To train the face recognition module, we used FaceNet with KNN using the Labeled Faces in the Wild (LFW) dataset and achieved 97.8% accuracy. We integrated the trained model into our central system, where the employees log their time. In this paper, we discuss in brief the system we have been experimenting with and the pros and cons of the system.
翻訳日:2021-07-20 00:40:46 公開日:2021-07-15
# (参考訳) CNN-LSTMを用いたリアルタイムビオレンス検出 [全文訳有]

Real-Time Violence Detection Using CNN-LSTM ( http://arxiv.org/abs/2107.07578v1 )

ライセンス: CC BY 4.0
Mann Patel(参考訳) しかし、過去40年間に暴力率が約57%低下してきたが、暴力のデモが実際に起きているやり方は、法律で見ても変わっていない。 暴力は時として高官によって大量管理されることがあるが、全てのものを列に収めるためには、各広場のすべての道路で発生している動きに対して「マイクロゲイン」が必要である。 そこで本研究では, 深層学習を応用したバタフライ効果に対処するために, 独自のモデルと理論システムを構築した。 モデルはCCTVビデオフィードの入力を受け取り、推論を引いた後、暴力的な動きが起きているかどうかを認識する。 そして仮説的なアーキテクチャは、ビデオフィードの確率駆動計算を目標とし、cctvビデオフィード毎のナイーブな計算からオーバーヘッドを削減する。

Violence rates however have been brought down about 57% during the span of the past 4 decades yet it doesn't change the way that the demonstration of violence actually happens, unseen by the law. Violence can be mass controlled sometimes by higher authorities, however, to hold everything in line one must "Microgovern" over each movement occurring in every road of each square. To address the butterfly effects impact in our setting, I made a unique model and a theorized system to handle the issue utilizing deep learning. The model takes the input of the CCTV video feeds and after drawing inference, recognizes if a violent movement is going on. And hypothesized architecture aims towards probability-driven computation of video feeds and reduces overhead from naively computing for every CCTV video feeds.
翻訳日:2021-07-20 00:36:34 公開日:2021-07-15
# (参考訳) 高次元データの可視化とクラスタリングを容易にするloCal Subspaces(ASTRICS)におけるAlpha Shape triangulationによるクラスタ間類似度の測定

Measuring inter-cluster similarities with Alpha Shape TRIangulation in loCal Subspaces (ASTRICS) facilitates visualization and clustering of high-dimensional data ( http://arxiv.org/abs/2107.07603v1 )

ライセンス: CC BY 4.0
Joshua M. Scurll(参考訳) 高次元(HD)データのクラスタリングと可視化は、様々な分野において重要なタスクである。 例えば、バイオインフォマティクスでは、質量サイトメトリー(CyTOF)データのような単細胞データの解析に重要である。 hdデータをクラスタリングするための最も効果的なアルゴリズムは、グラフ内のノードによるデータ表現に基づいており、エッジは類似度や距離の尺度に従って隣接ノードを接続している。 しかし、グラフベースのアルゴリズムのユーザは一般的に、グラフ内の近傍のサイズを設定する入力パラメータの値を選択するという、批判的だが難しい課題に直面している。 ノードを接続するための各ノードまたは閾値距離を接続する最も近い隣人の数。 ユーザに対する負担は、ユーザ定義パラメータやしきい値を必要としない、異種ノードの値0を持つノード間の類似度の測定によって軽減される可能性がある。 これは、スパースグラフを産み出しながら自動的に近隣を判断する。 そこで本研究では, 局所次元減少と臨界アルファ形状の三角測量に基づくHDデータポイントのクラスタ間類似度を測定するASTRICSという手法を提案する。 ステージ1 = 任意の方法でデータの初期クラスタリングを実行し、ステージ2 = 個々のデータポイントの代わりにグラフノードを初期クラスタとして表現し、ノード間のエッジを自動的に定義するためにastricsを使用します。 これは、データを見るための解決法を本質的に選択するより簡単なタスクのために、グラフ近傍のサイズを選択するという重要なタスクを交換する。 グラフとダウンストリームのクラスタリングと視覚化は、選択した解像度に自動的に適応される。

Clustering and visualizing high-dimensional (HD) data are important tasks in a variety of fields. For example, in bioinformatics, they are crucial for analyses of single-cell data such as mass cytometry (CyTOF) data. Some of the most effective algorithms for clustering HD data are based on representing the data by nodes in a graph, with edges connecting neighbouring nodes according to some measure of similarity or distance. However, users of graph-based algorithms are typically faced with the critical but challenging task of choosing the value of an input parameter that sets the size of neighbourhoods in the graph, e.g. the number of nearest neighbours to which to connect each node or a threshold distance for connecting nodes. The burden on the user could be alleviated by a measure of inter-node similarity that can have value 0 for dissimilar nodes without requiring any user-defined parameters or thresholds. This would determine the neighbourhoods automatically while still yielding a sparse graph. To this end, I propose a new method called ASTRICS to measure similarity between clusters of HD data points based on local dimensionality reduction and triangulation of critical alpha shapes. I show that my ASTRICS similarity measure can facilitate both clustering and visualization of HD data by using it in Stage 2 of a three-stage pipeline: Stage 1 = perform an initial clustering of the data by any method; Stage 2 = let graph nodes represent initial clusters instead of individual data points and use ASTRICS to automatically define edges between nodes; Stage 3 = use the graph for further clustering and visualization. This trades the critical task of choosing a graph neighbourhood size for the easier task of essentially choosing a resolution at which to view the data. The graph and consequently downstream clustering and visualization are then automatically adapted to the chosen resolution.
翻訳日:2021-07-20 00:29:52 公開日:2021-07-15
# (参考訳) ロバスト事前学習モデルに対する逆摂動を用いた自己教師付きコントラスト学習 [全文訳有]

Self-Supervised Contrastive Learning with Adversarial Perturbations for Robust Pretrained Language Models ( http://arxiv.org/abs/2107.07610v1 )

ライセンス: CC BY 4.0
Zhao Meng, Yihan Dong, Mrinmaya Sachan, Roger Wattenhofer(参考訳) 本稿では,単語置換に基づく対人攻撃に対する事前学習型言語モデルBERTの頑健性を改善する。 本手法の利点の一つは,ラベルを使わずにモデルのロバスト性を向上させることができる点である。 また,BERTにおける単語レベルの対人訓練のための対人攻撃も作成する。 この攻撃は効率が良く、訓練中にハエで発生した敵の例に対するBERTの敵の訓練を可能にする。 4つのデータセットを用いた実験の結果,4つの異なる単語置換に基づく敵攻撃に対するbertのロバスト性が向上した。 さらに,本手法が敵攻撃に対するモデルロバスト性を向上できる理由を理解するため,本手法の適用前後におけるクリーンサンプルのベクトル表現とその対応する逆例について検討した。 ラベルなしの生データでモデルのロバスト性を改善するため,大規模なテキストデータセットを使用してロバストな言語モデルをトレーニングする可能性を開く。

This paper improves the robustness of the pretrained language model BERT against word substitution-based adversarial attacks by leveraging self-supervised contrastive learning with adversarial perturbations. One advantage of our method compared to previous works is that it is capable of improving model robustness without using any labels. Additionally, we also create an adversarial attack for word-level adversarial training on BERT. The attack is efficient, allowing adversarial training for BERT on adversarial examples generated on the fly during training. Experimental results on four datasets show that our method improves the robustness of BERT against four different word substitution-based adversarial attacks. Furthermore, to understand why our method can improve the model robustness against adversarial attacks, we study vector representations of clean examples and their corresponding adversarial examples before and after applying our method. As our method improves model robustness with unlabeled raw data, it opens up the possibility of using large text datasets to train robust language models.
翻訳日:2021-07-20 00:28:42 公開日:2021-07-15
# (参考訳) ショウジョウバエからの連続学習に関するアルゴリズム的洞察 [全文訳有]

Algorithmic insights on continual learning from fruit flies ( http://arxiv.org/abs/2107.07617v1 )

ライセンス: CC BY 4.0
Yang Shen, Sanjoy Dasgupta, Saket Navlakha(参考訳) コンピュータシステムの継続的な学習は、破滅的な忘れ物のために困難である。 我々は,この課題に対処するために,スパースコーディングと連想学習を一意に組み合わせた2層ニューラルネットワークをフルーツフライ嗅覚システムで発見した。 第1層では、匂いはスパースで高次元の表現で符号化され、異なる匂いのためにニューロンの重複しない集団を活性化することで記憶の干渉を減少させる。 第2の層では、嗅覚活性化ニューロンと匂いに関連する出力ニューロンとの間のシナプスのみが学習中に変化し、残りの重みは凍結され、無関係な記憶が過書きされるのを防ぐ。 この単純で軽量なアルゴリズムは継続学習性能を大幅に向上させることを示す。 ハエ連想学習アルゴリズムは従来のパーセプトロン学習アルゴリズムと非常によく似ているが、2つの修正がある。 全体として、フルーツハエは効率的な生涯学習アルゴリズムを進化させ、神経科学からの回路機構を翻訳して機械計算を改善することができる。

Continual learning in computational systems is challenging due to catastrophic forgetting. We discovered a two layer neural circuit in the fruit fly olfactory system that addresses this challenge by uniquely combining sparse coding and associative learning. In the first layer, odors are encoded using sparse, high dimensional representations, which reduces memory interference by activating non overlapping populations of neurons for different odors. In the second layer, only the synapses between odor activated neurons and the output neuron associated with the odor are modified during learning; the rest of the weights are frozen to prevent unrelated memories from being overwritten. We show empirically and analytically that this simple and lightweight algorithm significantly boosts continual learning performance. The fly associative learning algorithm is strikingly similar to the classic perceptron learning algorithm, albeit two modifications, which we show are critical for reducing catastrophic forgetting. Overall, fruit flies evolved an efficient lifelong learning algorithm, and circuit mechanisms from neuroscience can be translated to improve machine computation.
翻訳日:2021-07-20 00:13:34 公開日:2021-07-15
# インターネットによる対話生成

Internet-Augmented Dialogue Generation ( http://arxiv.org/abs/2107.07566v1 )

ライセンス: Link先を確認
Mojtaba Komeili, Kurt Shuster, Jason Weston(参考訳) 地球上の知識を継続的に更新する最大のストアは、インターネット検索を通じてアクセスすることができる。 本研究では,この情報を対話エージェントに提供することを研究する。 大きな言語モデルは、その重みの中に驚くべき量の知識を格納しているにもかかわらず、対話を生成する際に事実を暗示することが知られている(shuster et al., 2021)。 対照的に,コンテクストに基づいてインターネット検索クエリを生成し,その結果の条件を学習し,最終的に応答を生成する手法を提案する。 我々は、新たに収集された人間と人間の会話のデータセットに基づいて、これらのモデルをトレーニングし、評価する。 検索クエリによる会話によるインターネットのアクセスは、拡張やFAISSベースの検索を使わない既存のアプローチに比べて優れたパフォーマンスが得られる(Lewis et al., 2020)。

The largest store of continually updating knowledge on our planet can be accessed via internet search. In this work we study giving access to this information to conversational agents. Large language models, even though they store an impressive amount of knowledge within their weights, are known to hallucinate facts when generating dialogue (Shuster et al., 2021); moreover, those facts are frozen in time at the point of model training. In contrast, we propose an approach that learns to generate an internet search query based on the context, and then conditions on the search results to finally generate a response, a method that can employ up-to-the-minute relevant information. We train and evaluate such models on a newly collected dataset of human-human conversations whereby one of the speakers is given access to internet search during knowledgedriven discussions in order to ground their responses. We find that search-query based access of the internet in conversation provides superior performance compared to existing approaches that either use no augmentation or FAISS-based retrieval (Lewis et al., 2020).
翻訳日:2021-07-19 14:50:06 公開日:2021-07-15
# goldfishのメモリを超えて:長期にわたるオープンドメイン会話

Beyond Goldfish Memory: Long-Term Open-Domain Conversation ( http://arxiv.org/abs/2107.07567v1 )

ライセンス: Link先を確認
Jing Xu, Arthur Szlam, Jason Weston(参考訳) 近年のオープンドメインダイアログモデルの改善にもかかわらず、アートモデルの状態はトレーニングされ、文脈がほとんどない短い会話で評価される。 対照的に、長期的な会話設定はほとんど研究されていない。 この作業では、複数のチャットセッションからなる人間と人間のデータセットを収集、リリースし、話し合うパートナーが互いの関心について学び、過去のセッションから学んだことを議論する。 既存のデータセットでトレーニングされた既存のモデルは、この長期的な会話設定において、自動評価と人的評価の両方において、どのようにうまく機能するかを示す。 特に,現在最先端にある標準エンコーダ・デコーダアーキテクチャよりも,これまでの会話を要約し,想起することができる検索型手法や手法を見出した。

Despite recent improvements in open-domain dialogue models, state of the art models are trained and evaluated on short conversations with little context. In contrast, the long-term conversation setting has hardly been studied. In this work we collect and release a human-human dataset consisting of multiple chat sessions whereby the speaking partners learn about each other's interests and discuss the things they have learnt from past sessions. We show how existing models trained on existing datasets perform poorly in this long-term conversation setting in both automatic and human evaluations, and we study long-context models that can perform much better. In particular, we find retrieval-augmented methods and methods with an ability to summarize and recall previous conversations outperform the standard encoder-decoder architectures currently considered state of the art.
翻訳日:2021-07-19 14:49:50 公開日:2021-07-15
# 機械読解によるタスク要求自動書込み評価

Automatic Task Requirements Writing Evaluation via Machine Reading Comprehension ( http://arxiv.org/abs/2107.07957v1 )

ライセンス: Link先を確認
Shiting Xu, Guowei Xu, Peilei Jia, Wenbiao Ding, Zhongqin Wu, Zitao Liu(参考訳) タスク要件(trs)記述は、キー英語テストと予備英語テストにおいて重要な質問タイプである。 tr書き込み質問には複数の要件が含まれ、高品質なエッセイは各要件に徹底的かつ正確に対応しなければならない。 しかし、教師のリソースが限られているため、生徒はすぐに詳細な評価を受けることができない。 既存の自動エッセイスコアシステムの大半は、総合的なスコアを与えることに重点を置いているが、それをサポートする理由がほとんどない。 本稿では,機械読解(MRC)に基づくエンドツーエンドのフレームワークを提案し,この問題にある程度対処する。 このフレームワークは、エッセイが要求された質問に応答するかどうかを検知するだけでなく、エッセイが質問に答える場所を明確にマークする。 本フレームワークは,質問正規化モジュール,ELECTRAベースのMRCモジュール,応答位置決めモジュールの3つのモジュールから構成される。 我々は最先端のMRC手法を幅広く検討する。 本手法は実世界の教育データセットで0.93の精度と0.85のF1のスコアを得る。 再現可能な結果を促進するため、コード公開は \url{https://github.com/a ied2021TRMRC/AIED_20 21_TRMRC_code} で行う。

Task requirements (TRs) writing is an important question type in Key English Test and Preliminary English Test. A TR writing question may include multiple requirements and a high-quality essay must respond to each requirement thoroughly and accurately. However, the limited teacher resources prevent students from getting detailed grading instantly. The majority of existing automatic essay scoring systems focus on giving a holistic score but rarely provide reasons to support it. In this paper, we proposed an end-to-end framework based on machine reading comprehension (MRC) to address this problem to some extent. The framework not only detects whether an essay responds to a requirement question, but clearly marks where the essay answers the question. Our framework consists of three modules: question normalization module, ELECTRA based MRC module and response locating module. We extensively explore state-of-the-art MRC methods. Our approach achieves 0.93 accuracy score and 0.85 F1 score on a real-world educational dataset. To encourage reproducible results, we make our code publicly available at \url{https://github.com/a ied2021TRMRC/AIED_20 21_TRMRC_code}.
翻訳日:2021-07-19 14:49:12 公開日:2021-07-15
# クラウドソースラベルを用いた時間認識言語表現学習

Temporal-aware Language Representation Learning From Crowdsourced Labels ( http://arxiv.org/abs/2107.07958v1 )

ライセンス: Link先を確認
Yang Hao, Xiao Zhai, Wenbiao Ding, Zitao Liu(参考訳) クラウドソースラベルから効果的な言語表現を学ぶことは、多くの現実世界の機械学習タスクにとって不可欠である。 この問題の難しい側面は、クラウドソースされたラベルの品質がサーバ内およびサーバ間の変動性が高いことである。 高容量のディープニューラルネットワークは、クラウドソースラベル間の不一致を簡単に記憶することができるため、既存の教師付き言語表現学習アルゴリズムを直接適用すれば、準最適解が得られる。 本稿では, 'emph{TACMA}, a \underline{t}emporal-\underline{a}ware language representation learning heuristic for \underline{c}rowdsourced labels with \underline{m}ultiple \underline{a}nnotatorsを提案する。 提案手法は,(1)アテンション機構によるサーバ内変動を明示的にモデル化し,(2)複数のワーカからのサンプルごとの信頼度スコアを計算・集計し,サーバ間不一致に対処する。 提案されたヒューリスティックは、およそ5行のコードで実装するのが非常に簡単である。 提案するヒューリスティックは4つの合成データと4つの実世界のデータセットで評価される。 その結果,本手法は予測精度とAUCにおいて,幅広い最先端のベースラインよりも優れていた。 再現可能な結果を促進するため、コード公開は \url{https://github.com/C rowdsourcingMining/T ACMA} で行います。

Learning effective language representations from crowdsourced labels is crucial for many real-world machine learning tasks. A challenging aspect of this problem is that the quality of crowdsourced labels suffer high intra- and inter-observer variability. Since the high-capacity deep neural networks can easily memorize all disagreements among crowdsourced labels, directly applying existing supervised language representation learning algorithms may yield suboptimal solutions. In this paper, we propose \emph{TACMA}, a \underline{t}emporal-\underline{a}ware language representation learning heuristic for \underline{c}rowdsourced labels with \underline{m}ultiple \underline{a}nnotators. The proposed approach (1) explicitly models the intra-observer variability with attention mechanism; (2) computes and aggregates per-sample confidence scores from multiple workers to address the inter-observer disagreements. The proposed heuristic is extremely easy to implement in around 5 lines of code. The proposed heuristic is evaluated on four synthetic and four real-world data sets. The results show that our approach outperforms a wide range of state-of-the-art baselines in terms of prediction accuracy and AUC. To encourage the reproducible results, we make our code publicly available at \url{https://github.com/C rowdsourcingMining/T ACMA}.
翻訳日:2021-07-19 14:48:55 公開日:2021-07-15
# 不確実性推定のための逆攻撃:ニューラルネットワークにおける臨界領域の同定

Adversarial Attack for Uncertainty Estimation: Identifying Critical Regions in Neural Networks ( http://arxiv.org/abs/2107.07618v1 )

ライセンス: Link先を確認
Ismail Alarab, Simant Prakoonwit(参考訳) 本稿では,ニューラルネットワークにおける決定境界付近のデータポイントをキャプチャする手法を提案する。 そこで本研究では,敵攻撃法に基づく不確実性推定手法を提案する。 本稿では,ベイズ法のようにモデルのパラメータに対する摂動を提供する従来の研究と異なり,入力摂動から不確実性推定を導出する。 入力に対するいくつかの摂動で不確実性を生み出すことができます。 興味深いことに,提案手法をブロックチェーン由来のデータセットに適用する。 モデル不確実性の性能を最新の不確実性手法と比較する。 提案手法は,他の手法に比べて大きな性能低下を示し,機械学習におけるモデルの不確かさを捉えるリスクを低減した。

We propose a novel method to capture data points near decision boundary in neural network that are often referred to a specific type of uncertainty. In our approach, we sought to perform uncertainty estimation based on the idea of adversarial attack method. In this paper, uncertainty estimates are derived from the input perturbations, unlike previous studies that provide perturbations on the model's parameters as in Bayesian approach. We are able to produce uncertainty with couple of perturbations on the inputs. Interestingly, we apply the proposed method to datasets derived from blockchain. We compare the performance of model uncertainty with the most recent uncertainty methods. We show that the proposed method has revealed a significant outperformance over other methods and provided less risk to capture model uncertainty in machine learning.
翻訳日:2021-07-19 14:48:00 公開日:2021-07-15
# 直交回帰ネットワークを用いた単眼画像とスパースレーダからの深さ推定

Depth Estimation from Monocular Images and Sparse radar using Deep Ordinal Regression Network ( http://arxiv.org/abs/2107.07596v1 )

ライセンス: Link先を確認
Chen-Chou Lo and Patrick Vandewalle(参考訳) 我々は, スパースレーダデータを単眼深度推定モデルに統合し, レーダによって提供されるスパースネスと限られた視野を減らすための新しい前処理手法を提案する。 本稿では,異なるレーダモードの固有誤差を探索し,提案手法の誤差を低減したより多くのデータポイントに提案する。 さらに,fuらによる深層順序回帰ネットワークに基づく深層学習を用いて,単眼2次元画像とスパースレーダ計測から高密度深層マップを推定する新しい手法を提案する。 レーダデータは、まずスパース2D点を高度拡張された3D計測に変換し、後続の融合アプローチを用いてネットワークに組み込む。 nuScenesデータセットで実験が行われる。 実験では,昼夜ともに最先端のパフォーマンスを示す。

We integrate sparse radar data into a monocular depth estimation model and introduce a novel preprocessing method for reducing the sparseness and limited field of view provided by radar. We explore the intrinsic error of different radar modalities and show our proposed method results in more data points with reduced error. We further propose a novel method for estimating dense depth maps from monocular 2D images and sparse radar measurements using deep learning based on the deep ordinal regression network by Fu et al. Radar data are integrated by first converting the sparse 2D points to a height-extended 3D measurement and then including it into the network using a late fusion approach. Experiments are conducted on the nuScenes dataset. Our experiments demonstrate state-of-the-art performance in both day and night scenes.
翻訳日:2021-07-19 14:45:55 公開日:2021-07-15
# キーワードスポッティングのためのクロス注意によるマルチタスク学習

Multi-task Learning with Cross Attention for Keyword Spotting ( http://arxiv.org/abs/2107.07634v1 )

ライセンス: Link先を確認
Takuya Higuchi, Anmol Gupta, Chandra Dhir(参考訳) キーワードスポッティング(KWS)は音声アプリケーションにとって重要な手法であり、ユーザーはキーワード句を話すことでデバイスをアクティベートすることができる。 自動音声認識(ASR)のために大量の転写データを利用するKWSには音素分類器を用いることができるが、訓練基準(音素認識)と目標課題(KWS)との間にはミスマッチがある。 近年,KWS にマルチタスク学習を適用し,ASR と KWS のトレーニングデータを活用している。 本手法では,ASRデータで訓練された音素書き起こし用と,KWSデータで訓練されたキーワード分類用という2つのタスクに対して,音響モデルの出力を2つのブランチに分割する。 本稿では,マルチタスク学習フレームワークにおけるクロスアテンションデコーダを提案する。 従来のマルチタスク学習アプローチとは異なり、クロスアテンションデコーダは、エンコーダ出力と学習可能なクエリシーケンスとのクロスアテンションを行い、kwsタスクの信頼性スコアを予測することにより、音韻エンコーダからの情報を要約する。 KWSタスクの実験結果から,提案手法は従来のマルチタスク学習において,分割分岐と双方向長短値メモリデコーダを平均12%向上させた。

Keyword spotting (KWS) is an important technique for speech applications, which enables users to activate devices by speaking a keyword phrase. Although a phoneme classifier can be used for KWS, exploiting a large amount of transcribed data for automatic speech recognition (ASR), there is a mismatch between the training criterion (phoneme recognition) and the target task (KWS). Recently, multi-task learning has been applied to KWS to exploit both ASR and KWS training data. In this approach, an output of an acoustic model is split into two branches for the two tasks, one for phoneme transcription trained with the ASR data and one for keyword classification trained with the KWS data. In this paper, we introduce a cross attention decoder in the multi-task learning framework. Unlike the conventional multi-task learning approach with the simple split of the output layer, the cross attention decoder summarizes information from a phonetic encoder by performing cross attention between the encoder outputs and a trainable query sequence to predict a confidence score for the KWS task. Experimental results on KWS tasks show that the proposed approach outperformed the conventional multi-task learning with split branches and a bi-directional long short-team memory decoder by 12% on average.
翻訳日:2021-07-19 14:45:41 公開日:2021-07-15
# メタラーニングのためのチャネル符号化ベンチマーク

A Channel Coding Benchmark for Meta-Learning ( http://arxiv.org/abs/2107.07579v1 )

ライセンス: Link先を確認
Rui Li, Ondrej Bohdal, Rajesh Mishra, Hyeji Kim, Da Li, Nicholas Lane, Timothy Hospedales(参考訳) メタラーニングは、新しいタスクをデータ効率で学習するための、人気があり効果的な方法のファミリーを提供する。 しかし、メタラーニングにおけるいくつかの重要な問題は、これまで研究が困難であることが証明されている。 例えば、メタ学習者がトレーニングタスクの広範かつ潜在的にマルチモーダルな分布から学ぶ必要がある実世界の環境でのパフォーマンス低下や、メタトレーニングとメタテストタスクの分散に分散シフトが存在する場合などである。 これらの問題は一般的にタスク分散の形から研究が難しく、それらの間のシフトは標準ベンチマークで測定や制御が容易ではない。 メタ学習のベンチマークとしてチャネル符号化問題を提案する。 チャネルコーディングは、タスク分布が自然に発生し、新しいタスクに迅速に適応する重要な実践的アプリケーションである。 このベンチマークを用いて、コーディング問題において制御可能なタスク分散幅とシフトの影響など、メタラーニングのいくつかの側面を研究する。 このベンチマークは、コミュニティがメタラーニングの能力と限界を研究し、事実上堅牢で効果的なメタラーナーの研究を促進するためのツールを提供する。

Meta-learning provides a popular and effective family of methods for data-efficient learning of new tasks. However, several important issues in meta-learning have proven hard to study thus far. For example, performance degrades in real-world settings where meta-learners must learn from a wide and potentially multi-modal distribution of training tasks; and when distribution shift exists between meta-train and meta-test task distributions. These issues are typically hard to study since the shape of task distributions, and shift between them are not straightforward to measure or control in standard benchmarks. We propose the channel coding problem as a benchmark for meta-learning. Channel coding is an important practical application where task distributions naturally arise, and fast adaptation to new tasks is practically valuable. We use this benchmark to study several aspects of meta-learning, including the impact of task distribution breadth and shift, which can be controlled in the coding problem. Going forward, this benchmark provides a tool for the community to study the capabilities and limitations of meta-learning, and to drive research on practically robust and effective meta-learners.
翻訳日:2021-07-19 14:45:17 公開日:2021-07-15
# 畳み込みに基づく画像アップサンプリングのためのエネルギー効率の良いエッジコンピューティングパラダイム

An Energy-Efficient Edge Computing Paradigm for Convolution-based Image Upsampling ( http://arxiv.org/abs/2107.07647v1 )

ライセンス: Link先を確認
Ian Colbert, Ken Kreutz-Delgado, Srinjoy Das(参考訳) リアルタイム深層学習に基づくイメージアップサンプリングアプリケーションには,エネルギー効率の高いエッジコンピューティングパラダイムが提案されている。 イメージアップサンプリングのための最先端のディープラーニングソリューションは現在、リサイズまたはサブピクセル畳み込みを使用して、最小限のアーティファクトで高忠実なイメージを生成するカーネルを学ぶために訓練されている。 しかし、これらの学習された畳み込みカーネルで推論を行うには、リアルタイムアプリケーションにおける時間とエネルギーコストを支配するメモリ集約型特徴マップ変換が必要である。 メモリ帯域幅に対するこのプレッシャーを軽減するために,学習した畳み込みカーネルをデコンボリューションカーネルに変換し,機能的に等価なデコンボリューションとして推論にデプロイすることにより,クラウド上のトレーニングにサイズやサブピクセルコンボリューションを使用することを限定する。 これらのカーネル変換は、トレーニングから推論に移行する際の1回あたりのコストを意図しており、エッジでの推論中にデータ転送ペナルティを最小限に抑えながら、クラウドでのトレーニングで学んだイメージ忠実さを保ちながら、システムデザイナがそれぞれのアルゴリズムを最適なコンテキストで使用できる。 また,デコンボリューション推論アルゴリズムの既存変種を探索し,新しい変種について検討する。 畳み込みに基づくアップサンプリングアルゴリズムの推論特性を,入出力時間とエネルギーコストの定量的モデルを用いて解析・比較し,エッジでの推論にデコンボリューションを用いることで,サブピクセルと比較してシステム遅延とエネルギー効率が向上することを示した。

A novel energy-efficient edge computing paradigm is proposed for real-time deep learning-based image upsampling applications. State-of-the-art deep learning solutions for image upsampling are currently trained using either resize or sub-pixel convolution to learn kernels that generate high fidelity images with minimal artifacts. However, performing inference with these learned convolution kernels requires memory-intensive feature map transformations that dominate time and energy costs in real-time applications. To alleviate this pressure on memory bandwidth, we confine the use of resize or sub-pixel convolution to training in the cloud by transforming learned convolution kernels to deconvolution kernels before deploying them for inference as a functionally equivalent deconvolution. These kernel transformations, intended as a one-time cost when shifting from training to inference, enable a systems designer to use each algorithm in their optimal context by preserving the image fidelity learned when training in the cloud while minimizing data transfer penalties during inference at the edge. We also explore existing variants of deconvolution inference algorithms and introduce a novel variant for consideration. We analyze and compare the inference properties of convolution-based upsampling algorithms using a quantitative model of incurred time and energy costs and show that using deconvolution for inference at the edge improves both system latency and energy efficiency when compared to their sub-pixel or resize convolution counterparts.
翻訳日:2021-07-19 14:44:24 公開日:2021-07-15
# 部分グラフアライメントのための木の相関検出

Correlation detection in trees for partial graph alignment ( http://arxiv.org/abs/2107.07623v1 )

ライセンス: Link先を確認
Luca Ganassali, Laurent Massouli\'e, Marc Lelarge(参考訳) 本稿では,2つのグラフのノード間のマッピングを探索し,ほとんどのエッジを保存するスパースグラフのアライメントを検討する。 相関する Erd\H{o}s-R\'enyi ランダムグラフに対して、この問題は、一対の分岐木が積分布から引かれるか、あるいは相関分布から引かれるかのテストの観点から局所的に言い換えることができる。 この問題に対する最適テストの設計を行い, グラフアライメントのためのメッセージ通過アルゴリズムを考案し, 多項式時間での帰納, 正のマッチングされた頂点の分数, 失う不一致分数を導出する。 グラフ内の平均次数$\lambda = o(1)$ と相関パラメータ $s \in [0,1]$ とすると、この結果は$\lambda s$ で十分大きく、そして 1-s$ で十分小さくなり、最新の最先端の図が完成する。 多項式時間において部分グラフアライメント(あるいは木内の相関検出)が可能であるかどうかを決定するための厳密な条件は、クルバック・リーブラの発散によって与えられる。

We consider alignment of sparse graphs, which consists in finding a mapping between the nodes of two graphs which preserves most of the edges. Our approach is to compare local structures in the two graphs, matching two nodes if their neighborhoods are 'close enough': for correlated Erd\H{o}s-R\'enyi random graphs, this problem can be locally rephrased in terms of testing whether a pair of branching trees is drawn from either a product distribution, or a correlated distribution. We design an optimal test for this problem which gives rise to a message-passing algorithm for graph alignment, which provably returns in polynomial time a positive fraction of correctly matched vertices, and a vanishing fraction of mismatches. With an average degree $\lambda = O(1)$ in the graphs, and a correlation parameter $s \in [0,1]$, this result holds with $\lambda s$ large enough, and $1-s$ small enough, completing the recent state-of-the-art diagram. Tighter conditions for determining whether partial graph alignment (or correlation detection in trees) is feasible in polynomial time are given in terms of Kullback-Leibler divergences.
翻訳日:2021-07-19 14:42:36 公開日:2021-07-15
# 雑音点雲からの教師なし3次元メッシュ回収

Unsupervised 3D Human Mesh Recovery from Noisy Point Clouds ( http://arxiv.org/abs/2107.07539v1 )

ライセンス: Link先を確認
Xinxin Zuo and Sen Wang and Minglun Gong and Li Cheng(参考訳) 本稿では,騒音点雲からヒトの形状とポーズを再構成する新しい非教師なしアプローチを提案する。 従来のアプローチでは、適切な初期化が重要となる反復的な対応と行動モデルを探索する。 最近の学習ベースのアプローチは、接地的アノテーションを持つ大量のデータセットに依存しており、ポイントクラウド上のすべての頂点に対する対応を予測している。 しかし、チャンファー距離はノイズや外れ値に非常に敏感であるため、通信を割り当てる信頼性が低い。 これらの問題に対処するため,我々はガウス混合モデルに基づくパラメトリック人体モデルから生成される入力点雲の確率分布をモデル化する。 対応を明示的に調整する代わりに、入力されたテンプレートモデルの後方確率を更新することにより、対応探索の過程を暗黙の確率的関連として扱う。 さらに、変形したテンプレートと後確率で条件付けられた入力点クラウドとのずれをペナルティ化する新しい教師なし損失を導出する。 私たちのアプローチは非常に柔軟で、完全なポイントクラウドと、単一の深度イメージを入力として含む不完全なクラウドの両方で動作する。 私たちのネットワークはスクラッチからトレーニングされ、監視されたデータでネットワークをウォームアップする必要はありません。 従来の教師なし手法と比較して,本手法はノイズや外れ値に対処する能力を示す。 様々な公開合成データセットと非常に騒がしい実データセット(すなわち)で広範な実験が行われた。 CMU Panoptic)は、最先端の手法に対する我々のアプローチの優れた性能を示す。 コードは \url{https://github.com/w angsen1312/unsupervi sed3d human.git}

This paper presents a novel unsupervised approach to reconstruct human shape and pose from noisy point cloud. Traditional approaches search for correspondences and conduct model fitting iteratively where a good initialization is critical. Relying on large amount of dataset with ground-truth annotations, recent learning-based approaches predict correspondences for every vertice on the point cloud; Chamfer distance is usually used to minimize the distance between a deformed template model and the input point cloud. However, Chamfer distance is quite sensitive to noise and outliers, thus could be unreliable to assign correspondences. To address these issues, we model the probability distribution of the input point cloud as generated from a parametric human model under a Gaussian Mixture Model. Instead of explicitly aligning correspondences, we treat the process of correspondence search as an implicit probabilistic association by updating the posterior probability of the template model given the input. A novel unsupervised loss is further derived that penalizes the discrepancy between the deformed template and the input point cloud conditioned on the posterior probability. Our approach is very flexible, which works with both complete point cloud and incomplete ones including even a single depth image as input. Our network is trained from scratch with no need to warm-up the network with supervised data. Compared to previous unsupervised methods, our method shows the capability to deal with substantial noise and outliers. Extensive experiments conducted on various public synthetic datasets as well as a very noisy real dataset (i.e. CMU Panoptic) demonstrate the superior performance of our approach over the state-of-the-art methods. Code can be found \url{https://github.com/w angsen1312/unsupervi sed3dhuman.git}
翻訳日:2021-07-19 14:41:21 公開日:2021-07-15
# ファウショット問題に対するマルチレベルコントラスト学習

Multi-Level Contrastive Learning for Few-Shot Problems ( http://arxiv.org/abs/2107.07608v1 )

ライセンス: Link先を確認
Qing Chen, Jian Zhang(参考訳) コントラスト学習(Contrastive Learning)は、類似したサンプルを互いに近づき、多様なサンプルを互いに遠ざかることを目的とした差別的なアプローチである。 これは、識別可能かつ情報的表現を生成するエンコーダを訓練する効率的な手法であり、エンコーダの転送可能性を高めることもできる。 本稿では,エンコーダの最終層からの1つの表現のみを活用し,コントラスト損失をエンコーダの異なる層で適用し,エンコーダから複数の表現を学習する多レベル対向学習手法を提案する。 その後、下流タスクの複数の表現を利用するためにアンサンブルを構築することができる。 提案手法の評価を行い,mini-ImageNet と tiered-ImageNet を用いた実験を行った。 従来の規則的,アンサンブル,コントラスト的リアリング(シングルレベル)ベースのアプローチと比較し,両データセットの最新の結果を得た。

Contrastive learning is a discriminative approach that aims at grouping similar samples closer and diverse samples far from each other. It it an efficient technique to train an encoder generating distinguishable and informative representations, and it may even increase the encoder's transferability. Most current applications of contrastive learning benefit only a single representation from the last layer of an encoder.In this paper, we propose a multi-level contrasitive learning approach which applies contrastive losses at different layers of an encoder to learn multiple representations from the encoder. Afterward, an ensemble can be constructed to take advantage of the multiple representations for the downstream tasks. We evaluated the proposed method on few-shot learning problems and conducted experiments using the mini-ImageNet and the tiered-ImageNet datasets. Our model achieved the new state-of-the-art results for both datasets, comparing to previous regular, ensemble, and contrastive learing (single-level) based approaches.
翻訳日:2021-07-19 14:40:57 公開日:2021-07-15
# SA-GD:シミュレートアニーリングによるグラディエント・ディフレッシュラーニング戦略の改善

SA-GD: Improved Gradient Descent Learning Strategy with Simulated Annealing ( http://arxiv.org/abs/2107.07558v1 )

ライセンス: Link先を確認
Zhicheng Cai(参考訳) 勾配降下アルゴリズムは機械学習問題を最適化する最もよく利用される手法である。 しかし、特に深層学習のような高次元非凸最適化問題では、損失関数に多くの局所最小値と鞍点が存在する。 勾配降下によりこれらの局所区間に損失関数が閉じ込められ、さらなる最適化が妨げられ、一般化能力が低下する。 本稿では, 擬似アニーリングアルゴリズムを勾配降下に導入するSA-GDアルゴリズムを提案する。 SA-GD法は、モデルがこれらの局所領域から飛び出し、最終的に最適な状態に収束する傾向にある、確率で丘をマウントする能力を提供する。 CNNモデルを例として、さまざまなベンチマークデータセット上で、基本的なCNNモデルをテストしました。 従来の勾配降下アルゴリズムのベースラインモデルと比較して、SA-GDアルゴリズムのモデルはモデル収束の効率と安定性を犠牲にすることなく、より優れた一般化能力を有する。 さらに,SA-GDを効果的なアンサンブル学習手法として利用することで,最終的な性能を大幅に向上させることができる。

Gradient descent algorithm is the most utilized method when optimizing machine learning issues. However, there exists many local minimums and saddle points in the loss function, especially for high dimensional non-convex optimization problems like deep learning. Gradient descent may make loss function trapped in these local intervals which impedes further optimization, resulting in poor generalization ability. This paper proposes the SA-GD algorithm which introduces the thought of simulated annealing algorithm to gradient descent. SA-GD method offers model the ability of mounting hills in probability, tending to enable the model to jump out of these local areas and converge to a optimal state finally. We took CNN models as an example and tested the basic CNN models on various benchmark datasets. Compared to the baseline models with traditional gradient descent algorithm, models with SA-GD algorithm possess better generalization ability without sacrificing the efficiency and stability of model convergence. In addition, SA-GD can be utilized as an effective ensemble learning approach which improves the final performance significantly.
翻訳日:2021-07-19 14:37:20 公開日:2021-07-15
# OOD検出における正規化・補助情報の重要性について

On the Importance of Regularisation & Auxiliary Information in OOD Detection ( http://arxiv.org/abs/2107.07564v1 )

ライセンス: Link先を確認
John Mitros and Brian Mac Namee(参考訳) ニューラルネットワークは、あいまいな入力に対する自信過剰な予測を示すにもかかわらず、重要なドメインアプリケーション(自動運転車、金融市場、航空宇宙工学など)でしばしば利用される。 この不足は、ニューラルネットワークがしばしばスプリアス相関に過剰に適合することを示す根本的な欠陥を示している。 そこで本研究では,ネットワークによる分散サンプルの検出能力の向上と,曖昧な入力に対する自信過剰な予測の回避という2つの新しい目標を提案する。 私たちは、我々のメソッドがベースラインを上回り、既存のアプローチよりも優れたパフォーマンスを示しながら、競争的に性能を上回っていないことを実証しています。 さらに,共通の腐敗に対するアプローチの頑健さを実証し,分散検出における正規化と補助情報の重要性を実証した。

Neural networks are often utilised in critical domain applications (e.g.~self-driving cars, financial markets, and aerospace engineering), even though they exhibit overconfident predictions for ambiguous inputs. This deficiency demonstrates a fundamental flaw indicating that neural networks often overfit on spurious correlations. To address this problem in this work we present two novel objectives that improve the ability of a network to detect out-of-distribution samples and therefore avoid overconfident predictions for ambiguous inputs. We empirically demonstrate that our methods outperform the baseline and perform better than the majority of existing approaches, while performing competitively those that they don't outperform. Additionally, we empirically demonstrate the robustness of our approach against common corruptions and demonstrate the importance of regularisation and auxiliary information in out-of-distribution detection.
翻訳日:2021-07-19 14:37:05 公開日:2021-07-15
# ハナビにおける学習・ルールベースエージェントのためのAIチームの評価

Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi ( http://arxiv.org/abs/2107.07630v1 )

ライセンス: Link先を確認
Ho Chit Siu, Jaime D. Pena, Kimberlee C. Chang, Edenna Chen, Yutai Zhou, Victor J. Lopez, Kyle Palko, Ross E. Allen(参考訳) 深層強化学習は、GoやStarCraftといった競合ゲームで超人的AIを生み出している。 類似の学習技術は、人間と機械の協調ゲームに優れたAIチームメイトを作ることができるか? 人間は、客観的なチームパフォーマンスを改善するAIチームメイトや、主観的な信頼度を改善するものを好むだろうか? 本研究では,協調カードゲーム \emph{hanabi} において,ルールベースと学習ベースの両方のエージェントを用いて,人間とaiエージェントのチームを単一盲検で評価する。 人間-AIチームパフォーマンスの客観的指標として使用されるゲームスコアに加えて、人間の知覚されたパフォーマンス、チームワーク、解釈可能性、信頼、AIチームメイトの全体的な嗜好の主観的尺度を定量化する。 人間はルールベースのaiチームメート(smartbot)に対して、最先端の学習ベースのaiチームメート(other-play)よりも明確な選好を持ち、ゲームスコアに統計的な差はないが、一般的に学習ベースのエージェントを否定的に見る。 この結果は、将来のAI設計と強化学習ベンチマークに影響を及ぼし、客観的タスクのパフォーマンスにのみフォーカスするのではなく、人間とAIのコラボレーションの主観的なメトリクスを取り入れる必要性を強調している。

Deep reinforcement learning has generated superhuman AI in competitive games such as Go and StarCraft. Can similar learning techniques create a superior AI teammate for human-machine collaborative games? Will humans prefer AI teammates that improve objective team performance or those that improve subjective metrics of trust? In this study, we perform a single-blind evaluation of teams of humans and AI agents in the cooperative card game \emph{Hanabi}, with both rule-based and learning-based agents. In addition to the game score, used as an objective metric of the human-AI team performance, we also quantify subjective measures of the human's perceived performance, teamwork, interpretability, trust, and overall preference of AI teammate. We find that humans have a clear preference toward a rule-based AI teammate (SmartBot) over a state-of-the-art learning-based AI teammate (Other-Play) across nearly all subjective metrics, and generally view the learning-based agent negatively, despite no statistical difference in the game score. This result has implications for future AI design and reinforcement learning benchmarking, highlighting the need to incorporate subjective metrics of human-AI teaming rather than a singular focus on objective task performance.
翻訳日:2021-07-19 14:35:05 公開日:2021-07-15
# 教師の音声配信評価のためのマルチモーダル機械学習フレームワーク

A Multimodal Machine Learning Framework for Teacher Vocal Delivery Evaluation ( http://arxiv.org/abs/2107.07956v1 )

ライセンス: Link先を確認
Hang Li, Yu Kang, Yang Hao, Wenbiao Ding, Zhongqin Wu, Zitao Liu(参考訳) 発声の質は教師の熱意を評価する上で重要な指標の一つであり,授業全体の質に結びついていることが広く受け入れられている。 しかし,既存の発声評価は,主観性と時間消費の2つの課題に直面する手作業による評価が主である。 本稿では,教師の声の発声の大規模客観的評価結果を生成するために,ペアワイズ比較と多モード直交拡散アルゴリズムを用いた新しい機械学習手法を提案する。 実世界の教育シナリオから2つのデータセットを収集し,実験結果からアルゴリズムの有効性を示す。 再現可能な結果を促進するため、コード公開は \url{https://github.com/t al-ai/ML4VocalDelive ry.git} で行います。

The quality of vocal delivery is one of the key indicators for evaluating teacher enthusiasm, which has been widely accepted to be connected to the overall course qualities. However, existing evaluation for vocal delivery is mainly conducted with manual ratings, which faces two core challenges: subjectivity and time-consuming. In this paper, we present a novel machine learning approach that utilizes pairwise comparisons and a multimodal orthogonal fusing algorithm to generate large-scale objective evaluation results of the teacher vocal delivery in terms of fluency and passion. We collect two datasets from real-world education scenarios and the experiment results demonstrate the effectiveness of our algorithm. To encourage reproducible results, we make our code public available at \url{https://github.com/t al-ai/ML4VocalDelive ry.git}.
翻訳日:2021-07-19 14:34:07 公開日:2021-07-15
# MAXENTとデータセットの融合による因果情報取得

Obtaining Causal Information by Merging Datasets with MAXENT ( http://arxiv.org/abs/2107.07640v1 )

ライセンス: Link先を確認
Sergio Hernan Garrido Mejia, Elke Kirschbaum, Dominik Janzing(参考訳) どの治療が標的変数に因果効果をもたらすのか? 特に多くの科学分野に関係しています この困難なタスクは、すべての処理変数がターゲット変数と共同で観測されるか、あるいは観測できない場合、さらに困難になる。 同様に重要で困難なタスクは、共同創設者の存在下での標的に対する治療の因果影響を定量化することである。 本稿では,すべての変数を共同で観測することなく,異なるデータセットから統計情報をマージすることで因果的知識をいかに得るかについて議論する。 まず, 最大エントロピー原理を用いて, 因果的十分性を仮定した確率変数間のエッジを同定し, 忠実性の拡張バージョンを導出する。 さらに,共同創設者の存在下での介入分布と治療の目標変数に対する平均因果効果の限界を導出する。 どちらの場合も、変数のサブセットのみが共同で観測されていると仮定する。

The investigation of the question "which treatment has a causal effect on a target variable?" is of particular relevance in a large number of scientific disciplines. This challenging task becomes even more difficult if not all treatment variables were or even cannot be observed jointly with the target variable. Another similarly important and challenging task is to quantify the causal influence of a treatment on a target in the presence of confounders. In this paper, we discuss how causal knowledge can be obtained without having observed all variables jointly, but by merging the statistical information from different datasets. We first show how the maximum entropy principle can be used to identify edges among random variables when assuming causal sufficiency and an extended version of faithfulness. Additionally, we derive bounds on the interventional distribution and the average causal effect of a treatment on a target variable in the presence of confounders. In both cases we assume that only subsets of the variables have been observed jointly.
翻訳日:2021-07-19 14:33:54 公開日:2021-07-15
# 量子状態のバイアス分布によるアプリケーション性能の向上

Improving application performance with biased distributions of quantum states ( http://arxiv.org/abs/2107.07642v1 )

ライセンス: Link先を確認
Sanjaya Lohani, Joseph M. Lukens, Daniel E. Jones, Thomas A. Searles, Ryan T. Glasser, and Brian T. Kirby(参考訳) 我々は、任意の次元の混合量子状態の特定の分布の性質を、特定の平均純度に偏って考える。 特に,Hear-random純状態とDirichlet分散係数の混合を解析する。 我々は任意の次元におけるビュール分布とヒルベルト・シュミット分布の平均純度に適合するために必要な濃度パラメータを解析的に導出する。 数値シミュレーションにより、この値はヒルベルト-シュミット分布を正確に復元し、ヒルベルト-シュミット分散ランダム量子状態のアンサンブルに対する代替的かつ直感的な物理的解釈を提供する。 次に,これらのディリクレ重み付きハール混合物をbures分布とhilbert--schmidt分布の代わりに置換することにより,機械学習に基づく量子状態トモグラフィおよびベイズ量子状態再構成において測定可能な性能の利点を示す。 最後に、クラウドアクセスibm量子コンピュータと内部偏光子源の両方が生成する量子状態の分布を実験的に特徴付ける。 いずれの場合も,本手法は種々の実験条件において,Bures あるいは Hilbert-Schmidt 分布状態よりも基礎となる分布とより密に一致させることができる。

We consider the properties of a specific distribution of mixed quantum states of arbitrary dimension that can be biased towards a specific mean purity. In particular, we analyze mixtures of Haar-random pure states with Dirichlet-distribute d coefficients. We analytically derive the concentration parameters required to match the mean purity of the Bures and Hilbert--Schmidt distributions in any dimension. Numerical simulations suggest that this value recovers the Hilbert--Schmidt distribution exactly, offering an alternative and intuitive physical interpretation for ensembles of Hilbert--Schmidt-dis tributed random quantum states. We then demonstrate how substituting these Dirichlet-weighted Haar mixtures in place of the Bures and Hilbert--Schmidt distributions results in measurable performance advantages in machine-learning-bas ed quantum state tomography systems and Bayesian quantum state reconstruction. Finally, we experimentally characterize the distribution of quantum states generated by both a cloud-accessed IBM quantum computer and an in-house source of polarization-entangl ed photons. In each case, our method can more closely match the underlying distribution than either Bures or Hilbert--Schmidt distributed states for various experimental conditions.
翻訳日:2021-07-19 14:30:54 公開日:2021-07-15
# ディープ残差ネットワークのグローバル収束多レベルトレーニング

Globally Convergent Multilevel Training of Deep Residual Networks ( http://arxiv.org/abs/2107.07572v1 )

ライセンス: Link先を確認
Alena Kopani\v{c}\'akov\'a and Rolf Krause(参考訳) 本稿では,ディープ残差ネットワーク(ResNets)に対するグローバル収束型マルチレベルトレーニング手法を提案する。 提案手法は,訓練中にミニバッチサイズを適応的に調整することにより,ハイブリッド(統計的決定論的)な設定で動作する再帰的多レベル信頼領域(rmtr)法の新しい変種と見なすことができる。 マルチレベル階層と転送演算子は、初期値問題の前方オイラー離散化としてresnetを通した前方伝播を解釈する力学系の視点を利用して構成される。 従来のトレーニング手法とは対照的に,本手法ではメモリ制限型sr1法を用いて,多階層階層の全階層の曲率情報も取り入れている。 本手法の総合的性能と収束特性を,分類・回帰の分野での例を用いて数値的に検討した。

We propose a globally convergent multilevel training method for deep residual networks (ResNets). The devised method can be seen as a novel variant of the recursive multilevel trust-region (RMTR) method, which operates in hybrid (stochastic-determin istic) settings by adaptively adjusting mini-batch sizes during the training. The multilevel hierarchy and the transfer operators are constructed by exploiting a dynamical system's viewpoint, which interprets forward propagation through the ResNet as a forward Euler discretization of an initial value problem. In contrast to traditional training approaches, our novel RMTR method also incorporates curvature information on all levels of the multilevel hierarchy by means of the limited-memory SR1 method. The overall performance and the convergence properties of our multilevel training method are numerically investigated using examples from the field of classification and regression.
翻訳日:2021-07-19 14:27:12 公開日:2021-07-15
# (参考訳) 逆強化学習に基づく確率的ドライバ行動学習 [全文訳有]

Inverse Reinforcement Learning Based Stochastic Driver Behavior Learning ( http://arxiv.org/abs/2107.06344v2 )

ライセンス: CC BY 4.0
Mehmet Fatih Ozkan, Abishek Joseph Rocque, Yao Ma(参考訳) ドライバーは、交通機関で車両を操作する際、独特で豊かな運転行動を持つ。 本稿では、現実的な運転シナリオにおける人間の運転行動の独特さと豊かさを捉える新しい運転行動学習手法を提案する。 運転者の行動の豊かさを表すコスト関数の分布を,運転者固有の実演のセットで学習するために,確率的逆強化学習(satastic inverse reinforcement learning:sirl)手法が提案されている。 3Dドライバ・ザ・ループ運転シミュレーションから収集した現実的な運転データについて評価を行った。 その結果,学習した確率的運転モデルでは,現実的な運転シナリオの違いにより,人間の運転戦略の豊かさを表現できることがわかった。 決定論的ベースラインドライバモデルと比較すると,提案した確率的ドライバ動作モデルにより,様々な交通条件下でのドライバの独特でリッチな運転戦略をよりよく再現できることがわかった。

Drivers have unique and rich driving behaviors when operating vehicles in traffic. This paper presents a novel driver behavior learning approach that captures the uniqueness and richness of human driver behavior in realistic driving scenarios. A stochastic inverse reinforcement learning (SIRL) approach is proposed to learn a distribution of cost function, which represents the richness of the human driver behavior with a given set of driver-specific demonstrations. Evaluations are conducted on the realistic driving data collected from the 3D driver-in-the-loop driving simulation. The results show that the learned stochastic driver model is capable of expressing the richness of the human driving strategies under different realistic driving scenarios. Compared to the deterministic baseline driver model, the results reveal that the proposed stochastic driver behavior model can better replicate the driver's unique and rich driving strategies in a variety of traffic conditions.
翻訳日:2021-07-18 17:40:57 公開日:2021-07-15
# (参考訳) データダイエットのディープラーニング: トレーニングの初期段階で重要な例を見つける [全文訳有]

Deep Learning on a Data Diet: Finding Important Examples Early in Training ( http://arxiv.org/abs/2107.07075v1 )

ライセンス: CC BY 4.0
Mansheej Paul, Surya Ganguli, Gintare Karolina Dziugaite(参考訳) ディープラーニングの最近の成功は、さらに大きなデータセット上で、過度にパラメータ化されたネットワークのトレーニングによって部分的に推進されている。 したがって、データのうちどのくらいが過剰であるか、どの例が一般化に重要であるか、どのように見つけられるのか、という問いは自然である。 本研究では,標準視覚ベンチマークにおいて,複数の重み初期化を平均した個々のトレーニング例の初期損失勾配ノルムを用いて,一般化に重要な訓練データのより小さなセットを識別できることを印象的に観察する。 さらに、数回のトレーニングを経て、勾配ノルムの情報は、予測された確率と1つのホットラベルの間のl2距離のノルムに反映され、テスト精度を犠牲にすることなく、データセットのかなりの割合を損なうことができる。 そこで本研究では,訓練の早い段階でローカル情報のみを使用するデータ解析手法を提案し,学習中に忘れられることがほとんどない例を捨てることで,データを創出する最近の作業に接続する。 また,本手法では,データ分布がトレーニングのダイナミクスをどう形成するかを,一般化の重要性に基づいてランク付けし,ノイズの多いサンプルを検出し,トレーニングよりも比較的安定なモデルのデータ表現の部分空間を同定する。

The recent success of deep learning has partially been driven by training increasingly overparametrized networks on ever larger datasets. It is therefore natural to ask: how much of the data is superfluous, which examples are important for generalization, and how do we find them? In this work, we make the striking observation that, on standard vision benchmarks, the initial loss gradient norm of individual training examples, averaged over several weight initializations, can be used to identify a smaller set of training data that is important for generalization. Furthermore, after only a few epochs of training, the information in gradient norms is reflected in the normed error--L2 distance between the predicted probabilities and one hot labels--which can be used to prune a significant fraction of the dataset without sacrificing test accuracy. Based on this, we propose data pruning methods which use only local information early in training, and connect them to recent work that prunes data by discarding examples that are rarely forgotten over the course of training. Our methods also shed light on how the underlying data distribution shapes the training dynamics: they rank examples based on their importance for generalization, detect noisy examples and identify subspaces of the model's data representation that are relatively stable over training.
翻訳日:2021-07-17 03:14:15 公開日:2021-07-15
# (参考訳) 深層ネットワーク特徴からの適応学習におけるケース差ヒューリスティックの適用 [全文訳有]

Applying the Case Difference Heuristic to Learn Adaptations from Deep Network Features ( http://arxiv.org/abs/2107.07095v1 )

ライセンス: CC BY 4.0
Xiaomeng Ye and Ziwei Zhao and David Leake and Xizi Wang and David Crandall(参考訳) ケースディフ・ヒューリスティック(CDH)アプローチは、ケースベースの推論システムのケースベースからケース適応知識を学ぶための知識ライト方式である。 2つのケースが与えられた場合、cdhアプローチは、解決した問題の差異に対するソリューションの違いを特徴付け、検索されたケースと新しいクエリが類似した問題を持つ場合に応じてソリューションを調整する適応ルールを生成する。 学習適応規則の代替として、いくつかの研究者は、問題の違いから解の違いを予測するためにニューラルネットワークを適用した。 このようなアプローチに関する以前の研究は、問題を記述する機能セットが事前に定義されていると仮定している。 本稿では,特徴抽出のための深層学習と,特徴抽出からのニューラルネットワークに基づく適応学習を組み合わせた2段階プロセスについて検討する。 その性能は、画像データ上の回帰タスクで示される:顔の画像に与えられた年齢を予測する。 その結果, 複合プロセスは, 非記号的差異に適用可能な適応知識を学習できることがわかった。 CBRシステムは、ベースラインのディープ・ネットワーク・レグレッタよりも性能が若干低いが、新しいクエリのベースラインよりも性能が良い。

The case difference heuristic (CDH) approach is a knowledge-light method for learning case adaptation knowledge from the case base of a case-based reasoning system. Given a pair of cases, the CDH approach attributes the difference in their solutions to the difference in the problems they solve, and generates adaptation rules to adjust solutions accordingly when a retrieved case and new query have similar problem differences. As an alternative to learning adaptation rules, several researchers have applied neural networks to learn to predict solution differences from problem differences. Previous work on such approaches has assumed that the feature set describing problems is predefined. This paper investigates a two-phase process combining deep learning for feature extraction and neural network based adaptation learning from extracted features. Its performance is demonstrated in a regression task on an image data: predicting age given the image of a face. Results show that the combined process can successfully learn adaptation knowledge applicable to nonsymbolic differences in cases. The CBR system achieves slightly lower performance overall than a baseline deep network regressor, but better performance than the baseline on novel queries.
翻訳日:2021-07-17 02:52:01 公開日:2021-07-15
# (参考訳) Hida-Mat\'ern Kernel [全文訳有]

Hida-Mat\'ern Kernel ( http://arxiv.org/abs/2107.07098v1 )

ライセンス: CC BY 4.0
Matthew Dowling, Piotr Sok\'o{\l}, Il Memming Park(参考訳) 定常ガウス・マルコフ過程の全空間上の共分散関数の標準族である hida-mat\'ern kernel のクラスを示す。 mat\'ernカーネル上で拡張され、振動成分を持つプロセス上でのプリエントを柔軟に構築できる。 広く使われている2乗指数およびスペクトル混合核を含む任意の定常核は、このクラス内または適切な漸近極限であり、このクラスの一般性を示している。 マルコフの性質を生かして、カーネルとそのデリバティブのみを用いて状態空間モデルのようなプロセスを表現する方法を示す。 これにより、より効率的にガウス過程の推論を行い、通常の計算負荷を回避できる。 また, 状態空間表現の特殊性を活用すれば, 計算複雑性のさらなる低減に加えて, 数値安定性が向上することを示す。

We present the class of Hida-Mat\'ern kernels, which is the canonical family of covariance functions over the entire space of stationary Gauss-Markov Processes. It extends upon Mat\'ern kernels, by allowing for flexible construction of priors over processes with oscillatory components. Any stationary kernel, including the widely used squared-exponential and spectral mixture kernels, are either directly within this class or are appropriate asymptotic limits, demonstrating the generality of this class. Taking advantage of its Markovian nature we show how to represent such processes as state space models using only the kernel and its derivatives. In turn this allows us to perform Gaussian Process inference more efficiently and side step the usual computational burdens. We also show how exploiting special properties of the state space representation enables improved numerical stability in addition to further reductions of computational complexity.
翻訳日:2021-07-17 02:40:06 公開日:2021-07-15
# (参考訳) grubhubでのレコメンデーションのためのオンライン学習 [全文訳有]

Online Learning for Recommendations at Grubhub ( http://arxiv.org/abs/2107.07106v1 )

ライセンス: CC BY 4.0
Alex Egg(参考訳) 本稿では,既存のオフライン Recommender システムを簡単に変更し,Transfer Learning を用いてオンラインで動作させる手法を提案する。 Online Learning for Recommender Systemsには、品質とスケールの2つの大きな利点があります。 多くの機械学習アルゴリズムのように、定期的に再訓練されないとコンセプトドリフトに悩まされる。 オンラインで頻繁に更新されるポリシーは、バッチシステムよりも速くドリフトに適応できる。 これは、ユーザー行動に従うために、基礎となるディストリビューションが劇的にシフトできるレコメンデータのようなユーザーインタラクションシステムに特に当てはまる。 Grubhubのようにプラットフォームが急速に成長するにつれて、バッチトレーニングジョブの実行コストが重要になる。 オフラインでのステートレスバッチ学習から、オンラインのステートフルインクリメンタル学習へのシフトは、例えばgrubhubでは、最大45倍のコスト削減と+20%のメトリクス向上を実現している。 オンラインステートフル学習への移行には,コンバージェンスや非定常埋め込み,オフポリシ評価など,克服すべき課題がいくつかあります。

We propose a method to easily modify existing offline Recommender Systems to run online using Transfer Learning. Online Learning for Recommender Systems has two main advantages: quality and scale. Like many Machine Learning algorithms in production if not regularly retrained will suffer from Concept Drift. A policy that is updated frequently online can adapt to drift faster than a batch system. This is especially true for user-interaction systems like recommenders where the underlying distribution can shift drastically to follow user behaviour. As a platform grows rapidly like Grubhub, the cost of running batch training jobs becomes material. A shift from stateless batch learning offline to stateful incremental learning online can recover, for example, at Grubhub, up to a 45x cost savings and a +20% metrics increase. There are a few challenges to overcome with the transition to online stateful learning, namely convergence, non-stationary embeddings and off-policy evaluation, which we explore from our experiences running this system in production.
翻訳日:2021-07-17 02:05:06 公開日:2021-07-15
# (参考訳) リカレントパラメータ生成器 [全文訳有]

Recurrent Parameter Generators ( http://arxiv.org/abs/2107.07110v1 )

ライセンス: CC BY 4.0
Jiayun Wang, Yubei Chen, Stella X. Yu, Brian Cheung, Yann LeCun(参考訳) 本稿では,同じパラメータを様々な畳み込み層に対して再帰的に使用する汎用的手法を提案する。 具体的には、ネットワークに対して、各畳み込み層のパラメータを生成するリカレントパラメータジェネレータ(RPG)を作成する。 再帰モデルを用いて深層畳み込みニューラルネットワーク(CNN)を構築することは、全く新しいことではないが、本手法は既存の研究と比べて大きな性能向上を達成する。 我々は,従来のcnnモデルと同等の性能を実現するために,様々なアプリケーションやデータセット上で一層ニューラルネットワークを構築する方法を示す。 このような方法で任意のパラメータを持つ任意の複雑なニューラルネットワークを構築することができる。 例えば、モデルパラメータを400ドル以上削減したresnet34を構築しています。 さらに,レイヤやブロック,さらにはサブネットワークなど,さまざまなスケールでrpgが適用可能であることを示す。 具体的には、RPGを用いて従来のResNetの畳み込み層に相当する重み数を持つResNet18ネットワークを構築し、このモデルが67.2\%$ ImageNet top-1精度を達成可能であることを示す。 提案手法はモデル圧縮に対する逆アプローチと見なすことができる。 大きなモデルから未使用のパラメータを取り除くのではなく、少数のパラメータにより多くの情報を絞り込むことを目指している。 提案した繰り返しパラメータジェネレータのパワーを実証するための実験結果が概説された。

We present a generic method for recurrently using the same parameters for many different convolution layers to build a deep network. Specifically, for a network, we create a recurrent parameter generator (RPG), from which the parameters of each convolution layer are generated. Though using recurrent models to build a deep convolutional neural network (CNN) is not entirely new, our method achieves significant performance gain compared to the existing works. We demonstrate how to build a one-layer neural network to achieve similar performance compared to other traditional CNN models on various applications and datasets. Such a method allows us to build an arbitrarily complex neural network with any amount of parameters. For example, we build a ResNet34 with model parameters reduced by more than $400$ times, which still achieves $41.6\%$ ImageNet top-1 accuracy. Furthermore, we demonstrate the RPG can be applied at different scales, such as layers, blocks, or even sub-networks. Specifically, we use the RPG to build a ResNet18 network with the number of weights equivalent to one convolutional layer of a conventional ResNet and show this model can achieve $67.2\%$ ImageNet top-1 accuracy. The proposed method can be viewed as an inverse approach to model compression. Rather than removing the unused parameters from a large model, it aims to squeeze more information into a small number of parameters. Extensive experiment results are provided to demonstrate the power of the proposed recurrent parameter generator.
翻訳日:2021-07-17 02:00:53 公開日:2021-07-15
# (参考訳) 不確かさを意識した信頼性テキスト分類 [全文訳有]

Uncertainty-Aware Reliable Text Classification ( http://arxiv.org/abs/2107.07114v1 )

ライセンス: CC BY 4.0
Yibo Hu, Latifur Khan(参考訳) ディープニューラルネットワークは、分類タスクの予測精度の成功に大きく貢献している。 しかし、ドメインシフトとアウト・オブ・ディストリビューション(OOD)の例が存在する現実の環境では、過信な予測を行う傾向がある。 不確実性推定のほとんどの研究は、不確実性の品質の視覚的検証を提供するため、コンピュータビジョンに焦点を当てている。 しかし、自然言語プロセス領域で提示されるものはほとんどない。 重みの不確実性を通じて間接的に不確実性を推測するベイズ法とは異なり、現在の明らかな不確実性に基づく方法は主観的な意見を通じてクラス確率の不確実性を明示的にモデル化する。 彼らはさらに、異なる根本原因、空白(証拠の欠如による不確実性)、不協和(証拠の矛盾による不確実性)を持つデータに固有の不確実性を考える。 本稿ではまず,テキスト分類作業におけるOOD検出に不確実性を適用した。 我々は,OODサンプルの空き度が高い,特定のクラスの事前知識でモデルをトレーニングするために,補助外乱と擬似外乱サンプルの両方を採用する安価なフレームワークを提案する。 広範な実験により,自明な不確実性に基づくモデルがood検出の他のモデルよりも優れていることが示された。 我々のアプローチは、従来のリカレントニューラルネットワークと微調整された事前学習トランスフォーマーに容易にデプロイできる。

Deep neural networks have significantly contributed to the success in predictive accuracy for classification tasks. However, they tend to make over-confident predictions in real-world settings, where domain shifting and out-of-distribution (OOD) examples exist. Most research on uncertainty estimation focuses on computer vision because it provides visual validation on uncertainty quality. However, few have been presented in the natural language process domain. Unlike Bayesian methods that indirectly infer uncertainty through weight uncertainties, current evidential uncertainty-based methods explicitly model the uncertainty of class probabilities through subjective opinions. They further consider inherent uncertainty in data with different root causes, vacuity (i.e., uncertainty due to a lack of evidence) and dissonance (i.e., uncertainty due to conflicting evidence). In our paper, we firstly apply evidential uncertainty in OOD detection for text classification tasks. We propose an inexpensive framework that adopts both auxiliary outliers and pseudo off-manifold samples to train the model with prior knowledge of a certain class, which has high vacuity for OOD samples. Extensive empirical experiments demonstrate that our model based on evidential uncertainty outperforms other counterparts for detecting OOD examples. Our approach can be easily deployed to traditional recurrent neural networks and fine-tuned pre-trained transformers.
翻訳日:2021-07-17 01:44:32 公開日:2021-07-15
# (参考訳) 実例による混合整数線形プログラムの学習 [全文訳有]

Learning Mixed-Integer Linear Programs from Contextual Examples ( http://arxiv.org/abs/2107.07136v1 )

ライセンス: CC BY 4.0
Mohit Kumar, Samuel Kolb, Luc De Raedt and Stefano Teso(参考訳) 混合整数線形プログラム(MILP)は、スケジューリングやルーティングといった複雑な決定問題をモデル化するために人工知能や運用研究で広く使われている。 しかし、そのようなプログラムを設計するにはドメインとモデリングの両方の専門知識が必要です。 本稿では,事例が特定の文脈内で解や非解をキャプチャする,新しい,現実的な環境である文脈的事例からMILPを取得するという課題について考察する。 結果として生じる学習問題は、コストベクターと実現可能なポリトープという、連続的なパラメータを取得することである。 この複雑な問題を解決するために、コンテキストサンプルからMILPを学習するアルゴリズムであるMISLEも提案する。 MISSLEは、連続的な代理損失関数の勾配によって導かれる確率的局所探索の変種を用いる。 合成データに対する経験的評価から,確率的局所探索と勾配降下により,ミスルは代替品よりも優れたミルプを高速に獲得できることがわかった。

Mixed-integer linear programs (MILPs) are widely used in artificial intelligence and operations research to model complex decision problems like scheduling and routing. Designing such programs however requires both domain and modelling expertise. In this paper, we study the problem of acquiring MILPs from contextual examples, a novel and realistic setting in which examples capture solutions and non-solutions within a specific context. The resulting learning problem involves acquiring continuous parameters -- namely, a cost vector and a feasibility polytope -- but has a distinctly combinatorial flavor. To solve this complex problem, we also contribute MISSLE, an algorithm for learning MILPs from contextual examples. MISSLE uses a variant of stochastic local search that is guided by the gradient of a continuous surrogate loss function. Our empirical evaluation on synthetic data shows that MISSLE acquires better MILPs faster than alternatives based on stochastic local search and gradient descent.
翻訳日:2021-07-17 01:28:00 公開日:2021-07-15
# (参考訳) セマンティック画像のクロッピング

Semantic Image Cropping ( http://arxiv.org/abs/2107.07153v1 )

ライセンス: CC BY 4.0
Oriol Corcoll(参考訳) 画像の最も美しい部分や最も貴重な部分を検出し、望ましくないコンテンツを取り除き、より視覚的に心地よい小さな画像にすることで、画像の美的品質を高めるために、自動的な画像切り抜き技術が一般的に用いられる。 本論文では,切り抜きの問題,セマンティクスに新たな次元を導入する。 また,画像に含まれる意味情報を利用することで,画像の収穫性を高めることができると論じる。 私はこの問題をSemantic Image Croppingと呼んでいる。 議論を支持するために、画像毎に少なくとも2つの異なるエンティティを持つ100のイメージと、Amazon Mechanical Turkを使用して収集された4つの地上真実の収穫データを含む新しいデータセットを提供する。 このデータセットを使用して、美学のみを考慮に入れた最先端のクロッピングアルゴリズムが、セマンティックな画像クロッピングの問題でうまく機能しないことを示す。 さらに,イメージクロッピングを生成するために,美学だけでなく意味論も考慮した新しい深層学習システムを提供し,その性能を評価するために,新しいセマンティッククロッピングデータセットを用いて画像の意味情報を利用することで、より優れたクロッピングを生成することができることを示す。

Automatic image cropping techniques are commonly used to enhance the aesthetic quality of an image; they do it by detecting the most beautiful or the most salient parts of the image and removing the unwanted content to have a smaller image that is more visually pleasing. In this thesis, I introduce an additional dimension to the problem of cropping, semantics. I argue that image cropping can also enhance the image's relevancy for a given entity by using the semantic information contained in the image. I call this problem, Semantic Image Cropping. To support my argument, I provide a new dataset containing 100 images with at least two different entities per image and four ground truth croppings collected using Amazon Mechanical Turk. I use this dataset to show that state-of-the-art cropping algorithms that only take into account aesthetics do not perform well in the problem of semantic image cropping. Additionally, I provide a new deep learning system that takes not just aesthetics but also semantics into account to generate image croppings, and I evaluate its performance using my new semantic cropping dataset, showing that using the semantic information of an image can help to produce better croppings.
翻訳日:2021-07-17 01:18:20 公開日:2021-07-15
# (参考訳) 何といつ見るべきか? 映像視覚関連検出のための時間スパン提案ネットワーク [全文訳有]

What and When to Look?: Temporal Span Proposal Network for Video Visual Relation Detection ( http://arxiv.org/abs/2107.07154v1 )

ライセンス: CC BY 4.0
Sangmin Woo, Junhyug Noh, Kangil Kim(参考訳) オブジェクト間の関係を識別することは、シーンを理解する上で重要である。 画像領域における関係モデリングのためのいくつかの研究が提案されているが、時空間相互作用(例えば、どのオブジェクトが相互作用しているか)のダイナミックスに困難があるため、ビデオ領域には多くの制約があった。 関係はいつ、いつ終わるのか? これまで、ビデオ視覚関係検出(vidvrd)に取り組むために、セグメントベースとウィンドウベースという2つの代表的な方法が提案されてきた。 まず,これら2つの手法が持つ限界を指摘し,効率と有効性の観点から2つの利点を持つ新しい手法であるtemporal span proposal network (tspn)を提案する。 1)TSPNは、オブジェクト対の関係性(すなわち、オブジェクト対の関係性の存在に対する信頼スコア)を評価することによって、関係探索空間を分散させる。 2) TSPNは、ビデオのコンテキスト全体を利用して、時間的スパンと関係全体のカテゴリを同時に予測する。 tspnは、2つのvidvrdベンチマーク(imagenet-vidvdrとvidor)でかなりのマージンで新しい最先端を達成することでその効果を実証すると同時に、既存のメソッドよりも時間の複雑さを低下させる。

Identifying relations between objects is central to understanding the scene. While several works have been proposed for relation modeling in the image domain, there have been many constraints in the video domain due to challenging dynamics of spatio-temporal interactions (e.g., Between which objects are there an interaction? When do relations occur and end?). To date, two representative methods have been proposed to tackle Video Visual Relation Detection (VidVRD): segment-based and window-based. We first point out the limitations these two methods have and propose Temporal Span Proposal Network (TSPN), a novel method with two advantages in terms of efficiency and effectiveness. 1) TSPN tells what to look: it sparsifies relation search space by scoring relationness (i.e., confidence score for the existence of a relation between pair of objects) of object pair. 2) TSPN tells when to look: it leverages the full video context to simultaneously predict the temporal span and categories of the entire relations. TSPN demonstrates its effectiveness by achieving new state-of-the-art by a significant margin on two VidVRD benchmarks (ImageNet-VidVDR and VidOR) while also showing lower time complexity than existing methods - in particular, twice as efficient as a popular segment-based approach.
翻訳日:2021-07-17 01:17:16 公開日:2021-07-15
# (参考訳) 識別可能なアーキテクチャ探索によるシーケンスレコメンデーションのためのシーン適応型知識蒸留 [全文訳有]

Scene-adaptive Knowledge Distillation for Sequential Recommendation via Differentiable Architecture Search ( http://arxiv.org/abs/2107.07173v1 )

ライセンス: CC BY 4.0
Lei Chen, Fajie Yuan, Jiaxi Yang, Min Yang, and Chengming Li(参考訳) シーケンシャルリコメンデータシステム(srs)は、ユーザの動的関心やシーケンシャルな行動パターンをモデル化する能力があるため、研究のホットスポットとなっている。 モデル表現能力を最大化するために、デフォルトの選択肢は、より大きくより深いネットワークアーキテクチャを適用することである。 当然、重み付けされた推奨モデルを中級または軽量のニューラルネットワークに圧縮することは、実用的な生産システムにとって非常に重要であると論じる。 そこで本研究では,教師モデルの知識を,その推薦場面に応じて適応的に学生モデルに圧縮する知識蒸留(kd)フレームワーク adarec を提案する。 具体的には、学生ネットワークアーキテクチャを見つけるための構造探索プロセスを導くための目標指向蒸留損失と、モデルサイズの制約としてコスト感受性損失を導入し、推奨効率と効率のトレードオフを優れたものにする。 さらに,Earth Mover's Distance (EMD) を利用して知識蒸留中の多対多層マッピングを実現し,各中間生層が他の中間教師層から適応的に学習できるようにする。 実世界のレコメンデーションデータセットに関する広範な実験は、我々のモデルが強力なレコメンデーションシーンで逐次レコメンデーションモデルのための多様なニューラルアーキテクチャを発見しながら、強力なレコメンデーションのスピードアップによって競合性や精度が向上していることを示しています。

Sequential recommender systems (SRS) have become a research hotspot due to its power in modeling user dynamic interests and sequential behavioral patterns. To maximize model expressive ability, a default choice is to apply a larger and deeper network architecture, which, however, often brings high network latency when generating online recommendations. Naturally, we argue that compressing the heavy recommendation models into middle- or light- weight neural networks is of great importance for practical production systems. To realize such a goal, we propose AdaRec, a knowledge distillation (KD) framework which compresses knowledge of a teacher model into a student model adaptively according to its recommendation scene by using differentiable Neural Architecture Search (NAS). Specifically, we introduce a target-oriented distillation loss to guide the structure search process for finding the student network architecture, and a cost-sensitive loss as constraints for model size, which achieves a superior trade-off between recommendation effectiveness and efficiency. In addition, we leverage Earth Mover's Distance (EMD) to realize many-to-many layer mapping during knowledge distillation, which enables each intermediate student layer to learn from other intermediate teacher layers adaptively. Extensive experiments on real-world recommendation datasets demonstrate that our model achieves competitive or better accuracy with notable inference speedup comparing to strong counterparts, while discovering diverse neural architectures for sequential recommender models under different recommendation scenes.
翻訳日:2021-07-17 01:00:11 公開日:2021-07-15
# (参考訳) 合成データを用いた深層学習に基づく食品インスタンスセグメンテーション [全文訳有]

Deep Learning based Food Instance Segmentation using Synthetic Data ( http://arxiv.org/abs/2107.07191v1 )

ライセンス: CC BY 4.0
D. Park, J. Lee, J. Lee and K. Lee(参考訳) ダイエット管理にディープニューラルネットワークを用いた画像内の食品をインテリジェントに分割するプロセスでは、ネットワークトレーニングのためのデータ収集とラベル付けが非常に重要であるが、労働集約的なタスクである。 本稿では,データ収集とアノテーションの難しさを解決するため,合成データを用いて実世界に適用可能な食品セグメント化手法を提案する。 食事支援ロボットアームなどの医療ロボットシステム上で食品のセグメンテーションを行うために,複数オブジェクトを食事プレートに配置するオープンソース3dグラフィックスソフトウェアブレンダと,例えばセグメンテーション用のトレインマスクr-cnnを用いて合成データを生成する。 また,データ収集システムを構築し,実世界の食品データに基づくセグメンテーションモデルを検証する。 その結果、実世界のデータセットでは、52.2%のマスクAP@allでトレーニングされていない食品インスタンスをセグメント化するために、合成データのみをトレーニングしたモデルが利用可能となり、スクラッチからトレーニングしたモデルと比較して、微調整後のパフォーマンスが+6.4%向上した。 さらに、フェア分析のための公開データセットの可能性と性能の改善も確認する。 私たちのコードと事前トレーニングされたウェイトは、オンラインのhttps://github.com/g ist-ailab/Food-Insta nce-Segmentationで有効です。

In the process of intelligently segmenting foods in images using deep neural networks for diet management, data collection and labeling for network training are very important but labor-intensive tasks. In order to solve the difficulties of data collection and annotations, this paper proposes a food segmentation method applicable to real-world through synthetic data. To perform food segmentation on healthcare robot systems, such as meal assistance robot arm, we generate synthetic data using the open-source 3D graphics software Blender placing multiple objects on meal plate and train Mask R-CNN for instance segmentation. Also, we build a data collection system and verify our segmentation model on real-world food data. As a result, on our real-world dataset, the model trained only synthetic data is available to segment food instances that are not trained with 52.2% mask AP@all, and improve performance by +6.4%p after fine-tuning comparing to the model trained from scratch. In addition, we also confirm the possibility and performance improvement on the public dataset for fair analysis. Our code and pre-trained weights are avaliable online at: https://github.com/g ist-ailab/Food-Insta nce-Segmentation
翻訳日:2021-07-17 00:37:53 公開日:2021-07-15
# (参考訳) 深部ニューラルネットワークの不確かさ推定のためのランダム化ReLU活性化 [全文訳有]

Randomized ReLU Activation for Uncertainty Estimation of Deep Neural Networks ( http://arxiv.org/abs/2107.07197v1 )

ライセンス: CC0 1.0
Yufeng Xia, Jun Zhang, Zhiqiang Gong, Tingsong Jiang and Wen Yao(参考訳) ディープニューラルネットワーク(DNN)は、様々なタスクで有用なデータ表現をうまく学習してきたが、これらの表現の信頼性を評価することは依然として困難である。 ディープアンサンブルは不確実性推定の最先端の手法として広く考えられているが、訓練とテストは非常に高価である。 MC-Dropoutはコストが安いが予測の多様性に欠ける別の方法である。 より多様な予測を少ない時間で得られるように、Randomized ReLU Activation (RRA)フレームワークを導入します。 本稿では,MC-DropReLU と MC-RReLU の2つの手法を提案する。 MC-Dropoutのようにネットワークのいくつかのニューロンをランダムにドロップするのではなく、RRAフレームワークはアクティベーション関数モジュールにランダム性を追加し、出力を多様にする。 私たちが知る限り、これはアクティベーション関数モジュールにランダム性を加えて予測の不確実性を生成する最初の試みである。 MC-Dropoutの出力の多様性を分散の観点から解析・比較し,2つの手法におけるハイパーパラメータと出力の多様性の関係を求める。 さらに,本手法は実装が簡単であり,既存モデルを変更する必要もない。 CIFAR10, CIFAR100, TinyImageNetの3つの広く使われているデータセット上で, RRAフレームワークを実験的に検証した。 実験の結果,本手法は性能は高いが,トレーニング時間やメモリ要件は良好であることが判明した。

Deep neural networks (DNNs) have successfully learned useful data representations in various tasks, however, assessing the reliability of these representations remains a challenge. Deep Ensemble is widely considered the state-of-the-art method for uncertainty estimation, but it is very expensive to train and test. MC-Dropout is another alternative method, which is less expensive but lacks the diversity of predictions. To get more diverse predictions in less time, we introduce Randomized ReLU Activation (RRA) framework. Under the framework, we propose two strategies, MC-DropReLU and MC-RReLU, to estimate uncertainty. Instead of randomly dropping some neurons of the network as in MC-Dropout, the RRA framework adds randomness to the activation function module, making the outputs diverse. As far as we know, this is the first attempt to add randomness to the activation function module to generate predictive uncertainty. We analyze and compare the output diversity of MC-Dropout and our method from the variance perspective and obtain the relationship between the hyperparameters and output diversity in the two methods. Moreover, our method is simple to implement and does not need to modify the existing model. We experimentally validate the RRA framework on three widely used datasets, CIFAR10, CIFAR100, and TinyImageNet. The experiments demonstrate that our method has competitive performance but is more favorable in training time and memory requirements.
翻訳日:2021-07-17 00:26:10 公開日:2021-07-15
# (参考訳) 視覚・言語ナビゲーションのための近隣ビュー強化モデル [全文訳有]

Neighbor-view Enhanced Model for Vision and Language Navigation ( http://arxiv.org/abs/2107.07201v1 )

ライセンス: CC BY 4.0
Dong An, Yuankai Qi, Yan Huang, Qi Wu, Liang Wang, Tieniu Tan(参考訳) vision and language navigation (vln) は、エージェントが自然言語命令に従うことによってターゲットの場所へナビゲートする必要がある。 既存の作品のほとんどは、候補が属する単一のビューの特徴によってナビゲーション候補を表す。 しかし、命令は単一のビューのランドマークを参照として参照し、既存のメソッドのテキストと視覚のマッチングが失敗する可能性がある。 本研究では,隣接ビューからの視覚コンテキストを適応的に組み込んでテキストと視覚のマッチングを改善するマルチモジュールNvEMを提案する。 特に、nvemは、サブジェクトモジュールと参照モジュールを使用して、隣り合うビューからコンテキストを収集します。 対象モジュールはグローバルレベルで隣のビューをヒューズし、参照モジュールはローカルレベルで隣のオブジェクトをヒューズする。 対象と参照は注意機構によって適応的に決定される。 私たちのモデルは、命令の強い方向指示(例えば ``turn left''')を利用するアクションモジュールも含んでいます。 各モジュールは別々にナビゲーションアクションを予測し、重み付き和を最終アクションの予測に使用する。 大規模な実験結果から,提案手法がいくつかの最先端ナビゲータに対してR2RとR4Rのベンチマークに与える影響が示され,NvEMが事前学習した手法よりも優れていた。 私たちのコードはhttps://github.com/m arsaki/nvemで利用可能です。

Vision and Language Navigation (VLN) requires an agent to navigate to a target location by following natural language instructions. Most of existing works represent a navigation candidate by the feature of the corresponding single view where the candidate lies in. However, an instruction may mention landmarks out of the single view as references, which might lead to failures of textual-visual matching of existing methods. In this work, we propose a multi-module Neighbor-View Enhanced Model (NvEM) to adaptively incorporate visual contexts from neighbor views for better textual-visual matching. Specifically, our NvEM utilizes a subject module and a reference module to collect contexts from neighbor views. The subject module fuses neighbor views at a global level, and the reference module fuses neighbor objects at a local level. Subjects and references are adaptively determined via attention mechanisms. Our model also includes an action module to utilize the strong orientation guidance (e.g., ``turn left'') in instructions. Each module predicts navigation action separately and their weighted sum is used for predicting the final action. Extensive experimental results demonstrate the effectiveness of the proposed method on the R2R and R4R benchmarks against several state-of-the-art navigators, and NvEM even beats some pre-training ones. Our code is available at https://github.com/M arSaKi/NvEM.
翻訳日:2021-07-17 00:09:41 公開日:2021-07-15
# (参考訳) メトロポリス調整ハミルトニアンモンテカルロを用いた分散ベイズ学習 [全文訳有]

Decentralized Bayesian Learning with Metropolis-Adjusted Hamiltonian Monte Carlo ( http://arxiv.org/abs/2107.07211v1 )

ライセンス: CC BY 4.0
Vyacheslav Kungurtsev and Adam Cobb and Tara Javidi and Brian Jalaian(参考訳) エージェントの分散ネットワークによって実行されるフェデレーション学習は、自律デバイスへの組み込みソフトウェアの普及によってますます重要になっている。 ベイジアンはランダム量の不確かさについてより多くの情報を提供することで学習の利点を享受し、ランジュバンとハミルトニアン法は大きなパラメータ次元を持つ不確かさ分布からのサンプリングを実現するのに有効である。 このような方法は、最近になって分散化された設定でのみ登場し、確率勾配ランジュバンとハミルトニアンモンテカルロのアプローチを排他的に使用して、後方から漸近的にサンプルを採取し、メトロポリス調整による一定のステップサイズ法よりも不確かさを特徴づけることや、ポテンシャル関数の強い凸性特性を仮定することが知られている。 本稿では,分散サンプリングフレームワークにおけるメトロポリス調整型hmcの定段化と,後定常分布に対するコンセンサスと確率距離の理論的保証,および高度に非凸であることが知られているニューラルネットワークの分散学習を含む標準実世界の問題に対する数値的有効性を示す。

Federated learning performed by a decentralized networks of agents is becoming increasingly important with the prevalence of embedded software on autonomous devices. Bayesian approaches to learning benefit from offering more information as to the uncertainty of a random quantity, and Langevin and Hamiltonian methods are effective at realizing sampling from an uncertain distribution with large parameter dimensions. Such methods have only recently appeared in the decentralized setting, and either exclusively use stochastic gradient Langevin and Hamiltonian Monte Carlo approaches that require a diminishing stepsize to asymptotically sample from the posterior and are known in practice to characterize uncertainty less faithfully than constant step-size methods with a Metropolis adjustment, or assume strong convexity properties of the potential function. We present the first approach to incorporating constant stepsize Metropolis-adjusted HMC in the decentralized sampling framework, show theoretical guarantees for consensus and probability distance to the posterior stationary distribution, and demonstrate their effectiveness numerically on standard real world problems, including decentralized learning of neural networks which is known to be highly non-convex.
翻訳日:2021-07-16 23:52:39 公開日:2021-07-15
# (参考訳) ウォーターマーキング法によるMcAdams係数に基づく話者匿名化の安全性向上 [全文訳有]

Improving Security in McAdams Coefficient-Based Speaker Anonymization by Watermarking Method ( http://arxiv.org/abs/2107.07223v1 )

ライセンス: CC BY 4.0
Candy Olivia Mawalim and Masashi Unoki(参考訳) 話者匿名化は、話者の個人性を抑制し、音声コンテンツなどの他の側面を保存しながら、音声のプライバシーを保護することを目的としている。 匿名化の効果的な解決策の1つは、マクアダムス係数を変更することである。 本研究では,mcadams係数に基づく話者匿名化の安全性を,音声透かし法を用いて向上させる手法を提案する。 提案手法は, 埋込用と検出用という2つの主要なプロセスから構成される。 埋め込み過程において、2つの異なるマクアダム係数は二進ビット ``0" と ``1 を表す。 次に、フレーム単位のビット逆スイッチングにより、透かし音声を得る。 その後、パワースペクトル比較により検出処理を行う。 我々は,voiceprivacy 2020 challenge (vp2020) と音声透かしについて,情報隠れチャレンジ (ihc) を参考に客観的評価を行い, 透かしにおけるブラインド検出, 可視性, 頑健性要件を満足できることを確認した。 またVP2020のセカンダリベースラインシステムと比較して、匿名化性能も大幅に向上した。

Speaker anonymization aims to suppress speaker individuality to protect privacy in speech while preserving the other aspects, such as speech content. One effective solution for anonymization is to modify the McAdams coefficient. In this work, we propose a method to improve the security for speaker anonymization based on the McAdams coefficient by using a speech watermarking approach. The proposed method consists of two main processes: one for embedding and one for detection. In embedding process, two different McAdams coefficients represent binary bits ``0" and ``1". The watermarked speech is then obtained by frame-by-frame bit inverse switching. Subsequently, the detection process is carried out by a power spectrum comparison. We conducted objective evaluations with reference to the VoicePrivacy 2020 Challenge (VP2020) and of the speech watermarking with reference to the Information Hiding Challenge (IHC) and found that our method could satisfy the blind detection, inaudibility, and robustness requirements in watermarking. It also significantly improved the anonymization performance in comparison to the secondary baseline system in VP2020.
翻訳日:2021-07-16 22:03:58 公開日:2021-07-15
# (参考訳) RoBERTa over BERT: CheckListing the Natural Language Inference Task [全文訳有]

Trusting RoBERTa over BERT: Insights from CheckListing the Natural Language Inference Task ( http://arxiv.org/abs/2107.07229v1 )

ライセンス: CC BY 4.0
Ishan Tarunesh, Somak Aditya and Monojit Choudhury(参考訳) 最近のnlu(state-of-the-art natural language understanding)システムは予測不能に振る舞うことが多い。 それにもかかわらず、より予測可能な振る舞いを持つシステムへの進歩の定量化に焦点が限定されている。 推論能力に関する行動要約は、このギャップを埋めるための一歩だと考えています。 自然言語推論(NLI)タスクのCheckListテストスーツ(184K例)を代表的NLUタスクとして作成する。 本稿では, BERT と RoBERTa の推論能力に関する詳細な知見を明らかにする。 分析の結果,同一のテンプレートや別個のテンプレートから抽出したモデルと同一の推論能力を持つモデルとの矛盾が明らかとなり,CheckList上での観察によるモデル動作の一般化は容易ではないことが示された。 ユーザスタディにより、ユーザが行動情報を利用してRoBERTaから予測された例を、BERTと比較してはるかによく一般化できることがわかった。

The recent state-of-the-art natural language understanding (NLU) systems often behave unpredictably, failing on simpler reasoning examples. Despite this, there has been limited focus on quantifying progress towards systems with more predictable behavior. We think that reasoning capability-wise behavioral summary is a step towards bridging this gap. We create a CheckList test-suite (184K examples) for the Natural Language Inference (NLI) task, a representative NLU task. We benchmark state-of-the-art NLI systems on this test-suite, which reveals fine-grained insights into the reasoning abilities of BERT and RoBERTa. Our analysis further reveals inconsistencies of the models on examples derived from the same template or distinct templates but pertaining to same reasoning capability, indicating that generalizing the models' behavior through observations made on a CheckList is non-trivial. Through an user-study, we find that users were able to utilize behavioral information to generalize much better for examples predicted from RoBERTa, compared to that of BERT.
翻訳日:2021-07-16 21:54:29 公開日:2021-07-15
# (参考訳) 遺伝的CFL:クラスタ化フェデレーション学習におけるハイパーパラメータの最適化 [全文訳有]

Genetic CFL: Optimization of Hyper-Parameters in Clustered Federated Learning ( http://arxiv.org/abs/2107.07233v1 )

ライセンス: CC BY 4.0
Shaashwat Agrawal, Sagnik Sarkar, Mamoun Alazab, Praveen Kumar Reddy Maddikunta, Thippa Reddy Gadekallu and Quoc-Viet Pham(参考訳) Federated Learning(FL)は、クライアントサーバアーキテクチャ、エッジコンピューティング、リアルタイムインテリジェンスを統合するディープラーニングのための分散モデルである。 FLは機械学習(ML)に革命を起こす能力を持っているが、技術的制限、通信オーバーヘッド、非IID(独立で同一の分散データ)、プライバシー上の懸念による実装の実践性に欠ける。 不均一な非IIDデータによるMLモデルのトレーニングは収束率と性能を著しく低下させる。 従来のFLアルゴリズムとクラスタリングアルゴリズムには,非効率なクライアントトレーニングと静的ハイパーパラメータ利用の2つの主な制限がある。 これらの制約を克服するために、遺伝的クラスタリングFL(Genetic CFL)と呼ばれる新しいハイブリッドアルゴリズムを提案し、トレーニングハイパーパラメータに基づいてエッジデバイスをクラスタリングし、パラメータを遺伝的にクラスタワイズする。 次に,密度ベースのクラスタリングと遺伝的ハイパーパラメータ最適化を統合することにより,個々のクラスタの精度を劇的に向上させるアルゴリズムを提案する。 結果はMNISTの手書き桁データセットとCIFAR-10データセットを用いてベンチマークされる。 提案する遺伝的cflは有意な改善を示し,非iidおよびあいまいなデータの現実的な場合と良好に機能する。

Federated learning (FL) is a distributed model for deep learning that integrates client-server architecture, edge computing, and real-time intelligence. FL has the capability of revolutionizing machine learning (ML) but lacks in the practicality of implementation due to technological limitations, communication overhead, non-IID (independent and identically distributed) data, and privacy concerns. Training a ML model over heterogeneous non-IID data highly degrades the convergence rate and performance. The existing traditional and clustered FL algorithms exhibit two main limitations, including inefficient client training and static hyper-parameter utilization. To overcome these limitations, we propose a novel hybrid algorithm, namely genetic clustered FL (Genetic CFL), that clusters edge devices based on the training hyper-parameters and genetically modifies the parameters cluster-wise. Then, we introduce an algorithm that drastically increases the individual cluster accuracy by integrating the density-based clustering and genetic hyper-parameter optimization. The results are bench-marked using MNIST handwritten digit dataset and the CIFAR-10 dataset. The proposed genetic CFL shows significant improvements and works well with realistic cases of non-IID and ambiguous data.
翻訳日:2021-07-16 21:34:21 公開日:2021-07-15
# (参考訳) Subnet Replacement:グレーボックス設定におけるディープニューラルネットワークに対するデプロイステージバックドアアタック [全文訳有]

Subnet Replacement: Deployment-stage backdoor attack against deep neural networks in gray-box setting ( http://arxiv.org/abs/2107.07240v1 )

ライセンス: CC BY 4.0
Xiangyu Qi, Jifeng Zhu, Chulin Xie, Yong Yang(参考訳) 本稿では,DNN(Deep Neural Network)に対するバックドア攻撃の現実的可能性について検討する。 具体的には、デプロイステージのバックドアアタックアルゴリズムを設計して、脅威と現実的な実装を両立させることが目標です。 そこで本研究では,限られた数のモデルパラメータを直接修正することで,バックドアをDNNに埋め込むことのできるSubnet Replacement Attack (SRA)を提案する。 現実的な実践性を考えると、既存の研究で広く採用されている強いホワイトボックスの仮定を放棄する代わりに、我々のアルゴリズムは、被害者モデルのアーキテクチャ情報を利用できるが、敵にはパラメータ値の知識がないグレーボックスの環境で機能する。 このアプローチの根底にある重要な哲学は -- 特定のアーキテクチャのニューラルネットワークインスタンス(特定のパラメータ値に関係なく)を考慮すれば、特定のバックドアトリガパターンに敏感(大きなアクティベーション値)を持つように設計された悪意のあるバックドアサブネットに(バックドアなしで)非常に狭いサブネットを置き換えることで、常にバックドアをモデルインスタンスに組み込むことができます。

We study the realistic potential of conducting backdoor attack against deep neural networks (DNNs) during deployment stage. Specifically, our goal is to design a deployment-stage backdoor attack algorithm that is both threatening and realistically implementable. To this end, we propose Subnet Replacement Attack (SRA), which is capable of embedding backdoor into DNNs by directly modifying a limited number of model parameters. Considering the realistic practicability, we abandon the strong white-box assumption widely adopted in existing studies, instead, our algorithm works in a gray-box setting, where architecture information of the victim model is available but the adversaries do not have any knowledge of parameter values. The key philosophy underlying our approach is -- given any neural network instance (regardless of its specific parameter values) of a certain architecture, we can always embed a backdoor into that model instance, by replacing a very narrow subnet of a benign model (without backdoor) with a malicious backdoor subnet, which is designed to be sensitive (fire large activation value) to a particular backdoor trigger pattern.
翻訳日:2021-07-16 21:19:12 公開日:2021-07-15
# (参考訳) スペイン語モデル [全文訳有]

Spanish Language Models ( http://arxiv.org/abs/2107.07253v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, Jordi Armengol-Estap\' ;e, Marc P\`amies, Joan Llop-Palao, Joaqu\'in Silveira-Ocampo, Casimiro Pio Carrino, Aitor Gonzalez-Agirre, Carme Armentano-Oller, Carlos Rodriguez-Penagos, Marta Villegas(参考訳) 本稿では,スペインのRoBERTa-baseとRoBERTa-largeモデル,およびそれに対応する性能評価について述べる。 どちらのモデルも、2009年から2019年にかけてスペイン国立図書館が実施したウェブクローリングから収集した570GBのクリーンで非重複のテキストを使用して、現在知られている最大のスペインのコーパスを使用して事前訓練された。

This paper presents the Spanish RoBERTa-base and RoBERTa-large models, as well as the corresponding performance evaluations. Both models were pre-trained using the largest Spanish corpus known to date, with a total of 570GB of clean and deduplicated text processed for this work, compiled from the web crawlings performed by the National Library of Spain from 2009 to 2019.
翻訳日:2021-07-16 21:10:51 公開日:2021-07-15
# (参考訳) マルチチャネルオートエンコーダと病理画像の領域不変表現学習のための新しいデータセット [全文訳有]

Multi-Channel Auto-Encoders and a Novel Dataset for Learning Domain Invariant Representations of Histopathology Images ( http://arxiv.org/abs/2107.07271v1 )

ライセンス: CC BY-SA 4.0
Andrew Moyes, Richard Gault, Kun Zhang, Ji Ming, Danny Crookes, Jing Wang(参考訳) ドメインシフトは、自動病理学パイプラインを開発する際によく発生する問題である。 自動病理学パイプライン内の畳み込みニューラルネットワークなどの機械学習モデルの性能は、染色や走査プロトコルの違いに起因する要因により、新しいデータ領域に適用することで低下することが多い。 Dual-Channel Auto-Encoder (DCAE) モデルは以前、異なるデジタルスライドスキャナによって導入された外観変化に敏感でない特徴表現を生成することが示されている。 本研究では,複数のデータ領域から学習するDCAEの拡張として,マルチチャネルオートエンコーダ(MCAE)モデルを示す。 さらに、合成データセットは、その外観を合成的に修飾した組織像を含むCycleGANを使用して生成される。 実験結果から, MCAEモデルでは, 新規な合成データを用いて比較したStaNoSA法よりもドメイン間変動に敏感でない特徴表現が得られた。 さらに、mcaeモデルおよびstanosaモデルが、新しい組織分類タスクでテストされる。 この実験の結果,mcaeモデルがf1-scoreの5パーセンテージでスタノーサモデルを実行することがわかった。 これらの結果から,MCAEモデルでは,正規化された特徴表現を積極的に学習することで,既存の手法よりも新しいデータやタスクを一般化できることが示唆された。

Domain shift is a problem commonly encountered when developing automated histopathology pipelines. The performance of machine learning models such as convolutional neural networks within automated histopathology pipelines is often diminished when applying them to novel data domains due to factors arising from differing staining and scanning protocols. The Dual-Channel Auto-Encoder (DCAE) model was previously shown to produce feature representations that are less sensitive to appearance variation introduced by different digital slide scanners. In this work, the Multi-Channel Auto-Encoder (MCAE) model is presented as an extension to DCAE which learns from more than two domains of data. Additionally, a synthetic dataset is generated using CycleGANs that contains aligned tissue images that have had their appearance synthetically modified. Experimental results show that the MCAE model produces feature representations that are less sensitive to inter-domain variations than the comparative StaNoSA method when tested on the novel synthetic data. Additionally, the MCAE and StaNoSA models are tested on a novel tissue classification task. The results of this experiment show the MCAE model out performs the StaNoSA model by 5 percentage-points in the f1-score. These results show that the MCAE model is able to generalise better to novel data and tasks than existing approaches by actively learning normalised feature representations.
翻訳日:2021-07-16 20:57:56 公開日:2021-07-15
# (参考訳) 深部ニューラルネットワークにおける時間空間の訓練とビデオ処理への応用 [全文訳有]

Training for temporal sparsity in deep neural networks, application in video processing ( http://arxiv.org/abs/2107.07305v1 )

ライセンス: CC BY 4.0
Amirreza Yousefzadeh, Manolis Sifalakis(参考訳) アクティベーションスパーシティは、sparsity-awareニューラルネットワークアクセラレータの計算効率とリソース利用を改善する。 DNNにおける主要な操作は、内部積を計算するために重み付きアクティベーションの乗算積(MAC)であるため、少なくとも2つのオペランドのうちの1つがゼロであるようなスキップ操作は、遅延とパワーの観点から推論をより効率的にすることができる。 アクティベーションの空間的スペーシフィケーションはDNN文学において一般的な話題であり、DNNに偏見を与えるいくつかの方法がすでに確立されている。 一方、時間空間はバイオインスパイアされたスパイクニューラルネットワーク(SNN)の固有の特徴であり、ニューロモルフィック処理はハードウェア効率に悪影響を及ぼす。 時空間の空間性の導入と利用は、DNNの文献では、静的信号処理からよりストリーミング信号処理に移行するために、DNNの傾向と完全に一致している。 そこで本論文では,新たなDNN層(Delta Activation Layer)を提案する。 Delta Activation Layerは、ハードウェアでスパーステンソル乗算を行う際に、時間間隔を空間的アクティベーション空間にキャストする。 訓練中にデルタ推定と'the usual'の空間スペーシフィケーションヒューリスティックスを用いることで、得られたモデルは空間的だけでなく時間的アクティベーションスペーシリティ(与えられた入力データ分布)を利用することができる。 デルタ活性化層は、バニラトレーニング中またはリファインメントフェーズ中のいずれかで使用できる。 我々は、標準のTensoflow-Kerasライブラリの拡張としてDelta Activation Layerを実装し、Human Action Recognition (UCF101)データセット上のディープニューラルネットワークのトレーニングに応用した。 トレーニング後のモデル精度の回復を可能とし,約3倍のアクティベーション間隔の改善を報告した。

Activation sparsity improves compute efficiency and resource utilization in sparsity-aware neural network accelerators. As the predominant operation in DNNs is multiply-accumulate (MAC) of activations with weights to compute inner products, skipping operations where (at least) one of the two operands is zero can make inference more efficient in terms of latency and power. Spatial sparsification of activations is a popular topic in DNN literature and several methods have already been established to bias a DNN for it. On the other hand, temporal sparsity is an inherent feature of bio-inspired spiking neural networks (SNNs), which neuromorphic processing exploits for hardware efficiency. Introducing and exploiting spatio-temporal sparsity, is a topic much less explored in DNN literature, but in perfect resonance with the trend in DNN, to shift from static signal processing to more streaming signal processing. Towards this goal, in this paper we introduce a new DNN layer (called Delta Activation Layer), whose sole purpose is to promote temporal sparsity of activations during training. A Delta Activation Layer casts temporal sparsity into spatial activation sparsity to be exploited when performing sparse tensor multiplications in hardware. By employing delta inference and ``the usual'' spatial sparsification heuristics during training, the resulting model learns to exploit not only spatial but also temporal activation sparsity (for a given input data distribution). One may use the Delta Activation Layer either during vanilla training or during a refinement phase. We have implemented Delta Activation Layer as an extension of the standard Tensoflow-Keras library, and applied it to train deep neural networks on the Human Action Recognition (UCF101) dataset. We report an almost 3x improvement of activation sparsity, with recoverable loss of model accuracy after longer training.
翻訳日:2021-07-16 20:34:56 公開日:2021-07-15
# (参考訳) 分散強化学習による安全・快適運転のための安全干渉の最小化 [全文訳有]

Minimizing Safety Interference for Safe and Comfortable Automated Driving with Distributional Reinforcement Learning ( http://arxiv.org/abs/2107.07316v1 )

ライセンス: CC BY 4.0
Danial Kamran, Tizian Engelgeh, Marvin Busch, Johannes Fischer and Christoph Stiller(参考訳) 近年の強化学習(RL)の進歩にもかかわらず、自動運転車のような安全上重要な分野への応用はまだ難しい。 危険な状況に対するrlエージェントの罰は安全なポリシーを学ぶのに役立ちますが、これは非常に保守的な行動にもつながります。 本稿では,要求される快適さと利便性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散RLフレームワークを提案する。 プロアクティブな安全性検証アプローチを用いることで、最悪の場合の仮定に従って、RLから生成されたアクションがフェールセーフであることを保証できる。 同時に、ポリシーは安全性の干渉を最小限に抑え、より快適な行動を生み出すことが奨励される。 我々は,現実にはほとんど起こらないが極めて重要ないくつかのコーナーケースを含む,さまざまなランダム化シナリオを持つハイレベルシミュレータを用いて,提案手法とベースラインポリシーを訓練・評価した。 本実験では, 分散RLを用いて学習したポリシーの挙動を, 実行時に適応し, 環境の不確実性に頑健にすることができる。 学習した分布RLエージェントは、通常のDQNポリシーよりも平均8秒速く駆動し、平均交差時間をわずかに増加させるルールベースのポリシーに比べて、安全干渉を83%少なくする。 また,認識ノイズの高い環境での学習ポリシーの感度について検討し,認識ノイズが2倍高い場合の信頼度の高いポリシーを学習し,閉鎖交点における自動マージと交差のトレーニング構成と比較した。

Despite recent advances in reinforcement learning (RL), its application in safety critical domains like autonomous vehicles is still challenging. Although punishing RL agents for risky situations can help to learn safe policies, it may also lead to highly conservative behavior. In this paper, we propose a distributional RL framework in order to learn adaptive policies that can tune their level of conservativity at run-time based on the desired comfort and utility. Using a proactive safety verification approach, the proposed framework can guarantee that actions generated from RL are fail-safe according to the worst-case assumptions. Concurrently, the policy is encouraged to minimize safety interference and generate more comfortable behavior. We trained and evaluated the proposed approach and baseline policies using a high level simulator with a variety of randomized scenarios including several corner cases which rarely happen in reality but are very crucial. In light of our experiments, the behavior of policies learned using distributional RL can be adaptive at run-time and robust to the environment uncertainty. Quantitatively, the learned distributional RL agent drives in average 8 seconds faster than the normal DQN policy and requires 83\% less safety interference compared to the rule-based policy with slightly increasing the average crossing time. We also study sensitivity of the learned policy in environments with higher perception noise and show that our algorithm learns policies that can still drive reliable when the perception noise is two times higher than the training configuration for automated merging and crossing at occluded intersections.
翻訳日:2021-07-16 20:12:09 公開日:2021-07-15
# (参考訳) dynadog+t:犬合成画像生成のためのパラメトリック動物モデル [全文訳有]

DynaDog+T: A Parametric Animal Model for Synthetic Canine Image Generation ( http://arxiv.org/abs/2107.07330v1 )

ライセンス: CC BY 4.0
Jake Deane, Sinead Kearney, Kwang In Kim, Darren Cosker(参考訳) さまざまなタスクのためのコンピュータビジョンモデルのトレーニングには、合成データがますます一般的になっています。 特に、そのようなデータは3dポーズ推定のような人間に関連するタスクに適用され、リアルな環境でのデータの作成や取得が困難である。 比較して、合成動物データへの取り組みは少なく、トレーニングモデルにも使われています。 そこで本研究では,一般的なコンピュータビジョンタスクであるバイナリセグメンテーションに使用する合成犬用画像とデータを生成するためのパラメトリック犬用モデルdynadog+tを提案する。

Synthetic data is becoming increasingly common for training computer vision models for a variety of tasks. Notably, such data has been applied in tasks related to humans such as 3D pose estimation where data is either difficult to create or obtain in realistic settings. Comparatively, there has been less work into synthetic animal data and it's uses for training models. Consequently, we introduce a parametric canine model, DynaDog+T, for generating synthetic canine images and data which we use for a common computer vision task, binary segmentation, which would otherwise be difficult due to the lack of available data.
翻訳日:2021-07-16 19:56:08 公開日:2021-07-15
# (参考訳) 荷物脅威認識のための教師なし異常インスタンスセグメンテーション [全文訳有]

Unsupervised Anomaly Instance Segmentation for Baggage Threat Recognition ( http://arxiv.org/abs/2107.07333v1 )

ライセンス: CC BY 4.0
Taimur Hassan and Samet Akcay and Mohammed Bennamoun and Salman Khan and Naoufel Werghi(参考訳) 荷物の中に隠された潜在的な脅威を特定することは、セキュリティスタッフにとって大きな懸念事項だ。 多くの研究者がX線スキャンから荷物の脅威を検出するフレームワークを開発した。 しかしながら、私たちの知る限りでは、これらのフレームワークはすべて、現実世界で調達が困難である大規模かつ注釈付きデータセットの広範なトレーニングを必要とします。 本稿では,X線スキャンにおける荷物の脅威を,根拠となる真理ラベルを必要としない異常として認識する,教師なしの新規なインスタンス分割フレームワークを提案する。 さらに、そのスタイリング能力により、フレームワークは一度だけ訓練され、推論段階では、スキャナの仕様にかかわらず、反バンドアイテムを検出して抽出する。 我々の一段階的アプローチは、まず、提案したスタイリゼーション損失関数を用いてエンコーダデコーダネットワークを介して通常の荷物コンテンツを再構成することを学ぶ。 モデルはその後、元のスキャンと再構成されたスキャンの相違を分析して異常領域を特定する。 異常領域はクラスタ化され、そのローカライゼーションのために境界ボックスに適合するように後処理される。 さらに、これらの抽出された異常のカテゴリを認識するために、オプションの分類器を提案フレームワークに追加することもできる。 A thorough evaluation of the proposed system on four public baggage X-ray datasets, without any re-training, demonstrates that it achieves competitive performance as compared to the conventional fully supervised methods (i.e., the mean average precision score of 0.7941 on SIXray, 0.8591 on GDXray, 0.7483 on OPIXray, and 0.5439 on COMPASS-XP dataset) while outperforming state-of-the-art semi-supervised and unsupervised baggage threat detection frameworks by 67.37%, 32.32%, 47.19%, and 45.81% in terms of F1 score across SIXray, GDXray, OPIXray, and COMPASS-XP datasets, respectively.

Identifying potential threats concealed within the baggage is of prime concern for the security staff. Many researchers have developed frameworks that can detect baggage threats from X-ray scans. However, to the best of our knowledge, all of these frameworks require extensive training on large-scale and well-annotated datasets, which are hard to procure in the real world. This paper presents a novel unsupervised anomaly instance segmentation framework that recognizes baggage threats, in X-ray scans, as anomalies without requiring any ground truth labels. Furthermore, thanks to its stylization capacity, the framework is trained only once, and at the inference stage, it detects and extracts contraband items regardless of their scanner specifications. Our one-staged approach initially learns to reconstruct normal baggage content via an encoder-decoder network utilizing a proposed stylization loss function. The model subsequently identifies the abnormal regions by analyzing the disparities within the original and the reconstructed scans. The anomalous regions are then clustered and post-processed to fit a bounding box for their localization. In addition, an optional classifier can also be appended with the proposed framework to recognize the categories of these extracted anomalies. A thorough evaluation of the proposed system on four public baggage X-ray datasets, without any re-training, demonstrates that it achieves competitive performance as compared to the conventional fully supervised methods (i.e., the mean average precision score of 0.7941 on SIXray, 0.8591 on GDXray, 0.7483 on OPIXray, and 0.5439 on COMPASS-XP dataset) while outperforming state-of-the-art semi-supervised and unsupervised baggage threat detection frameworks by 67.37%, 32.32%, 47.19%, and 45.81% in terms of F1 score across SIXray, GDXray, OPIXray, and COMPASS-XP datasets, respectively.
翻訳日:2021-07-16 19:36:23 公開日:2021-07-15
# (参考訳) コプラに基づく正規化流れ [全文訳有]

Copula-Based Normalizing Flows ( http://arxiv.org/abs/2107.07352v1 )

ライセンス: CC BY 4.0
Mike Laszkiewicz, Johannes Lederer, Asja Fischer(参考訳) 正規化フローは、データをガウス基底分布からサンプルに変換することで分布を学習し、強力な密度近似が証明されている。 しかし、その表現力は基底分布の選択によって制限される。 そこで本研究では,より精巧なコプラ分布にベース分布を一般化し,ターゲット分布の特性をより正確に捉えることを提案する。 最初の実証分析では、重み付きデータの柔軟性、安定性、効果率の観点からバニラ正規化フローを劇的に改善できることが示されている。 以上の結果から,学習フローの局所的なリプシッツ安定性の向上が示唆された。

Normalizing flows, which learn a distribution by transforming the data to samples from a Gaussian base distribution, have proven powerful density approximations. But their expressive power is limited by this choice of the base distribution. We, therefore, propose to generalize the base distribution to a more elaborate copula distribution to capture the properties of the target distribution more accurately. In a first empirical analysis, we demonstrate that this replacement can dramatically improve the vanilla normalizing flows in terms of flexibility, stability, and effectivity for heavy-tailed data. Our results suggest that the improvements are related to an increased local Lipschitz-stability of the learned flow.
翻訳日:2021-07-16 19:14:28 公開日:2021-07-15
# (参考訳) DiRe委員会 : 多国籍選挙における多様性と表現制約 [全文訳有]

DiRe Committee : Diversity and Representation Constraints in Multiwinner Elections ( http://arxiv.org/abs/2107.07356v1 )

ライセンス: CC BY-SA 4.0
Kunal Relia(参考訳) マルチウィンター選挙における公正性の研究は、候補者が属性を持つ設定に焦点を当てている。 しかし、有権者は1つ以上の属性(例えば「州」属性の「カリフォルニア」と「イリノイ」の人口)の下で予め定義された人口に分けられることもあり、これは候補者の属性と同一または異なる可能性がある。 候補属性のみに焦点を当てたモデルは、体系的により小さな投票者人口を減らしている可能性がある。 そこで,我々は,多様性と代表的制約と投票規則を規定して,候補者属性と投票者属性を規定し,委員会を選定するモデルdrcwdを開発した。 モデルの一般化可能性を示し、その計算複雑性、不適応性、パラメータ化複雑性を分析する。 我々は,人工データセットの63%と実世界のデータセットの100%のインスタンスに対して,勝利したDiRe委員会を2分未満で発見するヒューリスティックなアルゴリズムを開発した。 本稿では,実行時間,実現可能性,ユーティリティトレードオフの実証分析を行う。 全体として、drcwdはマルチウィンナー選挙の研究は候補者と有権者の両方を考慮すべきであり、候補者固有の「公正」モデルは無意識に有権者の人口を傷つける可能性がある。 また、候補者と有権者の属性が一致する場合であっても、女性候補者を委員会に有すること、例えば、女性有権者に好まれる委員会の候補者が女性であるか否かとは異なるものとして、それらを別々に扱うことが重要である。

The study of fairness in multiwinner elections focuses on settings where candidates have attributes. However, voters may also be divided into predefined populations under one or more attributes (e.g., "California" and "Illinois" populations under the "state" attribute), which may be same or different from candidate attributes. The models that focus on candidate attributes alone may systematically under-represent smaller voter populations. Hence, we develop a model, DiRe Committee Winner Determination (DRCWD), which delineates candidate and voter attributes to select a committee by specifying diversity and representation constraints and a voting rule. We show the generalizability of our model, and analyze its computational complexity, inapproximability, and parameterized complexity. We develop a heuristic-based algorithm, which finds the winning DiRe committee in under two minutes on 63% of the instances of synthetic datasets and on 100% of instances of real-world datasets. We present an empirical analysis of the running time, feasibility, and utility traded-off. Overall, DRCWD motivates that a study of multiwinner elections should consider both its actors, namely candidates and voters, as candidate-specific "fair" models can unknowingly harm voter populations, and vice versa. Additionally, even when the attributes of candidates and voters coincide, it is important to treat them separately as having a female candidate on the committee, for example, is different from having a candidate on the committee who is preferred by the female voters, and who themselves may or may not be female.
翻訳日:2021-07-16 19:03:24 公開日:2021-07-15
# (参考訳) プログラム合成による数学的推論のための強化学習環境 [全文訳有]

A Reinforcement Learning Environment for Mathematical Reasoning via Program Synthesis ( http://arxiv.org/abs/2107.07373v1 )

ライセンス: CC BY 4.0
Joseph Palermo, Johnny Ye, Alok Singh(参考訳) 我々はDeepMind数学データセットをプログラム合成問題として解釈することで強化学習環境に変換する。 環境における各アクションは、演算子または入力を離散計算グラフに追加する。 正解を計算するグラフは正の報酬をもたらし、ポリシーの最適化により問題文に条件付き計算グラフを構築することができる。 ベースラインモデルは、様々な問題型のサブセット上でdouble dqnを使用してトレーニングされ、組み合わせの爆発と騒がしい報酬の課題にもかかわらず、グラフを正しく構築する能力を示す。

We convert the DeepMind Mathematics Dataset into a reinforcement learning environment by interpreting it as a program synthesis problem. Each action taken in the environment adds an operator or an input into a discrete compute graph. Graphs which compute correct answers yield positive reward, enabling the optimization of a policy to construct compute graphs conditioned on problem statements. Baseline models are trained using Double DQN on various subsets of problem types, demonstrating the capability to learn to correctly construct graphs despite the challenges of combinatorial explosion and noisy rewards.
翻訳日:2021-07-16 18:14:47 公開日:2021-07-15
# (参考訳) clsril-23 : indic 言語における言語横断表現 [全文訳有]

CLSRIL-23: Cross Lingual Speech Representations for Indic Languages ( http://arxiv.org/abs/2107.07402v1 )

ライセンス: CC BY-SA 4.0
Anirudh Gupta, Harveen Singh Chadha, Priyanshi Shah, Neeraj Chimmwal, Ankur Dhuriya, Rishabh Gaur, Vivek Raghavan(参考訳) そこで本研究では,23のインデックス言語にまたがる生音声から言語間音声表現を学習する,自己教師あり学習型音声事前学習モデルclsril-23を提案する。 wav2vec 2.0の上に構築され、マスク付き潜在音声表現の対照的なタスクを訓練し、すべての言語で共有される潜在音声の量子化を共同で学習する。 単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。 音声認識のためのダウンストリーム微調整タスクの性能も比較し,複数言語による事前学習が単言語訓練よりも優れており,言語間の音声的類似性を符号化した言語表現の学習や,ダウンストリームタスクのパフォーマンスも向上していることを示した。 ヒンディー語の微調整に多言語前訓練モデルを用いた場合、werでは5%、cerでは9.5%の低下が見られた。 すべてのコードモデルもオープンソースである。 CLSRIL-23は、23ドルの言語と1万時間近いオーディオデータをトレーニングして、Indic言語における音声認識の研究を促進するモデルである。 私たちは、特に低リソースのIndic言語に対して、自己教師付きアプローチを用いて、新しい最先端のアートシステムを作成したいと考えています。

We present a CLSRIL-23, a self supervised learning based audio pre-trained model which learns cross lingual speech representations from raw audio across 23 Indic languages. It is built on top of wav2vec 2.0 which is solved by training a contrastive task over masked latent speech representations and jointly learns the quantization of latents shared across all languages. We compare the language wise loss during pretraining to compare effects of monolingual and multilingual pretraining. Performance on some downstream fine-tuning tasks for speech recognition is also compared and our experiments show that multilingual pretraining outperforms monolingual training, in terms of learning speech representations which encodes phonetic similarity of languages and also in terms of performance on down stream tasks. A decrease of 5% is observed in WER and 9.5% in CER when a multilingual pretrained model is used for finetuning in Hindi. All the code models are also open sourced. CLSRIL-23 is a model trained on $23$ languages and almost 10,000 hours of audio data to facilitate research in speech recognition for Indic languages. We hope that new state of the art systems will be created using the self supervised approach, especially for low resources Indic languages.
翻訳日:2021-07-16 18:05:19 公開日:2021-07-15
# (参考訳) 安全・協調型自動マージのための強化学習を用いた安全操作カタログからの高水準決定 [全文訳有]

High-level Decisions from a Safe Maneuver Catalog with Reinforcement Learning for Safe and Cooperative Automated Merging ( http://arxiv.org/abs/2107.07413v1 )

ライセンス: CC BY 4.0
Danial Kamran, Yu Ren and Martin Lauer(参考訳) 強化学習(rl)は、最近、自動運転の文脈で、意思決定の課題を解決するために使われている。 しかしながら、提案されたRLベースのポリシーの主な欠点の1つは、期待される衝突数を削減しようとするが、それでも許容するので、安全保証の欠如である。 本稿では,統合シナリオにおける安全かつ協調的な自動運転のための効率的なRLに基づく意思決定パイプラインを提案する。 RLエージェントは、安全性に責任のある低レベルプランナの動作モードを指定することにより、現在の状況を予測し、高レベル決定を行うことができる。 より汎用的なポリシーを学習するために,環境構成の変化に敏感でない統合シナリオのためのスケーラブルなRLアーキテクチャを提案する。 提案するRLエージェントは,車両の運転履歴から効率よく協調運転者を識別し,対話的な操作を生成できるので,より速く,より快適な自動運転が可能になる。 同時に、プランナー内の安全上の制約により、すべての操作は自由に衝突し、安全である。

Reinforcement learning (RL) has recently been used for solving challenging decision-making problems in the context of automated driving. However, one of the main drawbacks of the presented RL-based policies is the lack of safety guarantees, since they strive to reduce the expected number of collisions but still tolerate them. In this paper, we propose an efficient RL-based decision-making pipeline for safe and cooperative automated driving in merging scenarios. The RL agent is able to predict the current situation and provide high-level decisions, specifying the operation mode of the low level planner which is responsible for safety. In order to learn a more generic policy, we propose a scalable RL architecture for the merging scenario that is not sensitive to changes in the environment configurations. According to our experiments, the proposed RL agent can efficiently identify cooperative drivers from their vehicle state history and generate interactive maneuvers, resulting in faster and more comfortable automated driving. At the same time, thanks to the safety constraints inside the planner, all of the maneuvers are collision free and safe.
翻訳日:2021-07-16 17:58:45 公開日:2021-07-15
# (参考訳) 最適採点ルール設計 [全文訳有]

Optimal Scoring Rule Design ( http://arxiv.org/abs/2107.07420v1 )

ライセンス: CC BY 4.0
Yiling Chen and Fang-Yi Yu(参考訳) 本稿では,適切なスコアリングルール設計のための最適化問題を提案する。 未知の状態に関するエージェントの予測を収集したいプリンシパルを考えてみましょう。 エージェントは、自分の事前予測を報告するか、コストのかかる信号にアクセスし、後続予測を報告できる。 エージェントの後方予測分布を含む可能性のある分布の集合が与えられた場合、プリンシパルの目的は、エージェントの後方予測の報告と事前予測の報告の間に、エージェントの最悪のケースの支払い増分を最大化するために、境界付きスコアリングルールを設計することである。 適切なスコアリングルールのための2つの最適化条件(静的および漸近的設定)について検討する。 エージェントが1つの信号にアクセス可能な静的設定において,分布の収集が有限である場合に最適なスコアリングルールを計算する効率的なアルゴリズムを提案する。 エージェントは漸近的な設定で彼の予測を適応的かつ無期限に洗練することができる。 まず, 2次スコアリング則の最適性を示すため, 一般推定器を大きなサンプルでエミュレートする, 共分散が消滅した後続分布の集合について考察する。 そして, エージェントの後方分布がβ-ベルヌーリ過程である場合, ログスコアリングルールが最適であることが判明した。 また,dirichlet prior を持つカテゴリ分布に対する,より小さな関数集合に対するログスコアリング規則の最適性も証明する。

This paper introduces an optimization problem for proper scoring rule design. Consider a principal who wants to collect an agent's prediction about an unknown state. The agent can either report his prior prediction or access a costly signal and report the posterior prediction. Given a collection of possible distributions containing the agent's posterior prediction distribution, the principal's objective is to design a bounded scoring rule to maximize the agent's worst-case payoff increment between reporting his posterior prediction and reporting his prior prediction. We study two settings of such optimization for proper scoring rules: static and asymptotic settings. In the static setting, where the agent can access one signal, we propose an efficient algorithm to compute an optimal scoring rule when the collection of distributions is finite. The agent can adaptively and indefinitely refine his prediction in the asymptotic setting. We first consider a sequence of collections of posterior distributions with vanishing covariance, which emulates general estimators with large samples, and show the optimality of the quadratic scoring rule. Then, when the agent's posterior distribution is a Beta-Bernoulli process, we find that the log scoring rule is optimal. We also prove the optimality of the log scoring rule over a smaller set of functions for categorical distributions with Dirichlet priors.
翻訳日:2021-07-16 17:46:51 公開日:2021-07-15
# (参考訳) 不正確な確率をもつマルチラベル連鎖 [全文訳有]

Multi-label Chaining with Imprecise Probabilities ( http://arxiv.org/abs/2107.07443v1 )

ライセンス: CC BY 4.0
Yonatan Carlos Carranza Alarc\'on, S\'ebastien Destercke(参考訳) 本稿では,古典的マルチラベル連鎖法を拡張し,不正確な確率推定を行うための2つの戦略を提案する。 これらの推定は、正確な分布ではなく、不確実性を記述するために凸集合(あるいはクレダル集合)を用いる。 このような推定を用いた主な理由は、(1)連鎖中に高い不確実性が検出された場合に慎重な予測(あるいは全く決定しない)を行い、(2)連鎖の初期決定に生じるバイアスを避けてより正確な予測を行うことである。 ナイーブ・クリダル分類器を用いて,両戦略の解法を理論的に正当化する効率的な手法を提案する。 両手法の信頼性を検証したラベルの欠落に関する実験結果から,精度の高いモデルが故障した場合の予測が困難である事例に対して,本手法が関連する注意を喚起することを示す。

We present two different strategies to extend the classical multi-label chaining approach to handle imprecise probability estimates. These estimates use convex sets of distributions (or credal sets) in order to describe our uncertainty rather than a precise one. The main reasons one could have for using such estimations are (1) to make cautious predictions (or no decision at all) when a high uncertainty is detected in the chaining and (2) to make better precise predictions by avoiding biases caused in early decisions in the chaining. Through the use of the naive credal classifier, we propose efficient procedures with theoretical justifications to solve both strategies. Our experimental results on missing labels, which investigate how reliable these predictions are in both approaches, indicate that our approaches produce relevant cautiousness on those hard-to-predict instances where the precise models fail.
翻訳日:2021-07-16 17:07:59 公開日:2021-07-15
# (参考訳) データ対分類器 誰が勝つ? [全文訳有]

Data vs classifiers, who wins? ( http://arxiv.org/abs/2107.07451v1 )

ライセンス: CC BY 4.0
Lucas F. F. Cardoso, Vitor C. A. Santos, Regiane S. Kawasaki Franc\^es, Ricardo B. C. Prud\^encio and Ronnie C. O. Alves(参考訳) 機械学習(ML)によってカバーされる分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。 それらが問題の基本的な部分であるため、モデルのパフォーマンスをベンチマークで評価する際には、どちらも考慮する必要がある。 最高の分類器は、適切に評価するために堅牢なベンチマークが必要です。 このため、openml-cc18のようなゴールド標準ベンチマークが用いられる。 しかし、データ複雑性は一般的に、性能評価中にモデルとともに考慮されない。 最近の研究は、データセットとアルゴリズムを同時に評価できる新しいアプローチとして、IRT(Item Response Theory)を採用している。 本研究は,IRT と Glicko-2 に基づく新しい評価手法を,ML における IRT の推定を導くために開発された deodIRT ツールと共同で提案する。 OpenML-CC18ベンチマークをアルゴリズム評価能力で評価するためのツールとしてIRTを検討し、データセットのサブセットが元のベンチマークよりも効率的かどうかをチェックする。 古典からアンサンブルまでいくつかの分類器もIRTモデルを用いて評価されている。 Glicko-2のレーティングシステムはIRTとともに適用され、自然能力と分類器のパフォーマンスを要約した。 すべてのOpenML-CC18データセットがアルゴリズムを評価するのに本当に役に立つわけではない。 さらに、元のサイズの50%しか含まないより効率的な部分集合の存在が確認された。 ランドン・フォレストは最高の能力を持つアルゴリズムとして選抜された。

The classification experiments covered by machine learning (ML) are composed by two important parts: the data and the algorithm. As they are a fundamental part of the problem, both must be considered when evaluating a model's performance against a benchmark. The best classifiers need robust benchmarks to be properly evaluated. For this, gold standard benchmarks such as OpenML-CC18 are used. However, data complexity is commonly not considered along with the model during a performance evaluation. Recent studies employ Item Response Theory (IRT) as a new approach to evaluating datasets and algorithms, capable of evaluating both simultaneously. This work presents a new evaluation methodology based on IRT and Glicko-2, jointly with the decodIRT tool developed to guide the estimation of IRT in ML. It explores the IRT as a tool to evaluate the OpenML-CC18 benchmark for its algorithmic evaluation capability and checks if there is a subset of datasets more efficient than the original benchmark. Several classifiers, from classics to ensemble, are also evaluated using the IRT models. The Glicko-2 rating system was applied together with IRT to summarize the innate ability and classifiers performance. It was noted that not all OpenML-CC18 datasets are really useful for evaluating algorithms, where only 10% were rated as being really difficult. Furthermore, it was verified the existence of a more efficient subset containing only 50% of the original size. While Randon Forest was singled out as the algorithm with the best innate ability.
翻訳日:2021-07-16 16:52:31 公開日:2021-07-15
# (参考訳) 一度だけトレーニングする: ワンショットニューラルネットワークのトレーニングとpruningフレームワーク [全文訳有]

Only Train Once: A One-Shot Neural Network Training And Pruning Framework ( http://arxiv.org/abs/2107.07467v1 )

ライセンス: CC BY 4.0
Tianyi Chen, Bo Ji, Tianyu Ding, Biyi Fang, Guanyi Wang, Zhihui Zhu, Luming Liang, Yixin Shi, Sheng Yi, Xiao Tu(参考訳) 構造化プルーニングは、リソース制約のあるデバイスにディープニューラルネットワーク(DNN)をデプロイする際に一般的に使用されるテクニックである。 しかし、既存のプルーニングメソッドは通常ヒューリスティックでタスク指定され、追加の微調整手順を必要とする。 これらの制限を克服するため、DNNを競合性能を持つスリムなアーキテクチャに圧縮し、OTO (On only-Train-Once) によるFLOPを大幅に削減するフレームワークを提案する。 OTOには2つのキーが含まれている: (i) DNNのパラメータをゼロ不変群に分割し、出力に影響を与えることなくゼロ群をプルークすることができる; (ii) ゼロ群をプロモートするために、構造化されたスパーシティ最適化問題を定式化し、それを解決するために新しい最適化アルゴリズムである半空間確率射影勾配(HSPG)を提案する。 OTOの有効性を実証するために,推測高速化とパラメータ削減の微調整を行なわずに,フルモデルをスクラッチから同時に訓練・圧縮し,CIFAR10用VGG16,CIFAR10/ImageN et用ResNet50,SQuAD用Bertの最先端結果を得る。

Structured pruning is a commonly used technique in deploying deep neural networks (DNNs) onto resource-constrained devices. However, the existing pruning methods are usually heuristic, task-specified, and require an extra fine-tuning procedure. To overcome these limitations, we propose a framework that compresses DNNs into slimmer architectures with competitive performances and significant FLOPs reductions by Only-Train-Once (OTO). OTO contains two keys: (i) we partition the parameters of DNNs into zero-invariant groups, enabling us to prune zero groups without affecting the output; and (ii) to promote zero groups, we then formulate a structured-sparsity optimization problem and propose a novel optimization algorithm, Half-Space Stochastic Projected Gradient (HSPG), to solve it, which outperforms the standard proximal methods on group sparsity exploration and maintains comparable convergence. To demonstrate the effectiveness of OTO, we train and compress full models simultaneously from scratch without fine-tuning for inference speedup and parameter reduction, and achieve state-of-the-art results on VGG16 for CIFAR10, ResNet50 for CIFAR10/ImageNet and Bert for SQuAD.
翻訳日:2021-07-16 16:29:17 公開日:2021-07-15
# (参考訳) 複合材料におけるX線トモグラフィ画像の自動分割のためのモジュラU-Net [全文訳有]

A modular U-Net for automated segmentation of X-ray tomography images in composite materials ( http://arxiv.org/abs/2107.07468v1 )

ライセンス: CC BY-SA 4.0
Jo\~ao P C Bertoldo, Etienne Decenci\`ere, David Ryckelynck, Henry Proudhon(参考訳) x線ct(x-ray ct)技術は,高分解能データを高速に取得できるため,従来のセグメンテーション手法が煩雑で,非自明な3d画像に対応可能な自動データパイプラインが求められている点まで進化している。 ディープラーニングは、マテリアルサイエンスアプリケーションを含む多くの画像処理タスクで成功をおさめ、ヒューマンフリーセグメンテーションパイプラインの有望な代替品を示している。 本稿では,3相ガラス繊維強化ポリアミド66の3次元トモグラフィ像を分割し,unet (modular u-net) のモジュラー解釈を行った。 モデルの2Dバージョンと3Dバージョンを比較し、前者の方が後者より若干優れていることを発見した。 注釈付き層は10層に過ぎず, 浅いU-Netを使用すれば, より深い層よりも優れた結果が得られることが観察された。 結果として、ニューラルネットワーク(NN)は、人間やアドホックな介入を必要としないXCTデータ処理パイプラインを自動化する、本当に有望な場所であることを示している。

X-ray Computed Tomography (XCT) techniques have evolved to a point that high-resolution data can be acquired so fast that classic segmentation methods are prohibitively cumbersome, demanding automated data pipelines capable of dealing with non-trivial 3D images. Deep learning has demonstrated success in many image processing tasks, including material science applications, showing a promising alternative for a humanfree segmentation pipeline. In this paper a modular interpretation of UNet (Modular U-Net) is proposed and trained to segment 3D tomography images of a three-phased glass fiber-reinforced Polyamide 66. We compare 2D and 3D versions of our model, finding that the former is slightly better than the latter. We observe that human-comparable results can be achievied even with only 10 annotated layers and using a shallow U-Net yields better results than a deeper one. As a consequence, Neural Network (NN) show indeed a promising venue to automate XCT data processing pipelines needing no human, adhoc intervention.
翻訳日:2021-07-16 16:10:31 公開日:2021-07-15
# (参考訳) Newton-LESS:Sketched Newton Updateのトレードオフのないスパリフィケーション

Newton-LESS: Sparsification without Trade-offs for the Sketched Newton Update ( http://arxiv.org/abs/2107.07480v1 )

ライセンス: CC BY 4.0
Micha{\l} Derezi\'nski, Jonathan Lacotte, Mert Pilanci and Michael W. Mahoney(参考訳) 2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。 ランダム化されたスケッチは、近似ニュートンステップの実行に使用できるヘッセンの見積もりを構築するための強力な技術として出現した。 これはランダムなスケッチ行列による乗算であり、スケッチの計算コストと最適化アルゴリズムの収束率とのトレードオフをもたらす。 理論的に望ましいが、実際には高価すぎる選択は、正確なニュートンステップの偏りのない推定を生成し、強い問題非依存な収束保証を提供する、密集したガウスのスケッチ行列を使用することである。 ガウススケッチ行列は、その収束特性に大きな影響を及ぼすことなく、大幅に分散し、スケッチの計算コストを大幅に削減できることを示す。 このアプローチはNewton-LESSと呼ばれ、最近導入されたスケッチ技術であるLEverage Score Sparsified (LESS)埋め込みに基づいている。 ニュートンレスはガウス埋め込みとほとんど同じ問題非依存な局所収束率を享受できることを証明し, 最適化タスクの大規模クラスに対して, 一定の要因だけでなく, 低次項までも満足できることを証明した。 特に、これは反復最小二乗解法に対する新しい最先端の収束結果をもたらす。 最後に,LESS埋め込みを拡張し,一様にスペーシングされたランダムサイン行列を効率よく実装し,数値実験で良好に動作するようにした。

In second-order optimization, a potential bottleneck can be computing the Hessian matrix of the optimized function at every iteration. Randomized sketching has emerged as a powerful technique for constructing estimates of the Hessian which can be used to perform approximate Newton steps. This involves multiplication by a random sketching matrix, which introduces a trade-off between the computational cost of sketching and the convergence rate of the optimization algorithm. A theoretically desirable but practically much too expensive choice is to use a dense Gaussian sketching matrix, which produces unbiased estimates of the exact Newton step and which offers strong problem-independent convergence guarantees. We show that the Gaussian sketching matrix can be drastically sparsified, significantly reducing the computational cost of sketching, without substantially affecting its convergence properties. This approach, called Newton-LESS, is based on a recently introduced sketching technique: LEverage Score Sparsified (LESS) embeddings. We prove that Newton-LESS enjoys nearly the same problem-independent local convergence rate as Gaussian embeddings, not just up to constant factors but even down to lower order terms, for a large class of optimization tasks. In particular, this leads to a new state-of-the-art convergence result for an iterative least squares solver. Finally, we extend LESS embeddings to include uniformly sparsified random sign matrices which can be implemented efficiently and which perform well in numerical experiments.
翻訳日:2021-07-16 15:55:43 公開日:2021-07-15
# (参考訳) オンライン広告におけるCPAラインのミッドフライ予測 [全文訳有]

Mid-flight Forecasting for CPA Lines in Online Advertising ( http://arxiv.org/abs/2107.07494v1 )

ライセンス: CC0 1.0
Hao He, Tian Zhou, Lihua Ren, Niklas Karlsson, Aaron Flores(参考訳) Verizon MediaDemand Side Platform(DSP)では、広告キャンペーンのパフォーマンス予測は、最適化サーバにキー情報を供給し、システムがハイパフォーマンスモードで動作できるようにするだけでなく、広告主に実用的な洞察を与える。 本稿では, 入札機構を考慮した飛行途中のCPAラインの予測問題について検討する。 提案手法は,様々な性能指標と最適化信号の関係性を生成する。 また、キャンペーン管理システムの設計において重要な最適化信号の調整に対して、広告キャンペーンパフォーマンス指標の感度を推定するためにも使用できる。 広告費とアクションあたりの有効コスト(ecpa)の関係も特徴であり、これは広告主への飛行中線調整のガイダンスとなる。 データセットのダウンサンプリングのような実装におけるいくつかの実践的な問題も論文で論じている。 最終的に、予測結果を実際の成果に対して検証し、有望な精度を示す。

For Verizon MediaDemand Side Platform(DSP), forecasting of ad campaign performance not only feeds key information to the optimization server to allow the system to operate on a high-performance mode, but also produces actionable insights to the advertisers. In this paper, the forecasting problem for CPA lines in the middle of the flight is investigated by taking the bidding mechanism into account. The proposed methodology generates relationships between various key performance metrics and optimization signals. It can also be used to estimate the sensitivity of ad campaign performance metrics to the adjustments of optimization signal, which is important to the design of a campaign management system. The relationship between advertiser spends and effective Cost Per Action(eCPA) is also characterized, which serves as a guidance for mid-flight line adjustment to the advertisers. Several practical issues in implementation, such as downsampling of the dataset, are also discussed in the paper. At last, the forecasting results are validated against actual deliveries and demonstrates promising accuracy.
翻訳日:2021-07-16 15:54:34 公開日:2021-07-15
# (参考訳) unseenドメインにおけるunseenクラス認識のためのコンテキスト条件適応 [全文訳有]

Context-Conditional Adaptation for Recognizing Unseen Classes in Unseen Domains ( http://arxiv.org/abs/2107.07497v1 )

ライセンス: CC BY 4.0
Puneet Mangla, Shivam Chandhok, Vineeth N Balasubramanian and Fahad Shahbaz Khan(参考訳) 未発見ドメイン(ドメイン一般化)や未発見クラス(ゼロショット学習)に一般化可能なモデルの設計に向けた最近の進歩は、ドメインシフトとセマンティクスシフトを同時に扱うモデル(すなわちゼロショットドメイン一般化)の構築に向けられている。 unseenドメインの非seenクラスに一般化するモデルには、クラスレベル(ドメイン不変)とドメイン固有の情報を保持する特徴表現を学ぶことが不可欠である。 生成ゼロショットアプローチの成功を機に,クラスレベルのセマンティクスとドメイン固有の情報をシームレスに統合するために,COCOA (COntext Conditional Adaptive) Batch-Normalizationを統合した特徴生成フレームワークを提案する。 生成されたビジュアル機能は、テスト時に未認識のクラスとドメインに一般化できる基盤となるデータ分散をよりよくキャプチャします。 我々は、確立された大規模ベンチマークであるDomainNetに対する我々のアプローチを徹底的に評価し、分析し、ベースラインと最先端メソッドよりも有望なパフォーマンスを示す。

Recent progress towards designing models that can generalize to unseen domains (i.e domain generalization) or unseen classes (i.e zero-shot learning) has embarked interest towards building models that can tackle both domain-shift and semantic shift simultaneously (i.e zero-shot domain generalization). For models to generalize to unseen classes in unseen domains, it is crucial to learn feature representation that preserves class-level (domain-invariant) as well as domain-specific information. Motivated from the success of generative zero-shot approaches, we propose a feature generative framework integrated with a COntext COnditional Adaptive (COCOA) Batch-Normalization to seamlessly integrate class-level semantic and domain-specific information. The generated visual features better capture the underlying data distribution enabling us to generalize to unseen classes and domains at test-time. We thoroughly evaluate and analyse our approach on established large-scale benchmark - DomainNet and demonstrate promising performance over baselines and state-of-art methods.
翻訳日:2021-07-16 15:46:27 公開日:2021-07-15
# (参考訳) FewCLUE: 中国のFew-shot Learning Evaluationベンチマーク [全文訳有]

FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark ( http://arxiv.org/abs/2107.07498v1 )

ライセンス: CC BY 4.0
Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Hu Yuan, Huilin Xu, Guoao Wei, Xiang Pan, Hai Hu(参考訳) 事前学習型言語モデル(PLM)は自然言語理解タスクにおいて大きな成功を収めた。 微調整、ゼロショット、少数ショット学習といった異なる学習方式は、英語などの言語で広く研究され比較されてきたが、中国語の手法を公平かつ包括的に評価し比較する作業は、比較的少ない。 この研究は、中国初の総合的な小サンプル評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介した。 これには、単文と文ペア分類タスクから機械読解タスクまで、9つのタスクが含まれる。 マイナショット学習性能のばらつきが大きいため,マイナショットモデリングをより正確かつ安定した評価のために,複数のトレーニング/評価セットを提供する。 1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。 Next, we implement a set of state-of-the-art (SOTA) few-shot learning methods (including PET, ADAPET, LM-BFF, P-tuning and EFL), and compare their performance with fine-tuning and zero-shot learning schemes on the newly constructed FewCLUE benchmark.Our results show that: 1) all five few-shot learning methods exhibit better performance than fine-tuning or zero-shot learning; 2) among the five methods, PET is the best performing few-shot method; 3) few-shot learning performance is highly dependent on the specific task. ベンチマークとコードはhttps://github.com/C LUEbenchmark/FewCLUE で公開されている。

Pretrained Language Models (PLMs) have achieved tremendous success in natural language understanding tasks. While different learning schemes -- fine-tuning, zero-shot and few-shot learning -- have been widely explored and compared for languages such as English, there is comparatively little work in Chinese to fairly and comprehensively evaluate and compare these methods. This work first introduces Chinese Few-shot Learning Evaluation Benchmark (FewCLUE), the first comprehensive small sample evaluation benchmark in Chinese. It includes nine tasks, ranging from single-sentence and sentence-pair classification tasks to machine reading comprehension tasks. Given the high variance of the few-shot learning performance, we provide multiple training/validation sets to facilitate a more accurate and stable evaluation of few-shot modeling. An unlabeled training set with up to 20,000 additional samples per task is provided, allowing researchers to explore better ways of using unlabeled samples. Next, we implement a set of state-of-the-art (SOTA) few-shot learning methods (including PET, ADAPET, LM-BFF, P-tuning and EFL), and compare their performance with fine-tuning and zero-shot learning schemes on the newly constructed FewCLUE benchmark.Our results show that: 1) all five few-shot learning methods exhibit better performance than fine-tuning or zero-shot learning; 2) among the five methods, PET is the best performing few-shot method; 3) few-shot learning performance is highly dependent on the specific task. Our benchmark and code are available at https://github.com/C LUEbenchmark/FewCLUE
翻訳日:2021-07-16 15:33:56 公開日:2021-07-15
# (参考訳) Prognostic markers\thanks{All authors の類似性に基づく治療のベストコースの再考 [全文訳有]

Recommending best course of treatment based on similarities of prognostic markers\thanks{All authors contributed equally ( http://arxiv.org/abs/2107.07500v1 )

ライセンス: CC BY 4.0
Sudhanshu, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) あらゆる分野にまたがる技術分野の進歩により、膨大な情報の流入は避けられない。 テクノロジーの進歩がもたらしたあらゆる機会のうちの1つは、効率的なデータ検索ソリューションを提案することである。 つまり、膨大な量のデータから、検索方法は、ユーザが関連データや最近のデータを時間とともに取得できるようにすべきである。 エンターテイメントとeコマースの分野では、前述のものを提供するためにレコメンダシステムが機能している。 医療領域で同じシステムを使うことは、さまざまな方法で役に立つことは間違いなく証明できます。 そこで本研究では, 医療分野における協調フィルタリング型レコメンダシステムを提案し, 患者が経験した症状に基づいて治療を推奨する。 さらに、データの可用性の限界に対処するため、様々な疾患に関する治療法からなる新しいデータセットを開発する。 提案システムでは、患者の予後マーカーを入力として受け入れ、最良の治療コースを生成する。 いくつかの実験的実験により、提案されたモデルは、与えられた予後マーカーに対する治療を推奨する有望な結果を得た。

With the advancement in the technology sector spanning over every field, a huge influx of information is inevitable. Among all the opportunities that the advancements in the technology have brought, one of them is to propose efficient solutions for data retrieval. This means that from an enormous pile of data, the retrieval methods should allow the users to fetch the relevant and recent data over time. In the field of entertainment and e-commerce, recommender systems have been functioning to provide the aforementioned. Employing the same systems in the medical domain could definitely prove to be useful in variety of ways. Following this context, the goal of this paper is to propose collaborative filtering based recommender system in the healthcare sector to recommend remedies based on the symptoms experienced by the patients. Furthermore, a new dataset is developed consisting of remedies concerning various diseases to address the limited availability of the data. The proposed recommender system accepts the prognostic markers of a patient as the input and generates the best remedy course. With several experimental trials, the proposed model achieved promising results in recommending the possible remedy for given prognostic markers.
翻訳日:2021-07-16 15:14:47 公開日:2021-07-15
# (参考訳) USCO-Solver: 決定しない確率的組合せ最適化問題の解決 [全文訳有]

USCO-Solver: Solving Undetermined Stochastic Combinatorial Optimization Problems ( http://arxiv.org/abs/2107.07508v1 )

ライセンス: CC BY 4.0
Guangmo Tong(参考訳) 現実世界の意思決定システムは、観察データによって解決しなければならない不確実性にしばしば従う。 したがって、目的関数が未知である組合せ最適化問題にしばしば直面するため、実証的な証拠を用いて解き放たなければならない。 学習と最適化の戦略に依存する一般的な慣習とは対照的に、私たちは組合せ空間間の回帰を考え、目的関数を学ぶ必要なしに、入力-解対のサンプルから高品質の最適化ソリューションを推測することを目指している。 我々の主な成果は、抽象的な確率的組合せ最適化問題に対処できる普遍的な解法である。 PAC-Bayesianフレームワークの学習基盤として,新たなマージン分析を用いた学習エラー分析を提案する。 実証実験では,概念実証実験を用いて設計を実証し,適用可能な他の手法と比較する。 全体として,合成データと実世界データの両方において,いくつかの古典的組合せ問題に対して,非常に有意な実験結果を得た。

Real-world decision-making systems are often subject to uncertainties that have to be resolved through observational data. Therefore, we are frequently confronted with combinatorial optimization problems of which the objective function is unknown and thus has to be debunked using empirical evidence. In contrast to the common practice that relies on a learning-and-optimiz ation strategy, we consider the regression between combinatorial spaces, aiming to infer high-quality optimization solutions from samples of input-solution pairs -- without the need to learn the objective function. Our main deliverable is a universal solver that is able to handle abstract undetermined stochastic combinatorial optimization problems. For learning foundations, we present learning-error analysis under the PAC-Bayesian framework using a new margin-based analysis. In empirical studies, we demonstrate our design using proof-of-concept experiments, and compare it with other methods that are potentially applicable. Overall, we obtain highly encouraging experimental results for several classic combinatorial problems on both synthetic and real-world datasets.
翻訳日:2021-07-16 14:59:25 公開日:2021-07-15
# MultiBench:マルチモーダル表現学習のためのマルチスケールベンチマーク

MultiBench: Multiscale Benchmarks for Multimodal Representation Learning ( http://arxiv.org/abs/2107.07502v1 )

ライセンス: Link先を確認
Paul Pu Liang, Yiwei Lyu, Xiang Fan, Zetian Wu, Yun Cheng, Jason Wu, Leslie Chen, Peter Wu, Michelle A. Lee, Yuke Zhu, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) マルチモーダル表現の学習には、複数の異種データソースからの情報を統合することが含まれる。 マルチメディア、感情コンピューティング、ロボティクス、ファイナンス、人間とコンピュータのインタラクション、ヘルスケアなど、多くの現実世界の応用がある、困難な領域である。 残念なことに、マルチモーダル研究は、(1)ドメインとモダリティの一般化、(2)トレーニングと推論の複雑さ、(3)ノイズと不足モダリティに対する堅牢性を研究するための限られた資源を見出している。 実世界のロバスト性を確保しつつ、未調査のモダリティやタスクの進歩を加速するために、15のデータセット、10のモダリティ、20の予測タスク、および6つの研究領域にまたがる、体系的で統一された大規模ベンチマークであるMultiBenchをリリースする。 MultiBenchは、データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 総合的な評価を可能にするため、MultiBenchは(1)一般化、(2)時間と空間の複雑さ、(3)モダリティの堅牢性を評価する包括的な方法論を提供する。 MultiBenchは、大規模マルチモーダルデータセットへのスケーラビリティや、現実的な不完全性に対する堅牢性など、将来の研究におけるインパクトのある課題を紹介している。 このベンチマークに合わせて,マルチモーダル学習における20コアアプローチの標準化実装も提供する。 異なる研究領域で提案されている手法を単純に適用すれば、9/15のデータセットにおける最先端のパフォーマンスが向上する。 したがって、マルチベンチはマルチモーダル研究における非協力的な取り組みを統一するマイルストーンを示し、マルチモーダルモデルの能力と限界をよりよく理解し、使いやすさ、アクセシビリティ、再現性を確保しながら、その道を開く。 標準化されたコードであるMultiBenchとリーダボードは、定期的に更新され、コミュニティからのインプットを歓迎します。

Learning multimodal representations involves integrating information from multiple heterogeneous sources of data. It is a challenging yet crucial area with numerous real-world applications in multimedia, affective computing, robotics, finance, human-computer interaction, and healthcare. Unfortunately, multimodal research has seen limited resources to study (1) generalization across domains and modalities, (2) complexity during training and inference, and (3) robustness to noisy and missing modalities. In order to accelerate progress towards understudied modalities and tasks while ensuring real-world robustness, we release MultiBench, a systematic and unified large-scale benchmark spanning 15 datasets, 10 modalities, 20 prediction tasks, and 6 research areas. MultiBench provides an automated end-to-end machine learning pipeline that simplifies and standardizes data loading, experimental setup, and model evaluation. To enable holistic evaluation, MultiBench offers a comprehensive methodology to assess (1) generalization, (2) time and space complexity, and (3) modality robustness. MultiBench introduces impactful challenges for future research, including scalability to large-scale multimodal datasets and robustness to realistic imperfections. To accompany this benchmark, we also provide a standardized implementation of 20 core approaches in multimodal learning. Simply applying methods proposed in different research areas can improve the state-of-the-art performance on 9/15 datasets. Therefore, MultiBench presents a milestone in unifying disjoint efforts in multimodal research and paves the way towards a better understanding of the capabilities and limitations of multimodal models, all the while ensuring ease of use, accessibility, and reproducibility. MultiBench, our standardized code, and leaderboards are publicly available, will be regularly updated, and welcomes inputs from the community.
翻訳日:2021-07-16 14:17:23 公開日:2021-07-15
# Shifts: 複数の大規模タスクにわたる実際の分散シフトのデータセット

Shifts: A Dataset of Real Distributional Shift Across Multiple Large-Scale Tasks ( http://arxiv.org/abs/2107.07455v1 )

ライセンス: Link先を確認
Andrey Malinin and Neil Band and German Chesnokov and Yarin Gal and Mark J. F. Gales and Alexey Noskov and Andrey Ploskonosov and Liudmila Prokhorenkova and Ivan Provilkov and Vatsal Raina and Vyas Raina and Mariya Shmatova and Panos Tigas and Boris Yangel(参考訳) 分布シフトと不確実性推定に対するロバスト性を改善する手法の開発に関する研究が盛んに行われている。 対照的に、これらのアプローチを評価するための標準データセットとベンチマークの開発は、限られた作業のみが検討されている。 さらに、不確実性推定とロバスト性に関するほとんどの研究は、小さな回帰や画像分類タスクに基づく新しい技術を開発した。 しかし、実用的関心のあるタスクの多くは表データ、音声、テキスト、センサーデータといった異なるモダリティを持ち、回帰や離散的、あるいは連続的な構造化予測に関する大きな課題を提供する。 したがって、現場の現在の状況を考えると、分散シフトによって影響を受ける様々なモダリティにわたるタスクの標準化された大規模データセットが必要である。 これによって研究者は、最近開発された不確実な定量化手法の多元性を有意義に評価できるだけでなく、評価基準や最先端のベースラインも評価できる。 本研究では,不確実性推定と分布シフトに対するロバスト性を評価するためのemph{Shifts Dataset}を提案する。 産業ソースやサービスから収集されたデータセットは、3つのタスクで構成されており、それぞれが特定のデータモダリティ(表向きの天気予報、機械翻訳、自動運転車(SDC)の車両の動き予測)に対応する。 これらすべてのデータモダリティとタスクは、実際の'in-the-wild'分布シフトの影響を受け、不確実性推定に関して興味深い課題を提起する。 この作業では、データセットとすべてのタスクのベースライン結果について説明します。

There has been significant research done on developing methods for improving robustness to distributional shift and uncertainty estimation. In contrast, only limited work has examined developing standard datasets and benchmarks for assessing these approaches. Additionally, most work on uncertainty estimation and robustness has developed new techniques based on small-scale regression or image classification tasks. However, many tasks of practical interest have different modalities, such as tabular data, audio, text, or sensor data, which offer significant challenges involving regression and discrete or continuous structured prediction. Thus, given the current state of the field, a standardized large-scale dataset of tasks across a range of modalities affected by distributional shifts is necessary. This will enable researchers to meaningfully evaluate the plethora of recently developed uncertainty quantification methods, as well as assessment criteria and state-of-the-art baselines. In this work, we propose the \emph{Shifts Dataset} for evaluation of uncertainty estimates and robustness to distributional shift. The dataset, which has been collected from industrial sources and services, is composed of three tasks, with each corresponding to a particular data modality: tabular weather prediction, machine translation, and self-driving car (SDC) vehicle motion prediction. All of these data modalities and tasks are affected by real, `in-the-wild' distributional shifts and pose interesting challenges with respect to uncertainty estimation. In this work we provide a description of the dataset and baseline results for all tasks.
翻訳日:2021-07-16 14:16:47 公開日:2021-07-15
# FastSHAP: リアルタイムシェープ値推定

FastSHAP: Real-Time Shapley Value Estimation ( http://arxiv.org/abs/2107.07436v1 )

ライセンス: Link先を確認
Neil Jethani, Mukund Sudarshan, Ian Covert, Su-In Lee, Rajesh Ranganath(参考訳) シェープ値はブラックボックスモデルを説明するために広く使われているが、多くのモデル評価を必要とするため計算に費用がかかる。 我々は,学習した説明者モデルを用いて,単一前方パスにおけるシェープ値の推定手法であるFastSHAPを紹介する。 FastSHAPは、Shapley値の重み付き最小二乗特性にインスパイアされた学習アプローチを通じて多くの入力を説明するコストを償却し、標準的な確率勾配最適化を用いてトレーニングすることができる。 我々は、FastSHAPと既存の推定手法を比較し、高品質な説明を桁違いのスピードアップで生成することを明らかにする。

Shapley values are widely used to explain black-box models, but they are costly to calculate because they require many model evaluations. We introduce FastSHAP, a method for estimating Shapley values in a single forward pass using a learned explainer model. FastSHAP amortizes the cost of explaining many inputs via a learning approach inspired by the Shapley value's weighted least squares characterization, and it can be trained using standard stochastic gradient optimization. We compare FastSHAP to existing estimation approaches, revealing that it generates high-quality explanations with orders of magnitude speedup.
翻訳日:2021-07-16 14:16:02 公開日:2021-07-15
# コンフォーマル予測と分布自由不確かさ定量化入門

A Gentle Introduction to Conformal Prediction and Distribution-Free Uncertainty Quantification ( http://arxiv.org/abs/2107.07511v1 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos, Stephen Bates(参考訳) ブラックボックス機械学習の手法は、後続のモデル失敗を避けるために不確実な定量化を要求する医療診断など、リスクの高い環境で日常的に使用されている。 分布のない不確実性定量化(distribution-free UQ)は、そのような予測のために統計的に厳密な信頼区間/セットを作成するためのユーザフレンドリーなパラダイムである。 批判的に、区間/集合は分布的仮定やモデル仮定なしで有効であり、有限個のデータポイントを持つ明示的な保証がある。 さらに、入力の難易度に適応し、入力例が難しい場合には不確実な間隔/セットが大きくなり、モデルが間違っている可能性を示唆する。 大掛かりな作業がなければ、ニューラルネットワークなどの基盤となるアルゴリズム上で、分散フリーな方法を使用して、90%のようなユーザ指定の確率で基底真理を包含する保証された信頼セットを生成することができる。 実際、これらの手法は理解が容易で、コンピュータビジョン、自然言語処理、深層強化学習など、多くの近代的な予測問題に適用できる。 このハンズオン導入は、必ずしも統計学者ではない共形予測や関連する手法を含む、分布のないUQの実践的な実装に関心のある読者を対象としている。 PyTorch構文で、Pythonで説明的なイラストやサンプル、コードサンプルを多数含みます。 目標は、読者に分散フリーなuqを理解させることで、自己完結したドキュメントを1つで、アルゴリズムに信頼区間を設定できるようにすることだ。

Black-box machine learning learning methods are now routinely used in high-risk settings, like medical diagnostics, which demand uncertainty quantification to avoid consequential model failures. Distribution-free uncertainty quantification (distribution-free UQ) is a user-friendly paradigm for creating statistically rigorous confidence intervals/sets for such predictions. Critically, the intervals/sets are valid without distributional assumptions or model assumptions, with explicit guarantees with finitely many datapoints. Moreover, they adapt to the difficulty of the input; when the input example is difficult, the uncertainty intervals/sets are large, signaling that the model might be wrong. Without much work, one can use distribution-free methods on any underlying algorithm, such as a neural network, to produce confidence sets guaranteed to contain the ground truth with a user-specified probability, such as 90%. Indeed, the methods are easy-to-understand and general, applying to many modern prediction problems arising in the fields of computer vision, natural language processing, deep reinforcement learning, and so on. This hands-on introduction is aimed at a reader interested in the practical implementation of distribution-free UQ, including conformal prediction and related methods, who is not necessarily a statistician. We will include many explanatory illustrations, examples, and code samples in Python, with PyTorch syntax. The goal is to provide the reader a working understanding of distribution-free UQ, allowing them to put confidence intervals on their algorithms, with one self-contained document.
翻訳日:2021-07-16 14:15:50 公開日:2021-07-15
# マルチソースノイズシミュレーションとハードサンプルマイニングによるテキスト分類のためのロバスト学習

Robust Learning for Text Classification with Multi-source Noise Simulation and Hard Example Mining ( http://arxiv.org/abs/2107.07113v1 )

ライセンス: Link先を確認
Guowei Xu, Wenbiao Ding, Weiping Fu, Zhongqin Wu, Zitao Liu(参考訳) 実世界の多くのアプリケーションは、ocr(optical character recognition)エンジンを使用して手書き画像を下流自然言語処理(nlp)モデルが適用される転写物に変換する。 このプロセスでは、OCRエンジンが下流のNLPモデルにエラーや入力を導入し、ノイズが発生する。 多くのNLPベンチマークにおいて、事前学習されたモデルは最先端のパフォーマンスを達成するが、実OCRエンジンが生成するノイズの多いテキストには頑健でないことが証明されている。 これは実世界のシナリオにおけるnlpモデルの適用を大幅に制限する。 ノイズの多いOCRテキスト上でのモデル性能を改善するために,ラベル付きノイズテキスト上でNLPモデルをトレーニングするのは自然である。 しかし、ほとんどの場合、クリーンテキストがラベル付けされているだけである。 テキストに対応する手書き画像がないため、認識モデルを直接使用してノイズの多いラベル付きデータを取得することは不可能である。 人的資源はテキストのコピーや写真を撮るのに利用できるが、モデルのトレーニングのためのデータのサイズを考えると、非常に高価である。 その結果,NLPモデルをOCRエラーに対して低リソースで本質的に堅牢にすることに興味がある。 本研究では,1)クリーンテキストから自然のocrノイズを直接シミュレートする簡易かつ効果的な手法を用いて,2)多数のシミュレーションサンプルからハードサンプルを反復的に抽出し,最適な評価を行う,新しいロバストトレーニングフレームワークを提案する。 3) モデルにノイズ不変表現を学習させるには, 安定性損失が用いられる。 3つの実世界のデータセットの実験により、提案されたフレームワークは、トレーニング済みモデルの堅牢性を大きなマージンで向上させることが示された。 この研究は、実際のシナリオにおけるNLPモデルの適用を大いに促進できると信じていますが、我々の使用するアルゴリズムは単純で簡単です。 コードと3つのデータセットを公開しています。footnote{https://github.com/t al-ai/Robust-learnin g-MSSHEM}。

Many real-world applications involve the use of Optical Character Recognition (OCR) engines to transform handwritten images into transcripts on which downstream Natural Language Processing (NLP) models are applied. In this process, OCR engines may introduce errors and inputs to downstream NLP models become noisy. Despite that pre-trained models achieve state-of-the-art performance in many NLP benchmarks, we prove that they are not robust to noisy texts generated by real OCR engines. This greatly limits the application of NLP models in real-world scenarios. In order to improve model performance on noisy OCR transcripts, it is natural to train the NLP model on labelled noisy texts. However, in most cases there are only labelled clean texts. Since there is no handwritten pictures corresponding to the text, it is impossible to directly use the recognition model to obtain noisy labelled data. Human resources can be employed to copy texts and take pictures, but it is extremely expensive considering the size of data for model training. Consequently, we are interested in making NLP models intrinsically robust to OCR errors in a low resource manner. We propose a novel robust training framework which 1) employs simple but effective methods to directly simulate natural OCR noises from clean texts and 2) iteratively mines the hard examples from a large number of simulated samples for optimal performance. 3) To make our model learn noise-invariant representations, a stability loss is employed. Experiments on three real-world datasets show that the proposed framework boosts the robustness of pre-trained models by a large margin. We believe that this work can greatly promote the application of NLP models in actual scenarios, although the algorithm we use is simple and straightforward. We make our codes and three datasets publicly available\footnote{https://github.com/t al-ai/Robust-learnin g-MSSHEM}.
翻訳日:2021-07-16 14:15:23 公開日:2021-07-15
# 事前学習言語モデルを用いたマルチタスク学習に基づくオンライン対話命令検出

Multi-Task Learning based Online Dialogic Instruction Detection with Pre-trained Language Models ( http://arxiv.org/abs/2107.07119v1 )

ライセンス: Link先を確認
Yang Hao, Hang Li, Wenbiao Ding, Zhongqin Wu, Jiliang Tang, Rose Luckin, Zitao Liu(参考訳) 本研究では,学習教材の理解や効果的な学習習慣構築に広く利用されているオンライン対話的指示を検出するための計算手法について検討する。 この課題は、ダイアログ命令の幅広い品質と教育的スタイルのため、かなり難しい。 これらの課題に対処するために,事前学習した言語モデルを用いて,クラス間のマージンをコントラスト損失によって拡大することにより,異なるクラスのインスタンスを識別する能力を高めるマルチタスクパラダイムを提案する。 さらに,トレーニング段階での誤分類例を十分に活用するための戦略を考案する。 実世界のオンライン教育データセットに対する大規模な実験により,本手法が代表的ベースラインよりも優れた性能を発揮することが示された。 再現性のある結果を促進するため,我々は,<url{https://github.com/A IED2021/multitask-di alogic-instruction} で実装をオンラインで提供する。

In this work, we study computational approaches to detect online dialogic instructions, which are widely used to help students understand learning materials, and build effective study habits. This task is rather challenging due to the widely-varying quality and pedagogical styles of dialogic instructions. To address these challenges, we utilize pre-trained language models, and propose a multi-task paradigm which enhances the ability to distinguish instances of different classes by enlarging the margin between categories via contrastive loss. Furthermore, we design a strategy to fully exploit the misclassified examples during the training stage. Extensive experiments on a real-world online educational data set demonstrate that our approach achieves superior performance compared to representative baselines. To encourage reproducible results, we make our implementation online available at \url{https://github.com/A IED2021/multitask-di alogic-instruction}.
翻訳日:2021-07-16 14:14:55 公開日:2021-07-15
# 学習済みニューラル言語モデルによるesl文補完問題の解法

Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models ( http://arxiv.org/abs/2107.07122v1 )

ライセンス: Link先を確認
Qiongqiong Liu, Tianqiao Liu, Jiafu Zhao, Qiang Fang, Wenbiao Ding, Zhongqin Wu, Feng Xia, Jiliang Tang, Zitao Liu(参考訳) 文完成 (SC) 質問は、1つ以上の空白を埋める必要のある文を示し、3つから5つの単語やフレーズをオプションとして提示する。 SC質問は、英語を第二言語(ESL)として学習する学生に広く用いられ、そのような質問を自動的に解く計算手法を構築することは、言語学習者にとって有益である。 本研究では,事前学習型言語モデルを用いて,英語試験におけるSC質問を解決するニューラルネットワークフレームワークを提案する。 我々は,実世界のk-12 esl sc問合せデータセットを広範囲に実験し,予測精度の観点からモデルの優越性を示す。 さらに,実際のシナリオにデプロイする場合の問題点を議論するために,精度-リコールトレードオフ分析を行う。 再現可能な結果を促進するため、コード公開は \url{https://github.com/A IED2021/ESL-Sentence Completion} で行います。

Sentence completion (SC) questions present a sentence with one or more blanks that need to be filled in, three to five possible words or phrases as options. SC questions are widely used for students learning English as a Second Language (ESL) and building computational approaches to automatically solve such questions is beneficial to language learners. In this work, we propose a neural framework to solve SC questions in English examinations by utilizing pre-trained language models. We conduct extensive experiments on a real-world K-12 ESL SC question dataset and the results demonstrate the superiority of our model in terms of prediction accuracy. Furthermore, we run precision-recall trade-off analysis to discuss the practical issues when deploying it in real-life scenarios. To encourage reproducible results, we make our code publicly available at \url{https://github.com/A IED2021/ESL-Sentence Completion}.
翻訳日:2021-07-16 14:14:40 公開日:2021-07-15
# star: スパーストランスフォーマーベースのアクション認識

STAR: Sparse Transformer-based Action Recognition ( http://arxiv.org/abs/2107.07089v1 )

ライセンス: Link先を確認
Feng Shi, Chonghan Lee, Liang Qiu, Yizhou Zhao, Tianyi Shen, Shivran Muralidhar, Tian Han, Song-Chun Zhu, Vijaykrishnan Narayanan(参考訳) 人間の行動と行動の認知システムは、深層学習体制へと発展し、特にグラフ畳み込みネットワークの出現は近年、この分野に変化をもたらした。 しかし、従来の研究は主にグラフ畳み込みネットワークに基づく過度パラメータ化と複雑なモデルに焦点を当てており、トレーニングと推論の効率は低い。 一方、Transformerアーキテクチャに基づくモデルはまだ人間の行動や行動推定における認知的応用について十分に研究されていない。 本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。 当社のモデルでは,ビデオクリップの可変長を単一バッチとして処理することも可能です。 実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。 実験の結果,本モデルが4~18倍のスピードアップと1/7~1/15モデルサイズを達成した。

The cognitive system for human action and behavior has evolved into a deep learning regime, and especially the advent of Graph Convolution Networks has transformed the field in recent years. However, previous works have mainly focused on over-parameterized and complex models based on dense graph convolution networks, resulting in low efficiency in training and inference. Meanwhile, the Transformer architecture-based model has not yet been well explored for cognitive application in human action and behavior estimation. This work proposes a novel skeleton-based human action recognition model with sparse attention on the spatial dimension and segmented linear attention on the temporal dimension of data. Our model can also process the variable length of video clips grouped as a single batch. Experiments show that our model can achieve comparable performance while utilizing much less trainable parameters and achieve high speed in training and inference. Experiments show that our model achieves 4~18x speedup and 1/7~1/15 model size compared with the baseline models at competitive accuracy.
翻訳日:2021-07-16 14:12:59 公開日:2021-07-15
# 深部自動自然画像マッチング

Deep Automatic Natural Image Matting ( http://arxiv.org/abs/2107.07235v1 )

ライセンス: Link先を確認
Jizhizi Li, Jing Zhang, Dacheng Tao(参考訳) オートマチック・イメージ・マットリング(aim)とは、トリマップのような補助入力なしに任意の自然画像からソフトフォアグラウンドを推定することであり、画像編集に有用である。 従来の方法は、人間や動物のような不透明な前景を持つ画像に制限されながら、マットングプロセスを支援するために意味的特徴を学習しようと試みていた。 本稿では, 自然画像への拡張の難しさを, 透明・妙な前景や非塩性前景で検討する。 この問題に対処するために、上記の型の任意の画像に対する一般化されたトリマップを統一的な意味表現として予測できる新しいエンドツーエンドマッチングネットワークを提案する。 同時に、学習された意味的特徴は、マッティングネットワークを注意機構を介して遷移領域に集中するように導く。 また,手動でラベル付けしたアルファマットとともに,500種類の自然画像を含むAIM-500の試験セットを構築し,AIMモデルの一般化能力を評価できるようにする。 実験の結果,利用可能な合成マッチングデータセットをトレーニングしたネットワークは,客観的・主観的にも既存手法よりも優れていることがわかった。 ソースコードとデータセットはhttps://github.com/J izhiziLi/AIM.comで入手できる。

Automatic image matting (AIM) refers to estimating the soft foreground from an arbitrary natural image without any auxiliary input like trimap, which is useful for image editing. Prior methods try to learn semantic features to aid the matting process while being limited to images with salient opaque foregrounds such as humans and animals. In this paper, we investigate the difficulties when extending them to natural images with salient transparent/meticulo us foregrounds or non-salient foregrounds. To address the problem, a novel end-to-end matting network is proposed, which can predict a generalized trimap for any image of the above types as a unified semantic representation. Simultaneously, the learned semantic features guide the matting network to focus on the transition areas via an attention mechanism. We also construct a test set AIM-500 that contains 500 diverse natural images covering all types along with manually labeled alpha mattes, making it feasible to benchmark the generalization ability of AIM models. Results of the experiments demonstrate that our network trained on available composite matting datasets outperforms existing methods both objectively and subjectively. The source code and dataset are available at https://github.com/J izhiziLi/AIM.
翻訳日:2021-07-16 14:12:44 公開日:2021-07-15
# FLEX:Few-Shot NLPの統一評価

FLEX: Unifying Evaluation for Few-Shot NLP ( http://arxiv.org/abs/2107.07170v1 )

ライセンス: Link先を確認
Jonathan Bragg, Arman Cohan, Kyle Lo, Iz Beltagy(参考訳) NLPの研究は非常に活発だが、挑戦的かつ現実的なテストのセットアップが欠如し、慎重な実験設計を採用できないような評価スイートを備えた不整合の研究スレッドで実施されている。 その結果、コミュニティはどのテクニックが優れているか、あるいは単純なベースラインよりも優れているかを知らない。 我々は,デシダラタを理想的な数点NLPベンチマークとして定式化し,最初のベンチマークであるFLEX,公開リーダボード,および数点NLPテクニックを統一的かつ包括的に測定するフレームワークを提案する。 FLEXは、4つの転送設定の測定、ゼロショット評価のためのテキストラベルの測定、統計精度を最適化するベンチマーク設計への原則的なアプローチを含む、数ショット評価のための新しいベストプラクティスを取り入れ、導入している。 さらに,UniFewは,事前学習と微調整のプロンプトフォーマットを統一した,シンプルだが強力なプロンプトベースモデルであり,近年のプロンプトベースアプローチによる言語モデル事前学習目的への下流タスク形式の適用を図っている。 シンプルさにもかかわらず、UniFewは一般的なメタ学習とプロンプトベースのアプローチの両方と競合する結果が得られることを実証する。

Few-shot NLP research is highly active, yet conducted in disjoint research threads with evaluation suites that lack challenging-yet-real istic testing setups and fail to employ careful experimental design. Consequently, the community does not know which techniques perform best or even if they outperform simple baselines. We formulate desiderata for an ideal few-shot NLP benchmark and present FLEX, the first benchmark, public leaderboard, and framework that provides unified, comprehensive measurement for few-shot NLP techniques. FLEX incorporates and introduces new best practices for few-shot evaluation, including measurement of four transfer settings, textual labels for zero-shot evaluation, and a principled approach to benchmark design that optimizes statistical accuracy while keeping evaluation costs accessible to researchers without large compute resources. In addition, we present UniFew, a simple yet strong prompt-based model for few-shot learning which unifies the pretraining and finetuning prompt formats, eschewing complex machinery of recent prompt-based approaches in adapting downstream task formats to language model pretraining objectives. We demonstrate that despite simplicity UniFew achieves results competitive with both popular meta-learning and prompt-based approaches.
翻訳日:2021-07-16 14:12:23 公開日:2021-07-15
# ターンテーブル: 推論スキルを持つ言語モデルのための半構造化表から例を生成する

Turning Tables: Generating Examples from Semi-structured Tables for Endowing Language Models with Reasoning Skills ( http://arxiv.org/abs/2107.07261v1 )

ライセンス: Link先を確認
Ori Yoran, Alon Talmor, Jonathan Berant(参考訳) 言語モデリングの目的で事前訓練されたモデルは、豊富な世界の知識と言語スキルを持っているが、推論を必要とするタスクで苦労することが知られている。 そこで本研究では,半構造化表を活用し,質問文中の複数の事実を推論する必要があるような,大規模質問-パラグラフペアを自動的に生成する手法を提案する。 この合成データに事前学習のステップを加え、数の比較、組み合わせ、事実合成など16種類の推論スキルを必要とする例を含む。 データ効率を向上させるために,モデルに現在欠けている推論スキルに重点を置くサンプリング戦略を提案する。 推論に焦点をあてた3つの読み理解データセットに対するアプローチを評価し,我々のモデルであるpreasmが,一般的なプリトレーニングエンコーダ・デコーダモデルであるt5を実質的に上回っていることを示す。 さらに、現在のモデルエラーに基づくサンプルのサンプリングは、トレーニングの高速化と全体的なパフォーマンスの向上につながる。

Models pre-trained with a language modeling objective possess ample world knowledge and language skills, but are known to struggle in tasks that require reasoning. In this work, we propose to leverage semi-structured tables, and automatically generate at scale question-paragraph pairs, where answering the question requires reasoning over multiple facts in the paragraph. We add a pre-training step over this synthetic data, which includes examples that require 16 different reasoning skills such as number comparison, conjunction, and fact composition. To improve data efficiency, we propose sampling strategies that focus training on reasoning skills the model is currently lacking. We evaluate our approach on three reading comprehension datasets that are focused on reasoning, and show that our model, PReasM, substantially outperforms T5, a popular pre-trained encoder-decoder model. Moreover, sampling examples based on current model errors leads to faster training and higher overall performance.
翻訳日:2021-07-16 14:11:59 公開日:2021-07-15
# AutoBERT-Zero: ScratchからBERTバックボーンを進化させる

AutoBERT-Zero: Evolving BERT Backbone from Scratch ( http://arxiv.org/abs/2107.07445v1 )

ライセンス: Link先を確認
Jiahui Gao, Hang Xu, Han shi, Xiaozhe Ren, Philip L.H. Yu, Xiaodan Liang, Xin Jiang, Zhenguo Li(参考訳) BERTのようなトランスフォーマーベースの事前学習型言語モデルとその変種は、最近、様々な自然言語処理(NLP)タスクで有望なパフォーマンスを達成した。 しかし、従来のパラダイムは、手動で設計したグローバルな自己注意層を純粋に積み重ねることでバックボーンを構築し、誘導バイアスを導入し、その結果、サブ最適となる。 そこで本研究では,将来性のあるハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。 十分に設計された探索空間(i)は,新しい注意構造を探索するために層内レベルの原始的な数学演算を含み,(ii)畳み込みブロックを層間レベルでの注意構造の補足として活用し,局所依存性をよりよく学習する。 提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。 具体的には,オペレーショナル・プライオリティ(OP)進化戦略を提案し,探索とエクスプロイトのバランスをとることによってモデル探索を容易にする。 さらに,高速モデル評価のためのbi-branch Weight-Sharing (BIWS) トレーニング戦略を設計する。 大規模な実験により、探索されたアーキテクチャ(AutoBERT-Zero)は、さまざまな下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回り、アーキテクチャの転送と一般化能力を証明することが示されている。 注目すべきは、AutoBERT-Zero-base は RoBERTa-base と BERT-large を 2.4 と 1.4 で上回っていることだ。 コードと事前訓練されたモデルは公開されます。

Transformer-based pre-trained language models like BERT and its variants have recently achieved promising performance in various natural language processing (NLP) tasks. However, the conventional paradigm constructs the backbone by purely stacking the manually designed global self-attention layers, introducing inductive bias and thus leading to sub-optimal. In this work, we propose an Operation-Priority Neural Architecture Search (OP-NAS) algorithm to automatically search for promising hybrid backbone architectures. Our well-designed search space (i) contains primitive math operations in the intra-layer level to explore novel attention structures, and (ii) leverages convolution blocks to be the supplementary for attention structure in the inter-layer level to better learn local dependency. We optimize both the search algorithm and evaluation of candidate models to boost the efficiency of our proposed OP-NAS. Specifically, we propose Operation-Priority (OP) evolution strategy to facilitate model search via balancing exploration and exploitation. Furthermore, we design a Bi-branch Weight-Sharing (BIWS) training strategy for fast model evaluation. Extensive experiments show that the searched architecture (named AutoBERT-Zero) significantly outperforms BERT and its variants of different model capacities in various downstream tasks, proving the architecture's transfer and generalization abilities. Remarkably, AutoBERT-Zero-base outperforms RoBERTa-base (using much more data) and BERT-large (with much larger model size) by 2.4 and 1.4 higher score on GLUE test set. Code and pre-trained models will be made publicly available.
翻訳日:2021-07-16 14:11:41 公開日:2021-07-15
# 不均衡データセットに対するマルチスキーマ分類器独立オーバーサンプリング手法

A multi-schematic classifier-independe nt oversampling approach for imbalanced datasets ( http://arxiv.org/abs/2107.07349v1 )

ライセンス: Link先を確認
Saptarshi Bej, Kristian Schultz, Prashant Srivastava, Markus Wolfien, Olaf Wolkenhauer(参考訳) 85以上のオーバーサンプリングアルゴリズム(主にSMOTEアルゴリズムの拡張)が過去20年間に構築され、不均衡なデータセットの問題を解決する。 しかし、異なるオーバーサンプリングアルゴリズムは異なる分類器で異なる効率性を持つことが以前の研究から明らかである。 多くのアルゴリズムが利用できるため、選択した分類器のオーバーサンプリングアルゴリズムを決定するのは難しい。 ここでは,マルチスキームで分類器非依存なオーバーサンプリング手法 prowras (proximity weighted random affine shadowsampling) によってこの問題を克服する。 ProWRASはローカライズされたランダムアフィンシャドウサンプリング (LoRAS) アルゴリズムと Proximity Weighted Synthetic Oversampling (ProWSyn) アルゴリズムを統合している。 合成サンプルの分散とマイノリティクラスデータの近接重み付けクラスタリングシステムを制御することにより、prowrasアルゴリズムはマイノリティクラスの高次元凸空間をモデル化して合成サンプルを生成するアルゴリズムと比較して、パフォーマンスを向上させる。 ProWRASには4つのオーバーサンプリングスキームがあり、それぞれが生成されたデータの分散をモデル化する独自の方法を持っている。 最も重要な点として、オーバーサンプリングスキームを適切に選択したProWRASの性能は、使用する分類器とは独立である。 新たに開発したprowrasアルゴリズムを,20の公開データセット上で5つのsate-of-the-artオーバーサンプリングモデルと4つの異なる分類器に対してベンチマークした。 prowrasは、f1-scoreとkappa-scoreの両方において、統計的に有意な方法で他のオーバーサンプリングアルゴリズムを上回る。 さらに,分類器独立性Iスコアのための新しい尺度を導入し,使用する分類器とは独立に,ProWRASが優れた性能を発揮することを示した。 実際には、prowrasは選択した分類器に従って合成サンプル生成をカスタマイズし、ベンチマーク作業を減らす。

Over 85 oversampling algorithms, mostly extensions of the SMOTE algorithm, have been built over the past two decades, to solve the problem of imbalanced datasets. However, it has been evident from previous studies that different oversampling algorithms have different degrees of efficiency with different classifiers. With numerous algorithms available, it is difficult to decide on an oversampling algorithm for a chosen classifier. Here, we overcome this problem with a multi-schematic and classifier-independe nt oversampling approach: ProWRAS(Proximity Weighted Random Affine Shadowsampling). ProWRAS integrates the Localized Random Affine Shadowsampling (LoRAS)algorithm and the Proximity Weighted Synthetic oversampling (ProWSyn) algorithm. By controlling the variance of the synthetic samples, as well as a proximity-weighted clustering system of the minority classdata, the ProWRAS algorithm improves performance, compared to algorithms that generate synthetic samples through modelling high dimensional convex spaces of the minority class. ProWRAS has four oversampling schemes, each of which has its unique way to model the variance of the generated data. Most importantly, the performance of ProWRAS with proper choice of oversampling schemes, is independent of the classifier used. We have benchmarked our newly developed ProWRAS algorithm against five sate-of-the-art oversampling models and four different classifiers on 20 publicly available datasets. ProWRAS outperforms other oversampling algorithms in a statistically significant way, in terms of both F1-score and Kappa-score. Moreover, we have introduced a novel measure for classifier independence I-score, and showed quantitatively that ProWRAS performs better, independent of the classifier used. In practice, ProWRAS customizes synthetic sample generation according to a classifier of choice and thereby reduces benchmarking efforts.
翻訳日:2021-07-16 14:11:10 公開日:2021-07-15
# 隠れ変数を持つ有向非巡回グラフにおけるe$-分離関係からのエントロピー不等式制約

Entropic Inequality Constraints from $e$-separation Relations in Directed Acyclic Graphs with Hidden Variables ( http://arxiv.org/abs/2107.07087v1 )

ライセンス: Link先を確認
Noam Finkelstein, Beata Zjawin, Elie Wolfe, Ilya Shpitser, Robert W. Spekkens(参考訳) 隠れ変数を持つ非巡回グラフ(DAG)は、システム内の変数間の因果関係を特徴づけるためにしばしば用いられる。 いくつかの変数が観測されていない場合、DAGは観測された変数の分布に関する、非常に複雑な制約セットを暗示する。 本研究では、離散変数を持つ隠れ変数DAGにおける$e$-セパレーション関係によって示唆されるエントロピー不等式制約を示す。 この制約は、情報伝達の因果経路に沿った変数の容量がエントロピーによって制限されるという事実から直感的に理解することができる。 極端な場合、エントロピー$0$の変数は情報を伝えることができない。 これらの制約を観測されたデータ分布から真の因果モデルを学ぶためにどのように利用できるかを示す。 さらに, 最小媒介エントロピーと呼ばれる因果影響の尺度を提案し, 平均因果効果などの従来の尺度を増大させることができることを示した。

Directed acyclic graphs (DAGs) with hidden variables are often used to characterize causal relations between variables in a system. When some variables are unobserved, DAGs imply a notoriously complicated set of constraints on the distribution of observed variables. In this work, we present entropic inequality constraints that are implied by $e$-separation relations in hidden variable DAGs with discrete observed variables. The constraints can intuitively be understood to follow from the fact that the capacity of variables along a causal pathway to convey information is restricted by their entropy; e.g. at the extreme case, a variable with entropy $0$ can convey no information. We show how these constraints can be used to learn about the true causal model from an observed data distribution. In addition, we propose a measure of causal influence called the minimal mediary entropy, and demonstrate that it can augment traditional measures such as the average causal effect.
翻訳日:2021-07-16 14:09:57 公開日:2021-07-15
# gaussian process posteriorsにおける主成分分析

Principal component analysis for Gaussian process posteriors ( http://arxiv.org/abs/2107.07115v1 )

ライセンス: Link先を確認
Hideaki Ishibashi and Shotaro Akaho(参考訳) 本稿ではGP-PCAで表されるガウス過程後部における主成分分析の拡張を提案する。 GP-PCAはGP後部の低次元空間を推定するので、一連のタスクの構造を推定することにより、新しいタスクの精度を向上させるためのフレームワークであるメタラーニングに使用できる。 問題は、座標系や発散のような無限次元のパラメータを持つGPの集合の構造をどのように定義するかである。 本研究では,情報幾何学的枠組みの下でのGPの無限大性を,それ以前のGP後続空間を考慮し,有限次元の場合へ還元する。 さらに,変分推論に基づくGP-PCAの近似法を提案し,実験によるメタラーニングにおけるGP-PCAの有効性を示す。

This paper proposes an extension of principal component analysis for Gaussian process posteriors denoted by GP-PCA. Since GP-PCA estimates a low-dimensional space of GP posteriors, it can be used for meta-learning, which is a framework for improving the precision of a new task by estimating a structure of a set of tasks. The issue is how to define a structure of a set of GPs with an infinite-dimensional parameter, such as coordinate system and a divergence. In this study, we reduce the infiniteness of GP to the finite-dimensional case under the information geometrical framework by considering a space of GP posteriors that has the same prior. In addition, we propose an approximation method of GP-PCA based on variational inference and demonstrate the effectiveness of GP-PCA as meta-learning through experiments.
翻訳日:2021-07-16 14:09:42 公開日:2021-07-15
# Lockout: ニューラルネットワークのスパース正規化

Lockout: Sparse Regularization of Neural Networks ( http://arxiv.org/abs/2107.07160v1 )

ライセンス: Link先を確認
Gilmer Valdes, Wilmer Arbelo, Yannet Interian, and Jerome H. Friedman(参考訳) 多くの回帰および分類手順は、パラメータ化された関数 $f(x;w)$ の予測変数 $x$ をデータ $\{x_{i},y_{i}\}_1^N$ に適合させる。 しばしば、パラメータ $w$ の値に制約 $P(w)\leq t$ を配置することで、精度を向上させるために正規化を適用する。 f$ が線型函数である特別な場合において、これらの制約付き最適化問題の解を見つけるための効率的な方法は存在するが、$f$ が非線形である場合(例えば、)は不可能である。 ニューラルネットワーク)。 ここでは、任意の微分可能関数 $f$ と損失 $L$ に対してそのような解を全て提供し、任意の制約 $P$ は各パラメータの絶対値の単調関数の増大である。 任意のニューラルネットワークの規則化を誘導するスパーシティを含む応用について論じる。 実験の結果、これらのスパース解は通常、精度と解釈可能性の両方において密度の高い解よりも優れていることが示された。 この精度の改善は、しばしばグラフデータの解析における最先端の手法と競合し、時には優位になる。

Many regression and classification procedures fit a parameterized function $f(x;w)$ of predictor variables $x$ to data $\{x_{i},y_{i}\}_1^N$ based on some loss criterion $L(y,f)$. Often, regularization is applied to improve accuracy by placing a constraint $P(w)\leq t$ on the values of the parameters $w$. Although efficient methods exist for finding solutions to these constrained optimization problems for all values of $t\geq0$ in the special case when $f$ is a linear function, none are available when $f$ is non-linear (e.g. Neural Networks). Here we present a fast algorithm that provides all such solutions for any differentiable function $f$ and loss $L$, and any constraint $P$ that is an increasing monotone function of the absolute value of each parameter. Applications involving sparsity inducing regularization of arbitrary Neural Networks are discussed. Empirical results indicate that these sparse solutions are usually superior to their dense counterparts in both accuracy and interpretability. This improvement in accuracy can often make Neural Networks competitive with, and sometimes superior to, state-of-the-art methods in the analysis of tabular data.
翻訳日:2021-07-16 14:09:28 公開日:2021-07-15
# bi-lipschitz正規化流れの表現性について

On the expressivity of bi-Lipschitz normalizing flows ( http://arxiv.org/abs/2107.07232v1 )

ライセンス: Link先を確認
Alexandre Verine, Benjamin Negrevergne, Fabrice Rossi, Yann Chevaleyre(参考訳) 可逆函数は、函数とその逆函数が有界リプシッツ定数を持つとき、双リプシッツである。 今日では、ほとんどの正規化フローは、設計または数値エラー(その他)を制限するための訓練によってバイリプシッツである。 本稿では,bi-lipschitz正規化流れの表現性について論じ,これらのモデルを用いた近似が難しい複数の対象分布を同定する。 次に, ビリプシッツ正規化流れの表現率を, 特に不適合な分布と最良近似との間の全変動距離のいくつかの下界を与えることにより特徴付ける。 最後に,より複雑な潜在分布を用いた治療の可能性について考察する。

An invertible function is bi-Lipschitz if both the function and its inverse have bounded Lipschitz constants. Nowadays, most Normalizing Flows are bi-Lipschitz by design or by training to limit numerical errors (among other things). In this paper, we discuss the expressivity of bi-Lipschitz Normalizing Flows and identify several target distributions that are difficult to approximate using such models. Then, we characterize the expressivity of bi-Lipschitz Normalizing Flows by giving several lower bounds on the Total Variation distance between these particularly unfavorable distributions and their best possible approximation. Finally, we discuss potential remedies which include using more complex latent distributions.
翻訳日:2021-07-16 14:09:06 公開日:2021-07-15
# 入力依存なスパースガウス過程

Input Dependent Sparse Gaussian Processes ( http://arxiv.org/abs/2107.07281v1 )

ライセンス: Link先を確認
Bahram Jafrasteh and Carlos Villacampa-Calvo and Daniel Hern\'andez-Lobato(参考訳) ガウス過程 (Gaussian Processs, GP) はベイズモデルであり、予測に関連付けられた不確実性の推定を提供する。 また、非パラメトリックな性質から非常に柔軟である。 それでも、トレーニングインスタンスnが増加すると、gpsのスケーラビリティが低下する。 より正確に言えば、彼らは立方体コストが$n$である。 この問題を解決するために、トレーニング中にM \ll N$のインジェクションポイントのセットを導入し、スパースGP近似が頻繁に用いられる。 誘導点の位置は、近似後方分布$q$のパラメータとして考慮することで学習される。 スパースGPは$q$を推論するための変分推論と組み合わせて、GPのトレーニングコストを$\mathcal{O}(M^3)$に下げる。 批判的に、誘導点はモデルの柔軟性を決定し、しばしば潜在関数が変化する入力空間の領域に配置される。 しかし、いくつかの学習タスクでは、優れた予測性能を得るために多くの誘導点が必要であるという制限がある。 そこで本研究では,この制限に対処するために,誘導点位置の計算と変分後近似qのパラメータを償却する。 このために、観測されたデータを入力として受信し、誘導点の位置と$q$のパラメータを出力するニューラルネットワークを使用する。 提案手法をいくつかの実験で評価し,他のsparse sparse variational gpアプローチと類似または良好な性能を示す。 しかし,本手法では入力データに依存するため,誘導点の数は大幅に減少する。 これにより、我々の手法はより大きなデータセットにスケールでき、より高速なトレーニングと予測時間が得られる。

Gaussian Processes (GPs) are Bayesian models that provide uncertainty estimates associated to the predictions made. They are also very flexible due to their non-parametric nature. Nevertheless, GPs suffer from poor scalability as the number of training instances N increases. More precisely, they have a cubic cost with respect to $N$. To overcome this problem, sparse GP approximations are often used, where a set of $M \ll N$ inducing points is introduced during training. The location of the inducing points is learned by considering them as parameters of an approximate posterior distribution $q$. Sparse GPs, combined with variational inference for inferring $q$, reduce the training cost of GPs to $\mathcal{O}(M^3)$. Critically, the inducing points determine the flexibility of the model and they are often located in regions of the input space where the latent function changes. A limitation is, however, that for some learning tasks a large number of inducing points may be required to obtain a good prediction performance. To address this limitation, we propose here to amortize the computation of the inducing points locations, as well as the parameters of the variational posterior approximation q. For this, we use a neural network that receives the observed data as an input and outputs the inducing points locations and the parameters of $q$. We evaluate our method in several experiments, showing that it performs similar or better than other state-of-the-art sparse variational GP approaches. However, with our method the number of inducing points is reduced drastically due to their dependency on the input data. This makes our method scale to larger datasets and have faster training and prediction times.
翻訳日:2021-07-16 14:08:53 公開日:2021-07-15
# 階層グラフニューラルネットは長距離相互作用を捉えることができる

Hierarchical graph neural nets can capture long-range interactions ( http://arxiv.org/abs/2107.07432v1 )

ライセンス: Link先を確認
Ladislav Ramp\'a\v{s}ek, Guy Wolf(参考訳) 近隣ノード間のメッセージパッシングに基づくグラフニューラルネットワーク(GNN)は、グラフ内の長距離インタラクションをキャプチャするには不十分であることが知られている。 本研究では,与えられたグラフのマルチレゾリューション表現を利用する階層的メッセージパッシングモデルについて検討する。 これにより、局所的な情報を失うことなく、大きな受容領域にまたがる特徴の学習が容易になる。 階層グラフネット(HGNet)を導入し、任意の2つの接続ノードに対して、最大対数長 w.r.t のメッセージパスが存在することを保証します。 入力グラフのサイズです しかし、穏やかな仮定の下では、内部階層は入力グラフと同等の漸近的な大きさを維持する。 HGNetは特に分子特性予測ベンチマークにおいて,従来のGCN層の積み重ねよりも優れていた。 最後に,グラフにおける長距離インタラクションを活用するgnnの能力を明らかにするために設計された2つのベンチマークタスクを提案する。

Graph neural networks (GNNs) based on message passing between neighboring nodes are known to be insufficient for capturing long-range interactions in graphs. In this project we study hierarchical message passing models that leverage a multi-resolution representation of a given graph. This facilitates learning of features that span large receptive fields without loss of local information, an aspect not studied in preceding work on hierarchical GNNs. We introduce Hierarchical Graph Net (HGNet), which for any two connected nodes guarantees existence of message-passing paths of at most logarithmic length w.r.t. the input graph size. Yet, under mild assumptions, its internal hierarchy maintains asymptotic size equivalent to that of the input graph. We observe that our HGNet outperforms conventional stacking of GCN layers particularly in molecular property prediction benchmarks. Finally, we propose two benchmarking tasks designed to elucidate capability of GNNs to leverage long-range interactions in graphs.
翻訳日:2021-07-16 14:08:29 公開日:2021-07-15
# 住宅市場の予測を後押しする画像は?

What Image Features Boost Housing Market Predictions? ( http://arxiv.org/abs/2107.07148v1 )

ライセンス: Link先を確認
Zona Kostic and Aleksandar Jevremovic(参考訳) プロパティの魅力は、モデルにとって最も興味深い、しかし挑戦的なカテゴリの1つです。 画像の特徴は、特定の属性を記述し、視覚的要因がリストの価格や時間枠に与える影響を調べるために用いられる。 本稿では,現在の予測アルゴリズムにおいて,効率的な数値包含のための視覚的特徴抽出手法を提案する。 本稿では,シャノンのエントロピー,重心計算,画像分割,畳み込みニューラルネットワークなどの技術について議論する。 i) エントロピーは住宅価格予測の最も効率的な1桁の視覚的指標であり, (ii) イメージセグメンテーションは住宅寿命予測の最も重要な視覚的特徴であり, (iii) 奥行き画像特徴は内部特性の定量化とキャプティベーションモデリングへの貢献に利用できる。 ここで選択された40の画像特徴のセットは、かなりの量の予測能力を持ち、最も強力なメタデータ予測器を上回っている。 本論文では,実環境評価プロセスにおいて,人間専門家を置き換えることなく,可視的特性を効率的に表現し,住宅の予測モデリングに定量的な尺度として知覚的魅力を導入することができると結論づける。

The attractiveness of a property is one of the most interesting, yet challenging, categories to model. Image characteristics are used to describe certain attributes, and to examine the influence of visual factors on the price or timeframe of the listing. In this paper, we propose a set of techniques for the extraction of visual features for efficient numerical inclusion in modern-day predictive algorithms. We discuss techniques such as Shannon's entropy, calculating the center of gravity, employing image segmentation, and using Convolutional Neural Networks. After comparing these techniques as applied to a set of property-related images (indoor, outdoor, and satellite), we conclude the following: (i) the entropy is the most efficient single-digit visual measure for housing price prediction; (ii) image segmentation is the most important visual feature for the prediction of housing lifespan; and (iii) deep image features can be used to quantify interior characteristics and contribute to captivation modeling. The set of 40 image features selected here carries a significant amount of predictive power and outperforms some of the strongest metadata predictors. Without any need to replace a human expert in a real-estate appraisal process, we conclude that the techniques presented in this paper can efficiently describe visible characteristics, thus introducing perceived attractiveness as a quantitative measure into the predictive modeling of housing.
翻訳日:2021-07-16 14:08:13 公開日:2021-07-15
# 光衛星画像と宇宙搭載LIDARによる大規模炭素ストックマッピング

High carbon stock mapping at large scale with optical satellite imagery and spaceborne LIDAR ( http://arxiv.org/abs/2107.07431v1 )

ライセンス: Link先を確認
Nico Lang, Konrad Schindler, Jan Dirk Wegner(参考訳) 商品需要の増加は、世界中の土地利用の変化につながっている。 熱帯では、高い炭素排出量を引き起こし、生物多様性を脅かす森林伐採は、しばしば農業の拡大と結びついている。 森林破壊のないグローバルサプライチェーンの必要性は広く認識されているが、実際には進歩が課題である。 本研究では,hcs(high carbon stock)アプローチに従って,熱帯景観を大規模かつ高空間分解能にマッピングし,保全と持続可能な土地利用計画決定を支援するための自動的手法を提案する。 本研究では,10mのsentinel-2ピクセルに対して,sparse gedi lidar参照データからキャノピー高さを推定し,全体のrmseを6.3mとし,これらのキャノピー頂部の壁対壁図は,hcs林と劣化地域を86%の精度で分類し,インドネシア,マレーシア,フィリピンで最初の高炭素ストックマップを作成するための予測値であることを示す。

The increasing demand for commodities is leading to changes in land use worldwide. In the tropics, deforestation, which causes high carbon emissions and threatens biodiversity, is often linked to agricultural expansion. While the need for deforestation-free global supply chains is widely recognized, making progress in practice remains a challenge. Here, we propose an automated approach that aims to support conservation and sustainable land use planning decisions by mapping tropical landscapes at large scale and high spatial resolution following the High Carbon Stock (HCS) approach. A deep learning approach is developed that estimates canopy height for each 10 m Sentinel-2 pixel by learning from sparse GEDI LIDAR reference data, achieving an overall RMSE of 6.3 m. We show that these wall-to-wall maps of canopy top height are predictive for classifying HCS forests and degraded areas with an overall accuracy of 86 % and produce a first high carbon stock map for Indonesia, Malaysia, and the Philippines.
翻訳日:2021-07-16 14:07:50 公開日:2021-07-15
# 高速SATソルバのためのトランスフォーマーベース機械学習と論理合成

Transformer-based Machine Learning for Fast SAT Solvers and Logic Synthesis ( http://arxiv.org/abs/2107.07116v1 )

ライセンス: Link先を確認
Feng Shi, Chonghan Lee, Mohammad Khairul Bashar, Nikhil Shukla, Song-Chun Zhu and Vijaykrishnan Narayanan(参考訳) CNFベースのSATとMaxSATは論理合成と検証システムの中心である。 電子設計自動化におけるこれらの制約問題の普及は、様々なSAT問題とその特性の研究を奨励し、さらなる計算効率を高める。 現代のコンフリクト駆動の節学習satソルバは理論的にも実用的にも成功しており、比較的短時間で非常に大きな産業インスタンスを解決できる。 最近、機械学習のアプローチは、この難しい問題を解決する新しい次元を提供する。 ニューラルシンボリックモデルは、モデルの構造を変更することなく、データに基づいて特定のドメインに特化できる汎用的なソルバとして機能する。 本研究では,最大節数を満たすことを目的としたSATの最適化版であるMaxSAT問題を解決するために,Transformerアーキテクチャから派生したワンショットモデルを提案する。 モデルにはスケールフリーな構造があり、さまざまなインスタンスのサイズを処理できます。 同種ノード間の相互作用を捉えるためにメタパスと自己認識機構を用いる。 我々は,異種ノード間の相互作用を捉えるために,二部グラフ上のクロスアテンション機構を採用する。 さらに、追加の節を満たすために反復アルゴリズムをモデルに適用し、正確なSAT問題にアプローチする解を可能にする。 注意機構は並列性を利用してスピードアップを行う。 本評価は,ヒューリスティックアプローチと比較して高速化され,機械学習アプローチに比べて完成率も向上したことを示す。

CNF-based SAT and MaxSAT solvers are central to logic synthesis and verification systems. The increasing popularity of these constraint problems in electronic design automation encourages studies on different SAT problems and their properties for further computational efficiency. There has been both theoretical and practical success of modern Conflict-driven clause learning SAT solvers, which allows solving very large industrial instances in a relatively short amount of time. Recently, machine learning approaches provide a new dimension to solving this challenging problem. Neural symbolic models could serve as generic solvers that can be specialized for specific domains based on data without any changes to the structure of the model. In this work, we propose a one-shot model derived from the Transformer architecture to solve the MaxSAT problem, which is the optimization version of SAT where the goal is to satisfy the maximum number of clauses. Our model has a scale-free structure which could process varying size of instances. We use meta-path and self-attention mechanism to capture interactions among homogeneous nodes. We adopt cross-attention mechanisms on the bipartite graph to capture interactions among heterogeneous nodes. We further apply an iterative algorithm to our model to satisfy additional clauses, enabling a solution approaching that of an exact-SAT problem. The attention mechanisms leverage the parallelism for speedup. Our evaluation indicates improved speedup compared to heuristic approaches and improved completion rate compared to machine learning approaches.
翻訳日:2021-07-16 14:07:30 公開日:2021-07-15
# 代表例を用いた多様性の監査

Auditing for Diversity using Representative Examples ( http://arxiv.org/abs/2107.07393v1 )

ライセンス: Link先を確認
Vijay Keswani and L. Elisa Celis(参考訳) 下流アプリケーションでこのようなデータを使用する前に、人々に関連する情報のデータセットの多様性を評価することが重要である。 与えられたデータセットに対して、これはしばしば保護された属性(例えば、)の経験的限界分布の不均衡や不均衡を計算する。 性別、方言など)。 しかし、Google検索の画像やTwitter投稿のコレクションのような現実世界のデータセットは、しばしば保護属性をラベル付けしていない。 したがって、このようなデータセットの格差を導出するためには、高価なプロセスである手書きまたはクラウドアノテートされた要素が必要である。 本稿では、ラベル付き代表例の制御セットを用いて、保護属性に対するラベル付きデータセットの相違を近似するコスト効率のよいアプローチを提案する。 提案するアルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を用いて,データセットの差異に対する近似を効果的にブートストラップする。 重要となるのは,データセットのサイズよりもサイズがはるかに小さい制御セットを使用することで,近似誤差を小さくできることを示すことである。 さらに,本理論の枠組みに基づき,ランダムに選択した制御集合よりも近似誤差が小さい適応制御集合を構築するアルゴリズムを提案する。 2つの画像データセットと1つのtwitterデータセットのシミュレーションは、さまざまなデータセットの多様性を監査する上で、このアプローチ(ランダムおよび適応制御セットを使用)の有効性を示しています。

Assessing the diversity of a dataset of information associated with people is crucial before using such data for downstream applications. For a given dataset, this often involves computing the imbalance or disparity in the empirical marginal distribution of a protected attribute (e.g. gender, dialect, etc.). However, real-world datasets, such as images from Google Search or collections of Twitter posts, often do not have protected attributes labeled. Consequently, to derive disparity measures for such datasets, the elements need to hand-labeled or crowd-annotated, which are expensive processes. We propose a cost-effective approach to approximate the disparity of a given unlabeled dataset, with respect to a protected attribute, using a control set of labeled representative examples. Our proposed algorithm uses the pairwise similarity between elements in the dataset and elements in the control set to effectively bootstrap an approximation to the disparity of the dataset. Importantly, we show that using a control set whose size is much smaller than the size of the dataset is sufficient to achieve a small approximation error. Further, based on our theoretical framework, we also provide an algorithm to construct adaptive control sets that achieve smaller approximation errors than randomly chosen control sets. Simulations on two image datasets and one Twitter dataset demonstrate the efficacy of our approach (using random and adaptive control sets) in auditing the diversity of a wide variety of datasets.
翻訳日:2021-07-16 14:07:12 公開日:2021-07-15
# バンディット多重テストのための統一フレームワーク

A unified framework for bandit multiple testing ( http://arxiv.org/abs/2107.07322v1 )

ライセンス: Link先を確認
Ziyu Xu, Ruodu Wang, Aaditya Ramdas(参考訳) バンディット多重仮説テストでは、各アームは我々がテストしたい異なるヌル仮説に対応しており、目標は、いくつかの興味深いアーム(真の発見)を正しく識別する適応アルゴリズムを設計することである。 非バンド多重試験における一般的な測定基準は、偽発見率(FDR)である。 我々は,探索の分離と証拠の要約を強調する,バンド型FDR制御のための統一的モジュール化フレームワークを提案する。 We use the powerful martingale-based concept of `e-processes' to ensure FDR control for arbitrary Composite nulls, exploration rules and stop time in generic problem settings。 特に、有効なfdrコントロールは、腕の報酬分布に依存する可能性があるとしても、複数の腕を同時に問い合わせることができ、複数の(協力的または競合する)エージェントが腕をクエリし、組合せ半バンド型の設定もカバーする。 以前の研究は、各腕の報酬分布が独立してガウシアン以下であり、各ステップで1本の腕がクエリされる設定を深く検討してきた。 当社のフレームワークは、この特別なケースでサンプル複雑性の保証をマッチングし、比較可能な、あるいはより優れたパフォーマンスを実現します。 他の設定では、サンプルの複雑さは問題のより細かい部分(テスト対象のnull、探索アルゴリズム、データ依存構造、停止規則)に依存しており、私たちはこれらを探索しません。

In bandit multiple hypothesis testing, each arm corresponds to a different null hypothesis that we wish to test, and the goal is to design adaptive algorithms that correctly identify large set of interesting arms (true discoveries), while only mistakenly identifying a few uninteresting ones (false discoveries). One common metric in non-bandit multiple testing is the false discovery rate (FDR). We propose a unified, modular framework for bandit FDR control that emphasizes the decoupling of exploration and summarization of evidence. We utilize the powerful martingale-based concept of ``e-processes'' to ensure FDR control for arbitrary composite nulls, exploration rules and stopping times in generic problem settings. In particular, valid FDR control holds even if the reward distributions of the arms could be dependent, multiple arms may be queried simultaneously, and multiple (cooperating or competing) agents may be querying arms, covering combinatorial semi-bandit type settings as well. Prior work has considered in great detail the setting where each arm's reward distribution is independent and sub-Gaussian, and a single arm is queried at each step. Our framework recovers matching sample complexity guarantees in this special case, and performs comparably or better in practice. For other settings, sample complexities will depend on the finer details of the problem (composite nulls being tested, exploration algorithm, data dependence structure, stopping rule) and we do not explore these; our contribution is to show that the FDR guarantee is clean and entirely agnostic to these details.
翻訳日:2021-07-16 14:06:48 公開日:2021-07-15
# エッジ保存および構造保存画像平滑化のための一般化フレームワーク

A Generalized Framework for Edge-preserving and Structure-preserving Image Smoothing ( http://arxiv.org/abs/2107.07058v1 )

ライセンス: Link先を確認
Wei Liu and Pingping Zhang and Yinjie Lei and Xiaolin Huang and Jie Yang and Michael Ng(参考訳) 画像平滑化はコンピュータビジョンとグラフィックスの両方の応用において基本的な手順である。 必要な平滑化特性は、異なるタスク間で異なる、あるいは矛盾することもある。 それにもかかわらず、ある平滑化作用素の固有の平滑化性質は通常固定され、したがって異なる応用の様々な要件を満たすことができない。 本稿では,まず,異なるパラメータ設定下での強い柔軟性を示すtruncated Huberのペナルティ関数を紹介する。 一般化されたフレームワークが導入されたtruncated Huberペナルティ関数で提案される。 強い柔軟性と組み合わせることで、我々のフレームワークは、矛盾する平滑な振る舞いを達成できる多様な平滑な性質を達成できます。 また,従来の手法ではめったに達成できない平滑な動作が得られるため,課題のある場合には優れた性能が得られる。 これらを組み合わせることで、我々は様々な応用が可能となり、画像ディテールの強化、クリップアート圧縮アーティファクトの除去、ガイドされた深度マップの復元、画像テクスチャの除去など、様々なタスクにおいて最先端のアプローチより優れている。 さらに、効率的な数値解が提供され、最適化フレームワークが非凸かつ非滑らかであっても、その収束が理論的に保証される。 さらに,本手法の性能を維持しつつ,計算コストを削減するための簡易かつ効果的な手法を提案する。 本手法の有効性と性能は,応用範囲の総合的な実験を通じて検証する。 私たちのコードはhttps://github.com/w liusjtu/generalized- smoothing-frameworkで利用可能です。

Image smoothing is a fundamental procedure in applications of both computer vision and graphics. The required smoothing properties can be different or even contradictive among different tasks. Nevertheless, the inherent smoothing nature of one smoothing operator is usually fixed and thus cannot meet the various requirements of different applications. In this paper, we first introduce the truncated Huber penalty function which shows strong flexibility under different parameter settings. A generalized framework is then proposed with the introduced truncated Huber penalty function. When combined with its strong flexibility, our framework is able to achieve diverse smoothing natures where contradictive smoothing behaviors can even be achieved. It can also yield the smoothing behavior that can seldom be achieved by previous methods, and superior performance is thus achieved in challenging cases. These together enable our framework capable of a range of applications and able to outperform the state-of-the-art approaches in several tasks, such as image detail enhancement, clip-art compression artifacts removal, guided depth map restoration, image texture removal, etc. In addition, an efficient numerical solution is provided and its convergence is theoretically guaranteed even the optimization framework is non-convex and non-smooth. A simple yet effective approach is further proposed to reduce the computational cost of our method while maintaining its performance. The effectiveness and superior performance of our approach are validated through comprehensive experiments in a range of applications. Our code is available at https://github.com/w liusjtu/Generalized- Smoothing-Framework.
翻訳日:2021-07-16 14:06:20 公開日:2021-07-15
# 胸部X線レポート生成のための変分トピック推論

Variational Topic Inference for Chest X-Ray Report Generation ( http://arxiv.org/abs/2107.07314v1 )

ライセンス: Link先を確認
Ivona Najdenkoska, Xiantong Zhen, Marcel Worring and Ling Shao(参考訳) 医療画像のためのレポート生成の自動化は、臨床における作業負荷の削減と診断の支援を約束する。 近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功できることが示されている。 しかし、医療データから学ぶことは、異なる放射線科医による専門知識と経験の異なる報告書に内在する多様性と不確実性のために困難である。 これらの課題に取り組むために,自動レポート生成のための変動トピック推論を提案する。 具体的には、潜時空間における画像と言語モダリティを整列させて文生成を導くために、潜時変数としてトピックセットを導入する。 各トピックは条件付き変分推論フレームワークで推論され、各トピックはレポート内の文の生成を規定する。 さらに,画像内の異なる場所にモデルが出席し,より情報的な記述を生成できるビジュアルアテンションモジュールも採用している。 インディアナUという2つのベンチマークで広範な実験を行う。 胸部X線とMIMIC-CXR その結果,提案手法は,標準言語生成基準において最先端の手法に匹敵する性能を保ちつつ,トレーニングで使用するレポートのコピーではなく,新たなレポートを生成することができることがわかった。

Automating report generation for medical imaging promises to reduce workload and assist diagnosis in clinical practice. Recent work has shown that deep learning models can successfully caption natural images. However, learning from medical data is challenging due to the diversity and uncertainty inherent in the reports written by different radiologists with discrepant expertise and experience. To tackle these challenges, we propose variational topic inference for automatic report generation. Specifically, we introduce a set of topics as latent variables to guide sentence generation by aligning image and language modalities in a latent space. The topics are inferred in a conditional variational inference framework, with each topic governing the generation of a sentence in the report. Further, we adopt a visual attention module that enables the model to attend to different locations in the image and generate more informative descriptions. We conduct extensive experiments on two benchmarks, namely Indiana U. Chest X-rays and MIMIC-CXR. The results demonstrate that our proposed variational topic inference method can generate novel reports rather than mere copies of reports used in training, while still achieving comparable performance to state-of-the-art methods in terms of standard language generation criteria.
翻訳日:2021-07-16 14:05:57 公開日:2021-07-15
# expert graphs: コラボレーションによる新しい専門知識の合成

Expert Graphs: Synthesizing New Expertise via Collaboration ( http://arxiv.org/abs/2107.07054v1 )

ライセンス: Link先を確認
Bijan Mazaheri, Siddharth Jain, Jehoshua Bruck(参考訳) 不確定な入力の下で分類問題に取り組む専門知識を重複させた複数の専門家を考える。 一貫した意見のセットを構成するものは何か? 不足しているサブドメインについて専門家の意見を予測するには? 本稿では,この問題を分析するための枠組みを「専門家グラフ」と定義する。 専門グラフでは、頂点はクラスを表し、エッジは頂点のトピックに関する二項の意見を表す。 専門家グラフの有効性に必要な条件を導出し、他の専門家の観察した意見と一致する意見を記述する「合成専門家」を作成する。 この枠組みはよく研究された線形順序付けポリトープと同値である。 我々の条件は、clique 上のすべての専門家グラフを記述するのに十分ではないが、サイクルに十分であることを示す。

Consider multiple experts with overlapping expertise working on a classification problem under uncertain input. What constitutes a consistent set of opinions? How can we predict the opinions of experts on missing sub-domains? In this paper, we define a framework of to analyze this problem, termed "expert graphs." In an expert graph, vertices represent classes and edges represent binary opinions on the topics of their vertices. We derive necessary conditions for expert graph validity and use them to create "synthetic experts" which describe opinions consistent with the observed opinions of other experts. We show this framework to be equivalent to the well-studied linear ordering polytope. We show our conditions are not sufficient for describing all expert graphs on cliques, but are sufficient for cycles.
翻訳日:2021-07-16 14:05:36 公開日:2021-07-15
# Tailor: セマンティックコントロールによるテキストの生成と摂動

Tailor: Generating and Perturbing Text with Semantic Controls ( http://arxiv.org/abs/2107.07150v1 )

ライセンス: Link先を確認
Alexis Ross, Tongshuang Wu, Hao Peng, Matthew E. Peters, Matt Gardner(参考訳) 制御された摂動は様々なタスク(データ拡張など)に不可欠であるが、タスク固有のジェネレータの構築は高価である。 本論文では,テキストを意味的に制御するタスク依存生成システムであるTailorを紹介する。 意識訓練とは異なり、我々は意味的役割から派生した一連の制御符号に従うために、tailor ジェネレータを設計する。 これらの制御符号の変更により、tailorはきめ細かい摂動を生成することができる。 複雑な摂動戦略を構成することができる制御コードに対する一連の操作を実装し、その効果を3つの異なるアプリケーションで示す: まず、Tailorは、語彙的に多様で、元のタスクテストデータよりもバイアスが少ない高品質のコントラストセットの構築を容易にする。 第2に、自動ラベリングヒューリスティックと組み合わせることで、データ拡張によるモデル一般化の改善を支援します。 第3に、微調整のオーバーヘッドがなければ、tailorの摂動は、6つの転送で微調整されたベースラインを上回って、細粒度スタイル転送における構成性を効果的に改善する。

Making controlled perturbations is essential for various tasks (e.g., data augmentation), but building task-specific generators can be expensive. We introduce Tailor, a task-agnostic generation system that perturbs text in a semantically-control led way. With unlikelihood training, we design Tailor's generator to follow a series of control codes derived from semantic roles. Through modifications of these control codes, Tailor can produce fine-grained perturbations. We implement a set of operations on control codes that can be composed into complex perturbation strategies, and demonstrate their effectiveness in three distinct applications: First, Tailor facilitates the construction of high-quality contrast sets that are lexically diverse, and less biased than original task test data. Second, paired with automated labeling heuristics, Tailor helps improve model generalization through data augmentation: We obtain an average gain of 1.73 on an NLI challenge set by perturbing just 5% of training data. Third, without any finetuning overhead, Tailor's perturbations effectively improve compositionality in fine-grained style transfer, outperforming fine-tuned baselines on 6 transfers.
翻訳日:2021-07-16 14:04:33 公開日:2021-07-15
# Wordcraft: ストーリーライティングのためのヒューマンAIコラボレーションエディタ

Wordcraft: a Human-AI Collaborative Editor for Story Writing ( http://arxiv.org/abs/2107.07430v1 )

ライセンス: Link先を確認
Andy Coenen, Luke Davis, Daphne Ippolito, Emily Reif, Ann Yuan(参考訳) ニューラル言語モデルの有効性が高まるにつれて、現実世界の設定にも適用されるようになっている。 しかし、これらのアプリケーションは、彼らがサポートするインタラクションのモードに制限される傾向がある。 本稿では,著者と対話システムが協調してストーリーを書く,ストーリー執筆のためのAI支援エディタであるWordcraftを提案する。 この新しいインタフェースは, 会話の自然な余裕と, わずかな学習を駆使して, 多様な対話を支援する。 筆者らは,トランスフォーマティブな言語モデルの境界を調査するためのサンドボックスを提供し,今後のヒューマン・イン・ザ・ループのトレーニングパイプラインや新しい評価手法への道を開く。

As neural language models grow in effectiveness, they are increasingly being applied in real-world settings. However these applications tend to be limited in the modes of interaction they support. In this extended abstract, we propose Wordcraft, an AI-assisted editor for story writing in which a writer and a dialog system collaborate to write a story. Our novel interface uses few-shot learning and the natural affordances of conversation to support a variety of interactions. Our editor provides a sandbox for writers to probe the boundaries of transformer-based language models and paves the way for future human-in-the-loop training pipelines and novel evaluation methods.
翻訳日:2021-07-16 14:04:13 公開日:2021-07-15
# バスタイムテーブルの動的最適化による深層強化学習

Deep Reinforcement Learning based Dynamic Optimization of Bus Timetable ( http://arxiv.org/abs/2107.07066v1 )

ライセンス: Link先を確認
Guanqun Ai, Xingquan Zuo, Gang chen, and Binglin Wu(参考訳) バスのタイムテーブル最適化は、バス会社の運用コストを削減し、サービス品質を改善する上で重要な課題である。 既存の方法は、正確なまたはヒューリスティックなアルゴリズムを使用して、オフラインでタイムテーブルを最適化する。 実際には、乗客の流れは時間とともに大きく変化する可能性がある。 オフラインで決定された時刻表は、変更した乗客の流れを満たすために出発間隔を調整できない。 バスタイムテーブルのオンライン性能向上を目的とした,深層強化学習に基づくバスタイムテーブル動的最適化手法(DRL-TO)を提案する。 本手法では,逐次決定問題として時刻表最適化を考える。 DQN(Deep Q-Network)は、サービス期間中にバスサービスをディスパッチするかどうかを決定する決定モデルとして使用される。 そのため、旅客需要に応じて、バスの出発間隔をリアルタイムで決定する。 そこで本研究では,DQNの負荷係数,キャパシティ利用率,ストランド乗客数など,いくつかの新しい,有用な状態特徴を明らかにした。 バス会社と乗客の双方の利益を考慮して、全荷率、空荷率、乗客の待ち時間、ストライディング乗客数などの指標を含む報酬機能を設計する。 本研究では,既存の輸送能力計算手法に基づいて,各バス駅におけるマッチング度を向上する手法を開発した。 実験により,メメティックアルゴリズム(BTOA-MA),遺伝的アルゴリズム(GA),手動手法に基づく最先端のバス時刻表最適化手法によって生成される時刻表と比較して,DRL-TOはリアルタイムの乗客フローに基づいて出発間隔を動的に決定し,車両の8$\%を節約し,乗客の待ち時間の平均17$\%を削減できることがわかった。

Bus timetable optimization is a key issue to reduce operational cost of bus companies and improve the service quality. Existing methods use exact or heuristic algorithms to optimize the timetable in an offline manner. In practice, the passenger flow may change significantly over time. Timetables determined in offline cannot adjust the departure interval to satisfy the changed passenger flow. Aiming at improving the online performance of bus timetable, we propose a Deep Reinforcement Learning based bus Timetable dynamic Optimization method (DRL-TO). In this method, the timetable optimization is considered as a sequential decision problem. A Deep Q-Network (DQN) is employed as the decision model to determine whether to dispatch a bus service during each minute of the service period. Therefore, the departure intervals of bus services are determined in real time in accordance with passenger demand. We identify several new and useful state features for the DQN, including the load factor, carrying capacity utilization rate, and the number of stranding passengers. Taking into account both the interests of the bus company and passengers, a reward function is designed, which includes the indicators of full load rate, empty load rate, passengers' waiting time, and the number of stranding passengers. Building on an existing method for calculating the carrying capacity, we develop a new technique to enhance the matching degree at each bus station. Experiments demonstrate that compared with the timetable generated by the state-of-the-art bus timetable optimization approach based on a memetic algorithm (BTOA-MA), Genetic Algorithm (GA) and the manual method, DRL-TO can dynamically determine the departure intervals based on the real-time passenger flow, saving 8$\%$ of vehicles and reducing 17$\%$ of passengers' waiting time on average.
翻訳日:2021-07-16 14:03:45 公開日:2021-07-15
# k-12オンライン教室におけるパーソナライズド教員推薦教育システム

An Educational System for Personalized Teacher Recommendation in K-12 Online Classrooms ( http://arxiv.org/abs/2107.07124v1 )

ライセンス: Link先を確認
Jiahao Chen, Hang Li, Wenbiao Ding, Zitao Liu(参考訳) 本稿では,オンライン一対一授業のための実践的教師推薦システムを構築するための,シンプルで効果的なソリューションを提案する。 本システムでは,(1)信頼性の高いトレーニングラベルを提供する疑似マッチングスコアモジュール,(2)候補者教師全員をスコア付けするランキングモデル,(3)新しい教師に新たな機会を与えるノベルティブースティングモジュール,(4)衝突の可能性を減らすために推奨結果をガードレールする多様性メトリクスから構成される。 オフライン実験の結果,我々のアプローチは広い範囲のベースラインを上回ることがわかった。 さらに,本手法は,オンライン教育プラットフォーム上での5ヶ月の観察において,学生と教師のマッチングの試みを7.22から3.09に削減できることを示す。

In this paper, we propose a simple yet effective solution to build practical teacher recommender systems for online one-on-one classes. Our system consists of (1) a pseudo matching score module that provides reliable training labels; (2) a ranking model that scores every candidate teacher; (3) a novelty boosting module that gives additional opportunities to new teachers; and (4) a diversity metric that guardrails the recommended results to reduce the chance of collision. Offline experimental results show that our approach outperforms a wide range of baselines. Furthermore, we show that our approach is able to reduce the number of student-teacher matching attempts from 7.22 to 3.09 in a five-month observation on a third-party online education platform.
翻訳日:2021-07-16 14:03:13 公開日:2021-07-15
# MeNToS: 時空間記憶ネットワークとトラッカーレットアソシエーション

MeNToS: Tracklets Association with a Space-Time Memory Network ( http://arxiv.org/abs/2107.07067v1 )

ライセンス: Link先を確認
Mehdi Miah, Guillaume-Alexandre Bilodeau and Nicolas Saunier(参考訳) マルチオブジェクト追跡とセグメンテーション(MOTS)の手法として,微調整やベンチマークごとのハイパーパラメータ選択を必要としない手法を提案する。 提案手法は,特にデータアソシエーション問題に対処する。 実際、最近導入されたHOTAメトリックは、検出と関連性の品質を均等にバランスさせることにより、人間の視覚的評価とより整合性を持つ。 インスタンスセグメンテーションと光フローを用いてトラックレットを作成した後、一ショットビデオオブジェクトセグメンテーションのために開発された時空間メモリネットワーク(STM)を用いて、トラックレットと時間的ギャップの関連性を改善する。 我々の知る限り、我々の手法であるMeNToSは、MOTSのオブジェクトマスクを追跡するためにSTMネットワークを使った最初の方法である。 我々はRobMOTSチャレンジで4位になった。 プロジェクトページはhttps://mehdimiah.co m/mentos.html。

We propose a method for multi-object tracking and segmentation (MOTS) that does not require fine-tuning or per benchmark hyperparameter selection. The proposed method addresses particularly the data association problem. Indeed, the recently introduced HOTA metric, that has a better alignment with the human visual assessment by evenly balancing detections and associations quality, has shown that improvements are still needed for data association. After creating tracklets using instance segmentation and optical flow, the proposed method relies on a space-time memory network (STM) developed for one-shot video object segmentation to improve the association of tracklets with temporal gaps. To the best of our knowledge, our method, named MeNToS, is the first to use the STM network to track object masks for MOTS. We took the 4th place in the RobMOTS challenge. The project page is https://mehdimiah.co m/mentos.html.
翻訳日:2021-07-16 14:02:03 公開日:2021-07-15
# 害虫認識のための効率的で小さな畳み込みニューラルネットワーク-ExquisiteNet

An Efficient and Small Convolutional Neural Network for Pest Recognition -- ExquisiteNet ( http://arxiv.org/abs/2107.07167v1 )

ライセンス: Link先を確認
Shi-Yao Zhou and Chung-Yen Su(参考訳) 近年、人口の急増により食糧不足が深刻な問題となっている。 食糧生産を安定させるためには、作物が害虫に襲われないようにすることが重要である。 一般的に農夫は農薬を使って害虫を殺傷するが、農薬を不適切に使用すると、ミツバチなどの作物に有益な昆虫を殺傷する。 もしミツバチの数が少なすぎると、世界の食料のサプリメントは短くなります。 さらに過度の殺虫剤が環境を汚染する。 そのため、農家は害虫を自動的に認識できる機械が必要である。 近年,画像分類におけるディープラーニングの有効性が注目されている。 本稿では,害虫認識のタスクを完了させるために,ExquisiteNetと呼ばれる小型で効率的なモデルを提案し,モバイルデバイスに適用することを期待する。 ExquisiteNetは主に2ブロックで構成されている。 1つはswish-and-excitation -bottleneckブロック(dfsebブロック)とダブルフュージョンし、もう1つはmax feature expansion block(meブロック)である。 ExquisiteNetは0.98Mパラメータしか持たず、その計算速度はSqueezeNetとほとんど同じである。 モデルの性能を評価するため,我々はIP102と呼ばれるベンチマークペストデータセットを用いてモデルを検証した。 ResNet101、ShuffleNetV2、MobileNetV3-large、EfficientNetなどの最先端モデルと比較して、我々のモデルはデータ拡張なしでテストセットの52.32%の精度を実現している。

Nowadays, due to the rapid population expansion, food shortage has become a critical issue. In order to stabilizing the food source production, preventing crops from being attacked by pests is very important. In generally, farmers use pesticides to kill pests, however, improperly using pesticides will also kill some insects which is beneficial to crops, such as bees. If the number of bees is too few, the supplement of food in the world will be in short. Besides, excessive pesticides will seriously pollute the environment. Accordingly, farmers need a machine which can automatically recognize the pests. Recently, deep learning is popular because its effectiveness in the field of image classification. In this paper, we propose a small and efficient model called ExquisiteNet to complete the task of recognizing the pests and we expect to apply our model on mobile devices. ExquisiteNet mainly consists of two blocks. One is double fusion with squeeze-and-excitati on-bottleneck block (DFSEB block), and the other is max feature expansion block (ME block). ExquisiteNet only has 0.98M parameters and its computing speed is very fast almost the same as SqueezeNet. In order to evaluate our model's performance, we test our model on a benchmark pest dataset called IP102. Compared to many state-of-the-art models, such as ResNet101, ShuffleNetV2, MobileNetV3-large and EfficientNet etc., our model achieves higher accuracy, that is, 52.32% on the test set of IP102 without any data augmentation.
翻訳日:2021-07-16 14:01:45 公開日:2021-07-15
# 表面正規化測定におけるランベルティアン前駆体の導入

Incorporating Lambertian Priors into Surface Normals Measurement ( http://arxiv.org/abs/2107.07192v1 )

ライセンス: Link先を確認
Yakun Ju, Muwei Jian, Shaoxiang Guo, Yingyu Wang, Huiyu Zhou, Junyu Dong(参考訳) 測光ステレオの目標は、様々なシェーディング手がかりを用いた観測から3次元物体の正確な表面正常度を測定することである。 しかし、非ランベルト曲面は不規則な陰影による測定精度に影響を与える。 非ランベルト曲面の性能をシミュレートするためにディープニューラルネットワークが用いられてきたが、スペクティリティ、シャドウ、クリンクル領域の誤差は減少しにくい。 この課題に対処するために,ランベルティアン事前を組み込んだ測光ステレオネットワークを提案し,表面の正常さをよりよく測定する。 本稿では,観測されたシェーディングキューのみを用いて表面の正規を導出する代わりに,ランベルトの仮定の下で初期正規を先行情報として,正規測定を洗練させる。 提案手法では,ネットワーク重みのパラメータ化と深部ニューラルネットワークの強力な適合性を利用して,一般反射特性による誤りを補正する。 ランバーティアン先行研究は,(1)学習仮説空間を減らし,同一表面の正規空間におけるマッピングを学習させ,学習精度を向上させ,(2)学習の差分特徴を提供し,細部の表面再構成を改善した。 提案するランベルチアン事前測光ステレオネットワークの高精度表面正規測定における有効性を検証する実験が, 挑戦的ベンチマークデータセット上で行われた。

The goal of photometric stereo is to measure the precise surface normal of a 3D object from observations with various shading cues. However, non-Lambertian surfaces influence the measurement accuracy due to irregular shading cues. Despite deep neural networks have been employed to simulate the performance of non-Lambertian surfaces, the error in specularities, shadows, and crinkle regions is hard to be reduced. In order to address this challenge, we here propose a photometric stereo network that incorporates Lambertian priors to better measure the surface normal. In this paper, we use the initial normal under the Lambertian assumption as the prior information to refine the normal measurement, instead of solely applying the observed shading cues to deriving the surface normal. Our method utilizes the Lambertian information to reparameterize the network weights and the powerful fitting ability of deep neural networks to correct these errors caused by general reflectance properties. Our explorations include: the Lambertian priors (1) reduce the learning hypothesis space, making our method learn the mapping in the same surface normal space and improving the accuracy of learning, and (2) provides the differential features learning, improving the surfaces reconstruction of details. Extensive experiments verify the effectiveness of the proposed Lambertian prior photometric stereo network in accurate surface normal measurement, on the challenging benchmark dataset.
翻訳日:2021-07-16 14:01:18 公開日:2021-07-15
# StyleVideoGAN: 事前学習型StyleGANを用いた時間生成モデル

StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN ( http://arxiv.org/abs/2107.07224v1 )

ライセンス: Link先を確認
Gereon Fox and Ayush Tewari and Mohamed Elgharib and Christian Theobalt(参考訳) generative adversarial models (gans) は、静止画像の視覚品質や時間相関の学習という観点で進歩を続けている。 大部分の手法では、時間的相関を学習するために、広範囲なトレーニングデータセットが必要ですが、出力フレームの解像度と視覚的品質には制限があります。 本稿では,映像コンテンツ生成に必要なトレーニングデータやリソースの量を大幅に削減し,映像品質の大幅な向上に寄与する映像合成問題に対する新しいアプローチを提案する。 我々の定式化は、個々のフレームが合成される空間領域と、動きが生成される時間領域とを分離する。 空間領域に対しては、トレーニング済みのオブジェクトの外観を制御できる潜在空間である、事前トレーニング済みのStyleGANネットワークを使用します。 このモデルの表現力により、トレーニングビデオをStyleGANの潜在空間に埋め込むことができます。 我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。 StyleGAN空間の有利な性質は時間相関の発見を単純化する。 1人の被験者の10分間の映像を6時間程度で、時間的アーキテクチャをトレーニングできることを実証した。 トレーニング後,本モデルでは,トレーニング対象者だけでなく,StyleGAN空間に埋め込まれる任意のランダムな被写体に対して,新たなポートレートビデオを生成することができる。

Generative adversarial models (GANs) continue to produce advances in terms of the visual quality of still images, as well as the learning of temporal correlations. However, few works manage to combine these two interesting capabilities for the synthesis of video content: Most methods require an extensive training dataset in order to learn temporal correlations, while being rather limited in the resolution and visual quality of their output frames. In this paper, we present a novel approach to the video synthesis problem that helps to greatly improve visual quality and drastically reduce the amount of training data and resources necessary for generating video content. Our formulation separates the spatial domain, in which individual frames are synthesized, from the temporal domain, in which motion is generated. For the spatial domain we make use of a pre-trained StyleGAN network, the latent space of which allows control over the appearance of the objects it was trained for. The expressive power of this model allows us to embed our training videos in the StyleGAN latent space. Our temporal architecture is then trained not on sequences of RGB frames, but on sequences of StyleGAN latent codes. The advantageous properties of the StyleGAN space simplify the discovery of temporal correlations. We demonstrate that it suffices to train our temporal architecture on only 10 minutes of footage of 1 subject for about 6 hours. After training, our model can not only generate new portrait videos for the training subject, but also for any random subject which can be embedded in the StyleGAN space.
翻訳日:2021-07-16 14:00:53 公開日:2021-07-15
# レベル生成とスタイル強化 -- ゲーム開発概要のためのディープラーニング

Level generation and style enhancement -- deep learning for game development overview ( http://arxiv.org/abs/2107.07397v1 )

ライセンス: Link先を確認
Piotr Migda{\l}, Bart{\l}omiej Olechno, B{\l}a\.zej Podg\'orski(参考訳) 本稿では,デスクトップ,モバイル,ウェブといったビデオゲームのレベルマップとテクスチャの作成と強化にディープラーニングを用いる実践的アプローチを提案する。 我々はゲーム開発者とレベルアーティストに新しい可能性を提案することを目指している。 レベルを設計し、詳細を埋める作業は難しいです。 時間を消費し、レベルを豊かにし、複雑にし、自然に感じられるように努力する。 幸いなことに、ディープラーニングの最近の進歩は、レベルデザイナーやビジュアルアーティストに付随する新しいツールを提供する。 さらに、ゲーム再生性のための無限の世界を生成し、プレイヤーのニーズに合わせて教育ゲームを調整する方法を提供する。 統計的手法,機械学習,あるいはディープラーニングを用いて,レベルマップを作成するための7つのアプローチを提案する。 特に, 既存の例(例えば)から新しい画像を生成するための生成型adversarial network。 ProGAN)。 -明細を保ちながら画像をアップスケールする超解像技術(例) ESRGAN)。 -視覚テーマ変更のためのニューラルスタイル転送。 -画像翻訳-意味地図を画像に変換する(例) ゴーガン)。 -イメージを意味マスクに変換する意味セグメンテーション(例) U-Net)。 -意味的特徴抽出のための教師なし意味セグメンテーション(例) Tile2Vec)。 -テクスチャ合成 - 小さいサンプル(例)に基づいて大きなパターンを作成する。 GAN)。

We present practical approaches of using deep learning to create and enhance level maps and textures for video games -- desktop, mobile, and web. We aim to present new possibilities for game developers and level artists. The task of designing levels and filling them with details is challenging. It is both time-consuming and takes effort to make levels rich, complex, and with a feeling of being natural. Fortunately, recent progress in deep learning provides new tools to accompany level designers and visual artists. Moreover, they offer a way to generate infinite worlds for game replayability and adjust educational games to players' needs. We present seven approaches to create level maps, each using statistical methods, machine learning, or deep learning. In particular, we include: - Generative Adversarial Networks for creating new images from existing examples (e.g. ProGAN). - Super-resolution techniques for upscaling images while preserving crisp detail (e.g. ESRGAN). - Neural style transfer for changing visual themes. - Image translation - turning semantic maps into images (e.g. GauGAN). - Semantic segmentation for turning images into semantic masks (e.g. U-Net). - Unsupervised semantic segmentation for extracting semantic features (e.g. Tile2Vec). - Texture synthesis - creating large patterns based on a smaller sample (e.g. InGAN).
翻訳日:2021-07-16 14:00:29 公開日:2021-07-15
# StyleFusion: 空間セグメントを拡大するための生成モデル

StyleFusion: A Generative Model for Disentangling Spatial Segments ( http://arxiv.org/abs/2107.07437v1 )

ライセンス: Link先を確認
Omer Kafri, Or Patashnik, Yuval Alaluf, Daniel Cohen-Or(参考訳) styleganの新しいマッピングアーキテクチャであるstylefusionを提案する。このアーキテクチャは潜んでいるコードを入力し、それらを単一のスタイルコードに融合する。 得られたスタイルコードを事前訓練されたStyleGANジェネレータに挿入すると、各セマンティック領域が入力潜在符号の1つによって制御される単一の調和画像が得られる。 効果的に、StyleFusionは画像の不整合表現を生成し、生成された画像の各領域を細かく制御する。 さらに、生成された画像のグローバル制御を容易にするために、融合表現に特別な入力潜在コードを組み込む。 StyleFusionは階層的な方法で動作し、各レベルは、一対のイメージ領域(例えば車体と車輪)をアンタングルする学習を行う。 これにより、局所的およびきめ細かい意味論(例えば、顔の特徴)とよりグローバルな特徴(例えば、ポーズと背景)を修正でき、合成プロセスの柔軟性を向上させることができる。 自然な拡張として、StyleFusionは必ずしも一致しない領域を意味的に認識するクロスイメージの混合を実行することができる。 最後に,StyleFusionを既存の編集技術と組み合わせることで,ユーザの関心領域に編集をより忠実に制約することができることを示す。

We present StyleFusion, a new mapping architecture for StyleGAN, which takes as input a number of latent codes and fuses them into a single style code. Inserting the resulting style code into a pre-trained StyleGAN generator results in a single harmonized image in which each semantic region is controlled by one of the input latent codes. Effectively, StyleFusion yields a disentangled representation of the image, providing fine-grained control over each region of the generated image. Moreover, to help facilitate global control over the generated image, a special input latent code is incorporated into the fused representation. StyleFusion operates in a hierarchical manner, where each level is tasked with learning to disentangle a pair of image regions (e.g., the car body and wheels). The resulting learned disentanglement allows one to modify both local, fine-grained semantics (e.g., facial features) as well as more global features (e.g., pose and background), providing improved flexibility in the synthesis process. As a natural extension, StyleFusion enables one to perform semantically-aware cross-image mixing of regions that are not necessarily aligned. Finally, we demonstrate how StyleFusion can be paired with existing editing techniques to more faithfully constrain the edit to the user's region of interest.
翻訳日:2021-07-16 14:00:12 公開日:2021-07-15
# 自律運転におけるマルチタスク視覚知覚の敵対的攻撃

Adversarial Attacks on Multi-task Visual Perception for Autonomous Driving ( http://arxiv.org/abs/2107.07449v1 )

ライセンス: Link先を確認
Ibrahim Sobh, Ahmed Hamed, Varun Ravi Kumar and Senthil Yogamani(参考訳) 近年、ディープニューラルネットワーク(DNN)は、自律運転認識タスクを含む様々なアプリケーションで顕著な成功を収めている。 一方、現在のディープニューラルネットワークは敵の攻撃によって容易に騙される。 この脆弱性は特にセーフティクリティカルなアプリケーションにおいて、重大な懸念を引き起こす。 その結果,DNNの攻撃・防衛に関する研究が盛んに行われている。 本研究では, 距離推定, セマンティックセグメンテーション, 動き検出, 物体検出にまたがる多様なマルチタスク視覚深層ネットワークに対して, 詳細な敵攻撃を適用した。 実験では、標的および未標的のケースに対する白と黒のボックス攻撃と、簡単な防御方法の適用効果の検査に加えて、タスクを攻撃し、他のすべてのケースに対する効果を検査する。 本稿では,実験結果の比較と議論を行い,洞察と今後の研究を提案する。 攻撃の可視化はhttps://youtu.be/R3J UV41aiPYで確認できる。

Deep neural networks (DNNs) have accomplished impressive success in various applications, including autonomous driving perception tasks, in recent years. On the other hand, current deep neural networks are easily fooled by adversarial attacks. This vulnerability raises significant concerns, particularly in safety-critical applications. As a result, research into attacking and defending DNNs has gained much coverage. In this work, detailed adversarial attacks are applied on a diverse multi-task visual perception deep network across distance estimation, semantic segmentation, motion detection, and object detection. The experiments consider both white and black box attacks for targeted and un-targeted cases, while attacking a task and inspecting the effect on all the others, in addition to inspecting the effect of applying a simple defense method. We conclude this paper by comparing and discussing the experimental results, proposing insights and future work. The visualizations of the attacks are available at https://youtu.be/R3J UV41aiPY.
翻訳日:2021-07-16 13:59:48 公開日:2021-07-15
# amodal segmentation (複数形 amodal segmentations)

Amodal segmentation just like doing a jigsaw ( http://arxiv.org/abs/2107.07464v1 )

ライセンス: Link先を確認
Xunli Zeng and Jianqin Yin(参考訳) アモーダルセグメンテーションはインスタンスセグメンテーションの新しい方向であり、インスタンスの可視部分とオクルード部分のセグメンテーションを考慮している。 既存の最先端手法では、マルチタスク分岐を用いて、アモーダル部と可視部とを別々に予測し、視認部をアモーダル部から減算し、オクルード部を得る。 しかし、アモーダル部分は可視情報を含む。 したがって、分離予測方法は重複情報を生成する。 本手法とは違って,jigsaw の考え方に基づくアモーダルセグメンテーション手法を提案する。 この方法は、マルチタスクブランチを使用して、可視性とoccludedの2つの自然に分離された部分を予測する。 次に2つのjigsawを組み合わせることで、amodal部分を得る。 これにより、各ブランチはオブジェクトのモデリングに集中する。 そして私たちは、現実世界には隠蔽関係に一定のルールがあると考えています。 これは一種の閉塞コンテキスト情報です。 このジグソーグ法は、咬合関係をモデル化し、咬合コンテキスト情報を利用することができ、これはアモーダルセグメンテーションにとって重要である。 2つの広く使われているアモディカルアノテートデータセットの実験は、我々の手法が既存の最先端の手法を超えることを証明している。 この作業のソースコードはまもなく公開される予定だ。

Amodal segmentation is a new direction of instance segmentation while considering the segmentation of the visible and occluded parts of the instance. The existing state-of-the-art method uses multi-task branches to predict the amodal part and the visible part separately and subtract the visible part from the amodal part to obtain the occluded part. However, the amodal part contains visible information. Therefore, the separated prediction method will generate duplicate information. Different from this method, we propose a method of amodal segmentation based on the idea of the jigsaw. The method uses multi-task branches to predict the two naturally decoupled parts of visible and occluded, which is like getting two matching jigsaw pieces. Then put the two jigsaw pieces together to get the amodal part. This makes each branch focus on the modeling of the object. And we believe that there are certain rules in the occlusion relationship in the real world. This is a kind of occlusion context information. This jigsaw method can better model the occlusion relationship and use the occlusion context information, which is important for amodal segmentation. Experiments on two widely used amodally annotated datasets prove that our method exceeds existing state-of-the-art methods. The source code of this work will be made public soon.
翻訳日:2021-07-16 13:59:32 公開日:2021-07-15
# 車両ルーティング問題に対する学習型最適化アルゴリズムの概要と実験的検討

An Overview and Experimental Study of Learning-based Optimization Algorithms for Vehicle Routing Problem ( http://arxiv.org/abs/2107.07076v1 )

ライセンス: Link先を確認
Bingjie Li, Guohua Wu, Yongming He, Mingfeng Fan, Witold Pedrycz(参考訳) 車両ルーティング問題(VRP)は典型的な離散組合せ最適化問題であり、多くのモデルやアルゴリズムがVRPと変種を解くために提案されている。 既存のアプローチはこの分野の開発に多くの貢献をしてきたが、これらのアプローチは問題のサイズに制限があるか、パラメータの選択に手動で介入する必要がある。 これらの課題に対処するために、多くの研究はVRPを解決するための学習に基づく最適化アルゴリズムを検討する。 本稿では、最近のこの分野の進歩を概観し、関連するアプローチをエンドツーエンドアプローチとステップバイステップアプローチに分割する。 4つの代表的な学習ベース最適化アルゴリズムの性能を正当に評価するための3つの部分実験をデザインし,ヒューリスティック検索を組み合わせることで,lboモデルの学習能力とサンプル化効率を効果的に向上できると結論づけた。 最後に,LBOアルゴリズムの研究動向として,実世界の大規模・複数制約問題の解決があげられる。

Vehicle routing problem (VRP) is a typical discrete combinatorial optimization problem, and many models and algorithms have been proposed to solve VRP and variants. Although existing approaches has contributed a lot to the development of this field, these approaches either are limited in problem size or need manual intervening in choosing parameters. To tackle these difficulties, many studies consider learning-based optimization algorithms to solve VRP. This paper reviews recent advances in this field and divides relevant approaches into end-to-end approaches and step-by-step approaches. We design three part experiments to justly evaluate performance of four representative learning-based optimization algorithms and conclude that combining heuristic search can effectively improve learning ability and sampled efficiency of LBO models. Finally we point out that research trend of LBO algorithms is to solve large-scale and multiple constraints problems from real world.
翻訳日:2021-07-16 13:58:01 公開日:2021-07-15
# MCL-GAN:複数の特殊識別器を持つ生成的敵対ネットワーク

MCL-GAN: Generative Adversarial Networks with Multiple Specialized Discriminators ( http://arxiv.org/abs/2107.07260v1 )

ライセンス: Link先を確認
Jinyoung Choi and Bohyung Han(参考訳) 本稿では,実データセットのサブセットを識別するために各判別器を特殊化した,複数の識別器を有する生成型逆ネットワークを提案する。 このアプローチは、基礎となるデータ分布と一致するジェネレータの学習を容易にするため、慢性モード崩壊問題を緩和する。 複数選択学習の着想から,各判別器にデータのサブセットに関する専門知識を持たせるように指導し,実データ空間と潜在データ空間の適切な対応を,訓練例と判別器の数を監督することなく自動で見つけられるようにした。 複数の識別器を使用するにもかかわらず、バックボーンネットワークは識別器間で共有され、トレーニングコストの増大を最小限に抑える。 複数の評価指標を用いて,標準データセットにおけるアルゴリズムの有効性を示す。

We propose a generative adversarial network with multiple discriminators, where each discriminator is specialized to distinguish the subset of a real dataset. This approach facilitates learning a generator coinciding with the underlying data distribution and thus mitigates the chronic mode collapse problem. From the inspiration of multiple choice learning, we guide each discriminator to have expertise in the subset of the entire data and allow the generator to find reasonable correspondences between the latent and real data spaces automatically without supervision for training examples and the number of discriminators. Despite the use of multiple discriminators, the backbone networks are shared across the discriminators and the increase of training cost is minimized. We demonstrate the effectiveness of our algorithm in the standard datasets using multiple evaluation metrics.
翻訳日:2021-07-16 13:57:45 公開日:2021-07-15
# 大きなボートは必要ない:(最も)サーバレスでオープンなスタックでの推論可能なスケールでの推奨

You Do Not Need a Bigger Boat: Recommendations at Reasonable Scale in a (Mostly) Serverless and Open Stack ( http://arxiv.org/abs/2107.07346v1 )

ライセンス: Link先を確認
Jacopo Tagliabue(参考訳) 未成熟なデータパイプラインは、業界の実践者の多くが推奨システムに関する最新の研究を活用するのを妨げている、と私たちは主張する。 我々は、機械学習のためのテンプレートデータスタックを「合理的なスケール」で提案し、サーバーレスパラダイムを採用することで、いかに多くの課題が解決されるかを示す。 私たちの経験を生かして、現代的なオープンソースが、限られたインフラストラクチャ作業でテラバイト単位のデータを処理するパイプラインをいかに提供できるかを詳細に説明します。

We argue that immature data pipelines are preventing a large portion of industry practitioners from leveraging the latest research on recommender systems. We propose our template data stack for machine learning at "reasonable scale", and show how many challenges are solved by embracing a serverless paradigm. Leveraging our experience, we detail how modern open source can provide a pipeline processing terabytes of data with limited infrastructure work.
翻訳日:2021-07-16 13:57:30 公開日:2021-07-15
# PC-MLP:政策カバー探索によるモデルベース強化学習

PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided Exploration ( http://arxiv.org/abs/2107.07410v1 )

ライセンス: Link先を確認
Yuda Song, Wen Sun(参考訳) モデルベース強化学習(RL)は、モデルフリーのRLと比較して潜在的サンプル効率が高いため、一般的な学習パラダイムである。 しかし、既存の経験的モデルに基づくRLアプローチには探索能力がない。 本研究は,KNR(Kernelized Non Regulator)とMDP(Line Markov Decision Processs)の両方に対する,計算的,統計的に効率的なモデルベースアルゴリズムについて検討する。 どちらのモデルに対しても,このアルゴリズムは多項式サンプルの複雑さを保証し,計画オラクルへのアクセスのみを使用する。 実験では,既存の経験的モデルベースRLアプローチが完全に失敗する制御課題の探索において,アルゴリズムの柔軟性と有効性を示す。 そこで本手法は,高次探索を必要としない高密度報酬制御ベンチマークにおいても優れた性能を保っていることを示す。 最後に,提案手法は報酬のない探索を効率的に行うことができることを示す。 私たちのコードはhttps://github.com/y udasong/pcmlpにあります。

Model-based Reinforcement Learning (RL) is a popular learning paradigm due to its potential sample efficiency compared to model-free RL. However, existing empirical model-based RL approaches lack the ability to explore. This work studies a computationally and statistically efficient model-based algorithm for both Kernelized Nonlinear Regulators (KNR) and linear Markov Decision Processes (MDPs). For both models, our algorithm guarantees polynomial sample complexity and only uses access to a planning oracle. Experimentally, we first demonstrate the flexibility and efficacy of our algorithm on a set of exploration challenging control tasks where existing empirical model-based RL approaches completely fail. We then show that our approach retains excellent performance even in common dense reward control benchmarks that do not require heavy exploration. Finally, we demonstrate that our method can also perform reward-free exploration efficiently. Our code can be found at https://github.com/y udasong/PCMLP.
翻訳日:2021-07-16 13:57:21 公開日:2021-07-15
# アルゴリズム概念に基づく説明可能な推論

Algorithmic Concept-based Explainable Reasoning ( http://arxiv.org/abs/2107.07493v1 )

ライセンス: Link先を確認
Dobrik Georgiev, Pietro Barbiero, Dmitry Kazhdan, Petar Veli\v{c}kovi\'c, Pietro Li\`o(参考訳) グラフニューラルネットワーク(GNN)モデルに関する最近の研究は、古典的なグラフアルゴリズムと組合せ最適化問題にGNNを適用した。 これには、事前条件が満たされていない場合のアルゴリズム適用や、十分なトレーニングデータが入手できない場合や生成できない場合の学習モデル再利用など、数多くのメリットがある。 残念ながら、GNNは直接解釈できないブラックボックスモデルであるため、これらのアプローチの主な障害は説明可能性の欠如である。 本稿では,GNNモデルに既存の概念に基づく説明法を適用することで,この制限に対処する。 本稿では,GNNの読み出し機構を改良したコンセプトブートネックGNNを紹介する。 i) 提案モデルでは, 対象クラス毎の学習概念に基づいて, 概念を正確に学習し, 命題式を抽出することができる; (ii) 概念に基づくGNNモデルは, 最先端モデルとの比較性能を達成する; (iii) グラフレベルの概念を明示的に監督することなく, グローバルグラフの概念を導出することができる。

Recent research on graph neural network (GNN) models successfully applied GNNs to classical graph algorithms and combinatorial optimisation problems. This has numerous benefits, such as allowing applications of algorithms when preconditions are not satisfied, or reusing learned models when sufficient training data is not available or can't be generated. Unfortunately, a key hindrance of these approaches is their lack of explainability, since GNNs are black-box models that cannot be interpreted directly. In this work, we address this limitation by applying existing work on concept-based explanations to GNN models. We introduce concept-bottleneck GNNs, which rely on a modification to the GNN readout mechanism. Using three case studies we demonstrate that: (i) our proposed model is capable of accurately learning concepts and extracting propositional formulas based on the learned concepts for each target class; (ii) our concept-based GNN models achieve comparative performance with state-of-the-art models; (iii) we can derive global graph concepts, without explicitly providing any supervision on graph-level concepts.
翻訳日:2021-07-16 13:57:06 公開日:2021-07-15
# ニューラルネットワークの要約: どこまであるのか?

Neural Code Summarization: How Far Are We? ( http://arxiv.org/abs/2107.07112v1 )

ライセンス: Link先を確認
Ensheng Shi, Yanlin Wang, Lun Du, Junjie Chen, Shi Han, Hongyu Zhang, Dongmei Zhang, Hongbin Sun(参考訳) ソースコードの要約は、プログラムの理解とメンテナンスに重要である。 しかし、不足、時代遅れ、あるいはミスマッチした要約を持つプログラムはたくさんあります。 近年,コードスニペットの要約を自動的に生成するためにディープラーニング技術が活用されている。 この問題の解決からどこまで遠いのかを深く理解するために,本稿では,広く使用されている3つのデータセット上で,最先端の5つのニューラルネットワークの要約モデルについて,体系的かつ詳細な分析を行う。 その結果,(1)要約モデルの性能評価のために既存の研究で広く用いられているbleuメトリックには,多くのバリエーションがあることが示唆された。 bleu変種間の差異を無視することは, 請求結果の妥当性に影響を及ぼす可能性がある。 さらに,bleu計算に関する重要で未知のバグを,広く使用されているソフトウェアパッケージで発見する。 2) コード前処理の選択は要約性能に大きな影響を与える可能性があるため、無視すべきではない。 3) データセットの重要な特徴(コーパスサイズ、データ分割方法、重複率)は、モデル評価に大きな影響を与える。 実験結果に基づいて,コードの要約を評価し,異なるシナリオで最適な方法を選択するための,より体系的な方法に関する実践可能なガイドラインを提示する。 今後の研究の方向性も提案する。 この興味深い分野の実践者や研究者にとって、私たちの結果は大きな助けになると考えています。

Source code summaries are important for the comprehension and maintenance of programs. However, there are plenty of programs with missing, outdated, or mismatched summaries. Recently, deep learning techniques have been exploited to automatically generate summaries for given code snippets. To achieve a profound understanding of how far we are from solving this problem, in this paper, we conduct a systematic and in-depth analysis of five state-of-the-art neural source code summarization models on three widely used datasets. Our evaluation results suggest that: (1) The BLEU metric, which is widely used by existing work for evaluating the performance of the summarization models, has many variants. Ignoring the differences among the BLEU variants could affect the validity of the claimed results. Furthermore, we discover an important, previously unknown bug about BLEU calculation in a commonly-used software package. (2) Code pre-processing choices can have a large impact on the summarization performance, therefore they should not be ignored. (3) Some important characteristics of datasets (corpus size, data splitting method, and duplication ratio) have a significant impact on model evaluation. Based on the experimental results, we give some actionable guidelines on more systematic ways for evaluating code summarization and choosing the best method in different scenarios. We also suggest possible future research directions. We believe that our results can be of great help for practitioners and researchers in this interesting area.
翻訳日:2021-07-16 13:56:13 公開日:2021-07-15
# 2面マッチングがフェアディビジョンに

Two-Sided Matching Meets Fair Division ( http://arxiv.org/abs/2107.07404v1 )

ライセンス: Link先を確認
Rupert Freeman, Evi Micha and Nisarg Shah(参考訳) 両面マッチングのための新しいモデルを導入し,一方の良否保証や最大共有保証など,フェアディビジョンの文献からポピュラーなフェアネス概念を借用する。 我々のモデルでは、各エージェントは、付加的な嗜好を持つ相手側の複数のエージェントにマッチする。 両面の公平性を別々に要求し、1試合(DEF1)とDMMS(Double maximin Share guarantee)という2つのエンビーフリーの概念を生み出した。 我々は,Def1を(わずかに強化する)常に達成できないことを示すが,両面が同一の選好を持つ特別な場合には,慎重に設計したエージェントを順序付けしたラウンドロビンアルゴリズムがそれを実現する。 対照的にDMMSは、双方が同じ好みを持つ場合でも達成できない。

We introduce a new model for two-sided matching which allows us to borrow popular fairness notions from the fair division literature such as envy-freeness up to one good and maximin share guarantee. In our model, each agent is matched to multiple agents on the other side over whom she has additive preferences. We demand fairness for each side separately, giving rise to notions such as double envy-freeness up to one match (DEF1) and double maximin share guarantee (DMMS). We show that (a slight strengthening of) DEF1 cannot always be achieved, but in the special case where both sides have identical preferences, the round-robin algorithm with a carefully designed agent ordering achieves it. In contrast, DMMS cannot be achieved even when both sides have identical preferences.
翻訳日:2021-07-16 13:55:53 公開日:2021-07-15
# gi-nnet \&rgi-nnet: 教師付きおよび半教師付きパラダイム下で、大きなラベル付きトレーニングデータセットとともにトレーニング可能なロボット把持ポーズモデルの開発

GI-NNet \& RGI-NNet: Development of Robotic Grasp Pose Models, Trainable with Large as well as Limited Labelled Training Datasets, under supervised and semi supervised paradigms ( http://arxiv.org/abs/2107.07452v1 )

ライセンス: Link先を確認
Priya Shukla, Nilotpal Pramanik, Deepesh Mehta and G.C. Nandi(参考訳) オブジェクトの把握方法は,COBOTによる効率,知性,最適な把握が困難である。 ここでは、プロセスの合理化のために、ロボットが適切な把握を素早く生成し実行することを学ぶためのディープラーニング技術を使用します。 我々は,目に見えない物体だけでなく対脚ロボットの把持を生成できる生成的インセプションニューラルネットワーク(gi-nnet)モデルを開発した。 コーネル把持データセット(cgd)を訓練し、rgb深度(rgb-d)画像から正規形状と不規則形状の両方を検出するポーズ精度を98.87%達成し、ネットワークトレーニング可能なパラメータの3分の1しか必要としない。 しかし、このレベルのパフォーマンスを達成するには、cgdの利用可能なラベル付きデータの90%がテストのためにわずか10%のラベル付きデータを保持しておく必要がある。 さらに、十分な品質とラベル付きデータセットの取得は、巨大ネットワークの要求に合わせたペースを維持するのがますます難しくなってきている。 これらの問題に対処するために,我々は,vector quantized variational auto encoder (vqvae)として知られる半教師付き学習ベースアーキテクチャをデコーダとして導入した。 Representation based GI-NNet (RGI-NNet) と呼ばれる提案モデルは、VQVAEから生成される遅延埋め込みと、VQVAEから得られる遅延埋め込みと、最大10%のラベル付きデータセットを用いて、CGD上の様々なラベルデータを用いて訓練されている。 RGI-NNetの把握精度は92.13%から95.6%であり、ラベル付きデータセットだけで訓練された既存のモデルよりもはるかに優れている。 GI-NNetモデルとRGI-NNetモデルの両方の性能検証にはAnukul(Baxter)ハードウェアコボットを用いる。

Our way of grasping objects is challenging for efficient, intelligent and optimal grasp by COBOTs. To streamline the process, here we use deep learning techniques to help robots learn to generate and execute appropriate grasps quickly. We developed a Generative Inception Neural Network (GI-NNet) model, capable of generating antipodal robotic grasps on seen as well as unseen objects. It is trained on Cornell Grasping Dataset (CGD) and attained 98.87% grasp pose accuracy for detecting both regular and irregular shaped objects from RGB-Depth (RGB-D) images while requiring only one third of the network trainable parameters as compared to the existing approaches. However, to attain this level of performance the model requires the entire 90% of the available labelled data of CGD keeping only 10% labelled data for testing which makes it vulnerable to poor generalization. Furthermore, getting sufficient and quality labelled dataset is becoming increasingly difficult keeping in pace with the requirement of gigantic networks. To address these issues, we attach our model as a decoder with a semi-supervised learning based architecture known as Vector Quantized Variational Auto Encoder (VQVAE), which works efficiently when trained both with the available labelled and unlabelled data. The proposed model, which we name as Representation based GI-NNet (RGI-NNet), has been trained with various splits of label data on CGD with as minimum as 10% labelled dataset together with latent embedding generated from VQVAE up to 50% labelled data with latent embedding obtained from VQVAE. The performance level, in terms of grasp pose accuracy of RGI-NNet, varies between 92.13% to 95.6% which is far better than several existing models trained with only labelled dataset. For the performance verification of both GI-NNet and RGI-NNet models, we use Anukul (Baxter) hardware cobot.
翻訳日:2021-07-16 13:55:18 公開日:2021-07-15
# vad-free streaming hybrid ctc/attention asr for unsegmented recording

VAD-free Streaming Hybrid CTC/Attention ASR for Unsegmented Recording ( http://arxiv.org/abs/2107.07509v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Tatsuya Kawahara(参考訳) 本研究では,補助接続型時相分類(ctc)を目的とし,音声活動検出(vad)を必要とせず,無セグメンテーション長形録音における音声認識(asr)のストリーミングを可能にする新しい復号アルゴリズムを提案する。 本稿では,効率的なバッチ出力同期および低レイテンシ入力同期探索を利用するブロック同期ビーム探索デコードを提案する。 また, CTC確率を利用してモデル状態を再セットし, 長期データに対処するための適切なタイミングを決定するVADフリー推論アルゴリズムを提案する。 実験的評価により,ブロック同期復号はラベル同期復号と同等の精度が得られることが示された。 さらに、vadフリー推論は、最大数時間にわたって長形音声をロバストに認識することができる。

In this work, we propose novel decoding algorithms to enable streaming automatic speech recognition (ASR) on unsegmented long-form recordings without voice activity detection (VAD), based on monotonic chunkwise attention (MoChA) with an auxiliary connectionist temporal classification (CTC) objective. We propose a block-synchronous beam search decoding to take advantage of efficient batched output-synchronous and low-latency input-synchronous searches. We also propose a VAD-free inference algorithm that leverages CTC probabilities to determine a suitable timing to reset the model states to tackle the vulnerability to long-form data. Experimental evaluations demonstrate that the block-synchronous decoding achieves comparable accuracy to the label-synchronous one. Moreover, the VAD-free inference can recognize long-form speech robustly for up to a few hours.
翻訳日:2021-07-16 13:54:23 公開日:2021-07-15
# 畳み込みニューラルネットワークによる乱流の壁近傍領域の予測

Predicting the near-wall region of turbulence through convolutional neural networks ( http://arxiv.org/abs/2107.07340v1 )

ライセンス: Link先を確認
A. G. Balasubramanian, L. Guastoni, A. G\"uemes, A. Ianiro, S. Discetti, P. Schlatter, H. Azizpour, R. Vinuesa(参考訳) 壁面境界乱流の近傍領域のモデル化は、高レイノルズ数での大渦シミュレーション(less)の計算コストを削減するために広く行われている。 データ駆動壁モデルへの第一歩として、乱流開水路流れにおける壁近傍挙動を予測するニューラルネットワークに基づくアプローチについて検討する。 グアストンニらによって提案された完全畳み込みネットワーク(FCN)。 [preprint, arXiv:2006.12483] is trained to predict the two-dimensional velocity-fluctuation field at $y^{+}_{\rm target}$, using the sampled fluctuations in wall-parallel planes located from the wall, at $y^{+}_{\rm input}$。 トレーニングとテストのためのデータは、摩擦レイノルズ数$Re_{\tau} = 180$と550$の直接数値シミュレーション(DNS)から得られる。 乱流速度ゆらぎ場は, 様々な壁面に分布する。 $y^{+} = \{15, 30, 50, 80, 100, 120, 150\}$. re_{\tau}=550$では、fcnは流れの対数領域における自己相似性を利用して、y^{+} = 50$の速度-変動場をy^{+} = 100$の速度-変動場を用いて予測することができる。 これらの結果は, 数値シミュレーションにおいて, 壁面乱流をモデル化するためのニューラルネットワークアプローチを開発するための出発点となる。

Modelling the near-wall region of wall-bounded turbulent flows is a widespread practice to reduce the computational cost of large-eddy simulations (LESs) at high Reynolds number. As a first step towards a data-driven wall-model, a neural-network-based approach to predict the near-wall behaviour in a turbulent open channel flow is investigated. The fully-convolutional network (FCN) proposed by Guastoni et al. [preprint, arXiv:2006.12483] is trained to predict the two-dimensional velocity-fluctuation fields at $y^{+}_{\rm target}$, using the sampled fluctuations in wall-parallel planes located farther from the wall, at $y^{+}_{\rm input}$. The data for training and testing is obtained from a direct numerical simulation (DNS) at friction Reynolds numbers $Re_{\tau} = 180$ and $550$. The turbulent velocity-fluctuation fields are sampled at various wall-normal locations, i.e. $y^{+} = \{15, 30, 50, 80, 100, 120, 150\}$. At $Re_{\tau}=550$, the FCN can take advantage of the self-similarity in the logarithmic region of the flow and predict the velocity-fluctuation fields at $y^{+} = 50$ using the velocity-fluctuation fields at $y^{+} = 100$ as input with less than 20% error in prediction of streamwise-fluctuati ons intensity. These results are an encouraging starting point to develop a neural-network based approach for modelling turbulence at the wall in numerical simulations.
翻訳日:2021-07-16 13:54:08 公開日:2021-07-15
# 欠落データを扱うための再生核ヒルベルト空間における正規化m推定を用いた統計的推測

Statistical inference using Regularized M-estimation in the reproducing kernel Hilbert space for handling missing data ( http://arxiv.org/abs/2107.07371v1 )

ライセンス: Link先を確認
Hengfang Wang and Jae Kwang Kim(参考訳) 計算と確率スコアの重み付けは、欠落データを扱う2つの一般的なテクニックである。 再現カーネルヒルベルト空間における正規化M推定手法を用いてこの問題に対処する。 具体的には、まずカーネルリッジレグレッションを用いてアイテム非応答の処理を行う。 この非パラメトリックなアプローチは計算に有望であるが、その統計的性質は文献では研究されていない。 チューニングパラメータの順序に関するいくつかの条件下では、まずカーネルリッジ回帰インプット推定器のルート=$n$一貫性を確立し、半パラメトリック漸近分散の下位境界を達成することを示す。 また、最大エントロピー法による密度比関数推定の新しい応用により、再生核ヒルベルト空間を用いた非パラメトリックプロペンシティスコア推定器を開発した。 得られた確率スコア推定器は,カーネルリッジ回帰インプット推定器と漸近的に等価であることを示す。 また,本理論を裏付けるために,限られたシミュレーション研究の結果も提示した。 提案手法は,中国北京における大気汚染データの解析に応用されている。

Imputation and propensity score weighting are two popular techniques for handling missing data. We address these problems using the regularized M-estimation techniques in the reproducing kernel Hilbert space. Specifically, we first use the kernel ridge regression to develop imputation for handling item nonresponse. While this nonparametric approach is potentially promising for imputation, its statistical properties are not investigated in the literature. Under some conditions on the order of the tuning parameter, we first establish the root-$n$ consistency of the kernel ridge regression imputation estimator and show that it achieves the lower bound of the semiparametric asymptotic variance. A nonparametric propensity score estimator using the reproducing kernel Hilbert space is also developed by a novel application of the maximum entropy method for the density ratio function estimation. We show that the resulting propensity score estimator is asymptotically equivalent to the kernel ridge regression imputation estimator. Results from a limited simulation study are also presented to confirm our theory. The proposed method is applied to analyze the air pollution data measured in Beijing, China.
翻訳日:2021-07-16 13:53:36 公開日:2021-07-15
# 軌道予測のための部分観測歩行者のスパース相互作用グラフの学習

Learning Sparse Interaction Graphs of Partially Observed Pedestrians for Trajectory Prediction ( http://arxiv.org/abs/2107.07056v1 )

ライセンス: Link先を確認
Zhe Huang, Ruohua Li, Kazuki Shin, Katherine Driggs-Campbell(参考訳) マルチペデストリアン軌道予測は、非構造環境における群衆と相互作用する自律システムの必然的な安全要素である。 近年,歩行者運動の背後にある社会的規範の理解に着目した軌道予測アルゴリズムが開発されている。 しかし、これらの研究は、通常2つの仮定を持ち、ロボットの応用にスムーズな適用を妨げている:全ての歩行者の位置は一貫して追跡されている;ターゲットエージェントは現場の歩行者全員に注意を払う。 第1の仮定は不完全な歩行者データとのバイアス付き相互作用モデリングにつながり,第2の仮定は不要な外乱を引き起こし,凍結ロボット問題を引き起こす。 そこで,Gumbel Social Transformerを提案する。Edge Gumbel Selectorは,時間ステップ毎に部分的に観察された歩行者のスパース相互作用グラフをサンプリングする。 Node Transformer EncoderとMasked LSTMは、歩行者の特徴をサンプルのスパースグラフでエンコードし、軌跡を予測する。 我々は,本モデルが仮定によって引き起こされる潜在的な問題を克服し,そのアプローチがベンチマーク評価で関連する作業を上回ることを実証する。

Multi-pedestrian trajectory prediction is an indispensable safety element of autonomous systems that interact with crowds in unstructured environments. Many recent efforts have developed trajectory prediction algorithms with focus on understanding social norms behind pedestrian motions. Yet we observe these works usually hold two assumptions that prevent them from being smoothly applied to robot applications: positions of all pedestrians are consistently tracked; the target agent pays attention to all pedestrians in the scene. The first assumption leads to biased interaction modeling with incomplete pedestrian data, and the second assumption introduces unnecessary disturbances and leads to the freezing robot problem. Thus, we propose Gumbel Social Transformer, in which an Edge Gumbel Selector samples a sparse interaction graph of partially observed pedestrians at each time step. A Node Transformer Encoder and a Masked LSTM encode the pedestrian features with the sampled sparse graphs to predict trajectories. We demonstrate that our model overcomes the potential problems caused by the assumptions, and our approach outperforms the related works in benchmark evaluation.
翻訳日:2021-07-16 13:52:36 公開日:2021-07-15
# COAST:圧縮センシングのための調整可能な任意サンプリングNeTwork

COAST: COntrollable Arbitrary-Sampling NeTwork for Compressive Sensing ( http://arxiv.org/abs/2107.07225v1 )

ライセンス: Link先を確認
Di You, Jian Zhang, Jingfen Xie, Bin Chen, Siwei Ma(参考訳) 近年の深層ネットワーク型圧縮センシング(CS)は大きな成功を収めている。 しかし、そのほとんどは異なるサンプリング行列を異なる独立したタスクとみなし、ターゲットのサンプリング行列ごとに特定のモデルを訓練する必要がある。 このような慣行は計算の非効率を生じさせ、一般化能力の低下に苦しむ。 本稿では,任意のサンプリング行列(未確認サンプリング行列を含む)のCS問題を1つのモデルで解くため,COASTと呼ばれる新しいControllable Arbitrary-Sampling neTworkを提案する。 最適化にインスパイアされた深い展開フレームワークの下で、COASTは優れた解釈可能性を示します。 COASTでは、任意のサンプリングを可能にするためにサンプリング空間のトレーニング多様性を促進するためにランダムプロジェクション強化(RPA)戦略が提案され、ネットワーク機能を動的に調整し、ブロックアーティファクトを効果的に除去する制御可能な近位写像モジュール(CPMM)とプラグアンドプレイデブロッキング(PnP-D)戦略がさらに開発されている。 広範に使用されるベンチマークデータセットに関する広範な実験により,提案手法は,単一のモデルで任意のサンプリング行列を処理できるだけでなく,高速で最先端のパフォーマンスを実現することができることを示した。 ソースコードはhttps://github.com/j ianzhangcs/COASTで入手できる。

Recent deep network-based compressive sensing (CS) methods have achieved great success. However, most of them regard different sampling matrices as different independent tasks and need to train a specific model for each target sampling matrix. Such practices give rise to inefficiency in computing and suffer from poor generalization ability. In this paper, we propose a novel COntrollable Arbitrary-Sampling neTwork, dubbed COAST, to solve CS problems of arbitrary-sampling matrices (including unseen sampling matrices) with one single model. Under the optimization-inspire d deep unfolding framework, our COAST exhibits good interpretability. In COAST, a random projection augmentation (RPA) strategy is proposed to promote the training diversity in the sampling space to enable arbitrary sampling, and a controllable proximal mapping module (CPMM) and a plug-and-play deblocking (PnP-D) strategy are further developed to dynamically modulate the network features and effectively eliminate the blocking artifacts, respectively. Extensive experiments on widely used benchmark datasets demonstrate that our proposed COAST is not only able to handle arbitrary sampling matrices with one single model but also to achieve state-of-the-art performance with fast speed. The source code is available on https://github.com/j ianzhangcs/COAST.
翻訳日:2021-07-16 13:52:19 公開日:2021-07-15
# VILENS:オールテランの足ロボットのための視覚、慣性、ライダー、脚のオドメトリー

VILENS: Visual, Inertial, Lidar, and Leg Odometry for All-Terrain Legged Robots ( http://arxiv.org/abs/2107.07243v1 )

ライセンス: Link先を確認
David Wisth, Marco Camurri, Maurice Fallon(参考訳) 本稿では,因子グラフに基づく脚ロボット用オドメトリシステムである vilens (visual inertial lidar legged navigation system) を提案する。 重要な新機能は、4つの異なるセンサーモードの密接な融合で、個々のセンサーが縮退推定を生成するとき、信頼性の高い動作を実現することである。 脚のドリフトを最小限に抑えるため,オンラインで推定される線形速度バイアス項でロボットの状態を拡張する。 このバイアスは、視力、ライダー、IMU因子と事前積分された速度係数が密接な融合によってのみ観測可能である。 ANYmal四足歩行ロボットの大規模な実験検証を行い、総走行時間は2時間1.8kmである。 実験では、緩い岩、斜面、泥の上を動的に移動し、暗くほこりだらけの地下洞穴や、開き放たれた特徴が欠落した地域などの知覚的課題や、すべりや変形などの移動性課題が含まれていた。 最先端の疎結合アプローチと比較して, 平均62%の翻訳誤差と51%の回転誤差が改善した。 その堅牢性を示すため、VILENSはパーセプティブコントローラとローカルパスプランナーとも統合された。

We present VILENS (Visual Inertial Lidar Legged Navigation System), an odometry system for legged robots based on factor graphs. The key novelty is the tight fusion of four different sensor modalities to achieve reliable operation when the individual sensors would otherwise produce degenerate estimation. To minimize leg odometry drift, we extend the robot's state with a linear velocity bias term which is estimated online. This bias is only observable because of the tight fusion of this preintegrated velocity factor with vision, lidar, and IMU factors. Extensive experimental validation on the ANYmal quadruped robots is presented, for a total duration of 2 h and 1.8 km traveled. The experiments involved dynamic locomotion over loose rocks, slopes, and mud; these included perceptual challenges, such as dark and dusty underground caverns or open, feature-deprived areas, as well as mobility challenges such as slipping and terrain deformation. We show an average improvement of 62% translational and 51% rotational errors compared to a state-of-the-art loosely coupled approach. To demonstrate its robustness, VILENS was also integrated with a perceptive controller and a local path planner.
翻訳日:2021-07-16 13:51:55 公開日:2021-07-15
# 単体フルボディリライティング

Single-image Full-body Human Relighting ( http://arxiv.org/abs/2107.07259v1 )

ライセンス: Link先を確認
Manuel Lagunas, Xin Sun, Jimei Yang, Ruben Villegas, Jianming Zhang, Zhixin Shu, Belen Masia, and Diego Gutierrez(参考訳) そこで本研究では,全身の人間で画像を自動的にリライトする単一画像データ駆動手法を提案する。 本フレームワークは,PRT(Precomputed Radiance Transfer)とSH(Spherical Harmonics)の照明を利用した現実的なシーン分解に基づいている。 これまでの研究とは対照的に、ランベルティアン素材の仮定を解除し、データ内の拡散および鏡面反射を明示的にモデル化する。 さらに,PRT画像再構成における誤差を考慮した光依存残差項を導入する。 本稿では,L1,対数,レンダリング損失の組み合わせを用いて学習したPRTの分解に合わせた新しいディープラーニングアーキテクチャを提案する。 私たちのモデルは、合成画像と写真の両方で、全身の人間を喜ばせるための芸術の状態を上回っています。

We present a single-image data-driven method to automatically relight images with full-body humans in them. Our framework is based on a realistic scene decomposition leveraging precomputed radiance transfer (PRT) and spherical harmonics (SH) lighting. In contrast to previous work, we lift the assumptions on Lambertian materials and explicitly model diffuse and specular reflectance in our data. Moreover, we introduce an additional light-dependent residual term that accounts for errors in the PRT-based image reconstruction. We propose a new deep learning architecture, tailored to the decomposition performed in PRT, that is trained using a combination of L1, logarithmic, and rendering losses. Our model outperforms the state of the art for full-body human relighting both with synthetic images and photographs.
翻訳日:2021-07-16 13:51:35 公開日:2021-07-15
# 接触認識ロボット設計のためのエンドツーエンド微分フレームワーク

An End-to-End Differentiable Framework for Contact-Aware Robot Design ( http://arxiv.org/abs/2107.07501v1 )

ライセンス: Link先を確認
Jie Xu, Tao Chen, Lara Zlokapa, Michael Foshey, Wojciech Matusik, Shinjiro Sueda, Pulkit Agrawal(参考訳) ロボット操作の現在の支配的なパラダイムは、マニピュレータの設計と制御の2つの別々の段階である。 ロボットの形態や制御方法が密接な関係にあるため、設計と制御の協調最適化は性能を大幅に向上させることができる。 既存の最適化手法は限定的であり、豊富な設計空間を探索することができない。 主な理由は、製造、最適化、コンタクトハンドリングなどの実用的な制約に対して、コンタクトリッチなタスクに必要な設計の複雑さの間のトレードオフである。 コンタクト対応ロボット設計のためのエンドツーエンドの差別化フレームワークを構築することで、これらの課題を克服する。 このフレームワークの2つの重要な要素は、任意の複雑な幾何学を持つ関節付き剛体ロボットの設計を可能にする新しい変形ベースのパラメータ化と、接触豊富なシナリオを処理し、運動パラメータと動的パラメータの全スペクトルに対する解析的勾配を計算することのできる微分可能な剛体シミュレータである。 複数の操作タスクにおいて、このフレームワークは、制御のみを最適化するか、代替表現を使用して設計するか、グラデーションフリーメソッドで共最適化する既存のメソッドよりも優れています。

The current dominant paradigm for robotic manipulation involves two separate stages: manipulator design and control. Because the robot's morphology and how it can be controlled are intimately linked, joint optimization of design and control can significantly improve performance. Existing methods for co-optimization are limited and fail to explore a rich space of designs. The primary reason is the trade-off between the complexity of designs that is necessary for contact-rich tasks against the practical constraints of manufacturing, optimization, contact handling, etc. We overcome several of these challenges by building an end-to-end differentiable framework for contact-aware robot design. The two key components of this framework are: a novel deformation-based parameterization that allows for the design of articulated rigid robots with arbitrary, complex geometry, and a differentiable rigid body simulator that can handle contact-rich scenarios and computes analytical gradients for a full spectrum of kinematic and dynamic parameters. On multiple manipulation tasks, our framework outperforms existing methods that either only optimize for control or for design using alternate representations or co-optimize using gradient-free methods.
翻訳日:2021-07-16 13:51:21 公開日:2021-07-15
# 壁画: 結果駆動強化学習のためのメタラーニング不確実性認識報酬

MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning ( http://arxiv.org/abs/2107.07184v1 )

ライセンス: Link先を確認
Kevin Li, Abhishek Gupta, Ashwin Reddy, Vitchyr Pong, Aurick Zhou, Justin Yu, Sergey Levine(参考訳) 強化学習の探求は難しい問題であり、最悪の場合、エージェントは州空間のどこにでも隠れる可能性のある報酬状態を探す必要がある。 エージェントが成功した結果の例を提示する、より難解なRL問題のクラスを定義できるだろうか? この問題設定では、分類器を訓練して状態が成功するか否かを分類することにより、報酬関数を自動的に得ることができる。 適切に訓練された場合、そのような分類器は報酬関数を与えるだけでなく、実際には良好な状態への進歩を促進し、校正された探索ボーナスを提供する、よく形作られた客観的な景観を提供することができる。 本研究では,不確実性を認識した分類器が,探索を奨励し,肯定的な結果への指示を与えることによって,強化学習の課題を解決できることを示す。 正規化最大度(NML)分布を計算するための補正手法を応用し,これらの手法をメタラーニングのツールを活用して計算可能とする手法を提案する。 得られたアルゴリズムは,報奨関数を学習するためのカウントベース探索法と先行アルゴリズムの両方に多くの興味深い関係を持ち,目標に対するより効果的なガイダンスを提供する。 我々は,従来の手法では困難あるいは不可能であったナビゲーションやロボット操作の課題を,アルゴリズムが解決できることを実証した。

Exploration in reinforcement learning is a challenging problem: in the worst case, the agent must search for reward states that could be hidden anywhere in the state space. Can we define a more tractable class of RL problems, where the agent is provided with examples of successful outcomes? In this problem setting, the reward function can be obtained automatically by training a classifier to categorize states as successful or not. If trained properly, such a classifier can not only afford a reward function, but actually provide a well-shaped objective landscape that both promotes progress toward good states and provides a calibrated exploration bonus. In this work, we we show that an uncertainty aware classifier can solve challenging reinforcement learning problems by both encouraging exploration and provided directed guidance towards positive outcomes. We propose a novel mechanism for obtaining these calibrated, uncertainty-aware classifiers based on an amortized technique for computing the normalized maximum likelihood (NML) distribution, also showing how these techniques can be made computationally tractable by leveraging tools from meta-learning. We show that the resulting algorithm has a number of intriguing connections to both count-based exploration methods and prior algorithms for learning reward functions, while also providing more effective guidance towards the goal. We demonstrate that our algorithm solves a number of challenging navigation and robotic manipulation tasks which prove difficult or impossible for prior methods.
翻訳日:2021-07-16 13:49:47 公開日:2021-07-15
# 地中CO2排出と放流後の多相流挙動予測のためのロバスト深層学習ワークフロー

A Robust Deep Learning Workflow to Predict Multiphase Flow Behavior during Geological CO2 Sequestration Injection and Post-Injection Periods ( http://arxiv.org/abs/2107.07274v1 )

ライセンス: Link先を確認
Bicheng Yan, Bailian Chen, Dylan Robert Harp, Rajesh J. Pawar(参考訳) 本研究は, 地質CO2シークエンス(GCS)操作の注入および後注入期間において, 圧力とCO2プルームの時間空間的進化を正確に, 効率的に予測する深層学習ワークフローの開発と評価に寄与する。 深層学習ワークフローは、フーリエニューロン演算子に基づいて、入力変数やロック特性、よく操作された制御と時間ステップを含む機能を取り、圧力とCO2飽和状態の変数を予測する。 予測忠実度をさらに向上するため,これら2相の流体流動と輸送の一次駆動力の違いにより,CO2注入と後噴射期間の異なる深層学習モデルを訓練した。 状態変数を予測するために、さまざまな機能の組み合わせも検討します。 3次元不均質帯帯水層におけるco2注入と貯蔵の現実的な例を用いて,物理ベースのシミュレーションデータから訓練された深層学習ワークフローを適用し,物理過程をエミュレートする。 この数値実験により,2つの異なる深層学習モデルを用いて注入後の圧力を最も正確に予測し,CO2の累積注入量を含むGCSプロセス全体を1つの深部学習モデルで深部学習特徴とし,CO2飽和度を最も正確に予測することを示した。 インジェクション後の期間は, 累積CO2注入量を用いて, 圧力または飽和度を予測する際に, 炭素貯蔵量について深層学習モデルに伝えることが重要である。 ディープラーニングワークフローは、時間的および空間的スケールにわたる高い予測忠実度を提供するだけでなく、完全な物理貯水池シミュレーションに比べて250倍のスピードアップを提供するため、GCSの長期的なプロセスを管理するための重要な予測ツールとなる。

This paper contributes to the development and evaluation of a deep learning workflow that accurately and efficiently predicts the temporal-spatial evolution of pressure and CO2 plumes during injection and post-injection periods of geologic CO2 sequestration (GCS) operations. Based on a Fourier Neuron Operator, the deep learning workflow takes input variables or features including rock properties, well operational controls and time steps, and predicts the state variables of pressure and CO2 saturation. To further improve the predictive fidelity, separate deep learning models are trained for CO2 injection and post-injection periods due the difference in primary driving force of fluid flow and transport during these two phases. We also explore different combinations of features to predict the state variables. We use a realistic example of CO2 injection and storage in a 3D heterogeneous saline aquifer, and apply the deep learning workflow that is trained from physics-based simulation data and emulate the physics process. Through this numerical experiment, we demonstrate that using two separate deep learning models to distinguish post-injection from injection period generates the most accurate prediction of pressure, and a single deep learning model of the whole GCS process including the cumulative injection volume of CO2 as a deep learning feature, leads to the most accurate prediction of CO2 saturation. For the post-injection period, it is key to use cumulative CO2 injection volume to inform the deep learning models about the total carbon storage when predicting either pressure or saturation. The deep learning workflow not only provides high predictive fidelity across temporal and spatial scales, but also offers a speedup of 250 times compared to full physics reservoir simulation, and thus will be a significant predictive tool for engineers to manage the long term process of GCS.
翻訳日:2021-07-16 13:49:24 公開日:2021-07-15
# パーソナライズされた信頼性の高い意思決定セット:臨床診断支援システムにおける解釈可能性の向上

Personalized and Reliable Decision Sets: Enhancing Interpretability in Clinical Decision Support Systems ( http://arxiv.org/abs/2107.07483v1 )

ライセンス: Link先を確認
Francisco Valente, Sim\~ao Paredes, Jorge Henriques(参考訳) 本研究では,新しい臨床診断支援システムを提案し,その解釈可能性に関する特性について論じる。 ルールの決定セットと機械学習スキームを組み合わせることで、グローバルおよびローカルな解釈性を提供する。 より具体的には、機械学習は特定の患者に対して正しいルールの確率を予測するために使用され、それによって予測性能が向上する可能性がある。 さらに、個々の予測の信頼性分析にも取り組み、さらにパーソナライズされた解釈可能性に寄与する。 これらのいくつかの要素の組み合わせは臨床利害関係者の信頼を得るのに不可欠であり、患者の状態のより良い評価と医師の意思決定の改善に繋がる。

In this study, we present a novel clinical decision support system and discuss its interpretability-rel ated properties. It combines a decision set of rules with a machine learning scheme to offer global and local interpretability. More specifically, machine learning is used to predict the likelihood of each of those rules to be correct for a particular patient, which may also contribute to better predictive performances. Moreover, the reliability analysis of individual predictions is also addressed, contributing to further personalized interpretability. The combination of these several elements may be crucial to obtain the clinical stakeholders' trust, leading to a better assessment of patients' conditions and improvement of the physicians' decision-making.
翻訳日:2021-07-16 13:48:23 公開日:2021-07-15
# 政策生成モデルによる適応型エージェント集団

Adaptable Agent Populations via a Generative Model of Policies ( http://arxiv.org/abs/2107.07506v1 )

ライセンス: Link先を確認
Kenneth Derek, Phillip Isola(参考訳) 自然界では、生命は生き残り、しばしば繁栄する無数の方法を見出した。 種間や種内でさえ、それぞれの個体は何らかの方法で独特であり、この多様性は適応性と生命に頑健さを与える。 本研究は,任意の環境における多様かつ高水準な政策の空間を学習することを目的としている。 この目的のために、低次元の潜在空間をエージェントポリシー空間にマッピングするポリシーの生成モデルを導入する。 本手法では,個別のポリシーパラメータを使わずに,エージェントポリシーの集団全体を学習できる。 現実世界の人口が自然選択によって適応・進化できるのと同じように、我々の手法は潜在空間における政策を選択するだけで環境の変化に適応することができる。 我々は,オープンエンドグリッドワールドや2プレーヤサッカー環境など,様々な環境で生成モデルの能力をテストする。 コード、可視化、その他の実験はhttps://kennyderek.g ithub.io/adap/で見ることができる。

In the natural world, life has found innumerable ways to survive and often thrive. Between and even within species, each individual is in some manner unique, and this diversity lends adaptability and robustness to life. In this work, we aim to learn a space of diverse and high-reward policies on any given environment. To this end, we introduce a generative model of policies, which maps a low-dimensional latent space to an agent policy space. Our method enables learning an entire population of agent policies, without requiring the use of separate policy parameters. Just as real world populations can adapt and evolve via natural selection, our method is able to adapt to changes in our environment solely by selecting for policies in latent space. We test our generative model's capabilities in a variety of environments, including an open-ended grid-world and a two-player soccer environment. Code, visualizations, and additional experiments can be found at https://kennyderek.g ithub.io/adap/.
翻訳日:2021-07-16 13:48:12 公開日:2021-07-15
# 連続変数ニューラルネットワーク量子状態と量子ロータモデル

Continuous-variable neural-network quantum states and the quantum rotor model ( http://arxiv.org/abs/2107.07105v1 )

ライセンス: Link先を確認
James Stokes, Saibal De, Shravan Veerapaneni, Giuseppe Carleo(参考訳) 第一量子化における連続変数格子量子システムの解析のためのニューラルネットワーク量子状態アルゴリズムの研究を開始する。 量子スピン系の解析に導入された制限ボルツマン機械(rbm)の波動関数を自然に一般化する連続変数試行波ファンクトンの単純な族が導入された。 その単純さにより、スピン系の基底状態決定と時間進化のために開発されたモンテカルロ訓練アルゴリズムは連続体に自然な類似性を持つ。 確率的量子回転子ハミルトンの基底状態決定の文脈において、原理実証の証明を提供する。 その結果, 偏微分方程式 (PDE) に基づくスケーラブル固有解法と比較した。 この研究は、連続変数型ニューラルネットワークの量子状態の将来の調査を比較できるベンチマークとして役立ち、ディープネットワークアーキテクチャとより高度なトレーニングアルゴリズムを考慮する必要性を指摘する。

We initiate the study of neural-network quantum state algorithms for analyzing continuous-variable lattice quantum systems in first quantization. A simple family of continuous-variable trial wavefunctons is introduced which naturally generalizes the restricted Boltzmann machine (RBM) wavefunction introduced for analyzing quantum spin systems. By virtue of its simplicity, the same variational Monte Carlo training algorithms that have been developed for ground state determination and time evolution of spin systems have natural analogues in the continuum. We offer a proof of principle demonstration in the context of ground state determination of a stoquastic quantum rotor Hamiltonian. Results are compared against those obtained from partial differential equation (PDE) based scalable eigensolvers. This study serves as a benchmark against which future investigation of continuous-variable neural quantum states can be compared, and points to the need to consider deep network architectures and more sophisticated training algorithms.
翻訳日:2021-07-16 13:47:36 公開日:2021-07-15
# NeuSaver: モバイルビデオストリーミングのためのニューラル適応電力消費最適化

NeuSaver: Neural Adaptive Power Consumption Optimization for Mobile Video Streaming ( http://arxiv.org/abs/2107.07127v1 )

ライセンス: Link先を確認
Kyoungjun Park, Myungchul Kim, Laihyuk Park(参考訳) ビデオストリーミングサービスは、qoe(quality of experience)を改善するために、高品質な動画を高解像度でフレームレートでサポートすることを目指している。 しかし、高品質のビデオはモバイルデバイスでかなりのエネルギーを消費する。 本稿では,ユーザエクスペリエンスを損なうことなく,各ビデオチャンクに適応フレームレートを適用することで,動画ストリーミング時のモバイルデバイスの消費電力を削減できるNeuSaverを提案する。 neusaverは強化学習(rl)を用いて各ビデオチャンクの適切なフレームレートを決定する最適なポリシーを生成する。 RLモデルは、以前の観測に基づいてQoE目標を最大化するポリシーを自動的に学習する。 NeuSaverはまた、非同期のアドバンテージアクター批判アルゴリズムを使用して、RLモデルを迅速かつ堅牢に強化する。 neusaverをサポートするストリーミングサーバは、さまざまなフレームレートのセグメントに動画をプリプロセスする。これは、http上の動的適応ストリーミングにおいて、複数のビットレートの動画を作成するプロセスに似ている。 NeuSaverは一般的なH.264ビデオコーデックを使用している。 我々はneusaverを様々な実験で評価し,最新モデルとともに4つのビデオカテゴリでユーザスタディを行った。 実験の結果,neusaverは動画ストリーミング時のモバイルデバイスの消費電力を平均16.14%,最大23.12%削減し,qoeを高い値で達成した。

Video streaming services strive to support high-quality videos at higher resolutions and frame rates to improve the quality of experience (QoE). However, high-quality videos consume considerable amounts of energy on mobile devices. This paper proposes NeuSaver, which reduces the power consumption of mobile devices when streaming videos by applying an adaptive frame rate to each video chunk without compromising user experience. NeuSaver generates an optimal policy that determines the appropriate frame rate for each video chunk using reinforcement learning (RL). The RL model automatically learns the policy that maximizes the QoE goals based on previous observations. NeuSaver also uses an asynchronous advantage actor-critic algorithm to reinforce the RL model quickly and robustly. Streaming servers that support NeuSaver preprocesses videos into segments with various frame rates, which is similar to the process of creating videos with multiple bit rates in dynamic adaptive streaming over HTTP. NeuSaver utilizes the commonly used H.264 video codec. We evaluated NeuSaver in various experiments and a user study through four video categories along with the state-of-the-art model. Our experiments showed that NeuSaver effectively reduces the power consumption of mobile devices when streaming video by an average of 16.14% and up to 23.12% while achieving high QoE.
翻訳日:2021-07-16 13:47:21 公開日:2021-07-15
# DeFed: 原則付き分散型かつプライバシ保護型フェデレーション学習アルゴリズム

DeFed: A Principled Decentralized and Privacy-Preserving Federated Learning Algorithm ( http://arxiv.org/abs/2107.07171v1 )

ライセンス: Link先を確認
Ye Yuan, Ruijuan Chen, Chuan Sun, Maolin Wang, Feng Hua, Xinlei Yi, Tao Yang and Jun Liu(参考訳) フェデレートラーニングにより、多数のクライアントが共有モデル学習に参加しながら、各クライアントに格納されたトレーニングデータを維持し、データのプライバシとセキュリティを保護することができる。 現在、統合学習フレームワークは中央集権的な方法で構築されており、中央のクライアントが他のすべてのクライアントから情報を収集、配布するために必要である。 これにより、中央クライアントの通信プレッシャーが高くなるだけでなく、中央クライアントは障害や攻撃に対して非常に脆弱になる。 本稿では,従来のフェデレーション平均化(FedAvg)設定における中心的クライアントを排除し,クライアントとその周辺住民間の情報伝達のみに依存する分散型フェデレーション学習アルゴリズム(DeFed)を提案する。 提案するdefedアルゴリズムは、損失関数が滑らかで強い凸である場合の収束率o(1/t)$で大域的最小値に達することが証明され、ここでは$t$は勾配降下の反復数である。 最後に,提案アルゴリズムを多数のおもちゃの例に適用し,その有効性を実証した。

Federated learning enables a large number of clients to participate in learning a shared model while maintaining the training data stored in each client, which protects data privacy and security. Till now, federated learning frameworks are built in a centralized way, in which a central client is needed for collecting and distributing information from every other client. This not only leads to high communication pressure at the central client, but also renders the central client highly vulnerable to failure and attack. Here we propose a principled decentralized federated learning algorithm (DeFed), which removes the central client in the classical Federated Averaging (FedAvg) setting and only relies information transmission between clients and their local neighbors. The proposed DeFed algorithm is proven to reach the global minimum with a convergence rate of $O(1/T)$ when the loss function is smooth and strongly convex, where $T$ is the number of iterations in gradient descent. Finally, the proposed algorithm has been applied to a number of toy examples to demonstrate its effectiveness.
翻訳日:2021-07-16 13:47:00 公開日:2021-07-15
# DAL:畳み込みオートエンコーダを用いた過剰音声から脳波のデコードへの特徴学習

DAL: Feature Learning from Overt Speech to Decode Imagined Speech-based EEG Signals with Convolutional Autoencoder ( http://arxiv.org/abs/2107.07064v1 )

ライセンス: Link先を確認
Dae-Hyeok Lee, Sung-Jin Kim, Seong-Whan Lee(参考訳) 脳コンピュータインタフェース(BCI)は、人間の意図とステータスを反映して人間とデバイス間のコミュニケーションを可能にするツールの1つである。 人工知能の発展に伴い、脳波(EEG)を用いた人間とドローンのコミュニケーションへの関心が高まっている。 特に、方向やフォーメーションなどのドローン群を制御する場合、ドローンユニットを制御することに比べ、多くの利点がある。 音声は内在的BCIパラダイムの一つであり、ユーザの意図を識別することができる。 想像的な会話を行うとき、ユーザーは発音をまるで実際に話すかのように想像する。 対照的に、オーバートスピーチは、ユーザーが直接単語を発音するタスクである。 想像上の音声を使ってドローン群を制御する場合、複雑なコマンドはより直感的に配信できるが、デコード性能は他の内在的なbciパラダイムよりも低い。 音声を用いた脳波信号分類において,脳波の特徴を学習するためのDeep-autoleaner (DAL) を提案する。 我々の知る限り、この研究は、オーバート音声の脳波特徴を用いて、想像上の音声に基づく脳波信号をオートエンコーダで復号する最初の試みである。 実験には合計8人の被験者が参加した。 4つの単語を分類すると、DALの平均精度は48.41%だった。 また, 音声のw/o特徴とw/EEG特徴の比較では, 音声の脳波特徴を含めると7.42%の性能改善が見られた。 そこで本研究では,音声の脳波特性が予測音声の復号性能を向上できることを実証した。

Brain-computer interface (BCI) is one of the tools which enables the communication between humans and devices by reflecting intention and status of humans. With the development of artificial intelligence, the interest in communication between humans and drones using electroencephalogram (EEG) is increased. Especially, in the case of controlling drone swarms such as direction or formation, there are many advantages compared with controlling a drone unit. Imagined speech is one of the endogenous BCI paradigms, which can identify intentions of users. When conducting imagined speech, the users imagine the pronunciation as if actually speaking. In contrast, overt speech is a task in which the users directly pronounce the words. When controlling drone swarms using imagined speech, complex commands can be delivered more intuitively, but decoding performance is lower than that of other endogenous BCI paradigms. We proposed the Deep-autoleaner (DAL) to learn EEG features of overt speech for imagined speech-based EEG signals classification. To the best of our knowledge, this study is the first attempt to use EEG features of overt speech to decode imagined speech-based EEG signals with an autoencoder. A total of eight subjects participated in the experiment. When classifying four words, the average accuracy of the DAL was 48.41%. In addition, when comparing the performance between w/o and w/ EEG features of overt speech, there was a performance improvement of 7.42% when including EEG features of overt speech. Hence, we demonstrated that EEG features of overt speech could improve the decoding performance of imagined speech.
翻訳日:2021-07-16 13:46:39 公開日:2021-07-15
# (参考訳) 1価オークションにおける入札シェーディングのための効率的な深層流通ネットワーク [全文訳有]

An Efficient Deep Distribution Network for Bid Shading in First-Price Auctions ( http://arxiv.org/abs/2107.06650v2 )

ライセンス: CC0 1.0
Tian Zhou, Hao He, Shengjun Pan, Niklas Karlsson, Bharatbhushan Shetty, Brendan Kitts, Djordje Gligorijevic, San Gultekin, Tingyu Mao, Junwei Pan, Jianlong Zhang and Aaron Flores(参考訳) 2019年以降、オンライン広告業界のほとんどの広告取引所や販売側プラットフォーム(ssp)は、第2位から第1位へと移行した。 これらの競売の根本的な違いのため、需要側プラットフォーム(DSP)は不必要な高額な入札を避けるために入札戦略を更新しなければならなかった。 第1価格の競売設定におけるコストと当選確率のバランスをとるために、第2価格の競売を意図した入札価格を調整するために、バイドシェーディングを提案した。 本研究では,オープン(非検閲)とクローズ(検閲)の両方のオンライン1価オークションにおいて,最適な入札を行うための新しい深層流通ネットワークを提案する。 オフラインおよびオンラインa/bテストの結果から,本アルゴリズムは,既存の最先端アルゴリズムを,余剰および有効コスト(ecpx)指標の両方で上回っていることが示された。 さらに、アルゴリズムは実行時に最適化され、ベライゾンMedia DSPにプロダクションアルゴリズムとしてデプロイされ、1日に数十億の入札リクエストを提供する。 オンラインA/Bテストによると、広告主のROIは、インプレッションベース(CPM)、クリックベース(CPC)、コンバージョンベース(CPA)の各キャンペーンで+2.4%、+2.4%、+8.6%向上している。

Since 2019, most ad exchanges and sell-side platforms (SSPs), in the online advertising industry, shifted from second to first price auctions. Due to the fundamental difference between these auctions, demand-side platforms (DSPs) have had to update their bidding strategies to avoid bidding unnecessarily high and hence overpaying. Bid shading was proposed to adjust the bid price intended for second-price auctions, in order to balance cost and winning probability in a first-price auction setup. In this study, we introduce a novel deep distribution network for optimal bidding in both open (non-censored) and closed (censored) online first-price auctions. Offline and online A/B testing results show that our algorithm outperforms previous state-of-art algorithms in terms of both surplus and effective cost per action (eCPX) metrics. Furthermore, the algorithm is optimized in run-time and has been deployed into VerizonMedia DSP as production algorithm, serving hundreds of billions of bid requests per day. Online A/B test shows that advertiser's ROI are improved by +2.4%, +2.4%, and +8.6% for impression based (CPM), click based (CPC), and conversion based (CPA) campaigns respectively.
翻訳日:2021-07-16 11:54:36 公開日:2021-07-15
# (参考訳) Delaunay-Graph ニューラルネットワークによるスケーラブル表面再構成 [全文訳有]

Scalable Surface Reconstruction with Delaunay-Graph Neural Networks ( http://arxiv.org/abs/2107.06130v2 )

ライセンス: CC BY 4.0
Raphael Sulzer, Loic Landrieu, Renaud Marlet, Bruno Vallet(参考訳) 本稿では,新しい学習ベース,可視性を考慮した表面再構成手法を提案する。 本手法は,実生活型マルチビューステレオ (mvs) におけるポイントクラウドの欠陥のスケールと多様さに対応できる。 本手法は, 3次元デラウネー四面体化法を用いて, 細胞をグラフニューラルネットワークとグラフカットで溶解可能なエネルギーモデルにより, 内部および外部に分類した。 私たちのモデルは,局所幾何学的属性と視線視認性情報の両方を用いて,少量の合成訓練データから可視性モデルを学び,実生活の獲得に一般化する。 ディープラーニング手法の効率性とエネルギーベースモデルのスケーラビリティを両立させ,学習アルゴリズムと非学習ベース再構築アルゴリズムを両ベンチマークで比較した。

We introduce a novel learning-based, visibility-aware, surface reconstruction method for large-scale, defect-laden point clouds. Our approach can cope with the scale and variety of point cloud defects encountered in real-life Multi-View Stereo (MVS) acquisitions. Our method relies on a 3D Delaunay tetrahedralization whose cells are classified as inside or outside the surface by a graph neural network and an energy model solvable with a graph cut. Our model, making use of both local geometric attributes and line-of-sight visibility information, is able to learn a visibility model from a small amount of synthetic training data and generalizes to real-life acquisitions. Combining the efficiency of deep learning methods and the scalability of energy based models, our approach outperforms both learning and non learning-based reconstruction algorithms on two publicly available reconstruction benchmarks.
翻訳日:2021-07-16 11:38:36 公開日:2021-07-15
# (参考訳) HDMapNet: オンラインHDマップの構築と評価フレームワーク [全文訳有]

HDMapNet: An Online HD Map Construction and Evaluation Framework ( http://arxiv.org/abs/2107.06307v2 )

ライセンス: CC BY 4.0
Qi Li, Yue Wang, Yilun Wang, Hang Zhao(参考訳) 高精細地図(HDマップ)の構築は自動運転にとって重要な問題である。 この問題は通常、高品質の点雲を集め、同じシーンの複数の点雲を融合させ、地図要素を注釈付けし、常にマップを更新する。 しかしこのパイプラインは、スケーラビリティを制限する大量の人的努力とリソースを必要とします。 さらに、従来のhdマップは、多くのシナリオでは信頼できないセンチメートルレベルの正確なローカライズと結合されている。 本稿では,hdマップを動的に構築するオンラインマップ学習が,従来のhdマップよりも,自動運転車に先立って意味と幾何学を提供する上で,よりスケーラブルな方法であると主張する。 一方,我々はhdmapnetというオンライン地図学習手法を紹介する。 周囲のカメラやLiDARの点雲からの画像の特徴を符号化し、鳥の目視でベクトル化された地図要素を予測する。 nuScenesデータセット上でHDMapNetをベンチマークし、すべての設定において、ベースラインメソッドよりも優れたパフォーマンスを示す。 注目すべきは、私たちの融合ベースのHDMapNetは、すべてのメトリクスで既存のメソッドを50%以上上回っています。 今後の研究を加速するために,セマンティックレベルとインスタンスレベルの両方を含むマップ学習性能を評価するためのカスタムメトリクスを開発した。 この方法とメトリクスを導入することで,この新たなマップ学習問題の研究をコミュニティに依頼する。 今後の開発を促進するため、コードと評価キットをリリースします。

High-definition map (HD map) construction is a crucial problem for autonomous driving. This problem typically involves collecting high-quality point clouds, fusing multiple point clouds of the same scene, annotating map elements, and updating maps constantly. This pipeline, however, requires a vast amount of human efforts and resources which limits its scalability. Additionally, traditional HD maps are coupled with centimeter-level accurate localization which is unreliable in many scenarios. In this paper, we argue that online map learning, which dynamically constructs the HD maps based on local sensor observations, is a more scalable way to provide semantic and geometry priors to self-driving vehicles than traditional pre-annotated HD maps. Meanwhile, we introduce an online map learning method, titled HDMapNet. It encodes image features from surrounding cameras and/or point clouds from LiDAR, and predicts vectorized map elements in the bird's-eye view. We benchmark HDMapNet on the nuScenes dataset and show that in all settings, it performs better than baseline methods. Of note, our fusion-based HDMapNet outperforms existing methods by more than 50% in all metrics. To accelerate future research, we develop customized metrics to evaluate map learning performance, including both semantic-level and instance-level ones. By introducing this method and metrics, we invite the community to study this novel map learning problem. We will release our code and evaluation kit to facilitate future development.
翻訳日:2021-07-16 11:15:20 公開日:2021-07-15
# (参考訳) BERT言語モデルを用いた大規模ニュース分類:Spark NLPアプローチ [全文訳有]

Large-Scale News Classification using BERT Language Model: Spark NLP Approach ( http://arxiv.org/abs/2107.06785v2 )

ライセンス: CC BY 4.0
Kuncahyo Setyo Nugroho, Anantha Yullian Sukmadewa, Novanto Yudistira(参考訳) NLP上のビッグデータ分析の台頭は、大規模にテキスト処理を行う際の計算負担を増大させる。 NLPで直面する問題は高次元テキストであり、高い計算資源を必要とする。 MapReduceは大規模計算の並列化を可能にし、テキスト処理の効率を向上させる。 本研究の目的は,ビッグデータ処理がNLPタスクに与える影響をディープラーニングアプローチに基づいて検討することである。 我々は、事前訓練されたモデルを用いた細調整BERTを用いて、ニューストピックの大きなテキストを分類する。 本研究では,パラメータの異なる5つの事前学習モデルを用いた。 本手法の効率性を評価するため, BERTとSpark NLPのパイプラインの性能を比較した。 その結果, Spark NLP の BERT は Spark NLP の BERT よりも精度が高いことがわかった。 BERTを用いた全てのモデルの精度平均とトレーニング時間は0.9187と35分であり、Spark NLPパイプラインを使用したBERTは0.8444と9分である。 より大きなモデルはより多くの計算リソースを必要とし、タスクを完了するのに長い時間がかかるでしょう。 しかし、Spark NLPのBERTの精度は平均5.7%しか低下せず、トレーニング時間はSpark NLPのBERTに比べて62.9%低下した。

The rise of big data analytics on top of NLP increases the computational burden for text processing at scale. The problems faced in NLP are very high dimensional text, so it takes a high computation resource. The MapReduce allows parallelization of large computations and can improve the efficiency of text processing. This research aims to study the effect of big data processing on NLP tasks based on a deep learning approach. We classify a big text of news topics with fine-tuning BERT used pre-trained models. Five pre-trained models with a different number of parameters were used in this study. To measure the efficiency of this method, we compared the performance of the BERT with the pipelines from Spark NLP. The result shows that BERT without Spark NLP gives higher accuracy compared to BERT with Spark NLP. The accuracy average and training time of all models using BERT is 0.9187 and 35 minutes while using BERT with Spark NLP pipeline is 0.8444 and 9 minutes. The bigger model will take more computation resources and need a longer time to complete the tasks. However, the accuracy of BERT with Spark NLP only decreased by an average of 5.7%, while the training time was reduced significantly by 62.9% compared to BERT without Spark NLP.
翻訳日:2021-07-16 11:00:35 公開日:2021-07-15
# ParCourE:多言語コーパスのための並列コーパスエクスプローラ

ParCourE: A Parallel Corpus Explorer for a Massively Multilingual Corpus ( http://arxiv.org/abs/2107.06632v2 )

ライセンス: Link先を確認
Ayyoob Imani, Masoud Jalili Sabet, Philipp Dufter, Michael Cysouw, Hinrich Sch\"utze(参考訳) 全世界で7000以上の言語を持つ多言語自然言語処理(nlp)は、学術的・商業的にも不可欠である。 多言語NLPの進展には,言語の種類的特性の研究が不可欠である。 例えば、効果的な転送学習のための言語類似性の評価、機械学習モデルへの帰納的バイアスの注入、辞書やインフレクションテーブルなどのリソースの作成などだ。 我々は,1334言語をカバーする単語対応並列コーパスを閲覧可能なオンラインツールparcoureを提供する。 これは類型研究に有用であることを示す。 パークールは任意の並列コーパスに設定でき、それによって他のコーパスのタイプ学研究や、その品質と特性の探求に使うことができる。

With more than 7000 languages worldwide, multilingual natural language processing (NLP) is essential both from an academic and commercial perspective. Researching typological properties of languages is fundamental for progress in multilingual NLP. Examples include assessing language similarity for effective transfer learning, injecting inductive biases into machine learning models or creating resources such as dictionaries and inflection tables. We provide ParCourE, an online tool that allows to browse a word-aligned parallel corpus, covering 1334 languages. We give evidence that this is useful for typological research. ParCourE can be set up for any parallel corpus and can thus be used for typological research on other corpora as well as for exploring their quality and properties.
翻訳日:2021-07-16 10:48:21 公開日:2021-07-15
# 自動車の燃料消費に影響を与える要因の解明

Understanding Factors Affecting Fuel Consumption of Vehicles Through Explainable Boosting Machines ( http://arxiv.org/abs/2107.06031v2 )

ライセンス: Link先を確認
Alberto Barbado, \'Oscar Corcho(参考訳) ディーゼル車やガソリン車を扱う多くの企業にとって、かなりの経済コストは燃料消費に関係している。 消費は、運転行動スタイルのようないくつかの要因で作用することで減らすことができる。 これらの要因を改善することで、計画されたルートや停留所などの他の側面を変更することなく、車両の燃料使用量を削減できる。 これにより、燃料消費に関連する排出を削減しながら経済コストを軽減できる。 本稿では,説明可能な人工知能(xai)が,燃料要因が車両の消費に与える影響を定量化する上で有用であることを示す。 我々は説明可能なブースティングマシン(ebm)を用いて異なる特徴を訓練し、それらと燃料消費の関係をモデル化し説明し、事前の知識を用いて説明の質を評価する。 私たちは、乗用車から大型トラックまで、さまざまな種類の車両を表す現実世界の業界データセットで作業しています。

A significant economic cost for many companies that operate with fleets of diesel and petrol vehicles is related to fuel consumption. Consumption can be reduced by acting over some factors, like driving behaviour style. Improving these factors can reduce the fuel usage of a vehicle without changing other aspects, such as planned routes or stops. This mitigates economic costs while reducing emissions associated to fuel consumption. In this paper we show how Explainable Artificial Intelligence (XAI) is useful for quantifying the impact that fuel factors have on the consumption of a vehicle fleet. We use Explainable Boosting Machines (EBM), trained over different features in order to both model and explain the relationship between them and fuel consumption, and then assess quality of the explanations using prior domain knowledge. We work with real-world industry datasets that represent different types of vehicles, from passenger cars to heavy-duty trucks.
翻訳日:2021-07-16 10:48:10 公開日:2021-07-15
# cmt:畳み込みニューラルネットワークが視覚トランスフォーマーに対応

CMT: Convolutional Neural Networks Meet Vision Transformers ( http://arxiv.org/abs/2107.06263v2 )

ライセンス: Link先を確認
Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu and Yunhe Wang(参考訳) 視覚トランスフォーマーは、画像内の長距離依存性をキャプチャできるため、画像認識タスクにうまく適用されている。 しかし、トランスと既存の畳み込みニューラルネットワーク(CNN)のパフォーマンスと計算コストにはまだギャップがある。 本稿では,この課題に対処し,標準変圧器だけでなく,高性能な畳み込みモデルにも勝るネットワークを構築することを目的とする。 本稿では,長距離依存性を捉えるためにトランスを活用し,局所的な特徴をモデル化するためのcnnを用いて,新しいトランスフォーマティブ・ハイブリッド・ネットワークを提案する。 さらに,従来の畳み込みモデルやトランスフォーマーモデルよりも精度と効率が向上し,cmtsと呼ばれるモデル群を得るようにスケールする。 特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。 提案されたCMT-Sは、CIFAR10 (99.2%)、CIFAR100 (91.7%)、花(98.7%)、COCO (44.3% mAP)などの挑戦的なビジョンデータセットにもよく応用でき、計算コストもかなり少ない。

Vision transformers have been successfully applied to image recognition tasks due to their ability to capture long-range dependencies within an image. However, there are still gaps in both performance and computational cost between transformers and existing convolutional neural networks (CNNs). In this paper, we aim to address this issue and develop a network that can outperform not only the canonical transformers, but also the high-performance convolutional models. We propose a new transformer based hybrid network by taking advantage of transformers to capture long-range dependencies, and of CNNs to model local features. Furthermore, we scale it to obtain a family of models, called CMTs, obtaining much better accuracy and efficiency than previous convolution and transformer based models. In particular, our CMT-S achieves 83.5% top-1 accuracy on ImageNet, while being 14x and 2x smaller on FLOPs than the existing DeiT and EfficientNet, respectively. The proposed CMT-S also generalizes well on CIFAR10 (99.2%), CIFAR100 (91.7%), Flowers (98.7%), and other challenging vision datasets such as COCO (44.3% mAP), with considerably less computational cost.
翻訳日:2021-07-16 10:47:57 公開日:2021-07-15
# 勧告の因果効果に関するオンライン評価手法

Online Evaluation Methods for the Causal Effect of Recommendations ( http://arxiv.org/abs/2107.06630v2 )

ライセンス: Link先を確認
Masahiro Sato(参考訳) ユーザインタラクションに対する因果効果が直接的にセールスやユーザエンゲージメントの増加につながるため,レコメンデーションの因果効果を評価することが重要な目的である。 最適なレコメンデーションモデルを選択するには、モデル性能を比較するためにA/Bテストを行うのが一般的である。 しかし、因果効果のA/Bテストには多数のユーザーが必要であり、そのような実験は費用がかかり危険である。 そこで本研究では,因果効果の観点からレコメンデーションモデルを効率的に比較できる最初のインターリーブ手法を提案する。 従来のインターリーブ方式とは対照的に,提案する結果と非推奨の結果の差が因果効果であるので,インターリーブリストとインターリーブリストではない項目の双方の結果を測定する。 評価が不偏であることを保証するため、同じ確率の項目を選択するか、逆傾向スコアを用いて結果の重み付けを行う。 次に,オンライン評価手法の偏りと効率をシミュレートしたオンライン実験により検証する。 その結果,提案手法は非バイアスであり,A/B試験よりも効率がよいことがわかった。

Evaluating the causal effect of recommendations is an important objective because the causal effect on user interactions can directly leads to an increase in sales and user engagement. To select an optimal recommendation model, it is common to conduct A/B testing to compare model performance. However, A/B testing of causal effects requires a large number of users, making such experiments costly and risky. We therefore propose the first interleaving methods that can efficiently compare recommendation models in terms of causal effects. In contrast to conventional interleaving methods, we measure the outcomes of both items on an interleaved list and items not on the interleaved list, since the causal effect is the difference between outcomes with and without recommendations. To ensure that the evaluations are unbiased, we either select items with equal probability or weight the outcomes using inverse propensity scores. We then verify the unbiasedness and efficiency of online evaluation methods through simulated online experiments. The results indicate that our proposed methods are unbiased and that they have superior efficiency to A/B testing.
翻訳日:2021-07-16 10:47:34 公開日:2021-07-15
# (参考訳) ゼロラウンドアクティブラーニング

Zero-Round Active Learning ( http://arxiv.org/abs/2107.06703v2 )

ライセンス: CC BY 4.0
Si Chen, Tianhao Wang, Ruoxi Jia(参考訳) アクティブラーニング(AL)は、大きなプールから最も価値のあるラベル付きデータポイントを特定することで、ラベル付けの労力を削減することを目的としている。 従来のALフレームワークには2つの制限がある。 第二に、ラベル付けされていないプールのデータと同じドメインにラベル付けされたデータポイントが少量存在すると仮定する。 最近の研究は、データユーティリティ学習と最適化に基づく一周的なアクティブラーニングのソリューションを提案している。 本稿では,両問題を解く解として$\mathrm{D^2ULO}$を提案する。 具体的には、$\mathrm{D^2ULO}$は、ドメイン適応(DA)の概念を利用してデータユーティリティモデルをトレーニングし、一度ラベル付けされた任意の未ラベルデータのユーティリティを効果的に予測できる。 トレーニングされたデータユーティリティモデルを使用して、高ユーティリティデータを選択し、同時に、選択したデータの有用性の見積を行うことができる。 このアルゴリズムは対象領域の注釈者からのフィードバックに依存しないため、ゼロラウンドアクティブラーニングの実行や、既存のマルチラウンドアクティブラーニング戦略のウォームスタートに使用できる。 実験によれば、$\mathrm{d^2ulo}$は、様々なドメインシフト設定(実データと合成データ)に対してドメイン適応を備えた既存のal戦略よりも優れています。 特に$\mathrm{D^2ULO}$は、ソースとターゲットラベルがミスマッチしているシナリオに適用できる。

Active learning (AL) aims at reducing labeling effort by identifying the most valuable unlabeled data points from a large pool. Traditional AL frameworks have two limitations: First, they perform data selection in a multi-round manner, which is time-consuming and impractical. Second, they usually assume that there are a small amount of labeled data points available in the same domain as the data in the unlabeled pool. Recent work proposes a solution for one-round active learning based on data utility learning and optimization, which fixes the first issue but still requires the initially labeled data points in the same domain. In this paper, we propose $\mathrm{D^2ULO}$ as a solution that solves both issues. Specifically, $\mathrm{D^2ULO}$ leverages the idea of domain adaptation (DA) to train a data utility model which can effectively predict the utility for any given unlabeled data in the target domain once labeled. The trained data utility model can then be used to select high-utility data and at the same time, provide an estimate for the utility of the selected data. Our algorithm does not rely on any feedback from annotators in the target domain and hence, can be used to perform zero-round active learning or warm-start existing multi-round active learning strategies. Our experiments show that $\mathrm{D^2ULO}$ outperforms the existing state-of-the-art AL strategies equipped with domain adaptation over various domain shift settings (e.g., real-to-real data and synthetic-to-real data). Particularly, $\mathrm{D^2ULO}$ is applicable to the scenario where source and target labels have mismatches, which is not supported by the existing works.
翻訳日:2021-07-16 09:12:37 公開日:2021-07-15