このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211212となっている論文です。

PDF登録状況(公開日: 20211212)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 分散連合学習のための効率的で信頼性の高いオーバーレイネットワーク [全文訳有]

Efficient and Reliable Overlay Networks for Decentralized Federated Learning ( http://arxiv.org/abs/2112.15486v1 )

ライセンス: CC0 1.0
Yifan Hua, Kevin Miller, Andrea L. Bertozzi, Chen Qian, Bao Wang(参考訳) 本研究では,dfl(decentralized federated learning)を高速化し,その一般化を改善するために,$d$-regular expander graphsに基づく最適に近いオーバーレイネットワークを提案する。 DFLでは、大量のクライアントがオーバーレイネットワークで接続され、生データを共有せずに機械学習の問題を解決する。 オーバーレイネットワークの設計はスペクトルグラフ理論と理論収束とDFLの一般化境界を統合している。 したがって,提案するオーバーレイネットワークは収束を加速し,一般化を向上し,理論的保証によりdflのクライアント障害に対する堅牢性を高める。 また,あるグラフを実際のオーバーレイネットワークに変換し,潜在的なクライアント障害後のネットワークトポロジを維持する効率的なアルゴリズムを提案する。 画像分類から数百のクライアントを用いた言語モデリングまで,様々なベンチマークタスクにおいて提案したネットワークによるDFLの利点を数値的に検証する。

We propose near-optimal overlay networks based on $d$-regular expander graphs to accelerate decentralized federated learning (DFL) and improve its generalization. In DFL a massive number of clients are connected by an overlay network, and they solve machine learning problems collaboratively without sharing raw data. Our overlay network design integrates spectral graph theory and the theoretical convergence and generalization bounds for DFL. As such, our proposed overlay networks accelerate convergence, improve generalization, and enhance robustness to clients failures in DFL with theoretical guarantees. Also, we present an efficient algorithm to convert a given graph to a practical overlay network and maintaining the network topology after potential client failures. We numerically verify the advantages of DFL with our proposed networks on various benchmark tasks, ranging from image classification to language modeling using hundreds of clients.
翻訳日:2022-01-09 18:05:21 公開日:2021-12-12
# (参考訳) 注意を向けた単目的ナンバープレート検出法 [全文訳有]

A Single-Target License Plate Detection with Attention ( http://arxiv.org/abs/2112.12070v1 )

ライセンス: CC BY 4.0
Wenyun Li and Chi-Man Pun(参考訳) ディープラーニングの開発により、ニューラルネットワークは一般的にライセンスプレート検出(lpd)タスクに採用され、より優れたパフォーマンスと精度を実現している。 LPDのような単一のオブジェクト検出タスクでは、修正された汎用オブジェクト検出は時間がかかり、複雑なシナリオや組み込みデバイスへのデプロイが困難すぎる面倒な重み付けファイルに対処できない。

With the development of deep learning, Neural Network is commonly adopted to the License Plate Detection (LPD) task and achieves much better performance and precision, especially CNN-based networks can achieve state of the art RetinaNet[1]. For a single object detection task such as LPD, modified general object detection would be time-consuming, unable to cope with complex scenarios and a cumbersome weights file that is too hard to deploy on the embedded device.
翻訳日:2021-12-26 14:59:13 公開日:2021-12-12
# (参考訳) 喫煙行動検出のための解釈可能な特徴学習フレームワーク [全文訳有]

Interpretable Feature Learning Framework for Smoking Behavior Detection ( http://arxiv.org/abs/2112.08178v1 )

ライセンス: CC BY 4.0
Nakayiza Hellen and Ggaliwango Marvin(参考訳) 公共の場での喫煙は非喫煙者にとってより有害であることが証明されており、積極的な措置と当局の注意を緊急に必要とする公衆衛生上の大きな懸念となっている。 世界が第4次産業革命に向かっている中、スマートシティ内外における公衆衛生への有害な中毒行為に対して、信頼できるエコフレンドリーな刑事対策が必要である。 深層学習vgg-16を用いた喫煙行動検出のための解釈可能な特徴学習フレームワークを開発し,入力画像クラスと層間関連伝播(lrp)の予測と分類を行い,最も関連する学習特徴,ピクセル,ニューロンに基づいて喫煙行動のネットワーク検出と予測を行う。 ネットワークの分類決定は、主に口にある特徴に基づいており、特に煙はネットワークの決定にとって重要であると考えられる。 煙の輪郭は、対応する階級の証拠として強調される。 いくつかの要素は喫煙ニューロンに悪影響を及ぼし、結果として異なるハイライトを受ける。 ネットワークが画像領域に基づいて重要でない特徴と区別していることは興味深い。 この技術は、雑草、シシャ、マリファナなどの喫煙可能な薬物を検出できる。 この枠組みは、学校、ショッピングモール、バス停、鉄道区画などの安全でない地域での行動に基づく喫煙者の信頼性の高い識別を可能にする。 この技術は、喫煙ゾーンに明確に設定されているため、喫煙者を範囲外から検出することができる。

Smoking in public has been proven to be more harmful to nonsmokers, making it a huge public health concern with urgent need for proactive measures and attention by authorities. With the world moving towards the 4th Industrial Revolution, there is a need for reliable eco-friendly detective measures towards this harmful intoxicating behavior to public health in and out of smart cities. We developed an Interpretable feature learning framework for smoking behavior detection which utilizes a Deep Learning VGG-16 pretrained network to predict and classify the input Image class and a Layer-wise Relevance Propagation (LRP) to explain the network detection or prediction of smoking behavior based on the most relevant learned features or pixels or neurons. The network's classification decision is based mainly on features located at the mouth especially the smoke seems to be of high importance to the network's decision. The outline of the smoke is highlighted as evidence for the corresponding class. Some elements are seen as having a negative effect on the smoke neuron and are consequently highlighted differently. It is interesting to see that the network distinguishes important from unimportant features based on the image regions. The technology can also detect other smokeable drugs like weed, shisha, marijuana etc. The framework allows for reliable identification of action-based smokers in unsafe zones like schools, shopping malls, bus stops, railway compartments or other violated places for smoking as per the government's regulatory health policies. With installation clearly defined in smoking zones, this technology can detect smokers out of range.
翻訳日:2021-12-17 08:13:00 公開日:2021-12-12
# (参考訳) 強化学習による木型集中型Webクローリング [全文訳有]

Tree-based Focused Web Crawling with Reinforcement Learning ( http://arxiv.org/abs/2112.07620v1 )

ライセンス: CC BY 4.0
Andreas Kontogiannis, Dimitrios Kelesis, Vasilis Pollatos, Georgios Paliouras and George Giannakopoulos(参考訳) 集中クローラは、ターゲットトピックに関連するページを可能な限り多く発見することを目的としており、無関係なページ、すなわち収穫率の最大化を回避している。 強化学習(rl)はクローリングプロセスを最適化するために利用されてきたが、巨大な状態とアクション空間を扱うため、深刻な課題となる可能性がある。 本稿では,集中型クローリングのためのエンドツーエンドのRL駆動フレームワークであるTRESを提案する。 他のアプローチとは異なり、私たちはクローリング環境をマルコフ決定プロセスとして適切にモデル化し、状態はWebのサブグラフとして表現し、アクションはその拡張エッジとして表現する。 TRESはキーワード埋め込みのコサイン類似性に基づくキーワード拡張戦略を採用している。 報酬関数を学習するために,検出したキーワードを活用する,KwBiLSTMと呼ばれるディープニューラルネットワークを提案する。 ベストアクションの選択の時間的複雑さを軽減するために,2次元決定木であるtree-frontierを提案し,状態とアクション空間を区別することでトレーニングを高速化する。 実験により,tresは収穫率の面では最先端の手法を58%以上上回り,領域最大化に競争的な結果をもたらすことを示した。 実装コードはhttps://github.com/d daedalus/TRES.comで確認できます。

A focused crawler aims at discovering as many web pages relevant to a target topic as possible, while avoiding irrelevant ones; i.e. maximizing the harvest rate. Reinforcement Learning (RL) has been utilized to optimize the crawling process, yet it deals with huge state and action spaces, which can constitute a serious challenge. In this paper, we propose TRES, an end-to-end RL-empowered framework for focused crawling. Unlike other approaches, we properly model a crawling environment as a Markov Decision Process, by representing the state as a subgraph of the Web and actions as its expansion edges. TRES adopts a keyword expansion strategy based on the cosine similarity of keyword embeddings. To learn a reward function, we propose a deep neural network, called KwBiLSTM, leveraging the discovered keywords. To reduce the time complexity of selecting a best action, we propose Tree-Frontier, a two-fold decision tree, which also speeds up training by discretizing the state and action spaces. Experimentally, we show that TRES outperforms state-of-the-art methods in terms of harvest rate by at least 58%, while it has competitive results in the domain maximization. Our implementation code can be found on https://github.com/d daedalus/TRES.
翻訳日:2021-12-16 09:44:45 公開日:2021-12-12
# (参考訳) 履歴地図テキスト検出のための無制限学習データを提供する合成地図生成 [全文訳有]

Synthetic Map Generation to Provide Unlimited Training Data for Historical Map Text Detection ( http://arxiv.org/abs/2112.06104v1 )

ライセンス: CC BY 4.0
Zekun Li, Runyu Guan, Qianmu Yu, Yao-Yi Chiang and Craig A. Knoblock(参考訳) 多くの歴史地図は、長期の地理的データを必要とする研究のために公開されている。 これらの地図のデザインは地図記号とテキストラベルの組み合わせを含んでいる。 地図画像からテキストラベルを自動的に読み取ることは、地図解釈を大幅にスピードアップさせ、地図コンテンツを記述するリッチなメタデータを生成するのに役立つ。 多くのテキスト検出アルゴリズムは、自動的に地図画像中のテキスト領域を見つけるために提案されているが、ほとんどのアルゴリズムはドメイン外のデータセット(例えば、景色画像)で訓練されている。 トレーニングデータは機械学習モデルの品質を判断し、マップイメージのテキスト領域に手動で注釈を付けることは、労力と時間がかかります。 一方,Open-StreetMap (OSM) のような既存の地理的データソースにはマシン可読なマップ層が含まれており,テキスト層を分離し,テキストラベルアノテーションを容易に取得することができる。 しかし,OSM地図タイルと歴史的地図との地図形式は著しく異なる。 本稿では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。 現代の地図画像を歴史的スタイルに変換し,テキストラベルを配置するために,スタイル転送モデルを用いる。 最新のテキスト検出モデル(例えば、psenet)は、合成歴史地図の利点を享受でき、歴史的地図テキスト検出の大幅な改善が達成できることを示す。

Many historical map sheets are publicly available for studies that require long-term historical geographic data. The cartographic design of these maps includes a combination of map symbols and text labels. Automatically reading text labels from map images could greatly speed up the map interpretation and helps generate rich metadata describing the map content. Many text detection algorithms have been proposed to locate text regions in map images automatically, but most of the algorithms are trained on out-ofdomain datasets (e.g., scenic images). Training data determines the quality of machine learning models, and manually annotating text regions in map images is labor-extensive and time-consuming. On the other hand, existing geographic data sources, such as Open- StreetMap (OSM), contain machine-readable map layers, which allow us to separate out the text layer and obtain text label annotations easily. However, the cartographic styles between OSM map tiles and historical maps are significantly different. This paper proposes a method to automatically generate an unlimited amount of annotated historical map images for training text detection models. We use a style transfer model to convert contemporary map images into historical style and place text labels upon them. We show that the state-of-the-art text detection models (e.g., PSENet) can benefit from the synthetic historical maps and achieve significant improvement for historical map text detection.
翻訳日:2021-12-16 09:12:15 公開日:2021-12-12
# (参考訳) 新生ニワトリと深層ニューラルネットワークの制御-リアーニング研究 [全文訳有]

Controlled-rearing studies of newborn chicks and deep neural networks ( http://arxiv.org/abs/2112.06106v1 )

ライセンス: CC BY 4.0
Donsuk Lee, Pranav Gujarathi, Justin N. Wood(参考訳) 畳み込みニューラルネットワーク(cnns)は、挑戦的なオブジェクト認識タスクで人間レベルのパフォーマンスを達成することができる。 また、CNNは視覚認識タスクにおける神経および行動応答の予測における主要な定量的モデルでもある。 しかし、CNNモデルには広く受け入れられている批判がある: 高速かつ効率的に学習する新生児動物とは異なり、CNNはオブジェクト認識のための正確なモデルを開発するために大量のトレーニングデータを必要とする「データ空腹」であると考えられている。 この批判は、視覚開発モデルとしてCNNを使用するという約束に挑戦する。 そこで本研究では,新生ニワトリとCNNの並列制御実験を行うことにより,CNNが新生児より飢えているデータであるかどうかを直接検討した。 厳密に制御された視覚環境において生まれたばかりのニワトリを育て,ゲームエンジンに仮想動物室を構築することで,その環境で利用可能なトレーニングデータをシミュレートした。 仮想空間を移動するエージェントが取得した画像を記録し,その画像を用いてCNNの訓練を行った。 CNNがニワトリと同じ視覚訓練データを受け取ったとき、CNNはニワトリと同じ難解なビュー不変のオブジェクト認識タスクをうまく解決した。 CNNとニワトリはどちらも、単一のオブジェクトのトレーニングデータから堅牢なオブジェクトモデルを開発することに成功したのです。

Convolutional neural networks (CNNs) can now achieve human-level performance on challenging object recognition tasks. CNNs are also the leading quantitative models in terms of predicting neural and behavioral responses in visual recognition tasks. However, there is a widely accepted critique of CNN models: unlike newborn animals, which learn rapidly and efficiently, CNNs are thought to be "data hungry," requiring massive amounts of training data to develop accurate models for object recognition. This critique challenges the promise of using CNNs as models of visual development. Here, we directly examined whether CNNs are more data hungry than newborn animals by performing parallel controlled-rearing experiments on newborn chicks and CNNs. We raised newborn chicks in strictly controlled visual environments, then simulated the training data available in that environment by constructing a virtual animal chamber in a video game engine. We recorded the visual images acquired by an agent moving through the virtual chamber and used those images to train CNNs. When CNNs received similar visual training data as chicks, the CNNs successfully solved the same challenging view-invariant object recognition tasks as the chicks. Thus, the CNNs were not more data hungry than animals: both CNNs and chicks successfully developed robust object models from training data of a single object.
翻訳日:2021-12-16 08:55:37 公開日:2021-12-12
# (参考訳) タングラムから学ぶミニビジュアルタスクの解法 [全文訳有]

Learning from the Tangram to Solve Mini Visual Tasks ( http://arxiv.org/abs/2112.06113v1 )

ライセンス: CC BY 4.0
Yizhou Zhao and Liang Qiu and Pan Lu and Feng Shi and Tian Han and Song-Chun Zhu(参考訳) コンピュータビジョンにおける現在の事前学習手法は、日常生活における自然画像に焦点を当てている。 しかし、アイコンやシンボルのような抽象図は現実世界で一般的で重要なものである。 この作品は7つの分離された形状から抽象的なパターンを複製する必要があるゲームであるTangramにインスパイアされている。 タングラムパズルの解法における人間の経験を記録することで、タングラムデータセットを提示し、タングラム上の事前学習されたニューラルモデルが、低解像度の視覚に基づく小さな視覚課題の解法に役立つことを示す。 提案手法が衣服の折り畳みや室内レイアウト評価などの審美的課題に対してインテリジェントな解を生成することを示す。 予め訓練された特徴抽出器は、人間の手書きによる数発の学習タスクの収束を容易にし、輪郭によるアイコンの識別精度を向上させることができる。 tangramデータセットはhttps://github.com/y izhouzhao/tangramで入手できる。

Current pre-training methods in computer vision focus on natural images in the daily-life context. However, abstract diagrams such as icons and symbols are common and important in the real world. This work is inspired by Tangram, a game that requires replicating an abstract pattern from seven dissected shapes. By recording human experience in solving tangram puzzles, we present the Tangram dataset and show that a pre-trained neural model on the Tangram helps solve some mini visual tasks based on low-resolution vision. Extensive experiments demonstrate that our proposed method generates intelligent solutions for aesthetic tasks such as folding clothes and evaluating room layouts. The pre-trained feature extractor can facilitate the convergence of few-shot learning tasks on human handwriting and improve the accuracy in identifying icons by their contours. The Tangram dataset is available at https://github.com/y izhouzhao/Tangram.
翻訳日:2021-12-16 08:45:52 公開日:2021-12-12
# (参考訳) 数十億画素の画像を拡大するネットワーク [全文訳有]

Magnifying Networks for Images with Billions of Pixels ( http://arxiv.org/abs/2112.06121v1 )

ライセンス: CC BY 4.0
Neofytos Dimitriou and Ognjen Arandjelovic(参考訳) エンドツーエンドのディープラーニングへの移行は、コンピュータビジョンの多くの分野で前例のない進歩をもたらした。 しかし、入力画像が過剰に大きい場合もあり、エンドツーエンドのアプローチは不可能である。 本稿では,入力画像サイズによらず,エンドツーエンドでトレーニングできる新たなネットワークであるmagnifying network(magnet)を提案する。 MagNetは、畳み込みニューラルネットワークと微分可能な空間変換器を組み合わせることで、数十億ピクセルの画像をナビゲートし、うまく学習する。 通常の明るい視野顕微鏡の拡大特性からインスピレーションを得て、MagNetはイメージのサンプル化されたバージョンを処理し、監督なしでタスクに価値をもたらす可能性のある領域の特定方法を学び、それらをアップサンプリングし、抽出した各パッチに対して再帰的にこのプロセスを繰り返す。 camelyon16とcamlyon17データセットの公開結果から,まずマグネットの有効性と提案する最適化フレームワークにコラボレートし,次に,医療診断などの重要なプロセスにおいて最重要となるマグネットの透明性の利点を実証した。

The shift towards end-to-end deep learning has brought unprecedented advances in many areas of computer vision. However, there are cases where the input images are excessively large, deeming end-to-end approaches impossible. In this paper, we introduce a new network, the Magnifying Network (MagNet), which can be trained end-to-end independently of the input image size. MagNets combine convolutional neural networks with differentiable spatial transformers, in a new way, to navigate and successfully learn from images with billions of pixels. Drawing inspiration from the magnifying nature of an ordinary brightfield microscope, a MagNet processes a downsampled version of an image, and without supervision learns how to identify areas that may carry value to the task at hand, upsamples them, and recursively repeats this process on each of the extracted patches. Our results on the publicly available Camelyon16 and Camelyon17 datasets first corroborate to the effectiveness of MagNets and the proposed optimization framework and second, demonstrate the advantage of Magnets' built-in transparency, an attribute of utmost importance for critical processes such as medical diagnosis.
翻訳日:2021-12-16 08:32:40 公開日:2021-12-12
# (参考訳) プログラムのニューラルサロゲートを用いたプログラミング

Programming with Neural Surrogates of Programs ( http://arxiv.org/abs/2112.06148v1 )

ライセンス: CC BY 4.0
Alex Renda, Yi Ding, Michael Carbin(参考訳) プログラムの振る舞いを模倣するモデルであるsurrogatesは、様々な開発ワークフローの基礎を形成する。 大規模cpuシミュレータを用いたケーススタディにおいて,サーロゲートに基づく設計パターンを3つ検討した。 surrogateコンパイルでは、プログラマはプログラムの動作を模倣して、オリジナルのプログラムの代わりにエンドユーザにデプロイするsurrogateを開発する。 Surrogateコンパイルは、研究中のCPUシミュレータを1.6\times$で高速化する。 surrogate適応により、プログラマはプログラムのsurrogateを開発し、別のタスクでsurrogateをリトレーニングする。 サロゲート適応はシミュレータのエラーを最大$50\%まで減少させる。 surrogateの最適化により、プログラマはプログラムのsurrogateを開発し、surrogateの入力パラメータを最適化し、最適化された入力パラメータを元のプログラムに戻す。 surrogate最適化は、エキスパートセットパラメータによって引き起こされるエラーと比較して、シミュレータのエラーを$5\%$減少させるシミュレーションパラメータを見つける。 本稿では,サロゲートに基づくデザインパターンの分類を定式化する。 さらに,3つの設計パターンに共通するプログラミング方法論について述べる。 私たちの研究は、プログラムのサロゲートを使ったプログラミングに基づく、新しいクラスのワークフローの基盤を構築します。

Surrogates, models that mimic the behavior of programs, form the basis of a variety of development workflows. We study three surrogate-based design patterns, evaluating each in case studies on a large-scale CPU simulator. With surrogate compilation, programmers develop a surrogate that mimics the behavior of a program to deploy to end-users in place of the original program. Surrogate compilation accelerates the CPU simulator under study by $1.6\times$. With surrogate adaptation, programmers develop a surrogate of a program then retrain that surrogate on a different task. Surrogate adaptation decreases the simulator's error by up to $50\%$. With surrogate optimization, programmers develop a surrogate of a program, optimize input parameters of the surrogate, then plug the optimized input parameters back into the original program. Surrogate optimization finds simulation parameters that decrease the simulator's error by $5\%$ compared to the error induced by expert-set parameters. In this paper we formalize this taxonomy of surrogate-based design patterns. We further describe the programming methodology common to all three design patterns. Our work builds a foundation for the emerging class of workflows based on programming with surrogates of programs.
翻訳日:2021-12-16 08:20:58 公開日:2021-12-12
# ホームページレコメンデーションシステムにおける多彩な露出の制約付き再ランキング

Re-ranking With Constraints on Diversified Exposures for Homepage Recommender System ( http://arxiv.org/abs/2112.07621v1 )

ライセンス: Link先を確認
Qi Hao, Tianze Luo, Guangda Huzhang(参考訳) ほとんどのeコマースアプリケーションのホームページレコメンデーションは、アイテムを階層的に配置し、異なるチャネルが異なるスタイルでアイテムを表示する。 既存のアルゴリズムは通常、単一のチャネルのパフォーマンスを最適化する。 したがって、ホームページ全体のクリックスルー率(ctr)を最大化する最適な推奨リストを達成するためのモデルを設計することは課題である。 精度の目標以外は、均質ディスプレイはユーザー体験を損なうため、ホームページ上での表示の多様性も重要である。 本稿では,ホームページ推薦システムの2段階アーキテクチャを提案する。 最初の段階では,多様性を維持しつつ適切なチャネルに商品を推薦する効率的なアルゴリズムを開発した。 2つの手法を組み合わせることができる: 多様性の制約のあるユーザチャネルイテム予測モデル。 第2段階では、各チャンネルに順序付けられたアイテムのリストを提供する。 既存の再ランキングモデルは、チャネル内とチャネル間の両方の項目間の相互影響を記述するのが難しい。 そこで本稿では,ホームページ推薦システムを対象としたDeep \&hierarchical Attention Network Re- ranking (DHANR)モデルを提案する。 階層的注意ネットワークは、アイテムエンコーダ、アイテムレベルの注意層、チャンネルエンコーダ、チャンネルレベルの注意層で構成される。 本手法はオフライン実験における精度, リスト内平均距離(ILAD), チャネルワイド精度@k, オンラインシステムにおけるCTRおよびILADに関して, 大幅な改善を実現している。

The homepage recommendation on most E-commerce applications places items in a hierarchical manner, where different channels display items in different styles. Existing algorithms usually optimize the performance of a single channel. So designing the model to achieve the optimal recommendation list which maximize the Click-Through Rate (CTR) of whole homepage is a challenge problem. Other than the accuracy objective, display diversity on the homepage is also important since homogeneous display usually hurts user experience. In this paper, we propose a two-stage architecture of the homepage recommendation system. In the first stage, we develop efficient algorithms for recommending items to proper channels while maintaining diversity. The two methods can be combined: user-channel-item predictive model with diversity constraint. In the second stage, we provide an ordered list of items in each channel. Existing re-ranking models are hard to describe the mutual influence between items in both intra-channel and inter-channel. Therefore, we propose a Deep \& Hierarchical Attention Network Re-ranking (DHANR) model for homepage recommender systems. The Hierarchical Attention Network consists of an item encoder, an item-level attention layer, a channel encoder and a channel-level attention layer. Our method achieves a significant improvement in terms of precision, intra-list average distance(ILAD) and channel-wise Precision@k in offline experiments and in terms of CTR and ILAD in our online systems.
翻訳日:2021-12-15 16:50:58 公開日:2021-12-12
# 切換型確率ゲートによる深層ハイブリッドレコメンダの冷間項目統合

Cold Item Integration in Deep Hybrid Recommenders via Tunable Stochastic Gates ( http://arxiv.org/abs/2112.07615v1 )

ライセンス: Link先を確認
Oren Barkan, Roy Hirsch, Ori Katz, Avi Caciularu, Jonathan Weill, Noam Koenigstein(参考訳) 協調フィルタリング手法における大きな課題は、コールドアイテム(評価なし項目)のレコメンデーションを作成する方法や、コールドアイテムを既存のカタログに統合する方法である。 長年にわたり、アイテムのメタデータやコンテンツとその評価や使用パターンを利用してこの問題に対処するために、さまざまなハイブリッドレコメンデーションモデルが提案されてきた。 本研究は,寒冷品と寒冷品とを統合・バランスする能力という,見過ごされている課題に注意を向けるために,寒冷品問題を再考するものである。 ここでは,(1)温暖な項目に高品質な性能を保つこと,(2)寒冷な項目を利用者に広めることを学ぶこと,の2つの課題が生じる。 まず、これらの2つの目標が実際に相反していることを示し、それらのバランスはビジネスニーズと手元にあるアプリケーションに依存します。 次に,これら2つの相反する目標を橋渡しし,温かい項目の高精度保存と完全に冷たい項目の効果的促進を両立させるハイブリッドレコメンデーションアルゴリズムを提案する。 本稿では,映画,アプリ,記事レコメンデーションにおける提案アルゴリズムの有効性を実証し,冷戦トレードオフの実証分析を行う。

A major challenge in collaborative filtering methods is how to produce recommendations for cold items (items with no ratings), or integrate cold item into an existing catalog. Over the years, a variety of hybrid recommendation models have been proposed to address this problem by utilizing items' metadata and content along with their ratings or usage patterns. In this work, we wish to revisit the cold start problem in order to draw attention to an overlooked challenge: the ability to integrate and balance between (regular) warm items and completely cold items. In this case, two different challenges arise: (1) preserving high quality performance on warm items, while (2) learning to promote cold items to relevant users. First, we show that these two objectives are in fact conflicting, and the balance between them depends on the business needs and the application at hand. Next, we propose a novel hybrid recommendation algorithm that bridges these two conflicting objectives and enables a harmonized balance between preserving high accuracy for warm items while effectively promoting completely cold items. We demonstrate the effectiveness of the proposed algorithm on movies, apps, and articles recommendations, and provide an empirical analysis of the cold-warm trade-off.
翻訳日:2021-12-15 15:18:45 公開日:2021-12-12
# 独立コンポーネント分析の強化

Boosting Independent Component Analysis ( http://arxiv.org/abs/2112.06920v1 )

ライセンス: Link先を確認
Yunpeng Li, ZhaoHui Ye(参考訳) 独立成分分析は、線形混合物から可能な限り独立して未知の成分を回収することを目的としている。 このテクニックは、データ分析、信号処理、機械学習など、多くの分野で広く使われている。 本稿では,独立成分分析のための新しいブースティングベースアルゴリズムを提案する。 提案アルゴリズムは,最大推定値にブースティングを導入することで,非パラメトリック独立成分分析のギャップを埋める。 様々な実験が、現在知られている多くのアルゴリズムと比較して、その性能を検証する。

Independent component analysis is intended to recover the unknown components as independent as possible from their linear mixtures. This technique has been widely used in many fields, such as data analysis, signal processing, and machine learning. In this paper, we present a novel boosting-based algorithm for independent component analysis. Our algorithm fills the gap in the nonparametric independent component analysis by introducing boosting to maximum likelihood estimation. A variety of experiments validate its performance compared with many of the presently known algorithms.
翻訳日:2021-12-15 15:17:53 公開日:2021-12-12
# (参考訳) deep translation prior: photorealistic style transferのためのテストタイムトレーニング [全文訳有]

Deep Translation Prior: Test-time Training for Photorealistic Style Transfer ( http://arxiv.org/abs/2112.06150v1 )

ライセンス: CC BY 4.0
Sunwoo Kim, Soohyun Kim, Seungryong Kim(参考訳) 深層畳み込みニューラルネットワーク(CNN)におけるフォトリアリスティックなスタイル転送を解決するための最近の技術は、一般的に大規模なデータセットからの集中的なトレーニングを必要とするため、画像やスタイルを発見できないような応用性や一般化能力に乏しい。 そこで本研究では,与えられた入力画像対とトレーニングされていないネットワークとの試験時間トレーニングにより,画像ペア固有の翻訳を事前に学習し,より優れた性能と一般化を実現する,Deep Translation Prior (DTP) と呼ばれる新しいフレームワークを提案する。 このようなスタイル伝達のためのテストタイムトレーニングに際し、通信モジュールと生成モジュールの2つのサブモジュールを持つ新しいネットワークアーキテクチャと、コントラストのあるコンテンツ、スタイル、サイクル一貫性の損失からなる損失関数を提案する。 当社のフレームワークでは,既存の手法の主な課題のひとつであるスタイル転送のオフライントレーニングフェーズは必要ありませんが,ネットワークはテスト時にのみ学習される必要があります。 実験結果から,我々のフレームワークは画像ペアの発見や最先端の手法よりも優れた一般化能力を有することが示された。

Recent techniques to solve photorealistic style transfer within deep convolutional neural networks (CNNs) generally require intensive training from large-scale datasets, thus having limited applicability and poor generalization ability to unseen images or styles. To overcome this, we propose a novel framework, dubbed Deep Translation Prior (DTP), to accomplish photorealistic style transfer through test-time training on given input image pair with untrained networks, which learns an image pair-specific translation prior and thus yields better performance and generalization. Tailored for such test-time training for style transfer, we present novel network architectures, with two sub-modules of correspondence and generation modules, and loss functions consisting of contrastive content, style, and cycle consistency losses. Our framework does not require offline training phase for style transfer, which has been one of the main challenges in existing methods, but the networks are to be solely learned during test-time. Experimental results prove that our framework has a better generalization ability to unseen image pairs and even outperforms the state-of-the-art methods.
翻訳日:2021-12-15 14:18:23 公開日:2021-12-12
# (参考訳) AUC と $H$-measure を経時的に維持する [全文訳有]

Maintaining AUC and $H$-measure over time ( http://arxiv.org/abs/2112.06160v1 )

ライセンス: CC BY 4.0
Nikolaj Tatti(参考訳) 分類器のパフォーマンスを測定することは、機械学習において重要なタスクである。 測度を計算するアルゴリズムの実行時間は、例えば研究者によって分類器が開発されている場合、オフライン設定において非常に小さな役割を果たす。 しかし、時間とともに分類器のパフォーマンスを監視することが目的であれば、実行時間がより重要になります。 本稿では,2つの尺度を維持するための3つのアルゴリズムについて検討する。 最初のアルゴリズムは、データポイントを$O(\log n)$ timeで削除し、加えてROC曲線(AUC)の下で面積を維持する。 これは、セルフバランスの検索ツリーにソートされたデータポイントを維持することで行われる。 さらに、データポイントのROC座標を$O(\log n)$ timeでクエリできる検索ツリーも強化します。 そうすることで、AUCを$O(\log n)$ timeで維持できます。 次の2つのアルゴリズムは、ROC曲線に基づく代替測度である$H$-measureを維持することである。 測度を計算することは2段階のプロセスであり、まずはROC曲線の凸殻を計算し、次に凸殻の和を計算する必要がある。 我々は,古典的凸船体維持アルゴリズムを微修正して,凸船体を維持できることを実証した。 すると、ある条件下では、$H$- measureを$O(\log^2 n)$ timeで正確に計算でき、条件が満たされていない場合、$O((\log n + \epsilon^{-1})\log n)$ timeで$H$-measureを推定できる。 我々は,本手法がベースラインよりもはるかに高速であることを示す。

Measuring the performance of a classifier is a vital task in machine learning. The running time of an algorithm that computes the measure plays a very small role in an offline setting, for example, when the classifier is being developed by a researcher. However, the running time becomes more crucial if our goal is to monitor the performance of a classifier over time. In this paper we study three algorithms for maintaining two measures. The first algorithm maintains area under the ROC curve (AUC) under addition and deletion of data points in $O(\log n)$ time. This is done by maintaining the data points sorted in a self-balanced search tree. In addition, we augment the search tree that allows us to query the ROC coordinates of a data point in $O(\log n)$ time. In doing so we are able to maintain AUC in $O(\log n)$ time. Our next two algorithms involve in maintaining $H$-measure, an alternative measure based on the ROC curve. Computing the measure is a two-step process: first we need to compute a convex hull of the ROC curve, followed by a sum over the convex hull. We demonstrate that we can maintain the convex hull using a minor modification of the classic convex hull maintenance algorithm. We then show that under certain conditions, we can compute the $H$-measure exactly in $O(\log^2 n)$ time, and if the conditions are not met, then we can estimate the $H$-measure in $O((\log n + \epsilon^{-1})\log n)$ time. We show empirically that our methods are significantly faster than the baselines.
翻訳日:2021-12-15 13:57:34 公開日:2021-12-12
# (参考訳) 転がりシャッター整流のためのディープネットワーク [全文訳有]

Deep network for rolling shutter rectification ( http://arxiv.org/abs/2112.06170v1 )

ライセンス: CC BY 4.0
Praveen K, Lokesh Kumar T, and A.N. Rajagopalan(参考訳) CMOSセンサはシーンを撮像しながら行ワイズ取得機構を採用しており、キャプチャされた画像のローリングシャッター(RS)歪みと呼ばれる望ましくない動きアーチファクトをもたらす可能性がある。 既存の画像RS補正手法は、固有のカメラパラメータに関する情報を保証する特定の種類のシーンに合わせたアルゴリズムや、既知の真理運動パラメータを持つ学習ベースのフレームワークを用いて、これらの歪みを考慮しようとする。 本稿では,単一画像RS補正の課題に対して,エンドツーエンドのディープニューラルネットワークを提案する。 私たちのネットワークは、モーションブロック、軌道モジュール、行ブロック、rs整流モジュール、rs再生モジュール(トレーニング中のみ使用される)で構成されています。 モーションブロックは入力rs歪み画像の各行ごとにカメラポーズを予測し、軌道モジュールは推定された動きパラメータを3階多項式に適合させる。 行ブロックは、ターゲット内の各ピクセル、すなわちRS補正画像に関連付けられなければならないカメラの動きを予測する。 最後に、RS補正モジュールは、動作軌跡と行ブロックの出力を用いて入力されたRS画像を歪みのない画像に出力する。 学習中の収束を高速化するために,入力rs画像と推定運動パラメータで歪曲した基底真理画像を比較したrs再生モジュールを用いる。 本モデルにおけるエンド・ツー・エンドの定式化は、推定した動きを地動パラメータに制約せず、複雑な実写カメラモーションでRS画像の修正に成功した。 合成データと実データを用いた実験により,ネットワークが質的かつ定量的に先行技術を上回ることが明らかとなった。

CMOS sensors employ row-wise acquisition mechanism while imaging a scene, which can result in undesired motion artifacts known as rolling shutter (RS) distortions in the captured image. Existing single image RS rectification methods attempt to account for these distortions by either using algorithms tailored for specific class of scenes which warrants information of intrinsic camera parameters or a learning-based framework with known ground truth motion parameters. In this paper, we propose an end-to-end deep neural network for the challenging task of single image RS rectification. Our network consists of a motion block, a trajectory module, a row block, an RS rectification module and an RS regeneration module (which is used only during training). The motion block predicts camera pose for every row of the input RS distorted image while the trajectory module fits estimated motion parameters to a third-order polynomial. The row block predicts the camera motion that must be associated with every pixel in the target i.e, RS rectified image. Finally, the RS rectification module uses motion trajectory and the output of row block to warp the input RS image to arrive at a distortionfree image. For faster convergence during training, we additionally use an RS regeneration module which compares the input RS image with the ground truth image distorted by estimated motion parameters. The end-to-end formulation in our model does not constrain the estimated motion to ground-truth motion parameters, thereby successfully rectifying the RS images with complex real-life camera motion. Experiments on synthetic and real datasets reveal that our network outperforms prior art both qualitatively and quantitatively.
翻訳日:2021-12-15 13:36:46 公開日:2021-12-12
# (参考訳) 画面コンテンツ連続超解像のためのインプシットトランスネットワーク [全文訳有]

Implicit Transformer Network for Screen Content Image Continuous Super-Resolution ( http://arxiv.org/abs/2112.06174v1 )

ライセンス: CC BY 4.0
Jingyu Yang, Sheng Shen, Huanjing Yue, Kun Li(参考訳) 近年,画面共有,遠隔協調,オンライン教育の幅広い応用により,画面コンテンツの爆発的な増加がみられている。 限られた端末帯域幅に合わせるために、高解像度(HR)スクリーンの内容はダウンサンプリングされ圧縮される。 受信側では、低解像度(LR)画面コンテンツ画像(SCI)の超解像(SR)をHRディスプレイまたはユーザが詳細な観察のためにズームインするように要求する。 しかし、画像SR法は主に自然画像用に設計されているが、画像特性の相違や任意のスケールでのSCIブラウジングの必要性から、SCIの一般化には適していない。 そこで本研究では,SCISRのためのImplicit Transformer Super-Resolution Network (ITSRN)を提案する。 任意の割合で高品質な連続srに対して,提案する暗黙的トランスフォーマによってキー座標の画像特徴からクエリ座標の画素値を推定し,類似する隣接画素値をクエリに集約する暗黙的位置符号化方式を提案する。 ベンチマークSCI1KとSCI1K圧縮データセットをLRとHRSCIペアで構築する。 大規模な実験により、提案した ITSRN は、圧縮されたSCIと非圧縮されたSCIの両方に対して、いくつかの競合する連続的および離散的SR法より著しく優れていることが示された。

Nowadays, there is an explosive growth of screen contents due to the wide application of screen sharing, remote cooperation, and online education. To match the limited terminal bandwidth, high-resolution (HR) screen contents may be downsampled and compressed. At the receiver side, the super-resolution (SR) of low-resolution (LR) screen content images (SCIs) is highly demanded by the HR display or by the users to zoom in for detail observation. However, image SR methods mostly designed for natural images do not generalize well for SCIs due to the very different image characteristics as well as the requirement of SCI browsing at arbitrary scales. To this end, we propose a novel Implicit Transformer Super-Resolution Network (ITSRN) for SCISR. For high-quality continuous SR at arbitrary ratios, pixel values at query coordinates are inferred from image features at key coordinates by the proposed implicit transformer and an implicit position encoding scheme is proposed to aggregate similar neighboring pixel values to the query one. We construct benchmark SCI1K and SCI1K-compression datasets with LR and HR SCI pairs. Extensive experiments show that the proposed ITSRN significantly outperforms several competitive continuous and discrete SR methods for both compressed and uncompressed SCIs.
翻訳日:2021-12-15 12:34:32 公開日:2021-12-12
# (参考訳) スケール特化注意を用いた教師なしドメイン特化度 [全文訳有]

Unsupervised Domain-Specific Deblurring using Scale-Specific Attention ( http://arxiv.org/abs/2112.06175v1 )

ライセンス: CC BY 4.0
Praveen Kandula and Rajagopalan. A. N(参考訳) 文献では, 粗粒度やスケールリカレントなアプローチ, 低解像度バージョンからクリーンなイメージを段階的に復元する手法が, 単一画像のデブラリングに有効である。 しかし、既存の方法の大きな欠点は、ペアデータの必要性である。つまり、同じシーンのシャープブラル画像ペアは、複雑で面倒な取得手順である。 さらに、損失関数の強い監督により、そのようなネットワークの事前学習モデルは、トレーニング中に経験したぼやけに強く偏り、推論時に新しいぼやけたカーネルに直面すると、準最適性能を与える傾向がある。 上記の問題に対処するため,SAAM (Scale-Adaptive attention module) を用いた教師なしドメイン固有のデブロアリングを提案する。 ネットワークはトレーニングのために教師付きペアを必要としないため,デブラリング機構は主に逆損失によって誘導されるため,ぼかし関数の分布に適合する。 ぼやけた入力画像が与えられた場合、トレーニング中に同じ画像の異なる解像度がモデルで使用され、SAAMは解像度を横断する効果的な情報の流れを可能にする。 特定のスケールでのネットワークトレーニングでは、SAAMは現在のスケールの関数として、より低いスケールの機能に対応します。 異なるアブレーション研究により,本機構はエンド・ツー・エンドの非教師付きモデルよりも優れており,saamは文献における注意モデルよりも優れた参加が可能であることが示された。 質的かつ定量的な比較(参照なしのメトリクス)により、従来の教師なしメソッドよりも優れた結果が得られる。

In the literature, coarse-to-fine or scale-recurrent approach i.e. progressively restoring a clean image from its low-resolution versions has been successfully employed for single image deblurring. However, a major disadvantage of existing methods is the need for paired data; i.e. sharpblur image pairs of the same scene, which is a complicated and cumbersome acquisition procedure. Additionally, due to strong supervision on loss functions, pre-trained models of such networks are strongly biased towards the blur experienced during training and tend to give sub-optimal performance when confronted by new blur kernels during inference time. To address the above issues, we propose unsupervised domain-specific deblurring using a scale-adaptive attention module (SAAM). Our network does not require supervised pairs for training, and the deblurring mechanism is primarily guided by adversarial loss, thus making our network suitable for a distribution of blur functions. Given a blurred input image, different resolutions of the same image are used in our model during training and SAAM allows for effective flow of information across the resolutions. For network training at a specific scale, SAAM attends to lower scale features as a function of the current scale. Different ablation studies show that our coarse-to-fine mechanism outperforms end-to-end unsupervised models and SAAM is able to attend better compared to attention models used in literature. Qualitative and quantitative comparisons (on no-reference metrics) show that our method outperforms prior unsupervised methods.
翻訳日:2021-12-15 12:21:39 公開日:2021-12-12
# (参考訳) mplr : 知識グラフ推論のための論理規則の多目的学習のための新しいモデル [全文訳有]

MPLR: a novel model for multi-target learning of logical rules for knowledge graph reasoning ( http://arxiv.org/abs/2112.06189v1 )

ライセンス: CC BY 4.0
Yuliang Wei, Haotian Li, Guodong Xin, Yao Wang, Bailing Wang(参考訳) 大規模知識グラフ(kgs)は、人間の知識の構造化表現を提供する。 しかしながら、すべての知識を含むことは不可能であるため、KGは通常不完全である。 既存の事実に基づく推論は、欠落した事実を発見する手段となる。 本稿では,知識グラフを推論する論理ルールの学習問題と,欠落した事実三重項を補完する手法について検討する。 論理ルールの学習は、モデルに強力な解釈可能性と類似のタスクを一般化する能力を与える。 本稿では,学習データを完全に活用するために既存のモデルを改善するMPLRと呼ばれるモデルを提案する。 さらに, モデルの性能評価の欠如と, マイニングされたルールの質を考慮し, この問題に対処するための新しい指標を2つ提案する。 実験結果は,MPLRモデルが5つのベンチマークデータセット上で最先端の手法より優れていることを示す。 結果は、指標の有効性も証明した。

Large-scale knowledge graphs (KGs) provide structured representations of human knowledge. However, as it is impossible to contain all knowledge, KGs are usually incomplete. Reasoning based on existing facts paves a way to discover missing facts. In this paper, we study the problem of learning logic rules for reasoning on knowledge graphs for completing missing factual triplets. Learning logic rules equips a model with strong interpretability as well as the ability to generalize to similar tasks. We propose a model called MPLR that improves the existing models to fully use training data and multi-target scenarios are considered. In addition, considering the deficiency in evaluating the performance of models and the quality of mined rules, we further propose two novel indicators to help with the problem. Experimental results empirically demonstrate that our MPLR model outperforms state-of-the-art methods on five benchmark datasets. The results also prove the effectiveness of the indicators.
翻訳日:2021-12-15 12:09:48 公開日:2021-12-12
# (参考訳) 水生動物セグメンテーションのためのマルチモーダル型シーンアウェアフレームワーク [全文訳有]

Multimodal-based Scene-Aware Framework for Aquatic Animal Segmentation ( http://arxiv.org/abs/2112.06193v1 )

ライセンス: CC BY 4.0
Minh-Quan Le and Trung-Nghia Le and Tam V. Nguyen and Isao Echizen and Minh-Triet Tran(参考訳) 近年,物体分割研究の進歩が注目されている。 一般的な対象に加え、水生動物は研究の注目を集めている。 深層学習に基づく手法は水生動物の分節に広く用いられ,有望な性能を達成している。 しかし、ベンチマークには難しいデータセットが不足している。 そこで我々は「水生動物種」という新しいデータセットを作成した。 さらに,複数視点セグメンテーションモデルの利点を活かし,水生動物のイメージを効果的にセグメンテーションする,マルチモーダル型シーンアウェアセグメンテーションフレームワークを考案した。 トレーニング性能を向上させるため,ガイドミキサアップ拡張法を開発した。 提案フレームワークの性能と最先端インスタンスセグメンテーション法を比較した広範な実験により,提案手法が有効であること,既存手法を大幅に上回ることを示した。

Recent years have witnessed great advances in object segmentation research. In addition to generic objects, aquatic animals have attracted research attention. Deep learning-based methods are widely used for aquatic animal segmentation and have achieved promising performance. However, there is a lack of challenging datasets for benchmarking. Therefore, we have created a new dataset dubbed "Aquatic Animal Species." Furthermore, we devised a novel multimodal-based scene-aware segmentation framework that leverages the advantages of multiple view segmentation models to segment images of aquatic animals effectively. To improve training performance, we developed a guided mixup augmentation method. Extensive experiments comparing the performance of the proposed framework with state-of-the-art instance segmentation methods demonstrated that our method is effective and that it significantly outperforms existing methods.
翻訳日:2021-12-15 11:27:40 公開日:2021-12-12
# (参考訳) トピックセグメンテーションからの遠隔監視による上述の談話構造予測 [全文訳有]

Predicting Above-Sentence Discourse Structure using Distant Supervision from Topic Segmentation ( http://arxiv.org/abs/2112.06196v1 )

ライセンス: CC BY 4.0
Patrick Huber, Linzi Xing and Giuseppe Carenini(参考訳) RSTスタイルの談話解析は多くのNLPタスクにおいて重要な役割を担い、潜在的に複雑で多様な文書の基本的な意味的・実践的構造を明らかにする。 その重要性にもかかわらず、現代の談話パースにおける最も一般的な制限の1つは、大規模なデータセットの欠如である。 データ空間の問題に対処するため、感情分析や要約といったタスクから遠ざかるアプローチが近年提案されている。 ここでは,トピックセグメンテーションから遠ざかって,高レベルの談話構造に対して強固かつしばしば補完的な信号を提供することによって,この研究線を拡大する。 2つの人間の注釈付き談話木バンクを用いた実験により,提案手法が文と段落レベルで正確な木構造を生成できることが確認された。

RST-style discourse parsing plays a vital role in many NLP tasks, revealing the underlying semantic/pragmatic structure of potentially complex and diverse documents. Despite its importance, one of the most prevailing limitations in modern day discourse parsing is the lack of large-scale datasets. To overcome the data sparsity issue, distantly supervised approaches from tasks like sentiment analysis and summarization have been recently proposed. Here, we extend this line of research by exploiting distant supervision from topic segmentation, which can arguably provide a strong and oftentimes complementary signal for high-level discourse structures. Experiments on two human-annotated discourse treebanks confirm that our proposal generates accurate tree structures on sentence and paragraph level, consistently outperforming previous distantly supervised models on the sentence-to-document task and occasionally reaching even higher scores on the sentence-to-paragrap h level.
翻訳日:2021-12-15 11:17:20 公開日:2021-12-12
# (参考訳) 音声からのナイジェリアアクセント埋め込みの学習:SautiDB-Naija corpusに基づく予備的結果 [全文訳有]

Learning Nigerian accent embeddings from speech: preliminary results based on SautiDB-Naija corpus ( http://arxiv.org/abs/2112.06199v1 )

ライセンス: CC BY 4.0
Tejumade Afonja, Oladimeji Mudele, Iroro Orife, Kenechi Dukor, Lawrence Francis, Duru Goodness, Oluwafemi Azeez, Ademola Malomo and Clinton Mbataku(参考訳) 本稿では,ナイジェリアの非ネイティブ(L2)音声コーパスであるSautiDB-Naijaの基盤的取り組みについて述べる。 コーパスの作成とキュレーション、およびアクセント分類とナイジェリアのアクセント埋め込みの学習に関する予備実験について述べる。 このコーパスの最初のバージョンには、ヨルバ語、イボ語、江戸語、efik-ibibio、イガラ語などのナイジェリア語のl2英語話者による900以上の録音が含まれている。 さらに、wav2vecのような事前学習モデルの微調整により、アクセント分類などの関連する音声タスクに適した表現が得られることを示す。 SautiDB-NaijaはZenodoに、フレキシブルなクリエイティブコモンズライセンスの下で一般向けに公開された。

This paper describes foundational efforts with SautiDB-Naija, a novel corpus of non-native (L2) Nigerian English speech. We describe how the corpus was created and curated as well as preliminary experiments with accent classification and learning Nigerian accent embeddings. The initial version of the corpus includes over 900 recordings from L2 English speakers of Nigerian languages, such as Yoruba, Igbo, Edo, Efik-Ibibio, and Igala. We further demonstrate how fine-tuning on a pre-trained model like wav2vec can yield representations suitable for related speech tasks such as accent classification. SautiDB-Naija has been published to Zenodo for general use under a flexible Creative Commons License.
翻訳日:2021-12-15 10:58:55 公開日:2021-12-12
# (参考訳) Secure Routine: ドライバー識別のためのルーチンベースのアルゴリズム [全文訳有]

Secure Routine: A Routine-Based Algorithm for Drivers Identification ( http://arxiv.org/abs/2112.06200v1 )

ライセンス: CC BY 4.0
Davide Micale and Gianpiero Costantino and Ilaria Matteucci and Giuseppe Patan\`e and Giampaolo Bella(参考訳) 交通システムにおける情報通信技術(ICT)の導入は、いくつかの利点(輸送、移動、交通管理の効率性)をもたらす。 しかし、人間の行動にも関連するセキュリティ上の課題の増加という点で、いくつかの欠点をもたらす可能性がある。 例えば、過去数十年間、ドライバーの行動を特徴付ける試みは、主に標的とされてきた。 本稿では,運転者の識別や,特に車両の所有者と他のドライバを区別するために,運転者の習慣を利用するパラダイムであるsecure routineを提案する。 我々は、機械学習技術に基づく他の3つの既存の研究と組み合わせてSecure Routineを評価する。 結果はよく知られた測定値を用いて測定され、Secure Routineが比較した結果よりも優れていることを示す。

The introduction of Information and Communication Technology (ICT) in transportation systems leads to several advantages (efficiency of transport, mobility, traffic management). However, it may bring some drawbacks in terms of increasing security challenges, also related to human behaviour. As an example , in the last decades attempts to characterize drivers' behaviour have been mostly targeted. This paper presents Secure Routine, a paradigm that uses driver's habits to driver identification and, in particular, to distinguish the vehicle's owner from other drivers. We evaluate Secure Routine in combination with other three existing research works based on machine learning techniques. Results are measured using well-known metrics and show that Secure Routine outperforms the compared works.
翻訳日:2021-12-15 10:51:49 公開日:2021-12-12
# (参考訳) 電子健康記録に基づく実世界予測のための量子カーネル [全文訳有]

Quantum kernels for real-world predictions based on electronic health records ( http://arxiv.org/abs/2112.06211v1 )

ライセンス: CC BY 4.0
Zoran Krunic, Frederik F. Fl\"other, George Seegan, Nathan Earnest-Noble, Omar Shehab(参考訳) 近年、量子機械学習の研究は、量子カーネルへのアクセス(類似度測定)によって古典的な機械学習アルゴリズムが、純粋に古典的なアルゴリズムよりも優れているかを探っている。 理論的研究は合成データセットにおいて証明可能な利点を示しているが、量子アドバンテージが達成可能か、どのような種類のデータセットで達成可能か、という実証的な研究は行われていない。 本稿では、医療・生命科学における経験的量子優位性(EQA)に関する最初の体系的研究を報告し、EQA研究のためのエンドツーエンドフレームワークを提案する。 電子健康記録(EHR)データサブセットを選択し,5~20機能と200~300トレーニングサンプルの構成空間を作成した。 各構成座標に対して、IBM量子コンピュータを用いて、放射基底関数(RBF)カーネルとカスタムカーネルを用いた量子モデルに基づく古典的サポートベクトルマシン(SVM)モデルを訓練した。 我々は、量子カーネルが特定のデータセットに利点をもたらすレシエーションを実証的に特定し、与えられたモデルの精度が特徴数とサンプルサイズの関数としてどのように機能するかを定量的に推定する指標である地形粗さ指数を導入した。 ここで導入された一般化可能なフレームワークは、量子優位性が存在する可能性のあるデータセットの事前識別に向けた重要なステップである。

In recent years, research on near-term quantum machine learning has explored how classical machine learning algorithms endowed with access to quantum kernels (similarity measures) can outperform their purely classical counterparts. Although theoretical work has shown provable advantage on synthetic data sets, no work done to date has studied empirically whether quantum advantage is attainable and with what kind of data set. In this paper, we report the first systematic investigation of empirical quantum advantage (EQA) in healthcare and life sciences and propose an end-to-end framework to study EQA. We selected electronic health records (EHRs) data subsets and created a configuration space of 5-20 features and 200-300 training samples. For each configuration coordinate, we trained classical support vector machine (SVM) models based on radial basis function (RBF) kernels and quantum models with custom kernels using an IBM quantum computer. We empirically identified regimes where quantum kernels could provide advantage on a particular data set and introduced a terrain ruggedness index, a metric to help quantitatively estimate how the accuracy of a given model will perform as a function of the number of features and sample size. The generalizable framework introduced here represents a key step towards a priori identification of data sets where quantum advantage could exist.
翻訳日:2021-12-15 10:40:23 公開日:2021-12-12
# (参考訳) 音声品質予測のための深層学習モデルの可視化と説明 [全文訳有]

Visualising and Explaining Deep Learning Models for Speech Quality Prediction ( http://arxiv.org/abs/2112.06219v1 )

ライセンス: CC BY-SA 4.0
H. Tilkorn, G. Mittag (1), S. M\"oller (1 and 2) ((1) Quality and Usability Lab TU Berlin, (2) Language Technology DFKI Berlin)(参考訳) 送信音声の品質推定は非自明な作業であることが知られている。 従来はテスト参加者にサンプルの品質評価を依頼するが、現在では自動メソッドが利用可能である。 これらの方法は以下のように分けられる。 1)本来の信号と劣化信号の両方を使用する侵入モデル、及び 2) 劣化信号のみを必要とする非侵入型モデル。 近年,ニューラルネットワークに基づく非侵入モデルでは,信号処理に基づくモデルよりも優れていた。 しかし、ディープラーニングベースのモデルの利点は、解釈がより困難になるコストにある。 予測モデルに関するさらなる知見を得るため,非インタラクティブな音声品質予測モデルであるnisqaを解析した。 NISQAは畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)で構成されている。 CNNのタスクは、フレームレベルでの音声品質予測に関する関連する特徴を計算し、RNNは個々の音声フレーム間の時間依存性をモデル化する。 cnnの自動学習機能を理解するために、異なる説明アルゴリズムが使用される。 このようにして、ノイズに対する感度や強い中断など、いくつかの解釈可能な特徴を識別できる。 一方,複数の特徴が冗長な情報を持っていることが判明した。

Estimating quality of transmitted speech is known to be a non-trivial task. While traditionally, test participants are asked to rate the quality of samples; nowadays, automated methods are available. These methods can be divided into: 1) intrusive models, which use both, the original and the degraded signals, and 2) non-intrusive models, which only require the degraded signal. Recently, non-intrusive models based on neural networks showed to outperform signal processing based models. However, the advantages of deep learning based models come with the cost of being more challenging to interpret. To get more insight into the prediction models the non-intrusive speech quality prediction model NISQA is analyzed in this paper. NISQA is composed of a convolutional neural network (CNN) and a recurrent neural network (RNN). The task of the CNN is to compute relevant features for the speech quality prediction on a frame level, while the RNN models time-dependencies between the individual speech frames. Different explanation algorithms are used to understand the automatically learned features of the CNN. In this way, several interpretable features could be identified, such as the sensitivity to noise or strong interruptions. On the other hand, it was found that multiple features carry redundant information.
翻訳日:2021-12-15 10:25:47 公開日:2021-12-12
# (参考訳) ASCEND: マルチターン会話におけるコードスイッチングのための中国語と英語の自発データセット [全文訳有]

ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn Conversation ( http://arxiv.org/abs/2112.06223v1 )

ライセンス: CC BY-SA 4.0
Holy Lovenia, Samuel Cahyawijaya, Genta Indra Winata, Peng Xu, Xu Yan, Zihan Liu, Rita Frieske, Tiezheng Yu, Wenliang Dai, Elham J. Barezi, Pascale Fung(参考訳) コードスイッチング(Code-switching)は、会話中に話者が言語を切り替える音声現象である。 会話音声言語におけるコードスイッチングの自発的な性質にもかかわらず、既存のほとんどの研究は、自然発話ではなく読み上げ音声を通してコードスイッチングデータを収集している。 ASCEND (A Spontaneous Chinese-English Dataset) は、香港で収集された中国語と英語のコード交換コーパスの対話を自然に行うための高品質なリソースである。 本稿では,本研究におけるアノテーションを含む音声データを収集するASCENDの設計と手順について報告する。 ASCENDには、中国語と英語の両方に通じる23のバイリンガルがあり、9.23時間クリーンスピーチコーパスで構成されている。

Code-switching is a speech phenomenon when a speaker switches language during a conversation. Despite the spontaneous nature of code-switching in conversational spoken language, most existing works collect code-switching data through read speech instead of spontaneous speech. ASCEND (A Spontaneous Chinese-English Dataset) introduces a high-quality resource of spontaneous multi-turn conversational dialogue Chinese-English code-switching corpus collected in Hong Kong. We report ASCEND's design and procedure of collecting the speech data, including the annotations in this work. ASCEND includes 23 bilinguals that are fluent in both Chinese and English and consists of 9.23 hours clean speech corpus.
翻訳日:2021-12-15 10:20:17 公開日:2021-12-12
# (参考訳) 時系列における信頼バンドの近似アルゴリズム [全文訳有]

Approximation algorithms for confidence bands for time series ( http://arxiv.org/abs/2112.06225v1 )

ライセンス: CC BY 4.0
Nikolaj Tatti(参考訳) 信頼区間はデータ分析の標準的な手法である。 時系列に適用すると、各時点毎に信頼区間を別々に計算する。 あるいは、$k$がユーザパラメータであるような、$k$時系列を包含する最小の領域を見つける必要がある、信頼バンドを計算できる。 信頼バンドは、時系列内の個々の観測だけでなく、異常な時系列を検出するために使用できる。 NPハード問題であるにもかかわらず、約$k$の最適信頼帯域を見つけることができることを示す。 正規化バンドを発見し、エンベロープ領域を最小化し、パラメータ$\alpha$で重み付けされた含む時系列の数を最小にする。 通常の信頼バンドと異なり、最小カットを用いて正確に問題を解くことができる。 alpha$を変更すれば、様々な$k$の解が得られる。 もし、適切な $\alpha$ を見つけることができない制約 $k$ があるなら、問題を最小の $k$-union 問題に結びつけることで、$o(\sqrt{n})$ 近似保証を得る単純なアルゴリズムを実証する。 この接続はまた、いくつかの (mild) 仮定の下では $o(n^{1/4})$ よりも問題を近似できないことを意味する。 最後に、面積を最小化する代わりに、最大幅を最小化する変種を考える。 ここでは,単純な2近似アルゴリズムを実演し,より良い近似保証は達成できないことを示す。

Confidence intervals are a standard technique for analyzing data. When applied to time series, confidence intervals are computed for each time point separately. Alternatively, we can compute confidence bands, where we are required to find the smallest area enveloping $k$ time series, where $k$ is a user parameter. Confidence bands can be then used to detect abnormal time series, not just individual observations within the time series. We will show that despite being an NP-hard problem it is possible to find optimal confidence band for some $k$. We do this by considering a different problem: discovering regularized bands, where we minimize the envelope area minus the number of included time series weighted by a parameter $\alpha$. Unlike normal confidence bands we can solve the problem exactly by using a minimum cut. By varying $\alpha$ we can obtain solutions for various $k$. If we have a constraint $k$ for which we cannot find appropriate $\alpha$, we demonstrate a simple algorithm that yields $O(\sqrt{n})$ approximation guarantee by connecting the problem to a minimum $k$-union problem. This connection also implies that we cannot approximate the problem better than $O(n^{1/4})$ under some (mild) assumptions. Finally, we consider a variant where instead of minimizing the area we minimize the maximum width. Here, we demonstrate a simple 2-approximation algorithm and show that we cannot achieve better approximation guarantee.
翻訳日:2021-12-15 10:08:24 公開日:2021-12-12
# (参考訳) shgnn:構造対応不均一グラフニューラルネットワーク [全文訳有]

SHGNN: Structure-Aware Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2112.06244v1 )

ライセンス: CC BY 4.0
Wentao Xu1, Yingce Xia, Weiqing Liu, Jiang Bian, Jian Yin, Tie-Yan Liu(参考訳) 多くの実世界のグラフ(ネットワーク)は異なる種類のノードとエッジで異質である。 不均質グラフの低次元ノード表現の学習を目的とした不均質グラフ埋め込みは、下流の様々な応用に不可欠である。 近年,異種グラフのセマンティック情報を学習するために,メタパスに基づく埋め込み手法が数多く提案されている。 しかし、既存の技術のほとんどは、ヘテロジニアスグラフ埋め込みを学ぶ際にグラフ構造情報を見落としている。 本稿では、上記の制約に対処する構造対応不均一グラフニューラルネットワーク(SHGNN)を提案する。 具体的には,まず,機能伝達モジュールを用いてメタパス中の中間ノードの局所構造情報をキャプチャする。 次に、ツリーアグリゲータを用いて、メタパス上のアグリゲーションモジュールにグラフ構造情報を組み込む。 最後に、メタパスアグリゲータを利用して、異なるメタパスから集約された情報を融合する。 提案手法の有効性を示すベンチマークデータセットにおいて,ノードの分類とクラスタリングに関する実験を行い,最新の結果を得た。

Many real-world graphs (networks) are heterogeneous with different types of nodes and edges. Heterogeneous graph embedding, aiming at learning the low-dimensional node representations of a heterogeneous graph, is vital for various downstream applications. Many meta-path based embedding methods have been proposed to learn the semantic information of heterogeneous graphs in recent years. However, most of the existing techniques overlook the graph structure information when learning the heterogeneous graph embeddings. This paper proposes a novel Structure-Aware Heterogeneous Graph Neural Network (SHGNN) to address the above limitations. In detail, we first utilize a feature propagation module to capture the local structure information of intermediate nodes in the meta-path. Next, we use a tree-attention aggregator to incorporate the graph structure information into the aggregation module on the meta-path. Finally, we leverage a meta-path aggregator to fuse the information aggregated from different meta-paths. We conducted experiments on node classification and clustering tasks and achieved state-of-the-art results on the benchmark datasets, which shows the effectiveness of our proposed method.
翻訳日:2021-12-15 09:51:09 公開日:2021-12-12
# (参考訳) DeepFIB:時系列異常検出のためのセルフインプット [全文訳有]

DeepFIB: Self-Imputation for Time Series Anomaly Detection ( http://arxiv.org/abs/2112.06247v1 )

ライセンス: CC BY 4.0
Minhao Liu, Zhijian Xu, Qiang Xu(参考訳) 時系列異常検出(TS)は、金融および医療監視における不正検出など、様々なアプリケーションにおいて重要な役割を果たす。 自然に予測不可能で高度に変化する異常の性質と歴史的データに異常ラベルがないため、AD問題は典型的には教師なし学習問題として定式化される。 既存のソリューションのパフォーマンスは、特にデータ障害のシナリオでは満足できないことが多い。 そこで本研究では,アドイン時系列の自己教師あり学習手法である \emph{deepfib} を提案する。 問題を ts 内のいくつかの要素をマスキングし、残りの要素を暗示することで、 \emph{fill in the blank} game としてモデル化する。 tsデータに共通する2つの異常形(点またはシーケンスアウトリエ)を考えると、多くの自己生成トレーニングサンプルを含む2つのマスキング戦略を実装した。 対応する自己計算ネットワークは、既存のADソリューションよりもより堅牢な時間的関係を抽出し、2種類の異常を効果的に識別する。 また,連続的外れ値に対して,広告誤差を劇的に低減する異常局在化アルゴリズムを提案する。 様々な実世界のTSデータセットの実験では、DeepFIBは最先端のメソッドを大きなマージンで上回り、F1スコアの相対的な改善を65.2 %まで達成している。

Time series (TS) anomaly detection (AD) plays an essential role in various applications, e.g., fraud detection in finance and healthcare monitoring. Due to the inherently unpredictable and highly varied nature of anomalies and the lack of anomaly labels in historical data, the AD problem is typically formulated as an unsupervised learning problem. The performance of existing solutions is often not satisfactory, especially in data-scarce scenarios. To tackle this problem, we propose a novel self-supervised learning technique for AD in time series, namely \emph{DeepFIB}. We model the problem as a \emph{Fill In the Blank} game by masking some elements in the TS and imputing them with the rest. Considering the two common anomaly shapes (point- or sequence-outliers) in TS data, we implement two masking strategies with many self-generated training samples. The corresponding self-imputation networks can extract more robust temporal relations than existing AD solutions and effectively facilitate identifying the two types of anomalies. For continuous outliers, we also propose an anomaly localization algorithm that dramatically reduces AD errors. Experiments on various real-world TS datasets demonstrate that DeepFIB outperforms state-of-the-art methods by a large margin, achieving up to $65.2\%$ relative improvement in F1-score.
翻訳日:2021-12-15 09:34:43 公開日:2021-12-12
# (参考訳) Subset Stackingによる学習 [全文訳有]

Learning with Subset Stacking ( http://arxiv.org/abs/2112.06251v1 )

ライセンス: CC BY 4.0
S. Ilker Birbil, Sinan Yildirim, Kaya Gokalp, Hakan Akyuz(参考訳) 入力-出力ペアの集合から学習する新しいアルゴリズムを提案する。 本アルゴリズムは,入力変数と出力変数の関係が予測子空間にまたがる不均一な振る舞いを示す集団を対象として設計されている。 アルゴリズムは入力空間のランダムな点を中心に集中した部分集合を生成することから始まる。 次に、各サブセットに対してローカル予測器をトレーニングする。 それらの予測器は、新しい方法で結合され、全体的な予測器となる。 このアルゴリズムは,レグレプタの積み重ね方法に類似しているため,"サブセット積み重ねによる学習"以下と呼ぶ。 LESSの試験性能といくつかのデータセットの最先端手法を比較した。 比較の結果,LESSは競合型教師あり学習手法であることがわかった。 さらに, LESSは計算時間の観点からも効率的であり, 直接並列実装が可能であることも確認した。

We propose a new algorithm that learns from a set of input-output pairs. Our algorithm is designed for populations where the relation between the input variables and the output variable exhibits a heterogeneous behavior across the predictor space. The algorithm starts with generating subsets that are concentrated around random points in the input space. This is followed by training a local predictor for each subset. Those predictors are then combined in a novel way to yield an overall predictor. We call this algorithm "LEarning with Subset Stacking" or LESS, due to its resemblance to method of stacking regressors. We compare the testing performance of LESS with the state-of-the-art methods on several datasets. Our comparison shows that LESS is a competitive supervised learning method. Moreover, we observe that LESS is also efficient in terms of computation time and it allows a straightforward parallel implementation.
翻訳日:2021-12-15 09:21:16 公開日:2021-12-12
# (参考訳) データフリーな知識蒸留の最大100倍高速化 [全文訳有]

Up to 100x Faster Data-free Knowledge Distillation ( http://arxiv.org/abs/2112.06253v1 )

ライセンス: CC BY 4.0
Gongfan Fang, Kanya Mo, Xinchao Wang, Jie Song, Shitao Bei, Haofei Zhang, Mingli Song(参考訳) data-free knowledge distillation(dfkd)は最近、合成データのみを使用してモデルを圧縮する能力により、研究コミュニティから注目を集めている。 奨励的な結果にもかかわらず、最先端のDFKD手法は依然としてデータ合成の非効率性に悩まされており、データ不要なトレーニングプロセスは非常に時間がかかり、大規模なタスクには適用できない。 本研究では,FastDFKDと呼ばれる効率的スキームを導入し,DFKDを桁違いに高速化する手法を提案する。 私たちのアプローチの核心は、異なるデータインスタンスを合成するために、トレーニングデータで共有される共通の特徴を再利用する新しい戦略です。 データの集合を独立に最適化する従来の方法とは異なり、高速なデータ合成の初期化として共通の特徴を求めるメタ合成器の学習を提案する。 その結果、fastdfkdはほんの数ステップでデータ合成を実現し、データフリートレーニングの効率を大幅に向上させる。 CIFAR、NYUv2、ImageNetによる実験では、提案されたFastDFKDが10$\times$、100$\times$Accelerat ionを達成する一方で、最先端のパフォーマンスを保っている。

Data-free knowledge distillation (DFKD) has recently been attracting increasing attention from research communities, attributed to its capability to compress a model only using synthetic data. Despite the encouraging results achieved, state-of-the-art DFKD methods still suffer from the inefficiency of data synthesis, making the data-free training process extremely time-consuming and thus inapplicable for large-scale tasks. In this work, we introduce an efficacious scheme, termed as FastDFKD, that allows us to accelerate DFKD by a factor of orders of magnitude. At the heart of our approach is a novel strategy to reuse the shared common features in training data so as to synthesize different data instances. Unlike prior methods that optimize a set of data independently, we propose to learn a meta-synthesizer that seeks common features as the initialization for the fast data synthesis. As a result, FastDFKD achieves data synthesis within only a few steps, significantly enhancing the efficiency of data-free training. Experiments over CIFAR, NYUv2, and ImageNet demonstrate that the proposed FastDFKD achieves 10$\times$ and even 100$\times$ acceleration while preserving performances on par with state of the art.
翻訳日:2021-12-15 09:03:06 公開日:2021-12-12
# (参考訳) アルゴリズム・リコースのためのベイズ的説得 [全文訳有]

Bayesian Persuasion for Algorithmic Recourse ( http://arxiv.org/abs/2112.06283v1 )

ライセンス: CC BY 4.0
Keegan Harris, Valerie Chen, Joon Sik Kim, Ameet Talwalkar, Hoda Heidari, Zhiwei Steven Wu(参考訳) 自動的な意思決定を受けると、意思決定対象は観察可能な特徴を、望ましい結果を得るチャンスを最大化する方法で戦略的に修正します。 多くの状況において、基礎となる予測モデルはゲームを避け、競争上の優位性を維持するために意図的に秘密にされている。 この不透明さにより、決定対象は戦略的特徴修正を行う際に不完全な情報に頼ることになる。 我々はベイズ的説得のゲームのような設定を捉え、意思決定者は、例えばアクションレコメンデーションなどの信号を、望ましい行動を取るためのインセンティブを与える決定対象に送信する。 本稿では,最適化問題として最適なベイズ的インセンティブ互換(BIC)行動推薦ポリシーを見出すという意思決定者の問題を定式化し,線形プログラムによるソリューションの特徴付けを行う。 この特徴から, 最適BIC推薦法を求める問題は劇的に単純化できるが, この線形プログラムを解く際の計算複雑性は, (1) 決定対象の行動空間の相対的サイズと, (2) 基礎となる予測モデルによって活用される特徴の数と密接に関連していることがわかった。 最後に、最適なbic推奨ポリシーの性能に関する限界を提供し、標準ベースラインと比較して任意により良い結果をもたらすことができることを示す。

When subjected to automated decision-making, decision-subjects will strategically modify their observable features in ways they believe will maximize their chances of receiving a desirable outcome. In many situations, the underlying predictive model is deliberately kept secret to avoid gaming and maintain competitive advantage. This opacity forces the decision subjects to rely on incomplete information when making strategic feature modifications. We capture such settings as a game of Bayesian persuasion, in which the decision-maker sends a signal, e.g., an action recommendation, to a decision subject to incentivize them to take desirable actions. We formulate the decision-maker's problem of finding the optimal Bayesian incentive-compatible (BIC) action recommendation policy as an optimization problem and characterize the solution via a linear program. Through this characterization, we observe that while the problem of finding the optimal BIC recommendation policy can be simplified dramatically, the computational complexity of solving this linear program is closely tied to (1) the relative size of the decision-subjects&#x 27; action space, and (2) the number of features utilized by the underlying predictive model. Finally, we provide bounds on the performance of the optimal BIC recommendation policy and show that it can lead to arbitrarily better outcomes compared to standard baselines.
翻訳日:2021-12-15 08:46:01 公開日:2021-12-12
# (参考訳) クラスタ品質メトリクスにおけるバイアスの識別 [全文訳有]

Identifying bias in cluster quality metrics ( http://arxiv.org/abs/2112.06287v1 )

ライセンス: CC BY 4.0
Mart\'i Renedo-Mirambell and Argimiro Arratia(参考訳) コンダクタンスやモジュール性など,一般的なクラスタ品質指標の潜在的なバイアスについて検討する。 本稿では,事前設定されたコミュニティ構造を持つネットワークを生成するために,確率的および優先的アタッチメントブロックモデルの構築手法を提案する。 これらのモデルにより、さまざまな強度のマルチレベル構造を生成できるため、メトリクスがより大きなクラスタや小さなクラスタへの分割を好むかどうかが分かる。 さらに,別の品質指標である密度比を提案する。 調査対象のメトリクスのほとんどは、相対的な内部接続と外部接続が同じであっても、少数の大きなクラスタに分割する傾向にあります。 バイアスが少ないことが判明したメトリクスは、モジュラリティと密度比である。

We study potential biases of popular cluster quality metrics, such as conductance or modularity. We propose a method that uses both stochastic and preferential attachment block models construction to generate networks with preset community structures, to which quality metrics will be applied. These models also allow us to generate multi-level structures of varying strength, which will show if metrics favour partitions into a larger or smaller number of clusters. Additionally, we propose another quality metric, the density ratio. We observed that most of the studied metrics tend to favour partitions into a smaller number of big clusters, even when their relative internal and external connectivity are the same. The metrics found to be less biased are modularity and density ratio.
翻訳日:2021-12-15 08:21:54 公開日:2021-12-12
# (参考訳) 分数位置符号化によるより効率的な挿入変圧器の開発 [全文訳有]

Towards More Efficient Insertion Transformer with Fractional Positional Encoding ( http://arxiv.org/abs/2112.06295v1 )

ライセンス: CC BY 4.0
Zhisong Zhang, Yizhe Zhang, Bill Dolan(参考訳) 自動回帰ニューラルシーケンスモデルは、テキスト生成タスクで有効であることが示されている。 しかし、その左から右への復号順序は生成の並列化を防ぐ。 Insertion Transformer (Stern et al., 2019)は、1世代で複数のトークンを出力できる魅力的な代替手段だ。 それでも、絶対的な位置エンコーディングと挿入ベースの生成スキームの不整合のため、各ステップで生成された部分仮説における全てのトークンのエンコーディングをリフレッシュする必要がある。 我々はFPE(Fractional Positional Encoding)と呼ばれる挿入変換器のための新しいインクリメンタルな位置符号化方式を設計する。 様々な言語生成タスクに関する実証研究は、FPEの有効性を実証し、浮動小数点演算の削減とバッチデコーディングの遅延改善につながった。

Auto-regressive neural sequence models have been shown to be effective across text generation tasks. However, their left-to-right decoding order prevents generation from being parallelized. Insertion Transformer (Stern et al., 2019) is an attractive alternative that allows outputting multiple tokens in a single generation step. Nevertheless, due to the incompatibility of absolute positional encoding and insertion-based generation schemes, it needs to refresh the encoding of every token in the generated partial hypotheses at each step, which could be costly. We design a novel incremental positional encoding scheme for insertion transformers called Fractional Positional Encoding (FPE), which allows reusing representations calculated in previous steps. Empirical studies on various language generation tasks demonstrate the effectiveness of FPE, which leads to reduction of floating point operations and latency improvements on batched decoding.
翻訳日:2021-12-15 08:07:41 公開日:2021-12-12
# (参考訳) 疫病の確率予測の再検討 [全文訳有]

Recalibrating probabilistic forecasts of epidemics ( http://arxiv.org/abs/2112.06305v1 )

ライセンス: CC BY-SA 4.0
Aaron Rumack, Ryan J. Tibshirani, Roni Rosenfeld(参考訳) 分布予測は、疫病の予測を含む様々な応用において重要である。 しばしば、予測は誤解されるか、将来の出来事に不確実性を割り当てる上で信頼できない。 本稿では,この手法をより効果的に活用するための拡張法として,振り返り予測・観測を行うブラックボックス予測装置に適用可能なリカレーション手法を提案する。 この方法は、インサンプルのトレーニングおよび測定時に校正およびログスコア性能を向上させることが保証される。 また,再校正した予測器のログスコアの増加は,PIT分布のエントロピーに等しいことを示す。 本手法をFluSight Networkの27名のインフルエンザ予報者に適用し,再校正が予測精度と校正精度を確実に向上することを示す。 この方法は、流行予測を改善するための後処理ツールとして効果的で堅牢で使いやすい。

Distributional forecasts are important for a wide variety of applications, including forecasting epidemics. Often, forecasts are miscalibrated, or unreliable in assigning uncertainty to future events. We present a recalibration method that can be applied to a black-box forecaster given retrospective forecasts and observations, as well as an extension to make this method more effective in recalibrating epidemic forecasts. This method is guaranteed to improve calibration and log score performance when trained and measured in-sample. We also prove that the increase in expected log score of a recalibrated forecaster is equal to the entropy of the PIT distribution. We apply this recalibration method to the 27 influenza forecasters in the FluSight Network and show that recalibration reliably improves forecast accuracy and calibration. This method is effective, robust, and easy to use as a post-processing tool to improve epidemic forecasts.
翻訳日:2021-12-15 07:57:58 公開日:2021-12-12
# (参考訳) 合成開口ソナーのための画像対height領域変換 [全文訳有]

Image-to-Height Domain Translation for Synthetic Aperture Sonar ( http://arxiv.org/abs/2112.06307v1 )

ライセンス: CC BY 4.0
Dylan Stewart, Shawn Johnson, and Alina Zare(参考訳) 合成開口ソナーによる海底テクスチャの観測はいくつかの要因に依存する。 本研究では,等方的および異方的テクスチャに関する集合幾何学に焦点をあてる。 集合幾何学の低い放牧角度は、異方性テクスチャに対するソナーパスの向きと相まって、画像調整や他の多視点のシーン理解フレームワークにとって大きな課題となる。 我々は以前,推定海底レリーフから得られた特徴を用いてシーン理解を改善することを提案した。 強度によって海底の浮揚を推定する手法がいくつか開発されているが、文献には大規模な研究は見られない。 さらに、コアギスター付き海底レリーフマップとソナー画像のデータセットは、このドメイン翻訳を学ぶために存在しない。 本研究では,2つのソナーデータシミュレーション手法を用いて,コアギスター型海底レリーフと強度マップを含む大規模シミュレーションデータセットを作成した。 様々な複雑さを持つ3種類のモデルを適用し、強度画像を海底レリーフに翻訳する: ガウス・マルコフ確率場アプローチ(gmrf)、条件付き生成敵ネットワーク(cgan)、unetアーキテクチャ。 手法はL1エラーを用いたコアギスターシミュレーションデータセットを参照して比較される。 さらに,シミュレーションおよび実SAS画像の予測を行う。 最後に、手動SAS画像の2つのデータセットでモデルを比較し、複数の側面にわたるL1誤差の観点から、強度を用いて評価する。 総合的な実験により,提案したUNetアーキテクチャは,シミュレーションおよび実SAS画像の海底回収推定において,GMRFおよびpix2pix cGANモデルより優れていることが示された。

Observations of seabed texture with synthetic aperture sonar are dependent upon several factors. In this work, we focus on collection geometry with respect to isotropic and anisotropic textures. The low grazing angle of the collection geometry, combined with orientation of the sonar path relative to anisotropic texture, poses a significant challenge for image-alignment and other multi-view scene understanding frameworks. We previously proposed using features captured from estimated seabed relief to improve scene understanding. While several methods have been developed to estimate seabed relief via intensity, no large-scale study exists in the literature. Furthermore, a dataset of coregistered seabed relief maps and sonar imagery is nonexistent to learn this domain translation. We address these problems by producing a large simulated dataset containing coregistered pairs of seabed relief and intensity maps from two unique sonar data simulation techniques. We apply three types of models, with varying complexity, to translate intensity imagery to seabed relief: a Gaussian Markov Random Field approach (GMRF), a conditional Generative Adversarial Network (cGAN), and UNet architectures. Methods are compared in reference to the coregistered simulated datasets using L1 error. Additionally, predictions on simulated and real SAS imagery are shown. Finally, models are compared on two datasets of hand-aligned SAS imagery and evaluated in terms of L1 error across multiple aspects in comparison to using intensity. Our comprehensive experiments show that the proposed UNet architectures outperform the GMRF and pix2pix cGAN models on seabed relief estimation for simulated and real SAS imagery.
翻訳日:2021-12-15 07:47:15 公開日:2021-12-12
# (参考訳) マルチディスクリミネータサイクルGANによる音声強調による雑音音声の音声認識の改善 [全文訳有]

Improving Speech Recognition on Noisy Speech via Speech Enhancement with Multi-Discriminators CycleGAN ( http://arxiv.org/abs/2112.06309v1 )

ライセンス: CC BY 4.0
Chia-Yu Li and Ngoc Thang Vu(参考訳) 本稿では,音声強調による雑音音声の自動音声認識に関する最近の研究について述べる。 本稿では,入力音声の雑音を低減し,音声認識性能を向上させるために,マルチ識別器CycleGANという新しい手法を提案する。 提案手法は、並列データを持たない音声強調のためのCycleGANフレームワークを活用し、異なる周波数領域をチェックする複数の識別器を導入して改善する。 さらに、トレーニングデータの同種部分集合上で複数のジェネレータを訓練することは、トレーニングデータ全体において1つのジェネレータを訓練するよりも優れていることを示す。 提案手法をCHiME-3データセット上で評価し, 開発環境でのWER改善率を最大10.03%, 評価セットで最大14.09%向上した。

This paper presents our latest investigations on improving automatic speech recognition for noisy speech via speech enhancement. We propose a novel method named Multi-discriminators CycleGAN to reduce noise of input speech and therefore improve the automatic speech recognition performance. Our proposed method leverages the CycleGAN framework for speech enhancement without any parallel data and improve it by introducing multiple discriminators that check different frequency areas. Furthermore, we show that training multiple generators on homogeneous subset of the training data is better than training one generator on all the training data. We evaluate our method on CHiME-3 data set and observe up to 10.03% relatively WER improvement on the development set and up to 14.09% on the evaluation set.
翻訳日:2021-12-15 07:27:30 公開日:2021-12-12
# (参考訳) 脳波と視線追跡データを用いた読解タスク分類

Reading Task Classification Using EEG and Eye-Tracking Data ( http://arxiv.org/abs/2112.06310v1 )

ライセンス: CC BY 4.0
Nora Hollenstein, Marius Tr\"ondle, Martyna Plomecka, Samuel Kiegeland, Yilmazcan \"Ozyurt, Lena A. J\"ager, Nicolas Langer(参考訳) Zurich Cognitive Language Processing Corpus (ZuCo)は、通常の読書とタスク固有の読書の2つのパラダイムから、視線追跡と脳波信号を提供する。 我々は、視線追跡と脳波機能を用いて、機械学習がこれらの2つのタスクを分類できるかどうかを分析する。 センテンスレベルの特徴と粒度の細かい単語レベルの特徴を持つモデルを実装した。 対象内および対象間評価シナリオでモデルをテストする。 すべてのモデルはzuco 1.0とzuco 2.0のデータサブセット上でテストされ、異なる記録手順によって特徴付けられるため、異なるレベルの一般化が可能となる。 最後に、結果をより詳細に分析するための一連の制御実験を提供する。

The Zurich Cognitive Language Processing Corpus (ZuCo) provides eye-tracking and EEG signals from two reading paradigms, normal reading and task-specific reading. We analyze whether machine learning methods are able to classify these two tasks using eye-tracking and EEG features. We implement models with aggregated sentence-level features as well as fine-grained word-level features. We test the models in within-subject and cross-subject evaluation scenarios. All models are tested on the ZuCo 1.0 and ZuCo 2.0 data subsets, which are characterized by differing recording procedures and thus allow for different levels of generalizability. Finally, we provide a series of control experiments to analyze the results in more detail.
翻訳日:2021-12-15 07:15:39 公開日:2021-12-12
# (参考訳) Anomaly Crossing: クロスドメインFew-shot学習によるビデオ異常検出の新しい手法

Anomaly Crossing: A New Method for Video Anomaly Detection as Cross-domain Few-shot Learning ( http://arxiv.org/abs/2112.06320v1 )

ライセンス: CC BY 4.0
Guangyu Sun, Zhang Liu, Lianggong Wen, Jing Shi, Chenliang Xu(参考訳) ビデオ異常検出は、ビデオで発生した異常事象を特定することを目的としている。 異常イベントは比較的稀であるため、バランスの取れたデータセットを収集し、タスクを解決するためにバイナリ分類器を訓練することは不可能である。 したがって、ほとんどの以前のアプローチは、教師なしまたは半教師なしの方法で通常のビデオからのみ学習する。 明らかに、これらは識別異常特性の捕捉と利用に限られており、異常検出性能が損なわれている。 本稿では,ビデオの異常検出に通常のビデオと異常ビデオの両方をフル活用して,新たな学習パラダイムを提案する。 具体的には、ソース領域内の多数のビデオから学んだ知識を伝達して、ターゲット領域における少数ショット異常検出の解決を支援することができるクロスドメイン・数ショット異常検出という新しい学習タスクを定式化する。 具体的には,対象とする通常のビデオに対する自己教師型トレーニングを活用して,ドメインギャップを減らし,メタコンテキスト認識モジュールを考案し,イベントの映像コンテキストを数ショットで探索する。 実験の結果,本手法はDoTAデータセットとUCF-Crimeデータセットのベースライン手法を著しく上回り,新しいタスクは異常検出のためのより実践的な訓練パラダイムに寄与することがわかった。

Video anomaly detection aims to identify abnormal events that occurred in videos. Since anomalous events are relatively rare, it is not feasible to collect a balanced dataset and train a binary classifier to solve the task. Thus, most previous approaches learn only from normal videos using unsupervised or semi-supervised methods. Obviously, they are limited in capturing and utilizing discriminative abnormal characteristics, which leads to compromised anomaly detection performance. In this paper, to address this issue, we propose a new learning paradigm by making full use of both normal and abnormal videos for video anomaly detection. In particular, we formulate a new learning task: cross-domain few-shot anomaly detection, which can transfer knowledge learned from numerous videos in the source domain to help solve few-shot abnormality detection in the target domain. Concretely, we leverage self-supervised training on the target normal videos to reduce the domain gap and devise a meta context perception module to explore the video context of the event in the few-shot setting. Our experiments show that our method significantly outperforms baseline methods on DoTA and UCF-Crime datasets, and the new task contributes to a more practical training paradigm for anomaly detection.
翻訳日:2021-12-15 07:14:44 公開日:2021-12-12
# (参考訳) 周期整合adversarial networkを用いた人工生成テキストによるコードスイッチ言語モデリングの改善 [全文訳有]

Improving Code-switching Language Modeling with Artificially Generated Texts using Cycle-consistent Adversarial Networks ( http://arxiv.org/abs/2112.06327v1 )

ライセンス: CC BY 4.0
Chia-Yu Li and Ngoc Thang Vu(参考訳) 本稿では,データ不足に苦しむコード交換言語モデルの改善に向けた最新の取り組みについて述べる。 コードスイッチング学習用テキストデータを人工的に生成する手法について検討する。 具体的には,スポーキングスタイルとしてコード切り換えを考慮し,単言語テキストをコード切り換えテキストに転送する,サイクル一貫性のある敵対的ネットワークベースのフレームワークを提案する。 SEAMEコーパスの実験結果から,人工的に生成したコードスイッチングテキストデータを利用することで,言語モデルと音声認識性能が一貫して向上することが示された。

This paper presents our latest effort on improving Code-switching language models that suffer from data scarcity. We investigate methods to augment Code-switching training text data by artificially generating them. Concretely, we propose a cycle-consistent adversarial networks based framework to transfer monolingual text into Code-switching text, considering Code-switching as a speaking style. Our experimental results on the SEAME corpus show that utilising artificially generated Code-switching text data improves consistently the language model as well as the automatic speech recognition performance.
翻訳日:2021-12-15 07:13:39 公開日:2021-12-12
# (参考訳) 教師なしエンティティ解決のためのグラフベース階層型レコードクラスタリング [全文訳有]

Graph-based hierarchical record clustering for unsupervised entity resolution ( http://arxiv.org/abs/2112.06331v1 )

ライセンス: CC BY 4.0
Islam Akef Ebeid, John R. Talburt, Md Abdus Salam Siddique(参考訳) 本稿では,教師なしエンティティ解決におけるマッチングレコードクラスタリングの問題について検討する。 我々はData Washing Machine (DWM)という最先端の確率的フレームワークを構築した。 本稿では,グラフベースの階層型階層型2段階記録クラスタリング(gdwm)を提案する。この手法は,まず大規模で接続されたコンポーネントを識別するか,あるいはdwmで使用されるグラフベースの推移的クロージャアルゴリズムを用いて,マッチングレコードペア内のソフトクラスタを識別する。 その後、発見されたソフトクラスタをより正確なエンティティクラスタに階層的に分割し、グラフベースのモジュラリティ最適化手法を採用する。 提案手法はDWMの当初の実装に対していくつかの利点があり、主に大幅な高速化、精度の向上、F1スコアの全体的な増加などである。 複数の合成データセットを用いた実験により,本手法の有効性を示す。 また, 教師なし実体分解能に関する文献において, グラフ理論に基づくアルゴリズムの有用性の証明も行った。

Here we study the problem of matched record clustering in unsupervised entity resolution. We build upon a state-of-the-art probabilistic framework named the Data Washing Machine (DWM). We introduce a graph-based hierarchical 2-step record clustering method (GDWM) that first identifies large, connected components or, as we call them, soft clusters in the matched record pairs using a graph-based transitive closure algorithm utilized in the DWM. That is followed by breaking down the discovered soft clusters into more precise entity clusters in a hierarchical manner using an adapted graph-based modularity optimization method. Our approach provides several advantages over the original implementation of the DWM, mainly a significant speed-up, increased precision, and overall increased F1 scores. We demonstrate the efficacy of our approach using experiments on multiple synthetic datasets. Our results also provide evidence of the utility of graph theory-based algorithms despite their sparsity in the literature on unsupervised entity resolution.
翻訳日:2021-12-15 07:01:11 公開日:2021-12-12
# (参考訳) Change Detectionがビジュアル質問に答える [全文訳有]

Change Detection Meets Visual Question Answering ( http://arxiv.org/abs/2112.06343v1 )

ライセンス: CC BY 4.0
Zhenghang Yuan, Lichao Mou, Zhitong Xiong, Xiaoxiang Zhu(参考訳) 地球の表面は継続的に変化しており、変化の特定は都市計画と持続可能性において重要な役割を担っている。 変化検出技術は長年にわたって開発されてきたが,関連分野の専門家やファシリテータに限られている。 情報変更に対する柔軟なアクセスを提供し,土地被覆変更の理解を深めるために,複数時空間画像に対する変化検出に基づく視覚的質問応答(cdvqa)という新しいタスクを導入する。 特に、2つの入力画像間の内容変化に応じてハイレベルな変更ベース情報を得るために、複数の時間的画像に照会することができる。 我々はまず,自動質問応答生成手法を用いて,複数時間画像検索用三重項を含むCDVQAデータセットを構築した。 次に,本研究でベースラインCDVQAフレームワークを考案し,マルチテンポラル特徴符号化,マルチテンポラル融合,マルチモーダル融合,応答予測の4つの部分を含む。 さらに,変更関連情報の導入を目的とした,多時間特徴エンコーディングのための変更強化モジュールも導入する。 最後に,CDVQAタスクの性能に異なるバックボーンと多時間融合戦略が及ぼす影響について検討した。 実験により,CDVQAモデルの開発に有用な知見が得られた。 データセットとコードを公開します。

The Earth's surface is continually changing, and identifying changes plays an important role in urban planning and sustainability. Although change detection techniques have been successfully developed for many years, these techniques are still limited to experts and facilitators in related fields. In order to provide every user with flexible access to change information and help them better understand land-cover changes, we introduce a novel task: change detection-based visual question answering (CDVQA) on multi-temporal aerial images. In particular, multi-temporal images can be queried to obtain high level change-based information according to content changes between two input images. We first build a CDVQA dataset including multi-temporal image-question-answe r triplets using an automatic question-answer generation method. Then, a baseline CDVQA framework is devised in this work, and it contains four parts: multi-temporal feature encoding, multi-temporal fusion, multi-modal fusion, and answer prediction. In addition, we also introduce a change enhancing module to multi-temporal feature encoding, aiming at incorporating more change-related information. Finally, effects of different backbones and multi-temporal fusion strategies are studied on the performance of CDVQA task. The experimental results provide useful insights for developing better CDVQA models, which are important for future research on this task. We will make our dataset and code publicly available.
翻訳日:2021-12-15 06:44:41 公開日:2021-12-12
# (参考訳) 機械学習のカラビヤウ超曲面

Machine Learning Calabi-Yau Hypersurfaces ( http://arxiv.org/abs/2112.06350v1 )

ライセンス: CC0 1.0
David S. Berman, Yang-Hui He, Edward Hirst(参考訳) 機械学習ツールボックスから多種多様なツールセットを備えたCalabi-Yau 3次元超曲面を許容する重み付きP4の古典的データベースを再検討する。 教師なしの手法は、トポロジカルデータの重みへのほとんど線形な依存を予想しない。 これにより、Calabi-Yauデータに未確認のクラスタリングを特定できます。 R^2 > 95%の精度で超表面のトポロジカルパラメータをその重みから予測することに成功している。 また,クラスタリング動作によって支持されるパーティショニングを用いることで,カラビ・ヤウ超曲面を100%精度で許容する重み付きP4を同定することができる。

We revisit the classic database of weighted-P4s which admit Calabi-Yau 3-fold hypersurfaces equipped with a diverse set of tools from the machine-learning toolbox. Unsupervised techniques identify an unanticipated almost linear dependence of the topological data on the weights. This then allows us to identify a previously unnoticed clustering in the Calabi-Yau data. Supervised techniques are successful in predicting the topological parameters of the hypersurface from its weights with an accuracy of R^2 > 95%. Supervised learning also allows us to identify weighted-P4s which admit Calabi-Yau hypersurfaces to 100% accuracy by making use of partitioning supported by the clustering behaviour.
翻訳日:2021-12-15 06:26:12 公開日:2021-12-12
# (参考訳) 時空間イベントダイナミクス学習のためのニューラルポイントプロセス [全文訳有]

Neural Point Process for Learning Spatiotemporal Event Dynamics ( http://arxiv.org/abs/2112.06351v1 )

ライセンス: CC BY 4.0
Zihao Zhou, Xingyi Yang, Ryan Rossi, Handong Zhao and Rose Yu(参考訳) 時空間事象のダイナミクスを学ぶことは根本的な問題である。 ニューラルポイントプロセスは、ディープニューラルネットワークを用いたポイントプロセスモデルの表現性を高める。 しかし、既存のほとんどの手法は空間モデリングなしで時間力学しか考慮していない。 本稿では,時空間過程を統合した深部力学モデルであるDeep Spatiotemporal Point Process (DeepSTPP)を提案する。 本手法は柔軟で効率的であり,空間的および時間的に不規則にサンプリングされた事象を正確に予測できる。 我々のアプローチの鍵となる構成は非パラメトリックな時空強度関数であり、潜在過程によって支配される。 強度関数は密度に対する閉形式積分を楽しむ。 潜在プロセスは、イベントシーケンスの不確かさをキャプチャする。 我々は,ディープネットワークを用いた潜伏過程を推定するために,償却変分推論を用いる。 合成データセットを用いて、モデルが真の強度関数を正確に学習できることを検証する。 実世界のベンチマークデータセットでは、最先端のベースラインよりも優れたパフォーマンスを示す。

Learning the dynamics of spatiotemporal events is a fundamental problem. Neural point processes enhance the expressivity of point process models with deep neural networks. However, most existing methods only consider temporal dynamics without spatial modeling. We propose Deep Spatiotemporal Point Process (DeepSTPP), a deep dynamics model that integrates spatiotemporal point processes. Our method is flexible, efficient, and can accurately forecast irregularly sampled events over space and time. The key construction of our approach is the nonparametric space-time intensity function, governed by a latent process. The intensity function enjoys closed-form integration for the density. The latent process captures the uncertainty of the event sequence. We use amortized variational inference to infer the latent process with deep networks. Using synthetic datasets, we validate our model can accurately learn the true intensity function. On real-world benchmark datasets, our model demonstrates superior performance over state-of-the-art baselines.
翻訳日:2021-12-15 06:22:51 公開日:2021-12-12
# ニューラルネットワークを用いたスペクトル関数再構成のための自動微分法

Automatic differentiation approach for reconstructing spectral functions with neural networks ( http://arxiv.org/abs/2112.06206v1 )

ライセンス: Link先を確認
Lingxiao Wang, Shuzhe Shi, Kai Zhou(参考訳) ユークリッドグリーン関数からスペクトル関数を再構成することは物理学において重要な逆問題である。 特定の物理系に対する事前知識は、概ね不適切な問題を解くための本質的な正規化スキームを提供する。 本稿では,観測可能なデータから再構成するための汎用ツールとして,自動微分フレームワークを提案する。 ニューラルネットワークによるスペクトルを表現し,chi-squareを損失関数とし,後方自動微分を教師なしでパラメータを最適化する。 トレーニングプロセスでは、肯定的な形式を除いて、ニューラルネットワークへの明確な物理的事前埋め込みは存在しない。 復元精度は、複数の雑音レベルにおけるKulback-Leibler(KL)分散と平均二乗誤差(MSE)によって評価される。 自動微分フレームワークと正規化導入の自由は、現在のアプローチの固有の利点であり、将来的には逆問題の改善につながる可能性があることに注意する必要がある。

Reconstructing spectral functions from Euclidean Green's functions is an important inverse problem in physics. The prior knowledge for specific physical systems routinely offers essential regularization schemes for solving the ill-posed problem approximately. Aiming at this point, we propose an automatic differentiation framework as a generic tool for the reconstruction from observable data. We represent the spectra by neural networks and set chi-square as loss function to optimize the parameters with backward automatic differentiation unsupervisedly. In the training process, there is no explicit physical prior embedding into neural networks except the positive-definite form. The reconstruction accuracy is assessed through Kullback-Leibler(KL) divergence and mean square error(MSE) at multiple noise levels. It should be noted that the automatic differential framework and the freedom of introducing regularization are inherent advantages of the present approach and may lead to improvements of solving inverse problem in the future.
翻訳日:2021-12-14 19:31:08 公開日:2021-12-12
# NeuroHSMD:ニューロモルフィックハイブリッドスパイキングモーション検出器

NeuroHSMD: Neuromorphic Hybrid Spiking Motion Detector ( http://arxiv.org/abs/2112.06102v1 )

ライセンス: Link先を確認
Pedro Machado, Eiman Kanjo, Andreas Oikonomou Ahmad Lotfi(参考訳) VertebrateRetinaは、動く物体を検知するといった簡単な視覚的タスクを処理するのに非常に効率が良いが、現代のコンピュータでは複雑なタスクである。 物体の動きの検出は、OMS-GC(Object-motion -sensitive ganglion cells)と呼ばれる特殊な網膜神経節細胞によって行われる。 OMS-GCは連続的な信号を処理し、Visual Cortexによって後処理されるスパイクパターンを生成する。 この研究で提案されたニューロモルフィックハイブリッドスパイキングモーション検出器(NeuroHSMD)は、フィールドプログラマブルゲートアレイ(FPGA)を用いたHSMDアルゴリズムを高速化する。 hybrid spiking motion detector (hsmd)アルゴリズムは、oms-gcスパイク様応答を生成するカスタマイズされた3層スパイクニューラルネットワーク(snn)による動的バックグラウンドサブトラクション(dbs)アルゴリズムを強化する最初のハイブリッドアルゴリズムである。 NeuroHSMDアルゴリズムは、2012年の変化検出(CDnet2012)と2014年の変化検出(CDnet2014)のベンチマークデータセットを用いて、HSMDアルゴリズムと比較された。 以上の結果から,NuroHSMDは品質劣化を伴わず,リアルタイムにHSMDアルゴリズムと同じ結果が得られることがわかった。 さらに,この論文で提案したNeuroHSMDはOpen Computer Language (OpenCL) で完全に実装されており,グラフィカルプロセッサユニット (GPU) や中央プロセッサユニット (CPU) などの他のデバイスでも容易に複製可能である。

Vertebrate retinas are highly-efficient in processing trivial visual tasks such as detecting moving objects, yet a complex task for modern computers. The detection of object motion is done by specialised retinal ganglion cells named Object-motion-sensit ive ganglion cells (OMS-GC). OMS-GC process continuous signals and generate spike patterns that are post-processed by the Visual Cortex. The Neuromorphic Hybrid Spiking Motion Detector (NeuroHSMD) proposed in this work accelerates the HSMD algorithm using Field-Programmable Gate Arrays (FPGAs). The Hybrid Spiking Motion Detector (HSMD) algorithm was the first hybrid algorithm to enhance dynamic background subtraction (DBS) algorithms with a customised 3-layer spiking neural network (SNN) that generates OMS-GC spiking-like responses. The NeuroHSMD algorithm was compared against the HSMD algorithm, using the same 2012 change detection (CDnet2012) and 2014 change detection (CDnet2014) benchmark datasets. The results show that the NeuroHSMD has produced the same results as the HSMD algorithm in real-time without degradation of quality. Moreover, the NeuroHSMD proposed in this paper was completely implemented in Open Computer Language (OpenCL) and therefore is easily replicated in other devices such as Graphical Processor Units (GPUs) and clusters of Central Processor Units (CPUs).
翻訳日:2021-12-14 19:18:54 公開日:2021-12-12
# 教材発見のための半教師型深層ニューラルネットワーク

Semi-supervised teacher-student deep neural network for materials discovery ( http://arxiv.org/abs/2112.06142v1 )

ライセンス: Link先を確認
Daniel Gleaves, Edirisuriya M. Dilanga Siriwardane, Yong Zhao, Nihang Fu, Jianjun Hu(参考訳) データ駆動生成型機械学習モデルは、新しい材料発見の最も有望なアプローチの1つとして最近登場した。 ジェネレータモデルは数百万の候補を生成することができるが、高速で正確な機械学習モデルを訓練し、安定した合成可能な材料を望ましい特性でフィルタリングすることが重要である。 しかし, ICSD や Materials Project (MP) などの資料データベースに蓄積されていない不安定なサンプルや合成不可能なサンプルの不足により, 教師付き回帰モデルや分類スクリーニングモデルの構築が著しく妨げられている。 同時に、これらのデータベースで利用可能なラベルなしのデータもかなりの量存在する。 本稿では,教師と教師の密接なデュアルネットワークアーキテクチャと大量のラベルなしデータの有効活用により実現される,高性能な生成エネルギーと合成可能性予測のための半教師付きディープニューラルネットワーク(tsdnn)モデルを提案する。 生成エネルギーに基づく安定性スクリーニングにおいて, 半教師付き分類器はベースラインcgcnn回帰モデルと比較して絶対精度が10.3\%向上する。 合成可能性予測では,1/49モデルパラメータを用いて,ベースラインPU学習の正の率を87.9\%から97.9\%に有意に向上させる。 モデルの有効性をさらに証明するため,我々は,我々のTSDNNエネルギーモデルとTSDNN合成可能性モデルと立方体生成器を組み合わせて,新しい安定な立方体構造を発見した。 提案した1000の候補試料のうち, 512は負生成エネルギーを有しており, DFT生成エネルギーの計算によって検証されている。 実験の結果, 半教師付き深層ニューラルネットワークは, 大規模生成材料設計において, スクリーニング精度を大幅に向上できることがわかった。

Data driven generative machine learning models have recently emerged as one of the most promising approaches for new materials discovery. While the generator models can generate millions of candidates, it is critical to train fast and accurate machine learning models to filter out stable, synthesizable materials with desired properties. However, such efforts to build supervised regression or classification screening models have been severely hindered by the lack of unstable or unsynthesizable samples, which usually are not collected and deposited in materials databases such as ICSD and Materials Project (MP). At the same time, there are a significant amount of unlabelled data available in these databases. Here we propose a semi-supervised deep neural network (TSDNN) model for high-performance formation energy and synthesizability prediction, which is achieved via its unique teacher-student dual network architecture and its effective exploitation of the large amount of unlabeled data. For formation energy based stability screening, our semi-supervised classifier achieves an absolute 10.3\% accuracy improvement compared to the baseline CGCNN regression model. For synthesizability prediction, our model significantly increases the baseline PU learning's true positive rate from 87.9\% to 97.9\% using 1/49 model parameters. To further prove the effectiveness of our models, we combined our TSDNN-energy and TSDNN-synthesizabili ty models with our CubicGAN generator to discover novel stable cubic structures. Out of 1000 recommended candidate samples by our models, 512 of them have negative formation energies as validated by our DFT formation energy calculations. Our experimental results show that our semi-supervised deep neural networks can significantly improve the screening accuracy in large-scale generative materials design.
翻訳日:2021-12-14 18:57:34 公開日:2021-12-12
# 離散入力空間における逆例の定量化と理解

Quantifying and Understanding Adversarial Examples in Discrete Input Spaces ( http://arxiv.org/abs/2112.06276v1 )

ライセンス: Link先を確認
Volodymyr Kuleshov, Evgenii Nikishin, Shantanu Thakoor, Tingfung Lau, Stefano Ermon(参考訳) 現代の分類アルゴリズムは逆の例に影響を受けやすく、アルゴリズムが望ましくない振る舞いを生み出す入力に摂動する。 本研究では,入力が離散的な領域,特に計算生物学などの新しい領域をまたいだ逆例を理解し,拡張することを目的とする。 この目標に向けてのステップとして、任意の離散的な設定に適用される同義語逆例の概念を定式化し、そのような例を構成するための単純なドメインに依存しないアルゴリズムを記述する。 このアルゴリズムは感情分析やdna配列の分類を含む複数のドメインにまたがって適用され、逆の例を一貫して発見する。 我々はそれらの有病率を理論的に理解し、それらの存在は離散空間に特有の統計的現象である突発的なトークン相関によるものとみなす。 我々の研究は、連続入力と類似した離散逆例のドメインに依存しない処理への一歩である。

Modern classification algorithms are susceptible to adversarial examples--perturbati ons to inputs that cause the algorithm to produce undesirable behavior. In this work, we seek to understand and extend adversarial examples across domains in which inputs are discrete, particularly across new domains, such as computational biology. As a step towards this goal, we formalize a notion of synonymous adversarial examples that applies in any discrete setting and describe a simple domain-agnostic algorithm to construct such examples. We apply this algorithm across multiple domains--including sentiment analysis and DNA sequence classification--and find that it consistently uncovers adversarial examples. We seek to understand their prevalence theoretically and we attribute their existence to spurious token correlations, a statistical phenomenon that is specific to discrete spaces. Our work is a step towards a domain-agnostic treatment of discrete adversarial examples analogous to that of continuous inputs.
翻訳日:2021-12-14 18:56:01 公開日:2021-12-12
# 衛星画像からのサイドウォーク計測:予備発見

Sidewalk Measurements from Satellite Images: Preliminary Findings ( http://arxiv.org/abs/2112.06120v1 )

ライセンス: Link先を確認
Maryam Hosseini, Iago B. Araujo, Hamed Yazdanpanah, Eric K. Tokuda, Fabio Miranda, Claudio T. Silva, Roberto M. Cesar Jr(参考訳) 歩行者のインフラ、特に歩道の大規模分析は、人間中心の都市計画と設計に不可欠である。 ニューヨーク市オープンデータポータルを通じて提供される多彩な平面的特徴と高解像度の正像から恩恵を受け、我々はコンピュータビジョンモデルを訓練し、リモートセンシング画像から歩道、道路、建物を検知し、ホールドアウトテストセットで83% mIoUを達成する。 抽出した歩道の異なる特性を研究するために形状解析手法を適用した。 より具体的には, 歩道の幅, 角度, 曲率をタイルワイズで解析し, 街路の歩行性, アクセシビリティに与える影響を別にすると, 車椅子利用者の移動に重要な役割を担っていることが知られている。 予備結果は有望であり、提案するアプローチが異なる都市で採用される可能性を示し、研究者や実践者がより鮮明に歩行者の領域を描けるようにしている。

Large-scale analysis of pedestrian infrastructures, particularly sidewalks, is critical to human-centric urban planning and design. Benefiting from the rich data set of planimetric features and high-resolution orthoimages provided through the New York City Open Data portal, we train a computer vision model to detect sidewalks, roads, and buildings from remote-sensing imagery and achieve 83% mIoU over held-out test set. We apply shape analysis techniques to study different attributes of the extracted sidewalks. More specifically, we do a tile-wise analysis of the width, angle, and curvature of sidewalks, which aside from their general impacts on walkability and accessibility of urban areas, are known to have significant roles in the mobility of wheelchair users. The preliminary results are promising, glimpsing the potential of the proposed approach to be adopted in different cities, enabling researchers and practitioners to have a more vivid picture of the pedestrian realm.
翻訳日:2021-12-14 18:42:08 公開日:2021-12-12
# 冠動脈造影の2つの新しい狭窄検出法

Two New Stenosis Detection Methods of Coronary Angiograms ( http://arxiv.org/abs/2112.06149v1 )

ライセンス: Link先を確認
Yaofang Liu, Xinyue Zhang, Wenlong Wan, Shaoyu Liu, Yingdi Liu, Hu Liu, Xueying Zeng, Qing Zhang(参考訳) 冠動脈造影は、冠動脈疾患(CAD)の診断における「ゴールドスタンダード」である。 現在, 冠動脈狭窄の検出・評価の方法は臨床ニーズを満たすことができない。例えば, 臨床において必要となる, 術前血管セグメントにおけるステノシス検出の事前研究は行われていない。 診断補助として血管狭窄検出法が2つ提案されている。 1つ目は、自動的に冠状動脈全枝を抽出し、可能なステントースを全てマークする自動方法である。 2つ目はインタラクティブな方法です。 この方法で、ユーザは任意の血管セグメントを選択して、そのステントのさらなる分析を行うことができる。 実験により, 種々の血管構造を持つ血管造影において, 提案手法は堅牢であることがわかった。 自動狭窄検出法の精度、感度、F_1$スコアはそれぞれ0.821, 0.757, 0.788である。 さらに,本手法により狭窄検出の精度が向上し,定量的解析が現実に近いことが確認された。 提案手法と対話的手法は有効であり,臨床において相互補完が可能である。 第1の方法は予備スクリーニングに使用することができ、第2の方法はさらなる定量的解析に使用することができる。 提案法がcadの臨床診断に適していると考えられる。

Coronary angiography is the "gold standard" for diagnosing coronary artery disease (CAD). At present, the methods for detecting and evaluating coronary artery stenosis cannot satisfy the clinical needs, e.g., there is no prior study of detecting stenoses in prespecified vessel segments, which is necessary in clinical practice. Two vascular stenosis detection methods are proposed to assist the diagnosis. The first one is an automatic method, which can automatically extract the entire coronary artery tree and mark all the possible stenoses. The second one is an interactive method. With this method, the user can choose any vessel segment to do further analysis of its stenoses. Experiments show that the proposed methods are robust for angiograms with various vessel structures. The precision, sensitivity, and $F_1$ score of the automatic stenosis detection method are 0.821, 0.757, and 0.788, respectively. Further investigation proves that the interactive method can provide a more precise outcome of stenosis detection, and our quantitative analysis is closer to reality. The proposed automatic method and interactive method are effective and can complement each other in clinical practice. The first method can be used for preliminary screening, and the second method can be used for further quantitative analysis. We believe the proposed solution is more suitable for the clinical diagnosis of CAD.
翻訳日:2021-12-14 18:41:49 公開日:2021-12-12
# 低光度画像強調のためのアテンションに基づく広義自己誘導ネットワーク

Attention based Broadly Self-guided Network for Low light Image Enhancement ( http://arxiv.org/abs/2112.06226v1 )

ライセンス: Link先を確認
Zilong Chen, Yaling Liang, Minghui Du(参考訳) During the past years,deep convolutional neural networks have achieved impressive success in low-light Image Enhancement.Existing deep learning methods mostly enhance the ability of feature extraction by stacking network structures and deepening the depth of the network.which causes more runtime cost on single image.In order to reduce inference time while fully extracting local features and global features.Inspired by SGN,we propose a Attention based Broadly self-guided network (ABSGN) for real world low-light image Enhancement.such a broadly strategy is able to handle the noise at different exposures.The proposed network is validated by many mainstream benchmark.Additional experimental results show that the proposed network outperforms most of state-of-the-art low-light image Enhancement solutions.

During the past years,deep convolutional neural networks have achieved impressive success in low-light Image Enhancement.Existing deep learning methods mostly enhance the ability of feature extraction by stacking network structures and deepening the depth of the network.which causes more runtime cost on single image.In order to reduce inference time while fully extracting local features and global features.Inspired by SGN,we propose a Attention based Broadly self-guided network (ABSGN) for real world low-light image Enhancement.such a broadly strategy is able to handle the noise at different exposures.The proposed network is validated by many mainstream benchmark.Additional experimental results show that the proposed network outperforms most of state-of-the-art low-light image Enhancement solutions.
翻訳日:2021-12-14 18:41:33 公開日:2021-12-12
# HerosNet:スナップショット圧縮イメージングのためのハイパースペクトル拡張型再構成と最適サンプリングディープネットワーク

HerosNet: Hyperspectral Explicable Reconstruction and Optimal Sampling Deep Network for Snapshot Compressive Imaging ( http://arxiv.org/abs/2112.06238v1 )

ライセンス: Link先を確認
Xuanyu Zhang, Yongbing Zhang, Ruiqin Xiong, Qilin Sun, Jian Zhang(参考訳) ハイパースペクトルイメージングは、特にリモートセンシング、農業、医学において、幅広い用途に欠かせない画像モダリティである。 低予算のスナップショット測定からハイパスペクトル画像(HSI)を再構築する、遅い、高価、またはかさばる既存のハイパースペクトルカメラにインスパイアされたことが注目されている。 切り離された数値最適化アルゴリズムを一定数の位相を持つネットワークにマッピングすることにより、スペクトルスナップショット圧縮センシング(SCI)のための最近のディープ展開ネットワーク(DUN)は大きな成功を収めた。 しかし、DUNは、異相的特徴相互作用と適応パラメータ調整の欠如により、産業応用の範囲に達するには程遠い。 本稿では、ISTAアンフォールディングフレームワークの下で複数のフェーズを含むHerosNetと呼ばれる、SCIのためのハイパースペクトル拡張型再構成と最適サンプリングディープネットワークを提案する。 各位相は、検出行列を柔軟にシミュレートし、勾配降下ステップのステップサイズを文脈的に調整し、前フェーズの隠蔽状態を階層的に融合して、近位写像ステップの現在のHSIフレームを効果的に回収することができる。 同時に、ハードウェアフレンドリーな最適バイナリマスクをエンドツーエンドで学習し、復元性能をさらに向上させる。 最後に、herosnetは、シミュレーションと実際のデータセットの両方において最先端のメソッドよりも大きなマージンで優れています。

Hyperspectral imaging is an essential imaging modality for a wide range of applications, especially in remote sensing, agriculture, and medicine. Inspired by existing hyperspectral cameras that are either slow, expensive, or bulky, reconstructing hyperspectral images (HSIs) from a low-budget snapshot measurement has drawn wide attention. By mapping a truncated numerical optimization algorithm into a network with a fixed number of phases, recent deep unfolding networks (DUNs) for spectral snapshot compressive sensing (SCI) have achieved remarkable success. However, DUNs are far from reaching the scope of industrial applications limited by the lack of cross-phase feature interaction and adaptive parameter adjustment. In this paper, we propose a novel Hyperspectral Explicable Reconstruction and Optimal Sampling deep Network for SCI, dubbed HerosNet, which includes several phases under the ISTA-unfolding framework. Each phase can flexibly simulate the sensing matrix and contextually adjust the step size in the gradient descent step, and hierarchically fuse and interact the hidden states of previous phases to effectively recover current HSI frames in the proximal mapping step. Simultaneously, a hardware-friendly optimal binary mask is learned end-to-end to further improve the reconstruction performance. Finally, our HerosNet is validated to outperform the state-of-the-art methods on both simulation and real datasets by large margins.
翻訳日:2021-12-14 18:41:24 公開日:2021-12-12
# ロバスト・汎用防衛のための補間型宇宙対人訓練

Interpolated Joint Space Adversarial Training for Robust and Generalizable Defenses ( http://arxiv.org/abs/2112.06323v1 )

ライセンス: Link先を確認
Chun Pong Lau, Jiang Liu, Hossein Souri, Wei-An Lin, Soheil Feizi, Rama Chellappa(参考訳) 敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。 しかし、ATで訓練されたモデルは標準精度を犠牲にし、新しい攻撃に対してうまく一般化しない。 最近の研究は、on-manifold threat modelやneural perceptual threat modelといった新しい脅威モデルの下での敵のサンプルによる一般化改善を示している。 しかし、前者は正確な多様体情報を必要とし、後者はアルゴリズム緩和を必要とする。 これらの考慮により、我々は基礎となる多様体情報を正規化フローで利用し、正確な多様体仮定が成り立つことを保証する。 さらに,新たな脅威モデルであるJSTM(Joint Space Threat Model)を提案する。 jstmでは,新たな攻撃と防御を展開する。 ミックスアップ戦略はニューラルネットワークの標準的な精度を改善するが、ATと組み合わせることで堅牢性を犠牲にする。 そこで本研究では, 補間画像の可逆性を最大化し, 頑健性を獲得し, 過フィッティングを防止するためのロバストな混合戦略を提案する。 IJSAT(Interpolated Joint Space Adversarial Training)は, CIFAR-10/100, OM- ImageNet, CIFAR-10-Cデータセットにおいて, 標準精度, 堅牢性, 一般化において良好な性能を発揮することを示す。 IJSATはフレキシブルで、標準精度を改善し、多くの既存のATアプローチと組み合わせて堅牢性を向上させるためにデータ拡張手法として使用できる。

Adversarial training (AT) is considered to be one of the most reliable defenses against adversarial attacks. However, models trained with AT sacrifice standard accuracy and do not generalize well to novel attacks. Recent works show generalization improvement with adversarial samples under novel threat models such as on-manifold threat model or neural perceptual threat model. However, the former requires exact manifold information while the latter requires algorithm relaxation. Motivated by these considerations, we exploit the underlying manifold information with Normalizing Flow, ensuring that exact manifold assumption holds. Moreover, we propose a novel threat model called Joint Space Threat Model (JSTM), which can serve as a special case of the neural perceptual threat model that does not require additional relaxation to craft the corresponding adversarial attacks. Under JSTM, we develop novel adversarial attacks and defenses. The mixup strategy improves the standard accuracy of neural networks but sacrifices robustness when combined with AT. To tackle this issue, we propose the Robust Mixup strategy in which we maximize the adversity of the interpolated images and gain robustness and prevent overfitting. Our experiments show that Interpolated Joint Space Adversarial Training (IJSAT) achieves good performance in standard accuracy, robustness, and generalization in CIFAR-10/100, OM-ImageNet, and CIFAR-10-C datasets. IJSAT is also flexible and can be used as a data augmentation method to improve standard accuracy and combine with many existing AT approaches to improve robustness.
翻訳日:2021-12-14 18:40:58 公開日:2021-12-12
# DPICT:トリトプレーンを用いた深部進行画像圧縮

DPICT: Deep Progressive Image Compression Using Trit-Planes ( http://arxiv.org/abs/2112.06334v1 )

ライセンス: Link先を確認
Jae-Han Lee, Seungmin Jeon, Kwang Pyo Choi, Youngo Park, and Chang-Su Kim(参考訳) 本稿では,FGS(微細粒度スケーラビリティ)をサポートする最初の学習ベースコーデックであるトリオプレーン(DPICT)アルゴリズムを用いた深部プログレッシブ画像圧縮を提案する。 まず,解析ネットワークを用いて画像から潜時テンソルに変換する。 そして、三進数(三進数)の潜在テンソルを表現し、三進数の減少順序で圧縮ビットストリームトリト平面に符号化する。 さらに,各トライトプレーン内で,そのレートゆがみ優先度に応じてトリットを分類し,より重要な情報を最初に送信する。 圧縮ネットワークは, トリトプレーンの少ない場合にはあまり最適化されないため, 再構成画像の低精細化のための後処理ネットワークを開発する。 実験の結果,DPICTは従来のプログレッシブコーデックよりも優れ,FGS伝送が可能であった。

We propose the deep progressive image compression using trit-planes (DPICT) algorithm, which is the first learning-based codec supporting fine granular scalability (FGS). First, we transform an image into a latent tensor using an analysis network. Then, we represent the latent tensor in ternary digits (trits) and encode it into a compressed bitstream trit-plane by trit-plane in the decreasing order of significance. Moreover, within each trit-plane, we sort the trits according to their rate-distortion priorities and transmit more important information first. Since the compression network is less optimized for the cases of using fewer trit-planes, we develop a postprocessing network for refining reconstructed images at low rates. Experimental results show that DPICT outperforms conventional progressive codecs significantly, while enabling FGS transmission.
翻訳日:2021-12-14 18:40:34 公開日:2021-12-12
# 医療従事者に対するcovid-19の隠れた影響:機械学習による分析

Hidden Effects of COVID-19 on Healthcare Workers: A Machine Learning Analysis ( http://arxiv.org/abs/2112.06261v1 )

ライセンス: Link先を確認
Mostafa Rezapour (The Department of Mathematics and Statistics, Wake Forest University)(参考訳) 本稿では、新型コロナウイルスのパンデミックが医療従事者に与える影響について分析する。 本稿では,ミシガン大学政治社会研究コンソーシアムから得られたメンタルヘルス調査データを用いて,医療従事者の飲酒習慣の変化に着目した。 決定木,ロジスティック回帰,naive bayes分類器,k-nearest近傍,サポートベクターマシン,多層パーセプトロン,ランダムフォレスト,xgboost,catboost,li ghtgbm,合成マイノリティオーバーサンプリング,chi-squaredテスト,相互情報手法など,教師ありかつ教師なしの機械学習手法とモデルを用いて,covid-19関連悪影響と医療従事者におけるアルコール使用の変化との関係を明らかにする。 以上の結果から,学校閉鎖や勤務予定変更,新型コロナウイルス関連のニュース暴露など,新型コロナウイルスのパンデミックの影響がアルコール使用の増加につながる可能性が示唆された。

In this paper, we analyze some effects of the COVID-19 pandemic on healthcare workers. We specifically focus on alcohol consumption habit changes among healthcare workers using a mental health survey data obtained from the University of Michigan Inter-University Consortium for Political and Social Research. We use supervised and unsupervised machine learning methods and models such as Decision Trees, Logistic Regression, Naive Bayes classifier, k-Nearest Neighbors, Support Vector Machines, Multilayer perceptron, Random Forests, XGBoost, CatBoost, LightGBM, Synthetic Minority Oversampling, Chi-Squared Test and mutual information method to find out relationships between COVID-19 related negative effects and alcohol use changes in healthcare workers. Our findings suggest that some effects of the COVID-19 pandemic such as school closure, work schedule change and COVID-related news exposure may lead to an increase in alcohol use.
翻訳日:2021-12-14 18:25:39 公開日:2021-12-12
# 危険追従型自律走行のためのマルチエージェント脆弱性発見

Multi-Agent Vulnerability Discovery for Autonomous Driving with Hazard Arbitration Reward ( http://arxiv.org/abs/2112.06185v1 )

ライセンス: Link先を確認
Weilin Liu, Ye Mu, Chao Yu, Xuefei Ning, Zhong Cao, Yi Wu, Shuang Liang, Huazhong Yang, Yu Wang(参考訳) 危険なシナリオの発見は、テストと運転方針の改善に不可欠である。 しかし、効率的な運転ポリシーテストの実行には2つの課題がある。 一方、十分に訓練された自動運転戦略をテストする場合、自然に危険シナリオに遭遇する確率は低い。 したがって、純粋に現実世界の道路テストでこれらのシナリオを発見するのは、非常にコストがかかる。 一方で、このタスクには、事故責任の適切な決定が必要となる。 誤った責任を負ったシナリオの収集は、過度に保守的な自動運転戦略につながる。 より具体的には、自動運転車の責任を負う危険シナリオ、すなわちテスト下運転ポリシーの脆弱性を発見することを目的としている。 そこで本研究では,マルチエージェント強化学習に基づくAv-Responsible Scenarios(STARS)の安全性テストフレームワークを提案する。 STARSは、他の交通機関の参加者にAv-Responsible Scenariosの生産を誘導し、Hazard Arbitration Reward (HAR)を導入して、テスト中の運転ポリシーを誤動作させる。 HARにより、当社のフレームワークは、多様な、複雑で、AV対応の有害シナリオを発見できます。 3つの環境における4つの異なる運転方針に対する実験結果から、STARSはAV対応の危険シナリオを効果的に発見できることが示された。 これらのシナリオは実際にテスト済みの駆動ポリシーの脆弱性に対応しているため、さらなる改善には意味があります。

Discovering hazardous scenarios is crucial in testing and further improving driving policies. However, conducting efficient driving policy testing faces two key challenges. On the one hand, the probability of naturally encountering hazardous scenarios is low when testing a well-trained autonomous driving strategy. Thus, discovering these scenarios by purely real-world road testing is extremely costly. On the other hand, a proper determination of accident responsibility is necessary for this task. Collecting scenarios with wrong-attributed responsibilities will lead to an overly conservative autonomous driving strategy. To be more specific, we aim to discover hazardous scenarios that are autonomous-vehicle responsible (AV-responsible), i.e., the vulnerabilities of the under-test driving policy. To this end, this work proposes a Safety Test framework by finding Av-Responsible Scenarios (STARS) based on multi-agent reinforcement learning. STARS guides other traffic participants to produce Av-Responsible Scenarios and make the under-test driving policy misbehave via introducing Hazard Arbitration Reward (HAR). HAR enables our framework to discover diverse, complex, and AV-responsible hazardous scenarios. Experimental results against four different driving policies in three environments demonstrate that STARS can effectively discover AV-responsible hazardous scenarios. These scenarios indeed correspond to the vulnerabilities of the under-test driving policies, thus are meaningful for their further improvements.
翻訳日:2021-12-14 18:21:06 公開日:2021-12-12
# インクリメンタル学習のための視覚トランスフォーマーの改善

Improving Vision Transformers for Incremental Learning ( http://arxiv.org/abs/2112.06103v1 )

ライセンス: Link先を確認
Pei Yu, Yinpeng Chen, Ying Jin, Zicheng Liu(参考訳) 本稿では,クラスインクリメンタル学習における視覚変換器(ViT)の応用について検討する。 驚くべきことに、畳み込みニューラルネットワーク(CNN)を置き換えるためのViTの単純適用により、パフォーマンスが低下する。 分析の結果, 経鼻的ViT使用の3つの問題点が明らかになった。 (a) ViT はクラス数が小さいときに非常に緩やかに収束する。 b) 新しいクラスに対するバイアスは、CNNベースのモデルよりもViTで観察され、 (c)ViTの適切な学習速度は低すぎて、優れた分類器を学習できない。 この分析に基づいて、これらの問題は、畳み込みstemの使用、バイアスを正すためのバランスのとれた微調整、分類器の学習率の向上など、既存の技術を使って単純に対処できることを示す。 ViTIL(ViT for Incremental Learning)と名付けられた私たちのシンプルなソリューションは、3つのクラスにまたがるインクリメンタルラーニングのセットアップを、明確なマージンで実現し、研究コミュニティに強力なベースラインを提供する。 例えば、ImageNet-1000では、5つのインクリメンタルステップ(それぞれ100の新しいクラス)を持つ500のイニシャルクラスのプロトコルで69.20%のトップ-1の精度を達成し、LUCIR+DDEを1.69%上回っています。 10段階(100の新しいクラス)のより難しいプロトコルでは、PODNetを7.27%上回る(65.13%対57.86%)。

This paper studies using Vision Transformers (ViT) in class incremental learning. Surprisingly, naive application of ViT to replace convolutional neural networks (CNNs) results in performance degradation. Our analysis reveals three issues of naively using ViT: (a) ViT has very slow convergence when class number is small, (b) more bias towards new classes is observed in ViT than CNN-based models, and (c) the proper learning rate of ViT is too low to learn a good classifier. Base on this analysis, we show these issues can be simply addressed by using existing techniques: using convolutional stem, balanced finetuning to correct bias, and higher learning rate for the classifier. Our simple solution, named ViTIL (ViT for Incremental Learning), achieves the new state-of-the-art for all three class incremental learning setups by a clear margin, providing a strong baseline for the research community. For instance, on ImageNet-1000, our ViTIL achieves 69.20% top-1 accuracy for the protocol of 500 initial classes with 5 incremental steps (100 new classes for each), outperforming LUCIR+DDE by 1.69%. For more challenging protocol of 10 incremental steps (100 new classes), our method outperforms PODNet by 7.27% (65.13% vs. 57.86%).
翻訳日:2021-12-14 17:12:54 公開日:2021-12-12
# mvlayoutnet:マルチビューパノラマによる3次元レイアウト再構成

MVLayoutNet:3D layout reconstruction with multi-view panoramas ( http://arxiv.org/abs/2112.06133v1 )

ライセンス: Link先を確認
Zhihua Hu, Bo Duan, Yanfeng Zhang, Mingwei Sun, Jingwei Huang(参考訳) MVLayoutNetは,多視点パノラマから総合的な3次元再構成を行うネットワークである。 我々のコアコントリビューションは、学習した単分子配置推定とマルチビューステレオ(MVS)をシームレスに組み合わせて、3次元および画像空間の正確なレイアウト再構築を行うことである。 我々はレイアウトモジュールを共同でトレーニングし、初期レイアウトと新しいMVSモジュールを作成し、正確なレイアウト形状を得る。 標準のMVSNet[33]とは異なり、我々のMVSモジュールは新しく提案されたレイアウトコストのボリュームを取り、同じ深さ層におけるマルチビューコストを対応するレイアウト要素に集約します。 さらに,mvsモジュールを構造領域に集中させるための注意に基づくスキームも提供する。 このような設計は、局所的なピクセルレベルのコストとグローバルな全体的情報の両方を考慮して、より良い再構築を行う。 実験の結果, 2D-3D-S [1] および ZInD [5] データセットでは, 奥行きが21.7%, 20.6%向上した。 最後に,この手法はシーン全体の再構成を可能にするコヒーレントなレイアウト形状をもたらす。

We present MVLayoutNet, an end-to-end network for holistic 3D reconstruction from multi-view panoramas. Our core contribution is to seamlessly combine learned monocular layout estimation and multi-view stereo (MVS) for accurate layout reconstruction in both 3D and image space. We jointly train a layout module to produce an initial layout and a novel MVS module to obtain accurate layout geometry. Unlike standard MVSNet [33], our MVS module takes a newly-proposed layout cost volume, which aggregates multi-view costs at the same depth layer into corresponding layout elements. We additionally provide an attention-based scheme that guides the MVS module to focus on structural regions. Such a design considers both local pixel-level costs and global holistic information for better reconstruction. Experiments show that our method outperforms state-of-the-arts in terms of depth rmse by 21.7% and 20.6% on the 2D-3D-S [1] and ZInD [5] datasets. Finally, our method leads to coherent layout geometry that enables the reconstruction of an entire scene.
翻訳日:2021-12-14 17:12:29 公開日:2021-12-12
# RGB赤外線人物再同定のための自己改善モード対応多重粒度事前評価

Self-Supervised Modality-Aware Multiple Granularity Pre-Training for RGB-Infrared Person Re-Identification ( http://arxiv.org/abs/2112.06147v1 )

ライセンス: Link先を確認
Lin Wan, Qianyan Jing, Zongyuan Sun, Chuang Zhang, Zhihang Li, Yehansen Chen(参考訳) RGB-Infrared cross-modality person re-identification (RGB-IR ReID)は24時間のインテリジェント監視において大きな進歩をもたらしたが、最先端技術は依然として微調整されたImageNet事前訓練ネットワークに大きく依存している。 単一モダリティの性質から、このような大規模事前トレーニングは、クロスモダリティ画像検索の性能を妨げるrgbバイアス表現をもたらす可能性がある。 本稿では,マルチモーダルReIDデータセットのスクラッチからモデルを直接学習するが,外部データや高度なチューニングトリックを使わずに,競合的な結果が得られるMMGL(Modality-Aware Multiple Granularity Learning)という自己指導型事前学習手法を提案する。 具体的には、MMGLは、シャッフルされたRGB-IR画像を共有潜在置換空間にグローバルにマッピングし、サイクル一貫性RGB-IRイメージパッチ間の一致を最大化することにより、局所的な識別性を向上させる。 実験では、MMGLはImageNetの事前トレーニングよりも高速なトレーニング速度(数時間で収束)とデータ効率(データサイズが5%)で、より良い表現(+6.47% Rank-1)を学習している。 また、既存のモデルや損失をうまく一般化し、データセット間での転送可能性も期待できる。 コードはリリースされます。

While RGB-Infrared cross-modality person re-identification (RGB-IR ReID) has enabled great progress in 24-hour intelligent surveillance, state-of-the-arts still heavily rely on fine-tuning ImageNet pre-trained networks. Due to the single-modality nature, such large-scale pre-training may yield RGB-biased representations that hinder the performance of cross-modality image retrieval. This paper presents a self-supervised pre-training alternative, named Modality-Aware Multiple Granularity Learning (MMGL), which directly trains models from scratch on multi-modality ReID datasets, but achieving competitive results without external data and sophisticated tuning tricks. Specifically, MMGL globally maps shuffled RGB-IR images into a shared latent permutation space and further improves local discriminability by maximizing agreement between cycle-consistent RGB-IR image patches. Experiments demonstrate that MMGL learns better representations (+6.47% Rank-1) with faster training speed (converge in few hours) and solider data efficiency (<5% data size) than ImageNet pre-training. The results also suggest it generalizes well to various existing models, losses and has promising transferability across datasets. The code will be released.
翻訳日:2021-12-14 17:12:07 公開日:2021-12-12
# ピクセル単位での奥行き画像のステッチング

Pixel-wise Deep Image Stitching ( http://arxiv.org/abs/2112.06171v1 )

ライセンス: Link先を確認
Hyeokjun Kweon, Hyeonseong Kim, Yoonsu Kang, Youngho Yoon, Wooseong Jeong and Kuk-Jin Yoon(参考訳) 画像ステッチは、異なる視点から撮影された画像をより広い視野で画像に縫い合わせることを目的としている。 既存の手法では、推定されたワープ関数を用いて対象画像を基準画像に警告し、ホモグラフィは最も一般的に使用されるワーピング関数の1つである。 しかし、非平面的なシーンやカメラの翻訳動作による画像の視差が大きい場合、ホモグラフィは2つの画像間のマッピングを完全に記述することはできない。 大域的あるいは局所的ホモグラフィ推定に基づく既存のアプローチは、この問題から自由であり、パララックスによる望ましくないアーティファクトに苦しむ。 本稿では,ホモグラフィに基づくワープに頼らずに,画素方向ワープフィールドを利用して大きなパララックス問題を扱う新しい深部画像縫い付けフレームワークを提案する。 提案手法は,PWM ( Pixel-wise Warping Module) とSIGMo (Stitched Image Generating Module) の2つのモジュールからなる。 PWMは、光学フロー推定モデルを用いて、全画像の画素回りのワープを取得し、得られたワープフィールドで対象画像の画素を移動させる。 SIGMoは、歪んだターゲット画像と参照画像とをブレンドし、縫合された結果の妥当性を損なう、ミスアライメント、縫い目、穴などの不要な成果物を除去する。 提案するフレームワークのトレーニングと評価のために,画像ペアと対応する画素単位の地上真理ワープとサンプル縫合結果画像を含む大規模データセットを構築した。 提案手法は従来の手法よりも質的に優れていることを示し,特に画像の視差が大きい場合について述べる。 コードと提案されたデータセットは近く公開される。

Image stitching aims at stitching the images taken from different viewpoints into an image with a wider field of view. Existing methods warp the target image to the reference image using the estimated warp function, and a homography is one of the most commonly used warping functions. However, when images have large parallax due to non-planar scenes and translational motion of a camera, the homography cannot fully describe the mapping between two images. Existing approaches based on global or local homography estimation are not free from this problem and suffer from undesired artifacts due to parallax. In this paper, instead of relying on the homography-based warp, we propose a novel deep image stitching framework exploiting the pixel-wise warp field to handle the large-parallax problem. The proposed deep image stitching framework consists of two modules: Pixel-wise Warping Module (PWM) and Stitched Image Generating Module (SIGMo). PWM employs an optical flow estimation model to obtain pixel-wise warp of the whole image, and relocates the pixels of the target image with the obtained warp field. SIGMo blends the warped target image and the reference image while eliminating unwanted artifacts such as misalignments, seams, and holes that harm the plausibility of the stitched result. For training and evaluating the proposed framework, we build a large-scale dataset that includes image pairs with corresponding pixel-wise ground truth warp and sample stitched result images. We show that the results of the proposed framework are qualitatively superior to those of the conventional methods, especially when the images have large parallax. The code and the proposed dataset will be publicly available soon.
翻訳日:2021-12-14 17:11:39 公開日:2021-12-12
# BIPS: Residual Depth-Aided Adversarial Learningによるバイモーダル室内パノラマ合成

BIPS: Bi-modal Indoor Panorama Synthesis via Residual Depth-aided Adversarial Learning ( http://arxiv.org/abs/2112.06179v1 )

ライセンス: Link先を確認
Changgyoon Oh, Wonjune Cho, Daehee Park, Yujeong Chae, Lin Wang and Kuk-Jin Yoon(参考訳) RGB情報とともに全方位深度を提供することは、VR/ARなど多くのアプリケーションにとって重要である。 しかし、全方位RGB-Dデータは必ずしも利用できないため、シーンの限られた情報からRGB-Dパノラマデータを合成することは有用である。 したがって、いくつかの先行研究はrgbパノラマ画像からrgbパノラマ画像の合成を試みたが、画質は限られており、rgb-dパノラマ合成では直接拡張できない。 本稿では,rgb-dパノラマ合成におけるカメラと深度センサの任意配置による新しい問題について検討する。 そこで本研究では,新しいバイモーダル(RGB-D)パノラマ合成(BIPS)フレームワークを提案する。 特に、RGB-Dパノラマが多くのアプリケーションに対して完全な3Dモデルを提供できる屋内環境に焦点を当てる。 バイモーダル情報を融合した生成器を設計し,rdal(sustains-assis ted adversarial learning)で学習する。 RDALは、RGBパノラマ、レイアウト深さ、残留深さを共同で推定することで、リアルな屋内レイアウト構造と内部を合成することができる。 また、RGB-Dパノラマ合成のための調整された評価基準が存在しないため、その知覚品質を効果的に評価するための新しい指標を提案する。 広範にわたる実験により,高品質なrgb-dパノラマを合成し,従来の手法よりも現実的な3d室内モデルを提供することがわかった。 コードは受理時にリリースされる。

Providing omnidirectional depth along with RGB information is important for numerous applications, eg, VR/AR. However, as omnidirectional RGB-D data is not always available, synthesizing RGB-D panorama data from limited information of a scene can be useful. Therefore, some prior works tried to synthesize RGB panorama images from perspective RGB images; however, they suffer from limited image quality and can not be directly extended for RGB-D panorama synthesis. In this paper, we study a new problem: RGB-D panorama synthesis under the arbitrary configurations of cameras and depth sensors. Accordingly, we propose a novel bi-modal (RGB-D) panorama synthesis (BIPS) framework. Especially, we focus on indoor environments where the RGB-D panorama can provide a complete 3D model for many applications. We design a generator that fuses the bi-modal information and train it with residual-aided adversarial learning (RDAL). RDAL allows to synthesize realistic indoor layout structures and interiors by jointly inferring RGB panorama, layout depth, and residual depth. In addition, as there is no tailored evaluation metric for RGB-D panorama synthesis, we propose a novel metric to effectively evaluate its perceptual quality. Extensive experiments show that our method synthesizes high-quality indoor RGB-D panoramas and provides realistic 3D indoor models than prior methods. Code will be released upon acceptance.
翻訳日:2021-12-14 17:11:09 公開日:2021-12-12
# 360-DFPE: 直接床計画推定のための単分子360レイアウトの活用

360-DFPE: Leveraging Monocular 360-Layouts for Direct Floor Plan Estimation ( http://arxiv.org/abs/2112.06180v1 )

ライセンス: Link先を確認
Bolivar Solarte, Yueh-Cheng Liu, Chin-Hsuan Wu, Yi-Hsuan Tsai, Min Sun(参考訳) 360-dfpeは, アクティブセンサや3d情報に頼らずに, 直接入力として360度画像を取り込む, シーケンシャルなフロア計画推定手法である。 提案手法は,カメラのポーズとレイアウトのジオメトリを推定する単眼視SLAMソリューションと単眼360室レイアウトアプローチとの疎結合な統合を利用する。 単眼画像を用いたフロアプランの逐次把握が課題であるため,全シーン構造,部屋インスタンス,部屋形状が不明である。 これらの課題に取り組むために,まずエントロピー最小化プロセスを定式化することにより,視覚オドメトリとレイアウト形状のスケール差を処理し,シーン全体を事前に知ることなく360度のレイアウトを直接調整できる。 第2に,各部屋を逐次識別するために,幾何学的情報を用いて,カメラ探索中の各部屋を追跡する新しい部屋識別アルゴリズムを提案する。 最後に、室内の最終的な形状を推定するために、より高精度で高速な実行時間で事前定式化を改善する反復的粗大化戦略を用いた最短経路アルゴリズムを提案する。 さらに,大規模シーンに挑戦する新たなフロアプランデータセットを収集し,ポイントクラウドとシーケンシャルな360画像情報の両方を提供する。 実験結果から,本手法は,能動センサに頼ってシーン再構築データ全体を事前に必要とする最先端のアルゴリズムに対して,良好な性能が得られることが示された。 コードとデータセットはまもなくリリースされます。

We present 360-DFPE, a sequential floor plan estimation method that directly takes 360-images as input without relying on active sensors or 3D information. Our approach leverages a loosely coupled integration between a monocular visual SLAM solution and a monocular 360-room layout approach, which estimate camera poses and layout geometries, respectively. Since our task is to sequentially capture the floor plan using monocular images, the entire scene structure, room instances, and room shapes are unknown. To tackle these challenges, we first handle the scale difference between visual odometry and layout geometry via formulating an entropy minimization process, which enables us to directly align 360-layouts without knowing the entire scene in advance. Second, to sequentially identify individual rooms, we propose a novel room identification algorithm that tracks every room along the camera exploration using geometry information. Lastly, to estimate the final shape of the room, we propose a shortest path algorithm with an iterative coarse-to-fine strategy, which improves prior formulations with higher accuracy and faster run-time. Moreover, we collect a new floor plan dataset with challenging large-scale scenes, providing both point clouds and sequential 360-image information. Experimental results show that our monocular solution achieves favorable performance against the current state-of-the-art algorithms that rely on active sensors and require the entire scene reconstruction data in advance. Our code and dataset will be released soon.
翻訳日:2021-12-14 17:09:13 公開日:2021-12-12
# 未知種に対する不確実性学習による少数キーポイント検出

Few-shot Keypoint Detection with Uncertainty Learning for Unseen Species ( http://arxiv.org/abs/2112.06183v1 )

ライセンス: Link先を確認
Changsheng Lu, Piotr Koniusz(参考訳) 現在の非剛体物体のキーポイント検出器は、選択された種や身体の部位でよく機能し、訓練には大量のラベル付きキーポイントを必要とする。 さらに、特定の身体部位に合わせて調整された熱マップは、未知の種に関する新しいキーポイント(トレーニングのためにラベル付けされていないキーポイント)を認識できない。 トレーニング用に注釈付けされた)ベースと、いくつかの注釈付きサンプルを与えられた未確認種のキーポイントの両方をどうやって検出すればよいのか? そこで本研究では,様々な種類のキーポイントを検出可能な汎用Few-shot Keypoint Detection (FSKD) パイプラインを提案する。 我々のFSKDは予測キーポイントの不確かさを推定する。 具体的には、FSKDは主および補助的キーポイント表現学習、類似性学習、および局所化雑音に対処するための不確実性モデリングを伴うキーポイントローカライゼーションを含む。 さらに,多変量ガウス分布による鍵点群間の不確かさをモデル化し,隣接鍵点間の暗黙的相関を活用した。 FSKDの有効性を示す。 (i)未発見種の新規キーポイント検出、及び (ii)微小粒度視覚認識(fgvr)及び (iii)セマンティックアライメント(sa)ダウンストリームタスク。 FGVRの場合、検出されたキーポイントは分類精度を向上させる。 SAの場合、不完全なキーポイント対応の下で推定されたキーポイントの不確実性を利用する新しい薄板・スプラインワープを示す。

Current non-rigid object keypoint detectors perform well on a chosen kind of species and body parts, and require a large amount of labelled keypoints for training. Moreover, their heatmaps, tailored to specific body parts, cannot recognize novel keypoints (keypoints not labelled for training) on unseen species. We raise an interesting yet challenging question: how to detect both base (annotated for training) and novel keypoints for unseen species given a few annotated samples? Thus, we propose a versatile Few-shot Keypoint Detection (FSKD) pipeline, which can detect a varying number of keypoints of different kinds. Our FSKD provides the uncertainty estimation of predicted keypoints. Specifically, FSKD involves main and auxiliary keypoint representation learning, similarity learning, and keypoint localization with uncertainty modeling to tackle the localization noise. Moreover, we model the uncertainty across groups of keypoints by multivariate Gaussian distribution to exploit implicit correlations between neighboring keypoints. We show the effectiveness of our FSKD on (i) novel keypoint detection for unseen species, and (ii) few-shot Fine-Grained Visual Recognition (FGVR) and (iii) Semantic Alignment (SA) downstream tasks. For FGVR, detected keypoints improve the classification accuracy. For SA, we showcase a novel thin-plate-spline warping that uses estimated keypoint uncertainty under imperfect keypoint corespondences.
翻訳日:2021-12-14 17:08:46 公開日:2021-12-12
# マルコフサブサンプリングに基づくフーバー基準

Markov subsampling based Huber Criterion ( http://arxiv.org/abs/2112.06134v1 )

ライセンス: Link先を確認
Tieliang Gong and Yuxin Dong and Hong Chen and Bo Dong and Chen Li(参考訳) サブサンプリングは、ビッグデータによってもたらされる計算課題に対処するための重要なテクニックである。 多くのサブサンプリング手順は、重要サンプリングの枠組みに該当し、大きな影響を与えると思われるサンプルに高いサンプリング確率を割り当てる。 ノイズレベルが高い場合、サンプリング手順は多くの外れ値を選択する傾向があり、実際は満足して実行されないことが多い。 この問題に対処するため,我々は,HMS(Huber criterion)に基づく新しいマルコフサブサンプリング戦略を設計し,ノイズの多い全データから情報的サブセットを構築する。 hmsは、各サンプリングユニットの包含確率をフーバー基準を用いて決定し、外れ値のオーバースコアを防止するメトロポリス・ハスティング手順に基づいて構築される。 軽度条件下では,HMSが選択したサブサンプルに基づく推定器はガウス下偏差境界と統計的に一致している。 HMSの有望な性能は、大規模シミュレーションと実データ例に関する広範な研究によって実証されている。

Subsampling is an important technique to tackle the computational challenges brought by big data. Many subsampling procedures fall within the framework of importance sampling, which assigns high sampling probabilities to the samples appearing to have big impacts. When the noise level is high, those sampling procedures tend to pick many outliers and thus often do not perform satisfactorily in practice. To tackle this issue, we design a new Markov subsampling strategy based on Huber criterion (HMS) to construct an informative subset from the noisy full data; the constructed subset then serves as a refined working data for efficient processing. HMS is built upon a Metropolis-Hasting procedure, where the inclusion probability of each sampling unit is determined using the Huber criterion to prevent over scoring the outliers. Under mild conditions, we show that the estimator based on the subsamples selected by HMS is statistically consistent with a sub-Gaussian deviation bound. The promising performance of HMS is demonstrated by extensive studies on large scale simulations and real data examples.
翻訳日:2021-12-14 16:29:41 公開日:2021-12-12
# ランキングへのロバスト学習の公正性

Fairness for Robust Learning to Rank ( http://arxiv.org/abs/2112.06288v1 )

ライセンス: Link先を確認
Omid Memarrast, Ashkan Rezaei, Rizal Fathony, Brian Ziebart(参考訳) 従来のランキングシステムは、利用者に対するランキング項目の有効性を最大化することだけに重点を置いているが、公正を意識したランキングシステムは、性別や人種などの異なる保護属性に対する露出のバランスを取る。 このようなグループフェアネスをランク付けするために,分布ロバストネスの第一原理に基づく新しいランキングシステムを提案する。 トレーニングデータの統計値に適合しながら、実用性を最小化しようとする相手に対する公正制約を満たしつつ、ランキングよりも分布を選択するプレイヤー間でミニマックスゲームを定式化する。 本手法は,既存のベースライン手法よりも公平なランク付けに優れた有用性を示す。

While conventional ranking systems focus solely on maximizing the utility of the ranked items to users, fairness-aware ranking systems additionally try to balance the exposure for different protected attributes such as gender or race. To achieve this type of group fairness for ranking, we derive a new ranking system based on the first principles of distributional robustness. We formulate a minimax game between a player choosing a distribution over rankings to maximize utility while satisfying fairness constraints against an adversary seeking to minimize utility while matching statistics of the training data. We show that our approach provides better utility for highly fair rankings than existing baseline methods.
翻訳日:2021-12-14 16:29:23 公開日:2021-12-12
# イベントからのイメージ復元。 なぜ習うのか?

Image Reconstruction from Events. Why learn it? ( http://arxiv.org/abs/2112.06242v1 )

ライセンス: Link先を確認
Zelin Zhang, Anthony Yezzi, Guillermo Gallego(参考訳) 従来のカメラは画像強度を測定する。 対照的に、イベントカメラは画素ごとの時間強度を非同期に測定する。 復元された画像が高ダイナミックレンジ(hdr)と高速特性を継承するため、イベントからの強度回復は一般的な研究テーマであり、多くのロボットビジョンアプリケーションで使用でき、スローモーションhdrビデオを生成することができる。 しかし、現状の手法は、説明可能性に欠け、チューニングが難しいイベント・ツー・イメージ・リカレントニューラルネットワーク(RNN)をトレーニングすることでこの問題に対処する。 本研究は, 画像再構成RNNを訓練せずに解くことができる線形逆問題として, 運動と強度推定の連立問題に初めて取り組むことによって, イベントベースの画像再構成がモデルとなることを示す。 代わりに、古典的および学習的イメージの先行は、問題を解決し、再構成された画像からアーティファクトを取り除くために使用できる。 実験の結果,提案手法は,短時間(再帰接続のない)のデータのみを使用しながら,最先端の手法と同等の画質で画像を生成することがわかった。 提案手法は,まず画像ラプラシアンを推定するアプローチによって再構成された画像の品質向上にも有効であり,この手法は画像先行によって導かれるポアソン再構成と解釈できる。

Traditional cameras measure image intensity. Event cameras, by contrast, measure per-pixel temporal intensity changes asynchronously. Recovering intensity from events is a popular research topic since the reconstructed images inherit the high dynamic range (HDR) and high-speed properties of events; hence they can be used in many robotic vision applications and to generate slow-motion HDR videos. However, state-of-the-art methods tackle this problem by training an event-to-image recurrent neural network (RNN), which lacks explainability and is difficult to tune. In this work we show, for the first time, how tackling the joint problem of motion and intensity estimation leads us to model event-based image reconstruction as a linear inverse problem that can be solved without training an image reconstruction RNN. Instead, classical and learning-based image priors can be used to solve the problem and remove artifacts from the reconstructed images. The experiments show that the proposed approach generates images with visual quality on par with state-of-the-art methods despite only using data from a short time interval (i.e., without recurrent connections). Our method can also be used to improve the quality of images reconstructed by approaches that first estimate the image Laplacian; here our method can be interpreted as Poisson reconstruction guided by image priors.
翻訳日:2021-12-14 16:28:02 公開日:2021-12-12
# 知識ベース質問応答モデルへの数値推論スキルの注入

Injecting Numerical Reasoning Skills into Knowledge Base Question Answering Models ( http://arxiv.org/abs/2112.06109v1 )

ライセンス: Link先を確認
Yu Feng, Jing Zhang, Xiaokang Zhang, Lemao Liu, Cuiping Li, Hong Chen(参考訳) 埋め込みベースの手法は知識ベース質問回答 (KBQA) に人気があるが、数理推論のスキルを持つモデルはほとんどなく、順序付けられた質問に答えるのに苦労している。 本稿では,特に数値推論を考慮した埋め込み型KBQAフレームワークを提案する。 我々は,NT-NSMを作成するために,最先端の埋め込み型KBQAモデルであるNSM上の数値トランスフォーマーを提案する。 より優れたトレーニングを実現するために,2つの生成されたトレーニングデータセットに対して,明示的な数値指向の損失関数を持つ2つの事前学習タスクを提案する。 KBQAベンチマークの大規模な実験により, NT-NSMには数値推論能力が備わっており, 規則的制約された質問に答える上で, 基準線を著しく上回っていることがわかった。

Embedding-based methods are popular for Knowledge Base Question Answering (KBQA), but few current models have numerical reasoning skills and thus struggle to answer ordinal constrained questions. This paper proposes a new embedding-based KBQA framework which particularly takes numerical reasoning into account. We present NumericalTransformer on top of NSM, a state-of-the-art embedding-based KBQA model, to create NT-NSM. To enable better training, we propose two pre-training tasks with explicit numerical-oriented loss functions on two generated training datasets and a template-based data augmentation method for enriching ordinal constrained QA dataset. Extensive experiments on KBQA benchmarks demonstrate that with the help of our training algorithm, NT-NSM is empowered with numerical reasoning skills and substantially outperforms the baselines in answering ordinal constrained questions.
翻訳日:2021-12-14 16:23:12 公開日:2021-12-12
# ニューラルマシン翻訳のためのコミュニケーション効率の高い連合学習

Communication-Effici ent Federated Learning for Neural Machine Translation ( http://arxiv.org/abs/2112.06135v1 )

ライセンス: Link先を確認
Tanya Roosta, Peyman Passban, Ankit Chadha(参考訳) 連合学習(fl)環境でのニューラルマシン翻訳(nmt)モデルのトレーニングは、大規模な翻訳エンジンと、クライアントと中央サーバのトレーニングに必要な更新の複数ラウンドのため、計算と通信の両方において非効率である可能性がある。 本稿では,新しいソリューションを提案することにより,FLセットアップでNMTモデルを効率的に構築する方法を検討する。 通信オーバーヘッドを減らすために、すべての神経層のうち、私たちが"コントローラ"層と呼ぶものだけを交換します。 コントローラは、トレーニング済みのアーキテクチャに接続された、少数の神経コンポーネントです。 これらの新しいコンポーネントは、元のレイヤの間に配置される。 彼らは中央サーバと通信し、クライアントを更新するのに十分な最小限の情報を学ぶための連絡役を果たす。 我々は、異なるドメインの5つのデータセットでモデルの性能を評価し、ドイツ語から英語に翻訳した。 コントローラを備えたモデルは、中央および非FL設定でトレーニングされたモデルと同程度にプリフォームされていることに留意した。 さらに,flパイプラインの通信トラフィックが大幅に減少し,コントローラの使用による直接的影響が確認された。 私たちの実験によると、コントローラベースのモデルは、他の仲間の約6倍のコストがかかります。 大規模モデルにおけるパラメータの数を考えると,この削減は極めて重要であり,FL設定において複数のラウンドでそのようなパラメータを交換する必要がある場合には,さらに重要になる。

Training neural machine translation (NMT) models in federated learning (FL) settings could be inefficient both computationally and communication-wise, due to the large size of translation engines as well as the multiple rounds of updates required to train clients and a central server. In this paper, we explore how to efficiently build NMT models in an FL setup by proposing a novel solution. In order to reduce the communication overhead, out of all neural layers we only exchange what we term "Controller" layers. Controllers are a small number of additional neural components connected to our pre-trained architectures. These new components are placed in between original layers. They act as liaisons to communicate with the central server and learn minimal information that is sufficient enough to update clients. We evaluated the performance of our models on five datasets from different domains to translate from German into English. We noted that the models equipped with Controllers preform on par with those trained in a central and non-FL setting. In addition, we observed a substantial reduction in the communication traffic of the FL pipeline, which is a direct consequence of using Controllers. Based on our experiments, Controller-based models are ~6 times less expensive than their other peers. This reduction is significantly important when we consider the number of parameters in large models and it becomes even more critical when such parameters need to be exchanged for multiple rounds in FL settings.
翻訳日:2021-12-14 16:22:54 公開日:2021-12-12
# 時間対応文書埋め込みによる話題検出と追跡

Topic Detection and Tracking with Time-Aware Document Embeddings ( http://arxiv.org/abs/2112.06166v1 )

ライセンス: Link先を確認
Hang Jiang, Doug Beeferman, Weiquan Mao, Deb Roy(参考訳) メッセージが通信される時間は、トピック検出やトラッキング(tdt)など、現実世界の多くの自然言語処理タスクにおいて重要なメタデータの一部です。 tdtシステムの目的は、ニュース記事のコーパスをイベントごとに集約することであり、そのコンテキストでは、同じイベントを記述したストーリーが、ほぼ同時に書かれた可能性が高い。 TDTの時間モデリングに関する以前の研究は、これを考慮に入れているが、イベントのセマンティックな性質と時間がどのように相互作用するかをうまく捉えていない。 例えば、熱帯の嵐に関する物語は短い期間で書かれる可能性があり、映画のリリースに関する物語は数週間から数ヶ月の間に現れる可能性がある。 本研究では,時間的およびテキスト的情報をニュース文書の単一の表現に融合してイベント検出を行うニューラル手法を設計した。 これらタイムアウェアなドキュメント埋め込みをトリプレット損失アーキテクチャで微調整し,モデルを下流のtdtシステムに統合し,2つのベンチマークtdtデータセットを英語で評価する。 振り返り設定では、クラスタリングアルゴリズムをタイムアウェアな埋め込みに適用し、News2013データセットのベースラインよりも大幅に改善したことを示す。 オンラインストリーミング設定では、既存の最先端のTDTパイプラインにドキュメントエンコーダを追加し、パフォーマンス全体のメリットを実証します。 我々は時間表現と融合アルゴリズムの戦略に関するアブレーション研究を行い、提案手法が代替戦略より優れていることを示す。 最後に,従来のTDTシステムよりも効率的に繰り返しイベントを処理する方法について検討する。

The time at which a message is communicated is a vital piece of metadata in many real-world natural language processing tasks such as Topic Detection and Tracking (TDT). TDT systems aim to cluster a corpus of news articles by event, and in that context, stories that describe the same event are likely to have been written at around the same time. Prior work on time modeling for TDT takes this into account, but does not well capture how time interacts with the semantic nature of the event. For example, stories about a tropical storm are likely to be written within a short time interval, while stories about a movie release may appear over weeks or months. In our work, we design a neural method that fuses temporal and textual information into a single representation of news documents for event detection. We fine-tune these time-aware document embeddings with a triplet loss architecture, integrate the model into downstream TDT systems, and evaluate the systems on two benchmark TDT data sets in English. In the retrospective setting, we apply clustering algorithms to the time-aware embeddings and show substantial improvements over baselines on the News2013 data set. In the online streaming setting, we add our document encoder to an existing state-of-the-art TDT pipeline and demonstrate that it can benefit the overall performance. We conduct ablation studies on the time representation and fusion algorithm strategies, showing that our proposed model outperforms alternative strategies. Finally, we probe the model to examine how it handles recurring events more effectively than previous TDT systems.
翻訳日:2021-12-14 16:22:34 公開日:2021-12-12
# 自然言語説明のドメイン間移動学習

Few-Shot Out-of-Domain Transfer Learning of Natural Language Explanations ( http://arxiv.org/abs/2112.06204v1 )

ライセンス: Link先を確認
Yordan Yordanov, Vid Kocijan, Thomas Lukasiewicz, Oana-Maria Camburu(参考訳) 近年,自然言語の説明(NLE)を生成するモデルへの関心が高まっている。 しかし、NLEを提供するためにモデルをトレーニングするには、時間とリソースを要するタスク固有のNLEを取得する必要がある。 潜在的な解決策は、多数のNLEを持つドメインから少数のNLEを持つドメインへのNLEのドメイン外転送であり、少数ショットの転送学習を通じて、潜在的に多数のラベルを持つドメインへのNLEの転送である。 本研究は,NLEが少数だが多量のラベルを持つ場合のNLEを数秒間移行学習するための3つのバニラアプローチと,既存のバニラファインチューニングアプローチの適応について紹介する。 我々は,人書きNLEの大規模なデータセット(e-SNLI)が存在する自然言語推論領域から,(1)代名詞解決の難しい場合のドメインへ,2)WinoGrandeデータセット(小-e-WinoGrande)上にNLEの小さなデータセットを導入し,(2)コモンセンス検証(ComVE)を行う。 以上の結果から,NLEの移行はシングルタスク方式よりも優れており,特定4つのトレーニング体制の中で最高の戦略を確立することができる。 また,トレーニングデータとモデルサイズの両方の観点から,最良の手法のスケーラビリティについても検討した。

Recently, there has been an increasing interest in models that generate natural language explanations (NLEs) for their decisions. However, training a model to provide NLEs requires the acquisition of task-specific NLEs, which is time- and resource-consuming. A potential solution is the out-of-domain transfer of NLEs from a domain with a large number of NLEs to a domain with scarce NLEs but potentially a large number of labels, via few-shot transfer learning. In this work, we introduce three vanilla approaches for few-shot transfer learning of NLEs for the case of few NLEs but abundant labels, along with an adaptation of an existing vanilla fine-tuning approach. We transfer explainability from the natural language inference domain, where a large dataset of human-written NLEs exists (e-SNLI), to the domains of (1) hard cases of pronoun resolution, where we introduce a small dataset of NLEs on top of the WinoGrande dataset (small-e-WinoGrande) , and (2) commonsense validation (ComVE). Our results demonstrate that the transfer of NLEs outperforms the single-task methods, and establish the best strategies out of the four identified training regimes. We also investigate the scalability of the best methods, both in terms of training data and model size.
翻訳日:2021-12-14 16:22:10 公開日:2021-12-12
# トピック条件付きデータ拡張と論理フォーム生成による論理レベル自然言語生成の改善

Improving Logical-Level Natural Language Generation with Topic-Conditioned Data Augmentation and Logical Form Generation ( http://arxiv.org/abs/2112.06240v1 )

ライセンス: Link先を確認
Ao Liu, Congjian Luo, Naoaki Okazaki(参考訳) 論理自然言語生成(英: Logical Natural Language Generation)、すなわち、構造化テーブルによって論理的に関連付けられるテキスト記述を生成することは、生成の忠実度が低いために課題となっている。 \citet{chen2020logic2text} は、中間論理プログラムをアノテートして生成内容とセマンティクスを制御することでこの問題に対処し、テーブル認識論理形式のタスクをテキスト(logic2text)生成に提示した。 しかし、実世界ではテーブルインスタンスは豊富であるが、テキスト記述と組み合わせた論理形式は、神経モデルの性能を制限するコストのかかる人間のアノテーション作業を必要とする。 そこで,本研究では,gpt-2を用いてテーブルから直接ペアリングされていない論理形式やテキスト記述を生成するトピックコンディションデータ拡張 (topicda) を提案する。 さらに、テーブルのテキスト記述に基づいて論理形式を生成する必要があるLogic2textの二重タスクである論理形式生成(LG)についても紹介する。 また,ラベル付きデータと拡張データの両方でLogic2textとLGモデルを併用した半教師付き学習手法を提案する。 2つのモデルは、バックトランスレーションを通じて追加の監督信号を提供することで相互に利益をもたらす。 Logic2text データセットと LG タスクの実験結果から,提案手法は拡張データを効果的に活用し,教師付きベースラインを実質的なマージンで上回ることを示す。

Logical Natural Language Generation, i.e., generating textual descriptions that can be logically entailed by a structured table, has been a challenge due to the low fidelity of the generation. \citet{chen2020logic2text} have addressed this problem by annotating interim logical programs to control the generation contents and semantics, and presented the task of table-aware logical form to text (Logic2text) generation. However, although table instances are abundant in the real world, logical forms paired with textual descriptions require costly human annotation work, which limits the performance of neural models. To mitigate this, we propose topic-conditioned data augmentation (TopicDA), which utilizes GPT-2 to generate unpaired logical forms and textual descriptions directly from tables. We further introduce logical form generation (LG), a dual task of Logic2text that requires generating a valid logical form based on a text description of a table. We also propose a semi-supervised learning approach to jointly train a Logic2text and an LG model with both labeled and augmented data. The two models benefit from each other by providing extra supervision signals through back-translation. Experimental results on the Logic2text dataset and the LG task demonstrate that our approach can effectively utilize the augmented data and outperform supervised baselines by a substantial margin.
翻訳日:2021-12-14 16:21:31 公開日:2021-12-12
# ジェネレーティブ・コモンセンス推論のための文脈化シーン想像

Contextualized Scene Imagination for Generative Commonsense Reasoning ( http://arxiv.org/abs/2112.06318v1 )

ライセンス: Link先を確認
PeiFeng Wang, Jonathan Zamora, Junfeng Liu, Filip Ilievski, Muhao Chen, Xiang Ren(参考訳) 人間は自然言語を使って環境からありふれた日常のシーン記述へと共通の概念を構成する。 しかし、このような生成コモンセンス推論(GCSR)の技術は、最先端のテキスト生成方法に欠けている。 ニューラルテキスト生成モデル(例えば、事前訓練されたテキスト・トゥ・テキスト・トランスフォーマー)によって生成された任意の概念に関する記述文は、しばしば文法的に流動的であるが、概念関係を捉え、暗黙的な概念を識別し、目に見えない概念構成について一般化可能な推論を行うためのメカニズムが欠如していることから、人間の常識と一致しない。 本稿では,入力概念間の関係を持つ関係場面知識グラフ (relational scene knowledge graph, skg) を想像することを学び,その制約としてskgを活用した,i&v法を提案する。 我々は、異なるドメインやモダリティから知識資源の集合を収集し、調和させ、I&Vのための豊富な補助的な信号を提供する。 実験は、コンセプト・ツー・センスとコンセプト・ツー・ストーリー生成タスクの両方において、言語モデルを改善するためのI&Vの有効性を実証するとともに、より少ないタスク例からモデルをうまく学習し、人間のアノテータに共通するSKGを生成する。

Humans use natural language to compose common concepts from their environment into plausible, day-to-day scene descriptions. However, such generative commonsense reasoning (GCSR) skills are lacking in state-of-the-art text generation methods. Descriptive sentences about arbitrary concepts generated by neural text generation models (e.g., pre-trained text-to-text Transformers) are often grammatically fluent but may not correspond to human common sense, largely due to their lack of mechanisms to capture concept relations, to identify implicit concepts, and to perform generalizable reasoning about unseen concept compositions. In this paper, we propose an Imagine-and-Verbaliz e (I&V) method, which learns to imagine a relational scene knowledge graph (SKG) with relations between the input concepts, and leverage the SKG as a constraint when generating a plausible scene description. We collect and harmonize a set of knowledge resources from different domains and modalities, providing a rich auxiliary supervision signal for I&V. The experiments demonstrate the effectiveness of I&V in improving language models on both concept-to-sentence and concept-to-story generation tasks, while enabling the model to learn well from fewer task examples and generate SKGs that make common sense to human annotators.
翻訳日:2021-12-14 16:21:06 公開日:2021-12-12
# 画像強化を用いた非IID環境におけるフェデレーション学習に基づく医用画像解析の性能向上

Improving Performance of Federated Learning based Medical Image Analysis in Non-IID Settings using Image Augmentation ( http://arxiv.org/abs/2112.06194v1 )

ライセンス: Link先を確認
Alper Emin Cetinkaya and Dr. Murat Akin and Prof. Dr. Seref Sagiroglu(参考訳) フェデレートラーニング(FL)は、厳格なプライバシー制約の下で働く義務のある患者、人々、企業、または業界に属する機密データを利用するのに適したソリューションである。 flはデータプライバシとセキュリティの問題を主にあるいは部分的にサポートし、複数のエッジデバイスや組織が、複数のローカルデータを使用するグローバルモデルのトレーニングに寄与することを促進させる、モデルの代替手段を提供する。 FLの分散特性による非IIDデータから,性能劣化と安定化スキューが顕著である。 本稿では,FLの非IIDデータ問題に対処するため,画像の増大によりクライアントのデータ分散を動的にバランスさせる手法を提案する。 紹介された方法は、モデルトレーニングを著しく安定化させ、高非IIDFL設定の胸部X線画像の検出において、83.22%から89.43%の精度でモデルのテスト精度を向上させる。 IID, 非IID, 非IID と提案した方法フェデレーショントレーニングの結果, 提案手法は, 医療だけでなく, データのプライバシだけでなく, データのプライバシについても, よりよいシステムを開発する組織や研究者を奨励する上で有効であることが示された。

Federated Learning (FL) is a suitable solution for making use of sensitive data belonging to patients, people, companies, or industries that are obligatory to work under rigid privacy constraints. FL mainly or partially supports data privacy and security issues and provides an alternative to model problems facilitating multiple edge devices or organizations to contribute a training of a global model using a number of local data without having them. Non-IID data of FL caused from its distributed nature presents a significant performance degradation and stabilization skews. This paper introduces a novel method dynamically balancing the data distributions of clients by augmenting images to address the non-IID data problem of FL. The introduced method remarkably stabilizes the model training and improves the model's test accuracy from 83.22% to 89.43% for multi-chest diseases detection of chest X-ray images in highly non-IID FL setting. The results of IID, non-IID and non-IID with proposed method federated trainings demonstrated that the proposed method might help to encourage organizations or researchers in developing better systems to get values from data with respect to data privacy not only for healthcare but also other fields.
翻訳日:2021-12-14 15:50:12 公開日:2021-12-12
# マルチグラニュラー質問応答のための条件付きグラフ階層としてのビデオ

Video as Conditional Graph Hierarchy for Multi-Granular Question Answering ( http://arxiv.org/abs/2112.06197v1 )

ライセンス: Link先を確認
Junbin Xiao, Angela Yao, Zhiyuan Liu, Yicong Li, Wei Ji, Tat-Seng Chua(参考訳) ビデオ質問応答には、複雑なビデオデータと言語データの両方を理解し、推論し、正しい答えを導き出すモデルが必要である。 既存の取り組みは、2つのモダリティから情報を取り除き、ビデオと質問をフレームとワードシーケンスとしてホリスティックにエンコードすることに焦点を当てている。 その成功にもかかわらず、これらの手法は基本的にビデオと質問内容の連続的な性質を中心に展開しており、質問応答の問題に対する洞察が乏しく、解釈可能性も欠如している。 本研究では,ビデオはフレームシーケンスで表現されるが,視覚的要素(オブジェクト,アクション,アクティビティ,イベント)は連続ではなく,むしろ意味空間における階層的である,と論じる。 言語問合せにおける言語概念の多面的本質に対応するために,異なる粒度の視覚的事実をレベル方向に織り込む条件付きグラフ階層として,対応するテクスト的手がかりのガイダンスを用いて映像をモデル化することを提案する。 単純さにもかかわらず、我々の広範な実験は、そのような条件付き階層グラフアーキテクチャの優位性を実証し、従来の手法よりも明確な性能向上と、異なるタイプの質問に対するより優れた一般化を実現した。 さらなる分析により、予測された答えに対して有意義な視覚的・テキスト的証拠を示すため、モデルの信頼性も強化される。

Video question answering requires models to understand and reason about both complex video and language data to correctly derive answers. Existing efforts focus on designing sophisticated cross-modal interactions to fuse the information from two modalities, while encoding the video and question holistically as frame and word sequences. Despite their success, these methods are essentially revolving around the sequential nature of video- and question-contents, providing little insight to the problem of question-answering and lacking interpretability as well. In this work, we argue that while video is presented in frame sequence, the visual elements (eg, objects, actions, activities and events) are not sequential but rather hierarchical in semantic space. To align with the multi-granular essence of linguistic concepts in language queries, we propose to model video as a conditional graph hierarchy which weaves together visual facts of different granularity in a level-wise manner, with the guidance of corresponding textual cues. Despite the simplicity, our extensive experiments demonstrate the superiority of such conditional hierarchical graph architecture, with clear performance improvements over prior methods and also better generalization across different type of questions. Further analyses also consolidate the model's reliability as it shows meaningful visual-textual evidences for the predicted answers.
翻訳日:2021-12-14 15:49:50 公開日:2021-12-12
# SparseFed:スパシフィケーションによるフェデレーション学習におけるモデル中毒の軽減

SparseFed: Mitigating Model Poisoning Attacks in Federated Learning with Sparsification ( http://arxiv.org/abs/2112.06274v1 )

ライセンス: Link先を確認
Ashwinee Panda, Saeed Mahloujifar, Arjun N. Bhagoji, Supriyo Chakraborty, Prateek Mittal(参考訳) フェデレーション学習は、その分散的な性質により、攻撃者が侵害されたデバイスに参加することができるため、モデル中毒攻撃に本質的に脆弱である。 モデル中毒攻撃では、攻撃者は"poisoned"アップデートをアップロードすることでターゲットのサブタスク(例えば、飛行機を鳥として分類するなど)の性能を低下させる。 本報告では,グローバルトップk更新スペーシフィケーションとデバイスレベル勾配クリッピングを用いて,モデル中毒攻撃を緩和する新しいディフェンスである \algoname{} を紹介する。 本稿では,攻撃に対する防御の堅牢性を分析するための理論的枠組みを提案し,アルゴリズムの堅牢性と収束性解析を提供する。 その経験的有効性を検証するために、コンピュータビジョンとフェデレーション学習のための複数のベンチマークデータセットをまたいだオープンソースの評価を行う。

Federated learning is inherently vulnerable to model poisoning attacks because its decentralized nature allows attackers to participate with compromised devices. In model poisoning attacks, the attacker reduces the model's performance on targeted sub-tasks (e.g. classifying planes as birds) by uploading "poisoned" updates. In this report we introduce \algoname{}, a novel defense that uses global top-k update sparsification and device-level gradient clipping to mitigate model poisoning attacks. We propose a theoretical framework for analyzing the robustness of defenses against poisoning attacks, and provide robustness and convergence analysis of our algorithm. To validate its empirical efficacy we conduct an open-source evaluation at scale across multiple benchmark datasets for computer vision and federated learning.
翻訳日:2021-12-14 15:47:43 公開日:2021-12-12
# ゲーミゼーション最適化:wasserstein距離に基づく人間の探索分析

Gamifying optimization: a Wasserstein distance-based analysis of human search ( http://arxiv.org/abs/2112.06292v1 )

ライセンス: Link先を確認
Antonio Candelieri, Andrea Ponti, Francesco Archetti(参考訳) 本研究の目的は,不確実性下での意思決定戦略,特にブラックボックス最適化タスクにおけるアクティブラーニング,情報収集(探索)と報酬探索(探索)のトレードオフを特徴付ける理論的枠組みを概説することである。 これら2つの目的に沿った人間の決定は、パレートの合理性の観点からモデル化することができる。 決定セットがパレート効率的な戦略を含んでいる場合、合理的な意思決定者は、支配的な戦略よりも支配的な戦略を選択するべきである。 パレート辺境からの距離は、選択がパレート有理であるかどうかを決定する。 人間の戦略に関するデータを収集するために、私たちはゲームフィールドを示すゲームアプリケーションを使用しました。 本稿では,人間の学習者の行動パターンを離散確率分布として表現する。 これは、人間の行動の特徴付けの問題を、ヒストグラム間の距離、すなわちwasserstein距離(wst)によって構成された確率分布である空間にマップする。 分布分析は、人間の探索戦略とパレート合理性からの逸脱に関する新たな洞察を与える。 この不確実性はパレートフロンティアを定義する2つの目標の1つであるため、パレートに準拠した行動パターンをよりよく説明するための3つの異なる不確実性定量化手法について分析が行われている。 個々のパターンの分析に加えて、wstはbarycentersとwst k-meansクラスタリングのグローバル分析を可能にした。 さらなる分析が決定木によって行われ、過剰な搾取によって特徴付けられる非パレシア的行動と報酬を求めるプロセスの進化のダイナミクスを関連付けている。

The main objective of this paper is to outline a theoretical framework to characterise humans' decision-making strategies under uncertainty, in particular active learning in a black-box optimization task and trading-off between information gathering (exploration) and reward seeking (exploitation). Humans' decisions making according to these two objectives can be modelled in terms of Pareto rationality. If a decision set contains a Pareto efficient strategy, a rational decision maker should always select the dominant strategy over its dominated alternatives. A distance from the Pareto frontier determines whether a choice is Pareto rational. To collect data about humans' strategies we have used a gaming application that shows the game field, with previous decisions and observations, as well as the score obtained. The key element in this paper is the representation of behavioural patterns of human learners as a discrete probability distribution. This maps the problem of the characterization of humans' behaviour into a space whose elements are probability distributions structured by a distance between histograms, namely the Wasserstein distance (WST). The distributional analysis gives new insights about human search strategies and their deviations from Pareto rationality. Since the uncertainty is one of the two objectives defining the Pareto frontier, the analysis has been performed for three different uncertainty quantification measures to identify which better explains the Pareto compliant behavioural patterns. Beside the analysis of individual patterns WST has also enabled a global analysis computing the barycenters and WST k-means clustering. A further analysis has been performed by a decision tree to relate non-Paretian behaviour, characterized by exasperated exploitation, to the dynamics of the evolution of the reward seeking process.
翻訳日:2021-12-14 15:47:26 公開日:2021-12-12
# 知識を予測として表す(そして知識としての状態)

Representing Knowledge as Predictions (and State as Knowledge) ( http://arxiv.org/abs/2112.06336v1 )

ライセンス: Link先を確認
Mark Ring(参考訳) 本稿では,エージェントの生のセンサモレータストリームから直接,単一のメカニズムで知識を階層的に構築する方法を示す。 このメカニズムは、一般価値関数(GVF)または「予測」と呼ばれ、エージェントの低レベルの感覚と行動のみに基づいて、既存の特徴と知識に関する予測セットとして、ハイレベルで抽象的な知識をキャプチャする。 したがって、予測は、aiと認知科学の長年の目標である、無限の層にまたがる有用な抽象化に生のセンサーモブターデータを整理するための表現を提供する。 本論文の核心は、人工エージェントが生の感覚運動者体験だけで真で有用な抽象的な知識をいかに構築できるかを、具体的かつ段階的に図示する詳細な思考実験である。 知識はエージェントの行動の観察結果に関する階層化された予測(予測)の集合として表現される。 この図は12つの異なる層を示している: 生のピクセル、タッチセンサー、フォースセンサーからなる最も低い層と、少数のアクション、より抽象的な層の増加、最終的にはエージェントの世界に関する豊富な知識、およそ戸口、壁、部屋、床の計画。 私は、この一般的なメカニズムは、日常的な人間の知識の幅広いスペクトルを表現することができると論じる。

This paper shows how a single mechanism allows knowledge to be constructed layer by layer directly from an agent's raw sensorimotor stream. This mechanism, the General Value Function (GVF) or "forecast," captures high-level, abstract knowledge as a set of predictions about existing features and knowledge, based exclusively on the agent's low-level senses and actions. Thus, forecasts provide a representation for organizing raw sensorimotor data into useful abstractions over an unlimited number of layers--a long-sought goal of AI and cognitive science. The heart of this paper is a detailed thought experiment providing a concrete, step-by-step formal illustration of how an artificial agent can build true, useful, abstract knowledge from its raw sensorimotor experience alone. The knowledge is represented as a set of layered predictions (forecasts) about the agent's observed consequences of its actions. This illustration shows twelve separate layers: the lowest consisting of raw pixels, touch and force sensors, and a small number of actions; the higher layers increasing in abstraction, eventually resulting in rich knowledge about the agent's world, corresponding roughly to doorways, walls, rooms, and floor plans. I then argue that this general mechanism may allow the representation of a broad spectrum of everyday human knowledge.
翻訳日:2021-12-14 15:28:58 公開日:2021-12-12
# 深層学習による社会イベント予測に関する研究

A Survey on Societal Event Forecasting with Deep Learning ( http://arxiv.org/abs/2112.06345v1 )

ライセンス: Link先を確認
Songgaojun Deng and Yue Ning(参考訳) 市民の不安や犯罪のような人口レベルの社会イベントは、日常生活に大きな影響を及ぼすことが多い。 このようなイベントの予測は、意思決定とリソース割り当てにとって非常に重要です。 イベント予測は伝統的に、真の原因に関する知識の欠如とイベント発生の根本的なメカニズムのために困難だった。 近年、イベント予測の研究は、(1)機械学習とディープラーニングアルゴリズムの開発、(2)ソーシャルメディア、ニュースソース、ブログ、経済指標、その他のメタデータソースなどの公開データのアクセシビリティーという2つの主な理由により、大きな進歩を遂げている。 データの爆発的な成長とソフトウェア/ハードウェア技術の顕著な進歩により、深層学習技術が社会イベント研究に応用されている。 本稿では,社会イベント予測のための深層学習技術の体系的,包括的概要を提供する。 社会イベントの2つの領域に焦点をあてる: \textit{civil unrest} と \textit{crime} である。 まず,イベント予測問題を機械学習予測タスクとして定式化する方法について紹介する。 次に,これらの問題に対するデータ資源,従来手法,最近のディープラーニングモデル開発を要約する。 最後に,社会イベント予測の課題について論じ,今後の研究に向けて有望な方向性を示す。

Population-level societal events, such as civil unrest and crime, often have a significant impact on our daily life. Forecasting such events is of great importance for decision-making and resource allocation. Event prediction has traditionally been challenging due to the lack of knowledge regarding the true causes and underlying mechanisms of event occurrence. In recent years, research on event forecasting has made significant progress due to two main reasons: (1) the development of machine learning and deep learning algorithms and (2) the accessibility of public data such as social media, news sources, blogs, economic indicators, and other meta-data sources. The explosive growth of data and the remarkable advancement in software/hardware technologies have led to applications of deep learning techniques in societal event studies. This paper is dedicated to providing a systematic and comprehensive overview of deep learning technologies for societal event predictions. We focus on two domains of societal events: \textit{civil unrest} and \textit{crime}. We first introduce how event forecasting problems are formulated as a machine learning prediction task. Then, we summarize data resources, traditional methods, and recent development of deep learning models for these problems. Finally, we discuss the challenges in societal event forecasting and put forward some promising directions for future research.
翻訳日:2021-12-14 15:28:35 公開日:2021-12-12
# Hessian-Schatten Total-Variation を用いた学習体系の複雑度測定

Measuring Complexity of Learning Schemes Using Hessian-Schatten Total-Variation ( http://arxiv.org/abs/2112.06209v1 )

ライセンス: Link先を確認
Shayan Aziznejad, Joaquim Campos, Michael Unser(参考訳) 本稿では,多変量関数の総「好奇性」を定量化する半ノルムであるHessian-Schatten total-variation (HTV)を紹介する。 HTVを定義する動機は、教師付き学習方式の複雑さを評価することである。 まず、混合ノルムの適切なクラスを備えた適切な行列値バナッハ空間を指定する。 次に、HTVは回転、スケーリング、翻訳に不変であることを示す。 さらに、その最小値は線形写像に対して達成され、線形回帰が最小の複雑な学習モデルであるという共通の直観を支持する。 次に、2つの関数の一般クラスのHTVを計算するための閉形式表現を示す。 まず、ある程度の正則性を持つソボレフ関数のクラスで、htvは時折画像再構成の正則化として用いられるヘッセン=シャッテン半ノルムと一致することを示す。 2つめは連続かつ断片線型(CPWL)関数のクラスである。 この場合、HTVは共通面を持つ直線領域間の傾斜の総変化を反映していることを示す。 したがって、CPWL写像の線型領域の数(l0型)の凸緩和(l1型)と見なすことができる。 最後に,提案する半ノルムの使用例を具体例で紹介する。

In this paper, we introduce the Hessian-Schatten total-variation (HTV) -- a novel seminorm that quantifies the total "rugosity" of multivariate functions. Our motivation for defining HTV is to assess the complexity of supervised learning schemes. We start by specifying the adequate matrix-valued Banach spaces that are equipped with suitable classes of mixed-norms. We then show that HTV is invariant to rotations, scalings, and translations. Additionally, its minimum value is achieved for linear mappings, supporting the common intuition that linear regression is the least complex learning model. Next, we present closed-form expressions for computing the HTV of two general classes of functions. The first one is the class of Sobolev functions with a certain degree of regularity, for which we show that HTV coincides with the Hessian-Schatten seminorm that is sometimes used as a regularizer for image reconstruction. The second one is the class of continuous and piecewise linear (CPWL) functions. In this case, we show that the HTV reflects the total change in slopes between linear regions that have a common facet. Hence, it can be viewed as a convex relaxation (l1-type) of the number of linear regions (l0-type) of CPWL mappings. Finally, we illustrate the use of our proposed seminorm with some concrete examples.
翻訳日:2021-12-14 15:28:17 公開日:2021-12-12
# 異なるアーキテクチャとデータセットにまたがる立体的普遍摂動

Stereoscopic Universal Perturbations across Different Architectures and Datasets ( http://arxiv.org/abs/2112.06116v1 )

ライセンス: Link先を確認
Zachary Berger and Parth Agrawal and Tian Yu Liu and Stefano Soatto and Alex Wong(参考訳) 本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。 本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙して認識されたシーン形状を著しく変化させる,単一の摂動セットを構築する方法を提案する。 我々の摂動画像は、最適化されたデータセット上のネットワークの推定を損なうだけでなく、異なるデータセットにまたがる異なるアーキテクチャを持つステレオネットワークに一般化するという点で「普遍的」である。 我々は、複数の公開ベンチマークデータセットに対するアプローチを評価し、我々の摂動が最先端ステレオネットワークのD1エラーを1%から87%に増加させることができることを示した。 推定シーン形状に対する摂動の影響について検討し,最も脆弱な物体群を同定する。 左画像と右画像の間の登録点のアクティベートに関する分析により、変形可能な畳み込みや明示的なマッチングといった特定のアーキテクチャ要素が、敵に対する堅牢性を高めることが判明した。 このようなコンポーネントでネットワークを設計することで、コストのかかるデータ拡張を伴うネットワークの堅牢性に対抗して、敵の効果を最大60.5%削減できることを示す。

We study the effect of adversarial perturbations of images on deep stereo matching networks for the disparity estimation task. We present a method to craft a single set of perturbations that, when added to any stereo image pair in a dataset, can fool a stereo network to significantly alter the perceived scene geometry. Our perturbation images are "universal" in that they not only corrupt estimates of the network on the dataset they are optimized for, but also generalize to stereo networks with different architectures across different datasets. We evaluate our approach on multiple public benchmark datasets and show that our perturbations can increase D1-error (akin to fooling rate) of state-of-the-art stereo networks from 1% to as much as 87%. We investigate the effect of perturbations on the estimated scene geometry and identify object classes that are most vulnerable. Our analysis on the activations of registered points between left and right images led us to find that certain architectural components, i.e. deformable convolution and explicit matching, can increase robustness against adversaries. We demonstrate that by simply designing networks with such components, one can reduce the effect of adversaries by up to 60.5%, which rivals the robustness of networks fine-tuned with costly adversarial data augmentation.
翻訳日:2021-12-14 15:15:35 公開日:2021-12-12
# 半教師付きドメイン適応構造学習

Semi-supervised Domain Adaptive Structure Learning ( http://arxiv.org/abs/2112.06161v1 )

ライセンス: Link先を確認
Can Qin, Lichen Wang, Qianqian Ma, Yu Yin, Huan Wang, Yun Fu(参考訳) 半教師付きドメイン適応(SSDA)は、両方を克服する手法を必要とする非常に難しい問題である。 1)貧弱な注釈データへの過剰適合、及び 2)ドメイン間の分散シフト。 残念ながら、ドメイン適応(DA)と半教師付き学習(SSL)の単純な組み合わせは、ラベル付きサンプルに対してデータバイアスをトレーニングするため、そのような2つのオブジェクトに対処できないことが多い。 本稿では,SSLとDAの協調を正規化するための適応型構造学習手法を提案する。 マルチビュー学習に触発され,提案フレームワークは共有特徴エンコーダネットワークと2つの分類器ネットワークで構成され,矛盾する目的のために訓練されている。 このうち,分類器の1つをグループターゲット機能に適用し,クラス内密度を改善し,ロバスト表現学習のためのカテゴリクラスタのギャップを拡大した。 一方、正規化器として機能する他の分類器は、決定境界の滑らかさを高めるためにソース機能を分散させようとする。 ターゲットクラスタリングとソース拡張の反復により、ターゲット特徴は対応するソースポイントの拡張境界内で十分に隠蔽される。 クロスドメイン機能アライメントと部分ラベル付きデータ学習の合同アドレスに対しては,最大平均誤差最小化(MMD)と自己学習(ST)を適用し,矛盾する構造を共有ビューに投影し,信頼性の高い最終決定を行う。 DomainNet や Office-home など,標準的な SSDA ベンチマークに対する実験結果は,最先端アプローチに対する我々の手法の正確性と堅牢性を示している。

Semi-supervised domain adaptation (SSDA) is quite a challenging problem requiring methods to overcome both 1) overfitting towards poorly annotated data and 2) distribution shift across domains. Unfortunately, a simple combination of domain adaptation (DA) and semi-supervised learning (SSL) methods often fail to address such two objects because of training data bias towards labeled samples. In this paper, we introduce an adaptive structure learning method to regularize the cooperation of SSL and DA. Inspired by the multi-views learning, our proposed framework is composed of a shared feature encoder network and two classifier networks, trained for contradictory purposes. Among them, one of the classifiers is applied to group target features to improve intra-class density, enlarging the gap of categorical clusters for robust representation learning. Meanwhile, the other classifier, serviced as a regularizer, attempts to scatter the source features to enhance the smoothness of the decision boundary. The iterations of target clustering and source expansion make the target features being well-enclosed inside the dilated boundary of the corresponding source points. For the joint address of cross-domain features alignment and partially labeled data learning, we apply the maximum mean discrepancy (MMD) distance minimization and self-training (ST) to project the contradictory structures into a shared view to make the reliable final decision. The experimental results over the standard SSDA benchmarks, including DomainNet and Office-home, demonstrate both the accuracy and robustness of our method over the state-of-the-art approaches.
翻訳日:2021-12-14 15:15:14 公開日:2021-12-12
# ValueNet: 人間の価値駆動対話システムのための新しいデータセット

ValueNet: A New Dataset for Human Value Driven Dialogue System ( http://arxiv.org/abs/2112.06346v1 )

ライセンス: Link先を確認
Liang Qiu, Yizhou Zhao, Jinchao Li, Pan Lu, Baolin Peng, Jianfeng Gao, Song-Chun Zhu(参考訳) 社会的にインテリジェントなエージェントを構築するには、多くの課題が伴う。 しかし、価値駆動のチャットボットは、まだ対話システムの分野では未熟である。 既存のデータセットのほとんどは、常識推論や社会規範モデリングに焦点を当てている。 本稿では,21,374のテキストシナリオに対する人間の態度を含む,valuenetと呼ばれる新しい大規模人的価値データセットを提案する。 データセットは、文化間研究における基本的人間価値理論に適合する10の次元に分けられる。 ユーティリティ分布を学習するために,ValueNet 上で Transformer ベースの値回帰モデルを開発した。 包括的実証実験の結果,学習価値モデルは幅広い対話タスクに有益であることがわかった。 例えば、強化学習による生成エージェントの指導と値モデルからの報酬により、パーソナライズされたダイアログ生成データセットであるペルソナチャット上での最先端のパフォーマンスを実現する。 付加的な機能として、既存の感情認識モデルでは、コンテキスト内の豊かな人間の感情を捉えることができ、empatheticdialoguesデータセットの共感応答生成性能がさらに向上する。 私たちの知る限りでは、ValueNetは人間の価値モデリングのための最初の大規模テキストデータセットであり、感情的にインテリジェントな対話システムにバリューモデルを組み込もうとする最初の試みです。 データセットはhttps://liang-qiu.gi thub.io/valuenet/で利用可能である。

Building a socially intelligent agent involves many challenges, one of which is to teach the agent to speak guided by its value like a human. However, value-driven chatbots are still understudied in the area of dialogue systems. Most existing datasets focus on commonsense reasoning or social norm modeling. In this work, we present a new large-scale human value dataset called ValueNet, which contains human attitudes on 21,374 text scenarios. The dataset is organized in ten dimensions that conform to the basic human value theory in intercultural research. We further develop a Transformer-based value regression model on ValueNet to learn the utility distribution. Comprehensive empirical results show that the learned value model could benefit a wide range of dialogue tasks. For example, by teaching a generative agent with reinforcement learning and the rewards from the value model, our method attains state-of-the-art performance on the personalized dialog generation dataset: Persona-Chat. With values as additional features, existing emotion recognition models enable capturing rich human emotions in the context, which further improves the empathetic response generation performance in the EmpatheticDialogues dataset. To the best of our knowledge, ValueNet is the first large-scale text dataset for human value modeling, and we are the first one trying to incorporate a value model into emotionally intelligent dialogue systems. The dataset is available at https://liang-qiu.gi thub.io/ValueNet/.
翻訳日:2021-12-14 15:14:28 公開日:2021-12-12
# 質問分解による自然言語のSQLへのマッピングについて

Weakly Supervised Mapping of Natural Language to SQL through Question Decomposition ( http://arxiv.org/abs/2112.06311v1 )

ライセンス: Link先を確認
Tomer Wolfson, Jonathan Berant and Daniel Deutch(参考訳) ユーザが自然言語(nl)でクエリをポーズするnlidb(natural language interface to database)は、非専門家がデータから洞察を得ることを可能にする上で極めて重要である。 対照的にこのようなインターフェースの開発は、NLをSQLにマッピングするためのヒューリスティックをコードする専門家に依存している。 あるいは、機械学習モデルに基づくNLIDBは、トレーニングデータとして使用されるNLからSQLマッピング(NL-SQLペア)の教師付き例に依存している。 このような例は専門家によって再度調達され、通常は1対1以上の相互作用が伴う。 すなわち、nlidbがデプロイされる各データドメインは、異なる特性を持つため、専用のヒューリスティックまたはドメイン固有のトレーニング例を必要とする。 そこで本研究では,機械学習に基づくNLIDBを訓練するための代替手法を提案する。 最近提案されたqdmrという質問分解表現は、nlと形式的問合せ言語の間に位置する。 近年の研究では、非専門家が一般的にNLをQDMRに変換することに成功した。 その結果、NL-QDMRペアと質問応答をSQLクエリの自動合成の監督として使用する。 次に、NL質問と合成SQLを使用して、NL-to-SQLモデルのトレーニングを行い、5つのベンチマークデータセットでテストする。 大規模な実験により、専門家のアノテーションが不要なソリューションは、専門家の注釈付きデータに基づいてトレーニングされたモデルと競合することがわかった。

Natural Language Interfaces to Databases (NLIDBs), where users pose queries in Natural Language (NL), are crucial for enabling non-experts to gain insights from data. Developing such interfaces, by contrast, is dependent on experts who often code heuristics for mapping NL to SQL. Alternatively, NLIDBs based on machine learning models rely on supervised examples of NL to SQL mappings (NL-SQL pairs) used as training data. Such examples are again procured using experts, which typically involves more than a one-off interaction. Namely, each data domain in which the NLIDB is deployed may have different characteristics and therefore require either dedicated heuristics or domain-specific training examples. To this end, we propose an alternative approach for training machine learning-based NLIDBs, using weak supervision. We use the recently proposed question decomposition representation called QDMR, an intermediate between NL and formal query languages. Recent work has shown that non-experts are generally successful in translating NL to QDMR. We consequently use NL-QDMR pairs, along with the question answers, as supervision for automatically synthesizing SQL queries. The NL questions and synthesized SQL are then used to train NL-to-SQL models, which we test on five benchmark datasets. Extensive experiments show that our solution, requiring zero expert annotations, performs competitively with models trained on expert annotated data.
翻訳日:2021-12-14 15:08:43 公開日:2021-12-12
# 時空間融合BNN:変ベイズ特徴層

Spatial-Temporal-Fus ion BNN: Variational Bayesian Feature Layer ( http://arxiv.org/abs/2112.06281v1 )

ライセンス: Link先を確認
Shiye Lei, Zhuozhuo Tu, Leszek Rutkowski, Feng Zhou, Li Shen, Fengxiang He and Dacheng Tao(参考訳) ベイズニューラルネットワーク(BNN)は、ディープラーニングにおける過信予測を緩和する主要なアプローチとなっているが、多くの分布パラメータのために、しばしばスケーリングの問題に悩まされる。 本稿では,深層ネットワークの第1層が,再トレーニングのみを行う場合に,複数の異なるオプティマを有することを明らかにする。 これは,BNNを大規模モデルに効率よく拡張するための空間時間融合BNN(STF-BNN)の設計をモチベーションとするベイズ層によって第1層が変更された場合,大きな後部変異が示され,(1)ニューラルネットワークをスクラッチから訓練して高速トレーニングを実現する,(2)確率的変動推論を用いて第1層がベイズ層に変換され,他の層が固定される,という結果である。 バニラBNNと比較して,本手法はトレーニング時間とパラメータ数を著しく削減し,BNNのスケールアップに有効である。 さらに,stf-bnnの過信を緩和する汎用性と能力に関する理論的保証を提供する。 総合的な実験により,STF-BNN(1)は,予測と不確実性定量化の最先端性能を実現し,(2)敵の堅牢性とプライバシ保護を大幅に改善し,(3)トレーニング時間とメモリコストを大幅に削減することを示した。

Bayesian neural networks (BNNs) have become a principal approach to alleviate overconfident predictions in deep learning, but they often suffer from scaling issues due to a large number of distribution parameters. In this paper, we discover that the first layer of a deep network possesses multiple disparate optima when solely retrained. This indicates a large posterior variance when the first layer is altered by a Bayesian layer, which motivates us to design a spatial-temporal-fus ion BNN (STF-BNN) for efficiently scaling BNNs to large models: (1) first normally train a neural network from scratch to realize fast training; and (2) the first layer is converted to Bayesian and inferred by employing stochastic variational inference, while other layers are fixed. Compared to vanilla BNNs, our approach can greatly reduce the training time and the number of parameters, which contributes to scale BNNs efficiently. We further provide theoretical guarantees on the generalizability and the capability of mitigating overconfidence of STF-BNN. Comprehensive experiments demonstrate that STF-BNN (1) achieves the state-of-the-art performance on prediction and uncertainty quantification; (2) significantly improves adversarial robustness and privacy preservation; and (3) considerably reduces training time and memory costs.
翻訳日:2021-12-14 14:39:40 公開日:2021-12-12