このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211008となっている論文です。

PDF登録状況(公開日: 20211008)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ランダムウェイト評価による多目的ニューラルアーキテクチャ探索の高速化 [全文訳有]

Accelerating Multi-Objective Neural Architecture Search by Random-Weight Evaluation ( http://arxiv.org/abs/2110.05242v1 )

ライセンス: CC BY 4.0
Shengran Hu, Ran Cheng, Cheng He, Zhichao Lu, Jing Wang, Miao Zhang(参考訳) 高性能深層畳み込みニューラルネットワーク(cnns)の自動設計の目標として,ニューラルネットワーク探索(nas)手法が学界と産業の両方でますます重要になっている。cnnsのsgd訓練による性能評価により,既存のnas手法のほとんどは実世界の展開に計算コストがかかる。 この問題に対処するために、我々はまずRWE(Random-Weight Evaluation)と呼ばれる新しい性能評価指標を導入し、CNNの品質をコスト効率よく定量化する。 CNN全体を完全トレーニングする代わりに、RWEは最後の層のみをトレーニングし、残りの層をランダムに初期化した重みで残し、結果として1つのネットワーク評価を数秒で行う。 提案手法は,2つの実世界の検索空間において,最先端性能を持つ効率的なモデルセットを得る。 CIFAR-10データセットで得られた結果はImageNetデータセットに転送され、提案アルゴリズムの実用性を検証する。 さらに,nas-bench-301データセットのアブレーション研究により,提案法の有効性が従来の手法と比較して明らかにされた。

For the goal of automated design of high-performance deep convolutional neural networks (CNNs), Neural Architecture Search (NAS) methodology is becoming increasingly important for both academia and industries.Due to the costly stochastic gradient descent (SGD) training of CNNs for performance evaluation, most existing NAS methods are computationally expensive for real-world deployments. To address this issue, we first introduce a new performance estimation metric, named Random-Weight Evaluation (RWE) to quantify the quality of CNNs in a cost-efficient manner. Instead of fully training the entire CNN, the RWE only trains its last layer and leaves the remainders with randomly initialized weights, which results in a single network evaluation in seconds.Second, a complexity metric is adopted for multi-objective NAS to balance the model size and performance. Overall, our proposed method obtains a set of efficient models with state-of-the-art performance in two real-world search spaces. Then the results obtained on the CIFAR-10 dataset are transferred to the ImageNet dataset to validate the practicality of the proposed algorithm. Moreover, ablation studies on NAS-Bench-301 datasets reveal the effectiveness of the proposed RWE in estimating the performance compared with existing methods.
翻訳日:2021-10-17 12:01:56 公開日:2021-10-08
# (参考訳) 敵の攻撃と防御のためのゲーム理論 [全文訳有]

Game Theory for Adversarial Attacks and Defenses ( http://arxiv.org/abs/2110.06166v1 )

ライセンス: CC BY 4.0
Shorya Sharma(参考訳) 逆攻撃は、データセットのサンプルに小さなが故意に最悪の摂動を適用することによって、逆の入力を発生させ、その結果、不正確な答えを高い信頼性で出力する最先端のディープニューラルネットワークさえも生み出す。 したがって、モデルのセキュリティと堅牢性を改善し、攻撃を避けるために、いくつかの敵対的防御技術が開発されている。 段階的に、攻撃者と守備者の間のゲームライクな競争が結成され、双方のプレイヤーはそれぞれの支払いを最大化しながら、お互いに最善を尽くそうとした。 ゲームを解決するため、各プレイヤーは、相手の戦略選択の予測に基づいて、相手に対して最適な戦略を選択する。 本研究では,攻撃に対する防御にゲーム理論的アプローチを適用するための防御的立場にある。 ランダム初期化と確率的アクティベーションプルーニングという2つのランダム化手法を用いて、ネットワークの多様性を創出する。 さらに,攻撃前の画像の事前処理によってモデルのロバスト性を改善するために,デノナイズ技術であるスーパーレゾリューションを用いる。 実験の結果,これら3つの手法は,ニューラルネットワークのロバスト性が効果的に向上することが示唆された。

Adversarial attacks can generate adversarial inputs by applying small but intentionally worst-case perturbations to samples from the dataset, which leads to even state-of-the-art deep neural networks outputting incorrect answers with high confidence. Hence, some adversarial defense techniques are developed to improve the security and robustness of the models and avoid them being attacked. Gradually, a game-like competition between attackers and defenders formed, in which both players would attempt to play their best strategies against each other while maximizing their own payoffs. To solve the game, each player would choose an optimal strategy against the opponent based on the prediction of the opponent's strategy choice. In this work, we are on the defensive side to apply game-theoretic approaches on defending against attacks. We use two randomization methods, random initialization and stochastic activation pruning, to create diversity of networks. Furthermore, we use one denoising technique, super resolution, to improve models' robustness by preprocessing images before attacks. Our experimental results indicate that those three methods can effectively improve the robustness of deep-learning neural networks.
翻訳日:2021-10-17 11:48:19 公開日:2021-10-08
# (参考訳) スマートクローリング:Twitterからのフォーカスクローリングへの新たなアプローチ [全文訳有]

Smart Crawling: A New Approach toward Focus Crawling from Twitter ( http://arxiv.org/abs/2110.06022v1 )

ライセンス: CC BY 4.0
Ahmad Khazaie, Nac\'era Bennacer Seghouani, Francesca Bugiotti(参考訳) Twitterは、検索と分析が難しいリッチで興味深い情報ソースを提供するソーシャルネットワークだ。 TwitterデータはREST APIを使ってアクセスすることができる。 利用可能な操作は、一組のキーワードに基づいてツイートを検索できるが、1分間の呼び出し数や結果のサイズといった制限がある。 さらに、検索された結果に対するコントロールや、特定のトピックに関連するつぶやきを見つけることも大きな問題です。 これらの制限を考慮すると、クエリキーワードが、関連する回答に到達し、API呼び出しの数を減らすために、明らかに関心のあるトピックをカバーすることが重要である。 本稿では,対象トピックに関連するツイートの集合を検索する,SmartTwitter Crawling (STiC)と呼ばれる新しいクローリングアルゴリズムを提案する。 このアルゴリズムでは、初期キーワードクエリを取り込み、異なるデータソースから得られる追加キーワードのセットを使って強化する。 sticアルゴリズムは、twittergraphのdfs検索に依存しており、クロールプロセス全体を通して更新されたスコア付けを使用してクエリキーワードと関連する場合、それぞれの到達したツイートが考慮される。 このスコアは、ツイートのテキスト、ハッシュタグ、ツイートを投稿したユーザー、ツイートへの返信、ツイートで言及されたり、ツイートをリツイートしたユーザーを考慮に入れている。 このスコアから、STiCは各イテレーションで関連するツイートを選択し、関連する価値あるツイートを追加することで継続することができる。 様々な種類のクエリに対していくつかの実験が行われ、単純なBFS検索と比較して精度が向上することを示した。

Twitter is a social network that offers a rich and interesting source of information challenging to retrieve and analyze. Twitter data can be accessed using a REST API. The available operations allow retrieving tweets on the basis of a set of keywords but with limitations such as the number of calls per minute and the size of results. Besides, there is no control on retrieved results and finding tweets which are relevant to a specific topic is a big issue. Given these limitations, it is important that the query keywords cover unambiguously the topic of interest in order to both reach the relevant answers and decrease the number of API calls. In this paper, we introduce a new crawling algorithm called "SmartTwitter Crawling" (STiC) that retrieves a set of tweets related to a target topic. In this algorithm, we take an initial keyword query and enrich it using a set of additional keywords that come from different data sources. STiC algorithm relies on a DFS search in Twittergraph where each reached tweet is considered if it is relevant with the query keywords using a scoring, updated throughout the whole crawling process. This scoring takes into account the tweet text, hashtags and the users who have posted the tweet, replied to the tweet, been mentioned in the tweet or retweeted the tweet. Given this score, STiC is able to select relevant tweets in each iteration and continue by adding the related valuable tweets. Several experiments have been achieved for different kinds of queries, the results showedthat the precision increases compared to a simple BFS search.
翻訳日:2021-10-17 11:40:09 公開日:2021-10-08
# (参考訳) Transformer-CVAEに基づくグラフィックデザインのレイアウト生成アルゴリズム [全文訳有]

The Layout Generation Algorithm of Graphic Design Based on Transformer-CVAE ( http://arxiv.org/abs/2110.06794v1 )

ライセンス: CC BY 4.0
Mengxi Guo and Dangqing Huang and Xiaodong Xie(参考訳) グラフィックデザインは人々の日常生活に広く浸透している。 グラフィックデザインでは、最も時間を要するタスクはインターフェイスに様々なコンポーネントを配置することである。 反復的な手動レイアウト設計は、プロのグラフィックデザイナーにとって多くの時間を浪費するだろう。 既存のテンプレートは通常、基本的なものであり、ほとんどの設計には適していない。 本稿では,トランスフォーマーモデルと条件変分オートエンコーダ(CVAE)をグラフィックデザインレイアウト生成タスクに実装した。 これはLayoutT-CVAEと呼ばれるエンドツーエンドのグラフィックデザインレイアウト生成モデルを提案した。 また,要素の絡み合いと特徴に基づく絡み合い方略を提案し,新しいグラフィックデザインの原理と類似性指標をモデルに導入することで,深層モデルの制御性と解釈性を大幅に向上させた。 既存の最先端モデルと比較して、私たちの生成したレイアウトは多くのメトリクスでより良く機能します。

Graphic design is ubiquitous in people's daily lives. For graphic design, the most time-consuming task is laying out various components in the interface. Repetitive manual layout design will waste a lot of time for professional graphic designers. Existing templates are usually rudimentary and not suitable for most designs, reducing efficiency and limiting creativity. This paper implemented the Transformer model and conditional variational autoencoder (CVAE) to the graphic design layout generation task. It proposed an end-to-end graphic design layout generation model named LayoutT-CVAE. We also proposed element disentanglement and feature-based disentanglement strategies and introduce new graphic design principles and similarity metrics into the model, which significantly increased the controllability and interpretability of the deep model. Compared with the existing state-of-art models, the layout generated by ours performs better on many metrics.
翻訳日:2021-10-17 11:28:22 公開日:2021-10-08
# (参考訳) 画像特徴と患者メタデータを組み合わせるトランスファー学習の促進 [全文訳有]

Combining Image Features and Patient Metadata to Enhance Transfer Learning ( http://arxiv.org/abs/2110.05239v1 )

ライセンス: CC BY 4.0
Spencer A. Thomas(参考訳) 本研究では,画像特徴のみを用いる場合の分類作業における6つの最先端ディープニューラルネットワークの性能と,それらが患者のメタデータと組み合わせられる場合の比較を行う。 我々は、ImageNetで事前訓練されたネットワークからの転送学習を利用して、分類前のISIC HAM10000データセットから画像特徴を抽出する。 複数の分類性能指標を用いて,画像特徴量を含むメタデータの効果を評価する。 さらに,データ拡張による実験を繰り返す。 以上の結果から,vgg16アーキテクチャの劣化にのみ言及し,各ネットワークの性能の全体的な向上を示す。 以上の結果から,この性能向上はディープネットワークの汎用性であり,他の分野においても検討すべきである。 さらに、これらの改善は計算時間に必然的に追加コストがかかるため、他のアプリケーションでは実用的な方法である。

In this work, we compare the performance of six state-of-the-art deep neural networks in classification tasks when using only image features, to when these are combined with patient metadata. We utilise transfer learning from networks pretrained on ImageNet to extract image features from the ISIC HAM10000 dataset prior to classification. Using several classification performance metrics, we evaluate the effects of including metadata with the image features. Furthermore, we repeat our experiments with data augmentation. Our results show an overall enhancement in performance of each network as assessed by all metrics, only noting degradation in a vgg16 architecture. Our results indicate that this performance enhancement may be a general property of deep networks and should be explored in other areas. Moreover, these improvements come at a negligible additional cost in computation time, and therefore are a practical method for other applications.
翻訳日:2021-10-17 11:17:07 公開日:2021-10-08
# (参考訳) チャネルワイドしきい値学習による動的バイナリニューラルネットワーク [全文訳有]

Dynamic Binary Neural Network by learning channel-wise thresholds ( http://arxiv.org/abs/2110.05185v1 )

ライセンス: CC BY 4.0
Jiehua Zhang, Zhuo Su, Yanghe Feng, Xin Lu, Matti Pietik\"ainen, Li Liu(参考訳) バイナリニューラルネットワーク(BNN)は、ストレージと計算コストの制限による重み付けとアクティベーションを+1または-1に制限する。 近年、BNNは目覚ましい進歩を遂げ、様々な分野に採用されている。 しかし,BNNの性能は活性化分布に敏感である。 既存のBNNは、アクティベーションをバイナライズするために、事前定義されたまたは学習された静的しきい値を持つSign関数を利用した。 このプロセスは、異なるサンプルが不等しきい値に適応できるため、BNNの表現能力を制限する。 この問題に対処するために,手話関数の動的学習可能なチャンネルワイドしきい値とPRELUのシフトパラメータを組み込んだ動的BNN(DyBNN)を提案する。 この方法はグローバル情報をハイパー関数に集約し、特徴表現能力を効果的に向上させる。 実験結果から,本手法は情報損失の低減とBNNの性能向上に有効な方法であることが示された。 ReActNetの2つのバックボーン(MobileNetV1とResNet18)に基づくDyBNNは、ImageNetデータセット上で71.2%と67.4%のトップ1-正確性を達成し、ベースラインを大きなマージン(それぞれ1.8%と1.5%)で上回っている。

Binary neural networks (BNNs) constrain weights and activations to +1 or -1 with limited storage and computational cost, which is hardware-friendly for portable devices. Recently, BNNs have achieved remarkable progress and been adopted into various fields. However, the performance of BNNs is sensitive to activation distribution. The existing BNNs utilized the Sign function with predefined or learned static thresholds to binarize activations. This process limits representation capacity of BNNs since different samples may adapt to unequal thresholds. To address this problem, we propose a dynamic BNN (DyBNN) incorporating dynamic learnable channel-wise thresholds of Sign function and shift parameters of PReLU. The method aggregates the global information into the hyper function and effectively increases the feature expression ability. The experimental results prove that our method is an effective and straightforward way to reduce information loss and enhance performance of BNNs. The DyBNN based on two backbones of ReActNet (MobileNetV1 and ResNet18) achieve 71.2% and 67.4% top1-accuracy on ImageNet dataset, outperforming baselines by a large margin (i.e., 1.8% and 1.5% respectively).
翻訳日:2021-10-17 11:07:48 公開日:2021-10-08
# (参考訳) 野球場における最適ピッチング戦略の計算 [全文訳有]

Computing an Optimal Pitching Strategy in a Baseball At-Bat ( http://arxiv.org/abs/2110.04321v1 )

ライセンス: CC BY 4.0
Connor Douglas, Everett Witt, Mia Bendy, and Yevgeniy Vorobeychik(参考訳) 定量的分析の分野は過去10年間、スポーツの世界を変えてきた。 現在までに、これらの分析アプローチは、その中核において統計的であり、何であり、何であったのかを特徴付ける一方で、この情報を使用して将来何をすべきか決定する。 しかし、サッカー、ホッケー、野球などのチームスポーツをペアワイズ・ウィンロスの出会いと見なすことが多いので、ゼロサムゲームとしてモデル化するのは当然のことだ。 本稿では,投手と打者のマッチアップである野球の打席(at-bat)という,重要なスポーツ対決のモデルを提案する。 具体的には,打者のゴールがベースとなるゼロサム確率ゲームとして,ピッチャーが阻止することを目的とした,この出会いの新たなモデルを提案する。 このゲームの価値はオンベースパーセンテージ(すなわち、バッターがベースとなる確率)である。 原則として、この確率ゲームは古典的なアプローチで解くことができる。 主な技術的課題は、ピッチャー意図の関数としてピッチ位置の分布を予測し、打者がピッチでスイングすることを決めた場合の結果の分布を予測し、特定の打者の忍耐レベルを特徴づけることである。 我々は、新たなピッチャーとバッター表現の提案と、結果予測のための新しいディープニューラルネットワークアーキテクチャによって、これらの課題に対処する。 2015年から2018年のメジャーリーグ野球シーズンのカグルデータを用いた実験は,提案手法の有効性を実証した。

The field of quantitative analytics has transformed the world of sports over the last decade. To date, these analytic approaches are statistical at their core, characterizing what is and what was, while using this information to drive decisions about what to do in the future. However, as we often view team sports, such as soccer, hockey, and baseball, as pairwise win-lose encounters, it seems natural to model these as zero-sum games. We propose such a model for one important class of sports encounters: a baseball at-bat, which is a matchup between a pitcher and a batter. Specifically, we propose a novel model of this encounter as a zero-sum stochastic game, in which the goal of the batter is to get on base, an outcome the pitcher aims to prevent. The value of this game is the on-base percentage (i.e., the probability that the batter gets on base). In principle, this stochastic game can be solved using classical approaches. The main technical challenges lie in predicting the distribution of pitch locations as a function of pitcher intention, predicting the distribution of outcomes if the batter decides to swing at a pitch, and characterizing the level of patience of a particular batter. We address these challenges by proposing novel pitcher and batter representations as well as a novel deep neural network architecture for outcome prediction. Our experiments using Kaggle data from the 2015 to 2018 Major League Baseball seasons demonstrate the efficacy of the proposed approach.
翻訳日:2021-10-17 10:59:26 公開日:2021-10-08
# (参考訳) 非既約マルコフ鎖からの学習 [全文訳有]

Learning from non-irreducible Markov chains ( http://arxiv.org/abs/2110.04338v1 )

ライセンス: CC0 1.0
Nikola Sandri\'c and Stjepan \v{S}ebek(参考訳) 教師付き学習問題に関する既存の文献の多くは、トレーニングデータセットがi.d.サンプルから引き出された場合に焦点を当てている。 しかし、多くの実践的な教師付き学習問題は、時間的依存とデータ生成プロセスの限界間の強い相関が特徴であり、すなわち、仮定が必ずしも正当化されるとは限らないことを示唆している。 この問題は、既にドエブリン条件を満たすマルコフ連鎖の文脈で検討されている。 この条件は、特に、鎖がその振舞いにおいて特異なものではなく、すなわち既約であることを意味する。 本稿では、必ずしも既約ではないマルコフ連鎖からトレーニングデータセットが引き出された場合に焦点を当てる。 連鎖が$\mathrm{L}^1$-Wasserstein 距離に対して一様エルゴード的であり、仮説クラスと連鎖の状態空間上の一定の正則性仮定を仮定すると、まず対応するサンプル誤差に対する一様収束結果を求め、次に近似サンプル誤差最小化アルゴリズムの学習可能性を求め、その一般化境界を求める。 最後に、サンプル誤差に対する相対的な一様収束結果についても論じる。

Most of the existing literature on supervised learning problems focuses on the case when the training data set is drawn from an i.i.d. sample. However, many practical supervised learning problems are characterized by temporal dependence and strong correlation between the marginals of the data-generating process, suggesting that the i.i.d. assumption is not always justified. This problem has been already considered in the context of Markov chains satisfying the Doeblin condition. This condition, among other things, implies that the chain is not singular in its behavior, i.e. it is irreducible. In this article, we focus on the case when the training data set is drawn from a not necessarily irreducible Markov chain. Under the assumption that the chain is uniformly ergodic with respect to the $\mathrm{L}^1$-Wasserstein distance, and certain regularity assumptions on the hypothesis class and the state space of the chain, we first obtain a uniform convergence result for the corresponding sample error, and then we conclude learnability of the approximate sample error minimization algorithm and find its generalization bounds. At the end, a relative uniform convergence result for the sample error is also discussed.
翻訳日:2021-10-17 10:42:04 公開日:2021-10-08
# (参考訳) 開発者ディスカッションに基づくバグレポートのソリューション記述の学習 [全文訳有]

Learning to Describe Solutions for Bug Reports Based on Developer Discussions ( http://arxiv.org/abs/2110.04353v1 )

ライセンス: CC BY 4.0
Sheena Panthaplackel, Junyi Jessy Li, Milos Gligoric, Raymond J. Mooney(参考訳) ソフトウェアバグが報告されると、開発者はそれを共同で解決するための議論を行う。 ソリューションは議論の中で定式化されている可能性が高いが、しばしば大量のテキストに埋もれ、理解するのが難しく、実装が遅れる。 バグ解決の迅速化のため,我々は,自然言語とソースコードを包含する議論内の関連コンテンツの合成により,ソリューションの簡潔な自然言語記述を作成することを提案する。 さらに,進行中の議論中に情報的記述を生成することを支援するため,ソリューションに関する十分なコンテキストがリアルタイムに現れるかを決定するための二次的なタスクを提案する。 我々は,バグレポートに関連付けられたリポジトリの変更からノイズを抑える新しい手法を用いて,これらのタスクのためのデータセットを構築した。 ソリューション記述を生成するためのベースラインを確立し、生成に必要なコンテキストが利用可能かどうかを新たな発話に従って予測する分類器を開発する。 自動的および人的評価によって、これらのタスクは、長いバイモーダルな対話コンテキストにおいて複雑な推論のための理想的なテストベッドを形成する。

When a software bug is reported, developers engage in a discussion to collaboratively resolve it. While the solution is likely formulated within the discussion, it is often buried in a large amount of text, making it difficult to comprehend, which delays its implementation. To expedite bug resolution, we propose generating a concise natural language description of the solution by synthesizing relevant content within the discussion, which encompasses both natural language and source code. Furthermore, to support generating an informative description during an ongoing discussion, we propose a secondary task of determining when sufficient context about the solution emerges in real-time. We construct a dataset for these tasks with a novel technique for obtaining noisy supervision from repository changes linked to bug reports. We establish baselines for generating solution descriptions, and develop a classifier which makes a prediction following each new utterance on whether or not the necessary context for performing generation is available. Through automated and human evaluation, we find these tasks to form an ideal testbed for complex reasoning in long, bimodal dialogue context.
翻訳日:2021-10-17 09:21:28 公開日:2021-10-08
# (参考訳) 決定木におけるプログラム可能なデータバイアスに対するロバスト性認定 [全文訳有]

Certifying Robustness to Programmable Data Bias in Decision Trees ( http://arxiv.org/abs/2110.04363v1 )

ライセンス: CC BY 4.0
Anna P. Meyer and Aws Albarghouthi and Loris D'Antoni(参考訳) データセットは、社会的不平等、人間の偏見、マイノリティの過小評価などによってバイアスを受けることができる。 私たちの目標は、学習アルゴリズムが生成するモデルが潜在的なデータセットバイアスに対してポイントワイズロバストであることを確認することです。 これは難しい問題であり、大きな、あるいは無限のデータセットの学習モデルが必要であり、それらがすべて同じ予測を生成することを保証する。 モデルの性質の解釈により,決定木学習に焦点をあてる。 このアプローチでは、さまざまな次元(マイノリティの欠落データなど)にわたるバイアスモデルをプログラム的に特定し、バイアスのタイプを作成し、特定のグループに対するバイアスを目標にすることができる。 頑健性を証明するために、我々は新しい象徴的手法を用いて、大きな、あるいは無限のデータセット上で決定木学習者を評価し、各データセットが特定のテストポイントに対して同じ予測を生成することを証明した。 我々は,公平性文献で一般的に使用されるデータセットに対するアプローチを評価し,バイアスモデル上でのアプローチの有効性を実証する。

Datasets can be biased due to societal inequities, human biases, under-representation of minorities, etc. Our goal is to certify that models produced by a learning algorithm are pointwise-robust to potential dataset biases. This is a challenging problem: it entails learning models for a large, or even infinite, number of datasets, ensuring that they all produce the same prediction. We focus on decision-tree learning due to the interpretable nature of the models. Our approach allows programmatically specifying bias models across a variety of dimensions (e.g., missing data for minorities), composing types of bias, and targeting bias towards a specific group. To certify robustness, we use a novel symbolic technique to evaluate a decision-tree learner on a large, or infinite, number of datasets, certifying that each and every dataset produces the same prediction for a specific test point. We evaluate our approach on datasets that are commonly used in the fairness literature, and demonstrate our approach's viability on a range of bias models.
翻訳日:2021-10-17 09:00:46 公開日:2021-10-08
# (参考訳) サンプル選択バイアス下での公平回帰 [全文訳有]

Fair Regression under Sample Selection Bias ( http://arxiv.org/abs/2110.04372v1 )

ライセンス: CC BY 4.0
Wei Du, Xintao Wu, Hanghang Tong(参考訳) 近年のフェアレグレッション研究は, 対象変数としての新たなフェアネスの概念や近似法の開発に焦点をあてており, 感度特性さえも回帰環境で連続している。 しかしながら、以前のすべての公正回帰研究は、トレーニングデータとテストデータが同じ分布から引き出されると仮定した。 この仮定は、トレーニングとテストデータの間のサンプル選択バイアスのために、現実世界でしばしば違反する。 本稿では,別の隠れたプロセスの結果,トレーニングデータからのサンプル集合の依存変数値が失われている場合に,サンプル選択バイアスの下で公平な回帰を行うためのフレームワークを開発した。 我々のフレームワークは、偏見補正のための古典的ヘックマンモデルとラグランジュ双対性を採用し、様々な公正性の概念に基づいて回帰の公平性を達成する。 ヘックマンモデルはサンプル選択過程を記述し、サンプル選択バイアスを補正するために逆ミル比(Inverse Mills Ratio, IMR)と呼ばれる派生変数を使用する。 我々は、フェアネスの不等式と等式制約を用いて、様々なフェアネス概念を記述し、ラグランジュ双対性理論を適用して原始問題を双対凸最適化に変換する。 平均偏差と平均二乗誤差差という2つの一般的なフェアネス概念に対して、反復最適化なしで明示的な公式を導出し、ピアソン相関の場合、強い双対性を達成する条件を導出する。 3つの実世界のデータセットについて実験を行い,実効性指標と公平性指標の両方から,その効果を実証した。

Recent research on fair regression focused on developing new fairness notions and approximation methods as target variables and even the sensitive attribute are continuous in the regression setting. However, all previous fair regression research assumed the training data and testing data are drawn from the same distributions. This assumption is often violated in real world due to the sample selection bias between the training and testing data. In this paper, we develop a framework for fair regression under sample selection bias when dependent variable values of a set of samples from the training data are missing as a result of another hidden process. Our framework adopts the classic Heckman model for bias correction and the Lagrange duality to achieve fairness in regression based on a variety of fairness notions. Heckman model describes the sample selection process and uses a derived variable called the Inverse Mills Ratio (IMR) to correct sample selection bias. We use fairness inequality and equality constraints to describe a variety of fairness notions and apply the Lagrange duality theory to transform the primal problem into the dual convex optimization. For the two popular fairness notions, mean difference and mean squared error difference, we derive explicit formulas without iterative optimization, and for Pearson correlation, we derive its conditions of achieving strong duality. We conduct experiments on three real-world datasets and the experimental results demonstrate the approach's effectiveness in terms of both utility and fairness metrics.
翻訳日:2021-10-17 08:29:13 公開日:2021-10-08
# (参考訳) パーキンソン病患者の非定常運動の連続的モニタリングのための活動認識フレームワーク [全文訳有]

An Activity Recognition Framework for Continuous Monitoring of Non-Steady-State Locomotion of Individuals with Parkinson's Disease ( http://arxiv.org/abs/2110.06137v1 )

ライセンス: CC BY 4.0
Mahdieh Kazemimoghadam and Nicholas P. Fey(参考訳) パーキンソン病(PD)のような運動障害のある人の活動認識に関する基本的な知識は、定常的・静的なタスク(座り、立ち、歩く)の検出に限られている。 これまで、不均一な地形(階段、傾斜路)における非定常状態の移動の同定は、あまり注目されていない。 さらに,従来の研究は,利用者の利便性やシステム性能に悪影響を及ぼす可能性のある多数の身体位置のデータに大きく依存していた。 ここでは, 軽度pdおよび健常者を対象に, 階段, 傾斜, 方向変化を含む非定常サーキット試験を行った。 タスク認識のために,線形判別分析(LDA)分類器とLong-Short Term Memory(LSTM)ニューラルネットワークを用いたオフライン解析を行った。 各種低身長セグメントの加速度情報およびジャイロ情報の性能を,ユーザ非依存およびユーザ依存のトレーニングパラダイムで検証した。 信号のF1スコアを分類器間で比較すると,LSTMではLDAに比べて性能が向上した。 LSTMを用いて、主観非依存トレーニングにおける情報のサブセット(例えば足のデータ)でさえ、F1スコア > 0.8 を提供するように見えた。 しかし, LDAの使用は, 複数の身体部位から, 被検者に依存したトレーニングやバイオメカニカルデータの使用に限られていることが明らかとなった。 この発見は、軽度パーキンソン病患者の非定常状態および非構造的ロコモーションを処理可能な分類スキームに関する洞察を提供することで、医療監視および高度な低リンブ補助装置の開発の分野で多くの応用に役立つ可能性がある。

Fundamental knowledge in activity recognition of individuals with motor disorders such as Parkinson's disease (PD) has been primarily limited to detection of steady-state/static tasks (sitting, standing, walking). To date, identification of non-steady-state locomotion on uneven terrains (stairs, ramps) has not received much attention. Furthermore, previous research has mainly relied on data from a large number of body locations which could adversely affect user convenience and system performance. Here, individuals with mild stages of PD and healthy subjects performed non-steady-state circuit trials comprising stairs, ramp, and changes of direction. An offline analysis using a linear discriminant analysis (LDA) classifier and a Long-Short Term Memory (LSTM) neural network was performed for task recognition. The performance of accelerographic and gyroscopic information from varied lower/upper-body segments were tested across a set of user-independent and user-dependent training paradigms. Comparing the F1 score of a given signal across classifiers showed improved performance using LSTM compared to LDA. Using LSTM, even a subset of information (e.g., feet data) in subject-independent training appeared to provide F1 score > 0.8. However, employing LDA was shown to be at the expense of being limited to using a subject-dependent training and/or biomechanical data from multiple body locations. The findings could inform a number of applications in the field of healthcare monitoring and developing advanced lower-limb assistive devices by providing insights into classification schemes capable of handling non-steady-state and unstructured locomotion in individuals with mild Parkinson's disease.
翻訳日:2021-10-17 08:09:29 公開日:2021-10-08
# (参考訳) 数十億のパラメータを持つ例がいくつかありますが [全文訳有]

A Few More Examples May Be Worth Billions of Parameters ( http://arxiv.org/abs/2110.04374v1 )

ライセンス: CC0 1.0
Yuval Kirstain, Patrick Lewis, Sebastian Riedel, Omer Levy(参考訳) 様々なタスクにわたるラベル付きサンプル数に対して,モデルパラメータ数を増加させるダイナミクスについて検討する。 我々の調査では、パラメータのスケーリングが一貫してパフォーマンス改善をもたらす一方で、追加例の寄与はタスクの形式に大きく依存している。 具体的には、オープン質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。 対照的に、分類、抽出的質問応答、複数の選択タスクは、追加の例から多くの利益を得るので、数百のサンプルを集めることは、しばしば数十億のパラメータに"価値がある"。 特定の情報をリコールするオープン質問応答とは異なり、サンプル間でより制限されたアウトプットスペース転送を持つタスクの戦略を解決し、少量のラベル付きデータで学ぶことができると仮定する。

We investigate the dynamics of increasing the number of model parameters versus the number of labeled examples across a wide variety of tasks. Our exploration reveals that while scaling parameters consistently yields performance improvements, the contribution of additional examples highly depends on the task's format. Specifically, in open question answering tasks, enlarging the training set does not improve performance. In contrast, classification, extractive question answering, and multiple choice tasks benefit so much from additional examples that collecting a few hundred examples is often "worth" billions of parameters. We hypothesize that unlike open question answering, which involves recalling specific information, solving strategies for tasks with a more restricted output space transfer across examples, and can therefore be learned with small amounts of labeled data.
翻訳日:2021-10-17 07:53:58 公開日:2021-10-08
# (参考訳) ディープノイズ抑圧モデルの性能最適化 [全文訳有]

Performance optimizations on deep noise suppression models ( http://arxiv.org/abs/2110.04378v1 )

ライセンス: CC BY 4.0
Jerry Chee, Sebastian Braun, Vishak Gopal, Ross Cutler(参考訳) 本研究では,深部雑音抑圧(DNS)モデルの予測時間を高速化するアーキテクチャ探索として,等級構造プルーニングが果たす役割について検討する。 ディープラーニングのアプローチは、オーディオ品質の向上に著しく成功したが、複雑さの増加は、リアルタイムアプリケーションへのデプロイを阻害している。 ベースライン上での最大7.25倍の推論スピードアップを達成し、スムーズなモデル性能低下を実現しました。 アブレーション研究は,提案するネットワーク再パラメータ化(層当たりのサイズ)が速度アップの主要な要因であり,構造的プルーニングはより小さなサイズでモデルを直接トレーニングすることと相容れないことを示した。 パラメータの削減はスピードアップを必要としないため,推論速度を報告し,精度の高い非侵襲的音声品質指標を用いてモデル品質を測定する。

We study the role of magnitude structured pruning as an architecture search to speed up the inference time of a deep noise suppression (DNS) model. While deep learning approaches have been remarkably successful in enhancing audio quality, their increased complexity inhibits their deployment in real-time applications. We achieve up to a 7.25X inference speedup over the baseline, with a smooth model performance degradation. Ablation studies indicate that our proposed network re-parameterization (i.e., size per layer) is the major driver of the speedup, and that magnitude structured pruning does comparably to directly training a model in the smaller size. We report inference speed because a parameter reduction does not necessitate speedup, and we measure model quality using an accurate non-intrusive objective speech quality metric.
翻訳日:2021-10-17 07:33:44 公開日:2021-10-08
# (参考訳) 説明可能な品質評価に関するEval4NLP共有タスクの概要と結果 [全文訳有]

The Eval4NLP Shared Task on Explainable Quality Estimation: Overview and Results ( http://arxiv.org/abs/2110.04392v1 )

ライセンス: CC BY 4.0
Marina Fomicheva, Piyawat Lertvittayakumjorn, Wei Zhao, Steffen Eger, Yang Gao(参考訳) 本稿では,eval4nlp-2021共有課題である品質推定について述べる。 ソース-翻訳ペアが与えられた場合、この共有タスクは、翻訳の全体的な品質を示す文レベルスコアを提供するだけでなく、翻訳品質に悪影響を及ぼす単語を特定することによって、このスコアを説明する必要がある。 共有タスクのデータ, ガイドライン, 評価設定を提示し, 6つのシステムについて記述し, 結果を分析した。 我々の知る限りでは、これは説明可能なNLP評価指標に関する最初の共有タスクである。 データセットと結果はhttps://github.com/e val4nlp/sharedtask20 21で入手できる。

In this paper, we introduce the Eval4NLP-2021shared task on explainable quality estimation. Given a source-translation pair, this shared task requires not only to provide a sentence-level score indicating the overall quality of the translation, but also to explain this score by identifying the words that negatively impact translation quality. We present the data, annotation guidelines and evaluation setup of the shared task, describe the six participating systems, and analyze the results. To the best of our knowledge, this is the first shared task on explainable NLP evaluation metrics. Datasets and results are available at https://github.com/e val4nlp/SharedTask20 21.
翻訳日:2021-10-17 07:24:45 公開日:2021-10-08
# (参考訳) 機械学習技術と埋め込みセンサを用いた異常歩行の分類 [全文訳有]

Classification of anomalous gait using Machine Learning techniques and embedded sensors ( http://arxiv.org/abs/2110.06139v1 )

ライセンス: CC BY 4.0
T. R. D. Sa and C. M. S. Figueiredo(参考訳) 人間の歩行は、人間の移動に影響を与える病態を検出するための予測因子となる可能性がある。 また、ヒトの歩行検査ができる伝統的な臨床インフラストラクチャーを整備するために高い投資が求められ、経済的に脆弱な患者には耐えられないことが知られている。 本研究は,3次元加速度計と3次元ジャイロスコープ計測と,異なる歩行障害のカテゴリーを分類する機械学習技術を取得するためのウェアラブルデバイスからなる,アクセス可能で現代的なソリューションを提案する。 提案する研究を展開するために,ターゲットラベルが4つの異なるカテゴリの異常な歩行を示すデータセットを作成した。 このデータセットで(正確性の観点から)最高のパフォーマンスを達成した機械学習技術は、サポートベクトルマシン分類器(94 \%)に続く主成分分析アルゴリズムの適用によるものだった。 さらに、フィードフォワードニューラルネットワークに基づくアーキテクチャにより、より優れた結果(96 \%)が得られた。 最後に、実装されたモデル間の計算性能の比較も提示する。

Human gait can be a predictive factor for detecting pathologies that affect human locomotion according to studies. In addition, it is known that a high investment is demanded in order to raise a traditional clinical infrastructure able to provide human gait examinations, making them unaffordable for economically vulnerable patients. In face of this scenario, this work proposes an accessible and modern solution composed of a wearable device, to acquire 3D-accelerometer and 3D-gyroscope measurements, and machine learning techniques to classify between distinct categories of induced gait disorders. In order to develop the proposed research, it was created a dataset with the target label being 4 distinct and balanced categories of anomalous gait. The machine learning techniques that achieved the best performances (in terms of accuracy) in this dataset were through the application of Principal Component Analysis algorithm following of a Support Vector Machines classifier (94 \%). Further, an architecture based on a Feedforward Neural Network yielded even better results (96 \%). Finally, it is also presented computational performance comparison between the models implemented.
翻訳日:2021-10-17 07:06:27 公開日:2021-10-08
# (参考訳) いつ隣人に電話する? 協調確率帯域における戦略的コミュニケーション

When to Call Your Neighbor? Strategic Communication in Cooperative Stochastic Bandits ( http://arxiv.org/abs/2110.04396v1 )

ライセンス: CC BY 4.0
Udari Madhushani and Naomi Leonard(参考訳) 集団的連続的な意思決定の本質的特徴を捉える枠組みである協調帯域では、エージェントはグループ後悔を最小限に抑え、共有情報を活用することでパフォーマンスを向上させることができる。 しかし、情報の共有にはコストがかかるため、グループ後悔を最小限に抑えつつ、エージェントが伝達するメッセージの数を減らしたポリシーを開発する動機となる。 既存の協調バンディットアルゴリズムは、エージェントが隣人と情報を共有する際の最適な性能を得る。 これは$\theta(t)$のメッセージを必要とし、そこで$t$は意思決定プロセスの時間軸である。 我々は,O(\log T)$のメッセージ数のみを通信しながら,グループによる完全通信と同等のパフォーマンスを達成できる,コスト効率の高い通信プロトコルである‘textit{ComEx} を提案する。 我々の重要なステップは、最適なパフォーマンスを達成するために不可欠な情報を識別し、伝達する手法を開発することです。 さらに,いくつかのベンチマーク協調バンディットフレームワークのための新しいアルゴリズムを提案し,提案手法が既存のアルゴリズムよりも大幅に少ない通信コストを伴いながら, \textit{state-of-the-art} 性能を得ることを示した。

In cooperative bandits, a framework that captures essential features of collective sequential decision making, agents can minimize group regret, and thereby improve performance, by leveraging shared information. However, sharing information can be costly, which motivates developing policies that minimize group regret while also reducing the number of messages communicated by agents. Existing cooperative bandit algorithms obtain optimal performance when agents share information with their neighbors at \textit{every time step}, i.e., full communication. This requires $\Theta(T)$ number of messages, where $T$ is the time horizon of the decision making process. We propose \textit{ComEx}, a novel cost-effective communication protocol in which the group achieves the same order of performance as full communication while communicating only $O(\log T)$ number of messages. Our key step is developing a method to identify and only communicate the information crucial to achieving optimal performance. Further we propose novel algorithms for several benchmark cooperative bandit frameworks and show that our algorithms obtain \textit{state-of-the-art} performance while consistently incurring a significantly smaller communication cost than existing algorithms.
翻訳日:2021-10-17 06:57:50 公開日:2021-10-08
# (参考訳) 2回測定し、1回カットする:ディープニューラルネットワークにおけるバイアスと公平性の定量化 [全文訳有]

Measure Twice, Cut Once: Quantifying Bias and Fairness in Deep Neural Networks ( http://arxiv.org/abs/2110.04397v1 )

ライセンス: CC BY-SA 4.0
Cody Blakeney, Gentry Atkinson, Nathaniel Huish, Yan Yan, Vangelis Metris, Ziliang Zong(参考訳) アルゴリズムバイアスは、研究コミュニティと社会全体の両方に懸念が増している。 AIのバイアスは、従来の差別形式よりも抽象的で直感的であり、検出と緩和が困難である。 マルチクラス分類器の性能における相対バイアスの評価に関する現在の文献には明確なギャップがある。 本研究では,2つのモデルのクラス間バイアスを定量的に評価するために,誤差分散(cev)と対称距離誤差(sde)を組み合わせた簡易かつ効果的な2つの指標を提案する。 これらの新しいメトリクスのパフォーマンスを評価し、その実践的応用を実証することにより、公平性だけでなくバイアスも測定できることを示す。 これらの実演は,マルチクラス分類におけるバイアス測定のための特定のニーズに対応することができることを示す。

Algorithmic bias is of increasing concern, both to the research community, and society at large. Bias in AI is more abstract and unintuitive than traditional forms of discrimination and can be more difficult to detect and mitigate. A clear gap exists in the current literature on evaluating the relative bias in the performance of multi-class classifiers. In this work, we propose two simple yet effective metrics, Combined Error Variance (CEV) and Symmetric Distance Error (SDE), to quantitatively evaluate the class-wise bias of two models in comparison to one another. By evaluating the performance of these new metrics and by demonstrating their practical application, we show that they can be used to measure fairness as well as bias. These demonstrations show that our metrics can address specific needs for measuring bias in multi-class classification.
翻訳日:2021-10-17 06:55:57 公開日:2021-10-08
# (参考訳) 自然言語記述によるアクセシブルな可視化:意味内容の4レベルモデル [全文訳有]

Accessible Visualization via Natural Language Descriptions: A Four-Level Model of Semantic Content ( http://arxiv.org/abs/2110.04406v1 )

ライセンス: CC BY 4.0
Alan Lundgard and Arvind Satyanarayan(参考訳) 自然言語記述は、コミュニケーションや文脈化、障害のある読者へのアクセシビリティ向上のために、可視化に付随することがある。 しかし、これらの記述の有用性や、それらが意味のある情報へのアクセスをいかに効果的に改善するかを評価することは困難である。 そこで本研究では,可視化の自然言語記述による意味内容の概念モデルを提案する。 このモデルは,2,147文の根拠付き理論分析を通じて,可視化構築特性(マークやエンコーディングなど)の列挙,統計的概念と関係(エクストリームや相関など)の報告,知覚的・認知的現象(複雑な傾向やパターンなど)の識別,ドメイン固有の洞察(社会的・政治的文脈など)の解明の4段階にまたがる。 本研究では,視覚的記述の有効性を評価するために,視覚障害者30名と視覚障害者90名による混合手法による評価を行い,どのセマンティック・コンテンツが最も有用かにおいて,これらのリーダー群が有意に異なることを示す。 モデルと知見を組み合わせることで,意味のある情報へのアクセスは読み手固有のものであり,自動可視化キャプションの研究は,読み手の好みに敏感な,全体的な傾向や統計をより豊かに伝達する記述に向かわせるべきであることが示唆された。 我々の研究は、可視化と同等のデータインターフェースとして自然言語の研究空間をさらに開放する。

Natural language descriptions sometimes accompany visualizations to better communicate and contextualize their insights, and to improve their accessibility for readers with disabilities. However, it is difficult to evaluate the usefulness of these descriptions, and how effectively they improve access to meaningful information, because we have little understanding of the semantic content they convey, and how different readers receive this content. In response, we introduce a conceptual model for the semantic content conveyed by natural language descriptions of visualizations. Developed through a grounded theory analysis of 2,147 sentences, our model spans four levels of semantic content: enumerating visualization construction properties (e.g., marks and encodings); reporting statistical concepts and relations (e.g., extrema and correlations); identifying perceptual and cognitive phenomena (e.g., complex trends and patterns); and elucidating domain-specific insights (e.g., social and political context). To demonstrate how our model can be applied to evaluate the effectiveness of visualization descriptions, we conduct a mixed-methods evaluation with 30 blind and 90 sighted readers, and find that these reader groups differ significantly on which semantic content they rank as most useful. Together, our model and findings suggest that access to meaningful information is strongly reader-specific, and that research in automatic visualization captioning should orient toward descriptions that more richly communicate overall trends and statistics, sensitive to reader preferences. Our work further opens a space of research on natural language as a data interface coequal with visualization.
翻訳日:2021-10-17 06:42:33 公開日:2021-10-08
# (参考訳) フォームアタックによるトランスフォーマー型フォームフィールドエクストラクタのロバスト性評価 [全文訳有]

Robustness Evaluation of Transformer-based Form Field Extractors via Form Attacks ( http://arxiv.org/abs/2110.04413v1 )

ライセンス: CC BY 4.0
Le Xue, Mingfei Gao, Zeyuan Chen, Caiming Xiong and Ran Xu(参考訳) 本稿では,フォーム攻撃によるフォームフィールド抽出手法の堅牢性を評価するための新しいフレームワークを提案する。 我々は,OCRレベルとフォームレベルの両方からのフォーム攻撃に対する最先端フィールド抽出器の脆弱性を評価するために,OCR位置/順序再構成,フォームバックグラウンド操作,フォームフィールド値拡張を含む14の新たなフォーム変換を導入する。 実請求書と領収書を用いてロバスト性評価を行い,包括的な調査分析を行う。 実験結果から,フィールド値の変動(F1スコアの15%減),入力テキスト順の乱れ(F1スコアの15%減),隣接するフィールド値の単語の破壊(F1スコアの10%減)など,フィールド値の変動(F1スコアの15%減)を予測できる可能性が示唆された。 分析により,フィールド抽出器の設計とデータ収集のプロセスを改善することを推奨する。

We propose a novel framework to evaluate the robustness of transformer-based form field extraction methods via form attacks. We introduce 14 novel form transformations to evaluate the vulnerability of the state-of-the-art field extractors against form attacks from both OCR level and form level, including OCR location/order rearrangement, form background manipulation and form field-value augmentation. We conduct robustness evaluation using real invoices and receipts, and perform comprehensive research analysis. Experimental results suggest that the evaluated models are very susceptible to form perturbations such as the variation of field-values (~15% drop in F1 score), the disarrangement of input text order(~15% drop in F1 score) and the disruption of the neighboring words of field-values(~10% drop in F1 score). Guided by the analysis, we make recommendations to improve the design of field extractors and the process of data collection.
翻訳日:2021-10-17 06:14:34 公開日:2021-10-08
# RPT:事前学習による異種研究者データの転送可能モデルに向けて

RPT: Toward Transferable Model on Heterogeneous Researcher Data via Pre-Training ( http://arxiv.org/abs/2110.07336v1 )

ライセンス: Link先を確認
Ziyue Qiao, Yanjie Fu, Pengyang Wang, Meng Xiao, Zhiyuan Ning, Yi Du, Yuanchun Zhou(参考訳) 学術機関の成長に伴い,共同研究者推薦や研究者検索などの膨大な研究者データのマイニングと分析の獲得が不可欠となっている。 学術機関のサービス品質とインテリジェンスを向上させることができる。 研究者データマイニングのための既存の研究のほとんどは、特定のアプリケーションシナリオのための単一のタスクと、通常スコープ外のタスクに転送できないタスク固有のモデルを学習することに焦点を当てている。 事前学習技術は、膨大なラベルのないデータから貴重な情報をキャプチャする、一般化された共有モデルを提供する。 モデルはいくつかの微調整ステップを通じて複数のダウンストリームタスクを実行できる。 本稿では,多タスクの自己教師付き学習に基づくデータ事前学習モデルrptを提案する。 具体的には、研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。 階層型トランスフォーマとローカル・コミュニティ・エンコーダをそれぞれ2つのカテゴリのデータから情報を取り込むように設計する。 そこで本研究では,モデル全体を学習するための3つの自己教師付き学習目標を提案する。 最後に、異なるシナリオで微調整を行うためのrptの2つの転送モードを提案する。 rptの評価のために広範な実験を行い,3つのダウンストリームタスクの結果から,研究者データマイニングにおける事前トレーニングの有効性を検証した。

With the growth of the academic engines, the mining and analysis acquisition of massive researcher data, such as collaborator recommendation and researcher retrieval, has become indispensable. It can improve the quality of services and intelligence of academic engines. Most of the existing studies for researcher data mining focus on a single task for a particular application scenario and learning a task-specific model, which is usually unable to transfer to out-of-scope tasks. The pre-training technology provides a generalized and sharing model to capture valuable information from enormous unlabeled data. The model can accomplish multiple downstream tasks via a few fine-tuning steps. In this paper, we propose a multi-task self-supervised learning-based researcher data pre-training model named RPT. Specifically, we divide the researchers' data into semantic document sets and community graph. We design the hierarchical Transformer and the local community encoder to capture information from the two categories of data, respectively. Then, we propose three self-supervised learning objectives to train the whole model. Finally, we also propose two transfer modes of RPT for fine-tuning in different scenarios. We conduct extensive experiments to evaluate RPT, results on three downstream tasks verify the effectiveness of pre-training for researcher data mining.
翻訳日:2021-10-17 05:12:36 公開日:2021-10-08
# ビットと量子ディープラーニングを用いた画像圧縮と分類

Image Compression and Classification Using Qubits and Quantum Deep Learning ( http://arxiv.org/abs/2110.05476v1 )

ライセンス: Link先を確認
Ali Mohsen, Mo Tiwari(参考訳) 最近の研究は、量子状態の画像をエンコードし、量子ニューラルネットワークを用いて推論することで、量子機械学習技術が古典的画像分類に使用できることを示唆している。 しかし、そのような作品は非常に小さな入力画像に限られており、少なくとも4 x 4は非現実的であり、人間によって正確なラベル付けすらできない。 大きな入力画像を使う上での最大の困難は、hhertoが提案する符号化方式が物理的に実現可能なものよりも多くの量子ビットを必要とすることである。 量子システムを用いて,大規模でリアルな画像を分類する枠組みを提案する。 我々のアプローチは、量子状態に画像を埋め込む新しいエンコーディングメカニズムに依存しており、以前の作業よりも少ないキュービットを必要とする。 我々のフレームワークは、パーソナルノートパソコン上のMNISTデータセットの最大16 x 16の画像を分類することができ、学習可能なパラメータの数と同じ古典的ニューラルネットワークに匹敵する精度を得ることができる。 また,最終的な性能を犠牲にして,物理的実装を容易にする画像表現に必要なキュービット数をさらに削減する手法を提案する。 我々の研究は、物理的に実現可能な量子コンピュータや古典的シミュレーションによって以前魅力のある次元の古典的データセットの量子機械学習と分類を可能にする。

Recent work suggests that quantum machine learning techniques can be used for classical image classification by encoding the images in quantum states and using a quantum neural network for inference. However, such work has been restricted to very small input images, at most 4 x 4, that are unrealistic and cannot even be accurately labeled by humans. The primary difficulties in using larger input images is that hitherto-proposed encoding schemes necessitate more qubits than are physically realizable. We propose a framework to classify larger, realistic images using quantum systems. Our approach relies on a novel encoding mechanism that embeds images in quantum states while necessitating fewer qubits than prior work. Our framework is able to classify images that are larger than previously possible, up to 16 x 16 for the MNIST dataset on a personal laptop, and obtains accuracy comparable to classical neural networks with the same number of learnable parameters. We also propose a technique for further reducing the number of qubits needed to represent images that may result in an easier physical implementation at the expense of final performance. Our work enables quantum machine learning and classification on classical datasets of dimensions that were previously intractable by physically realizable quantum computers or classical simulation
翻訳日:2021-10-13 15:34:04 公開日:2021-10-08
# 物理情報ニューラルネットワークを用いた人体システムにおける薬物同化の研究

Study of Drug Assimilation in Human System using Physics Informed Neural Networks ( http://arxiv.org/abs/2110.05531v1 )

ライセンス: Link先を確認
Kanupriya Goswami, Arpana Sharma, Madhu Pruthi, Richa Gupta(参考訳) 微分方程式は、科学、工学、生態学、経済学、金融など、現代の世界で重要な役割を果たす。 本稿では,人間系における薬物同化の2つの数学的モデルについて,物理インフォームドニューラルネットワーク(pinns)を用いて検討する。 第1モデルでは、ヒト系における薬物の1回投与例について検討し、第2モデルでは、この薬物の経過を一定間隔で検討する。 これらのケースをモデル化するために、コンパートメント図を使用しました。 結果の微分方程式をPINNを用いて解き、関数近似器としてフィードフォワード多層パーセプトロンを用い、ネットワークパラメータを最小誤差に調整する。 さらに、ネットワークパラメータに関する誤差関数の勾配を求めることにより、ネットワークを訓練する。 我々は,PINNのピソンライブラリであるDeepXDEを用いて,薬物同化の2つのモデルを記述する一階微分方程式の同時解法を行った。 その結果,第1モデルの誤差が10^(−11)に達し,第2モデルの誤差が10^(−8)に達するほど,正確な解と予測解との間に高い精度が得られた。 これは、任意の力学系の解法におけるPINNの使用を検証する。

Differential equations play a pivotal role in modern world ranging from science, engineering, ecology, economics and finance where these can be used to model many physical systems and processes. In this paper, we study two mathematical models of a drug assimilation in the human system using Physics Informed Neural Networks (PINNs). In the first model, we consider the case of single dose of drug in the human system and in the second case, we consider the course of this drug taken at regular intervals. We have used the compartment diagram to model these cases. The resulting differential equations are solved using PINN, where we employ a feed forward multilayer perceptron as function approximator and the network parameters are tuned for minimum error. Further, the network is trained by finding the gradient of the error function with respect to the network parameters. We have employed DeepXDE, a python library for PINNs, to solve the simultaneous first order differential equations describing the two models of drug assimilation. The results show high degree of accuracy between the exact solution and the predicted solution as much as the resulting error reaches10^(-11) for the first model and 10^(-8) for the second model. This validates the use of PINN in solving any dynamical system.
翻訳日:2021-10-13 14:36:31 公開日:2021-10-08
# TSKファジィシステムによる不完全多視点データ分類

TSK Fuzzy System Towards Few Labeled Incomplete Multi-View Data Classification ( http://arxiv.org/abs/2110.05610v1 )

ライセンス: Link先を確認
Wei Zhang, Zhaohong Deng, Qiongdan Lou, Te Zhang, Kup-Sze Choi, Shitong Wang(参考訳) 複数のメソッドや複数のソースから収集されたデータは、マルチビューデータと呼ばれる。 マルチビューデータを完全に活用するためには、マルチビュー学習がますます重要な役割を果たす。 従来のマルチビュー学習法は、多数のラベル付きおよび完成したマルチビューデータに依存している。 しかし、現実世界のアプリケーションで大量のラベル付きマルチビューデータを取得するのは高価で時間がかかります。 さらに、マルチビューデータは、データ収集の失敗、自己欠陥、その他の理由により、しばしば不完全である。 したがって、実際のアプリケーションシナリオではラベル付きや不完全なマルチビューデータが少ないという問題に直面しなければならない。 本稿では,これらの課題に対処するために,トランスダクティブ半教師付きマルチビューTSKファジィシステムモデリング手法(SSIMV_TSK)を提案する。 まず、ラベル付きデータへの依存性を緩和し、モデルを解釈可能にするため、提案手法では、欠落したビューインプテーション、ラベル付きデータの擬似ラベル学習、ファジィシステムモデリングを単一のプロセスに統合し、解釈可能なファジィルールによるモデルを生成する。 次に,2つの新しいメカニズム,すなわちインスタンスとラベルの双方向構造保存,および適応型多重アライメント協調学習を提案し,モデルの堅牢性を向上させる。 提案手法の特徴は以下のとおりである。 1)不完全かつラベル付きマルチビューデータを同時に扱うことができる。 2) 従来の2段階戦略よりも効率的で,1つのプロセスとして欠落したビューインプテーションとモデル学習を統合する。 3) 解釈可能なファジィ推論規則により, より解釈可能な手法である。 実データを用いた実験の結果,提案手法は最先端の手法よりも優れていた。

Data collected by multiple methods or from multiple sources is called multi-view data. To make full use of the multi-view data, multi-view learning plays an increasingly important role. Traditional multi-view learning methods rely on a large number of labeled and completed multi-view data. However, it is expensive and time-consuming to obtain a large number of labeled multi-view data in real-world applications. Moreover, multi-view data is often incomplete because of data collection failures, self-deficiency, or other reasons. Therefore, we may have to face the problem of fewer labeled and incomplete multi-view data in real application scenarios. In this paper, a transductive semi-supervised incomplete multi-view TSK fuzzy system modeling method (SSIMV_TSK) is proposed to address these challenges. First, in order to alleviate the dependency on labeled data and keep the model interpretable, the proposed method integrates missing view imputation, pseudo label learning of unlabeled data, and fuzzy system modeling into a single process to yield a model with interpretable fuzzy rules. Then, two new mechanisms, i.e. the bidirectional structural preservation of instance and label, as well as the adaptive multiple alignment collaborative learning, are proposed to improve the robustness of the model. The proposed method has the following distinctive characteristics: 1) it can deal with the incomplete and few labeled multi-view data simultaneously; 2) it integrates the missing view imputation and model learning as a single process, which is more efficient than the traditional two-step strategy; 3) attributed to the interpretable fuzzy inference rules, this method is more interpretable. Experimental results on real datasets show that the proposed method significantly outperforms the state-of-the-art methods.
翻訳日:2021-10-13 13:15:37 公開日:2021-10-08
# 埋め込みアライメントを用いた音声プライバシーシステムの可逆性について

On the invertibility of a voice privacy system using embedding alignement ( http://arxiv.org/abs/2110.05431v1 )

ライセンス: Link先を確認
Pierre Champion (MULTISPEECH, LIUM), Thomas Thebaud (LIUM), Ga\"el Le Lan, Anthony Larcher (LIUM), Denis Jouvet (MULTISPEECH)(参考訳) 本稿では,組込みアライメント技術を用いた音声匿名化システムにおける各種攻撃シナリオについて検討する。 wasserstein-procrust es(当初は教師なし翻訳のために設計されたアルゴリズム)やprocrustes分析を使用して、音声匿名化前後の2組のx-ベクトルとマッチングし、この変換を回転関数として模倣する。 最適な回転を計算し、この近似の結果を公式の音声プライバシーチャレンジ結果と比較する。 音声プライバシーチャレンジのベースラインのような複雑なシステムは,xベクトルの限られたセットを用いて,回転によって近似できることを示す。 本稿では,回転の特定の範囲における音声匿名化の解の空間について検討する。 回転は可逆的であり、提案手法は匿名埋め込みから最大62%の話者識別を回復することができる。

This paper explores various attack scenarios on a voice anonymization system using embeddings alignment techniques. We use Wasserstein-Procrust es (an algorithm initially designed for unsupervised translation) or Procrustes analysis to match two sets of x-vectors, before and after voice anonymization, to mimic this transformation as a rotation function. We compute the optimal rotation and compare the results of this approximation to the official Voice Privacy Challenge results. We show that a complex system like the baseline of the Voice Privacy Challenge can be approximated by a rotation, estimated using a limited set of x-vectors. This paper studies the space of solutions for voice anonymization within the specific scope of rotations. Rotations being reversible, the proposed method can recover up to 62% of the speaker identities from anonymized embeddings.
翻訳日:2021-10-12 20:49:38 公開日:2021-10-08
# 準最適実演からサンプル効率のよい見習い学習へ

Towards Sample-efficient Apprenticeship Learning from Suboptimal Demonstration ( http://arxiv.org/abs/2110.04347v1 )

ライセンス: Link先を確認
Letian Chen, Rohan Paleja, Matthew Gombolay(参考訳) 実証から学ぶ(LfD)は、ロボット工学を民主化するために、非ロボティスティックなエンドユーザがデモを提供することで、新しいタスクをロボットに教えることを可能にしている。 しかしながら、デモ参加者は一般に非専門家であるため、現代のLfD技術は準最適実証よりもはるかに優れたポリシーを作成できない。 これまで提案されたフレームワークであるSSRRは、最適下界から学ぶことに成功しているが、理想化された報酬関数を推測するためにノイズ注入軌道に依存している。 軌道生成のためのノイズ注入のようなランダムなアプローチには2つの欠点がある。 1)性能劣化は,騒音がバイタル状態に適用されるかどうかによってランダムになる可能性がある。 2) 騒音発生軌道は, 準最適性に制限があるため, 準最適性の全範囲を正確に表すことはできない。 トラジェクトリ劣化に対する系統的な代替策を検討するため,S3RRを提案する。 我々は実験的な評価を行い、S3RRは、準最適実証フレームワークからの最先端の学習に対して、基礎的真実と同等あるいはより良い報酬相関を学習できることを示した。

Learning from Demonstration (LfD) seeks to democratize robotics by enabling non-roboticist end-users to teach robots to perform novel tasks by providing demonstrations. However, as demonstrators are typically non-experts, modern LfD techniques are unable to produce policies much better than the suboptimal demonstration. A previously-proposed framework, SSRR, has shown success in learning from suboptimal demonstration but relies on noise-injected trajectories to infer an idealized reward function. A random approach such as noise-injection to generate trajectories has two key drawbacks: 1) Performance degradation could be random depending on whether the noise is applied to vital states and 2) Noise-injection generated trajectories may have limited suboptimality and therefore will not accurately represent the whole scope of suboptimality. We present Systematic Self-Supervised Reward Regression, S3RR, to investigate systematic alternatives for trajectory degradation. We carry out empirical evaluations and find S3RR can learn comparable or better reward correlation with ground-truth against a state-of-the-art learning from suboptimal demonstration framework.
翻訳日:2021-10-12 19:42:23 公開日:2021-10-08
# ウォークプールを用いたニューラルリンク予測

Neural Link Prediction with Walk Pooling ( http://arxiv.org/abs/2110.04375v1 )

ライセンス: Link先を確認
Liming Pan, Cheng Shi and Ivan Dokmani\'c(参考訳) グラフニューラルネットワークは,グラフトポロジとノード属性を併用することにより,リンク予測における高精度を実現する。 しかし、トポロジは間接的に表現される; サブグラフ分類ラベルノードに基づく最先端の手法は、ターゲットリンクまでの距離を持つため、トポロジ情報はあるものの、プーリングによって誘惑される。 これにより、ネットワーク形成メカニズムに関連するループやモチーフといった機能を活用することが困難になる。 ウォークプールと呼ばれる新しいプール方式に基づくリンク予測アルゴリズムを提案する。 WalkPoolは、トポロジカルヒューリスティックスの表現性と、ニューラルネットワークの機能学習能力を組み合わせる。 隣接経路のランダムウォーキング確率による仮定リンクを要約する。 元のグラフから遷移確率を抽出する代わりに、学習された特徴に注意を向けることで「予測的」潜在グラフの遷移行列を計算する。 WalkPoolは教師なしのノード機能を利用することができる。 ノード属性の有無に関わらず、同好性および異好性の両方で、すべての一般的なリンク予測ベンチマークで最先端の手法より優れている。 教師なしGNNにWalkPoolを適用すると、予測精度が大幅に向上し、汎用グラフプーリングスキームとして使用される可能性がある。

Graph neural networks achieve high accuracy in link prediction by jointly leveraging graph topology and node attributes. Topology, however, is represented indirectly; state-of-the-art methods based on subgraph classification label nodes with distance to the target link, so that, although topological information is present, it is tempered by pooling. This makes it challenging to leverage features like loops and motifs associated with network formation mechanisms. We propose a link prediction algorithm based on a new pooling scheme called WalkPool. WalkPool combines the expressivity of topological heuristics with the feature-learning ability of neural networks. It summarizes a putative link by random walk probabilities of adjacent paths. Instead of extracting transition probabilities from the original graph, it computes the transition matrix of a "predictive" latent graph by applying attention to learned features; this may be interpreted as feature-sensitive topology fingerprinting. WalkPool can leverage unsupervised node features or be combined with GNNs and trained end-to-end. It outperforms state-of-the-art methods on all common link prediction benchmarks, both homophilic and heterophilic, with and without node attributes. Applying WalkPool to a set of unsupervised GNNs significantly improves prediction accuracy, suggesting that it may be used as a general-purpose graph pooling scheme.
翻訳日:2021-10-12 19:42:05 公開日:2021-10-08
# $N$次元画像の量子ピクセル表現と圧縮

Quantum pixel representations and compression for $N$-dimensional images ( http://arxiv.org/abs/2110.04405v1 )

ライセンス: Link先を確認
Mercy G. Amankwah, Daan Camps, E. Wes Bethel, Roel Van Beeumen, Talita Perciano(参考訳) 本稿では,(I)FRQI,(I)NEQR,MCR QI,(I)NCQIなどの最近の文献で提案されている最も一般的な表現の多くを網羅する,量子ピクセル表現のための新しい均一なフレームワークを提案する。 提案したQPIXLフレームワークは、より効率的な回路実装を実現し、検討された全ての量子ピクセル表現のゲート複雑性を著しく低減する。 本手法では,画素数に関してのみ線形ゲート数が必要であり,アンシラ量子ビットは使用しない。 さらに、回路はRyゲートとCNOTゲートのみで構成されており、NISQ時代に実用化されている。 また,画像品質を犠牲にすることなく,科学的画像などのfrqi状態を作成するために必要なゲートを最大90%削減できる,高効率な回路および画像圧縮アルゴリズムを提案する。 我々のアルゴリズムは、Quantum Image Pixel LibraryであるQPIXL++の一部として公開されています。

We introduce a novel and uniform framework for quantum pixel representations that overarches many of the most popular representations proposed in the recent literature, such as (I)FRQI, (I)NEQR, MCRQI, and (I)NCQI. The proposed QPIXL framework results in more efficient circuit implementations and significantly reduces the gate complexity for all considered quantum pixel representations. Our method only requires a linear number of gates in terms of the number of pixels and does not use ancilla qubits. Furthermore, the circuits only consist of Ry gates and CNOT gates making them practical in the NISQ era. Additionally, we propose a circuit and image compression algorithm that is shown to be highly effective, being able to reduce the necessary gates to prepare an FRQI state for example scientific images by up to 90% without sacrificing image quality. Our algorithms are made publicly available as part of QPIXL++, a Quantum Image Pixel Library.
翻訳日:2021-10-12 19:20:12 公開日:2021-10-08
# パーソナライズされた感情インタラクションを目指したマルチモーダルソーシャルロボット

A MultiModal Social Robot Toward Personalized Emotion Interaction ( http://arxiv.org/abs/2110.05186v1 )

ライセンス: Link先を確認
Baijun Xie and Chung Hyuk Park(参考訳) 人間の感情は、言語情報や非言語情報を含む複数のモダリティを通して表現される。 さらに、人間のユーザの感情状態は、ロボットが相互作用を通じてロボットの動作を最適化する報酬要因として使うのに適した、エンゲージメントのレベルと良好な相互作用の指標となる。 本研究では,ロボットインタラクションポリシーを強化し,人間の感情的インタラクションをパーソナライズするために,強化学習を伴うマルチモーダルヒューマンロボットインタラクション(HRI)フレームワークを実証する。 目標は、ロボットがより自然で魅力的なHRIフレームワークを作れるように、このフレームワークを社会シナリオに適用することだ。

Human emotions are expressed through multiple modalities, including verbal and non-verbal information. Moreover, the affective states of human users can be the indicator for the level of engagement and successful interaction, suitable for the robot to use as a rewarding factor to optimize robotic behaviors through interaction. This study demonstrates a multimodal human-robot interaction (HRI) framework with reinforcement learning to enhance the robotic interaction policy and personalize emotional interaction for a human user. The goal is to apply this framework in social scenarios that can let the robots generate a more natural and engaging HRI framework.
翻訳日:2021-10-12 18:51:09 公開日:2021-10-08
# 学習システムにおける識別規則と模範に基づく一般化

Distinguishing rule- and exemplar-based generalization in learning systems ( http://arxiv.org/abs/2110.04328v1 )

ライセンス: Link先を確認
Ishita Dasgupta, Erin Grant, Thomas L. Griffiths(参考訳) 機械学習におけるデータセットの大規模化にもかかわらず、データ分布の見えない領域への一般化は依然として重要である。 このような外挿は定義によって決定され、学習者の帰納バイアスによって決定される。 機械学習システムは、人間と同じ誘導バイアスを共有せず、その結果、私たちの期待と矛盾する方法で外挿することが多い。 特徴レベルのバイアス(特徴がより容易に学習できる差分)とexemplar-vs-ruleバイアス(これらの学習された特徴が一般化にどのように使われるかの違い)の2つの異なる帰納的バイアスを調査した。 exemplar- vs. rule-based generalizationは認知心理学において広く研究されており、本研究では、学習システムにおけるこのトレードオフを直接発見するためのこれらの実験的アプローチに触発されたプロトコルを提案する。 機能カバレッジを組合せ設定で操作した場合の外挿行動の変化を特徴付ける尺度を提案する。 我々は,様々なモデルと実世界のイメージと言語ドメインの両方について経験的な結果を示す。 特徴レベルの偏見を制御しながら、前例のトレードオフを測定することは、既存の形式主義よりも外挿行動の完全な図式を提供することを示す。 その結果,ほとんどの標準ニューラルネットワークモデルは,データ拡張,公正性,体系的一般化に関する研究において,模範的外挿に対する正当性を持つことがわかった。

Despite the increasing scale of datasets in machine learning, generalization to unseen regions of the data distribution remains crucial. Such extrapolation is by definition underdetermined and is dictated by a learner's inductive biases. Machine learning systems often do not share the same inductive biases as humans and, as a result, extrapolate in ways that are inconsistent with our expectations. We investigate two distinct such inductive biases: feature-level bias (differences in which features are more readily learned) and exemplar-vs-rule bias (differences in how these learned features are used for generalization). Exemplar- vs. rule-based generalization has been studied extensively in cognitive psychology, and, in this work, we present a protocol inspired by these experimental approaches for directly probing this trade-off in learning systems. The measures we propose characterize changes in extrapolation behavior when feature coverage is manipulated in a combinatorial setting. We present empirical results across a range of models and across both expository and real-world image and language domains. We demonstrate that measuring the exemplar-rule trade-off while controlling for feature-level bias provides a more complete picture of extrapolation behavior than existing formalisms. We find that most standard neural network models have a propensity towards exemplar-based extrapolation and discuss the implications of these findings for research on data augmentation, fairness, and systematic generalization.
翻訳日:2021-10-12 18:28:02 公開日:2021-10-08
# FSL:Federated Supermask Learning

FSL: Federated Supermask Learning ( http://arxiv.org/abs/2110.04350v1 )

ライセンス: Link先を確認
Hamid Mozaffari, Virat Shejwalkar and Amir Houmansadr(参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートトレーニングデータを共有せずに、共通の機械学習モデルを協調的にトレーニングすることを可能にする。 FLは攻撃に対する堅牢性と通信効率の2つの大きなハードルに直面している。 そこで本稿では,FSL(Federated Supermask Learning)を提案する。 FSLサーバは、すべての協力するクライアントのローカルサブネットワークを集約することにより、ランダムに初期化されたニューラルネットワーク内でグローバルサブネットワークをトレーニングする。 FSLクライアントはネットワークエッジのランキングという形でローカルサブネットワークを共有している。 整数ランキングを共有することで、フロートウェイトの代わりに、FSLは効果的な中毒更新を行うために利用可能なスペースを制限し、サブネットワークを共有することで、FSLはトレーニングの通信コストを削減できる。 我々は、FSLが設計によって堅牢であり、通信効率が著しく高いことを理論的、実証的に示す。 実世界のFL設定におけるFSLの優位性を示す実験として,(1)FSLは現状のFedAvgと同等の性能を実現し,通信コストを著しく低減する: CIFAR10の場合,FSLはフェデレーション平均化と同じ性能を達成し,通信コストを約35%削減する。 2) FSLは最先端のロバストアグリゲーションアルゴリズムよりも有毒な攻撃に対してかなり堅牢である。 再現性のためのコードをリリースした。

Federated learning (FL) allows multiple clients with (private) data to collaboratively train a common machine learning model without sharing their private training data. In-the-wild deployment of FL faces two major hurdles: robustness to poisoning attacks and communication efficiency. To address these concurrently, we propose Federated Supermask Learning (FSL). FSL server trains a global subnetwork within a randomly initialized neural network by aggregating local subnetworks of all collaborating clients. FSL clients share local subnetworks in the form of rankings of network edges; more useful edges have higher ranks. By sharing integer rankings, instead of float weights, FSL restricts the space available to craft effective poisoning updates, and by sharing subnetworks, FSL reduces the communication cost of training. We show theoretically and empirically that FSL is robust by design and also significantly communication efficient; all this without compromising clients' privacy. Our experiments demonstrate the superiority of FSL in real-world FL settings; in particular, (1) FSL achieves similar performances as state-of-the-art FedAvg with significantly lower communication costs: for CIFAR10, FSL achieves same performance as Federated Averaging while reducing communication cost by ~35%. (2) FSL is substantially more robust to poisoning attacks than state-of-the-art robust aggregation algorithms. We have released the code for reproducibility.
翻訳日:2021-10-12 18:27:39 公開日:2021-10-08
# 多変量交通時系列異常検出のためのハンケル構造テンソルロバストPCA

Hankel-structured Tensor Robust PCA for Multivariate Traffic Time Series Anomaly Detection ( http://arxiv.org/abs/2110.04352v1 )

ライセンス: Link先を確認
Xudong Wang, Luis Miranda-Moreno, Lijun Sun(参考訳) センサネットワークから収集された時空間トラフィックデータ(例えばリンク速度/フロー)は、追加の空間特性を持つ多変量時系列として整理することができる。 このようなデータを分析する上で重要なタスクは、複雑な空間的および時間的依存関係を持つデータから異常な観測と事象を特定し、検出することである。 Robust principal Component Analysis (RPCA)は、異常検出のための広く使われているツールである。 しかし、従来のRPCAは、局所的な時間的相関を無視しながら、グローバルな低ランクの仮定に依存している。 そこで本研究では,時空間データの異常検出のためのハンケル構造テンソル型rpcaを提案する。 生データを多変量時系列行列(location $\times$ time)として扱い、復号化行列が低ランク構造を持つと仮定する。 そして、時間的ハンケリゼーションを適用して、低ランク行列を3階テンソルに変換する。 最後に、劣化した行列を低ランクのハンケルテンソルとスパース行列に分解する。 ハンケル化操作により、このモデルは、グローバルとローカルの時空間相関を同時に捉え、より堅牢な性能を示すことができる。 この問題を最適化問題として定式化し、テンソルランクの近似にテンソル核ノルム(tnn)、スパーシティの近似に$l_1$ノルムを用いる。 乗算器の交互方向法(admm)に基づく効率的な解法アルゴリズムを開発した。 3つのハイパーパラメータを持つにもかかわらず、モデルは実際に簡単に設定できる。 提案手法は, 合成データとメトロ乗客フロー時系列を用いて評価し, 異常検出の精度を実証した。

Spatiotemporal traffic data (e.g., link speed/flow) collected from sensor networks can be organized as multivariate time series with additional spatial attributes. A crucial task in analyzing such data is to identify and detect anomalous observations and events from the data with complex spatial and temporal dependencies. Robust Principal Component Analysis (RPCA) is a widely used tool for anomaly detection. However, the traditional RPCA purely relies on the global low-rank assumption while ignoring the local temporal correlations. In light of this, this study proposes a Hankel-structured tensor version of RPCA for anomaly detection in spatiotemporal data. We treat the raw data with anomalies as a multivariate time series matrix (location $\times$ time) and assume the denoised matrix has a low-rank structure. Then we transform the low-rank matrix to a third-order tensor by applying temporal Hankelization. In the end, we decompose the corrupted matrix into a low-rank Hankel tensor and a sparse matrix. With the Hankelization operation, the model can simultaneously capture the global and local spatiotemporal correlations and exhibit more robust performance. We formulate the problem as an optimization problem and use tensor nuclear norm (TNN) to approximate the tensor rank and $l_1$ norm to approximate the sparsity. We develop an efficient solution algorithm based on the Alternating Direction Method of Multipliers (ADMM). Despite having three hyper-parameters, the model is easy to set in practice. We evaluate the proposed method by synthetic data and metro passenger flow time series and the results demonstrate the accuracy of anomaly detection.
翻訳日:2021-10-12 18:26:14 公開日:2021-10-08
# 結合回転に不変な分子キラリティーの3次元表現の学習

Learning 3D Representations of Molecular Chirality with Invariance to Bond Rotations ( http://arxiv.org/abs/2110.04383v1 )

ライセンス: Link先を確認
Keir Adams, Lagnajit Pattanaik, Connor W. Coley(参考訳) 分子キラリティー(分子キラリティー、英: molecular chirality)は、四面体炭素中心付近の結合した隣人の相対的な空間配置を最もよく記述する立体化学の一種で、2dグラフ接続を変更することなく分子がアクセス可能な3d配座体の集合に影響を及ぼす。 キラル性は化学的相互作用、特にタンパク質-ドラッグ結合を強く変化させる。 分子特性予測のために設計されたほとんどの2dグラフニューラルネットワーク(gnns)は、原子ラベルを用いてキラリティーを扱い、e(3)不変な3d gnnはキラリティーに完全不変である。 立体化学を定式化した分子上での表現学習を可能にするため、3次元分子コンホメータのねじれ角を処理するSE(3)不変モデルを設計した。 我々は、内部分子結合に関する回転に新しいタイプの不変性を組み込むことにより、コンフォメーションの柔軟性を明示的にモデル化し、マルチコンフォーマーデータ拡張の必要性を緩和する。 本研究では, 学習空間における異なる立体異性体のコンホメータを識別するコントラスト学習, キラル中心をR/Sに分類する学習, エンテロマーが円偏光でどのように回転するかの予測, タンパクポケット内のドッキングスコアによるエナンチオマーのランク付けを行う。 我々は,我々のモデルであるchiral interroto-invariant neural network (chiro) と2dおよび3d gnnを比較し,分子構造からキラルに敏感な関数を学ぶ際に,その性能が達成可能であることを示す。

Molecular chirality, a form of stereochemistry most often describing relative spatial arrangements of bonded neighbors around tetrahedral carbon centers, influences the set of 3D conformers accessible to the molecule without changing its 2D graph connectivity. Chirality can strongly alter (bio)chemical interactions, particularly protein-drug binding. Most 2D graph neural networks (GNNs) designed for molecular property prediction at best use atomic labels to na\"ively treat chirality, while E(3)-invariant 3D GNNs are invariant to chirality altogether. To enable representation learning on molecules with defined stereochemistry, we design an SE(3)-invariant model that processes torsion angles of a 3D molecular conformer. We explicitly model conformational flexibility by integrating a novel type of invariance to rotations about internal molecular bonds into the architecture, mitigating the need for multi-conformer data augmentation. We test our model on four benchmarks: contrastive learning to distinguish conformers of different stereoisomers in a learned latent space, classification of chiral centers as R/S, prediction of how enantiomers rotate circularly polarized light, and ranking enantiomers by their docking scores in an enantiosensitive protein pocket. We compare our model, Chiral InterRoto-Invariant Neural Network (ChIRo), with 2D and 3D GNNs to demonstrate that our model achieves state of the art performance when learning chiral-sensitive functions from molecular structures.
翻訳日:2021-10-12 18:25:50 公開日:2021-10-08
# コントラスト学習における不確実性としての温度

Temperature as Uncertainty in Contrastive Learning ( http://arxiv.org/abs/2110.04403v1 )

ライセンス: Link先を確認
Oliver Zhang, Mike Wu, Jasmine Bayrooti, Noah Goodman(参考訳) 対照的な学習は、アノテーションなしで表現を学習する優れた能力を示し、教師付きベースラインよりも優れています。 しかし、現実世界のアプリケーションに有用な重要な性質はいまだに欠けている。 本稿では,スケーリングに使用される謎のハイパーパラメータである温度を再設定することで,多くのコントラスト法で不確実性スコアを生成する方法を提案する。 温度が特定の埋め込み位置に対する目標の感度を制御していることを観察して、入力依存変数として温度を学習し、それを埋め込み信頼の尺度として扱う。 このアプローチを"温度を不確実性として"tauと呼んでいる。 実験により,TaUは線形評価のベンチマークと競合しながら,分布外検出に有用であることが示された。 さらに, 事前学習モデルに基づいてTaUを学習し, 一般的な市販モデルを用いて, 不確実性スコアをポストホックに生成できることを示す。 要約すると、TaUは対照的な学習のための不確実性を生成するための単純だが汎用的な方法である。 オープンソースコードは、https://github.com/m hw32/temperature-as- uncertainty-publicで参照できる。

Contrastive learning has demonstrated great capability to learn representations without annotations, even outperforming supervised baselines. However, it still lacks important properties useful for real-world application, one of which is uncertainty. In this paper, we propose a simple way to generate uncertainty scores for many contrastive methods by re-purposing temperature, a mysterious hyperparameter used for scaling. By observing that temperature controls how sensitive the objective is to specific embedding locations, we aim to learn temperature as an input-dependent variable, treating it as a measure of embedding confidence. We call this approach "Temperature as Uncertainty", or TaU. Through experiments, we demonstrate that TaU is useful for out-of-distribution detection, while remaining competitive with benchmarks on linear evaluation. Moreover, we show that TaU can be learned on top of pretrained models, enabling uncertainty scores to be generated post-hoc with popular off-the-shelf models. In summary, TaU is a simple yet versatile method for generating uncertainties for contrastive learning. Open source code can be found at: https://github.com/m hw32/temperature-as- uncertainty-public.
翻訳日:2021-10-12 18:25:18 公開日:2021-10-08
# 3次元メタセグメンテーションニューラルネットワーク

3D Meta-Segmentation Neural Network ( http://arxiv.org/abs/2110.04297v1 )

ライセンス: Link先を確認
Yu Hao, Yi Fang(参考訳) 深層学習手法は3Dポイントクラウド部分分割において大きな成功を収めてきたが、一般に大量のラベル付きトレーニングデータに頼っているため、限られたデータで見つからないクラスに対して不満足な一般化能力に悩まされる。 この問題に対処するために,3次元形状分割関数をタスクとする新しいメタラーニング戦略を提案する。 本手法では,複数の3次元部分分割タスクをトレーニングすることにより,各3次元部分分割関数空間の事前学習が可能となり,新しい部分分割タスクに迅速に適応する最適モデルが導かれる。 メタ学習戦略を実現するために,メタ部分セグメンテーション学習器と部分セグメンテーション学習器という2つの新しいモジュールを提案する。 トレーニングプロセス中、パートセグメンテーション学習者は、いくつかのシナリオで特定の部分セグメンテーションタスクを完了するように訓練される。 一方、メタ部分セグメンテーション学習者は、複数の類似部分セグメンテーションタスクから先行を捉えるように訓練される。 タスク分散の学習情報に基づいて,メタパートセグメンテーション学習者は,部分セグメンテーション学習者を最適なパラメータで動的に更新することが可能であり,部分セグメンテーション学習者が迅速に適応し,新たな部分セグメンテーションタスクに優れた一般化能力を有する。 本モデルは,広く使用されているデータセットであるShapeNetの少数ショット設定により,より優れた部分セグメンテーション性能を実現することを実証する。

Though deep learning methods have shown great success in 3D point cloud part segmentation, they generally rely on a large volume of labeled training data, which makes the model suffer from unsatisfied generalization abilities to unseen classes with limited data. To address this problem, we present a novel meta-learning strategy that regards the 3D shape segmentation function as a task. By training over a number of 3D part segmentation tasks, our method is capable to learn the prior over the respective 3D segmentation function space which leads to an optimal model that is rapidly adapting to new part segmentation tasks. To implement our meta-learning strategy, we propose two novel modules: meta part segmentation learner and part segmentation learner. During the training process, the part segmentation learner is trained to complete a specific part segmentation task in the few-shot scenario. In the meantime, the meta part segmentation learner is trained to capture the prior from multiple similar part segmentation tasks. Based on the learned information of task distribution, our meta part segmentation learner is able to dynamically update the part segmentation learner with optimal parameters which enable our part segmentation learner to rapidly adapt and have great generalization ability on new part segmentation tasks. We demonstrate that our model achieves superior part segmentation performance with the few-shot setting on the widely used dataset: ShapeNet.
翻訳日:2021-10-12 17:37:10 公開日:2021-10-08
# 3次元関節物体の教師なしポーズ認識部分分解

Unsupervised Pose-Aware Part Decomposition for 3D Articulated Objects ( http://arxiv.org/abs/2110.04411v1 )

ライセンス: Link先を確認
Yuki Kawana, Yusuke Mukuta, Tatsuya Harada(参考訳) 関節のある物体は現実世界に広く存在している。 しかし、非教師なし部分分解のための従来の3次元生成法は、空間的に固定された部分の位置を仮定し、不整合部分解析をもたらすため、そのような対象には適さない。 本稿では, 機械的関節を有する人工関節オブジェクトを対象とする新規な環境に, ポーズを考慮したPD(unsupervised Pose-aware Part Decomposition)を提案する。 本研究は,(1)非原始的な暗黙的表現による部分分解の教師なし学習を促進させ,(2)単一フレーム形状の監督下での協調パラメータとして機能することを示す。 提案手法は, 合成および実データに対して評価し, 教師付きベースラインに対して, 比較した部分ポーズ推定性能に基づいて, 先行研究を一貫した部分解析で上回ることを示す。

Articulated objects exist widely in the real world. However, previous 3D generative methods for unsupervised part decomposition are unsuitable for such objects, because they assume a spatially fixed part location, resulting in inconsistent part parsing. In this paper, we propose PPD (unsupervised Pose-aware Part Decomposition) to address a novel setting that explicitly targets man-made articulated objects with mechanical joints, considering the part poses. We show that category-common prior learning for both part shapes and poses facilitates the unsupervised learning of (1) part decomposition with non-primitive-based implicit representation, and (2) part pose as joint parameters under single-frame shape supervision. We evaluate our method on synthetic and real datasets, and we show that it outperforms previous works in consistent part parsing of the articulated objects based on comparable part pose estimation performance to the supervised baseline.
翻訳日:2021-10-12 17:36:43 公開日:2021-10-08
# DPUV3INT8:プログラマブルFPGA推論エンジンのためのコンパイラビュー

DPUV3INT8: A Compiler View to programmable FPGA Inference Engines ( http://arxiv.org/abs/2110.04327v1 )

ライセンス: Link先を確認
Paolo D'Alberto and Jiangsha Ma and Jintao Li and Yiming Hu and Manasa Bollavaram and Shaoxia Fang(参考訳) FPGAの設計は高速で効率的で、いくつかの重要な例でテストされています。 現在、データセンターにデプロイする一般的なソリューションを推測する必要があります。 本稿ではFPGA DPUV3INT8の設計とコンパイラの取り組みについて述べる。 Resnet50\_v1のハンドチューニングによるSW-HWソリューションは、私たちのFPGA実装の2倍のイメージ(スループ)を持ち、コンパイラは、同じ例で1.5倍の性能を達成する手書きのテクニックを一般化し、コンパイラは最適化をネットワークのモデル動物園に一般化し、80%以上のHW効率を達成する。

We have a FPGA design, we make it fast, efficient, and tested for a few important examples. Now we must infer a general solution to deploy in the data center. Here, we describe the FPGA DPUV3INT8 design and our compiler effort. The hand-tuned SW-HW solution for Resnet50\_v1 has (close to) 2 times better images per second (throughput) than our best FPGA implementation; the compiler generalizes the hand written techniques achieving about 1.5 times better performance for the same example, the compiler generalizes the optimizations to a model zoo of networks, and it achieves 80+\% HW efficiency.
翻訳日:2021-10-12 17:13:04 公開日:2021-10-08
# 性別・年齢・人種における要約システムの評価

Evaluation of Summarization Systems across Gender, Age, and Race ( http://arxiv.org/abs/2110.04384v1 )

ライセンス: Link先を確認
Anna J{\o}rgensen and Anders S{\o}gaard(参考訳) 要約システムは最終的に、人間の注釈と格付けによって評価される。 通常、アノテーターやラッカーはエンドユーザの人口統計を反映しないが、学生やクラウドソーシングプラットフォームを通じて採用される。 ゴールドサマリーに対する評価とシステムアウトプットレーティングの2つの異なる評価シナリオについて,サマリー評価が保護属性に敏感であることを示す。 これはシステム開発と評価を厳しくバイアスし、他のグループよりも一部のグループに対応するモデルを構築することにつながります。

Summarization systems are ultimately evaluated by human annotators and raters. Usually, annotators and raters do not reflect the demographics of end users, but are recruited through student populations or crowdsourcing platforms with skewed demographics. For two different evaluation scenarios -- evaluation against gold summaries and system output ratings -- we show that summary evaluation is sensitive to protected attributes. This can severely bias system development and evaluation, leading us to build models that cater for some groups rather than others.
翻訳日:2021-10-12 17:12:50 公開日:2021-10-08
# 言語因子によるBERT評価尺度のグローバル説明可能性

Global Explainability of BERT-Based Evaluation Metrics by Disentangling along Linguistic Factors ( http://arxiv.org/abs/2110.04399v1 )

ライセンス: Link先を確認
Marvin Kaster, Wei Zhao, Steffen Eger(参考訳) 評価指標はテキスト生成システムの進歩の鍵となる要素である。 近年,20年前に発明されたbleuやrougeよりも,テキスト生成品質の人間的評価と非常によく相関するbertscore, moverscore, bleurtなど,bertベースの評価指標が提案されている。 しかしながら、ブラックボックス言語モデル表現に基づくこれらのメトリクスが何であるかは分かっていない(通常、それらが意味論的類似性をモデル化していると仮定される)。 本研究では, 単純な回帰に基づくグローバルな説明可能性手法を用いて, 意味論, 構文学, 形態学, 語彙的重なりなど言語的要因に沿って, 計量スコアをアンタングル化する。 異なるメトリクスは、あらゆる側面をある程度捉えているが、bleuやrougeのように語彙の重なりに実質的に敏感であることを示している。 これは、新しく提案されたメトリクスの制限を明らかにします。

Evaluation metrics are a key ingredient for progress of text generation systems. In recent years, several BERT-based evaluation metrics have been proposed (including BERTScore, MoverScore, BLEURT, etc.) which correlate much better with human assessment of text generation quality than BLEU or ROUGE, invented two decades ago. However, little is known what these metrics, which are based on black-box language model representations, actually capture (it is typically assumed they model semantic similarity). In this work, we \wei{use a simple regression based global explainability technique to} disentangle metric scores along linguistic factors, including semantics, syntax, morphology, and lexical overlap. We show that the different metrics capture all aspects to some degree, but that they are all substantially sensitive to lexical overlap, just like BLEU and ROUGE. This exposes limitations of these novelly proposed metrics, which we also highlight in an adversarial test scenario.
翻訳日:2021-10-12 17:11:43 公開日:2021-10-08
# HydraSum --マルチデコーダモデルを用いたテキスト要約におけるスティリスティック特徴の分散化

HydraSum -- Disentangling Stylistic Features in Text Summarization using Multi-Decoder Models ( http://arxiv.org/abs/2110.04400v1 )

ライセンス: Link先を確認
Tanya Goyal, Nazneen Fatema Rajani, Wenhao Liu, Wojciech Kry\'sci\'nski(参考訳) 既存の抽象要約モデルは、ユーザがモデル出力のスタイル的特徴に影響を与えることができる明示的な制御機構を欠いている。 これにより、ユーザのニーズや好みに適合しない一般的な要約を生成する。 この問題に対処するため、HydraSumという新しい要約アーキテクチャを導入し、BARTのような現行モデルの単一デコーダフレームワークを、複数のデコーダからなる混合専門家バージョンに拡張した。 提案したモデルは,各専門家,すなわちデコーダに対して,抽象性,長さ,特異性などの次元に沿ったスタイリスティックな要約を学習し,生成することを奨励する。 それぞれの段階において、HydraSumは、次のトークンの出力確率分布に対する個々のデコーダの寄与を決定するゲーティング機構を使用する。 3つの要約データセット(cnn、newsroom、xsum)の実験を通じて、このゲーティングメカニズムは、追加の監督を必要とせずに、異なるハイドロサムデコーダにコントラストされた要約スタイルを割り当てることを自動的に学習できることを実証する。 さらに, 学習過程の指導版では, デコーダ間でどの要約スタイルが分割されているか, 高抽象性, 低特異性, 低特異性, 個々のデコーダ間のスタイリスティック・ディファレンスを高めることができることを示した。 推論中、デコーダの異なるサブセットの個々のデコーダや混合物からサンプルを採取して、さまざまなサマリーセットを生成し、サマリ生成に対してシングルスタイルとマルチスタイルの制御を強制することができます。

Existing abstractive summarization models lack explicit control mechanisms that would allow users to influence the stylistic features of the model outputs. This results in generating generic summaries that do not cater to the users needs or preferences. To address this issue we introduce HydraSum, a new summarization architecture that extends the single decoder framework of current models, e.g. BART, to a mixture-of-experts version consisting of multiple decoders. Our proposed model encourages each expert, i.e. decoder, to learn and generate stylistically-distin ct summaries along dimensions such as abstractiveness, length, specificity, and others. At each time step, HydraSum employs a gating mechanism that decides the contribution of each individual decoder to the next token's output probability distribution. Through experiments on three summarization datasets (CNN, Newsroom, XSum), we demonstrate that this gating mechanism automatically learns to assign contrasting summary styles to different HydraSum decoders under the standard training objective without the need for additional supervision. We further show that a guided version of the training process can explicitly govern which summary style is partitioned between decoders, e.g. high abstractiveness vs. low abstractiveness or high specificity vs. low specificity, and also increase the stylistic-difference between individual decoders. Finally, our experiments demonstrate that our decoder framework is highly flexible: during inference, we can sample from individual decoders or mixtures of different subsets of the decoders to yield a diverse set of summaries and enforce single- and multi-style control over summary generation.
翻訳日:2021-10-12 17:11:25 公開日:2021-10-08
# 人体安全対策のための顔カットアルゴリズムを応用したマスク認識

COVID-19 Face Mask Recognition with Advanced Face Cut Algorithm for Human Safety Measures ( http://arxiv.org/abs/2110.04316v1 )

ライセンス: Link先を確認
Arkaprabha Basu, Md Firoj Ali(参考訳) 昨年、COVID-19(COVID-19)の流行は、コンピュータービジョンと機械学習アルゴリズムをさまざまな分野に展開し、人間の生命の相互作用を強化した。 COVID-19は、人体の呼吸器に主に影響を及ぼす、高度に汚染された病気である。 この状況では、ウイルスが空気中に汚染され、非マスクの人が影響を受ける可能性があるため、マスクを着用しなければならない。 本提案では,画像やビデオから顔のマスクを認識するコンピュータビジョンとディープラーニングフレームワークをデプロイする。 本研究では,27個のランドマークを用いて画像から顔を切り離し,さらにdeep learning resnet50モデルに前処理画像を送信する境界依存顔カット認識アルゴリズムを実装した。 実験結果は、わずか10年でyolov3マスク認識アーキテクチャに比べて3.4%の大幅な進歩を示した。

In the last year, the outbreak of COVID-19 has deployed computer vision and machine learning algorithms in various fields to enhance human life interactions. COVID-19 is a highly contaminated disease that affects mainly the respiratory organs of the human body. We must wear a mask in this situation as the virus can be contaminated through the air and a non-masked person can be affected. Our proposal deploys a computer vision and deep learning framework to recognize face masks from images or videos. We have implemented a Boundary dependent face cut recognition algorithm that can cut the face from the image using 27 landmarks and then the preprocessed image can further be sent to the deep learning ResNet50 model. The experimental result shows a significant advancement of 3.4 percent compared to the YOLOV3 mask recognition architecture in just 10 epochs.
翻訳日:2021-10-12 16:41:10 公開日:2021-10-08
# 視覚トランスフォーマーの逆トークン攻撃

Adversarial Token Attacks on Vision Transformers ( http://arxiv.org/abs/2110.04337v1 )

ライセンス: Link先を確認
Ameya Joshi, Gauri Jagatap, Chinmay Hegde(参考訳) 視覚トランスフォーマーは畳み込みネットワークとは対照的にパッチトークンベースの自己注意機構に依存している。 ブロックスパルシティーに基づく敵トークン攻撃の設計により,これら2つのモデル間の根本的な違いについて検討する。 我々は,様々なパッチサイズのトークン攻撃を伴う畳み込みモデルと同様にトランスフォーマを調査し,解析する。 我々は、トランスフォーマーモデルは畳み込みモデルよりもトークン攻撃に敏感であり、単一トークン攻撃に対する堅牢な精度で最大$\sim30\%のresnetがトランスフォーマーモデルを上回ると推測する。

Vision transformers rely on a patch token based self attention mechanism, in contrast to convolutional networks. We investigate fundamental differences between these two families of models, by designing a block sparsity based adversarial token attack. We probe and analyze transformer as well as convolutional models with token attacks of varying patch sizes. We infer that transformer models are more sensitive to token attacks than convolutional models, with ResNets outperforming Transformer models by up to $\sim30\%$ in robust accuracy for single token attacks.
翻訳日:2021-10-12 16:40:04 公開日:2021-10-08
# gaussian mixtures of image featuresを用いた生成ネットワークの評価

Evaluating generative networks using Gaussian mixtures of image features ( http://arxiv.org/abs/2110.05240v1 )

ライセンス: Link先を確認
Lorenzo Luzi, Carlos Ortiz Marrero, Nile Wynar, Richard G. Baraniuk, Michael J. Henry(参考訳) 2つの画像セットを与えられた生成ネットワークの性能評価手法を開発した。 現在よく使われているパフォーマンス指標はFr\echet Inception Distance (FID)である。 しかし、FID は Inception-v3 の直列層を用いた画像はガウス分布に従うと仮定する。 この仮定により、FIDは2つのガウス分布の2-ワッサーシュタイン距離をデマチュアライズされた画像に当てはめるため、FIDを容易に計算できる。 しかし、imagenetデータセットのinception-v3機能はガウス的ではなく、特に各辺はガウス的ではない。 この問題を解決するために,ガウス混合モデル (gmms) を用いて,gmms に制限された 2-wasserstein 距離を計算する。 Inception-v3(または別の分類器)を用いて2つのGMMを推定し、制限された2-ワッサーシュタイン距離を用いてGMMを比較することで、2つの画像に対してWaMと呼ぶ性能尺度を定義する。 画像摂動に対して、FIDがWaMよりも感度が高いことを含む、FIDに対するWaMの利点を実験的に示す。 Inception-v3 から得られた非ガウス的特徴を GMM としてモデル化し,GMM を用いて生成ネットワークの性能をより正確に評価することができる。

We develop a measure for evaluating the performance of generative networks given two sets of images. A popular performance measure currently used to do this is the Fr\'echet Inception Distance (FID). However, FID assumes that images featurized using the penultimate layer of Inception-v3 follow a Gaussian distribution. This assumption allows FID to be easily computed, since FID uses the 2-Wasserstein distance of two Gaussian distributions fitted to the featurized images. However, we show that Inception-v3 features of the ImageNet dataset are not Gaussian; in particular, each marginal is not Gaussian. To remedy this problem, we model the featurized images using Gaussian mixture models (GMMs) and compute the 2-Wasserstein distance restricted to GMMs. We define a performance measure, which we call WaM, on two sets of images by using Inception-v3 (or another classifier) to featurize the images, estimate two GMMs, and use the restricted 2-Wasserstein distance to compare the GMMs. We experimentally show the advantages of WaM over FID, including how FID is more sensitive than WaM to image perturbations. By modelling the non-Gaussian features obtained from Inception-v3 as GMMs and using a GMM metric, we can more accurately evaluate generative network performance.
翻訳日:2021-10-12 16:07:52 公開日:2021-10-08
# Causal ImageNet: ディープラーニングの急激な機能を見つけるには?

Causal ImageNet: How to discover spurious features in Deep Learning? ( http://arxiv.org/abs/2110.04301v1 )

ライセンス: Link先を確認
Sahil Singla, Soheil Feizi(参考訳) 現実世界におけるディープニューラルネットワークの信頼性の欠如の主な理由は、真のラベルとは因果関係のない"it spurious"入力機能に強く依存しているためである。 画像の分類に焦点をあてて、因果属性を常にオブジェクトの一部である視覚的特徴の集合として定義し、スプリアス属性はオブジェクトと共起する可能性が高いが、その一部ではないもの(例えば、クラス ``band aid に対する属性 ``fingers" など)と定義する。 突発的な特徴を発見する従来の方法は、広範囲な人間のアノテーションを必要とするか、あるいは特定のモデルで有用である。 本研究では,汎用モデルの推論に使用されるスプリアスと因果的視覚属性のサブセットを探索し,人間の監督を最小限に抑えながら,多数の画像にローカライズする「it scalable」フレームワークを提案する。 我々の方法論は、モデル予測に使用される刺激的または因果的 \textit{visual attribute} を識別するために、人間の監督(例えば、機能ごとのトップ5アクティベート画像)によって、刺激的または因果的 \textit{neural features} (ロバストモデルの最小層ニューロン)を識別する。 すると、これらのニューラル特徴アノテーションは、人間の監督なしに、さらに多くの画像に非常によく一般化する。 我々はこれらの神経機能にアクティベーションマップをソフトマスクとして使用し、刺激や因果的な視覚特性を強調する。 本手法を用いて,Imagenet から得られた大量のサンプルに対して,因果マスクと突発マスクを含む {\it Causal Imagenet} データセットを提案する。 我々は、人気のあるimagenetモデルの性能を評価し、予測において様々なスプリアス機能に大きく依存していることを示す。

A key reason for the lack of reliability of deep neural networks in the real world is their heavy reliance on {\it spurious} input features that are causally unrelated to the true label. Focusing on image classifications, we define causal attributes as the set of visual features that are always a part of the object while spurious attributes are the ones that are likely to {\it co-occur} with the object but not a part of it (e.g., attribute ``fingers" for class ``band aid"). Traditional methods for discovering spurious features either require extensive human annotations (thus, not scalable), or are useful on specific models. In this work, we introduce a {\it scalable} framework to discover a subset of spurious and causal visual attributes used in inferences of a general model and localize them on a large number of images with minimal human supervision. Our methodology is based on this key idea: to identify spurious or causal \textit{visual attributes} used in model predictions, we identify spurious or causal \textit{neural features} (penultimate layer neurons of a robust model) via limited human supervision (e.g., using top 5 activating images per feature). We then show that these neural feature annotations {\it generalize} extremely well to many more images {\it without} any human supervision. We use the activation maps for these neural features as the soft masks to highlight spurious or causal visual attributes. Using this methodology, we introduce the {\it Causal Imagenet} dataset containing causal and spurious masks for a large set of samples from Imagenet. We assess the performance of several popular Imagenet models and show that they rely heavily on various spurious features in their predictions.
翻訳日:2021-10-12 15:54:08 公開日:2021-10-08
# サブスペースクラスタリングのための自己表現型ネットワークの学習

Learning a Self-Expressive Network for Subspace Clustering ( http://arxiv.org/abs/2110.04318v1 )

ライセンス: Link先を確認
Shangzhi Zhang, Chong You, Ren\'e Vidal and Chun-Guang Li(参考訳) 最先端のサブスペースクラスタリング手法は、各データポイントを他のデータポイントの線形結合として表現する自己表現モデルに基づいている。 しかし、そのような手法は有限サンプルデータセットのために設計されており、サンプル外データに一般化する能力に欠ける。 また、自己表現係数の数はデータ点数と二乗的に増加するため、大規模なデータセットを扱う能力は限られることが多い。 本稿では,自己表現型表現を学習するために,適切に設計されたニューラルネットワークを用いた,自己表現型ネットワーク(SENet)と呼ばれるサブスペースクラスタリングのための新しいフレームワークを提案する。 我々のSENetは、トレーニングデータに望ましい特性を持つ自己表現係数を学習できるだけでなく、サンプル外データも扱えることを示す。 さらに,大規模データセット上でサブスペースクラスタリングを行うために,senetも活用可能であることを示す。 合成データと実世界のベンチマークデータを用いた広範な実験により,提案手法の有効性が検証された。 特に、SENetはMNIST、Fashion MNIST、Extended MNISTで高い競争力を発揮し、CIFAR-10で最先端のパフォーマンスを得る。 コードはhttps://github.com/z hangsz1998/self-expr essive-networkで入手できる。

State-of-the-art subspace clustering methods are based on self-expressive model, which represents each data point as a linear combination of other data points. However, such methods are designed for a finite sample dataset and lack the ability to generalize to out-of-sample data. Moreover, since the number of self-expressive coefficients grows quadratically with the number of data points, their ability to handle large-scale datasets is often limited. In this paper, we propose a novel framework for subspace clustering, termed Self-Expressive Network (SENet), which employs a properly designed neural network to learn a self-expressive representation of the data. We show that our SENet can not only learn the self-expressive coefficients with desired properties on the training data, but also handle out-of-sample data. Besides, we show that SENet can also be leveraged to perform subspace clustering on large-scale datasets. Extensive experiments conducted on synthetic data and real world benchmark data validate the effectiveness of the proposed method. In particular, SENet yields highly competitive performance on MNIST, Fashion MNIST and Extended MNIST and state-of-the-art performance on CIFAR-10. The code is available at https://github.com/z hangsz1998/Self-Expr essive-Network.
翻訳日:2021-10-12 15:53:27 公開日:2021-10-08
# SubTab:自己教師付き表現学習のための語彙データのサブセット機能

SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning ( http://arxiv.org/abs/2110.04361v1 )

ライセンス: Link先を確認
Talip Ucar, Ehsan Hajiramezanali, Lindsay Edwards(参考訳) 自己教師付き学習は有用な表現の学習に非常に有効であることが示されているが、画像、音声、テキストといったデータ型で多くの成功が達成されている。 この成功は主に、拡張を通じてデータの空間的、時間的、あるいは意味的な構造を活用することで実現される。 しかし、そのような構造は医療などの分野で一般的に使用される表型データセットには存在せず、効果的な拡張方法の設計が困難であり、表型データセットの同様の進歩を妨げる可能性がある。 本稿では,入力特徴を複数のサブセットに分割することにより,表データから学習するタスクを多視点表現学習問題に変換する,表データ(subtab)の機能サブセット化という新しいフレームワークを提案する。 私たちは、オートエンコーダ設定で破損したバージョンではなく、機能のサブセットからデータを再構築することは、その基礎となる潜在表現をよりよく捉えることができると主張している。 このフレームワークでは、ジョイント表現はテスト時にサブセットの潜在変数の集合として表現することができ、これは協調推論(collaborative inference)と呼ばれる。 実験の結果,サブタブはCNNベースのSOTAモデルに匹敵するMNISTの98.31%の性能を達成し,既存の3つの実世界のデータセットのベースラインをかなり上回っていることがわかった。

Self-supervised learning has been shown to be very effective in learning useful representations, and yet much of the success is achieved in data types such as images, audio, and text. The success is mainly enabled by taking advantage of spatial, temporal, or semantic structure in the data through augmentation. However, such structure may not exist in tabular datasets commonly used in fields such as healthcare, making it difficult to design an effective augmentation method, and hindering a similar progress in tabular data setting. In this paper, we introduce a new framework, Subsetting features of Tabular data (SubTab), that turns the task of learning from tabular data into a multi-view representation learning problem by dividing the input features to multiple subsets. We argue that reconstructing the data from the subset of its features rather than its corrupted version in an autoencoder setting can better capture its underlying latent representation. In this framework, the joint representation can be expressed as the aggregate of latent variables of the subsets at test time, which we refer to as collaborative inference. Our experiments show that the SubTab achieves the state of the art (SOTA) performance of 98.31% on MNIST in tabular setting, on par with CNN-based SOTA models, and surpasses existing baselines on three other real-world datasets by a significant margin.
翻訳日:2021-10-12 15:34:31 公開日:2021-10-08
# ハイブリッドランダムの特徴

Hybrid Random Features ( http://arxiv.org/abs/2110.04367v1 )

ライセンス: Link先を確認
Krzysztof Choromanski, Haoxian Chen, Han Lin, Yuanzhe Ma, Arijit Sehanobish, Deepali Jain, Michael S Ryoo, Jake Varley, Andy Zeng, Valerii Likhosherstov, Dmitry Kalashnikov, Vikas Sindhwani, Adrian Weller(参考訳) 本稿では,カーネル推定の品質を自動的に適応して,関心領域の最も正確な近似を行う,Hybrid random Features (HRFs) と呼ばれる,ソフトマックスとガウスカーネルの線形化のための新しいランダム特徴法を提案する。 HRFの特殊インスタンス化は三角法 (Rahimi and Recht, 2007) や正のランダム特徴 (Choromanski et al., 2021) のようなよく知られた方法につながる。 ボッヒナーのソフトマックス/ガウス核の定理を一般化し、構成核のランダムな特徴を活用することで、HRF-メカニズムは、非バイアス近似とそれよりはるかに小さな最悪の相対誤差という強力な理論的保証を提供する。 我々は、ポイントワイドカーネル推定実験からクラスタリング構造を認めるデータテスト、暗黙のアテンション変換器(ダウンストリームロボティクスアプリケーションも含む)のベンチマークに至るまで、HRFの徹底的な評価を行い、幅広い機械学習問題においてその品質を実証した。

We propose a new class of random feature methods for linearizing softmax and Gaussian kernels called hybrid random features (HRFs) that automatically adapt the quality of kernel estimation to provide most accurate approximation in the defined regions of interest. Special instantiations of HRFs lead to well-known methods such as trigonometric (Rahimi and Recht, 2007) or (recently introduced in the context of linear-attention Transformers) positive random features (Choromanski et al., 2021). By generalizing Bochner's Theorem for softmax/Gaussian kernels and leveraging random features for compositional kernels, the HRF-mechanism provides strong theoretical guarantees - unbiased approximation and strictly smaller worst-case relative errors than its counterparts. We conduct exhaustive empirical evaluation of HRF ranging from pointwise kernel estimation experiments, through tests on data admitting clustering structure to benchmarking implicit-attention Transformers (also for downstream Robotics applications), demonstrating its quality in a wide spectrum of machine learning problems.
翻訳日:2021-10-12 15:34:07 公開日:2021-10-08
# 複雑なタスクに対する分散マッチングによるトランジッションポリシのトレーニング

Training Transition Policies via Distribution Matching for Complex Tasks ( http://arxiv.org/abs/2110.04357v1 )

ライセンス: Link先を確認
Ju-Seung Byun, Andrew Perrault(参考訳) 人間は、新しい複雑なタスクをより単純なタスクに分解して、以前に学んだスキルを活用する。 同様に、階層的強化学習は、複雑な問題を解くための単純なタスクのための低レベルのポリシーを活用しようとする。 しかし、それぞれの下級政策が異なる状態分布を誘導するため、下級政策から別の政策への移行は予期せぬ開始状態のために失敗する可能性がある。 我々は,次の政策が期待するものに合致する状態と行動の分布を生み出すことによって,下級政策を円滑に結び付ける移行政策を導入する。 移行政策の訓練は、次の政策がそのサブタスクをうまく実行できるかどうかという自然な報酬信号が不足しているため、難しい。 予測状態と行動の分布に合わせるために、逆逆強化学習による移行政策を訓練することにより、タスクベースの報酬に頼ることは避ける。 さらに性能向上のために,二元的行動空間を持つ深層Q-ラーニングを用いて,次のサブタスクの成功や失敗を報酬として,移行方針から次の事前学習方針への切り替え時期を決定する。 報酬はまだ疎いが、単純な二分作用空間のため問題はそれほど深刻ではない。 本手法は,多様なスキルを必要とする連続二足歩行と腕操作の課題について実証する。 提案手法は,報酬関数に基づくトラジェクタを探索する従来の手法よりも高い成功率を達成するために,低レベルのポリシをスムーズに接続し,状態分布と一致しないことを示す。

Humans decompose novel complex tasks into simpler ones to exploit previously learned skills. Analogously, hierarchical reinforcement learning seeks to leverage lower-level policies for simple tasks to solve complex ones. However, because each lower-level policy induces a different distribution of states, transitioning from one lower-level policy to another may fail due to an unexpected starting state. We introduce transition policies that smoothly connect lower-level policies by producing a distribution of states and actions that matches what is expected by the next policy. Training transition policies is challenging because the natural reward signal -- whether the next policy can execute its subtask successfully -- is sparse. By training transition policies via adversarial inverse reinforcement learning to match the distribution of expected states and actions, we avoid relying on task-based reward. To further improve performance, we use deep Q-learning with a binary action space to determine when to switch from a transition policy to the next pre-trained policy, using the success or failure of the next subtask as the reward. Although the reward is still sparse, the problem is less severe due to the simple binary action space. We demonstrate our method on continuous bipedal locomotion and arm manipulation tasks that require diverse skills. We show that it smoothly connects the lower-level policies, achieving higher success rates than previous methods that search for successful trajectories based on a reward function, but do not match the state distribution.
翻訳日:2021-10-12 15:21:54 公開日:2021-10-08
# 深層学習におけるトレーニング不安定性の損失曲線的視点

A Loss Curvature Perspective on Training Instability in Deep Learning ( http://arxiv.org/abs/2110.04369v1 )

ライセンス: Link先を確認
Justin Gilmer, Behrooz Ghorbani, Ankush Garg, Sneha Kudugunta, Behnam Neyshabur, David Cardoze, George Dahl, Zachary Nado, Orhan Firat(参考訳) 本研究では,損失の曲率がトレーニング力学に与える影響を理解するために,多くの分類課題における損失ヘッセンの進化について検討する。 先行研究では,学習速度の違いが学習中のヘシアンの損失に与える影響に焦点が当てられているが,モデルの初期化,アーキテクチャ選択,勾配クリッピングや学習速度ウォームアップといった一般的なトレーニングヒューリスティックの影響も分析した。 その結果、モデルとハイパーパラメータの選択の成功により、早期の最適化軌道は、高い曲率の領域から、より高い学習率を許容するより平坦な領域への移動を回避できることがわかった。 この結果から,不安定なトレーニングにおける異なる緩和戦略が,最終的にニューラルネットワーク最適化の基盤となる障害モードである低条件化に最終的にどのように対処するか,という統一的な視点が示唆された。 条件づけの観点に触発されて,学習速度ウォームアップはバッチ正規化,レイヤ正規化,メタイット,gradinit,fixup初期化と同様に,トレーニング安定性を向上させることができることを示した。

In this work, we study the evolution of the loss Hessian across many classification tasks in order to understand the effect the curvature of the loss has on the training dynamics. Whereas prior work has focused on how different learning rates affect the loss Hessian observed during training, we also analyze the effects of model initialization, architectural choices, and common training heuristics such as gradient clipping and learning rate warmup. Our results demonstrate that successful model and hyperparameter choices allow the early optimization trajectory to either avoid -- or navigate out of -- regions of high curvature and into flatter regions that tolerate a higher learning rate. Our results suggest a unifying perspective on how disparate mitigation strategies for training instability ultimately address the same underlying failure mode of neural network optimization, namely poor conditioning. Inspired by the conditioning perspective, we show that learning rate warmup can improve training stability just as much as batch normalization, layer normalization, MetaInit, GradInit, and Fixup initialization.
翻訳日:2021-10-12 15:21:29 公開日:2021-10-08
# KG-FiD:Open-Domain Question AnsweringのためのFusion-in-Decoderにおける知識グラフの注入

KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain Question Answering ( http://arxiv.org/abs/2110.04330v1 )

ライセンス: Link先を確認
Donghan Yu, Chenguang Zhu, Yuwei Fang, Wenhao Yu, Shuohang Wang, Yichong Xu, Xiang Ren, Yiming Yang, Michael Zeng(参考訳) 現在のOpen-Domain Question Answering (ODQA)モデルパラダイムは、しばしば検索モジュールと読み込みモジュールを含んでいる。 入力質問が与えられた場合、読み出しモジュールは、検索者が検索する関連する通路から回答を予測する。 最近提案されたFusion-in-Decoder (FiD)は、事前訓練された生成モデルT5の上に構築されており、読み出しモジュールの最先端性能を実現する。 有効性はあるものの、多くのノイズを含む全ての回収された通路に対する非効率な注意による制約が残っている。 本研究では,知識グラフを用いた検索文間の構造的関係を活かし,雑音通路をフィルタする手法であるkg-fidを提案する。 我々は、FiDエンコーダからのパスノード埋め込みを開始し、グラフニューラルネットワーク(GNN)を使用して、再ランク付けのための表現を更新する。 効率を向上させるため、fidエンコーダの中間層出力の上にgnnを構築し、解答生成のためのエンコーダとデコーダの上位層に数個のトップリランクされたパスだけを渡す。 また,提案手法を適用し,検索モジュールにおける経路検索結果の精度向上を図る。 共通ODQAベンチマークデータセット(Natural Question and TriviaQA)の大規模な実験により、KG-FiDは、解答正確なマッチスコアで最大1.5%のバニラFiDを改善でき、計算コストのわずか40%でFiDと同等のパフォーマンスを達成できることが示された。

Current Open-Domain Question Answering (ODQA) model paradigm often contains a retrieving module and a reading module. Given an input question, the reading module predicts the answer from the relevant passages which are retrieved by the retriever. The recent proposed Fusion-in-Decoder (FiD), which is built on top of the pretrained generative model T5, achieves the state-of-the-art performance in the reading module. Although being effective, it remains constrained by inefficient attention on all retrieved passages which contain a lot of noise. In this work, we propose a novel method KG-FiD, which filters noisy passages by leveraging the structural relationship among the retrieved passages with a knowledge graph. We initiate the passage node embedding from the FiD encoder and then use graph neural network (GNN) to update the representation for reranking. To improve the efficiency, we build the GNN on top of the intermediate layer output of the FiD encoder and only pass a few top reranked passages into the higher layers of encoder and decoder for answer generation. We also apply the proposed GNN based reranking method to enhance the passage retrieval results in the retrieving module. Extensive experiments on common ODQA benchmark datasets (Natural Question and TriviaQA) demonstrate that KG-FiD can improve vanilla FiD by up to 1.5% on answer exact match score and achieve comparable performance with FiD with only 40% of computation cost.
翻訳日:2021-10-12 15:12:25 公開日:2021-10-08
# パラメータ効率向上学習の統一的視点に向けて

Towards a Unified View of Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2110.04366v1 )

ライセンス: Link先を確認
Junxian He, Chunting Zhou, Xuezhe Ma, Taylor Berg-Kirkpatrick, Graham Neubig(参考訳) 下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。 しかし、従来のアプローチでは、モデルのサイズやタスクの数が増えるにつれて、事前訓練されたモデルのパラメータをすべて微調整する。 近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。 効果はあるものの、成功の鍵となる要素と様々な方法間のつながりは理解されていない。 本稿では,最先端なパラメータ効率変換学習手法の設計を分解し,それらの相互接続を確立する統一フレームワークを提案する。 具体的には、事前訓練されたモデルにおける特定の隠れ状態に対する修正として再構成し、修正を計算する関数や修正を適用する位置など、異なる方法が変化する設計次元のセットを定義する。 機械翻訳,テキスト要約,言語理解,テキスト分類ベンチマークの包括的実証研究を通じて,従来の手法における重要な設計選択を統一ビューを用いて識別する。 さらに、我々の統合されたフレームワークは、異なるアプローチ間で設計要素の転送を可能にし、その結果、従来の方法よりも少ないパラメータをチューニングできる新しいパラメータ効率の微調整メソッドをインスタンス化でき、より効果的で、4つのタスクすべてで全てのパラメータを微調整できる。

Fine-tuning large pre-trained language models on downstream tasks has become the de-facto learning paradigm in NLP. However, conventional approaches fine-tune all the parameters of the pre-trained model, which becomes prohibitive as the model size and the number of tasks grow. Recent work has proposed a variety of parameter-efficient transfer learning methods that only fine-tune a small number of (extra) parameters to attain strong performance. While effective, the critical ingredients for success and the connections among the various methods are poorly understood. In this paper, we break down the design of state-of-the-art parameter-efficient transfer learning methods and present a unified framework that establishes connections between them. Specifically, we re-frame them as modifications to specific hidden states in pre-trained models, and define a set of design dimensions along which different methods vary, such as the function to compute the modification and the position to apply the modification. Through comprehensive empirical studies across machine translation, text summarization, language understanding, and text classification benchmarks, we utilize the unified view to identify important design choices in previous methods. Furthermore, our unified framework enables the transfer of design elements across different approaches, and as a result we are able to instantiate new parameter-efficient fine-tuning methods that tune less parameters than previous methods while being more effective, achieving comparable results to fine-tuning all parameters on all four tasks.
翻訳日:2021-10-12 15:11:58 公開日:2021-10-08
# 加速MRIのためのスコアベース拡散モデル

Score-based diffusion models for accelerated MRI ( http://arxiv.org/abs/2110.05243v1 )

ライセンス: Link先を確認
Hyungjin Chung, Jong chul Ye(参考訳) スコアベース拡散モデルは、データ分布の勾配を利用して画像をモデル化する強力な方法を提供する。 本稿では, 学習スコア関数を先行的に活用し, 画像の逆問題, 特にmriの高速化にモデルが容易に利用できるように, 条件分布からデータをサンプリングする方法を提案する。 つまり,連続時間依存スコア関数を訓練し,スコアマッチングを行う。 そして、推論段階で、数値SDEソルバとデータ一貫性予測ステップを反復して再構成を行う。 本モデルでは,トレーニングにのみマグニチュード画像が必要となるが,複雑な値データの再構成が可能であり,並列イメージングまで拡張可能である。 提案手法はサブサンプリングパターンに依存しず,任意のサンプリング方式で使用することができる。 また,その生成的性質から,標準回帰設定では不可能である不確実性を定量化することができる。 あらゆる利点に加えて、我々の手法は非常に強力な性能を持ち、完全な監督で訓練されたモデルにも勝っている。 広範な実験により,本手法の優れた品質と実用性を検証する。

Score-based diffusion models provide a powerful way to model images using the gradient of the data distribution. Leveraging the learned score function as a prior, here we introduce a way to sample data from a conditional distribution given the measurements, such that the model can be readily used for solving inverse problems in imaging, especially for accelerated MRI. In short, we train a continuous time-dependent score function with denoising score matching. Then, at the inference stage, we iterate between numerical SDE solver and data consistency projection step to achieve reconstruction. Our model requires magnitude images only for training, and yet is able to reconstruct complex-valued data, and even extends to parallel imaging. The proposed method is agnostic to sub-sampling patterns, and can be used with any sampling schemes. Also, due to its generative nature, our approach can quantify uncertainty, which is not possible with standard regression settings. On top of all the advantages, our method also has very strong performance, even beating the models trained with full supervision. With extensive experiments, we verify the superiority of our method in terms of quality and practicality.
翻訳日:2021-10-12 14:46:07 公開日:2021-10-08
# 変換子/畳み込み/BERT/ミキサー/アテンション/RNNや...のない大規模オーディオ理解。

Large Scale Audio Understanding without Transformers/ Convolutions/ BERTs/ Mixers/ Attention/ RNNs or .... ( http://arxiv.org/abs/2110.03183v2 )

ライセンス: Link先を確認
Prateek Verma(参考訳) 本稿では,従来のニューラルアーキテクチャを使わずに大規模音声理解を行う方法を提案する。 過去10年間にオーディオ信号を理解するためのディープラーニングが導入されて以来、畳み込みアーキテクチャーは、従来の手作りの特徴を超越した成果を達成できた。 近年では、従来の畳み込みおよび再帰的なニューラルネットワークから、純粋にエンドツーエンドのトランスフォーマーアーキテクチャへと、同様のシフトが起きている。 本研究では,Bag-of-Wordsモデルに基づくアプローチについて検討する。 私たちのアプローチには、コンボリューション、再発、注意、トランスフォーマー、BERTのような他のアプローチはありません。 マイクロおよびマクロレベルのクラスタ化バニラ埋め込みを使用し,MLPヘッドを用いて分類を行った。 フィードフォワードエンコーダデコーダモデルのみを用いて、スペクトルエンベロープ、スペクトルパッチ、スライス、マルチ解像度スペクトルのボトルネックを取得する。 SimCLRのアプローチに似た分類ヘッド(フィードフォワード層)は、学習された表現に基づいて訓練される。 潜在表現で学習した単純なコードを用いることで、従来の畳み込みニューラルネットワークアーキテクチャを超越し、強力なトランスフォーマーアーキテクチャを著しく上回っていることを示す。 この研究は、大規模なエンドツーエンドのニューラルネットワークアーキテクチャを使わずに、表現学習の分野でエキサイティングな進歩をもたらすことを願っている。

This paper presents a way of doing large scale audio understanding without traditional state of the art neural architectures. Ever since the introduction of deep learning for understanding audio signals in the past decade, convolutional architectures have been able to achieve state of the art results surpassing traditional hand-crafted features. In the recent past, there has been a similar shift away from traditional convolutional and recurrent neural networks towards purely end-to-end Transformer architectures. We, in this work, explore an approach, based on Bag-of-Words model. Our approach does not have any convolutions, recurrence, attention, transformers or other approaches such as BERT. We utilize micro and macro level clustered vanilla embeddings, and use a MLP head for classification. We only use feed-forward encoder-decoder models to get the bottlenecks of spectral envelops, spectral patches and slices as well as multi-resolution spectra. A classification head (a feed-forward layer), similar to the approach in SimCLR is trained on a learned representation. Using simple codes learned on latent representations, we show how we surpass traditional convolutional neural network architectures, and come strikingly close to outperforming powerful Transformer architectures. This work hopefully would pave way for exciting advancements in the field of representation learning without massive, end-to-end neural architectures.
翻訳日:2021-10-12 11:13:04 公開日:2021-10-08
# HowSumm:WikiHowの記事から得られた複数文書の要約データセット

HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow Articles ( http://arxiv.org/abs/2110.03179v2 )

ライセンス: Link先を確認
Odellia Boni, Guy Feigenblat, Guy Lev, Michal Shmueli-Scheuer, Benjamin Sznajder, David Konopnicki(参考訳) 本稿では,クエリ指向マルチドキュメント要約(qmds)タスクのための,一連のソースからアクション可能な命令を生成するユースケースを対象とする,新しい大規模データセットであるhowsummを提案する。 このユースケースは、既存のマルチドキュメント要約(mds)データセットをカバーするユースケースと異なり、教育および産業シナリオに適用できる。 我々は、wikiHowのウェブサイト記事や引用ソースからHowSummを作成するために、自動手法を採用し、既存の人造qMDSデータセットの統計を利用した。 データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。 データセット上の抽出的および抽象的要約モデルの自動的および人的評価は、改善の余地があることを明らかにする。

We present HowSumm, a novel large-scale dataset for the task of query-focused multi-document summarization (qMDS), which targets the use-case of generating actionable instructions from a set of sources. This use-case is different from the use-cases covered in existing multi-document summarization (MDS) datasets and is applicable to educational and industrial scenarios. We employed automatic methods, and leveraged statistics from existing human-crafted qMDS datasets, to create HowSumm from wikiHow website articles and the sources they cite. We describe the creation of the dataset and discuss the unique features that distinguish it from other summarization corpora. Automatic and human evaluations of both extractive and abstractive summarization models on the dataset reveal that there is room for improvement.
翻訳日:2021-10-12 11:12:43 公開日:2021-10-08
# (参考訳) 自動ダビングのための機械翻訳バービシティ制御 [全文訳有]

Machine Translation Verbosity Control for Automatic Dubbing ( http://arxiv.org/abs/2110.03847v1 )

ライセンス: CC BY 4.0
Surafel M. Lakew, Marcello Federico, Yue Wang, Cuong Hoang, Yogesh Virkar, Roberto Barra-Chicote, Robert Enyedi(参考訳) 自動ダビングは、ビデオ文書中の音声を異なる言語で合成音声にシームレスに置き換えることを目的としている。 この課題は、元の内容を伝えるだけでなく、対応する発話の持続時間に合わせて翻訳を生成する、多くの課題を暗示している。 本稿では,機械翻訳出力の冗長性を制御する問題に焦点をあて,自動ダビングパイプラインのその後のステップにより,より高品質なダブを生成できるようにする。 そこで本研究では,mt出力の冗長性を制御する新しい手法を提案し,本質的評価と外来評価の両方との比較を行った。 実験には、英語のスピーチをフランス語、イタリア語、ドイツ語、スペイン語にダビングするための公開データセットを使用しました。 最後に,mt文節制御がビデオクリップの最終的な品質に与える影響を計測する広範な主観的テストを行った。

Automatic dubbing aims at seamlessly replacing the speech in a video document with synthetic speech in a different language. The task implies many challenges, one of which is generating translations that not only convey the original content, but also match the duration of the corresponding utterances. In this paper, we focus on the problem of controlling the verbosity of machine translation output, so that subsequent steps of our automatic dubbing pipeline can generate dubs of better quality. We propose new methods to control the verbosity of MT output and compare them against the state of the art with both intrinsic and extrinsic evaluations. For our experiments we use a public data set to dub English speeches into French, Italian, German and Spanish. Finally, we report extensive subjective tests that measure the impact of MT verbosity control on the final quality of dubbed video clips.
翻訳日:2021-10-12 04:04:46 公開日:2021-10-08
# (参考訳) ニューラル・テキスト・ツー・スパイチシステムの開発におけるモデル事前学習の有効性に関する研究 [全文訳有]

A study on the efficacy of model pre-training in developing neural text-to-speech system ( http://arxiv.org/abs/2110.03857v1 )

ライセンス: CC BY 4.0
Guangyan Zhang, Yichong Leng, Daxin Tan, Ying Qin, Kaitao Song, Xu Tan, Sheng Zhao, Tan Lee(参考訳) ニューラルテキスト音声システムの開発において、大量の非ターゲット話者のデータを用いたモデル事前学習が一般的なアプローチである。 しかし、目標話者に対する最終的なシステム性能の面では、トレーニングデータの量やテキストの内容に大きく依存して、モデル事前学習の実際の利点は不確かで不安定である。 本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。 音声のテキスト関連変化の学習には事前学習プロセスが重要な役割を担っていると仮定し,話者データを用いたさらなる学習は話者関連変動の把握を目標としている。 異なるテストセットは、テキストの内容の観点からターゲット話者データと様々な類似度で作成される。 多様なテキストコンテンツを持つ音声データに訓練された話者非依存ttsを活用することで、ドメインミスマッチされたテキストの話者ttsを改善できることが実験で示されている。 また、新しいテキスト領域の事前学習データの量を削減するとともに、データと計算効率を向上させる。 トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。

In the development of neural text-to-speech systems, model pre-training with a large amount of non-target speakers' data is a common approach. However, in terms of ultimately achieved system performance for target speaker(s), the actual benefits of model pre-training are uncertain and unstable, depending very much on the quantity and text content of training data. This study aims to understand better why and how model pre-training can positively contribute to TTS system performance. It is postulated that the pre-training process plays a critical role in learning text-related variation in speech, while further training with the target speaker's data aims to capture the speaker-related variation. Different test sets are created with varying degrees of similarity to target speaker data in terms of text content. Experiments show that leveraging a speaker-independent TTS trained on speech data with diverse text content can improve the target speaker TTS on domain-mismatched text. We also attempt to reduce the amount of pre-training data for a new text domain and improve the data and computational efficiency. It is found that the TTS system could achieve comparable performance when the pre-training data is reduced to 1/8 of its original size.
翻訳日:2021-10-12 03:53:46 公開日:2021-10-08
# (参考訳) 視覚変換器におけるToken Pooling [全文訳有]

Token Pooling in Visual Transformers ( http://arxiv.org/abs/2110.03860v1 )

ライセンス: CC BY 4.0
Dmitrii Marin, Jen-Hao Rick Chang, Anurag Ranjan, Anish Prabhu, Mohammad Rastegari, Oncel Tuzel(参考訳) 最近の多くの応用の成功にもかかわらず、視覚トランスフォーマーの計算能力の高い要求はリソース制約された設定での使用を制限する。 多くの既存の手法は注意の二次的複雑さを改善するが、ほとんどのビジョントランスフォーマーでは、セルフアテンションは主要な計算ボトルネックではなく、例えば80%以上の計算が完全に接続された層に費やされる。 すべての層の計算の複雑さを改善するために,トークンプーリングと呼ばれる新しいトークンダウンサンプリング手法を提案し,画像の冗長性を効率的に活用し,中間トークン表現を行う。 軽度の仮定では,ソフトマックスアテンションは高次元低域通過フィルタとして機能する。 したがって、その出力には冗長性が含まれており、計算コストと精度のトレードオフを改善することができる。 提案手法は,ダウンサンプリングによる復元誤差を最小化し,トークン集合を高精度に近似する。 我々はコスト効率のよいクラスタリングによってこの最適化問題を解く。 我々は,事前ダウンサンプリング手法を厳格に分析し,比較する。 実験の結果,Token Poolingは最先端のダウンサンプリングに対するコスト-精度トレードオフを大幅に改善することがわかった。 Token Poolingは多くのアーキテクチャの恩恵を受けることができるシンプルで効果的なオペレータです。 DeiTに適用すると、42%の計算量で同じImageNet Top-1精度を実現する。

Despite the recent success in many applications, the high computational requirements of vision transformers limit their use in resource-constrained settings. While many existing methods improve the quadratic complexity of attention, in most vision transformers, self-attention is not the major computation bottleneck, e.g., more than 80% of the computation is spent on fully-connected layers. To improve the computational complexity of all layers, we propose a novel token downsampling method, called Token Pooling, efficiently exploiting redundancies in the images and intermediate token representations. We show that, under mild assumptions, softmax-attention acts as a high-dimensional low-pass (smoothing) filter. Thus, its output contains redundancy that can be pruned to achieve a better trade-off between the computational cost and accuracy. Our new technique accurately approximates a set of tokens by minimizing the reconstruction error caused by downsampling. We solve this optimization problem via cost-efficient clustering. We rigorously analyze and compare to prior downsampling methods. Our experiments show that Token Pooling significantly improves the cost-accuracy trade-off over the state-of-the-art downsampling. Token Pooling is a simple and effective operator that can benefit many architectures. Applied to DeiT, it achieves the same ImageNet top-1 accuracy using 42% fewer computations.
翻訳日:2021-10-12 03:43:35 公開日:2021-10-08
# (参考訳) ソースデータのない構造化予測器の教師なし言語間転送 [全文訳有]

Unsupervised Cross-Lingual Transfer of Structured Predictors without Source Data ( http://arxiv.org/abs/2110.03866v1 )

ライセンス: CC BY 4.0
Kemal Kurniawan, Lea Frermann, Philip Schulz and Trevor Cohn(参考訳) トレーニングデータの不足やプライバシー上の理由から保護されたコミュニティやドメインに技術を提供することがますます重要になっている。 そこで我々は,構造化予測のための複数の入力モデルからの教師なし転送法を一般化する。 本研究は, 入力モデル上でのアグリゲーションの方法が重要であり, 遠隔監視のための高確率構造を得るために, サブ構造の限界確率を乗じることが, 入力モデル上での結合よりもはるかに優れていることを示す。 本手法は18言語を対象に,係り受け解析とパート・オブ・音声による予測問題を考慮し,言語横断的に機能することを示した。 分析の結果,提案手法は遠隔監視のためのノイズの少ないラベルを生成することがわかった。

Providing technologies to communities or domains where training data is scarce or protected e.g., for privacy reasons, is becoming increasingly important. To that end, we generalise methods for unsupervised transfer from multiple input models for structured prediction. We show that the means of aggregating over the input models is critical, and that multiplying marginal probabilities of substructures to obtain high-probability structures for distant supervision is substantially better than taking the union of such structures over the input models, as done in prior work. Testing on 18 languages, we demonstrate that the method works in a cross-lingual setting, considering both dependency parsing and part-of-speech structured prediction problems. Our analyses show that the proposed method produces less noisy labels for the distant supervision.
翻訳日:2021-10-12 03:19:06 公開日:2021-10-08
# (参考訳) エンターテイメントメディアにおける職業の表現:計算テキスト分析による頻度・感情傾向の考察 [全文訳有]

Representation of professions in entertainment media: Insights into frequency and sentiment trends through computational text analysis ( http://arxiv.org/abs/2110.03873v1 )

ライセンス: CC BY 4.0
Sabyasachee Baruah, Krishna Somandepalli, and Shrikanth Narayanan(参考訳) 社会的な考えや傾向はメディアの物語や映画的描写を規定し、それが人々の現実世界の信念や認識に影響を及ぼす。 文化、教育、政府、宗教、家族を描いたメディアは、人々がこれらの表現を解釈し知覚し、それを信念や行動に取り入れるにつれて、その機能と進化に時間とともに影響を及ぼす。 これらの社会構造のメディア描写を研究することは、否定的なステレオタイプを広めたり補強したりしないか、人口統計学的セクションを差別しないために重要である。 本研究では,エンタテインメントメディアコンテンツにおいて,職業のメディア表現を調査し,その頻度,感情について計算的洞察を与える。 プログループとタイトルの検索可能な分類法を作成し,映画やテレビ(tv)の字幕表示など,話者に依存しない文章の検索を容易にする。 我々は、この分類と関連する自然言語処理(NLP)モデルを利用して、メディアコンテンツにおける専門的な言及のコーパスを作成し、70年以上にわたって136,000のIMDbタイトルをカバーした(1950-2017)。 異なる職業の頻度と感情傾向を分析し、ジャンル、生産国、タイトルタイプなどのメディア属性がこれらの傾向に及ぼす影響を調査し、メディアサブタイトルにおける職業の出現と実際の雇用統計との関連性について検討する。 我々は、分析したサブタイトルにおけるSTEM、芸術、スポーツ、エンターテイメントのメディア言及の増加と、手作業や軍事的職業の減少を観察する。 弁護士、警察、医師に対する感情は時間とともに否定的になりつつあり、宇宙飛行士、ミュージシャン、歌手、エンジニアなどが好意的に言及されている。 より多くの人を雇用する職業は、メディアの頻度を増加させ、メディアは社会の鏡として働くという私たちの仮説を支持しています。

Societal ideas and trends dictate media narratives and cinematic depictions which in turn influences people's beliefs and perceptions of the real world. Media portrayal of culture, education, government, religion, and family affect their function and evolution over time as people interpret and perceive these representations and incorporate them into their beliefs and actions. It is important to study media depictions of these social structures so that they do not propagate or reinforce negative stereotypes, or discriminate against any demographic section. In this work, we examine media representation of professions and provide computational insights into their incidence, and sentiment expressed, in entertainment media content. We create a searchable taxonomy of professional groups and titles to facilitate their retrieval from speaker-agnostic text passages like movie and television (TV) show subtitles. We leverage this taxonomy and relevant natural language processing (NLP) models to create a corpus of professional mentions in media content, spanning more than 136,000 IMDb titles over seven decades (1950-2017). We analyze the frequency and sentiment trends of different occupations, study the effect of media attributes like genre, country of production, and title type on these trends, and investigate if the incidence of professions in media subtitles correlate with their real-world employment statistics. We observe increased media mentions of STEM, arts, sports, and entertainment occupations in the analyzed subtitles, and a decreased frequency of manual labor jobs and military occupations. The sentiment expressed toward lawyers, police, and doctors is becoming negative over time, whereas astronauts, musicians, singers, and engineers are mentioned favorably. Professions that employ more people have increased media frequency, supporting our hypothesis that media acts as a mirror to society.
翻訳日:2021-10-12 03:03:26 公開日:2021-10-08
# (参考訳) dyn-backdoor:動的リンク予測に対するバックドア攻撃 [全文訳有]

Dyn-Backdoor: Backdoor Attack on Dynamic Link Prediction ( http://arxiv.org/abs/2110.03875v1 )

ライセンス: CC BY 4.0
Jinyin Chen, Haiyang Xiong, Haibin Zheng, Jian Zhang, Guodong Jiang and Yi Liu(参考訳) 動的リンク予測(DLP)は、履歴情報に基づいてグラフ予測を行う。 多くのDLP法はトレーニングデータに強く依存し,満足度の高い予測性能を実現するため,トレーニングデータの品質が重要である。 バックドア攻撃は、悪質なトレーニングデータ、すなわちトリガーとしてサブグラフシーケンスを生成し、トレーニングデータに埋め込むことで誤った予測を行うdlpメソッドを誘導する。 しかし、バックドア攻撃に対するDLPの脆弱性はまだ研究されていない。 そこで本研究では,Dyn-Backdoorと呼ばれるDLPのバックドア攻撃フレームワークを提案する。 具体的には、dyn-backdoorはgenerative adversarial network (gan)によって様々な初期トリガーを生成する。 そして、初期トリガーの部分リンクを選択して、GANの攻撃判別器の勾配情報に従ってトリガーセットを形成し、トリガーのサイズを小さくし、攻撃の隠蔽を改善する。 実験の結果、Dyn-Backdoorは、90%以上の成功率を持つ最先端のDLPモデルに対するバックドア攻撃に成功した。 さらに,Dyn-Backdoorに対する防御策として,Dyn-Backdoorに対する防御効果を実証し,DLPに対するバックドア攻撃に対する防御の必要性を強調した。

Dynamic link prediction (DLP) makes graph prediction based on historical information. Since most DLP methods are highly dependent on the training data to achieve satisfying prediction performance, the quality of the training data is crucial. Backdoor attacks induce the DLP methods to make wrong prediction by the malicious training data, i.e., generating a subgraph sequence as the trigger and embedding it to the training data. However, the vulnerability of DLP toward backdoor attacks has not been studied yet. To address the issue, we propose a novel backdoor attack framework on DLP, denoted as Dyn-Backdoor. Specifically, Dyn-Backdoor generates diverse initial-triggers by a generative adversarial network (GAN). Then partial links of the initial-triggers are selected to form a trigger set, according to the gradient information of the attack discriminator in the GAN, so as to reduce the size of triggers and improve the concealment of the attack. Experimental results show that Dyn-Backdoor launches successful backdoor attacks on the state-of-the-art DLP models with success rate more than 90%. Additionally, we conduct a possible defense against Dyn-Backdoor to testify its resistance in defensive settings, highlighting the needs of defenses for backdoor attacks on DLP.
翻訳日:2021-10-12 02:38:27 公開日:2021-10-08
# (参考訳) テキストのない電話音声のアライメント:半教師ありアプローチ [全文訳有]

Phone-to-audio alignment without text: A Semi-supervised Approach ( http://arxiv.org/abs/2110.03876v1 )

ライセンス: CC BY 4.0
Jian Zhu, Cong Zhang, David Jurgens(参考訳) 電話と音声のアライメントのタスクは、音声研究に多くの応用がある。 本稿では,テキストに依存しない2つのWav2Vec2ベースのモデルを紹介する。 提案する半教師付きモデルwav2vec2-fsは、コントラスト学習と前方和損失により直接音声間アライメントを学習し、事前学習された電話認識器と結合してテキスト非依存アライメントを実現する。 他のモデルであるWav2Vec2-FCは、強制アライメントとテキスト非依存セグメンテーションの両方を実行することができる強制アライメントラベルに基づいて訓練されたフレーム分類モデルである。 評価の結果, 提案手法は, 転写が利用できない場合でも, 既存の強制アライメントツールと非常に密接な結果が得られることが示唆された。 我々の研究は、完全に自動化された電話と音声のアライメントのニューラルパイプラインを提示する。 コードと事前トレーニングされたモデルはhttps://github.com/l ingjzhu/charsiu.comから利用できる。

The task of phone-to-audio alignment has many applications in speech research. Here we introduce two Wav2Vec2-based models for both text-dependent and text-independent phone-to-audio alignment. The proposed Wav2Vec2-FS, a semi-supervised model, directly learns phone-to-audio alignment through contrastive learning and a forward sum loss, and can be coupled with a pretrained phone recognizer to achieve text-independent alignment. The other model, Wav2Vec2-FC, is a frame classification model trained on forced aligned labels that can both perform forced alignment and text-independent segmentation. Evaluation results suggest that both proposed methods, even when transcriptions are not available, generate highly close results to existing forced alignment tools. Our work presents a neural pipeline of fully automated phone-to-audio alignment. Code and pretrained models are available at https://github.com/l ingjzhu/charsiu.
翻訳日:2021-10-12 02:11:20 公開日:2021-10-08
# (参考訳) ModeRNN: 教師なし予測学習における時空間モード崩壊のハーネス化 [全文訳有]

ModeRNN: Harnessing Spatiotemporal Mode Collapse in Unsupervised Predictive Learning ( http://arxiv.org/abs/2110.03882v1 )

ライセンス: CC BY 4.0
Zhiyu Yao, Yunbo Wang, Haixu Wu, Jianmin Wang, Mingsheng Long(参考訳) ラベルのない時空間データに対する予測モデルの学習は、視覚のダイナミクスが実際のシーンで非常に絡み合う可能性があるため、既存のアプローチが物理的プロセスの部分的モードを過度にフィットさせやすく、他人の理屈を無視する可能性があるため、難しい部分がある。 この現象を時空間的モード崩壊と命名し,予測学習において初めて探索する。 鍵となるのは、潜在モードの構成構造を発見するための強い帰納的バイアスをモデルに提供することである。 そこで本研究では,繰り返し状態間の隠れ表現を構造化する新しい手法であるModeRNNを提案する。 このフレームワークの中核となる考え方は、独立パラメータを持つ時空間スロットの集合を用いて視覚力学の様々な成分を抽出することである。 複数の時空パターンが連続的に共存する可能性があることを考慮し、学習可能な重みを利用してスロットの特徴を適応的に集約し、再帰状態を更新する。 データセット全体にわたって、異なるモードはスロットの混合に対して異なる応答をもたらすため、ModeRNNが構造化された表現を構築する能力を高め、いわゆるモード崩壊を防ぐ。 既存のモデルとは異なり、ModeRNNは時空間モードの崩壊を防ぎ、混合視覚力学の学習の恩恵を受ける。

Learning predictive models for unlabeled spatiotemporal data is challenging in part because visual dynamics can be highly entangled in real scenes, making existing approaches prone to overfit partial modes of physical processes while neglecting to reason about others. We name this phenomenon spatiotemporal mode collapse and explore it for the first time in predictive learning. The key is to provide the model with a strong inductive bias to discover the compositional structures of latent modes. To this end, we propose ModeRNN, which introduces a novel method to learn structured hidden representations between recurrent states. The core idea of this framework is to first extract various components of visual dynamics using a set of spatiotemporal slots with independent parameters. Considering that multiple space-time patterns may co-exist in a sequence, we leverage learnable importance weights to adaptively aggregate slot features into a unified hidden representation, which is then used to update the recurrent states. Across the entire dataset, different modes result in different responses on the mixtures of slots, which enhances the ability of ModeRNN to build structured representations and thus prevents the so-called mode collapse. Unlike existing models, ModeRNN is shown to prevent spatiotemporal mode collapse and further benefit from learning mixed visual dynamics.
翻訳日:2021-10-12 01:59:27 公開日:2021-10-08
# (参考訳) M6-10T:効率的なマルチトリリオンパラメータ事前学習のための共有デリンクパラダイム [全文訳有]

M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining ( http://arxiv.org/abs/2110.03888v1 )

ライセンス: CC BY-SA 4.0
Junyang Lin, An Yang, Jinze Bai, Chang Zhou, Le Jiang, Xianyan Jia, Ang Wang, Jie Zhang, Yong Li, Wei Lin, Jingren Zhou, Hongxia Yang(参考訳) ディープラーニングアルゴリズムや分散トレーニング、さらには大規模モデルのハードウェア設計など、近年の急激な発展により、GPT-3やSwitch Transformerといった超大規模モデルのトレーニングが可能になった。 しかし、限られたリソースの下では、膨大な計算とメモリフットプリントを必要とする極規模のモデルトレーニングは、モデル収束のフラストレーション的に低い効率に悩まされる。 本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。 pseudo-to-realはシーケンシャルなレイヤのアーキテクチャを持つ大規模モデルと互換性がある。 10日以内に512個のGPUだけで、最先端技術よりも桁違いに大きい10トリリオンパラメータモデルを事前訓練するプラクティスを実証する。 Pseudo-to-Realの応用例に加えて、大規模モデルのトレーニングやGPUユーティリティの維持のためにCPUメモリを管理するグラニュラーCPUオフロード技術も提供する。 極めて大規模なモデルを十分な量のリソースで高速にトレーニングすることで、炭素フットプリントが大幅に小さくなり、よりグリーンなAIに寄与する。

Recent expeditious developments in deep learning algorithms, distributed training, and even hardware design for large models have enabled training extreme-scale models, say GPT-3 and Switch Transformer possessing hundreds of billions or even trillions of parameters. However, under limited resources, extreme-scale model training that requires enormous amounts of computes and memory footprint suffers from frustratingly low efficiency in model convergence. In this paper, we propose a simple training strategy called "Pseudo-to-Real" for high-memory-footprin t-required large models. Pseudo-to-Real is compatible with large models with architecture of sequential layers. We demonstrate a practice of pretraining unprecedented 10-trillion-paramete r model, an order of magnitude larger than the state-of-the-art, on solely 512 GPUs within 10 days. Besides demonstrating the application of Pseudo-to-Real, we also provide a technique, Granular CPU offloading, to manage CPU memory for training large model and maintain high GPU utilities. Fast training of extreme-scale models on a decent amount of resources can bring much smaller carbon footprint and contribute to greener AI.
翻訳日:2021-10-12 01:27:29 公開日:2021-10-08
# (参考訳) Momentumは有害なバイアスを変えない

Momentum Doesn't Change the Implicit Bias ( http://arxiv.org/abs/2110.03891v1 )

ライセンス: CC BY 4.0
Bohan Wang, Qi Meng, Huishuai Zhang, Ruoyu Sun, Wei Chen, Zhi-Ming Ma(参考訳) 運動量加速法は多くの最適化アルゴリズムで広く採用されている。 しかし、モーメントが最適化アルゴリズムの一般化性能に与える影響に関する理論的理解はまだ分かっていない。 本稿では,モーメントに基づく最適化の暗黙バイアスを解析することにより,この問題に答える。 運動量を持つ SGD とアダムはともに、指数関数的尾の損失に対して$L_2$ max-margin の解に収束することが証明される。 つまり、運動量加速度を持つこれらのオプティマイザは、複雑さの低いモデルに収束し、一般化の保証を提供する。 厳密には、モーメント解析における誤差蓄積による困難を克服するため、モデルパラメータと最大マージン解の間のギャップを解析するためのツールとして、新しいリャプノフ関数を構築した。

The momentum acceleration technique is widely adopted in many optimization algorithms. However, the theoretical understanding of how the momentum affects the generalization performance of the optimization algorithms is still unknown. In this paper, we answer this question through analyzing the implicit bias of momentum-based optimization. We prove that both SGD with momentum and Adam converge to the $L_2$ max-margin solution for exponential-tailed loss, which is the same as vanilla gradient descent. That means, these optimizers with momentum acceleration still converge to a model with low complexity, which provides guarantees on their generalization. Technically, to overcome the difficulty brought by the error accumulation in analyzing the momentum, we construct new Lyapunov functions as a tool to analyze the gap between the model parameter and the max-margin solution.
翻訳日:2021-10-12 01:07:42 公開日:2021-10-08
# (参考訳) BDC: 高性能顔検出のためのバウンディングボックスディープキャリブレーション [全文訳有]

BDC: Bounding-Box Deep Calibration for High Performance Face Detection ( http://arxiv.org/abs/2110.03892v1 )

ライセンス: CC BY 4.0
Shi Luo, Xiongfei Li, Xiaoli Zhang(参考訳) 現代のCNNベースの顔検出器は、大きなアノテートデータセットのため、大きな進歩を遂げている。 しかし,検出信頼度が高いがローカライズ精度が低く,検出性能のさらなる向上が抑制された。 本稿では,まず,トレーニングセット自体に対する検出結果を生成する。 驚くべきことに、その大部分は同じミスアライメント問題が存在する。 次に,これらの不一致を慎重に検討し,アノテーションの不整合が主な原因であることを指摘する。 最後に,不整合アノテーションをモデル予測バウンディングボックスに合理的に置き換え,トレーニングセット用の新しいアノテーションファイルを作成する新しいバウンディングボックスディープキャリブレーション(bdc)法を提案する。 WIDER FACEデータセットの大規模な実験は、BDCがモデルの精度とリコール率を改善する効果を示す。 単純で効果的な手法は顔検出を改善するための新しい方向を提供する。 ソースコードはhttps://github.com/s hiluo 1990/BDCで入手できる。

Modern CNN-based face detectors have achieved tremendous strides due to large annotated datasets. However, misaligned results with high detection confidence but low localization accuracy restrict the further improvement of detection performance. In this paper, we first generate detection results on training set itself. Surprisingly, a considerable part of them exist the same misalignment problem. Then, we carefully examine these misaligned cases and point out annotation inconsistency is the main reason. Finally, we propose a novel Bounding-Box Deep Calibration (BDC) method to reasonably replace inconsistent annotations with model predicted bounding-boxes and create a new annotation file for training set. Extensive experiments on WIDER FACE dataset show the effectiveness of BDC on improving models' precision and recall rate. Our simple and effective method provides a new direction for improving face detection. Source code is available at https://github.com/s hiluo1990/BDC.
翻訳日:2021-10-12 01:06:31 公開日:2021-10-08
# (参考訳) ALL-IN-ONE: ピアアセスメント評価のためのマルチタスク学習BERTモデル [全文訳有]

ALL-IN-ONE: Multi-Task Learning BERT models for Evaluating Peer Assessments ( http://arxiv.org/abs/2110.03895v1 )

ライセンス: CC0 1.0
Qinjin Jia, Jialin Cui, Yunkai Xiao, Chengyuan Liu, Parvez Rashid, Edward F. Gehringer(参考訳) 過去数十年間、ピアアセスメントは様々な学術分野に広く適用され、その効果を実証してきた。 しかし、ピアアセスメントの利点は、高品質なピアレビューでのみ達成できる。 従来の研究では、高品質なレビューコメントは通常いくつかの特徴(例えば、提案、問題への言及、肯定的なトーンの使用など)から構成されている。 そこで研究者たちは、さまざまな機械学習とディープラーニングモデルを用いて、さまざまな特徴を検出することで、ピアレビューコメントの評価を試みた。 しかし,マルチタスク学習(MTL)モデルを用いて複数の特徴を同時に検出する研究はひとつもない。 本稿では、最先端の事前学習言語表現モデルBERTとDistilBERTを利用して、ピアレビューコメントを評価するための2つのMTLモデルを提案する。 以上の結果から,BERTベースのモデルでは,単一特徴の検出タスクにおいて,F1スコアの約6%が従来のGloVe方式よりも大幅に優れており,MTLはモデルサイズを削減しつつ,さらなる性能向上を図っている。

Peer assessment has been widely applied across diverse academic fields over the last few decades and has demonstrated its effectiveness. However, the advantages of peer assessment can only be achieved with high-quality peer reviews. Previous studies have found that high-quality review comments usually comprise several features (e.g., contain suggestions, mention problems, use a positive tone). Thus, researchers have attempted to evaluate peer-review comments by detecting different features using various machine learning and deep learning models. However, there is no single study that investigates using a multi-task learning (MTL) model to detect multiple features simultaneously. This paper presents two MTL models for evaluating peer-review comments by leveraging the state-of-the-art pre-trained language representation models BERT and DistilBERT. Our results demonstrate that BERT-based models significantly outperform previous GloVe-based methods by around 6% in F1-score on tasks of detecting a single feature, and MTL further improves performance while reducing model size.
翻訳日:2021-10-12 00:57:34 公開日:2021-10-08
# (参考訳) ソーシャルディスタンシングとマスク検出を用いた監視映像データを用いたCOVID-19モニタリングシステム [全文訳有]

COVID-19 Monitoring System using Social Distancing and Face Mask Detection on Surveillance video datasets ( http://arxiv.org/abs/2110.03905v1 )

ライセンス: CC BY 4.0
Rujula Singh R, Nikhil Nayak, Sahana Srinivasan, Ruchita Biradar(参考訳) 現段階では、新型コロナウイルスの恐れと危険性は依然として大きい。 社会的距離の基準を手動で監視することは現実的ではなく、大勢の人々が行動し、それらを管理するための作業力や資源が不足している。 このプロセスを自動化する軽量で堅牢で24X7のビデオ監視システムが必要である。 本稿では,オブジェクト検出,クラスタリング,畳み込みニューラルネットワーク(cnn)に基づくバイナリ分類器を用いて,人物検出,ソーシャルディスタンス違反検出,顔検出,顔マスク分類を行うための包括的かつ効果的なソリューションを提案する。 このために、密度に基づくノイズ付きアプリケーションの空間クラスタリング(DBSCAN)、デュアルショット顔検出(DSFD)、MobileNetV2ベースのバイナリ分類器が監視ビデオデータセットに使用されている。 また,異なる顔検出モデルと顔マスク分類モデルの比較検討を行った。 最後に、コミュニティにおけるデータセットの欠如を補うため、ラベル付きビデオデータセットと共にビデオデータセットラベリング手法を提案し、システムの評価に使用する。 システム性能は, 精度, f1得点, 予測時間などによって評価され, 実用性には低い値が求められる。 このシステムは、ラベル付きビデオデータセット上で91.2%とf1スコア90.79%の精度で動作し、78フレームの動画の平均予測時間は7.12秒である。

In the current times, the fear and danger of COVID-19 virus still stands large. Manual monitoring of social distancing norms is impractical with a large population moving about and with insufficient task force and resources to administer them. There is a need for a lightweight, robust and 24X7 video-monitoring system that automates this process. This paper proposes a comprehensive and effective solution to perform person detection, social distancing violation detection, face detection and face mask classification using object detection, clustering and Convolution Neural Network (CNN) based binary classifier. For this, YOLOv3, Density-based spatial clustering of applications with noise (DBSCAN), Dual Shot Face Detector (DSFD) and MobileNetV2 based binary classifier have been employed on surveillance video datasets. This paper also provides a comparative study of different face detection and face mask classification models. Finally, a video dataset labelling method is proposed along with the labelled video dataset to compensate for the lack of dataset in the community and is used for evaluation of the system. The system performance is evaluated in terms of accuracy, F1 score as well as the prediction time, which has to be low for practical applicability. The system performs with an accuracy of 91.2% and F1 score of 90.79% on the labelled video dataset and has an average prediction time of 7.12 seconds for 78 frames of a video.
翻訳日:2021-10-12 00:47:44 公開日:2021-10-08
# (参考訳) SCFlow:スパイキングカメラの光学的フロー推定 [全文訳有]

SCFlow: Optical Flow Estimation for Spiking Camera ( http://arxiv.org/abs/2110.03916v1 )

ライセンス: CC BY 4.0
Liwen Hu, Rui Zhao, Ziluo Ding, Ruiqin Xiong, Lei Ma and Tiejun Huang(参考訳) バイオインスパイアされたセンサーは、時間分解能が高いため、スパイキングカメラは実際の用途、特に高速シーンでのモーション推定において大きな可能性を秘めている。 光フロー推定は画像ベースおよびイベントベースの視覚において顕著な成功を収めているが、既存の手法はスパイクカメラからのスパイクストリームに直接適用することはできない。 従来の光学フローアルゴリズムはスパイクストリームデータとよく一致しない。 本稿では,スパイキングカメラ用光フロー推定のための新しい深層学習パイプラインscflowを提案する。 重要なことに、与えられたスパイクストリームの適切な入力表現を導入し、SCFlowを唯一の入力として入力する。 我々は, \textit{first} spiking camera simulator (spcs) を紹介する。 さらに,SPCSに基づいて,ランダムな高速・高設計シーンに対応する2つのスパイキングカメラ用光フローデータセット(SPIFTとPHMと表記される)を提案する。 実験により,sscflowは,異なる高速シーンにおけるスパイクストリームからの光流れを予測でき,データセット上の既存の方法よりも優れていることを示す。 \textit{all codes and built datasets will released after publication} 公開します。

As a bio-inspired sensor with high temporal resolution, Spiking camera has an enormous potential in real applications, especially for motion estimation in high-speed scenes. Optical flow estimation has achieved remarkable success in image-based and event-based vision, but % existing methods cannot be directly applied in spike stream from spiking camera. conventional optical flow algorithms are not well matched to the spike stream data. This paper presents, SCFlow, a novel deep learning pipeline for optical flow estimation for spiking camera. Importantly, we introduce an proper input representation of a given spike stream, which is fed into SCFlow as the sole input. We introduce the \textit{first} spiking camera simulator (SPCS). Furthermore, based on SPCS, we first propose two optical flow datasets for spiking camera (SPIkingly Flying Things and Photo-realistic High-speed Motion, denoted as SPIFT and PHM respectively) corresponding to random high-speed and well-designed scenes. Empirically, we show that the SCFlow can predict optical flow from spike stream in different high-speed scenes, and express superiority to existing methods on the datasets. \textit{All codes and constructed datasets will be released after publication}.
翻訳日:2021-10-12 00:39:33 公開日:2021-10-08
# (参考訳) ニューラルタンジェントカーネル固有値の正確な予測一般化 [全文訳有]

Neural Tangent Kernel Eigenvalues Accurately Predict Generalization ( http://arxiv.org/abs/2110.03922v1 )

ライセンス: CC BY 4.0
James B. Simon, Madeline Dickens, Michael R. DeWeese(参考訳) ニューラルネットワークの一般化に関する定量的な理論を見つけることは、ディープラーニング研究の中心的な目標である。 ニューラルネットワークの「ニューラルタンジェントカーネル」の固有系を調べることにより、任意の関数を学習する際に、その一般化性能を予測することができることを示す。 本理論は,平均二乗誤差だけでなく,ネットワークの学習関数の1次および2次統計量を正確に予測する。 さらに、与えられた対象関数の「学習可能性」を定量化する尺度を用いて、広範ニューラルネットワークの帰納バイアスの基本的なトレードオフを特徴付ける新しい「自由言語」定理を証明し、与えられた対象関数に対するネットワークの一般化を改善することで、直交関数の一般化が悪化する。 我々はさらに,小型データレジームにおけるハード・トゥ・リーン関数と非単調誤差曲線の2つの驚くべき一般化を解析的に予測し,理論の有用性を実証する。 我々の理論は無限幅アーキテクチャのために導出されているが、幅20ほど狭いネットワークと一致していることは、実用的なニューラルネットワークにおける一般化の予測であることを示唆している。 結果を複製するコードはhttps://github.com/j ames-simon/eigenlear ningで閲覧できます。

Finding a quantitative theory of neural network generalization has long been a central goal of deep learning research. We extend recent results to demonstrate that, by examining the eigensystem of a neural network's "neural tangent kernel", one can predict its generalization performance when learning arbitrary functions. Our theory accurately predicts not only test mean-squared-error but all first- and second-order statistics of the network's learned function. Furthermore, using a measure quantifying the "learnability" of a given target function, we prove a new "no-free-lunch" theorem characterizing a fundamental tradeoff in the inductive bias of wide neural networks: improving a network's generalization for a given target function must worsen its generalization for orthogonal functions. We further demonstrate the utility of our theory by analytically predicting two surprising phenomena - worse-than-chance generalization on hard-to-learn functions and nonmonotonic error curves in the small data regime - which we subsequently observe in experiments. Though our theory is derived for infinite-width architectures, we find it agrees with networks as narrow as width 20, suggesting it is predictive of generalization in practical neural networks. Code replicating our results is available at https://github.com/j ames-simon/eigenlear ning .
翻訳日:2021-10-12 00:26:54 公開日:2021-10-08
# (参考訳) ハライドペロブスカイトの商業化とスケールアップを加速する機械学習の可能性 [全文訳有]

Opportunities for Machine Learning to Accelerate Halide Perovskite Commercialization and Scale-Up ( http://arxiv.org/abs/2110.03923v1 )

ライセンス: CC BY 4.0
Rishi E. Kumar, Armi Tiihonen, Shijing Sun, David P. Fenning, Zhe Liu, Tonio Buonassisi(参考訳) ハロゲン化ペロブスカイトは学術的な注目を集めているが、大規模な工業生産の例は依然として少ない。 In this perspective, we review practical challenges hindering the commercialization of halide perovskites, and discuss how machine-learning (ML) tools could help: (1) active-learning algorithms that blend institutional knowledge and human expertise could help stabilize and rapidly update baseline manufacturing processes; (2) ML-powered metrology, including computer imaging, could help narrow the performance gap between large- and small-area devices; and (3) inference methods could help accelerate root-cause analysis by reconciling multiple data streams and simulations, focusing research effort on areas with highest probability for improvement. これらの課題の多くを満たすためには、既存のMLと統計手法の適応が必要である、と結論付けている。 我々は、社内データサイエンス人材育成を支援するリソースを特定し、特定の産業ニーズに「既成の」mlツールを適応させ、基盤となるメカニズムを明らかにすることによってプロセス制御をさらに改善し、広大な材料の組み合わせ空間と文学をよりよくナビゲートする「ゲームチェンジャー」ディスカバリ指向アルゴリズムを開発する。

While halide perovskites attract significant academic attention, examples of at-scale industrial production are still sparse. In this perspective, we review practical challenges hindering the commercialization of halide perovskites, and discuss how machine-learning (ML) tools could help: (1) active-learning algorithms that blend institutional knowledge and human expertise could help stabilize and rapidly update baseline manufacturing processes; (2) ML-powered metrology, including computer imaging, could help narrow the performance gap between large- and small-area devices; and (3) inference methods could help accelerate root-cause analysis by reconciling multiple data streams and simulations, focusing research effort on areas with highest probability for improvement. We conclude that to satisfy many of these challenges, incremental -- not radical -- adaptations of existing ML and statistical methods are needed. We identify resources to help develop in-house data-science talent, and propose how industry-academic partnerships could help adapt "ready-now" ML tools to specific industry needs, further improve process control by revealing underlying mechanisms, and develop "gamechanger" discovery-oriented algorithms to better navigate vast materials combination spaces and the literature.
翻訳日:2021-10-11 23:55:10 公開日:2021-10-08
# (参考訳) ランキングコスト:進化に基づく最適化による効率的でスケーラブルな回路ルーティングプランナーの構築 [全文訳有]

Ranking Cost: Building An Efficient and Scalable Circuit Routing Planner with Evolution-Based Optimization ( http://arxiv.org/abs/2110.03939v1 )

ライセンス: CC BY 4.0
Shiyu Huang, Bin Wang, Dong Li, Jianye Hao, Ting Chen, Jun Zhu(参考訳) 回路ルーティングは、超大規模集積(VLSI)やプリント回路基板(PCB)といった電子システムを設計する上で、歴史的に難しい問題となっている。 主な課題は、特定の設計規則の下で多数の電子部品を接続することは、非常に大きな検索空間を必要とすることである。 初期のソリューションは通常、最適化されていないソリューションの問題と新しい設計ニーズに対する柔軟性の欠如に悩まされるハードコードヒューリスティックで設計されている。 近年,学習に基づく手法がいくつか提案されているが,大規模アプリケーションへの拡張が難しいのが一般的である。 本研究では、探索に基づく手法(A*アルゴリズム)と学習に基づく手法(Evolution Strategies)を革新的に組み合わせ、効率的で訓練可能なルータを形成するための回路ルーティングのための新しいアルゴリズムであるランキングコストを提案する。 提案手法ではコストマップと呼ばれる新しい変数セットを導入し,a*ルータがグローバル目標を達成するための適切な経路を見つけるのに役立つ。 また、ランキングパラメータをトレーニングし、ランキングの順序を導出し、提案手法の性能をさらに向上させることができる。 我々のアルゴリズムはエンドツーエンドで訓練されており、人工データや人間の実演は一切使わない。 実験では,逐次a*アルゴリズムと正準強化学習手法を比較し,本手法がベースラインよりも高い接続率とスケーラビリティで優れていることを示す。

Circuit routing has been a historically challenging problem in designing electronic systems such as very large-scale integration (VLSI) and printed circuit boards (PCBs). The main challenge is that connecting a large number of electronic components under specific design rules involves a very large search space. Early solutions are typically designed with hard-coded heuristics, which suffer from problems of non-optimal solutions and lack of flexibility for new design needs. Although a few learning-based methods have been proposed recently, they are typically cumbersome and hard to extend to large-scale applications. In this work, we propose a new algorithm for circuit routing, named Ranking Cost, which innovatively combines search-based methods (i.e., A* algorithm) and learning-based methods (i.e., Evolution Strategies) to form an efficient and trainable router. In our method, we introduce a new set of variables called cost maps, which can help the A* router to find out proper paths to achieve the global objective. We also train a ranking parameter, which can produce the ranking order and further improve the performance of our method. Our algorithm is trained in an end-to-end manner and does not use any artificial data or human demonstration. In the experiments, we compare with the sequential A* algorithm and a canonical reinforcement learning approach, and results show that our method outperforms these baselines with higher connectivity rates and better scalability.
翻訳日:2021-10-11 23:19:17 公開日:2021-10-08
# (参考訳) CheerBots: 共感と強化学習のためのチャットボット [全文訳有]

CheerBots: Chatbots toward Empathy and Emotionusing Reinforcement Learning ( http://arxiv.org/abs/2110.03949v1 )

ライセンス: CC BY 4.0
Jiun-Hao Jhan, Chao-Peng Liu, Shyh-Kang Jeng, Hung-Yi Lee(参考訳) 反応の一貫性と流動性とは別に、共感的なチャットボットは人々の感情をより強調する。 人間のインタラクション間の利他的行動を考慮することで、共感的なチャットボットは、よりインタラクティブで支援的な体験を得られるようになります。 本研究では,複数の共感型チャットボットがユーザの暗黙の感情を理解し,複数の対話のターンに対して共感的に応答する枠組みを提案する。 チャットボットをCheerBotsと呼ぶ。 cheerbotは検索ベースあるいは生成ベースで、深層強化学習によって微調整される。 共感的な反応を行うために,シミュレートエージェントである概念的人間モデルを開発し,同情を喚起する未来のユーザの感情状態の変化を考慮し,トレーニングにおける陽気なロボットの助けとなる。 最後に、自動測定と人格評価の結果から、cheerbotsは他のベースラインチャットボットよりも優れており、相互利他主義を実現していることがわかる。 コードと事前訓練されたモデルは利用可能になる。

Apart from the coherence and fluency of responses, an empathetic chatbot emphasizes more on people's feelings. By considering altruistic behaviors between human interaction, empathetic chatbots enable people to get a better interactive and supportive experience. This study presents a framework whereby several empathetic chatbots are based on understanding users' implied feelings and replying empathetically for multiple dialogue turns. We call these chatbots CheerBots. CheerBots can be retrieval-based or generative-based and were finetuned by deep reinforcement learning. To respond in an empathetic way, we develop a simulating agent, a Conceptual Human Model, as aids for CheerBots in training with considerations on changes in user's emotional states in the future to arouse sympathy. Finally, automatic metrics and human rating results demonstrate that CheerBots outperform other baseline chatbots and achieves reciprocal altruism. The code and the pre-trained models will be made available.
翻訳日:2021-10-11 23:06:02 公開日:2021-10-08
# (参考訳) 最小化領域を持つ非凸非凸最小値最適化

Nonconvex-Nonconcave Min-Max Optimization with a Small Maximization Domain ( http://arxiv.org/abs/2110.03950v1 )

ライセンス: CC BY 4.0
Dmitrii M. Ostrovskii, Babak Barazandeh, Meisam Razaviyayn(参考訳) 我々は、集合 $X,Y$ が凸であり、$Y$ がコンパクトであるような形式 $\min_{x \in X} \max_{y \in Y} f(x,y)$ の最適化問題において、近似的な一階定常点を求める問題を研究する。 目的関数 $f$ は滑らかであるが、convex は $x$、concave は $y$ と仮定していない。 我々のアプローチは、関数 $f(x,\cdot)$ を $k$ のテイラー近似 ($y$) に置き換えることと、結果の代理問題におけるほぼ定常点を見つけることに依存する。 その成功を保証するために、ユークリッド径の$Y$を目標精度の点で小さくする: $O(\varepsilon^{\frac{2}{k+1}})$ for $k \in \mathbb{N}$ and $O(\varepsilon)$ for $k = 0$, with the constant factors controlled by certain regularity parameters of $f$; then then any $\varepsilon$-statio nary point in the surrogate problem have $O(\varepsilon)$-sta tionary for the initial problem。 さらに,これら上界はほぼ最適であり,y$ の直径が大きくなると,上述の還元は確実に失敗する。 0 \le k \le 2$ に対して、代理関数は$y$ で効率よく最大化することができ、その結果、非凸非凸 min-max 問題における準定常点を見つけるための効率的なアルゴリズムが導かれる。

We study the problem of finding approximate first-order stationary points in optimization problems of the form $\min_{x \in X} \max_{y \in Y} f(x,y)$, where the sets $X,Y$ are convex and $Y$ is compact. The objective function $f$ is smooth, but assumed neither convex in $x$ nor concave in $y$. Our approach relies upon replacing the function $f(x,\cdot)$ with its $k$th order Taylor approximation (in $y$) and finding a near-stationary point in the resulting surrogate problem. To guarantee its success, we establish the following result: let the Euclidean diameter of $Y$ be small in terms of the target accuracy $\varepsilon$, namely $O(\varepsilon^{\frac{2}{k+1}})$ for $k \in \mathbb{N}$ and $O(\varepsilon)$ for $k = 0$, with the constant factors controlled by certain regularity parameters of $f$; then any $\varepsilon$-statio nary point in the surrogate problem remains $O(\varepsilon)$-sta tionary for the initial problem. Moreover, we show that these upper bounds are nearly optimal: the aforementioned reduction provably fails when the diameter of $Y$ is larger. For $0 \le k \le 2$ the surrogate function can be efficiently maximized in $y$; our general approximation result then leads to efficient algorithms for finding a near-stationary point in nonconvex-nonconcave min-max problems, for which we also provide convergence guarantees.
翻訳日:2021-10-11 22:51:14 公開日:2021-10-08
# (参考訳) 高齢者リハビリテーションのための新しい脳波ベースbcis [全文訳有]

Novel EEG-based BCIs for Elderly Rehabilitation Enhancement ( http://arxiv.org/abs/2110.03966v1 )

ライセンス: CC BY 4.0
Aurora Saibene, Francesca Gasparini, Jordi Sol\'e-Casals(参考訳) 老化過程は認知障害や身体障害を引き起こし、高齢者の日常生活に影響を及ぼす可能性がある。 近年,脳波をベースとした脳神経インタフェース(BCI)の使用は,特に運動画像実験のパラダイムを活用することで,リハビリテーションの促進と促進に特に有効であることが判明している。 さらに、BCIは患者のエンゲージメントを高め、高齢者全体の健康改善のための信頼性の高いツールであることが判明した。 しかし、EEG信号は通常低信号対雑音比を示し、限られた時間に記録することができる。 したがって、無関係な情報と欠陥サンプルはBCIのパフォーマンスに影響を及ぼす可能性がある。 固有特性を維持しながら脳波信号から情報成分を抽出する方法を導入することで、以下の2つの問題を解決することができる: 関連成分のみを持ち、関連成分を組み合わせることでノイズを回避でき、長期間のeeg記録を必要とせずにデータを置き換えるための良い戦略を示すことができる。 さらに, 代替不良試験は, 想定運動をリハビリテーションシステムに翻訳する際のBCIの分類性能を著しく向上させる可能性がある。 そこで本研究では,多変量経験的モード分解による脳波信号分解法を提案し,その振動モードを本質モード関数 (imfs) と呼ぶ。 その後、IMFの時間周波数表現とエントロピーに基づく関連するIMF選択基準の新たな手順が提供される。 関連するIMFのみとのEEG信号再構成の信頼性を検証した後、関連するIMFが組み合わされて、新たな人工データを生成し、BCIトレーニングに使用する新しいサンプルを提供する。

The ageing process may lead to cognitive and physical impairments, which may affect elderly everyday life. In recent years, the use of Brain Computer Interfaces (BCIs) based on Electroencephalograp hy (EEG) has revealed to be particularly effective to promote and enhance rehabilitation procedures, especially by exploiting motor imagery experimental paradigms. Moreover, BCIs seem to increase patients' engagement and have proved to be reliable tools for elderly overall wellness improvement. However, EEG signals usually present a low signal-to-noise ratio and can be recorded for a limited time. Thus, irrelevant information and faulty samples could affect the BCI performance. Introducing a methodology that allows the extraction of informative components from the EEG signal while maintaining its intrinsic characteristics, may provide a solution to both the described issues: noisy data may be avoided by having only relevant components and combining relevant components may represent a good strategy to substitute the data without requiring long or repeated EEG recordings. Moreover, substituting faulty trials may significantly improve the classification performances of a BCI when translating imagined movement to rehabilitation systems. To this end, in this work the EEG signal decomposition by means of multivariate empirical mode decomposition is proposed to obtain its oscillatory modes, called Intrinsic Mode Functions (IMFs). Subsequently, a novel procedure for relevant IMF selection criterion based on the IMF time-frequency representation and entropy is provided. After having verified the reliability of the EEG signal reconstruction with the relevant IMFs only, the relevant IMFs are combined to produce new artificial data and provide new samples to use for BCI training.
翻訳日:2021-10-11 22:49:43 公開日:2021-10-08
# (参考訳) 多くのプロキシコントロール

Many Proxy Controls ( http://arxiv.org/abs/2110.03973v1 )

ライセンス: CC BY 4.0
Ben Deaner(参考訳) 最近の文献ではノイズプロキシを用いた因果推論について検討している。 プロキシは、共同創設者の独立条件である2つのセットに分けられる。 1組のプロキシは「負の制御処理」、もう1組は「負の制御結果」である。 既存の作業は、一定数のプロキシと共同設立者による低次元設定に適用される。 この作業では、多くのプロキシコントロールとおそらく多くの共同創設者を持つ線形モデルを検討する。 重要な洞察は、各プロキシの群が共起因子の数よりも厳密に大きい場合、ニュアンスパラメータの行列は低ランク構造を持ち、ニュアンスパラメータのベクトルはスパース構造を持つということである。 ランク制限とスパーシリティを利用して、推定される自由パラメータの数を削減できる。 未確認の共同設立者の数は事前に分かっていないが、特定されていることを示し、この量に適応するために罰則を適用する。 閉じた形を持つ推定器と二重ロバスト推定器を提供し,数値的な評価を行う必要がある。 我々は,2倍ロバスト推定器が一様ルート一貫性を持ち,漸近中心の正規値であり,提案する信頼区間が漸近的に正しい範囲を持つ条件を提供する。 我々は,提案手法が既存の手法よりも高い次元で,特にプロキシ数が共同設立者数よりもかなり大きい場合に,高い性能が得られることを示すシミュレーション証拠を提供する。

A recent literature considers causal inference using noisy proxies for unobserved confounding factors. The proxies are divided into two sets that are independent conditional on the confounders. One set of proxies are `negative control treatments' and the other are `negative control outcomes'. Existing work applies to low-dimensional settings with a fixed number of proxies and confounders. In this work we consider linear models with many proxy controls and possibly many confounders. A key insight is that if each group of proxies is strictly larger than the number of confounding factors, then a matrix of nuisance parameters has a low-rank structure and a vector of nuisance parameters has a sparse structure. We can exploit the rank-restriction and sparsity to reduce the number of free parameters to be estimated. The number of unobserved confounders is not known a priori but we show that it is identified, and we apply penalization methods to adapt to this quantity. We provide an estimator with a closed-form as well as a doubly-robust estimator that must be evaluated using numerical methods. We provide conditions under which our doubly-robust estimator is uniformly root-$n$ consistent, asymptotically centered normal, and our suggested confidence intervals have asymptotically correct coverage. We provide simulation evidence that our methods achieve better performance than existing approaches in high dimensions, particularly when the number of proxies is substantially larger than the number of confounders.
翻訳日:2021-10-11 22:37:08 公開日:2021-10-08
# (参考訳) テンソル列車完成:リーマン最適化による局所復旧保証

Tensor train completion: local recovery guarantees via Riemannian optimization ( http://arxiv.org/abs/2110.03975v1 )

ライセンス: CC BY 4.0
Stanislav Budzinskiy, Nikolai Zamarashkin(参考訳) 本研究では、テンソルのランダムに選択された要素の数を推定し、高い確率でテンソルの完備化に対するリーマン勾配勾配の局所収束を保証する。 我々は、接空間上の直交射影の新しい境界を、展開の特異値の調和平均に基づいて導出し、テンソル列のコアコヒーレンスの概念を導入する。 また,実験結果を側情報でテンソルトレイン完了まで拡張し,対応する局所収束保証を得る。

In this work we estimate the number of randomly selected elements of a tensor that with high probability guarantees local convergence of Riemannian gradient descent for tensor train completion. We derive a new bound for the orthogonal projections onto the tangent spaces based on the harmonic mean of the unfoldings' singular values and introduce a notion of core coherence for tensor trains. We also extend the results to tensor train completion with side information and obtain the corresponding local convergence guarantees.
翻訳日:2021-10-11 22:36:04 公開日:2021-10-08
# (参考訳) MilliTRACE-IR:mm波と赤外線による接触追跡と温度測定 [全文訳有]

MilliTRACE-IR: Contact Tracing and Temperature Screening via mm-Wave and Infrared Sensing ( http://arxiv.org/abs/2110.03979v1 )

ライセンス: CC BY 4.0
Marco Canil, Jacopo Pegoraro, Michele Rossi(参考訳) 本研究では,室内空間における人体温度のスクリーニングと接触追跡を妨害的かつプライバシ的に保護するミリ波レーダと赤外線イメージングシステムであるミリTRACE-IRを提案する。 新型コロナウイルス(COVID-19)のパンデミックに対処するために、社会的距離と発熱の検出が広く使われており、世界中の学術、産業、行政から大きな関心を集めている。 ほとんどのソリューションは2つの側面を別々に扱ったが、ミリTRACE-IRは堅牢なセンサー融合アプローチ、ミリ波レーダー、赤外線熱カメラを組み合わせている。 本システムは、サーマルカメラ画像平面の被写体の顔とレーダ基準系における人間の動きを共同で追跡することにより、ディスタンスと体温の完全な自動計測を実現する。 距離推定、対人距離推定(0.2m近い被験者に有効である)、正確な温度モニタリング(最大0.5cの誤差)において、デシメータレベルの精度を達成する。 さらに、ミリTRACE-IRは接触追跡を行い、高体温の人は熱カメラセンサによって確実に検出され、その後レーダーによって非侵襲的に大きな屋内領域を追跡される。 新しい部屋に入る際には、レーダー反射から深層ニューラルネットワークを介して歩行関連の特徴を計算し、重み付けされた極端学習機械を最終同定ツールとして使用することにより、高精度(95%)の他の複数の個人の間で再同定を行う。

In this work, we present milliTRACE-IR, a joint mm-wave radar and infrared imaging sensing system performing unobtrusive and privacy preserving human body temperature screening and contact tracing in indoor spaces. Social distancing and fever detection have been widely employed to counteract the COVID-19 pandemic, sparking great interest from academia, industry and public administrations worldwide. While most solutions have dealt with the two aspects separately, milliTRACE-IR combines, via a robust sensor fusion approach, mm-wave radars and infrared thermal cameras. The system achieves fully automated measurement of distancing and body temperature, by jointly tracking the faces of the subjects in the thermal camera image plane and the human motion in the radar reference system. It achieves decimeter-level accuracy in distance estimation, inter-personal distance estimation (effective for subjects getting as close as 0.2 m), and accurate temperature monitoring (max. errors of 0.5 C). Moreover, milliTRACE-IR performs contact tracing: a person with high body temperature is reliably detected by the thermal camera sensor and subsequently traced across a large indoor area in a non-invasive way by the radars. When entering a new room, this subject is re-identified among several other individuals with high accuracy (95%), by computing gait-related features from the radar reflections through a deep neural network and using a weighted extreme learning machine as the final re-identification tool.
翻訳日:2021-10-11 22:35:09 公開日:2021-10-08
# (参考訳) 深層半監督学習を用いた自然画像からの特徴種自動同定 [全文訳有]

Automated Feature-Specific Tree Species Identification from Natural Images using Deep Semi-Supervised Learning ( http://arxiv.org/abs/2110.03994v1 )

ライセンス: CC BY 4.0
Dewald Homan (1), Johan A. du Preez (1) ((1) Faculty of Engineering, Stellenbosch University)(参考訳) 植物種分類の先行研究は、主に分離された植物属性からモデルを構築することに焦点を当てている。 そのため、自然界における種識別を支援するツールが必要となる。 本研究では,実世界の自然環境において木を識別できる新しい2次元アプローチを提案する。 さらに,半教師付き学習を通してラベルなしデータを活用することにより,教師付き学習に優れた性能を示す。 特徴認識のためのシングルGPU実装では、最小限のアノテートデータを使用し、それぞれ93.96%と93.11%の精度を実現しています。 さらに,本手法を用いて50種の特徴特異的データセットを抽出する。 最後に,半教師付き種分類法は葉のtop-5精度94.04%,樹皮のtop-5精度83.04%を達成した。

Prior work on plant species classification predominantly focuses on building models from isolated plant attributes. Hence, there is a need for tools that can assist in species identification in the natural world. We present a novel and robust two-fold approach capable of identifying trees in a real-world natural setting. Further, we leverage unlabelled data through deep semi-supervised learning and demonstrate superior performance to supervised learning. Our single-GPU implementation for feature recognition uses minimal annotated data and achieves accuracies of 93.96% and 93.11% for leaves and bark, respectively. Further, we extract feature-specific datasets of 50 species by employing this technique. Finally, our semi-supervised species classification method attains 94.04% top-5 accuracy for leaves and 83.04% top-5 accuracy for bark.
翻訳日:2021-10-11 22:03:57 公開日:2021-10-08
# (参考訳) 潜在空間一貫性を有するwassersteinオートエンコーダの統計的再生保証 [全文訳有]

Statistical Regeneration Guarantees of the Wasserstein Autoencoder with Latent Space Consistency ( http://arxiv.org/abs/2110.03995v1 )

ライセンス: CC BY 4.0
Anish Chakrabarty and Swagatam Das(参考訳) 変分オートエンコーダ(VAE)の導入は、表現学習モデルの歴史におけるブレークスルーとして記録されている。 独自にいくつかの認定を受けたことに加えて、VAEは直近の後継者の形で一連の発明をフラグ付けすることに成功している。 wasserstein autoencoder (wae)は、その領域の継承者であり、すべての善良さと高揚した生成的約束を持ち、生成的敵対的ネットワーク(gans)さえも一致する。 言うまでもなく、近年はGANの統計分析において顕著な復活が見られる。 しかし、オートエンコーダの同様の試験は、多種多様な適用性と顕著な経験的性能にもかかわらず、ほとんど欠落している。 このギャップを埋めるため,本論文ではwaeの統計特性について検討する。 まず,vapnik chervonenkis(vc)理論を用いて,waeが潜在空間における目標分布を達成することを統計的に保証する。 その結果、入力分布の再生が保証され、ワッサーシュタイン計量の下での測度の最適輸送によって提供されるポテンシャルを利用する。 この研究は、waeが潜在法則の形で圧縮を受けた後に再構築できる分布のクラスを示唆するものである。

The introduction of Variational Autoencoders (VAE) has been marked as a breakthrough in the history of representation learning models. Besides having several accolades of its own, VAE has successfully flagged off a series of inventions in the form of its immediate successors. Wasserstein Autoencoder (WAE), being an heir to that realm carries with it all of the goodness and heightened generative promises, matching even the generative adversarial networks (GANs). Needless to say, recent years have witnessed a remarkable resurgence in statistical analyses of the GANs. Similar examinations for Autoencoders, however, despite their diverse applicability and notable empirical performance, remain largely absent. To close this gap, in this paper, we investigate the statistical properties of WAE. Firstly, we provide statistical guarantees that WAE achieves the target distribution in the latent space, utilizing the Vapnik Chervonenkis (VC) theory. The main result, consequently ensures the regeneration of the input distribution, harnessing the potential offered by Optimal Transport of measures under the Wasserstein metric. This study, in turn, hints at the class of distributions WAE can reconstruct after suffering a compression in the form of a latent law.
翻訳日:2021-10-11 21:50:43 公開日:2021-10-08
# (参考訳) グラフアテンションネットワークを用いた知覚・侵入サルカズム検出 [全文訳有]

Perceived and Intended Sarcasm Detection with Graph Attention Networks ( http://arxiv.org/abs/2110.04001v1 )

ライセンス: CC BY 4.0
Joan Plepi and Lucie Flek(参考訳) 既存のサーカズム検出システムは、言語マーカー、コンテキスト、あるいはユーザレベルの優先事項の活用に重点を置いている。 しかし、社会的研究は著者と聴衆の関係が皮肉の使用と解釈に等しく関連していることを示唆している。 本研究では,(1)過去のツイートからのユーザコンテキストと(2)対話グラフにおけるユーザの会話型近所からのソーシャル情報とを併用して,記事の解釈をコンテキスト化する枠組みを提案する。 会話スレッドでは,ユーザとツイートにグラフアテンションネットワーク(GAT)を,ユーザ履歴の密度の高い表現と組み合わせて使用する。 最近公表された19万のTwitterユーザーと30万のラベル付きツイートのデータセットに1000万のラベル付きつぶやきを文脈として加えた結果に加えて、我々の結果は、このモデルが他人の皮肉的認識よりも、著者の皮肉的な意図を解釈することに寄与していることを示している。

Existing sarcasm detection systems focus on exploiting linguistic markers, context, or user-level priors. However, social studies suggest that the relationship between the author and the audience can be equally relevant for the sarcasm usage and interpretation. In this work, we propose a framework jointly leveraging (1) a user context from their historical tweets together with (2) the social information from a user's conversational neighborhood in an interaction graph, to contextualize the interpretation of the post. We use graph attention networks (GAT) over users and tweets in a conversation thread, combined with dense user history representations. Apart from achieving state-of-the-art results on the recently published dataset of 19k Twitter users with 30K labeled tweets, adding 10M unlabeled tweets as context, our results indicate that the model contributes to interpreting the sarcastic intentions of an author more than to predicting the sarcasm perception by others.
翻訳日:2021-10-11 21:20:52 公開日:2021-10-08
# (参考訳) デュアルアームアセンブリの集中化を学ぶ [全文訳有]

Learning to Centralize Dual-Arm Assembly ( http://arxiv.org/abs/2110.04003v1 )

ライセンス: CC BY 4.0
Marvin Alles and Elie Aljalbout(参考訳) 工業用マニピュレータは現代の製造プロセスで広く使われているが、非構造環境への展開は未解決の問題である。 実世界の操作タスクの多様性、複雑さ、不確実性に対処するには、一般的なフレームワークが不可欠である。 この作業では,二本腕のpeg-in-hole操作のフレームワークを提供することで,ヒューマノイドロボットとのアセンブリにフォーカスしたい。 両腕ペグ・イン・ホールに限らず、一般に双腕操作に限ったアプローチへの貢献を目指しており、モデリング作業は最小限に抑えている。 近年、強化学習はシングルアームロボット操作において大きな成果を上げているが、デュアルアーム操作に焦点を当てた研究はいまだに稀である。 そのようなタスクを解くには、2つのマニピュレータ間の相互作用の複雑なモデリングと、それらの結合を制御レベルで行う。 本稿では,2つの分散型シングルアームコントローラと1つの集中型ポリシを用いたモジュラーアプローチに基づく,デュアルアーム操作に対するモデルフリー強化学習の適用性について検討する。 スパース報酬のみを用いることで、モデリングの労力を最小限に抑える。 両腕ペグインホールにおけるフレームワークの有効性を実証し、異なるアクション空間におけるサンプル効率と成功率を分析した。 さらに,位置不確実性を扱う場合,異なるクリアランスの結果を比較し,外乱回復とロバスト性を示す。 最後に、シミュレーションで訓練されたゼロショット転送ポリシーを実世界に適用し、そのパフォーマンスを評価します。

Even though industrial manipulators are widely used in modern manufacturing processes, deployment in unstructured environments remains an open problem. To deal with variety, complexity and uncertainty of real world manipulation tasks a general framework is essential. In this work we want to focus on assembly with humanoid robots by providing a framework for dual-arm peg-in-hole manipulation. As we aim to contribute towards an approach which is not limited to dual-arm peg-in-hole, but dual-arm manipulation in general, we keep modeling effort at a minimum. While reinforcement learning has shown great results for single-arm robotic manipulation in recent years, research focusing on dual-arm manipulation is still rare. Solving such tasks often involves complex modeling of interaction between two manipulators and their coupling at a control level. In this paper, we explore the applicability of model-free reinforcement learning to dual-arm manipulation based on a modular approach with two decentralized single-arm controllers and a single centralized policy. We reduce modeling effort to a minimum by using sparse rewards only. We demonstrate the effectiveness of the framework on dual-arm peg-in-hole and analyze sample efficiency and success rates for different action spaces. Moreover, we compare results on different clearances and showcase disturbance recovery and robustness, when dealing with position uncertainties. Finally we zero-shot transfer policies trained in simulation to the real-world and evaluate their performance.
翻訳日:2021-10-11 21:09:06 公開日:2021-10-08
# (参考訳) ベイズ変圧器の先行と推論の病理 [全文訳有]

Pathologies in priors and inference for Bayesian transformers ( http://arxiv.org/abs/2110.04020v1 )

ライセンス: CC BY 4.0
Tristan Cinquin, Alexander Immer, Max Horn, Vincent Fortuin(参考訳) 近年、トランスフォーマーは自然言語処理から強化学習まで、多くの応用においてワークホースとしての地位を確立している。 同様に、ベイズ深層学習は、ロバスト性とキャリブレーションが重要である安全-クリティカル応用における不確実性推定の金標準となっている。 驚くべきことに、ベイズ推定を用いた予測の不確実性の観点からトランスフォーマーモデルを改善する試みは成功しなかった。 本研究では,このベイズ変圧器の人口密度の低い領域について検討する。 変換器の重み空間推定は, 近似後部に関係なくうまく動作しないことがわかった。 また、前者は少なくとも部分的には欠点があるが、これらのモデルに対して明確な重み付け先を見つけることは極めて困難である。 これらの問題は、重み空間からトランスフォーマー内の関数空間分布への有意義なマッピングを得ることの複雑さに起因していると仮定する。 そこで,関数空間に近づくことで,ディリクレ分布の暗黙的再パラメータ化に基づく新しい手法を提案する。 その結果,提案手法はベースラインと競合することがわかった。

In recent years, the transformer has established itself as a workhorse in many applications ranging from natural language processing to reinforcement learning. Similarly, Bayesian deep learning has become the gold-standard for uncertainty estimation in safety-critical applications, where robustness and calibration are crucial. Surprisingly, no successful attempts to improve transformer models in terms of predictive uncertainty using Bayesian inference exist. In this work, we study this curiously underpopulated area of Bayesian transformers. We find that weight-space inference in transformers does not work well, regardless of the approximate posterior. We also find that the prior is at least partially at fault, but that it is very hard to find well-specified weight priors for these models. We hypothesize that these problems stem from the complexity of obtaining a meaningful mapping from weight-space to function-space distributions in the transformer. Therefore, moving closer to function-space, we propose a novel method based on the implicit reparameterization of the Dirichlet distribution to apply variational inference directly to the attention weights. We find that this proposed method performs competitively with our baselines.
翻訳日:2021-10-11 20:53:29 公開日:2021-10-08
# (参考訳) 任意画像による色収差回復

Chromatic Aberration Recovery on Arbitrary Images ( http://arxiv.org/abs/2110.04030v1 )

ライセンス: CC BY 4.0
Daniel J. Blueman (University of Bristol)(参考訳) デジタルイメージングセンサー技術は、現代の撮像システムにおける光学技術の発展を上回っている。 センサの解像度が向上するにつれて、横色収差に起因する品質低下はますます顕著になり、他の種類の収差は古典的な画像強調(例えば、シャープニング)では顕著に減少し、一方、横色収差はより重要になっている。 高性能で軽量なレンズシステムの目標は、最近の画像品質の制限を克服する新しい方法を見つける必要がある。 この研究は、横色収差の堅牢かつ自動最小化を実証し、人工画像と実画像の両方を用いて画質の低下を回復する。 アルゴリズムの動作を検証するために一連のテストイメージが使用され、実際の画像の一連の変更がアプローチのパフォーマンスを評価するために使用される。

Digital imaging sensor technology has continued to outpace development in optical technology in modern imaging systems. The resulting quality loss attributable to lateral chromatic aberration is becoming increasingly significant as sensor resolution increases; other classes of aberration are less significant with classical image enhancement (e.g. sharpening), whereas lateral chromatic aberration becomes more significant. The goals of higher-performance and lighter lens systems drive a recent need to find new ways to overcome resulting image quality limitations. This work demonstrates the robust and automatic minimisation of lateral chromatic aberration, recovering the loss of image quality using both artificial and real-world images. A series of test images are used to validate the functioning of the algorithm, and changes across a series of real-world images are used to evaluate the performance of the approach.
翻訳日:2021-10-11 20:38:38 公開日:2021-10-08
# (参考訳) マルチロボットタスクと運動計画のためのタスク割当--散在作業空間におけるオブジェクトピッキングの場合 [全文訳有]

Task Allocation for Multi-Robot Task and Motion Planning: a case for Object Picking in Cluttered Workspaces ( http://arxiv.org/abs/2110.04089v1 )

ライセンス: CC BY 4.0
Hossein Karami, Antony Thomas, Fulvio Mastrogiovanni(参考訳) AND/ORグラフに基づく統合型マルチロボットタスクと動作計画手法を提案する。 (i)与えられた数のロボットの活動を調整するタスク割当を実行し、 (ii) 乱雑なワークスペースからオブジェクトを検索する作業など、事前に不明な数のオブジェクト再配置を含むタスクを処理することができる。 そのような状況は、例えば、捜索や救助のシナリオで発生し、散らかった対象を特定/選択する。 対応する問題は、乱雑な計画のカテゴリに該当する。 clutterで計画中の課題の1つは、ターゲットオブジェクトを選択するのに必要なオブジェクトの再配列数が事前には分かっていないことだ。 さらに、異なるクラッタリングオブジェクトの再配置がターゲットオブジェクトに到達することができるため、このようなタスクは様々な方法で分解することができる。 本手法では,複合ユーティリティ関数を最大化することでタスク割り当てと分解を実現する。 割り当てられたタスクは、未知数の再配置タスクの要求にロバストな統合タスクとモーションプランナーによって実行される。 フランカ・エミカマニピュレータ2台についてシミュレーション実験を行い, 実験を行った。

We present an AND/OR graph-based, integrated multi-robot task and motion planning approach which (i) performs task allocation coordinating the activity of a given number of robots, and (ii) is capable of handling tasks which involve an a priori unknown number of object re-arrangements, such as those involved in retrieving objects from cluttered workspaces. Such situations may arise, for example, in search and rescue scenarios, while locating/picking a cluttered object of interest. The corresponding problem falls under the category of planning in clutter. One of the challenges while planning in clutter is that the number of object re-arrangements required to pick the target object is not known beforehand, in general. Moreover, such tasks can be decomposed in a variety of ways, since different cluttering object re-arrangements are possible to reach the target object. In our approach, task allocation and decomposition is achieved by maximizing a combined utility function. The allocated tasks are performed by an integrated task and motion planner, which is robust to the requirement of an unknown number of re-arrangement tasks. We demonstrate our results with experiments in simulation on two Franka Emika manipulators.
翻訳日:2021-10-11 20:37:07 公開日:2021-10-08
# (参考訳) A Mining Software Repository Extended Cookbook: 文献レビューから学んだこと [全文訳有]

A Mining Software Repository Extended Cookbook: Lessons learned from a literature review ( http://arxiv.org/abs/2110.04095v1 )

ライセンス: CC BY-SA 4.0
Daniel Barros, Flavio Horita, Igor Wiese, Kanan Silva(参考訳) Mining Software Repositories(MSR)の主な目的は、最新の拡張を発見し、ソフトウェアプロジェクトを改善する方法についての洞察を提供することである。 そこで本稿では,本稿では,msr cookbookのmsr解析結果の更新を行い,まずシステムマッピングを行い,最新技術の解明と分析を行い,その後,拡張版のクックブックを提案する。 この拡張された料理本は、選択された112の研究のリストの分析から派生した4つの高レベルなテーマに基づいて構築された。 そのため、次の分野における実践・研究への貢献として、拡張料理本の統合に用いられた。 1) 利用可能なすべての出版施設及び関連出版施設で公表された研究を含む。 2)4つのハイレベルテーマすべてにレコメンデーションを盛り込み,更新し,元のMSRクックブックと比較すると,本研究のコメントは84%増加した。 3) ハイレベルなテーマごとに使用するツールの要約 4)将来の研究で学んだ教訓の提供。 このように、本研究で調査されたCookbookの拡張は、サンプルとツールの助けを借りて、改善されたレコメンデーションと学習が利用可能であるように、新しい研究プロジェクトを支援することができる。

The main purpose of Mining Software Repositories (MSR) is to discover the latest enhancements and provide an insight into how to make improvements in a software project. In light of it, this paper updates the MSR findings of the original MSR Cookbook, by first conducting a systematic mapping study to elicit and analyze the state-of-the-art, and then proposing an extended version of the Cookbook. This extended Cookbook was built on four high-level themes, which were derived from the analysis of a list of 112 selected studies. Hence, it was used to consolidate the extended Cookbook as a contribution to practice and research in the following areas by: 1) including studies published in all available and relevant publication venues; 2) including and updating recommendations in all four high-level themes, with an increase of 84% in comments in this study when compared with the original MSR Cookbook; 3) summarizing the tools employed for each high-level theme; and 4) providing lessons learned for future studies. Thus, the extended Cookbook examined in this work can support new research projects, as upgraded recommendations and the lessons learned are available with the aid of samples and tools.
翻訳日:2021-10-11 20:23:53 公開日:2021-10-08
# (参考訳) 半教師付きノード分類のためのトポロジー不均衡学習 [全文訳有]

Topology-Imbalance Learning for Semi-Supervised Node Classification ( http://arxiv.org/abs/2110.04099v1 )

ライセンス: CC BY 4.0
Deli Chen, Yankai Lin, Guangxiang Zhao, Xuancheng Ren, Peng Li, Jie Zhou, Xu Sun(参考訳) ノード表現の学習において重要な問題であるクラス不均衡問題は、コミュニティから注目を集めている。 既存の研究で見なされる不均衡は、異なるクラスにおけるラベル付き例の不等量(量的不均衡)に由来するが、グラフデータはラベル付きノードの非対称な位相的性質から一意な不均衡の源を露出している、すなわちラベル付きノードは、グラフにおける構造的役割(トポロジー不均衡)の点で等しくはない。 そこで本研究では,まず,その特徴,原因,および半教師付きノード分類学習への脅威を含む,未知のトポロジー不均衡問題を明らかにする。 そこで我々は,ノード影響シフト現象とラベル伝搬アルゴリズムを併用して,量的および位相的不均衡問題を統一的に解析する。 そこで我々は,グラフトポロジアンバランスの度合いを測るための影響競合検出尺度であるトトロを考案し,相対的な位置からクラス境界への適応的にラベル付きノードの影響を再重み付けすることで,トポロジアンバランスの問題に対処するモデル非依存手法ReNodeを提案する。 システム実験は, トポロジ不均衡問題を緩和し, 半教師付きノード分類を促進する上で, 提案手法の有効性と一般化性を示す。 さらに分析した結果、異なるグラフニューラルネットワーク(GNN)のトポロジの不均衡に対する感度の変化が明らかになり、GNNアーキテクチャを評価する上で新たな視点となる可能性がある。

The class imbalance problem, as an important issue in learning node representations, has drawn increasing attention from the community. Although the imbalance considered by existing studies roots from the unequal quantity of labeled examples in different classes (quantity imbalance), we argue that graph data expose a unique source of imbalance from the asymmetric topological properties of the labeled nodes, i.e., labeled nodes are not equal in terms of their structural role in the graph (topology imbalance). In this work, we first probe the previously unknown topology-imbalance issue, including its characteristics, causes, and threats to semi-supervised node classification learning. We then provide a unified view to jointly analyzing the quantity- and topology- imbalance issues by considering the node influence shift phenomenon with the Label Propagation algorithm. In light of our analysis, we devise an influence conflict detection -- based metric Totoro to measure the degree of graph topology imbalance and propose a model-agnostic method ReNode to address the topology-imbalance issue by re-weighting the influence of labeled nodes adaptively based on their relative positions to class boundaries. Systematic experiments demonstrate the effectiveness and generalizability of our method in relieving topology-imbalance issue and promoting semi-supervised node classification. The further analysis unveils varied sensitivity of different graph neural networks (GNNs) to topology imbalance, which may serve as a new perspective in evaluating GNN architectures.
翻訳日:2021-10-11 20:06:29 公開日:2021-10-08
# (参考訳) マルチモーダルvaesの限界について [全文訳有]

On the Limitations of Multimodal VAEs ( http://arxiv.org/abs/2110.04121v1 )

ライセンス: CC BY-SA 4.0
Imant Daunhawer, Thomas M. Sutter, Kieran Chin-Cheong, Emanuele Palumbo and Julia E. Vogt(参考訳) マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。 しかし、弱い監督の利点にもかかわらず、完全に監督されていない単調なVAEと比べて、生産品質の差が見られる。 このギャップを説明するため、混合ベースの多モードvaesの大規模なファミリーに適用できる基本的な制限を明らかにする。 我々は,モダリティのサブサンプリングが多モードELBO上の望ましくない上限を強制し,各モデルの生成品質を制限することを証明した。 経験的に,合成データと実データの両方に生成的品質ギャップを示し,マルチモーダルVAEの異なる変種間のトレードオフを示す。 従来のベンチマークよりも複雑なデータセットに適用した場合、既存のアプローチが有効なマルチモーダル生成モデルの望ましいすべての基準を満たさないことが分かりました。 要約すると、弱い教師付きデータをモデル化するためのvaeベースのアプローチの基本的な制限を特定し、形式化し、検証する。

Multimodal variational autoencoders (VAEs) have shown promise as efficient generative models for weakly-supervised data. Yet, despite their advantage of weak supervision, they exhibit a gap in generative quality compared to unimodal VAEs, which are completely unsupervised. In an attempt to explain this gap, we uncover a fundamental limitation that applies to a large family of mixture-based multimodal VAEs. We prove that the sub-sampling of modalities enforces an undesirable upper bound on the multimodal ELBO and thereby limits the generative quality of the respective models. Empirically, we showcase the generative quality gap on both synthetic and real data and present the tradeoffs between different variants of multimodal VAEs. We find that none of the existing approaches fulfills all desired criteria of an effective multimodal generative model when applied on more complex datasets than those used in previous benchmarks. In summary, we identify, formalize, and validate fundamental limitations of VAE-based approaches for modeling weakly-supervised data and discuss implications for real-world applications.
翻訳日:2021-10-11 19:44:52 公開日:2021-10-08
# (参考訳) 3D Infomaxによる分子特性予測のためのGNNの改良 [全文訳有]

3D Infomax improves GNNs for Molecular Property Prediction ( http://arxiv.org/abs/2110.04126v1 )

ライセンス: CC BY 4.0
Hannes St\"ark, Dominique Beaini, Gabriele Corso, Prudencio Tossou, Christian Dallago, Stephan G\"unnemann, Pietro Li\`o(参考訳) 分子特性予測は、現実世界に重大な影響を及ぼすディープラーニングの最も急速に成長している応用の1つである。 学習モデルへの入力として3D分子構造を含めると、多くの分子タスクのパフォーマンスが向上する。 しかし、この情報は、複数の現実世界のアプリケーションに必要なスケールで計算することは不可能である。 2次元分子グラフのみを与えられた分子の形状を推定するための事前学習モデルを提案する。 自己教師付き学習の手法を用いて, 3次元要約ベクトルとグラフニューラルネットワーク(gnn)の表現との間の相互情報を最大化し, 潜在3次元情報を含むことを示す。 未知の幾何学を持つ分子の微調整中、GNNは暗黙の3D情報を生成し、下流のタスクを改善するために使用することができる。 本研究では,8つの量子力学特性に対する平均MAEの22%削減など,幅広い特性に対して3次元事前学習が有意な改善をもたらすことを示す。 さらに、学習された表現は異なる分子空間のデータセット間で効果的に転送できる。

Molecular property prediction is one of the fastest-growing applications of deep learning with critical real-world impacts. Including 3D molecular structure as input to learned models their performance for many molecular tasks. However, this information is infeasible to compute at the scale required by several real-world applications. We propose pre-training a model to reason about the geometry of molecules given only their 2D molecular graphs. Using methods from self-supervised learning, we maximize the mutual information between 3D summary vectors and the representations of a Graph Neural Network (GNN) such that they contain latent 3D information. During fine-tuning on molecules with unknown geometry, the GNN still generates implicit 3D information and can use it to improve downstream tasks. We show that 3D pre-training provides significant improvements for a wide range of properties, such as a 22% average MAE reduction on eight quantum mechanical properties. Moreover, the learned representations can be effectively transferred between datasets in different molecular spaces.
翻訳日:2021-10-11 19:00:28 公開日:2021-10-08
# (参考訳) 未報告医療条件における不平等の定量化 [全文訳有]

Quantifying Inequality in Underreported Medical Conditions ( http://arxiv.org/abs/2110.04133v1 )

ライセンス: CC BY 4.0
Divya Shanmugam, Emma Pierson(参考訳) 健康状態の有病率、またはその発生人口の割合を推定することは、医療や公衆衛生において根本的な問題である。 集団間の相対的な有病率の正確な推定(例えば、状態が男性よりも女性に頻繁に影響を及ぼす)は、不均等に影響を受けるグループを優先する効果的で公平な健康政策を促進する。 しかし, 医療状況が低い場合, 相対的な有病率の推定は困難である。 本研究は、ポジティブなラベルなし学習枠組みに基づいて、報告不足の医療疾患の相対的有病率を精度良く推定する方法を提案する。 一般に行われている共変量シフトの仮定では、集団間で症状条件が一定である確率は一定であり、正の未ラベル学習において一般的に行われる限定的な仮定がなくても、絶対的な有病率の回復が不可能であっても、相対的な有病率を回復できることを示す。 我々は,本手法が基準値よりも精度良く相対有病率を回復できることを示すための,合成および実健康データに関する一連の実験と,共変量シフト仮定の妥当な違反に対する手法の堅牢性を示す。

Estimating the prevalence of a medical condition, or the proportion of the population in which it occurs, is a fundamental problem in healthcare and public health. Accurate estimates of the relative prevalence across groups -- capturing, for example, that a condition affects women more frequently than men -- facilitate effective and equitable health policy which prioritizes groups who are disproportionately affected by a condition. However, it is difficult to estimate relative prevalence when a medical condition is underreported. In this work, we provide a method for accurately estimating the relative prevalence of underreported medical conditions, building upon the positive unlabeled learning framework. We show that under the commonly made covariate shift assumption -- i.e., that the probability of having a disease conditional on symptoms remains constant across groups -- we can recover the relative prevalence, even without restrictive assumptions commonly made in positive unlabeled learning and even if it is impossible to recover the absolute prevalence. We provide a suite of experiments on synthetic and real health data that demonstrate our method's ability to recover the relative prevalence more accurately than do baselines, and the method's robustness to plausible violations of the covariate shift assumption.
翻訳日:2021-10-11 18:26:52 公開日:2021-10-08
# (参考訳) モデルベースオフライン強化学習における設計選択の再検討

Revisiting Design Choices in Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2110.04135v1 )

ライセンス: CC BY 4.0
Cong Lu, Philip J. Ball, Jack Parker-Holder, Michael A. Osborne, Stephen J. Roberts(参考訳) オフライン強化学習により、エージェントは環境遷移の巨大なデータセットを活用して制御ポリシーを学習し、潜在的に高価で安全でないオンラインデータ収集の必要性を回避できる。 近年,オフラインモデルに基づく強化学習において,学習ダイナミクスモデルを活用したアプローチが大きな進歩を遂げている。 これは典型的には確率モデルの構築と、モデルの不確実性を使用して、データが不十分な場合の報酬をペナルティ化し、真の MDP を低くする悲観的 MDP を解く。 しかし、既存の手法は理論と実践の決裂を示しており、悲観的回帰は真の力学からモデルの全変動距離によって境界づけられるべきであるが、その代わりに推定モデルの不確実性に基づいてペナルティによって実装される。 これは様々な不確実性ヒューリスティックを生み出し、異なるアプローチを比較することはほとんどない。 本稿では、これらのヒューリスティックスを比較し、モデル数や仮想ロールアウト水平線といった他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを設計する。 これらの知見を用いて,ベイジアン最適化を用いたこれらの重要なハイパーパラメータの選択は,既存の手作業の最先端手法とは大きく異なる優れた構成が得られ,その結果,性能が大幅に向上することを示す。

Offline reinforcement learning enables agents to leverage large pre-collected datasets of environment transitions to learn control policies, circumventing the need for potentially expensive or unsafe online data collection. Significant progress has been made recently in offline model-based reinforcement learning, approaches which leverage a learned dynamics model. This typically involves constructing a probabilistic model, and using the model uncertainty to penalize rewards where there is insufficient data, solving for a pessimistic MDP that lower bounds the true MDP. Existing methods, however, exhibit a breakdown between theory and practice, whereby pessimistic return ought to be bounded by the total variation distance of the model from the true dynamics, but is instead implemented through a penalty based on estimated model uncertainty. This has spawned a variety of uncertainty heuristics, with little to no comparison between differing approaches. In this paper, we compare these heuristics, and design novel protocols to investigate their interaction with other hyperparameters, such as the number of models, or imaginary rollout horizon. Using these insights, we show that selecting these key hyperparameters using Bayesian Optimization produces superior configurations that are vastly different to those currently used in existing hand-tuned state-of-the-art methods, and result in drastically stronger performance.
翻訳日:2021-10-11 18:08:34 公開日:2021-10-08
# (参考訳) 胎児脳MRI自動スライス処方の高速頭部位置検出 [全文訳有]

Rapid head-pose detection for automated slice prescription of fetal-brain MRI ( http://arxiv.org/abs/2110.04140v1 )

ライセンス: CC BY 4.0
Malte Hoffmann, Esra Abaci Turk, Borjan Gagoski, Leah Morgan, Paul Wighton, M. Dylan Tisdall, Martin Reuter, Elfar Adalsteinsson, P. Ellen Grant, Lawrence L. Wald, Andr\'e J. W. van der Kouwe(参考訳) 胎児脳MRIでは, 処方と接収の主目的の変化は, 臨床評価に不可欠な標準的な矢状, 冠, 軸方向の視線を得る上での課題である。 動き制限が振り返りのリサンプリングを妨げる厚いスライスに収まると、技術者は55秒のスタック・オブ・スライス・スキャン(HASTE)を繰り返し、幾度となく向きを変えて、以前のスタックからヘッドポーズを推論する。 この非効率なワークフローに対処するために,フルユース・スカウト・スキャン(EPI)を用いた頑健な頭部位置検出アルゴリズムを提案する。 約2秒の手順で胎児の脳と眼を自動的に見つけ、それが最大安定極端領域(MSER)から導かれる。 この方法の成功率は第3三学期で94%を超え、訓練を受けた技術者を20%上回った。 パイプラインは解剖学的シーケンスを自動的にオリエントし、2Dビューからヘッドポーズを見積もる必要をなくし、動作の遅延を低減するために使用することができる。

In fetal-brain MRI, head-pose changes between prescription and acquisition present a challenge to obtaining the standard sagittal, coronal and axial views essential to clinical assessment. As motion limits acquisitions to thick slices that preclude retrospective resampling, technologists repeat ~55-second stack-of-slices scans (HASTE) with incrementally reoriented field of view numerous times, deducing the head pose from previous stacks. To address this inefficient workflow, we propose a robust head-pose detection algorithm using full-uterus scout scans (EPI) which take ~5 seconds to acquire. Our ~2-second procedure automatically locates the fetal brain and eyes, which we derive from maximally stable extremal regions (MSERs). The success rate of the method exceeds 94% in the third trimester, outperforming a trained technologist by up to 20%. The pipeline may be used to automatically orient the anatomical sequence, removing the need to estimate the head pose from 2D views and reducing delays during which motion can occur.
翻訳日:2021-10-11 18:06:57 公開日:2021-10-08
# (参考訳) テキスト分析とディープラーニング:ネットワークアプローチ

Text analysis and deep learning: A network approach ( http://arxiv.org/abs/2110.04151v1 )

ライセンス: CC BY-SA 4.0
Ingo Marquart(参考訳) 応用研究者に利用可能な多くの情報は、書かれた言語や音声テキストに含まれる。 BERTのような深層言語モデルは、計算言語学の多くの応用において前例のない成功を収めた。 しかし、これらのモデルが既存のテキストを分析するのにどのように使用できるかについては、ほとんど分かっていない。 本稿では,変圧器モデルとネットワーク解析を併用して,言語使用の自己参照表現を生成する手法を提案する。 提案手法は,表現量と距離尺度の判別的選択の量を削減しつつ,基礎となるモデルや数学的によく定義された操作と強く一致する言語関係を生成する。 これは、我々の知る限りでは、深層言語モデルから直接意味ネットワークを抽出する最初の教師なしの手法である。 著者」という用語のセマンティック分析で、我々のアプローチを説明します。 1980年から2020年までのハーバード・ビジネス・レビューのコーパス全体を用いて、ネットワーク内の関係が、時間的および文脈間での談話の意味を追跡し、意味的および構文的関係のクラスターを識別し、関連づけることを発見した。 最後に,本手法が深層学習モデルの行動解析を補完し,知らせる方法について述べる。

Much information available to applied researchers is contained within written language or spoken text. Deep language models such as BERT have achieved unprecedented success in many applications of computational linguistics. However, much less is known about how these models can be used to analyze existing text. We propose a novel method that combines transformer models with network analysis to form a self-referential representation of language use within a corpus of interest. Our approach produces linguistic relations strongly consistent with the underlying model as well as mathematically well-defined operations on them, while reducing the amount of discretionary choices of representation and distance measures. It represents, to the best of our knowledge, the first unsupervised method to extract semantic networks directly from deep language models. We illustrate our approach in a semantic analysis of the term "founder". Using the entire corpus of Harvard Business Review from 1980 to 2020, we find that ties in our network track the semantics of discourse over time, and across contexts, identifying and relating clusters of semantic and syntactic relations. Finally, we discuss how this method can also complement and inform analyses of the behavior of deep learning models.
翻訳日:2021-10-11 17:42:32 公開日:2021-10-08
# (参考訳) GRU-based Detection Model を用いた小売業者の注文帳消しからの保護 [全文訳有]

Protecting Retail Investors from Order Book Spoofing using a GRU-based Detection Model ( http://arxiv.org/abs/2110.03687v1 )

ライセンス: CC BY-SA 4.0
Jean-No\"el Tuccella and Philip Nadler and Ovidiu \c{S}erban(参考訳) 市場操作は、市場効率と多くの参加金融アクターに有害な影響があるため、伝統的な市場の規制によって取り組まれている。 新たな低賃金プラットフォームや分散型デジタル通貨などの新たな資産クラスによる民間投資家の増加は、制度の高度化や厳しい規制の欠如により、脆弱なアクターの数を増やしている。 本稿では,不正行為を検知し,よく知られた市場操作手法であるスプーフィングの試みを投資家に知らせる手法を提案する。 当社のフレームワークは,高度に拡張可能な Gated Recurrent Unit (GRU) モデルに基づいており,スプーフィングや潜在的に違法な活動を説明するマーケット変数を組み込むことが可能である。 このモデルは細かな注文帳データに基づいてテストされ、規制のない市場の1つでは、多くの非機関トレーダーと共謀しがちである。 その結果、モデルが早期検出環境でうまく機能していることが示され、投資家が反応するのに十分早くスプーフの識別が可能である。 これは、規制されていないさまざまなトレーディング環境の投資家を保護し、違法行為を特定するための完全な包括的モデルへの第一歩だ。

Market manipulation is tackled through regulation in traditional markets because of its detrimental effect on market efficiency and many participating financial actors. The recent increase of private retail investors due to new low-fee platforms and new asset classes such as decentralised digital currencies has increased the number of vulnerable actors due to lack of institutional sophistication and strong regulation. This paper proposes a method to detect illicit activity and inform investors on spoofing attempts, a well-known market manipulation technique. Our framework is based on a highly extendable Gated Recurrent Unit (GRU) model and allows the inclusion of market variables that can explain spoofing and potentially other illicit activities. The model is tested on granular order book data, in one of the most unregulated markets prone to spoofing with a large number of non-institutional traders. The results show that the model is performing well in an early detection context, allowing the identification of spoofing attempts soon enough to allow investors to react. This is the first step to a fully comprehensive model that will protect investors in various unregulated trading environments and regulators to identify illicit activity.
翻訳日:2021-10-11 17:41:27 公開日:2021-10-08
# (参考訳) オフライン強化学習の成果を示す:オンライン評価予算 [全文訳有]

Showing Your Offline Reinforcement Learning Work: Online Evaluation Budget Matters ( http://arxiv.org/abs/2110.04156v1 )

ライセンス: CC BY 4.0
Vladislav Kurenkov, Sergey Kolesnikov(参考訳) 近年、金融からロボティクスまで、さまざまな意思決定領域のオフライン強化学習(オフラインrl)において、大きな進歩を遂げている。 しかし、新しいオフラインrlアルゴリズムの比較と報告は、(1)ハイパーパラメータ検索のための無制限オンライン評価予算の使用(2)オフラインポリシー選択のサイドステッピング(3)アドホックなパフォーマンス統計レポートである。 本研究では,これらの課題に対処する評価手法,期待オンライン性能を提案し,オンライン評価予算の固定化を前提とした最適方針の評価を行う。 提案手法を用いることで,行動政策のパフォーマンスを超えるために必要なオンライン評価回数を推定できる。 複数のオフラインrlベースラインに適用すると、オンライン評価予算が限られており、(1)行動のクローニングはさまざまなエキスパートレベルやデータレジームに対して強いベースラインであり、(2)オフラインの統一ポリシーの選択は価値ベースのアプローチと競合することが分かる。 提案手法がオフライン-RL実践者のツールセットに組み込まれて,実世界のシステムにRLをデプロイする際の情報的な結論に到達できることを期待する。

Over the recent years, vast progress has been made in Offline Reinforcement Learning (Offline-RL) for various decision-making domains: from finance to robotics. However, comparing and reporting new Offline-RL algorithms has been noted as underdeveloped: (1) use of unlimited online evaluation budget for hyperparameter search (2) sidestepping offline policy selection (3) ad-hoc performance statistics reporting. In this work, we propose an evaluation technique addressing these issues, Expected Online Performance, that provides a performance estimate for a best-found policy given a fixed online evaluation budget. Using our approach, we can estimate the number of online evaluations required to surpass a given behavioral policy performance. Applying it to several Offline-RL baselines, we find that with a limited online evaluation budget, (1) Behavioral Cloning constitutes a strong baseline over various expert levels and data regimes, and (2) offline uniform policy selection is competitive with value-based approaches. We hope the proposed technique will make it into the toolsets of Offline-RL practitioners to help them arrive at informed conclusions when deploying RL in real-world systems.
翻訳日:2021-10-11 17:34:40 公開日:2021-10-08
# (参考訳) 不均一データに基づく分散深層学習のためのリレーサム

RelaySum for Decentralized Deep Learning on Heterogeneous Data ( http://arxiv.org/abs/2110.04175v1 )

ライセンス: CC BY 4.0
Thijs Vogels and Lie He and Anastasia Koloskova and Tao Lin and Sai Praneeth Karimireddy and Sebastian U. Stich and Martin Jaggi(参考訳) 分散機械学習では、ワーカーはローカルデータのモデル更新を計算する。 労働者は中心的な調整なしに隣人とのみ通信するため、これらの更新はネットワーク上で徐々に伝播する。 このパラダイムは、全接続のないネットワーク上での分散トレーニングを可能にし、データのプライバシ保護と、データセンタでの分散トレーニングの通信コストの削減を支援する。 主に分散深層学習において重要な課題は、労働者のローカルデータ分布の違いの扱いである。 この課題に対処するために、分散学習における情報伝達のためのRelaySum機構を導入する。 RelaySumはスパンニングツリーを使用して、ノード間の距離によって遅延が有限であるすべてのワーカーに情報を正確に分散する。 対照的に、典型的なゴシップ平均化機構は、RelaySumと同じ通信量を使用しながら、データを均一に漸近的にのみ分散する。 このメカニズムに基づいたrelaysgdは、データの不均一性と多くのワーカーへのスケールに依存しており、異種データに対する高精度な分散ディープラーニングを可能にする。 私たちのコードはhttp://github.com/ep fml/relaysgdで利用可能です。

In decentralized machine learning, workers compute model updates on their local data. Because the workers only communicate with few neighbors without central coordination, these updates propagate progressively over the network. This paradigm enables distributed training on networks without all-to-all connectivity, helping to protect data privacy as well as to reduce the communication cost of distributed training in data centers. A key challenge, primarily in decentralized deep learning, remains the handling of differences between the workers' local data distributions. To tackle this challenge, we introduce the RelaySum mechanism for information propagation in decentralized learning. RelaySum uses spanning trees to distribute information exactly uniformly across all workers with finite delays depending on the distance between nodes. In contrast, the typical gossip averaging mechanism only distributes data uniformly asymptotically while using the same communication volume per step as RelaySum. We prove that RelaySGD, based on this mechanism, is independent of data heterogeneity and scales to many workers, enabling highly accurate decentralized deep learning on heterogeneous data. Our code is available at http://github.com/ep fml/relaysgd.
翻訳日:2021-10-11 17:21:32 公開日:2021-10-08
# (参考訳) 多段四重項運動予測のための時間畳み込み [全文訳有]

Temporal Convolutions for Multi-Step Quadrotor Motion Prediction ( http://arxiv.org/abs/2110.04182v1 )

ライセンス: CC BY 4.0
Samuel Looper and Steven L. Waslander(参考訳) 四輪車、自律走行車、フレキシブルマニピュレータなどのロボットシステムのモデルベース制御法は、長い時間にわたって複雑な非線形系の力学の正確な予測を生成する運動モデルを必要とする。 時間畳み込みネットワーク(TCN)は、シーケンス・ツー・シーケンス・モデリング問題として多段階予測を定式化することにより、この課題に適応することができる。 提案するEnd2End-TCNは、将来の制御入力を統合した完全な畳み込みアーキテクチャである。 本稿では, スケーリング効果とアブレーション研究を含む, 四重項モデリングタスクにおけるTCN性能の徹底的な解析を行った。 最終的にEnd2End-TCNは、攻撃的な屋内四極子飛行データセット上での多段階予測において、技術の状態を55%エラー削減する。 このモデルは900ms間隔で90段階の地平線を正確に予測する。

Model-based control methods for robotic systems such as quadrotors, autonomous driving vehicles and flexible manipulators require motion models that generate accurate predictions of complex nonlinear system dynamics over long periods of time. Temporal Convolutional Networks (TCNs) can be adapted to this challenge by formulating multi-step prediction as a sequence-to-sequence modeling problem. We present End2End-TCN: a fully convolutional architecture that integrates future control inputs to compute multi-step motion predictions in one forward pass. We demonstrate the approach with a thorough analysis of TCN performance for the quadrotor modeling task, which includes an investigation of scaling effects and ablation studies. Ultimately, End2End-TCN provides 55% error reduction over the state of the art in multi-step prediction on an aggressive indoor quadrotor flight dataset. The model yields accurate predictions across 90 timestep horizons over a 900 ms interval.
翻訳日:2021-10-11 17:20:03 公開日:2021-10-08
# (参考訳) 医療の行き詰まりと高リスク状態と治療の理解

Medical Dead-ends and Learning to Identify High-risk States and Treatments ( http://arxiv.org/abs/2110.04186v1 )

ライセンス: CC BY 4.0
Mehdi Fatemi, Taylor W. Killian, Jayakumar Subramanian, Marzyeh Ghassemi(参考訳) 機械学習は、教師付き予測または強化学習による最適な意思決定ポリシー識別として、多くのシーケンシャルな意思決定問題に成功している。 データ制約のあるオフライン設定では、両方のアプローチが完全に最適な振る舞いを仮定したり、存在しない代替手段を探したりすることで失敗する可能性がある。 状態空間の `dead-ends'' を識別する本質的に異なるアプローチを導入する。 集中治療室の患者の状態に焦点をあて,「医療的デッドエンド」は,将来の治療シーケンスによらず,患者が期限切れとなることを示す。 我々は,「処理セキュリティ」を,死に至る確率に比例した治療を回避し,形式的証明を提示し,フレーム発見をRL問題として提案する。 次に、状態の自動構築、デッドエンドの発見、確認のために、3つの独立したディープニューラルネットワークモデルをトレーニングします。 以上の結果から, 敗血症患者の実臨床データにはデッドエンドが存在し, 安全な治療と投与とのギャップが明らかとなった。

Machine learning has successfully framed many sequential decision making problems as either supervised prediction, or optimal decision-making policy identification via reinforcement learning. In data-constrained offline settings, both approaches may fail as they assume fully optimal behavior or rely on exploring alternatives that may not exist. We introduce an inherently different approach that identifies possible ``dead-ends'' of a state space. We focus on the condition of patients in the intensive care unit, where a ``medical dead-end'' indicates that a patient will expire, regardless of all potential future treatment sequences. We postulate ``treatment security'' as avoiding treatments with probability proportional to their chance of leading to dead-ends, present a formal proof, and frame discovery as an RL problem. We then train three independent deep neural models for automated state construction, dead-end discovery and confirmation. Our empirical results discover that dead-ends exist in real clinical data among septic patients, and further reveal gaps between secure treatments and those that were administered.
翻訳日:2021-10-11 17:04:13 公開日:2021-10-08
# (参考訳) 合成データを用いたコントラスト文字列表現学習 [全文訳有]

Contrastive String Representation Learning using Synthetic Data ( http://arxiv.org/abs/2110.04217v1 )

ライセンス: CC BY 4.0
Urchade Zaratiana(参考訳) 文字列表現学習(SRL)は自然言語処理の分野で重要な課題であるが、まだ探索されていない。 SRLの目標は、文字列を符号化する密度と低次元のベクトル(または埋め込み)を学ぶことである。 このタスクから学んだ表現は、文字列の類似性マッチングや語彙正規化など、多くのダウンストリームアプリケーションタスクで使用できる。 本稿では,合成データのみを用いてSRLモデルを学習するための新しい手法を提案する。 本手法は,関連文字列間の類似性を最大化し,非関連文字列を最小化するために,コントラスト学習を用いる。 本手法は,文字列類似性マッチングのタスクにおける学習表現を評価することにより,その効果を実証する。 コード、データ、事前訓練されたモデルは公開されます。

String representation Learning (SRL) is an important task in the field of Natural Language Processing, but it remains under-explored. The goal of SRL is to learn dense and low-dimensional vectors (or embeddings) for encoding character sequences. The learned representation from this task can be used in many downstream application tasks such as string similarity matching or lexical normalization. In this paper, we propose a new method for to train a SRL model by only using synthetic data. Our approach makes use of Contrastive Learning in order to maximize similarity between related strings while minimizing it for unrelated strings. We demonstrate the effectiveness of our approach by evaluating the learned representation on the task of string similarity matching. Codes, data and pretrained models will be made publicly available.
翻訳日:2021-10-11 17:02:57 公開日:2021-10-08
# 音声の認知符号化

Cognitive Coding of Speech ( http://arxiv.org/abs/2110.04241v1 )

ライセンス: Link先を確認
Reza Lotfidereshgi and Philippe Gournay(参考訳) 2つの階層的抽象レベルにおける文脈表現の教師なし抽出による音声の認知符号化手法を提案する。 100ミリ秒以下の音素のアイデンティティなどの音声属性は抽象レベルでキャプチャされ、話者のアイデンティティや1秒まで持続する感情といった音声属性は抽象レベルでキャプチャされる。 この分解は、異なる時間スケールで動作している下段と上段の2段階のニューラルネットワークによって達成される。 両方のステージは、それぞれの潜在空間における信号の内容を予測するように訓練される。 ステージ間のトップダウン経路により、ネットワークの予測能力はさらに向上する。 音声圧縮を念頭に置いて、抽出した表現に対する次元減少と低ビットレート量子化の影響について検討する。 librispeechおよびemov-dbデータセットで測定されたパフォーマンスは到達し、一部の音声属性は最先端のアプローチのそれを超える。

We propose an approach for cognitive coding of speech by unsupervised extraction of contextual representations in two hierarchical levels of abstraction. Speech attributes such as phoneme identity that last one hundred milliseconds or less are captured in the lower level of abstraction, while speech attributes such as speaker identity and emotion that persist up to one second are captured in the higher level of abstraction. This decomposition is achieved by a two-stage neural network, with a lower and an upper stage operating at different time scales. Both stages are trained to predict the content of the signal in their respective latent spaces. A top-down pathway between stages further improves the predictive capability of the network. With an application in speech compression in mind, we investigate the effect of dimensionality reduction and low bitrate quantization on the extracted representations. The performance measured on the LibriSpeech and EmoV-DB datasets reaches, and for some speech attributes even exceeds, that of state-of-the-art approaches.
翻訳日:2021-10-11 16:56:26 公開日:2021-10-08
# 条件勾配のための重球運動量

Heavy Ball Momentum for Conditional Gradient ( http://arxiv.org/abs/2110.04243v1 )

ライセンス: Link先を確認
Bingcong Li, Alireza Sadeghi, Georgios B. Giannakis(参考訳) 条件勾配、別名frank wolfe (fw)アルゴリズムは、機械学習および信号処理アプリケーションにおいて、よく文書化された利点がある。 射影法とは異なり、運動量は一般にFWの収束率を改善することはできない。 この制限は、重いボールの運動量を扱う現在の仕事とそのfwへの影響を動機付ける。 特に、重球は主双対(pd)収束に関する統一的な視点を提供し、ステップサイズの複数の選択において、反復 pd の誤差率をより厳格に保ち、pd の誤差が実際に停止基準となるようにしている。 さらに、Nesterovの運動量と共同で使用されるリスタートスキームは、このPDエラー境界をさらに強化することができると主張されている。 FW繰り返しにおける重い球運動量の有用性を数値的に示す。

Conditional gradient, aka Frank Wolfe (FW) algorithms, have well-documented merits in machine learning and signal processing applications. Unlike projection-based methods, momentum cannot improve the convergence rate of FW, in general. This limitation motivates the present work, which deals with heavy ball momentum, and its impact to FW. Specifically, it is established that heavy ball offers a unifying perspective on the primal-dual (PD) convergence, and enjoys a tighter per iteration PD error rate, for multiple choices of step sizes, where PD error can serve as the stopping criterion in practice. In addition, it is asserted that restart, a scheme typically employed jointly with Nesterov's momentum, can further tighten this PD error bound. Numerical results demonstrate the usefulness of heavy ball momentum in FW iterations.
翻訳日:2021-10-11 16:56:12 公開日:2021-10-08
# 量子回路を用いた生成モデルにおけるf-divergencesとコスト関数局所性

F-Divergences and Cost Function Locality in Generative Modelling with Quantum Circuits ( http://arxiv.org/abs/2110.04253v1 )

ライセンス: Link先を確認
Chiara Leadbeater, Louis Sharrock, Brian Coyle, Marcello Benedetti(参考訳) 生成モデリングは機械学習において重要な教師なしタスクである。 本研究では,量子回路ボルンマシンを用いて,このタスクに対するハイブリッド量子古典的手法について検討する。 特に、$f$-divergencesを用いて量子回路Bornマシンをトレーニングすることを検討する。 まず,任意の$f$-divergenceを短期的に推定できる生成モデルのための逆フレームワークについて論じる。 この能力に基づいて、ボルンマシンのトレーニングを実証的に改善する2つのヒューリスティックを導入する。 1つは、トレーニング中の$f$-divergenceスイッチングに基づいている。 2つ目は発散に局所性を導入し、これはバレン高原を緩和するという点で同様の応用において重要であることが証明された戦略である。 最後に、量子デバイスの計算における長期的意味について論じ、それらの推定に二次的なスピードアップを提供するアルゴリズムを含む。 特に,kullback-leiblerの発散と全変動距離を推定するための既存のアルゴリズムを一般化し,さらにf$-divergence,すなわちピアソン発散を推定するフォールトトレラント量子アルゴリズムを得る。

Generative modelling is an important unsupervised task in machine learning. In this work, we study a hybrid quantum-classical approach to this task, based on the use of a quantum circuit Born machine. In particular, we consider training a quantum circuit Born machine using $f$-divergences. We first discuss the adversarial framework for generative modelling, which enables the estimation of any $f$-divergence in the near term. Based on this capability, we introduce two heuristics which demonstrably improve the training of the Born machine. The first is based on $f$-divergence switching during training. The second introduces locality to the divergence, a strategy which has proved important in similar applications in terms of mitigating barren plateaus. Finally, we discuss the long-term implications of quantum devices for computing $f$-divergences, including algorithms which provide quadratic speedups to their estimation. In particular, we generalise existing algorithms for estimating the Kullback-Leibler divergence and the total variation distance to obtain a fault-tolerant quantum algorithm for estimating another $f$-divergence, namely, the Pearson divergence.
翻訳日:2021-10-11 16:55:57 公開日:2021-10-08
# ストリーム水温予測のためのニューラルネットワークの評価

Assessment of Neural Networks for Stream-Water-Tempera ture Prediction ( http://arxiv.org/abs/2110.04254v1 )

ライセンス: Link先を確認
Stefanie Mohr and Konstantina Drainas and Juergen Geist(参考訳) 気候変動によって大気や水温が変化する。 酸素濃度などの物理化学的性質に影響を与え、生態系の機能やサービスに影響し、種の分布と生存をシフトさせることができる。 これらの生態系サービスは人類にとって不可欠な価値を持ち、温暖化下で変化すると予測されている。 システムのレジリエンスと緩和策を特定するためには,ドライバの機械的理解と期待される変化の大きさが不可欠である。 本研究では,ドイツの6つの河川における水温予測のためのニューラルネットワーク (NN) の選択について述べる。 実測値と予測値を比較する手法が,Root Mean Square Error (RMSE) に例示されているように,それらの評価には不十分であることを示す。 そこで我々は,最先端のメトリクスを補完する追加の分析手法を提案する。 これらの分析は、NNの頑健性、最大値と最小値、および単一入力パラメータが出力に与える影響を評価する。 したがって,nn内のプロセスを理解することに貢献し,水温予測モデルのアーキテクチャや入力パラメータの選択を支援する。

Climate change results in altered air and water temperatures. Increases affect physicochemical properties, such as oxygen concentration, and can shift species distribution and survival, with consequences for ecosystem functioning and services. These ecosystem services have integral value for humankind and are forecasted to alter under climate warming. A mechanistic understanding of the drivers and magnitude of expected changes is essential in identifying system resilience and mitigation measures. In this work, we present a selection of state-of-the-art Neural Networks (NN) for the prediction of water temperatures in six streams in Germany. We show that the use of methods that compare observed and predicted values, exemplified with the Root Mean Square Error (RMSE), is not sufficient for their assessment. Hence we introduce additional analysis methods for our models to complement the state-of-the-art metrics. These analyses evaluate the NN's robustness, possible maximal and minimal values, and the impact of single input parameters on the output. We thus contribute to understanding the processes within the NN and help applicants choose architectures and input parameters for reliable water temperature prediction models.
翻訳日:2021-10-11 16:55:35 公開日:2021-10-08
# 過次法:$O(1/K)$ Last-Iterate Convergence for Monotone Variational Inequality and Connections with Cocoercivity

Extragradient Method: $O(1/K)$ Last-Iterate Convergence for Monotone Variational Inequalities and Connections With Cocoercivity ( http://arxiv.org/abs/2110.04261v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Nicolas Loizou, Gauthier Gidel(参考訳) extragradient method (eg) korpelevich [1976] はsaddle point and variational inequalities problem (vip) を解く最も一般的な方法の一つである。 最適化コミュニティにおける長い歴史と重要な関心にもかかわらず、EGの収束に関する重要なオープンな疑問が残っている。 本稿では,そのような問題の1つを解き,操作者に対する追加の仮定なしに,モノトーンとリプシッツ vip に対する eg に対する最初のラスト文字 $o(1/k)$ 収束率を導出する。 レートは作用素の平方ノルムを減少させるという点で与えられる。 さらに、元の演算子が単調かつリプシッツであるとき、EG,Optimistic Gradient Method, Hamiltonian Gradient Methodの更新演算子の(非)コヒーレンシ性に関するいくつかの結果を確立する。

Extragradient method (EG) Korpelevich [1976] is one of the most popular methods for solving saddle point and variational inequalities problems (VIP). Despite its long history and significant attention in the optimization community, there remain important open questions about convergence of EG. In this paper, we resolve one of such questions and derive the first last-iterate $O(1/K)$ convergence rate for EG for monotone and Lipschitz VIP without any additional assumptions on the operator. The rate is given in terms of reducing the squared norm of the operator. Moreover, we establish several results on the (non-)cocoercivity of the update operators of EG, Optimistic Gradient Method, and Hamiltonian Gradient Method, when the original operator is monotone and Lipschitz.
翻訳日:2021-10-11 16:55:19 公開日:2021-10-08
# プロジェクタキャリブレーションのための方向分解構造光

Directionally Decomposing Structured Light for Projector Calibration ( http://arxiv.org/abs/2110.03924v1 )

ライセンス: Link先を確認
Masatoki Sugimoto, Daisuke Iwai, Koki Ishida, Parinya Punpongsanon, Kosuke Sato(参考訳) 固有プロジェクターキャリブレーションはプロジェクションマッピング(PM)への応用、特に動的PMには不可欠である。 しかし、プロジェクターの深度(DOF)が浅いため、正確な校正を行うにはより多くの作業が必要である。 我々は、浅いdofの制限を避けつつ、プロジェクタの固有パラメータを推定することを目的としている。 提案手法のコアとして,プロジェクタの焦点距離や開口径に関わらず,プロジェクタレンズの前方に最小限の作業量を必要とする実用的なキャリブレーション装置を提案する。 デバイスはフラットベッドスキャナとピンホールアレイマスクで構成されている。 キャリブレーションのために、プロジェクターはデバイスに一連の構造化された光パターンを投影する。 ピンホールは構造された光を方向的に分解し、ピンホールを通過する投影された光だけがスキャナー面に衝突した。 各ピンホールに対して、プロジェクターの光中心を通る光線を抽出する。 その結果、プロジェクターを抽出した光線のみを投影するピンホールプロジェクターとみなし、ピンホールカメラモデルを想定した標準的なカメラキャリブレーション技術を適用して、プロジェクターを校正する。 本手法は,概念実証プロトタイプを用いて,従来の手法と同じ精度で焦点距離と開口径の異なるプロジェクタを校正できることを実証する。 最後に,従来のプロジェクターではプロジェクターがプロジェクターから遠すぎる場合であっても,プロジェクターが妥当な大きさのフィデューシャルオブジェクトを用いてプロジェクターをキャリブレーションする場合に,動的PMアプリケーションに十分な精度で固有パラメータを提供できることを確認した。

Intrinsic projector calibration is essential in projection mapping (PM) applications, especially in dynamic PM. However, due to the shallow depth-of-field (DOF) of a projector, more work is needed to ensure accurate calibration. We aim to estimate the intrinsic parameters of a projector while avoiding the limitation of shallow DOF. As the core of our technique, we present a practical calibration device that requires a minimal working volume directly in front of the projector lens regardless of the projector's focusing distance and aperture size. The device consists of a flat-bed scanner and pinhole-array masks. For calibration, a projector projects a series of structured light patterns in the device. The pinholes directionally decompose the structured light, and only the projected rays that pass through the pinholes hit the scanner plane. For each pinhole, we extract a ray passing through the optical center of the projector. Consequently, we regard the projector as a pinhole projector that projects the extracted rays only, and we calibrate the projector by applying the standard camera calibration technique, which assumes a pinhole camera model. Using a proof-of-concept prototype, we demonstrate that our technique can calibrate projectors with different focusing distances and aperture sizes at the same accuracy as a conventional method. Finally, we confirm that our technique can provide intrinsic parameters accurate enough for a dynamic PM application, even when a projector is placed too far from a projection target for a conventional method to calibrate the projector using a fiducial object of reasonable size.
翻訳日:2021-10-11 16:55:02 公開日:2021-10-08
# 等尺テンソルネットワークの微分プログラミング

Differentiable Programming of Isometric Tensor Networks ( http://arxiv.org/abs/2110.03898v1 )

ライセンス: Link先を確認
Chenhua Geng, Hong-Ye Hu, Yijian Zou(参考訳) 微分プログラミングは、自動微分(auto-differentiatio n)として知られる勾配の自動計算による大規模最適化を可能にする新しいプログラミングパラダイムである。 この概念はディープラーニングから生まれ、テンソルネットワーク最適化にも一般化されている。 本稿では,等尺制約のあるテンソルネットワークに微分可能プログラミングを拡張し,マルチスケールエンタングルメント再正規化 ansatz (mera) とテンソルネットワーク再正規化 (tnr) に適用する。 等尺テンソルネットワークの勾配に基づく最適化手法をいくつか導入し, 均等分法との比較を行った結果, 自己微分は安定性と精度に優れることがわかった。 我々は1次元臨界量子イジングスピンチェーンと2次元古典イジングモデルを用いて数値解析を行った。 1次元量子モデルの基底状態エネルギーと古典モデルの内部エネルギーを計算し、スケーリング作用素のスケーリング次元を計算し、それらがすべて理論によく一致することを発見した。

Differentiable programming is a new programming paradigm which enables large scale optimization through automatic calculation of gradients also known as auto-differentiation . This concept emerges from deep learning, and has also been generalized to tensor network optimizations. Here, we extend the differentiable programming to tensor networks with isometric constraints with applications to multiscale entanglement renormalization ansatz (MERA) and tensor network renormalization (TNR). By introducing several gradient-based optimization methods for the isometric tensor network and comparing with Evenbly-Vidal method, we show that auto-differentiation has a better performance for both stability and accuracy. We numerically tested our methods on 1D critical quantum Ising spin chain and 2D classical Ising model. We calculate the ground state energy for the 1D quantum model and internal energy for the classical model, and scaling dimensions of scaling operators and find they all agree with the theory well.
翻訳日:2021-10-11 16:53:05 公開日:2021-10-08
# karasinger:メルスペクトログラムを用いたvq-vaeによるスコアフリー歌唱音声合成

KaraSinger: Score-Free Singing Voice Synthesis with VQ-VAE using Mel-spectrograms ( http://arxiv.org/abs/2110.04005v1 )

ライセンス: Link先を確認
Chien-Feng Liao, Jen-Yu Liu, Yi-Hsuan Yang(参考訳) 本稿では,歌唱音声合成(svs)課題であるスコアフリーsvsに対して,韻律とメロディを機械によって自発的に決定する,カラシンガーと呼ばれる新しいニューラルネットワークモデルを提案する。 KaraSingerは、歌唱音声のメルスペクトルを離散コード列に圧縮するベクトル量子化変分オートエンコーダ(VQ-VAE)と、対応する歌詞が与えられた離散コードを予測する言語モデル(LM)とを備える。 VQ-VAEでは,音素関連情報を個別のコードに伝達するよう促すために,コネクショニスト時間分類(CTC)の損失を用いる。 LM部分には,入力音素シーケンスと出力離散符号とのロバストなアライメントを学習するために,位置感応注意を用いる。 VQ-VAEとLMの両方のアーキテクチャを高速なトレーニングと推論速度のために維持する。 複数のアマチュア歌手が歌う550曲の英語ポップソングのプロプライエタリコレクションを用いて,提案手法の有効性を検証する。 聴取試験の結果,カラシンガーは知性,音楽性,全体的な品質の点で高いスコアを達成できた。

In this paper, we propose a novel neural network model called KaraSinger for a less-studied singing voice synthesis (SVS) task named score-free SVS, in which the prosody and melody are spontaneously decided by machine. KaraSinger comprises a vector-quantized variational autoencoder (VQ-VAE) that compresses the Mel-spectrograms of singing audio to sequences of discrete codes, and a language model (LM) that learns to predict the discrete codes given the corresponding lyrics. For the VQ-VAE part, we employ a Connectionist Temporal Classification (CTC) loss to encourage the discrete codes to carry phoneme-related information. For the LM part, we use location-sensitive attention for learning a robust alignment between the input phoneme sequence and the output discrete code. We keep the architecture of both the VQ-VAE and LM light-weight for fast training and inference speed. We validate the effectiveness of the proposed design choices using a proprietary collection of 550 English pop songs sung by multiple amateur singers. The result of a listening test shows that KaraSinger achieves high scores in intelligibility, musicality, and the overall quality.
翻訳日:2021-10-11 16:52:46 公開日:2021-10-08
# 勾配マスクを用いたエンドツーエンド音声認識のための擬似ラベル学習の改善

Improving Pseudo-label Training For End-to-end Speech Recognition Using Gradient Mask ( http://arxiv.org/abs/2110.04056v1 )

ライセンス: Link先を確認
Shaoshi Ling, Chen Shen, Meng Cai, Zejun Ma(参考訳) 半教師付き音声認識の最近のトレンドでは、自己教師付き表現学習と擬似ラベルの両方が有望な結果を示している。 本稿では,そのアイデアをエンドツーエンド音声認識モデルに結合する新しい手法を提案する。 余分な損失関数がなければ、グラディエントマスクを使用して擬似ラベルのトレーニング時にモデルを最適化する。 この方法は,音声認識モデルに対して,マスク入力からの予測を強制し,強い音響表現を学習し,ラベルノイズに対するトレーニングを堅牢にする。 半教師付き実験では、擬似ラベルでのトレーニング時のモデル性能が向上し、librispeech 100時間実験における他の半教師付きアプローチと比較した競合結果が得られる。

In the recent trend of semi-supervised speech recognition, both self-supervised representation learning and pseudo-labeling have shown promising results. In this paper, we propose a novel approach to combine their ideas for end-to-end speech recognition model. Without any extra loss function, we utilize the Gradient Mask to optimize the model when training on pseudo-label. This method forces the speech recognition model to predict from the masked input to learn strong acoustic representation and make training robust to label noise. In our semi-supervised experiments, the method can improve the model performance when training on pseudo-label and our method achieved competitive results comparing with other semi-supervised approaches on the Librispeech 100 hours experiments.
翻訳日:2021-10-11 16:52:20 公開日:2021-10-08
# 情報選択の文脈帯域ランク付けのための深層信頼境界アルゴリズム

Deep Upper Confidence Bound Algorithm for Contextual Bandit Ranking of Information Selection ( http://arxiv.org/abs/2110.04127v1 )

ライセンス: Link先を確認
Michael Rawson, Jade Freeman(参考訳) CMAB(Contextual Multi-armed bandits)は、ユーザの関心に応じて情報のフィルタリングと優先順位付けを学習するために広く使用されている。 本研究は,トップKアームを反復的に選択して報酬を最大化するCMABフレームワークに基づくトップKランキングの分析である。 ユーザに関連する観測可能な要素の集合を表すコンテキストは、標準的なマルチアームのバンディットよりも予測精度を高めるために使用される。 文脈的バンディット法は主に厳密な線形性仮定の下で研究されてきたが、その仮定を捨て、深いニューラルネットワークを用いて非線形確率的報酬関数を学習する。 本稿では,Deep Up Confidence Bound (UCB)アルゴリズムという新しいアルゴリズムを提案する。 deep ucbは、学習収束をモデル化するために、別のニューラルネットワークで探索と搾取のバランスをとる。 高次元データと非線形報酬関数を用いて,実世界のデータセット上でkに変化する多くのバンディットアルゴリズムの性能を比較する。 実験結果から,Deep UCBの性能は問題や報酬設定に敏感だが,性能に優れることが示された。 さらに, CMAB問題の弱いクラスに対する最適性に収束する深い UCB に関する理論的後悔境界を証明した。

Contextual multi-armed bandits (CMAB) have been widely used for learning to filter and prioritize information according to a user's interest. In this work, we analyze top-K ranking under the CMAB framework where the top-K arms are chosen iteratively to maximize a reward. The context, which represents a set of observable factors related to the user, is used to increase prediction accuracy compared to a standard multi-armed bandit. Contextual bandit methods have mostly been studied under strict linearity assumptions, but we drop that assumption and learn non-linear stochastic reward functions with deep neural networks. We introduce a novel algorithm called the Deep Upper Confidence Bound (UCB) algorithm. Deep UCB balances exploration and exploitation with a separate neural network to model the learning convergence. We compare the performance of many bandit algorithms varying K over real-world data sets with high-dimensional data and non-linear reward functions. Empirical results show that the performance of Deep UCB often outperforms though it is sensitive to the problem and reward setup. Additionally, we prove theoretical regret bounds on Deep UCB giving convergence to optimality for the weak class of CMAB problems.
翻訳日:2021-10-11 16:51:53 公開日:2021-10-08
# SCaLa: エンドツーエンド音声認識のためのコントラスト学習

SCaLa: Supervised Contrastive Learning for End-to-End Automatic Speech Recognition ( http://arxiv.org/abs/2110.04187v1 )

ライセンス: Link先を確認
Li Fu, Xiaoxiao Li, Runyu Wang, Zhengchen Zhang, Youzheng Wu, Xiaodong He, Bowen Zhou(参考訳) エンドツーエンドの音声認識(ASR)モデルは通常、トークンシーケンス全体の損失を減らすために訓練される。 これは、類似音素の混乱や音素の減少による認識誤差につながる可能性がある。 この問題を軽減するために,エンドツーエンドのASRシステムのための音韻情報学習を強化するために,SCaLa(Supervised Contrastive Learning)の新たなフレームワークを提案する。 具体的には、完全に教師された設定にMCPC(Masked Contrastive Predictive Coding)を導入する。 音素学習を明示的に監視するために、SCaLaは、予め訓練された音響モデルから抽出された音素の強制アライメントに対応する可変長エンコーダ特徴をまずマスキングし、コントラスト学習によりマスクされた音素を予測する。 音素強制アライメントは、自己教師型MCPCにおける正負対の雑音を軽減することができる。 その結果, 提案手法は, ベースラインに比べて2.84%, 1.38%の文字誤り率(CER)の低減を実現していることがわかった。

End-to-end Automatic Speech Recognition (ASR) models are usually trained to reduce the losses of the whole token sequences, while neglecting explicit phonemic-granularity supervision. This could lead to recognition errors due to similar-phoneme confusion or phoneme reduction. To alleviate this problem, this paper proposes a novel framework of Supervised Contrastive Learning (SCaLa) to enhance phonemic information learning for end-to-end ASR systems. Specifically, we introduce the self-supervised Masked Contrastive Predictive Coding (MCPC) into the fully-supervised setting. To supervise phoneme learning explicitly, SCaLa first masks the variable-length encoder features corresponding to phonemes given phoneme forced-alignment extracted from a pre-trained acoustic model, and then predicts the masked phonemes via contrastive learning. The phoneme forced-alignment can mitigate the noise of positive-negative pairs in self-supervised MCPC. Experimental results conducted on reading and spontaneous speech datasets show that the proposed approach achieves 2.84% and 1.38% Character Error Rate (CER) reductions compared to the baseline, respectively.
翻訳日:2021-10-11 16:51:33 公開日:2021-10-08
# pyxis: スパースアクセラレータのオープンソースパフォーマンスデータセット

Pyxis: An Open-Source Performance Dataset of Sparse Accelerators ( http://arxiv.org/abs/2110.04280v1 )

ライセンス: Link先を確認
Linghao Song, Yuze Chi, Jason Cong(参考訳) 特別なアクセラレータは、特定のアプリケーション領域のパフォーマンスと効率性を提供する。 スパースデータ構造や/および表現は広範囲のアプリケーションに存在する。 しかし、分析アーキテクチャや性能レベルのモデルではスパースデータのスペクトルを完全に把握できないため、スパースアプリケーションのアクセラレータを設計することは困難である。 アクセラレーター研究者は、設計の正確なフィードバックを得るために実際の実行に依存している。 本研究では,スパースデータに基づく特別アクセラレータのパフォーマンスデータセットであるPYXISを提案する。 PYXISはアクセル設計と実実行性能統計を収集する。 現在、PYXISには73.8Kのインスタンスがある。 PYXISはオープンソースであり、新しいアクセラレータ設計とパフォーマンス統計でPYXISを常に成長させています。 pyxisは、アクセラレータ、アーキテクチャ、パフォーマンス、アルゴリズム、および多くの関連するトピックの分野の研究者に役立つ。

Specialized accelerators provide gains of performance and efficiency in specific domains of applications. Sparse data structures or/and representations exist in a wide range of applications. However, it is challenging to design accelerators for sparse applications because no analytic architecture or performance-level models are able to fully capture the spectrum of the sparse data. Accelerator researchers rely on real execution to get precise feedback for their designs. In this work, we present PYXIS, a performance dataset for specialized accelerators on sparse data. PYXIS collects accelerator designs and real execution performance statistics. Currently, there are 73.8 K instances in PYXIS. PYXIS is open-source, and we are constantly growing PYXIS with new accelerator designs and performance statistics. PYXIS can benefit researchers in the fields of accelerator, architecture, performance, algorithm, and many related topics.
翻訳日:2021-10-11 16:51:13 公開日:2021-10-08
# 低ランク行列分解による部分空間変化点検出

Subspace Change-Point Detection via Low-Rank Matrix Factorisation ( http://arxiv.org/abs/2110.04044v1 )

ライセンス: Link先を確認
Euan Thomas McGonigle, Hankui Peng(参考訳) 多変量時系列は、膨大な量の特徴によっても、データソースがどのように処理されるかによっても、多くの次元を持つことがある。 しばしば、高次元の時系列の主構造は低次元の部分空間によってよく表される。 膨大な量のデータが長期間にわたって収集されているため、基礎となる部分空間構造が時間とともに変化すると仮定することは合理的である。 本研究では,多変量時系列の下位部分空間の複数の変化を検出できる低ランク行列因子分解に基づく変化点検出法を提案する。 合成データと実データの両方における実験結果は,本手法の有効性と,その利点を実証するものである。

Multivariate time series can often have a large number of dimensions, whether it is due to the vast amount of collected features or due to how the data sources are processed. Frequently, the main structure of the high-dimensional time series can be well represented by a lower dimensional subspace. As vast quantities of data are being collected over long periods of time, it is reasonable to assume that the underlying subspace structure would change over time. In this work, we propose a change-point detection method based on low-rank matrix factorisation that can detect multiple changes in the underlying subspace of a multivariate time series. Experimental results on both synthetic and real data sets demonstrate the effectiveness of our approach and its advantages against various state-of-the-art methods.
翻訳日:2021-10-11 16:51:02 公開日:2021-10-08
# 境界を持つ$\mathbb{r}^n$のコンパクト部分多様体の高速ジョンソン・リンダーンシュトラウス埋め込みについて

On Fast Johnson-Lindernstrau ss Embeddings of Compact Submanifolds of $\mathbb{R}^N$ with Boundary ( http://arxiv.org/abs/2110.04193v1 )

ライセンス: Link先を確認
Mark A. Iwen, Benjamin Schmidt, Arman Tavakoli(参考訳) $\mathcal{m}$ を、ユークリッド(弦)計量を備えた境界を持つ$\mathbb{r}^n$ の滑らかな $d$-次元部分多様体とし、$m \leq n$ を選択する。 本稿では、ランダム行列 $A \in \mathbb{R}^{m \times N}$ が双Lipschitz函数 $A: \mathcal{M} \rightarrow \mathbb{R}^m$ として作用する確率を考える。 このようにして、このタイプのサブ多様体に対する事前ランダム化計量空間の埋め込み結果を$\mathbb{R}^N$ として一般化し、境界の存在を保ちながら維持し、場合によっては達成可能な埋め込み次元の下位境界を $m$ とすることで、高い確率で小さな歪みを期待できる。 特に、テンソルデータに対する最近のモードワイズ埋め込み構造によって動機付けられ、ここでは、達成可能な埋め込み次元と計算効率の両面に関して、$\mathbb{R}^N$($d \lesssim \sqrt{N}$)の十分低次元部分多様体を埋め込むための事前構造化行列分布より優れた行列上の高度構造化分布のクラスを示す。 結果として、例えば、johnson-lindenstraus s埋め込み行列の一般的な新しいクラスを、$\mathcal{o}(\log^c n)$-dimensional submanifolds of $\mathbb{r}^n$ で表すことができ、$\mathcal{o}(n \log \log n))$-time matrix vector multiplication が楽しめる。

Let $\mathcal{M}$ be a smooth $d$-dimensional submanifold of $\mathbb{R}^N$ with boundary that's equipped with the Euclidean (chordal) metric, and choose $m \leq N$. In this paper we consider the probability that a random matrix $A \in \mathbb{R}^{m \times N}$ will serve as a bi-Lipschitz function $A: \mathcal{M} \rightarrow \mathbb{R}^m$ with bi-Lipschitz constants close to one for three different types of distributions on the $m \times N$ matrices $A$, including two whose realizations are guaranteed to have fast matrix-vector multiplies. In doing so we generalize prior randomized metric space embedding results of this type for submanifolds of $\mathbb{R}^N$ by allowing for the presence of boundary while also retaining, and in some cases improving, prior lower bounds on the achievable embedding dimensions $m$ for which one can expect small distortion with high probability. In particular, motivated by recent modewise embedding constructions for tensor data, herein we present a new class of highly structured distributions on matrices which outperform prior structured matrix distributions for embedding sufficiently low-dimensional submanifolds of $\mathbb{R}^N$ (with $d \lesssim \sqrt{N}$) with respect to both achievable embedding dimension, and computationally efficient realizations. As a consequence we are able to present, for example, a general new class of Johnson-Lindenstraus s embedding matrices for $\mathcal{O}(\log^c N)$-dimensional submanifolds of $\mathbb{R}^N$ which enjoy $\mathcal{O}(N \log \log N))$-time matrix vector multiplications.
翻訳日:2021-10-11 16:50:00 公開日:2021-10-08
# (参考訳) 自然言語による画像の不快感の推測 [全文訳有]

Inferring Offensiveness In Images From Natural Language Supervision ( http://arxiv.org/abs/2110.04222v1 )

ライセンス: CC BY 4.0
Patrick Schramowski, Kristian Kersting(参考訳) 事前学習されたモデルの検出や微調整は、多くのnlpタスクや、最近では画像データと組み合わせたコンピュータビジョンタスクでも最先端のパフォーマンスをもたらす。 残念ながら、これらのアプローチには深刻なリスクも伴う。 特に、ウェブから自動的に取り除かれた大きな画像データセットには、カテゴリーや攻撃的なイメージとして軽蔑的な用語が含まれており、特定のクラスを過小評価することもある。 そのため、データセットを慎重に文書化し、コンテンツをキュレートする必要がある。 残念ながら、このプロセスは退屈でエラーを起こしやすい。 事前学習されたトランスフォーマー自体が,大規模視覚データセットの自動キュレーションの方法論を提供する。 人間の注釈付き例とCLIPモデルによる暗黙の知識に基づいて、画像の攻撃性を評価するための適切なプロンプトを選択できることを実証する。 ImageNetで以前特定されたプライバシー侵害やポルノコンテンツに加えて、我々のアプローチがさらに不適切で攻撃的なコンテンツを特定することを実証する。

Probing or fine-tuning (large-scale) pre-trained models results in state-of-the-art performance for many NLP tasks and, more recently, even for computer vision tasks when combined with image data. Unfortunately, these approaches also entail severe risks. In particular, large image datasets automatically scraped from the web may contain derogatory terms as categories and offensive images, and may also underrepresent specific classes. Consequently, there is an urgent need to carefully document datasets and curate their content. Unfortunately, this process is tedious and error-prone. We show that pre-trained transformers themselves provide a methodology for the automated curation of large-scale vision datasets. Based on human-annotated examples and the implicit knowledge of a CLIP based model, we demonstrate that one can select relevant prompts for rating the offensiveness of an image. In addition to e.g. privacy violation and pornographic content previously identified in ImageNet, we demonstrate that our approach identifies further inappropriate and potentially offensive content.
翻訳日:2021-10-11 16:48:42 公開日:2021-10-08
# 皮膚病変セグメンテーションのための境界認識トランスフォーマー

Boundary-aware Transformers for Skin Lesion Segmentation ( http://arxiv.org/abs/2110.03864v1 )

ライセンス: Link先を確認
Jiacheng Wang, Lan Wei, Liansheng Wang, Qichao Zhou, Lei Zhu, Jing Qin(参考訳) 皮膚内視鏡像からの皮膚病変の分画は皮膚癌の定量的解析を改善する上で非常に重要である。 しかし,悪性黒色腫の多変量と病変領域の境界の曖昧さから,悪性黒色腫の自動分割は極めて困難な課題である。 畳み込みニュートラルネットワーク(CNN)はこの課題において顕著な進歩を遂げているが、既存のソリューションの多くは、限定された受容野によって引き起こされる帰納的バイアスを効果的に捉えることができない。 近年,グローバル・アテンション・メカニズムを用いたグローバル・コンテキスト・モデリングの有望なツールとしてトランスフォーマーが提案されているが,セグメンテーション・タスクに適用される主な欠点のひとつは,曖昧な境界に取り組むのに十分な局所的詳細を効果的に抽出できないことである。 自動皮膚病変セグメント化の課題を包括的に解決する新しい境界対応トランス (BAT) を提案する。 具体的には,新たなバウンダリワイドアテンションゲート(BAG)をトランスフォーマに統合し,トランスフォーマを介してグローバルな長距離依存性を効果的にモデル化すると同時に,バウンダリワイド先行知識をフル活用することで,より局所的な詳細を捉える。 特に、BAGの補助監督は、多くの空間情報を提供するため、トランスフォーマーが位置埋め込みを学ぶのを支援することができる。 提案したBATの評価実験を行い,その有効性を裏付ける実験を行った。

Skin lesion segmentation from dermoscopy images is of great importance for improving the quantitative analysis of skin cancer. However, the automatic segmentation of melanoma is a very challenging task owing to the large variation of melanoma and ambiguous boundaries of lesion areas. While convolutional neutral networks (CNNs) have achieved remarkable progress in this task, most of existing solutions are still incapable of effectively capturing global dependencies to counteract the inductive bias caused by limited receptive fields. Recently, transformers have been proposed as a promising tool for global context modeling by employing a powerful global attention mechanism, but one of their main shortcomings when applied to segmentation tasks is that they cannot effectively extract sufficient local details to tackle ambiguous boundaries. We propose a novel boundary-aware transformer (BAT) to comprehensively address the challenges of automatic skin lesion segmentation. Specifically, we integrate a new boundary-wise attention gate (BAG) into transformers to enable the whole network to not only effectively model global long-range dependencies via transformers but also, simultaneously, capture more local details by making full use of boundary-wise prior knowledge. Particularly, the auxiliary supervision of BAG is capable of assisting transformers to learn position embedding as it provides much spatial information. We conducted extensive experiments to evaluate the proposed BAT and experiments corroborate its effectiveness, consistently outperforming state-of-the-art methods in two famous datasets.
翻訳日:2021-10-11 16:29:53 公開日:2021-10-08
# ニューラルストローク:3次元形状のスタイリッシュライン描画

Neural Strokes: Stylized Line Drawing of 3D Shapes ( http://arxiv.org/abs/2110.03900v1 )

ライセンス: Link先を確認
Difan Liu, Matthew Fisher, Aaron Hertzmann, Evangelos Kalogerakis(参考訳) 本稿では,3次元形状のスタイライゼーション線描画モデルを提案する。 モデルは3次元の形状と視点を入力として取り、アーティストのスタイルから学んだストロークの厚さ、変形、色の変化でテクスチャ化されたストロークの描画を出力する。 モデルは完全に異なる。 別の3d形状のトレーニングドローイングからパラメータをトレーニングします。 従来のイメージベース手法とは対照的に,3次元形状と2次元ストロークの幾何学表現を用いることで,輪郭を保ちながら,形状やテクスチャスタイルの重要な側面を伝達できることを示す。 提案手法はベクトル表現の描画結果を出力し,よりリッチな下流解析やインタラクティブなアプリケーションでの編集を可能にする。

This paper introduces a model for producing stylized line drawings from 3D shapes. The model takes a 3D shape and a viewpoint as input, and outputs a drawing with textured strokes, with variations in stroke thickness, deformation, and color learned from an artist's style. The model is fully differentiable. We train its parameters from a single training drawing of another 3D shape. We show that, in contrast to previous image-based methods, the use of a geometric representation of 3D shape and 2D strokes allows the model to transfer important aspects of shape and texture style while preserving contours. Our method outputs the resulting drawing in a vector representation, enabling richer downstream analysis or editing in interactive applications.
翻訳日:2021-10-11 16:29:22 公開日:2021-10-08
# ビジュアルポイントとラインの協調最適化によるポースリファインメント

Pose Refinement with Joint Optimization of Visual Points and Lines ( http://arxiv.org/abs/2110.03940v1 )

ライセンス: Link先を確認
Shuang Gao, Jixiang Wan, Yishan Ping, Xudong Zhang, Shuzhou Dong, Jijunnan Li, Yandong Guo(参考訳) 事前確立された3d環境マップにおける高精度カメラの再ローカライズ技術は、拡張現実、ロボット工学、自動運転など多くのタスクの基盤である。 ポイントベースの視覚的再局在アプローチは、ここ数十年で十分に開発されているが、機能のないケースでは不十分である。 本稿では,vlseという革新的なcnn抽出手法と,ラインマッチングとポーズ最適化手法を用いて,ポーズ改善のためのポイントライン統合最適化手法を提案する。 本研究では,重ねられた砂時計網に基づくハイブリッド畳み込みブロックをカスタマイズし,画像上の高精度で安定な線特徴を検出する。 次に, 幾何的制約に基づく2D-3D線対応を得るために, 粗大な戦略を適用した。 初期粗いポーズでカメラポーズを最適化するために、以下のポイントラインジョイントコスト関数を構築する。 オープンデータセット、すなわちワイヤフレームとヨークアーバンの線抽出装置、アーヘンの昼夜v1.1とinlocのローカライズ性能について十分な実験を行い、ポイントラインジョイントポーズ最適化手法の有効性を確認した。

High-precision camera re-localization technology in a pre-established 3D environment map is the basis for many tasks, such as Augmented Reality, Robotics and Autonomous Driving. The point-based visual re-localization approaches are well-developed in recent decades, but are insufficient in some feature-less cases. In this paper, we propose a point-line joint optimization method for pose refinement with the help of the innovatively designed line extracting CNN named VLSE, and the line matching and pose optimization approach. We adopt a novel line representation and customize a hybrid convolutional block based on the Stacked Hourglass network, to detect accurate and stable line features on images. Then we apply a coarse-to-fine strategy to obtain precise 2D-3D line correspondences based on the geometric constraint. A following point-line joint cost function is constructed to optimize the camera pose with the initial coarse pose. Sufficient experiments are conducted on open datasets, i.e, line extractor on Wireframe and YorkUrban, localization performance on Aachen Day-Night v1.1 and InLoc, to confirm the effectiveness of our point-line joint pose optimization method.
翻訳日:2021-10-11 16:29:06 公開日:2021-10-08
# GaitPrivacyON:教師なし学習を用いたプライバシー保護モバイル歩行バイオメトリックス

GaitPrivacyON: Privacy-Preserving Mobile Gait Biometrics using Unsupervised Learning ( http://arxiv.org/abs/2110.03967v1 )

ライセンス: Link先を確認
Paula Delgado-Santos and Ruben Tolosana and Richard Guest and Ruben Vera and Farzin Deravi and Aythami Morales(参考訳) 文献における多くの研究は、認証のためにモバイルデバイス上でバイオメトリックスの可能性を既に示している。 しかし,生体認証システムに関連付けられた学習プロセスは,被験者に関する機密情報を公開する可能性がある。 本研究は,対象者の機密情報を保存しつつ,正確な認証結果を提供する新しいモバイル歩行生体認証手法であるgaitprivacyonを提案する。 モジュールは2つある。 一 性別又は実行中の活動等の生体認証原データの属性を、新たなプライバシー保全表現に変換する畳み込みオートエンコーダ 二 畳み込みニューラルネットワーク(cnns)とリカレントニューラルネットワーク(rnns)とシャムアーキテクチャを組み合わせた移動歩行検証システム。 gaitprivacyonの主な利点は、第一モジュール(畳み込みオートエンコーダ)が保護対象の繊細な属性を指定せずに教師なしの方法で訓練されることである。 2つの人気データベース(MotionSenseとMobiAct)を用いて達成された実験結果は、GaitPrivacyONがユーザーの認証結果をAUC(Area Under the Curve)の99%以上を維持しながら、被験者のプライバシーを大幅に改善する可能性を示唆している。 我々の知る限りでは、これは、教師なしの方法で訓練されたプライバシー保護方法を考える最初のモバイル歩行検証アプローチである。

Numerous studies in the literature have already shown the potential of biometrics on mobile devices for authentication purposes. However, it has been shown that, the learning processes associated to biometric systems might expose sensitive personal information about the subjects. This study proposes GaitPrivacyON, a novel mobile gait biometrics verification approach that provides accurate authentication results while preserving the sensitive information of the subject. It comprises two modules: i) a convolutional Autoencoder that transforms attributes of the biometric raw data, such as the gender or the activity being performed, into a new privacy-preserving representation; and ii) a mobile gait verification system based on the combination of Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) with a Siamese architecture. The main advantage of GaitPrivacyON is that the first module (convolutional Autoencoder) is trained in an unsupervised way, without specifying the sensitive attributes of the subject to protect. The experimental results achieved using two popular databases (MotionSense and MobiAct) suggest the potential of GaitPrivacyON to significantly improve the privacy of the subject while keeping user authentication results higher than 99% Area Under the Curve (AUC). To the best of our knowledge, this is the first mobile gait verification approach that considers privacy-preserving methods trained in an unsupervised way.
翻訳日:2021-10-11 16:28:42 公開日:2021-10-08
# 車両位置推定のためのセマンティック画像アライメント

Semantic Image Alignment for Vehicle Localization ( http://arxiv.org/abs/2110.04162v1 )

ライセンス: Link先を確認
Markus Herb, Matthias Lemberger, Marcel M. Schmitt, Alexander Kurz, Tobias Weiherer, Nassir Navab, Federico Tombari(参考訳) 高精度で信頼性の高いローカライゼーションは、自動運転車がナビゲーションや計画といった高度なタスクでマップ情報を使用するための基本的な要件である。 本稿では,一眼レフカメラのセマンティックセマンティックセマンティックセマンティクスを用いて,ベクトル化高精細地図や3次元メッシュなどの密集セマンティクスマップにおける車両位置決め手法を提案する。 本手法では,地図から描画された仮想カメラビューを意味的に区分けされたカメラ画像のシーケンスに整列させることで,セマンティックなラベル付き地図における車両のポーズを頑健に追跡することができる。 既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。 ステレオやLiDARから生成される多種多様なセマンティックメッシュマップと手動の注釈付きHDマップに本手法の適用性を示し,リアルタイムに信頼性と正確な位置推定を実現することを示す。

Accurate and reliable localization is a fundamental requirement for autonomous vehicles to use map information in higher-level tasks such as navigation or planning. In this paper, we present a novel approach to vehicle localization in dense semantic maps, including vectorized high-definition maps or 3D meshes, using semantic segmentation from a monocular camera. We formulate the localization task as a direct image alignment problem on semantic images, which allows our approach to robustly track the vehicle pose in semantically labeled maps by aligning virtual camera views rendered from the map to sequences of semantically segmented camera images. In contrast to existing visual localization approaches, the system does not require additional keypoint features, handcrafted localization landmark extractors or expensive LiDAR sensors. We demonstrate the wide applicability of our method on a diverse set of semantic mesh maps generated from stereo or LiDAR as well as manually annotated HD maps and show that it achieves reliable and accurate localization in real-time.
翻訳日:2021-10-11 16:28:17 公開日:2021-10-08
# 複合イベント認識と予測のためのシンボリックレジスタオートマトン

Symbolic Register Automata for Complex Event Recognition and Forecasting ( http://arxiv.org/abs/2110.04032v1 )

ライセンス: Link先を確認
Elias Alevizos, Alexander Artikis, Georgios Paliouras(参考訳) 本稿では,シンボルオートマトンとレジスタオートマトンを組み合わせたオートマトンモデルを提案する。 このようなオートマトンをシンボリックレジスタオートマトン(sra)と呼ぶ。 SRAは、入力文字列から読み取った最後の要素だけでなく、レジスタに格納された複数の要素にもブール式を適用することで、シンボルオートマトンを表現力として拡張する。 SRAはまた、等式以外の任意のブール式を許容することでレジスタオートマトンを拡張する。 結合, 交叉, 連結, クリーネ閉包, 補および決定的決定の下でのSRAの閉包性について検討し, 記号的オートマトンとは対照的に、SRAは一般に補完の下で閉じておらず、決定できないことを示す。 しかし、これらの操作の下では、複雑なイベント認識において必須となるウィンドウオペレータが使用されると閉じられる。 本稿では,イベントストリーム上のパターンを検出するために,宣言的および構成的意味論を提供するフレームワークを用いて,複雑なイベント認識においてSRAをどのように使用できるかを示す。 また、SRAの挙動が、事象のストリームを消費するときに、接尾辞木を用いて確率的記述を与えることができることを示す。 これにより、複雑なイベント認識から複雑なイベント予測への一歩を踏み出し、複雑なパターンの検出に加えて、その発生を効率的に予測することが可能になります。

We propose an automaton model which is a combination of symbolic and register automata, i.e., we enrich symbolic automata with memory. We call such automata Symbolic Register Automata (SRA). SRA extend the expressive power of symbolic automata, by allowing Boolean formulas to be applied not only to the last element read from the input string, but to multiple elements, stored in their registers. SRA also extend register automata, by allowing arbitrary Boolean formulas, besides equality predicates. We study the closure properties of SRA under union, intersection, concatenation, Kleene closure, complement and determinization and show that SRA, contrary to symbolic automata, are not in general closed under complement and they are not determinizable. However, they are closed under these operations when a window operator, quintessential in Complex Event Recognition, is used. We show how SRA can be used in Complex Event Recognition in order to detect patterns upon streams of events, using our framework that provides declarative and compositional semantics, and that allows for a systematic treatment of such automata. We also show how the behavior of SRA, as they consume streams of events, can be given a probabilistic description with the help of prediction suffix trees. This allows us to go one step beyond Complex Event Recognition to Complex Event Forecasting, where, besides detecting complex patterns, we can also efficiently forecast their occurrence.
翻訳日:2021-10-11 16:26:55 公開日:2021-10-08
# 人間とロボットの協調性向上のためのリワード機能の説明

Explaining Reward Functions to Humans for Better Human-Robot Collaboration ( http://arxiv.org/abs/2110.04192v1 )

ライセンス: Link先を確認
Lindsay Sanneman and Julie Shah(参考訳) エージェント報酬関数を記述する説明可能なAI技術は、さまざまな設定で人間とロボットのコラボレーションを強化することができる。 エージェント報酬関数に対する人間の理解が特に有益となる文脈は、値アライメントの設定である。 価値アライメントの文脈では、エージェントは人間の報酬関数を相互作用を通じて推測し、人間のタスクを補助することを目的としている。 もし人間がエージェントの報酬理解にギャップがあることを理解できれば、より効率的かつ効果的に教えられるようになり、より迅速なヒューマンエージェントチームのパフォーマンス改善につながるでしょう。 価値アライメント設定や同様のコンテキストにおいて,人間の協力者を支援するためには,まず,様々な領域における報酬説明手法の有効性を理解することが重要である。 本稿では,報酬説明手法における情報モダリティの分類,人間報酬理解のための一連の評価手法の提案,ドメイン複雑性の4つの軸を紹介する。 次に,様々な複雑さの領域の集合における情報の多様性をカバーする報奨説明手法の相対的有効性を検討する実験を提案する。

Explainable AI techniques that describe agent reward functions can enhance human-robot collaboration in a variety of settings. One context where human understanding of agent reward functions is particularly beneficial is in the value alignment setting. In the value alignment context, an agent aims to infer a human's reward function through interaction so that it can assist the human with their tasks. If the human can understand where gaps exist in the agent's reward understanding, they will be able to teach more efficiently and effectively, leading to quicker human-agent team performance improvements. In order to support human collaborators in the value alignment setting and similar contexts, it is first important to understand the effectiveness of different reward explanation techniques in a variety of domains. In this paper, we introduce a categorization of information modalities for reward explanation techniques, suggest a suite of assessment techniques for human reward understanding, and introduce four axes of domain complexity. We then propose an experiment to study the relative efficacy of a broad set of reward explanation techniques covering multiple modalities of information in a set of domains of varying complexity.
翻訳日:2021-10-11 16:26:28 公開日:2021-10-08
# 記録リンクと重複検出のためのマルチファイルパーティショニング

Multifile Partitioning for Record Linkage and Duplicate Detection ( http://arxiv.org/abs/2110.03839v1 )

ライセンス: Link先を確認
Serge Aleshin-Guendel, Mauricio Sadinle(参考訳) 重複するエンティティの集合に関する情報を含むデータファイルのマージは、ユニークな識別子がない場合の課題であり、いくつかのエンティティがデータファイルに複製されるとさらに複雑になる。 この問題に対するほとんどのアプローチは、2つのファイルの重複のないリンクや、1つのファイルでどのレコードが重複しているかを検出することに重点を置いている。 しかし、実際にはこの2つの設定のどこかに合致するシナリオに遭遇することが一般的である。 マルチファイルレコードリンクと重複検出の一般設定のためのベイズ的手法を提案する。 我々は、データファイルのデータ収集プロセスに関する事前情報を柔軟に組み込んだパーティションのための構造化された事前表現を提案するために、新しいパーティション表現を使用し、マルチファイル設定に対応するために、比較データに対する以前のモデルを拡張します。 また、分割の不確実な部分の未解決を許容する分割のベイズ推定を導出するために損失関数の族を導入する。 提案手法の性能は広範囲なシミュレーションにより検証した。 この方法論を実装するコードはhttps://github.com/a leshing/multilink で公開されている。

Merging datafiles containing information on overlapping sets of entities is a challenging task in the absence of unique identifiers, and is further complicated when some entities are duplicated in the datafiles. Most approaches to this problem have focused on linking two files assumed to be free of duplicates, or on detecting which records in a single file are duplicates. However, it is common in practice to encounter scenarios that fit somewhere in between or beyond these two settings. We propose a Bayesian approach for the general setting of multifile record linkage and duplicate detection. We use a novel partition representation to propose a structured prior for partitions that can incorporate prior information about the data collection processes of the datafiles in a flexible manner, and extend previous models for comparison data to accommodate the multifile setting. We also introduce a family of loss functions to derive Bayes estimates of partitions that allow uncertain portions of the partitions to be left unresolved. The performance of our proposed methodology is explored through extensive simulations. Code implementing the methodology is available at https://github.com/a leshing/multilink .
翻訳日:2021-10-11 16:26:12 公開日:2021-10-08
# Bradley-Terry-Luceモデルにおける不確かさの定量化

Uncertainty quantification in the Bradley-Terry-Luce model ( http://arxiv.org/abs/2110.03874v1 )

ライセンス: Link先を確認
Chao Gao, Yandi Shen, Anderson Y. Zhang(参考訳) Bradley-Terry-Luceモデル(BTLモデル)は、個人間のペア比較のためのベンチマークモデルである。 いくつかの一般的な手順の1次漸近性に関する最近の進歩にもかかわらず、BTLモデルにおける不確実性定量化の理解はほとんど不完全であり、特に基礎となる比較グラフが不足している。 本稿では,近年注目されている2つの推定器,最大可能性推定器(MLE)とスペクトル推定器に着目し,このギャップを埋める。 統一された証明戦略を用いて、基礎となる比較グラフの最も広い可能な状態(いくつかの多対数因子まで)における両推定器の鋭く均一な非漸近展開を導出する。 これらの拡張によって (i)両推定子に対する有限次元中心極限定理 (ii)個々の階級に対する信頼区間の構成 (iii) MLEで達成されるがスペクトル推定器では達成されない$\ell_2$推定の最適定数。 我々の証明は、二階剰余ベクトルの自己整合方程式と、新しい残余解析に基づく。

The Bradley-Terry-Luce (BTL) model is a benchmark model for pairwise comparisons between individuals. Despite recent progress on the first-order asymptotics of several popular procedures, the understanding of uncertainty quantification in the BTL model remains largely incomplete, especially when the underlying comparison graph is sparse. In this paper, we fill this gap by focusing on two estimators that have received much recent attention: the maximum likelihood estimator (MLE) and the spectral estimator. Using a unified proof strategy, we derive sharp and uniform non-asymptotic expansions for both estimators in the sparsest possible regime (up to some poly-logarithmic factors) of the underlying comparison graph. These expansions allow us to obtain: (i) finite-dimensional central limit theorems for both estimators; (ii) construction of confidence intervals for individual ranks; (iii) optimal constant of $\ell_2$ estimation, which is achieved by the MLE but not by the spectral estimator. Our proof is based on a self-consistent equation of the second-order remainder vector and a novel leave-two-out analysis.
翻訳日:2021-10-11 16:25:54 公開日:2021-10-08
# 分布シフトに依存しないグラフの安定予測

Stable Prediction on Graphs with Agnostic Distribution Shift ( http://arxiv.org/abs/2110.03865v1 )

ライセンス: Link先を確認
Shengyu Zhang, Kun Kuang, Jiezhong Qiu, Jin Yu, Zhou Zhao, Hongxia Yang, Zhongfei Zhang, Fei Wu(参考訳) グラフは、実際に複雑な構造を表現するための柔軟で効果的なツールであり、グラフニューラルネットワーク(GNN)は、ランダムに分離されたトレーニングとテストデータを持つさまざまなグラフタスクに有効であることが示されている。 しかし、実際のアプリケーションでは、トレーニンググラフの分布はテストグラフと異なるかもしれない(例えば、ユーザとイテムのトレーニンググラフ上のユーザのインタラクションと実際のアイテム、すなわち、テスト環境はレコメンダシステムに矛盾があることが知られている)。 さらに、gnnをトレーニングする場合、テストデータの分布は常に無依存である。 したがって、グラフ学習におけるトレーニングとテストの間の非依存的な分布シフトに直面しており、異なるテスト環境における従来のGNNの不安定な推測につながります。 この問題に対処するために,グラフ上での局所的およびグローバルな学習と予測を可能にする,GNNのための新しい安定予測フレームワークを提案する。 特に,各ノードはGNNの隣接ノードによって部分的に表現されるため,情報伝達/集約プロセスを再重み付けすることで,各ノードの安定特性(局所安定)を捉えることを提案する。 グローバル安定性のために,不均質環境におけるトレーニング損失を低減し,gnnの一般化を阻害する安定正規化器を提案する。 製品プロモーションフェスティバルの5日間連続して収集した,いくつかのグラフベンチマークと騒がしい産業推薦データセットについて,広範な実験を行った。 提案手法は,ノードラベルや属性による変化を含む,非依存的な分布シフトを持つグラフ上で安定な予測を行うために,様々なSOTA GNNより優れていることを示す。

Graph is a flexible and effective tool to represent complex structures in practice and graph neural networks (GNNs) have been shown to be effective on various graph tasks with randomly separated training and testing data. In real applications, however, the distribution of training graph might be different from that of the test one (e.g., users' interactions on the user-item training graph and their actual preference on items, i.e., testing environment, are known to have inconsistencies in recommender systems). Moreover, the distribution of test data is always agnostic when GNNs are trained. Hence, we are facing the agnostic distribution shift between training and testing on graph learning, which would lead to unstable inference of traditional GNNs across different test environments. To address this problem, we propose a novel stable prediction framework for GNNs, which permits both locally and globally stable learning and prediction on graphs. In particular, since each node is partially represented by its neighbors in GNNs, we propose to capture the stable properties for each node (locally stable) by re-weighting the information propagation/aggregat ion processes. For global stability, we propose a stable regularizer that reduces the training losses on heterogeneous environments and thus warping the GNNs to generalize well. We conduct extensive experiments on several graph benchmarks and a noisy industrial recommendation dataset that is collected from 5 consecutive days during a product promotion festival. The results demonstrate that our method outperforms various SOTA GNNs for stable prediction on graphs with agnostic distribution shift, including shift caused by node labels and attributes.
翻訳日:2021-10-11 16:23:48 公開日:2021-10-08
# 波動伝播における逆問題学習のための運動的一貫したリカレントニューラルネットワーク

Kinematically consistent recurrent neural networks for learning inverse problems in wave propagation ( http://arxiv.org/abs/2110.03903v1 )

ライセンス: Link先を確認
Wrik Mallik, Rajeev K. Jaiman and Jasmin Jelovica(参考訳) 近年、機械学習(ML)は機械的問題にますます採用されているが、従来のMLアーキテクチャのブラックボックスの性質は、予期せぬ入力条件を推測する物理知識を欠いている。 これは、トレーニングデータの変形中の過度なオーバーフィッティングと、不適切な物理的解釈可能性の両方を意味しており、新しいキネマティックに一貫性のある物理ベースのMLモデルを提案する動機となっている。 特に,波浪伝播における逆問題に対する物理的に解釈可能な学習を過度な制限に苦しむことなく行おうとする。 この目的のために、我々は、物理的にハイパーパラメータ駆動のレギュレータを備えた長期記憶(LSTM)ネットワークを使用し、特徴的ジオメトリのペナルティに基づく適用を行う。 これらの特性は波動伝播現象のキネマティックな不変性であるため、その構造を維持することはネットワークにキネマティックな一貫性をもたらす。 控えめなトレーニングデータであっても、このキネマティック一貫性のあるネットワークは、通常のLSTM予測の$L_1$と$L_\infty$エラーノルムを、それぞれ約45%と55%削減することができる。 また、LSTMの予測の地平線をほぼ2倍に増やすこともできる。 これを実現するために、人工バルク弾性率に類似した物理ハイパーパラメータの最適範囲が数値実験によって確立されている。 また, オーバーフィッティングを緩和する手法の有効性, 学習機構の物理的解釈性についても検討した。 波動伝播学習のための運動論的一貫したLSTMネットワークの応用を初めて紹介する。

Although machine learning (ML) is increasingly employed recently for mechanistic problems, the black-box nature of conventional ML architectures lacks the physical knowledge to infer unforeseen input conditions. This implies both severe overfitting during a dearth of training data and inadequate physical interpretability, which motivates us to propose a new kinematically consistent, physics-based ML model. In particular, we attempt to perform physically interpretable learning of inverse problems in wave propagation without suffering overfitting restrictions. Towards this goal, we employ long short-term memory (LSTM) networks endowed with a physical, hyperparameter-drive n regularizer, performing penalty-based enforcement of the characteristic geometries. Since these characteristics are the kinematical invariances of wave propagation phenomena, maintaining their structure provides kinematical consistency to the network. Even with modest training data, the kinematically consistent network can reduce the $L_1$ and $L_\infty$ error norms of the plain LSTM predictions by about 45% and 55%, respectively. It can also increase the horizon of the plain LSTM's forecasting by almost two times. To achieve this, an optimal range of the physical hyperparameter, analogous to an artificial bulk modulus, has been established through numerical experiments. The efficacy of the proposed method in alleviating overfitting, and the physical interpretability of the learning mechanism, are also discussed. Such an application of kinematically consistent LSTM networks for wave propagation learning is presented here for the first time.
翻訳日:2021-10-11 16:23:19 公開日:2021-10-08
# 分散SGDにおける差分プライバシーとビザンチンレジリエンスの組み合わせ

Combining Differential Privacy and Byzantine Resilience in Distributed SGD ( http://arxiv.org/abs/2110.03991v1 )

ライセンス: Link先を確認
Rachid Guerraoui, Nirupam Gupta, Rafael Pinot, Sebastien Rouault, and John Stephan(参考訳) プライバシとビザンチンレジリエンス(BR)は、現代の分散機械学習において重要な要件である。 この2つの概念は個別に広く研究されてきたが、どのように組み合わせるかという問題は未解決のままである。 本稿では, 分散sgdアルゴリズムが, 標準パラメータサーバアーキテクチャにおいて, 正確なモデルをどのように学習できるかを検討することで, この問題への対処に寄与する。 (a)悪意のある労働者のごく一部(ビザンチン) b) もう一つは、正直なところ、差分プライバシー(DP)を確保するためにサーバにノイズの多い情報を提供するものである。 まず,DP と BR における標準プラクティスの統合は容易ではないことを考察する。 実際、ビザンチン断層下の分散sgdの収束に関する既存の結果、特に(\alpha,f)$-byzantin eレジリエンスに依存するものの多くは、正直な労働者がdpを強制すると無効にされる。 この欠点を回避するために、近似収束保証を得るために$(\alpha,f)$-BRの理論を再検討する。 我々の分析は、ハイパーパラメータ最適化を通じて、この保証を改善するための重要な洞察を提供する。 その結果,(1) dp と br に対する標準的アプローチの無作為な組み合わせは実効性に乏しいが,(2) 学習アルゴリズムを慎重に再調整することで,dp と br を同時に保証しながら,合理的な学習精度が得られることがわかった。

Privacy and Byzantine resilience (BR) are two crucial requirements of modern-day distributed machine learning. The two concepts have been extensively studied individually but the question of how to combine them effectively remains unanswered. This paper contributes to addressing this question by studying the extent to which the distributed SGD algorithm, in the standard parameter-server architecture, can learn an accurate model despite (a) a fraction of the workers being malicious (Byzantine), and (b) the other fraction, whilst being honest, providing noisy information to the server to ensure differential privacy (DP). We first observe that the integration of standard practices in DP and BR is not straightforward. In fact, we show that many existing results on the convergence of distributed SGD under Byzantine faults, especially those relying on $(\alpha,f)$-Byzanti ne resilience, are rendered invalid when honest workers enforce DP. To circumvent this shortcoming, we revisit the theory of $(\alpha,f)$-BR to obtain an approximate convergence guarantee. Our analysis provides key insights on how to improve this guarantee through hyperparameter optimization. Essentially, our theoretical and empirical results show that (1) an imprudent combination of standard approaches to DP and BR might be fruitless, but (2) by carefully re-tuning the learning algorithm, we can obtain reasonable learning accuracy while simultaneously guaranteeing DP and BR.
翻訳日:2021-10-11 16:22:53 公開日:2021-10-08
# (参考訳) 単純注入流による多様体と密度の普遍的ジョイント近似 [全文訳有]

Universal Joint Approximation of Manifolds and Densities by Simple Injective Flows ( http://arxiv.org/abs/2110.04227v1 )

ライセンス: CC BY 4.0
Michael Puthawala, Matti Lassas, Ivan Dokmani\'c, Maarten de Hoop(参考訳) 我々は、単射流と射出膨張要素からなるニューラルネットワークを解析する。 このようなネットワークは多様体の大きなクラスを普遍的に近似し、それらの密度が支持される。 中でも,本研究の結果は,よく知られたカップリングと自己回帰流に適用できる。 我々は,teshima et al. 2020 の単射流に関する研究と brehmer et al. 2020 と kothari et al. 2021 で提案された注入構造の研究を基礎としている。 我々の結果は埋め込みギャップと呼ばれる新しい理論装置を利用しており、1つの連続多様体が別の埋め込みからどれくらい遠いかを測定する。 埋め込みギャップを普遍性の緩和に関連付け、多様体埋め込み特性と呼び、普遍性の幾何学的部分を取り込む。 我々の証明はまた、ネットワークの最適性は逆で確立できることを証明し、Brehmerらによる2020年の予想を解消し、単純な階層的なトレーニングスキームの扉を開く。 最後に,研究したネットワークは,正確な層方向の投影結果,ベイズの不確かさの定量化,ネットワーク重みのブラックボックスリカバリを許容することを示した。

We analyze neural networks composed of bijective flows and injective expansive elements. We find that such networks universally approximate a large class of manifolds simultaneously with densities supported on them. Among others, our results apply to the well-known coupling and autoregressive flows. We build on the work of Teshima et al. 2020 on bijective flows and study injective architectures proposed in Brehmer et al. 2020 and Kothari et al. 2021. Our results leverage a new theoretical device called the embedding gap, which measures how far one continuous manifold is from embedding another. We relate the embedding gap to a relaxation of universally we call the manifold embedding property, capturing the geometric part of universality. Our proof also establishes that optimality of a network can be established in reverse, resolving a conjecture made in Brehmer et al. 2020 and opening the door for simple layer-wise training schemes. Finally, we show that the studied networks admit an exact layer-wise projection result, Bayesian uncertainty quantification, and black-box recovery of network weights.
翻訳日:2021-10-11 16:19:12 公開日:2021-10-08
# (参考訳) 任意タスクの時間推定におけるハイブリッドグラフ埋め込み手法 [全文訳有]

Hybrid Graph Embedding Techniques in Estimated Time of Arrival Task ( http://arxiv.org/abs/2110.04228v1 )

ライセンス: CC BY 4.0
Vadim Porvatov, Natalia Semenova, Andrey Chertok(参考訳) 近年, 深層学習は, 出発点から特定の経路に沿った特定の地点への移動時間を予測していると考えられる ETA (Estimated Time of Arrival) の計算において, 有望な結果を達成している。 ETAはインテリジェントタクシーサービスや自動車ナビゲーションシステムにおいて重要な役割を果たす。 一般的な方法は、埋め込みベクトルを使って道路セグメントや交差点などの道路網の要素を表現することである。 道路要素には、長さ、横断歩道、車線番号など、独自の属性がある。 しかし、道路網内の多くのリンクは、大型の配車プラットフォームでも浮かぶ車が少なすぎるため、幅広い時間的イベントの影響を受けている。 本研究の主目的として,空間埋め込み戦略の一般化について検討し,この問題に対処するための二段階アプローチを提案する。

Recently, deep learning has achieved promising results in the calculation of Estimated Time of Arrival (ETA), which is considered as predicting the travel time from the start point to a certain place along a given path. ETA plays an essential role in intelligent taxi services or automotive navigation systems. A common practice is to use embedding vectors to represent the elements of a road network, such as road segments and crossroads. Road elements have their own attributes like length, presence of crosswalks, lanes number, etc. However, many links in the road network are traversed by too few floating cars even in large ride-hailing platforms and affected by the wide range of temporal events. As the primary goal of the research, we explore the generalization ability of different spatial embedding strategies and propose a two-stage approach to deal with such problems.
翻訳日:2021-10-11 15:39:39 公開日:2021-10-08
# (参考訳) 学習トピックモデル:識別可能性と有限サンプル分析

Learning Topic Models: Identifiability and Finite-Sample Analysis ( http://arxiv.org/abs/2110.04232v1 )

ライセンス: CC BY 4.0
Yinyin Chen, Shishuang He, Yun Yang and Feng Liang(参考訳) トピックモデルは、大きなテキストコーパスの潜在構造を学習、抽出、発見するための有用なテキストマイニングツールを提供する。 トピックモデリングには多くの手法が提案されているが、潜在話題推定の統計的識別性と正確性に関する形式的理論的研究は文献に欠けている。 本稿では,計算幾何学におけるボリューム最小化の概念と自然に結びついている,特定の統合可能性に基づく潜在トピックの最大可能性推定器(MLE)を提案する。 理論的には、アンカーワードや純粋なトピック文書の存在に依存する従来の分離可能性条件よりも弱いトピックモデル識別可能性のための新しい幾何学的条件を導入する。 提案した推定器の有限サンプル誤差解析を行い,既存の推定器との相関について検討する。 シミュレーションと実データの両方について実証的研究を行った。

Topic models provide a useful text-mining tool for learning, extracting and discovering latent structures in large text corpora. Although a plethora of methods have been proposed for topic modeling, a formal theoretical investigation on the statistical identifiability and accuracy of latent topic estimation is lacking in the literature. In this paper, we propose a maximum likelihood estimator (MLE) of latent topics based on a specific integrated likelihood, which is naturally connected to the concept of volume minimization in computational geometry. Theoretically, we introduce a new set of geometric conditions for topic model identifiability, which are weaker than conventional separability conditions relying on the existence of anchor words or pure topic documents. We conduct finite-sample error analysis for the proposed estimator and discuss the connection of our results with existing ones. We conclude with empirical studies on both simulated and real datasets.
翻訳日:2021-10-11 15:29:38 公開日:2021-10-08
# マルチビヘイビアレコメンデーションのための知識強化階層型グラフトランスネットワーク

Knowledge-Enhanced Hierarchical Graph Transformer Network for Multi-Behavior Recommendation ( http://arxiv.org/abs/2110.04000v1 )

ライセンス: Link先を確認
Lianghao Xia, Chao Huang, Yong Xu, Peng Dai, Xiyue Zhang, Hongsheng Yang, Jian Pei, Liefeng Bo(参考訳) 正確なユーザとアイテムの埋め込み学習は、現代のレコメンデーションシステムにとって不可欠である。 しかし,既存のレコメンデーション技術のほとんどは,ユーザとイテムのインタラクションの特異なタイプよりも,ユーザの好みをモデル化することに集中している。 多くの実践的なレコメンデーションシナリオは、複数のタイプのユーザインタラクティブな振る舞い(ページビュー、アドボライト、購入など)を伴い、現在のレコメンデーションソリューションでは扱えない固有の課題を提示している。 特に 一 異なる種類のユーザの行動にまたがる複雑な相互依存 二 多行動レコメンデーションの枠組みに知識対応項目関係を組み入れること。 iii)マルチタイプユーザ・テーマインタラクションの動的特性 これらの課題に対処するため,本研究では,ユーザとレコメンデータシステムにおける項目間の多種類の対話パターンを探索する知識強化階層型グラフトランスフォーマネットワーク(KHGT)を提案する。 具体的には、KHGTはグラフ構造化ニューラルネットワーク上に構築されている。 一 タイプ固有の行動特性 二 目標行動の予測タスクを支援する上で、どの種類のユーザ-イム相互作用がより重要であるかを明確に判別すること。 さらに、グラフアテンション層を時間符号化戦略に統合し、学習された埋め込みを専用の多重化ユーザ・イテムとアイテム・イテムの関係と、基礎となる相互作用ダイナミクスの両方に反映させる。 3つの実世界のデータセットで実施された大規模な実験により、KHGTはさまざまな評価設定の最先端のレコメンデーションメソッドを一貫して上回っていることが示された。 実装コードはhttps://github.com/a kaxlh/khgtで利用可能です。

Accurate user and item embedding learning is crucial for modern recommender systems. However, most existing recommendation techniques have thus far focused on modeling users' preferences over singular type of user-item interactions. Many practical recommendation scenarios involve multi-typed user interactive behaviors (e.g., page view, add-to-favorite and purchase), which presents unique challenges that cannot be handled by current recommendation solutions. In particular: i) complex inter-dependencies across different types of user behaviors; ii) the incorporation of knowledge-aware item relations into the multi-behavior recommendation framework; iii) dynamic characteristics of multi-typed user-item interactions. To tackle these challenges, this work proposes a Knowledge-Enhanced Hierarchical Graph Transformer Network (KHGT), to investigate multi-typed interactive patterns between users and items in recommender systems. Specifically, KHGT is built upon a graph-structured neural architecture to i) capture type-specific behavior characteristics; ii) explicitly discriminate which types of user-item interactions are more important in assisting the forecasting task on the target behavior. Additionally, we further integrate the graph attention layer with the temporal encoding strategy, to empower the learned embeddings be reflective of both dedicated multiplex user-item and item-item relations, as well as the underlying interaction dynamics. Extensive experiments conducted on three real-world datasets show that KHGT consistently outperforms many state-of-the-art recommendation methods across various evaluation settings. Our implementation code is available at https://github.com/a kaxlh/KHGT.
翻訳日:2021-10-11 15:29:25 公開日:2021-10-08
# メモリ拡張変圧器ネットワークによる勧告の多重化行動関係学習

Multiplex Behavioral Relation Learning for Recommendation via Memory Augmented Transformer Network ( http://arxiv.org/abs/2110.04002v1 )

ライセンス: Link先を確認
Lianghao Xia, Chao Huang, Yong Xu, Peng Dai, Bo Zhang, Liefeng Bo(参考訳) ユーザの正確な嗜好を捉えることは,個々のユーザに対してパーソナライズされた興味深い製品リストを提示する方法の基礎となる,さまざまなレコメンデーションシステム(eコマースプラットフォームなど)において非常に重要である。 ユーザとアイテムの関係を考慮し、大きな進展があったが、既存の推奨手法のほとんどは、ユーザとイテムのインタラクションの特異なタイプにのみ焦点を当てている。 しかし、ユーザとコンテンツの対話的な動作には、多タイプ(ページビュー、追加から購入など)や、相互依存的な性質がしばしば現れます。 多重化行動関係の見落としは、様々な種類の相互作用にまたがるマルチモーダルな文脈信号を認識することは困難であり、これは現在の推奨手法の実現可能性を制限する。 そこで本研究では,マルチプレックスな行動関係情報を用いた推薦を可能にするメモリ型トランスフォーマーネットワーク(matn)と,タイプ固有行動コンテキストとタイプワイズ行動の相互依存を,完全に自動でモデリングする手法を提案する。 MATNフレームワークでは、まずトランスフォーマーに基づくマルチビヘイビア関係エンコーダを開発し、学習された相互作用表現をクロスタイプ行動関係を反映させる。 さらに,様々な種類の行動の文脈信号をカテゴリ特異的潜在埋め込み空間にキャプチャするメモリアテンションネットワークを提案する。 最後に、クロス行動集約コンポーネントを導入し、タイプ・アウェアな相互作用行動表現間の包括的なコラボレーションを促進し、レコメンデーションを支援するために、それらの固有の貢献を識別する。 2つのベンチマークデータセットと実世界のe-commenceユーザ行動データに対する大規模な実験は、MATNがベースラインよりも大幅に改善したことを示している。 コードはhttps://github.com/a kaxlh/matn。

Capturing users' precise preferences is of great importance in various recommender systems (eg., e-commerce platforms), which is the basis of how to present personalized interesting product lists to individual users. In spite of significant progress has been made to consider relations between users and items, most of the existing recommendation techniques solely focus on singular type of user-item interactions. However, user-item interactive behavior is often exhibited with multi-type (e.g., page view, add-to-favorite and purchase) and inter-dependent in nature. The overlook of multiplex behavior relations can hardly recognize the multi-modal contextual signals across different types of interactions, which limit the feasibility of current recommendation methods. To tackle the above challenge, this work proposes a Memory-Augmented Transformer Networks (MATN), to enable the recommendation with multiplex behavioral relational information, and joint modeling of type-specific behavioral context and type-wise behavior inter-dependencies, in a fully automatic manner. In our MATN framework, we first develop a transformer-based multi-behavior relation encoder, to make the learned interaction representations be reflective of the cross-type behavior relations. Furthermore, a memory attention network is proposed to supercharge MATN capturing the contextual signals of different types of behavior into the category-specific latent embedding space. Finally, a cross-behavior aggregation component is introduced to promote the comprehensive collaboration across type-aware interaction behavior representations, and discriminate their inherent contributions in assisting recommendations. Extensive experiments on two benchmark datasets and a real-world e-commence user behavior data demonstrate significant improvements obtained by MATN over baselines. Codes are available at: https://github.com/a kaxlh/MATN.
翻訳日:2021-10-11 15:28:56 公開日:2021-10-08
# AIが痛みと表現的共感を認識するには

How Can AI Recognize Pain and Express Empathy ( http://arxiv.org/abs/2110.04249v1 )

ライセンス: Link先を確認
Siqi Cao, Di Fu, Xu Yang, Pablo Barros, Stefan Wermter, Xun Liu, Haiyan Wu(参考訳) 痛みや共感などの感覚や感情的な経験は、精神的および身体的健康に関係している。 現在の痛みの自動認識の推進は、多くの医療要件の増加と社会的インタラクションの要求によって動機づけられている。 流行地であるにもかかわらず、その詳細は調査されていない。 過去数十年間、行動科学と神経科学は痛みの現れを説明するメカニズムを発見してきた。 近年、人工知能の研究により、共感型機械学習手法のアプローチが可能になった。 本研究の目的は,コンピュータによる痛み認識と人工共感実装の現況を概観することである。 AIは、一様性や多様性から痛みを認識するにはどうすればよいのか? AIは共感的である必要があるか? 積極的でリアクティブな共感を持ったAIエージェントをどうやって作るのか? この記事では、心理学的、神経科学的、人工知能の観点から、現実世界のマルチモーダルな痛み認識の挑戦と機会を探求する。 最後に、人工共感の将来の実装を特定し、共感を備えたAIエージェントから人間がどのように恩恵を受けるかを分析する。

Sensory and emotional experiences such as pain and empathy are relevant to mental and physical health. The current drive for automated pain recognition is motivated by a growing number of healthcare requirements and demands for social interaction make it increasingly essential. Despite being a trending area, they have not been explored in great detail. Over the past decades, behavioral science and neuroscience have uncovered mechanisms that explain the manifestations of pain. Recently, also artificial intelligence research has allowed empathic machine learning methods to be approachable. Generally, the purpose of this paper is to review the current developments for computational pain recognition and artificial empathy implementation. Our discussion covers the following topics: How can AI recognize pain from unimodality and multimodality? Is it necessary for AI to be empathic? How can we create an AI agent with proactive and reactive empathy? This article explores the challenges and opportunities of real-world multimodal pain recognition from a psychological, neuroscientific, and artificial intelligence perspective. Finally, we identify possible future implementations of artificial empathy and analyze how humans might benefit from an AI agent equipped with empathy.
翻訳日:2021-10-11 15:28:07 公開日:2021-10-08
# 蜂の異常検出:アルゴリズムによる比較

Anomaly Detection in Beehives: An Algorithm Comparison ( http://arxiv.org/abs/2110.03945v1 )

ライセンス: Link先を確認
Padraig Davidson, Michael Steininger, Florian Lautenschlager, Anna Krause, Andreas Hotho(参考訳) センサー付きのハチは、ハチの生活状態をモニタリングする。 機械学習モデルは、そのようなハイブのデータを使用して行動パターンを学び、異常なイベントを見つけることができる。 経済的な理由からアピアリストにとって特に関心のあるイベントは、ハチの群れである。 その他の関心事としては、疾患による行動異常や、センサ障害などの技術的異常がある。 Beekeeperは、これらのイベントを検出可能な適切な機械学習モデルによってサポートすることができる。 本稿では,複数の機械学習モデルを用いて異常検出を行い,ミツバチの文脈におけるその適用性を評価する。 すなわち、Deep Recurrent Autoencoder、Elliptic Envelope、Isolation Forest、Local Outlier Factor、One-Class SVMを採用した。 異なるヒブのリアルタイムデータセットと異なるセンサー設定による評価により、オートエンコーダは比較対象として最適の多目的異常検出器であることがわかった。

Sensor-equipped beehives allow monitoring the living conditions of bees. Machine learning models can use the data of such hives to learn behavioral patterns and find anomalous events. One type of event that is of particular interest to apiarists for economical reasons is bee swarming. Other events of interest are behavioral anomalies from illness and technical anomalies, e.g. sensor failure. Beekeepers can be supported by suitable machine learning models which can detect these events. In this paper we compare multiple machine learning models for anomaly detection and evaluate them for their applicability in the context of beehives. Namely we employed Deep Recurrent Autoencoder, Elliptic Envelope, Isolation Forest, Local Outlier Factor and One-Class SVM. Through evaluation with real world datasets of different hives and with different sensor setups we find that the autoencoder is the best multi-purpose anomaly detector in comparison.
翻訳日:2021-10-11 15:25:21 公開日:2021-10-08
# core-periphery構造によるスパースグラフの学習

Learning Sparse Graphs with a Core-periphery Structure ( http://arxiv.org/abs/2110.04022v1 )

ライセンス: Link先を確認
Sravanthi Gurugubelli and Sundeep Prabhakar Chepuri(参考訳) 本稿では,コア周辺構造を持つスパースグラフの学習に焦点を当てる。 グラフのノードのコアスコアに対するノード属性の依存性を潜在グラフ構造を通してモデル化するために,コア周辺構造ネットワークに関連するデータ生成モデルを提案する。 提案モデルを用いて,ネットワークのコア部(リフレクション,周辺部)に密接な(疎い)接続を誘導するスパースグラフとニューダルコアスコアを共同で推定する。 実世界の様々なデータに関する数値実験により,提案手法はノード属性のみからコア周辺構造グラフを学習し,同時にコアスコアの割り当てを学習し,グラフを入力としてコアスコアを推定し,一般に利用可能なノード属性を無視する既存の作業とよく一致することを示した。

In this paper, we focus on learning sparse graphs with a core-periphery structure. We propose a generative model for data associated with core-periphery structured networks to model the dependence of node attributes on core scores of the nodes of a graph through a latent graph structure. Using the proposed model, we jointly infer a sparse graph and nodal core scores that induce dense (sparse) connections in core (respectively, peripheral) parts of the network. Numerical experiments on a variety of real-world data indicate that the proposed method learns a core-periphery structured graph from node attributes alone, while simultaneously learning core score assignments that agree well with existing works that estimate core scores using graph as input and ignoring commonly available node attributes.
翻訳日:2021-10-11 15:25:06 公開日:2021-10-08
# 雑音対数比較による不均質ランクアグリゲーションのための適応サンプリング

Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise Comparisons ( http://arxiv.org/abs/2110.04136v1 )

ライセンス: Link先を確認
Yue Wu, Tao Jin, Hao Lou, Pan Xu, Farzad Farnoud, Quanquan Gu(参考訳) ヘテロジニアスランクアグリゲーション問題では、ユーザーはアイテムのペアを比較する際に様々な精度レベルを示すことが多い。 したがって、ユーザに対する一様クエリ戦略は最適ではないかもしれない。 そこで本研究では,ユーザ間の対数比較により,アイテムのランク付けを推定し,アクティブなユーザ群を維持することにより,ユーザの平均精度を向上させる,除去に基づくアクティブサンプリング戦略を提案する。 提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。 また,文献中の非アクティブ戦略よりも優れた提案アルゴリズムのサンプル複雑性を提示する。 最先端のベースラインに対する提案手法の実証的優位性を示す実験を行った。

In heterogeneous rank aggregation problems, users often exhibit various accuracy levels when comparing pairs of items. Thus a uniform querying strategy over users may not be optimal. To address this issue, we propose an elimination-based active sampling strategy, which estimates the ranking of items via noisy pairwise comparisons from users and improves the users' average accuracy by maintaining an active set of users. We prove that our algorithm can return the true ranking of items with high probability. We also provide a sample complexity bound for the proposed algorithm which is better than that of non-active strategies in the literature. Experiments are provided to show the empirical advantage of the proposed methods over the state-of-the-art baselines.
翻訳日:2021-10-11 15:22:14 公開日:2021-10-08
# 自己監督型メタグラフインフォーマックスネットワークを用いたソーシャルレコメンデーション

Social Recommendation with Self-Supervised Metagraph Informax Network ( http://arxiv.org/abs/2110.03958v1 )

ライセンス: Link先を確認
Xiaoling Long, Chao Huang, Yong Xu, Huance Xu, Peng Dai, Lianghao Xia, Liefeng Bo(参考訳) 近年の研究者らは、ソーシャルネットワークが行動パターンを理解するための洞察を提供するという根拠に基づいて、オンラインのソーシャル情報を活用して、データの疎結合を緩和しようとしている。 しかし、アイテム間の相互依存的な知識(商品のカテゴリなど)の見落としにより、既存のソーシャルレコメンデーションシステムは、ユーザ側とアイテム側の両方から異種協調信号を抽出するには不十分である。 本研究では,ソーシャルと知識を意識した関係構造をユーザの嗜好表現に組み込む可能性について検討する。 ユーザとアイテム間の異なるタイプのメタ関係から特徴埋め込みを集約するメタパス誘導ヘテロジニアスグラフニューラルネットワークを設計し、SMINを活用して、複数面のユーザおよびアイテムの依存関係に対する専用表現を維持する。 さらに,高次コラボレーティブ信号を注入するために,自己教師付きグラフベースコラボレーティブフィルタリングの下で相互情報学習パラダイムを一般化する。 これは、グローバルレベルの協調関係とグラフトポロジーの同型変換特性を探求することで、ユーザ・テーマの対話的パターンの表現的モデリングを内包する。 いくつかの実世界のデータセットに対する実験結果から,SMINモデルの有効性が示された。 ソースコードはhttps://github.com/S ocialRecsys/SMINで公開しています。

In recent years, researchers attempt to utilize online social information to alleviate data sparsity for collaborative filtering, based on the rationale that social networks offers the insights to understand the behavioral patterns. However, due to the overlook of inter-dependent knowledge across items (e.g., categories of products), existing social recommender systems are insufficient to distill the heterogeneous collaborative signals from both user and item sides. In this work, we propose a Self-Supervised Metagraph Infor-max Network (SMIN) which investigates the potential of jointly incorporating social- and knowledge-aware relational structures into the user preference representation for recommendation. To model relation heterogeneity, we design a metapath-guided heterogeneous graph neural network to aggregate feature embeddings from different types of meta-relations across users and items, em-powering SMIN to maintain dedicated representations for multi-faceted user- and item-wise dependencies. Additionally, to inject high-order collaborative signals, we generalize the mutual information learning paradigm under the self-supervised graph-based collaborative filtering. This endows the expressive modeling of user-item interactive patterns, by exploring global-level collaborative relations and underlying isomorphic transformation property of graph topology. Experimental results on several real-world datasets demonstrate the effectiveness of our SMIN model over various state-of-the-art recommendation methods. We release our source code at https://github.com/S ocialRecsys/SMIN.
翻訳日:2021-10-11 15:21:45 公開日:2021-10-08
# マルチビヘイビアレコメンデーションのためのグラフメタネットワーク

Graph Meta Network for Multi-Behavior Recommendation ( http://arxiv.org/abs/2110.03969v1 )

ライセンス: Link先を確認
Lianghao Xia, Yong Xu, Chao Huang, Peng Dai, Liefeng Bo(参考訳) 現代のレコメンデータシステムは、観察された相互作用に基づいて、ユーザやアイテムを低次元の潜在表現に埋め込むことが多い。 現実的なレコメンデーションシナリオでは、ユーザは様々な意図を示し、複数の行動タイプ(例えば、クリック、タグ・アズ・ファブリック、購入)でアイテムと対話する。 しかし、ユーザ行動の多様性は既存のアプローチのほとんどでは無視されており、異なるタイプの対話的行動における異種関係構造を捉えることは困難である。 マルチタイプ行動パターンの探索はレコメンデーションシステムにとって非常に重要であるが、2つの側面から非常に難しい。 i) 異なるタイプのユーザ・イテムインタラクションにおける複雑な依存関係。 二 このような多行動パターンの多様性は、利用者の好みによって異なる場合がある。 上記の課題に取り組むために,グラフメタネットワークを用いたマルチビヘイビア推薦フレームワークを提案し,マルチビヘイビアパターンモデリングをメタラーニングパラダイムに組み込む。 我々の開発したMB-GMNは,行動の不均一性や相互作用の多様性を自動的に抽出し,行動に依存した行動表現を明らかにする能力によって,対話学習のユーザ・イテム化に寄与する。 3つの実世界のデータセットに対する大規模な実験は、様々な最先端ベースラインと比較して推奨性能を大幅に向上させることで、MB-GMNの有効性を示している。 ソースコードはhttps://github.com/a kaxlh/mb-gmnで入手できる。

Modern recommender systems often embed users and items into low-dimensional latent representations, based on their observed interactions. In practical recommendation scenarios, users often exhibit various intents which drive them to interact with items with multiple behavior types (e.g., click, tag-as-favorite, purchase). However, the diversity of user behaviors is ignored in most of the existing approaches, which makes them difficult to capture heterogeneous relational structures across different types of interactive behaviors. Exploring multi-typed behavior patterns is of great importance to recommendation systems, yet is very challenging because of two aspects: i) The complex dependencies across different types of user-item interactions; ii) Diversity of such multi-behavior patterns may vary by users due to their personalized preference. To tackle the above challenges, we propose a Multi-Behavior recommendation framework with Graph Meta Network to incorporate the multi-behavior pattern modeling into a meta-learning paradigm. Our developed MB-GMN empowers the user-item interaction learning with the capability of uncovering type-dependent behavior representations, which automatically distills the behavior heterogeneity and interaction diversity for recommendations. Extensive experiments on three real-world datasets show the effectiveness of MB-GMN by significantly boosting the recommendation performance as compared to various state-of-the-art baselines. The source code is available athttps://github.com /akaxlh/MB-GMN.
翻訳日:2021-10-11 15:21:20 公開日:2021-10-08
# ソーシャルレコメンデーションのための知識認識結合型グラフニューラルネットワーク

Knowledge-aware Coupled Graph Neural Network for Social Recommendation ( http://arxiv.org/abs/2110.03987v1 )

ライセンス: Link先を確認
Chao Huang, Huance Xu, Yong Xu, Peng Dai, Lianghao Xia, Mengyin Lu, Liefeng Bo, Hao Xing, Xiaoping Lai, Yanfang Ye(参考訳) ソーシャルレコメンデーションタスクは、ユーザ間のソーシャルなつながりを取り入れたアイテムに対するユーザの嗜好を予測することを目的としており、協調フィルタリングのスパース問題を緩和することを目的としている。 近年,ニューラルネットワークを用いたソーシャルレコメンデーションシステムの有効性が注目されているが,いくつかの課題はまだ解決されていない。 (i)ほとんどのモデルは,項目間の相互依存的知識を無視しながら,ユーザの社会的つながりのみを考慮に入れている。 (ii)既存のソリューションのほとんどは、ユーザ・テーマインタラクションの特異なタイプのために設計されており、それらの相互作用の多様性を捉えることができない。 (iii)多くのソーシャル・アウェア・レコメンデーション手法では,ユーザ・テーマインタラクションの動的な性質があまり研究されていない。 上記の課題に対処するため、本研究では、アイテムやユーザ間の相互依存的な知識をレコメンデーションフレームワークに共同注入する知識認識結合グラフニューラルネットワーク(KCGN)を提案する。 KCGNは,グローバルグラフ構造認識のための相互情報を利用した高次ユーザ・アイテム関係符号化を実現する。 さらに、動的マルチタイプユーザ-イテム対話パターンをキャプチャする機能により、KCGNをさらに強化する。 実世界のデータセットを用いた実験により,様々な環境下での強いベースラインに対する本手法の有効性が示された。 ソースコードはhttps://github.com/x hcdream/kcgn。

Social recommendation task aims to predict users' preferences over items with the incorporation of social connections among users, so as to alleviate the sparse issue of collaborative filtering. While many recent efforts show the effectiveness of neural network-based social recommender systems, several important challenges have not been well addressed yet: (i) The majority of models only consider users' social connections, while ignoring the inter-dependent knowledge across items; (ii) Most of existing solutions are designed for singular type of user-item interactions, making them infeasible to capture the interaction heterogeneity; (iii) The dynamic nature of user-item interactions has been less explored in many social-aware recommendation techniques. To tackle the above challenges, this work proposes a Knowledge-aware Coupled Graph Neural Network (KCGN) that jointly injects the inter-dependent knowledge across items and users into the recommendation framework. KCGN enables the high-order user- and item-wise relation encoding by exploiting the mutual information for global graph structure awareness. Additionally, we further augment KCGN with the capability of capturing dynamic multi-typed user-item interactive patterns. Experimental studies on real-world datasets show the effectiveness of our method against many strong baselines in a variety of settings. Source codes are available at: https://github.com/x hcdream/KCGN.
翻訳日:2021-10-11 15:20:55 公開日:2021-10-08
# セッションベースレコメンデーションのためのマルチレベル遷移ダイナミクスのグラフ強化マルチタスク学習

Graph-Enhanced Multi-Task Learning of Multi-Level Transition Dynamics for Session-based Recommendation ( http://arxiv.org/abs/2110.03996v1 )

ライセンス: Link先を確認
Chao Huang, Jiahui Chen, Lianghao Xia, Yong Xu, Peng Dai, Yanqing Chen, Liefeng Bo, Jiashu Zhao, Jimmy Xiangji Huang(参考訳) セッションベースのレコメンデーションは、eコマースからオンライン広告サービスまで、幅広いオンラインアプリケーションにおいて中心的な役割を果たす。 しかしながら、既存のセッションベースのレコメンデーション技術(注意に基づくリカレントネットワークやグラフニューラルネットワークなど)の大部分は、時間順および多レベル相互依存関係構造で示される複雑な遷移ダイナミクスを捉えるためにうまく設計されていない。 これらの手法はアイテム遷移パターンの関係階層をほとんど見落としている。 本稿では,マルチレベル遷移ダイナミクス(MTD)を用いたマルチタスク学習フレームワークを提案する。 そこで我々はまず,各セッションの項目遷移規則を学習するための位置認識型注意機構を開発する。 次に,グラフ構造を持つ階層的関係エンコーダを提案し,グローバルグラフコンテキストで埋め込み伝搬を行うことにより,クロスセッション項目の遷移を高次接続性の形で明示的に捉える。 セッション内およびセッション間遷移ダイナミクスの学習プロセスを統合することにより、共通潜伏空間における下位および上位項目の関係を維持する。 3つの実世界のデータセットに対する大規模な実験は、最先端のベースラインと比較してMTDの優位性を示している。

Session-based recommendation plays a central role in a wide spectrum of online applications, ranging from e-commerce to online advertising services. However, the majority of existing session-based recommendation techniques (e.g., attention-based recurrent network or graph neural network) are not well-designed for capturing the complex transition dynamics exhibited with temporally-ordered and multi-level inter-dependent relation structures. These methods largely overlook the relation hierarchy of item transitional patterns. In this paper, we propose a multi-task learning framework with Multi-level Transition Dynamics (MTD), which enables the jointly learning of intra- and inter-session item transition dynamics in automatic and hierarchical manner. Towards this end, we first develop a position-aware attention mechanism to learn item transitional regularities within individual session. Then, a graph-structured hierarchical relation encoder is proposed to explicitly capture the cross-session item transitions in the form of high-order connectivities by performing embedding propagation with the global graph context. The learning process of intra- and inter-session transition dynamics are integrated, to preserve the underlying low- and high-level item relationships in a common latent space. Extensive experiments on three real-world datasets demonstrate the superiority of MTD as compared to state-of-the-art baselines.
翻訳日:2021-10-11 15:20:32 公開日:2021-10-08
# (参考訳) viesum: トランスフォーマーベースのモデルはベトナムの要約にどの程度堅牢か? [全文訳有]

VieSum: How Robust Are Transformer-based Models on Vietnamese Summarization? ( http://arxiv.org/abs/2110.04257v1 )

ライセンス: CC BY 4.0
Hieu Nguyen, Long Phan, James Anibal, Alec Peltekian, Hieu Tran(参考訳) テキスト要約は、長い入力シーケンスからテキストを生成する自然言語処理において難しいタスクである。 この仕事は英語で広く研究されているが、ベトナム語のテキストの要約に関する研究は限られている。 本稿ではベトナムの抽象的要約のためのトランスフォーマーベースのエンコーダデコーダアーキテクチャの堅牢性について検討する。 トランスファー学習と自己教師あり学習の活用により,ベトナムの2つのデータセットにおける手法の性能を検証する。

Text summarization is a challenging task within natural language processing that involves text generation from lengthy input sequences. While this task has been widely studied in English, there is very limited research on summarization for Vietnamese text. In this paper, we investigate the robustness of transformer-based encoder-decoder architectures for Vietnamese abstractive summarization. Leveraging transfer learning and self-supervised learning, we validate the performance of the methods on two Vietnamese datasets.
翻訳日:2021-10-11 15:19:07 公開日:2021-10-08
# 言葉なしで物事をする方法:絵文字のセマンティックドリフトをモデル化する

How to Do Things without Words: Modeling Semantic Drift of Emoji ( http://arxiv.org/abs/2110.04093v1 )

ライセンス: Link先を確認
Eyal Arviv and Oren Tsur(参考訳) 絵文字は私たちの非公式なテキストコミュニケーションの重要な部分となっている。 絵文字の社会機能と言語機能に関する以前の研究は、シンボルの進化的な意味を見落としている。 この進化はセマンティックドリフトの枠組みを通じて対処することができる。 本稿では,絵文字の意味的ドリフトをモデル化・分析し,ドリフトに寄与する可能性のある機能,絵文字特有の機能,より一般的な機能について論じる。

Emoji have become a significant part of our informal textual communication. Previous work addressing the societal and linguistic functions of emoji overlook the evolving meaning of the symbol. This evolution could be addressed through the framework of semantic drifts. In this paper we model and analyze the semantic drift of emoji and discuss the features that may be contributing to the drift, some are unique to emoji and some are more general.
翻訳日:2021-10-11 15:10:40 公開日:2021-10-08
# 私が定義できないことは理解できない:教育駆動コンテンツ選択による自動質問生成

I Do Not Understand What I Cannot Define: Automatic Question Generation With Pedagogically-Driven Content Selection ( http://arxiv.org/abs/2110.04123v1 )

ライセンス: Link先を確認
Tim Steuer, Anna Filighera, Tobias Meuser and Christoph Rensing(参考訳) ほとんどの学習者は、受動的に教科書を読むときに深いテキスト理解を発達させることができない。 学習者が何を読んだかに関する質問は、テキスト理解を育むための確立された方法です。 しかし,テキスト作成には時間と費用がかかるため,自己評価質問を欠く教科書が多い。 自動質問生成装置はこの不足を緩和し、教育的な質問を生成する。 しかし、質問の生成は自動的に言語的および教育的課題をもたらす。 では、何を聞くべきか? では、どうやって自動的に質問を言い換えるのでしょう? 学習理論に基づく自動質問生成装置を用いて,これらの課題に対処する。 本稿では,任意の教科書内容の質問文や回答を見つけるための,教育学的に意味のあるコンテンツ選択機構を提案する。 6つの異なる領域に150個の質問を付記し,教育専門家による実証的評価を行った。 結果は,生成した質問の言語的品質が高いことを示している。 また,評価の結果から,生成した質問のほとんどが,与えられたテキストに関する中心的情報を求め,特定の学習シナリオにおける理解を深めることが示唆された。

Most learners fail to develop deep text comprehension when reading textbooks passively. Posing questions about what learners have read is a well-established way of fostering their text comprehension. However, many textbooks lack self-assessment questions because authoring them is timeconsuming and expensive. Automatic question generators may alleviate this scarcity by generating sound pedagogical questions. However, generating questions automatically poses linguistic and pedagogical challenges. What should we ask? And, how do we phrase the question automatically? We address those challenges with an automatic question generator grounded in learning theory. The paper introduces a novel pedagogically meaningful content selection mechanism to find question-worthy sentences and answers in arbitrary textbook contents. We conducted an empirical evaluation study with educational experts, annotating 150 generated questions in six different domains. Results indicate a high linguistic quality of the generated questions. Furthermore, the evaluation results imply that the majority of the generated questions inquire central information related to the given text and may foster text comprehension in specific learning scenarios.
翻訳日:2021-10-11 15:10:33 公開日:2021-10-08
# 英語中学生を対象としたトップ会議論文のタイトルを用いた抽出タイトル生成システムの開発

Development of an Extractive Title Generation System Using Titles of Papers of Top Conferences for Intermediate English Students ( http://arxiv.org/abs/2110.04204v1 )

ライセンス: Link先を確認
Kento Kaku, Masato Kikuchi, Tadachika Ozono, Toramatsu Shintani(参考訳) 英語における優れた学術論文のタイトルの定式化は、中級英語の著者(特に学生)にとって困難である。 これは、一般的に使われているタイトルの種類を意識していないためである。 中間英語と初心者向けのより効果的な英語タイトル作成支援システムの実現を目指している。 本研究では,抽象語から抽出したキーワードからタイトルを定式化する抽出タイトル生成システムを開発した。 また,紙タイトルの適切性を評価することができるタイトル評価モデルを実現する。 BERTを用いてトップ会議論文のタイトルでモデルをトレーニングする。 本稿では,トレーニングデータ,実装,実験結果について述べる。 その結果,評価モデルは,中間英語や初心者よりも上位カンファレンスのタイトルを効果的に識別できることがわかった。

The formulation of good academic paper titles in English is challenging for intermediate English authors (particularly students). This is because such authors are not aware of the type of titles that are generally in use. We aim to realize a support system for formulating more effective English titles for intermediate English and beginner authors. This study develops an extractive title generation system that formulates titles from keywords extracted from an abstract. Moreover, we realize a title evaluation model that can evaluate the appropriateness of paper titles. We train the model with titles of top-conference papers by using BERT. This paper describes the training data, implementation, and experimental results. The results show that our evaluation model can identify top-conference titles more effectively than intermediate English and beginner students.
翻訳日:2021-10-11 15:10:18 公開日:2021-10-08
# 戦いを選ぶ: 戦略的多様性のための人口レベルの目標としての対話グラフ

Pick Your Battles: Interaction Graphs as Population-Level Objectives for Strategic Diversity ( http://arxiv.org/abs/2110.04041v1 )

ライセンス: Link先を確認
Marta Garnelo, Wojciech Marian Czarnecki, Siqi Liu, Dhruva Tirumala, Junhyuk Oh, Gauthier Gidel, Hado van Hasselt, David Balduzzi(参考訳) 戦略の多様性はゲームにおいて不可欠であり、例えばマルチプレイヤーゲームでは、様々な戦略に対してプレイヤーを評価すると、そのパフォーマンスをより正確に見積もることができる。 さらに、非トランジティビティの多様性を持つゲームでは、プレイヤーはいくつかの勝利戦略をカバーできる。 しかし、戦略的な多様性の重要性にもかかわらず、多様な行動を示す訓練エージェントは依然として課題である。 本稿では,集団内の個人がどのように相互作用するかを慎重に構造化し,エージェントの多様な集団を構築する方法について検討する。 我々のアプローチは,エージェント間の情報の流れを制御し,エージェントがさまざまな戦略を専門化するように促す相互作用グラフに基づいており,全体的なパフォーマンスが向上する。 マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニングの軌跡,多様性,パフォーマンスに与える影響を分析する。 これは aamas で出版された long abstract の拡張版である。

Strategic diversity is often essential in games: in multi-player games, for example, evaluating a player against a diverse set of strategies will yield a more accurate estimate of its performance. Furthermore, in games with non-transitivities diversity allows a player to cover several winning strategies. However, despite the significance of strategic diversity, training agents that exhibit diverse behaviour remains a challenge. In this paper we study how to construct diverse populations of agents by carefully structuring how individuals within a population interact. Our approach is based on interaction graphs, which control the flow of information between agents during training and can encourage agents to specialise on different strategies, leading to improved overall performance. We provide evidence for the importance of diversity in multi-agent training and analyse the effect of applying different interaction graphs on the training trajectories, diversity and performance of populations in a range of games. This is an extended version of the long abstract published at AAMAS.
翻訳日:2021-10-11 15:09:48 公開日:2021-10-08
# 視覚深層ニューラルネットワークの自動アノテーション

Automatic annotation of visual deep neural networks ( http://arxiv.org/abs/2110.03851v1 )

ライセンス: Link先を確認
Ming Li, ChenHao Guo(参考訳) コンピュータビジョンは、人間の目の知覚イメージや多次元データをコンピュータを介して置き換える技術として、ドライバーレス、顔認識、および3d再構成の分野で広く使われている。 今日では、ディープニューラルネットワークの開発と応用により、コンピュータビジョンのために提案されるディープニューラルネットワークのモデルがますます多くなり、開発者はすでにトレーニング済みのモデルを使用して問題を解決し、モデルの使用を理解するために関連するドキュメントを参照する必要がある。 クラスモデルは、必要な関連するモデルを迅速かつ正確に見つける必要がある。 本稿では,モデルアプリケーションフィールドの自動ラベリングを実現するセマンティック解析などの自然言語処理技術に基づいて,視覚深度ニューラルネットワークの自動アノテーション手法を提案する。 コンピュータビジョンに関する3つの国際会議(ICCV,CVPR,ECCV)において,72論文の平均適用率は90%に達し,自動ラベリングシステムの有効性を示した。

Computer vision is widely used in the fields of driverless, face recognition and 3D reconstruction as a technology to help or replace human eye perception images or multidimensional data through computers. Nowadays, with the development and application of deep neural networks, the models of deep neural networks proposed for computer vision are becoming more and more abundant, and developers will use the already trained models on the way to solve problems, and need to consult the relevant documents to understand the use of the model. The class model, which creates the need to quickly and accurately find the relevant models that you need. The automatic annotation method of visual depth neural network proposed in this paper is based on natural language processing technology such as semantic analysis, which realizes automatic labeling of model application fields. In the three top international conferences on computer vision: ICCV, CVPR and ECCV, the average correct rate of application of the papers of 72 papers reached 90%, indicating the effectiveness of the automatic labeling system.
翻訳日:2021-10-11 15:08:07 公開日:2021-10-08
# メタラーニング3次元形状分割関数

Meta-Learning 3D Shape Segmentation Functions ( http://arxiv.org/abs/2110.03854v1 )

ライセンス: Link先を確認
Yu Hao, Yi Fang(参考訳) ディープニューラルネットワークを用いたロバストな3d形状セグメンテーション関数の学習は、強力なパラダイムとして登場し、各3d形状の一貫した部分セグメンテーションを生成する有望なパフォーマンスを提供する。 3次元形状分割関数を一般化するには、各関数空間上の事前のロバストな学習が必要であり、重要な3次元構造変化が存在する場合、形状の一貫した部分分割を可能にする。 既存の一般化法は、大規模ラベル付きデータセット上の3次元形状セグメンテーション関数の広範なトレーニングに依存している。 本稿では,3次元形状分割関数空間の学習をメタラーニング問題として定式化することを提案し,学習データのない新しい形状に素早く適応可能な3次元分割モデルを予測することを目的とした。 より具体的には、各タスクを3d空間の入力点として部品ラベルを予測する形状条件付き3dセグメンテーション関数の教師なし学習と定義する。 3Dセグメンテーション機能は、パートラベルを必要とせずに自己監督型3D形状復元損失によって訓練される。 また,3次元形状を入力とし,各3次元セグメンテーション関数空間上での事前予測を行うメタリーナーとして,補助深層ニューラルネットワークを導入する。 実験では,メタ3DSegと呼ばれるメタ学習手法が,従来の3次元形状分割関数のためのディープニューラルネットワークの設計よりも,教師なしの3次元形状分割を改善することを示す。

Learning robust 3D shape segmentation functions with deep neural networks has emerged as a powerful paradigm, offering promising performance in producing a consistent part segmentation of each 3D shape. Generalizing across 3D shape segmentation functions requires robust learning of priors over the respective function space and enables consistent part segmentation of shapes in presence of significant 3D structure variations. Existing generalization methods rely on extensive training of 3D shape segmentation functions on large-scale labeled datasets. In this paper, we proposed to formalize the learning of a 3D shape segmentation function space as a meta-learning problem, aiming to predict a 3D segmentation model that can be quickly adapted to new shapes with no or limited training data. More specifically, we define each task as unsupervised learning of shape-conditioned 3D segmentation function which takes as input points in 3D space and predicts the part-segment labels. The 3D segmentation function is trained by a self-supervised 3D shape reconstruction loss without the need for part labels. Also, we introduce an auxiliary deep neural network as a meta-learner which takes as input a 3D shape and predicts the prior over the respective 3D segmentation function space. We show in experiments that our meta-learning approach, denoted as Meta-3DSeg, leads to improvements on unsupervised 3D shape segmentation over the conventional designs of deep neural networks for 3D shape segmentation functions.
翻訳日:2021-10-11 15:07:52 公開日:2021-10-08
# 自動運転のためのLiDARデータを用いたカーブデータセット構築方法

How to Build a Curb Dataset with LiDAR Data for Autonomous Driving ( http://arxiv.org/abs/2110.03968v1 )

ライセンス: Link先を確認
Dongfeng Bai, Tongtong Cao, Jingming Guo and Bingbing Liu(参考訳) 縁石は都市と高速道路の交通環境の重要な要素の1つである。 ロバスト縁石検出は、自律運転システムにおける運動計画のための道路構造情報を提供する。 一般的に、ビデオカメラと3D LiDARは、検知を抑えるために自動運転車に搭載される。 しかし、カメラベースの方法は照明条件が困難である。 遠点雲を用いたDeep Neural Network (DNN) の広範適用までの長い期間において,LiDARをベースとしたストレッチ検出法は,複雑なシーンでは検出が不十分な手作りの特徴に基づいている。 近年,ラベル付きデータがないため,DNN手法による検出を抑える研究はほとんどないが,LiDARデータを用いた動的オブジェクト検出が盛んに行われている。 制限アノテーションや効率的な制限ラベル付けアプローチを備えたデータセットは、高い需要を抱えています。

Curbs are one of the essential elements of urban and highway traffic environments. Robust curb detection provides road structure information for motion planning in an autonomous driving system. Commonly, video cameras and 3D LiDARs are mounted on autonomous vehicles for curb detection. However, camera-based methods suffer from challenging illumination conditions. During the long period of time before wide application of Deep Neural Network (DNN) with point clouds, LiDAR-based curb detection methods are based on hand-crafted features, which suffer from poor detection in some complex scenes. Recently, DNN-based dynamic object detection using LiDAR data has become prevalent, while few works pay attention to curb detection with a DNN approach due to lack of labeled data. A dataset with curb annotations or an efficient curb labeling approach, hence, is of high demand...
翻訳日:2021-10-11 15:07:26 公開日:2021-10-08
# マルチプロキシアンカー損失と深層学習性能指標の有効性

Multi Proxy Anchor Loss and Effectiveness of Deep Metric Learning Performance Metrics ( http://arxiv.org/abs/2110.03997v1 )

ライセンス: Link先を確認
Shozo Saeki, Minoru Kawahara, and Hirohisa Aman(参考訳) ディープメトリック学習(dml)はマッピングを学習し、類似したデータが近く、類似したデータが遠くにある埋め込み空間にマップする。 ほとんどのDMLフレームワークは特徴ベクトルにL2正規化を適用しており、これらの特徴ベクトルはスパースではない。 本稿では,L1正規化損失を特徴ベクトルに適用することを提案する。 提案された正規化は重要な特徴を強調し、L2正規化機能では重要でない特徴を抑える。 L1正則化は特徴ベクトルのみを正則化するため、一般的なDML損失と組み合わせることができる。 本稿では,SparseSoftTriple LosとL1正規化を組み合わせたSparseSoftTriple Losを提案する。 本稿では,SparseSoftTripleの損失が画像検索タスクやきめ細かい画像のデータセットに与える影響を実証する。

Deep metric learning (DML) learns the mapping, which maps into embedding space in which similar data is near and dissimilar data is far. Most DML frameworks apply L2 normalization to feature vectors, and these feature vectors are non-sparse. In this paper, we propose to apply L1 regularization loss to feature vectors. Proposed regularization emphasizes important features and restraints unimportant features on L2 normalized features. L1 regularization can combine with general DML losses because L1 regularization only regularizes feature vectors. In this paper, we finally propose SparseSoftTriple loss, which is a combination of SoftTriple loss and L1 regularization. We demonstrate the effectiveness of the proposed SparseSoftTriple loss on some data sets for image retrieval tasks and fine-grained images.
翻訳日:2021-10-11 15:07:13 公開日:2021-10-08
# trident pyramid networks: 優れたオブジェクト検出のための機能ピラミッドレベルでの処理の重要性

Trident Pyramid Networks: The importance of processing at the feature pyramid level for better object detection ( http://arxiv.org/abs/2110.04004v1 )

ライセンス: Link先を確認
C\'edric Picron, Tinne Tuytelaars(参考訳) 特徴ピラミッドは、オブジェクト検出などのマルチスケールコンピュータビジョンタスクにおいてユビキタスになっている。 その重要性に基づいて、コンピュータビジョンネットワークを3つの部分に分割する。バックボーン(フィーチャーピラミッドを生成する)、コア(フィーチャーピラミッドを改良)、ヘッド(最終的なアウトプットを生成する)である。 コアと呼ばれる機能ピラミッドで運用されている既存のネットワークのほとんどは浅く、トップダウンとボトムアップという形で通信ベースの処理に重点を置いている。 本稿では,Trident Pyramid Network (TPN) と呼ばれる新しいコアアーキテクチャを提案する。 我々は,COCOオブジェクト検出ベンチマークでTPNコアを使用することで,人気の高いBiFPNベースラインを1.5 APで上回り,一貫した改善を示す。 さらに、我々のResNet-50+TPNネットワークで1.7 APでResNet-101+FPNベースラインを上回り、同様の計算予算の下で運用することで、TPNコアにさらなる計算を加える方が有益であることを実証的に示す。 これは、現代のオブジェクト検出システムにおいて、特徴ピラミッドレベルで計算を実行することの重要性を強調している。 コードはリリースされる。

Feature pyramids have become ubiquitous in multi-scale computer vision tasks such as object detection. Based on their importance, we divide a computer vision network into three parts: a backbone (generating a feature pyramid), a core (refining the feature pyramid) and a head (generating the final output). Most existing networks operating on feature pyramids, named cores, are shallow and mostly focus on communication-based processing in the form of top-down and bottom-up operations. We present a new core architecture called Trident Pyramid Network (TPN), that allows for a deeper design and for a better balance between communication-based processing and self-processing. We show consistent improvements when using our TPN core on the COCO object detection benchmark, outperforming the popular BiFPN baseline by 1.5 AP. Additionally, we empirically show that it is more beneficial to put additional computation into the TPN core, rather than into the backbone, by outperforming a ResNet-101+FPN baseline with our ResNet-50+TPN network by 1.7 AP, while operating under similar computation budgets. This emphasizes the importance of performing computation at the feature pyramid level in modern-day object detection systems. Code will be released.
翻訳日:2021-10-11 15:07:00 公開日:2021-10-08
# 変圧器を用いた終端から終端までトレーニング可能なビデオパノプティカルセグメンテーション法

An End-to-End Trainable Video Panoptic Segmentation Method usingTransformers ( http://arxiv.org/abs/2110.04009v1 )

ライセンス: Link先を確認
Jeongwon Ryu, Kwangjin Yoon(参考訳) 本稿では,新たな研究分野であるビデオパノミックセグメンテーション問題に対処するアルゴリズムを提案する。 video panoptic segmentationは、panoptic segmentationとmulti-object trackingの典型的なタスクを統合するタスクである。 言い換えれば、ビデオシーケンスにまたがる汎視的セグメンテーションの結果とともに、インスタンス追跡IDを生成する必要がある。 提案するビデオパノプティクス分割アルゴリズムはトランスフォーマーを用いて,複数のビデオフレームを入力してエンドツーエンドでトレーニングすることができる。 提案手法をSTEPデータセット上でテストし,その性能を最近提案したSTQメトリックで報告する。 この方法は、KITTI-STEPデータセットで57.81\%、MOTChallenge-STEPデータセットで31.8\%をアーカイブした。

In this paper, we present an algorithm to tackle a video panoptic segmentation problem, a newly emerging area of research. The video panoptic segmentation is a task that unifies the typical task of panoptic segmentation and multi-object tracking. In other words, it requires generating the instance tracking IDs along with panoptic segmentation results across video sequences. Our proposed video panoptic segmentation algorithm uses the transformer and it can be trained in end-to-end with an input of multiple video frames. We test our method on the STEP dataset and report its performance with recently proposed STQ metric. The method archived 57.81\% on the KITTI-STEP dataset and 31.8\% on the MOTChallenge-STEP dataset.
翻訳日:2021-10-11 15:06:37 公開日:2021-10-08
# スケーラブルバンドル調整のための多方向共役勾配

Multidirectional Conjugate Gradients for Scalable Bundle Adjustment ( http://arxiv.org/abs/2110.04015v1 )

ライセンス: Link先を確認
Simon Weber, Nikolaus Demmel, Daniel Cremers(参考訳) 大規模バンドル調整の問題を再検討し、正規方程式の解を最大61%高速化する多方向共役勾配と呼ばれる手法を提案する。 鍵となるアイデアは、古典的条件付き共役勾配の探索空間を拡大し、複数の探索方向を含むことである。 結果として、結果のアルゴリズムはイテレーションを少なくする必要があり、特に従来のアプローチが苦戦する高密度な問題に対して、大規模な再構築の大幅な高速化につながる。 問題密度の関数としてのハイパーパラメータとスピードアップの変動に対するロバスト性を明らかにする実験的なアブレーション研究を多数提供している。

We revisit the problem of large-scale bundle adjustment and propose a technique called Multidirectional Conjugate Gradients that accelerates the solution of the normal equation by up to 61%. The key idea is that we enlarge the search space of classical preconditioned conjugate gradients to include multiple search directions. As a consequence, the resulting algorithm requires fewer iterations, leading to a significant speedup of large-scale reconstruction, in particular for denser problems where traditional approaches notoriously struggle. We provide a number of experimental ablation studies revealing the robustness to variations in the hyper-parameters and the speedup as a function of problem density.
翻訳日:2021-10-11 15:06:23 公開日:2021-10-08
# UniNet: 畳み込み、トランスフォーマー、MLPを備えた統一アーキテクチャ検索

UniNet: Unified Architecture Search with Convolution, Transformer, and MLP ( http://arxiv.org/abs/2110.04035v1 )

ライセンス: Link先を確認
Jihao Liu and Hongsheng Li and Guanglu Song and Xin Huang and Yu Liu(参考訳) 近年,変圧器と多層パーセプトロン (MLP) アーキテクチャは様々な視覚タスクにおいて印象的な成果を上げている。 いくつかの研究は、これらの演算子を手動で組み合わせて視覚ネットワークアーキテクチャを設計し、ある程度の良好な性能を達成することができる。 本稿では,コンボリューション,トランスフォーマー,MLPの最適組み合わせを協調して探索し,視覚的タスクに高い性能を持つ全演算型ネットワークアーキテクチャを構築することを提案する。 我々は,運用者が結合してネットワークを形成すると,ダウンサンプリングモジュールが性能ボトルネックとなることを実証的に確認する。 トランスフォーマーとmlpオペレータが捉えたグローバルコンテキストをよりよく扱うために,トランスフォーマーとmlpオペレータによって符号化されたグローバル情報に適応可能な2つの新しいコンテキストアウェアダウンサンプリングモジュールを提案する。 この目的のために,全演算子とダウンサンプリングモジュールを統一検索空間で共同で探索する。 特に、検索ネットワークUniNet(Unified Network)は、複数の公開ビジュアルベンチマーク、イメージネット分類、COCOオブジェクト検出、ADE20Kセマンティックセマンティックセグメンテーションにおいて、最先端の純粋な畳み込みベースのアーキテクチャ、EfficientNet、純粋なトランスフォーマーベースのアーキテクチャ、Swin-Transformerより優れています。

Recently, transformer and multi-layer perceptron (MLP) architectures have achieved impressive results on various vision tasks. A few works investigated manually combining those operators to design visual network architectures, and can achieve satisfactory performances to some extent. In this paper, we propose to jointly search the optimal combination of convolution, transformer, and MLP for building a series of all-operator network architectures with high performances on visual tasks. We empirically identify that the widely-used strided convolution or pooling based down-sampling modules become the performance bottlenecks when the operators are combined to form a network. To better tackle the global context captured by the transformer and MLP operators, we propose two novel context-aware down-sampling modules, which can better adapt to the global information encoded by transformer and MLP operators. To this end, we jointly search all operators and down-sampling modules in a unified search space. Notably, Our searched network UniNet (Unified Network) outperforms state-of-the-art pure convolution-based architecture, EfficientNet, and pure transformer-based architecture, Swin-Transformer, on multiple public visual benchmarks, ImageNet classification, COCO object detection, and ADE20K semantic segmentation.
翻訳日:2021-10-11 15:05:20 公開日:2021-10-08
# Context-LGM:コンテキスト認識のためのオブジェクトコンテキスト関係の活用

Context-LGM: Leveraging Object-Context Relation for Context-Aware Object Recognition ( http://arxiv.org/abs/2110.04042v1 )

ライセンス: Link先を確認
Mingzhou Liu, Xinwei Sun, Fandong Zhang, Yizhou Yu, Yizhou Wang(参考訳) 関心の対象に関連する状況要因と呼ばれる文脈は、視覚認識において対象の状態や特性を推測するのに役立ちます。 このようなコンテキスト機能はアノテートするには多様すぎる(クロスインスタンス)ため、既存の試みは単にイメージラベルを監視として活用して学習し、機能ピラミッドやコンテキストの注意など、さまざまなコンテキスト上のトリックを生み出している。 しかし、コンテキストの特性、特にオブジェクトとの関係を慎重にモデル化しなければ、その推定されたコンテキストは大きな不正確さに悩まされる。 この問題を解決するために,オブジェクト・コンテキスト関係を階層的にモデル化するコンテキスト潜在生成モデル(Contextual Latent Generative Model,Context-LGM)を提案する。 具体的には、まず2つの相関変数を持つ潜在生成モデルを導入し、オブジェクトとコンテキストをそれぞれモデル化し、生成プロセスを介してそれらの相関を埋め込む。 そして、文脈特徴を推測するために、変数自動エンコーダ(VAE)の目的関数を再構成し、対象物に条件付き後続分布としてコンテキスト特徴を学習する。 最後に、このコンテキスト後部を実装するために、オブジェクトの情報を参照として取り出し、相関したコンテキスト要因を特定するトランスフォーマーを導入する。 本手法の有効性は,肺がんの予測と感情認識という2つのコンテキスト認識オブジェクト認識タスクにおける最先端の性能によって検証される。

Context, as referred to situational factors related to the object of interest, can help infer the object's states or properties in visual recognition. As such contextual features are too diverse (across instances) to be annotated, existing attempts simply exploit image labels as supervision to learn them, resulting in various contextual tricks, such as features pyramid, context attention, etc. However, without carefully modeling the context's properties, especially its relation to the object, their estimated context can suffer from large inaccuracy. To amend this problem, we propose a novel Contextual Latent Generative Model (Context-LGM), which considers the object-context relation and models it in a hierarchical manner. Specifically, we firstly introduce a latent generative model with a pair of correlated latent variables to respectively model the object and context, and embed their correlation via the generative process. Then, to infer contextual features, we reformulate the objective function of Variational Auto-Encoder (VAE), where contextual features are learned as a posterior distribution conditioned on the object. Finally, to implement this contextual posterior, we introduce a Transformer that takes the object's information as a reference and locates correlated contextual factors. The effectiveness of our method is verified by state-of-the-art performance on two context-aware object recognition tasks, i.e. lung cancer prediction and emotion recognition.
翻訳日:2021-10-11 15:04:52 公開日:2021-10-08
# ポイントクラウドニューラルネットワークにおける説明可能性を考慮した一点攻撃

Explainability-Aware One Point Attack for Point Cloud Neural Networks ( http://arxiv.org/abs/2110.04158v1 )

ライセンス: Link先を確認
Hanxiao Tan and Helena Kotthaus(参考訳) 点雲のためのニューラルネットワークの提案により、深層学習は3Dオブジェクト認識の分野で輝き始め、研究者たちは、点雲ネットワークの信頼性を摂動インスタンスで騙すことで調査する関心が高まっている。 しかしながら、ほとんどの研究は、人間は敵の例に摂動を認識せず、知覚できないか表面の一貫性に焦点をあてている。 本研究は2つの新しい攻撃手法を提案する: Opa と cta は逆方向を向いている:我々は、可視的摂動の大きさによってモデルの動作原理や決定境界を理解できるようにする説明可能性法を用いて、摂動次元を人間の認識可能な範囲に制限する。 この結果から,入力インスタンスから1点だけをシフトすることで,一般的なクラウドネットワークを100%の成功率で騙すことができることがわかった。 さらに,敵攻撃に対するポイントクラウドモデルのロバスト性を比較することで,より説得力のある視点を提供する。 また,異なる点帰属分布が点クラウドネットワークの対角的ロバスト性に与える影響についても考察した。 最後に、我々のアプローチがポイントクラウドネットワークにおける説明可能性研究をどのように促進するかについて論じる。 私たちの知る限りでは、説明可能性に関する最初のポイントクラウドベースの敵対的アプローチです。 私たちのコードはhttps://github.com/E xplain3D/Exp-One-Poi nt-Atk-PCで利用可能です。

With the proposition of neural networks for point clouds, deep learning has started to shine in the field of 3D object recognition while researchers have shown an increased interest to investigate the reliability of point cloud networks by fooling them with perturbed instances. However, most studies focus on the imperceptibility or surface consistency, with humans perceiving no perturbations on the adversarial examples. This work proposes two new attack methods: opa and cta, which go in the opposite direction: we restrict the perturbation dimensions to a human cognizable range with the help of explainability methods, which enables the working principle or decision boundary of the models to be comprehensible through the observable perturbation magnitude. Our results show that the popular point cloud networks can be deceived with almost 100% success rate by shifting only one point from the input instance. In addition, we attempt to provide a more persuasive viewpoint of comparing the robustness of point cloud models against adversarial attacks. We also show the interesting impact of different point attribution distributions on the adversarial robustness of point cloud networks. Finally, we discuss how our approaches facilitate the explainability study for point cloud networks. To the best of our knowledge, this is the first point-cloud-based adversarial approach concerning explainability. Our code is available at https://github.com/E xplain3D/Exp-One-Poi nt-Atk-PC.
翻訳日:2021-10-11 15:04:27 公開日:2021-10-08
# インタラクティブ衛星画像変化検出のためのアクティブラーニング

Active learning for interactive satellite image change detection ( http://arxiv.org/abs/2110.04250v1 )

ライセンス: Link先を確認
Hichem Sahbi and Sebastien Deschamps and Andrei Stoian(参考訳) 本稿では,衛星画像変化検出のための新しい能動学習アルゴリズムを提案する。 提案手法は対話的であり,提案手法は,サンプル衛星画像の関連性に関する最も情報に富んだ質問をオラクル(アノテータ)に依頼する質問・回答モデルに基づいており,その回答に従って,決定関数を反復的に更新する。 本稿では,サンプルが関係する確率をモデル化する新しい枠組みについて検討する。この確率は,表現性,多様性,曖昧さを捉える目的関数を最小化することによって得られる。 これらの基準に従って高い確率のデータのみが選択され、さらにアノテーションとしてオラクルに表示される。 自然災害(竜巻)後の衛星画像変化検出の課題に関する広範囲な実験により,提案手法の関連課題に対する妥当性が示された。

We introduce in this paper a novel active learning algorithm for satellite image change detection. The proposed solution is interactive and based on a question and answer model, which asks an oracle (annotator) the most informative questions about the relevance of sampled satellite image pairs, and according to the oracle's responses, updates a decision function iteratively. We investigate a novel framework which models the probability that samples are relevant; this probability is obtained by minimizing an objective function capturing representativity, diversity and ambiguity. Only data with a high probability according to these criteria are selected and displayed to the oracle for further annotation. Extensive experiments on the task of satellite image change detection after natural hazards (namely tornadoes) show the relevance of the proposed method against the related work.
翻訳日:2021-10-11 15:04:06 公開日:2021-10-08
# Googleのランドマーク検索2021年の第2位

2nd Place Solution to Google Landmark Retrieval 2021 ( http://arxiv.org/abs/2110.04294v1 )

ライセンス: Link先を確認
Zhang Yuqi, Xu Xianzhe, Chen Weihua, Wang Yaohua, Zhang Fangyi, Wang Fan, Li Hao(参考訳) 本稿では,Google Landmark Retrieval 2021 Competition on Kaggleに関する2番目のソリューションを提案する。 本手法は, 個人の再識別によるトレーニングトリックをベースラインとして, 国別タグによるトレーニング画像を選択するための大陸対応サンプリング戦略を提示し, 検索タスクにランドマーク・カウンタリーを意識したリランクを提案する。 これらの貢献により、プライベートリーダーボードで0.52995 mAP@100を達成する。 https://github.com/W esleyZhang1991/Googl e_Landmark_Retrieval _2021_2nd_Place_Solu tionで利用可能なコード

This paper presents the 2nd place solution to the Google Landmark Retrieval 2021 Competition on Kaggle. The solution is based on a baseline with training tricks from person re-identification, a continent-aware sampling strategy is presented to select training images according to their country tags and a Landmark-Country aware reranking is proposed for the retrieval task. With these contributions, we achieve 0.52995 mAP@100 on private leaderboard. Code available at https://github.com/W esleyZhang1991/Googl e_Landmark_Retrieval _2021_2nd_Place_Solu tion
翻訳日:2021-10-11 15:03:53 公開日:2021-10-08
# 入力長項目:RNN-TとMWERによる長距離音声認識の実証的研究

Input Length Matters: An Empirical Study Of RNN-T And MWER Training For Long-form Telephony Speech Recognition ( http://arxiv.org/abs/2110.03841v1 )

ライセンス: Link先を確認
Zhiyun Lu, Yanwei Pan, Thibault Doutre, Liangliang Cao, Rohit Prabhavalkar, Chao Zhang, Trevor Strohman(参考訳) エンドツーエンドモデルは、いくつかの自動音声認識タスクにおいて最先端の結果を得た。 しかし、例えば、分長の会話型電話音声など、長文データで評価すると、性能は低下する。 このモデルが長文音声に失敗する理由の1つは、訓練中に短い発話しか見なかったことである。 本稿では,RNN-Transducer(RNN- T)モデルの単語誤り率(WER)に及ぼす発話長の訓練効果に関する実証的研究を行う。 ログ損失(RNN-T損失)と最小単語誤り率(MWER損失)の2つのトレーニング目標を比較した。 4つの言語で電話データセットの実験を行う。 実験の結果, 長文音声におけるwrは, 学習発話長の増加に伴って大幅に減少することがわかった。 平均相対的なWER利得は、ログ損失が15.7%、MWER損失が8.8%である。 短い発話のトレーニングでは、MWER損失はログ損失よりも低いWERにつながる。 この2つの損失の差は、入力長が増加すると減少する。

End-to-end models have achieved state-of-the-art results on several automatic speech recognition tasks. However, they perform poorly when evaluated on long-form data, e.g., minutes long conversational telephony audio. One reason the model fails on long-form speech is that it has only seen short utterances during training. This paper presents an empirical study on the effect of training utterance length on the word error rate (WER) for RNN-transducer (RNN-T) model. We compare two widely used training objectives, log loss (or RNN-T loss) and minimum word error rate (MWER) loss. We conduct experiments on telephony datasets in four languages. Our experiments show that for both losses, the WER on long-form speech reduces substantially as the training utterance length increases. The average relative WER gain is 15.7% for log loss and 8.8% for MWER loss. When training on short utterances, MWER loss leads to a lower WER than the log loss. Such difference between the two losses diminishes when the input length increases.
翻訳日:2021-10-11 15:03:42 公開日:2021-10-08
# CTCと多言語サブワードユニットを用いた階層型条件付き終端ASR

Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular Subword Units ( http://arxiv.org/abs/2110.04109v1 )

ライセンス: Link先を確認
Yosuke Higuchi, Keita Karube, Tetsuji Ogawa, Tetsunori Kobayashi(参考訳) エンドツーエンドの自動音声認識(ASR)では、単語レベルのシーケンスを認識するのに適した表現を暗黙的に学習することが期待される。 しかし、入力音響信号と出力言語トークンの間の大きな抽象的ギャップは、モデルが表現を学習することを困難にしている。 本稿では,エンドツーエンドasrにおける単語レベルの表現学習を促進するために,コネクショニスト時間分類(ctc)に基づく階層型条件モデルを提案する。 我々のモデルは中間層に適用された補助的なCTC損失により訓練され、各サブワード列の語彙サイズは、単語レベルの出力に近づくにつれて徐々に増大する。 ここでは、各列の予測レベルを、下層で予測された前の列に明示的に条件付けする。 提案手法では,言語構造の階層構造を利用して,単語レベルの表現を効果的に学習することが期待できる。 LibriSpeech-{100h, 960h} と TEDLium2 の実験結果から,提案モデルが標準 CTC モデルおよび他の競合モデルよりも先行作業により改善されることが示されている。 さらに,本モデルを用いた表現学習の有効性を確認するために,結果を解析した。

In end-to-end automatic speech recognition (ASR), a model is expected to implicitly learn representations suitable for recognizing a word-level sequence. However, the huge abstraction gap between input acoustic signals and output linguistic tokens makes it challenging for a model to learn the representations. In this work, to promote the word-level representation learning in end-to-end ASR, we propose a hierarchical conditional model that is based on connectionist temporal classification (CTC). Our model is trained by auxiliary CTC losses applied to intermediate layers, where the vocabulary size of each target subword sequence is gradually increased as the layer becomes close to the word-level output. Here, we make each level of sequence prediction explicitly conditioned on the previous sequences predicted at lower levels. With the proposed approach, we expect the proposed model to learn the word-level representations effectively by exploiting a hierarchy of linguistic structures. Experimental results on LibriSpeech-{100h, 960h} and TEDLIUM2 demonstrate that the proposed model improves over a standard CTC-based model and other competitive models from prior work. We further analyze the results to confirm the effectiveness of the intended representation learning with our model.
翻訳日:2021-10-11 15:03:26 公開日:2021-10-08
# (参考訳) lambeq: 量子NLPのための効率的な高レベルPythonライブラリ [全文訳有]

lambeq: An Efficient High-Level Python Library for Quantum NLP ( http://arxiv.org/abs/2110.04236v1 )

ライセンス: CC BY 4.0
Dimitri Kartsaklis, Ian Fan, Richie Yeung, Anna Pearson, Robin Lorenz, Alexis Toumi, Giovanni de Felice, Konstantinos Meichanetzidis, Stephen Clark, Bob Coecke(参考訳) 我々は,量子自然言語処理(QNLP)のための最初のハイレベルPythonライブラリであるlambeqを紹介する。 オープンソースのツールキットは、文を文字列ダイアグラム、テンソルネットワーク、量子コンピュータで使える量子回路に変換するパイプラインのすべてのステージを実装するモジュールとクラスの詳細な階層を提供する。 lambeqは、文字列ダイアグラムの構文解析、書き直し、単純化、ansatzの作成と操作、そして様々な構文の感度を利用して、文章の量子フレンドリーな表現を作成するための多くの合成モデルをサポートしている。 ジェネリックアーキテクチャを示し、最も重要なモジュールを詳細に記述し、図示的な例で使用例を示す。 さらに,単純なnlpタスクに対して多くの実験を行い,古典的パイプラインと量子パイプラインの両方を実装してツールキットを実際にテストする。

We present lambeq, the first high-level Python library for Quantum Natural Language Processing (QNLP). The open-source toolkit offers a detailed hierarchy of modules and classes implementing all stages of a pipeline for converting sentences to string diagrams, tensor networks, and quantum circuits ready to be used on a quantum computer. lambeq supports syntactic parsing, rewriting and simplification of string diagrams, ansatz creation and manipulation, as well as a number of compositional models for preparing quantum-friendly representations of sentences, employing various degrees of syntax sensitivity. We present the generic architecture and describe the most important modules in detail, demonstrating the usage with illustrative examples. Further, we test the toolkit in practice by using it to perform a number of experiments on simple NLP tasks, implementing both classical and quantum pipelines.
翻訳日:2021-10-11 15:01:50 公開日:2021-10-08
# ヒューマンレベル映像理解インテリジェンスを目指して

Toward a Human-Level Video Understanding Intelligence ( http://arxiv.org/abs/2110.04203v1 )

ライセンス: Link先を確認
Yu-Jung Heo, Minsu Lee, Seongho Choi, Woo Suk Choi, Minjung Shin, Minjoon Jung, Jeh-Kwang Ryu, and Byoung-Tak Zhang(参考訳) 我々は、ビデオクリップを視聴し、ビデオストーリーについて人間と会話できるAIエージェントの開発を目指している。 映像理解インテリジェンスの開発は極めて困難な課題であり、AIエージェントの進捗を適切に測定し分析するための評価方法も欠落している。 本稿では,映像理解知能の効果的かつ実用的な評価と,AIエージェントの人間類似性評価を行うためのビデオチューリングテストを提案する。 本稿では,ビデオチューリングテストの一般的な形式と手順を定義し,提案試験の有効性と有用性を確認するケーススタディを提案する。

We aim to develop an AI agent that can watch video clips and have a conversation with human about the video story. Developing video understanding intelligence is a significantly challenging task, and evaluation methods for adequately measuring and analyzing the progress of AI agent are lacking as well. In this paper, we propose the Video Turing Test to provide effective and practical assessments of video understanding intelligence as well as human-likeness evaluation of AI agents. We define a general format and procedure of the Video Turing Test and present a case study to confirm the effectiveness and usefulness of the proposed test.
翻訳日:2021-10-11 14:43:01 公開日:2021-10-08
# 決定木を用いたエンドツーエンド音声認識の注意機構の説明

Explaining the Attention Mechanism of End-to-End Speech Recognition Using Decision Trees ( http://arxiv.org/abs/2110.03879v1 )

ライセンス: Link先を確認
Yuanchao Wang, Wenji Du, Chenghao Cai, Yanyan Xu(参考訳) 注意機構はエンドツーエンド音声認識システムの性能を大幅に改善した。 しかし、注意の基盤となる行動は、まだ明確ではない。 本研究では,注意機構が音声認識に与える影響を説明するために決定木を用いた。 その結果、注意レベルはエンコーダパターンやデコーダパターンよりも前の状態の影響が大きいことがわかった。 さらに、デフォルトのアテンションメカニズムは、より近い状態に重みを付けるように見えるが、アテンションステートの長期依存をモデル化するには不向きである。

The attention mechanism has largely improved the performance of end-to-end speech recognition systems. However, the underlying behaviours of attention is not yet clearer. In this study, we use decision trees to explain how the attention mechanism impact itself in speech recognition. The results indicate that attention levels are largely impacted by their previous states rather than the encoder and decoder patterns. Additionally, the default attention mechanism seems to put more weights on closer states, but behaves poorly on modelling long-term dependencies of attention states.
翻訳日:2021-10-11 14:42:52 公開日:2021-10-08
# 効率的学習のためのasrモデルにおける不均一な層特性の探索

Exploring Heterogeneous Characteristics of Layers in ASR Models for More Efficient Training ( http://arxiv.org/abs/2110.04267v1 )

ライセンス: Link先を確認
Lillian Zhou, Dhruv Guliani, Andreas Kabel, Giovanni Motta, Fran\c{c}oise Beaufays(参考訳) トランスフォーマーベースのアーキテクチャは、その過度なパラメータ化とレイヤの非均一な重要性を理解することを目的とした研究の対象となっている。 これらのアプローチを自動音声認識に適用し,最先端のコンフォーメータモデルが一般に複数の環境層を有することを示す。 ランとモデルサイズにまたがるこれらの層の安定性について検討し、群正規化をその形成を乱すことなく使用することを提案し、各層におけるモデル重みの更新とそれらの相関について検討する。 最後に,これらの知見をフェデレーション学習に適用して,レイヤへのフェデレーションドロップアウトを重要視することで,トレーニング手順を改善する。 これにより、品質劣化なしにクライアントによって最適化されたモデルサイズを削減でき、将来の探索の可能性を示します。

Transformer-based architectures have been the subject of research aimed at understanding their overparameterization and the non-uniform importance of their layers. Applying these approaches to Automatic Speech Recognition, we demonstrate that the state-of-the-art Conformer models generally have multiple ambient layers. We study the stability of these layers across runs and model sizes, propose that group normalization may be used without disrupting their formation, and examine their correlation with model weight updates in each layer. Finally, we apply these findings to Federated Learning in order to improve the training procedure, by targeting Federated Dropout to layers by importance. This allows us to reduce the model size optimized by clients without quality degradation, and shows potential for future exploration.
翻訳日:2021-10-11 14:42:42 公開日:2021-10-08
# 構造的・機能的性質を持つソースコードのコントラスト学習

Contrastive Learning for Source Code with Structural and Functional Properties ( http://arxiv.org/abs/2110.03868v1 )

ライセンス: Link先を確認
Yangruibo Ding, Luca Buratti, Saurabh Pujar, Alessandro Morari, Baishakhi Ray, Saikat Chakraborty(参考訳) 事前訓練されたトランスフォーマーモデルは、最近ソースコードを理解することを約束している。 既存の作業の多くは、テキスト機能やコードの構造的知識の制限からコードを理解することを期待しています。 しかし、プログラム機能は、構造情報であってもコードシーケンスによって完全には明らかにできないことがある。 プログラムは、同じ機能を共有しながら、全く異なるトークンと構造を含むことができるが、1つまたは少数のコードトークンだけを変更するだけで、予期せぬ、悪意のあるプログラムの振る舞いを導入でき、構文とほとんどのトークンを保存することができる。 本稿では,ソースコードの特徴に基づく事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。 まず最初に、原文と大きく異なる機能的に等価なコードを生成する自動構造誘導型コード変換アルゴリズムと、原文と機能的に異なる機能的に非常に類似したコードを生成する(ii)。 私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法でモデルをトレーニングします。 構造情報をエンコードするために,モデルが構造的文脈について学習するのに役立つ新しいノード型マスキング言語モデルを提案する。 最先端モデルよりもはるかに小さなデータセットでboostを事前トレーニングしていますが、私たちの小さなモデルは、コード理解や生成タスクにおいて、これらの大きなモデルにマッチしたり、上回ったりできます。

Pre-trained transformer models have recently shown promises for understanding the source code. Most existing works expect to understand code from the textual features and limited structural knowledge of code. However, the program functionalities sometimes cannot be fully revealed by the code sequence, even with structure information. Programs can contain very different tokens and structures while sharing the same functionality, but changing only one or a few code tokens can introduce unexpected or malicious program behaviors while preserving the syntax and most tokens. In this work, we present BOOST, a novel self-supervised model to focus pre-training based on the characteristics of source code. We first employ automated, structure-guided code transformation algorithms that generate (i.) functionally equivalent code that looks drastically different from the original one, and (ii.) textually and syntactically very similar code that is functionally distinct from the original. We train our model in a way that brings the functionally equivalent code closer and distinct code further through a contrastive learning objective. To encode the structure information, we introduce a new node-type masked language model objective that helps the model learn about structural context. We pre-train BOOST with a much smaller dataset than the state-of-the-art models, but our small models can still match or outperform these large models in code understanding and generation tasks.
翻訳日:2021-10-11 14:42:02 公開日:2021-10-08
# 階層型グラフニューラルネットワークを用いたグローバルコンテキスト強化ソーシャルリコメンデーション

Global Context Enhanced Social Recommendation with Hierarchical Graph Neural Networks ( http://arxiv.org/abs/2110.04039v1 )

ライセンス: Link先を確認
Huance Xu, Chao Huang, Yong Xu, Lianghao Xia, Hao Xing, Dawei Yin(参考訳) ソーシャルレコメンデーション(social recommendation)は、ユーザー間のソーシャルなつながりを利用してレコメンデーションのパフォーマンスを高めることを目的とする。 ディープラーニング技術の復活に伴い、アテンションメカニズムやグラフベースのメッセージパッシングフレームワークなど、さまざまなニューラルネットワークベースのソーシャルレコメンデーションシステムの開発に多くの努力が注がれている。 しかし、2つの重要な課題はまだ解決されていない。 (i)既存のソーシャルレコメンデーションモデルのほとんどは、相互関係の相互依存だけでなく、マルチタイプのユーザ・イテムのインタラクティブな振る舞いを十分に探求することができない。 (ii) 学習したソーシャルステートベクターは、ペアワイズなユーザ依存をモデル化できるが、ユーザ間のグローバルなソーシャルコンテキストをキャプチャする能力は限られている。 これらの制約に対処するため,階層型グラフニューラルネットワーク(SR-HGNN)を用いた新しいソーシャルレコメンデーションフレームワークを提案する。 特に,リコメンデーションフレームワークにクロスタイプ協調セマンティクスを注入するために,リレーショナルアウェアなグラフニューラルネットワークをまず設計した。 さらに,低レベルユーザ埋め込みと高レベルグローバル表現の相互情報学習パラダイムに基づく社会関係エンコーダによるSR-HGNNをさらに強化し,グローバルな社会的文脈信号をキャプチャする機能を備えたSR-HGNNを提案する。 3つの公開ベンチマークの結果、sr-hgnnは最先端の推奨手法を大きく上回っている。 ソースコードはhttps://github.com/x hcdream/sr-hgnn。

Social recommendation which aims to leverage social connections among users to enhance the recommendation performance. With the revival of deep learning techniques, many efforts have been devoted to developing various neural network-based social recommender systems, such as attention mechanisms and graph-based message passing frameworks. However, two important challenges have not been well addressed yet: (i) Most of existing social recommendation models fail to fully explore the multi-type user-item interactive behavior as well as the underlying cross-relational inter-dependencies. (ii) While the learned social state vector is able to model pair-wise user dependencies, it still has limited representation capacity in capturing the global social context across users. To tackle these limitations, we propose a new Social Recommendation framework with Hierarchical Graph Neural Networks (SR-HGNN). In particular, we first design a relation-aware reconstructed graph neural network to inject the cross-type collaborative semantics into the recommendation framework. In addition, we further augment SR-HGNN with a social relation encoder based on the mutual information learning paradigm between low-level user embeddings and high-level global representation, which endows SR-HGNN with the capability of capturing the global social contextual signals. Empirical results on three public benchmarks demonstrate that SR-HGNN significantly outperforms state-of-the-art recommendation methods. Source codes are available at: https://github.com/x hcdream/SR-HGNN.
翻訳日:2021-10-11 14:41:38 公開日:2021-10-08
# IIoTセンサの最小構成異常検出

Minimal-Configuratio n Anomaly Detection for IIoT Sensors ( http://arxiv.org/abs/2110.04049v1 )

ライセンス: Link先を確認
Clemens Heistracher, Anahid Jalali, Axel Suendermann, Sebastian Meixner, Daniel Schall, Bernhard Haslhofer, Jana Kemnitz(参考訳) 低コストのIoTセンサプラットフォームを業界に展開するにつれ、構成の最小化と機器間の転送容易性という2つの重要な要件を満たす、異常検出ソリューションの需要が高まっている。 近年のディープラーニング,特に長期記憶(LSTM)とオートエンコーダの進歩は,センサデータ記録の異常を検出するための有望な方法を提供している。 そこで我々は,各種動作条件下での耐震ポンプの動作と,手動による異常の誘発により生成した,単純なベンチマークデータセットを用いて,ディープニューラルネットワーク(DNN),LSTM,畳み込みニューラルネットワーク(CNN)などの各種アーキテクチャと比較した。 予備実験の結果から,単一モデルでは4次元データセット上で様々な動作条件下での異常を,操作条件毎に特定の特徴工学を使わずに検出できることがわかった。 本研究は,多種多様な産業機器に適用可能な汎用的異常検出法に向けた第一歩であると考えている。

The increasing deployment of low-cost IoT sensor platforms in industry boosts the demand for anomaly detection solutions that fulfill two key requirements: minimal configuration effort and easy transferability across equipment. Recent advances in deep learning, especially long-short-term memory (LSTM) and autoencoders, offer promising methods for detecting anomalies in sensor data recordings. We compared autoencoders with various architectures such as deep neural networks (DNN), LSTMs and convolutional neural networks (CNN) using a simple benchmark dataset, which we generated by operating a peristaltic pump under various operating conditions and inducing anomalies manually. Our preliminary results indicate that a single model can detect anomalies under various operating conditions on a four-dimensional data set without any specific feature engineering for each operating condition. We consider this work as being the first step towards a generic anomaly detection method, which is applicable for a wide range of industrial equipment.
翻訳日:2021-10-11 14:41:15 公開日:2021-10-08
# ビッグデータのための連合学習: 機会・応用・今後の方向性に関する調査

Federated Learning for Big Data: A Survey on Opportunities, Applications, and Future Directions ( http://arxiv.org/abs/2110.04160v1 )

ライセンス: Link先を確認
Thippa Reddy Gadekallu, Quoc-Viet Pham, Thien Huynh-The, Sweta Bhattacharya, Praveen Kumar Reddy Maddikunta, and Madhusanka Liyanage(参考訳) ビッグデータはここ数年で著しく進化し、新たに登場したサービスやアプリケーションから生成される膨大な量のデータと、膨大な数のIoTデバイスを実現している。 ビッグデータのポテンシャルは、分析と学習のテクニックによって実現され、さまざまなソースからのデータを中央のクラウドに移して、中央のストレージ、処理、トレーニングを行う。 しかし、この手法は個人情報、政府、銀行口座などの機密データを含む可能性があるため、データのプライバシーの観点から重要な問題に直面している。 この課題を克服するために、連合学習(FL)は有望な学習技術であるように見える。 しかし、ビッグデータサービスやアプリケーションに関するFLに関する総合的な調査はまだ行われていないという文献にはギャップがある。 本稿では、ビッグデータサービスおよびアプリケーションにおけるFLの利用に関する調査を行い、FLの概要、ビッグデータ、およびビッグデータにおけるFLの使用の背景にあるモチベーションを一般読者に提供することを目的とする。 特に、ビッグデータ取得、ビッグデータストレージ、ビッグデータ分析、ビッグデータプライバシ保護など、主要なビッグデータサービスにおけるFLの使用について、広範囲にわたってレビューしています。 続いて、スマートシティ、スマートヘルスケア、スマートトランスポート、スマートグリッド、ソーシャルメディアなど、ビッグデータアプリケーションにおけるFLの可能性についてレビューする。 さらに、fl-big dataに関する重要なプロジェクトをいくつかまとめ、この興味深いトピックの重要な課題と、有望なソリューションと方向性について論じる。

Big data has remarkably evolved over the last few years to realize an enormous volume of data generated from newly emerging services and applications and a massive number of Internet-of-Things (IoT) devices. The potential of big data can be realized via analytic and learning techniques, in which the data from various sources is transferred to a central cloud for central storage, processing, and training. However, this conventional approach faces critical issues in terms of data privacy as the data may include sensitive data such as personal information, governments, banking accounts. To overcome this challenge, federated learning (FL) appeared to be a promising learning technique. However, a gap exists in the literature that a comprehensive survey on FL for big data services and applications is yet to be conducted. In this article, we present a survey on the use of FL for big data services and applications, aiming to provide general readers with an overview of FL, big data, and the motivations behind the use of FL for big data. In particular, we extensively review the use of FL for key big data services, including big data acquisition, big data storage, big data analytics, and big data privacy preservation. Subsequently, we review the potential of FL for big data applications, such as smart city, smart healthcare, smart transportation, smart grid, and social media. Further, we summarize a number of important projects on FL-big data and discuss key challenges of this interesting topic along with several promising solutions and directions.
翻訳日:2021-10-11 14:39:06 公開日:2021-10-08
# Mixability made efficient: Fast online multiclass logistic regression

Mixability made efficient: Fast online multiclass logistic regression ( http://arxiv.org/abs/2110.03960v1 )

ライセンス: Link先を確認
R\'emi J\'ez\'equel (SIERRA), Pierre Gaillard (Thoth), Alessandro Rudi (SIERRA)(参考訳) 混合性は最適な後悔を伴うアルゴリズムを得るための強力なツールであることが示されている。 しかし、結果として得られる手法は、しばしば計算の複雑さに悩まされ、実用性は低下した。 例えば、多重クラスロジスティック回帰の場合、集約予測器(Foster et al. (2018))は$O(\log(Bn))$の後悔を達成するが、Online Newton Stepは$O(e^B\log(n))$の2倍指数的ゲインを得る(比較関数のノルムに縛られる)。 しかし、この高い統計性能は、禁止的な計算複雑性$O(n^{37})$の価格である。

Mixability has been shown to be a powerful tool to obtain algorithms with optimal regret. However, the resulting methods often suffer from high computational complexity which has reduced their practical applicability. For example, in the case of multiclass logistic regression, the aggregating forecaster (Foster et al. (2018)) achieves a regret of $O(\log(Bn))$ whereas Online Newton Step achieves $O(e^B\log(n))$ obtaining a double exponential gain in $B$ (a bound on the norm of comparative functions). However, this high statistical performance is at the price of a prohibitive computational complexity $O(n^{37})$.
翻訳日:2021-10-11 14:38:42 公開日:2021-10-08
# 多数のプレイヤーがサンプル効率のよい汎用的なマルコフゲームをいつ学べるのか?

When Can We Learn General-Sum Markov Games with a Large Number of Players Sample-Efficiently? ( http://arxiv.org/abs/2110.04184v1 )

ライセンス: Link先を確認
Ziang Song, Song Mei, Yu Bai(参考訳) マルチエージェント強化学習は,多数のプレーヤによるゲーム解決において,実証的な進歩を遂げている。 しかし理論的には、一般的なサムゲームでナッシュ均衡を見つけるための最もよく知られたサンプル複雑性は、ジョイントアクション空間の大きさによってプレイヤーの数に指数関数的にスケールし、一致する指数的下界が存在する。 本稿では,$m$-player general-sum Markov game with $H$ steps, $S$ states, $A_i$ action の設定において,学習目標がより複雑なサンプルを許容するかどうかを検討する。 まず、$\widetilde{\mathcal{O}}(H^5S\max_{i\le m} A_i / \epsilon^2)$と$\epsilon$-Correlate d Equilibrium(CE)$\wid etilde{\mathcal{O}}(H^6S\max_{i\le m} A_i^2 / \epsilon^2)$を学習するためのアルゴリズムを設計する。 これは CCE と CE を$\max_{i\le m} A_i$ の複素数多項式で学習する最初の行である。 CE学習アルゴリズムは, 重み付けされたスワップ後悔を最小限に抑える逆行包帯サブルーチンと, 外ループにおけるいくつかの新しいデザインを統合した。 第二に、マルコフポテンシャルゲームの重要な特別な場合を検討し、$\widetilde{\mathcal{o}}(s\sum_{i\le m} a_i / \epsilon^3)$エピソード($s$, $a_i$, $\epsilon$のみに依存する場合)内で、$\epsilon$-approxima te nash平衡を学習するアルゴリズムを設計する。 全体として、ゲーム上の平衡や構造的仮定は、多くのプレイヤーによるサンプル効率の学習を可能にする可能性がある。

Multi-agent reinforcement learning has made substantial empirical progresses in solving games with a large number of players. However, theoretically, the best known sample complexity for finding a Nash equilibrium in general-sum games scales exponentially in the number of players due to the size of the joint action space, and there is a matching exponential lower bound. This paper investigates what learning goals admit better sample complexities in the setting of $m$-player general-sum Markov games with $H$ steps, $S$ states, and $A_i$ actions per player. First, we design algorithms for learning an $\epsilon$-Coarse Correlated Equilibrium (CCE) in $\widetilde{\mathcal{O}}(H^5S\max_{i\le m} A_i / \epsilon^2)$ episodes, and an $\epsilon$-Correlate d Equilibrium (CE) in $\widetilde{\mathcal{O}}(H^6S\max_{i\le m} A_i^2 / \epsilon^2)$ episodes. This is the first line of results for learning CCE and CE with sample complexities polynomial in $\max_{i\le m} A_i$. Our algorithm for learning CE integrates an adversarial bandit subroutine which minimizes a weighted swap regret, along with several novel designs in the outer loop. Second, we consider the important special case of Markov Potential Games, and design an algorithm that learns an $\epsilon$-approxima te Nash equilibrium within $\widetilde{\mathcal{O}}(S\sum_{i\le m} A_i / \epsilon^3)$ episodes (when only highlighting the dependence on $S$, $A_i$, and $\epsilon$), which only depends linearly in $\sum_{i\le m} A_i$ and significantly improves over the best known algorithm in the $\epsilon$ dependence. Overall, our results shed light on what equilibria or structural assumptions on the game may enable sample-efficient learning with many players.
翻訳日:2021-10-11 14:38:18 公開日:2021-10-08
# 逆再プログラムに基づく低リソース音声コマンド認識の検討

A Study of Low-Resource Speech Commands Recognition based on Adversarial Reprogramming ( http://arxiv.org/abs/2110.03894v1 )

ライセンス: Link先を確認
Hao Yen, Pin-Jui Ku, Chao-Han Huck Yang, Hu Hu, Sabato Marco Siniscalchi, Pin-Yu Chen, Yu Tsao(参考訳) 本研究では,低リソース音声コマンド認識(SCR)のための新しいAR手法を提案し,AR-SCRシステムを構築する。 ARプロシージャは(ターゲットドメインから)音響信号を修正して(ソースドメインから)事前訓練されたSCRモデルを再利用することを目的としている。 ソースドメインとターゲットドメインのラベルミスマッチを解消し、arの安定性をさらに高めるため、クラスをアライメントするための新しい類似性に基づくラベルマッピング手法を提案する。 さらに、トランスファーラーニング(TL)技術と元のARプロセスを組み合わせることで、モデル適応性を向上させる。 提案したAR-SCRシステムは,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。 実験結果から、大規模な英語データセットで事前訓練されたAMを用いて、提案したAR-SCRシステムは、アラビア語およびリトアニア語の音声コマンドデータセット上で、限られた訓練データのみを用いて、現在の最先端の結果を上回ります。

In this study, we propose a novel adversarial reprogramming (AR) approach for low-resource spoken command recognition (SCR), and build an AR-SCR system. The AR procedure aims to modify the acoustic signals (from the target domain) to repurpose a pretrained SCR model (from the source domain). To solve the label mismatches between source and target domains, and further improve the stability of AR, we propose a novel similarity-based label mapping technique to align classes. In addition, the transfer learning (TL) technique is combined with the original AR process to improve the model adaptation capability. We evaluate the proposed AR-SCR system on three low-resource SCR datasets, including Arabic, Lithuanian, and dysarthric Mandarin speech. Experimental results show that with a pretrained AM trained on a large-scale English dataset, the proposed AR-SCR system outperforms the current state-of-the-art results on Arabic and Lithuanian speech commands datasets, with only a limited amount of training data.
翻訳日:2021-10-11 14:35:31 公開日:2021-10-08
# 初値オークションにおける平均学習アルゴリズムのnash収束

Nash Convergence of Mean-Based Learning Algorithms in First Price Auctions ( http://arxiv.org/abs/2110.03906v1 )

ライセンス: Link先を確認
Xiaotie Deng, Xinyan Hu, Tao Lin, Weiqiang Zheng(参考訳) 我々は,決定論的型を持つ入札者が平均学習アルゴリズムを用いて入札を学習する,価格オークションを繰り返し検討する。 1) 入札ダイナミクスのnash収束特性を,(1) 時間平均: 入札者が限界で1に近づくラウンドの分数,(2) 最終文: 入札者の混合戦略プロファイルが限界におけるnash平衡に近づく,という2つの感覚で完全に特徴づける。 具体的には、最も高い値の入札者数に依存する: - 数値が少なくとも3である場合、入札ダイナミクスは、時間平均とラストイテレートの両方において、オークションのnash平衡にほぼ確実に収束する。 - 数値が 2 であれば、入札力学はほぼ確実に時間平均のナッシュ平衡に収束するが、必ずしも最終点に収束しない。 -数を1とした場合、入札ダイナミクスは時間平均でもラスト・イテレートでもナッシュ平衡に収束しない。 我々の発見は、学習アルゴリズムの収束力学の研究における新たな可能性を開く。

We consider repeated first price auctions where each bidder, having a deterministic type, learns to bid using a mean-based learning algorithm. We completely characterize the Nash convergence property of the bidding dynamics in two senses: (1) time-average: the fraction of rounds where bidders play a Nash equilibrium approaches to 1 in the limit; (2) last-iterate: the mixed strategy profile of bidders approaches to a Nash equilibrium in the limit. Specifically, the results depend on the number of bidders with the highest value: - If the number is at least three, the bidding dynamics almost surely converges to a Nash equilibrium of the auction, both in time-average and in last-iterate. - If the number is two, the bidding dynamics almost surely converges to a Nash equilibrium in time-average but not necessarily in last-iterate. - If the number is one, the bidding dynamics may not converge to a Nash equilibrium in time-average nor in last-iterate. Our discovery opens up new possibilities in the study of convergence dynamics of learning algorithms.
翻訳日:2021-10-11 14:35:11 公開日:2021-10-08
# ジェネレイティブネットワークを用いたワイヤタップチャネル上のプライバシアウェア通信

Privacy-Aware Communication Over the Wiretap Channel with Generative Networks ( http://arxiv.org/abs/2110.04094v1 )

ライセンス: Link先を確認
Ecenaz Erdemir, Pier Luigi Dragotti, Deniz Gunduz(参考訳) エンド・ツー・エンド・ラーニング(end-to-end learning)を用いて,盗聴チャネル上でのプライバシー対応通信について検討した。 アリスは二元対称チャネル上でボブにソース信号を送信したいが、パッシブ・イーヴは、その過剰な信号に基づいてアリスのソースの繊細な特性を推測しようとする。 通常、真の分布にアクセスできないため、可変オートエンコーダ(VAE)ベースのジョイントソースチャネル符号化(JSCC)を用いたデータ駆動方式を提案する。 色付きMNISTデータセットを用いたシミュレーションにより,本手法は受信機に高い再現性を与えるとともに,文字の色と厚さからなる潜時感度特性について,盗聴器を混乱させる。 最後に,パラレルチャネルのシナリオを考察し,盗聴者のノイズレベルが高いチャネルが機密情報を持ち,非機密情報がより脆弱なチャネルを介して送信されるように情報伝達を配置する手法を示す。

We study privacy-aware communication over a wiretap channel using end-to-end learning. Alice wants to transmit a source signal to Bob over a binary symmetric channel, while passive eavesdropper Eve tries to infer some sensitive attribute of Alice's source based on its overheard signal. Since we usually do not have access to true distributions, we propose a data-driven approach using variational autoencoder (VAE)-based joint source channel coding (JSCC). We show through simulations with the colored MNIST dataset that our approach provides high reconstruction quality at the receiver while confusing the eavesdropper about the latent sensitive attribute, which consists of the color and thickness of the digits. Finally, we consider a parallel-channel scenario, and show that our approach arranges the information transmission such that the channels with higher noise levels at the eavesdropper carry the sensitive information, while the non-sensitive information is transmitted over more vulnerable channels.
翻訳日:2021-10-11 14:34:52 公開日:2021-10-08
# (参考訳) 分類用画像ミキシング拡大K像の観察 [全文訳有]

Observations on K-image Expansion of Image-Mixing Augmentation for Classification ( http://arxiv.org/abs/2110.04248v1 )

ライセンス: CC BY 4.0
Joonhyun Jeong, Sungmin Cha, Youngjoon Yoo, Sangdoo Yun, Taesup Moon, and Jongwon Choi(参考訳) イメージミキシング強化(MixupやCutMixなど)は通常2つのイメージを混合するが、画像分類のためのデファクトトレーニングトリックとなっている。 画像分類で大きな成功を収めたにもかかわらず、ミックスする画像の数は以前の作品では深く調査されておらず、単純なk画像拡張を示すだけでは性能が低下しない。 本論文は, ディリクレ前処理に基づく新しいK-image混合増量法を導出する。 本手法は,従来の2画像法よりも,分類精度,損失ランドスケープの形状,対向ロバスト性などの広範な実験と解析により,より堅牢で一般化された分類器を訓練できることを示す。 さらに,本モデルではサンプル単位の不確かさを計測でき,検索時間の7倍削減したネットワークアーキテクチャ探索 (nas) の効率を向上できることを示す。

Image-mixing augmentations (e.g., Mixup or CutMix), which typically mix two images, have become de-facto training tricks for image classification. Despite their huge success on image classification, the number of images to mix has not been profoundly investigated by the previous works, only showing the naive K-image expansion leads to poor performance degradation. This paper derives a new K-image mixing augmentation based on the stick-breaking process under Dirichlet prior. We show that our method can train more robust and generalized classifiers through extensive experiments and analysis on classification accuracy, a shape of a loss landscape and adversarial robustness, than the usual two-image methods. Furthermore, we show that our probabilistic model can measure the sample-wise uncertainty and can boost the efficiency for Network Architecture Search (NAS) with 7x reduced search time.
翻訳日:2021-10-11 14:32:34 公開日:2021-10-08
# 予後と健康管理におけるデータ駆動モデルのためのビッグデータ前処理手法

Big Machinery Data Preprocessing Methodology for Data-Driven Models in Prognostics and Health Management ( http://arxiv.org/abs/2110.04256v1 )

ライセンス: Link先を確認
Sergio Cofre-Martel, Enrique Lopez Droguett, Mohammad Modarres(参考訳) センサ監視ネットワークとビッグデータ分析の進歩は、信頼性エンジニアリングの展望を、ビッグデータデータの新たな時代へと導いてきた。 低コストのセンサーはモノのインターネットと産業の4.0の進化と共に、予後と健康管理(PHM)フレームワークを通して分析できる豊富なデータベースを生み出した。 いくつかのda-ta-driven model (DDM) が提案され、複雑なシステムにおける診断と予後のために応用されている。 しかし、これらのモデルの多くはシミュレーションや実験的なデータセットを使って開発されており、実際のオペレーティングシステムにおけるアプリケーションには依然として知識ギャップがある。 さらに、これらのDDMのトレーニングプロセスと比較して、必要なデータ前処理ステップにはほとんど注意が払われていない。 これまでの研究は、PHMアプリケーションのための形式的で一貫したデータ前処理ガイドラインに従っていない。 本稿では,DDMを対象とした複雑なシステムからの監視データを前処理するための,包括的でステップバイステップのパイプラインを提案する。 専門家の知識の重要性は、データ選択とラベル生成の文脈で議論される。 検証のために2つのケーススタディが提示され、最終目標は、健全で不健全なラベルでクリーンなデータセットを作成し、機械の健康状態分類器を訓練することである。

Sensor monitoring networks and advances in big data analytics have guided the reliability engineering landscape to a new era of big machinery data. Low-cost sensors, along with the evolution of the internet of things and industry 4.0, have resulted in rich databases that can be analyzed through prognostics and health management (PHM) frameworks. Several da-ta-driven models (DDMs) have been proposed and applied for diagnostics and prognostics purposes in complex systems. However, many of these models are developed using simulated or experimental data sets, and there is still a knowledge gap for applications in real operating systems. Furthermore, little attention has been given to the required data preprocessing steps compared to the training processes of these DDMs. Up to date, research works do not follow a formal and consistent data preprocessing guideline for PHM applications. This paper presents a comprehensive, step-by-step pipeline for the preprocessing of monitoring data from complex systems aimed for DDMs. The importance of expert knowledge is discussed in the context of data selection and label generation. Two case studies are presented for validation, with the end goal of creating clean data sets with healthy and unhealthy labels that are then used to train machinery health state classifiers.
翻訳日:2021-10-11 14:15:08 公開日:2021-10-08
# MCドロップアウト・ベイジアンか?

Is MC Dropout Bayesian? ( http://arxiv.org/abs/2110.04286v1 )

ライセンス: Link先を確認
Loic Le Folgoc and Vasileios Baltatzis and Sujal Desai and Anand Devaraj and Sam Ellis and Octavio E. Martinez Manzanera and Arjun Nair and Huaqi Qiu and Julia Schnabel and Ben Glocker(参考訳) MC Dropoutは、ベイズ近似計算(ABC)の医療画像における主流の「無料ランチ」手法である。 その魅力は、ABCの退屈なタスクとニューラルネットワーク(NN)の不確かさの定量化を解決し、変動推論(VI)フレームワークに該当し、高度にマルチモーダルで忠実な予測後部を提案することである。 我々はmcドロップアウトの性質を近似推論に疑問視し、実際、mcドロップアウトはベイズモデルを変化させる;その予測後段は閉形式ベンチマークの真のモデルに0$の確率を割り当てる;その予測後段のマルチモーダリティは真の予測後段の性質ではなく、設計上のアーティファクトである。 任意のモデルでのVIの必要性に対処するため、pytorchフレームワーク内の一般的なVIエンジンを共有します。 コードには、構造化(対角+低ランク)多変量正規変分族とその混合体を慎重に設計した実装が含まれている。 これは、平均場 VI の欠点に、表現性と計算複雑性の間の調整可能なトレードオフで対処するゴーツーノーランチアプローチとして意図されている。

MC Dropout is a mainstream "free lunch" method in medical imaging for approximate Bayesian computations (ABC). Its appeal is to solve out-of-the-box the daunting task of ABC and uncertainty quantification in Neural Networks (NNs); to fall within the variational inference (VI) framework; and to propose a highly multimodal, faithful predictive posterior. We question the properties of MC Dropout for approximate inference, as in fact MC Dropout changes the Bayesian model; its predictive posterior assigns $0$ probability to the true model on closed-form benchmarks; the multimodality of its predictive posterior is not a property of the true predictive posterior but a design artefact. To address the need for VI on arbitrary models, we share a generic VI engine within the pytorch framework. The code includes a carefully designed implementation of structured (diagonal plus low-rank) multivariate normal variational families, and mixtures thereof. It is intended as a go-to no-free-lunch approach, addressing shortcomings of mean-field VI with an adjustable trade-off between expressivity and computational complexity.
翻訳日:2021-10-11 14:14:50 公開日:2021-10-08
# タスク適応型損失関数を持つメタラーニングによるFew-Shot学習

Meta-Learning with Task-Adaptive Loss Function for Few-Shot Learning ( http://arxiv.org/abs/2110.03909v1 )

ライセンス: Link先を確認
Sungyong Baik, Janghoon Choi, Heewon Kim, Dohee Cho, Jaesik Min, Kyoung Mu Lee(参考訳) 少数の学習シナリオにおいて、課題は、各タスクにラベル付きサンプルがほとんどない場合に、新しい未知の例を一般化し、うまく実行することです。 モデルに依存しないメタラーニング(MAML)は、様々な問題に対する柔軟性と適用性において代表的な数発の学習方法の1つである。 しかしながら、mamlとその変種は、補助的損失関数や正規化項を伴わない単純な損失関数に頼り、より良い一般化を達成するのに役立つ。 問題は、各アプリケーションとタスクが異なる補助的損失関数を必要とすることであり、特にタスクが多様で異なる場合である。 各アプリケーションとタスクに対して補助的損失関数を手作業で設計する代わりに、各タスクに適応する損失関数を備えた新しいメタ学習フレームワークを導入する。 提案するMeta-Learning with Task-Adaptive Loss Function (MeTAL) は,少数ショット分類や少数ショット回帰など,さまざまな領域における有効性と柔軟性を示すフレームワークである。

In few-shot learning scenarios, the challenge is to generalize and perform well on new unseen examples when only very few labeled examples are available for each task. Model-agnostic meta-learning (MAML) has gained the popularity as one of the representative few-shot learning methods for its flexibility and applicability to diverse problems. However, MAML and its variants often resort to a simple loss function without any auxiliary loss function or regularization terms that can help achieve better generalization. The problem lies in that each application and task may require different auxiliary loss function, especially when tasks are diverse and distinct. Instead of attempting to hand-design an auxiliary loss function for each application and task, we introduce a new meta-learning framework with a loss function that adapts to each task. Our proposed framework, named Meta-Learning with Task-Adaptive Loss Function (MeTAL), demonstrates the effectiveness and the flexibility across various domains, such as few-shot classification and few-shot regression.
翻訳日:2021-10-11 14:13:29 公開日:2021-10-08
# ViDT: 完全変圧器を用いたオブジェクト検出器

ViDT: An Efficient and Effective Fully Transformer-based Object Detector ( http://arxiv.org/abs/2110.03921v1 )

ライセンス: Link先を確認
Hwanjun Song, Deqing Sun, Sanghyuk Chun, Varun Jampani, Dongyoon Han, Byeongho Heo, Wonjae Kim, Ming-Hsuan Yang(参考訳) トランスフォーマーは、特に認識タスクにおいて、コンピュータビジョンのランドスケープを変えつつある。 検出トランスフォーマーは物体検出のための最初のエンドツーエンド学習システムであり、視覚トランスフォーマーは画像分類のための最初の完全トランスフォーマーベースのアーキテクチャである。 本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。 vidtは再構成されたアテンションモジュールを導入して、最近のswainトランスをスタンドアロンオブジェクト検出器に拡張し、さらにマルチスケール機能や補助技術を活用した計算効率の高いトランスフォーマデコーダを導入し、計算負荷を大きく増加させることなく検出性能を向上させる。 Microsoft COCOベンチマークデータセットの大規模な評価結果は、ViDTが既存の完全トランスフォーマーベースのオブジェクト検出器の中で最高のAPとレイテンシのトレードオフを取得し、大規模モデルのスケーラビリティのために49.2APを達成したことを示している。 コードとトレーニングされたモデルをhttps://github.com/n aver-ai/vidtでリリースします。

Transformers are transforming the landscape of computer vision, especially for recognition tasks. Detection transformers are the first fully end-to-end learning systems for object detection, while vision transformers are the first fully transformer-based architecture for image classification. In this paper, we integrate Vision and Detection Transformers (ViDT) to build an effective and efficient object detector. ViDT introduces a reconfigured attention module to extend the recent Swin Transformer to be a standalone object detector, followed by a computationally efficient transformer decoder that exploits multi-scale features and auxiliary techniques essential to boost the detection performance without much increase in computational load. Extensive evaluation results on the Microsoft COCO benchmark dataset demonstrate that ViDT obtains the best AP and latency trade-off among existing fully transformer-based object detectors, and achieves 49.2AP owing to its high scalability for large models. We will release the code and trained models athttps://github.com /naver-ai/vidt
翻訳日:2021-10-11 14:11:53 公開日:2021-10-08
# 分布マッチングによるデータセットの凝縮

Dataset Condensation with Distribution Matching ( http://arxiv.org/abs/2110.04181v1 )

ライセンス: Link先を確認
Bo Zhao, Hakan Bilen(参考訳) 多くの学習問題において最先端の深層モデルを訓練するための計算コストは、より洗練されたモデルとより大きなデータセットのために急速に増大している。 トレーニング時間を短縮するための最近の有望な方向は、元の大規模トレーニングセットを、情報を保持しながら、はるかに小さな学習合成セットに置き換えることを目的としたデータセットの凝縮である。 小集合の凝縮した画像の深部モデルを訓練するのは極めて高速であるが、複雑な二段階最適化と二階微分計算のため、その合成は計算コストがかかる。 本研究では, サンプル埋め込み空間における合成画像とオリジナル画像の特徴分布を一致させることにより, トレーニングコストと同等の性能のトレーニングコストを著しく低減する, 簡便で効果的なデータセット凝縮手法を提案する。 その効率性のおかげで、よりリアルで高度なニューラルネットワークアーキテクチャを持つデータセットに適用し、より大規模な合成トレーニングセットを用いて、大幅なパフォーマンス向上を実現します。 また,連続学習とニューラルアーキテクチャ探索において,本手法の様々な実用的メリットを示す。

Computational cost to train state-of-the-art deep models in many learning problems is rapidly increasing due to more sophisticated models and larger datasets. A recent promising direction to reduce training time is dataset condensation that aims to replace the original large training set with a significantly smaller learned synthetic set while preserving its information. While training deep models on the small set of condensed images can be extremely fast, their synthesis remains computationally expensive due to the complex bi-level optimization and second-order derivative computation. In this work, we propose a simple yet effective dataset condensation technique that requires significantly lower training cost with comparable performance by matching feature distributions of the synthetic and original training images in sampled embedding spaces. Thanks to its efficiency, we apply our method to more realistic and larger datasets with sophisticated neural architectures and achieve a significant performance boost while using larger synthetic training set. We also show various practical benefits of our method in continual learning and neural architecture search.
翻訳日:2021-10-11 14:11:08 公開日:2021-10-08
# ソースフリードメイン適応のための固有近傍構造の爆発

Exploiting the Intrinsic Neighborhood Structure for Source-free Domain Adaptation ( http://arxiv.org/abs/2110.04202v1 )

ライセンス: Link先を確認
Shiqi Yang, Yaxing Wang, Joost van de Weijer, Luis Herranz, Shangling Jui(参考訳) ドメイン適応(da)は、ソースドメインとターゲットドメインの間のドメインシフトを緩和することを目的としている。 ほとんどのdaメソッドはソースデータにアクセスする必要があるが、しばしばそれは不可能である(データプライバシや知的財産など)。 本稿では、ソースデータがない場合に、ソース事前学習したモデルを対象領域に適応させる問題である、ソースフリードメイン適応(sfda)問題に対処する。 この方法は、もはやソースドメイン分類器と一致しない可能性のあるターゲットデータがまだ明確なクラスタを形成するという観測に基づいています。 対象データの局所親和性を定義し,局所親和性の高いデータ間のラベル一貫性を促進することで,この本質的な構造を捉える。 我々は, 相互に隣接した隣人に高い親和性が与えられ, また, 雑音の大きい隣人の負の影響を減少させる自己正則化損失を提案する。 さらに,より文脈的な情報を集約するために,アフィニティ値の少ない周辺地域について検討する。 実験の結果,対象特徴の固有構造がドメイン適応のための重要な情報源であることを検証した。 本研究では, この地域構造を, 地域住民, 相互隣人, 及び拡張近所を考慮し, 効率的に把握できることを実証する。 最後に,複数の2次元画像と3次元ポイントクラウド認識データセットに対して,最先端の性能を実現する。 コードはhttps://github.com/A lbert0147/SFDA_neigh borsで入手できる。

Domain adaptation (DA) aims to alleviate the domain shift between source domain and target domain. Most DA methods require access to the source data, but often that is not possible (e.g. due to data privacy or intellectual property). In this paper, we address the challenging source-free domain adaptation (SFDA) problem, where the source pretrained model is adapted to the target domain in the absence of source data. Our method is based on the observation that target data, which might no longer align with the source domain classifier, still forms clear clusters. We capture this intrinsic structure by defining local affinity of the target data, and encourage label consistency among data with high local affinity. We observe that higher affinity should be assigned to reciprocal neighbors, and propose a self regularization loss to decrease the negative impact of noisy neighbors. Furthermore, to aggregate information with more context, we consider expanded neighborhoods with small affinity values. In the experimental results we verify that the inherent structure of the target features is an important source of information for domain adaptation. We demonstrate that this local structure can be efficiently captured by considering the local neighbors, the reciprocal neighbors, and the expanded neighborhood. Finally, we achieve state-of-the-art performance on several 2D image and 3D point cloud recognition datasets. Code is available in https://github.com/A lbert0147/SFDA_neigh bors.
翻訳日:2021-10-11 14:10:52 公開日:2021-10-08
# lcs: 推論時の適応的ネットワーク圧縮のための圧縮可能な部分空間の学習

LCS: Learning Compressible Subspaces for Adaptive Network Compression at Inference Time ( http://arxiv.org/abs/2110.04252v1 )

ライセンス: Link先を確認
Elvis Nunez, Maxwell Horton, Anish Prabhu, Anurag Ranjan, Ali Farhadi, Mohammad Rastegari(参考訳) デバイスにディープラーニングモデルをデプロイする場合、従来、利用可能な計算リソース(計算量、メモリ、電力)は静的なままだと仮定される。 しかし、現実世界のコンピューティングシステムは、常に安定したリソース保証を提供するわけではない。 他のプロセスからの負荷が高い場合やバッテリ電力が低い場合、計算リソースを保存する必要がある。 ニューラルネットワークのサブスペースに関する最近の研究に触発されて、高効率から高精度までのモデルのきめ細かいスペクトルを含むニューラルネットワークの「圧縮可能なサブスペース」を訓練する手法を提案する。 私たちのモデルは再トレーニングを必要とせず、モデルサブスペースをデバイス上で完全にデプロイして、推論時に適応的なネットワーク圧縮を可能にします。 本稿では,構造的および非構造的スパーシティの推測時に任意にきめ細かい精度・効率のトレードオフを達成するための結果を示す。 我々は、非圧縮モデルをテストする場合、標準モデルとほぼ同等の精度を達成し、圧縮モデルをテストする場合、スパーシティ率を90%以上高い精度で維持する。 また,提案アルゴリズムは可変ビット幅での量子化にまで拡張し,個別に訓練したネットワークと同等の精度を実現する。

When deploying deep learning models to a device, it is traditionally assumed that available computational resources (compute, memory, and power) remain static. However, real-world computing systems do not always provide stable resource guarantees. Computational resources need to be conserved when load from other processes is high or battery power is low. Inspired by recent works on neural network subspaces, we propose a method for training a "compressible subspace" of neural networks that contains a fine-grained spectrum of models that range from highly efficient to highly accurate. Our models require no retraining, thus our subspace of models can be deployed entirely on-device to allow adaptive network compression at inference time. We present results for achieving arbitrarily fine-grained accuracy-efficiency trade-offs at inference time for structured and unstructured sparsity. We achieve accuracies on-par with standard models when testing our uncompressed models, and maintain high accuracy for sparsity rates above 90% when testing our compressed models. We also demonstrate that our algorithm extends to quantization at variable bit widths, achieving accuracy on par with individually trained networks.
翻訳日:2021-10-11 14:10:28 公開日:2021-10-08
# セマンティック画像合成のためのクラス固有GANの照合

Collaging Class-specific GANs for Semantic Image Synthesis ( http://arxiv.org/abs/2110.04281v1 )

ライセンス: Link先を確認
Yuheng Li, Yijun Li, Jingwan Lu, Eli Shechtman, Yong Jae Lee, Krishna Kumar Singh(参考訳) 本稿では,高分解能セマンティック画像合成のための新しい手法を提案する。 1つのベースイメージジェネレータと複数のクラス固有のジェネレータで構成される。 ベースジェネレータは、セグメンテーションマップに基づいて高品質な画像を生成する。 異なるオブジェクトの品質を向上させるために、クラス固有のモデルを個別に訓練することで、GAN(Generative Adversarial Networks)のバンクを作成する。 これには、各クラス専用の重み付け、各モデルの中央に整列したデータ、他のソースからのトレーニングデータの追加、より高い解像度と品質の可能性、シーン内の特定のオブジェクトの操作容易性など、いくつかのメリットがある。 実験により,我々はクラス固有生成器を用いてオブジェクトレベルの制御の柔軟性を保ちつつ,高品質な画像を高分解能で生成できることを示した。

We propose a new approach for high resolution semantic image synthesis. It consists of one base image generator and multiple class-specific generators. The base generator generates high quality images based on a segmentation map. To further improve the quality of different objects, we create a bank of Generative Adversarial Networks (GANs) by separately training class-specific models. This has several benefits including -- dedicated weights for each class; centrally aligned data for each model; additional training data from other sources, potential of higher resolution and quality; and easy manipulation of a specific object in the scene. Experiments show that our approach can generate high quality images in high resolution while having flexibility of object-level control by using class-specific generators.
翻訳日:2021-10-11 14:10:09 公開日:2021-10-08
# カスタムデザイン畳み込みニューラルネットワークを用いた糖尿病網膜症スクリーニング

Diabetic Retinopathy Screening Using Custom-Designed Convolutional Neural Network ( http://arxiv.org/abs/2110.03877v1 )

ライセンス: Link先を確認
Fahman Saeed, Muhammad Hussain, Senior Member, IEEE, Hatim A Aboalsamh, Senior Member, IEEE, Fadwa Al Adel, Adi Mohammed Al Owaifeer(参考訳) 糖尿病網膜症(dr)の発症率は世界中で34.6%に達し、中年糖尿病患者の主要な盲目の原因となっている。 眼底写真を用いた通常のDRスクリーニングは、合併症を検知し、高度なレベルへの進行を防ぐのに役立つ。 手動スクリーニングは時間がかかり主観的であるため、機械学習(ML)と深層学習(DL)が中等生を支援するために用いられてきた。 しかし、既存のCNNベースの手法では、トレーニング済みのCNNモデルか、新しいCNNモデルを設計するためのブルートフォースアプローチのいずれかを使用している。 この問題を克服するために,我々は,基盤画像の構造パターンに適応し,DR関連機能をよりよく表現するCNNモデルをカスタム設計するアプローチを提案する。 k-medoidクラスタリング、主成分分析(pca)、クラス間およびクラス内変異を利用して、cnnモデルの深さと幅を自動的に決定する。 設計されたモデルは軽量で、眼底画像の内部構造に適応し、DR病変の識別パターンを符号化する。 このテクニックは、サウジアラビアのキングソード大学メディカルシティのローカルデータセットと、Kaggleの2つの挑戦的なベンチマークデータセット、EyePACSとAPTOS2019で検証されている。 カスタムデザインのモデルは、ResNet152、Densnet121、ResNeSt50といった有名なトレーニング済みCNNモデルよりも優れており、パラメータの数は大幅に減少し、最先端のCNNベースのDRスクリーニング手法と競合する。 提案手法は多彩な臨床環境下でのDRスクリーニングに有用であり, 専門眼科医にさらなる評価と治療が必要な患者にも有用である。

The prevalence of diabetic retinopathy (DR) has reached 34.6% worldwide and is a major cause of blindness among middle-aged diabetic patients. Regular DR screening using fundus photography helps detect its complications and prevent its progression to advanced levels. As manual screening is time-consuming and subjective, machine learning (ML) and deep learning (DL) have been employed to aid graders. However, the existing CNN-based methods use either pre-trained CNN models or a brute force approach to design new CNN models, which are not customized to the complexity of fundus images. To overcome this issue, we introduce an approach for custom-design of CNN models, whose architectures are adapted to the structural patterns of fundus images and better represent the DR-relevant features. It takes the leverage of k-medoid clustering, principal component analysis (PCA), and inter-class and intra-class variations to automatically determine the depth and width of a CNN model. The designed models are lightweight, adapted to the internal structures of fundus images, and encode the discriminative patterns of DR lesions. The technique is validated on a local dataset from King Saud University Medical City, Saudi Arabia, and two challenging benchmark datasets from Kaggle: EyePACS and APTOS2019. The custom-designed models outperform the famous pre-trained CNN models like ResNet152, Densnet121, and ResNeSt50 with a significant decrease in the number of parameters and compete well with the state-of-the-art CNN-based DR screening methods. The proposed approach is helpful for DR screening under diverse clinical settings and referring the patients who may need further assessment and treatment to expert ophthalmologists.
翻訳日:2021-10-11 14:09:57 公開日:2021-10-08
# ロボット支援手術における学習ナビゲーションのためのステレオセンスシーン再構成と正確な腹腔鏡像定位

Stereo Dense Scene Reconstruction and Accurate Laparoscope Localization for Learning-Based Navigation in Robot-Assisted Surgery ( http://arxiv.org/abs/2110.03912v1 )

ライセンス: Link先を確認
Ruofeng Wei, Bin Li, Hangjie Mo, Bo Lu, Yonghao Long, Bohan Yang, Qi Dou, Yunhui Liu, and Dong Sun(参考訳) 解剖学的情報と腹腔鏡の位置の計算は、ミニマル侵襲手術(MIS)におけるロボット支援手術ナビゲーションの基本ブロックである。 視覚的手がかりを用いて手術シーンの密集した3D構造を復元することは依然として困難であり、オンライン腹腔鏡追跡は主に外部センサーに依存しており、システムの複雑さが増す。 本稿では,複雑な解剖構造を3次元再構成した画像誘導型腹腔鏡像定位を実現するための学習駆動フレームワークを提案する。 手術環境全体の3次元構造を再構築するために,まず,テクスチャレスおよび異種軟組織に頑健な学習に基づく立体的深度知覚法を用いて,深さ推定を行う。 次に, 現場をサーフィンで表現し, 腹腔鏡のポーズを推定し, 奥行きデータを統一した組織再構成基準座標に融合する, 密集した視覚再構成アルゴリズムを開発した。 新しい腹腔鏡像のポーズを推定するために,再構成した3次元モデルを取り入れた粗視定位法を実現する。 内視鏡データのステレオ対応と再構成(scared)、universal robot(ur)とkarl storz laparoscopeで収集した元vivo phantomおよび tissue data、in-vivo davinci robot surgery datasetの3つのデータセットにおける再構成方法とローカライズモジュールを評価した。 3次元解剖学的再構成法と腹腔鏡下定位法において, 外科的ナビゲーションシステムへの実装の可能性を示すため, 広範囲にわたる実験を行った。

The computation of anatomical information and laparoscope position is a fundamental block of robot-assisted surgical navigation in Minimally Invasive Surgery (MIS). Recovering a dense 3D structure of surgical scene using visual cues remains a challenge, and the online laparoscopic tracking mostly relies on external sensors, which increases system complexity. In this paper, we propose a learning-driven framework, in which an image-guided laparoscopic localization with 3D reconstructions of complex anatomical structures is hereby achieved. To reconstruct the 3D structure of the whole surgical environment, we first fine-tune a learning-based stereoscopic depth perception method, which is robust to the texture-less and variant soft tissues, for depth estimation. Then, we develop a dense visual reconstruction algorithm to represent the scene by surfels, estimate the laparoscope pose and fuse the depth data into a unified reference coordinate for tissue reconstruction. To estimate poses of new laparoscope views, we realize a coarse-to-fine localization method, which incorporates our reconstructed 3D model. We evaluate the reconstruction method and the localization module on three datasets, namely, the stereo correspondence and reconstruction of endoscopic data (SCARED), the ex-vivo phantom and tissue data collected with Universal Robot (UR) and Karl Storz Laparoscope, and the in-vivo DaVinci robotic surgery dataset. Extensive experiments have been conducted to prove the superior performance of our method in 3D anatomy reconstruction and laparoscopic localization, which demonstrates its potential implementation to surgical navigation system.
翻訳日:2021-10-11 14:09:25 公開日:2021-10-08
# (参考訳) ラベルなしデータを用いたフォームからのフィールド抽出 [全文訳有]

Field Extraction from Forms with Unlabeled Data ( http://arxiv.org/abs/2110.04282v1 )

ライセンス: CC BY 4.0
Mingfei Gao, Zeyuan Chen, Nikhil Naik, Kazuma Hashimoto, Caiming Xiong, Ran Xu(参考訳) ラベルなしデータを用いたフォームからのフィールド抽出を行うための新しいフレームワークを提案する。 トレーニングプロセスのブートストラップとして,未ラベル形式からノイズの多い擬似ラベルを抽出するルールベースの手法を開発した。 擬似ラベルからの監視信号を用いて,テキスト間の相互作用をモデル化し,変圧器モデルから識別トークン表現を抽出する。 このモデルがラベルノイズに過度に適合することを防止するため,プログレッシブ擬似ラベルアンサンブルに基づくリファインメントモジュールを導入する。 実験の結果,提案手法の有効性が示された。

We propose a novel framework to conduct field extraction from forms with unlabeled data. To bootstrap the training process, we develop a rule-based method for mining noisy pseudo-labels from unlabeled forms. Using the supervisory signal from the pseudo-labels, we extract a discriminative token representation from a transformer-based model by modeling the interaction between text in the form. To prevent the model from overfitting to label noise, we introduce a refinement module based on a progressive pseudo-label ensemble. Experimental results demonstrate the effectiveness of our framework.
翻訳日:2021-10-11 14:08:09 公開日:2021-10-08
# 確率的エキスパートによる疎活性化変圧器のモデリング

Taming Sparsely Activated Transformer with Stochastic Experts ( http://arxiv.org/abs/2110.04260v1 )

ライセンス: Link先を確認
Simiao Zuo, Xiaodong Liu, Jian Jiao, Young Jin Kim, Hany Hassan, Ruofei Zhang, Tuo Zhao, Jianfeng Gao(参考訳) Mixture-of-Experts (MoE) のようなスパースアクティベートモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。 しかし、SAMはパラメータ非効率であると報告されており、大きなモデルが必ずしもより良いパフォーマンスをもたらすとは限らない。 現在進行中のほとんどの研究は、専門家に入力をルーティングする方法を探索することでSAMsモデルの改善に重点を置いているが、そのような研究は我々が期待する解決には至らないかもしれない。 本稿では,新たなエキスパートベースモデルであるthor(transformer with stochastic experts)を提案する。 Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングや推論中に各入力に対してランダムに活性化される。 thorモデルは一貫性のある正規化損失を用いてトレーニングされ、専門家はトレーニングデータからだけでなく、教師として他の専門家からも学び、すべての専門家が一貫した予測を行う。 機械翻訳作業におけるTHORの有効性を検証する。 その結果,THORモデルの方がパラメータ効率が良く,TransformerモデルやMoEモデルよりも優れていることがわかった。 例えば、多言語翻訳では、thorはスイッチトランスフォーマーを2 bleuスコアで上回り、最先端のmoeモデルの18倍の大きさのbleuスコアを得る。 私たちのコードは、github.com/microsoft /Stochastic-Mixture- of-Expertsで公開されています。

Sparsely activated models (SAMs), such as Mixture-of-Experts (MoE), can easily scale to have outrageously large amounts of parameters without significant increase in computational cost. However, SAMs are reported to be parameter inefficient such that larger models do not always lead to better performance. While most on-going research focuses on improving SAMs models by exploring methods of routing inputs to experts, our analysis reveals that such research might not lead to the solution we expect, i.e., the commonly-used routing methods based on gating mechanisms do not work better than randomly routing inputs to experts. In this paper, we propose a new expert-based model, THOR (Transformer witH StOchastic ExpeRts). Unlike classic expert-based models, such as the Switch Transformer, experts in THOR are randomly activated for each input during training and inference. THOR models are trained using a consistency regularized loss, where experts learn not only from training data but also from other experts as teachers, such that all the experts make consistent predictions. We validate the effectiveness of THOR on machine translation tasks. Results show that THOR models are more parameter efficient in that they significantly outperform the Transformer and MoE models across various settings. For example, in multilingual translation, THOR outperforms the Switch Transformer by 2 BLEU scores, and obtains the same BLEU score as that of a state-of-the-art MoE model that is 18 times larger. Our code is publicly available at: github.com/microsoft /Stochastic-Mixture- of-Experts.
翻訳日:2021-10-11 13:56:25 公開日:2021-10-08
# 科学出版物の自動分類・類似検索に向けて:数学的内容表現の方法

Towards Math-Aware Automated Classification and Similarity Search of Scientific Publications: Methods of Mathematical Content Representations ( http://arxiv.org/abs/2110.04040v1 )

ライセンス: Link先を確認
Michal R\r{u}\v{z}i\v{c}ka, Petr Sojka(参考訳) 本稿では,stem文書の自動分類と類似性検索に適した数学的コンテンツ表現について,標準機械学習アルゴリズムであるlatent dirichlet allocation (lda) と latent semantic indexing (lsi) を用いて検討する。 数学主題分類(msc)を基準分類とし、標準精度/recall/f1測定指標を用いてarxiv.org論文のサブセットを評価する。 その結果,STEMレポジトリの分類・類似性検索タスクの性能に,異なる数学表現がどのような影響を与えるかが示唆された。 当然のことながら、機械学習の手法はテキストトークンから分布意味をつかむことができる。 数学を表す重み付きトークンの適切な選択は、結果の品質をわずかに改善する可能性がある。 テキスト処理技術を数学で模倣した構造化数学表現は、フラットなtexトークンよりも優れた結果をもたらすことが示されている。

In this paper, we investigate mathematical content representations suitable for the automated classification of and the similarity search in STEM documents using standard machine learning algorithms: the Latent Dirichlet Allocation (LDA) and the Latent Semantic Indexing (LSI). The methods are evaluated on a subset of arXiv.org papers with the Mathematics Subject Classification (MSC) as a reference classification and using the standard precision/recall/F1- measure metrics. The results give insight into how different math representations may influence the performance of the classification and similarity search tasks in STEM repositories. Non-surprisingly, machine learning methods are able to grab distributional semantics from textual tokens. A proper selection of weighted tokens representing math may improve the quality of the results slightly. A structured math representation that imitates successful text-processing techniques with math is shown to yield better results than flat TeX tokens.
翻訳日:2021-10-11 13:55:58 公開日:2021-10-08
# ディープラーニングメソッドを改善するツールとしてのグラフ

Graphs as Tools to Improve Deep Learning Methods ( http://arxiv.org/abs/2110.03999v1 )

ライセンス: Link先を確認
Carlos Lassance and Myriam Bontonou and Mounia Hamidouche and Bastien Pasdeloup and Lucas Drumetz and Vincent Gripon(参考訳) 近年、ディープニューラルネットワーク(DNN)の人気が高まっている。 しかし、機械学習の課題の多くは最先端のものだが、それでもいくつかの制限に苦しめられている。 例えば、dnnには多くのトレーニングデータが必要ですが、実用的なアプリケーションでは利用できません。 さらに、入力に小さな摂動を加えると、DNNは誤分類エラーを起こしやすい。 DNNはブラックボックスと見なされ、その決定は解釈可能性の欠如によってしばしば批判される。 本章では,ディープラーニング手法を改善するツールとしてグラフを用いた最近の研究について述べる。 これらのグラフは、ディープラーニングアーキテクチャの特定の層を考慮して定義される。 彼らの頂点は異なるサンプルを表し、それらの辺は対応する中間表現の類似性に依存する。 これらのグラフは様々な手法で利用でき、その多くがグラフ信号処理上に構築されている。 この章は、DNNの中間層を視覚化し、データ表現を視覚化し、グラフの目的関数を最適化し、学習プロセスを規則化するツールである。

In recent years, deep neural networks (DNNs) have known an important rise in popularity. However, although they are state-of-the-art in many machine learning challenges, they still suffer from several limitations. For example, DNNs require a lot of training data, which might not be available in some practical applications. In addition, when small perturbations are added to the inputs, DNNs are prone to misclassification errors. DNNs are also viewed as black-boxes and as such their decisions are often criticized for their lack of interpretability. In this chapter, we review recent works that aim at using graphs as tools to improve deep learning methods. These graphs are defined considering a specific layer in a deep learning architecture. Their vertices represent distinct samples, and their edges depend on the similarity of the corresponding intermediate representations. These graphs can then be leveraged using various methodologies, many of which built on top of graph signal processing. This chapter is composed of four main parts: tools for visualizing intermediate layers in a DNN, denoising data representations, optimizing graph objective functions and regularizing the learning process.
翻訳日:2021-10-11 13:55:30 公開日:2021-10-08
# 時空間グラフ拡散ネットワークを用いた交通流予測

Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network ( http://arxiv.org/abs/2110.04038v1 )

ライセンス: Link先を確認
Xiyue Zhang, Chao Huang, Yong Xu, Lianghao Xia, Peng Dai, Liefeng Bo, Junbo Zhang, Yu Zheng(参考訳) 都市全体の交通流の正確な予測は、インテリジェント交通制御や公共リスク評価など、様々な時空間採掘アプリケーションにおいて重要な役割を担っている。 以前の研究は、トラフィックの時間的ダイナミクスと空間的依存関係を学ぶために大きな努力をしてきたが、現在のモデルには2つの重要な制限が存在する。 まず, 隣接領域間の空間的相関のみを既存の手法で考慮し, グローバル領域間の依存性を無視する。 さらに、これらの手法は、本質的に時間依存かつマルチレゾリューションで示される複雑なトラフィック遷移規則性をエンコードすることができない。 これらの課題に対処するため,新しいトラフィック予測フレームワークであるSpatial-Temporal Graph Diffusion Network (ST-GDN) を開発した。 特にST-GDNは階層的に構造化されたグラフニューラルネットワークアーキテクチャであり、局所的な地域的な地理的依存関係だけでなく、グローバルな視点から空間的意味論も学習する。 さらに,ST-GDNを多段階の時間的ダイナミクスを捕捉する機能を備えたマルチスケールアテンションネットワークを開発した。 複数の実生活トラフィックデータセットの実験により、ST-GDNは最先端のベースラインの異なるタイプよりも優れていることが示された。 実装のソースコードはhttps://github.com/j ill001/ST-GDNで入手できる。

Accurate forecasting of citywide traffic flow has been playing critical role in a variety of spatial-temporal mining applications, such as intelligent traffic control and public risk assessment. While previous work has made significant efforts to learn traffic temporal dynamics and spatial dependencies, two key limitations exist in current models. First, only the neighboring spatial correlations among adjacent regions are considered in most existing methods, and the global inter-region dependency is ignored. Additionally, these methods fail to encode the complex traffic transition regularities exhibited with time-dependent and multi-resolution in nature. To tackle these challenges, we develop a new traffic prediction framework-Spatial-Te mporal Graph Diffusion Network (ST-GDN). In particular, ST-GDN is a hierarchically structured graph neural architecture which learns not only the local region-wise geographical dependencies, but also the spatial semantics from a global perspective. Furthermore, a multi-scale attention network is developed to empower ST-GDN with the capability of capturing multi-level temporal dynamics. Experiments on several real-life traffic datasets demonstrate that ST-GDN outperforms different types of state-of-the-art baselines. Source codes of implementations are available at https://github.com/j ill001/ST-GDN.
翻訳日:2021-10-11 13:55:14 公開日:2021-10-08
# TopoDetect: グラフ埋め込みにおけるトポロジ的特徴検出フレームワーク

TopoDetect: Framework for Topological Features Detection in Graph Embeddings ( http://arxiv.org/abs/2110.04173v1 )

ライセンス: Link先を確認
Maroun Haddad and Mohamed Bouguessa(参考訳) topodetectはpythonパッケージで、ノードの程度、三角形の数、あるいは局所クラスタリングスコアといった重要なトポロジ的特徴がグラフ表現モデルの埋め込みに保存されているかどうかをユーザが調査できる。 さらに、このフレームワークは、ノード間のトポロジ的特徴の分布に応じた埋め込みの可視化を可能にする。 さらに,TopoDetectにより,クラスタリングや分類などの下流学習タスクにおける埋め込みの性能を評価することで,これらの特徴の保存効果を検証できる。

TopoDetect is a Python package that allows the user to investigate if important topological features, such as the Degree of the nodes, their Triangle Count, or their Local Clustering Score, are preserved in the embeddings of graph representation models. Additionally, the framework enables the visualization of the embeddings according to the distribution of the topological features among the nodes. Moreover, TopoDetect enables us to study the effect of the preservation of these features by evaluating the performance of the embeddings on downstream learning tasks such as clustering and classification.
翻訳日:2021-10-11 13:54:50 公開日:2021-10-08
# 建築と勾配降下の暗黙のバイアスについて

On the Implicit Biases of Architecture & Gradient Descent ( http://arxiv.org/abs/2110.04274v1 )

ライセンス: Link先を確認
Jeremy Bernstein and Yisong Yue(参考訳) ニューラルネットワークは、勾配降下によって返される関数のバイアス、あるいはネットワークアーキテクチャにすでに存在するバイアスによって一般化されるか? Por qu'e no los dos? 本稿では,トレーニングデータに適合する典型的なネットワークが十分に一般化されているのに対して,勾配降下はマージンが大きいネットワークを選択することで一般化をさらに改善できることを示す。 この結論は、ベイズ推定によって訓練された無限幅ネットワークと勾配降下によって訓練された有限幅ネットワークの挙動を注意深く研究することに基づいている。 アーキテクチャの暗黙のバイアスを測定するために、ニューラルネットワーク-ゲージプロセス(nngp)の後方での平均テストエラーを解析的にバインドし、一貫して見積もる新しい技術ツールが開発されている。 この誤りはすでに偶然よりも優れており、valle-p\'erez et al. (2019) の発見とアーキテクチャの重要性を裏付けている。 この結果以上の結果から,nngp後方の通常よりも大きなマージンを持つ関数を選択すれば,テスト性能が大幅に向上する可能性が示唆された。 最小の a posteriori 関数は最善を一般化し、勾配降下はそれらの関数を選択できる。 まとめると、新しい技術ツールは、アーキテクチャの暗黙のバイアスと勾配降下の両方を含む一般化の微妙なポートレートを示唆している。 この論文のコードは、https://github.com/j xbz/implicit-bias/で公開されている。

Do neural networks generalise because of bias in the functions returned by gradient descent, or bias already present in the network architecture? Por qu\'e no los dos? This paper finds that while typical networks that fit the training data already generalise fairly well, gradient descent can further improve generalisation by selecting networks with a large margin. This conclusion is based on a careful study of the behaviour of infinite width networks trained by Bayesian inference and finite width networks trained by gradient descent. To measure the implicit bias of architecture, new technical tools are developed to both analytically bound and consistently estimate the average test error of the neural network--Gaussian process (NNGP) posterior. This error is found to be already better than chance, corroborating the findings of Valle-P\'erez et al. (2019) and underscoring the importance of architecture. Going beyond this result, this paper finds that test performance can be substantially improved by selecting a function with much larger margin than is typical under the NNGP posterior. This highlights a curious fact: minimum a posteriori functions can generalise best, and gradient descent can select for those functions. In summary, new technical tools suggest a nuanced portrait of generalisation involving both the implicit biases of architecture and gradient descent. Code for this paper is available at: https://github.com/j xbz/implicit-bias/.
翻訳日:2021-10-11 13:53:24 公開日:2021-10-08
# ニューラルタンジェントカーネルを用いたグラフ畳み込みネットワークの新しい展望

New Insights into Graph Convolutional Networks using Neural Tangent Kernels ( http://arxiv.org/abs/2110.04060v1 )

ライセンス: Link先を確認
Mahalakshmi Sabanayagam, Pascal Esser, Debarghya Ghoshdastidar(参考訳) Graph Convolutional Networks (GCN)は、ネットワーク構造化データを学ぶための強力なツールとして登場した。 実験的に成功したが、GCNは厳密な説明を持たない特定の振る舞いを示す。例えば、GCNのパフォーマンスはネットワーク深さの増加とともに著しく低下する。 本稿では,グラフに関する半教師付き学習に注目し,その観察をNutral Tangent Kernels (NTK) のレンズを通して説明する。 我々は(スキップ接続なしで)無限に広いgcnに対応するntkを導出する。 その後、得られたNTKを用いて、適切な正規化を行うと、ネットワーク深さがGCNの性能を劇的に低下させるとは限らないことを確認する。 さらに,超パラメータ自由決定性カーネルであるため,超パラメータチューニングによる性能変動に悩まされないGCNに対する効率的な「代理モデル」としてNTKを提案する。 このアイデアの有効性は、サロゲートNTKを用いたGCNに対する異なるスキップ接続の比較によって示される。

Graph Convolutional Networks (GCNs) have emerged as powerful tools for learning on network structured data. Although empirically successful, GCNs exhibit certain behaviour that has no rigorous explanation -- for instance, the performance of GCNs significantly degrades with increasing network depth, whereas it improves marginally with depth using skip connections. This paper focuses on semi-supervised learning on graphs, and explains the above observations through the lens of Neural Tangent Kernels (NTKs). We derive NTKs corresponding to infinitely wide GCNs (with and without skip connections). Subsequently, we use the derived NTKs to identify that, with suitable normalisation, network depth does not always drastically reduce the performance of GCNs -- a fact that we also validate through extensive simulation. Furthermore, we propose NTK as an efficient `surrogate model' for GCNs that does not suffer from performance fluctuations due to hyper-parameter tuning since it is a hyper-parameter free deterministic kernel. The efficacy of this idea is demonstrated through a comparison of different skip connections for GCNs using the surrogate NTKs.
翻訳日:2021-10-11 13:51:54 公開日:2021-10-08
# (参考訳) GANラテント空間のための視覚概念語彙を目指して [全文訳有]

Toward a Visual Concept Vocabulary for GAN Latent Space ( http://arxiv.org/abs/2110.04292v1 )

ライセンス: CC BY-SA 4.0
Sarah Schwettmann, Evan Hernandez, David Bau, Samuel Klein, Jacob Andreas, Antonio Torralba(参考訳) 最近の多くの研究で、生成した画像を一貫して解釈可能に変換するgans(generative adversarial network)の潜在空間における変換が特定されている。 しかし、これらの変換を識別する既存の技術は、事前に特定された視覚概念の定型語彙に依存するか、あるいは知覚的サリエンスに関する人間の判断に一致しない教師なしの遠絡技術に依存する。 本稿では,ganの潜在空間で表現される原始視覚概念のオープン拡張語彙を構築する新しい手法を提案する。 提案手法は,(1) 層選択性に基づく知覚的に有意な方向の自動識別,(2) 自由形,構成的自然言語記述によるこれらの方向の人間のアノテーション,(3) 単一語でラベル付けされた蒸留方向からなる視覚概念語彙への分解,の3つの構成要素から成り立っている。 実験によると、このアプローチで学んだ概念は信頼性があり、構成可能で、クラス、コンテキスト、オブザーバーをまたいで一般化し、画像スタイルとコンテンツのきめ細かい操作を可能にする。

A large body of recent work has identified transformations in the latent spaces of generative adversarial networks (GANs) that consistently and interpretably transform generated images. But existing techniques for identifying these transformations rely on either a fixed vocabulary of pre-specified visual concepts, or on unsupervised disentanglement techniques whose alignment with human judgments about perceptual salience is unknown. This paper introduces a new method for building open-ended vocabularies of primitive visual concepts represented in a GAN's latent space. Our approach is built from three components: (1) automatic identification of perceptually salient directions based on their layer selectivity; (2) human annotation of these directions with free-form, compositional natural language descriptions; and (3) decomposition of these annotations into a visual concept vocabulary, consisting of distilled directions labeled with single words. Experiments show that concepts learned with our approach are reliable and composable -- generalizing across classes, contexts, and observers, and enabling fine-grained manipulation of image style and content.
翻訳日:2021-10-11 13:50:12 公開日:2021-10-08
# 弱教師付きセマンティクスセグメンテーションのためのコンジェネリックセマンティクスの探索の最大化

Maximize the Exploration of Congeneric Semantics for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2110.03982v1 )

ライセンス: Link先を確認
Ke Zhang, Sihong Chen, Qi Ju, Yong Jiang, Yucong Li, Xin He(参考訳) 画像データ数の増加と対応するラベルの欠如により,近年,コンピュータビジョン課題,特に細粒度セマンティックセグメンテーション問題において,弱い教師付き学習が注目されている。 高価なピクセル単位のアノテーションから人間の努力を緩和するために、この手法は画像レベルのタグで弱い教師付きセマンティックセグメンテーション(wsss)に焦点を当てている。 ピクセルレベルのセグメンテーションと画像レベルのラベルの間には大きなギャップがあるため、各ピクセルのイメージレベルのセグメンテーション情報をどのように反映するかは重要な問題である。 同じクラスから最大まで、同種意味領域を探索するため、同じクラスラベルを含む異なる画像から自己検出されたパッチに基づいてパッチレベルグラフニューラルネットワーク(P-GNN)を構築した。 パッチは可能な限りオブジェクトをフレーム化でき、最小限のバックグラウンドを含むことができる。 ノードとしてパッチで確立されたグラフネットワークは、類似したオブジェクトの相互学習を最大化することができる。 パッチの埋め込みベクトルをノードとみなし、異なるノード間の埋め込み類似性に応じて、トランスフォーマーベースの補完学習モジュールを用いて重み付きエッジを構築する。 さらに,意味情報を補うために,ネットワーク構造全体と一致するソフト補完的損失関数を提案する。 PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。

With the increase in the number of image data and the lack of corresponding labels, weakly supervised learning has drawn a lot of attention recently in computer vision tasks, especially in the fine-grained semantic segmentation problem. To alleviate human efforts from expensive pixel-by-pixel annotations, our method focuses on weakly supervised semantic segmentation (WSSS) with image-level tags, which are much easier to obtain. As a huge gap exists between pixel-level segmentation and image-level labels, how to reflect the image-level semantic information on each pixel is an important question. To explore the congeneric semantic regions from the same class to the maximum, we construct the patch-level graph neural network (P-GNN) based on the self-detected patches from different images that contain the same class labels. Patches can frame the objects as much as possible and include as little background as possible. The graph network that is established with patches as the nodes can maximize the mutual learning of similar objects. We regard the embedding vectors of patches as nodes, and use transformer-based complementary learning module to construct weighted edges according to the embedding similarity between different nodes. Moreover, to better supplement semantic information, we propose soft-complementary loss functions matched with the whole network structure. We conduct experiments on the popular PASCAL VOC 2012 benchmarks, and our model yields state-of-the-art performance.
翻訳日:2021-10-11 13:38:49 公開日:2021-10-08
# 重みの共有とアンシェアによる深層モデルトレーニングの高速化

Speeding up Deep Model Training by Sharing Weights and Then Unsharing ( http://arxiv.org/abs/2110.03848v1 )

ライセンス: Link先を確認
Shuo Yang, Le Hou, Xiaodan Song, Qiang Liu, Denny Zhou(参考訳) 我々は, 単純かつ効率的な bert モデルの学習手法を提案する。 提案手法では,繰り返しモジュール(トランスフォーマーエンコーダ)のスタックを含むBERTの特別な構造を利用する。 提案手法はまずBERTを各モジュール間の重みを共有してある時点まで訓練する。 これは、繰り返し繰り返されるすべての層で、重みの共通部分を学ぶためです。 その後、重量共有を停止し、収束するまでトレーニングを継続します。 重みの共有による学習のための理論的洞察を、単純化されたモデルの解析と無関係に提示する。 BERTモデルの実証実験により,本手法はトレーニングモデルの優れた性能を示し,トレーニングの繰り返し回数を大幅に削減することがわかった。

We propose a simple and efficient approach for training the BERT model. Our approach exploits the special structure of BERT that contains a stack of repeated modules (i.e., transformer encoders). Our proposed approach first trains BERT with the weights shared across all the repeated modules till some point. This is for learning the commonly shared component of weights across all repeated layers. We then stop weight sharing and continue training until convergence. We present theoretic insights for training by sharing weights then unsharing with analysis for simplified models. Empirical experiments on the BERT model show that our method yields better performance of trained models, and significantly reduces the number of training iterations.
翻訳日:2021-10-11 13:37:30 公開日:2021-10-08
# 変圧器の構成一般化のための反復復号

Iterative Decoding for Compositional Generalization in Transformers ( http://arxiv.org/abs/2110.04169v1 )

ライセンス: Link先を確認
Luana Ruiz, Joshua Ainslie, Santiago Onta\~n\'on(参考訳) ディープラーニングモデルは、分散データへの一般化に優れるが、より複雑なタスクを解くために、学習されたプリミティブのセットを組み合わせて構成を一般化するのに苦労する。 特にsequence-to-sequence (seq2seq)学習では、トランスフォーマーはトレーニング中に見られるものよりもわずかに長い例で正しい出力を予測できないことが多い。 本稿では,Seq2seq学習に代わる反復復号法を提案する。 (i)変圧器構成の一般化と改良 (ii) 一般に、Seq2seq変換子はアンロールされていない反復を学習しない。 複雑なタスクは基本的なプリミティブを構成することで解決できるという構成性の概念に触発されたトレーニングサンプルは、トランスフォーマーが反復的に学習する一連の中間ステップに分解される。 推論時、中間出力は中間入力として変換器にフィードバックされ、終端トークンが予測される。 数値実験により,pcfgデータセット上のseq2seq値よりも反復復号により訓練されたトランスフォマーが優れていることを示し,100%精度でトレーニング中に見たベクトルよりも長いベクトル間のデカルト積を計算するという課題を解決した。 また、反復復号の限界、具体的には、cfqデータセットでソートを学ぶのが難しくなることを示す。

Deep learning models do well at generalizing to in-distribution data but struggle to generalize compositionally, i.e., to combine a set of learned primitives to solve more complex tasks. In particular, in sequence-to-sequence (seq2seq) learning, transformers are often unable to predict correct outputs for even marginally longer examples than those seen during training. This paper introduces iterative decoding, an alternative to seq2seq learning that (i) improves transformer compositional generalization and (ii) evidences that, in general, seq2seq transformers do not learn iterations that are not unrolled. Inspired by the idea of compositionality -- that complex tasks can be solved by composing basic primitives -- training examples are broken down into a sequence of intermediate steps that the transformer then learns iteratively. At inference time, the intermediate outputs are fed back to the transformer as intermediate inputs until an end-of-iteration token is predicted. Through numerical experiments, we show that transfomers trained via iterative decoding outperform their seq2seq counterparts on the PCFG dataset, and solve the problem of calculating Cartesian products between vectors longer than those seen during training with 100% accuracy, a task at which seq2seq models have been shown to fail. We also illustrate a limitation of iterative decoding, specifically, that it can make sorting harder to learn on the CFQ dataset.
翻訳日:2021-10-11 13:37:20 公開日:2021-10-08
# (参考訳) セマンティックセグメンテーションのためのオープン複合ドメイン適応の発見, 幻覚, 適応 [全文訳有]

Discover, Hallucinate, and Adapt: Open Compound Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2110.04111v1 )

ライセンス: CC BY 4.0
KwanYong Park, Sanghyun Woo, Inkyu Shin, In So Kweon(参考訳) セマンティックセグメンテーションのための教師なしドメイン適応(UDA)が近年注目を集めており、様々なラベルの少ない現実のシナリオ(例えば、ロボット制御、自律運転、医療画像など)に有用である可能性がある。 この分野の大きな進歩にもかかわらず、現在の作業は主に単一ソースの単一ターゲット設定にフォーカスしており、複数のターゲットのより実用的な設定や、目に見えないターゲットさえ処理できない。 本稿では, 意味的セグメンテーションのために, 混合状況と新規状況を同時に扱うopen compound domain adaptation (ocda) について検討する。 我々は,発見,幻覚,適応の3つの主要な設計原則に基づく新しい枠組みを提案する。 このスキームはまず、スタイルに基づいた複合ターゲットデータをクラスタ化し、複数の潜在ドメインを発見する(discover)。 次に、画像翻訳(hallucinate)を用いて、ソース内の複数の潜在ターゲットドメインを幻覚させる。 このステップでは、ソース内の潜在ドメインとターゲットのペアリングが保証される。 最後に、ターゲットとソースのアライメントはドメイン間で別々に学習される(適応)。 高いレベルでは、我々のソリューションは難解なOCDA問題を、より簡単な複数のUDA問題に置き換えます。 我々は、標準ベンチマークgtaによるc-drivingのソリューションを評価し、新たな最先端結果を得た。

Unsupervised domain adaptation (UDA) for semantic segmentation has been attracting attention recently, as it could be beneficial for various label-scarce real-world scenarios (e.g., robot control, autonomous driving, medical imaging, etc.). Despite the significant progress in this field, current works mainly focus on a single-source single-target setting, which cannot handle more practical settings of multiple targets or even unseen targets. In this paper, we investigate open compound domain adaptation (OCDA), which deals with mixed and novel situations at the same time, for semantic segmentation. We present a novel framework based on three main design principles: discover, hallucinate, and adapt. The scheme first clusters compound target data based on style, discovering multiple latent domains (discover). Then, it hallucinates multiple latent target domains in source by using image-translation (hallucinate). This step ensures the latent domains in the source and the target to be paired. Finally, target-to-source alignment is learned separately between domains (adapt). In high-level, our solution replaces a hard OCDA problem with much easier multiple UDA problems. We evaluate our solution on standard benchmark GTA to C-driving, and achieved new state-of-the-art results.
翻訳日:2021-10-11 13:35:05 公開日:2021-10-08
# 超複素パラメータ化による軽量畳み込みニューラルネットワーク

Lightweight Convolutional Neural Networks By Hypercomplex Parameterization ( http://arxiv.org/abs/2110.04176v1 )

ライセンス: Link先を確認
Eleonora Grassucci, Aston Zhang, Danilo Comminiello(参考訳) 超複素ニューラルネットワークは、クリフォード代数の性質を活用し、価値ある性能を確保しながら、パラメータ全体の数を減らすことが証明されている。 近年,効率の良いパラメタライズドクロネッカー製品によって,超複素線形層がさらに改良されている。 本稿では,超複素畳み込み層のパラメータ化を定義し,軽量で効率的な大規模畳み込みモデルを構築する。 本手法は,畳み込み規則とフィルタ組織を直接データから把握し,厳密に定義されたドメイン構造に従うことなく処理を行う。 提案されたアプローチは、代数規則が事前に設定されているかどうかに関わらず、1dから$n$dまで、任意のユーザ定義またはチューニングされたドメインで操作するのに柔軟である。 このような可鍛性により、色画像のような3次元入力のための四元ニューラルネットワークでは、さらに次元を併合することなく、自然領域で多次元入力を処理できる。 その結果,提案手法は実領域のアナログに関して1/n$自由パラメータで動作することがわかった。 提案手法は,複数領域のアプリケーションに対して,様々な画像データセットと音声データセットを用いて実験を行うことにより,本手法の汎用性を実証する。

Hypercomplex neural networks have proved to reduce the overall number of parameters while ensuring valuable performances by leveraging the properties of Clifford algebras. Recently, hypercomplex linear layers have been further improved by involving efficient parameterized Kronecker products. In this paper, we define the parameterization of hypercomplex convolutional layers to develop lightweight and efficient large-scale convolutional models. Our method grasps the convolution rules and the filters organization directly from data without requiring a rigidly predefined domain structure to follow. The proposed approach is flexible to operate in any user-defined or tuned domain, from 1D to $n$D regardless of whether the algebra rules are preset. Such a malleability allows processing multidimensional inputs in their natural domain without annexing further dimensions, as done, instead, in quaternion neural networks for 3D inputs like color images. As a result, the proposed method operates with $1/n$ free parameters as regards its analog in the real domain. We demonstrate the versatility of this approach to multiple domains of application by performing experiments on various image datasets as well as audio datasets in which our method outperforms real and quaternion-valued counterparts.
翻訳日:2021-10-11 13:17:31 公開日:2021-10-08
# 文順序付けのための局所的・グローバル的文脈に基づくペアワイズモデル

Local and Global Context-Based Pairwise Models for Sentence Ordering ( http://arxiv.org/abs/2110.04291v1 )

ライセンス: Link先を確認
Ruskin Raj Manku and Aditya Jyoti Paul(参考訳) 文順序付けとは、文の集合を適切なコヒーレントな順序に並べ替える作業である。 この課題に対して、従来のほとんどのアプローチは、シーケンス生成技術を用いて、グローバルなコンテキストベースのエンドツーエンド手法を探索してきた。 本稿では,この領域におけるこれまでのすべての作業よりも優れた予測戦略を活用し,堅牢な局所的およびグローバル的コンテキストベースの対向順序付け戦略を展開する。 提案手法は,本項の豊富なグローバル文脈情報を用いて,新しいトランスフォーマアーキテクチャを用いてペア順を予測する。 提案する2つのデコード戦略の解析は、ペアワイズモデルにおけるエラー伝播をよりよく説明するのに役立つ。 このアプローチは最も正確な純粋なペアワイズモデルであり、我々の符号化戦略は、従来の最先端技術を含む他のペアワイズモデルを用いた最近のアプローチの性能を著しく向上させ、この研究の新規性と一般化可能性を示している。 さらに、ALBERTの事前学習タスクが、パラメータがかなり少ないにもかかわらず、BERTを大幅に上回ることを示す。 大規模な実験結果、アーキテクチャ解析およびアブレーション研究は、提案されたモデルの有効性と優位性を示し、またペアワイズモデルの機能に関するより優れた理解を提供する。

Sentence Ordering refers to the task of rearranging a set of sentences into the appropriate coherent order. For this task, most previous approaches have explored global context-based end-to-end methods using Sequence Generation techniques. In this paper, we put forward a set of robust local and global context-based pairwise ordering strategies, leveraging which our prediction strategies outperform all previous works in this domain. Our proposed encoding method utilizes the paragraph's rich global contextual information to predict the pairwise order using novel transformer architectures. Analysis of the two proposed decoding strategies helps better explain error propagation in pairwise models. This approach is the most accurate pure pairwise model and our encoding strategy also significantly improves the performance of other recent approaches that use pairwise models, including the previous state-of-the-art, demonstrating the research novelty and generalizability of this work. Additionally, we show how the pre-training task for ALBERT helps it to significantly outperform BERT, despite having considerably lesser parameters. The extensive experimental results, architectural analysis and ablation studies demonstrate the effectiveness and superiority of the proposed models compared to the previous state-of-the-art, besides providing a much better understanding of the functioning of pairwise models.
翻訳日:2021-10-11 13:17:14 公開日:2021-10-08
# abcp:ジョイント検索によるブロックワイズとチャネルワイズネットワークの自動pruning

ABCP: Automatic Block-wise and Channel-wise Network Pruning via Joint Search ( http://arxiv.org/abs/2110.03858v1 )

ライセンス: Link先を確認
Jiaqi Li, Haoran Li, Yaran Chen, Zixiang Ding, Nannan Li, Mingjun Ma, Zicheng Duan, and Dongbing Zhao(参考訳) 現在,深層学習モデルと資源制約デバイスが必要とするコンピュータパワーの矛盾を解決するために,モデルプルーニング手法が増えている。 しかし、従来のルールベースのネットワークプルーニング手法のほとんどは、精度の低い十分な圧縮比に達しず、時間を要するだけでなく、手間もかかる。 本稿では,ブロックワイズおよびチャネルワイズネットワークpruning (abcp) を用いて,深層強化学習によるブロックワイズおよびチャネルワイズpruning動作を共同探索する手法を提案する。 各残差ブロックのプルーニング選択と,各畳み込み層のチャネルプルーニング比をそれぞれ離散的かつ連続的な探索空間から同時に生成する共同サンプルアルゴリズムを提案する。 モデルの精度と複雑さを考慮に入れた最良の刈り取り動作が最終的に得られる。 従来のルールベースプルーニング法と比較して、このパイプラインは人的労力を削減し、高い圧縮率と低い精度の損失を達成する。 モバイルロボット検出データセットでテストされたYOLOv3モデルは、99.5%のFLOPを節約し、99.5%のパラメータを削減し、わずか2.8%のmAP損失で37.3倍の速度向上を達成した。 sim2real 検出データセットの転送タスクの結果から, 刈り取ったモデルの方がロバスト性が高いことがわかった。

Currently, an increasing number of model pruning methods are proposed to resolve the contradictions between the computer powers required by the deep learning models and the resource-constrained devices. However, most of the traditional rule-based network pruning methods can not reach a sufficient compression ratio with low accuracy loss and are time-consuming as well as laborious. In this paper, we propose Automatic Block-wise and Channel-wise Network Pruning (ABCP) to jointly search the block-wise and channel-wise pruning action with deep reinforcement learning. A joint sample algorithm is proposed to simultaneously generate the pruning choice of each residual block and the channel pruning ratio of each convolutional layer from the discrete and continuous search space respectively. The best pruning action taking both the accuracy and the complexity of the model into account is obtained finally. Compared with the traditional rule-based pruning method, this pipeline saves human labor and achieves a higher compression ratio with lower accuracy loss. Tested on the mobile robot detection dataset, the pruned YOLOv3 model saves 99.5% FLOPs, reduces 99.5% parameters, and achieves 37.3 times speed up with only 2.8% mAP loss. The results of the transfer task on the sim2real detection dataset also show that our pruned model has much better robustness performance.
翻訳日:2021-10-11 13:16:35 公開日:2021-10-08
# (参考訳) 土地利用土地被覆分類のための深層移動学習 : 比較研究 [全文訳有]

Deep Transfer Learning for Land Use Land Cover Classification: A Comparative Study ( http://arxiv.org/abs/2110.02580v2 )

ライセンス: CC BY 4.0
Raoof Naushad, Tarunpreet Kaur(参考訳) 高分解能画像を用いたリモートセンシング画像分類の効率的な実施は,土地利用土地被覆分類 (lulc) において大きな意味を持つ。 リモートセンシングと深層学習技術の発展により,LULC分類のための時空間情報の抽出が容易になった。 さらに、リモートセンシングを含む科学の多様な分野は、転移学習を伴うcnnによる画像分類を大幅に改善した。 本研究では,CNNをスクラッチからトレーニングする代わりに,微調整事前学習ネットワークへのトランスファー学習を利用する。 a)VGG16及び b) LULCをEuroSATデータセットに分類するために,最終層を付加層に置き換えることにより,ワイド・レジデンシャル・ネットワーク(WRN)を構築する。 さらに, 早期停止, 勾配クリッピング, 適応学習率, データ拡張などの手法と性能と計算時間を比較し, 最適化した。 提案手法により,限られたデータ問題に対処でき,精度が向上した。 EuroSAT RGB バージョンベンチマークに対する総合的な比較は、我々の手法が過去の最高の結果を上回っ、精度が98.57%から99.17%に大幅に改善されたことを証明した。

Efficiently implementing remote sensing image classification with high spatial resolution imagery can provide great significant value in land-use land-cover classification (LULC). The developments in remote sensing and deep learning technologies have facilitated the extraction of spatiotemporal information for LULC classification. Moreover, the diverse disciplines of science, including remote sensing, have utilised tremendous improvements in image classification by CNNs with Transfer Learning. In this study, instead of training CNNs from scratch, we make use of transfer learning to fine-tune pre-trained networks a) VGG16 and b) Wide Residual Networks (WRNs), by replacing the final layer with additional layers, for LULC classification with EuroSAT dataset. Further, the performance and computational time were compared and optimized with techniques like early stopping, gradient clipping, adaptive learning rates and data augmentation. With the proposed approaches we were able to address the limited-data problem and achieved very good accuracy. Comprehensive comparisons over the EuroSAT RGB version benchmark have successfully established that our method outperforms the previous best-stated results, with a significant improvement over the accuracy from 98.57% to 99.17%.
翻訳日:2021-10-11 12:29:58 公開日:2021-10-08
# (参考訳) cut the carp: ゼロショットストーリー評価のための釣り [全文訳有]

Cut the CARP: Fishing for zero-shot story evaluation ( http://arxiv.org/abs/2110.03111v2 )

ライセンス: CC BY 4.0
Shahbuland Matiana, JR Smith, Ryan Teehan, Louis Castricato, Stella Biderman, Leo Gao, Spencer Frazier(参考訳) 大規模言語モデル(raffel et al., 2019; brown et al., 2020)の最近の進歩は、機械駆動テキスト生成に大きな質的かつ定量的な改善をもたらした。 それにもかかわらず、機械による物語文の生成と評価は依然として難しい問題である。 計算的に生成されたストーリーの客観的な評価は、制限的に高価であるか、注意深い注釈付きデータセットを必要とするか、あるいは生成されたストーリーのナラトロジー構造の論理的コヒーレンスを適切に測定できないかである。 コントラスト学習の最近の進歩 (Radford et al., 2021) により, 質的に優れた物語のゼロショット評価を行うスケーラブルで効率的な手法であるContrastive Authoring and Reviewing Pairing (CARP) を提案する。 本稿では,物語の人的評価とCARPの人的評価との間に強い相関関係を示す。 モデル出力は、ファインチューニングやプロンプトエンジニアリングアプローチを利用した言語モデルに基づく手法よりも、対応する人間の入力とより大きく相関する。 我々はまた、8万以上のストーリーから派生した130万のストーリー批判ペアからなる新しいコーパスであるStory-Critique Datasetを提示、分析した。 このコーパスはNLP研究者にとって大きな関心を持つだろう。

Recent advances in large-scale language models (Raffel et al., 2019; Brown et al., 2020) have brought significant qualitative and quantitative improvements in machine-driven text generation. Despite this, generation and evaluation of machine-generated narrative text remains a challenging problem. Objective evaluation of computationally-gene rated stories may be prohibitively expensive, require meticulously annotated datasets, or may not adequately measure the logical coherence of a generated story's narratological structure. Informed by recent advances in contrastive learning (Radford et al., 2021), we present Contrastive Authoring and Reviewing Pairing (CARP): a scalable, efficient method for performing qualitatively superior, zero-shot evaluation of stories. We show a strong correlation between human evaluation of stories and those of CARP. Model outputs more significantly correlate with corresponding human input than those language-model based methods which utilize finetuning or prompt engineering approaches. We also present and analyze the Story-Critique Dataset, a new corpora composed of 1.3 million aligned story-critique pairs derived from over 80,000 stories. We expect this corpus to be of interest to NLP researchers.
翻訳日:2021-10-11 12:21:00 公開日:2021-10-08
# (参考訳) darts: 時系列のためのユーザフレンドリーなモダン機械学習 [全文訳有]

Darts: User-Friendly Modern Machine Learning for Time Series ( http://arxiv.org/abs/2110.03224v2 )

ライセンス: CC BY 4.0
Julien Herzen, Francesco L\"assig, Samuele Giuliano Piazzetta, Thomas Neuer, L\'eo Tafti, Guillaume Raille, Tomas Van Pottelbergh, Marek Pasieka, Andrzej Skrodzki, Nicolas Huguenin, Maxime Dumonal, Jan Ko\'scisz, Dennis Bader, Fr\'ed\'erick Gusset, Mounir Benheddi, Camila Williamson, Michal Kosinski, Matej Petrik, Ga\"el Grosch(参考訳) 我々は時系列のPython機械学習ライブラリであるDartを紹介し、予測に焦点を当てた。 Dartsは、ARIMAのような古典的なモデルから最先端のディープニューラルネットワークまで、さまざまなモデルを提供している。 ライブラリの重点は、多次元シリーズのサポート、複数シリーズでのメタラーニング、大規模データセットのトレーニング、外部データの導入、センシングモデル、確率予測のための豊富なサポートなど、現代的な機械学習機能の提供にある。 同時に、API設計に非常に注意を払って、ユーザフレンドリで使いやすくしています。 例えば、すべてのモデルは、Scikit-learnと同様、 fit()/predict()を使って使用することができる。

We present Darts, a Python machine learning library for time series, with a focus on forecasting. Darts offers a variety of models, from classics such as ARIMA to state-of-the-art deep neural networks. The emphasis of the library is on offering modern machine learning functionalities, such as supporting multidimensional series, meta-learning on multiple series, training on large datasets, incorporating external data, ensembling models, and providing a rich support for probabilistic forecasting. At the same time, great care goes into the API design to make it user-friendly and easy to use. For instance, all models can be used using fit()/predict(), similar to scikit-learn.
翻訳日:2021-10-11 12:07:12 公開日:2021-10-08
# プラグインソルバを用いた線形混合mdpの至適報酬フリー探索

Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with Plug-in Solver ( http://arxiv.org/abs/2110.03244v2 )

ライセンス: Link先を確認
Xiaoyu Chen, Jiachen Hu, Lin F. Yang, Liwei Wang(参考訳) モデルベース強化学習(rl)アプローチはよりサンプル効率が高いと考えられているが、既存のアルゴリズムは通常、モデル学習手順と密に結合する洗練された計画アルゴリズムに依存している。 したがって、学習したモデルは、より専門的なプランナーで再使用される能力に欠ける可能性がある。 本稿では,この問題に対処し,報酬信号の誘導なしにRLモデルを効率的に学習するためのアプローチを提案する。 特に,探索段階におけるモデル学習に焦点をあて,学習モデル上での 'emph{any planning algorithm' が,ほぼ最適ポリシーを実現できることを要求するプラグインソルバアプローチを採用する。 具体的には、確率遷移行列が既存のモデルの集合の(未知の)凸結合である線形混合MDP設定に焦点を当てる。 新しい探索アルゴリズムを確立することで、プラグインアプローチは環境との相互作用を$\tilde{o}(d^2h^3/\epsilon^2) とし、モデル上で$\epsilon$-optimal planner が$o(\epsilon)$-optima lポリシーを元のモデルに与えてモデルを学ぶ。 このサンプル複雑性は非プラグインアプローチの下限に一致し、 \emph{statistically optimal} である。 本研究では, ベルンシュタイン不等式と線形混合mdpに指定された性質を用いて, 注意深い最大全分散境界を用いることにより, この結果を得る。

Although model-based reinforcement learning (RL) approaches are considered more sample efficient, existing algorithms are usually relying on sophisticated planning algorithm to couple tightly with the model-learning procedure. Hence the learned models may lack the ability of being re-used with more specialized planners. In this paper we address this issue and provide approaches to learn an RL model efficiently without the guidance of a reward signal. In particular, we take a plug-in solver approach, where we focus on learning a model in the exploration phase and demand that \emph{any planning algorithm} on the learned model can give a near-optimal policy. Specicially, we focus on the linear mixture MDP setting, where the probability transition matrix is a (unknown) convex combination of a set of existing models. We show that, by establishing a novel exploration algorithm, the plug-in approach learns a model by taking $\tilde{O}(d^2H^3/\epsilon^2)$ interactions with the environment and \emph{any} $\epsilon$-optimal planner on the model gives an $O(\epsilon)$-optima l policy on the original model. This sample complexity matches lower bounds for non-plug-in approaches and is \emph{statistically optimal}. We achieve this result by leveraging a careful maximum total-variance bound using Bernstein inequality and properties specified to linear mixture MDP.
翻訳日:2021-10-11 11:55:48 公開日:2021-10-08
# 小袋を用いたラベル比からの高速学習

Fast learning from label proportions with small bags ( http://arxiv.org/abs/2110.03426v2 )

ライセンス: Link先を確認
Denis Baru\v{c}i\'c (1), Jan Kybic (1) ((1) Czech Technical University in Prague, Czech Republic)(参考訳) ラベル比率(llp)から学ぶと、インスタンスはバッグにグループ化され、タスクは、トレーニングバッグの相対クラス比率によってインスタンス分類子を学ぶことである。 LLPは、個々のインスタンスラベルを取得することは不可能またはコストがかかる場合に有用である。 本研究では,全ての一貫したラベルの組み合わせを明示的に考慮し,より効率的なアルゴリズムを設計できる小袋の事例に焦点を当てる。 特に,汎用ニューラルネットワークインスタンス分類器の最適化と,バッグレベルのアノテーションを取り入れたEMアルゴリズムを提案する。 既存の深層LPP法と比較して,我々の手法は同等あるいはより良い解に早く収束する。 2つの異なるデータセットでいくつかの実験が行われた。

In learning from label proportions (LLP), the instances are grouped into bags, and the task is to learn an instance classifier given relative class proportions in training bags. LLP is useful when obtaining individual instance labels is impossible or costly. In this work, we focus on the case of small bags, which allows designing more efficient algorithms by explicitly considering all consistent label combinations. In particular, we propose an EM algorithm alternating between optimizing a general neural network instance classifier and incorporating bag-level annotations. In comparison to existing deep LLP methods, our approach converges faster to a comparable or better solution. Several experiments were performed on two different datasets.
翻訳日:2021-10-11 11:55:18 公開日:2021-10-08
# 感情音声合成のための深層学習に基づく感情強度評価

StrengthNet: Deep Learning-based Emotion Strength Assessment for Emotional Speech Synthesis ( http://arxiv.org/abs/2110.03156v2 )

ライセンス: Link先を確認
Rui Liu, Berrak Sisman, Haizhou Li(参考訳) 近年,感情音声合成が目覚ましい成果を上げている。 合成音声の感情強度は、感情属性ランキング関数によって得られる強度記述子を用いて柔軟に制御することができる。 しかし、特定のデータに対する訓練されたランキング関数は、より現実的なケースに適用性を制限するような一般化が不十分である。 本稿では,強度予測のための深層学習に基づく感情強度評価ネットワークを提案する。 本モデルは,音響エンコーダ,強度予測器,補助感情予測器を含む構造を持つマルチタスク学習フレームワークに適合する。 データ拡張戦略をモデル一般化の改善に利用した。 実験により,提案した強度ネットの予測感情強度は,見知らぬ音声に対する真実スコアと高い相関が示された。 私たちのコードは、https://github.com/t tslr/StrengthNet.com で利用可能です。

Recently, emotional speech synthesis has achieved remarkable performance. The emotion strength of synthesized speech can be controlled flexibly using a strength descriptor, which is obtained by an emotion attribute ranking function. However, a trained ranking function on specific data has poor generalization, which limits its applicability for more realistic cases. In this paper, we propose a deep learning based emotion strength assessment network for strength prediction that is referred to as StrengthNet. Our model conforms to a multi-task learning framework with a structure that includes an acoustic encoder, a strength predictor and an auxiliary emotion predictor. A data augmentation strategy was utilized to improve the model generalization. Experiments show that the predicted emotion strength of the proposed StrengthNet are highly correlated with ground truth scores for seen and unseen speech. Our codes are available at: https://github.com/t tslr/StrengthNet.
翻訳日:2021-10-11 11:55:07 公開日:2021-10-08
# Manifold Learning を用いた時系列予測

Time Series Forecasting Using Manifold Learning ( http://arxiv.org/abs/2110.03625v2 )

ライセンス: Link先を確認
Panagiotis Papaioannou, Ronen Talmon, Daniela di Serafino, Constantinos Siettos(参考訳) 本研究では,高次元時系列の予測のための多様体学習に基づく3層数値フレームワークを提案する。 最初のステップでは、局所線形埋め込みや拡散写像のような非線形多様体学習アルゴリズムを用いて、時系列を低次元空間に埋め込む。 第2段階では,多様体上の低次回帰モデル,特に多変量自己回帰(MVAR)モデルとガウス過程回帰(GPR)モデルを構築し,組込み力学の予測を行う。 最後のステップでは、ラジアル基底関数補間と幾何高調波を用いて、埋め込み時系列を元の高次元空間に戻します。 本稿では, 線形および非線形確率モデルから生成される脳波信号に類似した3つの合成確率モデルと, 03/09/2001-29/10/202 0の10キー外国為替レート(FOREX)の日次時系列を含む1つの実世界のデータセットを用いて, 提案手法の予測性能を検証した。 提案した数値スキームの予測性能を,多様体学習,モデリング,昇降法の組み合わせを用いて評価した。 また,主成分分析アルゴリズムと,直感的ランダムウォークモデルとMVARおよびGPRモデルとの比較を行った。

We address a three-tier numerical framework based on manifold learning for the forecasting of high-dimensional time series. At the first step, we embed the time series into a reduced low-dimensional space using a nonlinear manifold learning algorithm such as Locally Linear Embedding and Diffusion Maps. At the second step, we construct reduced-order regression models on the manifold, in particular Multivariate Autoregressive (MVAR) and Gaussian Process Regression (GPR) models, to forecast the embedded dynamics. At the final step, we lift the embedded time series back to the original high-dimensional space using Radial Basis Functions interpolation and Geometric Harmonics. For our illustrations, we test the forecasting performance of the proposed numerical scheme with four sets of time series: three synthetic stochastic ones resembling EEG signals produced from linear and nonlinear stochastic models with different model orders, and one real-world data set containing daily time series of 10 key foreign exchange rates (FOREX) spanning the time period 03/09/2001-29/10/202 0. The forecasting performance of the proposed numerical scheme is assessed using the combinations of manifold learning, modelling and lifting approaches. We also provide a comparison with the Principal Component Analysis algorithm as well as with the naive random walk model and the MVAR and GPR models trained and implemented directly in the high-dimensional space.
翻訳日:2021-10-11 11:54:55 公開日:2021-10-08
# (参考訳) 高密度テキスト検索のためのadversarial retriever-ranker [全文訳有]

Adversarial Retriever-Ranker for dense text retrieval ( http://arxiv.org/abs/2110.03611v2 )

ライセンス: CC BY 4.0
Hang Zhang, Yeyun Gong, Yelong Shen, Jiancheng Lv, Nan Duan, Weizhu Chen(参考訳) 現在の高密度テキスト検索モデルは2つの典型的な課題に直面している。 まず、シアム二重エンコーダアーキテクチャを用いてクエリとドキュメントを独立に符号化し、高速インデックス化と検索を行う。 これにより、サブ最適リコール性能が得られる。 第2に、負のサンプリング手法に強く依存し、その対照的な損失で負のドキュメントを構築する。 これらの課題に対処するために、デュアルエンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker (AR2)を提案する。 この2つのモデルは、minimaxの敵意に従って協調的に最適化される: 検索者は、ランク付けを行うために負の文書を取得することを学び、ランク付け者は、基底と検索の両方を含む候補者のコレクションをランク付けすることを学び、デュアルエンコーダ検索者にプログレッシブな直接フィードバックを提供する。 この対戦ゲームを通じて、レトリバーは徐々により厳しい負の文書を生成してより良いランク付けを訓練する一方、クロスエンコーダローダはプログレッシブフィードバックを提供してレトリバーを改善する。 3つのベンチマークでAR2を評価する。 実験結果から、AR2は既存の高密度検索手法よりも一貫して大幅に優れており、これらすべてに対して新たな最先端の結果が得られている。 これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。 コード、モデル、データを公開します。

Current dense text retrieval models face two typical challenges. First, it adopts a siamese dual-encoder architecture to encode query and document independently for fast indexing and searching, whereas neglecting the finer-grained term-wise interactions. This results in a sub-optimal recall performance. Second, it highly relies on a negative sampling technique to build up the negative documents in its contrastive loss. To address these challenges, we present Adversarial Retriever-Ranker (AR2), which consists of a dual-encoder retriever plus a cross-encoder ranker. The two models are jointly optimized according to a minimax adversarial objective: the retriever learns to retrieve negative documents to cheat the ranker, while the ranker learns to rank a collection of candidates including both the ground-truth and the retrieved ones, as well as providing progressive direct feedback to the dual-encoder retriever. Through this adversarial game, the retriever gradually produces harder negative documents to train a better ranker, whereas the cross-encoder ranker provides progressive feedback to improve retriever. We evaluate AR2 on three benchmarks. Experimental results show that AR2 consistently and significantly outperforms existing dense retriever methods and achieves new state-of-the-art results on all of them. This includes the improvements on Natural Questions R@5 to 77.9%(+2.1%), TriviaQA R@5 to 78.2%(+1.4), and MS-MARCO MRR@10 to 39.5%(+1.3%). We will make our code, models, and data publicly available.
翻訳日:2021-10-11 11:53:49 公開日:2021-10-08
# moveFashion: ビデオとショッピングの課題のベンチマーク

MovingFashion: a Benchmark for the Video-to-Shop Challenge ( http://arxiv.org/abs/2110.02627v2 )

ライセンス: Link先を確認
Marco Godi, Christian Joppi, Geri Skenderi, Marco Cristani(参考訳) ソーシャルメディアビデオ(Instagram、TikTok)で着用される衣服の回収は、コンピュータビジョン文学において「ビデオ・トゥ・ショップ」と呼ばれるeファッションの最新のフロンティアである。 本稿では,この課題に対処した最初の公開データセットであるMovingFashionを紹介する。 movingFashionは14855のソーシャルビデオで構成されており、それぞれが、対応する衣服が明確に描かれたEコマースの「ショップ」イメージと関連付けられている。 また,このシナリオにおいて,SEAM Match-RCNNと呼ばれる店舗イメージを検索するネットワークを提案する。 このモデルは、画像からビデオへのドメイン適応によってトレーニングされ、ショップイメージとのみ関連づけられたビデオシーケンスを使用でき、数百万の注釈付きバウンディングボックスが不要になる。 SEAM Match-RCNNは、ソーシャルビデオのアテンションベースの重み付け和(10)が、最初の5つの検索項目で正しい製品を80%の精度で14K以上のショップエレメントギャラリーに分割するのに十分である埋め込みを構築する。 これは、関連する最先端のアプローチと代替のベースラインとを徹底的に比較して、MovingFashionで最高のパフォーマンスを提供する。

Retrieving clothes which are worn in social media videos (Instagram, TikTok) is the latest frontier of e-fashion, referred to as "video-to-shop" in the computer vision literature. In this paper we present MovingFashion, the first publicly available dataset to cope with this challenge. MovingFashion is composed of 14855 social videos, each one of them associated to e-commerce "shop" images where the corresponding clothing items are clearly portrayed. In addition, we present a network for retrieving the shop images in this scenario, dubbed SEAM Match-RCNN. The model is trained by image-to-video domain adaptation, allowing to use video sequences where only their association with a shop image is given, eliminating the need of millions of annotated bounding boxes. SEAM Match-RCNN builds an embedding, where an attention-based weighted sum of few frames (10) of a social video is enough to individuate the correct product within the first 5 retrieved items in a 14K+ shop element gallery with an accuracy of 80%. This provides the best performance on MovingFashion, comparing exhaustively against the related state-of-the-art approaches and alternative baselines.
翻訳日:2021-10-11 11:33:39 公開日:2021-10-08
# 言語モデルの継続的な学習に向けて

Towards Continual Knowledge Learning of Language Models ( http://arxiv.org/abs/2110.03215v2 )

ライセンス: Link先を確認
Joel Jang, Seonghyeon Ye, Sohee Yang, Joongbo Shin, Janghoon Han, Gyeonghun Kim, Stanley Jungkyu Choi, Minjoon Seo(参考訳) 大規模言語モデル(LM)は、膨大な量のWebコーパスを事前訓練し、質問応答、ファクトチェック、オープンダイアログなどの知識に依存した下流タスクを実行するためにしばしば使用される、世界の知識をパラメータにエンコードすることが知られている。 実世界のシナリオでは、LMに格納されている世界知識は、世界が変わるにつれて急速に時代遅れになることがあるが、破滅的な忘れ物を避け、不変知識を維持しながら確実に新しい知識を取得することは容易ではない。 常に変化するlmsのメンテナンスにコミュニティを向かわせるために,我々は,連続学習(ckl)と呼ばれる新しい連続学習(cl)問題を定式化する。 我々は、時間不変の世界知識の保持、時代遅れの知識の更新、新しい知識の獲得を定量化する新しいベンチマークとメトリクスを構築した。 我々は,最近の文献の手法を応用して,強固なベースラインを複数作成する。 大規模な実験により、CKLは従来のCLセットアップでは対処できない独特な課題を示し、パラメータ拡張は知識を確実に保持し、同時に学習するために必要であることがわかった。 知識を忘れることの重大な原因を強調することで、CKLはより理解し、常に変化するLMを訓練する上で、困難で重要な問題であることを示す。

Large Language Models (LMs) are known to encode world knowledge in their parameters as they pretrain on a vast amount of web corpus, which is often utilized for performing knowledge-dependent downstream tasks such as question answering, fact-checking, and open dialogue. In real-world scenarios, the world knowledge stored in the LMs can quickly become outdated as the world changes, but it is non-trivial to avoid catastrophic forgetting and reliably acquire new knowledge while preserving invariant knowledge. To push the community towards better maintenance of ever-changing LMs, we formulate a new continual learning (CL) problem called Continual Knowledge Learning (CKL). We construct a new benchmark and metric to quantify the retention of time-invariant world knowledge, the update of outdated knowledge, and the acquisition of new knowledge. We adopt applicable recent methods from literature to create several strong baselines. Through extensive experiments, we find that CKL exhibits unique challenges that are not addressed in previous CL setups, where parameter expansion is necessary to reliably retain and learn knowledge simultaneously. By highlighting the critical causes of knowledge forgetting, we show that CKL is a challenging and important problem that helps us better understand and train ever-changing LMs.
翻訳日:2021-10-11 11:33:23 公開日:2021-10-08
# グラフカーネルのための正規化Wassersteinフレームワーク

A Regularized Wasserstein Framework for Graph Kernels ( http://arxiv.org/abs/2110.02554v2 )

ライセンス: Link先を確認
Asiri Wijesinghe, Qing Wang, and Stephen Gould(参考訳) 本稿では,最適輸送の正規化に基づくグラフカーネルの学習フレームワークを提案する。 このフレームワークは、新しい最適輸送距離計量(Regularized Wasserstein (RW) 差分(英語版))を提供し、特徴とその局所的変動、局所的バリセンターおよびグローバル接続に関するワッサーシュタイン距離によるグラフの特徴と構造の両方を保存できる。 学習能力を向上させるために、2つの強い凸正規化項が導入される。 1つは、グラフ間の最適なアライメントを緩和し、それらの局所連結された頂点間のクラスタ間マッピングであり、グラフの局所的クラスタリング構造を維持することである。 もう1つは、グラフのグローバル構造をよりよく保存するためにノード次数分布を考慮することである。 また,最適化問題を高速に解くための効率的なアルゴリズムを考案した。 理論的には、このフレームワークはロバストであり、最適化における収束と数値安定性を保証できる。 我々は16の最先端ベースラインに対して12のデータセットを用いて実験的な検証を行った。 実験結果から,本手法は個々の属性を持つグラフと連続属性を持つグラフの両方に対して,すべてのベンチマークデータベース上で常に最先端の手法よりも優れていた。

We propose a learning framework for graph kernels, which is theoretically grounded on regularizing optimal transport. This framework provides a novel optimal transport distance metric, namely Regularized Wasserstein (RW) discrepancy, which can preserve both features and structure of graphs via Wasserstein distances on features and their local variations, local barycenters and global connectivity. Two strongly convex regularization terms are introduced to improve the learning ability. One is to relax an optimal alignment between graphs to be a cluster-to-cluster mapping between their locally connected vertices, thereby preserving the local clustering structure of graphs. The other is to take into account node degree distributions in order to better preserve the global structure of graphs. We also design an efficient algorithm to enable a fast approximation for solving the optimization problem. Theoretically, our framework is robust and can guarantee the convergence and numerical stability in optimization. We have empirically validated our method using 12 datasets against 16 state-of-the-art baselines. The experimental results show that our method consistently outperforms all state-of-the-art methods on all benchmark databases for both graphs with discrete attributes and graphs with continuous attributes.
翻訳日:2021-10-11 11:33:00 公開日:2021-10-08
# 位相相関ネットワークを用いた教師なし画像分解

Unsupervised Image Decomposition with Phase-Correlation Networks ( http://arxiv.org/abs/2110.03473v2 )

ライセンス: Link先を確認
Angel Villar-Corrales and Sven Behnke(参考訳) シーンをオブジェクトコンポーネントに分解する能力は、自律的なエージェントにとって望ましい特性であり、周囲で理屈と行動を可能にする。 近年,データから対象中心表現を教師なしで学習する手法が提案されている。 これらの手法は、ディープニューラルネットワークによって学習される潜在表現に依存することが多いため、高い計算コストと大量のキュレーションデータを必要とする。 このようなモデルは解釈も困難である。 これらの課題に対処するために,学習対象のプロトタイプセットの変換版として表現されたシーンをオブジェクトコンポーネントに分解する新しいモデルPCDNetを提案する。 PCDNetのコアビルディングブロックはPhase-Correlation Cell (PC Cell) であり、オブジェクトのプロトタイプと変換されたバージョンの間の変換を推定するために、画像の周波数領域表現を利用する。 実験では、PCDNetが、少数の学習可能なパラメータを使用し、完全に解釈可能でありながら、単純なベンチマークデータセットやより困難なデータ上で、教師なしのオブジェクト発見とセグメンテーションの最先端手法よりも優れていることを示す。

The ability to decompose scenes into their object components is a desired property for autonomous agents, allowing them to reason and act in their surroundings. Recently, different methods have been proposed to learn object-centric representations from data in an unsupervised manner. These methods often rely on latent representations learned by deep neural networks, hence requiring high computational costs and large amounts of curated data. Such models are also difficult to interpret. To address these challenges, we propose the Phase-Correlation Decomposition Network (PCDNet), a novel model that decomposes a scene into its object components, which are represented as transformed versions of a set of learned object prototypes. The core building block in PCDNet is the Phase-Correlation Cell (PC Cell), which exploits the frequency-domain representation of the images in order to estimate the transformation between an object prototype and its transformed version in the image. In our experiments, we show how PCDNet outperforms state-of-the-art methods for unsupervised object discovery and segmentation on simple benchmark datasets and on more challenging data, while using a small number of learnable parameters and being fully interpretable.
翻訳日:2021-10-11 11:32:41 公開日:2021-10-08
# 非公開戦略対応型オンラインマルコフ決定プロセス

Online Markov Decision Processes with Non-oblivious Strategic Adversary ( http://arxiv.org/abs/2110.03604v2 )

ライセンス: Link先を確認
Le Cong Dinh, David Henry Mguni, Long Tran-Thanh, Jun Wang, Yaodong Yang(参考訳) オンラインマルコフ決定過程 (omdps) における新たな設定について検討し, 損失関数は非外的後悔アルゴリズムに従う非聖書的戦略敵によって選択される。 この設定では、既存のアルゴリズムである MDP-Expert が依然として適用可能であることを初めて証明し、$\mathcal{O}(\sqrt{T \log(L)}+\tau^2\sqrt{T \log(|A|)})$ のポリシー再帰を達成でき、$L$ は敵の純粋な戦略セットのサイズであり、$|A|$ はエージェントのアクション空間のサイズを表す。 MDP-Online Oracle Expert (MDP-OOE) は, NEのサポートサイズが小さい実世界のゲームを考えると, NEのサポートサイズのみに依存する$\mathcal{O}(\sqrt{T\log(L)}+\tau^2\sqrt{T k \log(k)})$である。 MDP-OOEはゲーム理論においてDouble Oracleの重要な利点を生かし、したがって違法に大きなアクション空間を持つゲームを解くことができる。 最後に,no-regret法の学習ダイナミクスをよりよく理解するために,omdpsにおけるno-external regret adversaryと同じ設定下で,neへの最終収束結果を達成するアルゴリズムを提案する。 私たちの知る限りでは、これがOMDPの最終イテレーション結果につながる最初の作業です。

We study a novel setting in Online Markov Decision Processes (OMDPs) where the loss function is chosen by a non-oblivious strategic adversary who follows a no-external regret algorithm. In this setting, we first demonstrate that MDP-Expert, an existing algorithm that works well with oblivious adversaries can still apply and achieve a policy regret bound of $\mathcal{O}(\sqrt{T \log(L)}+\tau^2\sqrt{ T \log(|A|)})$ where $L$ is the size of adversary's pure strategy set and $|A|$ denotes the size of agent's action space. Considering real-world games where the support size of a NE is small, we further propose a new algorithm: MDP-Online Oracle Expert (MDP-OOE), that achieves a policy regret bound of $\mathcal{O}(\sqrt{T\log(L)}+\tau^2\sqrt{ T k \log(k)})$ where $k$ depends only on the support size of the NE. MDP-OOE leverages the key benefit of Double Oracle in game theory and thus can solve games with prohibitively large action space. Finally, to better understand the learning dynamics of no-regret methods, under the same setting of no-external regret adversary in OMDPs, we introduce an algorithm that achieves last-round convergence result to a NE. To our best knowledge, this is first work leading to the last iteration result in OMDPs.
翻訳日:2021-10-11 11:32:19 公開日:2021-10-08
# 軌道予測による状態不確かさの伝播

Propagating State Uncertainty Through Trajectory Forecasting ( http://arxiv.org/abs/2110.03267v2 )

ライセンス: Link先を確認
Boris Ivanovic, Yifeng Lin, Shubham Shrivastava, Punarjay Chakravarty, Marco Pavone(参考訳) 不確実性は、ほぼすべてのコンポーネント(センサ、検出、分類、追跡、行動予測など)が連続的あるいは離散的な確率分布を生成する現代のロボット自律スタックを貫く。 特に軌道予測は上流の知覚によって(ノイズの多い)入力が生成されるため不確実性に囲まれており、その出力は下流の計画でしばしば使用される確率的な予測である。 しかし、ほとんどの軌道予測手法は上流の不確かさを考慮せず、最も類似した値のみを取る。 その結果、知覚の不確実性は予測によって伝播せず、しばしば過信される。 そこで本研究では, 軌跡予測における知覚状態の不確実性を取り入れた新しい手法を提案する。 本手法は, 実世界の大規模データを用いて, 予測による知覚状態の不確かさの伝播と, より校正された予測の導出に有効であることを示す。

Uncertainty pervades through the modern robotic autonomy stack, with nearly every component (e.g., sensors, detection, classification, tracking, behavior prediction) producing continuous or discrete probabilistic distributions. Trajectory forecasting, in particular, is surrounded by uncertainty as its inputs are produced by (noisy) upstream perception and its outputs are predictions that are often probabilistic for use in downstream planning. However, most trajectory forecasting methods do not account for upstream uncertainty, instead taking only the most-likely values. As a result, perceptual uncertainties are not propagated through forecasting and predictions are frequently overconfident. To address this, we present a novel method for incorporating perceptual state uncertainty in trajectory forecasting, a key component of which is a new statistical distance-based loss function which encourages predicting uncertainties that better match upstream perception. We evaluate our approach both in illustrative simulations and on large-scale, real-world data, demonstrating its efficacy in propagating perceptual state uncertainty through prediction and producing more calibrated predictions.
翻訳日:2021-10-11 11:31:48 公開日:2021-10-08
# オランダにおける自然言語推論のための論理型フレームワーク

A Logic-Based Framework for Natural Language Inference in Dutch ( http://arxiv.org/abs/2110.03323v2 )

ライセンス: Link先を確認
Lasha Abzianidze and Konstantinos Kogkalidis(参考訳) オランダ語文ペア間の推論関係を導出する枠組みを提案する。 提案されたフレームワークは推論ラベルにつながる検査可能な証明を生成するために論理に基づく推論に依存している。 システムの中心となるのは2つの${\lambda}$-calculiで、それぞれ構文理論と意味論として使われている。 文はまず、AlpinoベースのパイプラインとNeural Proof Netsという2つのパーサーを選択して、線形${\lambda}$-calculusの構文証明と用語に変換される。 構文用語は、単純型付けされた${\lambda}$-calculusのセマンティック用語に変換され、手書きの型と項レベルの変換によって変換される。 意味項の対は自然論理の自動定理証明者に与えられ、それはオープン・オランダ語のwordnetで見られる語彙関係を使いながら、それらの原因となる。 我々は、最近作成されたオランダの自然言語推論データセットの推論パイプラインを評価し、有望な結果を達成し、強力なニューラルネットワークベースラインに対して1.1-3.2{\%}$のパフォーマンスマージンに留まった。 私たちの知る限りでは、推論パイプラインはオランダ語で最初の論理ベースのシステムです。

We present a framework for deriving inference relations between Dutch sentence pairs. The proposed framework relies on logic-based reasoning to produce inspectable proofs leading up to inference labels; its judgements are therefore transparent and formally verifiable. At its core, the system is powered by two ${\lambda}$-calculi, used as syntactic and semantic theories, respectively. Sentences are first converted to syntactic proofs and terms of the linear ${\lambda}$-calculus using a choice of two parsers: an Alpino-based pipeline, and Neural Proof Nets. The syntactic terms are then converted to semantic terms of the simply typed ${\lambda}$-calculus, via a set of hand designed type- and term-level transformations. Pairs of semantic terms are then fed to an automated theorem prover for natural logic which reasons with them while using lexical relations found in the Open Dutch WordNet. We evaluate the reasoning pipeline on the recently created Dutch natural language inference dataset, and achieve promising results, remaining only within a $1.1-3.2{\%}$ performance margin to strong neural baselines. To the best of our knowledge, the reasoning pipeline is the first logic-based system for Dutch.
翻訳日:2021-10-11 11:31:31 公開日:2021-10-08