このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211220となっている論文です。

PDF登録状況(公開日: 20211220)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) FIFAランキング:評価と進路 [全文訳有]

FIFA ranking: Evaluation and path forward ( http://arxiv.org/abs/2201.00691v1 )

ライセンス: CC BY 4.0
Leszek Szczecinski and Iris-Ioana Roatis(参考訳) 本研究では,f\'ed\'eration internationale de football association (fifa) が使用するランキングアルゴリズムを調査し,現在使用しているパラメータを分析し,その導出可能な形式的確率モデルを示し,後者を最適化する。 特に、2018年のアルゴリズム導入以来のゲーム分析において、アルゴリズムで使用されるゲームの「importance」(fifaで定義されている)は、アルゴリズムの予測能力の観点からは非生産的であると結論づけた。 また、1970年に提案されたデービッドソンモデルが優れた候補となり、現在使われているアルゴリズムの形式を保存するという形式的モデリング原理に根ざしたアルゴリズムを仮定する。 その結果,ホームフィールド・アドバンテージとゲーム中のドローの明示的モデルを用いて,アルゴリズムの予測能力が顕著に向上していることが示唆された。 適度だが注目すべき改善は、公式なモデリング原理に根ざしていないが、現在のアルゴリズムと互換性があり、サッカー競技の特徴に合わせて調整できるゴール差によって結果の重み付けを導入することで達成される。

In this work we study the ranking algorithm used by F\'ed\'eration Internationale de Football Association (FIFA); we analyze the parameters it currently uses, show the formal probabilistic model from which it can be derived, and optimize the latter. In particular, analyzing the games since the introduction of the algorithm in 2018, we conclude that the game's "importance" (as defined by FIFA) used in the algorithm is counterproductive from the point of view of the predictive capability of the algorithm. We also postulate the algorithm to be rooted in the formal modelling principle, where the Davidson model proposed in 1970 seems to be an excellent candidate, preserving the form of the algorithm currently used. The results indicate that the predictive capability of the algorithm is notably improved by using the home-field advantage and the explicit model for the draws in the game. Moderate, but notable improvement may be attained by introducing the weighting of the results with the goal differential, which although not rooted in a formal modelling principle, is compatible with the current algorithm and can be tuned to the characteristics of the football competition.
翻訳日:2022-01-09 16:34:12 公開日:2021-12-20
# コミュニティプールによるtwitterのトピックモデリングの改善

Improved Topic modeling in Twitter through Community Pooling ( http://arxiv.org/abs/2201.00690v1 )

ライセンス: Link先を確認
Federico Albanese and Esteban Feuerstein(参考訳) ソーシャルネットワークは情報とニュースの伝播において基本的な役割を果たす。 メッセージの内容の特徴付けは、ニュースの速報検出、パーソナライズされたメッセージレコメンデーション、フェイクユーザ検出、情報フローキャラクタリゼーションなど、さまざまなタスクにおいて不可欠である。 しかし、twitterの投稿は他のテキスト文書よりも短く、一貫性が低いため、これらのデータセットにテキストマイニングアルゴリズムを効率的に適用することは困難である。 ツイートプーリング(より長いドキュメントにツイートを集約する)は、トピックの自動分解を改善することが示されているが、このタスクで達成されるパフォーマンスは、プーリング方法によって異なる。 本稿では,twitter におけるトピックモデリングのための新たなプール方式を提案する。この手法では,同一コミュニティ(主に相互に対話するが,他のグループとは関係のないユーザグループ)に属するツイートを,ユーザインタラクショングラフ上でグループ化する。 本稿では,クラスタ品質,文書検索タスクの性能,教師付き機械学習分類スコアなどの観点から,この手法の完全評価,技術スキームの現状,以前のプールモデルについて述べる。 その結果, コミュニティポーリング手法は, 2つの異種データセットのメトリクスの大多数において, 他の手法よりも優れており, 実行時間を短縮できることがわかった。 これは、大量のノイズと短いユーザ生成ソーシャルメディアテキストを扱う場合に有用である。 本研究の結果は,トピック分解モデルの基本機構を変更することなく,Twitterデータセット内の潜在トピックを識別する手法の改善に寄与する。

Social networks play a fundamental role in propagation of information and news. Characterizing the content of the messages becomes vital for different tasks, like breaking news detection, personalized message recommendation, fake users detection, information flow characterization and others. However, Twitter posts are short and often less coherent than other text documents, which makes it challenging to apply text mining algorithms to these datasets efficiently. Tweet-pooling (aggregating tweets into longer documents) has been shown to improve automatic topic decomposition, but the performance achieved in this task varies depending on the pooling method. In this paper, we propose a new pooling scheme for topic modeling in Twitter, which groups tweets whose authors belong to the same community (group of users who mainly interact with each other but not with other groups) on a user interaction graph. We present a complete evaluation of this methodology, state of the art schemes and previous pooling models in terms of the cluster quality, document retrieval tasks performance and supervised machine learning classification score. Results show that our Community polling method outperformed other methods on the majority of metrics in two heterogeneous datasets, while also reducing the running time. This is useful when dealing with big amounts of noisy and short user-generated social media texts. Overall, our findings contribute to an improved methodology for identifying the latent topics in a Twitter dataset, without the need of modifying the basic machinery of a topic decomposition model.
翻訳日:2022-01-09 13:27:28 公開日:2021-12-20
# (参考訳) 道路資産の予測保守計画のための深層強化学習モデル:LCCAとLCCAの統合 [全文訳有]

A deep reinforcement learning model for predictive maintenance planning of road assets: Integrating LCA and LCCA ( http://arxiv.org/abs/2112.12589v1 )

ライセンス: CC BY 4.0
Fateme Golivand Darvishvand, Moen Latifi(参考訳) 道路維持計画は道路資産管理の不可欠な部分である。 メンテナンスとリハビリテーション(M&R)のプラクティスにおける大きな課題のひとつは、メンテナンスのタイプとタイミングを決定することです。 本研究では,Long Term Pavement Performance (LTPP)データベースに基づく強化学習(RL)を用いて,M&R実践のタイプとタイミングを決定するフレームワークを提案する。 予測型DNNモデルは、RLアルゴリズムの環境として機能する提案アルゴリズムで最初に開発された。 RLモデルのポリシー推定には、DQNモデルとPPOモデルの両方が開発された。 しかし、PPOは、収束性の向上と試料効率の向上により最終的に選択されている。 本研究で用いた指標は国際粗度指数(IRI)とラッティング深さ(RD)である。 当初,3番目の指標として亀裂量(CM)を検討したが,他の指標に比べてデータが少ないため除外され,結果の精度が低下した。 さらに,費用対効果計算(リワード)においては,M&R処理の経済的および環境的影響を考察した。 コストと環境への影響はpaLATE 2.0ソフトウェアで評価されている。 本手法は,暖かく湿潤な気候のテキサスに23kmの長さの6車線の高速道路を想定したケーススタディで検証した。 その結果,道路条件が良好な条件域に留まる20年間のM&R計画が提案された。 道路の初期の状態は十分なサービスレベルにあるため、最初の数年間で大規模な保守作業は不要である。 その後、重度のM&R作用の後、治療の必要のない1~2年が経過する。 これらの全ては、提案された計画に論理的な結果があることを示している。 意思決定者や交通機関は、このスキームを利用して、予算の無駄を防止し、同時に環境への影響を最小限に抑える、より良いメンテナンスの実践を行うことができる。

Road maintenance planning is an integral part of road asset management. One of the main challenges in Maintenance and Rehabilitation (M&R) practices is to determine maintenance type and timing. This research proposes a framework using Reinforcement Learning (RL) based on the Long Term Pavement Performance (LTPP) database to determine the type and timing of M&R practices. A predictive DNN model is first developed in the proposed algorithm, which serves as the Environment for the RL algorithm. For the Policy estimation of the RL model, both DQN and PPO models are developed. However, PPO has been selected in the end due to better convergence and higher sample efficiency. Indicators used in this study are International Roughness Index (IRI) and Rutting Depth (RD). Initially, we considered Cracking Metric (CM) as the third indicator, but it was then excluded due to the much fewer data compared to other indicators, which resulted in lower accuracy of the results. Furthermore, in cost-effectiveness calculation (reward), we considered both the economic and environmental impacts of M&R treatments. Costs and environmental impacts have been evaluated with paLATE 2.0 software. Our method is tested on a hypothetical case study of a six-lane highway with 23 kilometers length located in Texas, which has a warm and wet climate. The results propose a 20-year M&R plan in which road condition remains in an excellent condition range. Because the early state of the road is at a good level of service, there is no need for heavy maintenance practices in the first years. Later, after heavy M&R actions, there are several 1-2 years of no need for treatments. All of these show that the proposed plan has a logical result. Decision-makers and transportation agencies can use this scheme to conduct better maintenance practices that can prevent budget waste and, at the same time, minimize the environmental impacts.
翻訳日:2021-12-25 06:08:38 公開日:2021-12-20
# calabi-yauメトリクス、エネルギー機能、機械学習

Calabi-Yau Metrics, Energy Functionals and Machine-Learning ( http://arxiv.org/abs/2112.10872v1 )

ライセンス: Link先を確認
Anthony Ashmore, Lucille Calmon, Yang-Hui He, Burt A. Ovrut(参考訳) 数値カラビ・ヤウ測度を求める問題に対して機械学習を適用した。 我々は,donaldsonのアルゴリズムを用いて計算した近似リッチフラットメトリックスを,headrickとnassarのより正確な"最適"メトリックスに拡張した。 機械学習は、少数のトレーニングデータのサンプルしか見ていないカラビ・ヤウ計量のK\'ahlerポテンシャルを予測することができることを示す。

We apply machine learning to the problem of finding numerical Calabi-Yau metrics. We extend previous work on learning approximate Ricci-flat metrics calculated using Donaldson's algorithm to the much more accurate "optimal" metrics of Headrick and Nassar. We show that machine learning is able to predict the K\"ahler potential of a Calabi-Yau metric having seen only a small sample of training data.
翻訳日:2021-12-24 16:23:07 公開日:2021-12-20
# マルチUAV経路計画のための注意に基づくコミュニケーションと制御

Attention Based Communication and Control for Multi-UAV Path Planning ( http://arxiv.org/abs/2112.12584v1 )

ライセンス: Link先を確認
Hamid Shiri and Hyowoon Seo and Jihong Park and Mehdi Bennis(参考訳) 自然言語処理におけるマルチヘッドアテンション(MHA)機構に着想を得て,多UAV経路計画のための反復的単一ヘッドアテンション(ISHA)機構を提案する。 ISHA機構は、UAVの状態埋め込みを収集し、各UAVに注目スコアベクトルを分散する通信ヘルパによって実行される。 ISHAが計算した注目スコアは、各UAVの制御決定において、他のUAVとの相互作用が考慮されるべき数を特定する。 シミュレーションの結果、ISHAベースの通信制御フレームワークは、特に限られた通信資源下でのMHA支援ベースラインよりも、UAV間の衝突リスクの低い高速走行を実現する。

Inspired by the multi-head attention (MHA) mechanism in natural language processing, this letter proposes an iterative single-head attention (ISHA) mechanism for multi-UAV path planning. The ISHA mechanism is run by a communication helper collecting the state embeddings of UAVs and distributing an attention score vector to each UAV. The attention scores computed by ISHA identify how many interactions with other UAVs should be considered in each UAV's control decision-making. Simulation results corroborate that the ISHA-based communication and control framework achieves faster travel with lower inter-UAV collision risks than an MHA-aided baseline, particularly under limited communication resources.
翻訳日:2021-12-24 16:20:24 公開日:2021-12-20
# テストケース多様性によるディープニューラルネットワークのブラックボックステスト

Black-Box Testing of Deep Neural Networks through Test Case Diversity ( http://arxiv.org/abs/2112.12591v1 )

ライセンス: Link先を確認
Zohreh Aghababaeyan, Manel Abdellatif, Lionel Briand, Ramesh S, and Mojtaba Bagherzadeh(参考訳) ディープニューラルネットワーク(DNN)は、画像処理、医療診断、自動運転など、多くの分野で広く利用されている。 しかし、DNNは、特に安全クリティカルシステムで使用される場合、重大なエラーを引き起こす可能性のある誤動作を示す可能性がある。 従来のソフトウェアシステムのテスト技術に触発されて、研究者はDNNモデルのテストのガイドとして、ソースコードカバレッジに類似したニューロンカバレッジ基準を提案した。 DNNのカバレッジに関する非常に活発な研究にもかかわらず、近年のいくつかの研究は、DNNテストの指針となる基準の有用性を疑問視している。 さらに、現実的な観点からは、これらの基準は、DNNモデルの内部や訓練データへのアクセスを必要とするため、ホワイトボックスである。 本稿では,ホワイトボックスのカバレッジ基準に代わるブラックボックス入力の多様性指標について検討する。 この目的のために,我々はまず3つの多様性指標を選択・適応し,入力セットの実際の多様性を計測する能力について検討する。 次に,2つのデータセットと3つのDNNモデルを用いて,断層検出の統計的関連を分析する。 さらに多様性を最先端のホワイトボックスカバレッジ基準と比較する。 実験の結果,テスト入力セットに埋め込まれた画像特徴の多様性に依存することは,DNNの検査を効果的に導くためのカバレッジ基準よりも信頼性の高い指標であることが示唆された。 実際、我々の選択したブラックボックスの多様性指標の1つは、フォールトリーベイリング能力や計算時間の観点から、既存のカバレッジ基準よりもはるかに優れています。 結果、最先端のカバレッジメトリクスは、自然入力で可能な限り多くの障害を検出するテスト入力セットの構築を導くのに不十分である、という疑念も確認できた。

Deep Neural Networks (DNNs) have been extensively used in many areas including image processing, medical diagnostics, and autonomous driving. However, DNNs can exhibit erroneous behaviours that may lead to critical errors, especially when used in safety-critical systems. Inspired by testing techniques for traditional software systems, researchers have proposed neuron coverage criteria, as an analogy to source code coverage, to guide the testing of DNN models. Despite very active research on DNN coverage, several recent studies have questioned the usefulness of such criteria in guiding DNN testing. Further, from a practical standpoint, these criteria are white-box as they require access to the internals or training data of DNN models, which is in many contexts not feasible or convenient. In this paper, we investigate black-box input diversity metrics as an alternative to white-box coverage criteria. To this end, we first select and adapt three diversity metrics and study, in a controlled manner, their capacity to measure actual diversity in input sets. We then analyse their statistical association with fault detection using two datasets and three DNN models. We further compare diversity with state-of-the-art white-box coverage criteria. Our experiments show that relying on the diversity of image features embedded in test input sets is a more reliable indicator than coverage criteria to effectively guide the testing of DNNs. Indeed, we found that one of our selected black-box diversity metrics far outperforms existing coverage criteria in terms of fault-revealing capability and computational time. Results also confirm the suspicions that state-of-the-art coverage metrics are not adequate to guide the construction of test input sets to detect as many faults as possible with natural inputs.
翻訳日:2021-12-24 14:58:08 公開日:2021-12-20
# 適応型雑音共分散行列推定法とフィルタリング法:マルチオブジェクト追跡への応用

A New Adaptive Noise Covariance Matrices Estimation and Filtering Method: Application to Multi-Object Tracking ( http://arxiv.org/abs/2112.12082v1 )

ライセンス: Link先を確認
Chao Jiang, Zhiling Wang, Shuhang Tan, and Huawei Liang(参考訳) カルマンフィルタは物体追跡に広く使われており、一般にプロセスと測定ノイズは正確に知られ、一定であると考えられている。 しかし、正確な既知かつ定常的な仮定が常に成り立つとは限らない。 例えば、ライダーを用いて非協調目標を追跡する場合、測定ノイズは異なる距離と気象条件下で異なる。 また、特に追跡対象が歩行者である場合には、プロセスノイズが物体の運動状態とともに変化し、プロセスノイズがより頻繁に変化する。 本稿では,カルマンフィルタ法と測定ノイズ共分散行列をオンライン上で推定するための新しい推定・校正閉ループ推定法を提案する。 まず、ノイズ共分散行列を要素分布行列と雑音強度に分解し、Sageフィルタを改善して要素分布行列を推定する。 第2に,ノイズ強度偏差を正確に診断するキャリブレーション手法を提案する。 次に,オンラインの雑音強度を適応的に補正する手法を提案する。 第三に、システムが検出可能であると仮定すると、提案手法の偏りや収束が数学的に証明される。 シミュレーションの結果,提案手法の有効性と信頼性が示された。 最後に,提案手法をライダーの多目的追跡に適用し,それを公式のKITTIサーバ上で評価する。 kitti pedestrian multiobject tracking leaderboard (http://www.cvlibs.n et/datasets /kitti/eval_tracking .php) で提案された手法はlidarを使用する既存の手法を全て上回っており、実際にこの手法が実現可能であることを証明している。 この作業は、Kalmanフィルタとマルチオブジェクトトラッキングのパフォーマンスを改善する新しい方法を提供する。

Kalman filters are widely used for object tracking, where process and measurement noise are usually considered accurately known and constant. However, the exact known and constant assumptions do not always hold in practice. For example, when lidar is used to track noncooperative targets, the measurement noise is different under different distances and weather conditions. In addition, the process noise changes with the object's motion state, especially when the tracking object is a pedestrian, and the process noise changes more frequently. This paper proposes a new estimation-calibrati on-correction closed-loop estimation method to estimate the Kalman filter process and measurement noise covariance matrices online. First, we decompose the noise covariance matrix into an element distribution matrix and noise intensity and improve the Sage filter to estimate the element distribution matrix. Second, we propose a calibration method to accurately diagnose the noise intensity deviation. We then propose a correct method to adaptively correct the noise intensity online. Third, under the assumption that the system is detectable, the unbiased and convergence of the proposed method is mathematically proven. Simulation results prove the effectiveness and reliability of the proposed method. Finally, we apply the proposed method to multiobject tracking of lidar and evaluate it on the official KITTI server. The proposed method on the KITTI pedestrian multiobject tracking leaderboard (http://www.cvlibs.n et/datasets /kitti/eval_tracking .php) surpasses all existing methods using lidar, proving the feasibility of the method in practical applications. This work provides a new way to improve the performance of the Kalman filter and multiobject tracking.
翻訳日:2021-12-23 15:41:06 公開日:2021-12-20
# 変分量子ソフトアクター臨界

Variational Quantum Soft Actor-Critic ( http://arxiv.org/abs/2112.11921v1 )

ライセンス: Link先を確認
Qingfeng Lan(参考訳) 量子コンピューティングは整数分解やサイモンの問題といった特定の問題に対処する上で優位である。 機械学習におけるより一般的なタスクとして、変分量子回路を適用することで、特に教師なし学習や教師なし学習において、近年ますます多くの量子アルゴリズムが提案されている。 しかし、強化学習において、より重要で挑戦的な作業はほとんど行われていない。 量子強化学習における以前の研究は主に、アクション空間が離散的である離散制御タスクに焦点を当てている。 本研究では,連続制御のための最先端手法の一つであるソフトアクター批判に基づく量子強化学習アルゴリズムを開発する。 具体的には、変動量子回路と古典的人工ニューラルネットワークからなるハイブリッド量子古典政策ネットワークを用いる。 標準強化学習ベンチマークでテストした結果、このソフトアクタ-クリティックの量子バージョンは、調整可能なパラメータをはるかに少なくして、オリジナルのソフトアクタ-クリティックに匹敵することが示された。 さらに,量子強化学習におけるアーキテクチャ設計の重要性を指摘し,異なるハイパーパラメータとポリシーネットワークアーキテクチャの効果を分析した。

Quantum computing has a superior advantage in tackling specific problems, such as integer factorization and Simon's problem. For more general tasks in machine learning, by applying variational quantum circuits, more and more quantum algorithms have been proposed recently, especially in supervised learning and unsupervised learning. However, little work has been done in reinforcement learning, arguably more important and challenging. Previous work in quantum reinforcement learning mainly focuses on discrete control tasks where the action space is discrete. In this work, we develop a quantum reinforcement learning algorithm based on soft actor-critic -- one of the state-of-the-art methods for continuous control. Specifically, we use a hybrid quantum-classical policy network consisting of a variational quantum circuit and a classical artificial neural network. Tested in a standard reinforcement learning benchmark, we show that this quantum version of soft actor-critic is comparable with the original soft actor-critic, using much less adjustable parameters. Furthermore, we analyze the effect of different hyper-parameters and policy network architectures, pointing out the importance of architecture design for quantum reinforcement learning.
翻訳日:2021-12-23 15:09:59 公開日:2021-12-20
# 機械学習を用いた観察的研究による治療効果の予測:シミュレーションによる検討

Predicting treatment effects from observational studies using machine learning methods: A simulation study ( http://arxiv.org/abs/2112.12083v1 )

ライセンス: Link先を確認
Bevan I. Smith and Charles Chimedza(参考訳) 観察研究における治療効果の測定は, 偏りが原因で困難である。 相違は、ある変数が治療と結果の両方に影響を及ぼすときに起こる。 コンディショニングによって治療効果を推定するプロペンシティスコアマッチングのような伝統的な方法。 近年の文献では、機械学習を用いて観察研究の反事実を予測し、治療効果を推定する手法が提案されている。 しかしこれらの研究は、真の治療効果が知られていない実世界データに適用されている。 本研究は,2つの主要なシナリオを共起することなくシミュレーションし,本手法の有効性を検討することを目的とした。 各タイプには、入力データと出力データの間の線形および非線形関係も含まれていた。 シミュレーションの重要項目は、既知の真の因果効果を生成したことです。 リニア回帰,ラッソ回帰,ランダム森林モデルを用いて,対策効果と治療効果を予測した。 これらの結果から, 真の治療効果とナイーブな治療効果を比較した。 その結果、この機械学習手法が有効であるかどうかの最も重要な要因は、データの非線形性の度合いであることがわかった。 驚くべきことに、非確立の \textit{and} コンファウンディングでは、マシンラーニングモデルはすべて、線形データセット上でうまく動作します。 しかし、非線形性が導入されると、モデルは非常に性能が悪かった。 したがって, このシミュレーション研究の条件下では, 共起が存在する場合でも, 線形性の条件下では機械学習手法が良好に機能するが, この段階では非線形性を導入しても信頼できない。

Measuring treatment effects in observational studies is challenging because of confounding bias. Confounding occurs when a variable affects both the treatment and the outcome. Traditional methods such as propensity score matching estimate treatment effects by conditioning on the confounders. Recent literature has presented new methods that use machine learning to predict the counterfactuals in observational studies which then allow for estimating treatment effects. These studies however, have been applied to real world data where the true treatment effects have not been known. This study aimed to study the effectiveness of this counterfactual prediction method by simulating two main scenarios: with and without confounding. Each type also included linear and non-linear relationships between input and output data. The key item in the simulations was that we generated known true causal effects. Linear regression, lasso regression and random forest models were used to predict the counterfactuals and treatment effects. These were compared these with the true treatment effect as well as a naive treatment effect. The results show that the most important factor in whether this machine learning method performs well, is the degree of non-linearity in the data. Surprisingly, for both non-confounding \textit{and} confounding, the machine learning models all performed well on the linear dataset. However, when non-linearity was introduced, the models performed very poorly. Therefore under the conditions of this simulation study, the machine learning method performs well under conditions of linearity, even if confounding is present, but at this stage should not be trusted when non-linearity is introduced.
翻訳日:2021-12-23 15:09:20 公開日:2021-12-20
# (参考訳) 深層ニューラルネットワークを用いたホログラフィック情報隠蔽における埋め込みホログラムの画質向上 [全文訳有]

Image quality enhancement of embedded holograms in holographic information hiding using deep neural networks ( http://arxiv.org/abs/2112.11246v1 )

ライセンス: CC BY 4.0
Tomoyoshi Shimobaba and Sota Oshima and Takashi Kakue and and Tomoyoshi Ito(参考訳) ホログラム情報隠蔽はホログラムや画像を別のホログラムに埋め込む技術であり、ホログラムの著作権保護とステガノグラフィーに用いられる。 ディープニューラルネットワークを用いて、埋め込みホログラムの視覚的品質を改善する方法を提供する。 埋め込みホログラムの明るさはホストホログラムの明るさの分数に設定され、ホストホログラムの再構成画像はほとんど損傷しない。 しかし, ホログラムの再構成画像は再構成されたホスト画像よりも暗いため, 知覚が難しい。 本研究では,深層ニューラルネットワークを用いて暗画像の復元を行う。

Holographic information hiding is a technique for embedding holograms or images into another hologram, used for copyright protection and steganography of holograms. Using deep neural networks, we offer a way to improve the visual quality of embedded holograms. The brightness of an embedded hologram is set to a fraction of that of the host hologram, resulting in a barely damaged reconstructed image of the host hologram. However, it is difficult to perceive because the embedded hologram's reconstructed image is darker than the reconstructed host image. In this study, we use deep neural networks to restore the darkened image.
翻訳日:2021-12-23 02:17:57 公開日:2021-12-20
# (参考訳) RetroComposer: 再合成予測のためのテンプレートによる新しい反応の発見 [全文訳有]

RetroComposer: Discovering Novel Reactions by Composing Templates for Retrosynthesis Prediction ( http://arxiv.org/abs/2112.11225v1 )

ライセンス: CC BY 4.0
Chaochao Yan, Peilin Zhao, Chan Lu, Yang Yu, Junzhou Huang(参考訳) レトロ合成の主目的は、所望の分子を利用可能な構成要素に再帰的に分解することである。 既存のテンプレートベースの逆合成法は、テンプレート選択ステレオタイプに従い、限られたトレーニングテンプレートに悩まされ、新しい反応を発見するのを妨げている。 この限界を克服するため,我々は,新しいテンプレートを訓練テンプレートを超えて構成できる,革新的なレトロシンセシス予測フレームワークを提案する。 われわれが知る限りでは、これはレトロシンセシス予測のための新しいテンプレートを見つける最初の方法である。 さらに,原子レベルの変換情報をキャプチャ可能な効果的な反応候補スコアリングモデルを提案する。 実験結果から,USPTO-50Kデータセットでは,トレーニングテンプレートでカバーされていない21の試験反応を含む328の試験反応に対して,新しいテンプレートを作成できることが示唆された。

The main target of retrosynthesis is to recursively decompose desired molecules into available building blocks. Existing template-based retrosynthesis methods follow a template selection stereotype and suffer from the limited training templates, which prevents them from discovering novel reactions. To overcome the limitation, we propose an innovative retrosynthesis prediction framework that can compose novel templates beyond training templates. So far as we know, this is the first method that can find novel templates for retrosynthesis prediction. Besides, we propose an effective reactant candidates scoring model that can capture atom-level transformation information, and it helps our method outperform existing methods by a large margin. Experimental results show that our method can produce novel templates for 328 test reactions in the USPTO-50K dataset, including 21 test reactions that are not covered by the training templates.
翻訳日:2021-12-23 02:12:37 公開日:2021-12-20
# (参考訳) 投影スライスwasersteinオートエンコーダに基づくハイパースペクトル画像異常検出 [全文訳有]

Projected Sliced Wasserstein Autoencoder-based Hyperspectral Images Anomaly Detection ( http://arxiv.org/abs/2112.11243v1 )

ライセンス: CC BY 4.0
Yurong Chen, Hui Zhang, Yaonan Wang, Q. M. Jonathan Wu, Yimin Yang(参考訳) 異常検出とは、様々な領域で活発な研究領域である正常なパターンから逸脱した観察を識別することである。 近年,データスケール,複雑性,次元の増大により,従来の表現や統計に基づく異常検出手法が困難になってきている。 本稿では,ハイパースペクトル画像の異常検出における生成モデルを活用する。 gistは正規データの分布をモデル化し、out-of-distributionサンプルはoutlierと見なすことができる。 まず,変分推論に基づく異常検出手法について検討した。 理論上、経験的には、それらは正則化として働く距離(f$-divergence)という強い概念のために不安定である。 次に,f-divergenceよりも弱い分布尺度であるsliced wasserstein distanceについて述べる。 しかし、ランダムにスライスする回数は真の距離を推定することが困難である。 最後に,投影スライスされたwasserstein (psw) オートエンコーダに基づく異常スクリーニング法を提案する。 特に, 計算フレンドリな固有分解法を用いて, 主成分を高次元データのスライスとして求める。 さらに,提案する距離は閉形式で計算できるが,事前分布はガウス分布ではない。 種々の実世界のハイパースペクトル異常検出ベンチマークで実施した総合実験は,提案手法の優れた性能を示す。

Anomaly detection refers to identifying the observation that deviates from the normal pattern, which has been an active research area in various domains. Recently, the increasing data scale, complexity, and dimension turns the traditional representation and statistical-based outlier detection method into challenging. In this paper, we leverage the generative model in hyperspectral images anomaly detection. The gist is to model the distribution of the normal data, while the out-of-distribution sample can be viewed as the outlier. At first, the variational inference-based anomaly detection methods are investigated. We theoretically and empirically find that they are unstable due to the strong notion of distance ($f$-divergence) served as the regularization. Secondly, this paper introduces sliced Wasserstein distance, which is a weaker distribution measure compared with f-divergence. However, the number of randomly slicing poses a difficulty to estimate the true distance. In the end, we propose a projected sliced Wasserstein (PSW) autoencoder-based anomaly screening method. In particular, we leverage a computation-friendly eigen-decomposition method to find the principal component as slicing the high-dimensional data. Furthermore, our proposed distance can be calculated with the closed-form, even the prior distribution is not Gaussian. Comprehensive experiments conducted on various real-world hyperspectral anomaly detection benchmarks demonstrate the superior performance of our proposed method.
翻訳日:2021-12-23 01:59:40 公開日:2021-12-20
# (参考訳) マルチスペクトルイメージングに基づく粉粒度認識のための教師なし深層学習技術 [全文訳有]

Unsupervised deep learning techniques for powdery mildew recognition based on multispectral imaging ( http://arxiv.org/abs/2112.11242v1 )

ライセンス: CC BY 4.0
Alessandro Benfenati, Paola Causin, Roberto Oberti, Giovanni Stefanello(参考訳) 目的。 植物病の持続可能な管理は、経済的および環境的な影響をもたらすオープンチャレンジである。 最適な戦略は、現在の疾患症状の存在と程度を評価するのに好都合な条件下でのフィールドスカウトの人間的専門知識に依存している。 この労働集約的な作業は、スカウトすべき大野面積と、検出すべき早期症状のミリスケールの大きさとで複雑である。 これを踏まえて、画像による早期疾患の症状の検出は、このプロセスを自動化するための魅力的なアプローチであり、持続可能なコストで高いスループットの監視を可能にする。 メソッド。 さまざまな領域でディープラーニングが適用され、トレーニング手順を通じてフィルタを学習することにより、関連する画像特徴の自動選択が可能になる。 深層学習(Deep learning)は、植物病検出の分野にも最近参入した:このアイデアに続いて、この研究では、キュウリの葉に粉末状のミズーリを自動的に認識するディープラーニングアプローチを提案する。 本研究では,マルチスペクトルイメージングデータに適用する教師なし深層学習技術に着目し,オートエンコーダを用いた2つの疾患検出手法を提案する。 一 圧縮空間における特徴のクラスタ化 二 異常検出 結果だ 提案する2つのアプローチは定量的指標によって評価されている。 クラスタ化アプローチは、正確な予測を提供するためにそれ自体が完全には機能しないが、関連する情報を扱う。 異常検出は、非常に限られたラベル付きサンプルを持つ教師付きアーキテクチャの先行として、さらに活用される可能性がある。

Objectives. Sustainable management of plant diseases is an open challenge which has relevant economic and environmental impact. Optimal strategies rely on human expertise for field scouting under favourable conditions to assess the current presence and extent of disease symptoms. This labor-intensive task is complicated by the large field area to be scouted, combined with the millimeter-scale size of the early symptoms to be detected. In view of this, image-based detection of early disease symptoms is an attractive approach to automate this process, enabling a potential high throughput monitoring at sustainable costs. Methods. Deep learning has been successfully applied in various domains to obtain an automatic selection of the relevant image features by learning filters via a training procedure. Deep learning has recently entered also the domain of plant disease detection: following this idea, in this work we present a deep learning approach to automatically recognize powdery mildew on cucumber leaves. We focus on unsupervised deep learning techniques applied to multispectral imaging data and we propose the use of autoencoder architectures to investigate two strategies for disease detection: i) clusterization of features in a compressed space; ii) anomaly detection. Results. The two proposed approaches have been assessed by quantitative indices. The clusterization approach is not fully capable by itself to provide accurate predictions but it does cater relevant information. Anomaly detection has instead a significant potential of resolution which could be further exploited as a prior for supervised architectures with a very limited number of labeled samples.
翻訳日:2021-12-23 01:35:39 公開日:2021-12-20
# (参考訳) Forward Propagation Through Timeによる動的スパイクニューラルネットワークの正確なオンライントレーニング [全文訳有]

Accurate online training of dynamical spiking neural networks through Forward Propagation Through Time ( http://arxiv.org/abs/2112.11231v1 )

ライセンス: CC BY 4.0
Bojian Yin, Federico Corradi, Sander M. Bohte(参考訳) 脳内のスパイクニューロン間の通信のイベント駆動的かつ疎結合性は、柔軟性とエネルギー効率のよいAIを大いに約束する。 近年の学習アルゴリズムの進歩により、スパイキングニューロンのリカレントネットワークは、標準のリカレントニューラルネットワークと比較して競合性能を達成するために効果的に訓練可能であることが示されている。 それでも、これらの学習アルゴリズムは時間によるエラーバックプロパゲーション(BPTT)を使用するため、高いメモリ要求に悩まされ、トレーニングが遅く、オンライン学習と互換性がない。 これにより、これらの学習アルゴリズムの比較的小さなネットワークや時間的シーケンス長への適用が制限される。 計算量やメモリの複雑さが低いbpttへのオンライン近似(e-prop, ostl)が提案されているが、実際にはメモリの制限や近似として標準的なbpttトレーニングを上回らない。 本稿では、最近開発されたBPTTの代替として、FPTT(Forward Propagation Through Time)をスパイクニューラルネットワークに適用する方法を示す。 BPTTとは異なり、FPTTは損失に対する動的に規則化されたリスクを最小化しようとする。 その結果、FPTTはオンライン形式で計算でき、シーケンス長に関して一定の複雑性を持つ。 新たな動的スパイクニューロンモデルであるLiquid-Time-Constant neurnと組み合わせることで、FPTTで訓練されたSNNがオンラインBPTT近似より優れ、時間的分類タスクにおいてオフラインBPTT精度に近づいたり、超えたりすることを示す。 このアプローチにより、長いシーケンスでSNNをメモリフレンドリーなオンラインスタイルでトレーニングし、新しい複雑なニューラルネットワークアーキテクチャにSNNをスケールアップすることが可能になる。

The event-driven and sparse nature of communication between spiking neurons in the brain holds great promise for flexible and energy-efficient AI. Recent advances in learning algorithms have demonstrated that recurrent networks of spiking neurons can be effectively trained to achieve competitive performance compared to standard recurrent neural networks. Still, as these learning algorithms use error-backpropagatio n through time (BPTT), they suffer from high memory requirements, are slow to train, and are incompatible with online learning. This limits the application of these learning algorithms to relatively small networks and to limited temporal sequence lengths. Online approximations to BPTT with lower computational and memory complexity have been proposed (e-prop, OSTL), but in practice also suffer from memory limitations and, as approximations, do not outperform standard BPTT training. Here, we show how a recently developed alternative to BPTT, Forward Propagation Through Time (FPTT) can be applied in spiking neural networks. Different from BPTT, FPTT attempts to minimize an ongoing dynamically regularized risk on the loss. As a result, FPTT can be computed in an online fashion and has fixed complexity with respect to the sequence length. When combined with a novel dynamic spiking neuron model, the Liquid-Time-Constant neuron, we show that SNNs trained with FPTT outperform online BPTT approximations, and approach or exceed offline BPTT accuracy on temporal classification tasks. This approach thus makes it feasible to train SNNs in a memory-friendly online fashion on long sequences and scale up SNNs to novel and complex neural architectures.
翻訳日:2021-12-23 01:21:46 公開日:2021-12-20
# (参考訳) 電子健康記録におけるループス腎炎表現型同定のための自然言語処理 [全文訳有]

Natural language processing to identify lupus nephritis phenotype in electronic health records ( http://arxiv.org/abs/2112.10821v1 )

ライセンス: CC BY 4.0
Yu Deng, Jennifer A. Pacheco, Anh Chung, Chengsheng Mao, Joshua C. Smith, Juan Zhao, Wei-Qi Wei, April Barnado, Chunhua Weng, Cong Liu, Adam Cordon, Jingzhi Yu, Yacob Tedla, Abel Kho, Rosalind Ramsey-Goldman, Theresa Walunas, Yuan Luo(参考訳) 全身性エリテマトーデス(systemic lupus erythematosus、sle)は、予測不能なフレアと寛解を特徴とする稀な自己免疫疾患である。 ループス腎炎は, 臓器損傷と死亡に対するSLEの主要な疾患の1つであり, ループス分類基準の重要な構成要素である。 したがって、電子健康記録(EHR)におけるループス腎炎の正確な同定は、患者集団の特徴が採用、設計、分析に欠かせない大規模なコホート観察研究や臨床試験に有用である。 ループス腎炎は、手順コードや検査などの構造化データを通じて認識することができる。 しかし、腎臓生検の病理報告や以前の医学史物語など、ループス腎炎を文書化する他の重要な情報は、病理報告や臨床記録から情報を発掘するために高度なテキスト処理を必要とする。 本研究では,EHRデータを用いた自然言語処理(NLP)によりループス腎炎を同定するアルゴリズムを開発した。 構造化データ(ベースラインアルゴリズム)のみを用いたルールベースアルゴリズムと,異なるNLPモデルを用いた3つのアルゴリズムを開発した。 3つのNLPモデルは、正規化ロジスティック回帰に基づいており、概念固有の識別子(CUI)の肯定的な言及、CUIの出現数、それぞれ3つのコンポーネントの混合など、さまざまな特徴セットを使用している。 ベースラインアルゴリズムと最も優れたNLPアルゴリズムはヴァンダービルト大学医療センター(VUMC)のデータセットで検証された。 NMEDW (0.41 vs 0.79) と VUMC (0.62 vs 0.96) の両方のデータセットにおいて, 構造データ, 正規表現概念, マップ化されたCUIの両特徴を取り入れたNLPモデルを改良した。

Systemic lupus erythematosus (SLE) is a rare autoimmune disorder characterized by an unpredictable course of flares and remission with diverse manifestations. Lupus nephritis, one of the major disease manifestations of SLE for organ damage and mortality, is a key component of lupus classification criteria. Accurately identifying lupus nephritis in electronic health records (EHRs) would therefore benefit large cohort observational studies and clinical trials where characterization of the patient population is critical for recruitment, study design, and analysis. Lupus nephritis can be recognized through procedure codes and structured data, such as laboratory tests. However, other critical information documenting lupus nephritis, such as histologic reports from kidney biopsies and prior medical history narratives, require sophisticated text processing to mine information from pathology reports and clinical notes. In this study, we developed algorithms to identify lupus nephritis with and without natural language processing (NLP) using EHR data. We developed four algorithms: a rule-based algorithm using only structured data (baseline algorithm) and three algorithms using different NLP models. The three NLP models are based on regularized logistic regression and use different sets of features including positive mention of concept unique identifiers (CUIs), number of appearances of CUIs, and a mixture of three components respectively. The baseline algorithm and the best performed NLP algorithm were external validated on a dataset from Vanderbilt University Medical Center (VUMC). Our best performing NLP model incorporating features from both structured data, regular expression concepts, and mapped CUIs improved F measure in both the NMEDW (0.41 vs 0.79) and VUMC (0.62 vs 0.96) datasets compared to the baseline lupus nephritis algorithm.
翻訳日:2021-12-23 01:05:29 公開日:2021-12-20
# (参考訳) 一般合成ゼロショット学習のための翻訳概念埋め込み [全文訳有]

Translational Concept Embedding for Generalized Compositional Zero-shot Learning ( http://arxiv.org/abs/2112.10871v1 )

ライセンス: CC BY 4.0
He Huang, Wei Tang, Jiawei Zhang, Philip S. Yu(参考訳) 一般化された構成的ゼロショット学習とは、属性とオブジェクトのペアの合成概念をゼロショット形式で学習することであり、そこではモデルは見られている概念のセットで訓練され、見られている概念と見えない概念の組み合わせでテストされる。 このタスクは、目に見えない概念と見えない概念のギャップだけでなく、属性とオブジェクト間のコンテキスト依存性のため、非常に難しい。 本稿では,この2つの課題を解決するために,翻訳概念埋め込みという新しい手法を提案する。 オブジェクトに属性を適用することで、オブジェクトプロトタイプに翻訳属性機能を追加する効果をモデル化する。 属性とオブジェクト間のコンテキスト依存性を明示的に考慮し、オブジェクトプロトタイプに依存した翻訳属性の特徴を生成する。 さらに,不確定概念に対するモデルの一般化能力を促進するために,比分散制約損失を設計する。 学習済みの単語埋め込みから知識を活用し、概念間の距離を定式化する。 我々は、偏見のない概念分類タスクと偏見のない概念分類タスクの両方の下で、モデルの性能を評価し、このモデルが見えない概念を予測できることを示す。

Generalized compositional zero-shot learning means to learn composed concepts of attribute-object pairs in a zero-shot fashion, where a model is trained on a set of seen concepts and tested on a combined set of seen and unseen concepts. This task is very challenging because of not only the gap between seen and unseen concepts but also the contextual dependency between attributes and objects. This paper introduces a new approach, termed translational concept embedding, to solve these two difficulties in a unified framework. It models the effect of applying an attribute to an object as adding a translational attribute feature to an object prototype. We explicitly take into account of the contextual dependency between attributes and objects by generating translational attribute features conditionally dependent on the object prototypes. Furthermore, we design a ratio variance constraint loss to promote the model's generalization ability on unseen concepts. It regularizes the distances between concepts by utilizing knowledge from their pretrained word embeddings. We evaluate the performance of our model under both the unbiased and biased concept classification tasks, and show that our model is able to achieve good balance in predicting unseen and seen concepts.
翻訳日:2021-12-23 00:55:56 公開日:2021-12-20
# (参考訳) 超ネットワーク自動生成によるNASの実現 [全文訳有]

Enabling NAS with Automated Super-Network Generation ( http://arxiv.org/abs/2112.10878v1 )

ライセンス: CC BY 4.0
J. Pablo Mu\~noz, Nikolay Lyalyushkin, Yash Akhauri, Anastasia Senina, Alexander Kozlov, Nilesh Jain(参考訳) 最近のneural architecture search (nas)ソリューションは、スーパーネットワークをトレーニングし、事前定義された検索空間から専門家が作り出したモデルを上回るサブネットワークを導出する印象的な結果を生み出している。 効率的でロバストなサブネットワークは、リソース制約のあるエッジデバイスで選択可能で、ワイルドでうまく動作します。 しかし、任意のアーキテクチャのためにスーパーネットワークを構築することは、これらのアプローチの採用を妨げることがしばしばある課題である。 そこで本研究では,nas用スーパーネットワークの自動生成のためのソフトウェアフレームワークbootstrapnasを提案する。 bootstrapnasは、resnet-50のような一般的なアーキテクチャから、あるいは有効なカスタム設計から事前トレーニングされたモデルを取得し、自動的にスーパーネットワークを生成し、最先端のnas技術を使用してスーパーネットワークをトレーニングする。 任意のモデルリポジトリからスーパーネットワークを生成して,結果の再現性を実現することで,そのソリューションを実証する。

Recent Neural Architecture Search (NAS) solutions have produced impressive results training super-networks and then deriving subnetworks, a.k.a. child models that outperform expert-crafted models from a pre-defined search space. Efficient and robust subnetworks can be selected for resource-constrained edge devices, allowing them to perform well in the wild. However, constructing super-networks for arbitrary architectures is still a challenge that often prevents the adoption of these approaches. To address this challenge, we present BootstrapNAS, a software framework for automatic generation of super-networks for NAS. BootstrapNAS takes a pre-trained model from a popular architecture, e.g., ResNet- 50, or from a valid custom design, and automatically creates a super-network out of it, then uses state-of-the-art NAS techniques to train the super-network, resulting in subnetworks that significantly outperform the given pre-trained model. We demonstrate the solution by generating super-networks from arbitrary model repositories and make available the resulting super-networks for reproducibility of the results.
翻訳日:2021-12-23 00:39:45 公開日:2021-12-20
# (参考訳) スパースディープニューラルネットワークにおける負荷バランス付きガザ散乱パターン [全文訳有]

Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks ( http://arxiv.org/abs/2112.10898v1 )

ライセンス: CC BY 4.0
Fei Sun, Minghai Qin, Tianyun Zhang, Xiaolong Ma, Haoran Li, Junwen Luo, Zihao Zhao, Yen-Kuang Chen, Yuan Xie(参考訳) ディープニューラルネットワーク(DNN)は多くの現実の問題を解決するのに有効であることが証明されているが、その高い計算コストは、それらのモデルをエッジデバイスにデプロイすることを妨げている。 モデル重み付けにゼロを導入する方法として,プレニングはモデル精度と計算効率の良好なトレードオフを提供するための有効な方法であり,圧縮モデルを生成するために広く用いられている方法である。 しかし、刈り取りの粒度は重要なトレードオフをもたらす。 同じ疎度レベルでは、粗粒構造スパースパターンは従来のハードウェアではより効率的であるが、粗粒構造スパースパターンはより精度が良く、既存のハードウェアでは非効率である。 一方、いくつかの現代的なプロセッサは、高速オンチップスクラッチパッドメモリと、そのようなメモリ上で間接的な負荷と格納操作を行う収集/散乱エンジンを備えている。 本研究では,スクラッチパッドメモリを活用し,ニューラルネットワークの推論を高速化するために,新たなスパースパターンであるgage-scatter(gs)パターンを提案する。 それに応じて、コンパクトなスパースフォーマットを提示します。 提案するスパースパターンセットは,新しいプルーニング手法とともに負荷不均衡問題に対処し,非構造化スパースモデルに近い品質のモデルと,構造化スパースモデルに近い計算効率をもたらす。 実験の結果,GSパターンは従来のスパースパターンに比べて精度と計算効率のトレードオフが良好であることがわかった。 GSパターンはDNNコンポーネントのランタイムを2~3倍の精度で削減することができる。 これは3つの異なるディープラーニングタスクと一般的なモデル、すなわち機械翻訳のGNMT、画像認識のResNet50、音響音声認識のJapserで確認されている。

Deep neural networks (DNNs) have been proven to be effective in solving many real-life problems, but its high computation cost prohibits those models from being deployed to edge devices. Pruning, as a method to introduce zeros to model weights, has shown to be an effective method to provide good trade-offs between model accuracy and computation efficiency, and is a widely-used method to generate compressed models. However, the granularity of pruning makes important trade-offs. At the same sparsity level, a coarse-grained structured sparse pattern is more efficient on conventional hardware but results in worse accuracy, while a fine-grained unstructured sparse pattern can achieve better accuracy but is inefficient on existing hardware. On the other hand, some modern processors are equipped with fast on-chip scratchpad memories and gather/scatter engines that perform indirect load and store operations on such memories. In this work, we propose a set of novel sparse patterns, named gather-scatter (GS) patterns, to utilize the scratchpad memories and gather/scatter engines to speed up neural network inferences. Correspondingly, we present a compact sparse format. The proposed set of sparse patterns, along with a novel pruning methodology, address the load imbalance issue and result in models with quality close to unstructured sparse models and computation efficiency close to structured sparse models. Our experiments show that GS patterns consistently make better trade-offs between accuracy and computation efficiency compared to conventional structured sparse patterns. GS patterns can reduce the runtime of the DNN components by two to three times at the same accuracy levels. This is confirmed on three different deep learning tasks and popular models, namely, GNMT for machine translation, ResNet50 for image recognition, and Japser for acoustic speech recognition.
翻訳日:2021-12-23 00:31:43 公開日:2021-12-20
# プログラム可能な量子シミュレータスナップショットにおける新しい位相の機械学習による発見

Machine learning discovery of new phases in programmable quantum simulator snapshots ( http://arxiv.org/abs/2112.10789v1 )

ライセンス: Link先を確認
Cole Miles, Rhine Samajdar, Sepehr Ebadi, Tout T. Wang, Hannes Pichler, Subir Sachdev, Mikhail D. Lukin, Markus Greiner, Kilian Q. Weinberger, and Eun-Ah Kim(参考訳) 機械学習は、リッチデータセットを特徴とする複雑な現象を研究するための有望なアプローチとして最近登場した。 特に、データ中心のアプローチは、手動検査が見逃す可能性のある実験データセットで自動的に構造を発見する可能性に役立つ。 本稿では,ハイブリッド相関畳み込みニューラルネットワーク(Hybrid-CCNN)の解釈不能な教師なしハイブリッド機械学習手法を導入し,Rydberg原子配列に基づくプログラマブル量子シミュレータを用いた実験データに適用する。 具体的には,プログラム可能な相互作用を持つ正方格子上の新しい量子位相の解析にHybrid-CCNNを適用する。 最初の教師なし次元減少とクラスタリング段階は、まず5つの異なる量子相領域を明らかにする。 第2の教師付きステージでは,完全解釈可能なccnnを訓練し,各フェーズに関連する相関関係を抽出することにより,これらの位相境界を洗練し,各フェーズを特徴付ける。 各相で特異的に認識される相関の特徴的な空間的重み付けとスニペットは、格子状相の量子揺らぎを捉え、以前検出されていた2つの非検出位相、すなわちrhombic と boundary-ordered phases を同定する。 これらの観察により、プログラム可能な量子シミュレータと機械学習の組み合わせが、物質の相関量子状態の詳細な探索に有効なことが示されている。

Machine learning has recently emerged as a promising approach for studying complex phenomena characterized by rich datasets. In particular, data-centric approaches lend to the possibility of automatically discovering structures in experimental datasets that manual inspection may miss. Here, we introduce an interpretable unsupervised-supervi sed hybrid machine learning approach, the hybrid-correlation convolutional neural network (Hybrid-CCNN), and apply it to experimental data generated using a programmable quantum simulator based on Rydberg atom arrays. Specifically, we apply Hybrid-CCNN to analyze new quantum phases on square lattices with programmable interactions. The initial unsupervised dimensionality reduction and clustering stage first reveals five distinct quantum phase regions. In a second supervised stage, we refine these phase boundaries and characterize each phase by training fully interpretable CCNNs and extracting the relevant correlations for each phase. The characteristic spatial weightings and snippets of correlations specifically recognized in each phase capture quantum fluctuations in the striated phase and identify two previously undetected phases, the rhombic and boundary-ordered phases. These observations demonstrate that a combination of programmable quantum simulators with machine learning can be used as a powerful tool for detailed exploration of correlated quantum states of matter.
翻訳日:2021-12-22 15:35:11 公開日:2021-12-20
# 人口データに関する一般的な誤解

Common Misconceptions about Population Data ( http://arxiv.org/abs/2112.10912v1 )

ライセンス: Link先を確認
Peter Christen and Rainer Schnell(参考訳) 人口の全ての個人をカバーするデータベースは、公衆衛生から社会科学まで幅広い分野の研究にますます利用されている。 政府や企業が、人口データを使ってデータ駆動意思決定を支援することへの関心が高まっている。 このようなデータベースの巨大なサイズは、しばしば関心の人口に対する有効な推測の保証として誤解される。 しかし、人口データには、これらのデータの収集方法や、どのような処理が適用されているかといった様々な仮定を含む、使用が困難な特徴がある。 さらに、人口データの潜在能力は、そのようなデータが他のデータベースにリンクされている場合にのみアンロックされることが多い。 本稿は、このようなデータを扱う人なら誰でも知っておく必要があると信じている集団データに関するさまざまな誤解について論じる。 これらの誤解の多くは科学的出版物では十分に文書化されていないが、研究者や実践者の間では逸話的にのみ議論されている。 人口データを用いて推測を行う際の推奨事項をまとめた。

Databases covering all individuals of a population are increasingly used for research studies in domains ranging from public health to the social sciences. There is also growing interest by governments and businesses to use population data to support data-driven decision making. The massive size of such databases is often mistaken as a guarantee for valid inferences on the population of interest. However, population data have characteristics that make them challenging to use, including various assumptions being made how such data were collected and what types of processing have been applied to them. Furthermore, the full potential of population data can often only be unlocked when such data are linked to other databases, a process that adds fresh challenges. This article discusses a diverse range of misconceptions about population data that we believe anybody who works with such data needs to be aware of. Many of these misconceptions are not well documented in scientific publications but only discussed anecdotally among researchers and practitioners. We conclude with a set of recommendations for inference when using population data.
翻訳日:2021-12-22 15:34:49 公開日:2021-12-20
# Rectified Power UnitActivation関数を用いた浅部ニューラルネットワークの積分表現

Integral representations of shallow neural network with Rectified Power Unit activation function ( http://arxiv.org/abs/2112.11157v1 )

ライセンス: Link先を確認
Ahmed Abdeljawad, Philipp Grohs(参考訳) そこで本研究では,Rectified Power Unit 活性化関数を用いた浅部ニューラルネットワークの積分表現式を導出する。 主に,RePU浅層ネットワークの表現能力の一変量の場合について検討した。 この論文における多次元結果は、有界ノルムとおそらく非有界幅で表現できる関数の集合を特徴づける。

In this effort, we derive a formula for the integral representation of a shallow neural network with the Rectified Power Unit activation function. Mainly, our first result deals with the univariate case of representation capability of RePU shallow networks. The multidimensional result in this paper characterizes the set of functions that can be represented with bounded norm and possibly unbounded width.
翻訳日:2021-12-22 15:33:21 公開日:2021-12-20
# タッカーとテンソルのハイブリッドモデルによる効率的なテンソルロバストPCA

Efficient Tensor Robust PCA under Hybrid Model of Tucker and Tensor Train ( http://arxiv.org/abs/2112.10771v1 )

ライセンス: Link先を確認
Yuning Qiu, Guoxu Zhou, Zhenhao Huang, Qibin Zhao, Shengli Xie(参考訳) テンソルロバストな主成分分析(TRPCA)は、機械学習とコンピュータビジョンの基本モデルである。 近年, テンソルトレイン (TT) の分解は, テンソル回収作業におけるグローバル低ランク相関を捉えるのに有効であることが確認されている。 しかし、現実のアプリケーションにおける大規模なテンソルデータのため、従来のTRPCAモデルは計算の複雑さに悩まされることが多い。 本稿では,TuckerとTTのハイブリッドモデルを用いた効率的なTRPCAを提案する。 具体的には、理論上、元のビッグテンソルのTT核ノルム(TTNN)がタッカー圧縮フォーマットによってはるかに小さなテンソルのノルムに等価に変換できることを明らかにし、特異値分解(SVD)の計算コストを大幅に削減する。 合成テンソルデータおよび実世界のテンソルデータの数値実験により,提案モデルの有効性が検証された。

Tensor robust principal component analysis (TRPCA) is a fundamental model in machine learning and computer vision. Recently, tensor train (TT) decomposition has been verified effective to capture the global low-rank correlation for tensor recovery tasks. However, due to the large-scale tensor data in real-world applications, previous TRPCA models often suffer from high computational complexity. In this letter, we propose an efficient TRPCA under hybrid model of Tucker and TT. Specifically, in theory we reveal that TT nuclear norm (TTNN) of the original big tensor can be equivalently converted to that of a much smaller tensor via a Tucker compression format, thereby significantly reducing the computational cost of singular value decomposition (SVD). Numerical experiments on both synthetic and real-world tensor data verify the superiority of the proposed model.
翻訳日:2021-12-22 14:54:05 公開日:2021-12-20
# 構造的側面情報の存在下でベイズネットワークを学習する

Learning Bayesian Networks in the Presence of Structural Side Information ( http://arxiv.org/abs/2112.10884v1 )

ライセンス: Link先を確認
Ehsan Mokhtarian, Sina Akbari, Fateme Jamshidi, Jalal Etesami, Negar Kiyavash(参考訳) 本研究では,システムに関する構造的側面情報が得られる場合の変数集合のベイズネットワーク(bn)学習の問題について検討する。 一般BNの構造を学ぶことは、計算的にも統計的にも難しいことはよく知られている。 しかし、多くのアプリケーションでは、基盤となる構造に関する情報が学習の複雑さを減少させる可能性がある。 本稿では,そのような知識(側面情報)を学習プロセスに効率的に組み込む再帰的制約に基づくアルゴリズムを開発する。 特に, 基礎となるBNに関する2種類の構造側情報について検討する: (I) 傾斜数上界が知られているか, (II) ダイヤモンドフリーである。 各シナリオで必要となるテストの最悪の数を含む,学習アルゴリズムの理論的保証を提供する。 我々の研究の結果、有界木幅BNは多項式複雑性で学習できることが示されている。 さらに, 合成・実世界の両方の構造におけるアルゴリズムの性能とスケーラビリティを評価し, 最先端構造学習アルゴリズムよりも優れていることを示す。

We study the problem of learning a Bayesian network (BN) of a set of variables when structural side information about the system is available. It is well known that learning the structure of a general BN is both computationally and statistically challenging. However, often in many applications, side information about the underlying structure can potentially reduce the learning complexity. In this paper, we develop a recursive constraint-based algorithm that efficiently incorporates such knowledge (i.e., side information) into the learning process. In particular, we study two types of structural side information about the underlying BN: (I) an upper bound on its clique number is known, or (II) it is diamond-free. We provide theoretical guarantees for the learning algorithms, including the worst-case number of tests required in each scenario. As a consequence of our work, we show that bounded treewidth BNs can be learned with polynomial complexity. Furthermore, we evaluate the performance and the scalability of our algorithms in both synthetic and real-world structures and show that they outperform the state-of-the-art structure learning algorithms.
翻訳日:2021-12-22 14:53:48 公開日:2021-12-20
# 実演インフォームド仕様検索

Demonstration Informed Specification Search ( http://arxiv.org/abs/2112.10807v1 )

ライセンス: Link先を確認
Marcell Vazquez-Chanlatte, Ameesh Shah, Gil Lederman, Sanjit A. Seshia(参考訳) 本稿では,学習履歴に依存したタスク仕様,例えばオートマトンやテンポラリ論理の課題について,専門家による実証から考察する。 残念なことに、実証されたタスクをエンコードするためにどのような歴史的特徴が必要なのかを、考慮中の(おそらく無限の)タスクの数と相まって、既存のアプローチは、実演からタスクを学ぶのに不適当である。 そこで本研究では,ブラックボックスアクセスによってパラメータ化されるアルゴリズム群であるdiss(informed specification search)を提案する。 (i)最大エントロピープランナー及び (ii)ラベル付き例から概念(例えばオートマトン)を識別するアルゴリズム。 DISSは相互に交互に働く (i)デモをさほど驚かせるようなラベル付き例を考案し、 (ii)現在のラベル付き例と一致するサンプリング概念。 決定論的有限オートマトンによって記述されたタスクの文脈では、タスクの部分的知識と1つの専門家によるデモンストレーションを効率よく組み合わせ、完全なタスク仕様を識別するdisSの具体的実装を提供する。

This paper considers the problem of learning history dependent task specifications, e.g. automata and temporal logic, from expert demonstrations. Unfortunately, the (countably infinite) number of tasks under consideration combined with an a-priori ignorance of what historical features are needed to encode the demonstrated task makes existing approaches to learning tasks from demonstrations inapplicable. To address this deficit, we propose Demonstration Informed Specification Search (DISS): a family of algorithms parameterized by black box access to (i) a maximum entropy planner and (ii) an algorithm for identifying concepts, e.g., automata, from labeled examples. DISS works by alternating between (i) conjecturing labeled examples to make the demonstrations less surprising and (ii) sampling concepts consistent with the current labeled examples. In the context of tasks described by deterministic finite automata, we provide a concrete implementation of DISS that efficiently combines partial knowledge of the task and a single expert demonstration to identify the full task specification.
翻訳日:2021-12-22 14:50:05 公開日:2021-12-20
# ポーカーのための高速なアルゴリズムは、シーケンシャルベイズゲームとしてモデル化する必要がある

Fast Algorithms for Poker Require Modelling it as a Sequential Bayesian Game ( http://arxiv.org/abs/2112.10890v1 )

ライセンス: Link先を確認
Vojt\v{e}ch Kova\v{r}\'ik, David Milec, Michal \v{S}ustr, Dominik Seitz, Viliam Lis\'y(参考訳) 不完全な情報ゲームに関する最近の多くの結果は、liar's diceのようなポーカーやポーカーのようなゲームのためにのみ定式化された。 逐次ベイズゲームはこれらの結果を一般化するための自然な種類のゲームであると主張する。 特に、このモデルは反事実的後悔最小化アルゴリズム(public-state cfr (ps-cfr) と呼ばれる)のエレガントな定式化を可能にする。 経験上、パブリックステートcfrによる10^7状態のポーカーサブゲームでは3分700mb、同等バージョンのvanilla cfrでは5.5時間20gbである。 さらに、CFRの公的な定式化は、ドメイン固有の仮定を利用する可能性を開放し、ポーカーや他のドメインにおけるバニラCFRよりも漸近的複雑性(およびさらに経験的なスピードアップ)が2次的に減少する。 全体として、ポーカーをシーケンシャルベイズゲームとして表現する能力は、CFRベースの手法の成功に重要な役割を果たしたことを示唆している。 最後に、パブリックステートのcfrを一般的な広義のゲームに拡張し、この拡張は、シーケンシャルベイズゲームのバージョンの利点を全て享受するものではない、と主張している。

Many recent results in imperfect information games were only formulated for, or evaluated on, poker and poker-like games such as liar's dice. We argue that sequential Bayesian games constitute a natural class of games for generalizing these results. In particular, this model allows for an elegant formulation of the counterfactual regret minimization algorithm, called public-state CFR (PS-CFR), which naturally lends itself to an efficient implementation. Empirically, solving a poker subgame with 10^7 states by public-state CFR takes 3 minutes and 700 MB while a comparable version of vanilla CFR takes 5.5 hours and 20 GB. Additionally, the public-state formulation of CFR opens up the possibility for exploiting domain-specific assumptions, leading to a quadratic reduction in asymptotic complexity (and a further empirical speedup) over vanilla CFR in poker and other domains. Overall, this suggests that the ability to represent poker as a sequential Bayesian game played a key role in the success of CFR-based methods. Finally, we extend public-state CFR to general extensive-form games, arguing that this extension enjoys some - but not all - of the benefits of the version for sequential Bayesian games.
翻訳日:2021-12-22 14:49:46 公開日:2021-12-20
# IMU信号を用いた人間行動認識のための注意型センサフュージョン

Attention-Based Sensor Fusion for Human Activity Recognition Using IMU Signals ( http://arxiv.org/abs/2112.11224v1 )

ライセンス: Link先を確認
Wenjin Tao, Haodong Chen, Md Moniruzzaman, Ming C. Leu, Zhaozheng Yi, Ruwen Qin(参考訳) Inertial Measurement Unit(IMU)センサーに埋め込まれたスマートウォッチなどのウェアラブルデバイスを用いたヒューマンアクティビティ認識(HAR)は、ワークアウトトラッキングや健康モニタリングなど、私たちの日常生活に様々な応用をもたらす。 本稿では,異なる身体部位に装着した複数のIMUセンサを用いた人体行動認識のための新しい注意型アプローチを提案する。 まず、センサワイズ特徴抽出モジュールは、畳み込みニューラルネットワーク(CNN)を用いて個々のセンサから最も識別性の高い特徴を抽出するように設計されている。 次に,異なる身体位置におけるセンサの重要性を学習し,注意的特徴表現を生成するために注意に基づく融合機構を開発した。 最後に、センサ間特徴抽出モジュールを適用し、分類器に接続されたセンサ間相関を学習し、予測されたアクティビティのクラスを出力する。 提案手法は,5つの公開データセットを用いて評価し,多種多様な活動カテゴリにおける最先端手法より優れている。

Human Activity Recognition (HAR) using wearable devices such as smart watches embedded with Inertial Measurement Unit (IMU) sensors has various applications relevant to our daily life, such as workout tracking and health monitoring. In this paper, we propose a novel attention-based approach to human activity recognition using multiple IMU sensors worn at different body locations. Firstly, a sensor-wise feature extraction module is designed to extract the most discriminative features from individual sensors with Convolutional Neural Networks (CNNs). Secondly, an attention-based fusion mechanism is developed to learn the importance of sensors at different body locations and to generate an attentive feature representation. Finally, an inter-sensor feature extraction module is applied to learn the inter-sensor correlations, which are connected to a classifier to output the predicted classes of activities. The proposed approach is evaluated using five public datasets and it outperforms state-of-the-art methods on a wide variety of activity categories.
翻訳日:2021-12-22 14:46:53 公開日:2021-12-20
# 生成逆ネットワークを用いたLiDAR点雲からのフォトリアリスティック画像の生成

Generating Photo-realistic Images from LiDAR Point Clouds with Generative Adversarial Networks ( http://arxiv.org/abs/2112.11245v1 )

ライセンス: Link先を確認
Nuriel Shalom Mor(参考訳) LiDAR点雲から写真リアル画像を生成するためのGAN(Generative Adversarial Network)の実現可能性を検討した。 この目的のために,点雲画像ペアのデータセットを作成し,反射率と距離情報を含むライダー点雲からganをトレーニングした。 私たちのモデルは、雲のデータから現実的に見えるイメージを予測する方法を学びました。 ブラックカーは反射率が低いため、点雲から直接検出することが難しい。 このアプローチは将来的に、LiDAR点雲から生成されたフォトリアリスティック画像の視覚的物体認識に使用されるかもしれない。 従来のLiDARシステムに加えて、LiDARポイントクラウドからフォトリアリスティック画像を生成する第2のシステムは、リアルタイムで視覚オブジェクト認識のために同時に実行される。 このようにして、LiDARの優位性を保ち、カメラを使わずに視覚オブジェクト認識にフォトリアリスティック画像を使用することの恩恵を受けることができる。 さらに、このアプローチは、カメライメージを使わずに点雲を着色するのに使うことができる。

We examined the feasibility of generative adversarial networks (GANs) to generate photo-realistic images from LiDAR point clouds. For this purpose, we created a dataset of point cloud image pairs and trained the GAN to predict photorealistic images from LiDAR point clouds containing reflectance and distance information. Our models learned how to predict realistically looking images from just point cloud data, even images with black cars. Black cars are difficult to detect directly from point clouds because of their low level of reflectivity. This approach might be used in the future to perform visual object recognition on photorealistic images generated from LiDAR point clouds. In addition to the conventional LiDAR system, a second system that generates photorealistic images from LiDAR point clouds would run simultaneously for visual object recognition in real-time. In this way, we might preserve the supremacy of LiDAR and benefit from using photo-realistic images for visual object recognition without the usage of any camera. In addition, this approach could be used to colorize point clouds without the usage of any camera images.
翻訳日:2021-12-22 14:46:36 公開日:2021-12-20
# PRONTO: 粗同期のためのニューラルネットワークによるプリアンブルオーバーヘッド削減

PRONTO: Preamble Overhead Reduction with Neural Networks for Coarse Synchronization ( http://arxiv.org/abs/2112.10885v1 )

ライセンス: Link先を確認
Nasim Soltani, Debashri Roy, and Kaushik Chowdhury(参考訳) IEEE 802.11 WiFi ベースの波形では、レシーバはレガシショートトレーニングフィールド (L-STF) として知られるプリアンブルの第1フィールドを用いて粗い時間と周波数同期を行う。 L-STFは、プリアンブルの長さの最大40%を占め、32時間の空気を消費する。 通信オーバヘッドを低減することを目的として,L-STFを除去してプリアンブル長を小さくする修正波形を提案する。 この修正波形をデコードするために,他のプリアンブル場,特にレガシロングトレーニング場(L-LTF)を用いて粗い時間と周波数推定を行うPRONTOと呼ばれる機械学習(ML)ベースのスキームを提案する。 私たちの貢献は3倍です (i)パケット検出と粗いCFO推定のためのカスタマイズ畳み込みニューラルネットワーク(CNN)とロバストトレーニングのためのデータ拡張ステップを特徴とするPRONTOを提案する。 (II)PRONTOを標準L-STFを含むレガシー波形と互換性のある一般化された決定フローを提案する。 (iii) software defined radios (sdrs) のテストベッドから,wifiデータセット上での結果を検証する。 評価の結果,prontoは100%精度でパケット検出が可能であり,誤差が3%以下の粗いcfo推定が可能であった。 ProNTOは,ビット誤り率 (BER) の低下を伴わず,最大40%のプリアンブル長短縮を実現している。 最後に、PRONTOによるGPU並列化による高速化を、対応するCPUのみの実装に対して実験的に示す。

In IEEE 802.11 WiFi-based waveforms, the receiver performs coarse time and frequency synchronization using the first field of the preamble known as the legacy short training field (L-STF). The L-STF occupies upto 40% of the preamble length and takes upto 32 us of airtime. With the goal of reducing communication overhead, we propose a modified waveform, where the preamble length is reduced by eliminating the L-STF. To decode this modified waveform, we propose a machine learning (ML)-based scheme called PRONTO that performs coarse time and frequency estimations using other preamble fields, specifically the legacy long training field (L-LTF). Our contributions are threefold: (i) We present PRONTO featuring customized convolutional neural networks (CNNs) for packet detection and coarse CFO estimation, along with data augmentation steps for robust training. (ii) We propose a generalized decision flow that makes PRONTO compatible with legacy waveforms that include the standard L-STF. (iii) We validate the outcomes on an over-the-air WiFi dataset from a testbed of software defined radios (SDRs). Our evaluations show that PRONTO can perform packet detection with 100% accuracy, and coarse CFO estimation with errors as small as 3%. We demonstrate that PRONTO provides upto 40% preamble length reduction with no bit error rate (BER) degradation. Finally, we experimentally show the speedup achieved by PRONTO through GPU parallelization over the corresponding CPU-only implementations.
翻訳日:2021-12-22 14:45:12 公開日:2021-12-20
# 深層学習を伴う浅水方程式解のサロゲートモデル

Surrogate Model for Shallow Water Equations Solvers with Deep Learning ( http://arxiv.org/abs/2112.10889v1 )

ライセンス: Link先を確認
Yalan Song, Chaopeng Shen, Xiaofeng Liu(参考訳) 浅い水方程式は洪水や河川水理解析のモデルの基礎となっている。 これらの物理モデルは通常高価で実行が遅いため、リアルタイムの予測やパラメータの反転には適さない。 魅力的な代替案は代理モデルである。 この研究は、ディープラーニングに基づく効率的で正確で柔軟な代理モデルNN-p2pを導入し、非構造化メッシュや不規則メッシュ上でポイントツーポイント予測を行う。 提案手法は,構造的あるいは規則的メッシュ上でのみ画像から画像への予測が可能な畳み込みニューラルネットワーク(cnns)に基づく既存手法と比較した。 NN-p2pでは、入力は空間座標とブリッジ桟橋のような水理構造の幾何学を記述する境界特徴の両方を含む。 すべてのサロゲートモデルは、トレーニング領域内の異なるタイプの桟橋まわりの流れを予測するのにうまく機能する。 しかし,空間外挿を行う場合,NN-p2pのみが有効である。 CNNに基づく手法の限界は、境界形状や流れの特徴を正確に把握できないラスタ像の性質に根ざしている。 NN-p2pはまた、ニューラルネットワークによって見えないピアまわりの流れを予測するのに優れた性能を持っている。 NN-p2pモデルは保存法則をより厳格に尊重している。 提案した代理モデルの適用は,桟橋の抵抗係数$C_D$を計算し,桟橋の長さ/幅比の対数変換とC_D$の新しい線形関係を導出した。

Shallow water equations are the foundation of most models for flooding and river hydraulics analysis. These physics-based models are usually expensive and slow to run, thus not suitable for real-time prediction or parameter inversion. An attractive alternative is surrogate model. This work introduces an efficient, accurate, and flexible surrogate model, NN-p2p, based on deep learning and it can make point-to-point predictions on unstructured or irregular meshes. The new method was evaluated and compared against existing methods based on convolutional neural networks (CNNs), which can only make image-to-image predictions on structured or regular meshes. In NN-p2p, the input includes both spatial coordinates and boundary features that can describe the geometry of hydraulic structures, such as bridge piers. All surrogate models perform well in predicting flow around different types of piers in the training domain. However, only NN-p2p works well when spatial extrapolation is performed. The limitations of CNN-based methods are rooted in their raster-image nature which cannot capture boundary geometry and flow features exactly, which are of paramount importance to fluid dynamics. NN-p2p also has good performance in predicting flow around piers unseen by the neural network. The NN-p2p model also respects conservation laws more strictly. The application of the proposed surrogate model was demonstrated by calculating the drag coefficient $C_D$ for piers and a new linear relationship between $C_D$ and the logarithmic transformation of pier's length/width ratio was discovered.
翻訳日:2021-12-22 14:44:45 公開日:2021-12-20
# VELVET: VulnErable sTatementsを自動的に特定するnoVel Ensemble Learningアプローチ

VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements ( http://arxiv.org/abs/2112.10893v1 )

ライセンス: Link先を確認
Yangruibo Ding, Sahil Suneja, Yunhui Zheng, Jim Laredo, Alessandro Morari, Gail Kaiser, Baishakhi Ray(参考訳) 脆弱性のあるステートメントを自動的にソースコードに配置することは、ソフトウェアセキュリティの確保と開発者のデバッグ作業の軽減に不可欠である。 今日のソフトウェアエコシステムでは、脆弱性のあるコードがGitHubのようなソフトウェアリポジトリ内で、無意識に簡単に流れます。 何百万行ものコードにまたがって、従来の静的アプローチと動的アプローチはスケールするのに苦労します。 既存の機械学習ベースのアプローチは、このような環境では有望に見えるが、ほとんどの作業は、メソッドやファイルレベルで、より高い粒度で脆弱なコードを検出する。 したがって、開発者は修正が必要な脆弱性のあるステートメントを見つけるために、かなりの量のコードを検査する必要がある。 本稿では,脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。 このモデルは、グラフベースとシーケンスベースのニューラルネットワークを組み合わせて、プログラムグラフのローカルおよびグローバルコンテキストをうまく捉え、コードのセマンティクスと脆弱なパターンを効果的に理解する。 VELVETの有効性を研究するために、市販の合成データセットと最近公開された実世界のデータセットを用いる。 脆弱な関数が事前に検出されない静的解析設定では、VELVETは実世界のデータ上のベースライン静的解析器よりも4.5倍高いパフォーマンスを達成する。 特定の脆弱なステートメントが不明な関数の脆弱性が分かっていると仮定した分離脆弱性ローカライズタスクでは、velvetと、ローカルおよびグローバルなコードコンテキストにも関与する複数のニューラルネットワークを比較した。 VELVETは合成データと実世界のデータに対して99.6%と43.6%の精度を達成し、ベースラインのディープラーニングモデルを5.3-29.0%上回っている。

Automatically locating vulnerable statements in source code is crucial to assure software security and alleviate developers' debugging efforts. This becomes even more important in today's software ecosystem, where vulnerable code can flow easily and unwittingly within and across software repositories like GitHub. Across such millions of lines of code, traditional static and dynamic approaches struggle to scale. Although existing machine-learning-bas ed approaches look promising in such a setting, most work detects vulnerable code at a higher granularity -- at the method or file level. Thus, developers still need to inspect a significant amount of code to locate the vulnerable statement(s) that need to be fixed. This paper presents VELVET, a novel ensemble learning approach to locate vulnerable statements. Our model combines graph-based and sequence-based neural networks to successfully capture the local and global context of a program graph and effectively understand code semantics and vulnerable patterns. To study VELVET's effectiveness, we use an off-the-shelf synthetic dataset and a recently published real-world dataset. In the static analysis setting, where vulnerable functions are not detected in advance, VELVET achieves 4.5x better performance than the baseline static analyzers on the real-world data. For the isolated vulnerability localization task, where we assume the vulnerability of a function is known while the specific vulnerable statement is unknown, we compare VELVET with several neural networks that also attend to local and global context of code. VELVET achieves 99.6% and 43.6% top-1 accuracy over synthetic data and real-world data, respectively, outperforming the baseline deep-learning models by 5.3-29.0%.
翻訳日:2021-12-22 14:44:19 公開日:2021-12-20
# TFDPM:拡散確率モデルを用いたサイバー物理システムの攻撃検出

TFDPM: Attack detection for cyber-physical systems with diffusion probabilistic models ( http://arxiv.org/abs/2112.10774v1 )

ライセンス: Link先を確認
Tijin Yan, Tong Zhou, Yufeng Zhan, Yuanqing Xia(参考訳) AIoTの開発に伴い、サイバー物理システム(CPS)に対するデータ駆動攻撃検出手法が注目されている。 しかし、既存の手法は通常、複雑なシステムには適さない近似データ分布に対して扱いやすい分布を採用する。 さらに、異なるチャネルにおけるデータの相関は十分な注意を引き付けない。 これらの問題に対処するために、エネルギーベースの生成モデルを使用し、これはデータ分布の関数形式に制約を受けない。 さらに、グラフニューラルネットワークを使用して、異なるチャネル内のデータの相関を明示的にモデル化する。 最後に,CPSにおける攻撃検出タスクの一般的なフレームワークであるTFDPMを提案する。 履歴データから時間パターンと特徴パターンを同時に抽出する。 次に、抽出特徴を条件拡散確率モデルに送信する。 条件生成ネットワークを用いて予測値を得ることができ、予測値と観測値との差に基づいて攻撃を検出する。 さらに,実時間検出を実現するために,予測処理を高速化する条件付きノイズスケジューリングネットワークを提案する。 実験の結果,TFDPMは既存の攻撃検出方法よりも優れていた。 ノイズスケジューリングネットワークは、検出速度を3倍に向上させる。

With the development of AIoT, data-driven attack detection methods for cyber-physical systems (CPSs) have attracted lots of attention. However, existing methods usually adopt tractable distributions to approximate data distributions, which are not suitable for complex systems. Besides, the correlation of the data in different channels does not attract sufficient attention. To address these issues, we use energy-based generative models, which are less restrictive on functional forms of the data distribution. In addition, graph neural networks are used to explicitly model the correlation of the data in different channels. In the end, we propose TFDPM, a general framework for attack detection tasks in CPSs. It simultaneously extracts temporal pattern and feature pattern given the historical data. Then extract features are sent to a conditional diffusion probabilistic model. Predicted values can be obtained with the conditional generative network and attacks are detected based on the difference between predicted values and observed values. In addition, to realize real-time detection, a conditional noise scheduling network is proposed to accelerate the prediction process. Experimental results show that TFDPM outperforms existing state-of-the-art attack detection methods. The noise scheduling network increases the detection speed by three times.
翻訳日:2021-12-22 14:23:17 公開日:2021-12-20
# AGPNet -- 自律型グラディングポリシーネットワーク

AGPNet -- Autonomous Grading Policy Network ( http://arxiv.org/abs/2112.10877v1 )

ライセンス: Link先を確認
Chana Ross, Yakov Miron, Yuval Goldfracht, Dotan Di Castro(参考訳) そこで本研究では,砂山に埋もれた不均一領域を段階的に評価するドーザーの自律制御に関するヒューリスティックスと学習戦略を確立する。 我々はマルコフ決定プロセスとして問題を定式化し、エージェント環境相互作用を実証するシミュレーションを設計し、最終的にシミュレータを実際のドーザープロトタイプと比較する。 我々は,強化学習,行動クローニング,コントラスト学習の手法を用いて,ハイブリッド・ポリシーを訓練する。 我々の訓練されたエージェントであるAGPNetは、人間レベルのパフォーマンスに達し、自律的なグレーディングタスクのために現在の最先端の機械学習手法より優れています。 また,エージェントはランダムシナリオから実世界問題への一般化が可能である。

In this work, we establish heuristics and learning strategies for the autonomous control of a dozer grading an uneven area studded with sand piles. We formalize the problem as a Markov Decision Process, design a simulation which demonstrates agent-environment interactions and finally compare our simulator to a real dozer prototype. We use methods from reinforcement learning, behavior cloning and contrastive learning to train a hybrid policy. Our trained agent, AGPNet, reaches human-level performance and outperforms current state-of-the-art machine learning methods for the autonomous grading task. In addition, our agent is capable of generalizing from random scenarios to unseen real world problems.
翻訳日:2021-12-22 14:23:03 公開日:2021-12-20
# 符号のロバストモデルに対するエネルギー束縛学習

Energy-bounded Learning for Robust Models of Code ( http://arxiv.org/abs/2112.11226v1 )

ライセンス: Link先を確認
Nghi D. Q. Bui, Yijun Yu(参考訳) プログラミングでは、コード表現の学習には、コード分類、コード検索、コメント生成、バグ予測など、さまざまなアプリケーションがある。 トークン、構文木、依存グラフ、コードナビゲーションパス、あるいはそれらのバリエーションの組み合わせによるコードの様々な表現が提案されているが、既存のバニラ学習技術は頑健性に大きな制限があり、すなわち、入力が微妙な方法で変更されたときにモデルが不正確な予測を行うことが容易である。 堅牢性を高めるために、既存のアプローチでは、与えられた分布の外にある有効なサンプルではなく、逆のサンプルを認識することに重点を置いている。 このようなOODサンプルの認識は,本論文における新たな課題である。 そこで本研究では,まずin=distributionデータセットを分散サンプルで拡張し,一緒にトレーニングするとモデルのロバスト性が向上することを示す。 そこで本研究では,高得点を分布内サンプルに割り当て,低得点を分布外サンプルに割り当て,そのような分布外サンプルをソースコードモデルのトレーニングプロセスに組み込むためのエネルギー制限学習目的関数の利用を提案する。 OOD検出と対向サンプル検出では,既存のソースコードモデルでは,OODデータの認識精度が向上すると同時に,対向攻撃に対する耐性も向上した。 さらに,提案するエネルギーバウンドスコアは,ソフトマックス信頼度スコア,マハラノビススコア,オーディンスコアなど,既存のood検出スコアを大差で上回っている。

In programming, learning code representations has a variety of applications, including code classification, code search, comment generation, bug prediction, and so on. Various representations of code in terms of tokens, syntax trees, dependency graphs, code navigation paths, or a combination of their variants have been proposed, however, existing vanilla learning techniques have a major limitation in robustness, i.e., it is easy for the models to make incorrect predictions when the inputs are altered in a subtle way. To enhance the robustness, existing approaches focus on recognizing adversarial samples rather than on the valid samples that fall outside a given distribution, which we refer to as out-of-distribution (OOD) samples. Recognizing such OOD samples is the novel problem investigated in this paper. To this end, we propose to first augment the in=distribution datasets with out-of-distribution samples such that, when trained together, they will enhance the model's robustness. We propose the use of an energy-bounded learning objective function to assign a higher score to in-distribution samples and a lower score to out-of-distribution samples in order to incorporate such out-of-distribution samples into the training process of source code models. In terms of OOD detection and adversarial samples detection, our evaluation results demonstrate a greater robustness for existing source code models to become more accurate at recognizing OOD data while being more resistant to adversarial attacks at the same time. Furthermore, the proposed energy-bounded score outperforms all existing OOD detection scores by a large margin, including the softmax confidence score, the Mahalanobis score, and ODIN.
翻訳日:2021-12-22 14:22:24 公開日:2021-12-20
# 確率的グラディエントDescenceの有効雑音

The effective noise of Stochastic Gradient Descent ( http://arxiv.org/abs/2112.10852v1 )

ライセンス: Link先を確認
Francesca Mignacco, Pierfrancesco Urbani(参考訳) Stochastic Gradient Descent (SGD)は、ディープラーニング技術のワークホースアルゴリズムである。 トレーニングフェーズの各ステップでは、トレーニングデータセットからサンプルのミニバッチを描画し、この特定のサブセットのパフォーマンスに応じてニューラルネットワークの重みを調整する。 ミニバッチサンプリング手順は、非自明な状態依存ノイズを伴う勾配降下に対する確率力学を導入する。 我々はSGDの確率性と最近導入された変種である持続型SGDを原型ニューラルネットワークモデルで特徴付ける。 最終学習誤差が正となる過度パラメータ化状態において,SGD力学は定常状態に達し,動的平均場理論から計算した揺動散逸定理から有効温度を定義する。 有効温度を用いて,SGD雑音の大きさを問題パラメータの関数として定量化する。 学習誤差が消失する過パラメータ方式では、同一初期化を持つシステムの2つのレプリカの平均距離と2つの異なるsgdノイズの実現を計算し、sgdのノイズの大きさを測定する。 その結果、2つのノイズ測度は問題パラメータの関数として同じように振る舞うことがわかった。 さらに,noisierアルゴリズムは制約満足度問題に対するより広い決定境界をもたらすことを観測した。

Stochastic Gradient Descent (SGD) is the workhorse algorithm of deep learning technology. At each step of the training phase, a mini batch of samples is drawn from the training dataset and the weights of the neural network are adjusted according to the performance on this specific subset of examples. The mini-batch sampling procedure introduces a stochastic dynamics to the gradient descent, with a non-trivial state-dependent noise. We characterize the stochasticity of SGD and a recently-introduced variant, persistent SGD, in a prototypical neural network model. In the under-parametrized regime, where the final training error is positive, the SGD dynamics reaches a stationary state and we define an effective temperature from the fluctuation-dissipat ion theorem, computed from dynamical mean-field theory. We use the effective temperature to quantify the magnitude of the SGD noise as a function of the problem parameters. In the over-parametrized regime, where the training error vanishes, we measure the noise magnitude of SGD by computing the average distance between two replicas of the system with the same initialization and two different realizations of SGD noise. We find that the two noise measures behave similarly as a function of the problem parameters. Moreover, we observe that noisier algorithms lead to wider decision boundaries of the corresponding constraint satisfaction problem.
翻訳日:2021-12-22 14:21:56 公開日:2021-12-20
# 量子力学によるマニフォールド学習

Manifold learning via quantum dynamics ( http://arxiv.org/abs/2112.11161v1 )

ライセンス: Link先を確認
Akshat Kumar, Mohan Sarovar(参考訳) 本稿では,サンプルデータのグラフ埋め込みにおける量子力学のシミュレーションに依存する,サンプル多様体上の測地学のアルゴリズムを提案する。 本手法は,半古典的解析と量子古典的対応における古典的結果を利用し,データセットをサンプリングした多様体を学習する手法の基礎を形成し,高次元データセットの非線形次元還元を行う。 モデル多様体からサンプリングしたデータと、COVID-19モビリティデータに基づくクラスタリングデモにより、新しいアルゴリズムについて説明する。 最後に,データサンプリングと量子化による離散化の相互関係を明らかにする。

We introduce an algorithm for computing geodesics on sampled manifolds that relies on simulation of quantum dynamics on a graph embedding of the sampled data. Our approach exploits classic results in semiclassical analysis and the quantum-classical correspondence, and forms a basis for techniques to learn the manifold from which a dataset is sampled, and subsequently for nonlinear dimensionality reduction of high-dimensional datasets. We illustrate the new algorithm with data sampled from model manifolds and also by a clustering demonstration based on COVID-19 mobility data. Finally, our method reveals interesting connections between the discretization provided by data sampling and quantization.
翻訳日:2021-12-22 14:18:10 公開日:2021-12-20
# フラグメントに基づく形状シグネチャの重み付き等方写像に対する制約計画法

A Constraint Programming Approach to Weighted Isomorphic Mapping of Fragment-based Shape Signatures ( http://arxiv.org/abs/2112.10892v1 )

ライセンス: Link先を確認
Thierry Petit and Randy J. Zauhar(参考訳) フラグメントに基づく形状シグネチャ技術は、コンピュータ支援薬物設計のための強力なツールであることが証明されている。 科学者は、既知の活性化合物と類似した標的分子を探索することができる。 これは何百万もの化合物を含む化学データベースを扱うのに不可欠である。 しかし、断片化された化合物の一部の最適マッチングを見つけるのに時間がかかる。 本稿では,制約プログラミングを用いてこの問題を解決する。 接続制約の対象となるフラグメントの重み付けの割り当てを見つけることを含む。 我々の実験は、我々のアプローチの実際的妥当性を示し、複数の多様なソリューションを生成することを含む新しい視点を開く。 提案手法は,重み付き経路の列挙を回避するために,実時間設定で制約解決器を最初に使用する手法である。 モデルは、追加の制約を追加しても堅牢でなければならない。 この特定の文脈では、モデルの選択に特異な基準を用いる必要がある: 軽量で標準伝搬アルゴリズム、探索空間を縮小しながら一定のコストを課さないデータ構造。 難しいインスタンスを解決するために、新しい複雑なアルゴリズムを設計することではありません。

Fragment-based shape signature techniques have proven to be powerful tools for computer-aided drug design. They allow scientists to search for target molecules with some similarity to a known active compound. They do not require reference to the full underlying chemical structure, which is essential to deal with chemical databases containing millions of compounds. However, finding the optimal match of a part of the fragmented compound can be time-consuming. In this paper, we use constraint programming to solve this specific problem. It involves finding a weighted assignment of fragments subject to connectivity constraints. Our experiments demonstrate the practical relevance of our approach and open new perspectives, including generating multiple, diverse solutions. Our approach constitutes an original use of a constraint solver in a real time setting, where propagation allows to avoid an enumeration of weighted paths. The model must remain robust to the addition of additional constraints making some instances not tractable. This particular context requires the use of unusual criteria for the choice of the model: lightweight, standard propagation algorithms, data structures without prohibitive constant cost while reducing the search space. The objective is not to design new, complex algorithms to solve difficult instances.
翻訳日:2021-12-22 14:16:58 公開日:2021-12-20
# 自己着脱機能強化型ライトビジョントランスフォーマ

Lite Vision Transformer with Enhanced Self-Attention ( http://arxiv.org/abs/2112.10809v1 )

ライセンス: Link先を確認
Chenglin Yang, Yilin Wang, Jianming Zhang, He Zhang, Zijun Wei, Zhe Lin, Alan Yuille(参考訳) 視覚変換器モデルの印象的な表現能力にもかかわらず、現在の軽量視覚変換器モデルは依然として局所的に不整合かつ誤った密度予測に悩まされている。 自己着脱機構のパワーは、より浅く薄いネットワークで制限されていると推測する。 LVT(Lite Vision Transformer)は,移動体配置のためのモデル性能を改善するために,2つの拡張自己アテンション機構を備えた軽量トランスネットワークである。 低レベルの機能については、CSA(Convolutional Self-Attention)を紹介します。 従来の畳み込みと自己アテンションの融合アプローチとは異なり、CSAはLVTの第1段階において低レベルの特徴を豊かにするために、大きさ3x3のカーネル内の畳み込みに局所的な自己アテンションを導入する。 高レベルの特徴として,類似度マップの計算におけるマルチスケールコンテキストと余剰パラメータコストによる表現能力向上のための再帰的アラス自己認識(RASA)を提案する。 LVTの優位性は、ImageNet認識、ADE20Kセマンティックセグメンテーション、COCOパン光学セグメンテーションで示される。 コードは公開されています。

Despite the impressive representation capacity of vision transformer models, current light-weight vision transformer models still suffer from inconsistent and incorrect dense predictions at local regions. We suspect that the power of their self-attention mechanism is limited in shallower and thinner networks. We propose Lite Vision Transformer (LVT), a novel light-weight transformer network with two enhanced self-attention mechanisms to improve the model performances for mobile deployment. For the low-level features, we introduce Convolutional Self-Attention (CSA). Unlike previous approaches of merging convolution and self-attention, CSA introduces local self-attention into the convolution within a kernel of size 3x3 to enrich low-level features in the first stage of LVT. For the high-level features, we propose Recursive Atrous Self-Attention (RASA), which utilizes the multi-scale context when calculating the similarity map and a recursive mechanism to increase the representation capability with marginal extra parameter cost. The superiority of LVT is demonstrated on ImageNet recognition, ADE20K semantic segmentation, and COCO panoptic segmentation. The code is made publicly available.
翻訳日:2021-12-22 14:16:21 公開日:2021-12-20
# スケッチ1枚でパーソナライズしたスケッチのセグメンテーション

One Sketch for All: One-Shot Personalized Sketch Segmentation ( http://arxiv.org/abs/2112.10838v1 )

ライセンス: Link先を確認
Anran Qi, Yulia Gryaditskaya, Tao Xiang, Yi-Zhe Song(参考訳) 本稿では,最初の1ショットパーソナライズドスケッチセグメンテーション法を提案する。 我々は,同一のカテゴリに属するすべてのスケッチを,所定の部分アノテーションで1つのスケッチで区切ることを目標としている。 (i)例示に埋め込まれた部分意味論の保存、及び (ii)入力スタイルと抽象化に堅牢である。 私たちはこのシナリオをパーソナライズしている。 これにより、下流の微粒なスケッチ解析タスクに対して、非常に望まれるパーソナライズ機能を実現できる。 頑健なセグメンテーションモジュールをトレーニングするために、同じカテゴリで利用可能なスケッチのそれぞれに、模範的なスケッチを変形する。 本手法は訓練中に観察されないスケッチに一般化する。 私たちの中心となる貢献はスケッチ特有の階層的変形ネットワークです。 グラフ畳み込みネットワークを用いて得られたマルチレベルスケッチ・ストロークの符号化を前提として,本手法では,上層階の先行参照から剛体変換を推定する。 さらに、下層のストロークワイド変形により、模範から大域的に歪んだ参照スケッチへの有限変形を求める。 どちらのレベルの変形も、キーポイント間の平均2乗距離によって誘導され、ストロークのセマンティクスが保存される。 本手法は,単発セグメンテーションと知覚的グルーピングのベースラインに対して,また2つの数発3d形状セグメンテーション法に対して評価を行った。 提案手法は,全選択肢を平均10%以上上回る性能を示した。 アブレーション研究は、我々の手法がパーソナライズに頑健であること、すなわち入力部分のセマンティクスの変化とスタイルの違いをさらに示している。

We present the first one-shot personalized sketch segmentation method. We aim to segment all sketches belonging to the same category provisioned with a single sketch with a given part annotation while (i) preserving the parts semantics embedded in the exemplar, and (ii) being robust to input style and abstraction. We refer to this scenario as personalized. With that, we importantly enable a much-desired personalization capability for downstream fine-grained sketch analysis tasks. To train a robust segmentation module, we deform the exemplar sketch to each of the available sketches of the same category. Our method generalizes to sketches not observed during training. Our central contribution is a sketch-specific hierarchical deformation network. Given a multi-level sketch-strokes encoding obtained via a graph convolutional network, our method estimates rigid-body transformation from the reference to the exemplar, on the upper level. Finer deformation from the exemplar to the globally warped reference sketch is further obtained through stroke-wise deformations, on the lower level. Both levels of deformation are guided by mean squared distances between the keypoints learned without supervision, ensuring that the stroke semantics are preserved. We evaluate our method against the state-of-the-art segmentation and perceptual grouping baselines re-purposed for the one-shot setting and against two few-shot 3D shape segmentation methods. We show that our method outperforms all the alternatives by more than 10% on average. Ablation studies further demonstrate that our method is robust to personalization: changes in input part semantics and style differences.
翻訳日:2021-12-22 14:16:02 公開日:2021-12-20
# 階層情報をニューラルネットワークで符号化することで、人口移動を支援する

Encoding Hierarchical Information in Neural Networks helps in Subpopulation Shift ( http://arxiv.org/abs/2112.10844v1 )

ライセンス: Link先を確認
Amitangshu Mukherjee, Isha Garg and Kaushik Roy(参考訳) 過去10年間で、ディープニューラルネットワークは画像分類タスクに長けており、精度の面では人間を上回っていることが多い。 しかしながら、標準的なニューラルネットワークは、視覚関連タスクのための異なるクラス間の階層構造と依存関係の概念を理解できないことが多い。 一方、人間はカテゴリを概念的に学習し、ハイレベルな概念の理解からカテゴリの粒度レベルへと徐々に成長しているように見える。 ニューラルネットワークがそのような依存関係を学習構造内にエンコードできないことによる問題のひとつは、トレーニングセットのカテゴリのシフトした集団から取られた、新しい未知のクラスをモデルが問合せするサブポピュレーションシフトである。 ニューラルネットワークは各クラスを他のクラスとは独立に扱うため、階層の上位レベルに依存するシフトする人口を分類するのに苦労する。 本研究では,新しい条件付き指導訓練フレームワークのレンズを用いて,上記の問題について検討する。 ラベルを通じて階層的情報を条件付きで組み込んだ構造的学習手順によって,サブポピュレーションシフトに取り組む。 さらに、誤予測の破滅的な効果をモデル化するためのグラフィカル距離の概念を導入する。 この構造的階層的手法による学習は,サブポピュレーションシフトに対してより強固なネットワークへと発展し,精度では約2%,サブポピュレーションシフトベンチマークでは標準モデル上でのグラフィカル距離では約8.5\%向上することを示した。

Over the past decade, deep neural networks have proven to be adept in image classification tasks, often surpassing humans in terms of accuracy. However, standard neural networks often fail to understand the concept of hierarchical structures and dependencies among different classes for vision related tasks. Humans on the other hand, seem to learn categories conceptually, progressively growing from understanding high-level concepts down to granular levels of categories. One of the issues arising from the inability of neural networks to encode such dependencies within its learned structure is that of subpopulation shift -- where models are queried with novel unseen classes taken from a shifted population of the training set categories. Since the neural network treats each class as independent from all others, it struggles to categorize shifting populations that are dependent at higher levels of the hierarchy. In this work, we study the aforementioned problems through the lens of a novel conditional supervised training framework. We tackle subpopulation shift by a structured learning procedure that incorporates hierarchical information conditionally through labels. Furthermore, we introduce a notion of graphical distance to model the catastrophic effect of mispredictions. We show that learning in this structured hierarchical manner results in networks that are more robust against subpopulation shifts, with an improvement of around ~2% in terms of accuracy and around 8.5\% in terms of graphical distance over standard models on subpopulation shift benchmarks.
翻訳日:2021-12-22 14:15:34 公開日:2021-12-20
# スノーボード大空気の時空間運動同期

Spatiotemporal Motion Synchronization for Snowboard Big Air ( http://arxiv.org/abs/2112.10909v1 )

ライセンス: Link先を確認
Seiji Matsumura, Dan Mikami, Naoki Saijo, Makio Kashino(参考訳) スノーボード・ビッグエアのトレーニング中は、最も人気のある冬季スポーツの一つであり、アスリートやコーチは、単一のカメラやスマートフォンを使ってジャンプの試みを広範囲に撮影し、チェックする。 しかし,ビデオの連続的な視聴では,2つの試行の精度差を比較することは困難である。 したがって、2つのビデオの並べ表示やオーバーレイはトレーニングに役立つかもしれない。 これを実現するためには、複数のパフォーマンスの空間的および時間的アライメントを確保する必要がある。 本研究では,スノーボード大空練習において,既存の画像処理技術を用いた従来型だが有効な手法を提案する。 プロのスノーボーダーにインタビューしたところ、時空間対応ビデオは身体の動きの微妙な違いを正確に識別することができた。 その結果,本手法はスノーボードビッグエアのトレーニングに使用できることが示唆された。

During the training for snowboard big air, one of the most popular winter sports, athletes and coaches extensively shoot and check their jump attempts using a single camera or smartphone. However, by watching videos sequentially, it is difficult to compare the precise difference in performance between two trials. Therefore, side-by-side display or overlay of two videos may be helpful for training. To accomplish this, the spatial and temporal alignment of multiple performances must be ensured. In this study, we propose a conventional but plausible solution using the existing image processing techniques for snowboard big air training. We conducted interviews with expert snowboarders who stated that the spatiotemporally aligned videos enabled them to precisely identify slight differences in body movements. The results suggest that the proposed method can be used during the training of snowboard big air.
翻訳日:2021-12-22 14:15:09 公開日:2021-12-20
# HarmoFL:異種医用画像のフェデレーション学習における局所的・グローバル的ドリフトの調和

HarmoFL: Harmonizing Local and Global Drifts in Federated Learning on Heterogeneous Medical Images ( http://arxiv.org/abs/2112.10775v1 )

ライセンス: Link先を確認
Meirui Jiang, Zirui Wang, Qi Dou(参考訳) 複数の医療機関が連携学習(fl)を用いてモデルを協調的に訓練することは、データ駆動モデルの可能性を最大化するための有望なソリューションとなっているが、医療画像における非独立かつ同一の分散(非iid)データは、現実のプラクティスにおいて依然として優れた課題である。 多様なスキャナやプロトコルによって引き起こされる特徴の不均一性は、ローカル(クライアント)とグローバル(サーバ)の最適化の両方において、学習プロセスにおけるドリフトを導入し、収束とモデルパフォーマンスを損なう。 以前の多くの著作は、ドリフトを局所的あるいはグローバル的に扱うことで、非iid問題に対処しようと試みてきたが、この2つの本質的に結合したドリフトの解決方法はまだ不明である。 本研究では,ローカルドリフトとグローバルドリフトの両方を扱うことに集中し,HarmoFLと呼ばれる新しい調和フレームワークを導入する。 まず、周波数領域に変換された画像の振幅を正規化し、統一的な撮像設定を模倣し、局所的な更新ドリフトを緩和し、局所的なクライアント間の調和した特徴空間を生成する。 第2に、調和した特徴に基づいて、局所最適解の近傍領域が均一に損失の少ない平坦な最適点に到達するよう各局所モデルに導くクライアント重量摂動を設計する。 余分な通信コストなしで、摂動はグローバルモデルがいくつかの局所的平面光学を集約することで収束した最適解に向かって最適化するのを支援する。 提案手法を理論的に解析し,3つの医用画像分類およびセグメンテーションタスクに関する広範な実験を行った。

Multiple medical institutions collaboratively training a model using federated learning (FL) has become a promising solution for maximizing the potential of data-driven models, yet the non-independent and identically distributed (non-iid) data in medical images is still an outstanding challenge in real-world practice. The feature heterogeneity caused by diverse scanners or protocols introduces a drift in the learning process, in both local (client) and global (server) optimizations, which harms the convergence as well as model performance. Many previous works have attempted to address the non-iid issue by tackling the drift locally or globally, but how to jointly solve the two essentially coupled drifts is still unclear. In this work, we concentrate on handling both local and global drifts and introduce a new harmonizing framework called HarmoFL. First, we propose to mitigate the local update drift by normalizing amplitudes of images transformed into the frequency domain to mimic a unified imaging setting, in order to generate a harmonized feature space across local clients. Second, based on harmonized features, we design a client weight perturbation guiding each local model to reach a flat optimum, where a neighborhood area of the local optimal solution has a uniformly low loss. Without any extra communication cost, the perturbation assists the global model to optimize towards a converged optimal solution by aggregating several local flat optima. We have theoretically analyzed the proposed method and empirically conducted extensive experiments on three medical image classification and segmentation tasks, showing that HarmoFL outperforms a set of recent state-of-the-art methods with promising convergence behavior.
翻訳日:2021-12-22 13:24:29 公開日:2021-12-20
# Hateful Memes Challenge: 強化されたマルチモーダルフレームワーク

Hateful Memes Challenge: An Enhanced Multimodal Framework ( http://arxiv.org/abs/2112.11244v1 )

ライセンス: Link先を確認
Aijing Gao, Bingjun Wang, Jiaqi Yin, Yating Tian(参考訳) Facebook AIが提案したHateful Meme Challengeは、世界中の参加者を惹きつけている。 この課題は、マルチモーダルミームにおけるヘイトフルスピーチの検出に焦点を当てている。 さまざまな最先端ディープラーニングモデルがこの問題に適用され、challengeのleaderboardのパフォーマンスも常に改善されている。 本稿では,特徴抽出に detectionron を活用すること,損失関数の異なる visualbert と uniter モデルの異なるセットアップを検討すること,ヘイトフルなミームとセンシティブなテキスト特徴の関係を研究すること,最後にはモデル性能を向上させるアンサンブル法を構築すること,など,ヘイトフル検出フレームワークを強化する。 細調整した VisualBERT, UNITER, およびアンサンブル法のAUROC は, それぞれ0.765, 0.790, 0.803 であり, ベースラインモデルを上回っている。 私たちのコードはhttps://github.com/y atingtian/hateful-me meで利用可能です。

Hateful Meme Challenge proposed by Facebook AI has attracted contestants around the world. The challenge focuses on detecting hateful speech in multimodal memes. Various state-of-the-art deep learning models have been applied to this problem and the performance on challenge's leaderboard has also been constantly improved. In this paper, we enhance the hateful detection framework, including utilizing Detectron for feature extraction, exploring different setups of VisualBERT and UNITER models with different loss functions, researching the association between the hateful memes and the sensitive text features, and finally building ensemble method to boost model performance. The AUROC of our fine-tuned VisualBERT, UNITER, and ensemble method achieves 0.765, 0.790, and 0.803 on the challenge's test set, respectively, which beats the baseline models. Our code is available at https://github.com/y atingtian/hateful-me me
翻訳日:2021-12-22 13:22:50 公開日:2021-12-20
# 木構造リワード関数を用いた予測型強化学習

Interpretable Preference-based Reinforcement Learning with Tree-Structured Reward Functions ( http://arxiv.org/abs/2112.11230v1 )

ライセンス: Link先を確認
Tom Bewley, Freddy Lecue(参考訳) 強化学習(RL)が整列剤を届ける可能性は、報酬工学の問題によって部分的にボトルネックとなる。 ヒューリスティックな試行錯誤の代替の1つは、ヒトの少ないフィードバックから報酬関数が推測される優先ベースのRL(PbRL)である。 しかし、以前のpbrl法は学習報酬構造の解釈可能性に欠けており、ロバスト性とアライメントを評価する能力が阻害される。 本稿では,木の構造を内在的に解釈して報酬関数を構成するオンライン能動的選好学習アルゴリズムを提案する。 合成フィードバックと人為フィードバックの両方を用いて,複数の環境における木構造報酬関数のサンプル効率の学習を実演し,改良された解釈可能性を利用してアライメントの探索とデバッグを行う。

The potential of reinforcement learning (RL) to deliver aligned and performant agents is partially bottlenecked by the reward engineering problem. One alternative to heuristic trial-and-error is preference-based RL (PbRL), where a reward function is inferred from sparse human feedback. However, prior PbRL methods lack interpretability of the learned reward structure, which hampers the ability to assess robustness and alignment. We propose an online, active preference learning algorithm that constructs reward functions with the intrinsically interpretable, compositional structure of a tree. Using both synthetic and human-provided feedback, we demonstrate sample-efficient learning of tree-structured reward functions in several environments, then harness the enhanced interpretability to explore and debug for alignment.
翻訳日:2021-12-22 13:20:24 公開日:2021-12-20
# (参考訳) 分散ロバスト群後方互換性 [全文訳有]

Distributionally Robust Group Backwards Compatibility ( http://arxiv.org/abs/2112.10290v1 )

ライセンス: CC BY 4.0
Martin Bertran, Natalia Martinez, Alex Oesterling, Guillermo Sapiro(参考訳) 機械学習モデルは、新しいデータが取得されたり、新しいアーキテクチャが開発されるにつれて更新される。 これらの更新はモデルのパフォーマンスを向上するが、個々のユーザやユーザグループが、更新されたモデルでのパフォーマンスに悪影響を及ぼすような、後方互換性のエラーを起こす可能性がある。 トレーニングデータセットが全人口人口を正確に反映していない場合、データ収集プロセスへの全体的な参加が低いグループもあり、かなりの公正さを懸念するグループもある。 本稿では,分散的ロバスト性とミニマックスフェアネスのアイデアが,このシナリオにおける後方互換性をいかに支援できるかを分析し,この問題を直接解決するための2つの方法を提案する。 我々は,CIFAR-10,CelebA,Wat erbirdsの3つの標準画像分類データセットを用いて解析を行った。 github.com/natalialm g/GroupBCで利用可能なコード

Machine learning models are updated as new data is acquired or new architectures are developed. These updates usually increase model performance, but may introduce backward compatibility errors, where individual users or groups of users see their performance on the updated model adversely affected. This problem can also be present when training datasets do not accurately reflect overall population demographics, with some groups having overall lower participation in the data collection process, posing a significant fairness concern. We analyze how ideas from distributional robustness and minimax fairness can aid backward compatibility in this scenario, and propose two methods to directly address this issue. Our theoretical analysis is backed by experimental results on CIFAR-10, CelebA, and Waterbirds, three standard image classification datasets. Code available at github.com/natalialm g/GroupBC
翻訳日:2021-12-22 03:03:38 公開日:2021-12-20
# (参考訳) yawddを用いた畳み込みニューラルネットワークによるドライバの眠気検出 [全文訳有]

Driver Drowsiness Detection Using Ensemble Convolutional Neural Networks on YawDD ( http://arxiv.org/abs/2112.10298v1 )

ライセンス: CC BY 4.0
Rais Mohammad Salman, Mahbubur Rashid, Rupal Roy, Md Manjurul Ahsan, Zahed Siddique(参考訳) ビデオ/画像によるドライバーの眠気検出は、今日のドライバーの安全にとって最も重要な領域の1つである。 深層学習技術、特に畳み込みニューラルネットワーク(cnn)の開発は、眠気検出などのコンピュータビジョン応用に応用され、過去数十年で技術が大幅に増加したことによる有望な結果を示している。 閉じたり点滅したり、あくび、あくび、うなずき、オクルージョンといった目は、眠気の重要な側面である。 そこで本研究では,yawddデータセットに4つの異なる畳み込みニューラルネットワーク(cnn)手法を適用し,特定のポーズと咬合変動を伴うあくび頻度による眠気度の検出と検討を行った。 予備計算の結果,提案する畳み込みニューラルネットワーク(ecnn)は,従来のcnnベースのアプローチを0.935で上回り,他の3つのcnn(cnn1,cnn2,cnn3)はそれぞれ0.92,0.990,0.912f1となった。

Driver drowsiness detection using videos/images is one of the most essential areas in today's time for driver safety. The development of deep learning techniques, notably Convolutional Neural Networks (CNN), applied in computer vision applications such as drowsiness detection, has shown promising results due to the tremendous increase in technology in the recent few decades. Eyes that are closed or blinking excessively, yawning, nodding, and occlusion are all key aspects of drowsiness. In this work, we have applied four different Convolutional Neural Network (CNN) techniques on the YawDD dataset to detect and examine the extent of drowsiness depending on the yawning frequency with specific pose and occlusion variation. Preliminary computational results show that our proposed Ensemble Convolutional Neural Network (ECNN) outperformed the traditional CNN-based approach by achieving an F1 score of 0.935, whereas the other three CNN, such as CNN1, CNN2, and CNN3 approaches gained 0.92, 0.90, and 0.912 F1 scores, respectively.
翻訳日:2021-12-22 02:45:04 公開日:2021-12-20
# (参考訳) 大規模人口データベース上でのグラフネットワークを用いたモデルに基づく歩行認識 [全文訳有]

Model-based gait recognition using graph network on very large population database ( http://arxiv.org/abs/2112.10305v1 )

ライセンス: CC BY 4.0
Zhihao Wang, Chaoying Tang(参考訳) 現在,既存の歩行認識システムはシルエット画像から頑健な歩行特徴を抽出する手法の開発に重点を置いており,大きな成功を収めている。 しかし、歩行は衣服や携帯品などの外観に敏感である。 外観に基づく手法と比較すると,これらの変動に対する堅牢性から,モデルに基づく歩行認識が期待できる。 近年,人間のポーズ推定の発達に伴い,モデルに基づく歩行認識手法の難しさが軽減されている。 本稿では,被験者の増加とビューの変動に抵抗するため,局所的な特徴を構築し,同じ被験者からのサンプルの距離を最大化するために,サイムズネットワークを提案する。 近年の行動認識の進歩を活かして、ベクターに人間のポーズシーケンスを埋め込み、歩行認識に一般的に用いられている空間-時間グラフ畳み込みブロック(stgcb)を導入する。 OUMVLP-Poseと一般的なデータセットであるCASIA-Bについて実験した結果,本手法はモデルに基づく歩行認識におけるSOTA(State-of-the-ar t)のパフォーマンスをアーカイブしていることがわかった。 私たちのメソッドのコードとモデルは、受け入れ後、https://github.com/t imelessnaive/Gait-fo r-Large-Datasetで利用可能です。

At present, the existing gait recognition systems are focusing on developing methods to extract robust gait feature from silhouette images and they indeed achieved great success. However, gait can be sensitive to appearance features such as clothing and carried items. Compared with appearance-based method, model-based gait recognition is promising due to the robustness against these variations. In recent years, with the development of human pose estimation, the difficulty of model-based gait recognition methods has been mitigated. In this paper, to resist the increase of subjects and views variation, local features are built and a siamese network is proposed to maximize the distance of samples from the same subject. We leverage recent advances in action recognition to embed human pose sequence to a vector and introduce Spatial-Temporal Graph Convolution Blocks (STGCB) which has been commonly used in action recognition for gait recognition. Experiments on the very large population dataset named OUMVLP-Pose and the popular dataset, CASIA-B, show that our method archives some state-of-the-art (SOTA) performances in model-based gait recognition. The code and models of our method are available at https://github.com/t imelessnaive/Gait-fo r-Large-Dataset after being accepted.
翻訳日:2021-12-22 02:35:47 公開日:2021-12-20
# (参考訳) 集中場推定による顔完成のためのコントラスト注意ネットワーク [全文訳有]

Contrastive Attention Network with Dense Field Estimation for Face Completion ( http://arxiv.org/abs/2112.10310v1 )

ライセンス: CC BY 4.0
Xin Ma, Xiaoqiang Zhou, Huaibo Huang, Gengyun Jia, Zhenhua Chai, Xiaolin Wei(参考訳) 現代の顔補完アプローチのほとんどは、顔画像の欠落領域を復元するためにオートエンコーダまたはその変種を採用する。 エンコーダは、高度な学習タスクの課題を満たす上で重要な役割を果たす強力な表現を学ぶためにしばしば利用される。 特に、様々な種類のマスクが野生の顔画像に表示され、特にcovid-19の厳しい時期に複雑なパターンを形成している。 このような複雑な状況下で、エンコーダがこのような強力な表現をキャプチャするのは困難です。 この課題に対処するために,エンコーダの一般化とロバスト性を改善する自己教師型シームズ推論ネットワークを提案する。 フル解像度画像から文脈意味をエンコードし、より識別的な表現を得ることができる。 顔画像の幾何学的変化に対処するために、密接な対応フィールドをネットワークに統合する。 さらに,復元された領域と既知の領域を適応的に結合可能なdaf(dual attention fusion module)を備えたマルチスケールデコーダを提案する。 このマルチスケールアーキテクチャは、デコーダがエンコーダから画像に学習した識別表現を利用するために有用である。 広範な実験により,提案手法は最先端の手法よりも魅力的な結果を得るだけでなく,マスク付き顔認識の性能を劇的に向上させることが明らかとなった。

Most modern face completion approaches adopt an autoencoder or its variants to restore missing regions in face images. Encoders are often utilized to learn powerful representations that play an important role in meeting the challenges of sophisticated learning tasks. Specifically, various kinds of masks are often presented in face images in the wild, forming complex patterns, especially in this hard period of COVID-19. It's difficult for encoders to capture such powerful representations under this complex situation. To address this challenge, we propose a self-supervised Siamese inference network to improve the generalization and robustness of encoders. It can encode contextual semantics from full-resolution images and obtain more discriminative representations. To deal with geometric variations of face images, a dense correspondence field is integrated into the network. We further propose a multi-scale decoder with a novel dual attention fusion module (DAF), which can combine the restored and known regions in an adaptive manner. This multi-scale architecture is beneficial for the decoder to utilize discriminative representations learned from encoders into images. Extensive experiments clearly demonstrate that the proposed approach not only achieves more appealing results compared with state-of-the-art methods but also improves the performance of masked face recognition dramatically.
翻訳日:2021-12-22 02:24:19 公開日:2021-12-20
# (参考訳) 音韻バック音訳を用いた英語対中国語音訳 [全文訳有]

English-to-Chinese Transliteration with Phonetic Back-transliteration ( http://arxiv.org/abs/2112.10321v1 )

ライセンス: CC BY 4.0
Shi Cheng, Zhuofei Ding and Songpeng Yan(参考訳) 音素の類似性に基づいて、名前付きエンティティを言語から別の言語に翻訳するタスクである。 このタスクは近年、ディープラーニングのアプローチを採用していますが、ほとんどが関連する言語の音声的特徴を無視しています。 本研究では,音韻情報をニューラルネットワークに組み込む手法として,前置音と後置音節を用いた追加データ合成と,音韻学習前に音韻課題のモデル事前学習を行った。 実験は,中国語,ヘブライ語,タイ語の3つの言語対と6つの方向について行った。 結果から,提案手法はモデルにメリットをもたらし,最先端技術と比較して優れた性能,あるいは類似した性能を実現することが示唆された。

Transliteration is a task of translating named entities from a language to another, based on phonetic similarity. The task has embraced deep learning approaches in recent years, yet, most ignore the phonetic features of the involved languages. In this work, we incorporate phonetic information into neural networks in two ways: we synthesize extra data using forward and back-translation but in a phonetic manner; and we pre-train models on a phonetic task before learning transliteration. Our experiments include three language pairs and six directions, namely English to and from Chinese, Hebrew and Thai. Results indicate that our proposed approach brings benefits to the model and achieves better or similar performance when compared to state of the art.
翻訳日:2021-12-22 02:03:01 公開日:2021-12-20
# (参考訳) メモリ強化キーセンテンスマッチングによる前Fact-Checked Claimの検出 [全文訳有]

Article Reranking by Memory-Enhanced Key Sentence Matching for Detecting Previously Fact-Checked Claims ( http://arxiv.org/abs/2112.10322v1 )

ライセンス: CC BY-SA 4.0
Qiang Sheng, Juan Cao, Xueyao Zhang, Xirong Li, Lei Zhong(参考訳) 事実確認済みの虚偽の主張は、今でもソーシャルメディアに広まる可能性がある。 継続的な拡散を緩和するには、事前の事実確認クレームの検出が不可欠である。 既存の研究は、BM25が取得した候補事実チェック記事(FC-articles)を再評価することで、検出の証拠を提供することに重点を置いている。 しかし、これらの性能は、FC-アーティクルの次の特徴を無視しているため、制限される可能性がある:(1)クレームは、チェックイベントを記述するためにしばしば引用され、セマンティクス以外の語彙情報を提供する。 2つの側面を無視するモデルは意味的関連性のみを利用し、類似しているが無関係な事象を記述する文によって誤解されることがある。 本稿では、イベント(語彙と意味)とパターン情報から選択したキー文を用いて、FCアーティクルをランク付けする新しいリランカ MTM (Memory-enhanced Transformer for Matching) を提案する。 イベント情報に対しては,ROUGEの回帰を微調整したROUGE誘導変換器を提案する。 パターン情報に対して,文と一致するパターンベクトルを生成する。 イベント情報とパターン情報を融合することにより、記事を表すキー文を選択し、その記事がクレーム、キー文、パターンを用いてクレームを事実チェックするかどうかを予測する。 2つの実世界のデータセットの実験では、MTMが既存の手法より優れていることが示されている。 人間の評価は、MTMが説明のために重要な文をキャプチャできることを証明する。 コードとデータセットはhttps://github.com/I CTMCG/MTMにある。

False claims that have been previously fact-checked can still spread on social media. To mitigate their continual spread, detecting previously fact-checked claims is indispensable. Given a claim, existing works focus on providing evidence for detection by reranking candidate fact-checking articles (FC-articles) retrieved by BM25. However, these performances may be limited because they ignore the following characteristics of FC-articles: (1) claims are often quoted to describe the checked events, providing lexical information besides semantics; (2) sentence templates to introduce or debunk claims are common across articles, providing pattern information. Models that ignore the two aspects only leverage semantic relevance and may be misled by sentences that describe similar but irrelevant events. In this paper, we propose a novel reranker, MTM (Memory-enhanced Transformers for Matching) to rank FC-articles using key sentences selected with event (lexical and semantic) and pattern information. For event information, we propose a ROUGE-guided Transformer which is finetuned with regression of ROUGE. For pattern information, we generate pattern vectors for matching with sentences. By fusing event and pattern information, we select key sentences to represent an article and then predict if the article fact-checks the given claim using the claim, key sentences, and patterns. Experiments on two real-world datasets show that MTM outperforms existing methods. Human evaluation proves that MTM can capture key sentences for explanations. The code and the dataset are at https://github.com/I CTMCG/MTM.
翻訳日:2021-12-22 01:53:37 公開日:2021-12-20
# (参考訳) 完全自動欠陥検出における製品再同定システム [全文訳有]

Product Re-identification System in Fully Automated Defect Detection ( http://arxiv.org/abs/2112.10324v1 )

ライセンス: CC BY 4.0
Chenggui Sun and Li Bin Song(参考訳) 本研究では,完全自動製品欠陥検出システムの基本機能である製品再同定を行うための手法と改良されたニューラルワークを提案する。 我々の手法は特徴距離に基づいている。 これは、vgg16、alexnetのような特徴抽出ニューラルネットワークと、画像検索エンジンであるvearchとの組み合わせである。 製品再識別システムの開発に使用したデータセットは,18種類の水のボトルの400画像からなる水ボトルデータセットである。 これは小さなデータセットで、私たちの仕事で最大の課題でした。 しかし、ニューラルネットワークとvearchの組み合わせは、製品の再識別問題に取り組む可能性を示しています。 特に、新しいニューラルネットワークであるAlphaAlexNetでは、AlexNetに基づくニューラルネットワークの改善により、生産の識別精度が4%向上する可能性がある。 これは、ほぼ同一製品の画像特徴抽出のために効率的な特徴抽出手法を導入して再設計できる場合に、理想的な生産識別精度が得られることを示している。 データセットの小さなサイズと、互いにほとんど違いのないプロダクションを特定することの難しい性質によって引き起こされる最大の課題を解決する。 今後の作業では、ほぼ同一のプロダクション識別に取り組むための新しいロードマップを提案しています。

In this work, we introduce a method and present an improved neural work to perform product re-identification, which is an essential core function of a fully automated product defect detection system. Our method is based on feature distance. It is the combination of feature extraction neural networks, such as VGG16, AlexNet, with an image search engine - Vearch. The dataset that we used to develop product re-identification systems is a water-bottle dataset that consists of 400 images of 18 types of water bottles. This is a small dataset, which was the biggest challenge of our work. However, the combination of neural networks with Vearch shows potential to tackle the product re-identification problems. Especially, our new neural network - AlphaAlexNet that a neural network was improved based on AlexNet could improve the production identification accuracy by four percent. This indicates that an ideal production identification accuracy could be achieved when efficient feature extraction methods could be introduced and redesigned for image feature extractions of nearly identical products. In order to solve the biggest challenges caused by the small size of the dataset and the difficult nature of identifying productions that have little differences from each other. In our future work, we propose a new roadmap to tackle nearly-identical production identifications: to introduce or develop new algorithms that need very few images to train themselves.
翻訳日:2021-12-22 01:33:03 公開日:2021-12-20
# (参考訳) 分類校正:予測されたクラス確率の評価と改善方法:調査

Classifier Calibration: How to assess and improve predicted class probabilities: a survey ( http://arxiv.org/abs/2112.10327v1 )

ライセンス: CC BY 4.0
Telmo Silva Filho, Hao Song, Miquel Perello-Nieto, Raul Santos-Rodriguez, Meelis Kull, Peter Flach(参考訳) 本稿では,分類器校正の原理と実践の概要について概説する。 well-calibrated classifierは、インスタンス毎の予測に関連する不確実性や信頼性のレベルを正しく定量化する。 これは、重要なアプリケーション、最適な意思決定、コストに敏感な分類、ある種のコンテキスト変更に不可欠である。 校正研究は、何十年にもわたって学術分野としての機械学習の誕生以前の豊富な歴史を持っている。 しかし、近年のキャリブレーションへの関心の高まりにより、新しいメソッドやバイナリーからマルチクラス設定への拡張がもたらされている。 選択肢と考慮すべき課題の空間は大きく、それをナビゲートするには適切な概念とツールが必要です。 評価基準や評価基準,可視化手法,バイナリ分類とマルチクラス分類のためのポストホックキャリブレーション手法の包括的説明,いくつかの高度なトピックを含む,主要な概念と手法の紹介資料と最新の技術詳細の両方を提供する。

This paper provides both an introduction to and a detailed overview of the principles and practice of classifier calibration. A well-calibrated classifier correctly quantifies the level of uncertainty or confidence associated with its instance-wise predictions. This is essential for critical applications, optimal decision making, cost-sensitive classification, and for some types of context change. Calibration research has a rich history which predates the birth of machine learning as an academic field by decades. However, a recent increase in the interest on calibration has led to new methods and the extension from binary to the multiclass setting. The space of options and issues to consider is large, and navigating it requires the right set of concepts and tools. We provide both introductory material and up-to-date technical details of the main concepts and methods, including proper scoring rules and other evaluation metrics, visualisation approaches, a comprehensive account of post-hoc calibration methods for binary and multiclass classification, and several advanced topics.
翻訳日:2021-12-22 01:14:56 公開日:2021-12-20
# (参考訳) 教師なし・半教師付きグラフ表現学習法に関する総合的分析 [全文訳有]

A Comprehensive Analytical Survey on Unsupervised and Semi-Supervised Graph Representation Learning Methods ( http://arxiv.org/abs/2112.10372v1 )

ライセンス: CC BY 4.0
Md. Khaledur Rahman and Ariful Azad(参考訳) グラフ表現学習は、主要な目的の1つは、低次元空間におけるグラフの有意義な表現を生成することである。 学習された埋め込みは、リンク予測、ノード分類、クラスタリング、可視化などの様々な予測タスクにうまく適用されている。 グラフ学習コミュニティの集団的取り組みは何百もの方法を提供してきたが、予測精度、実行時間、スケーラビリティなど、すべての評価基準の下では、単一の方法が優れているものはない。 本調査は,アルゴリズムのバリエーション,パラメータの選択,拡張性,ハードウェアおよびソフトウェアプラットフォーム,下流MLタスク,多様なデータセットを考慮し,グラフ埋め込み手法のすべての主要なクラスを評価することを目的とする。 我々は,手動の特徴工学,行列分解,浅部ニューラルネットワーク,深部グラフ畳み込みネットワークなどの手法を含む分類学を用いてグラフ埋め込み手法を編成した。 広く使われているベンチマークグラフを用いて,ノード分類,リンク予測,クラスタリング,可視化タスクなどのアルゴリズムのクラスを評価した。 我々はPyTorch GeometricおよびDGLライブラリ上で実験を設計し、異なるマルチコアCPUおよびGPUプラットフォーム上で実験を行った。 各種性能指標に基づく埋め込み手法の性能を精査し,結果を要約する。 そこで本論文は,タスクに適したメソッドをユーザが選択するための比較ガイドとして機能する。

Graph representation learning is a fast-growing field where one of the main objectives is to generate meaningful representations of graphs in lower-dimensional spaces. The learned embeddings have been successfully applied to perform various prediction tasks, such as link prediction, node classification, clustering, and visualization. The collective effort of the graph learning community has delivered hundreds of methods, but no single method excels under all evaluation metrics such as prediction accuracy, running time, scalability, etc. This survey aims to evaluate all major classes of graph embedding methods by considering algorithmic variations, parameter selections, scalability, hardware and software platforms, downstream ML tasks, and diverse datasets. We organized graph embedding techniques using a taxonomy that includes methods from manual feature engineering, matrix factorization, shallow neural networks, and deep graph convolutional networks. We evaluated these classes of algorithms for node classification, link prediction, clustering, and visualization tasks using widely used benchmark graphs. We designed our experiments on top of PyTorch Geometric and DGL libraries and run experiments on different multicore CPU and GPU platforms. We rigorously scrutinize the performance of embedding methods under various performance metrics and summarize the results. Thus, this paper may serve as a comparative guide to help users select methods that are most suitable for their tasks.
翻訳日:2021-12-22 01:13:48 公開日:2021-12-20
# (参考訳) 有限帯域におけるグラフ情報スロットネックを用いたマルチエージェント通信(位置紙) [全文訳有]

Multi-agent Communication with Graph Information Bottleneck under Limited Bandwidth (a position paper) ( http://arxiv.org/abs/2112.10374v1 )

ライセンス: CC BY 4.0
Qi Tian, Kun Kuang, Baoxiang Wang, Furui Liu, Fei Wu(参考訳) 近年の研究では、エージェント間のコミュニケーションの導入により、協調型マルチエージェント強化学習(MARL)における全体的なパフォーマンスが著しく向上することが示されている。 多くの現実のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約が課される。 通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。 本稿では,最小限のコミュニケーションメッセージを学習することを目的とする。 まず、エージェント間のコミュニケーションを完全なグラフで開始する。 次に、この完全グラフにグラフ情報ボトルネック(GIB)の原理を導入し、グラフ構造に対する最適化を導出する。 この最適化に基づいて,通信グラフの構造情報とノード情報を効果的に圧縮し,帯域幅制限された設定を扱う,新しいマルチエージェント通信モジュールCommGIBを提案する。 交通制御とスタンクラフトIIの大規模な実験が行われた。 その結果,提案手法は最先端アルゴリズムに比べて帯域制限された設定で性能が向上し,特に大規模マルチエージェントタスクでは大きなマージンが得られた。

Recent studies have shown that introducing communication between agents can significantly improve overall performance in cooperative Multi-agent reinforcement learning (MARL). In many real-world scenarios, communication can be expensive and the bandwidth of the multi-agent system is subject to certain constraints. Redundant messages who occupy the communication resources can block the transmission of informative messages and thus jeopardize the performance. In this paper, we aim to learn the minimal sufficient communication messages. First, we initiate the communication between agents by a complete graph. Then we introduce the graph information bottleneck (GIB) principle into this complete graph and derive the optimization over graph structures. Based on the optimization, a novel multi-agent communication module, called CommGIB, is proposed, which effectively compresses the structure information and node information in the communication graph to deal with bandwidth-constraine d settings. Extensive experiments in Traffic Control and StanCraft II are conducted. The results indicate that the proposed methods can achieve better performance in bandwidth-restricted settings compared with state-of-the-art algorithms, with especially large margins in large-scale multi-agent tasks.
翻訳日:2021-12-22 00:37:03 公開日:2021-12-20
# (参考訳) 最適および近最適一様定数を持つ準一様設計 [全文訳有]

Quasi-uniform designs with optimal and near-optimal uniformity constant ( http://arxiv.org/abs/2112.10401v1 )

ライセンス: CC BY 4.0
Luc Pronzato and Anatoly Zhigljavsky(参考訳) 設計は、与えられた集合 $x$ の異なる点の集合であり、これは $r^d$ のコンパクト部分集合であると仮定され、設計のメッシュ比は、その充填距離と分離半径の比である。 ネストされた設計の列の均一性定数は、設計のメッシュ比に対する最小の上限である。 この一様性定数上の下界を導出し、単純な欲求構造がこの下界を達成することを示す。 そして、このスキームを拡張して、設計構成の柔軟性を高めます。

A design is a collection of distinct points in a given set $X$, which is assumed to be a compact subset of $R^d$, and the mesh-ratio of a design is the ratio of its fill distance to its separation radius. The uniformity constant of a sequence of nested designs is the smallest upper bound for the mesh-ratios of the designs. We derive a lower bound on this uniformity constant and show that a simple greedy construction achieves this lower bound. We then extend this scheme to allow more flexibility in the design construction.
翻訳日:2021-12-22 00:20:00 公開日:2021-12-20
# (参考訳) キーポイントマスクを用いた画像アニメーション [全文訳有]

Image Animation with Keypoint Mask ( http://arxiv.org/abs/2112.10457v1 )

ライセンス: CC BY 4.0
Or Toledano, Yanir Marmor, Dov Gertz(参考訳) モーショントランスファー(motion transfer)は、与えられた駆動ビデオからの動作に応じて、単一のソースイメージの将来のビデオフレームを合成するタスクである。 この課題は、動きの表現の複雑さと、駆動映像とソース画像との未知の関係により困難である。 この困難にもかかわらず、この問題は近年の研究から大きな関心を集め、徐々に改善された。 この問題は、キーポイント運動から運動を抽出することでしばしば解決される動きと外観の分離と考えることができる。 私たちは、任意のオブジェクトにアニメーションを適用し、入力の構造にドメイン固有のモデルを加えることなく、汎用的で教師なしの設定に取り組むことにしました。 本研究では,キーポイントヒートマップから,明示的な運動表現を使わずに構造を抽出する。 そして、画像及び映像からの構造体を抽出して、ディープジェネレータにより、映像に応じて画像に反動させる。

Motion transfer is the task of synthesizing future video frames of a single source image according to the motion from a given driving video. This task is challenging due to the complexity of motion representation and the unknown relations between the driving video and the source image. Despite this difficulty, this problem attracted great interests from researches at the recent years, with gradual improvements. The problem can be thought as decoupling of motion and appearance, which is often solved by extracting the motion from keypoint movement. We chose to tackle the generic, unsupervised setting, where we need to apply animation to any arbitrary object, without any domain specific model for the structure of the input. In this work, we extract the structure from a keypoint heatmap, without an explicit motion representation. Then, the structures from the image and the video are extracted to warp the image according to the video, by a deep generator.
翻訳日:2021-12-22 00:00:52 公開日:2021-12-20
# (参考訳) 共同入札のための安全マルチエージェント深部強化学習と生成ユニットのメンテナンススケジューリング [全文訳有]

Safe multi-agent deep reinforcement learning for joint bidding and maintenance scheduling of generation units ( http://arxiv.org/abs/2112.10459v1 )

ライセンス: CC BY 4.0
Pegah Rokhforoz, Olga Fink(参考訳) 本稿では,競争型電力市場環境における入札決定とユニットメンテナンススケジューリングのための安全強化学習アルゴリズムを提案する。 この問題において、各ユニットは収益を最大化する入札戦略を探し、同時に、予防的保守のスケジューリングによって信頼性を保ち続けることを目指している。 メンテナンスのスケジューリングは、常に満足すべき安全上の制約を提供します。 生成ユニットが互いの入札戦略の不完全な情報を持っている間、臨界安全性と信頼性の制約を満足することは難しい問題である。 バイレベル最適化と強化学習は、この種の問題を解決するための最先端のアプローチである。 しかし、二段階最適化や強化学習は、不完全な情報や重要な安全性の制約に対処できない。 これらの課題に対処するために,強化学習と予測安全フィルタを組み合わせた,安全な深い決定論的ポリシー勾配強化学習アルゴリズムを提案する。 本ケーススタディでは,提案手法がシステム安全性の制約を満たしながら,他の技術手法と比較して高い利益を得られることを実証する。

This paper proposes a safe reinforcement learning algorithm for generation bidding decisions and unit maintenance scheduling in a competitive electricity market environment. In this problem, each unit aims to find a bidding strategy that maximizes its revenue while concurrently retaining its reliability by scheduling preventive maintenance. The maintenance scheduling provides some safety constraints which should be satisfied at all times. Satisfying the critical safety and reliability constraints while the generation units have an incomplete information of each others' bidding strategy is a challenging problem. Bi-level optimization and reinforcement learning are state of the art approaches for solving this type of problems. However, neither bi-level optimization nor reinforcement learning can handle the challenges of incomplete information and critical safety constraints. To tackle these challenges, we propose the safe deep deterministic policy gradient reinforcement learning algorithm which is based on a combination of reinforcement learning and a predicted safety filter. The case study demonstrates that the proposed approach can achieve a higher profit compared to other state of the art methods while concurrently satisfying the system safety constraints.
翻訳日:2021-12-21 23:53:00 公開日:2021-12-20
# (参考訳) ドメイン適応のための相互正規化 [全文訳有]

Reciprocal Normalization for Domain Adaptation ( http://arxiv.org/abs/2112.10474v1 )

ライセンス: CC0 1.0
Zhiyong Huang, Kekai Sheng, Ke Li, Jian Liang, Taiping Yao, Weiming Dong, Dengwen Zhou, Xing Sun(参考訳) バッチ正規化(BN)は、ドメイン関連の知識を表すことが示され、非教師なしドメイン適応(UDA)のようなドメイン横断タスクには効果がない現代のディープニューラルネットワークで広く使われている。 既存のbn変種メソッドは、正規化モジュールで同じチャネルでソースとターゲットのドメイン知識を集約する。 しかし、ドメイン間の対応するチャネルの特徴の相違は、しばしば準最適転送可能性をもたらす。 本稿では,クロスドメイン関係を利用し,新しい正規化法であるreciprocal normalization (rn)を提案する。 具体的には、RNがまずReciprocal Compensation(RC)モジュールを提示し、クロスドメインチャネルワイズ相関に基づいて、両方のドメインの各チャネルの補償を取得する。 次にRNは相互集約(Reciprocal Aggregation, RA)モジュールを開発し、その機能をクロスドメイン補償コンポーネントで適応的に集約する。 BN の代替として、RN は UDA 問題により適しており、一般的な領域適応法に容易に組み込むことができる。 実験により、提案されたRNは既存の正規化よりも大きなマージンで優れており、最先端の適応アプローチがより良い結果を得るのに役立つことが示された。 ソースコードはhttps://github.com/o penning07/reciprocal -normalization-for-d aで入手できる。

Batch normalization (BN) is widely used in modern deep neural networks, which has been shown to represent the domain-related knowledge, and thus is ineffective for cross-domain tasks like unsupervised domain adaptation (UDA). Existing BN variant methods aggregate source and target domain knowledge in the same channel in normalization module. However, the misalignment between the features of corresponding channels across domains often leads to a sub-optimal transferability. In this paper, we exploit the cross-domain relation and propose a novel normalization method, Reciprocal Normalization (RN). Specifically, RN first presents a Reciprocal Compensation (RC) module to acquire the compensatory for each channel in both domains based on the cross-domain channel-wise correlation. Then RN develops a Reciprocal Aggregation (RA) module to adaptively aggregate the feature with its cross-domain compensatory components. As an alternative to BN, RN is more suitable for UDA problems and can be easily integrated into popular domain adaptation methods. Experiments show that the proposed RN outperforms existing normalization counterparts by a large margin and helps state-of-the-art adaptation approaches achieve better results. The source code is available on https://github.com/O penning07/reciprocal -normalization-for-D A.
翻訳日:2021-12-21 23:37:45 公開日:2021-12-20
# (参考訳) ScanQA:空間的場面理解のための3次元質問応答 [全文訳有]

ScanQA: 3D Question Answering for Spatial Scene Understanding ( http://arxiv.org/abs/2112.10482v1 )

ライセンス: CC BY 4.0
Daichi Azuma, Taiki Miyanishi, Shuhei Kurita and Motoki Kawanabe(参考訳) 3次元質問応答(3d-qa)による空間理解タスクを提案する。 3D-QAタスクでは、リッチなRGB-D屋内スキャンの3Dシーン全体から視覚情報を受け取り、与えられた3Dシーンに関するテキスト質問に答える。 VQAの2D質問応答とは異なり、従来の2D-QAモデルは、オブジェクトのアライメントと方向の空間的理解の問題に悩まされ、3D-QAのテキスト質問からオブジェクトのローカライゼーションに失敗する。 ScanQAモデルと呼ばれる3D-QAのベースラインモデルを提案し、3Dオブジェクトの提案とエンコードされた文埋め込みから融合記述子を学習する。 この学習されたディスクリプタは、言語表現と3dスキャンの基本的な幾何学的特徴を相関させ、3dバウンディングボックスの回帰を促進し、テキスト質問で記述されたオブジェクトを決定する。 3dシーンごとに3dオブジェクトに接する自由形式の回答で,人間による質問応答ペアを収集した。 私たちの新しいScanQAデータセットには、ScanNetデータセットから描かれた800の屋内シーンから41万以上の質問応答ペアが含まれています。 我々の知る限りでは、ScanQAは3D環境でオブジェクト指向の質問応答を行うための最初の大規模取り組みである。

We propose a new 3D spatial understanding task of 3D Question Answering (3D-QA). In the 3D-QA task, models receive visual information from the entire 3D scene of the rich RGB-D indoor scan and answer the given textual questions about the 3D scene. Unlike the 2D-question answering of VQA, the conventional 2D-QA models suffer from problems with spatial understanding of object alignment and directions and fail the object localization from the textual questions in 3D-QA. We propose a baseline model for 3D-QA, named ScanQA model, where the model learns a fused descriptor from 3D object proposals and encoded sentence embeddings. This learned descriptor correlates the language expressions with the underlying geometric features of the 3D scan and facilitates the regression of 3D bounding boxes to determine described objects in textual questions. We collected human-edited question-answer pairs with free-form answers that are grounded to 3D objects in each 3D scene. Our new ScanQA dataset contains over 41K question-answer pairs from the 800 indoor scenes drawn from the ScanNet dataset. To the best of our knowledge, ScanQA is the first large-scale effort to perform object-grounded question-answering in 3D environments.
翻訳日:2021-12-21 23:15:34 公開日:2021-12-20
# (参考訳) 顔声連合改善のための固定と直交投影 [全文訳有]

Fusion and Orthogonal Projection for Improved Face-Voice Association ( http://arxiv.org/abs/2112.10483v1 )

ライセンス: CC BY 4.0
Muhammad Saad Saeed, Muhammad Haris Khan, Shah Nawaz, Muhammad Haroon Yousaf, Alessio Del Bue(参考訳) 近年,コンピュータビジョンコミュニティへの関心が高まっている顔と音声の学習関連の問題について検討する。 先行研究では、ペアワイズまたはトリプルトロスの定式化を採用し、関連するマッチングおよび検証タスクのための埋め込み空間を学習する。 しかし、そのような損失定式化は、距離依存のマージンパラメータへの依存、実行時のトレーニングの複雑さの低さ、慎重に作られた負のマイニング手順への依存などにより制限される。 本研究は, 顔・声の関連を改善するために, 特徴表現の充実と, 効果的かつ効率的な監督が不可欠であると仮定する。 そこで本研究では,両モードの相補的手がかりを利用して,密集した融合埋め込みを形成し,直交制約を通した識別ラベルに基づいてクラスタ化する軽量なプラグアンドプレイ機構を提案する。 提案するメカニズムをfop(fusion and orthogonal projection)として考案し,2ストリームパイプラインでインスタンス化する。 全体的なフレームワークは、クロスモーダル検証やマッチングなど、さまざまなタスクを備えた大規模なVoxCelebデータセットで評価される。 その結果,本手法は現在の手法に対して好適に動作し,提案手法は現代手法よりも効率的かつ効率的であることがわかった。

We study the problem of learning association between face and voice, which is gaining interest in the computer vision community lately. Prior works adopt pairwise or triplet loss formulations to learn an embedding space amenable for associated matching and verification tasks. Albeit showing some progress, such loss formulations are, however, restrictive due to dependency on distance-dependent margin parameter, poor run-time training complexity, and reliance on carefully crafted negative mining procedures. In this work, we hypothesize that enriched feature representation coupled with an effective yet efficient supervision is necessary in realizing a discriminative joint embedding space for improved face-voice association. To this end, we propose a light-weight, plug-and-play mechanism that exploits the complementary cues in both modalities to form enriched fused embeddings and clusters them based on their identity labels via orthogonality constraints. We coin our proposed mechanism as fusion and orthogonal projection (FOP) and instantiate in a two-stream pipeline. The overall resulting framework is evaluated on a large-scale VoxCeleb dataset with a multitude of tasks, including cross-modal verification and matching. Results show that our method performs favourably against the current state-of-the-art methods and our proposed supervision formulation is more effective and efficient than the ones employed by the contemporary methods.
翻訳日:2021-12-21 22:37:12 公開日:2021-12-20
# (参考訳) 認証フェデレーション・ディベクショナル・トレーニング [全文訳有]

Certified Federated Adversarial Training ( http://arxiv.org/abs/2112.10525v1 )

ライセンス: CC BY 4.0
Giulio Zizzo, Ambrish Rawat, Mathieu Sinn, Sergio Maffeis, Chris Hankin(参考訳) フェデレーション学習(fl)では,悪意のあるクライアントから保護するためのロバストアグリゲーションスキームが開発されている。 多くのロバスト集約スキームは、労働者のクォーラムに存在する一定の数の良性クライアントに依存している。 これは、クライアントが自由に参加できる場合や、アイドルシステムステータスや電力やwi-fiに接続している場合の保証が難しい場合があります。 我々は、労働者のクォーラムが完全に悪意のある場合、FLシステムが敵の訓練を行うシナリオに取り組む。 我々は、モデルに毒を盛った攻撃者が敵のトレーニングに弱点を挿入し、そのモデルが明らかに敵の堅牢性を示すようにし、一方攻撃者は、挿入された弱点を利用して敵のトレーニングを回避し、敵の例を誤分類するよう強制することができる。 このようなステルス攻撃を検出し、破損したモデル更新をブロックするために、抽象解釈技術を使用します。 この防御は適応攻撃者に対しても敵の強固さを保てることを示す。

In federated learning (FL), robust aggregation schemes have been developed to protect against malicious clients. Many robust aggregation schemes rely on certain numbers of benign clients being present in a quorum of workers. This can be hard to guarantee when clients can join at will, or join based on factors such as idle system status, and connected to power and WiFi. We tackle the scenario of securing FL systems conducting adversarial training when a quorum of workers could be completely malicious. We model an attacker who poisons the model to insert a weakness into the adversarial training such that the model displays apparent adversarial robustness, while the attacker can exploit the inserted weakness to bypass the adversarial training and force the model to misclassify adversarial examples. We use abstract interpretation techniques to detect such stealthy attacks and block the corrupted model updates. We show that this defence can preserve adversarial robustness even against an adaptive attacker.
翻訳日:2021-12-21 22:26:48 公開日:2021-12-20
# (参考訳) NetKet 3: マルチボディ量子システムのための機械学習ツールボックス

NetKet 3: Machine Learning Toolbox for Many-Body Quantum Systems ( http://arxiv.org/abs/2112.10526v1 )

ライセンス: CC BY 4.0
Filippo Vicentini, Damian Hofmann, Attila Szab\'o, Dian Wu, Christopher Roth, Clemens Giuliani, Gabriel Pescia, Jannes Nys, Vladimir Vargas-Calderon, Nikita Astrakhantsev and Giuseppe Carleo(参考訳) 我々は多体量子物理学のための機械学習ツールボックスNetKetのバージョン3を紹介する。 NetKetはニューラルネットワーク量子状態を中心に構築されており、評価と最適化のために効率的なアルゴリズムを提供する。 この新バージョンは、pythonプログラミング言語用の微分可能プログラミングおよび加速線形代数フレームワークであるjax上に構築されている。 最も重要な新機能は、任意のニューラルネットワークans\"atzeを純粋なpythonコードで定義できることだ。機械学習フレームワークの簡潔な表記を使って、ジャストインタイムコンパイルと自動微分による暗黙的な勾配生成が可能になる。 NetKet 3にはGPUとTPUアクセラレータのサポート、離散対称性グループの高度なサポート、数千自由度までスケールアップするためのチャンキング、量子力学アプリケーションのためのドライバ、モジュール性の改善などが含まれている。

We introduce version 3 of NetKet, the machine learning toolbox for many-body quantum physics. NetKet is built around neural-network quantum states and provides efficient algorithms for their evaluation and optimization. This new version is built on top of JAX, a differentiable programming and accelerated linear algebra framework for the Python programming language. The most significant new feature is the possibility to define arbitrary neural network ans\"atze in pure Python code using the concise notation of machine-learning frameworks, which allows for just-in-time compilation as well as the implicit generation of gradients thanks to automatic differentiation. NetKet 3 also comes with support for GPU and TPU accelerators, advanced support for discrete symmetry groups, chunking to scale up to thousands of degrees of freedom, drivers for quantum dynamics applications, and improved modularity, allowing users to use only parts of the toolbox as a foundation for their own code.
翻訳日:2021-12-21 22:14:18 公開日:2021-12-20
# (参考訳) 視覚特性の分類としての物体認識 [全文訳有]

Object Recognition as Classification of Visual Properties ( http://arxiv.org/abs/2112.10531v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia, Mayukh Bagchi(参考訳) 我々は、認識と分類の異なる機能を実装する能力としての概念の遠隔モデリングに基づく。 したがって、視覚特性を利用した物体認識に適した物質概念と、言語的に接地された特性を利用した物質概念の分類に適した分類概念の2つの概念をモデル化する。 本稿では,物体認識を視覚特性の分類として,主流コンピュータビジョンの作業とは別物として解釈できることを実証する。 そこで本研究では, 物質概念と分類概念のテレオーセマンティックな区別に基づく, ランガナサンの四相顔知識組織プロセスに基づく物体認識プロセスを提案する。 我々はまた,提案プロセスに従ってオブジェクト認識リソースを構築することを目的とした,進行中のMultiMedia UKCを紹介した。

We base our work on the teleosemantic modelling of concepts as abilities implementing the distinct functions of recognition and classification. Accordingly, we model two types of concepts - substance concepts suited for object recognition exploiting visual properties, and classification concepts suited for classification of substance concepts exploiting linguistically grounded properties. The goal in this paper is to demonstrate that object recognition can be construed as classification of visual properties, as distinct from work in mainstream computer vision. Towards that, we present an object recognition process based on Ranganathan's four-phased faceted knowledge organization process, grounded in the teleosemantic distinctions of substance concept and classification concept. We also briefly introduce the ongoing project MultiMedia UKC, whose aim is to build an object recognition resource following our proposed process
翻訳日:2021-12-21 22:13:18 公開日:2021-12-20
# (参考訳) スパイラル言語モデリング [全文訳有]

Spiral Language Modeling ( http://arxiv.org/abs/2112.10543v1 )

ライセンス: CC BY 4.0
Yong Cao, Yukun Feng, Shaohui Kuang, Gu Xu(参考訳) ほぼすべてのテキスト生成アプリケーションにおいて、自然言語文がL2RまたはR2Lと書かれるため、単語列は左から右へ(L2R)または右から左へ(R2L)に構築される。 しかし,テキスト生成には自然言語による順序付けが不可欠ではないことがわかった。 本稿では,l2r と r2l の順序を超えて自然言語文を構築できる汎用的手法であるスパイラル言語モデリング(slm)を提案する。 slmでは、結果テキスト内の任意のトークンから始まり、選択したトークンの周りにrestトークンを拡張することで、自然言語テキストを作成できる。 復号順序を言語モデルの難易度以外の新たな最適化目標とし、生成したテキストの多様性と品質をさらに向上させる。 さらに、SLMは適切な開始トークンを選択してテキスト構築プロセスを操作することができる。 slmはまた、低リソースシナリオにおけるモデルのロバスト性を改善する追加の正規化として生成順序付けを導入した。 8つの広く研究されているニューラルネットワーク翻訳(NMT)タスクの実験は、SLMが従来のL2R復号法と比較して最大4.7BLEUの増加で常に有効であることを示している。

In almost all text generation applications, word sequences are constructed in a left-to-right (L2R) or right-to-left (R2L) manner, as natural language sentences are written either L2R or R2L. However, we find that the natural language written order is not essential for text generation. In this paper, we propose Spiral Language Modeling (SLM), a general approach that enables one to construct natural language sentences beyond the L2R and R2L order. SLM allows one to form natural language text by starting from an arbitrary token inside the result text and expanding the rest tokens around the selected ones. It makes the decoding order a new optimization objective besides the language model perplexity, which further improves the diversity and quality of the generated text. Furthermore, SLM makes it possible to manipulate the text construction process by selecting a proper starting token. SLM also introduces generation orderings as additional regularization to improve model robustness in low-resource scenarios. Experiments on 8 widely studied Neural Machine Translation (NMT) tasks show that SLM is constantly effective with up to 4.7 BLEU increase comparing to the conventional L2R decoding approach.
翻訳日:2021-12-21 22:02:41 公開日:2021-12-20
# (参考訳) BERTモデルにおける学習データセットと辞書サイズ : バルト語の場合 [全文訳有]

Training dataset and dictionary sizes matter in BERT models: the case of Baltic languages ( http://arxiv.org/abs/2112.10553v1 )

ライセンス: CC BY-SA 4.0
Matej Ul\v{c}ar and Marko Robnik-\v{S}ikonja(参考訳) マスク付き大規模言語モデルは、多くのNLP問題に対する最先端のソリューションとなっている。 研究により、単言語モデルは多言語モデルよりも優れた結果をもたらすことが示されたが、トレーニングデータセットは十分に大きくなければならない。 我々はリトアニア語、ラトビア語、英語のLitLat BERT様モデルとエストニア語のための単言語Est-RoBERTaモデルを訓練した。 提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおける性能を評価する。 単一言語にフォーカスすることの重要性と大規模なトレーニングセットの重要性を分析するため、エストニア、ラトビア、リトアニアの既存の単言語および多言語BERTモデルと比較した。 その結果、新しいLitLat BERTとEst-RoBERTaモデルは、ほとんどの状況でテストされたすべてのタスクにおいて、既存のモデルの結果を改善することがわかった。

Large pretrained masked language models have become state-of-the-art solutions for many NLP problems. While studies have shown that monolingual models produce better results than multilingual models, the training datasets must be sufficiently large. We trained a trilingual LitLat BERT-like model for Lithuanian, Latvian, and English, and a monolingual Est-RoBERTa model for Estonian. We evaluate their performance on four downstream tasks: named entity recognition, dependency parsing, part-of-speech tagging, and word analogy. To analyze the importance of focusing on a single language and the importance of a large training set, we compare created models with existing monolingual and multilingual BERT models for Estonian, Latvian, and Lithuanian. The results show that the newly created LitLat BERT and Est-RoBERTa models improve the results of existing models on all tested tasks in most situations.
翻訳日:2021-12-21 21:50:41 公開日:2021-12-20
# (参考訳) 複数介入のスコアリングによる潜伏変数によるハイブリッドベイズネットワークの探索

Hybrid Bayesian network discovery with latent variables by scoring multiple interventions ( http://arxiv.org/abs/2112.10574v1 )

ライセンス: CC BY 4.0
Kiattikun Chobtham, Anthony C. Constantinou, Neville K. Kitson(参考訳) ベイズネットワーク(BN)では、エッジの方向は因果推論と推論に不可欠である。 しかし、マルコフ同値類を考えると、必ずしもエッジ配向を確立することは不可能であり、多くのBN構造学習アルゴリズムは純粋な観測データからすべてのエッジをオリエンテーションできない。 さらに、潜伏した共同ファウンダーは偽陽性に陥る可能性がある。 これらの問題に対処するための比較的少数の手法が提案されている。 本研究では、観測データセットと1つ以上の干渉データセットを含む離散データから構造学習を行うためのハイブリッドmFGS-BS(Majority Rule and Fast Greedy equivalence Search with Bayesian Scoring)アルゴリズムを提案する。 このアルゴリズムは潜伏変数の存在下で因果不整合を仮定し、部分アンセストラルグラフ(PAG)を生成する。 構造学習は、ハイブリッドアプローチと、学習グラフに追加される各有向エッジの後方確率を計算する新しいベイズスコアリングパラダイムに依存している。 最大109変数と10kサンプルサイズのよく知られたネットワークに基づく実験結果から,mFGS-BSは最先端技術と比較して構造学習精度を向上し,計算効率が向上することが示された。

In Bayesian Networks (BNs), the direction of edges is crucial for causal reasoning and inference. However, Markov equivalence class considerations mean it is not always possible to establish edge orientations, which is why many BN structure learning algorithms cannot orientate all edges from purely observational data. Moreover, latent confounders can lead to false positive edges. Relatively few methods have been proposed to address these issues. In this work, we present the hybrid mFGS-BS (majority rule and Fast Greedy equivalence Search with Bayesian Scoring) algorithm for structure learning from discrete data that involves an observational data set and one or more interventional data sets. The algorithm assumes causal insufficiency in the presence of latent variables and produces a Partial Ancestral Graph (PAG). Structure learning relies on a hybrid approach and a novel Bayesian scoring paradigm that calculates the posterior probability of each directed edge being added to the learnt graph. Experimental results based on well-known networks of up to 109 variables and 10k sample size show that mFGS-BS improves structure learning accuracy relative to the state-of-the-art and it is computationally efficient.
翻訳日:2021-12-21 21:41:09 公開日:2021-12-20
# (参考訳) 画像フリーマルチキャラクタ認識 [全文訳有]

Image-free multi-character recognition ( http://arxiv.org/abs/2112.10587v1 )

ライセンス: CC BY 4.0
Huayi Wang, Chunli Zhu, Liheng Bian(参考訳) 最近開発されたイメージフリーセンシング技術は、単純なターゲット分類とモーショントラッキングに応用された軽量ハードウェアとソフトウェアの両方の利点を維持している。 しかし、実際的な応用では、既存の試行が複数の意味情報を生成するのに失敗する視野に複数の目標が存在するのが普通である。 本稿では,マルチターゲット認識課題に初めて取り組むための無像センシング手法について報告する。 画像のない単一ピクセルネットワークの畳み込み層スタックとは異なり、報告されたCRNNネットワークは双方向LSTMアーキテクチャを利用して複数の文字の分布を同時に予測する。 このフレームワークは、長距離依存関係をキャプチャし、複数の文字の高い認識精度を提供する。 100fps以上のリフレッシュレートで5%のサンプリングレートで87.60%の認識精度を得たライセンスプレート検出において,本手法の有効性を実証した。

The recently developed image-free sensing technique maintains the advantages of both the light hardware and software, which has been applied in simple target classification and motion tracking. In practical applications, however, there usually exist multiple targets in the field of view, where existing trials fail to produce multi-semantic information. In this letter, we report a novel image-free sensing technique to tackle the multi-target recognition challenge for the first time. Different from the convolutional layer stack of image-free single-pixel networks, the reported CRNN network utilities the bidirectional LSTM architecture to predict the distribution of multiple characters simultaneously. The framework enables to capture the long-range dependencies, providing a high recognition accuracy of multiple characters. We demonstrated the technique's effectiveness in license plate detection, which achieved 87.60% recognition accuracy at a 5% sampling rate with a higher than 100 FPS refresh rate.
翻訳日:2021-12-21 21:39:45 公開日:2021-12-20
# (参考訳) 低解像度・高分解能イベントカメラを用いた車両知覚のための実時間光流れ [全文訳有]

Real-Time Optical Flow for Vehicular Perception with Low- and High-Resolution Event Cameras ( http://arxiv.org/abs/2112.10591v1 )

ライセンス: CC BY 4.0
Vincent Brebion and Julien Moreau and Franck Davoine(参考訳) イベントカメラは、観測されたシーンにおける照明の変化を捉えます。 これにより、高速モーションや複雑な照明条件下での応用が可能となり、従来のフレームベースのセンサーはぼやけや過度に露出されたピクセルで限界を示す。 これらのユニークな性質のおかげで、現在はITS関連のアプリケーションにとって非常に魅力的なセンサーとなっている。 イベントベース光学フロー(EBOF)は,これらのニューロモルフィックカメラの普及に伴い研究されている。 しかし、近年の高解像度ニューロモルフィックセンサーの登場は、イベントピクセルアレイの解像度の増大とスループットの向上により、既存のアプローチに挑戦している。 そこで,本稿では,低解像度と高分解能のイベントカメラを用いて,光フローをリアルタイムに計算するための最適化フレームワークを提案する。 我々は「逆指数的距離曲面」という形で、スパース事象流の新たな密度表現を定式化する。 中間フレームとして機能し、証明された最先端のフレームベースの光フロー計算法のために設計された。 提案手法を低解像度および高解像度の駆動シーケンスで評価した結果,現行技術よりも良好な結果が得られた一方で,フレームレートが250Hz,346×260ピクセル,77Hz,1280×720ピクセルであった。

Event cameras capture changes of illumination in the observed scene rather than accumulating light to create images. Thus, they allow for applications under high-speed motion and complex lighting conditions, where traditional framebased sensors show their limits with blur and over- or underexposed pixels. Thanks to these unique properties, they represent nowadays an highly attractive sensor for ITS-related applications. Event-based optical flow (EBOF) has been studied following the rise in popularity of these neuromorphic cameras. The recent arrival of high-definition neuromorphic sensors, however, challenges the existing approaches, because of the increased resolution of the events pixel array and a much higher throughput. As an answer to these points, we propose an optimized framework for computing optical flow in real-time with both low- and high-resolution event cameras. We formulate a novel dense representation for the sparse events flow, in the form of the "inverse exponential distance surface". It serves as an interim frame, designed for the use of proven, state-of-the-art frame-based optical flow computation methods. We evaluate our approach on both low- and high-resolution driving sequences, and show that it often achieves better results than the current state of the art, while also reaching higher frame rates, 250Hz at 346 x 260 pixels and 77Hz at 1280 x 720 pixels.
翻訳日:2021-12-21 21:33:06 公開日:2021-12-20
# (参考訳) エピソードマルコフ決定過程における差分プライベートレグレレット最小化

Differentially Private Regret Minimization in Episodic Markov Decision Processes ( http://arxiv.org/abs/2112.10599v1 )

ライセンス: CC BY 4.0
Sayak Ray Chowdhury, Xingyu Zhou(参考訳) 差分プライバシー (DP) の制約の下で, 有限地平線タブ状マルコフ決定過程 (MDP) における後悔の最小化について検討した。 これは実世界のシーケンシャルな意思決定問題における強化学習(RL)の普及による動機付けであり、ユーザの機密情報や個人情報の保護が最重要になっている。 本稿では,DPの2つの変種について考察する。JDPとは,ユーザの機密データを保護する集中型エージェントと,ユーザ側で情報を直接保護する必要があるローカルDP(LDP)である。まず,ポリシ最適化のためのフレームワークと,価値反復のためのフレームワークである2つのフレームワークを提案して,楽観的なRLアルゴリズムを設計する。 そして、これらのフレームワークを適切なプライバシーメカニズムでインスタンス化し、JDPおよびLDP要件を満たし、同時にサブ線形後悔保証を得る。 残念なことに、JDPでは、プライバシのコストは低次の追加的な用語に過ぎず、LDPではより強力なプライバシ保護のために、被るコストは乗法的である。 最後に、後悔の限界は統一分析によって得られ、我々は、テーブル型mdpを超えて拡張できると信じている。

We study regret minimization in finite horizon tabular Markov decision processes (MDPs) under the constraints of differential privacy (DP). This is motivated by the widespread applications of reinforcement learning (RL) in real-world sequential decision making problems, where protecting users' sensitive and private information is becoming paramount. We consider two variants of DP -- joint DP (JDP), where a centralized agent is responsible for protecting users' sensitive data and local DP (LDP), where information needs to be protected directly on the user side. We first propose two general frameworks -- one for policy optimization and another for value iteration -- for designing private, optimistic RL algorithms. We then instantiate these frameworks with suitable privacy mechanisms to satisfy JDP and LDP requirements, and simultaneously obtain sublinear regret guarantees. The regret bounds show that under JDP, the cost of privacy is only a lower order additive term, while for a stronger privacy protection under LDP, the cost suffered is multiplicative. Finally, the regret bounds are obtained by a unified analysis, which, we believe, can be extended beyond tabular MDPs.
翻訳日:2021-12-21 21:09:28 公開日:2021-12-20
# (参考訳) DeePaste - ペースト用塗料 [全文訳有]

DeePaste -- Inpainting for Pasting ( http://arxiv.org/abs/2112.10600v1 )

ライセンス: CC BY 4.0
Levi Kassel Michael Werman(参考訳) 教師付き学習の課題の1つは、大量のタグ付きデータを取得する必要性である。 この問題を解決する有名な方法は、合成データをコピーペースト方式で使用することで、オブジェクトをカットして関連する背景に貼り付けることである。 オブジェクトをペーストすると、実データに対して粗末な結果を与えるアーティファクトが発生します。 生成したデータセットが実際のデータに競合する性能を与えるように,異なる背景にオブジェクトをきれいに貼り付ける新しい手法を提案する。 主な重点は、貼付された物体の境界を塗りつぶして処理することである。 事例検出と前景セグメンテーションの両面での最先端結果を示す。

One of the challenges of supervised learning training is the need to procure an substantial amount of tagged data. A well-known method of solving this problem is to use synthetic data in a copy-paste fashion, so that we cut objects and paste them onto relevant backgrounds. Pasting the objects naively results in artifacts that cause models to give poor results on real data. We present a new method for cleanly pasting objects on different backgrounds so that the dataset created gives competitive performance on real data. The main emphasis is on the treatment of the border of the pasted object using inpainting. We show state-of-the-art results both on instance detection and foreground segmentation
翻訳日:2021-12-21 21:08:12 公開日:2021-12-20
# (参考訳) 道路ネットワークデータに視覚データを統合する学習 [全文訳有]

Learning to integrate vision data into road network data ( http://arxiv.org/abs/2112.10624v1 )

ライセンス: CC BY 4.0
Oliver Stromann, Alireza Razavi and Michael Felsberg(参考訳) 道路ネットワークは、コネクテッドカーと自動運転車のコアインフラストラクチャだが、機械学習アプリケーションに意味のある表現を作ることは難しい課題だ。 本研究では,道路ネットワークデータにリモートセンシングビジョンデータを統合し,グラフニューラルネットワークによる埋め込みを改善することを提案する。 本研究では、時空間道路と交通特性に基づく道路エッジのセグメンテーションを行い、衛星画像とデジタル表面モデルの視覚的特徴を持つ道路ネットワークの属性集合を充実させる。 中国成都のOSM+DiDi Chuxingデータセット上で,道路型分類タスクにおけるセグメント化と視覚データの統合が両立し,最先端のパフォーマンスが達成できることを示す。

Road networks are the core infrastructure for connected and autonomous vehicles, but creating meaningful representations for machine learning applications is a challenging task. In this work, we propose to integrate remote sensing vision data into road network data for improved embeddings with graph neural networks. We present a segmentation of road edges based on spatio-temporal road and traffic characteristics, which allows to enrich the attribute set of road networks with visual features of satellite imagery and digital surface models. We show that both, the segmentation and the integration of vision data can increase performance on a road type classification task, and we achieve state-of-the-art performance on the OSM+DiDi Chuxing dataset on Chengdu, China.
翻訳日:2021-12-21 20:56:28 公開日:2021-12-20
# (参考訳) master-uavによる補助aerial-irs支援iotネットワークの最適化 : オプション型マルチエージェント階層型深層強化学習手法 [全文訳有]

Optimization for Master-UAV-powered Auxiliary-Aerial-IRS -assisted IoT Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2112.10630v1 )

ライセンス: CC BY 4.0
Jingren Xu, Xin Kang, Ronghaixiang Zhang, Ying-Chang Liang, and Sumei Sun(参考訳) 本稿では,無人航空機(MUAV)搭載のインターネット・オブ・モノ(IoT)ネットワークについて検討し,インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて,MUAVからの通信信号を強化するとともに,MUAVを充電電源として活用することを提案する。 提案モデルでは,IoTネットワークのスループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略を検討する。 2つのuavの間に充電があるかどうかによっては、2つの最適化問題が定式化される。 これらを解決するために,多エージェント深部決定主義政策勾配 (CT-MADDPG) と多エージェント深部決定主義政策選択肢批判 (MADDPOC) を集中訓練する2つの多エージェント深部強化学習 (DRL) 手法を提案する。 ct-maddpg は uav ハードウェアの計算能力に対する要求を大幅に削減でき、提案する maddpoc は、単一エージェント学習と離散アクションのみをサポートする既存のオプションベースの階層的drlよりも優れた、連続アクションドメインにおける低レベルマルチエージェント協調学習をサポートすることができる。

This paper investigates a master unmanned aerial vehicle (MUAV)-powered Internet of Things (IoT) network, in which we propose using a rechargeable auxiliary UAV (AUAV) equipped with an intelligent reflecting surface (IRS) to enhance the communication signals from the MUAV and also leverage the MUAV as a recharging power source. Under the proposed model, we investigate the optimal collaboration strategy of these energy-limited UAVs to maximize the accumulated throughput of the IoT network. Depending on whether there is charging between the two UAVs, two optimization problems are formulated. To solve them, two multi-agent deep reinforcement learning (DRL) approaches are proposed, which are centralized training multi-agent deep deterministic policy gradient (CT-MADDPG) and multi-agent deep deterministic policy option critic (MADDPOC). It is shown that the CT-MADDPG can greatly reduce the requirement on the computing capability of the UAV hardware, and the proposed MADDPOC is able to support low-level multi-agent cooperative learning in the continuous action domains, which has great advantages over the existing option-based hierarchical DRL that only support single-agent learning and discrete actions.
翻訳日:2021-12-21 20:47:14 公開日:2021-12-20
# (参考訳) 逆ロバスト安定性証明書はサンプル効率が良い [全文訳有]

Adversarially Robust Stability Certificates can be Sample-Efficient ( http://arxiv.org/abs/2112.10690v1 )

ライセンス: CC BY 4.0
Thomas T.C.K. Zhang, Stephen Tu, Nicholas M. Boffi, Jean-Jacques E. Slotine, Nikolai Matni(参考訳) 安全クリティカルシステムの文脈でシミュレーションを現実のギャップにブリッジすることで、未知の非線形力学系に対する逆向きに堅牢な安定性証明を学習する。 ロバスト制御からのアプローチと並行して,システムダイナミクスを乱す加法とリプシッツ境界敵を考える。 本研究は, 基本システムの漸進安定性を仮定した上で, 逆安定証明書を学習する統計的コストは, 定値安定性証明書を学習するのと同程度であることを示す。 この結果は, 結果として生じる相反損失クラスのラデマッハ複雑性に対する新たな境界にかかっている。 我々の知る限り、これは動的システムによって生成されたデータに対して対角学習を行う際に、サンプル複雑境界を初めて特徴づけるものである。 さらに, 逆訓練アルゴリズムを近似する実用的なアルゴリズムを提供し, 減衰振子例の検証を行った。

Motivated by bridging the simulation to reality gap in the context of safety-critical systems, we consider learning adversarially robust stability certificates for unknown nonlinear dynamical systems. In line with approaches from robust control, we consider additive and Lipschitz bounded adversaries that perturb the system dynamics. We show that under suitable assumptions of incremental stability on the underlying system, the statistical cost of learning an adversarial stability certificate is equivalent, up to constant factors, to that of learning a nominal stability certificate. Our results hinge on novel bounds for the Rademacher complexity of the resulting adversarial loss class, which may be of independent interest. To the best of our knowledge, this is the first characterization of sample-complexity bounds when performing adversarial learning over data generated by a dynamical system. We further provide a practical algorithm for approximating the adversarial training algorithm, and validate our findings on a damped pendulum example.
翻訳日:2021-12-21 20:19:08 公開日:2021-12-20
# (参考訳) スマホのマインド保護:グリースターミネーターでデジタルマイニングフィールドをナビゲート [全文訳有]

Mind-proofing Your Phone: Navigating the Digital Minefield with GreaseTerminator ( http://arxiv.org/abs/2112.10699v1 )

ライセンス: CC BY 4.0
Siddhartha Datta, Konrad Kollnig, Nigel Shadbolt(参考訳) デジタル害はモバイルエコシステムに広まっている。 これらのデバイスが私たちの日常生活でますます注目されるにつれて、個人に対する悪意のある攻撃の可能性も高まる。 デジタルの混乱、ヘイトスピーチによる政治的偏見、有害物質に晒されている子供たちなど、様々なデジタル被害に対する最後の防衛線がユーザーインターフェースである。 この研究は、研究者がエンドユーザとのこれらの害に対する介入を開発、デプロイ、テストできるgraseterminatorを導入している。 我々は,5つのケーススタディにおいて,介入開発と展開の容易さに加えて,GreaseTerminatorでカバーされる可能性のある幅広い害を実証する。

Digital harms are widespread in the mobile ecosystem. As these devices gain ever more prominence in our daily lives, so too increases the potential for malicious attacks against individuals. The last line of defense against a range of digital harms - including digital distraction, political polarisation through hate speech, and children being exposed to damaging material - is the user interface. This work introduces GreaseTerminator to enable researchers to develop, deploy, and test interventions against these harms with end-users. We demonstrate the ease of intervention development and deployment, as well as the broad range of harms potentially covered with GreaseTerminator in five in-depth case studies.
翻訳日:2021-12-21 19:22:42 公開日:2021-12-20
# Robust Combinatorial Optimizationの学習:アルゴリズムと応用

Learning for Robust Combinatorial Optimization: Algorithm and Application ( http://arxiv.org/abs/2112.10377v1 )

ライセンス: Link先を確認
Zhihui Shao and Jianyi Yang and Cong Shen and Shaolei Ren(参考訳) learning to optimize (l2o)は、ニューラルネットワークの強力な予測力を利用して、従来の解法よりもランタイムの複雑さを低くすることで最適化問題を解決する、有望なアプローチとして最近登場した。 L2Oは様々な問題に適用されてきたが、極小最適化という形で頑健な組合せ最適化という、決定的かつ挑戦的な問題のクラスは、ほとんど未解決のままである。 指数関数的に大きい決定空間に加えて、ロバストな組合せ最適化の重要な課題は内的最適化問題であり、これは通常非凸であり外的最適化と絡み合っている。 本稿では, 頑健な組合せ最適化について検討し, LRCO (Learning for Robust Combinatorial Optimization) と呼ばれる新しい学習型最適化手法を提案する。 LRCOは2つの学習ベースのオプティマイザ(最小化用と最大化用)を活用し、それぞれの目的関数を損失として使用し、問題インスタンスをトレーニングするラベルを必要とせずにトレーニングすることができる。 LRCOの性能を評価するため,車両エッジコンピューティングにおけるタスクオフロード問題のシミュレーションを行う。 その結果,LRCOはランタイムの複雑さを極めて低くしながら,最悪のケースコストを大幅に削減し,堅牢性を向上させることができることがわかった。

Learning to optimize (L2O) has recently emerged as a promising approach to solving optimization problems by exploiting the strong prediction power of neural networks and offering lower runtime complexity than conventional solvers. While L2O has been applied to various problems, a crucial yet challenging class of problems -- robust combinatorial optimization in the form of minimax optimization -- have largely remained under-explored. In addition to the exponentially large decision space, a key challenge for robust combinatorial optimization lies in the inner optimization problem, which is typically non-convex and entangled with outer optimization. In this paper, we study robust combinatorial optimization and propose a novel learning-based optimizer, called LRCO (Learning for Robust Combinatorial Optimization), which quickly outputs a robust solution in the presence of uncertain context. LRCO leverages a pair of learning-based optimizers -- one for the minimizer and the other for the maximizer -- that use their respective objective functions as losses and can be trained without the need of labels for training problem instances. To evaluate the performance of LRCO, we perform simulations for the task offloading problem in vehicular edge computing. Our results highlight that LRCO can greatly reduce the worst-case cost and improve robustness, while having a very low runtime complexity.
翻訳日:2021-12-21 18:54:25 公開日:2021-12-20
# 時間変化ネットワークによる分散確率近位勾配の変動低減

Decentralized Stochastic Proximal Gradient Descent with Variance Reduction over Time-varying Networks ( http://arxiv.org/abs/2112.10389v1 )

ライセンス: Link先を確認
Xuanjie Li, Yuedong Xu, Jessie Hui Wang, Xin Wang, John C.S. Lui(参考訳) 分散学習において、ノードのネットワークは、通常局所目的の有限和である全体的な目的関数を最小化するために協力し、より良い一般化能力のために非スムース正規化項を組み込む。 分散確率的近位勾配法(DSPG)はこの種の学習モデルの訓練に一般的に用いられ、収束速度は確率的勾配の分散によって抑制される。 本稿では,分散低減手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。 基本的な考え方は、各ノードに局所的な全勾配を周期的に追跡する推定器を導入し、各イテレーションにおける確率勾配を修正することである。 分散化アルゴリズムを分散化による非現実的近位勾配アルゴリズムに変換し、誤差列の境界を制御することにより、DPSVRGが一般凸対象に対して$O(1/T)$と反復数として$T$の非滑らか項で収束し、DSPGは$O(\frac{1}{\sqrt{T}})$で収束することを証明する。 異なるアプリケーション,ネットワークトポロジ,学習モデルによる実験により,DPSVRGはDSPGよりもはるかに早く収束し,DPSVRGの損失関数はトレーニングの経過とともにスムーズに低下することが示された。

In decentralized learning, a network of nodes cooperate to minimize an overall objective function that is usually the finite-sum of their local objectives, and incorporates a non-smooth regularization term for the better generalization ability. Decentralized stochastic proximal gradient (DSPG) method is commonly used to train this type of learning models, while the convergence rate is retarded by the variance of stochastic gradients. In this paper, we propose a novel algorithm, namely DPSVRG, to accelerate the decentralized training by leveraging the variance reduction technique. The basic idea is to introduce an estimator in each node, which tracks the local full gradient periodically, to correct the stochastic gradient at each iteration. By transforming our decentralized algorithm into a centralized inexact proximal gradient algorithm with variance reduction, and controlling the bounds of error sequences, we prove that DPSVRG converges at the rate of $O(1/T)$ for general convex objectives plus a non-smooth term with $T$ as the number of iterations, while DSPG converges at the rate $O(\frac{1}{\sqrt{T}})$. Our experiments on different applications, network topologies and learning models demonstrate that DPSVRG converges much faster than DSPG, and the loss function of DPSVRG decreases smoothly along with the training epochs.
翻訳日:2021-12-21 18:54:03 公開日:2021-12-20
# (参考訳) HyperSegNAS: HyperNetを用いた3次元医用画像セグメンテーションによるワンショットニューラルネットワーク検索 [全文訳有]

HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet ( http://arxiv.org/abs/2112.10652v1 )

ライセンス: CC BY 4.0
Cheng Peng, Andriy Myronenko, Ali Hatamizadeh, Vish Nath, Md Mahfuzur Rahman Siddiquee, Yufan He, Daguang Xu, Rama Chellappa, Dong Yang(参考訳) 3次元医用画像のセマンティックセグメンテーションは、物体の形状やパターン(臓器や腫瘍など)の多様性が高いため、難しい課題である。 医用画像セグメンテーションにおけるディープラーニングの成功から,高性能な3Dセグメンテーションネットワークアーキテクチャを見つけるために,ニューラルアーキテクチャサーチ(NAS)が導入されている。 しかし、3Dデータの膨大な計算要求とアーキテクチャ探索の離散的な最適化の性質のため、従来のNAS手法では長い探索時間や連続的な緩和が必要であり、一般に準最適ネットワークアーキテクチャにつながる。 ワンショットnasはこれらの欠点に対処できるが、セグメンテーション領域での応用は、広範囲のマルチパス探索空間では十分に研究されていない。 医用画像セグメンテーションのためのワンショットNASを実現するために,HyperSegNASという手法を導入し,アーキテクチャトポロジ情報を組み込んでスーパーネットトレーニングを支援する。 このようなHyperNetは、スーパーネットがトレーニングされると取り除かれ、アーキテクチャ検索中にオーバーヘッドは発生しない。 従来のSOTAセグメンテーションネットワークと比較すると,HyperSegNASはより高性能で直感的なアーキテクチャを実現しており,また,異なる計算制約下で優れたアーキテクチャ候補を迅速かつ正確に見つけることが可能である。 本手法は,MSD (Messical Segmentation Decathlon) 課題の公開データセットを用いて評価し,SOTA性能を実現する。

Semantic segmentation of 3D medical images is a challenging task due to the high variability of the shape and pattern of objects (such as organs or tumors). Given the recent success of deep learning in medical image segmentation, Neural Architecture Search (NAS) has been introduced to find high-performance 3D segmentation network architectures. However, because of the massive computational requirements of 3D data and the discrete optimization nature of architecture search, previous NAS methods require a long search time or necessary continuous relaxation, and commonly lead to sub-optimal network architectures. While one-shot NAS can potentially address these disadvantages, its application in the segmentation domain has not been well studied in the expansive multi-scale multi-path search space. To enable one-shot NAS for medical image segmentation, our method, named HyperSegNAS, introduces a HyperNet to assist super-net training by incorporating architecture topology information. Such a HyperNet can be removed once the super-net is trained and introduces no overhead during architecture search. We show that HyperSegNAS yields better performing and more intuitive architectures compared to the previous state-of-the-art (SOTA) segmentation networks; furthermore, it can quickly and accurately find good architecture candidates under different computing constraints. Our method is evaluated on public datasets from the Medical Segmentation Decathlon (MSD) challenge, and achieves SOTA performances.
翻訳日:2021-12-21 18:50:39 公開日:2021-12-20
# 信頼できるクロス患者モデル開発に向けて

Towards Trustworthy Cross-patient Model Development ( http://arxiv.org/abs/2112.10441v1 )

ライセンス: Link先を確認
Ali El-Merhi, Helena Odenstedt Herg\'es, Linda Block, Mikael Elam, Richard Vithal, Jaquette Liljencrantz, Miroslaw Staron(参考訳) 機械学習は医学において、医師の検査、診断、結果の予測を支援するために用いられる。 最もダイナミックな領域の1つは、集中治療ユニットからの患者生成健康データの使用である。 本研究の目的は,患者の人口統計データと生理的データを組み合わせることで,患者間MLモデル開発の進展を実証することである。 頸動脈内皮摘出術(cea)を施行した患者集団を用いて,全例と1例の訓練時のモデル性能と説明可能性の相違を検討した。 以上の結果から,患者の人口動態は,パフォーマンスや説明可能性,信頼性に大きな影響を及ぼすことが明らかとなった。 本研究は, 患者集団と外科的処置に基づいて, モデルと患者を慎重に選択することで, MLモデルの信頼性を高めることができると結論付けた。

Machine learning is used in medicine to support physicians in examination, diagnosis, and predicting outcomes. One of the most dynamic area is the usage of patient generated health data from intensive care units. The goal of this paper is to demonstrate how we advance cross-patient ML model development by combining the patient's demographics data with their physiological data. We used a population of patients undergoing Carotid Enderarterectomy (CEA), where we studied differences in model performance and explainability when trained for all patients and one patient at a time. The results show that patients' demographics has a large impact on the performance and explainability and thus trustworthiness. We conclude that we can increase trust in ML models in a cross-patient context, by careful selection of models and patients based on their demographics and the surgical procedure.
翻訳日:2021-12-21 18:24:26 公開日:2021-12-20
# 勾配圧縮と局所ステップを用いた分散確率最適化法

Distributed and Stochastic Optimization Methods with Gradient Compression and Local Steps ( http://arxiv.org/abs/2112.10645v1 )

ライセンス: Link先を確認
Eduard Gorbunov(参考訳) 本稿では,誤差補償と局所更新を伴う確率的および分散的手法の解析のための新しい理論的枠組みを提案する。 これらのフレームワークを用いて、誤り補償型sgdと、任意に不均一な局所関数に対して最初の線形収束型sgdを含む20以上の新しい最適化手法を開発した。 さらに, 分散非凸最適化問題に対して, 非バイアス圧縮を用いた分散手法がいくつか提案されている。 これらの手法の導出された複雑性結果は, 従来で最もよく知られた問題に対する結果よりも優れていた。 最後に,スケーラブルな分散フォールトトレラント分散手法を提案する。合理的な仮定の下では,集中型ローカルsgd法に適合するこの手法の反復複雑性境界を導出する。

In this thesis, we propose new theoretical frameworks for the analysis of stochastic and distributed methods with error compensation and local updates. Using these frameworks, we develop more than 20 new optimization methods, including the first linearly converging Error-Compensated SGD and the first linearly converging Local-SGD for arbitrarily heterogeneous local functions. Moreover, the thesis contains several new distributed methods with unbiased compression for distributed non-convex optimization problems. The derived complexity results for these methods outperform the previous best-known results for the considered problems. Finally, we propose a new scalable decentralized fault-tolerant distributed method, and under reasonable assumptions, we derive the iteration complexity bounds for this method that match the ones of centralized Local-SGD.
翻訳日:2021-12-21 18:24:12 公開日:2021-12-20
# エッジ保存インバージョンのためのベイズニューラルネットワーク

Bayesian neural network priors for edge-preserving inversion ( http://arxiv.org/abs/2112.10663v1 )

ライセンス: Link先を確認
Chen Li, Matthew Dunlop, Georg Stadler(参考訳) 未知状態が不連続な構造 a を持つ函数であると仮定するベイズ逆問題を考える。 重み付き重み付きニューラルネットワークの出力に基づく先行分布のクラスを導入し、そのようなネットワークの無限幅限界に関する既存の結果に動機づけられた。 このような事前のサンプルは,ネットワーク幅が有限であっても不連続的性質が望ましいため,エッジ保存逆解析に適していることを示す。 数値的に1次元空間領域と2次元空間領域で定義されるデコンボリューション問題を考察し, MAP推定, 次元ロバストMCMCサンプリング, アンサンブルに基づく近似を用いて後部分布を探索する。 点推定の精度は、重大でない尾の前の値よりも高く、不確実性推定はより有用な定性情報を提供することを示す。

We consider Bayesian inverse problems wherein the unknown state is assumed to be a function with discontinuous structure a priori. A class of prior distributions based on the output of neural networks with heavy-tailed weights is introduced, motivated by existing results concerning the infinite-width limit of such networks. We show theoretically that samples from such priors have desirable discontinuous-like properties even when the network width is finite, making them appropriate for edge-preserving inversion. Numerically we consider deconvolution problems defined on one- and two-dimensional spatial domains to illustrate the effectiveness of these priors; MAP estimation, dimension-robust MCMC sampling and ensemble-based approximations are utilized to probe the posterior distribution. The accuracy of point estimates is shown to exceed those obtained from non-heavy tailed priors, and uncertainty estimates are shown to provide more useful qualitative information.
翻訳日:2021-12-21 18:23:59 公開日:2021-12-20
# (参考訳) SelFSR: 流れ場劣化ネットワークによる野生における自己定義型超解像 [全文訳有]

SelFSR: Self-Conditioned Face Super-Resolution in the Wild via Flow Field Degradation Network ( http://arxiv.org/abs/2112.10683v1 )

ライセンス: CC BY 4.0
Xianfang Zeng, Jiangning Zhang, Liang Liu, Guangzhong Tian, Yong Liu(参考訳) ベンチマークデータセットの成功にもかかわらず、ほとんどの先進的なフェイススーパーレゾリューションモデルは、実際の画像と合成されたトレーニングペアの間の顕著なドメインギャップのため、実際のシナリオではパフォーマンスが劣る。 そこで本研究では,野生の超解像のための新しいドメイン適応分解ネットワークを提案する。 この劣化ネットワークは、中間低解像度画像と共に流れ場を予測する。 そして、中間画像をワープして劣化した相手を生成する。 動きのぼやけを捉えることを好むため、そのようなモデルは元の画像と劣化した画像の同一性を維持するのに優れている。 さらに,超解像ネットワーク用セルフコンディショニングブロックについて述べる。 このブロックは、入力画像を条件項として、顔構造情報を有効に活用し、例えば顔ランドマークや境界など、明示的な事前情報への依存をなくす。 我々のモデルは,CelebAと実世界の顔データセットの両方で最先端のパフォーマンスを実現する。 前者は提案するアーキテクチャの強力な生成能力を示し,後者は実世界画像における高いアイデンティティ一貫性と知覚的品質を示している。

In spite of the success on benchmark datasets, most advanced face super-resolution models perform poorly in real scenarios since the remarkable domain gap between the real images and the synthesized training pairs. To tackle this problem, we propose a novel domain-adaptive degradation network for face super-resolution in the wild. This degradation network predicts a flow field along with an intermediate low resolution image. Then, the degraded counterpart is generated by warping the intermediate image. With the preference of capturing motion blur, such a model performs better at preserving identity consistency between the original images and the degraded. We further present the self-conditioned block for super-resolution network. This block takes the input image as a condition term to effectively utilize facial structure information, eliminating the reliance on explicit priors, e.g. facial landmarks or boundary. Our model achieves state-of-the-art performance on both CelebA and real-world face dataset. The former demonstrates the powerful generative ability of our proposed architecture while the latter shows great identity consistency and perceptual quality in real-world images.
翻訳日:2021-12-21 18:21:47 公開日:2021-12-20
# 自己監督型医用CT合成のための増感的相互蒸留法

Incremental Cross-view Mutual Distillation for Self-supervised Medical CT Synthesis ( http://arxiv.org/abs/2112.10325v1 )

ライセンス: Link先を確認
Chaowei Fang, Liang Wang, Dingwen Zhang, Jun Xu, Yixuan Yuan, Junwei Han(参考訳) 撮像装置の制約や動作時間のコストが高いため、コンピュータトモグラフィ(ct)スキャンは通常、スライス内分解能が低い状態で取得される。 スライス内分解能の改善は、人間の専門家とコンピュータ支援システムの両方の疾患診断に有用である。 そこで本稿では,スライス間分解能を向上させるための新しい医用スライス合成法を提案する。 臨床実践において, 根本的中途半端な医療スライスは常に欠落していることを考慮し, 自己指導型学習方式で, 相互蒸留戦略を段階的に導入する。 具体的には、軸方向からのスライス方向の補間とコロナ方向と矢状方向の補間の3つの異なる視点からこの問題をモデル化する。 この状況下で、異なる視点から学んだモデルは、互いの学習プロセスを導くために貴重な知識を蒸留することができる。 このプロセスを繰り返すことで、モデルが中間スライスデータを合成し、スライス間の解像度を高めることができる。 提案手法の有効性を示すため,大規模CTデータセットの総合的な実験を行った。 定量的・定性的に比較した結果,本手法は最先端アルゴリズムをクリアマージンで上回っていることがわかった。

Due to the constraints of the imaging device and high cost in operation time, computer tomography (CT) scans are usually acquired with low intra-slice resolution. Improving the intra-slice resolution is beneficial to the disease diagnosis for both human experts and computer-aided systems. To this end, this paper builds a novel medical slice synthesis to increase the between-slice resolution. Considering that the ground-truth intermediate medical slices are always absent in clinical practice, we introduce the incremental cross-view mutual distillation strategy to accomplish this task in the self-supervised learning manner. Specifically, we model this problem from three different views: slice-wise interpolation from axial view and pixel-wise interpolation from coronal and sagittal views. Under this circumstance, the models learned from different views can distill valuable knowledge to guide the learning processes of each other. We can repeat this process to make the models synthesize intermediate slice data with increasing inter-slice resolution. To demonstrate the effectiveness of the proposed approach, we conduct comprehensive experiments on a large-scale CT dataset. Quantitative and qualitative comparison results show that our method outperforms state-of-the-art algorithms by clear margins.
翻訳日:2021-12-21 17:54:53 公開日:2021-12-20
# CT画像を用いたCOVID-19自動肺感染症分離のための深部コスーパービジョンと注意融合戦略

Deep Co-supervision and Attention Fusion Strategy for Automatic COVID-19 Lung Infection Segmentation on CT Images ( http://arxiv.org/abs/2112.10368v1 )

ライセンス: Link先を確認
Haigen Hu, Leizhao Shen, Qiu Guan, Xiaoxin Li, Qianwei Zhou and Su Ruan(参考訳) 異常な形状、さまざまな大きさ、正常組織と感染組織の境界の区別が難しいため、CT画像上でCOVID-19の感染病変を正確に分類することは依然として難しい課題である。 本稿では,エンコーダ・デコーダ・アーキテクチャに基づいて,教師情報を強化し,異なるレベルのマルチスケール特徴マップを融合することにより,新型コロナウイルスの感染症に対する新たなセグメンテーション手法を提案する。 この目的のために,エッジとセマンティクスの特徴をネットワークで学習する上で,協調的監視(コスーパービジョン)手法を提案する。 より具体的には、edge supervised module (esm) はまず、edge supervised情報をダウンサンプリングの初期段階に組み込むことで、低レベル境界の特徴を強調するように設計されている。 一方,ASSM (Auxiliary Semantic Supervised Module) は,マスク管理情報を後段に組み込むことで,高度な意味情報を強化するために提案されている。 次に、アテンションフュージョンモジュール(AFM)を開発し、アテンション機構を用いて、高レベルと低レベルの特徴マップ間のセマンティックギャップを低減することにより、異なるレベルの複数の特徴マップを融合する。 最後に, 提案手法の有効性を, 4つのCOVID-19 CTデータセットで実証した。 その結果,提案する3つのモジュールはすべて有望であることがわかった。 ベースライン(ResUnet)に基づいて、ESM、ASSM、AFMのみを使用して、データセットのDiceメトリックを1.12\%、 1.95\%、1.63\%増加させることができる。 各種データセットの既存手法と比較して,提案手法はいくつかの主要な指標においてセグメンテーション性能が向上し,最高の一般化と包括的性能が得られる。

Due to the irregular shapes,various sizes and indistinguishable boundaries between the normal and infected tissues, it is still a challenging task to accurately segment the infected lesions of COVID-19 on CT images. In this paper, a novel segmentation scheme is proposed for the infections of COVID-19 by enhancing supervised information and fusing multi-scale feature maps of different levels based on the encoder-decoder architecture. To this end, a deep collaborative supervision (Co-supervision) scheme is proposed to guide the network learning the features of edges and semantics. More specifically, an Edge Supervised Module (ESM) is firstly designed to highlight low-level boundary features by incorporating the edge supervised information into the initial stage of down-sampling. Meanwhile, an Auxiliary Semantic Supervised Module (ASSM) is proposed to strengthen high-level semantic information by integrating mask supervised information into the later stage. Then an Attention Fusion Module (AFM) is developed to fuse multiple scale feature maps of different levels by using an attention mechanism to reduce the semantic gaps between high-level and low-level feature maps. Finally, the effectiveness of the proposed scheme is demonstrated on four various COVID-19 CT datasets. The results show that the proposed three modules are all promising. Based on the baseline (ResUnet), using ESM, ASSM, or AFM alone can respectively increase Dice metric by 1.12\%, 1.95\%,1.63\% in our dataset, while the integration by incorporating three models together can rise 3.97\%. Compared with the existing approaches in various datasets, the proposed method can obtain better segmentation performance in some main metrics, and can achieve the best generalization and comprehensive performance.
翻訳日:2021-12-21 17:54:31 公開日:2021-12-20
# ハイパースペクトル画像超解像における入射神経表現学習

Implicit Neural Representation Learning for Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2112.10541v1 )

ライセンス: Link先を確認
Kaiwei Zhang(参考訳) ハイパースペクトル画像(HSI)は、高次元のスペクトルパターンのため、補助像を伴わない超解像であり、効果的な空間およびスペクトル表現を学習することが根本的な問題である。 近年,Inmplicit Neural Representations (INR) は,特に再建作業において,新規かつ効果的な表現として進歩を遂げている。 そこで本研究では,空間座標を対応するスペクトル放射輝度値にマッピングする連続関数によってhsiを表現するinrに基づく新しいhsi再構成モデルを提案する。 特に、INRの特定の実装として、パラメトリックモデルのパラメータは、畳み込みネットワークを用いて特徴抽出を行うハイパーネットワークによって予測される。 連続関数は、空間座標をコンテンツ認識の方法でピクセル値にマッピングする。 さらに, 周期的空間符号化は, 再構成手順と深く統合されているため, モデルでは, 高い周波数詳細を復元することができる。 本モデルの有効性を検証するため、3つのHSIデータセット(CAVE, NUS, NTIRE2018)で実験を行った。 実験の結果,提案手法は最先端手法と比較し,コンストラクション性能を向上できることがわかった。 また, モデルにおける個々の成分の影響について, アブレーション研究を行った。 この論文が将来の研究に強力な参考となることを願っている。

Hyperspectral image (HSI) super-resolution without additional auxiliary image remains a constant challenge due to its high-dimensional spectral patterns, where learning an effective spatial and spectral representation is a fundamental issue. Recently, Implicit Neural Representations (INRs) are making strides as a novel and effective representation, especially in the reconstruction task. Therefore, in this work, we propose a novel HSI reconstruction model based on INR which represents HSI by a continuous function mapping a spatial coordinate to its corresponding spectral radiance values. In particular, as a specific implementation of INR, the parameters of parametric model are predicted by a hypernetwork that operates on feature extraction using convolution network. It makes the continuous functions map the spatial coordinates to pixel values in a content-aware manner. Moreover, periodic spatial encoding are deeply integrated with the reconstruction procedure, which makes our model capable of recovering more high frequency details. To verify the efficacy of our model, we conduct experiments on three HSI datasets (CAVE, NUS, and NTIRE2018). Experimental results show that the proposed model can achieve competitive reconstruction performance in comparison with the state-of-the-art methods. In addition, we provide an ablation study on the effect of individual components of our model. We hope this paper could server as a potent reference for future research.
翻訳日:2021-12-21 17:53:56 公開日:2021-12-20
# ビュー補間に基づくマルチユーザ指向ライブ自由視点ビデオストリーミングシステム

A Multi-user Oriented Live Free-viewpoint Video Streaming System Based On View Interpolation ( http://arxiv.org/abs/2112.10603v1 )

ライセンス: Link先を確認
Jingchuan Hu, Shuai Guo, Yu Dong, Kai Zhou, Jun Xu and Li Song(参考訳) 没入型マルチメディアサービスの重要な応用形態として、fvv(free-viewpoint video)は強力なインタラクションによって没入型体験をユーザに提供する。 しかし、仮想ビュー合成アルゴリズムの計算複雑性は、FVVシステムのリアルタイム性能に重大な課題をもたらす。 さらに、ユーザインタラクションの個性は、従来のアーキテクチャのシステムに対して、複数のユーザを同時に提供するのを困難にしている。 本稿では,CNNを用いた高密度仮想ビューをリアルタイムに合成するビュー補間アルゴリズムを提案する。 これに基づいて,マルチユーザ指向のストリーミング戦略を備えた,エンドツーエンドのライブビューポイントシステムを構築した。 本システムでは,クライアント側で大規模なビュー合成負荷を発生させることなく,単一エッジサーバを複数のユーザに対して同時に提供することが可能である。 システム全体を分析し、視覚的品質とレイテンシの両方の観点から、私たちのアプローチがユーザに対して快適な没入感を与えることを示す。

As an important application form of immersive multimedia services, free-viewpoint video(FVV) enables users with great immersive experience by strong interaction. However, the computational complexity of virtual view synthesis algorithms poses a significant challenge to the real-time performance of an FVV system. Furthermore, the individuality of user interaction makes it difficult to serve multiple users simultaneously for a system with conventional architecture. In this paper, we novelly introduce a CNN-based view interpolation algorithm to synthesis dense virtual views in real time. Based on this, we also build an end-to-end live free-viewpoint system with a multi-user oriented streaming strategy. Our system can utilize a single edge server to serve multiple users at the same time without having to bring a large view synthesis load on the client side. We analysis the whole system and show that our approaches give the user a pleasant immersive experience, in terms of both visual quality and latency.
翻訳日:2021-12-21 17:53:36 公開日:2021-12-20
# マルチタスク学習のための高精細レーダ

Raw High-Definition Radar for Multi-Task Learning ( http://arxiv.org/abs/2112.10646v1 )

ライセンス: Link先を確認
Julien Rebut, Arthur Ouaknine, Waqas Malik and Patrick P\'erez(参考訳) 悪天候に対する堅牢性と速度を測定する能力により、レーダーセンサーは20年以上にわたって自動車のランドスケープの一部となっている。 高分解能イメージングレーダへの最近の進歩は、角分解能を等級以下に低下させ、レーザー走査性能に近づいた。 しかし、hdレーダが出力するデータ量と角位置を推定する計算コストは依然として課題である。 本稿では,レンジ・ドップラー3次元テンソルの計算のオーバーヘッドをなくし,その代わりにレンジ・ドップラースペクトルから角度を復元する新しいhdレーダセンシングモデルであるfft-radnetを提案する。 FFT-RadNetは車両の検知と自由運転スペースの分断のために訓練されている。 どちらのタスクでも、最新のレーダーベースのモデルと競合するが、計算とメモリは少ない。 また,各種環境(都市道路,高速道路,田園部道路)において,自動車グレードセンサ(カメラ,レーザー,hdレーダ)から2時間分の生データを収集し,アノテートした。 Radar, Lidar et al."というニックネームのこのユニークなデータセットは、https://github.com/v aleoai/RADIalで公開されている。

With their robustness to adverse weather conditions and ability to measure speeds, radar sensors have been part of the automotive landscape for more than two decades. Recent progress toward High Definition (HD) Imaging radar has driven the angular resolution below the degree, thus approaching laser scanning performance. However, the amount of data a HD radar delivers and the computational cost to estimate the angular positions remain a challenge. In this paper, we propose a novel HD radar sensing model, FFT-RadNet, that eliminates the overhead of computing the Range-Azimuth-Dopple r 3D tensor, learning instead to recover angles from a Range-Doppler spectrum. FFT-RadNet is trained both to detect vehicles and to segment free driving space. On both tasks, it competes with the most recent radar-based models while requiring less compute and memory. Also, we collected and annotated 2-hour worth of raw data from synchronized automotive-grade sensors (camera, laser, HD radar) in various environments (city street, highway, countryside road). This unique dataset, nick-named RADIal for "Radar, Lidar et al.", is available at https://github.com/v aleoai/RADIal.
翻訳日:2021-12-21 17:53:00 公開日:2021-12-20
# PyChEst: 断片的定常時系列における分布変化の一貫した振り返り推定のためのPythonパッケージ

PyChEst: a Python package for the consistent retrospective estimation of distributional changes in piece-wise stationary time series ( http://arxiv.org/abs/2112.10565v1 )

ライセンス: Link先を確認
Azadeh Khaleghi and Lukas Zierahn(参考訳) 我々はpychestを紹介する。pychestはpythonパッケージで、断片的な静止時系列の分散において、複数の変更点を同時に推定するツールを提供する。 実装された非パラメトリックアルゴリズムは、サンプルが未知の断片的定常過程によって生成される場合、一般的なフレームワークで確実に一貫性がある。 この設定では、サンプルは任意の形式の長距離依存性を持ち、変更点の前後の任意の(未知の)固定サイズの有限次元辺数は同じかもしれない。 パッケージに含まれるアルゴリズムの強みは、基盤となるプロセス分布に定常性以上の仮定を課すことなく、一貫して変更を検出する能力である。 サンプルを独立に同一に分散した環境で設計した最先端モデルとパッケージの性能を比較して,この特徴を述べる。

We introduce PyChEst, a Python package which provides tools for the simultaneous estimation of multiple changepoints in the distribution of piece-wise stationary time series. The nonparametric algorithms implemented are provably consistent in a general framework: when the samples are generated by unknown piece-wise stationary processes. In this setting, samples may have long-range dependencies of arbitrary form and the finite-dimensional marginals of any (unknown) fixed size before and after the changepoints may be the same. The strength of the algorithms included in the package is in their ability to consistently detect the changes without imposing any assumptions beyond stationarity on the underlying process distributions. We illustrate this distinguishing feature by comparing the performance of the package against state-of-the-art models designed for a setting where the samples are independently and identically distributed.
翻訳日:2021-12-21 17:52:01 公開日:2021-12-20
# (参考訳) 物理類似性ニューラルネットワークを用いた織物・衣服の物理特性の学習 [全文訳有]

Learning Physics Properties of Fabrics and Garments with a Physics Similarity Neural Network ( http://arxiv.org/abs/2112.10727v1 )

ライセンス: CC BY 4.0
Li Duan, Lewis Boyd, Gerardo Aragon-Camarasa(参考訳) 本稿では,物理類似ネットワーク(PhySNet)を用いて,実織物と衣服の物理パラメータをシミュレーション織物間の物理類似性を学習することにより予測する。 本研究では,扇風機によって発生する風速と面積重量を推定し,実布や衣服の曲げ剛性を予測する。 ファイネットをベイズ光子と組み合わせることで、物理パラメータを予測でき、実織物では34%、実服では68%改善できることがわかった。

In this paper, we propose to predict the physics parameters of real fabrics and garments by learning their physics similarities between simulated fabrics via a Physics Similarity Network (PhySNet). For this, we estimate wind speeds generated by an electric fan and the area weight to predict bending stiffness of simulated and real fabrics and garments. We found that PhySNet coupled with a Bayesian optimiser can predict physics parameters and improve the state-of-art by 34%for real fabrics and 68% for real garments.
翻訳日:2021-12-21 17:49:08 公開日:2021-12-20
# データとデバイスの不均一性を考慮した半分散フェデレーションエッジ学習

Semi-Decentralized Federated Edge Learning with Data and Device Heterogeneity ( http://arxiv.org/abs/2112.10313v1 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Yuyi Mao and Jessie Hui Wang and Jun Zhang(参考訳) feel(federated edge learning)は、ネットワークエッジに分散データを効果的に組み込んでディープラーニングモデルをトレーニングするための、プライバシ保護パラダイムとして注目されている。 それでも、単一エッジサーバのカバー範囲が限られると、未参加のクライアントノードが不足し、学習性能が損なわれる可能性がある。 本稿では,複数のエッジサーバを用いて多数のクライアントノードを協調的に調整する,半分散型フェデレーションエッジ学習(SD-FEEL)の新たなフレームワークについて検討する。 効率的なモデル共有のためにエッジサーバ間の低レイテンシ通信を利用することで、SD-FEELは従来のフェデレート学習に比べてはるかにレイテンシの低いトレーニングデータを組み込むことができる。 SD-FEELのトレーニングアルゴリズムについて,ローカルモデル更新,クラスタ内モデルアグリゲーション,クラスタ間モデルアグリゲーションの3つのステップで詳述する。 このアルゴリズムの収束は、非独立かつ同一分散(非iid)データで証明され、鍵パラメータがトレーニング効率に与える影響を明らかにし、実用的な設計ガイドラインを提供するのに役立つ。 一方、エッジデバイスの不均一性はストラグラー効果を引き起こし、SD-FEELの収束速度を低下させる可能性がある。 そこで本研究では,SD-FEELの安定化を意識したアグリゲーションスキームを用いた非同期トレーニングアルゴリズムを提案する。 シミュレーションの結果,SD-FEELのための提案アルゴリズムの有効性と効率を実証し,解析結果を裏付ける。

Federated edge learning (FEEL) has attracted much attention as a privacy-preserving paradigm to effectively incorporate the distributed data at the network edge for training deep learning models. Nevertheless, the limited coverage of a single edge server results in an insufficient number of participated client nodes, which may impair the learning performance. In this paper, we investigate a novel framework of FEEL, namely semi-decentralized federated edge learning (SD-FEEL), where multiple edge servers are employed to collectively coordinate a large number of client nodes. By exploiting the low-latency communication among edge servers for efficient model sharing, SD-FEEL can incorporate more training data, while enjoying much lower latency compared with conventional federated learning. We detail the training algorithm for SD-FEEL with three main steps, including local model update, intra-cluster, and inter-cluster model aggregations. The convergence of this algorithm is proved on non-independent and identically distributed (non-IID) data, which also helps to reveal the effects of key parameters on the training efficiency and provides practical design guidelines. Meanwhile, the heterogeneity of edge devices may cause the straggler effect and deteriorate the convergence speed of SD-FEEL. To resolve this issue, we propose an asynchronous training algorithm with a staleness-aware aggregation scheme for SD-FEEL, of which, the convergence performance is also analyzed. The simulation results demonstrate the effectiveness and efficiency of the proposed algorithms for SD-FEEL and corroborate our analysis.
翻訳日:2021-12-21 17:34:41 公開日:2021-12-20
# 局所-グローバルベイズネットワーク構造学習のための特徴選択

Feature Selection for Efficient Local-to-Global Bayesian Network Structure Learning ( http://arxiv.org/abs/2112.10369v1 )

ライセンス: Link先を確認
Kui Yu, Zhaolong Ling, Lin Liu, Hao Wang, Jiuyong Li(参考訳) 局所言語学習アプローチはベイズネットワーク(BN)構造学習において重要な役割を果たす。 既存の局所言語学習アルゴリズムは、まず、データセット内の各変数のMB(マルコフ毛布)またはPC(親子)を学習し、次にスケルトン内のオリエントエッジを学習することにより、DAG (directed acyclic graph) の骨格を構築する。 しかし、既存のMBまたはPC学習手法は、特に大きなBNで計算コストがかかることが多く、非効率なローカル-グローバル学習アルゴリズムをもたらす。 この問題に取り組むため,本稿では,機能選択を用いた効率的な地域間学習手法を提案する。 具体的には,変数のPC集合を学習するためのMRMR(Minimum-Redunda ncy and Maximum-Relevance)特徴選択手法の理論的根拠をまず分析する。 そこで本研究では,F2SL(Feature selection-based structure learning)を用いたローカル-グローバルBN構造学習手法を提案する。 F2SL法はまずMRMR法を用いてDAG骨格を学習し、次に骨格の縁を向き付けている。 F2SLアプローチを2つの新しいアルゴリズムF2SL-c(独立テスト)とF2SL-s(スコア関数)にインスタンス化する。 提案手法は,最先端のローカル-グローバル BN 学習アルゴリズムと比較して,提案アルゴリズムの方が効率的で,比較アルゴリズムよりも優れた構造学習品質が得られることを示した。

Local-to-global learning approach plays an essential role in Bayesian network (BN) structure learning. Existing local-to-global learning algorithms first construct the skeleton of a DAG (directed acyclic graph) by learning the MB (Markov blanket) or PC (parents and children) of each variable in a data set, then orient edges in the skeleton. However, existing MB or PC learning methods are often computationally expensive especially with a large-sized BN, resulting in inefficient local-to-global learning algorithms. To tackle the problem, in this paper, we develop an efficient local-to-global learning approach using feature selection. Specifically, we first analyze the rationale of the well-known Minimum-Redundancy and Maximum-Relevance (MRMR) feature selection approach for learning a PC set of a variable. Based on the analysis, we propose an efficient F2SL (feature selection-based structure learning) approach to local-to-global BN structure learning. The F2SL approach first employs the MRMR approach to learn a DAG skeleton, then orients edges in the skeleton. Employing independence tests or score functions for orienting edges, we instantiate the F2SL approach into two new algorithms, F2SL-c (using independence tests) and F2SL-s (using score functions). Compared to the state-of-the-art local-to-global BN learning algorithms, the experiments validated that the proposed algorithms in this paper are more efficient and provide competitive structure learning quality than the compared algorithms.
翻訳日:2021-12-21 17:34:15 公開日:2021-12-20
# GPU-Accelerated Nearest Neighborsアルゴリズムによる効率的な風速予測

Efficient Wind Speed Nowcasting with GPU-Accelerated Nearest Neighbors Algorithm ( http://arxiv.org/abs/2112.10408v1 )

ライセンス: Link先を確認
Arnaud Pannatier, Ricardo Picatoste, Fran\c{c}ois Fleuret(参考訳) 本稿では,簡易かつ効率的な高高度風流送風管を提案する。 航空機が空域全体に記録した大量のライブデータを効率的に処理し、精度良く風場を再構築する。 データセットの各ポイントごとにユニークなコンテキストを生成し、そこから外挿する。 このようなコンテクストの作成は計算量が多いため,線形構造で近似可能な滑らかな軌道に沿って要素が配置されたデータセット内の最寄りの近傍を効率的に取得することにより,時間とメモリコストを削減できる新しいアルゴリズムを提案する。 現代的なgpuベースのコンピューティング基盤に適した代数的テンソル演算によって実装された効率的かつ精密な戦略を提案する。 この方法はスケーラブルなユークリッド計量を採用し、1次元に沿ってデータポイントをマスキングできる。 適用した場合、この手法は通常のユークリッドk-NNやKDTreesなどのよく知られたデータ選択法よりも効率が良く、数倍のスピードアップを提供する。 PyTorchの実装と、経験的な結果の複製を可能にする新しいデータセットを提供する。

This paper proposes a simple yet efficient high-altitude wind nowcasting pipeline. It processes efficiently a vast amount of live data recorded by airplanes over the whole airspace and reconstructs the wind field with good accuracy. It creates a unique context for each point in the dataset and then extrapolates from it. As creating such context is computationally intensive, this paper proposes a novel algorithm that reduces the time and memory cost by efficiently fetching nearest neighbors in a data set whose elements are organized along smooth trajectories that can be approximated with piece-wise linear structures. We introduce an efficient and exact strategy implemented through algebraic tensorial operations, which is well-suited to modern GPU-based computing infrastructure. This method employs a scalable Euclidean metric and allows masking data points along one dimension. When applied, this method is more efficient than plain Euclidean k-NN and other well-known data selection methods such as KDTrees and provides a several-fold speedup. We provide an implementation in PyTorch and a novel data set to allow the replication of empirical results.
翻訳日:2021-12-21 17:33:44 公開日:2021-12-20
# 限定ラベル付きデータと見えないクラス検出を用いた進化グラフの生涯学習

Lifelong Learning in Evolving Graphs with Limited Labeled Data and Unseen Class Detection ( http://arxiv.org/abs/2112.10558v1 )

ライセンス: Link先を確認
Lukas Galke, Iacopo Vagliano, Benedikt Franke, Tobias Zielke, Ansgar Scherp(参考訳) 実世界の大規模グラフデータは静的ではなく動的であることが多い。 データは、新しいノード、エッジ、さらには引用ネットワークや研究開発コラボレーションネットワークなど、時間とともに現れるクラスによって変化している。 グラフニューラルネットワーク(GNN)は、グラフ構造化データにおける多数のタスクの標準手法として登場した。 本研究では,新たな未確認グラフデータにGNNを段階的に適用する方法を2段階の手順で検討する。 まず、標準ベンチマークデータセットにおけるトランスダクティブ学習とインダクティブ学習の差について分析する。 帰納的事前学習の後、グラフにラベルのないデータを加え、モデルが安定であることを示す。 次に、過去のすべてのインスタンスがクラスラベルでアノテートされていないケースを考慮しながら、ラベル付きデータを継続的に追加するケースについて検討する。 さらに、グラフが進化している間に新しいクラスを導入し、それまで見つからなかったクラスからインスタンスを自動的に検出するメソッドを探索する。 グラフの進化を原則的に扱うために,評価プロトコルとともに,グラフデータのための生涯学習フレームワークを提案する。 本稿では,代表的GNNアーキテクチャを評価する。 モデルパラメータ内の暗黙的な知識は、例えば過去のタスクのデータが制限されたときに、より重要になる。 オープンワールドノード分類では、驚くほど少ない過去のタスクからのデータが、過去のタスクのデータを記憶することで到達したパフォーマンスに到達するのに十分であることがわかった。 未知のクラス検出の課題では,重み付きクロスエントロピー損失が安定性に重要であることがわかった。

Large-scale graph data in the real-world are often dynamic rather than static. The data are changing with new nodes, edges, and even classes appearing over time, such as in citation networks and research-and-develop ment collaboration networks. Graph neural networks (GNNs) have emerged as the standard method for numerous tasks on graph-structured data. In this work, we employ a two-step procedure to explore how GNNs can be incrementally adapted to new unseen graph data. First, we analyze the verge between transductive and inductive learning on standard benchmark datasets. After inductive pretraining, we add unlabeled data to the graph and show that the models are stable. Then, we explore the case of continually adding more and more labeled data, while considering cases, where not all past instances are annotated with class labels. Furthermore, we introduce new classes while the graph evolves and explore methods that automatically detect instances from previously unseen classes. In order to deal with evolving graphs in a principled way, we propose a lifelong learning framework for graph data along with an evaluation protocol. In this framework, we evaluate representative GNN architectures. We observe that implicit knowledge within model parameters becomes more important when explicit knowledge, i.e., data from past tasks, is limited. We find that in open-world node classification, the data from surprisingly few past tasks are sufficient to reach the performance reached by remembering data from all past tasks. In the challenging task of unseen class detection, we find that using a weighted cross-entropy loss is important for stability.
翻訳日:2021-12-21 17:33:26 公開日:2021-12-20
# CSSR: コンテキスト対応のシーケンシャルなソフトウェアサービス推奨モデル

CSSR: A Context-Aware Sequential Software Service Recommendation Model ( http://arxiv.org/abs/2112.10316v1 )

ライセンス: Link先を確認
Mingwei Zhang, Jiayuan Liu, Weipu Zhang, Ke Deng, Hai Dong, Ying Liu(参考訳) ユーザがgithubで適切なリポジトリを見つけるのを支援する,新たなソフトウェアサービスレコメンデーションモデルを提案する。 このモデルはまず,データスパーシティ問題に起因する困難を軽減するために,リポジトリの豊富なコンテキスト情報を活用するために,新たなコンテキスト誘導型リポジトリグラフ埋め込み手法を設計した。 そして、ソフトウェアサービスレコメンデーション分野において、初めてユーザー-リポジトリ間のインタラクションのシーケンス情報を活用する。 具体的には、ユーザの好みのダイナミクスを捉えるために、ディープラーニングに基づくシーケンシャルレコメンデーション技術を採用する。 githubから収集した大規模なデータセットで、既存のメソッドのリストに対して包括的な実験が行われている。 その結果,様々な点において,本手法の優位性が示された。

We propose a novel software service recommendation model to help users find their suitable repositories in GitHub. Our model first designs a novel context-induced repository graph embedding method to leverage rich contextual information of repositories to alleviate the difficulties caused by the data sparsity issue. It then leverages sequence information of user-repository interactions for the first time in the software service recommendation field. Specifically, a deep-learning based sequential recommendation technique is adopted to capture the dynamics of user preferences. Comprehensive experiments have been conducted on a large dataset collected from GitHub against a list of existing methods. The results illustrate the superiority of our method in various aspects.
翻訳日:2021-12-21 17:30:40 公開日:2021-12-20
# インクリメンタル学習と後見経験リプレイを用いた定理の証明

Proving Theorems using Incremental Learning and Hindsight Experience Replay ( http://arxiv.org/abs/2112.10664v1 )

ライセンス: Link先を確認
Eser Ayg\"un, Laurent Orseau, Ankit Anand, Xavier Glorot, Vlad Firoiu, Lei M. Zhang, Doina Precup and Shibl Mourad(参考訳) 一階述語論理の伝統的な自動定理証明は、速度最適化された探索と、幅広い領域で最適に動作するように設計された多くの手作りのヒューリスティックに依存する。 文学における機械学習のアプローチは、これらの従来のプロバーの自己ブートストラップに依存するか、同等のパフォーマンスに達するのに不足している。 本稿では,基本条件付きアルゴリズムのみをベースとした一階述語論理の学習を行うための一般的な漸進的学習アルゴリズムを提案する。 節はグラフとして表現され、スペクトル特徴を持つトランスフォーマーネットワークに提示される。 自然カリキュラムの欠如に加えて,トレーニングデータのスパース性と初期欠如に対処するために,後見経験リプレイを定理証明に適用し,証明が見つからない場合でも学習できるようにする。 この方法で訓練されたプローバーは、証明の量と品質の両方の観点から、TPTPデータセット上の最先端の伝統的なプローバーにマッチし、時には超えることを示す。

Traditional automated theorem provers for first-order logic depend on speed-optimized search and many handcrafted heuristics that are designed to work best over a wide range of domains. Machine learning approaches in literature either depend on these traditional provers to bootstrap themselves or fall short on reaching comparable performance. In this paper, we propose a general incremental learning algorithm for training domain specific provers for first-order logic without equality, based only on a basic given-clause algorithm, but using a learned clause-scoring function. Clauses are represented as graphs and presented to transformer networks with spectral features. To address the sparsity and the initial lack of training data as well as the lack of a natural curriculum, we adapt hindsight experience replay to theorem proving, so as to be able to learn even when no proof can be found. We show that provers trained this way can match and sometimes surpass state-of-the-art traditional provers on the TPTP dataset in terms of both quantity and quality of the proofs.
翻訳日:2021-12-21 17:30:31 公開日:2021-12-20
# 繰り返しゲームにおける適応性と非探索性

Balancing Adaptability and Non-exploitability in Repeated Games ( http://arxiv.org/abs/2112.10314v1 )

ライセンス: Link先を確認
Anthony DiGiovanni and Ambuj Tewari(参考訳) 複数のクラスのうちの1つで、未知のメンバシップを持つ対戦相手に対して、繰り返しゲームにおける低後悔を保証する問題について検討する。 我々は,我々のアルゴリズムが探索不可能であるという制約を加味し,対戦相手が「公正」な値を超える報酬を達成できないアルゴリズムを使用する動機を欠いている。 我々の解法は,各クラスに最適である一連のサブアルゴリズム内を探索し,相手による搾取の証拠を検出するために罰則を用いる専門家アルゴリズム (LAFF) である。 対立するクラスに依存したベンチマークでは、LAFFは、攻撃的クラスを除いて、可能な相手に対して一様にサブリニア後悔をしており、敵が線形後悔を保証していることを示す。 私たちの知る限り、この研究は、マルチエージェント学習における後悔と非発見性の両方の保証を提供する最初のものである。

We study the problem of guaranteeing low regret in repeated games against an opponent with unknown membership in one of several classes. We add the constraint that our algorithm is non-exploitable, in that the opponent lacks an incentive to use an algorithm against which we cannot achieve rewards exceeding some "fair" value. Our solution is an expert algorithm (LAFF) that searches within a set of sub-algorithms that are optimal for each opponent class and uses a punishment policy upon detecting evidence of exploitation by the opponent. With benchmarks that depend on the opponent class, we show that LAFF has sublinear regret uniformly over the possible opponents, except exploitative ones, for which we guarantee that the opponent has linear regret. To our knowledge, this work is the first to provide guarantees for both regret and non-exploitability in multi-agent learning.
翻訳日:2021-12-21 17:30:16 公開日:2021-12-20
# (参考訳) 大規模データセットは自己監督型事前トレーニングに必要か?

Are Large-scale Datasets Necessary for Self-Supervised Pre-training? ( http://arxiv.org/abs/2112.10740v1 )

ライセンス: CC BY 4.0
Alaaeldin El-Nouby, Gautier Izacard, Hugo Touvron, Ivan Laptev, Herv\'e Jegou, Edouard Grave(参考訳) imagenetのような大規模データセットでの事前トレーニングモデルは、コンピュータビジョンの標準的なプラクティスである。 このパラダイムは、高容量モデルが過度に適合する傾向にある小さなトレーニングセットを持つタスクに特に有効である。 本研究では,対象タスクデータのみを活用する自己教師付き事前学習シナリオを検討する。 スタンフォードの車、スケッチ、cocoのようなデータセットはimagenetよりも桁違いに小さい。 本研究では,画像埋め込みの比較によって訓練された一般的な自己教師型手法よりも,BEiTや,あるいは本論文で紹介した変種などの自動エンコーダが,事前学習データのタイプとサイズに対してより堅牢であることを示し,異なる領域の分類データセット上でのImageNet事前学習と比較して,競合性能を得る。 COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。

Pre-training models on large scale datasets, like ImageNet, is a standard practice in computer vision. This paradigm is especially effective for tasks with small training sets, for which high-capacity models tend to overfit. In this work, we consider a self-supervised pre-training scenario that only leverages the target task data. We consider datasets, like Stanford Cars, Sketch or COCO, which are order(s) of magnitude smaller than Imagenet. Our study shows that denoising autoencoders, such as BEiT or a variant that we introduce in this paper, are more robust to the type and size of the pre-training data than popular self-supervised methods trained by comparing image embeddings.We obtain competitive performance compared to ImageNet pre-training on a variety of classification datasets, from different domains. On COCO, when pre-training solely using COCO images, the detection and instance segmentation performance surpasses the supervised ImageNet pre-training in a comparable setting.
翻訳日:2021-12-21 17:29:37 公開日:2021-12-20
# DMS-GCN:人間の動き予測のための動的マルチスケール時空間グラフ畳み込みネットワーク

DMS-GCN: Dynamic Mutiscale Spatiotemporal Graph Convolutional Networks for Human Motion Prediction ( http://arxiv.org/abs/2112.10365v1 )

ライセンス: Link先を確認
Zigeng Yan, Di-Hua Zhai, Yuanqing Xia(参考訳) 人間の動作予測は多くのコンピュータビジョンアプリケーション領域において重要かつ困難なタスクである。 近年,recurrent neural network (rnns) のタイミング処理能力を活用して,短時間の予測でスムーズで信頼性の高い結果を得る研究が進められている。 しかし、以前の研究で証明されたように、RNNはエラーの蓄積に悩まされ、信頼性の低い結果をもたらす。 本稿では,人体関節間の時間的滑らかさと空間的依存性を考慮した,動作予測のための簡易フィードフォワードディープニューラルネットワークを提案する。 本研究では,人間の運動過程における時空間依存を暗黙的に確立するために,多スケールの時空間グラフ畳み込みネットワーク(gcns)を設計する。 モデル全体がすべてのアクションに適合し、エンコーダ・デコーダのフレームワークに従う。 エンコーダは、フレーム間の動きの特徴をキャプチャする時間的gcnと、ジョイント軌道間の空間構造を抽出する半自律学習空間gcnとからなる。 デコーダは、時間畳み込みネットワーク(TCN)を使用して、その広範な能力を維持する。 大規模な実験の結果,Human3.6MとCMU MocapのデータセットではSOTA法よりも少ないパラメータしか必要としないことがわかった。 コードはhttps://github.com/y zg9353/DMSGCNで入手できる。

Human motion prediction is an important and challenging task in many computer vision application domains. Recent work concentrates on utilizing the timing processing ability of recurrent neural networks (RNNs) to achieve smooth and reliable results in short-term prediction. However, as evidenced by previous work, RNNs suffer from errors accumulation, leading to unreliable results. In this paper, we propose a simple feed-forward deep neural network for motion prediction, which takes into account temporal smoothness and spatial dependencies between human body joints. We design a Multi-scale Spatio-temporal graph convolutional networks (GCNs) to implicitly establish the Spatio-temporal dependence in the process of human movement, where different scales fused dynamically during training. The entire model is suitable for all actions and follows a framework of encoder-decoder. The encoder consists of temporal GCNs to capture motion features between frames and semi-autonomous learned spatial GCNs to extract spatial structure among joint trajectories. The decoder uses temporal convolution networks (TCNs) to maintain its extensive ability. Extensive experiments show that our approach outperforms SOTA methods on the datasets of Human3.6M and CMU Mocap while only requiring much lesser parameters. Code will be available at https://github.com/y zg9353/DMSGCN.
翻訳日:2021-12-21 17:28:04 公開日:2021-12-20
# UFPMP-Det:ドローン画像における高精度かつ効率的な物体検出を目指して

UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery ( http://arxiv.org/abs/2112.10415v1 )

ライセンス: Link先を確認
Yecheng Huang, Jiaxin Chen, Di Huang(参考訳) 本稿では,UFPMP-Det(Unified Foreground Packing)を用いたマルチプロキシ検出ネットワーク(Multi-Proxy Detection Network)を提案する。 To deal with the numerous instances of very small scales, different from the common solution that divides the high-resolution input image into quite a number of chips with low foreground ratios to perform detection on them each, the Unified Foreground Packing (UFP) module is designed, where the sub-regions given by a coarse detector are initially merged through clustering to suppress background and the resulting ones are subsequently packed into a mosaic for a single inference, thus significantly reducing overall time cost. さらに,検出性能が低下するインスタンスのクラス間類似性とクラス内変動のより深刻な混乱に対処するため,マルチプロキシ検出ネットワーク(MP-Det)を複数のプロキシ学習を用いてモデルオブジェクト分布に細粒度で提示し,Bag-of-Instance-Wor ds(BoIW)誘導の最適輸送損失を最小化することにより,プロキシを多種多種多様に強制する。 これにより、ufpmp-detは検出精度と効率の両方を大いに促進する。 広く使われているVisDroneとUAVDTデータセットで大規模な実験が行われ、UFPMP-Detは新たな最先端のスコアをはるかに高速に報告し、その利点を強調している。

This paper proposes a novel approach to object detection on drone imagery, namely Multi-Proxy Detection Network with Unified Foreground Packing (UFPMP-Det). To deal with the numerous instances of very small scales, different from the common solution that divides the high-resolution input image into quite a number of chips with low foreground ratios to perform detection on them each, the Unified Foreground Packing (UFP) module is designed, where the sub-regions given by a coarse detector are initially merged through clustering to suppress background and the resulting ones are subsequently packed into a mosaic for a single inference, thus significantly reducing overall time cost. Furthermore, to address the more serious confusion between inter-class similarities and intra-class variations of instances, which deteriorates detection performance but is rarely discussed, the Multi-Proxy Detection Network (MP-Det) is presented to model object distributions in a fine-grained manner by employing multiple proxy learning, and the proxies are enforced to be diverse by minimizing a Bag-of-Instance-Word s (BoIW) guided optimal transport loss. By such means, UFPMP-Det largely promotes both the detection accuracy and efficiency. Extensive experiments are carried out on the widely used VisDrone and UAVDT datasets, and UFPMP-Det reports new state-of-the-art scores at a much higher speed, highlighting its advantages.
翻訳日:2021-12-21 17:27:43 公開日:2021-12-20
# 対話選択による画像検索のためのラベルノイズ学習

Learning with Label Noise for Image Retrieval by Selecting Interactions ( http://arxiv.org/abs/2112.10453v1 )

ライセンス: Link先を確認
Sarah Ibrahimi and Arnaud Sors and Rafael Sampaio de Rezende and St\'ephane Clinchant(参考訳) ノイズラベルを用いた学習は、画像分類の活発な研究領域である。 しかし,ノイズラベルが画像検索に与える影響についてはあまり研究されていない。 本研究では,教師によるインタラクションの選択(T-SINT)という,ノイズの多いインタラクションを識別する画像検索手法を提案する。 距離行列の要素を抽出し、その安定性に寄与する教師ベースのトレーニング設定を用いて、検索損失において考慮すべき正と負の相互作用を選択する。 その結果、合成ノイズやより現実的なノイズを含むベンチマークデータセット全体の高いノイズレートにおいて、最先端の手法を一貫して上回っている。

Learning with noisy labels is an active research area for image classification. However, the effect of noisy labels on image retrieval has been less studied. In this work, we propose a noise-resistant method for image retrieval named Teacher-based Selection of Interactions, T-SINT, which identifies noisy interactions, ie. elements in the distance matrix, and selects correct positive and negative interactions to be considered in the retrieval loss by using a teacher-based training setup which contributes to the stability. As a result, it consistently outperforms state-of-the-art methods on high noise rates across benchmark datasets with synthetic noise and more realistic noise.
翻訳日:2021-12-21 17:27:15 公開日:2021-12-20
# 注目に基づく高速な物体検出のための新しいネットワーク

a novel attention-based network for fast salient object detection ( http://arxiv.org/abs/2112.10481v1 )

ライセンス: Link先を確認
Bin Zhang, Yang Wu, Xiaojing Zhang and Ming Ma(参考訳) 現在のsalient object detection networkでは、最も一般的な方法はu字型構造である。 しかし、大量のパラメータは、限られたメモリデバイスにデプロイできないコンピューティングとストレージリソースの消費を増加させる。 他の浅い層ネットワークはu字型構造と同等の精度を保たず、より多くのパラメータを持つディープネットワーク構造は大きな速度でグローバル最小損失に収束しない。 これらの欠点を克服するために,我々は,(1)小型畳み込みニューラルネットワーク(cnns)を用いて,改良したsalient object features compression and reinforcement extraction module(isfcrem)でモデルを圧縮し,モデルのパラメータを削減した,新たな深層畳み込みネットワークアーキテクチャを提案する。 2) ISFCREMにチャネルアテンション機構を導入し,特徴表現能力を向上させるために異なるチャネルを重み付けする。 3)学習中の長期勾配情報を蓄積して学習率を適応的に調整する新しいオプティマイザの適用。 その結果, 提案手法は, 精度を損なうことなく元の3分の1まで圧縮でき, 他のモデルと比較して, 広く使用されている6つのデータ集合上でより高速かつスムーズに収束できることがわかった。 私たちのコードはhttps://gitee.com/bi nzhangbinzhangbin/co de-a-novel-attention -based-network-for-f ast-salient-object-d etection.gitで公開しています。

In the current salient object detection network, the most popular method is using U-shape structure. However, the massive number of parameters leads to more consumption of computing and storage resources which are not feasible to deploy on the limited memory device. Some others shallow layer network will not maintain the same accuracy compared with U-shape structure and the deep network structure with more parameters will not converge to a global minimum loss with great speed. To overcome all of these disadvantages, we proposed a new deep convolution network architecture with three contributions: (1) using smaller convolution neural networks (CNNs) to compress the model in our improved salient object features compression and reinforcement extraction module (ISFCREM) to reduce parameters of the model. (2) introducing channel attention mechanism in ISFCREM to weigh different channels for improving the ability of feature representation. (3) applying a new optimizer to accumulate the long-term gradient information during training to adaptively tune the learning rate. The results demonstrate that the proposed method can compress the model to 1/3 of the original size nearly without losing the accuracy and converging faster and more smoothly on six widely used datasets of salient object detection compared with the others models. Our code is published in https://gitee.com/bi nzhangbinzhangbin/co de-a-novel-attention -based-network-for-f ast-salient-object-d etection.git
翻訳日:2021-12-21 17:24:46 公開日:2021-12-20
# スケールネット:大規模不変画像マッチングにおけるスケール差低減学習

Scale-Net: Learning to Reduce Scale Differences for Large-Scale Invariant Image Matching ( http://arxiv.org/abs/2112.10485v1 )

ライセンス: Link先を確認
Yujie Fu, Yihong Wu(参考訳) ほとんどの画像マッチング手法は、画像の大規模な変化に遭遇すると性能が低下する。 この問題を解決するために,まず,推定スケール比に応じて画像対の両画像のサイズを縮小することにより,局所特徴抽出前の画像スケール差を低減するスケール差認識画像マッチング法(SDAIM)を提案する。 第2に,スケール比を正確に推定するために,可視性強化マッチングモジュール(CVARM)を提案し,CVARMに基づく新しいニューラルネットワークであるスケールネットを設計する。 提案するcvarmでは,画像ペア内の可視領域に対するストレスが増大し,画像の可視領域からの邪魔が抑制される。 定量的・定性的な実験により,既存のスケール比推定法に比べ,スケール比推定精度が高く,一般化能もはるかに高いことが確認された。 画像マッチングおよび相対ポーズ推定タスクに関するさらなる実験により、SDAIMとScale-Netは、代表的局所特徴と最先端の局所特徴マッチング法の性能を大幅に向上させることができることを示した。

Most image matching methods perform poorly when encountering large scale changes in images. To solve this problem, firstly, we propose a scale-difference-awa re image matching method (SDAIM) that reduces image scale differences before local feature extraction, via resizing both images of an image pair according to an estimated scale ratio. Secondly, in order to accurately estimate the scale ratio, we propose a covisibility-attenti on-reinforced matching module (CVARM) and then design a novel neural network, termed as Scale-Net, based on CVARM. The proposed CVARM can lay more stress on covisible areas within the image pair and suppress the distraction from those areas visible in only one image. Quantitative and qualitative experiments confirm that the proposed Scale-Net has higher scale ratio estimation accuracy and much better generalization ability compared with all the existing scale ratio estimation methods. Further experiments on image matching and relative pose estimation tasks demonstrate that our SDAIM and Scale-Net are able to greatly boost the performance of representative local features and state-of-the-art local feature matching methods.
翻訳日:2021-12-21 17:24:20 公開日:2021-12-20
# スケルトンに基づく行動認識のための動的ハイパーグラフ畳み込みネットワーク

Dynamic Hypergraph Convolutional Networks for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2112.10570v1 )

ライセンス: Link先を確認
Jinfeng Wei, Yunxin Wang, Mengli Guo, Pei Lv, Xiaoshan Yang, Mingliang Xu(参考訳) グラフ畳み込みネットワーク(GCN)に基づく手法は骨格に基づく行動認識タスクにおいて高度な性能を達成している。 しかし、骨格グラフは骨格データに含まれる運動情報を完全に表現することはできない。 さらに、gcnベースの方法におけるスケルトングラフのトポロジーは自然接続に従って手動で設定され、異なる状況にうまく適応できない全てのサンプルに対して固定される。 本研究では,骨格に基づく行動認識のための動的ハイパーグラフ畳み込みネットワーク(DHGCN)を提案する。 DHGCNはハイパーグラフを使用して骨格構造を表現し、ヒト関節に含まれる運動情報を効果的に活用する。 骨格ハイパーグラフの各関節はその移動に応じて対応する重量を動的に割り当て、我々のモデルにおけるハイパーグラフトポロジーは関節間の関係に応じて異なるサンプルに動的に調整することができる。 実験の結果,このモデルの性能は,Kineetics-Skeleton 400,NTU RGB+D 60,NTU RGB+D 120の3つのデータセット上での競合性能を示すことがわかった。

Graph convolutional networks (GCNs) based methods have achieved advanced performance on skeleton-based action recognition task. However, the skeleton graph cannot fully represent the motion information contained in skeleton data. In addition, the topology of the skeleton graph in the GCN-based methods is manually set according to natural connections, and it is fixed for all samples, which cannot well adapt to different situations. In this work, we propose a novel dynamic hypergraph convolutional networks (DHGCN) for skeleton-based action recognition. DHGCN uses hypergraph to represent the skeleton structure to effectively exploit the motion information contained in human joints. Each joint in the skeleton hypergraph is dynamically assigned the corresponding weight according to its moving, and the hypergraph topology in our model can be dynamically adjusted to different samples according to the relationship between the joints. Experimental results demonstrate that the performance of our model achieves competitive performance on three datasets: Kinetics-Skeleton 400, NTU RGB+D 60, and NTU RGB+D 120.
翻訳日:2021-12-21 17:24:03 公開日:2021-12-20
# BAPose: 絡み合ったウォーターフォール表現を用いたボトムアップポス推定

BAPose: Bottom-Up Pose Estimation with Disentangled Waterfall Representations ( http://arxiv.org/abs/2112.10716v1 )

ライセンス: Link先を確認
Bruno Artacho, Andreas Savakis(参考訳) BAPoseは,複数人物のポーズ推定のための最先端結果を実現する新しいボトムアップ手法である。 エンド・ツー・エンドのトレーニング可能なフレームワークは,マルチスケールなウォーターフォールアーキテクチャと適応畳み込みを利用して,オクルージョンを伴う混み合ったシーンにおいて,キーポイントをより正確に推測する。 BAPoseのアンタングルドウォーターフォールモジュールによって得られたマルチスケール表現は、空間ピラミッド構成に匹敵するマルチスケールフィールドを維持しながら、カスケードアーキテクチャにおけるプログレッシブフィルタリングの効率を活用している。 難易度の高いCOCOとCrowdPoseデータセットの結果から,BAPoseは多人数ポーズ推定のための効率的で堅牢なフレームワークであり,最先端の精度を大幅に向上させることができた。

We propose BAPose, a novel bottom-up approach that achieves state-of-the-art results for multi-person pose estimation. Our end-to-end trainable framework leverages a disentangled multi-scale waterfall architecture and incorporates adaptive convolutions to infer keypoints more precisely in crowded scenes with occlusions. The multi-scale representations, obtained by the disentangled waterfall module in BAPose, leverage the efficiency of progressive filtering in the cascade architecture, while maintaining multi-scale fields-of-view comparable to spatial pyramid configurations. Our results on the challenging COCO and CrowdPose datasets demonstrate that BAPose is an efficient and robust framework for multi-person pose estimation, achieving significant improvements on state-of-the-art accuracy.
翻訳日:2021-12-21 17:21:38 公開日:2021-12-20
# 潜時拡散モデルによる高分解能画像合成

High-Resolution Image Synthesis with Latent Diffusion Models ( http://arxiv.org/abs/2112.10752v1 )

ライセンス: Link先を確認
Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Bj\"orn Ommer(参考訳) 画像形成プロセスをデノージングオートエンコーダの逐次応用に分解することにより、拡散モデル(dms)は画像データなどにおいて最先端の合成結果を達成する。 さらに、それらの定式化により、リトレーニングなしで画像生成プロセスを制御できる誘導機構が実現される。 しかし、これらのモデルは通常ピクセル空間で直接動作するため、強力なDMの最適化はしばしば数百日ものGPU日を消費し、逐次評価のために推論は高価である。 制限された計算資源に対して,その品質と柔軟性を保ちながら,DMトレーニングを可能にするために,パワートレーニング済みオートエンコーダの潜時空間に適用する。 従来の研究とは対照的に、そのような表現のトレーニング拡散モデルにより、複雑性の低減と詳細保存のほぼ最適点に到達することができ、視覚的忠実度を大幅に向上させることができる。 モデルアーキテクチャにクロスアテンション層を導入することで、拡散モデルをテキストやバウンディングボックスなどの一般的なコンディショニング入力のための強力で柔軟なジェネレータに変換し、畳み込み方式で高分解能合成が可能となる。 我々の潜時拡散モデル(LDMs)は,非条件画像生成,セマンティックシーン合成,超解像などの様々なタスクにおいて,画像インパインティングと高い競争性能を実現するとともに,画素ベースのDMと比較して計算要求を大幅に低減する。 コードはhttps://github.com/C ompVis/latent-diffus ion で入手できる。

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs. Code is available at https://github.com/C ompVis/latent-diffus ion .
翻訳日:2021-12-21 17:21:22 公開日:2021-12-20
# 構造とテクスチャ表現の学習による3次元画像合成

3D-aware Image Synthesis via Learning Structural and Textural Representations ( http://arxiv.org/abs/2112.10759v1 )

ライセンス: Link先を確認
Yinghao Xu, Sida Peng, Ceyuan Yang, Yujun Shen, Bolei Zhou(参考訳) 生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しする。 最近の試みでは、3d座標をピクセル値にマッピングするニューラル・ラジアンス・フィールド(nerf)を3dプリエントとして生成逆ネットワーク(gan)に実装している。 しかし、NeRFの暗黙の関数は非常に局所的な受容場を持ち、生成元が大域構造を認識することが困難になる。 一方、NeRFはボリュームレンダリング上に構築されており、高解像度な結果を得るにはコストがかかりすぎるため、最適化の難しさが増す。 これら2つの問題を緩和するために,構造表現とテクスチャ表現を明示的に学習し,高忠実度3D認識画像合成のための新しいフレームワーク,VolumeGANを提案する。 まず、基礎となる構造を表現するために特徴量を学び、次にNeRFのようなモデルを用いて特徴体に変換する。 さらに、特徴フィールドはテクスチャ表現として2次元特徴マップに蓄積され、その後、外観合成のためのニューラルレンダラーが続く。 このようなデザインは形状と外観を独立的に制御できる。 広い範囲のデータセットに対する大規模な実験により、我々の手法は以前の手法よりも十分な画像品質と3D制御を実現することが示された。

Making generative models 3D-aware bridges the 2D image space and the 3D physical world yet remains challenging. Recent attempts equip a Generative Adversarial Network (GAN) with a Neural Radiance Field (NeRF), which maps 3D coordinates to pixel values, as a 3D prior. However, the implicit function in NeRF has a very local receptive field, making the generator hard to become aware of the global structure. Meanwhile, NeRF is built on volume rendering which can be too costly to produce high-resolution results, increasing the optimization difficulty. To alleviate these two problems, we propose a novel framework, termed as VolumeGAN, for high-fidelity 3D-aware image synthesis, through explicitly learning a structural representation and a textural representation. We first learn a feature volume to represent the underlying structure, which is then converted to a feature field using a NeRF-like model. The feature field is further accumulated into a 2D feature map as the textural representation, followed by a neural renderer for appearance synthesis. Such a design enables independent control of the shape and the appearance. Extensive experiments on a wide range of datasets show that our approach achieves sufficiently higher image quality and better 3D control than the previous methods.
翻訳日:2021-12-21 17:20:55 公開日:2021-12-20
# StyleSwin:高解像度画像生成のためのトランスフォーマーベースGAN

StyleSwin: Transformer-based GAN for High-resolution Image Generation ( http://arxiv.org/abs/2112.10762v1 )

ライセンス: Link先を確認
Bowen Zhang, Shuyang Gu, Bo Zhang, Jianmin Bao, Dong Chen, Fang Wen, Yong Wang, Baining Guo(参考訳) 幅広いビジョンタスクで成功を収めたにもかかわらず、トランスフォーマーはまだ高分解能画像生成モデリングにおけるconvnetsと同等の性能を実証していない。 本稿では,高分解能画像合成のための生成対向ネットワークを構築するために,純変換器を用いて探索する。 この目的のために、局所的な注意は計算効率とモデリング能力のバランスを取るために不可欠であると考えています。 そのため、提案したジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。 より広い受容場を実現するために,ローカルウィンドウとシフトウィンドウのコンテキストを同時に活用し,生成品質を向上するダブルアテンションを提案する。 さらに,ウィンドウベース変圧器で失われた絶対位置の知識を提供することは,生成品質を大幅に向上させることを示す。 提案したStyleSwinは高解像度にスケーラブルであり、粗い幾何学と微細構造の両方が変換器の強い表現性から恩恵を受けている。 しかし、局所的な注意をブロック的に行うと空間的一貫性が損なわれるため、高分解能合成中にブロックアーティファクトが発生する。 そこで本研究では,ウェーブレット判別器を用いてスペクトルの差分性を調べることにより,人工物が効果的に抑制されることを実証的に検討した。 大規模な実験は、特に高分解能の1024x1024において、先行のトランスフォーマーベースのGANよりも優れていることを示している。 StyleSwinは複雑なトレーニング戦略を持たず、CelebA-HQ 1024のStyleGANを抜いてFFHQ-1024のオンパーパフォーマンスを実現し、高解像度の画像生成にトランスフォーマーを使用するという約束を証明する。 コードとモデルはhttps://github.com/m icrosoft/styleswinで入手できる。

Despite the tantalizing success in a broad of vision tasks, transformers have not yet demonstrated on-par ability as ConvNets in high-resolution image generative modeling. In this paper, we seek to explore using pure transformers to build a generative adversarial network for high-resolution image synthesis. To this end, we believe that local attention is crucial to strike the balance between computational efficiency and modeling capacity. Hence, the proposed generator adopts Swin transformer in a style-based architecture. To achieve a larger receptive field, we propose double attention which simultaneously leverages the context of the local and the shifted windows, leading to improved generation quality. Moreover, we show that offering the knowledge of the absolute position that has been lost in window-based transformers greatly benefits the generation quality. The proposed StyleSwin is scalable to high resolutions, with both the coarse geometry and fine structures benefit from the strong expressivity of transformers. However, blocking artifacts occur during high-resolution synthesis because performing the local attention in a block-wise manner may break the spatial coherency. To solve this, we empirically investigate various solutions, among which we find that employing a wavelet discriminator to examine the spectral discrepancy effectively suppresses the artifacts. Extensive experiments show the superiority over prior transformer-based GANs, especially on high resolutions, e.g., 1024x1024. The StyleSwin, without complex training strategies, excels over StyleGAN on CelebA-HQ 1024, and achieves on-par performance on FFHQ-1024, proving the promise of using transformers for high-resolution image generation. The code and models will be available at https://github.com/m icrosoft/StyleSwin.
翻訳日:2021-12-21 17:20:34 公開日:2021-12-20
# (参考訳) Turbo-Sim:物理潜在空間を持つ一般化生成モデル [全文訳有]

Turbo-Sim: a generalised generative model with a physical latent space ( http://arxiv.org/abs/2112.10629v1 )

ライセンス: CC BY 4.0
Guillaume Qu\'etant, Mariia Drozdova, Vitaliy Kinakh, Tobias Golling, Slava Voloshynovkiy(参考訳) 本稿では,情報理論の原理から派生した汎用オートエンコーダフレームワークであるTurbo-Simについて述べる。 エンコーダとデコーダの出力の入力と出力の相互情報を最大化することで、敵のオートエンコーダや生成的な敵ネットワークに見られる損失項や、より洗練された関連モデルを再発見することができる。 一般化されたフレームワークは、これらのモデルを数学的に解釈可能とし、各損失項の重みを個別に設定することで、新しいモデルの多様性を実現する。 また、このフレームワークはエンコーダとデコーダの固有のアーキテクチャとは独立しており、ネットワーク全体のビルディングブロックに対して幅広い選択肢を残している。 衝突の直後に理論空間から観測空間へのいくつかの粒子の性質の変換を実験で検出した直後に行う衝突器物理生成問題に適用する。

We present Turbo-Sim, a generalised autoencoder framework derived from principles of information theory that can be used as a generative model. By maximising the mutual information between the input and the output of both the encoder and the decoder, we are able to rediscover the loss terms usually found in adversarial autoencoders and generative adversarial networks, as well as various more sophisticated related models. Our generalised framework makes these models mathematically interpretable and allows for a diversity of new ones by setting the weight of each loss term separately. The framework is also independent of the intrinsic architecture of the encoder and the decoder thus leaving a wide choice for the building blocks of the whole network. We apply Turbo-Sim to a collider physics generation problem: the transformation of the properties of several particles from a theory space, right after the collision, to an observation space, right after the detection in an experiment.
翻訳日:2021-12-21 17:13:47 公開日:2021-12-20
# (参考訳) Latte: ラテントベースの生成モデル評価のためのクロスフレームワークPythonパッケージ [全文訳有]

Latte: Cross-framework Python Package for Evaluation of Latent-Based Generative Models ( http://arxiv.org/abs/2112.10638v1 )

ライセンス: CC BY 4.0
Karn N. Watcharasupat, Junyoung Lee, and Alexander Lerch(参考訳) Latte (LATent Tensor Evaluation) は、非絡み合い学習と制御可能な生成の分野における潜在型生成モデルを評価するためのPythonライブラリである。 LatteはPyTorchとTensorFlow/Kerasの両方と互換性があり、関数型とモジュール型の両方のAPIを提供し、他のディープラーニングフレームワークをサポートするために簡単に拡張できる。 numpyベースのフレームワークに依存しない実装を使用して、latteは、ディープラーニングフレームワークに関係なく、再現性、一貫性、決定論的メトリック計算を保証する。

Latte (for LATent Tensor Evaluation) is a Python library for evaluation of latent-based generative models in the fields of disentanglement learning and controllable generation. Latte is compatible with both PyTorch and TensorFlow/Keras, and provides both functional and modular APIs that can be easily extended to support other deep learning frameworks. Using NumPy-based and framework-agnostic implementation, Latte ensures reproducible, consistent, and deterministic metric calculations regardless of the deep learning framework of choice.
翻訳日:2021-12-21 16:31:37 公開日:2021-12-20
# 力とコピーのメカニズム: 自然言語生成のための強化された監視コピー法

May the Force Be with Your Copy Mechanism: Enhanced Supervised-Copy Method for Natural Language Generation ( http://arxiv.org/abs/2112.10360v1 )

ライセンス: Link先を確認
Sanghyuk Choi, Jeong-in Hwang, Hyungjong Noh, Yeonsoo Lee(参考訳) 近年,コピー機構を持つニューラルシークエンス-シーケンスモデルが様々なテキスト生成タスクにおいて著しい進歩を遂げている。 これらのモデルは語彙外問題に対処し、稀な単語の生成を促進した。 しかし、誤生成と抽象性の欠如に苦しむ先行コピーモデルによって観察されるように、コピーすべき単語の識別は困難である。 本稿では,どの単語をコピーする必要があるか,どの単語を生成する必要があるかをモデルが決定するのに役立つ,コピーネットワークの新しい教師付きアプローチを提案する。 具体的には、ソースシーケンスとターゲット語彙をコピーのガイダンスとして利用する目的関数を再定義する。 データ・テキスト生成および抽象要約タスクの実験結果から,本手法がコピー品質を高め,抽象性の程度を向上することを確認した。

Recent neural sequence-to-sequence models with a copy mechanism have achieved remarkable progress in various text generation tasks. These models addressed out-of-vocabulary problems and facilitated the generation of rare words. However, the identification of the word which needs to be copied is difficult, as observed by prior copy models, which suffer from incorrect generation and lacking abstractness. In this paper, we propose a novel supervised approach of a copy network that helps the model decide which words need to be copied and which need to be generated. Specifically, we re-define the objective function, which leverages source sequences and target vocabularies as guidance for copying. The experimental results on data-to-text generation and abstractive summarization tasks verify that our approach enhances the copying quality and improves the degree of abstractness.
翻訳日:2021-12-21 16:18:57 公開日:2021-12-20
# Diaformer: 症状系列生成による自動診断

Diaformer: Automatic Diagnosis via Symptoms Sequence Generation ( http://arxiv.org/abs/2112.10433v1 )

ライセンス: Link先を確認
Junying Chen, Dongfang Li, Qingcai Chen, Wenxiu Zhou, Xin Liu(参考訳) 自動診断は注目度が高くなっているが,多段階の推論が原因でいまだに困難である。 最近の研究では通常強化学習法によって対処されている。 しかし、これらの手法は効率が低く、タスク固有の報酬関数を必要とする。 医師と患者の会話を考えると、医師は症状を調べて診断することができるので、診断プロセスは自然に症状や診断を含むシーケンスの生成と見なすことができる。 そこで本研究では,症状系列生成(SG)タスクとして自動診断を再構成し,Transformer(Diaform er)に基づく簡易かつ効果的な自動診断モデルを提案する。 まず,症状調査と疾患診断の創出を学ぶために,症状注意枠組みを設計する。 逐次発生と暗示症状の障害の相違を緩和するために,さらに3つの無秩序な訓練機構をデザインした。 3つの公開データセットを用いた実験により,本モデルが1%,6%,11.5%の診断基準を上回っており,訓練効率が最も高いことが示された。 症状調査予測の詳細な分析は, 自動診断に症状系列生成を適用する可能性を示している。

Automatic diagnosis has attracted increasing attention but remains challenging due to multi-step reasoning. Recent works usually address it by reinforcement learning methods. However, these methods show low efficiency and require taskspecific reward functions. Considering the conversation between doctor and patient allows doctors to probe for symptoms and make diagnoses, the diagnosis process can be naturally seen as the generation of a sequence including symptoms and diagnoses. Inspired by this, we reformulate automatic diagnosis as a symptoms Sequence Generation (SG) task and propose a simple but effective automatic Diagnosis model based on Transformer (Diaformer). We firstly design the symptom attention framework to learn the generation of symptom inquiry and the disease diagnosis. To alleviate the discrepancy between sequential generation and disorder of implicit symptoms, we further design three orderless training mechanisms. Experiments on three public datasets show that our model outperforms baselines on disease diagnosis by 1%, 6% and 11.5% with the highest training efficiency. Detailed analysis on symptom inquiry prediction demonstrates that the potential of applying symptoms sequence generation for automatic diagnosis.
翻訳日:2021-12-21 16:18:26 公開日:2021-12-20
# (参考訳) 多言語モデルを用いたマイナショット学習

Few-shot Learning with Multilingual Language Models ( http://arxiv.org/abs/2112.10668v1 )

ライセンス: CC BY 4.0
Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O'Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, Xian Li(参考訳) GPT-3のような大規模自己回帰型言語モデルは、微調整なしで幅広い言語タスクを実行できる少数の学習者である。 これらのモデルは、多くの異なる言語を共同表現できることが知られているが、トレーニングデータは英語に支配されており、言語間の一般化を制限する可能性がある。 本研究は,多言語自己回帰型言語モデルを,多様な言語セットをカバーするバランスのとれたコーパス上で訓練し,その少数・ゼロショット学習能力を幅広いタスクで検討する。 750億のパラメータを持つ私たちの最大のモデルでは、20以上の代表的な言語で少数ショット学習の新しい状態を設定し、多言語共通認識推論(0ショット設定では+7.4%、4ショット設定では+9.4%)と自然言語推論(0ショットと4ショット設定では+5.4%)で同等の大きさのgpt-3を上回っています。 FLORES-101 機械翻訳ベンチマークでは,本モデルが 182 の翻訳方向のうち 171 において GPT-3 を上回り,32 の訓練例が45 の指示基準線を上回り,GPT-3 よりも優れていた。 本稿では,モデルの成功と失敗の詳細な分析について述べる。特に,表層形状のロバスト性や自然なクローズ形式を持たないタスクへの適応性の改善の余地がある一方で,言語横断的インコンテキスト学習が可能となることを示す。 最後に,5言語でのヘイトスピーチ検出などの社会的価値タスクにおけるモデルの評価を行い,これと同等の大きさのGPT-3モデルに類似した制限があることを見出した。

Large-scale autoregressive language models such as GPT-3 are few-shot learners that can perform a wide range of language tasks without fine-tuning. While these models are known to be able to jointly represent many different languages, their training data is dominated by English, potentially limiting their cross-lingual generalization. In this work, we train multilingual autoregressive language models on a balanced corpus covering a diverse set of languages, and study their few- and zero-shot learning capabilities in a wide range of tasks. Our largest model with 7.5 billion parameters sets new state of the art in few-shot learning in more than 20 representative languages, outperforming GPT-3 of comparable size in multilingual commonsense reasoning (with +7.4% absolute accuracy improvement in 0-shot settings and +9.4% in 4-shot settings) and natural language inference (+5.4% in each of 0-shot and 4-shot settings). On the FLORES-101 machine translation benchmark, our model outperforms GPT-3 on 171 out of 182 translation directions with 32 training examples, while surpassing the official supervised baseline in 45 directions. We present a detailed analysis of where the model succeeds and fails, showing in particular that it enables cross-lingual in-context learning on some tasks, while there is still room for improvement on surface form robustness and adaptation to tasks that do not have a natural cloze form. Finally, we evaluate our models in social value tasks such as hate speech detection in five languages and find it has limitations similar to comparable sized GPT-3 models.
翻訳日:2021-12-21 16:15:53 公開日:2021-12-20
# aiシステムのスコープと説明可能性

Scope and Sense of Explainability for AI-Systems ( http://arxiv.org/abs/2112.10551v1 )

ライセンス: Link先を確認
A.-M. Leventi-Peetz, T. \"Ostreich, W. Lennartz, K. Weber(参考訳) AIシステムの説明可能性の特定の側面について、批判的に議論する。 これは特に、すべてのAIシステムを説明可能にするタスクの実現性に重点を置いている。 原因と効果の古典的な論理スキームに矛盾する決定を下す、高度に複雑で効率的なaiシステムの説明可能性に関する困難さに重点が置かれる。 AIシステムは、独創的(例えばAlphaGoのゲーム2の37の移動)として特徴付けられる非知的なソリューションを確実に提供してきた。 AIソリューションが完全に理解できないため、事前に破棄されるならば、インテリジェントシステムの可能性の大部分は無駄になる、という考えを支持する議論を詳しく説明する。

Certain aspects of the explainability of AI systems will be critically discussed. This especially with focus on the feasibility of the task of making every AI system explainable. Emphasis will be given to difficulties related to the explainability of highly complex and efficient AI systems which deliver decisions whose explanation defies classical logical schemes of cause and effect. AI systems have provably delivered unintelligible solutions which in retrospect were characterized as ingenious (for example move 37 of the game 2 of AlphaGo). It will be elaborated on arguments supporting the notion that if AI-solutions were to be discarded in advance because of their not being thoroughly comprehensible, a great deal of the potentiality of intelligent systems would be wasted.
翻訳日:2021-12-21 16:13:57 公開日:2021-12-20
# 最適性保証付き文脈確率ブロックモデルに対する反復的クラスタリングアルゴリズム

An iterative clustering algorithm for the Contextual Stochastic Block Model with optimality guarantees ( http://arxiv.org/abs/2112.10467v1 )

ライセンス: Link先を確認
Guillaume Braun, Hemant Tyagi and Christophe Biernacki(参考訳) 現実世界のネットワークには、クラスタリングなどのネットワーク分析タスクのパフォーマンス向上に役立つサイド情報があることが多い。 ネットワーククラスタリング手法について過去10年間に多くの経験的・理論的研究を行ったが、側面情報の付加価値とクラスタリングアルゴリズムに最適に組み込む手法は比較的理解されていない。 本稿では,ノードの側情報(共変量)を持つクラスタネットワークに対する新しい反復アルゴリズムを提案し,このアルゴリズムがコンテキスト対称確率ブロックモデルの下で最適であることを示す。 本アルゴリズムは, 一般的な文脈確率ブロックモデルに適用でき, 提案手法とは対照的にハイパーパラメータチューニングを回避できる。 我々は,アルゴリズムが他の手法を著しく上回る合成データ実験の理論的結果を確認し,符号付きグラフにも適用可能であることを示す。 最後に,本手法の現実データに対する実用的関心を示す。

Real-world networks often come with side information that can help to improve the performance of network analysis tasks such as clustering. Despite a large number of empirical and theoretical studies conducted on network clustering methods during the past decade, the added value of side information and the methods used to incorporate it optimally in clustering algorithms are relatively less understood. We propose a new iterative algorithm to cluster networks with side information for nodes (in the form of covariates) and show that our algorithm is optimal under the Contextual Symmetric Stochastic Block Model. Our algorithm can be applied to general Contextual Stochastic Block Models and avoids hyperparameter tuning in contrast to previously proposed methods. We confirm our theoretical results on synthetic data experiments where our algorithm significantly outperforms other methods, and show that it can also be applied to signed graphs. Finally we demonstrate the practical interest of our method on real data.
翻訳日:2021-12-21 16:11:23 公開日:2021-12-20
# 自律切替線形システムにおける切替最小二乗系同定の一貫性と収束率

Consistency and Rate of Convergence of Switched Least Squares System Identification for Autonomous Switched Linear Systems ( http://arxiv.org/abs/2112.10753v1 )

ライセンス: Link先を確認
Borna Sayedana, Mohammad Afshari, Peter E. Caines, Aditya Mahajan(参考訳) 本稿では,完全状態観測による自律切替線形システムのシステム同定の問題について検討する。 本稿では,切替線形系の同定のための切替最小二乗法を提案し,この手法が強い一貫性を示し,データ依存およびデータ非依存の収束率を導出する。 特に、我々のデータ依存収束速度は、ほぼ確実に、システム識別エラーが$\mathcal{O}\big(\sqrt{\log(T)/T} \big)$であることを示している。 これらの結果から, スイッチング線形系に対する手法は, 非スイッチング線形系に対する最小二乗法と同程度の収束率を持つことがわかった。 私たちはその結果を文学のものと比べる。 本稿では,提案手法の性能を示す数値的な例を示す。

In this paper, we investigate the problem of system identification for autonomous switched linear systems with complete state observations. We propose switched least squares method for the identification for switched linear systems, show that this method is strongly consistent, and derive data-dependent and data-independent rates of convergence. In particular, our data-dependent rate of convergence shows that, almost surely, the system identification error is $\mathcal{O}\big(\sqrt{\log(T)/T} \big)$ where $T$ is the time horizon. These results show that our method for switched linear systems has the same rate of convergence as least squares method for non-switched linear systems. We compare our results with those in the literature. We present numerical examples to illustrate the performance of the proposed system identification method.
翻訳日:2021-12-21 16:11:09 公開日:2021-12-20
# 深層学習と手作り特徴を用いた皮膚病変の分節と分類

Skin lesion segmentation and classification using deep learning and handcrafted features ( http://arxiv.org/abs/2112.10307v1 )

ライセンス: Link先を確認
Redha Ali and Hussin K. Ragb(参考訳) 皮膚病変の正確な診断は,皮膚内視鏡画像の分類において重要な課題である。 本研究では,単一手法よりも強力な識別能力を有するハイブリッド機能という,新たなタイプの画像特徴を形成する。 この研究は、トレーニングプロセス中に手作りの特徴や特徴を、畳み込みニューラルネットワーク(CNN)モデルの完全に接続された層に注入する新しい手法を含む。 これまでの文献レビューでは, CNNモデルに手作り特徴を注入することにより, 分類性能への影響について検討や検討は行われていない。 また,セグメンテーションマスクが全体の分類性能に与える影響についても検討した。 このモデルは92.3%のバランスの取れたマルチクラス精度を実現しており、ディープラーニングのための一般的な単一メソッド分類器アーキテクチャよりも6.8%優れている。

Accurate diagnostics of a skin lesion is a critical task in classification dermoscopic images. In this research, we form a new type of image features, called hybrid features, which has stronger discrimination ability than single method features. This study involves a new technique where we inject the handcrafted features or feature transfer into the fully connected layer of Convolutional Neural Network (CNN) model during the training process. Based on our literature review until now, no study has examined or investigated the impact on classification performance by injecting the handcrafted features into the CNN model during the training process. In addition, we also investigated the impact of segmentation mask and its effect on the overall classification performance. Our model achieves an 92.3% balanced multiclass accuracy, which is 6.8% better than the typical single method classifier architecture for deep learning.
翻訳日:2021-12-21 16:07:56 公開日:2021-12-20
# Mega-NeRF:Virtual Fly-Throughsのための大規模NeRFのスケーラブル構築

Mega-NeRF: Scalable Construction of Large-Scale NeRFs for Virtual Fly-Throughs ( http://arxiv.org/abs/2112.10703v1 )

ライセンス: Link先を確認
Haithem Turki, Deva Ramanan, Mahadev Satyanarayanan(参考訳) 我々は、ニューラルネットワーク(NeRF)を利用して、建物にまたがる大規模な視覚的キャプチャーや、主にドローンデータから収集された複数の都市ブロックからインタラクティブな3D環境を構築する方法について検討する。 In contrast to the single object scenes against which NeRFs have been traditionally evaluated, this setting poses multiple challenges including (1) the need to incorporate thousands of images with varying lighting conditions, all of which capture only a small subset of the scene, (2) prohibitively high model capacity and ray sampling requirements beyond what can be naively trained on a single GPU, and (3) an arbitrarily large number of possible viewpoints that make it unfeasible to precompute all relevant information beforehand (as real-time NeRF renderers typically do). これらの課題に対処するために、大規模シーンの可視性統計を解析し、各シーンの異なる領域にパラメータが特化しているスパースネットワーク構造を動機付ける。 我々は、訓練画像(またはむしろピクセル)を並列に訓練できる異なるNeRFサブモジュールに分割する単純な幾何学的クラスタリングアルゴリズムを導入する。 我々は、Quad 6kとUrbanScene3Dのデータセットから得られたシーンのアプローチと、ドローンの映像を比較し、PSNRを平均11%以上改善しながら3倍のトレーニングスピードアップを示す。 その後,Mega-NeRF上における最近のNeRF高速レンダラーの実証評価を行い,時間的コヒーレンスを利用した新しい手法を提案する。 提案手法は,既存の高速レンダラーの忠実度を超えながら,PSNR品質0.5db以内で従来のNeRFレンダリングの40倍の高速化を実現する。

We explore how to leverage neural radiance fields (NeRFs) to build interactive 3D environments from large-scale visual captures spanning buildings or even multiple city blocks collected primarily from drone data. In contrast to the single object scenes against which NeRFs have been traditionally evaluated, this setting poses multiple challenges including (1) the need to incorporate thousands of images with varying lighting conditions, all of which capture only a small subset of the scene, (2) prohibitively high model capacity and ray sampling requirements beyond what can be naively trained on a single GPU, and (3) an arbitrarily large number of possible viewpoints that make it unfeasible to precompute all relevant information beforehand (as real-time NeRF renderers typically do). To address these challenges, we begin by analyzing visibility statistics for large-scale scenes, motivating a sparse network structure where parameters are specialized to different regions of the scene. We introduce a simple geometric clustering algorithm that partitions training images (or rather pixels) into different NeRF submodules that can be trained in parallel. We evaluate our approach across scenes taken from the Quad 6k and UrbanScene3D datasets as well as against our own drone footage and show a 3x training speedup while improving PSNR by over 11% on average. We subsequently perform an empirical evaluation of recent NeRF fast renderers on top of Mega-NeRF and introduce a novel method that exploits temporal coherence. Our technique achieves a 40x speedup over conventional NeRF rendering while remaining within 0.5 db in PSNR quality, exceeding the fidelity of existing fast renderers.
翻訳日:2021-12-21 16:07:44 公開日:2021-12-20
# GLIDE:テキスト誘導拡散モデルによるフォトリアリスティック画像生成と編集を目指して

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models ( http://arxiv.org/abs/2112.10741v1 )

ライセンス: Link先を確認
Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen(参考訳) 拡散モデルは最近、多様性と忠実性をトレードオフするガイダンス技術と組み合わせることで、高品質な合成画像を生成することが示されている。 テキスト条件画像合成問題に対する拡散モデルを検討し,クリップ指導と分類子なし指導の2つの異なる指導戦略を比較した。 後者は、フォトリアリズムとキャプションの類似性の両方において人間の評価者によって好まれており、しばしばフォトリアリズムのサンプルを生成する。 分類器フリーガイダンスを用いた35億のパラメータテキスト条件拡散モデルからのサンプルは、高価なCLIPの再評価を用いた場合であっても、DALL-Eからの評価者によって好まれる。 さらに, 私たちのモデルでは, 画像インペインティングを微調整し, 強力なテキスト駆動画像編集を可能にする。 フィルタリングデータセット上に小さなモデルをトレーニングし、https://github.com/o penai/glide-text2imでコードと重みをリリースします。

Diffusion models have recently been shown to generate high-quality synthetic images, especially when paired with a guidance technique to trade off diversity for fidelity. We explore diffusion models for the problem of text-conditional image synthesis and compare two different guidance strategies: CLIP guidance and classifier-free guidance. We find that the latter is preferred by human evaluators for both photorealism and caption similarity, and often produces photorealistic samples. Samples from a 3.5 billion parameter text-conditional diffusion model using classifier-free guidance are favored by human evaluators to those from DALL-E, even when the latter uses expensive CLIP reranking. Additionally, we find that our models can be fine-tuned to perform image inpainting, enabling powerful text-driven image editing. We train a smaller model on a filtered dataset and release the code and weights at https://github.com/o penai/glide-text2im.
翻訳日:2021-12-21 16:07:15 公開日:2021-12-20
# 力学系の時空間仕様の学習

Learning Spatio-Temporal Specifications for Dynamical Systems ( http://arxiv.org/abs/2112.10714v1 )

ライセンス: Link先を確認
Suhail Alsalehi, Erfan Aasi, Ron Weiss, Calin Belta(参考訳) データから動的システムの特性を学ぶことは、そのようなシステムを理解し、望ましくない結果を軽減するのに役立つ重要な洞察を提供する。 本研究では,データから時空間特性を形式論理仕様として学習するためのフレームワークを提案する。 本稿では,SVM-STL(Signal Signal Temporal Logic:信号時空間論理)の拡張として,時間変化の空間パターンを示す幅広い力学系の空間的・時間的特性を特定する。 本フレームワークは,SVM-STL仕様を空間パターンのシーケンスによって与えられるシステム実行から学習するために機械学習技術を利用する。 ラベル付きデータとラベルなしデータの両方を扱う方法を提案する。 さらに,SVM-STL仕様の形でのシステム要件を考慮し,パラメータ合成による仕様の満足度を最大化するための手法を提案する。 我々の学習フレームワークとパラメータ合成アプローチは,反応拡散システムの例を示す。

Learning dynamical systems properties from data provides important insights that help us understand such systems and mitigate undesired outcomes. In this work, we propose a framework for learning spatio-temporal (ST) properties as formal logic specifications from data. We introduce SVM-STL, an extension of Signal Signal Temporal Logic (STL), capable of specifying spatial and temporal properties of a wide range of dynamical systems that exhibit time-varying spatial patterns. Our framework utilizes machine learning techniques to learn SVM-STL specifications from system executions given by sequences of spatial patterns. We present methods to deal with both labeled and unlabeled data. In addition, given system requirements in the form of SVM-STL specifications, we provide an approach for parameter synthesis to find parameters that maximize the satisfaction of such specifications. Our learning framework and parameter synthesis approach are showcased in an example of a reaction-diffusion system.
翻訳日:2021-12-21 16:06:59 公開日:2021-12-20
# (参考訳) 放射線医学レポートの半構造化表現の学習 [全文訳有]

Learning Semi-Structured Representations of Radiology Reports ( http://arxiv.org/abs/2112.10746v1 )

ライセンス: CC BY 4.0
Tamara Katic, Martin Pavlovski, Danijela Sekulic, Slobodan Vucetic(参考訳) 主な診断目的を超えて、放射線医学報告は医学研究において貴重な情報源となっている。 放射線学レポートのコーパスを考えると、研究者は特定の医学的発見を説明するレポートのサブセットを見つけることにしばしば興味を持っている。 放射線医学レポートにおける医学的発見の範囲は広く、潜在的に無限であるので、最近の研究では、放射線医学レポートのフリーテキストステートメントを限定された語彙から取られた半構造化文字列にマッピングすることを提案した。 本稿では,放射線学報告の半構造化表現の自動生成手法を提案する。 アプローチは、ラジオロジーレポートからの一致した文から半構造化表現を手作業で作成し、その後、一致した文を半構造化表現にマッピングするシーケンス・ツー・シーケンス・ニューラルモデルを学ぶ。 胸部X線診断を手動で行った症例のOpenIコーパスに対するアプローチについて検討した。 その結果,(1) bleu,rouge,meteorなどの定量的指標,(2) 放射線科医の質的判断において,提案手法はいくつかの基準よりも優れていることが示唆された。 また, 異なる医療機関からの胸部X線X線診断報告を, サンプル外コーパスに有意な半構造化表現を生成できることを示した。

Beyond their primary diagnostic purpose, radiology reports have been an invaluable source of information in medical research. Given a corpus of radiology reports, researchers are often interested in identifying a subset of reports describing a particular medical finding. Because the space of medical findings in radiology reports is vast and potentially unlimited, recent studies proposed mapping free-text statements in radiology reports to semi-structured strings of terms taken from a limited vocabulary. This paper aims to present an approach for the automatic generation of semi-structured representations of radiology reports. The approach consists of matching sentences from radiology reports to manually created semi-structured representations, followed by learning a sequence-to-sequence neural model that maps matched sentences to their semi-structured representations. We evaluated the proposed approach on the OpenI corpus of manually annotated chest x-ray radiology reports. The results indicate that the proposed approach is superior to several baselines, both in terms of (1) quantitative measures such as BLEU, ROUGE, and METEOR and (2) qualitative judgment of a radiologist. The results also demonstrate that the trained model produces reasonable semi-structured representations on an out-of-sample corpus of chest x-ray radiology reports from a different medical provider.
翻訳日:2021-12-21 16:04:25 公開日:2021-12-20
# ランダムデータに欠落したモデルベースクラスタリング

Model-based Clustering with Missing Not At Random Data ( http://arxiv.org/abs/2112.10425v1 )

ライセンス: Link先を確認
Aude Sportisse (CRISAM, UCA), Christophe Biernacki (CNRS), Claire Boyer (SU), Julie Josse (CRISAM, IDESP), Matthieu Marbac Lourdelle (UNIV-RENNES, ENSAI, CNRS, CREST), Gilles Celeux, Fabien Laporte (UCO)(参考訳) 近年、技術進歩により、大規模なデータセットの収集が可能になった。 この文脈では、モデルベースのクラスタリングは、よく定義された統計フレームワークにおけるデータ探索のための非常に人気があり、柔軟で解釈可能な方法論である。 大規模なデータセットの増加の皮肉のひとつは、値の欠落が頻繁に発生することだ。 しかしながら、従来の方法(値の欠如やインプテーションメソッドによる観測を破棄するなど)は、クラスタリングの目的のために設計されていない。 さらに、一般的には適用されないが、MNAR(Missing Not At Random)の値、すなわち、欠落が観測されていないデータ値と観測されたデータ値に依存する場合などに適用されることは稀である。 本研究の目的は,MNARデータをモデルベースクラスタリングアルゴリズムに直接埋め込む手法を提案することである。 データの連立分布と欠落データ指標の選択モデルを提案する。 データ分散のための混合モデルと、欠落データ機構のための一般的なMNARモデルに対応しており、基礎となるクラス(未知)や欠落変数自体の値に依存する可能性がある。 有意義なmnarサブモデルの大規模なセットが導出され、パラメータの識別性が各サブモデルについて研究される。 EMとStochasticのEMアルゴリズムを推定する。 最後に,提案したサブモデルの合成データに対する経験的評価を行い,TraumaBase(R)データセットを用いて本手法の有効性について述べる。

In recent decades, technological advances have made it possible to collect large data sets. In this context, the model-based clustering is a very popular, flexible and interpretable methodology for data exploration in a well-defined statistical framework. One of the ironies of the increase of large datasets is that missing values are more frequent. However, traditional ways (as discarding observations with missing values or imputation methods) are not designed for the clustering purpose. In addition, they rarely apply to the general case, though frequent in practice, of Missing Not At Random (MNAR) values, i.e. when the missingness depends on the unobserved data values and possibly on the observed data values. The goal of this paper is to propose a novel approach by embedding MNAR data directly within model-based clustering algorithms. We introduce a selection model for the joint distribution of data and missing-data indicator. It corresponds to a mixture model for the data distribution and a general MNAR model for the missing-data mechanism, which may depend on the underlying classes (unknown) and/or the values of the missing variables themselves. A large set of meaningful MNAR sub-models is derived and the identifiability of the parameters is studied for each of the sub-models, which is usually a key issue for any MNAR proposals. The EM and Stochastic EM algorithms are considered for estimation. Finally, we perform empirical evaluations for the proposed submodels on synthetic data and we illustrate the relevance of our method on a medical register, the TraumaBase (R) dataset.
翻訳日:2021-12-21 15:47:44 公開日:2021-12-20
# トランスフォーマーはベイズ推論ができる

Transformers Can Do Bayesian Inference ( http://arxiv.org/abs/2112.10510v1 )

ライセンス: Link先を確認
Samuel M\"uller, Noah Hollmann, Sebastian Pineda Arango, Josif Grabocka and Frank Hutter(参考訳) 現在、事前知識の明示的な指定を可能にし、モデルの不確かさを正確に捉えるベイズ法に対するディープラーニングの利点を享受することは困難である。 我々はPFN(Presideed Data Fitted Networks)を提案する。 pfnsは大規模な機械学習技術を活用して、大きな後方集合を近似している。 PFNが機能する唯一の要件は、教師付き学習タスク(または関数)よりも前の分布からサンプリングできることである。 本手法は,前者からタスク(あるいは関数)を繰り返し描画し,それからデータポイントとそのラベルのセットを描画し,ラベルの1つをマスクし,残りのデータポイントのセット値入力に基づいて確率的予測を行う。 新しい教師付き学習タスクのサンプルを入力として提示し、PFNはベイズ推定を近似することを学び、単一の前方伝播において任意の他のデータポイントに対する確率的予測を行う。 pfnsはガウス過程をほぼ完璧に模倣でき、また現在の手法と比較して200倍以上の速度アップを持つ難解な問題に対して効率的なベイズ推論を可能にする。 我々は、ガウス過程回帰、ベイズニューラルネットワーク、小さな表型データセットの分類、およびpfnsの一般性を示す数少ない画像分類など、非常に多様な領域において強い結果を得る。 コードとトレーニングされたPFNはhttps://github.com/a utoml/TransformersCa nDoBayesianInference でリリースされる。

Currently, it is hard to reap the benefits of deep learning for Bayesian methods, which allow the explicit specification of prior knowledge and accurately capture model uncertainty. We present Prior-Data Fitted Networks (PFNs). PFNs leverage large-scale machine learning techniques to approximate a large set of posteriors. The only requirement for PFNs to work is the ability to sample from a prior distribution over supervised learning tasks (or functions). Our method restates the objective of posterior approximation as a supervised classification problem with a set-valued input: it repeatedly draws a task (or function) from the prior, draws a set of data points and their labels from it, masks one of the labels and learns to make probabilistic predictions for it based on the set-valued input of the rest of the data points. Presented with a set of samples from a new supervised learning task as input, PFNs make probabilistic predictions for arbitrary other data points in a single forward propagation, having learned to approximate Bayesian inference. We demonstrate that PFNs can near-perfectly mimic Gaussian processes and also enable efficient Bayesian inference for intractable problems, with over 200-fold speedups in multiple setups compared to current methods. We obtain strong results in very diverse areas such as Gaussian process regression, Bayesian neural networks, classification for small tabular data sets, and few-shot image classification, demonstrating the generality of PFNs. Code and trained PFNs are released at https://github.com/a utoml/TransformersCa nDoBayesianInference .
翻訳日:2021-12-21 15:47:22 公開日:2021-12-20
# 状態保存政策最適化による遷移ダイナミクスの乱れに対するロバストポリシーの学習

Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization ( http://arxiv.org/abs/2112.10513v1 )

ライセンス: Link先を確認
Yufei Kuang, Miao Lu, Jie Wang, Qi Zhou, Bin Li, Houqiang Li(参考訳) 深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分に動作することができる。 この相違は一般に遷移ダイナミクスの障害と見なされる。 多くの既存のアルゴリズムは、乱れをモデル化し、訓練中にソース環境に適用することで堅牢なポリシーを学習する。 しかし、これらのアルゴリズムは、ターゲット環境からの乱れが不明で、シミュレーターでモデル化できないシナリオで失敗する可能性がある。 この問題に対処するため,本稿では,前もって乱れをモデル化せずにロバストなポリシーを学習する,新しいモデルフリーアクタ批判アルゴリズム(SCPO)を提案する。 具体的には、SCPOは遷移力学の障害を状態空間の障害に還元し、簡単な勾配ベース正規化器で近似する。 SCPOの魅力的な特徴は、実装が簡単であり、障害や特別に設計されたシミュレータに関する追加の知識を必要としないことである。 いくつかのロボット制御タスクの実験では、SCPOは遷移力学の障害に対する堅牢なポリシーを学習している。

Deep reinforcement learning algorithms can perform poorly in real-world tasks due to the discrepancy between source and target environments. This discrepancy is commonly viewed as the disturbance in transition dynamics. Many existing algorithms learn robust policies by modeling the disturbance and applying it to source environments during training, which usually requires prior knowledge about the disturbance and control of simulators. However, these algorithms can fail in scenarios where the disturbance from target environments is unknown or is intractable to model in simulators. To tackle this problem, we propose a novel model-free actor-critic algorithm -- namely, state-conservative policy optimization (SCPO) -- to learn robust policies without modeling the disturbance in advance. Specifically, SCPO reduces the disturbance in transition dynamics to that in state space and then approximates it by a simple gradient-based regularizer. The appealing features of SCPO include that it is simple to implement and does not require additional knowledge about the disturbance or specially designed simulators. Experiments in several robot control tasks demonstrate that SCPO learns robust policies against the disturbance in transition dynamics.
翻訳日:2021-12-21 15:46:56 公開日:2021-12-20
# factorized discriminatorsを用いたマルチモーダル適応型学習推論

Multimodal Adversarially Learned Inference with Factorized Discriminators ( http://arxiv.org/abs/2112.10384v1 )

ライセンス: Link先を確認
Wenxue Chen and Jianke Zhu(参考訳) マルチモーダルデータからの学習は機械学習の重要な研究テーマであり、より良い表現を得る可能性がある。 本稿では,生成型adversarial networkに基づくマルチモーダルデータの生成モデルに対する新しいアプローチを提案する。 コヒーレントなマルチモーダル生成モデルを学習するためには、異なるエンコーダ分布とジョイントデコーダ分布を同時に調整する必要があることを示す。 この目的のために,モデルがデータを効率的に活用できるように識別器の特定の形態を構築し,断続的に訓練する。 識別器を分解することでコントラスト学習を活用し、一様データに基づいてモデルを訓練する。 我々は,ベンチマークデータセットについて実験を行い,提案手法が様々な測定値において最先端の手法よりも優れていることを示した。 ソースコードは一般公開される予定だ。

Learning from multimodal data is an important research topic in machine learning, which has the potential to obtain better representations. In this work, we propose a novel approach to generative modeling of multimodal data based on generative adversarial networks. To learn a coherent multimodal generative model, we show that it is necessary to align different encoder distributions with the joint decoder distribution simultaneously. To this end, we construct a specific form of the discriminator to enable our model to utilize data efficiently, which can be trained constrastively. By taking advantage of contrastive learning through factorizing the discriminator, we train our model on unimodal data. We have conducted experiments on the benchmark datasets, whose promising results show that our proposed approach outperforms the-state-of-the-art methods on a variety of metrics. The source code will be made publicly available.
翻訳日:2021-12-21 15:44:50 公開日:2021-12-20
# 一般的な欲望のデバイアス学習

General Greedy De-bias Learning ( http://arxiv.org/abs/2112.10572v1 )

ライセンス: Link先を確認
Xinzhe Han, Shuhui Wang, Chi Su, Qingming Huang, Qi Tian(参考訳) ニューラルネットワークは、しばしば、関心のあるタスクの固有の特性ではなく、データセットからのスプリアス相関に依存する予測を行い、out-of-distribution( ood)テストデータで顕著に劣化する。 既存のデバイアス学習フレームワークは、バイアスアノテーションによって特定のデータセットバイアスをキャプチャしようとするが、複雑なOODシナリオを処理できない。 他の人たちは、低能力バイアスモデルや損失に関する特別な設計によってデータセットのバイアスを暗黙的に識別するが、トレーニングとテストのデータを同じディストリビューションから削除する。 本稿では,関数空間における勾配勾配のように,偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。 バイアスのあるモデルでは解決が難しい例にベースモデルを集中させることが推奨されるため、テスト段階では急激な相関に対して堅牢なままである。 GGDは様々なタスクにおけるモデルのOOD一般化能力を大幅に改善するが、時にはバイアスレベルを過大評価し、分散テストで劣化させる。 さらに、ggdのアンサンブルプロセスを再度分析し、カリキュラム学習にインスパイアされたggdにカリキュラム正規化を導入することにより、配信内と配信外のパフォーマンスとの良好なトレードオフを実現する。 画像分類, 逆質問応答, 視覚的質問応答に関する広範な実験により, 本手法の有効性が示された。 GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己集合バイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。

Neural networks often make predictions relying on the spurious correlations from the datasets rather than the intrinsic properties of the task of interest, facing sharp degradation on out-of-distribution (OOD) test data. Existing de-bias learning frameworks try to capture specific dataset bias by bias annotations, they fail to handle complicated OOD scenarios. Others implicitly identify the dataset bias by the special design on the low capability biased model or the loss, but they degrade when the training and testing data are from the same distribution. In this paper, we propose a General Greedy De-bias learning framework (GGD), which greedily trains the biased models and the base model like gradient descent in functional space. It encourages the base model to focus on examples that are hard to solve with biased models, thus remaining robust against spurious correlations in the test stage. GGD largely improves models' OOD generalization ability on various tasks, but sometimes over-estimates the bias level and degrades on the in-distribution test. We further re-analyze the ensemble process of GGD and introduce the Curriculum Regularization into GGD inspired by curriculum learning, which achieves a good trade-off between in-distribution and out-of-distribution performance. Extensive experiments on image classification, adversarial question answering, and visual question answering demonstrate the effectiveness of our method. GGD can learn a more robust base model under the settings of both task-specific biased models with prior knowledge and self-ensemble biased model without prior knowledge.
翻訳日:2021-12-21 15:44:36 公開日:2021-12-20
# (参考訳) MuMuQA: クロスメディア知識抽出とグラウンド化によるマルチメディアマルチホップニュース質問応答 [全文訳有]

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding ( http://arxiv.org/abs/2112.10728v1 )

ライセンス: CC BY 4.0
Revanth Gangi Reddy, Xilin Rui, Manling Li, Xudong Lin, Haoyang Wen, Jaemin Cho, Lifu Huang, Mohit Bansal, Avirup Sil, Shih-Fu Chang, Alexander Schwing, Heng Ji(参考訳) 近年,テキストや画像といった複数のモダリティを理由とする質問応答(qa)モデル構築への関心が高まっている。 しかし、画像を使用するQAは、事前に定義されたオプションセットから答えを選択するだけに限られることが多い。 さらに、現実世界、特にニュースにおける画像は、両方のモダリティから補完的な情報を持って、テキストと共参照のオブジェクトを持つ。 本稿では,画像中のオブジェクトをテキストにクロスメディア化する必要のあるニュース記事に対して,1384の質問を含む新しいqa評価ベンチマークを提案する。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 さらに,クロスメディアな知識抽出と合成質問応答生成に基づく新たなマルチメディアデータ拡張フレームワークを導入し,このタスクを弱くするデータを自動的に強化する。 パイプラインベースとエンドツーエンドの事前トレーニングベースのマルチメディアQAモデルの両方をベンチマークで評価し,有望なパフォーマンスを実現する一方で,人的パフォーマンスにかなり遅れていることを示す。

Recently, there has been an increasing interest in building question answering (QA) models that reason across multiple modalities, such as text and images. However, QA using images is often limited to just picking the answer from a pre-defined set of options. In addition, images in the real world, especially in news, have objects that are co-referential to the text, with complementary information from both modalities. In this paper, we present a new QA evaluation benchmark with 1,384 questions over news articles that require cross-media grounding of objects in images onto text. Specifically, the task involves multi-hop questions that require reasoning over image-caption pairs to identify the grounded visual object being referred to and then predicting a span from the news body text to answer the question. In addition, we introduce a novel multimedia data augmentation framework, based on cross-media knowledge extraction and synthetic question-answer generation, to automatically augment data that can provide weak supervision for this task. We evaluate both pipeline-based and end-to-end pretraining-based multimedia QA models on our benchmark, and show that they achieve promising performance, while considerably lagging behind human performance hence leaving large room for future work on this challenging new task.
翻訳日:2021-12-21 15:41:06 公開日:2021-12-20
# 視覚画像を用いた舗装き裂同定のための深層学習手法の評価と比較

Evaluation and Comparison of Deep Learning Methods for Pavement Crack Identification with Visual Images ( http://arxiv.org/abs/2112.10390v1 )

ライセンス: Link先を確認
Kai-Liang Lu(参考訳) 接触検出技術と比較して、深層学習アルゴリズムによる視覚画像に対する舗装き裂識別は、検出対象の材料によって制限されないという利点があり、高速かつ低コストである。 トランスファーラーニング(TL)、エンコーダデコーダ(ED)、ジェネレーティブ・ディバーサリアル・ネットワーク(GAN)およびそれらの共通モジュールの基本的フレームワークと典型的なモデルアーキテクチャをまずレビューし、その後、畳み込みニューラルネットワーク(CNN)のバックボーンモデルとGANモデルの進化を要約した。 クラック分類、セグメンテーション性能および効果は、SDNET2018とCFDの公開データセットで試験された。 パッチサンプル分類の面では、細調整されたTLモデルはEDモデルよりも精度が若干良く、予測時間が速く、正確なクラック位置では、EDアルゴリズムとGANアルゴリズムの両方がピクセルレベルのセグメンテーションを達成でき、低演算パワープラットフォーム上でリアルタイムに検出されることが期待できる。 さらに,tl-ssganを併用した弱い教師付き学習フレームワークとその性能向上手法を提案し,教師付き学習と同等の亀裂識別性能を維持しつつ,必要なラベル付きサンプル数を大幅に削減した。

Compared with contact detection techniques, pavement crack identification with visual images via deep learning algorithms has the advantages of not being limited by the material of object to be detected, fast speed and low cost. The fundamental frameworks and typical model architectures of transfer learning (TL), encoder-decoder (ED), generative adversarial networks (GAN), and their common modules were first reviewed, and then the evolution of convolutional neural network (CNN) backbone models and GAN models were summarized. The crack classification, segmentation performance, and effect were tested on the SDNET2018 and CFD public data sets. In the aspect of patch sample classification, the fine-tuned TL models can be equivalent to or even slightly better than the ED models in accuracy, and the predicting time is faster; In the aspect of accurate crack location, both ED and GAN algorithms can achieve pixel-level segmentation and is expected to be detected in real time on low computing power platform. Furthermore, a weakly supervised learning framework of combined TL-SSGAN and its performance enhancement measures are proposed, which can maintain comparable crack identification performance with that of the supervised learning, while greatly reducing the number of labeled samples required.
翻訳日:2021-12-21 15:22:51 公開日:2021-12-20
# 単語と文字の間:NLPにおけるオープン語彙モデリングとトークン化の略歴

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP ( http://arxiv.org/abs/2112.10508v1 )

ライセンス: Link先を確認
Sabrina J. Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey, Matthias Gall\'e, Arun Raja, Chenglei Si, Wilson Y. Lee, Beno\^it Sagot, Samson Tan(参考訳) モデル化したいテキストの単位は何ですか? バイトからマルチワード表現まで、テキストは分析され、多くの粒度で生成される。 最近まで、ほとんどの自然言語処理(NLP)モデルは単語上で動作し、それらを離散的でアトミックなトークンとして扱うが、バイトペア符号化(BPE)から始まるサブワードベースのアプローチは、多くの領域で支配的になり、高速な推論が可能になった。 ロードキャラクタレベルモデルやバイトレベルの処理は終わりますか? 本研究では、単語と文字のハイブリッドアプローチと、学習されたセグメンテーションに基づくサブワードベースのアプローチがいかに提案され、評価されているかを示すことにより、前神経系および神経系時代のいくつかの作業線を接続する。 すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ず、トークン化について真剣に考えることは、多くのアプリケーションにとって重要であると結論付けている。

What are the units of text that we want to model? From bytes to multi-word expressions, text can be analyzed and generated at many granularities. Until recently, most natural language processing (NLP) models operated over words, treating those as discrete and atomic tokens, but starting with byte-pair encoding (BPE), subword-based approaches have become dominant in many areas, enabling small vocabularies while still allowing for fast inference. Is the end of the road character-level model or byte-level processing? In this survey, we connect several lines of work from the pre-neural and neural era, by showing how hybrid approaches of words and characters as well as subword-based approaches based on learned segmentation have been proposed and evaluated. We conclude that there is and likely will never be a silver bullet singular solution for all applications and that thinking seriously about tokenization remains important for many applications.
翻訳日:2021-12-21 15:22:26 公開日:2021-12-20
# リンク予測のための低次元知識グラフ埋め込みの自己注意提示

Self-attention Presents Low-dimensional Knowledge Graph Embeddings for Link Prediction ( http://arxiv.org/abs/2112.10644v1 )

ライセンス: Link先を確認
Peyman Baghershahi, Reshad Hosseini, Hadi Moradi(参考訳) 近年,知識グラフ補完としても知られるリンク予測問題は,多くの研究を惹きつけている。 知識グラフを低次元に埋め込むことで比較的優れた性能を達成しようとする最近のモデルはほとんどないが、現在の最先端モデルの最良の結果は、埋め込みの次元を著しく増大させるコストで得られる。 しかし、これは過剰フィッティングを引き起こし、巨大な知識ベースの場合、より重要なスケーラビリティの問題を引き起こす。 本稿では,トランスフォーマーモデルの変種による近年の深層学習の進歩に触発されて,前述の制限に対応するためのモデルを提案する。 私たちのモデルでは、クエリ依存射影をエンティティやリレーションに適用し、それらの間の相互情報を取り込んで低次元埋め込みから表現力の高い表現を得るための鍵となる。 2つの標準リンク予測データセットであるFB15k-237とWN18RRの実証的な結果から、我々のモデルは、最新の3つの最先端の競合よりも好適に、あるいは優れた性能を達成でき、平均的な埋め込み次元は76.3%減少した。

Recently, link prediction problem, also known as knowledge graph completion, has attracted lots of researches. Even though there are few recent models tried to attain relatively good performance by embedding knowledge graphs in low dimensions, the best results of the current state-of-the-art models are earned at the cost of considerably increasing the dimensionality of embeddings. However, this causes overfitting and more importantly scalability issues in case of huge knowledge bases. Inspired by the recent advances in deep learning offered by variants of the Transformer model, because of its self-attention mechanism, in this paper we propose a model based on it to address the aforementioned limitation. In our model, self-attention is the key to applying query-dependant projections to entities and relations, and capturing the mutual information between them to gain highly expressive representations from low-dimensional embeddings. Empirical results on two standard link prediction datasets, FB15k-237 and WN18RR, demonstrate that our model achieves favorably comparable or better performance than our three best recent state-of-the-art competitors, with a significant reduction of 76.3% in the dimensionality of embeddings on average.
翻訳日:2021-12-21 15:18:39 公開日:2021-12-20
# (参考訳) RvS: 監視学習によるオフラインRLには何が必要か? [全文訳有]

RvS: What is Essential for Offline RL via Supervised Learning? ( http://arxiv.org/abs/2112.10751v1 )

ライセンス: CC BY 4.0
Scott Emmons, Benjamin Eysenbach, Ilya Kostrikov, Sergey Levine(参考訳) 近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。 いつこれが真実で、どのアルゴリズムコンポーネントが必要なのか? 広範囲な実験を通じて、オフラインRLのための教師あり学習を、その重要な要素へと導いていく。 いずれの環境においても,2層フィードフォワード MLP による可能性の最大化は,TD 学習や Transformer を用いたシーケンスモデリングに基づく,より複雑な手法による最先端の結果と競合する。 モデルのキャパシティ(例えば、正規化やアーキテクチャ)を慎重に選択し、どの情報(例えば、目標や報酬)がパフォーマンスにとって重要であるかを選択する。 これらの洞察は、強化学習を行う実践者("RvS Learning"とよばれる)のためのフィールドガイドとして役立ちます。 彼らはまた、ランダムデータに比較的弱い既存のRvS法の限界を探索し、多くの未解決問題を提案する。

Recent work has shown that supervised learning alone, without temporal difference (TD) learning, can be remarkably effective for offline RL. When does this hold true, and which algorithmic components are necessary? Through extensive experiments, we boil supervised learning for offline RL down to its essential elements. In every environment suite we consider, simply maximizing likelihood with a two-layer feedforward MLP is competitive with state-of-the-art results of substantially more complex methods based on TD learning or sequence modeling with Transformers. Carefully choosing model capacity (e.g., via regularization or architecture) and choosing which information to condition on (e.g., goals or rewards) are critical for performance. These insights serve as a field guide for practitioners doing Reinforcement Learning via Supervised Learning (which we coin "RvS learning"). They also probe the limits of existing RvS methods, which are comparatively weak on random data, and suggest a number of open problems.
翻訳日:2021-12-21 15:16:40 公開日:2021-12-20
# ビデオインスタンス分割のためのMask2Former

Mask2Former for Video Instance Segmentation ( http://arxiv.org/abs/2112.10764v1 )

ライセンス: Link先を確認
Bowen Cheng and Anwesa Choudhuri and Ishan Misra and Alexander Kirillov and Rohit Girdhar and Alexander G. Schwing(参考訳) Mask2Formerはまた、アーキテクチャや損失、さらにはトレーニングパイプラインを変更することなく、ビデオインスタンスセグメンテーションにおける最先端のパフォーマンスを実現している。 本稿では,3次元セグメント化ボリュームを直接予測することにより,映像セグメント化を自明に一般化するユニバーサル画像セグメント化アーキテクチャについて述べる。 具体的には、Mask2FormerはYouTubeVIS-2019で60.4 AP、YouTubeVIS-2021で52.6 APの最先端を新たに設定している。 Mask2Formerは、画像セグメンテーションの汎用性から、ビデオセグメンテーションやパノプティクスセグメンテーションも扱えると考えている。 これにより、最先端のビデオセグメンテーション研究がよりアクセスしやすくなり、ユニバーサルなイメージとビデオセグメンテーションアーキテクチャの設計により多くの注目を集めることを期待している。

We find Mask2Former also achieves state-of-the-art performance on video instance segmentation without modifying the architecture, the loss or even the training pipeline. In this report, we show universal image segmentation architectures trivially generalize to video segmentation by directly predicting 3D segmentation volumes. Specifically, Mask2Former sets a new state-of-the-art of 60.4 AP on YouTubeVIS-2019 and 52.6 AP on YouTubeVIS-2021. We believe Mask2Former is also capable of handling video semantic and panoptic segmentation, given its versatility in image segmentation. We hope this will make state-of-the-art video segmentation research more accessible and bring more attention to designing universal image and video segmentation architectures.
翻訳日:2021-12-21 14:56:50 公開日:2021-12-20
# 実験データに隠れた状態変数の発見

Discovering State Variables Hidden in Experimental Data ( http://arxiv.org/abs/2112.10755v1 )

ライセンス: Link先を確認
Boyuan Chen, Kuang Huang, Sunand Raghupathi, Ishaan Chandratreya, Qiang Du, Hod Lipson(参考訳) すべての物理法則は、関連する系力学の完全かつ非冗長な記述を与える状態変数間の関係として記述される。 しかし、コンピュータパワーとAIの普及にもかかわらず、隠れた状態変数を識別するプロセスは自動化に抵抗している。 物理現象をモデル化するためのデータ駆動手法の多くは、観測されたデータストリームが既に関連する状態変数に対応していると仮定している。 重要な課題は、高次元の観測データのみを与えられた状態変数のセットをスクラッチから識別することである。 本稿では,ビデオストリームから直接,観測されたシステムの状態変数の数と,その変数が何であるかを決定するための新しい原理を提案する。 本研究では, 弾性二重振り子から火炎まで, 様々な力学系の映像記録を用いて, この手法の有効性を実証する。 基礎となる物理の事前知識がなければ、我々のアルゴリズムは観測された力学の固有次元を発見し、状態変数の候補集合を同定する。 このアプローチは、ますます複雑なシステムの理解、予測、制御を促進するのに役立つと提案する。 プロジェクトウェブサイト https://www.cs.colum bia.edu/~bchen/neura l-state-variables

All physical laws are described as relationships between state variables that give a complete and non-redundant description of the relevant system dynamics. However, despite the prevalence of computing power and AI, the process of identifying the hidden state variables themselves has resisted automation. Most data-driven methods for modeling physical phenomena still assume that observed data streams already correspond to relevant state variables. A key challenge is to identify the possible sets of state variables from scratch, given only high-dimensional observational data. Here we propose a new principle for determining how many state variables an observed system is likely to have, and what these variables might be, directly from video streams. We demonstrate the effectiveness of this approach using video recordings of a variety of physical dynamical systems, ranging from elastic double pendulums to fire flames. Without any prior knowledge of the underlying physics, our algorithm discovers the intrinsic dimension of the observed dynamics and identifies candidate sets of state variables. We suggest that this approach could help catalyze the understanding, prediction and control of increasingly complex systems. Project website is at: https://www.cs.colum bia.edu/~bchen/neura l-state-variables
翻訳日:2021-12-21 14:56:21 公開日:2021-12-20
# 共用テキスト分類と合理的抽出のための統一モデル説明可能性とロバスト性

Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extraction ( http://arxiv.org/abs/2112.10424v1 )

ライセンス: Link先を確認
Dongfang Li, Baotian Hu, Qingcai Chen, Tujie Xu, Jingcong Tao, Yunan Zhang(参考訳) 最近の研究では、説明可能性と頑健性が信頼性と信頼性の高いテキスト分類の重要な2つの要素であることが示されている。 しかし、以前の作品は通常2つの側面のうちの1つに対処する。 一 予測に有益でありながら説明可能性の正確な根拠を抽出する方法 二 予測モデルを、異なる種類の敵の攻撃に対して頑健にする方法。 直感的には、有益な説明を生成するモデルは、説明を出力するモデルを信頼できないが、小さな摂動の下で予測を変更するため、敵攻撃に対してより堅牢であるべきである。 そこで本研究では,AT-BMCという共同分類と合理的抽出モデルを提案する。 混合逆行訓練(AT)は、モデルの堅牢性を改善するために離散的および埋め込み空間における様々な摂動を利用するように設計されており、境界マッチング制約(BMC)は境界情報のガイダンスによりより正確に有理性を見つけるのに役立つ。 ベンチマークデータセットのパフォーマンスは、提案されたAT-BMCが、大きなマージンによる分類と合理性抽出の両方のベースラインを上回っていることを示している。 ロバストネス分析の結果,提案したAT-BMCは攻撃成功率を69%まで効果的に低下させることがわかった。 実験結果は、ロバストモデルとより良い説明の間に関係があることを示唆している。

Recent works have shown explainability and robustness are two crucial ingredients of trustworthy and reliable text classification. However, previous works usually address one of two aspects: i) how to extract accurate rationales for explainability while being beneficial to prediction; ii) how to make the predictive model robust to different types of adversarial attacks. Intuitively, a model that produces helpful explanations should be more robust against adversarial attacks, because we cannot trust the model that outputs explanations but changes its prediction under small perturbations. To this end, we propose a joint classification and rationale extraction model named AT-BMC. It includes two key mechanisms: mixed Adversarial Training (AT) is designed to use various perturbations in discrete and embedding space to improve the model's robustness, and Boundary Match Constraint (BMC) helps to locate rationales more precisely with the guidance of boundary information. Performances on benchmark datasets demonstrate that the proposed AT-BMC outperforms baselines on both classification and rationale extraction by a large margin. Robustness analysis shows that the proposed AT-BMC decreases the attack success rate effectively by up to 69%. The empirical results indicate that there are connections between robust models and better explanations.
翻訳日:2021-12-21 14:55:12 公開日:2021-12-20
# エキスパートの混在による効率的な大規模言語モデリング

Efficient Large Scale Language Modeling with Mixtures of Experts ( http://arxiv.org/abs/2112.10684v1 )

ライセンス: Link先を確認
Mikel Artetxe, Shruti Bhosale, Naman Goyal, Todor Mihaylov, Myle Ott, Sam Shleifer, Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth Pasunuru, Giri Anantharaman, Xian Li, Shuohui Chen, Halil Akin, Mandeep Baines, Louis Martin, Xing Zhou, Punit Singh Koura, Brian O'Horo, Jeff Wang, Luke Zettlemoyer, Mona Diab, Zornitsa Kozareva, Ves Stoyanov(参考訳) エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。 本稿では,自己回帰型moe言語モデルが,ドメイン内および領域外言語モデリング,ゼロおよびマイナショットプライミング,完全な微調整など,幅広い設定における密集したモデルと比較してどのようにスケールするかに関する詳細な実証研究を行う。 微調整を除けば、moesの計算効率は大幅に向上しています。 より控えめなトレーニング予算では、MoEsは$\sim$4の計算量で高密度モデルのパフォーマンスにマッチする。 このギャップはスケールで狭まるが、我々の最大のMoEモデル(1.1Tパラメータ)は、計算等価密度モデル(6.7Bパラメータ)よりも一貫して優れている。 全体として、このパフォーマンスギャップはタスクやドメインによって大きく異なり、MoEと高密度モデルが将来の研究に値する方法で異なる一般化をすることを示唆している。 コードとモデルを研究用に公開しています。

Mixture of Experts layers (MoEs) enable efficient scaling of language models through conditional computation. This paper presents a detailed empirical study of how autoregressive MoE language models scale in comparison with dense models in a wide range of settings: in- and out-of-domain language modeling, zero- and few-shot priming, and full fine-tuning. With the exception of fine-tuning, we find MoEs to be substantially more compute efficient. At more modest training budgets, MoEs can match the performance of dense models using $\sim$4 times less compute. This gap narrows at scale, but our largest MoE model (1.1T parameters) consistently outperforms a compute-equivalent dense model (6.7B parameters). Overall, this performance gap varies greatly across tasks and domains, suggesting that MoE and dense models generalize differently in ways that are worthy of future study. We make our code and models publicly available for research use.
翻訳日:2021-12-21 14:31:01 公開日:2021-12-20
# (参考訳) 最適輸送蒸留による言語教師付きゼロショット認識 [全文訳有]

Data Efficient Language-supervised Zero-shot Recognition with Optimal Transport Distillation ( http://arxiv.org/abs/2112.09445v2 )

ライセンス: CC BY 4.0
Bichen Wu, Ruizhe Cheng, Peizhao Zhang, Peter Vajda, Joseph E. Gonzalez(参考訳) 従来のコンピュータビジョンモデルは、予め定義されたカテゴリの固定セットを予測するように訓練される。 近年、自然言語は、監督された「ゴールド」ラベルよりも視覚的概念に詳細な記述を提供する、より広範にリッチな監督源であることが示されている。 CLIPのような以前の作業では、InfoNCE損失を使用して、イメージとテキストキャプションのペアリングを予測するモデルをトレーニングしている。 しかしclipはデータに飢えており、トレーニングには画像とテキストのペアが400万以上必要だ。 非効率性は、画像とテキストのペアがノイズであるという事実によって部分的に説明できる。 そこで本研究では,オンラインエントロピー最適化トランスポートを用いたotter(optimal transport distillation for efficient zero-shot recognition)を提案する。 事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。 InfoNCEの損失、ラベルのスムーズ化、知識の蒸留と比較すると、OTTERは、Tencent ML-ImagesのGoogle Open Images (19,958クラス)とマルチラベルのImageNet 10K (10032クラス)のゼロショット評価において、これらのベースラインを一貫して上回っている。 7つの異なるデータセット/アーキテクチャ設定 x 6 メトリクス、OTTER のパフォーマンス (32) または ties (2) に関する42以上の評価。

Traditional computer vision models are trained to predict a fixed set of predefined categories. Recently, natural language has been shown to be a broader and richer source of supervision that provides finer descriptions to visual concepts than supervised "gold" labels. Previous works, such as CLIP, use InfoNCE loss to train a model to predict the pairing between images and text captions. CLIP, however, is data hungry and requires more than 400M image-text pairs for training. The inefficiency can be partially attributed to the fact that the image-text pairs are noisy. To address this, we propose OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition), which uses online entropic optimal transport to find a soft image-text match as labels for contrastive learning. Based on pretrained image and text encoders, models trained with OTTER achieve strong performance with only 3M image text pairs. Compared with InfoNCE loss, label smoothing, and knowledge distillation, OTTER consistently outperforms these baselines in zero shot evaluation on Google Open Images (19,958 classes) and multi-labeled ImageNet 10K (10032 classes) from Tencent ML-Images. Over 42 evaluations on 7 different dataset/architecture settings x 6 metrics, OTTER outperforms (32) or ties (2) all baselines in 34 of them.
翻訳日:2021-12-21 11:46:11 公開日:2021-12-20