このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211226となっている論文です。

PDF登録状況(公開日: 20211226)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 両面プラットフォームにおける公正な勧告に向けて

Towards Fair Recommendation in Two-Sided Platforms ( http://arxiv.org/abs/2201.01180v1 )

ライセンス: CC BY 4.0
Arpita Biswas, Gourab K Patro, Niloy Ganguly, Krishna P. Gummadi, Abhijnan Chakraborty(参考訳) 現在、多くのオンラインプラットフォーム(Amazon、Netflix、Spotify、LinkedIn、AirBnBなど)は、生産者や商品やサービスの顧客との双方向市場と見なすことができる。 従来のレコメンデーションサービスは、個々の顧客の好みに応じて結果を調整することで、顧客満足度を最大化することに注力してきた。 しかし,今回の調査は,このような顧客中心のデザインが生産者への不公平な露出を招き,その幸福感に悪影響を及ぼす可能性があることを裏付けるものである。 一方、純粋な生産中心のデザインは顧客にとって不公平になるかもしれない。 生活を支えるためのプラットフォームによって人が増えているため、生産者と顧客の両方に公平性を確保することが重要である。 本研究は, 公平なパーソナライズドレコメンデーション問題を, かなり分別不能な商品を割り当てる問題の制約付きバージョンにマッピングすることで, 双方に公平性を保証することを提案する。 正式には、提案アルゴリズムは、生産者に対する露出のMaxi-Min Share(\alpha$-MMS)を保証し、顧客に対するEvy-Free to One Item(EF1)フェアネスを保証します。 複数の実世界のデータセットに対する広範囲な評価は、全体的なレコメンデーション品質を損なうことなく、両面のフェアネスを確保するために {\em FairRec} の有効性を示している。 最後に,fairrec (fairrecplus) の修正を行い,計算時間の追加を犠牲にして,顧客へのレコメンデーション性能の向上を図るとともに,同じフェアネス保証を維持した。

Many online platforms today (such as Amazon, Netflix, Spotify, LinkedIn, and AirBnB) can be thought of as two-sided markets with producers and customers of goods and services. Traditionally, recommendation services in these platforms have focused on maximizing customer satisfaction by tailoring the results according to the personalized preferences of individual customers. However, our investigation reinforces the fact that such customer-centric design of these services may lead to unfair distribution of exposure to the producers, which may adversely impact their well-being. On the other hand, a pure producer-centric design might become unfair to the customers. As more and more people are depending on such platforms to earn a living, it is important to ensure fairness to both producers and customers. In this work, by mapping a fair personalized recommendation problem to a constrained version of the problem of fairly allocating indivisible goods, we propose to provide fairness guarantees for both sides. Formally, our proposed {\em FairRec} algorithm guarantees Maxi-Min Share ($\alpha$-MMS) of exposure for the producers, and Envy-Free up to One Item (EF1) fairness for the customers. Extensive evaluations over multiple real-world datasets show the effectiveness of {\em FairRec} in ensuring two-sided fairness while incurring a marginal loss in overall recommendation quality. Finally, we present a modification of FairRec (named as FairRecPlus) that at the cost of additional computation time, improves the recommendation performance for the customers, while maintaining the same fairness guarantees.
翻訳日:2022-01-09 15:12:21 公開日:2021-12-26
# (参考訳) 人工知能による電子熱管理の最近の動向 [全文訳有]

Recent Trends in Artificial Intelligence-inspire d Electronic Thermal Management ( http://arxiv.org/abs/2112.14837v1 )

ライセンス: CC BY 4.0
Aviral Chharia, Nishi Mehta, Shivam Gupta, Shivam Prajapati(参考訳) 近年, 熱管理における計算手法の台頭が注目されているのは, 深層学習による複雑な「物理」問題の解き方であり, 従来の手法ではアプローチが困難である。 電子システムでは過熱や燃焼を防ぎ、効率と寿命を高めるために熱管理が必要である。 長い間、電子機器の熱管理を支援するために数値技術が用いられてきた。 しかし、いくつかの制限がある。 従来の数値手法の有効性を高め、従来の手法で直面した欠点に対処するため、研究者は熱管理プロセスの様々な段階における人工知能の利用を検討した。 本研究では,「電子的」熱管理分野におけるディープラーニングの現状について詳細に述べる。

The rise of computation-based methods in thermal management has gained immense attention in recent years due to the ability of deep learning to solve complex 'physics' problems, which are otherwise difficult to be approached using conventional techniques. Thermal management is required in electronic systems to keep them from overheating and burning, enhancing their efficiency and lifespan. For a long time, numerical techniques have been employed to aid in the thermal management of electronics. However, they come with some limitations. To increase the effectiveness of traditional numerical approaches and address the drawbacks faced in conventional approaches, researchers have looked at using artificial intelligence at various stages of the thermal management process. The present study discusses in detail, the current uses of deep learning in the domain of 'electronic' thermal management.
翻訳日:2022-01-09 15:10:40 公開日:2021-12-26
# 都市エアモビリティ(UAM)における乱流予測のための無線型非同期フェデレーションフーリエニューラルネットワーク

Wireless-Enabled Asynchronous Federated Fourier Neural Network for Turbulence Prediction in Urban Air Mobility (UAM) ( http://arxiv.org/abs/2201.00626v1 )

ライセンス: Link先を確認
Tengchan Zeng, Omid Semiari, Walid Saad, Mehdi Bennis(参考訳) 都市内交通における移動性の増大に対応するため,垂直離着陸機(VTOL)を配車サービスとして利用する都市空力(UAM)の概念が提案されている。 UAMでは、航空機はエアロドロムを繋ぐ廊下として知られる指定空域で運用することができる。 GBSと航空機間の信頼性の高い通信網により、UAMは空域を適切に利用し、高速で効率的で安全な輸送システムを構築することができる。 本稿では,UAMの無線接続性能を特徴付けるために,空間モデルを提案する。 このセットアップでは、任意選択されたGBSとその関連する航空機間の距離の分布と、GBSが経験した干渉のラプラス変換を導出する。 これらの結果から,UAM航空機と地上通信網の接続性能を把握するために,信号対干渉比(SIR)に基づく接続確率を決定する。 次に、これらの接続結果を利用して、フーリエニューラルネットワークを用いた無線対応非同期フェデレーション学習(AFL)フレームワークを提案し、UAM操作時の乱流予測の課題に取り組む。 このAFLスキームでは,UAM航空機の最適乱流予測モデルへの収束を早めるため,安定度を考慮したグローバルアグリゲーションスキームが導入された。 シミュレーション結果は、UAM無線接続の理論的導出を検証する。 また,提案したAFLフレームワークは,同期型フェデレーション学習ベースラインや安定化のないAFLアプローチよりも高速に,最適な乱流予測モデルに収束することを示した。 さらに,無線接続性能と航空機の乱流モデルのパラメータ設定による収束特性を特徴付け,UAM設計ガイドラインを提供する。

To meet the growing mobility needs in intra-city transportation, the concept of urban air mobility (UAM) has been proposed in which vertical takeoff and landing (VTOL) aircraft are used to provide a ride-hailing service. In UAM, aircraft can operate in designated air spaces known as corridors, that link the aerodromes. A reliable communication network between GBSs and aircraft enables UAM to adequately utilize the airspace and create a fast, efficient, and safe transportation system. In this paper, to characterize the wireless connectivity performance for UAM, a spatial model is proposed. For this setup, the distribution of the distance between an arbitrarily selected GBS and its associated aircraft and the Laplace transform of the interference experienced by the GBS are derived. Using these results, the signal-to-interferen ce ratio (SIR)-based connectivity probability is determined to capture the connectivity performance of the UAM aircraft-to-ground communication network. Then, leveraging these connectivity results, a wireless-enabled asynchronous federated learning (AFL) framework that uses a Fourier neural network is proposed to tackle the challenging problem of turbulence prediction during UAM operations. For this AFL scheme, a staleness-aware global aggregation scheme is introduced to expedite the convergence to the optimal turbulence prediction model used by UAM aircraft. Simulation results validate the theoretical derivations for the UAM wireless connectivity. The results also demonstrate that the proposed AFL framework converges to the optimal turbulence prediction model faster than the synchronous federated learning baselines and a staleness-free AFL approach. Furthermore, the results characterize the performance of wireless connectivity and convergence of the aircraft's turbulence model under different parameter settings, offering useful UAM design guidelines.
翻訳日:2022-01-09 13:30:29 公開日:2021-12-26
# 限られた資源を持つ超大グラフ上のKコア分解

K-Core Decomposition on Super Large Graphs with Limited Resources ( http://arxiv.org/abs/2112.14840v1 )

ライセンス: Link先を確認
Shicheng Gao, Jie Xu, Xiaosen Li, Fangcheng Fu, Wentao Zhang, Wen Ouyang, Yangyu Tao, Bin Cui(参考訳) Kコア分解は、グラフ構造を分析したり、複雑なグラフにおけるノードの相対的重要性を研究するために一般的に用いられる計量である。 近年、グラフの規模は急速に拡大しており、特に工業環境では顕著である。 例えば、当社の産業パートナーは数十億のユーザを持つポピュラーなソーシャルアプリケーションを実行し、豊富なユーザデータを集めることができます。 その結果、Kコア分解を大きなグラフに適用することは、学者や業界からますます注目を集めている。 大規模なグラフを扱うための単純で効果的な方法は、分散環境でそれらを訓練することであり、分散Kコア分解アルゴリズムも提案されている。 有効性にもかかわらず、これらのアルゴリズムはあまりに多くの資源を消費しすぎ、特に与えられた資源が制限された場合、超大規模グラフ上で不安定になることを実験的に理論的に観察する。 本稿では,これらの超大規模グラフに対処し,分散Kコア分解アルゴリズム上での分割・分散戦略を提案する。 3つの大きなグラフに対する我々のアプローチを評価する。 実験結果から, 資源消費は著しく減少し, 大規模グラフの計算は既存手法よりも安定であることが示唆された。 例えば、分散Kコア分解アルゴリズムは136億のエッジを持つ大きなグラフにスケールすることができる。

K-core decomposition is a commonly used metric to analyze graph structure or study the relative importance of nodes in complex graphs. Recent years have seen rapid growth in the scale of the graph, especially in industrial settings. For example, our industrial partner runs popular social applications with billions of users and is able to gather a rich set of user data. As a result, applying K-core decomposition on large graphs has attracted more and more attention from academics and the industry. A simple but effective method to deal with large graphs is to train them in the distributed settings, and some distributed K-core decomposition algorithms are also proposed. Despite their effectiveness, we experimentally and theoretically observe that these algorithms consume too many resources and become unstable on super-large-scale graphs, especially when the given resources are limited. In this paper, we deal with those super-large-scale graphs and propose a divide-and-conquer strategy on top of the distributed K-core decomposition algorithm. We evaluate our approach on three large graphs. The experimental results show that the consumption of resources can be significantly reduced, and the calculation on large-scale graphs becomes more stable than the existing methods. For example, the distributed K-core decomposition algorithm can scale to a large graph with 136 billion edges without losing correctness with our divide-and-conquer technique.
翻訳日:2022-01-09 13:29:37 公開日:2021-12-26
# (参考訳) 安全クリティカルな自動運転車のための並列・ランダムな対向模倣学習 [全文訳有]

Parallelized and Randomized Adversarial Imitation Learning for Safety-Critical Self-Driving Vehicles ( http://arxiv.org/abs/2112.14710v1 )

ライセンス: CC BY 4.0
Won Joon Yun, MyungJae Shin, Soyi Jung, Sean Kwon, and Joongheon Kim(参考訳) 自動運転車と自動運転の研究は、現代の人工知能の応用において大きな期待を抱いている。 高度運転支援システム(ADAS)の進化により、自動運転車と自律運転システムの設計は複雑で安全性に欠かせないものとなる。 一般に、インテリジェントシステムはADAS機能を同時にかつ効率的に活性化する。 したがって、運転システムを安全に制御するために、信頼性の高いADAS機能連携を検討することが不可欠である。 この問題に対処するため,本稿では,ランダムな対逆模倣学習(RAIL)アルゴリズムを提案する。 このレールは、様々なadas関数が協調する自律運転のための新しいデリバティブフリー模倣学習手法であり、様々なadas関数による自律運転を制御する意思決定者の操作を模倣する。 提案手法は, LIDARデータを扱う意思決定者を訓練し, 多車線複合高速道路環境における自律走行を制御できる。 シミュレーションに基づく評価により,提案手法が望ましい性能が得られることを確認した。

Self-driving cars and autonomous driving research has been receiving considerable attention as major promising prospects in modern artificial intelligence applications. According to the evolution of advanced driver assistance system (ADAS), the design of self-driving vehicle and autonomous driving systems becomes complicated and safety-critical. In general, the intelligent system simultaneously and efficiently activates ADAS functions. Therefore, it is essential to consider reliable ADAS function coordination to control the driving system, safely. In order to deal with this issue, this paper proposes a randomized adversarial imitation learning (RAIL) algorithm. The RAIL is a novel derivative-free imitation learning method for autonomous driving with various ADAS functions coordination; and thus it imitates the operation of decision maker that controls autonomous driving with various ADAS functions. The proposed method is able to train the decision maker that deals with the LIDAR data and controls the autonomous driving in multi-lane complex highway environments. The simulation-based evaluation verifies that the proposed method achieves desired performance.
翻訳日:2021-12-31 09:05:30 公開日:2021-12-26
# 逆学習による都市構成再構築のための都市計画の自動化:定量化, 生成, 評価

Automated Urban Planning for Reimagining City Configuration via Adversarial Learning: Quantification, Generation, and Evaluation ( http://arxiv.org/abs/2112.14699v1 )

ライセンス: Link先を確認
Dongjie Wang, Yanjie Fu, Kunpeng Liu, Fanglan Chen, Pengyang Wang, Chang-Tien Lu(参考訳) 都市計画とは、地域ごとに土地利用形態を設計すること。 しかし、効果的な都市計画を得るためには、都市の専門家はドメイン知識と個人経験に基づく高度な計画制約の分析に多くの時間と労力を費やす必要がある。 それらの重荷を軽減し、一貫した都市計画を創出するために、AIが都市計画プロセスを加速し、人間のプランナーが特定のニーズのために生成された構成を調整できるようにしたいと考えている。 近年の深層生成モデルの発展は, 都市計画の自動化を, 敵対的学習の観点から促す可能性がある。 しかし、大きな課題は3つある。 1) 量的土地利用構成をどう定義するか。 2) 構成計画を自動化するには? 3) 生成した構成の品質を評価するには? 本稿では,3つの課題を体系的に解決する。 具体的には 1) 土地利用構成を経度チャネルテンソルとして定義する。 2) 都市計画の自動解法を, 深層学習の課題として定式化する。 目的は、対象領域の周囲コンテキストが与えられた構成テンソルを生成することである。 3)定量的評価指標を提供し,フレームワークの有効性を実証するための広範な実験を行う。

Urban planning refers to the efforts of designing land-use configurations given a region. However, to obtain effective urban plans, urban experts have to spend much time and effort analyzing sophisticated planning constraints based on domain knowledge and personal experiences. To alleviate the heavy burden of them and produce consistent urban plans, we want to ask that can AI accelerate the urban planning process, so that human planners only adjust generated configurations for specific needs? The recent advance of deep generative models provides a possible answer, which inspires us to automate urban planning from an adversarial learning perspective. However, three major challenges arise: 1) how to define a quantitative land-use configuration? 2) how to automate configuration planning? 3) how to evaluate the quality of a generated configuration? In this paper, we systematically address the three challenges. Specifically, 1) We define a land-use configuration as a longitude-latitude-c hannel tensor. 2) We formulate the automated urban planning problem into a task of deep generative learning. The objective is to generate a configuration tensor given the surrounding contexts of a target region. 3) We provide quantitative evaluation metrics and conduct extensive experiments to demonstrate the effectiveness of our framework.
翻訳日:2021-12-30 16:12:18 公開日:2021-12-26
# 時系列データマイニングアルゴリズムによるスケーラブル・リアルタイム行動モニタリング

Time Series Data Mining Algorithms Towards Scalable and Real-Time Behavior Monitoring ( http://arxiv.org/abs/2112.14630v1 )

ライセンス: Link先を確認
Alireza Abdoli(参考訳) 近年、センサー技術に先例のない技術進歩が見られ、センサはこれまでになく手頃な価格になった。 このように、センサー駆動のデータ収集は、世界中の研究者にとって魅力的で実用的な選択肢になりつつある。 このようなデータは典型的には時系列データとして抽出され、データマイニング技術を用いて人間や動物を含む様々な被験者の行動を要約することができる。 安価で大規模なデータの収集を可能にする一方で、連続センサーのデータ記録は、サイズとボリュームの大きいデータセットをタイムリーに処理し分析することが難しい。 このような収集されたセンサデータは典型的には時系列データとして抽出される。 文献には2つの主要なアプローチ、すなわち形状に基づく分類と特徴に基づく分類がある。 形状に基づく分類は、距離測度に応じて最良クラスを決定する。 一方、特徴に基づく分類は、時系列の特性を測定し、時系列で定義された特徴の集合に従って最適なクラスを見つける。 この論文では、どちらの手法もいくつかの問題では支配的ではないが、両者の組み合わせが最善であることを示す。 言い換えれば、1つの問題において、あるテクニックが1つの振る舞いのサブセットに、もう1つのテクニックが別の振る舞いのサブセットに、より良いかもしれないということです。 本研究では,センサから収集した弱ラベル時系列データを用いて,形状と特徴量の両方を用いて行動の分類を行うハイブリッドアルゴリズムを提案する。 本アルゴリズムは,形状と特徴の組み合わせに基づいて,実,ノイズ,複雑なデータセットをロバストに分類できることを実証し,本アルゴリズムを実世界のデータセット上でテストした。

In recent years, there have been unprecedented technological advances in sensor technology, and sensors have become more affordable than ever. Thus, sensor-driven data collection is increasingly becoming an attractive and practical option for researchers around the globe. Such data is typically extracted in the form of time series data, which can be investigated with data mining techniques to summarize behaviors of a range of subjects including humans and animals. While enabling cheap and mass collection of data, continuous sensor data recording results in datasets which are big in size and volume, which are challenging to process and analyze with traditional techniques in a timely manner. Such collected sensor data is typically extracted in the form of time series data. There are two main approaches in the literature, namely, shape-based classification and feature-based classification. Shape-based classification determines the best class according to a distance measure. Feature-based classification, on the other hand, measures properties of the time series and finds the best class according to the set of features defined for the time series. In this dissertation, we demonstrate that neither of the two techniques will dominate for some problems, but that some combination of both might be the best. In other words, on a single problem, it might be possible that one of the techniques is better for one subset of the behaviors, and the other technique is better for another subset of behaviors. We introduce a hybrid algorithm to classify behaviors, using both shape and feature measures, in weakly labeled time series data collected from sensors to quantify specific behaviors performed by the subject. We demonstrate that our algorithm can robustly classify real, noisy, and complex datasets, based on a combination of shape and features, and tested our proposed algorithm on real-world datasets.
翻訳日:2021-12-30 14:45:01 公開日:2021-12-26
# (参考訳) Miti-DETR:Mitigatory Self-Attention Convergenceを用いた変換器による物体検出 [全文訳有]

Miti-DETR: Object Detection based on Transformers with Mitigatory Self-Attention Convergence ( http://arxiv.org/abs/2112.13310v1 )

ライセンス: CC BY 4.0
Wenchi Ma, Tianxiao Zhang, Guanghui Wang(参考訳) Transformer (DETR) によるオブジェクト検出と関連する作業は、自己アテンションネットワークアーキテクチャを備えた高度に最適化された Faster-RCNN ベースラインに到達または超える。 純粋な自己着脱がネットワークの奥行きに対して表現力を失うことにつながる強い帰納的バイアスを持っているという証拠に触発されて,トランスアーキテクチャの直接マッピング接続を応用し,機能表現損失に対抗してモデル性能を向上させることによって,自己着脱機構を緩和したトランスアーキテクチャを提案する。 この提案をオブジェクト検出タスクに適用し,Miti-DETRと呼ばれるモデルを開発する。 Miti-DETRは、各注意層の入力をそのレイヤの出力に予約し、「非注意」情報がいかなる注意伝播にも参加するようにする。 生成した残余自己照応ネットワークは、(1)自己照応ネットワークがランク1に縮退するのを止め、(2)パラメータ更新の経路分布をさらに多様化し、より注意深い学習が期待できるという2つの重要な課題に対処している。 Miti-DETRはCOCOオブジェクト検出データセット上で既存のDETRモデルに対する平均検出精度と収束速度を大幅に向上させる。 さらに, 残差自己着型ネットワークを有するトランスは, 特定のカスタマイズをすることなく, 容易に一般化したり, 他の関連タスクモデルにプラグインすることができる。

Object Detection with Transformers (DETR) and related works reach or even surpass the highly-optimized Faster-RCNN baseline with self-attention network architectures. Inspired by the evidence that pure self-attention possesses a strong inductive bias that leads to the transformer losing the expressive power with respect to network depth, we propose a transformer architecture with a mitigatory self-attention mechanism by applying possible direct mapping connections in the transformer architecture to mitigate the rank collapse so as to counteract feature expression loss and enhance the model performance. We apply this proposal in object detection tasks and develop a model named Miti-DETR. Miti-DETR reserves the inputs of each single attention layer to the outputs of that layer so that the "non-attention" information has participated in any attention propagation. The formed residual self-attention network addresses two critical issues: (1) stop the self-attention networks from degenerating to rank-1 to the maximized degree; and (2) further diversify the path distribution of parameter update so that easier attention learning is expected. Miti-DETR significantly enhances the average detection precision and convergence speed towards existing DETR-based models on the challenging COCO object detection dataset. Moreover, the proposed transformer with the residual self-attention network can be easily generalized or plugged in other related task models without specific customization.
翻訳日:2021-12-29 05:44:33 公開日:2021-12-26
# (参考訳) ラベル階層を用いた雑音関係分類データの高感度再注釈 [全文訳有]

Budget Sensitive Reannotation of Noisy Relation Classification Data Using Label Hierarchy ( http://arxiv.org/abs/2112.13320v1 )

ライセンス: CC BY 4.0
Akshay Parekh, Ashish Anand, Amit Awekar(参考訳) 大きなクラウドソースデータセットはしばしば騒がしく、関係分類(rc)データセットも例外ではない。 データセット全体をリアノテートすることは1つの可能な解決策だが、時間と予算の制約のため、常に実行可能であるとは限らない。 本稿では,RC用大雑音データセットの効率的な再注釈問題に対処する。 私たちの目標は、少ないインスタンスを再注釈しながら、データセットでより多くのアノテーションエラーをキャッチすることにあります。 rc dataset reannotationの既存の作業には、リアノテートするデータの柔軟性が欠けている。 この制限を克服するために、再注釈予算の概念を導入します。 特定の再注釈予算が与えられた場合、どの部分集合に再注釈を付けるべきか? この問題に対処するために、RCデータセットを選択的に再注釈する2つの戦略を提案する。 我々の戦略は関係ラベルの分類学的階層を利用する。 私たちの研究の直感は、ラベル階層グラフの実際の関係ラベルと予測された関係ラベルの間のグラフ距離に依存することです。 我々は、よく知られたTACREDデータセット上での再アノテーション戦略を評価する。 3つの特定の研究質問に答えるために実験をデザインする。 第一に、我々の戦略は再注釈のために新しい候補を選ぶか? 第2に、所定の再アノテーション予算に対して、アノテーションエラーをキャッチするための再アノテーション戦略はより効率的か? 第三に、rcモデルの性能測定におけるデータ再注釈の影響は何か? 実験結果から,本手法は新規かつ効率的であることが示唆された。 解析の結果,騒音データに対するrcモデルの性能は増大していることがわかった。

Large crowd-sourced datasets are often noisy and relation classification (RC) datasets are no exception. Reannotating the entire dataset is one probable solution however it is not always viable due to time and budget constraints. This paper addresses the problem of efficient reannotation of a large noisy dataset for the RC. Our goal is to catch more annotation errors in the dataset while reannotating fewer instances. Existing work on RC dataset reannotation lacks the flexibility about how much data to reannotate. We introduce the concept of a reannotation budget to overcome this limitation. The immediate follow-up problem is: Given a specific reannotation budget, which subset of the data should we reannotate? To address this problem, we present two strategies to selectively reannotate RC datasets. Our strategies utilize the taxonomic hierarchy of relation labels. The intuition of our work is to rely on the graph distance between actual and predicted relation labels in the label hierarchy graph. We evaluate our reannotation strategies on the well-known TACRED dataset. We design our experiments to answer three specific research questions. First, does our strategy select novel candidates for reannotation? Second, for a given reannotation budget is our reannotation strategy more efficient at catching annotation errors? Third, what is the impact of data reannotation on RC model performance measurement? Experimental results show that our both reannotation strategies are novel and efficient. Our analysis indicates that the current reported performance of RC models on noisy TACRED data is inflated.
翻訳日:2021-12-29 05:33:48 公開日:2021-12-26
# (参考訳) MPCLeague: プライバシ保護機械学習のためのロバストなMPCプラットフォーム

MPCLeague: Robust MPC Platform for Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2112.13338v1 )

ライセンス: CC BY 4.0
Ajith Suresh(参考訳) 現代のコンピューティングにおいて、機械学習ツールは、適切な推論を導き出すために、医療や金融といった重要な分野においてその可能性を実証してきた。 このような分野におけるデータの機密性や機密性は、データプライバシに対する真の懸念を引き起こす。 これはプライバシ保護機械学習(PPML)の領域を動機付け、データのプライバシが保証される。 本論文では、セキュアマルチパーティ計算(MPC)技術を用いて、セキュアアウトソース計算(SOC)設定におけるPPMLのための効率的なプラットフォームであるMPCLeagueを設計する。 セキュア分散コンピューティングの聖杯問題であるMPCは、tの連立が出力(プライバシ)よりも多くの情報を学んだり、計算の真の出力(正確性)に影響を与えないように、n個の信頼できない当事者がプライベート入力で共同計算を行うことを可能にする。 一般的にmpcは広範な研究の対象となっているが、少数の当事者によるmpcの分野は、主にリアルタイムシナリオや効率性、シンプルさに応用され、後期に人気を集めている。 この論文は、2、3、4パーティで効率的なMPCフレームワークを設計することに焦点を当てている。 このテーマの中心には、4つのフレームワーク - ASTRA、SWIFT、Tetrad、ABY2.0 - がある。 我々のフレームワークの実用性は、広く使われているMLアルゴリズム(Linear Regression、Logistic Regression、Neural Networks、Support Vector Machines)のベンチマークの改善を通じて議論されている。 それぞれのフレームワークに対して2つのバリエーションを提案し、一方は実行時間を最小化し、もう一方は金銭的コストに焦点を当てる。 フレームワークの具体的な効率向上と堅牢性の強いセキュリティ保証が組み合わさって、当社のプラットフォームはPPML技術をリアルタイムにデプロイする上で理想的な選択肢となります。

In the modern era of computing, machine learning tools have demonstrated their potential in vital sectors, such as healthcare and finance, to derive proper inferences. The sensitive and confidential nature of the data in such sectors raises genuine concerns for data privacy. This motivated the area of Privacy-preserving Machine Learning (PPML), where privacy of data is guaranteed. In this thesis, we design an efficient platform, MPCLeague, for PPML in the Secure Outsourced Computation (SOC) setting using Secure Multi-party Computation (MPC) techniques. MPC, the holy-grail problem of secure distributed computing, enables a set of n mutually distrusting parties to perform joint computation on their private inputs in a way that no coalition of t parties can learn more information than the output (privacy) or affect the true output of the computation (correctness). While MPC, in general, has been a subject of extensive research, the area of MPC with a small number of parties has drawn popularity of late mainly due to its application to real-time scenarios, efficiency and simplicity. This thesis focuses on designing efficient MPC frameworks for 2, 3 and 4 parties, with at most one corruption and supports ring structures. At the heart of this thesis are four frameworks - ASTRA, SWIFT, Tetrad, ABY2.0 - catered to different settings. The practicality of our framework is argued through improvements in the benchmarking of widely used ML algorithms -- Linear Regression, Logistic Regression, Neural Networks, and Support Vector Machines. We propose two variants for each of our frameworks, with one variant aiming to minimise the execution time while the other focuses on the monetary cost. The concrete efficiency gains of our frameworks coupled with the stronger security guarantee of robustness make our platform an ideal choice for a real-time deployment of PPML techniques.
翻訳日:2021-12-29 05:23:07 公開日:2021-12-26
# (参考訳) ニュース記事におけるメディアバイアスの自動検出と可視化のための学際的アプローチ [全文訳有]

An Interdisciplinary Approach for the Automated Detection and Visualization of Media Bias in News Articles ( http://arxiv.org/abs/2112.13352v1 )

ライセンス: CC BY 4.0
Timo Spinde(参考訳) メディアの報道は、イベントに対する大衆の認識に大きな影響を与えている。 しかし、メディアはしばしば偏見を抱いている。 ニュース記事に偏る一つの方法は、単語の選択を変更することである。 単語選択によるバイアスの自動識別は、主に金の標準データセットの欠如と高いコンテキスト依存のため、難しい。 本研究は,メディアバイアスを識別するためのデータセットと手法を考案することを目的とする。 これを実現するために,自然言語処理と深層学習を用いて,モデルと心理学と言語学の分析概念を用いた手法の研究を行う。 最初の結果は学際的な研究手法の有効性を示している。 私のビジョンは、ニュース読者が偏見によるメディアカバレッジの違いを認識できるようにするシステムを開発することです。 これまでのところ、私の最高のBERTベースのモデルは、遠くのラベルからなるより大きなコーパスで事前訓練されており、遠方の監督がバイアス検出の難しいタスクの解決策になる可能性を示唆している。

Media coverage has a substantial effect on the public perception of events. Nevertheless, media outlets are often biased. One way to bias news articles is by altering the word choice. The automatic identification of bias by word choice is challenging, primarily due to the lack of gold-standard data sets and high context dependencies. In this research project, I aim to devise data sets and methods to identify media bias. To achieve this, I plan to research methods using natural language processing and deep learning while employing models and using analysis concepts from psychology and linguistics. The first results indicate the effectiveness of an interdisciplinary research approach. My vision is to devise a system that helps news readers become aware of media coverage differences caused by bias. So far, my best performing BERT-based model is pre-trained on a larger corpus consisting of distant labels, indicating that distant supervision has the potential to become a solution for the difficult task of bias detection.
翻訳日:2021-12-29 05:21:31 公開日:2021-12-26
# (参考訳) 電磁イメージングのためのボルニング反復法に基づく正規化訓練手法 [全文訳有]

A Trained Regularization Approach Based on Born Iterative Method for Electromagnetic Imaging ( http://arxiv.org/abs/2112.13367v1 )

ライセンス: CC BY 4.0
Abdulla Desmal(参考訳) 電磁イメージング(EMI)応用のためのトレーニングベースボルン反復法(TBIM)を開発した。 提案したTBIMはネストループで構成され,外ループはTBIM繰り返しステップを実行し,内ループはトレーニングされた反復収縮閾値アルゴリズム(TISTA)を実行する。 適用されたTISTAは、U-netアーキテクチャに基づいて設計されたトレーニングされた正規化ネットワークで実装された線形Landweberイテレーションを実行する。 TISTAトレーニングをTBIMに適用させるTISTAの正規化プロセスが導入された。 TISTAにおける正規化ネットワークの反復利用は、トレーニングプロセスを通じて高いメモリ割り当てを必要とするボトルネックである。 そのため,TBIMの各ステップのTISTAは別々に訓練された。 各TBIMステップにおけるTISTA正規化ネットワークは、前のTBIMステップの重みを使って初期化した。 以上の手法は、トレーニングプロセスを通じて低メモリ割り当てを維持しながら、TBIMステップをほとんど実行した後、高品質な画像復元を実現した。 提案したフレームワークはニュートンスキームや準ニュートンスキームに拡張することができ、ニュートン反復毎に、ある例から別の例へ異なる線形不測問題に最適化される。 本研究で示される数値結果は,従来のスパース方式のボルン反復法 (SBIM) と比較して,提案したTBIMの優位性を示している。

A trained-based Born iterative method (TBIM) is developed for electromagnetic imaging (EMI) applications. The proposed TBIM consists of a nested loop; the outer loop executes TBIM iteration steps, while the inner loop executes a trained iterative shrinkage thresholding algorithm (TISTA). The applied TISTA runs linear Landweber iterations implemented with a trained regularization network designed based on U-net architecture. A normalization process was imposed in TISTA that made TISTA training applicable within the proposed TBIM. The iterative utilization of the regularization network in TISTA is a bottleneck that demands high memory allocation through the training process. Therefore TISTA within each TBIM step was trained separately. The TISTA regularization network in each TBIM step was initialized using the weights from the previous TBIM step. The above approach achieved high-quality image restoration after running few TBIM steps while maintained low memory allocation through the training process. The proposed framework can be extended to Newton or quasi-Newton schemes, where within each Newton iteration, a linear ill-posed problem is optimized that differs from one example to another. The numerical results illustrated in this work show the superiority of the proposed TBIM compared to the conventional sparse-based Born iterative method (SBIM).
翻訳日:2021-12-29 05:01:52 公開日:2021-12-26
# (参考訳) 顧客フィードバックデータからデリバリの問題を特定する [全文訳有]

Delivery Issues Identification from Customer Feedback Data ( http://arxiv.org/abs/2112.13372v1 )

ライセンス: CC BY 4.0
Ankush Chopra, Mahima Arora, Shubham Pandey(参考訳) 何百万ものパッケージが、世界中のオンラインやローカルの小売店で毎日成功している。 顧客満足度を高め、購入を繰り返すためには、パッケージの適切な配送が必要である。 これらの配達は店の努力にもかかわらず様々な問題を抱えている。 これらの問題は、大量かつ低回転時間に対する高い需要のためだけでなく、機械的な操作や自然要因によるものである。 これらの問題はパッケージ内の間違ったアイテムの受信から出荷の遅延、輸送中の誤操作によるパッケージの破損まで多岐にわたる。 送受信双方が直面するさまざまなデリバリ問題に対する解決策を見つけることは、プロセス全体の効率を高める上で重要な役割を果たす。 本稿では,テキストコメントとアップロード画像からの顧客フィードバックを用いて,これらの問題を見つける方法を示す。 テキストモデルとイメージモデルの両方で転送学習を使用して、数千のラベル付きサンプルの需要を最小限にしました。 その結果,モデルが異なる問題を見出すことができた。 さらに、ボトルネックの特定、プロセスの改善、返金の自動化などのタスクにも使用できる。 既存のプロセスと比較して,本論文で提案するテキストと画像のアンサンブルは,小売業における商品の実際の配送シナリオに適した,いくつかのタイプの配送問題の特定を確実にするものである。 この手法は、類似産業におけるパッケージの配送における問題検出の新しいアイデアを提供することができる。

Millions of packages are delivered successfully by online and local retail stores across the world every day. The proper delivery of packages is needed to ensure high customer satisfaction and repeat purchases. These deliveries suffer various problems despite the best efforts from the stores. These issues happen not only due to the large volume and high demand for low turnaround time but also due to mechanical operations and natural factors. These issues range from receiving wrong items in the package to delayed shipment to damaged packages because of mishandling during transportation. Finding solutions to various delivery issues faced by both sending and receiving parties plays a vital role in increasing the efficiency of the entire process. This paper shows how to find these issues using customer feedback from the text comments and uploaded images. We used transfer learning for both Text and Image models to minimize the demand for thousands of labeled examples. The results show that the model can find different issues. Furthermore, it can also be used for tasks like bottleneck identification, process improvement, automating refunds, etc. Compared with the existing process, the ensemble of text and image models proposed in this paper ensures the identification of several types of delivery issues, which is more suitable for the real-life scenarios of delivery of items in retail businesses. This method can supply a new idea of issue detection for the delivery of packages in similar industries.
翻訳日:2021-12-29 04:54:52 公開日:2021-12-26
# (参考訳) FRuDA:分散 Adversarial Domain Adaptation フレームワーク [全文訳有]

FRuDA: Framework for Distributed Adversarial Domain Adaptation ( http://arxiv.org/abs/2112.13381v1 )

ライセンス: CC BY 4.0
Shaoduo Gan, Akhil Mathur, Anton Isopoussu, Fahim Kawsar, Nadia Berthouze, Nicholas Lane(参考訳) 教師なしドメイン適応(uDA)のブレークスルーは、ラベル豊富なソースドメインからラベルなしターゲットドメインへのモデル適応に役立つ。 これらの進歩にもかかわらず、uDAアルゴリズム、特に敵対的学習に基づくアルゴリズムが分散環境でどのように機能するかは研究されていない。 現実世界のアプリケーションでは、ターゲットとなるドメインは何千ものデバイスに分散されることが多い。 この重要な問題を解決するために、分散敵uDAのためのエンドツーエンドフレームワークであるFRuDAを紹介する。 uDAの文献を慎重に分析することにより,分散uDAシステムの設計目標を特定し,分散環境での逆uDAの適応精度とトレーニング効率を向上させるための2つの新しいアルゴリズムを提案する。 5つの画像・音声データセットを用いたFRuDAの評価により,対象領域の精度を最大50%向上し,少なくとも11倍の訓練効率を向上できることが示された。

Breakthroughs in unsupervised domain adaptation (uDA) can help in adapting models from a label-rich source domain to unlabeled target domains. Despite these advancements, there is a lack of research on how uDA algorithms, particularly those based on adversarial learning, can work in distributed settings. In real-world applications, target domains are often distributed across thousands of devices, and existing adversarial uDA algorithms -- which are centralized in nature -- cannot be applied in these settings. To solve this important problem, we introduce FRuDA: an end-to-end framework for distributed adversarial uDA. Through a careful analysis of the uDA literature, we identify the design goals for a distributed uDA system and propose two novel algorithms to increase adaptation accuracy and training efficiency of adversarial uDA in distributed settings. Our evaluation of FRuDA with five image and speech datasets show that it can boost target domain accuracy by up to 50% and improve the training efficiency of adversarial uDA by at least 11 times.
翻訳日:2021-12-29 04:45:14 公開日:2021-12-26
# (参考訳) 挑戦のために踊るのか? TikTokチャレンジのユーザ参加予測 [全文訳有]

Will You Dance To The Challenge? Predicting User Participation of TikTok Challenges ( http://arxiv.org/abs/2112.13384v1 )

ライセンス: CC BY 4.0
Lynnette Hui Xian Ng, John Yeh Han Tan, Darryl Jing Heng Tan, Roy Ka-Wei Lee(参考訳) TikTokは人気の高いソーシャルメディアで、ユーザーは短いビデオクリップで自分を表現できる。 プラットフォーム上でのインタラクションの一般的な形態は、ユーザが反復する曲やダンスである"challenges"に参加することである。 チャレンジ感染は、複製到達度、すなわち、ユーザがチャレンジに参加する際のビデオをアップロードすることで測定できる。 コンテンツとユーザの好みの両方が進化しているtiktokプラットフォームのユニークさは、チャレンジとユーザ表現の組み合わせを必要とする。 本稿では、ユーザの参加を予測することによって、TikTok課題の社会的伝染を調査する。 そこで本研究では,過去の映像からの潜在ユーザ表現と課題表現を学習し,組み合わせた新しいディープラーニングモデルであるdeepchallengerを提案する。 ForYouPageでは、アプリのランディングページである12のトレンド課題から7000以上のビデオと1303ユーザの10,000以上のビデオのデータセットを集めています。 その結果,提案したDeepChallenger (F1=0.494) は予測タスクにおけるベースライン (F1=0.188) より優れていた。

TikTok is a popular new social media, where users express themselves through short video clips. A common form of interaction on the platform is participating in "challenges", which are songs and dances for users to iterate upon. Challenge contagion can be measured through replication reach, i.e., users uploading videos of their participation in the challenges. The uniqueness of the TikTok platform where both challenge content and user preferences are evolving requires the combination of challenge and user representation. This paper investigates social contagion of TikTok challenges through predicting a user's participation. We propose a novel deep learning model, deepChallenger, to learn and combine latent user and challenge representations from past videos to perform this user-challenge prediction task. We collect a dataset of over 7,000 videos from 12 trending challenges on the ForYouPage, the app's landing page, and over 10,000 videos from 1303 users. Extensive experiments are conducted and the results show that our proposed deepChallenger (F1=0.494) outperforms baselines (F1=0.188) in the prediction task.
翻訳日:2021-12-29 04:13:42 公開日:2021-12-26
# (参考訳) 非マルコフ抽象を用いた一般強化学習の計画複雑性の低減 [全文訳有]

Reducing Planning Complexity of General Reinforcement Learning with Non-Markovian Abstractions ( http://arxiv.org/abs/2112.13386v1 )

ライセンス: CC BY 4.0
Sultan J. Majeed and Marcus Hutter(参考訳) 一般強化学習(GRL)の分野は、逐次意思決定の問題を根本から定式化している。 相互作用の歴史はシステムの"接地"状態を構成し、決して繰り返されない。 一方、この一般化によりGRLは、バンド、MDP、POMDP、PSR、履歴ベースの環境など、ほぼ全ての領域をモデル化できる。 一方、一般論として、GRLの準最適政策は完全な歴史の関数であり、GRLの学習だけでなく、計画も妨げている。 計画部分の通常の方法は、エージェントが基礎となるプロセスのマルコフ的抽象化を与えられることである。 したがって、任意のMDP計画アルゴリズムを使用して、ほぼ最適ポリシーを見つけることができる。 Extreme State Aggregation (ESA)フレームワークは、このアイデアを非マルコフ抽象に拡張した。 ESA の際立った特徴は、サロゲート MDP ($A$ はアクションの数、$\gamma$ は割引因子、$\varepsilon$ は最適値-ギャップ) に対して$O\left(\varepsilon^{-A} \cdot (1-\gamma)^{-2A}\right)$ の上限を証明し、これは \emph{all} ドメインに対して \emph{uniformly} を保持する。 普遍境界の可能性は非常に顕著であるが、この境界は非常に緩いことを示す。 我々は、より優れた$O\left(\varepsilon^{-1} \cdot (1-\gamma)^{-2} \cdot A \cdot 2^{A}\right)$の上限を許容する新しい非MDP抽象化を提案する。 さらに、この境界は作用列化法を用いてさらに$o\left(\varepsilon^{-1} \cdot (1-\gamma)^{-2} \cdot \log^3 a \right)$に改善できることを示した。

The field of General Reinforcement Learning (GRL) formulates the problem of sequential decision-making from ground up. The history of interaction constitutes a "ground" state of the system, which never repeats. On the one hand, this generality allows GRL to model almost every domain possible, e.g.\ Bandits, MDPs, POMDPs, PSRs, and history-based environments. On the other hand, in general, the near-optimal policies in GRL are functions of complete history, which hinders not only learning but also planning in GRL. The usual way around for the planning part is that the agent is given a Markovian abstraction of the underlying process. So, it can use any MDP planning algorithm to find a near-optimal policy. The Extreme State Aggregation (ESA) framework has extended this idea to non-Markovian abstractions without compromising on the possibility of planning through a (surrogate) MDP. A distinguishing feature of ESA is that it proves an upper bound of $O\left(\varepsilon^{-A} \cdot (1-\gamma)^{-2A}\right)$ on the number of states required for the surrogate MDP (where $A$ is the number of actions, $\gamma$ is the discount-factor, and $\varepsilon$ is the optimality-gap) which holds \emph{uniformly} for \emph{all} domains. While the possibility of a universal bound is quite remarkable, we show that this bound is very loose. We propose a novel non-MDP abstraction which allows for a much better upper bound of $O\left(\varepsilon^{-1} \cdot (1-\gamma)^{-2} \cdot A \cdot 2^{A}\right)$. Furthermore, we show that this bound can be improved further to $O\left(\varepsilon^{-1} \cdot (1-\gamma)^{-2} \cdot \log^3 A \right)$ by using an action-sequentializa tion method.
翻訳日:2021-12-29 04:02:45 公開日:2021-12-26
# (参考訳) 確率的トランスデューサとしての脳--知識表現、計算、行動のための進化的に可能なネットワークアーキテクチャ

The brain as a probabilistic transducer: an evolutionarily plausible network architecture for knowledge representation, computation, and behavior ( http://arxiv.org/abs/2112.13388v1 )

ライセンス: CC BY 4.0
Joseph Y. Halpern and Arnon Lotem(参考訳) 我々は進化的にも計算的にも可能な、脳と行動に関する一般的な理論的枠組みを提供する。 私たちの抽象モデルにおける脳は、ノードとエッジのネットワークです。 標準的なニューラルネットワークモデルといくつかの類似性があるが、いくつかの重要な違いがある。 ネットワーク内のノードとエッジには、重みとアクティベーションレベルがあります。 それらは確率的トランスデューサ(probabilistic transducer)として機能し、比較的単純なルールを使って、入力によってアクティベーションレベルと重みがどう影響するかを判断し、出力を生成し、互いに影響を及ぼす。 これらの単純なルールは、ネットワークがますます複雑な知識を表現できるように学習プロセスを可能にし、同時に、計画、意思決定、行動の実行を容易にするコンピューティングデバイスとして機能することを示します。 ネットワークの生来の(遺伝的)コンポーネントを指定することで、進化がネットワークに最初の適応ルールと学習を通じて豊かになる目標を与える方法を示す。 データ入力の分布に影響を及ぼすメカニズムと学習パラメータを決定するメカニズム(ノードとエッジによって実行されるプログラムで使用される)の協調によって、ネットワークの発達構造(脳が何ができるか、どのようにうまく機能するかを決定する)が、どのように影響するかを実証する。 最後に、このモデルが学習と意思決定の分野における様々な発見をどのように説明しているか、目標の設定や自己制御に関連する問題や、認知障害の理解にどのように役立つかなど、心身および行動の課題にどのように対処するかを検討する。

We offer a general theoretical framework for brain and behavior that is evolutionarily and computationally plausible. The brain in our abstract model is a network of nodes and edges. Although it has some similarities to standard neural network models, as we show, there are some significant differences. Both nodes and edges in our network have weights and activation levels. They act as probabilistic transducers that use a set of relatively simple rules to determine how activation levels and weights are affected by input, generate output, and affect each other. We show that these simple rules enable a learning process that allows the network to represent increasingly complex knowledge, and simultaneously to act as a computing device that facilitates planning, decision-making, and the execution of behavior. By specifying the innate (genetic) components of the network, we show how evolution could endow the network with initial adaptive rules and goals that are then enriched through learning. We demonstrate how the developing structure of the network (which determines what the brain can do and how well) is critically affected by the co-evolved coordination between the mechanisms affecting the distribution of data input and those determining the learning parameters (used in the programs run by nodes and edges). Finally, we consider how the model accounts for various findings in the field of learning and decision making, how it can address some challenging problems in mind and behavior, such as those related to setting goals and self-control, and how it can help understand some cognitive disorders.
翻訳日:2021-12-29 03:46:50 公開日:2021-12-26
# (参考訳) 機械学習因果モデルにおける変数バイアスの省略

Omitted Variable Bias in Machine Learned Causal Models ( http://arxiv.org/abs/2112.13398v1 )

ライセンス: CC BY 4.0
Victor Chernozhukov, Carlos Cinelli, Whitney Newey, Amit Sharma, Vasilis Syrgkanis(参考訳) 我々は、結果の条件付き期待関数の線形汎関数として識別できる幅広い因果パラメータのクラスに対して、省略された変数バイアスの大きさの一般、しかし単純で鋭い境界を導出する。 このような機能には、潜在的な結果の平均(重み付け)、平均的な治療効果(治療効果などのサブグループ効果を含む)、(重み付け)平均微分、および共変量分布のシフトによる政策効果など、因果推論研究における伝統的な研究対象の多くが含まれている。 我々の構成は、対象関数のriesz-frechet表現に依存する。 具体的には、バイアスのバウンドが、結果と興味のあるパラメータのriesz表現子の両方で潜在変数が生成する追加の変動にのみ依存することを示す。 さらに、多くの重要なケース(例えば、部分線形モデルにおける平均的な処理効果、または二元的処理を持つ非分離モデル)において、境界は、容易に解釈できる2つの量に依存することが示される: 非パラメトリックな部分的r^2$ (ピアソンの相関比) である。 したがって、省略変数の最大説明力に関する単純な可能性判断(処理と結果変動の説明)は、バイアスの大きさに全体的な境界を置くのに十分である。 最後に,debiased machine learningを活用することで,観測された分布から識別可能な境界の成分を推定するフレキシブルで効率的な統計的推論手法を提案する。

We derive general, yet simple, sharp bounds on the size of the omitted variable bias for a broad class of causal parameters that can be identified as linear functionals of the conditional expectation function of the outcome. Such functionals encompass many of the traditional targets of investigation in causal inference studies, such as, for example, (weighted) average of potential outcomes, average treatment effects (including subgroup effects, such as the effect on the treated), (weighted) average derivatives, and policy effects from shifts in covariate distribution -- all for general, nonparametric causal models. Our construction relies on the Riesz-Frechet representation of the target functional. Specifically, we show how the bound on the bias depends only on the additional variation that the latent variables create both in the outcome and in the Riesz representer for the parameter of interest. Moreover, in many important cases (e.g, average treatment effects in partially linear models, or in nonseparable models with a binary treatment) the bound is shown to depend on two easily interpretable quantities: the nonparametric partial $R^2$ (Pearson's "correlation ratio") of the unobserved variables with the treatment and with the outcome. Therefore, simple plausibility judgments on the maximum explanatory power of omitted variables (in explaining treatment and outcome variation) are sufficient to place overall bounds on the size of the bias. Finally, leveraging debiased machine learning, we provide flexible and efficient statistical inference methods to estimate the components of the bounds that are identifiable from the observed distribution.
翻訳日:2021-12-29 03:45:44 公開日:2021-12-26
# (参考訳) 総合強化学習の抽象化

Abstractions of General Reinforcement Learning ( http://arxiv.org/abs/2112.13404v1 )

ライセンス: CC BY 4.0
Sultan J. Majeed(参考訳) 人工知能(AI)の分野は、関心のある分野の人間に匹敵する(少なくとも)人工的な意思決定者を作成することに集中している。 従来のAIのエージェントとは異なり、人工知能(AGI)のエージェントは、ほぼすべての関心領域で人間の知性を複製する必要がある。 さらに、AGIエージェントは、パラメータのさらなる変更、再トレーニング、あるいは微調整なしに、これを達成することができるべきである。 現実の世界は、非定常、非エルゴード、非マルコフ的であり、人類は、過去を振り返ることも、最新の統計学的観測もできない。 しかし、私たちは様々な複雑なタスクに優れています。 これらの課題の多くは長期計画を必要とする。 この成功を自然の教員と結びつけて、圧倒的な感覚経験からタスク非関連情報を抽象化することができる。 私たちは多くの努力なしに、世界のタスク固有のメンタルモデルを作ります。 この抽象化能力により、性能の低下を伴わずにタスクの非常にコンパクトな表現を計画できる。 アクション・アブストラクションのレベルは、小さな筋肉の動きから「アクションを行う」という精神的な概念の間にも存在します。 人間と競合する任意のAGIエージェント(すべての可愛らしいドメイン)も、その経験や行動を抽象化する能力を持つべきであると仮定するのは当然である。 この論文は、広範囲のドメインの効率的な計画を支援する抽象概念の存在を探求するものであり、最も重要なのは、これらの抽象化がいくつかの最適性保証を伴っていることである。

The field of artificial intelligence (AI) is devoted to the creation of artificial decision-makers that can perform (at least) on par with the human counterparts on a domain of interest. Unlike the agents in traditional AI, the agents in artificial general intelligence (AGI) are required to replicate human intelligence in almost every domain of interest. Moreover, an AGI agent should be able to achieve this without (virtually any) further changes, retraining, or fine-tuning of the parameters. The real world is non-stationary, non-ergodic, and non-Markovian: we, humans, can neither revisit our past nor are the most recent observations sufficient statistics. Yet, we excel at a variety of complex tasks. Many of these tasks require longterm planning. We can associate this success to our natural faculty to abstract away task-irrelevant information from our overwhelming sensory experience. We make task-specific mental models of the world without much effort. Due to this ability to abstract, we can plan on a significantly compact representation of a task without much loss of performance. Not only this, we also abstract our actions to produce high-level plans: the level of action-abstraction can be anywhere between small muscle movements to a mental notion of "doing an action". It is natural to assume that any AGI agent competing with humans (at every plausible domain) should also have these abilities to abstract its experiences and actions. This thesis is an inquiry into the existence of such abstractions which aid efficient planing for a wide range of domains, and most importantly, these abstractions come with some optimality guarantees.
翻訳日:2021-12-29 03:44:39 公開日:2021-12-26
# (参考訳) 動的凸リスク対策による強化学習 [全文訳有]

Reinforcement Learning with Dynamic Convex Risk Measures ( http://arxiv.org/abs/2112.13414v1 )

ライセンス: CC BY-SA 4.0
Anthony Coache and Sebastian Jaimungal(参考訳) モデルレス強化学習(RL)を用いた時間一貫性リスク感性確率的最適化問題の解法を開発した。 具体的には、エージェントが動的凸リスク測度を用いて一連の確率変数のリスクを評価すると仮定する。 我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。 さらに,ニューラルネットワークを用いたアクター批判型アルゴリズムを開発し,ポリシーを最適化する。 最後に,統計的仲裁取引と障害物回避ロボット制御の最適化問題に適用することで,提案手法の性能と柔軟性を実証する。

We develop an approach for solving time-consistent risk-sensitive stochastic optimization problems using model-free reinforcement learning (RL). Specifically, we assume agents assess the risk of a sequence of random variables using dynamic convex risk measures. We employ a time-consistent dynamic programming principle to determine the value of a particular policy, and develop policy gradient update rules. We further develop an actor-critic style algorithm using neural networks to optimize over policies. Finally, we demonstrate the performance and flexibility of our approach by applying it to optimization problems in statistical arbitrage trading and obstacle avoidance robot control.
翻訳日:2021-12-29 03:42:47 公開日:2021-12-26
# (参考訳) ArT:unsupervised Commonsense Question-Answeringのための全ラウンド思考者 [全文訳有]

ArT: All-round Thinker for Unsupervised Commonsense Question-Answering ( http://arxiv.org/abs/2112.13428v1 )

ライセンス: CC BY 4.0
Jiawei Wang and Hai Zhao(参考訳) 必要なトレーニングのためのラベル付き質問応答ペアがなければ、教師なしのコモンセンス質問応答(qa)は、通常建設で非常にリソースを消費するナレッジベース(kbs)のようなコモンセンスソース上で必須のユニークな前提条件であるため、非常に困難に思える。 近年のプレトレーニング言語モデル(PrLM)は,知識生成者の役割を果たす上で,常識的手がかりの代替としての有効性を示す。 しかし、既存の研究は単に数百の擬似回答を生成したり、テンプレートに従って大まかに知識生成を行うだけで、ノイズが大きくなり、生成した知識の品質を損なう可能性がある。 人間の思考経験に感化され,知識生成における関連性を完全に取り入れたオールラウンド思考者(ArT)のアプローチを提案する。 具体的には、このモデルは、まず与えられたコンテキストにおける重要な部分に焦点を当て、その後、人間思考のような関連づけられた方法で、非常に関連する知識を生成します。 また, カジュアル推論では, 原因と効果の双方向推論を行うための逆思考機構が提案されている。 ArTは完全に教師なし、KBフリーである。 我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。 PrLMバックボーンのあらゆるスケールにおいて、ArTは優れた性能を示し、以前の高度な教師なしモデルより優れている。

Without labeled question-answer pairs for necessary training, unsupervised commonsense question-answering (QA) appears to be extremely challenging due to its indispensable unique prerequisite on commonsense source like knowledge bases (KBs), which are usually highly resource consuming in construction. Recently pre-trained language models (PrLMs) show effectiveness as an alternative for commonsense clues when they play a role of knowledge generator. However, existing work simply generates hundreds of pseudo-answers, or roughly performs knowledge generation according to templates once for all, which may result in much noise and thus hinders the quality of generated knowledge. Motivated by human thinking experience, we propose an approach of All-round Thinker (ArT) by fully taking association during knowledge generating. In detail, our model first focuses on key parts in the given context, and then generates highly related knowledge on such a basis in an association way like human thinking. Besides, for casual reasoning, a reverse thinking mechanism is proposed to conduct bidirectional inferring between cause and effect. ArT is totally unsupervised and KBs-free. We evaluate it on three commonsense QA benchmarks: COPA, SocialIQA and SCT. On all scales of PrLM backbones, ArT shows its brilliant performance and outperforms previous advanced unsupervised models.
翻訳日:2021-12-29 03:15:02 公開日:2021-12-26
# (参考訳) LFQAタスクの新しい方法とメトリクス [全文訳有]

New Methods & Metrics for LFQA tasks ( http://arxiv.org/abs/2112.13432v1 )

ライセンス: CC BY 4.0
Suchismit Mahapatra, Vladimir Blagojevic, Pablo Bertorello, Prasanna Kumar(参考訳) LFQA(Long-form Question answering)タスクは、クエリに関連する文書を検索し、パラグラフ長の回答を生成する。 LFQAモデリングの進歩にもかかわらず、基本的な問題は進歩を妨げる。 一 列車/検証/テストデータセットの重複 二 自動測定器がないこと、及び 三 検索した書類に「接地」しない回答を生ずること。 この作業はこれらの重要なボトルネックをすべて解決し、自然言語推論/ジェネレーション(nli/nlg)メソッドと、その緩和に大きく前進するメトリクスに貢献します。

Long-form question answering (LFQA) tasks require retrieving the documents pertinent to a query, using them to form a paragraph-length answer. Despite considerable progress in LFQA modeling, fundamental issues impede its progress: i) train/validation/tes t dataset overlap, ii) absence of automatic metrics and iii) generated answers not being "grounded" in retrieved documents. This work addresses every one these critical bottlenecks, contributing natural language inference/generation (NLI/NLG) methods and metrics that make significant strides to their alleviation.
翻訳日:2021-12-29 03:00:08 公開日:2021-12-26
# (参考訳) 聴覚データセットを用いた音響シーン分類 [全文訳有]

Acoustic scene classification using auditory datasets ( http://arxiv.org/abs/2112.13450v1 )

ライセンス: CC0 1.0
Jayesh Kumpawat and Shubhajit Dey(参考訳) このアプローチは、同じ傾向の初期の実験でこれまでに使われた基本的な数学的手法に挑戦するだけでなく、興味深い結果のために新しいスコープと新しい地平線を導入している。 スペクトログラムを管理する物理学はこのプロジェクトで最適化され、目の前の問題の厳しい要件をどう処理するかを探求している。 このプロジェクトを通じて、より優れた数学的技術と問題固有の機械学習手法の使用を含む、主要なコントリビューションと開発が行われた。 このプロジェクトでは、周波数マスキングやランダム周波数時間ストレッチといったオーディオデータセットのデータ分析とデータ拡張が改良されており、本稿で解説する。 使用する方法論では、オーディオトランスフォーメーションの原理も検討され、実際に得られた洞察はプロジェクトの後半で建設的に使用された。 ディープラーニングの原則を使うこともそのひとつです。 また,本論文では,短期トンネルと長期トンネルの両方における潜在的スコープと今後の研究開口について述べる。 得られた結果の多くは、現在、ドメイン固有のものであるが、様々な背景を持つ様々な異なるドメインで新しいソリューションを作るのに十分強力であることは間違いない。

The approach used not only challenges some of the fundamental mathematical techniques used so far in early experiments of the same trend but also introduces new scopes and new horizons for interesting results. The physics governing spectrograms have been optimized in the project along with exploring how it handles the intense requirements of the problem at hand. Major contributions and developments brought under the light, through this project involve using better mathematical techniques and problem-specific machine learning methods. Improvised data analysis and data augmentation for audio datasets like frequency masking and random frequency-time stretching are used in the project and hence are explained in this paper. In the used methodology, the audio transforms principle were also tried and explored, and indeed the insights gained were used constructively in the later stages of the project. Using a deep learning principle is surely one of them. Also, in this paper, the potential scopes and upcoming research openings in both short and long term tunnel of time has been presented. Although much of the results gained are domain-specific as of now, they are surely potent enough to produce novel solutions in various different domains of diverse backgrounds.
翻訳日:2021-12-29 02:50:15 公開日:2021-12-26
# (参考訳) PreDisM:CNNによるオンデマンドコミュニティのための事前Disasterモデリング [全文訳有]

PreDisM: Pre-Disaster Modelling With CNN Ensembles for At-Risk Communities ( http://arxiv.org/abs/2112.13465v1 )

ライセンス: CC BY 4.0
Vishal Anand, Yuki Miura(参考訳) 機械学習コミュニティは最近、自然災害(ハリケーン、森林火災、洪水、地震など)の発生が著しく増加しているため、気候や災害被害領域への関心が高まっている。 しかし、差し迫った自然災害による潜在的破壊の緩和に十分な注意が払われていない。 我々は、国家のアクターや非政府組織が損失を最小限に抑えるためにリソース分布を最大限に備えることを可能にする、事前に建物レベルの損害を予測することによって、この重要な空間を探求する。 本研究では,ResNetのアンサンブルと決定木上の全接続層を用いたPreDisMを導入し,画像レベルの情報とメタレベルの情報をキャプチャして,人造構造物の弱点を災害発生まで正確に推定する。 本モデルは,災害のタイプをまたいだ調整に応答し,プリエンプティブ・ハザード・ダメージ・モデリングの空間を強調する。

The machine learning community has recently had increased interest in the climate and disaster damage domain due to a marked increased occurrences of natural hazards (e.g., hurricanes, forest fires, floods, earthquakes). However, not enough attention has been devoted to mitigating probable destruction from impending natural hazards. We explore this crucial space by predicting building-level damages on a before-the-fact basis that would allow state actors and non-governmental organizations to be best equipped with resource distribution to minimize or preempt losses. We introduce PreDisM that employs an ensemble of ResNets and fully connected layers over decision trees to capture image-level and meta-level information to accurately estimate weakness of man-made structures to disaster-occurrences . Our model performs well and is responsive to tuning across types of disasters and highlights the space of preemptive hazard damage modelling.
翻訳日:2021-12-29 02:44:40 公開日:2021-12-26
# 連合学習環境における音声感情認識の属性推論攻撃

Attribute Inference Attack of Speech Emotion Recognition in Federated Learning Settings ( http://arxiv.org/abs/2112.13416v1 )

ライセンス: Link先を確認
Tiantian Feng and Hanieh Hashemi and Rajat Hebbar and Murali Annavaram and Shrikanth S. Narayanan(参考訳) 音声感情認識(ser)は音声信号を処理し、表現された感情を検出し、特徴付ける。 多くのserアプリケーションシステムは、推論と意思決定のためにクライアント側で収集された音声データをリモートクラウドプラットフォームに取得、送信することが多い。 しかし、音声データは、声の表情で伝えられる感情だけでなく、性別、年齢、言語背景といった他の繊細な人口統計特性に関する豊富な情報を持っている。 したがって、センシティブな情報や人口統計情報の意図的・不適切な推論を防止しつつ、感情構成を分類する能力を有することが望ましい。 Federated Learning(FL)は、クライアントがローカルデータを共有せずに協調的にモデルをトレーニングするように調整する分散機械学習パラダイムである。 このトレーニングアプローチはセキュアで、SERのプライバシを改善することができる。 しかし、最近の研究では、FLアプローチが再構築攻撃やメンバーシップ推論攻撃など、さまざまなプライバシ攻撃に対して脆弱であることが証明されている。 これらの殆どはコンピュータビジョンアプリケーションに焦点を当てているが、そのような情報漏洩は fl 技術を用いて訓練された ser システムに存在する。 FLを用いて学習したSERシステムの情報漏洩を評価するため,FedSGDとFedAvgのトレーニングアルゴリズムに対応して,共有勾配やモデルパラメータからクライアントの機密属性情報を推定する属性推論攻撃フレームワークを提案する。 ユースケースとして、IEMOCAP、CREMA-D、MSP-Improvの3つのベンチマークデータセットを用いて、クライアントの性別情報を予測するためのアプローチを実証的に評価する。 flを用いて訓練されたサーシステムに対して属性推論攻撃が実現可能であることを示す。 さらに,情報漏洩のほとんどがserモデルの第1層から生じる可能性があることも確認した。

Speech emotion recognition (SER) processes speech signals to detect and characterize expressed perceived emotions. Many SER application systems often acquire and transmit speech data collected at the client-side to remote cloud platforms for inference and decision making. However, speech data carry rich information not only about emotions conveyed in vocal expressions, but also other sensitive demographic traits such as gender, age and language background. Consequently, it is desirable for SER systems to have the ability to classify emotion constructs while preventing unintended/improper inferences of sensitive and demographic information. Federated learning (FL) is a distributed machine learning paradigm that coordinates clients to train a model collaboratively without sharing their local data. This training approach appears secure and can improve privacy for SER. However, recent works have demonstrated that FL approaches are still vulnerable to various privacy attacks like reconstruction attacks and membership inference attacks. Although most of these have focused on computer vision applications, such information leakages exist in the SER systems trained using the FL technique. To assess the information leakage of SER systems trained using FL, we propose an attribute inference attack framework that infers sensitive attribute information of the clients from shared gradients or model parameters, corresponding to the FedSGD and the FedAvg training algorithms, respectively. As a use case, we empirically evaluate our approach for predicting the client's gender information using three SER benchmark datasets: IEMOCAP, CREMA-D, and MSP-Improv. We show that the attribute inference attack is achievable for SER systems trained using FL. We further identify that most information leakage possibly comes from the first layer in the SER model.
翻訳日:2021-12-28 17:53:55 公開日:2021-12-26
# 地震予知のための注意機構を有するCNN-BiLSTMモデル

A CNN-BiLSTM Model with Attention Mechanism for Earthquake Prediction ( http://arxiv.org/abs/2112.13444v1 )

ライセンス: Link先を確認
Parisa Kavianpour, Mohammadreza Kavianpour, Ehsan Jahani, Amin Ramezani(参考訳) 自然現象としての地震は、歴史的に人命の被害と損失を継続的に引き起こしている。 地震予知はあらゆる社会の計画に欠かせない側面であり、公共の備えを増し、被害を大幅に減らすことができる。 しかし, 地震の確率的特性と, 地震予測の効率的かつ信頼性の高いモデルの実現の難しさから, これまでの努力は不十分であり, 新たな解決法が求められている。 そこで本研究では,中国本土の地震カタログに基づく地震の規模と規模を推定できる,注意機構(AM),畳み込みニューラルネットワーク(CNN),双方向長短期記憶(BiLSTM)モデルに基づく新しい予測手法を提案する。 このモデルでは、LSTMとCNNを利用して、効果的な地震特性により集中し、より正確な予測を行う。 まず、ゼロオーダーホールド法を地震データの前処理として適用し、モデルの入力データをより適切にする。 第2に,入力データの空間情報を有効に利用し,次元を小さくするために,CNNを用いて地震データ間の空間的依存関係をキャプチャする。 第3に、Bi-LSTM層は時間的依存関係をキャプチャするために使用される。 第4に、AMレイヤが導入され、予測性能を向上させるために重要な機能を強調している。 その結果,提案手法は他の予測手法よりも優れた性能と汎用性が得られた。

Earthquakes, as natural phenomena, have continuously caused damage and loss of human life historically. Earthquake prediction is an essential aspect of any society's plans and can increase public preparedness and reduce damage to a great extent. Nevertheless, due to the stochastic character of earthquakes and the challenge of achieving an efficient and dependable model for earthquake prediction, efforts have been insufficient thus far, and new methods are required to solve this problem. Aware of these issues, this paper proposes a novel prediction method based on attention mechanism (AM), convolution neural network (CNN), and bi-directional long short-term memory (BiLSTM) models, which can predict the number and maximum magnitude of earthquakes in each area of mainland China-based on the earthquake catalog of the region. This model takes advantage of LSTM and CNN with an attention mechanism to better focus on effective earthquake characteristics and produce more accurate predictions. Firstly, the zero-order hold technique is applied as pre-processing on earthquake data, making the model's input data more proper. Secondly, to effectively use spatial information and reduce dimensions of input data, the CNN is used to capture the spatial dependencies between earthquake data. Thirdly, the Bi-LSTM layer is employed to capture the temporal dependencies. Fourthly, the AM layer is introduced to highlight its important features to achieve better prediction performance. The results show that the proposed method has better performance and generalize ability than other prediction methods.
翻訳日:2021-12-28 17:53:26 公開日:2021-12-26
# 効率的なニューラルビデオ圧縮のためのクロススケール予測の学習

Learning Cross-Scale Prediction for Efficient Neural Video Compression ( http://arxiv.org/abs/2112.13309v1 )

ライセンス: Link先を確認
Zongyu Guo, Runsen Feng, Zhizheng Zhang, Xin Jin, Zhibo Chen(参考訳) 本稿では,低遅延モードのUVGデータセット上で,SRGB PSNRを用いて最新の符号化標準H.266/VVCと競合する最初のニューラルビデオコーデックを提案する。 既存のニューラルハイブリッドビデオ符号化手法は、様々なモーションコンテンツへのきめ細かい適応をサポートできない、光学フローやガウススケールフローに依存している。 よりコンテンツ適応型予測に向けて,より効果的な動作補償を実現する新しいクロススケール予測モジュールを提案する。 具体的には,参照特徴ピラミッドを予測源として生成し,特徴量を利用したクロススケールフローを送信して予測精度を制御する。 一方,重み付き予測のメカニズムを,単一の参照フレームを用いた予測のシナリオに導入し,クロススケールの重み付きマップを送信し,詳細な予測結果を合成する。 クロススケール予測モジュールに加えて, 推定中に余分な計算ペナルティを伴わずに, レート分散性能を向上させる多段階量子化戦略も提案する。 我々は,複数のベンチマークデータセット上で,効率的なニューラルビデオコーデック(ENVC)の性能向上を示すとともに,すべての重要なコンポーネントの有効性を詳細に分析する。

In this paper, we present the first neural video codec that can compete with the latest coding standard H.266/VVC in terms of sRGB PSNR on UVG dataset for the low-latency mode. Existing neural hybrid video coding approaches rely on optical flow or Gaussian-scale flow for prediction, which cannot support fine-grained adaptation to diverse motion content. Towards more content-adaptive prediction, we propose a novel cross-scale prediction module that achieves more effective motion compensation. Specifically, on the one hand, we produce a reference feature pyramid as prediction sources, then transmit cross-scale flows that leverage the feature scale to control the precision of prediction. On the other hand, we introduce the mechanism of weighted prediction into the scenario of prediction with a single reference frame, where cross-scale weight maps are transmitted to synthesize a fine prediction result. In addition to the cross-scale prediction module, we further propose a multi-stage quantization strategy, which improves the rate-distortion performance with no extra computational penalty during inference. We show the encouraging performance of our efficient neural video codec (ENVC) on several common benchmark datasets and analyze in detail the effectiveness of every important component.
翻訳日:2021-12-28 17:41:32 公開日:2021-12-26
# ディープラーニングフレームワークにおけるサイレントバグ:KerasとTensorFlowの実証的研究

Silent Bugs in Deep Learning Frameworks: An Empirical Study of Keras and TensorFlow ( http://arxiv.org/abs/2112.13314v1 )

ライセンス: Link先を確認
Florian Tambon, Amin Nikanjam, Le An, Foutse Khomh, Giuliano Antoniol(参考訳) ディープラーニング(DL)フレームワークは今や広く使われており、複雑なモデルの作成を単純化し、DLの専門家でない人たちにも様々なアプリケーションとの統合が可能である。 しかし、他のプログラムと同様に、それらはバグを起こしやすい。 本稿では,無声バグと呼ばれるバグのサブカテゴリを扱い,誤った動作を導くが,システムクラッシュやハングを発生させることなく,エラーメッセージをユーザに提示する。 このようなバグは、dlアプリケーションやフレームワークにおいて、システムの"ブラックボックス"と確率的性質(エンドユーザはモデルがどのように意思決定するかを理解できない)のため、さらに危険である。 本稿では,kerasとtensorflowのサイレントバグに関する最初の実証研究と,そのユーザプログラムへの影響について述べる。 我々はTensorFlow GitHubリポジトリからKerasに関するクローズドな問題を抽出した。 収集した1,168件の問題のうち,77件がユーザのプログラムに影響を与えるサイレントバグを再現可能としていた。 ユーザのプログラムや問題が発生したコンポーネントへの影響に基づいてバグを分類し,イシューレポートの情報を用いてバグを分類した。 次に、ユーザプログラムに対する影響に基づいて、各問題に対する脅威レベルを導出しました。 特定カテゴリとインパクト尺度との関連性を評価するため,103人のDL開発者を対象にオンライン調査を行った。 参加者は概してdlライブラリにおけるサイレントバグの重大な影響に同意し、我々の発見(サイレントバグのカテゴリと提案されたインパクトスケール)を認めた。 最後に、分析の活用により、dlフレームワークのこのようなバグに対する保護を容易にするためのガイドラインのセットを提供します。

Deep Learning (DL) frameworks are now widely used, simplifying the creation of complex models as well as their integration to various applications even to non DL experts. However, like any other programs, they are prone to bugs. This paper deals with the subcategory of bugs named silent bugs: they lead to wrong behavior but they do not cause system crashes or hangs, nor show an error message to the user. Such bugs are even more dangerous in DL applications and frameworks due to the "black-box" and stochastic nature of the systems (the end user can not understand how the model makes decisions). This paper presents the first empirical study of Keras and TensorFlow silent bugs, and their impact on users' programs. We extracted closed issues related to Keras from the TensorFlow GitHub repository. Out of the 1,168 issues that we gathered, 77 were reproducible silent bugs affecting users' programs. We categorized the bugs based on the effects on the users' programs and the components where the issues occurred, using information from the issue reports. We then derived a threat level for each of the issues, based on the impact they had on the users' programs. To assess the relevance of identified categories and the impact scale, we conducted an online survey with 103 DL developers. The participants generally agreed with the significant impact of silent bugs in DL libraries and acknowledged our findings (i.e., categories of silent bugs and the proposed impact scale). Finally, leveraging our analysis, we provide a set of guidelines to facilitate safeguarding against such bugs in DL frameworks.
翻訳日:2021-12-28 17:33:29 公開日:2021-12-26
# アンサンブル法による二項分類問題の量子バージョン予測

The Quantum Version of Prediction for Binary Classification Problem by Ensemble Methods ( http://arxiv.org/abs/2112.13346v1 )

ライセンス: Link先を確認
Kamil Khadiev and Liliia Safina(参考訳) 本研究では,機械学習モデルが任意の単純な分類器からのアンサンブルである場合,量子アルゴリズムを用いてバイナリ分類問題の結果を予測する性能について検討する。 このようなアプローチは、従来の予測よりも高速で、量子計算や古典計算を用いるが、確率的アルゴリズムに基づいている。 n$ をアンサンブルモデルからの多くの分類器とし、$o(t)$ を一つの分類器上での予測の実行時間とする。 古典的な場合、アンサンブルモデルは各分類器から答えを受け取り、結果を「平均」する。 古典的な場合の実行時間は$O\left(N \cdot T \right)$である。 我々は$O\left(\sqrt{N} \cdot T\right)$で機能するアルゴリズムを提案する。

In this work, we consider the performance of using a quantum algorithm to predict a result for a binary classification problem if a machine learning model is an ensemble from any simple classifiers. Such an approach is faster than classical prediction and uses quantum and classical computing, but it is based on a probabilistic algorithm. Let $N$ be a number of classifiers from an ensemble model and $O(T)$ be the running time of prediction on one classifier. In classical case, an ensemble model gets answers from each classifier and "averages" the result. The running time in classical case is $O\left( N \cdot T \right)$. We propose an algorithm which works in $O\left(\sqrt{N} \cdot T\right)$.
翻訳日:2021-12-28 17:32:09 公開日:2021-12-26
# 感情認識のための2チャンネル長短期記憶圧縮カプセルネットワーク

Novel Dual-Channel Long Short-Term Memory Compressed Capsule Networks for Emotion Recognition ( http://arxiv.org/abs/2112.13350v1 )

ライセンス: Link先を確認
Ismail Shahin, Noor Hindawi, Ali Bou Nassif, Adi Alhudhaif, Kemal Polat(参考訳) 近年,MFCCのスペクトログラム機能の利用や,畳み込みニューラルネットワーク(CNN)などのニューラルネットワークアプローチの実装により,音声の感情認識が大幅に進歩している。 カプセルネットワーク(capsnet)はcnnの代替品として、階層的な表現能力の増大に感謝している。 これらの問題に対処するため,本研究では,CapsNetの構造的特徴に基づいて,2チャネル長短期メモリ圧縮CapsNet (DC-LSTM COMP-CapsNet) アルゴリズムを提案する。 提案する新しい分類器は,capsnetの本来の構造では提供されない音声感情認識において,モデルのエネルギー効率と適切な圧縮手法を保証できる。 さらに, 最適解を得るためにはグリッド探索法が用いられる。 結果は、トレーニングとテストの実行時間の改善とパフォーマンスの低下を目撃した。 アルゴリズムを評価するために使用される音声データセットは、アラビア語のemirati-accented corpus、シミュレーションされた実際のストレスコーパスに基づく英語音声、感情音声と歌コーパスの英語ryerson音声視覚データベース、クラウドソースされた感情的マルチモーダルアクタデータセットである。 本研究は、他の既知の手法と比較して最適な特徴抽出法がMFCCs delta-deltaであることを示す。 4つのデータセットとMFCCs delta-deltaを使用して、DC-LSTM COMP-CapsNetは、最先端システム、古典的分類器、CNN、およびオリジナルのCapsNetを上回っている。 その結果,提案手法は平均感情認識精度を84.7%,82.2%,69.8%,69 .2%,53.8%,42.6%,31.9 %のcapsnet,cnn,サポートベクターマシン,多層パーセプトロン,k-nearest近傍,ラジアル基底関数,ナイーブベイと比較し,89.3%の精度が得られることがわかった。

Recent analysis on speech emotion recognition has made considerable advances with the use of MFCCs spectrogram features and the implementation of neural network approaches such as convolutional neural networks (CNNs). Capsule networks (CapsNet) have gained gratitude as alternatives to CNNs with their larger capacities for hierarchical representation. To address these issues, this research introduces a text-independent and speaker-independent SER novel architecture, where a dual-channel long short-term memory compressed-CapsNet (DC-LSTM COMP-CapsNet) algorithm is proposed based on the structural features of CapsNet. Our proposed novel classifier can ensure the energy efficiency of the model and adequate compression method in speech emotion recognition, which is not delivered through the original structure of a CapsNet. Moreover, the grid search approach is used to attain optimal solutions. Results witnessed an improved performance and reduction in the training and testing running time. The speech datasets used to evaluate our algorithm are: Arabic Emirati-accented corpus, English speech under simulated and actual stress corpus, English Ryerson audio-visual database of emotional speech and song corpus, and crowd-sourced emotional multimodal actors dataset. This work reveals that the optimum feature extraction method compared to other known methods is MFCCs delta-delta. Using the four datasets and the MFCCs delta-delta, DC-LSTM COMP-CapsNet surpasses all the state-of-the-art systems, classical classifiers, CNN, and the original CapsNet. Using the Arabic Emirati-accented corpus, our results demonstrate that the proposed work yields average emotion recognition accuracy of 89.3% compared to 84.7%, 82.2%, 69.8%, 69.2%, 53.8%, 42.6%, and 31.9% based on CapsNet, CNN, support vector machine, multi-layer perceptron, k-nearest neighbor, radial basis function, and naive Bayes, respectively.
翻訳日:2021-12-28 17:25:55 公開日:2021-12-26
# 感情的・ストレス的発話環境における話者検証のための新しいハイブリッドDNN手法

Novel Hybrid DNN Approaches for Speaker Verification in Emotional and Stressful Talking Environments ( http://arxiv.org/abs/2112.13353v1 )

ライセンス: Link先を確認
Ismail Shahin, Ali Bou Nassif, Nawel Nemmour, Ashraf Elnagar, Adi Alhudhaif, Kemal Polat(参考訳) 本研究では,感情的・ストレス的環境におけるテキスト非依存話者検証の性能に関する実証的研究を行った。 この研究は深層モデルと浅いアーキテクチャを組み合わせることで、新しいハイブリッド分類器を生み出した。 ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)、ディープニューラルネットワーク-ガウス混合モデル(DNN-GMM)、ガウス混合モデル-ディープニューラルネットワーク(GMM-DNN)、隠れマルコフモデル-ディープニューラルネットワーク(HMM-DNN)の4つの異なるハイブリッドモデルが利用された。 すべてのモデルは、新しい実装アーキテクチャに基づいている。 比較研究では、個人用アラビア語データセットと2つの公的な英語データベース、すなわちsusas(シミュレート・アンド・リアル・ストレス)とryersonの感情音声・視覚データベース(ravdess)の3つの異なる音声データセットを用いた。 以上のハイブリッドモデルによる実験結果から,HMM-DNNは情緒的,ストレス的な環境下での検証性能を生かした。 また、HMM-DNNは、EER(Equal error rate)とAUC(Equal curve)の評価指標で他の全てのハイブリッドモデルよりも優れていた。 3つのデータセットに基づく平均的な検証システムは、それぞれHMM-DNN、DNN-HMM、DNN-GMM、GMM-DNNに基づいてEERを7.19%、16.85%、11.51%、11.90%とした。 さらに,DNN-GMMモデルでは,両発話環境における他のハイブリッドモデルと比較して計算複雑性が低かった。 逆に、HMM-DNNモデルは最大のトレーニング時間を必要とした。 また、EERとAUCの値は、平均的な感情的およびストレス的なパフォーマンスを比較する際に、データベースに依存することを示した。

In this work, we conducted an empirical comparative study of the performance of text-independent speaker verification in emotional and stressful environments. This work combined deep models with shallow architecture, which resulted in novel hybrid classifiers. Four distinct hybrid models were utilized: deep neural network-hidden Markov model (DNN-HMM), deep neural network-Gaussian mixture model (DNN-GMM), Gaussian mixture model-deep neural network (GMM-DNN), and hidden Markov model-deep neural network (HMM-DNN). All models were based on novel implemented architecture. The comparative study used three distinct speech datasets: a private Arabic dataset and two public English databases, namely, Speech Under Simulated and Actual Stress (SUSAS) and Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). The test results of the aforementioned hybrid models demonstrated that the proposed HMM-DNN leveraged the verification performance in emotional and stressful environments. Results also showed that HMM-DNN outperformed all other hybrid models in terms of equal error rate (EER) and area under the curve (AUC) evaluation metrics. The average resulting verification system based on the three datasets yielded EERs of 7.19%, 16.85%, 11.51%, and 11.90% based on HMM-DNN, DNN-HMM, DNN-GMM, and GMM-DNN, respectively. Furthermore, we found that the DNN-GMM model demonstrated the least computational complexity compared to all other hybrid models in both talking environments. Conversely, the HMM-DNN model required the greatest amount of training time. Findings also demonstrated that EER and AUC values depended on the database when comparing average emotional and stressful performances.
翻訳日:2021-12-28 17:25:14 公開日:2021-12-26
# 最短超弦問題に対する量子アルゴリズム

Quantum Algorithm for the Shortest Superstring Problem ( http://arxiv.org/abs/2112.13319v1 )

ライセンス: Link先を確認
Kamil Khadiev and Carlos Manuel Bosch Machado(参考訳) 本稿では,「Shortest Superstring Problem」 (SSP) や「Shortest Common Superstring Problem」 (SCS) を考える。 問題は次の通りである。 正の整数 $n$ に対して、n 個の文字列の列 $S=(s^1,\dots,s^n)$ が与えられる。 与えられたシーケンスの各文字列をサブ文字列として含む最も短い文字列$t$(superstringと呼ぶ)を構築するべきです。 この問題は、小さな断片から長いDNA配列を再構成する配列組立法と関係している。 実行時間$O^*(1.728^n)$とする量子アルゴリズムを提案する。 ここで、$O^*$表記は$n$の多項式と$t$の長さを考慮しない。

In this paper, we consider the ``Shortest Superstring Problem''(SSP) or the ``Shortest Common Superstring Problem''(SCS). The problem is as follows. For a positive integer $n$, a sequence of n strings $S=(s^1,\dots,s^n)$ is given. We should construct the shortest string $t$ (we call it superstring) that contains each string from the given sequence as a substring. The problem is connected with the sequence assembly method for reconstructing a long DNA sequence from small fragments. We present a quantum algorithm with running time $O^*(1.728^n)$. Here $O^*$ notation does not consider polynomials of $n$ and the length of $t$.
翻訳日:2021-12-28 16:47:49 公開日:2021-12-26
# ディープニューラルネットワークのための効率的な多様性駆動型アンサンブル

Efficient Diversity-Driven Ensemble for Deep Neural Networks ( http://arxiv.org/abs/2112.13316v1 )

ライセンス: Link先を確認
Wentao Zhang, Jiawei Jiang, Yingxia Shao, Bin Cui(参考訳) 深層ニューラルネットワークのアンサンブルは、理論的にも経験的にも、目に見えないテストセットの一般化精度を向上させるために示されている。 しかし、十分な数のベースモデルが必要であり、アンサンブル内の各モデルを個別に訓練する必要があるため、高いトレーニングコストは効率を損なう。 この問題に対処するための多くの手法が提案されており、そのほとんどは、事前訓練されたネットワークがその知識を次のベースモデルに転送し、トレーニングプロセスを加速できる機能に基づいている。 しかし、これらの手法は選択せずに知識を伝達する深刻な問題に悩まされ、したがって多様性は低い。 アンサンブルメンバーが正確かつ多様であれば,アンサンブル学習の効果がより顕著になるので,アンサンブルの多様性と効率性の両方に対処するEDDE(Efficient Diversity-Driven Ensemble)という手法を提案する。 学習過程を高速化するために,従来の知識を選択的に伝達できる新しい知識伝達法を提案する。 多様性を高めるために,まず新しい多様性尺度を提案し,それを用いて最適化のための多様性駆動損失関数を定義する。 最終的に、上記の操作を組み合わせるためにBoostingベースのフレームワークを採用しました。 eddeをコンピュータビジョン(cv)と自然言語処理(nlp)タスクで評価する。 他のよく知られたアンサンブル法と比較して、EDDEはトレーニングコストの低い最も高いアンサンブル精度を得ることができるため、ニューラルネットワークのアンサンブルでは効率がよい。

The ensemble of deep neural networks has been shown, both theoretically and empirically, to improve generalization accuracy on the unseen test set. However, the high training cost hinders its efficiency since we need a sufficient number of base models and each one in the ensemble has to be separately trained. Lots of methods are proposed to tackle this problem, and most of them are based on the feature that a pre-trained network can transfer its knowledge to the next base model and then accelerate the training process. However, these methods suffer a severe problem that all of them transfer knowledge without selection and thus lead to low diversity. As the effect of ensemble learning is more pronounced if ensemble members are accurate and diverse, we propose a method named Efficient Diversity-Driven Ensemble (EDDE) to address both the diversity and the efficiency of an ensemble. To accelerate the training process, we propose a novel knowledge transfer method which can selectively transfer the previous generic knowledge. To enhance diversity, we first propose a new diversity measure, then use it to define a diversity-driven loss function for optimization. At last, we adopt a Boosting-based framework to combine the above operations, such a method can also further improve diversity. We evaluate EDDE on Computer Vision (CV) and Natural Language Processing (NLP) tasks. Compared with other well-known ensemble methods, EDDE can get highest ensemble accuracy with the lowest training cost, which means it is efficient in the ensemble of neural networks.
翻訳日:2021-12-28 16:26:30 公開日:2021-12-26
# 下肢CTおよび放射状MRI再建におけるPrimal-Dual UNetを用いたSinogram Upsampling

Sinogram upsampling using Primal-Dual UNet for undersampled CT and radial MRI reconstruction ( http://arxiv.org/abs/2112.13443v1 )

ライセンス: Link先を確認
Philipp Ernst, Soumick Chatterjee, Georg Rose, Oliver Speck, Andreas N\"urnberger(参考訳) CTとMRIは非侵襲的診断に広く用いられている。 しかし、どちらのモードも特定の問題を伴う。 CTは有害な電離放射線を使用し、MRIは取得速度が遅い。 どちらの問題もスパースサンプリングのようなアンダーサンプリングによって対処できる。 しかし、そのようなアンダーサンプリングされたデータは解像度を低くし、アーティファクトを導入する。 深層学習に基づく手法を含むいくつかの手法が提案されている。 しかし、これらの2つのモダリティのアンサンプされた再構築問題は、常に2つの異なる問題と見なされ、異なる研究によって別々に取り組まれていた。 そこで本論文では,Fourier変換によるMRI前処理を応用し,シングラムアップサンプリングとフィルタバックプロジェクションを併用して両方のモダリティを再構築し,スパークCTとアンダーサンプド・ラジアルMRIの両再構成法を提案する。 Primal-Dual ネットワークは、疎サンプリングされたCTデータを再構成するためのディープラーニングベースの手法である。 本稿では,Primal-Dual UNetを導入し,精度と再構築速度の点でPrimal-Dualネットワークを改善した。 提案手法は平均0.932のSSIMを用いてファンビーム形状のスパルスCT再構成を行い, 従来のモデルに比べて統計的に有意な改善を実現し, 0.919。 さらに, 提案モデルでは, 平均SSIM 0.903, 0.957, アンダーサンプリング脳と腹部MRIデータを16の加速度係数で再構成し, 0.867, 0.949を得た。 最後に,提案するネットワークは全体の画質を向上させるだけでなく,興味のある領域の画質を向上させるだけでなく,針の存在下での汎用性も向上することを示す。

CT and MRI are two widely used clinical imaging modalities for non-invasive diagnosis. However, both of these modalities come with certain problems. CT uses harmful ionising radiation, and MRI suffers from slow acquisition speed. Both problems can be tackled by undersampling, such as sparse sampling. However, such undersampled data leads to lower resolution and introduces artefacts. Several techniques, including deep learning based methods, have been proposed to reconstruct such data. However, the undersampled reconstruction problem for these two modalities was always considered as two different problems and tackled separately by different research works. This paper proposes a unified solution for both sparse CT and undersampled radial MRI reconstruction, achieved by applying Fourier transform-based pre-processing on the radial MRI and then reconstructing both modalities using sinogram upsampling combined with filtered back-projection. The Primal-Dual network is a deep learning based method for reconstructing sparsely-sampled CT data. This paper introduces Primal-Dual UNet, which improves the Primal-Dual network in terms of accuracy and reconstruction speed. The proposed method resulted in an average SSIM of 0.932 while performing sparse CT reconstruction for fan-beam geometry with a sparsity level of 16, achieving a statistically significant improvement over the previous model, which resulted in 0.919. Furthermore, the proposed model resulted in 0.903 and 0.957 average SSIM while reconstructing undersampled brain and abdominal MRI data with an acceleration factor of 16 - statistically significant improvements over the original model, which resulted in 0.867 and 0.949. Finally, this paper shows that the proposed network not only improves the overall image quality, but also improves the image quality for the regions-of-interest; as well as generalises better in presence of a needle.
翻訳日:2021-12-28 16:12:51 公開日:2021-12-26
# AlertTrap: 最先端ディープラーニングプラットフォームを用いたリモート昆虫トラップ監視システムにおける物体検出に関する研究

AlertTrap: A study on object detection in remote insects trap monitoring system using on-the-edge deep learning platform ( http://arxiv.org/abs/2112.13341v1 )

ライセンス: Link先を確認
An D. Le, Duy A. Pham, Dong T. Pham, Hien B. Vo(参考訳) 果実ハエは果実の収量にとって最も有害な昆虫の1つである。 AlertTrapでは、MobileNetV1やMobileNetV2のような、最先端のバックボーン機能抽出器を備えたSSDアーキテクチャの実装が、リアルタイム検出問題の潜在的な解決策であるように見える。 SSD-MobileNetV1 と SSD-MobileNetV2 はよく動作し、それぞれ 0.957 と 1.0 の AP@0.5 となる。 YOLOv4-tinyは、AP@0.5で1.0でSSDファミリを上回っているが、スループットの速度はわずかに遅い。

Fruit flies are one of the most harmful insect species to fruit yields. In AlertTrap, implementation of SSD architecture with different state-of-the-art backbone feature extractors such as MobileNetV1 and MobileNetV2 appear to be potential solutions for the real-time detection problem. SSD-MobileNetV1 and SSD-MobileNetV2 perform well and result in AP@0.5 of 0.957 and 1.0 respectively. YOLOv4-tiny outperforms the SSD family with 1.0 in AP@0.5; however, its throughput velocity is slightly slower.
翻訳日:2021-12-28 16:00:23 公開日:2021-12-26
# ディープラーニングモデルを用いた連続オフライン手書き認識

Continuous Offline Handwriting Recognition using Deep Learning Models ( http://arxiv.org/abs/2112.13328v1 )

ライセンス: Link先を確認
Jorge Sueiras(参考訳) 手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。 デジタル化された文書に存在する手書きコンテンツの転写は、歴史的アーカイブの分析や手書き文書、形態、コミュニケーションからの情報をデジタル化する上で重要である。 過去数年間、この領域では、その解像度にディープラーニング技術を適用することで、大きな進歩を遂げてきた。 この論文は、画像に存在するテキストを文字に分割することなく書き起こせるアルゴリズムとモデルを開発することによる、オフライン連続手書きテキスト認識(htr)問題に対処するものである。 そこで本研究では,cnn(convolutional neural networks)とseq2seq(sequence-to- sequence)の2種類のディープラーニングアーキテクチャを統合した新しい認識モデルを提案する。 モデルの畳み込み成分は、文字に存在する関係する特徴を特定することを目的としており、セク2セク成分は、テキストのシーケンシャルな性質をモデル化してテキストの書き起こしを構築する。 この新モデルの設計のために, 分離文字認識の簡易化問題において, 異なる畳み込みアーキテクチャの機能を広範囲に解析し, 連続モデルに組み込むのに適したものを特定する。 さらに,パラメータ化の変化に対するロバスト性を決定するために,連続問題に対する提案モデルの広範な実験を行った。 モデルの一般化能力は、英語のIAM、フランス語のRIMES、スペイン語のOsborneの3つの手書きテキストデータベースで評価することで検証されている。 提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。

Handwritten text recognition is an open problem of great interest in the area of automatic document image analysis. The transcription of handwritten content present in digitized documents is significant in analyzing historical archives or digitizing information from handwritten documents, forms, and communications. In the last years, great advances have been made in this area due to applying deep learning techniques to its resolution. This Thesis addresses the offline continuous handwritten text recognition (HTR) problem, consisting of developing algorithms and models capable of transcribing the text present in an image without the need for the text to be segmented into characters. For this purpose, we have proposed a new recognition model based on integrating two types of deep learning architectures: convolutional neural networks (CNN) and sequence-to-sequence (seq2seq) models, respectively. The convolutional component of the model is oriented to identify relevant features present in characters, and the seq2seq component builds the transcription of the text by modeling the sequential nature of the text. For the design of this new model, an extensive analysis of the capabilities of different convolutional architectures in the simplified problem of isolated character recognition has been carried out in order to identify the most suitable ones to be integrated into the continuous model. Additionally, extensive experimentation of the proposed model for the continuous problem has been carried out to determine its robustness to changes in parameterization. The generalization capacity of the model has also been validated by evaluating it on three handwritten text databases using different languages: IAM in English, RIMES in French, and Osborne in Spanish, respectively. The new proposed model provides competitive results with those obtained with other well-established methodologies.
翻訳日:2021-12-28 15:16:57 公開日:2021-12-26
# AIDA:オーディオ処理アルゴリズムのためのアクティブ推論ベース設計エージェント

AIDA: An Active Inference-based Design Agent for Audio Processing Algorithms ( http://arxiv.org/abs/2112.13366v1 )

ライセンス: Link先を確認
Albert Podusenko, Bart van Erp, Magnus Koudahl, Bert de Vries(参考訳) 本稿では,人間との位置インタラクションを通じてパーソナライズされた音声処理アルゴリズムを反復的に設計する,アクティブな推論に基づくエージェントであるaidaを提案する。 AIDAの目標は、HAクライアントがHA性能に満足していない場合に、補聴器(HA)アルゴリズムのチューニングパラメータに対して最も興味深い代替値を提案することである。 AIDAは、最適(音響)なベイズ試験設計の問題として「最も興味深い代替」を探すことを解釈している。 計算用語では、AIDAは、トライアル設計のための期待自由エネルギー基準を持つアクティブな推論ベースのエージェントとして実現される。 このタイプのアーキテクチャは、脳内の効率的な(ベイジアン)トライアル設計に関する神経経済モデルにインスパイアされており、AIDAは音響信号とユーザ応答の生成確率モデルから構成されていることを示唆している。 本稿では,ガウス過程分類器に基づく時間変化自己回帰フィルタとユーザ応答モデルの和として,音響信号の新たな生成モデルを提案する。 全AIDAエージェントは生成モデルのための因子グラフに実装され、パラメータ学習、音響コンテキスト分類、トライアルデザインなど)全てのタスクは、因子グラフ上の変分メッセージパッシングによって実現されている。 検証と検証の実験とデモはすべて、GitHubリポジトリから自由にアクセスできます。

In this paper we present AIDA, which is an active inference-based agent that iteratively designs a personalized audio processing algorithm through situated interactions with a human client. The target application of AIDA is to propose on-the-spot the most interesting alternative values for the tuning parameters of a hearing aid (HA) algorithm, whenever a HA client is not satisfied with their HA performance. AIDA interprets searching for the "most interesting alternative" as an issue of optimal (acoustic) context-aware Bayesian trial design. In computational terms, AIDA is realized as an active inference-based agent with an Expected Free Energy criterion for trial design. This type of architecture is inspired by neuro-economic models on efficient (Bayesian) trial design in brains and implies that AIDA comprises generative probabilistic models for acoustic signals and user responses. We propose a novel generative model for acoustic signals as a sum of time-varying auto-regressive filters and a user response model based on a Gaussian Process Classifier. The full AIDA agent has been implemented in a factor graph for the generative model and all tasks (parameter learning, acoustic context classification, trial design, etc.) are realized by variational message passing on the factor graph. All verification and validation experiments and demonstrations are freely accessible at our GitHub repository.
翻訳日:2021-12-28 15:10:43 公開日:2021-12-26
# 人物再識別のための教師なしクラスタリングアクティブラーニング

Unsupervised Clustering Active Learning for Person Re-identification ( http://arxiv.org/abs/2112.13308v1 )

ライセンス: Link先を確認
Wenjing Gao, Minxian Li(参考訳) supervised person re-identification (re-id) アプローチでは,ペアワイズによる手作業によるラベル付きデータが必要となる。 一方、教師なしのre-idメソッドは、ラベルのないデータを使ってモデルを訓練するが、教師なしのre-idメソッドと比べて性能が劣る。 本研究では,教師なしのre-id学習と少数の人間のアノテーションを組み合わせることで,競争的パフォーマンスを実現することを目的とする。 この目標に向けて、Unsupervised Clustering Active Learning (UCAL) Re-id Deep Learningアプローチを提案する。 代表的なセントロイドペアを段階的に発見し、人間の注釈を必要とする。 これら少数のラベル付き代表ペアワイズデータは、教師なし表現学習モデルを他の大量のラベルなしデータで改善することができる。 さらに重要なのは、Centroid-pairがアノテーションとして選択されるため、UCALは非常に低コストな人為的な作業が可能であることだ。 3つのre-idベンチマークデータセット上で、最先端のアクティブな学習手法よりも提案モデルの方が優れていることを示す。

Supervised person re-identification (re-id) approaches require a large amount of pairwise manual labeled data, which is not applicable in most real-world scenarios for re-id deployment. On the other hand, unsupervised re-id methods rely on unlabeled data to train models but performs poorly compared with supervised re-id methods. In this work, we aim to combine unsupervised re-id learning with a small number of human annotations to achieve a competitive performance. Towards this goal, we present a Unsupervised Clustering Active Learning (UCAL) re-id deep learning approach. It is capable of incrementally discovering the representative centroid-pairs and requiring human annotate them. These few labeled representative pairwise data can improve the unsupervised representation learning model with other large amounts of unlabeled data. More importantly, because the representative centroid-pairs are selected for annotation, UCAL can work with very low-cost human effort. Extensive experiments demonstrate the superiority of the proposed model over state-of-the-art active learning methods on three re-id benchmark datasets.
翻訳日:2021-12-28 14:46:41 公開日:2021-12-26
# パーリンノイズによる対向ロバスト性の改善

Perlin Noise Improve Adversarial Robustness ( http://arxiv.org/abs/2112.13408v1 )

ライセンス: Link先を確認
Chengjun Tang, Kun Zhang, Chunfang Xing, Yong Ding, Zengmin Xu(参考訳) 敵対的な例は、プロダクション環境における学習アルゴリズムにおいて意図的な誤りを生み出すために、ディープニューラルネットワークの出力を乱すことができる特別な入力である。 逆例を生成する方法の多くは勾配情報を必要とする。 生成モデルに関係のない普遍摂動でさえ、勾配情報にある程度依存している。 手続き的雑音回避例(procedural noise adversarial examples)は、コンピュータグラフィックスノイズを使用して、勾配情報に頼らずに、普遍的な逆さまの摂動を素早く生成する、新しい逆さまの例生成方法である。 敵意トレーニングの防御的アイデアと組み合わせることで,perlinノイズをニューラルネットワークのトレーニングに利用し,手続き的ノイズ攻撃例から防御可能なモデルを得る。 事前学習モデルに基づくモデルの微調整手法と組み合わせることで,より高速かつ高精度なトレーニングを実現する。 本研究は, 手続き性雑音の逆用例が否定可能であることを示し, 手続き性雑音が逆用例を生成する理由と, 今後出現する他の手続き性雑音逆用例に対する防御法について検討する。

Adversarial examples are some special input that can perturb the output of a deep neural network, in order to make produce intentional errors in the learning algorithms in the production environment. Most of the present methods for generating adversarial examples require gradient information. Even universal perturbations that are not relevant to the generative model rely to some extent on gradient information. Procedural noise adversarial examples is a new way of adversarial example generation, which uses computer graphics noise to generate universal adversarial perturbations quickly while not relying on gradient information. Combined with the defensive idea of adversarial training, we use Perlin noise to train the neural network to obtain a model that can defend against procedural noise adversarial examples. In combination with the use of model fine-tuning methods based on pre-trained models, we obtain faster training as well as higher accuracy. Our study shows that procedural noise adversarial examples are defensible, but why procedural noise can generate adversarial examples and how to defend against other kinds of procedural noise adversarial examples that may emerge in the future remain to be investigated.
翻訳日:2021-12-28 14:41:35 公開日:2021-12-26
# 生成カーネル連続学習

Generative Kernel Continual learning ( http://arxiv.org/abs/2112.13410v1 )

ライセンス: Link先を確認
Mohammad Mahdi Derakhshani and Xiantong Zhen and Ling Shao and Cees G. M. Snoek(参考訳) 最近,タスク干渉に対処する非パラメトリックな能力と破滅的な忘れこもりが原因で,Cernel continual learning by \citet{derakhshani2021kerne l} が強力な連続学習者として登場した。 残念なことに、その成功は過去のタスクのサンプルを保存するための明示的なメモリを犠牲にしている。 本稿では,連続学習のための生成モデルとカーネルの相乗効果を探索し,活用する生成型カーネル連続学習を提案する。 生成モデルはカーネル学習のための代表サンプルを生成することができ、カーネル連続学習におけるメモリ依存を取り除くことができる。 さらに、生成モデル上でのみ再生するので、モデル全体をリプレイする必要がある従来の方法よりも計算効率が高く、タスクの干渉を回避できる。 さらに,カーネルベースの分類性能を向上させるために,より識別的なサンプル生成を可能にする教師付きコントラスト正規化も導入する。 コントリビューションの能力とメリットを示すために,広く利用されている3つの連続学習ベンチマークについて広範な実験を行った。 スプリットCIFAR100ベンチマークでは、単純な線形カーネルで、メモリの10分の1の変動ランダムな特徴を持つカーネル連続学習と同じ精度を得るか、同じメモリ予算で10.1\%の精度を得る。

Kernel continual learning by \citet{derakhshani2021kerne l} has recently emerged as a strong continual learner due to its non-parametric ability to tackle task interference and catastrophic forgetting. Unfortunately its success comes at the expense of an explicit memory to store samples from past tasks, which hampers scalability to continual learning settings with a large number of tasks. In this paper, we introduce generative kernel continual learning, which explores and exploits the synergies between generative models and kernels for continual learning. The generative model is able to produce representative samples for kernel learning, which removes the dependence on memory in kernel continual learning. Moreover, as we replay only on the generative model, we avoid task interference while being computationally more efficient compared to previous methods that need replay on the entire model. We further introduce a supervised contrastive regularization, which enables our model to generate even more discriminative samples for better kernel-based classification performance. We conduct extensive experiments on three widely-used continual learning benchmarks that demonstrate the abilities and benefits of our contributions. Most notably, on the challenging SplitCIFAR100 benchmark, with just a simple linear kernel we obtain the same accuracy as kernel continual learning with variational random features for one tenth of the memory, or a 10.1\% accuracy gain for the same memory budget.
翻訳日:2021-12-28 14:41:16 公開日:2021-12-26
# ニューロシンボリック階層的規則誘導

Neuro-Symbolic Hierarchical Rule Induction ( http://arxiv.org/abs/2112.13418v1 )

ライセンス: Link先を確認
Claire Glanois, Xuening Feng, Zhaohui Jiang, Paul Weng, Matthieu Zimmer, Dong Li, Wulong Liu(参考訳) Inductive Logic Programming (ILP) 問題を解決するために, 効率的な解釈可能なニューロシンボリックモデルを提案する。 階層構造に組織されたメタルールのセットから構築されたこのモデルでは、メタルールの事実やボディ述語にマッチする埋め込みを学習して一階ルールを考案する。 インスタンス化するために、汎用メタルールの表現的集合を特に設計し、ホーン節の連続的な断片を生成することを実証する。 訓練中、制御された \pw{gumbel} ノイズを局所視能を避けるために注入し、解釈可能性正規化項を用いて解釈可能なルールへの収束をさらに導く。 我々は,様々な課題(ilp,視覚ゲノム,強化学習)におけるモデルの有効性を実証的に検証した。

We propose an efficient interpretable neuro-symbolic model to solve Inductive Logic Programming (ILP) problems. In this model, which is built from a set of meta-rules organised in a hierarchical structure, first-order rules are invented by learning embeddings to match facts and body predicates of a meta-rule. To instantiate it, we specifically design an expressive set of generic meta-rules, and demonstrate they generate a consequent fragment of Horn clauses. During training, we inject a controlled \pw{Gumbel} noise to avoid local optima and employ interpretability-reg ularization term to further guide the convergence to interpretable rules. We empirically validate our model on various tasks (ILP, visual genome, reinforcement learning) against several state-of-the-art methods.
翻訳日:2021-12-28 14:40:50 公開日:2021-12-26
# 理想微分を用いた拡散確率モデル除算のための it\^{o}-taylor サンプリングスキーム

It\^{o}-Taylor Sampling Scheme for Denoising Diffusion Probabilistic Models using Ideal Derivatives ( http://arxiv.org/abs/2112.13339v1 )

ライセンス: Link先を確認
Hideyuki Tachibana, Mocho Go, Muneyoshi Inahara, Yotaro Katayama, Yotaro Watanabe(参考訳) 拡散確率モデル(DDPM、Denoising Diffusion Probabilistic Models)は、GAN、VAEなどの一般的な深層神経生成モデルに対する新たな挑戦者として、近年注目を集めている。 しかし、DDPMは、しばしば合成中に非常に多くの精製工程を必要とするという欠点がある。 そこで本研究では, 確率微分方程式(sdes)の2次数値スキームに基づくddpmサンプラーを提案し, 従来のサンプラーは1次数値スキームに基づいている。 一般に、高階数値スキームで必要とされる微分を計算するのは容易ではない。 しかし、DDPMの場合、この困難さは著者らが「理想的微分置換」と呼ぶトリックによって軽減される。 新たに得られた高次サンプラーは画像生成と音声生成の両方に応用され,提案手法が比較的少ない精度で画像と音声信号を合成できることが実験的に観察された。

Denoising Diffusion Probabilistic Models (DDPMs) have been attracting attention recently as a new challenger to popular deep neural generative models including GAN, VAE, etc. However, DDPMs have a disadvantage that they often require a huge number of refinement steps during the synthesis. To address this problem, this paper proposes a new DDPM sampler based on a second-order numerical scheme for stochastic differential equations (SDEs), while the conventional sampler is based on a first-order numerical scheme. In general, it is not easy to compute the derivatives that are required in higher-order numerical schemes. However, in the case of DDPM, this difficulty is alleviated by the trick which the authors call "ideal derivative substitution". The newly derived higher-order sampler was applied to both image and speech generation tasks, and it is experimentally observed that the proposed sampler could synthesize plausible images and audio signals in relatively smaller number of refinement steps.
翻訳日:2021-12-28 14:18:40 公開日:2021-12-26