このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220226となっている論文です。

PDF登録状況(公開日: 20220226)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ソーシャルインタラクションと幸福を促進するAIエージェント [全文訳有]

AI agents for facilitating social interactions and wellbeing ( http://arxiv.org/abs/2203.06244v1 )

ライセンス: CC BY 4.0
Hiro Taiyo Hamada and Ryota Kanai(参考訳) 幸福なAIは、個人のメンタルヘルス、組織的健康、そして私たちの社会を繁栄させる新しいトレンドになりつつある。 幸福なAIの様々な応用が私たちの日常生活に導入されている。 グループ内の社会的関係は幸福の重要な要因であるが、社会的相互作用のための幸福なaiの開発は比較的少ないままである。 本稿では,ソーシャルインタラクションにおけるAI強化エージェントの役割について概説する。 まず、幸福なAIを分類する2次元フレームワーク、個人/グループと分析/介入について論じる。 さらに、幸福なAIは、ポジティブな社会的関係が人間の幸福の鍵となるため、人間と人間の相互作用の間の社会的関係の介入に触れる。 この介入は技術的および倫理的課題を引き起こす可能性がある。 我々は、我々の社会における幸福を促進するために、幸福なAIとリレーショナルアプローチの機会と課題について議論する。

Wellbeing AI has been becoming a new trend in individuals' mental health, organizational health, and flourishing our societies. Various applications of wellbeing AI have been introduced to our daily lives. While social relationships within groups are a critical factor for wellbeing, the development of wellbeing AI for social interactions remains relatively scarce. In this paper, we provide an overview of the mediative role of AI-augmented agents for social interactions. First, we discuss the two-dimensional framework for classifying wellbeing AI: individual/group and analysis/interventio n. Furthermore, wellbeing AI touches on intervening social relationships between human-human interactions since positive social relationships are key to human wellbeing. This intervention may raise technical and ethical challenges. We discuss opportunities and challenges of the relational approach with wellbeing AI to promote wellbeing in our societies.
翻訳日:2022-03-21 00:21:00 公開日:2022-02-26
# 近所における家庭内暴力予測の強化における携帯電話位置データによるアルコールアウトレット訪問の役割

The role of alcohol outlet visits derived from mobile phone location data in enhancing domestic violence prediction at the neighborhood level ( http://arxiv.org/abs/2203.04088v1 )

ライセンス: Link先を確認
Ting Chang, Yingjie Hu, Dane Taylor, Brian M. Quigley(参考訳) 家庭内暴力(dv)は深刻な公衆衛生問題であり、毎年女性3人に1人、男性4人に1人がパートナー関連の暴力を経験している。 既存の研究では、アルコール使用とDVの個人レベルでの強い関係が示されている。 したがって、アルコール使用は、dvがより起こりやすい地域を特定するのに役立つ近所レベルのdvの予測因子となる可能性がある。 しかし、特に地理的に広い地域において、地域レベルのアルコール使用を表現できるデータを集めることは困難かつコストがかかる。 本研究では,携帯電話位置情報の匿名化から地域住民のアルコールアウトレット訪問に関する情報を導出し,そこから得られた訪問が地域レベルでのdvの予測に役立つかどうかを検討する。 safegraphは研究者が無料で入手でき、アルコールのアウトレットを含む様々なポイント・オブ・インジェクトの訪問方法に関する情報を含んでいる。 このようなデータでは、携帯電話のGPSポイント位置とアルコールコンセントの建物フットプリント(ポリゴン)とに基づいてアルコールコンセントの訪問を特定する。 本研究は,シカゴにおけるdvに関する実証的データセットに基づくdv予測の促進に寄与する4種類の統計モデルと機械学習モデルを用いて,地域レベルのアルコールアウトレット訪問を導出する手法を提案する。 以上の結果から,DVに罹患しやすい地域を識別し,DV介入やアルコール飲料のライセンスに関する政策を通知する上で,抽出したアルコール飲料店の訪問の有効性が明らかとなった。

Domestic violence (DV) is a serious public health issue, with 1 in 3 women and 1 in 4 men experiencing some form of partner-related violence every year. Existing research has shown a strong association between alcohol use and DV at the individual level. Accordingly, alcohol use could also be a predictor for DV at the neighborhood level, helping identify the neighborhoods where DV is more likely to happen. However, it is difficult and costly to collect data that can represent neighborhood-level alcohol use especially for a large geographic area. In this study, we propose to derive information about the alcohol outlet visits of the residents of different neighborhoods from anonymized mobile phone location data, and investigate whether the derived visits can help better predict DV at the neighborhood level. We use mobile phone data from the company SafeGraph, which is freely available to researchers and which contains information about how people visit various points-of-interest including alcohol outlets. In such data, a visit to an alcohol outlet is identified based on the GPS point location of the mobile phone and the building footprint (a polygon) of the alcohol outlet. We present our method for deriving neighborhood-level alcohol outlet visits, and experiment with four different statistical and machine learning models to investigate the role of the derived visits in enhancing DV prediction based on an empirical dataset about DV in Chicago. Our results reveal the effectiveness of the derived alcohol outlets visits in helping identify neighborhoods that are more likely to suffer from DV, and can inform policies related to DV intervention and alcohol outlet licensing.
翻訳日:2022-03-13 13:52:21 公開日:2022-02-26
# (参考訳) ASSIST: ラベルノイズ・ロバスト対話状態追跡を目指して [全文訳有]

ASSIST: Towards Label Noise-Robust Dialogue State Tracking ( http://arxiv.org/abs/2202.13024v1 )

ライセンス: CC BY 4.0
Fanghua Ye, Yue Feng, Emine Yilmaz(参考訳) multiwoz 2.0データセットは対話状態追跡(dst)の研究を大きく促進した。 しかし、その状態アノテーションからかなりのノイズが発見されている。 このようなノイズは、DSTモデルを堅牢にトレーニングする上で大きな課題をもたらします。 multiwoz 2.1-2.4を含むいくつかの改良版が最近出版されているが、特にトレーニングセットではノイズの多いラベルが多数残されている。 さらに、問題のあるアノテーションをすべて修正するのはコストがかかる。 本稿では、アノテーションの品質をさらに向上させる代わりに、雑音ラベルからDSTモデルを堅牢に訓練するための一般的なフレームワークであるASSIST(lAbel noiSe-robuSt dIalogue State Tracking)を提案する。 ASSISTはまず、小さなクリーンデータセットでトレーニングされた補助モデルを使用してトレーニングセットの各サンプルの擬似ラベルを生成し、生成した擬似ラベルとバニラノイズラベルをまとめて一次モデルをトレーニングする。 理論的にはASSISTの有効性を示す。 実験の結果、ASSISTは、MultiWOZ 2.0の初期バージョンでは最大28.16 %、最新バージョンでは8.41 %、DSTの目標精度は最大28.16 %向上した。

The MultiWOZ 2.0 dataset has greatly boosted the research on dialogue state tracking (DST). However, substantial noise has been discovered in its state annotations. Such noise brings about huge challenges for training DST models robustly. Although several refined versions, including MultiWOZ 2.1-2.4, have been published recently, there are still lots of noisy labels, especially in the training set. Besides, it is costly to rectify all the problematic annotations. In this paper, instead of improving the annotation quality further, we propose a general framework, named ASSIST (lAbel noiSe-robuSt dIalogue State Tracking), to train DST models robustly from noisy labels. ASSIST first generates pseudo labels for each sample in the training set by using an auxiliary model trained on a small clean dataset, then puts the generated pseudo labels and vanilla noisy labels together to train the primary model. We show the validity of ASSIST theoretically. Experimental results also demonstrate that ASSIST improves the joint goal accuracy of DST by up to $28.16\%$ on the initial version MultiWOZ 2.0 and $8.41\%$ on the latest version MultiWOZ 2.4, respectively.
翻訳日:2022-03-04 11:00:28 公開日:2022-02-26
# (参考訳) healthsheet: 健康データセットのための透明性アーティファクトの開発 [全文訳有]

Healthsheet: Development of a Transparency Artifact for Health Datasets ( http://arxiv.org/abs/2202.13028v1 )

ライセンス: CC BY 4.0
Negar Rostamzadeh, Diana Mincu, Subhrajit Roy, Andrew Smart, Lauren Wilcox, Mahima Pushkarna, Jessica Schrouff, Razvan Amironesei, Nyalleng Moorosi, Katherine Heller(参考訳) 機械学習(ML)アプローチは、幅広い医療アプリケーションで有望な結果を示している。 データは、人々の生活に直接影響を与えるMLベースの医療システムの開発において重要な役割を果たす。 医療におけるMLの使用に関する倫理的問題の多くは、データの収集、使用、処理方法の根底にある構造的不平等に起因する。 したがって、mlヘルスケアデータセットの作成、使用、保守に関するドキュメンテーションプラクティスを改善するためのガイドラインの開発が極めて重要である。 そこで本研究では,健康に特有なアプリケーションに対して,オリジナルのデータシートアンケート ~\cite{gebru2018datasheets} を文脈順応したhealthsheetを提案する。 一連の半構造化インタビューを通じて、医療データドキュメントにデータシートを適用する。 Healthsheetの開発プロセスの一環として、研究者がデータシートを作成する上で直面する障害を理解するために、我々は3つの公開可能な医療データセットをケーススタディとして、それぞれ異なるタイプの構造化データであるElectronic Health Records(EHR)、臨床試験データ、スマートフォンベースのパフォーマンス結果測定に取り組みました。 インタビュアー研究から得られた知見とケーススタディから 1)データシートは医療のためにコンテキスト化されるべきである。 2)データシートなどのアカウンタビリティプラクティスの採用のインセンティブにもかかわらず,これらのプラクティスの広範な使用には一貫性が欠如していること。 3) 健康コミュニティのためのMLは、データセットの制限と強度を明らかにするための診断ツールとして、データシート、特に‘textit{Healthsheets’をどう見ているか。 4) 医療上の問題に対するデータシートの異なる分野の重要性。

Machine learning (ML) approaches have demonstrated promising results in a wide range of healthcare applications. Data plays a crucial role in developing ML-based healthcare systems that directly affect people's lives. Many of the ethical issues surrounding the use of ML in healthcare stem from structural inequalities underlying the way we collect, use, and handle data. Developing guidelines to improve documentation practices regarding the creation, use, and maintenance of ML healthcare datasets is therefore of critical importance. In this work, we introduce Healthsheet, a contextualized adaptation of the original datasheet questionnaire ~\cite{gebru2018datasheets} for health-specific applications. Through a series of semi-structured interviews, we adapt the datasheets for healthcare data documentation. As part of the Healthsheet development process and to understand the obstacles researchers face in creating datasheets, we worked with three publicly-available healthcare datasets as our case studies, each with different types of structured data: Electronic health Records (EHR), clinical trial study data, and smartphone-based performance outcome measures. Our findings from the interviewee study and case studies show 1) that datasheets should be contextualized for healthcare, 2) that despite incentives to adopt accountability practices such as datasheets, there is a lack of consistency in the broader use of these practices 3) how the ML for health community views datasheets and particularly \textit{Healthsheets} as diagnostic tool to surface the limitations and strength of datasets and 4) the relative importance of different fields in the datasheet to healthcare concerns.
翻訳日:2022-03-04 10:39:50 公開日:2022-02-26
# クラウドソーシングのための近隣地域分類の強化

Enhanced Nearest Neighbor Classification for Crowdsourcing ( http://arxiv.org/abs/2203.00781v1 )

ライセンス: Link先を確認
Jiexin Duan, Xingye Qiao, Guang Cheng(参考訳) 機械学習では、クラウドソーシングは大量のデータをラベル付けする経済的な方法だ。 しかし、生成ラベルのノイズはラベル付きデータに適用された分類法の精度を低下させる可能性がある。 我々は,この問題を克服するためにenn(extended closest neighbor classifier)を提案する。 1つは、専門家データに$k$NNの分類器を適用することで、分類された労働者ラベルに基づいて見積もりを構築することであり、もう1つは、専門家データにアクセスしなくても機能する反復アルゴリズムである。 提案手法は,強い数値的証拠以外に,高品質な専門家データに基づくオラクル版と同様の後悔を味わえることが証明されている。 技術的副産物として、後悔の最適収束率に達するために各作業員に割り当てられたサンプルサイズの下限を導出する。

In machine learning, crowdsourcing is an economical way to label a large amount of data. However, the noise in the produced labels may deteriorate the accuracy of any classification method applied to the labelled data. We propose an enhanced nearest neighbor classifier (ENN) to overcome this issue. Two algorithms are developed to estimate the worker quality (which is often unknown in practice): one is to construct the estimate based on the denoised worker labels by applying the $k$NN classifier to the expert data; the other is an iterative algorithm that works even without access to the expert data. Other than strong numerical evidence, our proposed methods are proven to achieve the same regret as its oracle version based on high-quality expert data. As a technical by-product, a lower bound on the sample size assigned to each worker to reach the optimal convergence rate of regret is derived.
翻訳日:2022-03-03 14:19:16 公開日:2022-02-26
# (参考訳) 複雑な果樹園環境のための光フローベース分岐セグメンテーション [全文訳有]

Optical flow-based branch segmentation for complex orchard environments ( http://arxiv.org/abs/2202.13050v1 )

ライセンス: CC BY 4.0
Alexander You, Cindy Grimm, Joseph R. Davidson(参考訳) 機械ビジョンは、ロボットが果樹園環境で様々なタスクを実行できるようにするための重要なサブシステムである。 しかし、果樹園は非常に視覚的に複雑な環境であり、それらで動作するコンピュータビジョンアルゴリズムは、様々な照明条件や背景ノイズと競合できなければならない。 このような環境でディープラーニングアルゴリズムを運用するためには、通常、ディープニューラルネットワークをトレーニングしたり、環境が知覚される条件を物理的に制御するために、大量の手ラベルデータが必要だった。 本稿では,シミュレーションにおいて,RGBデータと光フローのシミュレーションのみを用いてニューラルネットワークシステムを訓練する。 この結果得られるニューラルネットワークは、実世界のトレーニングや、標準カメラ以外の特別なセットアップや機器を使用することなく、忙しい果樹園環境で分岐の前景セグメンテーションを実行できる。 その結果,本システムは,手動ラベル付きrgbdデータを用いたネットワークと比較した場合,トレーニングセットと異なる環境間において,より一貫性とロバストな性能を実現することができた。

Machine vision is a critical subsystem for enabling robots to be able to perform a variety of tasks in orchard environments. However, orchards are highly visually complex environments, and computer vision algorithms operating in them must be able to contend with variable lighting conditions and background noise. Past work on enabling deep learning algorithms to operate in these environments has typically required large amounts of hand-labeled data to train a deep neural network or physically controlling the conditions under which the environment is perceived. In this paper, we train a neural network system in simulation only using simulated RGB data and optical flow. This resulting neural network is able to perform foreground segmentation of branches in a busy orchard environment without additional real-world training or using any special setup or equipment beyond a standard camera. Our results show that our system is highly accurate and, when compared to a network using manually labeled RGBD data, achieves significantly more consistent and robust performance across environments that differ from the training set.
翻訳日:2022-03-03 13:46:15 公開日:2022-02-26
# (参考訳) 有害コードレビューの自動識別:どこまで進むことができるのか? [全文訳有]

Automated Identification of Toxic Code Reviews: How Far Can We Go? ( http://arxiv.org/abs/2202.13056v1 )

ライセンス: CC BY 4.0
Jaydeb Sarker, Asif Kamal Turzo, Ming Dong, Amiangshu Bosu(参考訳) ソフトウェア開発のインタラクションにおける有害な会話は、FOSS(Free and Open Source Software)開発プロジェクトに深刻な影響を与える可能性がある。 例えば、有害な会話の被害者は自己表現を怖がり、モチベーションが低下し、最終的にプロジェクトを離れる可能性がある。 有害な会話の自動フィルタリングは、FOSSコミュニティがメンバー間の健全な相互作用を維持するのに役立つかもしれない。 しかし、市販の毒性検出器は、コードレビューコメントからキュレートされたものなど、ソフトウェアエンジニアリング(se)データセットでは性能が劣る。 この課題に対処するために、コードレビューインタラクションのための教師付き学習ベースの毒性識別ツールToxiCRを提案する。 ToxiCRには、教師付き学習アルゴリズムの1つを選択する選択肢、テキストベクトル化テクニックを選択するオプション、5つの必須および3つのオプションSEドメイン固有の処理ステップ、19,571のコードレビューコメントの大規模ラベル付きデータセットが含まれる。 各種前処理ステップとベクトル化手法を組み合わせたモデルの厳密な評価により、95.8%の精度と88.9%のF1スコアを向上するデータセットに最適な組み合わせを見出した。 ToxiCRは、我々のデータセット上の既存の毒性検知器を著しく上回る。 我々はデータセット、事前トレーニングされたモデル、評価結果、およびソースコードをhttps://github.com/W SU-SEAL/ToxiCR.comで公開しました。

Toxic conversations during software development interactions may have serious repercussions on a Free and Open Source Software (FOSS) development project. For example, victims of toxic conversations may become afraid to express themselves, therefore get demotivated, and may eventually leave the project. Automated filtering of toxic conversations may help a FOSS community to maintain healthy interactions among its members. However, off-the-shelf toxicity detectors perform poorly on Software Engineering (SE) dataset, such as one curated from code review comments. To encounter this challenge, we present ToxiCR, a supervised learning-based toxicity identification tool for code review interactions. ToxiCR includes a choice to select one of the ten supervised learning algorithms, an option to select text vectorization techniques, five mandatory and three optional SE domain specific processing steps, and a large scale labeled dataset of 19,571 code review comments. With our rigorous evaluation of the models with various combinations of preprocessing steps and vectorization techniques, we have identified the best combination for our dataset that boosts 95.8% accuracy and 88.9% F1 score. ToxiCR significantly outperforms existing toxicity detectors on our dataset. We have released our dataset, pretrained models, evaluation results, and source code publicly available at: https://github.com/W SU-SEAL/ToxiCR.
翻訳日:2022-03-03 13:28:29 公開日:2022-02-26
# (参考訳) ロボット感覚運動系列学習のためのランダム線形射影による潜在空間座標の初期化 [全文訳有]

Initialization of Latent Space Coordinates via Random Linear Projections for Learning Robotic Sensory-Motor Sequences ( http://arxiv.org/abs/2202.13057v1 )

ライセンス: CC BY 4.0
Vsevolod Nikulin and Jun Tani(参考訳) ロボットの運動データは、高次元のプロセスであるにもかかわらず、特に特定の原始群に群がった動きを考えるとき、高い相関性を持つ。 これらの原始空間内のほぼ線形相関は、全ての運動の空間における低次元線型部分空間の和に近い点として運動を解釈することができる。 埋め込み理論の結果、特にホイットニー埋め込み定理の一般化により、低次元空間への運動列のランダムな線形射影がキネマティックスデータの構造に関するほとんど情報を失うことを示す。 ロボット感覚運動プリミティブの生成モデルにおける潜伏変数の値について、投影された点は、非常によい初期推定である。 そこで我々は,9自由度ロボットマニピュレータのセンサ・モーター・シーケンスを生成するために,リカレントニューラルネットワークを訓練した。 実験結果から,0値あるいはランダム値の初期化によるモータデータのランダム線形投影による潜伏変数の初期化において,未観測試料の一般化能力は著しく向上した。 さらに、遅延空間は、異なるプリミティブに属するサンプルがトレーニングプロセスの開始から適切に分離されるように構造化されている。

Robot kinematics data, despite being a high dimensional process, is highly correlated, especially when considering motions grouped in certain primitives. These almost linear correlations within primitives allow us to interpret the motions as points drawn close to a union of low-dimensional linear subspaces in the space of all motions. Motivated by results of embedding theory, in particular, generalizations of Whitney embedding theorem, we show that random linear projection of motor sequences into low dimensional space loses very little information about structure of kinematics data. Projected points are very good initial guess for values of latent variables in generative model for robot sensory-motor behaviour primitives. We conducted series of experiments where we trained a recurrent neural network to generate sensory-motor sequences for robotic manipulator with 9 degrees of freedom. Experimental results demonstrate substantial improvement in generalisation abilities for unobserved samples in the case of initialization of latent variables with random linear projection of motor data over initialization with zero or random values. Moreover, latent space is well-structured wherein samples belonging to different primitives are well separated from the onset of training process.
翻訳日:2022-03-03 12:05:29 公開日:2022-02-26
# (参考訳) クラウドローカライズのためのエンド・ツー・エンド変圧器モデル [全文訳有]

An End-to-End Transformer Model for Crowd Localization ( http://arxiv.org/abs/2202.13065v1 )

ライセンス: CC0 1.0
Dingkang Liang, Wei Xu, Xiang Bai(参考訳) 頭の位置を予測するクラウドローカライゼーションは、単に数えるよりも実用的でハイレベルなタスクである。 既存の方法は擬似有界ボックスや事前設計されたローカライゼーションマップを使用し、複雑な後処理に頼って先頭位置を得る。 本稿では,レグレッションベースパラダイムの課題を解決するために,CLTRと呼ばれるエレガントでエンドツーエンドなクラウドローカライゼーションTRansformerを提案する。 提案手法は,群衆の局所化を直接セット予測問題とみなし,抽出した特徴と学習可能な埋め込みを変換器デコーダの入力とする。 KMOベースのハンガリー語を導入し、独立インスタンスビューではなくコンテキストビューからラベルの割り当てを革新的に修正する。 各種データ設定における5つのデータセットに対する大規模な実験により,本手法の有効性が示された。 特に,提案手法は,NWPU-Crowd, UCF-QNRF, ShanghaiTech Part Aデータセット上での最適なローカライズ性能を実現する。

Crowd localization, predicting head positions, is a more practical and high-level task than simply counting. Existing methods employ pseudo-bounding boxes or pre-designed localization maps, relying on complex post-processing to obtain the head positions. In this paper, we propose an elegant, end-to-end Crowd Localization TRansformer named CLTR that solves the task in the regression-based paradigm. The proposed method views the crowd localization as a direct set prediction problem, taking extracted features and trainable embeddings as input of the transformer-decoder. To achieve good matching results, we introduce a KMO-based Hungarian, which innovatively revisits the label assignment from a context view instead of an independent instance view. Extensive experiments conducted on five datasets in various data settings show the effectiveness of our method. In particular, the proposed method achieves the best localization performance on the NWPU-Crowd, UCF-QNRF, and ShanghaiTech Part A datasets.
翻訳日:2022-03-03 11:46:50 公開日:2022-02-26
# (参考訳) 小売店における商品認識のための深層学習手法の改良 [全文訳有]

An Improved Deep Learning Approach For Product Recognition on Racks in Retail Stores ( http://arxiv.org/abs/2202.13081v1 )

ライセンス: CC BY 4.0
Ankit Sinha, Soham Banerjee and Pratik Chattopadhyay(参考訳) 小売店舗における自動製品認識は、コンピュータビジョンとパターン認識の領域において重要な実世界応用である。 本稿では,小売店舗のラックに置かれている商品のクラスを,ラックの画像とクエリ/製品画像から自動的に識別する問題について考察する。 我々は、ラック画像中のオブジェクト領域を検出するFaster-RCNNベースのオブジェクトローカライザと、検出された領域を適切なクラスに分類するResNet-18ベースのイメージエンコーダからなる2段階オブジェクト検出認識パイプラインを開発することにより、既存のアプローチの有効性とメモリ要件の観点から改善する。 各モデルは、より優れた予測のために適切なデータセットを使用して微調整され、クエリイメージ毎にデータ拡張が行われ、ResNet-18ベースの製品認識モデルを微調整するための広範なギャラリーセットが作成される。 このエンコーダは、オンライン・ハード・ネガティブ・マイニングの戦略に従って三重項損失関数を用いてトレーニングし、予測を改善する。 提案するモデルは軽量で,デプロイ時にエンドツーエンドで接続可能で,ラックイメージに配置された各製品オブジェクトを自動的に識別する。 grozi-32kおよびgp-180データセットを用いた広範な実験により,提案モデルの有効性が検証された。

Automated product recognition in retail stores is an important real-world application in the domain of Computer Vision and Pattern Recognition. In this paper, we consider the problem of automatically identifying the classes of the products placed on racks in retail stores from an image of the rack and information about the query/product images. We improve upon the existing approaches in terms of effectiveness and memory requirement by developing a two-stage object detection and recognition pipeline comprising of a Faster-RCNN-based object localizer that detects the object regions in the rack image and a ResNet-18-based image encoder that classifies the detected regions into the appropriate classes. Each of the models is fine-tuned using appropriate data sets for better prediction and data augmentation is performed on each query image to prepare an extensive gallery set for fine-tuning the ResNet-18-based product recognition model. This encoder is trained using a triplet loss function following the strategy of online-hard-negative -mining for improved prediction. The proposed models are lightweight and can be connected in an end-to-end manner during deployment for automatically identifying each product object placed in a rack image. Extensive experiments using Grozi-32k and GP-180 data sets verify the effectiveness of the proposed model.
翻訳日:2022-03-03 11:29:12 公開日:2022-02-26
# (参考訳) 対称畳み込みフィルタ:CNNにおけるパラメータ制約の新しい方法 [全文訳有]

Symmetric Convolutional Filters: A Novel Way to Constrain Parameters in CNN ( http://arxiv.org/abs/2202.13099v1 )

ライセンス: CC BY 4.0
Harish Agrawal, Sumana T., S.K. Nandy(参考訳) 対称フィルタに基づくCNNのパラメータを制約する新しい手法を提案する。 対称性の組み合わせがSOTAネットワークに与える影響について検討する。 モデルが効果的な一般化とパラメータの冗長性の構造化除去をもたらすことを実証する。 我々は,本手法を他の刈り取り技術と比較することで結論づける。

We propose a novel technique to constrain parameters in CNN based on symmetric filters. We investigate the impact on SOTA networks when varying the combinations of symmetricity. We demonstrate that our models offer effective generalisation and a structured elimination of redundancy in parameters. We conclude by comparing our method with other pruning techniques.
翻訳日:2022-03-03 11:16:24 公開日:2022-02-26
# (参考訳) Semantic Supervision: アウトプットスペースに対する一般化の実現 [全文訳有]

Semantic Supervision: Enabling Generalization over Output Spaces ( http://arxiv.org/abs/2202.13100v1 )

ライセンス: CC BY 4.0
Austin W. Hanjie and Ameet Deshpande and Karthik Narasimhan(参考訳) 本稿では,出力空間を一般化する分類器を訓練するための統一パラダイムであるsemsupを提案する。 クラスを離散的なシンボルとして扱う標準的な分類とは対照的に、セムサップはクラスの記述から得られる密集したベクトル特徴(例えば「猫は小さな肉食哺乳動物である」)を表す。 これにより、出力空間は(記述の空間において)非有界となり、モデルが見えない入力と見えない出力の両方を一般化することができる(例えば、「アードヴァルクは長い耳を持つ夜行性バローリング哺乳動物である」)。 具体的には、semsup は 4 種類の一般化が可能であり、(1) 未認識のクラス記述、(2) 未認識のクラス、(3) 未認識のスーパークラス、(4) 未認識のタスクである。 2つの変種(マルチクラスとマルチラベル)、2つの入力モダリティ(テキストとイメージ)、2つの出力記述モダリティ(テキストとjson)をまたいだ4つの分類データセットの実験を通じて、semsupモデルが標準教師付きモデルやクラス名に対する単語埋め込みを利用する既存モデルを大きく上回ることを示した。 例えば、我々のモデルは、ニュース分類データセット(RCV1)上で、目に見えない記述やクラスに対して、ベースラインを40%、精度20%で上回ります。 SemSupは、ニューラルネットワークモデルを大きな非有界な出力空間にスケーリングするための経路として機能し、見えないタスクやドメインに対するより良い一般化とモデルの再利用を可能にする。

In this paper, we propose Semantic Supervision (SemSup) - a unified paradigm for training classifiers that generalize over output spaces. In contrast to standard classification, which treats classes as discrete symbols, SemSup represents them as dense vector features obtained from descriptions of classes (e.g., "The cat is a small carnivorous mammal"). This allows the output space to be unbounded (in the space of descriptions) and enables models to generalize both over unseen inputs and unseen outputs (e.g. "The aardvark is a nocturnal burrowing mammal with long ears"). Specifically, SemSup enables four types of generalization, to -- (1) unseen class descriptions, (2) unseen classes, (3) unseen super-classes, and (4) unseen tasks. Through experiments on four classification datasets across two variants (multi-class and multi-label), two input modalities (text and images), and two output description modalities (text and JSON), we show that our SemSup models significantly outperform standard supervised models and existing models that leverage word embeddings over class names. For instance, our model outperforms baselines by 40% and 20% precision points on unseen descriptions and classes, respectively, on a news categorization dataset (RCV1). SemSup can serve as a pathway for scaling neural models to large unbounded output spaces and enabling better generalization and model reuse for unseen tasks and domains.
翻訳日:2022-03-03 11:08:10 公開日:2022-02-26
# (参考訳) リモートセンシングにおけるノイズトレーニング画像テキスト対応に頑健な教師なしクロスモーダルハッシュ法 [全文訳有]

An Unsupervised Cross-Modal Hashing Method Robust to Noisy Training Image-Text Correspondences in Remote Sensing ( http://arxiv.org/abs/2202.13117v1 )

ライセンス: CC BY 4.0
Georgii Mikriukov, Mahdyar Ravanbakhsh, Beg\"um Demir(参考訳) あるモダリティ(テキストなど)からのクエリを、別のモダリティ(リモートセンシングイメージなど)からのアーカイブエントリとマッチングできる、正確でスケーラブルなクロスモーダルな画像テキスト検索手法の開発は、リモートセンシング(rs)において大きな注目を集めている。 既存の手法の多くは、正確に一致したテキストイメージ対を持つ信頼性の高いマルチモーダルトレーニングセットが存在すると仮定している。 しかし、この仮定は、マルチモーダルなトレーニングセットにはノイズのあるペア(例えば、トレーニング画像に関連するテキスト記述やカプセル)が含まれており、検索方法の学習プロセスを歪めてしまうため、常に成り立つとは限らない。 この問題に対処するために,ノイズの多い画像テキスト対応(chnr)に頑健な教師なしクロスモーダルハッシュ法を提案する。 CHNRは3つのモジュールから構成される。 1) 画像とテキストの対の特徴表現を抽出する特徴抽出モジュール 2)潜在的なノイズ対応を検出するノイズ検出モジュール,及び 3) クロスモーダルバイナリハッシュコードを生成するハッシュモジュール。 提案されたCHNRは2つの訓練段階を含む。 一 クリーンな(すなわち、信頼性の高い)データのごく一部を使用して、ノイズ検出モジュールを敵対的に訓練するメタラーニングフェーズ 二 訓練されたノイズ検出モジュールを使用してノイズ対応を識別するメイントレーニングフェーズを、ハッシングモジュールをノイズのマルチモーダルトレーニングセットで訓練する。 実験の結果,CHNRは最先端手法よりも優れていた。 私たちのコードはhttps://git.tu-berli n.de/rsim/chnrで公開されています。

The development of accurate and scalable cross-modal image-text retrieval methods, where queries from one modality (e.g., text) can be matched to archive entries from another (e.g., remote sensing image) has attracted great attention in remote sensing (RS). Most of the existing methods assume that a reliable multi-modal training set with accurately matched text-image pairs is existing. However, this assumption may not always hold since the multi-modal training sets may include noisy pairs (i.e., textual descriptions/caption s associated to training images can be noisy), distorting the learning process of the retrieval methods. To address this problem, we propose a novel unsupervised cross-modal hashing method robust to the noisy image-text correspondences (CHNR). CHNR consists of three modules: 1) feature extraction module, which extracts feature representations of image-text pairs; 2) noise detection module, which detects potential noisy correspondences; and 3) hashing module that generates cross-modal binary hash codes. The proposed CHNR includes two training phases: i) meta-learning phase that uses a small portion of clean (i.e., reliable) data to train the noise detection module in an adversarial fashion; and ii) the main training phase for which the trained noise detection module is used to identify noisy correspondences while the hashing module is trained on the noisy multi-modal training set. Experimental results show that the proposed CHNR outperforms state-of-the-art methods. Our code is publicly available at https://git.tu-berli n.de/rsim/chnr
翻訳日:2022-03-03 10:46:17 公開日:2022-02-26
# (参考訳) 人物再特定: ドメイン固有のオープンチャレンジと今後のトレンドに関するふりかえり

Person Re-identification: A Retrospective on Domain Specific Open Challenges and Future Trends ( http://arxiv.org/abs/2202.13121v1 )

ライセンス: CC BY 4.0
Asmat Zahra, Nazia Perwaiz, Muhammad Shahzad, Muhammad Moazam Fraz(参考訳) 人物再識別(Re-ID)は、自動化された視覚監視システムの主要な構成要素の1つである。 オーバーラップしない視野を持つマルチカメラネットワーク内の人物を自動的に識別・検索することを目的としている。 さまざまな応用の可能性と研究の意義から,近年,ディープラーニングに基づくre-idアプローチが数多く提案されている。 しかし、オクルージョン、ポーズスケール \&パースペクティブ ばらつき、バックグラウンド クラッタ、人物のミスアライメント、カメラのモダリティ間のクロスドメインの一般化など、視覚に関する課題がいくつか存在し、再Idの問題はまだ解決されていない。 提案されたアプローチの多数は、これらの既存の課題の1つまたは複数の解決を、直接的または間接的に目的としている。 この文脈では、これらの課題を解決するための現在のre-IDアプローチの包括的なレビューが必要である。 本稿では,2015~21年の間に,230以上の論文を対象とした,体系的な課題特異的文献調査を行った。 このタイプの調査を初めて行ったのは、そのようなソリューション指向の観点から、その人が再Idアプローチをレビューすることです。 さらに,各研究領域において,現在進行中の人物再特定研究に対するビジョン的視点を提供し,最終的には実用的な実世界ソリューションの開発を支援する,多角的展開トレンドをいくつか提示した。

Person re-identification (Re-ID) is one of the primary components of an automated visual surveillance system. It aims to automatically identify/search persons in a multi-camera network having non-overlapping field-of-views. Owing to its potential in various applications and research significance, a plethora of deep learning based re-Id approaches have been proposed in the recent years. However, there exist several vision related challenges, e.g., occlusion, pose scale \& viewpoint variance, background clutter, person misalignment and cross-domain generalization across camera modalities, which makes the problem of re-Id still far from being solved. Majority of the proposed approaches directly or indirectly aim to solve one or multiple of these existing challenges. In this context, a comprehensive review of current re-ID approaches in solving theses challenges is needed to analyze and focus on particular aspects for further advancements. At present, such a focused review does not exist and henceforth in this paper, we have presented a systematic challenge-specific literature survey of 230+ papers between the years of 2015-21. For the first time a survey of this type have been presented where the person re-Id approaches are reviewed in such solution-oriented perspective. Moreover, we have presented several diversified prominent developing trends in the respective research domain which will provide a visionary perspective regarding ongoing person re-Id research and eventually help to develop practical real world solutions.
翻訳日:2022-03-03 10:33:52 公開日:2022-02-26
# (参考訳) 品質マップと時間アテンションネットワークによるマルチイメージ超解像 [全文訳有]

Multi-image Super-resolution via Quality Map Associated Temporal Attention Network ( http://arxiv.org/abs/2202.13124v1 )

ライセンス: CC BY 4.0
Minji Lee, Inyong Koo, Kangwook Ko, Changick Kim(参考訳) リモートセンシングにおけるディープラーニングベースの手法への関心が高まり、ニューラルネットワークはマルチイメージ融合とスーパーレゾリューションにおいて顕著な進歩を遂げている。 マルチイメージ・スーパーレゾリューションの利点を十分に活用するには、モデルがノイズよりも信頼性の高い機能に集中できるため、時間的注意が不可欠である。 画像のノイズを示す品質マップ(QMs)が存在するにもかかわらず、PRBA-Vデータセットでテストされたほとんどの方法は、時間的注意のためにQMsを使用していない。 本稿では,QMを特徴表現と融合プロセスの両方に組み込む新しい手法である品質マップ関連時間的注意ネットワーク(QA-Net)を提案する。 低分解能な特徴は、繰り返しマルチヘッドアテンションモジュールにおけるQM特徴に時間的に付随する。 提案手法は, PROBA-V データセットを用いて最先端の結果を得た。

With the rising interest in deep learning-based methods in remote sensing, neural networks have made remarkable advancements in multi-image fusion and super-resolution. To fully exploit the advantages of multi-image super-resolution, temporal attention is crucial as it allows a model to focus on reliable features rather than noises. Despite the presence of quality maps (QMs) that indicate noises in images, most of the methods tested in the PROBA-V dataset have not been used QMs for temporal attention. We present a quality map associated temporal attention network (QA-Net), a novel method that incorporates QMs into both feature representation and fusion processes for the first time. Low-resolution features are temporally attended by QM features in repeated multi-head attention modules. The proposed method achieved state-of-the-art results in the PROBA-V dataset.
翻訳日:2022-03-03 10:32:37 公開日:2022-02-26
# (参考訳) ハード制約最適化問題の量子アルゴリズム

Quantum Algorithms for solving Hard Constrained Optimisation Problems ( http://arxiv.org/abs/2202.13125v1 )

ライセンス: CC BY 4.0
Parfait Atchade-Adelomou(参考訳) この論文は、ハード制約最適化問題を解決するための量子アルゴリズムを扱う。 量子コンピュータが、ソーシャルワーカーにとって最高のスケジュールを見つけることや、倉庫でロボットを拾い、バッチする経路を見つけるなど、日々の難しい問題を解決する方法を示している。 このソリューションへの道のりは、量子コンピューティング、量子ケースベースの推論(qCBR)、および、IBMQ、Amazon Braket(D-Wave)、Pennylaneといった主要な技術プレーヤーと操作可能なRaspberry Pi 4をプロセッサ(qRobot)として使用して、モバイルロボティクスにおける量子コンピューティングの能力を統合する概念の証明を含む、新しい人工知能パラダイムの定義につながった。 このnisq時代とそれに続く変分アルゴリズムの実行時間を改善するため、我々はvqeを高速化する量子指数値近似アルゴリズムであるevaを提案した。 このnisq時代とそれに続く変分アルゴリズムの実行時間を改善するため、我々はvqeを高速化する量子指数値近似アルゴリズムであるevaを提案した。

The thesis deals with Quantum Algorithms for solving Hard Constrained Optimization Problems. It shows how quantum computers can solve difficult everyday problems such as finding the best schedule for social workers or the path of a robot picking and batching in a warehouse. The path to the solution has led to the definition of a new artificial intelligence paradigm with quantum computing, quantum Case-Based Reasoning (qCBR) and to a proof of concept to integrate the capacity of quantum computing within mobile robotics using a Raspberry Pi 4 as a processor (qRobot), capable of operating with leading technology players such as IBMQ, Amazon Braket (D-Wave) and Pennylane. To improve the execution time of variational algorithms in this NISQ era and the next, we have proposed EVA: a quantum Exponential Value Approximation algorithm that speeds up the VQE, and that is, to date, the flagship of the quantum computation. To improve the execution time of variational algorithms in this NISQ era and the next, we have proposed EVA: a quantum Exponential Value Approximation algorithm that speeds up the VQE, and that is, to date, the flagship of the quantum computation.
翻訳日:2022-03-03 10:24:39 公開日:2022-02-26
# (参考訳) rayleigh-b\'{e}nard対流における局所乱流熱流の直接データ駆動予測 [全文訳有]

Direct data-driven forecast of local turbulent heat flux in Rayleigh-B\'{e}nard convection ( http://arxiv.org/abs/2202.13129v1 )

ライセンス: CC BY 4.0
Sandeep Pandey, Philipp Teutsch, Patrick M\"ader, J\"org Schumacher(参考訳) 2次元乱流Rayleigh-B\'{e}nard対流における局所対流熱流場の動的および低次統計を解析・予測するために,畳み込み自己エンコーダ・リカレントニューラルネットワーク機械学習モデルが提示され,レイリー数${\rm Pr}=7$とRayleigh数${\rm Ra}=10^7$が与えられた。 縮小潜在データ空間における流れデータの時間的進行に2つのリカレントニューラルネットワークを適用し、エコー状態ネットワークとリカレントゲートユニットの形式で貯水池計算モデルを適用する。 これにより、3つの異なる機械学習アルゴリズムのモジュラー結合を利用して、複雑な熱駆動流れにおける乱流熱伝達のダイナミックスを完全にデータ駆動で還元するモデルを構築する。 12個の隠れ層を持つ畳み込みオートエンコーダは、乱流データの寸法を元の約0.2%に縮小することができる。 本結果は,対流熱流束の1次および2次統計において,かなり良好な精度を示した。 このアルゴリズムは、熱境界層の上端における間欠的プルーム混合ダイナミクスを若干の偏差で再現することもできる。 同じことが、遠尾部が異なる局所対流熱流束の確率密度関数にも当てはまる。 さらに,本モデルが,大気・海洋循環モデルなどの大規模計算モデルの粗い格子セルに輸送流束と変動を伝達する還元力学モデルとして適用可能であることを示唆する枠組みの雑音弾性を実証する。

A combined convolutional autoencoder-recurren t neural network machine learning model is presented to analyse and forecast the dynamics and low-order statistics of the local convective heat flux field in a two-dimensional turbulent Rayleigh-B\'{e}nard convection flow at Prandtl number ${\rm Pr}=7$ and Rayleigh number ${\rm Ra}=10^7$. Two recurrent neural networks are applied for the temporal advancement of flow data in the reduced latent data space, a reservoir computing model in the form of an echo state network and a recurrent gated unit. Thereby, the present work exploits the modular combination of three different machine learning algorithms to build a fully data-driven and reduced model for the dynamics of the turbulent heat transfer in a complex thermally driven flow. The convolutional autoencoder with 12 hidden layers is able to reduce the dimensionality of the turbulence data to about 0.2 \% of their original size. Our results indicate a fairly good accuracy in the first- and second-order statistics of the convective heat flux. The algorithm is also able to reproduce the intermittent plume-mixing dynamics at the upper edges of the thermal boundary layers with some deviations. The same holds for the probability density function of the local convective heat flux with differences in the far tails. Furthermore, we demonstrate the noise resilience of the framework which suggests the present model might be applicable as a reduced dynamical model that delivers transport fluxes and their variations to the coarse grid cells of larger-scale computational models, such as global circulation models for the atmosphere and ocean.
翻訳日:2022-03-03 10:22:10 公開日:2022-02-26
# (参考訳) RONELDv2: 高速で改良された車線追跡方法 [全文訳有]

RONELDv2: A faster, improved lane tracking method ( http://arxiv.org/abs/2202.13137v1 )

ライセンス: CC BY 4.0
Zhe Ming Chng, Joseph Mun Hung Lew, Jimmy Addison Lee(参考訳) レーン検出は自動運転車における制御システムと車線離脱警告システムの重要な部分であり、車線は自動車の運転環境の重要な要素である。 前報では,アクティブレーン検出(roneld)法におけるロバストニューラルネットワークの出力向上により,ディープラーニングレーン検出モデルが強化され,アクティブレーン精度が向上した。 本研究は, 路面変化と異なる路面寸法(レーンマーキング厚など)に対する手法のロバスト性を高めるために用いた車線追跡法をさらに研究し, 改良された軽量車線検出法, RONELDv2を提案する。 従来のRONELD法では、レーン点の分散を検出し、レーンをマージしてより正確なレーンパラメータを見つけ、指数的な移動平均法を用いてより堅牢なレーン重量を計算する。 提案した改良を用いた実験では、異なるデータセットとディープラーニングモデル間でレーン検出精度が一貫して増加し、ランタイムの最大2倍の減少によって観測される計算複雑性が減少し、自動運転車や車線逸脱警告システムにおけるリアルタイム使用に適していることが示されている。

Lane detection is an integral part of control systems in autonomous vehicles and lane departure warning systems as lanes are a key component of the operating environment for road vehicles. In a previous paper, a robust neural network output enhancement for active lane detection (RONELD) method augmenting deep learning lane detection models to improve active, or ego, lane accuracy performance was presented. This paper extends the work by further investigating the lane tracking methods used to increase robustness of the method to lane changes and different lane dimensions (e.g. lane marking thickness) and proposes an improved, lighter weight lane detection method, RONELDv2. It improves on the previous RONELD method by detecting the lane point variance, merging lanes to find a more accurate set of lane parameters, and using an exponential moving average method to calculate more robust lane weights. Experiments using the proposed improvements show a consistent increase in lane detection accuracy results across different datasets and deep learning models, as well as a decrease in computational complexity observed via an up to two-fold decrease in runtime, which enhances its suitability for real-time use on autonomous vehicles and lane departure warning systems.
翻訳日:2022-03-03 09:58:15 公開日:2022-02-26
# (参考訳) Pix2NeRF: 単一画像からニューラルネットワークへの翻訳のための教師なし条件付き$\pi$-GAN [全文訳有]

Pix2NeRF: Unsupervised Conditional $\pi$-GAN for Single Image to Neural Radiance Fields Translation ( http://arxiv.org/abs/2202.13162v1 )

ライセンス: CC BY-SA 4.0
Shengqu Cai and Anton Obukhov and Dengxin Dai and Luc Van Gool(参考訳) 1つの入力画像で条件付けされたオブジェクトまたは特定のクラスのシーンのニューラルラミアンスフィールド~(nerf)を生成するパイプラインを提案する。 NeRFのトレーニングでは、同じシーンの複数のビューと、それに対応するポーズの取得が難しいため、これは難しい作業です。 提案手法は,無条件の3D画像合成のための生成モデルである$\pi$-GANをベースとした。 我々は,(1)高忠実度3D認識生成の活用を目的とした$\pi$-GAN目標と(2)慎重に設計された再構築目標を共同で最適化する。 後者は$\pi$-ganジェネレータと結合してオートエンコーダを形成するエンコーダを含んでいる。 これまでの数発のNeRFアプローチとは異なり、パイプラインは教師なしで、3D、マルチビュー、またはポーズの監督なしに独立したイメージでトレーニングできる。 パイプラインの応用例としては、3dアバター生成、単一入力画像によるオブジェクト中心の新規ビュー合成、3d対応超解像などがある。

We propose a pipeline to generate Neural Radiance Fields~(NeRF) of an object or a scene of a specific class, conditioned on a single input image. This is a challenging task, as training NeRF requires multiple views of the same scene, coupled with corresponding poses, which are hard to obtain. Our method is based on $\pi$-GAN, a generative model for unconditional 3D-aware image synthesis, which maps random latent codes to radiance fields of a class of objects. We jointly optimize (1) the $\pi$-GAN objective to utilize its high-fidelity 3D-aware generation and (2) a carefully designed reconstruction objective. The latter includes an encoder coupled with $\pi$-GAN generator to form an auto-encoder. Unlike previous few-shot NeRF approaches, our pipeline is unsupervised, capable of being trained with independent images without 3D, multi-view, or pose supervision. Applications of our pipeline include 3d avatar generation, object-centric novel view synthesis with a single input image, and 3d-aware super-resolution, to name a few.
翻訳日:2022-03-03 09:39:24 公開日:2022-02-26
# (参考訳) 不確かさを意識した擬似ラベル学習による教師なしドメイン適応有能物体検出 [全文訳有]

Unsupervised Domain Adaptive Salient Object Detection Through Uncertainty-Aware Pseudo-Label Learning ( http://arxiv.org/abs/2202.13170v1 )

ライセンス: CC BY 4.0
Pengxiang Yan, Ziyi Wu, Mengmeng Liu, Kun Zeng, Liang Lin, Guanbin Li(参考訳) 深層学習の最近の進歩は、より大規模なピクセル単位のアノテーションのラベル付けを犠牲にして、サルエントオブジェクト検出(SOD)の性能を著しく向上させた。 労働集約ラベリングの負担を軽減するため,手作りサリエンシ法によるノイズラベルの活用を目的とした深層無監督SOD法が提案されている。 しかし、荒々しい騒音ラベルから正確な精度の詳細を学習することは依然として困難である。 本稿では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成ラベルから,サリエンスを学習することを提案する。 具体的には,新しい合成sodデータセットを単純なコピーペースト戦略で構築する。 合成シナリオと実世界のシナリオの外観の違いを考えると、合成データで直接トレーニングすると、実世界のシナリオではパフォーマンスが低下する。 この問題を軽減するために,不確実性を考慮した自己学習により,これら2つの領域に適応する新しい非教師付きドメイン適応型SOD法を提案する。 実験の結果,提案手法はいくつかのベンチマークデータセット上で,既存の最先端の非教師付きSOD法よりも優れており,完全教師付きSOD法と同等であることがわかった。

Recent advances in deep learning significantly boost the performance of salient object detection (SOD) at the expense of labeling larger-scale per-pixel annotations. To relieve the burden of labor-intensive labeling, deep unsupervised SOD methods have been proposed to exploit noisy labels generated by handcrafted saliency methods. However, it is still difficult to learn accurate saliency details from rough noisy labels. In this paper, we propose to learn saliency from synthetic but clean labels, which naturally has higher pixel-labeling quality without the effort of manual annotations. Specifically, we first construct a novel synthetic SOD dataset by a simple copy-paste strategy. Considering the large appearance differences between the synthetic and real-world scenarios, directly training with synthetic data will lead to performance degradation on real-world scenarios. To mitigate this problem, we propose a novel unsupervised domain adaptive SOD method to adapt between these two domains by uncertainty-aware self-training. Experimental results show that our proposed method outperforms the existing state-of-the-art deep unsupervised SOD methods on several benchmark datasets, and is even comparable to fully-supervised ones.
翻訳日:2022-03-03 09:21:43 公開日:2022-02-26
# (参考訳) 深層強化学習によるドメイン知識に基づくアナログ回路設計 [全文訳有]

Domain Knowledge-Based Automated Analog Circuit Design with Deep Reinforcement Learning ( http://arxiv.org/abs/2202.13185v1 )

ライセンス: CC BY 4.0
Weidong Cao, Mouhacine Benosman, Xuan Zhang, Rui Ma(参考訳) アナログ回路の設計自動化は、集積回路分野における長年の課題である。 本稿では,要求される回路仕様を満たすデバイスパラメータの探索を目標とし,事前レイアウト段階でアナログ回路の設計を迅速化する深層強化学習手法を提案する。 我々のアプローチは、アナログ回路設計(例えば回路トポロジと回路仕様間の結合)のドメイン知識に依存する経験豊富な人間設計者から着想を得ている。 従来の手法と異なり,本手法はもともと,グラフベースのポリシーネットワークを用いたポリシー学習にそのような鍵となるドメイン知識を取り入れ,回路パラメータと設計目標の関係をモデル化する。 模範回路の実験結果から, 既存の最適性能手法の1.5倍の効率で, 人間の設計精度(約99%)を達成できた。 また, 回路性能最適化において, 仕様の把握や最適性が向上することを示す。 さらに、様々な半導体技術にわたる多様なアナログ回路の設計にも適用でき、従来の半導体技術で特定の種類のアナログ回路を設計する際のアドホック法の限界を破っている。

The design automation of analog circuits is a longstanding challenge in the integrated circuit field. This paper presents a deep reinforcement learning method to expedite the design of analog circuits at the pre-layout stage, where the goal is to find device parameters to fulfill desired circuit specifications. Our approach is inspired by experienced human designers who rely on domain knowledge of analog circuit design (e.g., circuit topology and couplings between circuit specifications) to tackle the problem. Unlike all prior methods, our method originally incorporates such key domain knowledge into policy learning with a graph-based policy network, thereby best modeling the relations between circuit parameters and design targets. Experimental results on exemplary circuits show it achieves human-level design accuracy (~99%) with 1.5x efficiency of existing best-performing methods. Our method also shows better generalization ability to unseen specifications and optimality in circuit performance optimization. Moreover, it applies to designing diverse analog circuits across different semiconductor technologies, breaking the limitations of prior ad-hoc methods in designing one particular type of analog circuits with conventional semiconductor technology.
翻訳日:2022-03-03 09:03:58 公開日:2022-02-26
# (参考訳) ドロップアウトはサンプル選択手法のための指数数モデルをシミュレートできる [全文訳有]

Dropout can Simulate Exponential Number of Models for Sample Selection Techniques ( http://arxiv.org/abs/2202.13203v1 )

ライセンス: CC0 1.0
Lakshya(参考訳) Coteachingに続いて、一般的に文献では、2つのモデルがサンプル選択に基づくノイズラベルのトレーニングに使用される。 一方で、ネットワークに存在するドロップアウトがサブネットワークのアンサンブルを訓練することもよく知られている。 我々はDropoutのこの特性を利用して、Dropoutで単一のモデルをトレーニングすることで、指数関数的な数の共有モデルをトレーニングする方法を示す。 本稿では,既存の2つのモデルに基づくサンプル選択手法を,指数的な数の共有モデルを使用する方法を示す。 単一のモデルをDropoutで使用する方が便利であるだけでなく、このアプローチはDropoutの自然な利点と指数関数的なモデルのトレーニングの利点を組み合わせることで、結果が改善される。

Following Coteaching, generally in the literature, two models are used in sample selection based approaches for training with noisy labels. Meanwhile, it is also well known that Dropout when present in a network trains an ensemble of sub-networks. We show how to leverage this property of Dropout to train an exponential number of shared models, by training a single model with Dropout. We show how we can modify existing two model-based sample selection methodologies to use an exponential number of shared models. Not only is it more convenient to use a single model with Dropout, but this approach also combines the natural benefits of Dropout with that of training an exponential number of models, leading to improved results.
翻訳日:2022-03-03 08:50:55 公開日:2022-02-26
# (参考訳) 複合凸最小化のための高速ワンサンプル確率条件勾配法 [全文訳有]

Faster One-Sample Stochastic Conditional Gradient Method for Composite Convex Minimization ( http://arxiv.org/abs/2202.13212v1 )

ライセンス: CC BY 4.0
Gideon Dresdner, Maria-Luiza Vladarean, Gunnar R\"atsch, Francesco Locatello, Volkan Cevher, Alp Yurtsever(参考訳) 滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化する確率的条件勾配法(CGM)を提案する。 このテンプレートの既存のCGM変種は、収束速度が遅いか、アルゴリズムの実行中にバッチサイズを慎重に増やさなければならないため、完全な勾配が計算される。 対照的に,確率的平均勾配(sag)推定器を備えた提案手法では,反復毎に1つのサンプルしか必要としない。 それでも、より洗練された分散低減技術と同等の高速収束率を保証する。 アプリケーションでは、多くの分離可能な制約のある問題に特に重点を置いています。 このような問題は、機械学習や理論計算機科学で生じる半定値プログラミング(SDP)の定式化に多い。 本研究では,行列補完,教師なしクラスタリング,スペルストカットSDPに関する数値実験を行う。

We propose a stochastic conditional gradient method (CGM) for minimizing convex finite-sum objectives formed as a sum of smooth and non-smooth terms. Existing CGM variants for this template either suffer from slow convergence rates, or require carefully increasing the batch size over the course of the algorithm's execution, which leads to computing full gradients. In contrast, the proposed method, equipped with a stochastic average gradient (SAG) estimator, requires only one sample per iteration. Nevertheless, it guarantees fast convergence rates on par with more sophisticated variance reduction techniques. In applications we put special emphasis on problems with a large number of separable constraints. Such problems are prevalent among semidefinite programming (SDP) formulations arising in machine learning and theoretical computer science. We provide numerical experiments on matrix completion, unsupervised clustering, and sparsest-cut SDPs.
翻訳日:2022-03-03 08:41:47 公開日:2022-02-26
# (参考訳) レーダーがどの程度の深度情報を推測し貢献できるか [全文訳有]

How much depth information can radar infer and contribute ( http://arxiv.org/abs/2202.13220v1 )

ライセンス: CC BY 4.0
Chen-Chou Lo and Patrick Vandewalle(参考訳) 大規模自動運転データセットにおけるレーダデータのリリース以降、レーダーデータを単眼深度推定モデルに追加の誘導信号として利用する多くの研究が提案されている。 肯定的な性能が報告されているが、どの程度の深度情報レーダが深度推定モデルに寄与できるかはいまだわからない。 本稿では,レーダデータの内在深度推定モデルを用いて,2つの実験を行い,その内在深度推定能力について検討する。 実験により, スパースレーダ入力のみによる推定深度は, 周囲の形状をある程度検出できることがわかった。 さらに,事前処理レーダで監視された単眼深度推定モデルは,sparse lidarで訓練されたベースラインモデルと比較して,delta_1スコアで70%の性能を達成できる。

Since the release of radar data in large scale autonomous driving dataset, many works have been proposed fusing radar data as an additional guidance signal into monocular depth estimation models. Although positive performances are reported, it is still hard to tell how much depth information radar can infer and contribute in depth estimation models. In this paper, we conduct two experiments to investigate the intrinsic depth capability of radar data using state-of-the-art depth estimation models. Our experiments demonstrate that the estimated depth from only sparse radar input can detect the shape of surroundings to a certain extent. Furthermore, the monocular depth estimation model supervised by preprocessed radar only during training can achieve 70% performance in delta_1 score compared to the baseline model trained with sparse lidar.
翻訳日:2022-03-03 07:48:11 公開日:2022-02-26
# (参考訳) 関係抽出と分類のための生成モデル [全文訳有]

A Generative Model for Relation Extraction and Classification ( http://arxiv.org/abs/2202.13229v1 )

ライセンス: CC BY-SA 4.0
Jian Ni, Gaetano Rossiello, Alfio Gliozzo, Radu Florian(参考訳) 関係抽出(RE)は,知識ベース人口や質問応答など,多くのNLPアプリケーションに不可欠な情報を提供する重要な情報抽出タスクである。 本稿では,関係抽出と分類のための新しい生成モデル(GREC)を提案し,REをシーケンス・ツー・シーケンス生成タスクとしてモデル化する。 本稿では、ソースおよびターゲットシーケンスの様々なエンコーディング表現について検討し、3つのベンチマークREデータセット上でGRECが最先端のパフォーマンスを達成できる効果的なスキームを設計する。 さらに,モデルの精度とリコール性能をチューニングするためのフレキシブルなツールとして,負のサンプリング・デコード・スケーリング手法を導入する。 我々の手法は、文から三重項を1パスで抽出するために拡張することができる。 ワンパス方式は特定の性能損失を引き起こすが、より計算効率が良い。

Relation extraction (RE) is an important information extraction task which provides essential information to many NLP applications such as knowledge base population and question answering. In this paper, we present a novel generative model for relation extraction and classification (which we call GREC), where RE is modeled as a sequence-to-sequence generation task. We explore various encoding representations for the source and target sequences, and design effective schemes that enable GREC to achieve state-of-the-art performance on three benchmark RE datasets. In addition, we introduce negative sampling and decoding scaling techniques which provide a flexible tool to tune the precision and recall performance of the model. Our approach can be extended to extract all relation triples from a sentence in one pass. Although the one-pass approach incurs certain performance loss, it is much more computationally efficient.
翻訳日:2022-03-03 07:39:43 公開日:2022-02-26
# (参考訳) 分散歩行者追跡のための方向弁別特徴表現 [全文訳有]

Orientation-Discrimi native Feature Representation for Decentralized Pedestrian Tracking ( http://arxiv.org/abs/2202.13237v1 )

ライセンス: CC BY 4.0
Vikram Shree, Carlos Diaz-Ruiz, Chang Liu, Bharath Hariharan, and Mark Campbell(参考訳) 本稿では,センサネットワークを用いた分散歩行者追跡の問題に着目する。 歩行者追跡に関する従来の研究は、通常は集中型のフレームワークを使用しており、通信帯域が限られているため、ロボットアプリケーションでは実用的ではない。 本稿では,センサ間で共有可能な歩行者の外観情報を特徴付けるための,コミュニケーション効率,方向識別的特徴表現を提案する。 この表現に基づいて,分散トラッキングを実現するためのクロスセンサトラックアソシエーション手法を開発した。 公開データセット上で広範な評価を行い,提案手法がマルチセンサトラッキングの性能向上につながることを示す。

This paper focuses on the problem of decentralized pedestrian tracking using a sensor network. Traditional works on pedestrian tracking usually use a centralized framework, which becomes less practical for robotic applications due to limited communication bandwidth. Our paper proposes a communication-effici ent, orientation-discrimi native feature representation to characterize pedestrian appearance information, that can be shared among sensors. Building upon that representation, our work develops a cross-sensor track association approach to achieve decentralized tracking. Extensive evaluations are conducted on publicly available datasets and results show that our proposed approach leads to improved performance in multi-sensor tracking.
翻訳日:2022-03-03 07:19:08 公開日:2022-02-26
# (参考訳) オンチップQNN:量子ニューラルネットワークの効率的なオンチップトレーニングを目指して [全文訳有]

On-chip QNN: Towards Efficient On-Chip Training of Quantum Neural Networks ( http://arxiv.org/abs/2202.13239v1 )

ライセンス: CC BY 4.0
Hanrui Wang and Zirui Li and Jiaqi Gu and Yongshan Ding and David Z. Pan and Song Han(参考訳) 量子ニューラルネットワーク(QNN)は、近未来のノイズ中間スケール量子(NISQ)ハードウェアにおける量子優位性を実現する可能性から、研究の関心が高まっている。 スケーラブルなQNN学習を実現するには、指数的コストの古典シミュレータを使用する代わりに、トレーニングプロセスを実際の量子マシンにオフロードする必要がある。 QNN勾配を得るための一般的なアプローチは、コストがキュービット数と線形にスケールするパラメータシフトである。 そこで本研究では,パラメータシフトを用いた実践的なQNNトレーニングの実証実験であるOn-chip QNNを提案する。 それにもかかわらず,実マシンの量子誤差(ノイズ)が大きいため,naiveパラメータシフトから得られる勾配は忠実度が低く,トレーニング精度が低下することがわかった。 この目的のために,我々は,まず,潜在的な大きな誤差を伴う勾配を識別し,その後除去するために,確率的勾配プルーニングを提案する。 具体的には、小さな勾配は大きな勾配よりも大きな相対誤差を持つため、刈り取られる確率が高い。 5台の量子マシンで5つの分類タスクを広範囲に実験した。 その結果,on-chipトレーニングは2クラスおよび4クラスの画像分類タスクにおいて90%,60%の精度を達成できた。 確率的勾配プルーニングは、プルーニングなしでQNNの精度を7%向上させる。 全体としては,ノイズフリーシミュレーションと比較して同様のオンチップトレーニング精度を得ることができたが,トレーニングスケーラビリティははるかに向上した。 パラメータシフトオンチップトレーニングのコードは、TorchQuantumライブラリで利用できる。

Quantum Neural Network (QNN) is drawing increasing research interest thanks to its potential to achieve quantum advantage on near-term Noisy Intermediate Scale Quantum (NISQ) hardware. In order to achieve scalable QNN learning, the training process needs to be offloaded to real quantum machines instead of using exponential-cost classical simulators. One common approach to obtain QNN gradients is parameter shift whose cost scales linearly with the number of qubits. We present On-chip QNN, the first experimental demonstration of practical on-chip QNN training with parameter shift. Nevertheless, we find that due to the significant quantum errors (noises) on real machines, gradients obtained from naive parameter shift have low fidelity and thus degrade the training accuracy. To this end, we further propose probabilistic gradient pruning to firstly identify gradients with potentially large errors and then remove them. Specifically, small gradients have larger relative errors than large ones, thus having a higher probability to be pruned. We perform extensive experiments on 5 classification tasks with 5 real quantum machines. The results demonstrate that our on-chip training achieves over 90% and 60% accuracy for 2-class and 4-class image classification tasks. The probabilistic gradient pruning brings up to 7% QNN accuracy improvements over no pruning. Overall, we successfully obtain similar on-chip training accuracy compared with noise-free simulation but have much better training scalability. The code for parameter shift on-chip training is available in the TorchQuantum library.
翻訳日:2022-03-03 07:02:08 公開日:2022-02-26
# (参考訳) 3次元サーフェスセマンティックによるリモートセンシング変化検出モデルの監視 [全文訳有]

Supervising Remote Sensing Change Detection Models with 3D Surface Semantics ( http://arxiv.org/abs/2202.13251v1 )

ライセンス: CC BY 4.0
Isaac Corley, Peyman Najafirad(参考訳) 同じ場所のシーン間の変化を識別するリモートセンシングによる変化検出は、幅広い応用の活発な研究領域である。 マルチモーダル自己監督型事前訓練の最近の進歩は、光学画像のみに訓練された視覚モデルを上回る最先端の手法をもたらした。 リモートセンシングの分野では,視覚モデルの表現学習を監督するために活用できる,重複する2次元と3次元のモダリティが豊富に存在する。 本稿では,光学RGBと地上レベル(AGL)マップペアを用いた共同学習のためのコントラスト曲面事前学習(CSIP)を提案する。 次に,いくつかの建物セグメントと変更検出データセット上でこれらの事前学習モデルを評価し,本手法が自然および人工表面情報に関連のある下流アプリケーションに関連する特徴を抽出していることを示す。

Remote sensing change detection, identifying changes between scenes of the same location, is an active area of research with a broad range of applications. Recent advances in multimodal self-supervised pretraining have resulted in state-of-the-art methods which surpass vision models trained solely on optical imagery. In the remote sensing field, there is a wealth of overlapping 2D and 3D modalities which can be exploited to supervise representation learning in vision models. In this paper we propose Contrastive Surface-Image Pretraining (CSIP) for joint learning using optical RGB and above ground level (AGL) map pairs. We then evaluate these pretrained models on several building segmentation and change detection datasets to show that our method does, in fact, extract features relevant to downstream applications where natural and artificial surface information is relevant.
翻訳日:2022-03-03 06:48:42 公開日:2022-02-26
# グラフの分散スペクトルクラスタリングのための動的モード分解手法

A Dynamic Mode Decomposition Approach for Decentralized Spectral Clustering of Graphs ( http://arxiv.org/abs/2203.00004v1 )

ライセンス: Link先を確認
Hongyu Zhu, Stefan Klus and Tuhin Sahai(参考訳) 本稿では,一般的なスペクトルクラスタリング手法と等価な,ロバストな分散グラフクラスタリングアルゴリズムを提案する。 提案手法は,グラフ内の波の伝播に基づく既存の波動方程式クラスタリングアルゴリズムを用いる。 しかし,各ノードで高速フーリエ変換(fft)計算を使用する代わりに,提案手法はkoopman演算子フレームワークを利用する。 具体的には,各ノードにおける局所動的モード分解(DMD)計算によるグラフ内の伝播波は,グラフラプラシアンの固有値と局所固有ベクトル成分を取得することができ,全てのノードに対して局所クラスタ割り当てが可能であることを示す。 我々は,dmd計算が既存のfft法よりも頑健であり,クラスタリング情報を正確に復元するには波動方程式の20倍のステップを要し,相対誤差を桁違いに低減できることを示す。 本稿では,グラフクラスタリング問題に対する分散アプローチを実証する。

We propose a novel robust decentralized graph clustering algorithm that is provably equivalent to the popular spectral clustering approach. Our proposed method uses the existing wave equation clustering algorithm that is based on propagating waves through the graph. However, instead of using a fast Fourier transform (FFT) computation at every node, our proposed approach exploits the Koopman operator framework. Specifically, we show that propagating waves in the graph followed by a local dynamic mode decomposition (DMD) computation at every node is capable of retrieving the eigenvalues and the local eigenvector components of the graph Laplacian, thereby providing local cluster assignments for all nodes. We demonstrate that the DMD computation is more robust than the existing FFT based approach and requires 20 times fewer steps of the wave equation to accurately recover the clustering information and reduces the relative error by orders of magnitude. We demonstrate the decentralized approach on a range of graph clustering problems.
翻訳日:2022-03-02 15:36:06 公開日:2022-02-26
# 音声言語理解システム構築のための音声学習データの必要性軽減に向けて

Towards Reducing the Need for Speech Training Data To Build Spoken Language Understanding Systems ( http://arxiv.org/abs/2203.00006v1 )

ライセンス: Link先を確認
Samuel Thomas, Hong-Kwang J. Kuo, Brian Kingsbury, George Saon(参考訳) 音声言語理解(SLU)に必要なラベルを付した音声データがないことは、音声入力を直接処理できるエンドツーエンド(E2E)システムを構築する上で、しばしば大きなハードルとなる。 対照的に、適切なラベルを持つ大量のテキストデータは通常利用可能である。 本稿では,これらのテキストリソースを用いて,E2E SLUシステムを効果的に構築できる新しいテキスト表現と学習手法を提案する。 追加音声の量は非常に限られており、これらのモデルが完全な音声データセット上に構築された類似システムに近いレベルでの性能をさらに向上できることを示している。 提案手法の有効性は,3つの異なるSLUデータセットを用いて,目的と実体の両方に示される。 テキストのみの学習で、本システムは完全な音声訓練で可能なパフォーマンスの最大90%を達成する。 音声データの10%を追加するだけで、これらのモデルはパフォーマンスの97%まで大幅に向上した。

The lack of speech data annotated with labels required for spoken language understanding (SLU) is often a major hurdle in building end-to-end (E2E) systems that can directly process speech inputs. In contrast, large amounts of text data with suitable labels are usually available. In this paper, we propose a novel text representation and training methodology that allows E2E SLU systems to be effectively constructed using these text resources. With very limited amounts of additional speech, we show that these models can be further improved to perform at levels close to similar systems built on the full speech datasets. The efficacy of our proposed approach is demonstrated on both intent and entity tasks using three different SLU datasets. With text-only training, the proposed system achieves up to 90% of the performance possible with full speech training. With just an additional 10% of speech data, these models significantly improve further to 97% of full performance.
翻訳日:2022-03-02 14:50:48 公開日:2022-02-26
# パラメータフリーミラーダイス

Parameter-free Mirror Descent ( http://arxiv.org/abs/2203.00444v1 )

ライセンス: Link先を確認
Andrew Jacobsen, Ashok Cutkosky(参考訳) 非有界領域における適応およびパラメータフリーなアルゴリズム構築に適した修正オンラインミラー降下フレームワークを開発した。 この手法を応用して, 最適動的後悔境界を達成する最初のオンライン線形最適化アルゴリズムを開発し, さらに, フォロー・ザ・レギュラライズド・リーダーによる自然戦略では同様の結果が得られないことを実証する。 また,パラメータフリーな新たな暗黙的な更新や,シンプルで改良されたスケールフリーなアルゴリズムの構築にも,ミラー降下フレームワークを適用しました。

We develop a modified online mirror descent framework that is suitable for building adaptive and parameter-free algorithms in unbounded domains. We leverage this technique to develop the first unconstrained online linear optimization algorithm achieving an optimal dynamic regret bound, and we further demonstrate that natural strategies based on Follow-the-Regulariz ed-Leader are unable to achieve similar results. We also apply our mirror descent framework to build new parameter-free implicit updates, as well as a simplified and improved unconstrained scale-free algorithm.
翻訳日:2022-03-02 14:29:38 公開日:2022-02-26
# 心電図記録からの拒絶を伴う心不整脈分類のためのディープベイズニューラルネットワーク

A Deep Bayesian Neural Network for Cardiac Arrhythmia Classification with Rejection from ECG Recordings ( http://arxiv.org/abs/2203.00512v1 )

ライセンス: Link先を確認
Wenrui Zhang, Xinxin Di, Guodong Wei, Shijia Geng, Zhaoji Fu, Shenda Hong(参考訳) 近年,深層学習法の開発により心電図の自動分類(ECG)が注目されている。 ディープニューラルネットワークの有効性は高まっているが、アウトプットによる情報不足は臨床医の再検討を制限している。 不確実性の推定が分類結果と合致すると、心臓科医は「不確実性」の症例にもっと注意を払うことができる。 本研究の目的は,データ不確かさとモデル不確実性に基づいて,ECGを不確かさで分類することである。 実世界の12リードecgデータセットで実験を行う。 まず,ベイズ型ニューラルネットワークを用いて,分類予測毎にモンテカルロドロップアウトを用いた不確かさを推定する。 そして, 不確実性のある予測を所定の閾値下で受け入れ, 臨床医に「確実な」症例を提供する。 さらに,種々の閾値を用いてシミュレーション実験を行う。 最後に,臨床医の助けを借りて,大きな不確実性と不正確な予測の結果を説明するケーススタディを行う。 その結果、正しい予測はより小さな不確実性を持つ傾向があり、受け入れられた予測の性能は、受容比が減少するにつれて向上する(つまり、より多くの拒絶)。 ケーススタディは、拒絶がパフォーマンスを改善する理由を説明するのにも役立ちます。 本研究は、ニューラルネットワークがより正確な結果を生成するのを助け、不確実性に関する情報を提供し、臨床医の診断過程を支援する。 また、臨床実装においてディープラーニングベースのECG解釈を可能にする。

With the development of deep learning-based methods, automated classification of electrocardiograms (ECGs) has recently gained much attention. Although the effectiveness of deep neural networks has been encouraging, the lack of information given by the outputs restricts clinicians' reexamination. If the uncertainty estimation comes along with the classification results, cardiologists can pay more attention to "uncertain" cases. Our study aims to classify ECGs with rejection based on data uncertainty and model uncertainty. We perform experiments on a real-world 12-lead ECG dataset. First, we estimate uncertainties using the Monte Carlo dropout for each classification prediction, based on our Bayesian neural network. Then, we accept predictions with uncertainty under a given threshold and provide "uncertain" cases for clinicians. Furthermore, we perform a simulation experiment using varying thresholds. Finally, with the help of a clinician, we conduct case studies to explain the results of large uncertainties and incorrect predictions with small uncertainties. The results show that correct predictions are more likely to have smaller uncertainties, and the performance on accepted predictions improves as the accepting ratio decreases (i.e. more rejections). Case studies also help explain why rejection can improve the performance. Our study helps neural networks produce more accurate results and provide information on uncertainties to better assist clinicians in the diagnosis process. It can also enable deep-learning-based ECG interpretation in clinical implementation.
翻訳日:2022-03-02 13:44:57 公開日:2022-02-26
# 5G以降の変調と無線信号分類のためのマルチタスク学習アプローチ:モデル圧縮によるエッジ展開

Multi-task Learning Approach for Modulation and Wireless Signal Classification for 5G and Beyond: Edge Deployment via Model Compression ( http://arxiv.org/abs/2203.00517v1 )

ライセンス: Link先を確認
Anu Jagannath and Jithin Jagannath(参考訳) 将来の通信ネットワークは、異種無線デバイスの広範な成長に対応するために、少ないスペクトルに対処する必要がある。 無線信号認識は、スペクトル監視、スペクトル管理、安全な通信などにおいてますます重要になっている。 その結果、エッジにおける包括的スペクトル認識は、新興の5gネットワークの鍵となる可能性を持っている。 この領域の最先端の研究は (i)単一のタスク(変調または信号(プロトコル)分類)のみに焦点を合わせ、多くの場合、システムが行うには不十分な情報である。 (ii)レーダー又は通信波形(均質波形カテゴリ)のいずれも考慮し、及び (iii)ニューラルネットワーク設計フェーズにおけるエッジ配置には対処しない。 本研究では、無線通信領域において、深層ニューラルネットワークに基づくマルチタスク学習(MTL)フレームワークの可能性を初めて活用し、電磁スペクトルにおけるレーダや通信波形などの異種無線信号を考慮して変調と信号分類タスクを同時に学習する。 提案したMTLアーキテクチャは,2つのタスク間の相互関係から,分類精度の向上と,軽量ニューラルネットワークモデルによる学習効率の向上に有効である。 さらに,実機で収集したサンプルを用いてモデル実験を行い,資源制約されたエッジデバイスに展開する深層学習パイプラインとともに,モデル圧縮に関する直接的知見を示す。 2つの参照アーキテクチャで提案したモデルに対して,計算,メモリ,精度の大幅な向上を示す。 資源制約のある組込み無線プラットフォームに適した軽量MTLモデルをモデル化することに加えて、公共利用のための包括的ヘテロジニアス無線信号データセットを提供する。

Future communication networks must address the scarce spectrum to accommodate extensive growth of heterogeneous wireless devices. Wireless signal recognition is becoming increasingly more significant for spectrum monitoring, spectrum management, secure communications, among others. Consequently, comprehensive spectrum awareness on the edge has the potential to serve as a key enabler for the emerging beyond 5G networks. State-of-the-art studies in this domain have (i) only focused on a single task - modulation or signal (protocol) classification - which in many cases is insufficient information for a system to act on, (ii) consider either radar or communication waveforms (homogeneous waveform category), and (iii) does not address edge deployment during neural network design phase. In this work, for the first time in the wireless communication domain, we exploit the potential of deep neural networks based multi-task learning (MTL) framework to simultaneously learn modulation and signal classification tasks while considering heterogeneous wireless signals such as radar and communication waveforms in the electromagnetic spectrum. The proposed MTL architecture benefits from the mutual relation between the two tasks in improving the classification accuracy as well as the learning efficiency with a lightweight neural network model. We additionally include experimental evaluations of the model with over-the-air collected samples and demonstrate first-hand insight on model compression along with deep learning pipeline for deployment on resource-constrained edge devices. We demonstrate significant computational, memory, and accuracy improvement of the proposed model over two reference architectures. In addition to modeling a lightweight MTL model suitable for resource-constrained embedded radio platforms, we provide a comprehensive heterogeneous wireless signals dataset for public use.
翻訳日:2022-03-02 13:44:36 公開日:2022-02-26
# 野生における複数言語に対する視覚音声認識

Visual Speech Recognition for Multiple Languages in the Wild ( http://arxiv.org/abs/2202.13084v1 )

ライセンス: Link先を確認
Pingchuan Ma, Stavros Petridis, Maja Pantic(参考訳) 視覚音声認識(VSR)は、音声ストリームに頼ることなく、唇の動きに基づいて音声の内容を認識することを目的としている。 ディープラーニングの進歩と大規模なオーディオ視覚データセットが利用可能になったことで、これまで以上に正確で堅牢なVSRモデルの開発につながった。 しかしながら、これらの進歩はモデル設計よりもより大きなトレーニングセットによることが多い。 本研究では,より大きなトレーニングセットを使用する上で,よりよいモデルの設計が等しく重要であることを実証する。 本稿では、VSRモデルに予測ベースの補助タスクを追加し、ハイパーパラメータ最適化と適切なデータ拡張の重要性を強調する。 このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。 最大21倍のデータを含む公開されていないデータセットでトレーニングされたモデルよりも優れています。 さらに、他の言語や自動生成された書き起こしであっても、追加のトレーニングデータを使用することで、さらなる改善がもたらされることを示す。

Visual speech recognition (VSR) aims to recognise the content of speech based on the lip movements without relying on the audio stream. Advances in deep learning and the availability of large audio-visual datasets have led to the development of much more accurate and robust VSR models than ever before. However, these advances are usually due to larger training sets rather than the model design. In this work, we demonstrate that designing better models is equally important to using larger training sets. We propose the addition of prediction-based auxiliary tasks to a VSR model and highlight the importance of hyper-parameter optimisation and appropriate data augmentations. We show that such model works for different languages and outperforms all previous methods trained on publicly available datasets by a large margin. It even outperforms models that were trained on non-publicly available datasets containing up to to 21 times more data. We show furthermore that using additional training data, even in other languages or with automatically generated transcriptions, results in further improvement.
翻訳日:2022-03-01 18:26:51 公開日:2022-02-26
# 弱く強い活性化を持つ神経インスパイアされたディープニューラルネットワーク

Neuro-Inspired Deep Neural Networks with Sparse, Strong Activations ( http://arxiv.org/abs/2202.13074v1 )

ライセンス: Link先を確認
Metehan Cekic, Can Bakiskan, Upamanyu Madhow(参考訳) Deep Neural Networks(DNN)のエンドツーエンドのトレーニングでは、増加傾向にあるアプリケーションのパフォーマンスが向上する一方で、抽出される機能の洞察や制御は提供されない。 我々はsparserと強力なアクティベーションを持つdnnに対する有望な神経インスパイアアプローチについて報告する。 我々は、標準確率勾配トレーニングを使用し、終末判別コスト関数を補助し、高活性ニューロンに対するHebbian("fire together", "wire together")の更新と残りのニューロンに対する反Hebbianの更新を促進する。 バッチノルムの代わりに、活性化の分割正規化(強い出力で弱い出力を抑える)と暗黙の$\ell_2$ニューロン重みの正規化を用いる。 CIFAR-10の標準画像分類タスクによる実験により、ベースラインのエンドツーエンド訓練アーキテクチャと比較して、提案アーキテクチャが提案されている。 (a)スペーサーのアクティベーションにつながる(精度をわずかに損なうだけ) (b)騒音に対する強靭性(雑音データによる訓練を受けずに) (c) 対向的摂動に対して(対向的訓練を伴わない)強靭性を示す。

While end-to-end training of Deep Neural Networks (DNNs) yields state of the art performance in an increasing array of applications, it does not provide insight into, or control over, the features being extracted. We report here on a promising neuro-inspired approach to DNNs with sparser and stronger activations. We use standard stochastic gradient training, supplementing the end-to-end discriminative cost function with layer-wise costs promoting Hebbian ("fire together," "wire together") updates for highly active neurons, and anti-Hebbian updates for the remaining neurons. Instead of batch norm, we use divisive normalization of activations (suppressing weak outputs using strong outputs), along with implicit $\ell_2$ normalization of neuronal weights. Experiments with standard image classification tasks on CIFAR-10 demonstrate that, relative to baseline end-to-end trained architectures, our proposed architecture (a) leads to sparser activations (with only a slight compromise on accuracy), (b) exhibits more robustness to noise (without being trained on noisy data), (c) exhibits more robustness to adversarial perturbations (without adversarial training).
翻訳日:2022-03-01 17:48:24 公開日:2022-02-26
# 注意による最適エアーオークション

Optimal-er Auctions through Attention ( http://arxiv.org/abs/2202.13110v1 )

ライセンス: Link先を確認
Dmitry Ivanov, Iskander Safiulin, Ksenia Balabaeva, Igor Filippov(参考訳) RegretNetは、収益を最大化するオークションの自動設計における最近のブレークスルーである。 深い学習の表現力と後悔に基づくアプローチを組み合わせることで、インセンティブ・コンパティビリティの制約を緩和し、定量化する(参加者は真に入札することで利益を得る)。 その成功のフォローアップとして、restenetの2つの独立した変更、すなわちtransregretと呼ばれるアテンションメカニズムに基づく新しいニューラルアーキテクチャと、ハイパーパラメータに対して解釈可能で著しく感度が低い代替損失関数を提案する。 提案する2つの修正について,入力サイズと入力サイズが異なる設定における広範囲な実験で検討し,さらにネットワークのアウト・オブ・セッティング・ジェネリゼーションをテストした。 あらゆる実験において、TransRegretは収益において既存のアーキテクチャよりも一貫して優れています。 損失修正については、1つの解釈可能なハイパーパラメータを変化させることで、収益と収益のトレードオフを制御する効果を確認した。

RegretNet is a recent breakthrough in the automated design of revenue-maximizing auctions. It combines the expressivity of deep learning with the regret-based approach to relax and quantify the Incentive Compatibility constraint (that participants benefit from bidding truthfully). As a follow-up to its success, we propose two independent modifications of RegretNet, namely a new neural architecture based on the attention mechanism, denoted as TransRegret, and an alternative loss function that is interpretable and significantly less sensitive to hyperparameters. We investigate both proposed modifications in an extensive experimental study in settings with fixed and varied input sizes and additionally test out-of-setting generalization of our network. In all experiments, we find that TransRegret consistently outperforms existing architectures in revenue. Regarding our loss modification, we confirm its effectiveness at controlling the revenue-regret trade-off by varying a single interpretable hyperparameter.
翻訳日:2022-03-01 17:48:02 公開日:2022-02-26
# 一級協調フィルタリングのための異種物体からの合意学習

Consensus Learning from Heterogeneous Objectives for One-Class Collaborative Filtering ( http://arxiv.org/abs/2202.13140v1 )

ライセンス: Link先を確認
SeongKu Kang, Dongha Lee, Wonbin Kweon, Junyoung Hwang, Hwanjo Yu(参考訳) 過去数十年にわたり、ワンクラスコラボレーティブフィルタリング(occf)では、さまざまな確率モデルに基づいて多くの学習目標が研究されてきた。 分析の結果,異なるOCCF目標で訓練されたモデルがユーザとイテムの関係の異なる側面を捉え,補完的なレコメンデーションを生成することがわかった。 本稿では、トレーニングプロセス全体を通じて異種目的からの相補性を生かし、より一般化可能なモデルを生成する新しいOCCFフレームワークであるConCFを提案する。 ConCFは、補助ヘッドを追加することで、与えられたターゲットモデルのマルチブランチ変種を構築し、それぞれが異種目的で訓練される。 そして、頭から様々な視点を統合してコンセンサスを生成し、コンセンサスに基づいてヘッドを誘導する。 頭部はトレーニングを通して相補性に基づいて協調的に進化し、反復的により正確なコンセンサスを生成する。 トレーニング後、補助ヘッドを取り除き、マルチブランチアーキテクチャを元のターゲットモデルに戻すため、デプロイメントに余分な推論コストは発生しない。 実世界のデータセットに関する広範な実験により、ConCFは異種目的からの相補性を利用してモデルの一般化を著しく改善することを示した。

Over the past decades, for One-Class Collaborative Filtering (OCCF), many learning objectives have been researched based on a variety of underlying probabilistic models. From our analysis, we observe that models trained with different OCCF objectives capture distinct aspects of user-item relationships, which in turn produces complementary recommendations. This paper proposes a novel OCCF framework, named ConCF, that exploits the complementarity from heterogeneous objectives throughout the training process, generating a more generalizable model. ConCF constructs a multi-branch variant of a given target model by adding auxiliary heads, each of which is trained with heterogeneous objectives. Then, it generates consensus by consolidating the various views from the heads, and guides the heads based on the consensus. The heads are collaboratively evolved based on their complementarity throughout the training, which again results in generating more accurate consensus iteratively. After training, we convert the multi-branch architecture back to the original target model by removing the auxiliary heads, thus there is no extra inference cost for the deployment. Our extensive experiments on real-world datasets demonstrate that ConCF significantly improves the generalization of the model by exploiting the complementarity from heterogeneous objectives.
翻訳日:2022-03-01 17:47:46 公開日:2022-02-26
# restless banditsによる無線エッジにおけるコンテンツキャッシングのためのモデルフリー強化学習

Model-free Reinforcement Learning for Content Caching at the Wireless Edge via Restless Bandits ( http://arxiv.org/abs/2202.13187v1 )

ライセンス: Link先を確認
Guojun Xiong, Shufan Wang, Jian Li, Rahul Singh(参考訳) オンデマンドコンテンツ要求の爆発的な増加は、現在の無線ネットワークインフラに大きなプレッシャーを与えている。 ユーザエクスペリエンスの認識を高め、レイテンシに敏感なアプリケーションをサポートするため、エッジコンピューティングは有望なコンピューティングパラダイムとして登場した。 無線エッジの性能はキャッシュされたコンテンツに依存する。 本稿では,平均的なコンテンツ要求遅延を最小限に抑えるために,信頼できないチャネルを用いた無線エッジにおけるコンテンツキャッシングの問題を考える。 我々はこの問題を、解決が困難である、安静な盗賊問題として定式化する。 まず、割引対象を調査し、しきい値型の最適ポリシーを認めることを証明します。 そして,結果が平均遅延問題にも有効であることを示す。 これらの構造的結果を用いて,問題の索引性を確立し,平均遅延を最小化するためにWhittleインデックスポリシーを用いる。 コンテンツ要求率などのシステムパラメータは未知数が多いため,索引ポリシーに依存するq-whittle learningと呼ばれるモデルフリー強化学習アルゴリズムも開発している。 我々はまた、その有限時間収束率に束縛される。 実トレースを用いたシミュレーションの結果,提案アルゴリズムは実験性能に優れていた。

An explosive growth in the number of on-demand content requests has imposed significant pressure on current wireless network infrastructure. To enhance the perceived user experience, and support latency-sensitive applications, edge computing has emerged as a promising computing paradigm. The performance of a wireless edge depends on contents that are cached. In this paper, we consider the problem of content caching at the wireless edge with unreliable channels to minimize average content request latency. We formulate this problem as a restless bandit problem, which is provably hard to solve. We begin by investigating a discounted counterpart, and prove that it admits an optimal policy of the threshold-type. We then show that the result also holds for the average latency problem. Using these structural results, we establish the indexability of the problem, and employ Whittle index policy to minimize average latency. Since system parameters such as content request rate are often unknown, we further develop a model-free reinforcement learning algorithm dubbed Q-Whittle learning that relies on our index policy. We also derive a bound on its finite-time convergence rate. Simulation results using real traces demonstrate that our proposed algorithms yield excellent empirical performance.
翻訳日:2022-03-01 17:47:26 公開日:2022-02-26
# 反復的遺伝的改善:スケーリング確率的プログラム合成

Iterative Genetic Improvement: Scaling Stochastic Program Synthesis ( http://arxiv.org/abs/2202.13040v1 )

ライセンス: Link先を確認
Yuan Yuan and Wolfgang Banzhaf(参考訳) プログラム合成は、与えられた仕様を満たす基礎となるプログラミング言語からプログラムを自動的に見つけることを目的としている。 これはコンピューティングに革命をもたらす可能性があるが、プログラムの膨大なスペースを効率的に探索する方法は、プログラム合成における未解決の課題である。 解決のために大規模なプログラムが必要となる場合、一般に「it確率的」探索は、他の種類の探索技術よりも有利であると考えられている。 残念ながら、既存の確率的プログラムシンセサイザーはこの期待を十分に満たしておらず、スケーラビリティの問題に苦しんでいる。 本稿では,ソフトウェア開発プロセスの実践に触発された手法である,この問題を克服するための反復的遺伝的改良という,確率的プログラム合成のための新しい枠組みを提案する。 反復的遺伝的改善の鍵となるアイデアは、現在の参照プログラムを改善するために遺伝的改善を適用し、最適なプログラムで参照プログラムを反復的に置き換えることである。 従来の確率的合成アプローチと比較して、反復的な遺伝的改善はプログラムの複雑さをより堅牢な方法で積み上げることができる。 リスト操作と文字列変換という2つのプログラム合成領域のアプローチを評価する。 実験結果から,本手法はスケーラビリティとソリューション品質の両面において,いくつかの代表的な確率的プログラムシンセサイザー技術に対して有意なアドバンテージを有することが示唆された。

Program synthesis aims to {\it automatically} find programs from an underlying programming language that satisfy a given specification. While this has the potential to revolutionize computing, how to search over the vast space of programs efficiently is an unsolved challenge in program synthesis. In cases where large programs are required for a solution, it is generally believed that {\it stochastic} search has advantages over other classes of search techniques. Unfortunately, existing stochastic program synthesizers do not meet this expectation very well, suffering from the scalability issue. Here we propose a new framework for stochastic program synthesis, called iterative genetic improvement to overcome this problem, a technique inspired by the practice of the software development process. The key idea of iterative genetic improvement is to apply genetic improvement to improve a current reference program, and then iteratively replace the reference program by the best program found. Compared to traditional stochastic synthesis approaches, iterative genetic improvement can build up the complexity of programs incrementally in a more robust way. We evaluate the approach on two program synthesis domains: list manipulation and string transformation. Our empirical results indicate that this method has considerable advantages over several representative stochastic program synthesizer techniques, both in terms of scalability and of solution quality.
翻訳日:2022-03-01 17:27:05 公開日:2022-02-26
# スパース局所リプシッツ予測器の逆ロバスト性

Adversarial robustness of sparse local Lipschitz predictors ( http://arxiv.org/abs/2202.13216v1 )

ライセンス: Link先を確認
Ramchandran Muthukumar and Jeremias Sulam(参考訳) 本研究では,線形予測器と非線形表現写像からなるパラメトリック関数の逆ロバスト性について検討する。 我々の分析は、局所的なリプシッツ連続性の拡張であるスパース局所リプシッツ性(SLL)に依存し、局所摂動による予測器の安定性と有効次元性をよりよく捉える。 sll関数は、表現写像のスパーシティパターンによって与えられる一定の構造を保持し、区分線形モデル、lassoとその変種、深いフィードフォワードreluネットワークのようないくつかの一般的な仮説クラスを含む。 我々は, 逆例の最小エネルギーに対するより強固なロバスト性証明と, これらの予測器のロバスト一般化誤差に対するデータ依存的非一様境界を提供する。 ディープニューラルネットワークの場合、これらの結果をインスタンス化し、結果を裏付ける数値的な証拠を提供し、モデルのロバスト性を高めるための自然な正規化戦略に対する新たな洞察を与えます。

This work studies the adversarial robustness of parametric functions composed of a linear predictor and a non-linear representation map. Our analysis relies on sparse local Lipschitzness (SLL), an extension of local Lipschitz continuity that better captures the stability and reduced effective dimensionality of predictors upon local perturbations. SLL functions preserve a certain degree of structure, given by the sparsity pattern in the representation map, and include several popular hypothesis classes, such as piece-wise linear models, Lasso and its variants, and deep feed-forward ReLU networks. We provide a tighter robustness certificate on the minimal energy of an adversarial example, as well as tighter data-dependent non-uniform bounds on the robust generalization error of these predictors. We instantiate these results for the case of deep neural networks and provide numerical evidence that supports our results, shedding new insights into natural regularization strategies to increase the robustness of these models.
翻訳日:2022-03-01 17:22:41 公開日:2022-02-26
# スケーラブルでロバストな構造化バンドに向けて:メタ学習フレームワーク

Towards Scalable and Robust Structured Bandits: A Meta-Learning Framework ( http://arxiv.org/abs/2202.13227v1 )

ライセンス: Link先を確認
Runzhe Wan, Lin Ge, Rui Song(参考訳) 大規模構造化されたバンディットにおけるオンライン学習は、次元の呪いのために難しいことが知られている。 本稿では,パラメータ空間をアイテムレベルに分解可能な,構造化バンディット問題の一般的なクラスに対する統一メタラーニングフレームワークを提案する。 新しいbanditアルゴリズムは一般に、多くの一般的な問題に適用でき、巨大なパラメータとアクション空間に拡張可能であり、一般化モデルの仕様に頑健である。 このフレームワークの中核となるのはベイズ的階層モデルであり、その特徴によってアイテム間の情報共有を可能にし、メタトンプソンサンプリングアルゴリズムを設計する。 代表的な例が3つある。 理論的解析と数値計算の両方が提案手法の有用性を支持する。

Online learning in large-scale structured bandits is known to be challenging due to the curse of dimensionality. In this paper, we propose a unified meta-learning framework for a general class of structured bandit problems where the parameter space can be factorized to item-level. The novel bandit algorithm is general to be applied to many popular problems,scalable to the huge parameter and action spaces, and robust to the specification of the generalization model. At the core of this framework is a Bayesian hierarchical model that allows information sharing among items via their features, upon which we design a meta Thompson sampling algorithm. Three representative examples are discussed thoroughly. Both theoretical analysis and numerical results support the usefulness of the proposed method.
翻訳日:2022-03-01 17:22:23 公開日:2022-02-26
# 効率的な政策評価と比較のための安全な探索

Safe Exploration for Efficient Policy Evaluation and Comparison ( http://arxiv.org/abs/2202.13234v1 )

ライセンス: Link先を確認
Runzhe Wan, Branislav Kveton, Rui Song(参考訳) 高品質なデータは、政策評価の正確性を保証する上で中心的な役割を果たす。 本稿では,バンディット政策評価のための効率的かつ安全なデータ収集の研究を開始する。 我々はこの問題を定式化し,その代表的変種について検討する。 各変種について、その統計特性を分析し、対応する探索ポリシーを導出し、効率的な計算アルゴリズムを設計する。 理論的解析と実験の両方が提案手法の有用性を支持する。

High-quality data plays a central role in ensuring the accuracy of policy evaluation. This paper initiates the study of efficient and safe data collection for bandit policy evaluation. We formulate the problem and investigate its several representative variants. For each variant, we analyze its statistical properties, derive the corresponding exploration policy, and design an efficient algorithm for computing it. Both theoretical analysis and experiments support the usefulness of the proposed methods.
翻訳日:2022-03-01 17:22:11 公開日:2022-02-26
# TaSPM: ターゲットとしたシーケンスパターンマイニング

TaSPM: Targeted Sequential Pattern Mining ( http://arxiv.org/abs/2202.13202v1 )

ライセンス: Link先を確認
Gengsen Huang, Wensheng Gan, and Philip S. Yu(参考訳) 逐次パターンマイニング(SPM)はパターンマイニングの重要な手法であり、現実には多くの応用がある。 多くの効率的なシーケンシャルパターンマイニングアルゴリズムが提案されているが、ターゲットシーケンスにフォーカスできる研究はほとんどない。 シーケンシャルパターンをターゲットとしたクエリは、SPMによって生成されるシーケンス数を削減できるだけでなく、パターン解析を行う際のユーザの効率も向上する。 ターゲットとするシーケンスクエリで利用可能な現在のアルゴリズムは、特定のシナリオに基づいており、他のアプリケーションに一般化することはできない。 本稿では,ターゲットとする逐次パターンマイニングの問題を定式化し,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。 さらに,大規模データセットやマルチitemsベースのシーケンスデータセットにおけるtaspmの効率を向上させるために,マイニングプロセスにおける意味のない操作を減らすためのいくつかのプルーニング戦略を提案する。 トータル4つのプルーニング戦略はTaSPMで設計されており、不要なパターン拡張を迅速に終了させ、より良い性能を実現することができる。 最後に、既存のSPMアルゴリズムとTaSPMを比較するために、異なるデータセットに対する広範な実験を行う。 実験により,新しい目標マイニングアルゴリズム taspm が,実行時間の短縮とメモリ消費の低減を実現した。

Sequential pattern mining (SPM) is an important technique of pattern mining, which has many applications in reality. Although many efficient sequential pattern mining algorithms have been proposed, there are few studies can focus on target sequences. Targeted querying sequential patterns can not only reduce the number of sequences generated by SPM, but also improve the efficiency of users in performing pattern analysis. The current algorithms available on targeted sequence querying are based on specific scenarios and cannot be generalized to other applications. In this paper, we formulate the problem of targeted sequential pattern mining and propose a generic framework namely TaSPM, based on the fast CM-SPAM algorithm. What's more, to improve the efficiency of TaSPM on large-scale datasets and multiple-items-based sequence datasets, we propose several pruning strategies to reduce meaningless operations in mining processes. Totally four pruning strategies are designed in TaSPM, and hence it can terminate unnecessary pattern extensions quickly and achieve better performance. Finally, we conduct extensive experiments on different datasets to compare the existing SPM algorithms with TaSPM. Experiments show that the novel targeted mining algorithm TaSPM can achieve faster running time and less memory consumption.
翻訳日:2022-03-01 17:19:25 公開日:2022-02-26
# RL-PGO:強化学習に基づく平面ポーズグラフ最適化

RL-PGO: Reinforcement Learning-based Planar Pose-Graph Optimization ( http://arxiv.org/abs/2202.13221v1 )

ライセンス: Link先を確認
Nikolaos Kourtzanidis, Sajad Saeedi(参考訳) ポーズSLAMまたはポーズグラフ最適化 (PGO) の目的は、オドメトリおよびループ閉鎖制約を与えられたロボットの軌道を推定することである。 最先端の反復的アプローチは典型的には非凸目的関数の線型化を伴い、次に正規方程式の集合を何度も解く。 さらに、これらの手法は局所最小値に収束し、準最適結果が得られる。 本研究では,最初のDeep Reinforcement Learning (DRL) ベースの環境と2次元ポーズグラフ最適化のためのエージェントを提案する。 本研究では,ポーズグラフ最適化問題を部分可観測マルコフ決定プロセスとしてモデル化し,実世界および合成データセットの性能評価を行う。 提案手法は,従来の非線形最小二乗法が故障したり,不満足な解に収束する難題に対して,最先端の解法g2oより優れていた。 実験の結果,提案手法でブートストラップした反復型ソルバにより,高い品質推定が可能となった。 我々は、強化学習に基づくPGOが、グローバルな最適アルゴリズム研究をさらに加速する有望な道であると信じている。 このように、我々の研究は2次元のSLAMドメインにおける新しい最適化戦略の道を開いた。

The objective of pose SLAM or pose-graph optimization (PGO) is to estimate the trajectory of a robot given odometric and loop closing constraints. State-of-the-art iterative approaches typically involve the linearization of a non-convex objective function and then repeatedly solve a set of normal equations. Furthermore, these methods may converge to a local minima yielding sub-optimal results. In this work, we present to the best of our knowledge the first Deep Reinforcement Learning (DRL) based environment and proposed agent for 2D pose-graph optimization. We demonstrate that the pose-graph optimization problem can be modeled as a partially observable Markov Decision Process and evaluate performance on real-world and synthetic datasets. The proposed agent outperforms state-of-the-art solver g2o on challenging instances where traditional nonlinear least-squares techniques may fail or converge to unsatisfactory solutions. Experimental results indicate that iterative-based solvers bootstrapped with the proposed approach allow for significantly higher quality estimations. We believe that reinforcement learning-based PGO is a promising avenue to further accelerate research towards globally optimal algorithms. Thus, our work paves the way to new optimization strategies in the 2D pose SLAM domain.
翻訳日:2022-03-01 17:19:04 公開日:2022-02-26
# ロバストレコメンデーション用項目の非推奨および優先順序による学習(拡張要約)

Learning over No-Preferred and Preferred Sequence of Items for Robust Recommendation (Extended Abstract) ( http://arxiv.org/abs/2202.13240v1 )

ライセンス: Link先を確認
Aleksandra Burashnikova, Yury Maximov, Marianne Clausel, Charlotte Laclau, Franck Iutzeler and Massih-Reza Amini(参考訳) 本論文は,[Burashnikova et al., 2021, arXiv: 2012,06910]の拡張版で,主にクリックの形で,暗黙的なフィードバックよりも大規模レコメンダシステム(RS)をトレーニングするための理論的に支持された逐次戦略を提案する。 提案手法は,非クリック項目の系列とクリック項目の各ユーザからなる連続項目のブロックに対して,対方向のランキングロスを最小化するものである。 本稿では,モーメント法と勾配法のいずれかを用いてモデルパラメータを更新する手法を提案する。 いくつかのターゲット項目(主にボットによる)で異常に高いクリック数に対するパラメータの更新を防止するため、各ユーザに対する更新回数の上限を上下に設定する。 これらの閾値は、トレーニングセット内のブロック数の分布に対して推定される。 これらは、ユーザに示されるアイテムの分布をシフトすることで、rsの決定に影響を与える。 さらに,両アルゴリズムの収束解析を行い,様々なランク付け尺度に関して6つの大規模コレクションに対して実効性を示す。

This paper is an extended version of [Burashnikova et al., 2021, arXiv: 2012.06910], where we proposed a theoretically supported sequential strategy for training a large-scale Recommender System (RS) over implicit feedback, mainly in the form of clicks. The proposed approach consists in minimizing pairwise ranking loss over blocks of consecutive items constituted by a sequence of non-clicked items followed by a clicked one for each user. We present two variants of this strategy where model parameters are updated using either the momentum method or a gradient-based approach. To prevent updating the parameters for an abnormally high number of clicks over some targeted items (mainly due to bots), we introduce an upper and a lower threshold on the number of updates for each user. These thresholds are estimated over the distribution of the number of blocks in the training set. They affect the decision of RS by shifting the distribution of items that are shown to the users. Furthermore, we provide a convergence analysis of both algorithms and demonstrate their practical efficiency over six large-scale collections with respect to various ranking measures.
翻訳日:2022-03-01 17:12:27 公開日:2022-02-26
# RNNトランスデューサASRモデルの学習と適応のためのテキスト入力の統合

Integrating Text Inputs For Training and Adapting RNN Transducer ASR Models ( http://arxiv.org/abs/2202.13155v1 )

ライセンス: Link先を確認
Samuel Thomas, Brian Kingsbury, George Saon, Hong-Kwang J. Kuo(参考訳) 各コンポーネントが独立して新しいドメインに適応できるモジュールアーキテクチャを用いたハイブリッド自動音声認識(ASR)システムと比較して、最近のエンドツーエンド(E2E)ASRシステムは、全神経モノリシックな構成のためカスタマイズが困難である。 本稿では,E2E ASRモデルのための新しいテキスト表現とトレーニングフレームワークを提案する。 提案手法では,RNNトランスデューサ(RNN-T)モデルの内部LM成分をテキストのみのデータに効果的に適用可能であることを示す。 音声入力とテキスト入力の両方を用いて訓練されたRNN-Tモデルは,NIST Hub5 2000 評価の Switchboard および CallHome テストセットにおいて,13% の単語誤り率 (WER) で訓練されたベースラインモデルよりも改善される。 この汎用RNN-Tモデルを3つの異なるデータセットにカスタマイズすることで,提案手法の有用性をさらに実証する。 これらの設定で20~45%の相対単語誤り率(wer)削減を観測し,新しいドメインからのテキストデータのみを用いたlmスタイルのカスタマイズ手法を提案する。

Compared to hybrid automatic speech recognition (ASR) systems that use a modular architecture in which each component can be independently adapted to a new domain, recent end-to-end (E2E) ASR system are harder to customize due to their all-neural monolithic construction. In this paper, we propose a novel text representation and training framework for E2E ASR models. With this approach, we show that a trained RNN Transducer (RNN-T) model's internal LM component can be effectively adapted with text-only data. An RNN-T model trained using both speech and text inputs improves over a baseline model trained on just speech with close to 13% word error rate (WER) reduction on the Switchboard and CallHome test sets of the NIST Hub5 2000 evaluation. The usefulness of the proposed approach is further demonstrated by customizing this general purpose RNN-T model to three separate datasets. We observe 20-45% relative word error rate (WER) reduction in these settings with this novel LM style customization technique using only unpaired text data from the new domains.
翻訳日:2022-03-01 17:11:46 公開日:2022-02-26
# センターサラウンドイベントカメラの有用性と実現可能性

Utility and Feasibility of a Center Surround Event Camera ( http://arxiv.org/abs/2202.13076v1 )

ライセンス: Link先を確認
Tobi Delbruck, Chenghan Li, Rui Graca, Brian Mcreynolds(参考訳) 標準ダイナミックビジョンセンサ(DVS)イベントカメラは、空間非依存の対数強度変化イベントのストリームを出力し、空間冗長性を抑えることができない。 ほぼ全ての生物学的網膜は、対角的な中心周囲組織を用いる。 本稿では,コンパクトなポリシリコン抵抗体を横方向抵抗に用いる円周平滑化ネットワークを用いた,コンパクトでエネルギー効率の良いCenter Surround DVS(CSDVS)の実装法を提案する。 この論文はcsdvsの行動シミュレーションの結果を含んでいる(sites.google.com/vi ew/csdvs/homeを参照)。 CSDVSは低空間周波数による事象を著しく減少させるが、高頻度時空間事象を増幅する。

Standard dynamic vision sensor (DVS) event cameras output a stream of spatially-independen t log-intensity brightness change events so they cannot suppress spatial redundancy. Nearly all biological retinas use an antagonistic center-surround organization. This paper proposes a practical method of implementing a compact, energy-efficient Center Surround DVS (CSDVS) with a surround smoothing network that uses compact polysilicon resistors for lateral resistance. The paper includes behavioral simulation results for the CSDVS (see sites.google.com/vie w/csdvs/home). The CSDVS would significantly reduce events caused by low spatial frequencies, but amplify the informative high frequency spatiotemporal events.
翻訳日:2022-03-01 17:10:20 公開日:2022-02-26
# 知識蒸留によるコンテンツ変動参照画像品質評価

Content-Variant Reference Image Quality Assessment via Knowledge Distillation ( http://arxiv.org/abs/2202.13123v1 )

ライセンス: Link先を確認
Guanghao Yin, Wei Wang, Zehuan Yuan, Chuchu Han, Wei Ji, Shouqian Sun, Changhu Wang(参考訳) 一般に、人間は単一のLQ画像の画質を直接判断するよりも、高品質(HQ)画像と低品質(LQ)画像の違いを認識できる。 この状況は画像品質評価(IQA)にも適用される。 近年のno-reference (nr-iqa) 手法は参照画像から画像品質を推定する上で大きな進歩を遂げているが,hq画像情報が十分に活用されていないため,性能向上の可能性も秘めている。 対照的に、フルリファレンス(fr-iqa)法はより信頼性の高い品質評価を提供する傾向があるが、その実用性はピクセルレベルアライメント参照画像の必要性によって影響を受ける。 そこで我々はまず,知識蒸留(CVRKD-IQA)によるコンテンツ変量参照手法を提案する。 具体的には、非整列参照(NAR)画像を用いて、高品質な画像の様々な事前分布を導入する。 HQ 画像と LQ 画像の分布差の比較は,画像の質をよりよく評価する上で有効である。 さらに、知識蒸留は、FR-TeacherからNAR-Studentにより多くのHQ-LQ分布差情報を伝達し、CVRKD-IQA性能を安定化させる。 さらに,ローカル・グローバル・コンバインド情報を完全にマイニングすると同時に,高速な推論速度を実現するため,MLPミキサーを用いた入力から複数の画像パッチを直接処理する。 NAR/NR-IQA SOTAを全て上回り、FR-IQA法と同等の性能が得られる場合もあります。 コンテント変種および非アライン参照HQ画像の取得が容易であるため,本モデルでは,コンテント変種に対して比較的堅牢なIQAアプリケーションをサポートすることができる。 私たちのコードとより詳細なサプリメントは、https://github.com/g uanghaoyin/CVRKD-IQA .comで公開されています。

Generally, humans are more skilled at perceiving differences between high-quality (HQ) and low-quality (LQ) images than directly judging the quality of a single LQ image. This situation also applies to image quality assessment (IQA). Although recent no-reference (NR-IQA) methods have made great progress to predict image quality free from the reference image, they still have the potential to achieve better performance since HQ image information is not fully exploited. In contrast, full-reference (FR-IQA) methods tend to provide more reliable quality evaluation, but its practicability is affected by the requirement for pixel-level aligned reference images. To address this, we firstly propose the content-variant reference method via knowledge distillation (CVRKD-IQA). Specifically, we use non-aligned reference (NAR) images to introduce various prior distributions of high-quality images. The comparisons of distribution differences between HQ and LQ images can help our model better assess the image quality. Further, the knowledge distillation transfers more HQ-LQ distribution difference information from the FR-teacher to the NAR-student and stabilizing CVRKD-IQA performance. Moreover, to fully mine the local-global combined information, while achieving faster inference speed, our model directly processes multiple image patches from the input with the MLP-mixer. Cross-dataset experiments verify that our model can outperform all NAR/NR-IQA SOTAs, even reach comparable performance with FR-IQA methods on some occasions. Since the content-variant and non-aligned reference HQ images are easy to obtain, our model can support more IQA applications with its relative robustness to content variations. Our code and more detailed elaborations of supplements are available: https://github.com/g uanghaoyin/CVRKD-IQA .
翻訳日:2022-03-01 17:10:12 公開日:2022-02-26
# 可逆ステレオ符号化の非線形離散最適化

Nonlinear Discrete Optimisation of Reversible Steganographic Coding ( http://arxiv.org/abs/2202.13133v1 )

ライセンス: Link先を確認
Ching-Chun Chang(参考訳) 認証機構は、さまざまなタイプのサイバー犯罪から世界を守るための最前線にある。 ステレオグラフィーは、デジタル署名をキャリアオブジェクトに埋め込んでオブジェクトの整合性を確保し、同時にメタデータ管理の負担を軽減することによって認証ソリューションとして機能する。 しかし、人間の感覚システムには一般的に受容できないステガノグラフ歪みは、忠実度に敏感な状況では許容できない。 これは可逆的ステガノグラフィーの概念につながった。 可逆性ステガノグラフィの基本的な要素は、強力なニューラルネットワークモデルが効果的にデプロイされた予測分析である。 もう一つの中核的な側面として、現代の可逆性ステガノグラフィー符号化は、主にヒューリスティックスに基づいており、したがってさらなる研究に値する。 ニューラルネットワークによる自動コーディングを実現する試みは試みられているが、完全可逆性はまだ説明不能な知的な機械によって達成できない。 ディープラーニングに頼るのではなく、数学的最適化によって最適なコーディングを導出することを目指している。 本研究では,対数容量制約と二次歪目標を持つ非線形離散最適化問題として可逆性ステガノグラフィー符号化を定式化する。 混合整数線形プログラミングを実現するために線形化技術が開発された。 ブルートフォース法に対してベンチマークした最適化アルゴリズムの近似性を実験的に検証した。

Authentication mechanisms are at the forefront of defending the world from various types of cybercrime. Steganography can serve as an authentication solution by embedding a digital signature into a carrier object to ensure the integrity of the object and simultaneously lighten the burden of metadata management. However, steganographic distortion, albeit generally imperceptible to human sensory systems, might be inadmissible in fidelity-sensitive situations. This has led to the concept of reversible steganography. A fundamental element of reversible steganography is predictive analytics, for which powerful neural network models have been effectively deployed. As another core aspect, contemporary reversible steganographic coding is based primarily on heuristics and therefore worth further study. While attempts have been made to realise automatic coding with neural networks, perfect reversibility is still unreachable via such an unexplainable intelligent machinery. Instead of relying on deep learning, we aim to derive an optimal coding by means of mathematical optimisation. In this study, we formulate reversible steganographic coding as a nonlinear discrete optimisation problem with a logarithmic capacity constraint and a quadratic distortion objective. Linearisation techniques are developed to enable mixed-integer linear programming. Experimental results validate the near-optimality of the proposed optimisation algorithm benchmarked against a brute-force method.
翻訳日:2022-03-01 17:09:27 公開日:2022-02-26
# 人気商品と収益の最大化に向けて

Towards Revenue Maximization with Popular and Profitable Products ( http://arxiv.org/abs/2202.13041v1 )

ライセンス: Link先を確認
Wensheng Gan, Guoting Chen, Hongzhi Yin, Philippe Fournier-Viger, Chien-Ming Chen, and Philip S. Yu(参考訳) 経済面では、マーケティングを行う企業にとって共通の目標は、様々な効果的なマーケティング戦略を利用して収益/利益を最大化することである。 消費者行動は、行動経済学が顧客からのバイアスと利益を識別するための貴重な洞察を提供する経済とターゲットマーケティングにおいて極めて重要である。 しかし、商品の収益性に関する信頼性のある情報を見つけることは、ほとんどの製品は1年で季節的な販売サイクルの一定時期にピークを迎える傾向があるため、非常に難しい。 オン・シェルフ・アベイラビリティ(OSA)はパフォーマンス評価の重要な要素である。 さらに、ホットな製品トレンドに先んじることによって、在庫を売却することなくマーケティング努力を拡大できる。 そこで本稿では,まず,経済行動に基づく収益最大化の問題に対処し,ターゲットマーケティングのために,0n-shelf popular and most profit products (oppps) を計算し,利益志向の枠組みを提案する。 収益最大化問題に対処するため、我々はk-satisable productの概念をモデル化し、OPPPとその変種を探索するアルゴリズムフレームワークを提案する。 提案アルゴリズムの有効性と効率を評価するために,複数の実世界のデータセットを用いて大規模な実験を行った。

Economic-wise, a common goal for companies conducting marketing is to maximize the return revenue/profit by utilizing the various effective marketing strategies. Consumer behavior is crucially important in economy and targeted marketing, in which behavioral economics can provide valuable insights to identify the biases and profit from customers. Finding credible and reliable information on products' profitability is, however, quite difficult since most products tends to peak at certain times w.r.t. seasonal sales cycle in a year. On-Shelf Availability (OSA) plays a key factor for performance evaluation. Besides, staying ahead of hot product trends means we can increase marketing efforts without selling out the inventory. To fulfill this gap, in this paper, we first propose a general profit-oriented framework to address the problem of revenue maximization based on economic behavior, and compute the 0n-shelf Popular and most Profitable Products (OPPPs) for the targeted marketing. To tackle the revenue maximization problem, we model the k-satisfiable product concept and propose an algorithmic framework for searching OPPP and its variants. Extensive experiments are conducted on several real-world datasets to evaluate the effectiveness and efficiency of the proposed algorithm.
翻訳日:2022-03-01 16:48:35 公開日:2022-02-26
# 再生可能電力(SuRE)を用いたネットゼロエミッションに対するサステナビリティ

Sustainability using Renewable Electricity (SuRE) towards NetZero Emissions ( http://arxiv.org/abs/2202.13101v1 )

ライセンス: Link先を確認
Jinu Jayan, Saurabh Pashine, Pallavi Gawade, Bhushan Jagyasi, Sreedhar Seetharam, Gopali Contractor, Rajesh kumar Palani, Harshit Sampgaon, Sandeep Vaity, Tamal Bhattacharyya, Rengaraj Ramasubbu(参考訳) 人口増加と経済成長により、世界のエネルギー需要は大幅に増加した。 エネルギー需要の成長は、エネルギー源の大半が再生不能であり、化石燃料に基づいて有害な温室効果ガスを排出するので、環境に深刻な脅威をもたらす。 世界中の組織は、化石燃料をベースとする資源から、二酸化炭素排出量を減らすための温室効果ガス源への移行に課題に直面している。 Net-Zeroの排出目標を達成するためのステップとして、組織が全エネルギー消費において全体の再生可能電力シェアを増やすために使用できるスケーラブルなAIベースのソリューションを提案する。 本ソリューションは, 温室効果ガス(GHG)排出量を補償するコストを最適化するためのエネルギー需要予測, 再生可能エネルギーの調達, 炭素オフセットの推奨を施設に提供する。 このソリューションは4つの施設で1年以上にわたって生産され、再生可能エネルギーのシェアは大幅に増加した。

Demand for energy has increased significantly across the globe due to increase in population and economic growth. Growth in energy demand poses serious threat to the environment since majority of the energy sources are non-renewable and based on fossil fuels, which leads to emission of harmful greenhouse gases. Organizations across the world are facing challenges in transitioning from fossil fuels-based sources to greener sources to reduce their carbon footprint. As a step towards achieving Net-Zero emission target, we present a scalable AI based solution that can be used by organizations to increase their overall renewable electricity share in total energy consumption. Our solution provides facilities with accurate energy demand forecast, recommendation for procurement of renewable electricity to optimize cost and carbon offset recommendations to compensate for Greenhouse Gas (GHG) emissions. This solution has been used in production for more than a year for four facilities and has increased their renewable electricity share significantly.
翻訳日:2022-03-01 16:48:12 公開日:2022-02-26
# 最適輸送に基づくコントラスト文学習による意味的テクスチャの解釈に向けて

Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning ( http://arxiv.org/abs/2202.13196v1 )

ライセンス: Link先を確認
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu(参考訳) 近年,文埋め込みの類似性を捉えるために事前訓練された言語モデルを微調整することで,意味的テキスト類似性(STS)タスクにおける最先端のパフォーマンスが示された。 しかし、文類似性に対する解釈方法がないため、モデル出力を説明することは困難である。 本研究では, 文間距離を輸送問題に基づく文脈化トークン距離の重み付け和として明示的に記述し, そして, RCMDと呼ばれる最適輸送に基づく距離測定を行い, 意味的に整合したトークンペアを特定し, 活用する。 最後に,文ペアのRCMDを最適化するコントラスト学習フレームワークであるCLRCMDを提案する。 我々の学習フレームワークはSTSと解釈可能なSTSベンチマークの両方で他のベースラインよりも優れており、有効な文類似性を計算し、人間の判断と整合した解釈を提供することを示している。

Recently, finetuning a pretrained language model to capture the similarity between sentence embeddings has shown the state-of-the-art performance on the semantic textual similarity (STS) task. However, the absence of an interpretation method for the sentence similarity makes it difficult to explain the model output. In this work, we explicitly describe the sentence distance as the weighted sum of contextualized token distances on the basis of a transportation problem, and then present the optimal transport-based distance measure, named RCMD; it identifies and leverages semantically-aligned token pairs. In the end, we propose CLRCMD, a contrastive learning framework that optimizes RCMD of sentence pairs, which enhances the quality of sentence similarity and their interpretation. Extensive experiments demonstrate that our learning framework outperforms other baselines on both STS and interpretable-STS benchmarks, indicating that it computes effective sentence similarity and also provides interpretation consistent with human judgement.
翻訳日:2022-03-01 16:47:55 公開日:2022-02-26
# 制約モデルにおける自動集計

Automatic Tabulation in Constraint Models ( http://arxiv.org/abs/2202.13250v1 )

ライセンス: Link先を確認
\"Ozg\"ur Akg\"un, Ian P. Gent, Christopher Jefferson, Zeynep Kiziltan, Ian Miguel, Peter Nightingale, Andr\'as Z. Salamon, Felix Ulrich-Oltean(参考訳) 制約モデルの性能は、サブプロブレムを単一のテーブル制約に変換することで改善されることが多い。 本稿では,候補をテーブル制約に変換することで解解法性能が向上する可能性の高い,有望な候補サブプロブレムを特定するためのヒューリスティックスについて検討する。 本稿では,弱に伝播する表現など,一般的な事例を識別するためのヒューリスティックな小集合を提案する。 有望な部分問題を発見し、それらを集計するプロセスは、制約モデリングツールであるsavile rowで完全に自動化される。 キャッシュは、同等のサブプロブレムを何度もタブするのを避けるために実装されている。 制約式から直接テーブル制約を生成する単純なアルゴリズムを \savilerow で与える。 我々は,前回の研究で使用されたベンチマーク問題や,いくつかの新しい問題クラスにおいて,優れた性能を示す。 場合によっては、完全に自動化されたプロセスは、ソルバのパフォーマンスを大幅に改善する。

The performance of a constraint model can often be improved by converting a subproblem into a single table constraint. In this paper we study heuristics for identifying promising candidate subproblems, where converting the candidate into a table constraint is likely to improve solver performance. We propose a small set of heuristics to identify common cases, such as expressions that will propagate weakly. The process of discovering promising subproblems and tabulating them is entirely automated in the constraint modelling tool Savile Row. Caches are implemented to avoid tabulating equivalent subproblems many times. We give a simple algorithm to generate table constraints directly from a constraint expression in \savilerow. We demonstrate good performance on the benchmark problems used in earlier work on tabulation, and also for several new problem classes. In some cases, the entirely automated process leads to orders of magnitude improvements in solver performance.
翻訳日:2022-03-01 16:47:38 公開日:2022-02-26
# 知的意思決定者の共通モデルへの探求

The Quest for a Common Model of the Intelligent Decision Maker ( http://arxiv.org/abs/2202.13252v1 )

ライセンス: Link先を確認
Richard S. Sutton(参考訳) 強化学習と意思決定に関する多分野の会議の前提は、複数の規律が時間とともにゴール指向の意思決定に関心を共有することである。 本論文の目的は、心理学、人工知能、経済学、制御理論、神経科学にまたがる存在的かつ広く保持されている意思決定者の視点から、私が「知的エージェントの共通モデル」と呼ぶこの前提を明確化し、深めることである。 共通モデルは、生物、世界、またはアプリケーションドメインに固有のものを含んでいません。 共通モデルは、意思決定者とその世界との相互作用の側面(入力と出力、目標)と意思決定者の内部構成要素(知覚、意思決定、内部評価、世界モデル)を含む。 これらの側面と構成要素を識別し、異なる分野で異なる名前が与えられているが、基本的に同じ考えを参照し、規律にまたがる中立的な用語を考案する際の課題と利点について議論する。 インテリジェントエージェントの従属的な共通モデル上で、複数の異なる分野の収束を認識して構築する時が来た。

The premise of Multi-disciplinary Conference on Reinforcement Learning and Decision Making is that multiple disciplines share an interest in goal-directed decision making over time. The idea of this paper is to sharpen and deepen this premise by proposing a perspective on the decision maker that is substantive and widely held across psychology, artificial intelligence, economics, control theory, and neuroscience, which I call the "common model of the intelligent agent". The common model does not include anything specific to any organism, world, or application domain. The common model does include aspects of the decision maker's interaction with its world (there must be input and output, and a goal) and internal components of the decision maker (for perception, decision-making, internal evaluation, and a world model). I identify these aspects and components, note that they are given different names in different disciplines but refer essentially to the same ideas, and discuss the challenges and benefits of devising a neutral terminology that can be used across disciplines. It is time to recognize and build on the convergence of multiple diverse disciplines on a substantive common model of the intelligent agent.
翻訳日:2022-03-01 16:47:25 公開日:2022-02-26
# ビジュアルセマンティクスを意識したオブジェクト階層の構築

Building a visual semantics aware object hierarchy ( http://arxiv.org/abs/2202.13021v1 )

ライセンス: Link先を確認
Xiaolei Diao(参考訳) 意味的ギャップは、同じ概念の言語的表現の違いとして定義され、通常は異なる知識の背景を持つ個人間の誤解につながる。 言語的にアノテートされた画像は機械学習モデルのトレーニングに広く使われているため、セマンティックギャップ問題(sgp)もまた画像アノテーションに不可避なバイアスをもたらし、現在のコンピュータビジョンタスクのパフォーマンスを低下させる。 そこで本研究では,純粋視覚情報から学習し,SGPによる言語表現のバイアスを解消することを目的とした,視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。 この論文の直感は、概念が階層的に構成され、それぞれの概念が言語的アノテーション、すなわち視覚的意味論ではなく、特徴の集合によって記述できる実世界の知識表現から来ている。 評価は2つの部分から構成されており、まず、構築された階層をオブジェクト認識タスクに適用し、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。 予備結果は,提案手法の効率と可能性を明らかにする。

The semantic gap is defined as the difference between the linguistic representations of the same concept, which usually leads to misunderstanding between individuals with different knowledge backgrounds. Since linguistically annotated images are extensively used for training machine learning models, semantic gap problem (SGP) also results in inevitable bias on image annotations and further leads to poor performance on current computer vision tasks. To address this problem, we propose a novel unsupervised method to build visual semantics aware object hierarchy, aiming to get a classification model by learning from pure-visual information and to dissipate the bias of linguistic representations caused by SGP. Our intuition in this paper comes from real-world knowledge representation where concepts are hierarchically organized, and each concept can be described by a set of features rather than a linguistic annotation, namely visual semantic. The evaluation consists of two parts, firstly we apply the constructed hierarchy on the object recognition task and then we compare our visual hierarchy and existing lexical hierarchies to show the validity of our method. The preliminary results reveal the efficiency and potential of our proposed method.
翻訳日:2022-03-01 16:45:01 公開日:2022-02-26
# カメラ設定不変性のためのデフォーカスモデルを用いた焦点スタックからの深部奥行き推定

Deep Depth from Focal Stack with Defocus Model for Camera-Setting Invariance ( http://arxiv.org/abs/2202.13055v1 )

ライセンス: Link先を確認
Yuki Fujimura and Masaaki Iiyama and Takuya Funatomi and Yasuhiro Mukaigawa(参考訳) シーン深度を推定するための入力として焦点スタックを取り入れた,フォーカス/デフォーカス(DFF)からの学習に基づく深度を提案する。 デフォーカスぼけは深度推定に有用な手がかりである。 しかし、ブラーのサイズはシーンの深さだけでなく、焦点距離、焦点距離、f数といったカメラの設定にも依存する。 デフォーカスモデルのない現在の学習ベース手法では、トレーニングやテスト時間でカメラ設定が異なる場合、正確な深度マップを推定できない。 本手法では,シーン深度,デフォーカス画像,カメラ設定の制約を入力として平面スイープボリュームを入力し,この中間表現により,トレーニング時,テスト時に異なるカメラ設定で深度推定を行うことができる。 このカメラ設定不変性は、学習に基づくDFF法の適用性を高めることができる。 実験の結果,本手法は合成ドメインギャップに対して頑健であり,最先端性能を示すことが示された。

We propose a learning-based depth from focus/defocus (DFF), which takes a focal stack as input for estimating scene depth. Defocus blur is a useful cue for depth estimation. However, the size of the blur depends on not only scene depth but also camera settings such as focus distance, focal length, and f-number. Current learning-based methods without any defocus models cannot estimate a correct depth map if camera settings are different at training and test times. Our method takes a plane sweep volume as input for the constraint between scene depth, defocus images, and camera settings, and this intermediate representation enables depth estimation with different camera settings at training and test times. This camera-setting invariance can enhance the applicability of learning-based DFF methods. The experimental results also indicate that our method is robust against a synthetic-to-real domain gap, and exhibits state-of-the-art performance.
翻訳日:2022-03-01 16:44:43 公開日:2022-02-26
# ディープニューラルネットワークを用いたロバストな文書画像透かし方式

A Robust Document Image Watermarking Scheme using Deep Neural Network ( http://arxiv.org/abs/2202.13067v1 )

ライセンス: Link先を確認
Sulong Ge, Zhihua Xia, Jianwei Fei, Xingming Sun, and Jian Weng(参考訳) ウォーターマーキングは重要な著作権保護技術であり、一般にキャリアに識別情報を埋め込む。 すると、様々な攻撃に遭った後でも、同一性を抽出して、透かし付きキャリアから著作権を証明することができる。 既存の透かし技術のほとんどは、自然画像をキャリアとして捉えている。 自然画像と異なり、文書画像は色やテクスチャに富んでおらず、透かしを運ぶための冗長な情報が少ない。 本稿では,ディープニューラルネットワークを用いたエンドツーエンドの文書画像透かし方式を提案する。 特に、エンコーダとデコーダは、透かしを埋め込んで抽出するように設計されている。 Cropout, Dropout, Gaussian blur, Gaussian noise, Resize, JPEG Compressionなど,現実に遭遇する可能性のあるさまざまな攻撃をシミュレートするためにノイズ層が追加されている。 テキスト感度損失関数は文字への埋め込み変更を制限するように設計されている。 抽出精度を損なうことなく透かし画像の品質を向上させるため, 埋め込み強度調整戦略を提案する。 実験結果から,提案した文書画像透かし技術は,堅牢性と画質の点で3つの最先端技術を上回っていることがわかった。

Watermarking is an important copyright protection technology which generally embeds the identity information into the carrier imperceptibly. Then the identity can be extracted to prove the copyright from the watermarked carrier even after suffering various attacks. Most of the existing watermarking technologies take the nature images as carriers. Different from the natural images, document images are not so rich in color and texture, and thus have less redundant information to carry watermarks. This paper proposes an end-to-end document image watermarking scheme using the deep neural network. Specifically, an encoder and a decoder are designed to embed and extract the watermark. A noise layer is added to simulate the various attacks that could be encountered in reality, such as the Cropout, Dropout, Gaussian blur, Gaussian noise, Resize, and JPEG Compression. A text-sensitive loss function is designed to limit the embedding modification on characters. An embedding strength adjustment strategy is proposed to improve the quality of watermarked image with little loss of extraction accuracy. Experimental results show that the proposed document image watermarking technology outperforms three state-of-the-arts in terms of the robustness and image quality.
翻訳日:2022-03-01 16:44:26 公開日:2022-02-26
# 不確実性を考慮した深部マルチビューフォトメトリックステレオ

Uncertainty-Aware Deep Multi-View Photometric Stereo ( http://arxiv.org/abs/2202.13071v1 )

ライセンス: Link先を確認
Berk Kaya, Suryansh Kumar, Carlos Oliveira, Vittorio Ferrari, Luc Van Gool(参考訳) 本稿では,マルチビューフォトメトリックステレオ(mvps)問題に対する簡易かつ効果的な解法を提案する。 マルチビューステレオ(MVS)はPSによる低周波歪みを除去し、形状のグローバルな幾何を維持するのに有効であるのに対し、光度ステレオ(PS)は高周波表面の細部を回復するのに優れていることはよく知られている。 本稿では,PS と MVS の相補的強度を効果的に活用する手法を提案する。 私たちのキーとなるアイデアは、ピクセルごとの予測の不確実性を考慮しながら、それらを適切に組み合わせることです。 この目的のために,不確実性を考慮したディープPSネットワークとディープMVSネットワークを用いて,画素ごとの表面の正規度と深さを推定する。 不確実性モデリングは、各画素における信頼性のある表面正規値と深さ推定値を選択するのに役立つ。 提案手法は各画素において,予測不確実性度に応じて深部PSおよび深部MVSネットワーク予測を選択するか破棄する。 物体の表面形状の密度,詳細,精密な推定を行うため,多層パーセプトロン(MLP)を用いて暗黙的ニューラル形状の表現を学習することを提案する。 提案手法は,深部PSおよび深部MVSネットワークからの信頼性予測を用いて,MLPが自然ゼロレベル設定面に収束することを促す。 DiLiGenT-MVベンチマークデータセットの大規模な実験により、我々の手法は既存のアプローチよりも優れています。

This paper presents a simple and effective solution to the problem of multi-view photometric stereo (MVPS). It is well-known that photometric stereo (PS) is excellent at recovering high-frequency surface details, whereas multi-view stereo (MVS) can help remove the low-frequency distortion due to PS and retain the global geometry of the shape. This paper proposes an approach that can effectively utilize such complementary strengths of PS and MVS. Our key idea is to suitably combine them while taking into account the per-pixel uncertainty of their estimates. To this end, we estimate per-pixel surface normals and depth using an uncertainty-aware deep-PS network and deep-MVS network, respectively. Uncertainty modeling helps select reliable surface normal and depth estimates at each pixel which then act as a true representative of the dense surface geometry. At each pixel, our approach either selects or discards deep-PS and deep-MVS network prediction depending on the prediction uncertainty measure. For dense, detailed, and precise inference of the object's surface profile, we propose to learn the implicit neural shape representation via a multilayer perceptron (MLP). Our approach encourages the MLP to converge to a natural zero-level set surface using the confident prediction from deep-PS and deep-MVS networks, providing superior dense surface reconstruction. Extensive experiments on the DiLiGenT-MV benchmark dataset show that our method outperforms most of the existing approaches.
翻訳日:2022-03-01 16:44:09 公開日:2022-02-26
# グローバルなインスタンス追跡:人間のようなターゲットを見つける

Global Instance Tracking: Locating Target More Like Humans ( http://arxiv.org/abs/2202.13073v1 )

ライセンス: Link先を確認
Shiyu Hu, Xin Zhao, Lianghua Huang, Kaiqi Huang(参考訳) 人間の視覚システムの本質的な能力であるターゲットトラッキングは、コンピュータビジョンタスクによってシミュレートされている。 しかし、既存のトラッカーはaustereの実験環境ではうまく機能するが、閉塞や速い動きといった課題では失敗する。 この大きなギャップは、研究が知性よりも追跡性能を測るだけであることを示している。 トラッカーの知能レベルを科学的に判断する方法? 3つの要件(挑戦的なタスク、公正な環境、科学的評価手順)が欠如している意思決定問題とは別物である。 本稿では,まず,映像中の任意のユーザ指定インスタンスをカメラや動きの一貫性を仮定せずに検索し,人間の視覚的トラッキング能力をモデル化するグローバルインスタンス追跡(GIT)タスクを提案する。 その後,高品質・大規模ベンチマーク映像キューブを構築し,課題環境を構築した。 最後に,人間の能力をベースラインとして,トラッキングインテリジェンスを判断する科学的評価手順を設計する。 さらに、ツールキットと新しいリーダーボードを備えたオンラインプラットフォームも提供しています。 実験結果は、トラッカーと人間の間に明確なギャップがあることを示しているが、本物の人間ライクなトラッカーを作るには一歩先を行くだろう。 データベース、ツールキット、評価サーバ、ベースラインの結果はhttp://videocube.ait estunion.comで公開されている。

Target tracking, the essential ability of the human visual system, has been simulated by computer vision tasks. However, existing trackers perform well in austere experimental environments but fail in challenges like occlusion and fast motion. The massive gap indicates that researches only measure tracking performance rather than intelligence. How to scientifically judge the intelligence level of trackers? Distinct from decision-making problems, lacking three requirements (a challenging task, a fair environment, and a scientific evaluation procedure) makes it strenuous to answer the question. In this article, we first propose the global instance tracking (GIT) task, which is supposed to search an arbitrary user-specified instance in a video without any assumptions about camera or motion consistency, to model the human visual tracking ability. Whereafter, we construct a high-quality and large-scale benchmark VideoCube to create a challenging environment. Finally, we design a scientific evaluation procedure using human capabilities as the baseline to judge tracking intelligence. Additionally, we provide an online platform with toolkit and an updated leaderboard. Although the experimental results indicate a definite gap between trackers and humans, we expect to take a step forward to generate authentic human-like trackers. The database, toolkit, evaluation server, and baseline results are available at http://videocube.ait estunion.com.
翻訳日:2022-03-01 16:42:53 公開日:2022-02-26
# 単一ショットオブジェクト検出器のハード例マイニング手法の改良

Improved Hard Example Mining Approach for Single Shot Object Detectors ( http://arxiv.org/abs/2202.13080v1 )

ライセンス: Link先を確認
Aybora Koksal, Onder Tuzcuoglu, Kutalmis Gokalp Ince, Yoldas Ataseven, A. Aydin Alatan(参考訳) ハードサンプルマイニング法は一般に、不均衡なトレーニングセットに苦しむ対象検出器の性能を改善する。 本研究では,現状のリアルタイム物体検出装置であるyolov5に,既存の2つのハードサンプルマイニング手法(lrm,focal loss,fl)を適用し,組み合わせた。 ハードサンプルの性能向上のための提案手法の有効性を広く評価した。 提案手法は,2021年アンチUAVチャレンジデータセット上でのハードマイニング法 (LRM, FL) と比較して, 元の損失関数を用いた場合に比べてmAPを3%向上させる。

Hard example mining methods generally improve the performance of the object detectors, which suffer from imbalanced training sets. In this work, two existing hard example mining approaches (LRM and focal loss, FL) are adapted and combined in a state-of-the-art real-time object detector, YOLOv5. The effectiveness of the proposed approach for improving the performance on hard examples is extensively evaluated. The proposed method increases mAP by 3% compared to using the original loss function and around 1-2% compared to using the hard-mining methods (LRM or FL) individually on 2021 Anti-UAV Challenge Dataset.
翻訳日:2022-03-01 16:42:35 公開日:2022-02-26
# ボリュームビデオのための高精度人体再構成

Accurate Human Body Reconstruction for Volumetric Video ( http://arxiv.org/abs/2202.13118v1 )

ライセンス: Link先を確認
Decai Chen, Markus Worchel, Ingo Feldmann, Oliver Schreer, Peter Eisert(参考訳) 本研究では,能動カメラのみを用いた高忠実度人体再構成を実現するために,プロのエンドツーエンドビデオ制作パイプラインを強化する。 従来のステレオマッチング手法で深度マップを推定するが、プロのボリュームビデオ再構成の文脈で深度マップを推定するために、ディープラーニングに基づくマルチビューステレオネットワークを導入し、最適化する。 さらに,フォトメトリックの信頼性,クロスビューの幾何学的一貫性,前景のマスク,カメラの閲覧フラスタムを考慮し,フィルタリングと融合を含む新しい深度マップのポストプロセッシング手法を提案する。 本手法は,再構成人体の幾何学的詳細を高レベルに生成できることを示す。

In this work, we enhance a professional end-to-end volumetric video production pipeline to achieve high-fidelity human body reconstruction using only passive cameras. While current volumetric video approaches estimate depth maps using traditional stereo matching techniques, we introduce and optimize deep learning-based multi-view stereo networks for depth map estimation in the context of professional volumetric video reconstruction. Furthermore, we propose a novel depth map post-processing approach including filtering and fusion, by taking into account photometric confidence, cross-view geometric consistency, foreground masks as well as camera viewing frustums. We show that our method can generate high levels of geometric detail for reconstructed human bodies.
翻訳日:2022-03-01 16:42:21 公開日:2022-02-26
# セマンティクスアウェア量子化テクスチャを用いたブラインド画像の超解像

Blind Image Super Resolution with Semantic-Aware Quantized Texture Prior ( http://arxiv.org/abs/2202.13142v1 )

ライセンス: Link先を確認
Chaofeng Chen, Xinyu Shi, Yipeng Qin, Xiaoming Li, Xiaoguang Han, Tao Yang, Shihui Guo(参考訳) ブラインド画像のスーパーレゾリューションの重要な課題は、未知の劣化を伴う低解像度画像の現実的なテクスチャを復元することである。 最近の作品のほとんどは、訓練が難しいgansの生成能力に完全に依存している。 他の方法は、通常利用できない高解像度の画像参照を利用する。 本研究では,Vector Quantized GANで符号化されたQuantized Texture Priorsを用いて,現実的なテクスチャを復元するための新しいフレームワークであるQuanTexSRを提案する。 QuanTexSRは、テクスチャのないコンテンツ特徴を量子化された特徴ベクトル、すなわち事前訓練された特徴コードブックに整列することでテクスチャを生成する。 具体的には、QuanTexSRはテクスチャ生成をテクスチャレス特徴と事前訓練された特徴コードブックとの間の特徴マッチング問題として定式化している。 最終的なテクスチャは、コードブックから量子化された特徴によって生成される。 コードブックの機能はトレーニング前の段階で自然なテクスチャを生成する能力を示しているため、QuanTexSRはトレーニング前のコードブックをテクスチャとしてリッチで現実的なテクスチャを生成することができる。 さらに,事前学習されたVGG19ネットワークから抽出した特徴のクラスタを用いて,コードブックの事前学習を正規化する意味正規化手法を提案する。 これにより、セマンティックコンテキストによるテクスチャ生成がさらに改善される。 実験により, 提案手法が従来の手法よりも優れたテクスチャを生成できることが実証された。 コードは公開される予定だ。

A key challenge of blind image super resolution is to recover realistic textures for low-resolution images with unknown degradations. Most recent works completely rely on the generative ability of GANs, which are difficult to train. Other methods resort to high-resolution image references that are usually not available. In this work, we propose a novel framework, denoted as QuanTexSR, to restore realistic textures with the Quantized Texture Priors encoded in Vector Quantized GAN. The QuanTexSR generates textures by aligning the textureless content features to the quantized feature vectors, i.e., a pretrained feature codebook. Specifically, QuanTexSR formulates the texture generation as a feature matching problem between textureless features and a pretrained feature codebook. The final textures are then generated by the quantized features from the codebook. Since features in the codebook have shown the ability to generate natural textures in the pretrain stage, QuanTexSR can generate rich and realistic textures with the pretrained codebook as texture priors. Moreover, we propose a semantic regularization technique that regularizes the pre-training of the codebook using clusters of features extracted from the pretrained VGG19 network. This further improves texture generation with semantic context. Experiments demonstrate that the proposed QuanTexSR can generate competitive or better textures than previous approaches. Code will be made publicly available.
翻訳日:2022-03-01 16:42:10 公開日:2022-02-26
# スケッチのない大規模スケッチ認識のためのエッジ拡張

Edge Augmentation for Large-Scale Sketch Recognition without Sketches ( http://arxiv.org/abs/2202.13164v1 )

ライセンス: Link先を確認
Nikos Efthymiadis, Giorgos Tolias, Ondrej Chum(参考訳) この作業は、スケッチ分類タスクを多数のカテゴリにスケールアップする作業に対処する。 トレーニング用のスケッチの収集は遅くて面倒なプロセスであり、大規模なスケッチ認識の試みを妨げてきた。 我々は、手軽に取得できる自然画像のラベル付きコレクションを活用することで、スケッチデータのトレーニングが欠如していることを克服する。 ドメインギャップを埋めるために,自然画像のトレーニングセットからスケッチ認識を学習するタスクに合わせて,新たな拡張手法を提案する。 エッジ検出とエッジ選択のパラメータにランダム化が導入される。 自然画像は"randomized binary thin edges"(rbte)と呼ばれる擬似ノイズドメインに変換され、自然画像の代わりにトレーニングドメインとして使用される。 スケールアップ能力は、cnnベースのスケッチ認識を、従来よりも2.5倍以上のカテゴリでトレーニングすることで実証される。 この目的のために、一般的なコンピュータビジョンデータセットを組み合わせて、874カテゴリの自然画像のデータセットを構築した。 スケッチ認識に適したカテゴリが選択される。 性能を推定するために、スケッチを含む393のカテゴリのサブセットも収集する。

This work addresses scaling up the sketch classification task into a large number of categories. Collecting sketches for training is a slow and tedious process that has so far precluded any attempts to large-scale sketch recognition. We overcome the lack of training sketch data by exploiting labeled collections of natural images that are easier to obtain. To bridge the domain gap we present a novel augmentation technique that is tailored to the task of learning sketch recognition from a training set of natural images. Randomization is introduced in the parameters of edge detection and edge selection. Natural images are translated to a pseudo-novel domain called "randomized Binary Thin Edges" (rBTE), which is used as a training domain instead of natural images. The ability to scale up is demonstrated by training CNN-based sketch recognition of more than 2.5 times larger number of categories than used previously. For this purpose, a dataset of natural images from 874 categories is constructed by combining a number of popular computer vision datasets. The categories are selected to be suitable for sketch recognition. To estimate the performance, a subset of 393 categories with sketches is also collected.
翻訳日:2022-03-01 16:41:46 公開日:2022-02-26
# コードの大規模言語モデルの体系的評価

A Systematic Evaluation of Large Language Models of Code ( http://arxiv.org/abs/2202.13169v1 )

ライセンス: Link先を確認
Frank F. Xu, Uri Alon, Graham Neubig, Vincent J. Hellendoorn(参考訳) コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。 しかし、現在の最先端のコードLM(Codex (Chen et al., 2021))は公開されておらず、モデルやデータ設計の決定について多くの疑問を残している。 Codex, GPT-J, GPT-Neo, GPT-NeoX-20B, CodeParrotの3つの既存モデルの体系的な評価を通じて,これらの空白を埋めることを目指している。 codex自体はオープンソースではありませんが、既存のオープンソースモデルは、自然言語モデリングを主に対象とするが、いくつかのプログラミング言語で密接な結果をもたらすことが分かっています。 我々はさらに、多言語コーパスでのみトレーニングされた大規模なオープンソースモデルという形で、重要な欠落部分を特定する。 GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。 c言語では、polycoderはcodexを含む全てのモデルを上回る。 私たちのトレーニングされたモデルはオープンソースで、https://github.com/V Hellendoorn/Code-LMs で公開されています。

Large language models (LMs) of code have recently shown tremendous promise in completing code and synthesizing code from natural language descriptions. However, the current state-of-the-art code LMs (e.g., Codex (Chen et al., 2021)) are not publicly available, leaving many questions about their model and data design decisions. We aim to fill in some of these blanks through a systematic evaluation of the largest existing models: Codex, GPT-J, GPT-Neo, GPT-NeoX-20B, and CodeParrot, across various programming languages. Although Codex itself is not open-source, we find that existing open-source models do achieve close results in some programming languages, although targeted mainly for natural language modeling. We further identify an important missing piece in the form of a large open-source model trained exclusively on a multi-lingual corpus of code. We release a new model, PolyCoder, with 2.7B parameters based on the GPT-2 architecture, which was trained on 249GB of code across 12 programming languages on a single machine. In the C programming language, PolyCoder outperforms all models including Codex. Our trained models are open-source and publicly available at https://github.com/V Hellendoorn/Code-LMs , which enables future research and application in this area.
翻訳日:2022-03-01 16:32:28 公開日:2022-02-26
# 1ビット量子化による高次元統計量推定

High Dimensional Statistical Estimation under One-bit Quantization ( http://arxiv.org/abs/2202.13157v1 )

ライセンス: Link先を確認
Junren Chen, Cheng-Long Wang, Michael K. Ng, Di Wang(参考訳) 高精度のデータと比較すると、信号記憶、処理、送信、プライバシーの強化といった効率性のため、多くのアプリケーションでは1ビット(バイナリ)データが好ましい。 本稿では,3つの基本的統計的推定問題,すなわちスパース共分散行列推定,スパース線形回帰,およびタンニン化,ディザリング,量子化を含む実装が容易な1ビット量子化プロセスから生じるバイナリデータによる低ランク行列補完について検討する。 ガウス系と重尾系の両方で、高次元スケーリングを扱う新しい推定器が提案されている。 サブガウシアンの場合、我々の推定者は対数因子の最小値を達成するので、量子化は統計的学習率の観点ではほとんど費用がかからない。 重み付きの場合、ディザリングの前にデータを切り離してバイアス分散トレードオフを達成し、その結果、対応するミニマックスレートの平方根である収束率を推定する。 合成データの実験的結果は, 1ビット量子化による推定値の統計的特性を裏付け, 実証するものである。

Compared with data with high precision, one-bit (binary) data are preferable in many applications because of the efficiency in signal storage, processing, transmission, and enhancement of privacy. In this paper, we study three fundamental statistical estimation problems, i.e., sparse covariance matrix estimation, sparse linear regression, and low-rank matrix completion via binary data arising from an easy-to-implement one-bit quantization process that contains truncation, dithering and quantization as typical steps. Under both sub-Gaussian and heavy-tailed regimes, new estimators that handle high-dimensional scaling are proposed. In sub-Gaussian case, we show that our estimators achieve minimax rates up to logarithmic factors, hence the quantization nearly costs nothing from the perspective of statistical learning rate. In heavy-tailed case, we truncate the data before dithering to achieve a bias-variance trade-off, which results in estimators embracing convergence rates that are the square root of the corresponding minimax rates. Experimental results on synthetic data are reported to support and demonstrate the statistical properties of our estimators under one-bit quantization.
翻訳日:2022-03-01 15:48:09 公開日:2022-02-26
# SWIS:独立系オフライン署名検証のための自己監督型表現学習

SWIS: Self-Supervised Representation Learning For Writer Independent Offline Signature Verification ( http://arxiv.org/abs/2202.13078v1 )

ライセンス: Link先を確認
Siladittya Manna, Soumitri Chattopadhyay, Saumik Bhattacharya and Umapada Pal(参考訳) writer独立オフラインシグネチャ検証は、しばしばトレーニングデータが少ないため、パターン認識において最も難しいタスクの1つです。 このようなデータ不足問題に対処するため,本稿では,独立したオフライン署名検証を行うための自己教師付き学習(SSL)フレームワークを提案する。 私たちの知る限りでは、シグネチャ検証タスクに自己監督設定を利用する最初の試みです。 署名画像からの自己教師表現学習の目的は、異なる特徴方向に属する2つの確率変数間の相互共分散を最小化し、同じ特徴方向を示す確率変数間の正の相互共分散を確保することである。 これにより、特徴が線形に非相関であり、冗長な情報が破棄されることが保証される。 異なるデータセットに対する実験結果から,奨励的な結果を得た。

Writer independent offline signature verification is one of the most challenging tasks in pattern recognition as there is often a scarcity of training data. To handle such data scarcity problem, in this paper, we propose a novel self-supervised learning (SSL) framework for writer independent offline signature verification. To our knowledge, this is the first attempt to utilize self-supervised setting for the signature verification task. The objective of self-supervised representation learning from the signature images is achieved by minimizing the cross-covariance between two random variables belonging to different feature directions and ensuring a positive cross-covariance between the random variables denoting the same feature direction. This ensures that the features are decorrelated linearly and the redundant information is discarded. Through experimental results on different data sets, we obtained encouraging results.
翻訳日:2022-03-01 15:43:38 公開日:2022-02-26
# ヒューマンマシンインタラクションのための連続的ヒューマンアクション認識:レビュー

Continuous Human Action Recognition for Human-Machine Interaction: A Review ( http://arxiv.org/abs/2202.13096v1 )

ライセンス: Link先を確認
Harshala Gammulle, David Ahmedt-Aristizabal, Simon Denman, Lachlan Tychsen-Smith, Lars Petersson, Clinton Fookes(参考訳) データ駆動機械学習研究の進歩により、ビデオストリームの分析のための時空間的特徴を捉えるための様々な予測モデルが提案されている。 リアルタイムなヒューマンマシンインタラクションを必要とするアプリケーションには,アクションを認識し,アクション遷移を検出することが難しい。 文献における最近の研究を概観することにより、アクションセグメンテーション手法を徹底的に分析、説明、比較し、ほとんどの最先端手法で使用される特徴抽出と学習戦略の詳細を提供する。 本稿では,物体検出および追跡手法が人間の行動分節手法に与える影響について述べる。 このようなモデルを実世界のシナリオに適用し、解釈可能性、一般化、最適化、展開を改善するためのいくつかの限界と重要な研究方向について検討する。

With advances in data-driven machine learning research, a wide variety of prediction models have been proposed to capture spatio-temporal features for the analysis of video streams. Recognising actions and detecting action transitions within an input video are challenging but necessary tasks for applications that require real-time human-machine interaction. By reviewing a large body of recent related work in the literature, we thoroughly analyse, explain and compare action segmentation methods and provide details on the feature extraction and learning strategies that are used on most state-of-the-art methods. We cover the impact of the performance of object detection and tracking techniques on human action segmentation methodologies. We investigate the application of such models to real-world scenarios and discuss several limitations and key research directions towards improving interpretability, generalisation, optimisation and deployment.
翻訳日:2022-03-01 15:43:25 公開日:2022-02-26
# AugESC: 事前訓練された言語モデルを用いた感情支援会話のための大規模データ拡張

AugESC: Large-scale Data Augmentation for Emotional Support Conversation with Pre-trained Language Models ( http://arxiv.org/abs/2202.13047v1 )

ライセンス: Link先を確認
Chujie Zheng, Sahand Sabour, Jiaxin Wen, Minlie Huang(参考訳) クラウドソーシングは一般的にダイアログデータ収集に使用される。 しかし、非常にコストがかかり、時間がかかり、収集されたデータはスケールやトピックのカバレッジに制限される。 本稿では,感情的支援会話の生成を目的としたデータ拡張のための大規模事前学習言語モデルの提案と,パイロット探査における重要な知見を提供する。 提案手法は,6BパラメータGPT-Jモデルを活用し,公開ダイアログ投稿を用いて様々な話題の会話をトリガーする。 次に、感情支援会話のための機械学習データセットであるAugESCを構築する。 大規模なESConvデータセットよりも2桁大きく、より多様なトピックをカバーしており、人間の評価によって高品質であることが示されている。 最後に,対話的評価により,esconv上でチューニングされた対話モデルをさらに強化し,さまざまな会話トピックを処理し,より効果的な感情支援を実現することを実証する。

Crowd-sourcing is commonly adopted for dialog data collection. However, it is highly costly and time-consuming, and the collected data is limited in scale and topic coverage. In this paper, aiming to generate emotional support conversations, we propose exploiting large-scale pre-trained language models for data augmentation, and provide key findings in our pilot exploration. Our adopted approach leverages the 6B-parameter GPT-J model and utilizes publicly available dialog posts to trigger conversations on various topics. Then we construct AugESC, a machine-augmented dataset for emotional support conversation. It is two orders of magnitude larger than the original ESConv dataset in scale, covers more diverse topics, and is shown to be of high quality by human evaluation. Lastly, we demonstrate with interactive evaluation that AugESC can further enhance dialog models tuned on ESConv to handle various conversation topics and to provide significantly more effective emotional support.
翻訳日:2022-03-01 15:38:50 公開日:2022-02-26
# 意図分類とスロット充填のための双方向ジョイントニューラルネットワーク

Bi-directional Joint Neural Networks for Intent Classification and Slot Filling ( http://arxiv.org/abs/2202.13079v1 )

ライセンス: Link先を確認
Soyeon Caren Han, Siqu Long, Huichun Li, Henry Weld, Josiah Poon(参考訳) インテント分類とスロットフィリングは、自然言語理解にとって重要な2つのタスクである。 伝統的に2つのタスクは独立して進行した。 しかし、近年では、意図分類とスロットフィリングのジョイントモデルが最先端のパフォーマンスを達成しており、両者のタスクの間に強い関係があることが証明されている。 本稿では,bertによる多段階階層化プロセスと,intent2slotやslot2intentを含む双方向統合自然言語理解機構を含む,インテント分類とスロット充填のための双方向統合モデルを提案し,インテント分類とスロット充填の相互性能向上を図る。 評価の結果,本モデルは意図分類精度,スロットフィリングF1,および公用ベンチマークデータセット,ATIS (88.6%) およびSNIPS (92.8%) に適用した場合の文レベルのセマンティックフレーム精度を大幅に向上することがわかった。

Intent classification and slot filling are two critical tasks for natural language understanding. Traditionally the two tasks proceeded independently. However, more recently joint models for intent classification and slot filling have achieved state-of-the-art performance, and have proved that there exists a strong relationship between the two tasks. In this paper, we propose a bi-directional joint model for intent classification and slot filling, which includes a multi-stage hierarchical process via BERT and bi-directional joint natural language understanding mechanisms, including intent2slot and slot2intent, to obtain mutual performance enhancement between intent classification and slot filling. The evaluations show that our model achieves state-of-the-art results on intent classification accuracy, slot filling F1, and significantly improves sentence-level semantic frame accuracy when applied to publicly available benchmark datasets, ATIS (88.6%) and SNIPS (92.8%).
翻訳日:2022-03-01 15:38:34 公開日:2022-02-26
# 言語横断アライメントのためのマルチレベルコントラスト学習

Multi-Level Contrastive Learning for Cross-Lingual Alignment ( http://arxiv.org/abs/2202.13083v1 )

ライセンス: Link先を確認
Beiduo Chen, Wu Guo, Bin Gu, Quan Liu, Yongchao Wang(参考訳) マルチリンガルBERT(mBERT)のような言語間事前学習モデルは、様々な言語間下流のNLPタスクにおいて大きな性能を発揮している。 本稿では,事前学習モデルの言語横断性を改善するため,マルチレベルコントラスト学習(ML-CTL)フレームワークを提案する。 提案手法は,翻訳された並列データを用いて,異なる言語に対して類似したセマンティック埋め込みを生成する。 しかし,これまでのほとんどの研究で用いられている文レベルのアライメントとは異なり,本論文では,各並列文の単語レベル情報をコントラスト学習に明示的に統合する。 さらに,学習過程における浮動小数点誤差の影響を小さいバッチサイズで緩和するために,クロスゼロノイズコントラスト推定(cz-nce)損失を提案する。 提案手法は,基本モデル (mBERT) の言語間伝達能力を大幅に向上し,Xtremeベンチマークの同サイズのモデルと比較して,複数のゼロショット言語間下流タスクにおいて性能が向上する。

Cross-language pre-trained models such as multilingual BERT (mBERT) have achieved significant performance in various cross-lingual downstream NLP tasks. This paper proposes a multi-level contrastive learning (ML-CTL) framework to further improve the cross-lingual ability of pre-trained models. The proposed method uses translated parallel data to encourage the model to generate similar semantic embeddings for different languages. However, unlike the sentence-level alignment used in most previous studies, in this paper, we explicitly integrate the word-level information of each pair of parallel sentences into contrastive learning. Moreover, cross-zero noise contrastive estimation (CZ-NCE) loss is proposed to alleviate the impact of the floating-point error in the training process with a small batch size. The proposed method significantly improves the cross-lingual transfer ability of our basic model (mBERT) and outperforms on multiple zero-shot cross-lingual downstream tasks compared to the same-size models in the Xtreme benchmark.
翻訳日:2022-03-01 15:38:17 公開日:2022-02-26
# 対照学習における否定的サンプルの影響を探る--文埋め込みの事例研究

Exploring the Impact of Negative Samples of Contrastive Learning: A Case Study of Sentence Embeddin ( http://arxiv.org/abs/2202.13093v1 )

ライセンス: Link先を確認
Rui Cao, Yihao Wang, Yuxin Liang, Ling Gao, Jie Zheng, Jie Ren, Zheng Wang(参考訳) ラベルのないデータから知識を抽出する強力な技術として、コントラスト学習が登場している。 この技術は、正(類似)と負(類似)の2つの成分のバランスの取れた混合物を必要とする。 これは通常、トレーニング中に負のサンプルのキューを維持することで達成される。 この領域での先行的な作業は通常、固定長の負のサンプルキューを使用するが、負のサンプルサイズがモデルのパフォーマンスにどのように影響するかは定かではない。 対照的な学習を実践する際の負のサンプル数の不透明な影響は、我々の深層探査を刺激した。 本稿では,文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル,すなわちMoCoSEを提案する。 予測層をオンラインブランチに追加して,モデルを非対称にするとともに,対象ブランチのema更新機構を併用することで,モデル崩壊を防止する。 最大トレーサブル距離メトリックを定義することで、テキストの対比学習が負のサンプルの履歴情報からどの程度の利点を得られるかを学習する。 実験の結果,最大トレーサブル距離が一定範囲の場合に最良の結果が得られ,負のサンプルキューに最適な履歴情報が存在することが示された。 提案した教師なしMoCoSEを意味的テキスト類似度(STS)タスクで評価し,Spearmanの相関平均7.27 %$を得る。 ソースコードはhttps://github.com/x bdxwyh/mocoseで入手できる。

Contrastive learning is emerging as a powerful technique for extracting knowledge from unlabeled data. This technique requires a balanced mixture of two ingredients: positive (similar) and negative (dissimilar) samples. This is typically achieved by maintaining a queue of negative samples during training. Prior works in the area typically uses a fixed-length negative sample queue, but how the negative sample size affects the model performance remains unclear. The opaque impact of the number of negative samples on performance when employing contrastive learning aroused our in-depth exploration. This paper presents a momentum contrastive learning model with negative sample queue for sentence embedding, namely MoCoSE. We add the prediction layer to the online branch to make the model asymmetric and together with EMA update mechanism of the target branch to prevent model from collapsing. We define a maximum traceable distance metric, through which we learn to what extent the text contrastive learning benefits from the historical information of negative samples. Our experiments find that the best results are obtained when the maximum traceable distance is at a certain range, demonstrating that there is an optimal range of historical information for a negative sample queue. We evaluate the proposed unsupervised MoCoSE on the semantic text similarity (STS) task and obtain an average Spearman's correlation of $77.27\%$. Source code is available at https://github.com/x bdxwyh/mocose
翻訳日:2022-03-01 15:37:59 公開日:2022-02-26
# コンパス:未発見のコンテンツを小説家に知らせるクリエイティブなサポートシステム

COMPASS: a Creative Support System that Alerts Novelists to the Unnoticed Missing Contents ( http://arxiv.org/abs/2202.13151v1 )

ライセンス: Link先を確認
Yusuke Mori, Hiroaki Yamane, Ryohei Shimizu, Yusuke Mukuta, Tatsuya Harada(参考訳) 人間が書くと、意図せずに情報を省略することがある。 コンピュータを用いて省略された情報を補完することは、書き込み支援を提供するのに役立つ。 近年,ストーリー理解と生成の分野では,不完全なストーリーの欠落部分を生成するために,ストーリーコンプリート(SC)が提案されている。 その適用性は、ユーザーがストーリーの欠落部分について事前の知識を必要とするため制限されるが、この問題を補うために、不在位置予測(MPP)を用いることができる。 mppは欠落部分の位置を予測することを目指しているが、「一文が欠落している」という前提知識は依然として必要である。 本研究では,この制約を解消する新しいmppタスクである可変数mpp(vn-mpp)を提案する。 この新たなMPPタスクには2つの方法を提案する。 さらに,新しい課題と手法に基づき,創造的な筆記支援システムcompassを開発した。 日本語でテキストを書くプロのクリエーターによるユーザ実験の結果,開発システムの有効性と有用性を確認した。

When humans write, they may unintentionally omit some information. Complementing the omitted information using a computer is helpful in providing writing support. Recently, in the field of story understanding and generation, story completion (SC) was proposed to generate the missing parts of an incomplete story. Although its applicability is limited because it requires that the user have prior knowledge of the missing part of a story, missing position prediction (MPP) can be used to compensate for this problem. MPP aims to predict the position of the missing part, but the prerequisite knowledge that "one sentence is missing" is still required. In this study, we propose Variable Number MPP (VN-MPP), a new MPP task that removes this restriction; that is, the task to predict multiple missing sentences or to judge whether there are no missing sentences in the first place. We also propose two methods for this new MPP task. Furthermore, based on the novel task and methods, we developed a creative writing support system, COMPASS. The results of a user experiment involving professional creators who write texts in Japanese confirm the efficacy and utility of the developed system.
翻訳日:2022-03-01 15:37:36 公開日:2022-02-26
# 最小不確かさ原理による一般化ラベルシフト補正:理論とアルゴリズム

Generalized Label Shift Correction via Minimum Uncertainty Principle: Theory and Algorithm ( http://arxiv.org/abs/2202.13043v1 )

ライセンス: Link先を確認
You-Wei Luo and Chuan-Xian Ren(参考訳) 機械学習の根本的な問題として、データセットシフトは、変化する環境下で知識を学び、伝達するパラダイムを誘導する。 従来の手法では、変化は共変量によって引き起こされると考えられており、これは複雑な実世界のデータには実用的ではない。 我々は、望ましい知識の学習と伝達に関する解釈可能な洞察を提供する一般化ラベルシフト(GLS)を考える。 現在のGLSメソッド: 1)統計的学習理論と密接な関係がない。 2) シフト条件分布は暗黙の変換と一致すると仮定するが、明示的なモデリングは未検討である。 本稿では,これらの課題に対処するための条件適応フレームワークを提案する。 学習理論の観点からは、条件適応の一般化誤差が以前の共変量適応よりも低いことを証明する。 理論的結果に従えば,不確かさを最小限に抑えた条件不変変換法を提案する。 具体的には、条件分布の区別性を特徴づけるためにヒルベルト空間上の \textit{conditional metric operator} を提案する。 有限な観察では、経験的推定は常に明確に定義され、サンプルサイズが増加するにつれて基礎となる真理に収束することが証明される。 実験結果から,提案モデルが異なるGLSシナリオ下での競争性能を実現することを示す。

As a fundamental problem in machine learning, dataset shift induces a paradigm to learn and transfer knowledge under changing environment. Previous methods assume the changes are induced by covariate, which is less practical for complex real-world data. We consider the Generalized Label Shift (GLS), which provides an interpretable insight into the learning and transfer of desirable knowledge. Current GLS methods: 1) are not well-connected with the statistical learning theory; 2) usually assume the shifting conditional distributions will be matched with an implicit transformation, but its explicit modeling is unexplored. In this paper, we propose a conditional adaptation framework to deal with these challenges. From the perspective of learning theory, we prove that the generalization error of conditional adaptation is lower than previous covariate adaptation. Following the theoretical results, we propose the minimum uncertainty principle to learn conditional invariant transformation via discrepancy optimization. Specifically, we propose the \textit{conditional metric operator} on Hilbert space to characterize the distinctness of conditional distributions. For finite observations, we prove that the empirical estimation is always well-defined and will converge to underlying truth as sample size increases. The results of extensive experiments demonstrate that the proposed model achieves competitive performance under different GLS scenarios.
翻訳日:2022-03-01 14:52:33 公開日:2022-02-26
# 一段階物体検出における視覚的推論の解析

Analysis of Visual Reasoning on One-Stage Object Detection ( http://arxiv.org/abs/2202.13115v1 )

ライセンス: Link先を確認
Tolga Aksoy, Ugur Halici(参考訳) 対象物の関係を考慮せずに、各画像領域を別々に処理することで、最先端の1段物検出装置を限定する。 これにより、オブジェクトを正常に検出するための高品質な畳み込み特徴表現にのみ依存する。 しかし、いくつかの困難な状況のため、これは不可能な場合もある。 本稿では,一段階物体検出における推論機能の利用について分析する。 我々は自己注意を用いて画像領域の関係を推論する異なるアーキテクチャを試みた。 YOLOv3-Reasoner2モデルは、推論層の機能を空間的に意味的に拡張し、元の畳み込み機能と融合してパフォーマンスを向上させる。 YOLOv3-Reasoner2 モデルは、COCO上のベースライン YOLOv3 に対して、リアルタイムに動作しながら、約2.5%の絶対的な改善を実現している。

Current state-of-the-art one-stage object detectors are limited by treating each image region separately without considering possible relations of the objects. This causes dependency solely on high-quality convolutional feature representations for detecting objects successfully. However, this may not be possible sometimes due to some challenging conditions. In this paper, the usage of reasoning features on one-stage object detection is analyzed. We attempted different architectures that reason the relations of the image regions by using self-attention. YOLOv3-Reasoner2 model spatially and semantically enhances features in the reasoning layer and fuses them with the original convolutional features to improve performance. The YOLOv3-Reasoner2 model achieves around 2.5% absolute improvement with respect to baseline YOLOv3 on COCO in terms of mAP while still running in real-time.
翻訳日:2022-03-01 14:52:13 公開日:2022-02-26
# リレーショナルサロゲート損失学習

Relational Surrogate Loss Learning ( http://arxiv.org/abs/2202.13197v1 )

ライセンス: Link先を確認
Tao Huang, Zekang Li, Hua Lu, Yong Shan, Shusheng Yang, Yang Feng, Fei Wang, Shan You, Chang Xu(参考訳) 機械学習における評価指標は、平均精度やF1スコアなど、非微分可能で非分解不能である可能性があるため、損失関数とはみなされないことが多い。 本稿では,評価指標を近似するためにディープニューラルネットワークを用いたサーロゲート損失学習を再考し,この問題に対処することを目的とする。 ディープニューラルネットワークによる評価メトリックの正確な回復を追求する代わりに、あるモデルが他のモデルよりも優れているか悪いかを区別する、これらの評価メトリックの存在の目的を思い出させる。 本稿では,サーロゲート損失とメトリックス十分の関係を直接維持し,この関係を最大化し、サーロゲート損失を学習するためのランク相関に基づく最適化手法を提案する。 従来の手法に比べて最適化が容易で,効率と性能の向上が期待できる。 本手法は画像分類やニューラルマシン翻訳など様々なタスクの改善を実現し,人間のポーズ推定や機械読解作業において最先端の手法よりも優れていた。 コードはhttps://github.com/h unto/reloss。

Evaluation metrics in machine learning are often hardly taken as loss functions, as they could be non-differentiable and non-decomposable, e.g., average precision and F1 score. This paper aims to address this problem by revisiting the surrogate loss learning, where a deep neural network is employed to approximate the evaluation metrics. Instead of pursuing an exact recovery of the evaluation metric through a deep neural network, we are reminded of the purpose of the existence of these evaluation metrics, which is to distinguish whether one model is better or worse than another. In this paper, we show that directly maintaining the relation of models between surrogate losses and metrics suffices, and propose a rank correlation-based optimization method to maximize this relation and learn surrogate losses. Compared to previous works, our method is much easier to optimize and enjoys significant efficiency and performance gains. Extensive experiments show that our method achieves improvements on various tasks including image classification and neural machine translation, and even outperforms state-of-the-art methods on human pose estimation and machine reading comprehension tasks. Code is available at: https://github.com/h unto/ReLoss.
翻訳日:2022-03-01 14:51:59 公開日:2022-02-26
# 協調型マルチエージェント強化学習のためのスケーラブルグラフ理論分散フレームワーク

A Scalable Graph-Theoretic Distributed Framework for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2202.13046v1 )

ライセンス: Link先を確認
Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty, Piyush K. Sharma(参考訳) 大規模協調型マルチエージェント強化学習(MARL)の主な課題は2つある。 (i)RLアルゴリズムは,各エージェントのリソースが限られているため,分散することが望ましい。 (II)次元の呪いにより収束や計算複雑性の問題が発生する。 残念ながら、既存の分散RLの参照のほとんどは、各エージェントのポリシー検索プロセスがローカル情報に基づいていることにのみ焦点をあてているが、大規模ネットワークに直面する際に状態空間と行動空間の高次元によって引き起こされるスケーラビリティの問題は解決できない。 本稿では,この問題に関わるグラフ構造を利用した協調型MARLのための汎用分散フレームワークを提案する。 MARLでは,座標グラフ,観測グラフ,報酬グラフという3つのグラフを導入する。 これら3つのグラフと与えられた通信グラフに基づいて、2つの分散RLアプローチを提案する。 最初のアプローチでは、上記の4つのグラフの構造に依存する問題自体の固有の分解可能性特性を利用し、特定のグラフィカルな条件下で高いパフォーマンスを生み出すことができる。 第二のアプローチは近似解を提供し、任意のグラフに適用できる。 ここで近似誤差は人工的に設計された指数に依存する。 この指標の選択は近似誤差の最小化と計算複雑性の低減とのトレードオフである。 シミュレーションによると、rlアルゴリズムは、集中型およびコンセンサスベースの分散rlアルゴリズムと比較して、大規模マスへのスケーラビリティが大幅に向上している。

The main challenge of large-scale cooperative multi-agent reinforcement learning (MARL) is two-fold: (i) the RL algorithm is desired to be distributed due to limited resource for each individual agent; (ii) issues on convergence or computational complexity emerge due to the curse of dimensionality. Unfortunately, most of existing distributed RL references only focus on ensuring that the individual policy-seeking process of each agent is based on local information, but fail to solve the scalability issue induced by high dimensions of the state and action spaces when facing large-scale networks. In this paper, we propose a general distributed framework for cooperative MARL by utilizing the structures of graphs involved in this problem. We introduce three graphs in MARL, namely, the coordination graph, the observation graph and the reward graph. Based on these three graphs, and a given communication graph, we propose two distributed RL approaches. The first approach utilizes the inherent decomposability property of the problem itself, whose efficiency depends on the structures of the aforementioned four graphs, and is able to produce a high performance under specific graphical conditions. The second approach provides an approximate solution and is applicable for any graphs. Here the approximation error depends on an artificially designed index. The choice of this index is a trade-off between minimizing the approximation error and reducing the computational complexity. Simulations show that our RL algorithms have a significantly improved scalability to large-scale MASs compared with centralized and consensus-based distributed RL algorithms.
翻訳日:2022-03-01 14:48:13 公開日:2022-02-26
# 対人コントラスト型自己監督学習

Adversarial Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2202.13072v1 )

ライセンス: Link先を確認
Wentao Zhu, Hang Shang, Tingxun Lv, Chao Liao, Sen Yang, Ji Liu(参考訳) 近年,ラベルのない膨大なデータ,特に自己教師あり学習からの学習が注目されている。 ラベル付きサンプルの教師付き微調整による自己教師付き学習は、ラベルの効率を大幅に向上させ、完全な注釈付きデータを用いた標準教師付きトレーニングより優れている。 本稿では,オンラインのハードネガティブペアマイニングに基づく,新しい自己教師付きディープラーニングパラダイムを提案する。 具体的には、自己教師型学習のためのデータのマルチビューを生成し、ハードネガティブなペアマイニングをトレーニングに統合する学生-教師ネットワークを設計する。 次に、正のサンプル対と鉱山の硬い負のサンプル対の両方を考慮した新しい三重項的損失を導出する。 ILSVRC-2012において,提案手法とその構成成分の有効性を実証した。

Recently, learning from vast unlabeled data, especially self-supervised learning, has been emerging and attracted widespread attention. Self-supervised learning followed by the supervised fine-tuning on a few labeled examples can significantly improve label efficiency and outperform standard supervised training using fully annotated data. In this work, we present a novel self-supervised deep learning paradigm based on online hard negative pair mining. Specifically, we design a student-teacher network to generate multi-view of the data for self-supervised learning and integrate hard negative pair mining into the training. Then we derive a new triplet-like loss considering both positive sample pairs and mined hard negative sample pairs. Extensive experiments demonstrate the effectiveness of the proposed method and its components on ILSVRC-2012.
翻訳日:2022-03-01 14:30:33 公開日:2022-02-26
# RIConv++: 深層学習のための効果的な回転不変畳み込み

RIConv++: Effective Rotation Invariant Convolutions for 3D Point Clouds Deep Learning ( http://arxiv.org/abs/2202.13094v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Binh-Son Hua, Sai-Kit Yeung(参考訳) 3Dポイントクラウドのディープラーニングは、ニューラルネットワークがポイントクラウドの機能を直接学習することのできる、有望な研究分野であり、3Dシーン理解タスクを解決するための堅牢なツールである。 近年の研究では、点クラウド畳み込みは変換や点置換に不変であることが示されているが、点クラウド畳み込みの回転不変性の研究は、これまでほとんど行われていない。 いくつかの既存手法は回転不変の特徴を持つ点雲畳み込みを行うが、既存の手法は一般的に翻訳不変の方法と同等に機能しない。 本研究では,点座標と比較して点雲畳み込みによって消費される回転不変な特徴がそれほど特徴的ではないことが重要な理由であると主張する。 この問題に対処するために,局所領域から強力な回転不変特徴を設計することで特徴の区別を高める,シンプルで効果的な畳み込み演算子を提案する。 我々は,関心点とその隣人との関係と,その特徴記述性を大きく改善するための隣人の内的関係について考察する。 ネットワークアーキテクチャは、各畳み込み層の近傍サイズを調整するだけで、ローカルとグローバルの両方のコンテキストをキャプチャできる。 我々は,本手法を評価するために,合成および実世界の点雲分類,部分分割,形状検索についていくつかの実験を行った。

3D point clouds deep learning is a promising field of research that allows a neural network to learn features of point clouds directly, making it a robust tool for solving 3D scene understanding tasks. While recent works show that point cloud convolutions can be invariant to translation and point permutation, investigations of the rotation invariance property for point cloud convolution has been so far scarce. Some existing methods perform point cloud convolutions with rotation-invariant features, existing methods generally do not perform as well as translation-invarian t only counterpart. In this work, we argue that a key reason is that compared to point coordinates, rotation-invariant features consumed by point cloud convolution are not as distinctive. To address this problem, we propose a simple yet effective convolution operator that enhances feature distinction by designing powerful rotation invariant features from the local regions. We consider the relationship between the point of interest and its neighbors as well as the internal relationship of the neighbors to largely improve the feature descriptiveness. Our network architecture can capture both local and global context by simply tuning the neighborhood size in each convolution layer. We conduct several experiments on synthetic and real-world point cloud classifications, part segmentation, and shape retrieval to evaluate our method, which achieves the state-of-the-art accuracy under challenging rotations.
翻訳日:2022-03-01 14:24:54 公開日:2022-02-26
# dgss : 反復型マイニングと潜在表現アライメントを用いたドメイン一般化意味セグメンテーション

DGSS : Domain Generalized Semantic Segmentation using Iterative Style Mining and Latent Representation Alignment ( http://arxiv.org/abs/2202.13144v1 )

ライセンス: Link先を確認
Pranjay Shyam, Antyanta Bangunharcana, Kuk-Jin Yoon and Kyung-Soo Kim(参考訳) セマンティックセグメンテーションアルゴリズムは、一貫性のあるパフォーマンスを確保するために、様々な照明条件下でキャプチャされたよく注釈付けられたデータセットにアクセスする必要がある。 しかし、様々な照明条件における視認性の低下は、手間とエラーが発生しやすいラベリングをもたらす。 あるいは、合成サンプルを用いてセグメンテーションアルゴリズムを訓練することは、準最適性能をもたらす領域ギャップの欠点に注目されている。 現在の SoTA (State-of-the-art) では、領域ギャップを埋める様々なメカニズムを提案しているが、照度が低く、平均的な性能低下は - 10.7 mIOU である。 本稿では,ドメインギャップを克服するための単一ソース領域の一般化に着目し,まず,スタイル化とソースイメージのドメインギャップを最大化する対角的スタイルを識別する2段階のフレームワークを提案する。 その後、これらのスタイル化された画像は、ドメイン間隙に関係なく、同じクラスに属する特徴が潜在空間にまとめられるような特徴を分類的に整列するために使用される。 さらに,学習中にクラス内分散を増大させるため,異なるスタイルの同一物体を混合して新たな訓練画像を構築する方式を提案する。 このフレームワークにより、単一のソースに依存しながら、対象領域の事前情報なしで一貫した性能を持つドメイン一般化セマンティックセグメンテーションアルゴリズムを実現することができる。 大規模な実験に基づいて、私たちはSynTHIA $\to$ Cityscapes、GTAV $\to$ CityscapesでSoTAのパフォーマンスをマッチさせ、GTAV $\to$ Dark ZurichとGTAV $\to$ Night Drivingベンチマークで新しいSoTAを設定する。

Semantic segmentation algorithms require access to well-annotated datasets captured under diverse illumination conditions to ensure consistent performance. However, poor visibility conditions at varying illumination conditions result in laborious and error-prone labeling. Alternatively, using synthetic samples to train segmentation algorithms has gained interest with the drawback of domain gap that results in sub-optimal performance. While current state-of-the-art (SoTA) have proposed different mechanisms to bridge the domain gap, they still perform poorly in low illumination conditions with an average performance drop of - 10.7 mIOU. In this paper, we focus upon single source domain generalization to overcome the domain gap and propose a two-step framework wherein we first identify an adversarial style that maximizes the domain gap between stylized and source images. Subsequently, these stylized images are used to categorically align features such that features belonging to the same class are clustered together in latent space, irrespective of domain gap. Furthermore, to increase intra-class variance while training, we propose a style mixing mechanism wherein the same objects from different styles are mixed to construct a new training image. This framework allows us to achieve a domain generalized semantic segmentation algorithm with consistent performance without prior information of the target domain while relying on a single source. Based on extensive experiments, we match SoTA performance on SYNTHIA $\to$ Cityscapes, GTAV $\to$ Cityscapes while setting new SoTA on GTAV $\to$ Dark Zurich and GTAV $\to$ Night Driving benchmarks without retraining.
翻訳日:2022-03-01 14:24:32 公開日:2022-02-26
# QuoteR: 記述のためのQuote Recommendationのベンチマーク

QuoteR: A Benchmark of Quote Recommendation for Writing ( http://arxiv.org/abs/2202.13145v1 )

ライセンス: Link先を確認
Fanchao Qi, Yanhui Yang, Jing Yi, Zhili Cheng, Zhiyuan Liu, Maosong Sun(参考訳) 私たちの著作をよりエレガントで説得力のあるものにするために引用(引用)を用いるのが一般的です。 適切な引用をより効率的に見つけるために、引用推奨のタスクが提示され、現在の文章の文脈に合致した引用を推薦する。 様々な引用レコメンデーションアプローチがあるが、それらは異なる未発表データセットで評価されている。 そこで本研究では, 英語, 標準中国語, 古典中国語の3部からなる, 大きくて完全にオープンな引用推奨データセットquotrを構築した。 どの部分も以前の未発表のものよりも大きい。 既存の引用推薦手法をQuoteR上で広範囲に評価する。 さらに,従来の3つの部分すべてにおいて,従来の手法を大幅に上回る,新たな引用推薦モデルを提案する。 この論文のすべてのコードとデータは、https://github.com/t hunlp/quoterで入手できる。

It is very common to use quotations (quotes) to make our writings more elegant or convincing. To help people find appropriate quotes more efficiently, the task of quote recommendation is presented, aiming to recommend quotes that fit the current context of writing. There have been various quote recommendation approaches, but they are evaluated on different unpublished datasets. To facilitate the research on this task, we build a large and fully open quote recommendation dataset called QuoteR, which comprises three parts including English, standard Chinese and classical Chinese. Any part of it is larger than previous unpublished counterparts. We conduct an extensive evaluation of existing quote recommendation methods on QuoteR. Furthermore, we propose a new quote recommendation model that significantly outperforms previous methods on all three parts of QuoteR. All the code and data of this paper are available at https://github.com/t hunlp/QuoteR.
翻訳日:2022-03-01 14:21:03 公開日:2022-02-26
# グラフ分類のための自動データ拡張

Automated Data Augmentations for Graph Classification ( http://arxiv.org/abs/2202.13248v1 )

ライセンス: Link先を確認
Youzhi Luo, Michael McThrow, Wing Yee Au, Tao Komikado, Kanji Uchino, Koji Maruhash, Shuiwang Ji(参考訳) データ拡張は学習機械の不変性を改善するのに有効である。 データ拡張の中核はラベルを保存するデータ変換の設計にあると我々は主張する。 これは画像では比較的直線的であるが、グラフではもっと難しい。 本稿では,グラフ分類のためのラベル不変拡張を計算することを目的とした,新しい自動データ拡張法であるgraphaugを提案する。既存の研究と同様に一様変換を用いる代わりに,グラフのラベル関連情報を妥協することを避けるために,自動拡張モデルを用いる。 ラベル不変性を確保するため,評価ラベル不変確率を最大化する強化学習に基づくトレーニング手法を開発した。 包括的実験により、graphaugoutは様々なグラフ分類タスクで以前のグラフ拡張法を適用できることが示されている。

Data augmentations are effective in improving the invariance of learning machines. We argue that the corechallenge of data augmentations lies in designing data transformations that preserve labels. This is relativelystraightfo rward for images, but much more challenging for graphs. In this work, we propose GraphAug, a novelautomated data augmentation method aiming at computing label-invariant augmentations for graph classification.Inste ad of using uniform transformations as in existing studies, GraphAug uses an automated augmentationmodel to avoid compromising critical label-related information of the graph, thereby producing label-invariantaugme ntations at most times. To ensure label-invariance, we develop a training method based on reinforcementlearnin g to maximize an estimated label-invariance probability. Comprehensive experiments show that GraphAugoutperforms previous graph augmentation methods on various graph classification tasks.
翻訳日:2022-03-01 14:20:48 公開日:2022-02-26
# 価値ノックオフの欠如

Missing Value Knockoffs ( http://arxiv.org/abs/2202.13054v1 )

ライセンス: Link先を確認
Deniz Koyuncu, B\"ulent Yener(参考訳) 最も統計的/機械学習ベースの変数選択アプローチの制限のひとつは、誤った選択を制御できないことだ。 最近導入されたModel-xのノックオフは、幅広いモデルに対してそれを提供するが、値の欠如のあるデータセットのサポートがない。 本稿では,データ設定の欠如によるモデル-xフレームワークの理論的保証を維持する方法について論じる。 まず,既存のノックオフサンプルを欠落した値の存在下で再利用できることを示す。 第2に、観測変数にのみノックオフをサンプリングし、単変量計算を適用することにより、偽選択保証も維持されることを示す。 第三に, 潜伏変数モデルの特殊な場合において, 同時インデュートとサンプリングのノックオフが計算複雑性を低減できることを示す。 本研究では,2つの異なる探索変数分布を用いて理論的知見を検証し,データパターンの欠如,相関量,観測数,欠落値が統計的パワーに与える影響について検討した。

One limitation of the most statistical/machine learning-based variable selection approaches is their inability to control the false selections. A recently introduced framework, model-x knockoffs, provides that to a wide range of models but lacks support for datasets with missing values. In this work, we discuss ways of preserving the theoretical guarantees of the model-x framework in the missing data setting. First, we prove that posterior sampled imputation allows reusing existing knockoff samplers in the presence of missing values. Second, we show that sampling knockoffs only for the observed variables and applying univariate imputation also preserves the false selection guarantees. Third, for the special case of latent variable models, we demonstrate how jointly imputing and sampling knockoffs can reduce the computational complexity. We have verified the theoretical findings with two different exploratory variable distributions and investigated how the missing data pattern, amount of correlation, the number of observations, and missing values affected the statistical power.
翻訳日:2022-03-01 14:16:43 公開日:2022-02-26
# エントロピー近似によるガウス混合系の変分推定

Variational Inference with Gaussian Mixture by Entropy Approximation ( http://arxiv.org/abs/2202.13059v1 )

ライセンス: Link先を確認
Takashi Furuya, Hiroyuki Kusumoto, Koichi Taniguchi, Naoya Kanno, Kazuma Suetake(参考訳) 変分推論は、機械学習の不確かさを定量化するために、難解な後方分布を近似する手法である。 単項ガウス分布は通常パラメトリック分布として選択されるが、多モード性はほとんど近似しない。 本稿では,パラメトリック分布としてガウス混合分布を用いる。 ガウス混合物との変分推論の主な難点は、ガウス混合物のエントロピーを近似する方法である。 解析的に計算できる一様ガウスのエントロピーの和としてガウス混合物のエントロピーを近似する。 さらに, 理論上, 真のエントロピーと近似値との近似誤差を解析し, 近似がうまく動作するかどうかを明らかにする。 具体的には、近似誤差は、ガウス混合の分散の和と平均の間の距離の比率によって制御され、その比が無限大となるとゼロに収束する。 この状況は、次元の呪いのため、より高次元の重み空間で起こる可能性が高い。 したがって、我々の結果は、例えば、多くの重みを仮定するニューラルネットワークにおいて、近似がうまく機能することを保証します。

Variational inference is a technique for approximating intractable posterior distributions in order to quantify the uncertainty of machine learning. Although the unimodal Gaussian distribution is usually chosen as a parametric distribution, it hardly approximates the multimodality. In this paper, we employ the Gaussian mixture distribution as a parametric distribution. A main difficulty of variational inference with the Gaussian mixture is how to approximate the entropy of the Gaussian mixture. We approximate the entropy of the Gaussian mixture as the sum of the entropy of the unimodal Gaussian, which can be analytically calculated. In addition, we theoretically analyze the approximation error between the true entropy and approximated one in order to reveal when our approximation works well. Specifically, the approximation error is controlled by the ratios of the distances between the means to the sum of the variances of the Gaussian mixture, and it converges to zero when the ratios go to infinity. This situation seems to be more likely to occur in higher dimensional weight spaces because of the curse of dimensionality. Therefore, our result guarantees that our approximation works well, for example, in neural networks that assume a large number of weights.
翻訳日:2022-03-01 14:16:26 公開日:2022-02-26
# グラフ注目の振り返り

Graph Attention Retrospective ( http://arxiv.org/abs/2202.13060v1 )

ライセンス: Link先を確認
Kimon Fountoulakis, Amit Levi, Shenghao Yang, Aseem Baranwal, Aukosh Jagannath(参考訳) グラフベースの学習は、ソーシャルネットワーク、引用ネットワーク、バイオインフォマティクスに応用された機械学習の急速に成長するサブフィールドである。 最も人気のあるモデルの1つはグラフアテンションネットワークである。 これらのモデルは、ノードの隣接を区別しない単純なグラフ畳み込みとは対照的に、隣接ノードの特徴から情報を一様でない方法で集約するために導入された。 本稿では,このグラフ注意ネットワークの振る舞いを理論的に検討する。 本研究では,文脈確率ブロックモデルにおけるノード分類問題に対するグラフ注意機構の性能に関する複数の結果を示す。 ここで、ノードの特徴はガウスとエッジの混合から得られ、その特徴とエッジは自然な方法で結合される確率的ブロックモデルから得られる。 まず,ガウス平均間の距離が十分大きい「容易」な方法では,グラフ注意がクラス内エッジの重みを維持し,クラス間エッジの重みを著しく減少させることを示す。 結論として,これはクラス間のエッジの重みに依存しない完全ノード分類を意味することを示す。 しかし、古典的な議論は、「容易」な方法では、データを高い確率で分類するにはグラフは必要ないことを示している。 ハード」では全ての注意機構がクラス内エッジとクラス間エッジを区別できないことを示す。 合成データと実世界のデータから理論的結果を評価する。

Graph-based learning is a rapidly growing sub-field of machine learning with applications in social networks, citation networks, and bioinformatics. One of the most popular type of models is graph attention networks. These models were introduced to allow a node to aggregate information from the features of neighbor nodes in a non-uniform way in contrast to simple graph convolution which does not distinguish the neighbors of a node. In this paper, we study theoretically this expected behaviour of graph attention networks. We prove multiple results on the performance of the graph attention mechanism for the problem of node classification for a contextual stochastic block model. Here the features of the nodes are obtained from a mixture of Gaussians and the edges from a stochastic block model where the features and the edges are coupled in a natural way. First, we show that in an "easy" regime, where the distance between the means of the Gaussians is large enough, graph attention maintains the weights of intra-class edges and significantly reduces the weights of the inter-class edges. As a corollary, we show that this implies perfect node classification independent of the weights of inter-class edges. However, a classical argument shows that in the "easy" regime, the graph is not needed at all to classify the data with high probability. In the "hard" regime, we show that every attention mechanism fails to distinguish intra-class from inter-class edges. We evaluate our theoretical results on synthetic and real-world data.
翻訳日:2022-03-01 14:16:09 公開日:2022-02-26
# 無限ホライズンズにおけるオフライン強化学習のための統計的に効率的なアドバンテージ学習

Statistically Efficient Advantage Learning for Offline Reinforcement Learning in Infinite Horizons ( http://arxiv.org/abs/2202.13163v1 )

ライセンス: Link先を確認
Chengchun Shi, Shikai Luo, Hongtu Zhu and Rui Song(参考訳) モバイルヘルスアプリケーションなど,オンラインデータ収集が不要なオフラインドメインでは,強化学習(rl)手法を検討する。 コンピュータ科学文献における既存のポリシー最適化アルゴリズムのほとんどは、データの収集やシミュレートが容易なオンライン環境で開発されている。 オフラインデータセットを事前にコンパイルしたモバイルヘルスアプリケーションへの一般化はまだ不明だ。 本稿では,事前収集したデータを政策最適化に効率的に利用するために,新しいアドバンテージ学習フレームワークを開発することを目的とする。 提案手法は、既存の最先端rlアルゴリズムで計算された最適q推定器を入力とし、初期q推定器に基づいて導出されるポリシーよりも高速に収束することが保証された新しいポリシーを出力する。 理論的知見を裏付ける大規模な数値実験を行った。

We consider reinforcement learning (RL) methods in offline domains without additional online data collection, such as mobile health applications. Most of existing policy optimization algorithms in the computer science literature are developed in online settings where data are easy to collect or simulate. Their generalizations to mobile health applications with a pre-collected offline dataset remain unknown. The aim of this paper is to develop a novel advantage learning framework in order to efficiently use pre-collected data for policy optimization. The proposed method takes an optimal Q-estimator computed by any existing state-of-the-art RL algorithms as input, and outputs a new policy whose value is guaranteed to converge at a faster rate than the policy derived based on the initial Q-estimator. Extensive numerical experiments are conducted to back up our theoretical findings.
翻訳日:2022-03-01 14:15:50 公開日:2022-02-26
# 多変量時系列データの正規化双線形判別分析

Regularized Bilinear Discriminant Analysis for Multivariate Time Series Data ( http://arxiv.org/abs/2202.13188v1 )

ライセンス: Link先を確認
Jianhua Zhao, Haiye Liang, Shulan Li, Zhiji Yang, Zhen Wang(参考訳) 近年,行列ベースあるいは双線型判別分析(blda)の手法が注目されている。 それらの利点にもかかわらず、従来のベクトルベース正規化LDA(RLDA)は依然として非常に競争力があり、ベンチマークデータセットではBLDAよりも優れていることが報告されている。 しかし、この発見は主に画像データに限られていることも指摘されている。 本稿では,正規化blda (rblda) を提案し,他の種類の行列データである多変量時系列 (mts) に対する rlda と rblda の比較について検討する。 画像データとは異なり、MSSは通常、異なる時間ポイントで測定される複数の変数から構成される。 MTSデータ分類のための多くの手法が文献の中に存在するが、MTSデータの行列データ構造を探索する作業は比較的少ない。 さらに、既存のBLDAは、内級行列の1つが特異である場合には実行できない。 この2つの問題に対処するため、MTSデータ分類のためのRBLDAを提案し、各2つの内部クラス行列を1つのパラメータで正規化する。 RBLDAの効率的な実装と、RBLDAのクロスバリデーション手順を効率的に行うことができる効率的なモデル選択アルゴリズムを開発する。 複数の実mtsデータセットに関する実験を行い,提案アルゴリズムを評価し,rldaとbldaを含む関連する手法との比較を行った。 その結果、rbldaは最適な認識性能を達成でき、提案するモデル選択アルゴリズムは効率的であることが判明し、さらに、rbldaはrldaよりもmtsデータの可視化性が向上した。

In recent years, the methods on matrix-based or bilinear discriminant analysis (BLDA) have received much attention. Despite their advantages, it has been reported that the traditional vector-based regularized LDA (RLDA) is still quite competitive and could outperform BLDA on some benchmark datasets. Nevertheless, it is also noted that this finding is mainly limited to image data. In this paper, we propose regularized BLDA (RBLDA) and further explore the comparison between RLDA and RBLDA on another type of matrix data, namely multivariate time series (MTS). Unlike image data, MTS typically consists of multiple variables measured at different time points. Although many methods for MTS data classification exist within the literature, there is relatively little work in exploring the matrix data structure of MTS data. Moreover, the existing BLDA can not be performed when one of its within-class matrices is singular. To address the two problems, we propose RBLDA for MTS data classification, where each of the two within-class matrices is regularized via one parameter. We develop an efficient implementation of RBLDA and an efficient model selection algorithm with which the cross validation procedure for RBLDA can be performed efficiently. Experiments on a number of real MTS data sets are conducted to evaluate the proposed algorithm and compare RBLDA with several closely related methods, including RLDA and BLDA. The results reveal that RBLDA achieves the best overall recognition performance and the proposed model selection algorithm is efficient; Moreover, RBLDA can produce better visualization of MTS data than RLDA.
翻訳日:2022-03-01 14:15:36 公開日:2022-02-26
# BioADAPT-MRC: 逆学習に基づくドメイン適応によるバイオメディカル機械読解作業の改善

BioADAPT-MRC: Adversarial Learning-based Domain Adaptation Improves Biomedical Machine Reading Comprehension Task ( http://arxiv.org/abs/2202.13174v1 )

ライセンス: Link先を確認
Maria Mahbub, Sudarshan Srinivasan, Edmon Begoli and Gregory D Peterson(参考訳) モチベーション:バイオメディカルマシンリーディング理解(biomedical machine reading comprehension:biomed ical-mrc)は、複雑なバイオメディカルナラティブを理解し、医療専門家が情報を取得するのを助けることを目的としている。 現代のニューラルネットワークベースのMRCシステムの高性能は、高品質で大規模で人間の注釈付きトレーニングデータセットに依存している。 バイオメディカル領域では、このようなデータセットを作成する上で重要な課題は、ラベル付きデータの不足とラベル付き汎用(ソース)ドメインからバイオメディカル(ターゲット)ドメインへの転送学習の必要性を誘発する、ドメイン知識の要件である。 しかし、トピックのばらつきにより、汎用ドメインとバイオメディカルドメインの間には限界分布に差がある。 したがって、汎用ドメインで訓練されたモデルからバイオメディカルドメインへの学習表現の直接転送は、モデルの性能を損なう可能性がある。 結果: 一般と生物医学領域のデータセット間の限界分布の相違に対処するニューラルネットワークベースの手法であるbioadapt-mrc(biomedi cal machine reading comprehension task)のための,敵対的学習に基づくドメイン適応フレームワークを提案する。 BioADAPT-MRCは、優れたバイオメディカル-MRCモデルのトレーニングのために擬似ラベルを生成する必要性を緩和する。 そこで我々は,BioASQ-7b,BioASQ-8b ,BioASQ-9bの3つのベンチマークMRCデータセットを用いて,BioADAPT-MRCの性能評価を行った。 以上の結果から,生体医学領域からの合成データや人間の注釈データを用いなければ,bioadapt-mrcはこれらのデータセットで最先端のパフォーマンスを達成できることが示唆された。 可用性: BioADAPT-MRC は https://github.com/m mahbub/BioADAPT-MRC でオープンソースプロジェクトとして無償公開されている。

Motivation: Biomedical machine reading comprehension (biomedical-MRC) aims to comprehend complex biomedical narratives and assist healthcare professionals in retrieving information from them. The high performance of modern neural network-based MRC systems depends on high-quality, large-scale, human-annotated training datasets. In the biomedical domain, a crucial challenge in creating such datasets is the requirement for domain knowledge, inducing the scarcity of labeled data and the need for transfer learning from the labeled general-purpose (source) domain to the biomedical (target) domain. However, there is a discrepancy in marginal distributions between the general-purpose and biomedical domains due to the variances in topics. Therefore, direct-transferring of learned representations from a model trained on a general-purpose domain to the biomedical domain can hurt the model's performance. Results: We present an adversarial learning-based domain adaptation framework for the biomedical machine reading comprehension task (BioADAPT-MRC), a neural network-based method to address the discrepancies in the marginal distributions between the general and biomedical domain datasets. BioADAPT-MRC relaxes the need for generating pseudo labels for training a well-performing biomedical-MRC model. We extensively evaluate the performance of BioADAPT-MRC by comparing it with the best existing methods on three widely used benchmark biomedical-MRC datasets -- BioASQ-7b, BioASQ-8b, and BioASQ-9b. Our results suggest that without using any synthetic or human-annotated data from the biomedical domain, BioADAPT-MRC can achieve state-of-the-art performance on these datasets. Availability: BioADAPT-MRC is freely available as an open-source project at\\https://github.c om/mmahbub/BioADAPT- MRC
翻訳日:2022-03-01 13:33:13 公開日:2022-02-26
# 不完全発話の書き直しに対する自己注意

Self-Attention for Incomplete Utterance Rewriting ( http://arxiv.org/abs/2202.12160v2 )

ライセンス: Link先を確認
Yong Zhang, Zhitao Li, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) incomplete utterance rewriting (iur) は近年,理解のための十分なコンテキスト情報を備えた不完全発話を補完する目的で,nlpにおいて不可欠なタスクとなっている。 本稿では,単語埋め込みの代わりに変圧器の自己注意重み行列からコア参照と省略関係を直接抽出し,その完全発話を生成するために原文を編集する手法を提案する。 本手法は,自己注意重み行列の豊富な情報から,公共IURデータセット上での競合結果を得た。

Incomplete utterance rewriting (IUR) has recently become an essential task in NLP, aiming to complement the incomplete utterance with sufficient context information for comprehension. In this paper, we propose a novel method by directly extracting the coreference and omission relationship from the self-attention weight matrix of the transformer instead of word embeddings and edit the original text accordingly to generate the complete utterance. Benefiting from the rich information in the self-attention weight matrix, our method achieved competitive results on public IUR datasets.
翻訳日:2022-03-01 11:53:16 公開日:2022-02-26