このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220407となっている論文です。

PDF登録状況(公開日: 20220407)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) So2Sat POP -- 大陸規模の空間からの人口推定のためのベンチマークデータセット [全文訳有]

So2Sat POP -- A Curated Benchmark Data Set for Population Estimation from Space on a Continental Scale ( http://arxiv.org/abs/2204.08524v1 )

ライセンス: CC BY 4.0
Sugandha Doda, Yuanyuan Wang, Matthias Kahl, Eike Jens Hoffmann, Hannes Taubenb\"ock, Xiao Xiang Zhu(参考訳) ダイナミックな人口分布の確保は、都市計画、災害管理など多くの意思決定プロセスの鍵であり、最も重要なことは政府が社会技術供給をより適切に配分することを助けることである。 これらの目的の達成のためには、良い人口データが不可欠である。 国勢調査を通じて人口データを収集する伝統的な方法は高価で退屈である。 近年,人口分布を推定する機械学習手法が開発されている。 ほとんどのメソッドは、小さなスケールで開発されているか、まだ公開されていないデータセットを使用する。 これにより,新しい手法の開発と評価が困難になる。 このギャップを埋めるために、98のヨーロッパの都市で人口推定のための包括的なデータセットを提供する。 データセットは、デジタル標高モデル、地域気候帯、土地利用分類、夜間照明とマルチスペクトルセンチネル2画像の組み合わせ、およびOpen Street Mapイニシアチブのデータから構成される。 我々は、人口推定分野における高度な機械学習ベースのアプローチの開発において、研究コミュニティに貴重な付加物になることを期待している。

Obtaining a dynamic population distribution is key to many decision-making processes such as urban planning, disaster management and most importantly helping the government to better allocate socio-technical supply. For the aspiration of these objectives, good population data is essential. The traditional method of collecting population data through the census is expensive and tedious. In recent years, machine learning methods have been developed to estimate the population distribution. Most of the methods use data sets that are either developed on a small scale or not publicly available yet. Thus, the development and evaluation of the new methods become challenging. We fill this gap by providing a comprehensive data set for population estimation in 98 European cities. The data set comprises digital elevation model, local climate zone, land use classifications, nighttime lights in combination with multi-spectral Sentinel-2 imagery, and data from the Open Street Map initiative. We anticipate that it would be a valuable addition to the research community for the development of sophisticated machine learning-based approaches in the field of population estimation.
翻訳日:2022-04-24 20:44:00 公開日:2022-04-07
# (参考訳) 異なるホライズンズに基づくリッチ風速予測のためのハイブリッドトランスネットワーク [全文訳有]

Hybrid Transformer Network for Different Horizons-based Enriched Wind Speed Forecasting ( http://arxiv.org/abs/2204.09019v1 )

ライセンス: CC BY 4.0
Dr. M. Madhiarasan and Prof. Partha Pratim Roy(参考訳) 高度に正確な水平線に基づく風速予測は、より現代的な電力システムを促進する。 本稿では,新しい風速予測モデルを提案し,異なる地平線に適用した。 提案したハイブリッド予測モデルは,適応ノイズを用いた改良完全アンサンブル経験モード分解(ICEEMDAN)を用いて,元の風速データをIMF(固有モード関数)に分解する。 ICEEMDANから得られたサブシリーズをトランスネットワークに供給した。 各変圧器ネットワークは予測サブシリーズを計算し、融合フェーズを通過する。 個々の変圧器ネットワーク予測サブシリーズの融合から、一次風速予測を得る。 多層パーセプトロンニューラルネットワークを用いた残差誤差値の推定と誤差予測 予測誤差を一次予測風速に付加し、風速予測の高精度化を図る。 Comparative analysis with real-time Kethanur, India wind farm dataset results reveals the proposed ICEEMDAN-TNF-MLPN-RE CS hybrid model's superior performance with MAE=1.7096*10^-07, MAPE=2.8416*10^-06, MRE=2.8416*10^-08, MSE=5.0206*10^-14, and RMSE=2.2407*10^-07 for case study 1 and MAE=6.1565*10^-07, MAPE=9.5005*10^-06, MRE=9.5005*10^-08, MSE=8.9289*10^-13, and RMSE=9.4493*10^-07 for case study 2 enriched wind speed forecasting than state-of-the-art methods and reduces the burden on the power system engineer.

Highly accurate different horizon-based wind speed forecasting facilitates a better modern power system. This paper proposed a novel astute hybrid wind speed forecasting model and applied it to different horizons. The proposed hybrid forecasting model decomposes the original wind speed data into IMFs (Intrinsic Mode Function) using Improved Complete Ensemble Empirical Mode Decomposition with Adaptive Noise (ICEEMDAN). We fed the obtained subseries from ICEEMDAN to the transformer network. Each transformer network computes the forecast subseries and then passes to the fusion phase. Get the primary wind speed forecasting from the fusion of individual transformer network forecast subseries. Estimate the residual error values and predict errors using a multilayer perceptron neural network. The forecast error is added to the primary forecast wind speed to leverage the high accuracy of wind speed forecasting. Comparative analysis with real-time Kethanur, India wind farm dataset results reveals the proposed ICEEMDAN-TNF-MLPN-RE CS hybrid model's superior performance with MAE=1.7096*10^-07, MAPE=2.8416*10^-06, MRE=2.8416*10^-08, MSE=5.0206*10^-14, and RMSE=2.2407*10^-07 for case study 1 and MAE=6.1565*10^-07, MAPE=9.5005*10^-06, MRE=9.5005*10^-08, MSE=8.9289*10^-13, and RMSE=9.4493*10^-07 for case study 2 enriched wind speed forecasting than state-of-the-art methods and reduces the burden on the power system engineer.
翻訳日:2022-04-24 20:31:12 公開日:2022-04-07
# (参考訳) 非協力的ユーザとの対話 : 積極的な対話政策のための新しいパラダイム [全文訳有]

Interacting with Non-Cooperative User: A New Paradigm for Proactive Dialogue Policy ( http://arxiv.org/abs/2204.07433v1 )

ライセンス: CC BY 4.0
Wenqiang Lei, Yao Zhang, Feifan Song, Hongru Liang, Jiaxin Mao, Jiancheng Lv, Zhenglu Yang and Tat-Seng Chua(参考訳) 積極的な対話システムは、会話を目標トピックに導くことができ、交渉、説得、交渉の可能性を活用できる。 現在のコーパスベースの学習方法は、現実のシナリオにおける実践的応用を制限する。 この目的のために,我々は,ユーザと動的に対話する,より自然で困難な環境に,積極的な対話政策の研究を進めていくことに貢献する。 さらに,非協調的ユーザの行動に注意を喚起し,エージェントが導入した以前の話題に満足していない場合に,非協調的トピックについて話す。 ゴールに近いトピックとユーザが好むトピックは同じではないかもしれないので、目標トピックを素早く到達し、高いユーザ満足度を維持するという目標は常に収束するとは限らない、と論じている。 そこで本研究では,インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。 具体的には,4つの因子(ダイアローグターン,ゴール完了難易度,ユーザ満足度推定,協調度)から学習した目標重みによってトレードオフを学習する。 実験結果から,I-Proは有効性と解釈性において基線よりも有意に優れていた。

Proactive dialogue system is able to lead the conversation to a goal topic and has advantaged potential in bargain, persuasion and negotiation. Current corpus-based learning manner limits its practical application in real-world scenarios. To this end, we contribute to advance the study of the proactive dialogue policy to a more natural and challenging setting, i.e., interacting dynamically with users. Further, we call attention to the non-cooperative user behavior -- the user talks about off-path topics when he/she is not satisfied with the previous topics introduced by the agent. We argue that the targets of reaching the goal topic quickly and maintaining a high user satisfaction are not always converge, because the topics close to the goal and the topics user preferred may not be the same. Towards this issue, we propose a new solution named I-Pro that can learn Proactive policy in the Interactive setting. Specifically, we learn the trade-off via a learned goal weight, which consists of four factors (dialogue turn, goal completion difficulty, user satisfaction estimation, and cooperative degree). The experimental results demonstrate I-Pro significantly outperforms baselines in terms of effectiveness and interpretability.
翻訳日:2022-04-24 20:10:51 公開日:2022-04-07
# LSTM-RASAによる農家向けアグリファームアシスタント

LSTM-RASA Based Agri Farm Assistant for Farmers ( http://arxiv.org/abs/2204.09717v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Selvakumar Raj, Raghul V, Venkatesh Sivaraman, Sunil Mohan, and Anwesh Reddy Paduri(参考訳) 近年,ディープラーニングと自然言語ベースのチャットボットの応用が急速に増加している。 カスタマーサポート、予約システム、パーソナルアシスタントなど多くの分野で使用されている。 企業はこのようなチャットボットを使って顧客に対して、より良く効率的な方法でサービスを提供する。 このような技術進歩の後でも、専門家の助言はタイムリーに農民に届かない。 農家はいまだに、彼らの分野で直面する問題の解決に、仲間の知識に大きく依存している。 これらの技術は、農夫にタイムリーに情報を提供するために効果的に使われていない。 このプロジェクトは、農業農家アシスタント分野のためのクローズドドメインChatBotを実装することを目的としている。 農家はチャットボットと会話し、現場で専門家のアドバイスを受けることができる。 Farmers AssistantはRASA Open Source Frameworkをベースにしている。 チャットボットは、ユーザの発話から意図と実体を特定し、データベースから修正情報を検索し、ユーザと共有する。 既存のデータを使ってBotをテストしたところ、有望な結果が得られました。

The application of Deep Learning and Natural Language based ChatBots are growing rapidly in recent years. They are used in many fields like customer support, reservation system and as personal assistant. The Enterprises are using such ChatBots to serve their customers in a better and efficient manner. Even after such technological advancement, the expert advice does not reach the farmers on timely manner. The farmers are still largely dependent on their peers knowledge in solving the problems they face in their field. These technologies have not been effectively used to give the required information to farmers on timely manner. This project aims to implement a closed domain ChatBot for the field of Agriculture Farmers Assistant. Farmers can have conversation with the Chatbot and get the expert advice in their field. Farmers Assistant is based on RASA Open Source Framework. The Chatbot identifies the intent and entity from user utterances and retrieve the remedy from the database and share it with the user. We tested the Bot with existing data and it showed promising results.
翻訳日:2022-04-24 16:14:05 公開日:2022-04-07
# ソーシャルトポロジと二重役割ユーザ依存による情報カスケードモデリングの改善

Improving Information Cascade Modeling by Social Topology and Dual Role User Dependency ( http://arxiv.org/abs/2204.08529v1 )

ライセンス: Link先を確認
Baichuan Liu, Deqing Yang, Yueyi Wang, Yuchen Shi(参考訳) 過去10年間で、ソーシャルネットワーク上の情報拡散(情報カスケード)は、その適用価値が多くの分野において大きく研究されている。 近年、情報カスケードを予測するために、リカレントニューラルネットワークに基づくモデルを含む多くのシーケンシャルモデルが広く採用されている。 しかし、逐次モデルによってキャプチャされたカスケードシーケンスにおけるユーザ依存性は、一般的に一方向的で拡散木と矛盾する。 例えば、後継の真のトリガーは、シーケンスの直接前駆者ではなく、非即時前駆者かもしれない。 正確なカスケードモデリングに欠かせない,ユーザの依存性をより適切に捉えるために,TAN-DRUD (Topology-aware Attention Networks with Dual Role User Dependency) と名付けられた非シーケンス情報カスケードモデルを提案する。 tan-drudは,情報送信者と受信者の二重ロールユーザ依存性を捉えることにより,情報カスケードモデリングにおける満足度の高い性能を得る。 さらに,ソーシャルトポロジを2段階のアテンションネットワークに組み込んで情報拡散予測を行う。 3つのカスケードデータセットに関する広範な実験により,我々のモデルが最先端カスケードモデルよりも優れているだけでなく,トポロジ情報や拡散木を推定できることを示した。

In the last decade, information diffusion (also known as information cascade) on social networks has been massively investigated due to its application values in many fields. In recent years, many sequential models including those models based on recurrent neural networks have been broadly employed to predict information cascade. However, the user dependencies in a cascade sequence captured by sequential models are generally unidirectional and inconsistent with diffusion trees. For example, the true trigger of a successor may be a non-immediate predecessor rather than the immediate predecessor in the sequence. To capture user dependencies more sufficiently which are crucial to precise cascade modeling, we propose a non-sequential information cascade model named as TAN-DRUD (Topology-aware Attention Networks with Dual Role User Dependency). TAN-DRUD obtains satisfactory performance on information cascade modeling through capturing the dual role user dependencies of information sender and receiver, which is inspired by the classic communication theory. Furthermore, TANDRUD incorporates social topology into two-level attention networks for enhanced information diffusion prediction. Our extensive experiments on three cascade datasets demonstrate that our model is not only superior to the state-of-the-art cascade models, but also capable of exploiting topology information and inferring diffusion trees.
翻訳日:2022-04-24 16:13:38 公開日:2022-04-07
# 日露戦争に関するTwitterのデータ

Twitter Dataset on the Russo-Ukrainian War ( http://arxiv.org/abs/2204.08530v1 )

ライセンス: Link先を確認
Alexander Shevtsov, Christos Tzagkarakis, Despoina Antonakaki, Polyvios Pratikakis, Sotiris Ioannidis(参考訳) 2022年2月24日、ロシアはロシア・ウクライナ戦争として知られるウクライナに侵攻した。 Twitter APIからのデータセットの取得も進行中です。 この論文が書かれるまで、データセットは770万人のユーザーに由来する5730万ツイートに到達した。 我々は、最初のボリュームと感情分析を適用し、データセットはトピック分析、ヘイトスピーチ、プロパガンダ認識、ボットネットのような潜在的な悪意のあるエンティティを示すためにさらに探索的な調査に使用できる。

On 24 February 2022, Russia invaded Ukraine, also known now as Russo-Ukrainian War. We have initiated an ongoing dataset acquisition from Twitter API. Until the day this paper was written the dataset has reached the amount of 57.3 million tweets, originating from 7.7 million users. We apply an initial volume and sentiment analysis, while the dataset can be used to further exploratory investigation towards topic analysis, hate speech, propaganda recognition, or even show potential malicious entities like botnets.
翻訳日:2022-04-24 16:13:16 公開日:2022-04-07
# ライターとコンテンツ執筆タスクのマッチング

Matching Writers to Content Writing Tasks ( http://arxiv.org/abs/2204.09718v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Chandrashekhar Bhakuni, Ujjval Bhatt, Khamir Purohit, Vikas Sardna, Prabir Chakraborty, and Anwesh Reddy Paduri(参考訳) ビジネスにはコンテンツが必要だ。 様々な形態と形式で 様々な目的のために 実際、コンテンツマーケティング業界は2021年末までに412.88億ドルの価値があると予測されている。 しかし、Content Marketing Instituteによると、エンゲージメントのあるコンテンツを作ることは今日マーケターが直面する第1の課題だ。 優れたコンテンツを作るには、ビジネスを理解し、そのメッセージを読者(および検索エンジン)フレンドリーなコンテンツに織り込む優れたライターが必要です。 このプロジェクトでは、AIとMLツールを使用して、ライターとプロジェクトのギャップを埋めようとしている。 我々は、NLP技術を用いて、公開可能なビジネス記事(コーパス)のthou-sandを解析し、各書き込みサンプルのさまざまな定義要素を抽出した。 このプロジェクトを通じて、特定のコンテンツ記述要求に対して最も適したライターを手作業でショートリストする、非常に時間を要する、しばしばバイアスのあるタスクを自動化することを目指している。 このようなツールは、ニッチな執筆作業に適した人材を探している企業や、経験豊富なライターや、コンテンツマーケティングプロジェクトへのサービス提供を希望する主題専門家(SME)といった、双方にとって大きな意味を持つと思います。 ビジネスは必要なコンテンツを取得し、コンテンツライター/中小企業は自身の才能を活用する機会を得る一方、読者は真の価値を付加する本物のコンテンツを得る。

Businesses need content. In various forms and formats and for varied purposes. In fact, the content marketing industry is set to be worth $412.88 billion by the end of 2021. However, according to the Content Marketing Institute, creating engaging content is the #1 challenge that marketers face today. We under-stand that producing great content requires great writers who understand the business and can weave their message into reader (and search engine) friendly content. In this project, the team has attempted to bridge the gap between writers and projects by using AI and ML tools. We used NLP techniques to analyze thou-sands of publicly available business articles (corpora) to extract various defining factors for each writing sample. Through this project we aim to automate the highly time-consuming, and often biased task of manually shortlisting the most suitable writer for a given content writing requirement. We believe that a tool like this will have far reaching positive implications for both parties - businesses looking for suitable talent for niche writing jobs as well as experienced writers and Subject Matter Experts (SMEs) wanting to lend their services to content marketing projects. The business gets the content they need, the content writer/ SME gets a chance to leverage his or her talent, while the reader gets authentic content that adds real value.
翻訳日:2022-04-24 15:43:51 公開日:2022-04-07
# Farmer-Bot: 農家のための対話型ボット

Farmer-Bot: An Interactive Bot for Farmers ( http://arxiv.org/abs/2204.07032v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Rajiv Tiwari, Anwesh Reddy Paduri, Suman Saurav, Rohit Chaoji, and Sohil(参考訳) インドの農業部門は労働力の54%以上を雇用している。 GDPの総台数は14%近くである。 しかし、この部門は特に農村部において知識とインフラ不足に悩まされている。 他の部門と同様に、インド農業部門も技術を活用した急速なデジタル化が見られ、キサンコールセンター(KCC)もその例である。 2004年1月21日に発足したインド政府のイニシアチブであり、情報技術と農業の2つの部門を統合したものである。 しかしながら、ネットワークの混雑やコールセンターの代表者の不完全な知識に照らして、KCC受益者に制約があることが研究で示されている。 第一世代のSMSやWhatsAppのような次世代のソーシャルメディアツールといった新しいテクノロジーの出現により、インドの農家は農業情報サービスとデジタル的により結びついている。 これまでの研究では、KCCデータセットがChat-botの代替として使用できることが示されている。 我々は,過去の農家による問合せの意味的類似性を取得し,それを自動で問合せに利用することにより,nlpモデルを構築するために利用可能なkccデータセットをベースとする。 WhatsAppベースのチャットボットを、RASAをツールとして使う農家と簡単にコミュニケーションできるようにする。

The Indian Agricultural sector generates huge employment accounting for over 54% of countrys workforce. Its overall stand in GDP is close to 14%. However, this sector has been plagued by knowledge and infrastructure deficit, especially in the rural sectors. Like other sectors, the Indian Agricultural sector has seen rapid digitization with use of technology and Kisan Call Center (KCC) is one such example. It is a Government of India initiative launched on 21st January 2004 which is a synthesis of two hitherto separate sectors the Information Technology and Agriculture sector. However, studies have shown to have constrains to KCC beneficiaries, especially in light of network congestion and incomplete knowledge of the call center representatives. With the advent of new technologies, like first-generation SMS based and next-generation social media tools like WhatsApp, farmers in India are digitally more connected to the agricultural information services. Previous studies have shown that the KCC dataset can be used as a viable alternative for Chat-bot. We will base our study with the available KCC dataset to build an NLP model by getting the semantic similarity of the queries made by farmers in the past and use it to automatically answer future queries. We will attempt to make a WhatsApp based chat-bot to easily communicate with farmers using RASA as a tool.
翻訳日:2022-04-17 06:40:10 公開日:2022-04-07
# インド市場における感情分析とディープラーニングを用いた株価予測

Stock Price Prediction using Sentiment Analysis and Deep Learning for Indian Markets ( http://arxiv.org/abs/2204.05783v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Anwesh Reddy Paduri, Himank Sharma, Milind Manjrekar, Nutan Hindlekar, Pranali Bhagat, Usha Aiyer, and Yogesh Agarwal(参考訳) 株式市場の予測は、かなりの期間にわたって活発な研究分野であった。 Arival of Computingに続いて、機械学習は研究のスピードを向上し、新しい道を開いた。 本研究は,感情データの入手に資する歴史的価格を用いて,株式の今後の株価変動を予測することを目的としている。 演習の一環として2つのモデルが使用され、LSTMは独立した変数として歴史的価格で最初のモデルとなった。 インテンシティアナライザを用いた感情分析は、第2部で使われたランダムフォレストモデルの主要なパラメータとして、金、石油価格、usd為替レート、インドのgovtなどのマクロパラメータとして使用された。 証券利回りもモデルに付加され、モデルの精度が向上した。 最終製品として4株の価格が上昇した。 以上の2モデルを用いて, 信頼性, HDFC Bank, TCS, SBIの予測を行った。 結果はrmseメトリックを用いて評価した。

Stock market prediction has been an active area of research for a considerable period. Arrival of computing, followed by Machine Learning has upgraded the speed of research as well as opened new avenues. As part of this research study, we aimed to predict the future stock movement of shares using the historical prices aided with availability of sentiment data. Two models were used as part of the exercise, LSTM was the first model with historical prices as the independent variable. Sentiment Analysis captured using Intensity Analyzer was used as the major parameter for Random Forest Model used for the second part, some macro parameters like Gold, Oil prices, USD exchange rate and Indian Govt. Securities yields were also added to the model for improved accuracy of the model. As the end product, prices of 4 stocks viz. Reliance, HDFC Bank, TCS and SBI were predicted using the aforementioned two models. The results were evaluated using RMSE metric.
翻訳日:2022-04-17 06:39:38 公開日:2022-04-07
# (参考訳) shiftnas: 高度なムリプリケーションレスニューラルネットワークの自動生成に向けて [全文訳有]

ShiftNAS: Towards Automatic Generation of Advanced Mulitplication-Less Neural Networks ( http://arxiv.org/abs/2204.05113v1 )

ライセンス: CC BY 4.0
Xiaoxuan Lou, Guowen Xu, Kangjie Chen, Guanlin Li, Jiwei Li, Tianwei Zhang(参考訳) 計算集約型乗算は軽量なビットシフト演算に置き換えられるため、乗算レスニューラルネットワークはハードウェアプラットフォームの時間とエネルギーコストを大幅に削減する。 しかし、既存のビットシフトネットワークはすべて最先端の畳み込みニューラルネットワーク(cnns)から直接転送されるため、不要な精度低下やモデル収束の失敗につながる。 これに対抗するために,我々は,ビットシフトニューラルネットワークと実数値ニューラルネットワークの精度ギャップを大幅に低減する,最初のフレームワークであるShiftNASを提案する。 具体的には、NASをシフト指向の検索空間にドラッグし、ロバストなトポロジ関連検索戦略とカスタム正規化と安定化を付与する。 その結果、ShiftNASは従来のNAS方式のビットシフトニューラルネットワークの非互換性を突破し、精度と収束性の観点からより望ましい性能を得ることができた。 広範な実験により、shiftnasはビットシフトニューラルネットワークの新しい最先端を設定し、cifar10では(1.69-8.07)%、cifar100では(5.71-18.09)%、imagenetでは(4.36-67.07)%の精度が向上した。

Multiplication-less neural networks significantly reduce the time and energy cost on the hardware platform, as the compute-intensive multiplications are replaced with lightweight bit-shift operations. However, existing bit-shift networks are all directly transferred from state-of-the-art convolutional neural networks (CNNs), which lead to non-negligible accuracy drop or even failure of model convergence. To combat this, we propose ShiftNAS, the first framework tailoring Neural Architecture Search (NAS) to substantially reduce the accuracy gap between bit-shift neural networks and their real-valued counterparts. Specifically, we pioneer dragging NAS into a shift-oriented search space and endow it with the robust topology-related search strategy and custom regularization and stabilization. As a result, our ShiftNAS breaks through the incompatibility of traditional NAS methods for bit-shift neural networks and achieves more desirable performance in terms of accuracy and convergence. Extensive experiments demonstrate that ShiftNAS sets a new state-of-the-art for bit-shift neural networks, where the accuracy increases (1.69-8.07)% on CIFAR10, (5.71-18.09)% on CIFAR100 and (4.36-67.07)% on ImageNet, especially when many conventional CNNs fail to converge on ImageNet with bit-shift weights.
翻訳日:2022-04-16 13:03:42 公開日:2022-04-07
# (参考訳) FastMapSVM: FastMapアルゴリズムとサポートベクターマシンを使って複雑なオブジェクトを分類する [全文訳有]

FastMapSVM: Classifying Complex Objects Using the FastMap Algorithm and Support-Vector Machines ( http://arxiv.org/abs/2204.05112v1 )

ライセンス: CC BY 4.0
Malcolm C. A. White, Kushal Sharma, Ang Li, T. K. Satish Kumar, and Nori Nakata(参考訳) ニューラルネットワークと関連するディープラーニングメソッドは現在、オブジェクトの分類に使われる技術の最先端にある。 しかし、彼らは一般的に、モデルトレーニングのために大量の時間とデータを要求します。 本稿では,複雑なオブジェクトを分類する新しい解釈可能な機械学習フレームワークであるFastMapSVMを提案する。 fastmapsvmはfastmapとsupport-vectorマシンの強みを組み合わせる。 fastmapは、複素オブジェクトをユークリッド空間内の点にマッピングする効率的な線形時間アルゴリズムである。 地震図の分類におけるFastMapSVMの有効性と有効性を示す。 その性能は、精度、リコール、精度において、他の最先端手法と同等であることを示す。 しかし、他の方法と比較して、FastMapSVMはモデルトレーニングに非常に少ない時間とデータを使用する。 また、オブジェクトとそれらの間の分類境界を視覚的に可視化する。 我々は、FastMapSVMが他の多くの現実世界のドメインの分類タスクに有効であることを期待しています。

Neural Networks and related Deep Learning methods are currently at the leading edge of technologies used for classifying objects. However, they generally demand large amounts of time and data for model training; and their learned models can sometimes be difficult to interpret. In this paper, we present FastMapSVM, a novel interpretable Machine Learning framework for classifying complex objects. FastMapSVM combines the strengths of FastMap and Support-Vector Machines. FastMap is an efficient linear-time algorithm that maps complex objects to points in a Euclidean space, while preserving pairwise non-Euclidean distances between them. We demonstrate the efficiency and effectiveness of FastMapSVM in the context of classifying seismograms. We show that its performance, in terms of precision, recall, and accuracy, is comparable to that of other state-of-the-art methods. However, compared to other methods, FastMapSVM uses significantly smaller amounts of time and data for model training. It also provides a perspicuous visualization of the objects and the classification boundaries between them. We expect FastMapSVM to be viable for classification tasks in many other real-world domains.
翻訳日:2022-04-16 12:45:37 公開日:2022-04-07
# (参考訳) Intelligent Sight and Sound: A chronic Cancer Pain Dataset [全文訳有]

Intelligent Sight and Sound: A Chronic Cancer Pain Dataset ( http://arxiv.org/abs/2204.04214v1 )

ライセンス: CC BY 4.0
Catherine Ordun, Alexandra N. Cha, Edward Raff, Byron Gaskin, Alex Hanson, Mason Rule, Sanjay Purushotham, James L. Gulley(参考訳) がん患者は治療過程を通じて慢性的な痛みを経験する。 この患者集団の痛みを評価することは、生活の質が急速に低下する可能性があるため、心理的および機能的幸福の重要な要素である。 顔の痛みを検出する既存の作業は、しばしば臨床的に関連しないラベリングや方法論に欠陥がある。 本報告では, 精神科医が臨床実験の一環として収集した最初の慢性がん痛データセットについて紹介し, モデル所見が臨床的に有意な結果をもたらすことを確実にするために, 臨床医が指導した。 これまで収集されたデータは、29の患者、509のスマートフォンビデオ、189,999フレーム、およびブリーフ・ペイン・インベントリ(BPI)が採用した自己報告された感情と活動の痛みスコアから成っている。 静的画像とマルチモーダルデータを使って、自己報告された痛みレベルを予測する初期のモデルは、現在の痛みを予測するために利用可能な方法と、改善の余地がかなりあることを示している。 顔画像の固有のPII(Personally Identible Information)の特に敏感な性質のため、データセットは国立衛生研究所(NIH)の指導と管理の下でリリースされる。

Cancer patients experience high rates of chronic pain throughout the treatment process. Assessing pain for this patient population is a vital component of psychological and functional well-being, as it can cause a rapid deterioration of quality of life. Existing work in facial pain detection often have deficiencies in labeling or methodology that prevent them from being clinically relevant. This paper introduces the first chronic cancer pain dataset, collected as part of the Intelligent Sight and Sound (ISS) clinical trial, guided by clinicians to help ensure that model findings yield clinically relevant results. The data collected to date consists of 29 patients, 509 smartphone videos, 189,999 frames, and self-reported affective and activity pain scores adopted from the Brief Pain Inventory (BPI). Using static images and multi-modal data to predict self-reported pain levels, early models show significant gaps between current methods available to predict pain today, with room for improvement. Due to the especially sensitive nature of the inherent Personally Identifiable Information (PII) of facial images, the dataset will be released under the guidance and control of the National Institutes of Health (NIH).
翻訳日:2022-04-16 12:33:02 公開日:2022-04-07
# 転送学習を用いた低データ環境における新しい疾患予測

Forecasting new diseases in low-data settings using transfer learning ( http://arxiv.org/abs/2204.05059v1 )

ライセンス: Link先を確認
Kirstin Roster, Colm Connaughton, Francisco A. Rodrigues(参考訳) 新型コロナウイルスのパンデミックやブラジルのジカ熱など最近の感染症の流行は、新しい感染症を正確に予測することの重要性と難しさの両方を示している。 新しい疾患が現れると、伝染過程、再感染に対する免疫のレベルと持続時間、または現実的な疫学モデルを構築するのに必要な他のパラメータについてほとんど知識が得られない。 時系列予測と機械学習は、病気に関する仮定にはあまり依存していないが、アウトブレイクの初期段階でも利用できない大量のデータを必要とする。 本研究では,関連する疾患の知識が,トランスファー・ラーニングを用いてデータ収集環境における新たな疾患の予測にどのように役立つかを検討する。 経験的アプローチと理論的アプローチの両方を実装します。 ブラジルの実証データを用いて、異なる機械学習モデルがどのように2つの病気のペア間で知識を伝達するかを比較する。 (i)デング、ジカ、及び (II)インフルエンザとCOVID-19。 理論的解析では,SIR構成モデルを用いて異なる伝送率と回復率を用いてデータを生成し,異なる転送学習手法の有効性を比較する。 転送学習は,対象疾患のデータに基づくモデルを超えても,予測を改善する可能性を秘めているが,適切なソース疾患を慎重に選択する必要がある。 これらのモデルは不完全だが、パンデミック対応中に意思決定者にさらなるインプットを提供する。

Recent infectious disease outbreaks, such as the COVID-19 pandemic and the Zika epidemic in Brazil, have demonstrated both the importance and difficulty of accurately forecasting novel infectious diseases. When new diseases first emerge, we have little knowledge of the transmission process, the level and duration of immunity to reinfection, or other parameters required to build realistic epidemiological models. Time series forecasts and machine learning, while less reliant on assumptions about the disease, require large amounts of data that are also not available in early stages of an outbreak. In this study, we examine how knowledge of related diseases can help make predictions of new diseases in data-scarce environments using transfer learning. We implement both an empirical and a theoretical approach. Using empirical data from Brazil, we compare how well different machine learning models transfer knowledge between two different disease pairs: (i) dengue and Zika, and (ii) influenza and COVID-19. In the theoretical analysis, we generate data using different transmission and recovery rates with an SIR compartmental model, and then compare the effectiveness of different transfer learning methods. We find that transfer learning offers the potential to improve predictions, even beyond a model based on data from the target disease, though the appropriate source disease must be chosen carefully. While imperfect, these models offer an additional input for decision makers during pandemic response.
翻訳日:2022-04-12 18:06:59 公開日:2022-04-07
# PetroGAN: リアルでラベルのないペトログラフデータセットを生成する新しいGANベースのアプローチ

PetroGAN: A novel GAN-based approach to generate realistic, label-free petrographic datasets ( http://arxiv.org/abs/2204.05114v1 )

ライセンス: Link先を確認
I. Ferreira, L. Ochoa and A. Koeshidayatullah(参考訳) ディープラーニングアーキテクチャは、地質学におけるデータ分析を豊かにし、地質問題に対する伝統的なアプローチを補完している。 地学における深層学習の応用は奨励的な兆候を示すが、実際のポテンシャルは未解決のままである。 これは主に、地質学的データセット、特に岩石学は、限られた時間と費用がかかり、高品質のラベル付きデータセットを提供するために詳細な知識を必要とするためである。 そこで我々は,GAN(Generative Adversarial Network)に基づく新たなディープラーニングフレームワークを開発し,最初のリアルな合成石油写真データセットを作成することで,この問題に対処した。 StyleGAN2アーキテクチャは、統計的および審美的特性の堅牢な複製を可能にし、岩石データの内部分散を改善するために選択される。 トレーニングデータセットは、平面光とクロスポーラライズ光の両方の岩石薄片の10070画像で構成されている。 このアルゴリズムは264GPU時間で訓練され、ペトログラフィ画像のFr'echet Inception Distance(FID)スコアが12.49に達した。 さらに,fid値はリソロジータイプや画像解像度によって異なっていた。 調査の結果,生成した画像は実画像と区別できないことがわかった。 本研究は,gansが潜在空間を実験しながら,現実的な合成データを生成するための強力な手法であること,また,地質学的データセット作成の労力を削減するための将来のツールであることを浮き彫りにする。

Deep learning architectures have enriched data analytics in the geosciences, complementing traditional approaches to geological problems. Although deep learning applications in geosciences show encouraging signs, the actual potential remains untapped. This is primarily because geological datasets, particularly petrography, are limited, time-consuming, and expensive to obtain, requiring in-depth knowledge to provide a high-quality labeled dataset. We approached these issues by developing a novel deep learning framework based on generative adversarial networks (GANs) to create the first realistic synthetic petrographic dataset. The StyleGAN2 architecture is selected to allow robust replication of statistical and esthetical characteristics, and improving the internal variance of petrographic data. The training dataset consists of 10070 images of rock thin sections both in plane- and cross-polarized light. The algorithm trained for 264 GPU hours and reached a state-of-the-art Fr\'echet Inception Distance (FID) score of 12.49 for petrographic images. We further observed the FID values vary with lithology type and image resolution. Our survey established that subject matter experts found the generated images were indistinguishable from real images. This study highlights that GANs are a powerful method for generating realistic synthetic data, experimenting with the latent space, and as a future tool for self-labelling, reducing the effort of creating geological datasets.
翻訳日:2022-04-12 15:56:32 公開日:2022-04-07
# (参考訳) トランスファー攻撃再考:リアルコンピュータビジョン設定における大規模実証的研究 [全文訳有]

Transfer Attacks Revisited: A Large-Scale Empirical Study in Real Computer Vision Settings ( http://arxiv.org/abs/2204.04063v1 )

ライセンス: CC BY 4.0
Yuhao Mao, Chong Fu, Saizhuo Wang, Shouling Ji, Xuhong Zhang, Zhenguang Liu, Jun Zhou, Alex X. Liu, Raheem Beyah, Ting Wang(参考訳) 1つのディープニューラルネットワーク(DNN)モデルに関して構築された敵の例は、他のDNNにも有効であることがよく見出される。 この現象は、単純化された制御条件下で集中的に研究されている。 しかし、今のところ、現実世界の環境での転送可能性に基づく攻撃(転送攻撃)に関する包括的理解が不足している。 この重要なギャップを埋めるために、我々は、大規模なクラウドベースのMLaaSプラットフォームに対する転送攻撃について、大規模な体系的研究を行い、実際の転送攻撃のコンポーネントを考慮に入れた。 1) 単純なサロゲートは必ずしも実際の転送攻撃を改善するものではない。 2) 実際の転送攻撃では支配的なサロゲートアーキテクチャは見出されない。 (3) 転送可能性を高めるロジット(いわゆる$\kappa$値)間のギャップではなく、後方(ソフトマックス層の出力)間のギャップである。 さらに,先行研究との比較により,(1)モデル類似性が明確に定義されていないような実環境において,転送攻撃が未知の多くの特性を持つことを示す。 2)$L_2$ 摂動のノルムは勾配を使わずに高い転送可能性を生み出すことができ、$L_\infty$ ノルムよりも強力な情報源である。 この作業は、一般的なMLaaSプラットフォームの脆弱性に光を当て、いくつかの有望な研究方向を示すものだと考えています。

One intriguing property of adversarial attacks is their "transferability" ; -- an adversarial example crafted with respect to one deep neural network (DNN) model is often found effective against other DNNs as well. Intensive research has been conducted on this phenomenon under simplistic controlled conditions. Yet, thus far, there is still a lack of comprehensive understanding about transferability-base d attacks ("transfer attacks") in real-world environments. To bridge this critical gap, we conduct the first large-scale systematic empirical study of transfer attacks against major cloud-based MLaaS platforms, taking the components of a real transfer attack into account. The study leads to a number of interesting findings which are inconsistent to the existing ones, including: (1) Simple surrogates do not necessarily improve real transfer attacks. (2) No dominant surrogate architecture is found in real transfer attacks. (3) It is the gap between posterior (output of the softmax layer) rather than the gap between logit (so-called $\kappa$ value) that increases transferability. Moreover, by comparing with prior works, we demonstrate that transfer attacks possess many previously unknown properties in real-world environments, such as (1) Model similarity is not a well-defined concept. (2) $L_2$ norm of perturbation can generate high transferability without usage of gradient and is a more powerful source than $L_\infty$ norm. We believe this work sheds light on the vulnerabilities of popular MLaaS platforms and points to a few promising research directions.
翻訳日:2022-04-11 23:52:57 公開日:2022-04-07
# (参考訳) リセットなし品質ダイバーシティによる自律歩行学習 [全文訳有]

Learning to Walk Autonomously via Reset-Free Quality-Diversity ( http://arxiv.org/abs/2204.03655v1 )

ライセンス: CC BY 4.0
Bryan Lim, Alexander Reichenbach, Antoine Cully(参考訳) 品質多様性(QD)アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。 しかし、行動レパートリーの生成は主に実世界の学習ではなくシミュレーション環境に限られている。 これは、既存のqdアルゴリズムは、人手による監視と介入を必要とするエピソディックリセットと同様に、大量の評価を必要とするためである。 本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。 我々は,da-qd(dynamics-awar e quality-diversity)を基盤として,想定されるレパートリーと環境情報の多様性を活用した行動選択ポリシを導入し,自動リセットとして機能する行動のインテリジェントな選択を行う。 障害のある特定のトレーニングゾーン内を歩くことを学ぶタスクを通じて、これを実証する。 本実験により,厳密な安全制約にもかかわらず,手動リセットを伴わずに自動で移動制御器の完全レパートリーを学習できることが判明した。 最後に、異なる目的のアブレーションを用いて、RF-QDが特定の目的に最適化された解に対する行動選択ポリシーに利用可能な多様な型ソリューションを持つことが重要であることを示す。 ビデオとコードはhttps://sites.google .com/view/rf-qdで入手できる。

Quality-Diversity (QD) algorithms can discover large and complex behavioural repertoires consisting of both diverse and high-performing skills. However, the generation of behavioural repertoires has mainly been limited to simulation environments instead of real-world learning. This is because existing QD algorithms need large numbers of evaluations as well as episodic resets, which require manual human supervision and interventions. This paper proposes Reset-Free Quality-Diversity optimization (RF-QD) as a step towards autonomous learning for robotics in open-ended environments. We build on Dynamics-Aware Quality-Diversity (DA-QD) and introduce a behaviour selection policy that leverages the diversity of the imagined repertoire and environmental information to intelligently select of behaviours that can act as automatic resets. We demonstrate this through a task of learning to walk within defined training zones with obstacles. Our experiments show that we can learn full repertoires of legged locomotion controllers autonomously without manual resets with high sample efficiency in spite of harsh safety constraints. Finally, using an ablation of different target objectives, we show that it is important for RF-QD to have diverse types solutions available for the behaviour selection policy over solutions optimised with a specific objective. Videos and code available at https://sites.google .com/view/rf-qd.
翻訳日:2022-04-11 23:22:56 公開日:2022-04-07
# (参考訳) DAD-3Dヘッド:1枚の画像から3次元頭部アライメントのための大規模Dense, Accurate, Diverse Dataset

DAD-3DHeads: A Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single Image ( http://arxiv.org/abs/2204.03688v1 )

ライセンス: CC BY 4.0
Tetiana Martyniuk, Orest Kupyn, Yana Kurlyak, Igor Krashenyi, Ji\v{r}i, Viktoriia Sharmanska(参考訳) DAD-3DHeadsは,高密度で多様な大規模データセットであり,野生における3次元Dense Head Alignmentの頑健なモデルである。 3dヘッド形状を正確に表現した3.5k以上のランドマークのアノテーションを含んでいる。 データ駆動型モデルであるDAD-3DNetは、データセットに基づいてトレーニングされ、形状、表現、ポーズパラメータを学び、FLAMEメッシュの3D再構成を行う。 このモデルにはランドマーク予測ブランチも組み込まれており、リッチな監督と複数の関連するタスクのコトレーニングを生かしている。 実験的に、DAD-3DNetは最先端のモデルよりも優れ、あるいは同等である。 (i)AFLW2000-3DとBIWIによる3次元頭部電位の推定 (II)NoWとFengの3次元顔形状再構成 3)DAD-3Dヘッドデータセットによる3次元高密度頭部アライメントと3次元ランドマーク推定 最後に、カメラアングル、表情、オクルージョンにおけるdad-3dヘッドの多様性により、分布シフトに対する一般化とロバスト性を研究することができる。 データセットのウェブページはhttps://p.farm/resea rch/dad-3dheadsである。

We present DAD-3DHeads, a dense and diverse large-scale dataset, and a robust model for 3D Dense Head Alignment in the wild. It contains annotations of over 3.5K landmarks that accurately represent 3D head shape compared to the ground-truth scans. The data-driven model, DAD-3DNet, trained on our dataset, learns shape, expression, and pose parameters, and performs 3D reconstruction of a FLAME mesh. The model also incorporates a landmark prediction branch to take advantage of rich supervision and co-training of multiple related tasks. Experimentally, DAD-3DNet outperforms or is comparable to the state-of-the-art models in (i) 3D Head Pose Estimation on AFLW2000-3D and BIWI, (ii) 3D Face Shape Reconstruction on NoW and Feng, and (iii) 3D Dense Head Alignment and 3D Landmarks Estimation on DAD-3DHeads dataset. Finally, the diversity of DAD-3DHeads in camera angles, facial expressions, and occlusions enables a benchmark to study in-the-wild generalization and robustness to distribution shifts. The dataset webpage is https://p.farm/resea rch/dad-3dheads.
翻訳日:2022-04-11 22:37:28 公開日:2022-04-07
# (参考訳) x線トモグラフィのための物理支援生成逆ネットワーク [全文訳有]

Physics-assisted Generative Adversarial Network for X-Ray Tomography ( http://arxiv.org/abs/2204.03703v1 )

ライセンス: CC BY 4.0
Zhen Guo, Jung Ki Song, George Barbastathis, Michael E. Glinsky, Courtenay T. Vaughan, Kurt W. Larson, Bradley K. Alpert, and Zachary H. Levine(参考訳) x線トモグラフィーは、生体イメージング、材料科学、電子検査、その他の分野で応用され、非侵襲的に物体の内部を3次元で撮影することができる。 再構成プロセスは不条件の逆問題であり、良好な再構築を得るためには正規化が必要である。 近年,深層学習がトモグラフィ再構成に採用されている。 事前分布を必要とする反復アルゴリズムとは異なり、深層再構成ネットワークはトレーニング分布をサンプリングすることで事前分布を学習することができる。 本研究では、トモグラフィ再構成のための2段階のアルゴリズムであるPGAN(Physical-assist ed Generative Adversarial Network)を開発した。 これまでの取り組みとは対照的に,我々のPGANでは,測定結果から得られた最大様相推定値を用いて,既知物理と学習前の再現を規則化する。 空間相関を持つ合成オブジェクトは、提案したCircuitFakerから集積回路(IC)である。 最大類似度推定と比較すると、PGANは所定の誤差率を達成するために限られた射影角度で光子要求を減少させることができる。 さらに,空間的相関を伴わないオブジェクトを再構成することで,学習前の改善に寄与する。 X線トモグラフィーにおける深層学習の先行利用の利点は、さらに低光子ナノスケールイメージングを可能にする可能性がある。

X-ray tomography is capable of imaging the interior of objects in three dimensions non-invasively, with applications in biomedical imaging, materials science, electronic inspection, and other fields. The reconstruction process can be an ill-conditioned inverse problem, requiring regularization to obtain satisfactory reconstructions. Recently, deep learning has been adopted for tomographic reconstruction. Unlike iterative algorithms which require a distribution that is known a priori, deep reconstruction networks can learn a prior distribution through sampling the training distributions. In this work, we develop a Physics-assisted Generative Adversarial Network (PGAN), a two-step algorithm for tomographic reconstruction. In contrast to previous efforts, our PGAN utilizes maximum-likelihood estimates derived from the measurements to regularize the reconstruction with both known physics and the learned prior. Synthetic objects with spatial correlations are integrated circuits (IC) from a proposed model CircuitFaker. Compared with maximum-likelihood estimation, PGAN can reduce the photon requirement with limited projection angles to achieve a given error rate. We further attribute the improvement to the learned prior by reconstructing objects created without spatial correlations. The advantages of using a prior from deep learning in X-ray tomography may further enable low-photon nanoscale imaging.
翻訳日:2022-04-11 22:36:28 公開日:2022-04-07
# (参考訳) レコメンダシステムの校正のためのフレームワークと決定プロトコルの導入 [全文訳有]

Introducing a Framework and a Decision Protocol to Calibrate Recommender Systems ( http://arxiv.org/abs/2204.03706v1 )

ライセンス: CC BY 4.0
Diego Corr\^ea da Silva and Frederico Ara\'ujo Dur\~ao(参考訳) Recommender Systemsは、ユーザプロファイルを使用して、未知のアイテムを含むレコメンデーションリストをターゲットユーザに生成する。 伝統的なレコメンデーションシステムの主な目的は最も関連性の高いアイテムを提供することであるが、そのような努力は意図せず、低多様性や不均衡なジャンルやカテゴリーなど、特定のカテゴリに利益をもたらす副次的な効果を引き起こす可能性がある。 本稿では,ジャンルのバランスを調整したレコメンデーションリストを作成する手法を提案し,ユーザのプロファイルとレコメンデーションリストとの相違を回避した。 校正された推奨事項は、ユーザの好みから抽出されたジャンル分布と推奨リストとの関連性と相違を考慮する。 主な主張は、キャリブレーションがより公平なレコメンデーションを生成するのにプラスに貢献できるということである。 特に,ユーザの傾向を求めるリコメンデーションリストを提供するために,ユーザのバイアスを考慮した新たなトレードオフ式を提案する。 さらに,最適な組み合わせを見つけるために,1000以上の校正システムの組み合わせを生成するための概念的枠組みと決定プロトコルを提案する。 ランクとキャリブレーションの指標から分析した複数のドメインデータセットを用いた最先端アプローチに対するアプローチを比較した。 その結果,ユーザのバイアスを考慮したトレードオフは,正確性と公平性に肯定的な影響を与え,ジャンル分布を尊重する推薦リストを生成し,決定プロトコルによってデータセットごとに最適なシステムを見出した。

Recommender Systems use the user's profile to generate a recommendation list with unknown items to a target user. Although the primary goal of traditional recommendation systems is to deliver the most relevant items, such an effort unintentionally can cause collateral effects including low diversity and unbalanced genres or categories, benefiting particular groups of categories. This paper proposes an approach to create recommendation lists with a calibrated balance of genres, avoiding disproportion between the user's profile interests and the recommendation list. The calibrated recommendations consider concomitantly the relevance and the divergence between the genres distributions extracted from the user's preference and the recommendation list. The main claim is that calibration can contribute positively to generate fairer recommendations. In particular, we propose a new trade-off equation, which considers the users' bias to provide a recommendation list that seeks for the users' tendencies. Moreover, we propose a conceptual framework and a decision protocol to generate more than one thousand combinations of calibrated systems in order to find the best combination. We compare our approach against state-of-the-art approaches using multiple domain datasets, which are analyzed by rank and calibration metrics. The results indicate that the trade-off, which considers the users' bias, produces positive effects on the precision and to the fairness, thus generating recommendation lists that respect the genre distribution and, through the decision protocol, we also found the best system for each dataset.
翻訳日:2022-04-11 22:12:57 公開日:2022-04-07
# (参考訳) CNNとLSTMによる活動領域データの2つの太陽周期上の太陽フレア予測

Predicting Solar Flares Using CNN and LSTM on Two Solar Cycles of Active Region Data ( http://arxiv.org/abs/2204.03710v1 )

ライセンス: CC BY 4.0
Zeyu Sun, Monica G. Bobra, Xiantong Wang, Yu Wang, Hu Sun, Tamas Gombosi, Yang Chen, Alfred Hero(参考訳) 我々は,今後24時間以内にmクラスまたはxクラスのフレアを発生させるフレア期活性領域と,$\pm 24$ 以内にフレアを発生しない静かな活性領域を区別するフレア予測問題を考える。 ソーラーサイクル23と24をカバーする2つのデータ製品において、直視磁図と活動領域のパラメータを用いて、CNNとLSTMという2つのディープラーニングアルゴリズムとその積み重ねアンサンブルを訓練し、評価する。 CNNの決定は、視覚的帰属法を用いて説明される。 主な発見は以下の3つである。 1) 2つの太陽サイクルのデータに基づいてトレーニングされたLSTMは、信頼レベル0.95の単一太陽サイクルのデータに基づいてトレーニングされたLSTMよりもはるかに高い真のスキルスコア(TSS)を達成する。 2) ソーラーサイクル23のデータでは,TLS基準を用いたLSTMとCNNの予測を組み合わせた積み重ねアンサンブルが,信頼度0.95の「選択ベスト」戦略よりもはるかに高いTSSを実現している。 3) 集積勾配 (integrated gradients) と呼ばれる視覚的帰属法は, cnnによるフレアの予測を, 活性領域の出現する磁束に分類することができる。 また、直線磁図を用いたフレア予測法としてのcnnの限界も明らかにした: 直線磁図の極性アーチファクトをフレアの正の証拠として扱う。

We consider the flare prediction problem that distinguishes flare-imminent active regions that produce an M- or X-class flare in the future 24 hours, from quiet active regions that do not produce any flare within $\pm 24$ hours. Using line-of-sight magnetograms and parameters of active regions in two data products covering Solar Cycle 23 and 24, we train and evaluate two deep learning algorithms -- CNN and LSTM -- and their stacking ensembles. The decisions of CNN are explained using visual attribution methods. We have the following three main findings. (1) LSTM trained on data from two solar cycles achieves significantly higher True Skill Scores (TSS) than that trained on data from a single solar cycle with a confidence level of at least 0.95. (2) On data from Solar Cycle 23, a stacking ensemble that combines predictions from LSTM and CNN using the TSS criterion achieves significantly higher TSS than the "select-best" strategy with a confidence level of at least 0.95. (3) A visual attribution method called Integrated Gradients is able to attribute the CNN's predictions of flares to the emerging magnetic flux in the active region. It also reveals a limitation of CNN as a flare prediction method using line-of-sight magnetograms: it treats the polarity artifact of line-of-sight magnetograms as positive evidence of flares.
翻訳日:2022-04-11 21:52:26 公開日:2022-04-07
# (参考訳) 複数の自己監視タスクを使用することでモデルロバスト性が向上する [全文訳有]

Using Multiple Self-Supervised Tasks Improves Model Robustness ( http://arxiv.org/abs/2204.03714v1 )

ライセンス: CC BY 4.0
Matthew Lawhon, Chengzhi Mao, Junfeng Yang(参考訳) ディープネットワークはコンピュータビジョンタスクで最先端のパフォーマンスを達成するが、人間には受け入れられない敵の攻撃で失敗する。 本稿では,複数の自己教師型タスクから内在的構造を用いて動的に入力を適応できる新しいディフェンスを提案する。 多くの自己監督的タスクを同時に使用することにより、我々の防衛は、適応されたイメージを特定の自己監督的タスクに過度に適合させることを避け、単一の自己監督的タスクアプローチと比較して、画像の本質的な構造を復元する。 我々のアプローチは、最先端のシングルタスクの自己監視防御と比較して、ロバスト性とクリーンな正確性をさらに向上させる。 我々の研究は、複数の自己監督タスクをロバストネスに接続する最初のものであり、視覚データからより本質的な信号によって、より堅牢性を達成することができることを示唆している。

Deep networks achieve state-of-the-art performance on computer vision tasks, yet they fail under adversarial attacks that are imperceptible to humans. In this paper, we propose a novel defense that can dynamically adapt the input using the intrinsic structure from multiple self-supervised tasks. By simultaneously using many self-supervised tasks, our defense avoids over-fitting the adapted image to one specific self-supervised task and restores more intrinsic structure in the image compared to a single self-supervised task approach. Our approach further improves robustness and clean accuracy significantly compared to the state-of-the-art single task self-supervised defense. Our work is the first to connect multiple self-supervised tasks to robustness, and suggests that we can achieve better robustness with more intrinsic signal from visual data.
翻訳日:2022-04-11 21:51:07 公開日:2022-04-07
# (参考訳) 重力レンズ付きブラックホール放射トモグラフィ

Gravitationally Lensed Black Hole Emission Tomography ( http://arxiv.org/abs/2204.03715v1 )

ライセンス: CC BY 4.0
Aviad Levis, Pratul P. Srinivasan, Andrew A. Chael, Ren Ng, Katherine L. Bouman(参考訳) イベント・ホライゾン望遠鏡による観測により、初めてブラックホールの周囲の発光を可視化できるようになった。 これまでのところ、これらの測定は、取得期間中に放出フィールドが静的であると仮定して、2次元画像の復元に使われてきた。 本研究では,重力レンズを用いた新しいトモグラフィ手法であるBH-NeRFを提案し,ブラックホール近傍の連続3次元放射場を復元する。 まず、ブラックホール付近の光線は一般相対性理論によって引き起こされた曲がった経路をたどり、次に1つの視点からのみ観測する。 本手法は,座標系ニューラルネットワークによってパラメータ化された連続ボリューム関数を用いて未知の放射場をキャプチャし,ケプラー軌道ダイナミクスの知識を用いて3次元点間の時間的対応を確立する。 これらを組み合わせてbh-nerfは、ばらばらな測定と不確定な軌道動力学を伴う困難な状況でも、正確な3dエミッションフィールドを回復することができる。 この研究は、銀河中心にある超大質量ブラックホールの周囲の進化する3D放射を、イベント・ホライゾン望遠鏡でどのように測定するかを示す最初のステップである。

Measurements from the Event Horizon Telescope enabled the visualization of light emission around a black hole for the first time. So far, these measurements have been used to recover a 2D image under the assumption that the emission field is static over the period of acquisition. In this work, we propose BH-NeRF, a novel tomography approach that leverages gravitational lensing to recover the continuous 3D emission field near a black hole. Compared to other 3D reconstruction or tomography settings, this task poses two significant challenges: first, rays near black holes follow curved paths dictated by general relativity, and second, we only observe measurements from a single viewpoint. Our method captures the unknown emission field using a continuous volumetric function parameterized by a coordinate-based neural network, and uses knowledge of Keplerian orbital dynamics to establish correspondence between 3D points over time. Together, these enable BH-NeRF to recover accurate 3D emission fields, even in challenging situations with sparse measurements and uncertain orbital dynamics. This work takes the first steps in showing how future measurements from the Event Horizon Telescope could be used to recover evolving 3D emission around the supermassive black hole in our Galactic center.
翻訳日:2022-04-11 21:43:43 公開日:2022-04-07
# (参考訳) 不均衡データストリームからの学習に関する調査--分類学、課題、実証的研究、再現可能な実験枠組み

A survey on learning from imbalanced data streams: taxonomy, challenges, empirical study, and reproducible experimental framework ( http://arxiv.org/abs/2204.03719v1 )

ライセンス: CC BY 4.0
Gabriel Aguiar, Bartosz Krawczyk, Alberto Cano(参考訳) クラスの不均衡は、データストリームの分類に関して新たな課題をもたらす。 論文で最近提案された多くのアルゴリズムは、様々なデータレベル、アルゴリズムレベル、アンサンブルアプローチを用いてこの問題に取り組んでいる。 しかし、これらのアルゴリズムの評価方法に関して、標準化および合意された手順が欠如している。 本稿では,不均衡なデータストリームに対するアルゴリズムの分類法を示し,多様で難解なデータストリームシナリオの集合においてアルゴリズムを評価するための,標準化された,徹底的で情報に富んだ実験ベッドを提案する。 実験では,静的および動的クラス不均衡比,インスタンスレベルの困難,概念の漂流,実世界および多クラスシナリオにおける半合成データセットを組み合わせた515データストリーム上で,24の最先端データストリームアルゴリズムを評価する。 これは、これまでデータストリームマイニング領域で実施された最大の実験研究につながっている。 各シナリオにおける最先端の分類器の長所と短所について検討し,不均衡データストリームに対して最適なアルゴリズムを選択することをエンドユーザに推奨する。 さらに、このドメインに対するオープンな挑戦と今後の方向性を定式化します。 実験用テストベッドは再現性が高く,新しい手法で容易に拡張できる。 このようにして、他の研究者が新たに提案した手法の信頼性と公正な評価に使用できる不均衡なデータストリームの実験を行うための、最初の標準化されたアプローチを提案する。 実験フレームワークはhttps://github.com/c anoalberto/imbalance d-streamsからダウンロードできます。

Class imbalance poses new challenges when it comes to classifying data streams. Many algorithms recently proposed in the literature tackle this problem using a variety of data-level, algorithm-level, and ensemble approaches. However, there is a lack of standardized and agreed-upon procedures on how to evaluate these algorithms. This work presents a taxonomy of algorithms for imbalanced data streams and proposes a standardized, exhaustive, and informative experimental testbed to evaluate algorithms in a collection of diverse and challenging imbalanced data stream scenarios. The experimental study evaluates 24 state-of-the-art data streams algorithms on 515 imbalanced data streams that combine static and dynamic class imbalance ratios, instance-level difficulties, concept drift, real-world and semi-synthetic datasets in binary and multi-class scenarios. This leads to the largest experimental study conducted so far in the data stream mining domain. We discuss the advantages and disadvantages of state-of-the-art classifiers in each of these scenarios and we provide general recommendations to end-users for selecting the best algorithms for imbalanced data streams. Additionally, we formulate open challenges and future directions for this domain. Our experimental testbed is fully reproducible and easy to extend with new methods. This way we propose the first standardized approach to conducting experiments in imbalanced data streams that can be used by other researchers to create trustworthy and fair evaluation of newly proposed methods. Our experimental framework can be downloaded from https://github.com/c anoalberto/imbalance d-streams.
翻訳日:2022-04-11 21:42:51 公開日:2022-04-07
# (参考訳) rss指紋を用いた非線形位置推定のためのカーネル法 [全文訳有]

A Kernel Method to Nonlinear Location Estimation with RSS-based Fingerprint ( http://arxiv.org/abs/2204.03724v1 )

ライセンス: CC BY 4.0
Pai Chet Ng, Petros Spachos, James She, and Konstantinos N. Plataniotis(参考訳) 本稿では,スマートフォンを持っているユーザの位置を推定するための非線形位置推定法を提案する。 各グリッドポイントには、受信信号強度(rss)値が、bluetooth low energy(ble)ビーコン数n$から測定されるユニークな指紋がラベル付けされている。 スマートフォンで観察された指紋から、データベースに登録された指紋リストからトップk類似の指紋を見つけることで、ユーザの現在位置を推定することができる。 環境要因の他に、スマートフォンの保持のダイナミック性も指紋測定のばらつきの原因となっているが、オンライン検出中に人間の手が持つ動的なスマートフォンの位置による指紋変動に関する研究は少ない。 そこで本研究では,カーネル法による非線形位置推定を提案する。 具体的には,提案手法は以下の2つのステップからなる。 1)保持位置の微妙な変化に敏感なビーコンのサブセットを選択するビーコン選択戦略及び 2) この観測信号のサブセットとデータベースに登録されたすべての指紋との類似性を計算するためのカーネル手法。 複雑な建物で収集した大規模データを基にした実験結果から,提案手法の性能向上は最先端手法と比較して有意に向上した。 ビーコンから収集された信号情報からなるデータセットはオンラインで入手できる。

This paper presents a nonlinear location estimation to infer the position of a user holding a smartphone. We consider a large location with $M$ number of grid points, each grid point is labeled with a unique fingerprint consisting of the received signal strength (RSS) values measured from $N$ number of Bluetooth Low Energy (BLE) beacons. Given the fingerprint observed by the smartphone, the user's current location can be estimated by finding the top-k similar fingerprints from the list of fingerprints registered in the database. Besides the environmental factors, the dynamicity in holding the smartphone is another source to the variation in fingerprint measurements, yet there are not many studies addressing the fingerprint variability due to dynamic smartphone positions held by human hands during online detection. To this end, we propose a nonlinear location estimation using the kernel method. Specifically, our proposed method comprises of two steps: 1) a beacon selection strategy to select a subset of beacons that is insensitive to the subtle change of holding positions, and 2) a kernel method to compute the similarity between this subset of observed signals and all the fingerprints registered in the database. The experimental results based on large-scale data collected in a complex building indicate a substantial performance gain of our proposed approach in comparison to state-of-the-art methods. The dataset consisting of the signal information collected from the beacons is available online.
翻訳日:2022-04-11 21:41:11 公開日:2022-04-07
# (参考訳) banknote-net: ユニバーサル通貨認識を支援するオープンデータセット [全文訳有]

BankNote-Net: Open dataset for assistive universal currency recognition ( http://arxiv.org/abs/2204.03738v1 )

ライセンス: CC BY 4.0
Felipe Oviedo, Srinivas Vinnakota, Eugene Seleznev, Hemant Malhotra, Saqib Shaikh, Juan Lavista Ferres(参考訳) 世界中の何百万人もの人々が視界を低くも全く持っていない。 光学的文字認識,シーン識別,個人認識,通貨認識など,日々のタスクに対する補助ソフトウェアアプリケーションの開発が進められている。 この最後の課題は、異なる分類による紙幣の認識であり、画像認識にコンピュータビジョンモデルを使用することによって解決されている。 しかし、このタスクで利用可能なデータセットとモデルは、データセットのサイズとさまざまな通貨の両方で制限されている。 本研究は,17通貨と112通貨にまたがる様々な支援的設定において,合計24,826枚の紙幣画像を集めたものである。 教師付きコントラスト学習を用いて,汎用通貨認識のための機械学習モデルを開発した。 このモデルは、(圧縮ベクトル表現として)公開することが可能な、さまざまなコンテキストにおける銀行券イメージの準拠した埋め込みを学習し、我々のデータセットでカバーされていないものを含む、任意の通貨の特別なダウンストリームモデルのトレーニングとテストに使用できる(few-shot learning)。 我々は、microsoftが開発したseeting aiアプリの最終バージョンで、このモデルのバリエーションを一般公開するためにデプロイします。 エンコーダモデルと埋め込みを,BankNote-Netリポジトリのオープンデータセットとして公開しています。

Millions of people around the world have low or no vision. Assistive software applications have been developed for a variety of day-to-day tasks, including optical character recognition, scene identification, person recognition, and currency recognition. This last task, the recognition of banknotes from different denominations, has been addressed by the use of computer vision models for image recognition. However, the datasets and models available for this task are limited, both in terms of dataset size and in variety of currencies covered. In this work, we collect a total of 24,826 images of banknotes in variety of assistive settings, spanning 17 currencies and 112 denominations. Using supervised contrastive learning, we develop a machine learning model for universal currency recognition. This model learns compliant embeddings of banknote images in a variety of contexts, which can be shared publicly (as a compressed vector representation), and can be used to train and test specialized downstream models for any currency, including those not covered by our dataset or for which only a few real images per denomination are available (few-shot learning). We deploy a variation of this model for public use in the last version of the Seeing AI app developed by Microsoft. We share our encoder model and the embeddings as an open dataset in our BankNote-Net repository.
翻訳日:2022-04-11 20:48:01 公開日:2022-04-07
# (参考訳) 特徴注入型自己操作型ニューラルネットワークによるグローバルECG分類 [全文訳有]

Global ECG Classification by Self-Operational Neural Networks with Feature Injection ( http://arxiv.org/abs/2204.03768v1 )

ライセンス: CC BY 4.0
Muhammad Uzair Zahid, Serkan Kiranyaz and Moncef Gabbouj(参考訳) 目的:心電図(ECG)信号による不整脈検出のためのグローバル(患者間)心電図分類は、人間と機械の両方にとって難しい課題である。 主な原因は、正常および不整脈の心電図パターンの有意な変動である。 そのため、ウェアラブルECGセンサの出現により、このプロセスを最大限の精度で自動化することが非常に望ましい。 しかし、近年多くのディープラーニングアプローチが提案されているにもかかわらず、グローバルおよび患者固有のECG分類性能にはまだ顕著なギャップがある。 本研究では,このギャップを狭める新しい手法を提案し,浅くコンパクトな1次元自己組織化オペレーショナルニューラルネットワーク(Self-ONN)を用いたリアルタイム解法を提案する。 方法: 本研究は, 心臓周期における形態情報とタイミング情報を利用して, コンパクトな1D Self-ONNを用いた患者間心電図分類手法を提案する。 我々は1D Self-ONN層を用いてECGデータから形態表現を自動的に学習し、Rピーク付近のECG波形の形状を捉えることができた。 さらに,rr間隔に基づく時間特徴をタイミング特徴量に注入する。 したがって、分類層は最終不整脈分類のための時間的特徴と学習的特徴の両方から恩恵を受けることができる。 結果:mit-bih arrhythmiaベンチマークデータベースを用いて,正常(n)セグメントでは99.21%の精度,99.10%のリコール,99.15%のf1-score,82.19%の精度,82.50%のリコール,82.34%のf1-score,最後に94.41%の精度,96.10%のリコール,95.2%のf1-scoreが達成された。

Objective: Global (inter-patient) ECG classification for arrhythmia detection over Electrocardiogram (ECG) signal is a challenging task for both humans and machines. The main reason is the significant variations of both normal and arrhythmic ECG patterns among patients. Automating this process with utmost accuracy is, therefore, highly desirable due to the advent of wearable ECG sensors. However, even with numerous deep learning approaches proposed recently, there is still a notable gap in the performance of global and patient-specific ECG classification performances. This study proposes a novel approach to narrow this gap and propose a real-time solution with shallow and compact 1D Self-Organized Operational Neural Networks (Self-ONNs). Methods: In this study, we propose a novel approach for inter-patient ECG classification using a compact 1D Self-ONN by exploiting morphological and timing information in heart cycles. We used 1D Self-ONN layers to automatically learn morphological representations from ECG data, enabling us to capture the shape of the ECG waveform around the R peaks. We further inject temporal features based on RR interval for timing characterization. The classification layers can thus benefit from both temporal and learned features for the final arrhythmia classification. Results: Using the MIT-BIH arrhythmia benchmark database, the proposed method achieves the highest classification performance ever achieved, i.e., 99.21% precision, 99.10% recall, and 99.15% F1-score for normal (N) segments; 82.19% precision, 82.50% recall, and 82.34% F1-score for the supra-ventricular ectopic beat (SVEBs); and finally, 94.41% precision, 96.10% recall, and 95.2% F1-score for the ventricular-ectopic beats (VEBs).
翻訳日:2022-04-11 20:33:32 公開日:2022-04-07
# (参考訳) TorMentor: 決定論的動的パス、フラクタルによるデータ拡張 [全文訳有]

TorMentor: Deterministic dynamic-path, data augmentations with fractals ( http://arxiv.org/abs/2204.03776v1 )

ライセンス: CC BY 4.0
Anguelos Nicolaou, Vincent Christlein, Edgar Riba, Jian Shi, Georg Vogeler, Mathias Seuret(参考訳) 効率的なデータ拡張手段としてのフラクタルの利用を提案する。 具体的には,プラズマフラクタルを用いてグローバル画像拡張変換を連続的局所変換に適応させる。 簡単な畳み込み演算のカスケードとしてダイアモンド四角アルゴリズムを定式化し、GPU上のプラズマフラクタルの効率的な計算を可能にする。 本稿では,画像とポイントクラウドにまたがる完全モジュール性と決定性を備えた tormentor 画像拡張フレームワークを提案する。 すべての画像拡張操作は、パイプライニングとランダム分岐により、任意の幅と深さのフローネットワークを形成することができる。 本稿では,DIBCOデータセットを用いた文書画像分割(バイナリ化)実験により提案手法の有効性を示す。 提案手法は従来の画像強調技術よりも優れた性能を示す。 最後に,拡張合成バイナリ画像を用いた自己スーパービジョン連隊において,限られたデータと単純な拡張でトレーニングした場合に,同じモデルを上回らせる。

We propose the use of fractals as a means of efficient data augmentation. Specifically, we employ plasma fractals for adapting global image augmentation transformations into continuous local transforms. We formulate the diamond square algorithm as a cascade of simple convolution operations allowing efficient computation of plasma fractals on the GPU. We present the TorMentor image augmentation framework that is totally modular and deterministic across images and point-clouds. All image augmentation operations can be combined through pipelining and random branching to form flow networks of arbitrary width and depth. We demonstrate the efficiency of the proposed approach with experiments on document image segmentation (binarization) with the DIBCO datasets. The proposed approach demonstrates superior performance to traditional image augmentation techniques. Finally, we use extended synthetic binary text images in a self-supervision regiment and outperform the same model when trained with limited data and simple extensions.
翻訳日:2022-04-11 20:13:37 公開日:2022-04-07
# GreaseVision: インターフェースのルールを書き換える

GreaseVision: Rewriting the Rules of the Interface ( http://arxiv.org/abs/2204.03731v1 )

ライセンス: Link先を確認
Siddhartha Datta, Konrad Kollnig, Nigel Shadbolt(参考訳) デジタル害はどんなインターフェースでも現れる。 これらの害に対処する上での鍵となる問題は、被害の個性の高さとデジタルシステムの変化の早い性質である。 結果として、エンドユーザーに対する害の研究や介入の体系的なアプローチはいまだに欠如している。 GreaseVisionは、エンドユーザーがノーコードアプローチと最近の数ショット機械学習の進歩を使って、ソフトウェアの害に対する介入を共同で開発できる新しいフレームワークである。 このフレームワークとツールの貢献により、個々のエンドユーザは自身の使用履歴を調査し、パーソナライズされた介入を作成できる。 我々の貢献により、研究者は大規模に害や介入の分布を研究できる。

Digital harms can manifest across any interface. Key problems in addressing these harms include the high individuality of harms and the fast-changing nature of digital systems. As a result, we still lack a systematic approach to study harms and produce interventions for end-users. We put forward GreaseVision, a new framework that enables end-users to collaboratively develop interventions against harms in software using a no-code approach and recent advances in few-shot machine learning. The contribution of the framework and tool allow individual end-users to study their usage history and create personalized interventions. Our contribution also enables researchers to study the distribution of harms and interventions at scale.
翻訳日:2022-04-11 14:08:41 公開日:2022-04-07
# ニューラルプログラム合成における合成一般化と分解

Compositional Generalization and Decomposition in Neural Program Synthesis ( http://arxiv.org/abs/2204.03758v1 )

ライセンス: Link先を確認
Kensen Shi, Joey Hong, Manzil Zaheer, Pengcheng Yin, Charles Sutton(参考訳) プログラムを書くとき、人々はより小さくより使い慣れたサブタスクに分解することで、新しい複雑なタスクに取り組むことができる。 ニューラルプログラム合成手法が類似する能力を持つかどうかを計測することは難しいが、より単純なサブタスクで訓練されたモデルが後により複雑なタスクを解決できるかどうかを合成的に一般化するかどうかを測定できる。 本稿では,学習したプログラムシンセサイザーの合成一般化能力を測定することに焦点を当てる。 まず,プログラム合成法が一般化することを希望するいくつかの異なる軸,例えば長さ汎化や,訓練データで発生しない新しい方法で既知のサブルーチンを結合する能力について特徴付ける。 この特徴に基づいて,SCAN と RobustFill という2つの一般的なデータセットに基づいて,これらの能力を評価するためのベンチマークスイートを導入する。 最後に,人間のような分解戦略からインスピレーションを得る新しい注意機構により,トランスフォーマーモデルの構成一般化能力をこれらの軸に沿って向上させる試みを行う。 経験上、私たちの改造トランスフォーマーモデルは、一般的に自然なベースラインよりもパフォーマンスが良いことが分かりました。

When writing programs, people have the ability to tackle a new complex task by decomposing it into smaller and more familiar subtasks. While it is difficult to measure whether neural program synthesis methods have similar capabilities, what we can measure is whether they compositionally generalize, that is, whether a model that has been trained on the simpler subtasks is subsequently able to solve more complex tasks. In this paper, we focus on measuring the ability of learned program synthesizers to compositionally generalize. We first characterize several different axes along which program synthesis methods would be desired to generalize, e.g., length generalization, or the ability to combine known subroutines in new ways that do not occur in the training data. Based on this characterization, we introduce a benchmark suite of tasks to assess these abilities based on two popular existing datasets, SCAN and RobustFill. Finally, we make first attempts to improve the compositional generalization ability of Transformer models along these axes through novel attention mechanisms that draw inspiration from a human-like decomposition strategy. Empirically, we find our modified Transformer models generally perform better than natural baselines, but the tasks remain challenging.
翻訳日:2022-04-11 14:08:28 公開日:2022-04-07
# 量子ソートアルゴリズムに基づくk-NN分類器の量子バージョン

Quantum version of the k-NN classifier based on a quantum sorting algorithm ( http://arxiv.org/abs/2204.03761v1 )

ライセンス: Link先を確認
L.F. Quezada, Guo-Hua Sun, Shi-Hai Dong(参考訳) 本研究では、メモリと回路深度を適応的に要求する量子ソートアルゴリズムを導入し、k-nearest neighbors (k-NN)として知られる古典的機械学習アルゴリズムの新しい量子バージョンを開発する。 この新しいk-NNアルゴリズムの効率性と性能は、Schuldらによって提案された古典的なk-NNと他の量子バージョンと比較される。 略称は「13」。 その結果、両量子アルゴリズムの効率は互いに似ており、古典的アルゴリズムよりも優れていることがわかった。 一方、提案した量子k-NNアルゴリズムの性能は、Schuldらによって提案されたものよりも優れており、古典的なk-NNと類似している。

In this work we introduce a quantum sorting algorithm with adaptable requirements of memory and circuit depth, and then use it to develop a new quantum version of the classical machine learning algorithm known as k-nearest neighbors (k-NN). Both the efficiency and performance of this new quantum version of the k-NN algorithm are compared to those of the classical k-NN and another quantum version proposed by Schuld et al. \cite{Int13}. Results show that the efficiency of both quantum algorithms is similar to each other and superior to that of the classical algorithm. On the other hand, the performance of our proposed quantum k-NN algorithm is superior to the one proposed by Schuld et al. and similar to that of the classical k-NN.
翻訳日:2022-04-11 14:08:07 公開日:2022-04-07
# Qade: 量子アニールの微分方程式の解法

Qade: Solving Differential Equations on Quantum Annealers ( http://arxiv.org/abs/2204.03657v1 )

ライセンス: Link先を確認
Juan Carlos Criado, Michael Spannowsky(参考訳) 量子アニールを用いた微分方程式の解法として, Qade という一般手法を提案する。 この解は基底関数の集合の線形結合として得られる。 現在の装置では、qade は解とその微分に線形に依存する結合偏微分方程式の系を非線形変数係数と任意の不斉項で解くことができる。 提案手法をいくつかの例で検証し, 十分な関数基底を必要とする問題に対して, 最先端の量子異方体が解を正確に見つけることができることを示した。 gitlab.com/jccriado/ qadeでメソッドを実装するPythonパッケージを提供する。

We present a general method, called Qade, for solving differential equations using a quantum annealer. The solution is obtained as a linear combination of a set of basis functions. On current devices, Qade can solve systems of coupled partial differential equations that depend linearly on the solution and its derivatives, with non-linear variable coefficients and arbitrary inhomogeneous terms. We test the method with several examples and find that state-of-the-art quantum annealers can find the solution accurately for problems requiring a small enough function basis. We provide a Python package implementing the method at gitlab.com/jccriado/ qade.
翻訳日:2022-04-11 14:05:19 公開日:2022-04-07
# 不均質な通信閾値を持つ分散イベントトリガー型フェデレーション学習

Decentralized Event-Triggered Federated Learning with Heterogeneous Communication Thresholds ( http://arxiv.org/abs/2204.03726v1 )

ライセンス: Link先を確認
Shahryar Zehtabi, Seyyedali Hosseinalipour, Christopher G. Brinton(参考訳) 近年の分散学習研究は,データ収集装置によるモデルトレーニングを行うフェデレートラーニング(FL)に重点を置いている。 flに関するこれまでの研究は主に、同期(タイムトリガー)モデルトレーニングラウンドによるスタートポロジ学習アーキテクチャに重点を置いており、デバイスのローカルモデルは、集中的なコーディネートノードによって定期的に集約されている。 しかし、多くの設定において、そのような座標ノードは存在せず、FLを完全に分散化する努力を動機付けている。 本稿では,ネットワークグラフトポロジ上での非同期なイベントトリガー型コンセンサス反復による分散モデルアグリゲーションの新しい手法を提案する。 各デバイスにおける異種通信イベントのしきい値について検討し、各イテレーションにおけるアグリゲーションの利点を決定する際に、利用可能なローカルリソースに対するローカルモデルパラメータの変化を重み付けする。 理論的解析により,分散学習およびグラフコンセンサス文学における標準的な仮定の下で,基礎となるトポロジ上の制限的な接続要件を伴わずに,グローバルな最適学習モデルに漸近的に収束することを示す。 その後の数値計算の結果,FLベースラインと比較して,通信要求の大幅な改善が得られた。

A recent emphasis of distributed learning research has been on federated learning (FL), in which model training is conducted by the data-collecting devices. Existing research on FL has mostly focused on a star topology learning architecture with synchronized (time-triggered) model training rounds, where the local models of the devices are periodically aggregated by a centralized coordinating node. However, in many settings, such a coordinating node may not exist, motivating efforts to fully decentralize FL. In this work, we propose a novel methodology for distributed model aggregations via asynchronous, event-triggered consensus iterations over the network graph topology. We consider heterogeneous communication event thresholds at each device that weigh the change in local model parameters against the available local resources in deciding the benefit of aggregations at each iteration. Through theoretical analysis, we demonstrate that our methodology achieves asymptotic convergence to the globally optimal learning model under standard assumptions in distributed learning and graph consensus literature, and without restrictive connectivity requirements on the underlying topology. Subsequent numerical results demonstrate that our methodology obtains substantial improvements in communication requirements compared with FL baselines.
翻訳日:2022-04-11 13:41:18 公開日:2022-04-07
# 多目的最適化は、いつ、いつ、どのように深層ネットワークを融合するかを決定する:COVID-19の結果を予測するアプリケーション

Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes ( http://arxiv.org/abs/2204.03772v1 )

ライセンス: Link先を確認
Valerio Guarrasi and Paolo Soda(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは何百万もの患者や死を引き起こしており、医療画像に新型コロナウイルスの兆候が検出された後、AI関連の科学コミュニティは、病気の進行を予測できる方法の開発に向けた取り組みを指示している。 この課題は、その性質上マルチモーダルであり、近年のAIforCOVIDデータセットのベースライン結果は、胸部X線スキャンと臨床情報は、重篤な結果のリスクのある患者を特定するのに有用であることを示している。 深層学習はいくつかの医学分野において優れた成績を示したが、ほとんどの場合、単調なデータのみを考慮する。 この点において、どのようにして異なるモダリティを融合させるかは、マルチモーダルディープラーニングにおけるオープンチャレンジである。 これら3つの問題に対処するために、マルチモーダルなエンドツーエンドモデルのセットアップを最適化する新しいアプローチを提案する。 paretoのマルチ目的最適化を利用して、パフォーマンスメトリックと複数の候補ユニモーダルニューラルネットワークの多様性スコアを融合させる。 我々はAIforCOVIDデータセット上でテストを行い、最先端の結果が得られ、ベースラインのパフォーマンスを上回るだけでなく、外部の検証にも堅牢である。 さらに,xaiアルゴリズムの活用により,モダリティ間の階層構造が把握され,モダリティ内の重要性が抽出され,モデルによる予測に対する信頼度が高まる。

The COVID-19 pandemic has caused millions of cases and deaths and the AI-related scientific community, after being involved with detecting COVID-19 signs in medical images, has been now directing the efforts towards the development of methods that can predict the progression of the disease. This task is multimodal by its very nature and, recently, baseline results achieved on the publicly available AIforCOVID dataset have shown that chest X-ray scans and clinical information are useful to identify patients at risk of severe outcomes. While deep learning has shown superior performance in several medical fields, in most of the cases it considers unimodal data only. In this respect, when, which and how to fuse the different modalities is an open challenge in multimodal deep learning. To cope with these three questions here we present a novel approach optimizing the setup of a multimodal end-to-end model. It exploits Pareto multi-objective optimization working with a performance metric and the diversity score of multiple candidate unimodal neural networks to be fused. We test our method on the AIforCOVID dataset, attaining state-of-the-art results, not only outperforming the baseline performance but also being robust to external validation. Moreover, exploiting XAI algorithms we figure out a hierarchy among the modalities and we extract the features' intra-modality importance, enriching the trust on the predictions made by the model.
翻訳日:2022-04-11 13:36:21 公開日:2022-04-07
# Minecraftのための自動イソビスト計算

Automated Isovist Computation for Minecraft ( http://arxiv.org/abs/2204.03752v1 )

ライセンス: Link先を確認
Jean-Baptiste Herv\'e, Christoph Salge(参考訳) ゲームにおける手続き的コンテンツ生成は、良質なコンテンツがどう見えるか、どのように自動的に評価するかという合意が得られなくても、研究と産業の両方で増加傾向にある。 過去に多くのメトリクスが開発され、通常は人工物全体に焦点を当てており、主に人間の経験の基盤を欠いている。 本研究では,空間の人間的経験を捉えた追跡記録を持つ,イゾビストと空間構文というアーキテクチャのアイデアに動機付けられた,新たな自動メトリクスセットを開発した。 これらのメトリクスは、プレイヤーの観点から特定のゲーム状態に対して計算され、ゲームの世界における彼らの体格を考慮に入れられる。 これらのメトリクスをMinecraftの3Dブロックワールドに適用する方法を示します。 minecraft の gdmc settlement generation challenge から生成された決済のデータセットを用いて,イゾビスト特性と人間の評価基準とのランクベースの相関関係を確立した。 また,このアプローチの位置情報に基づく適用性を示すヒートマップも作成し,特定の時間と空間におけるゲーム体験の尺度としてそれらの指標の開発を可能にした。

Procedural content generation for games is a growing trend in both research and industry, even though there is no consensus of how good content looks, nor how to automatically evaluate it. A number of metrics have been developed in the past, usually focused on the artifact as a whole, and mostly lacking grounding in human experience. In this study we develop a new set of automated metrics, motivated by ideas from architecture, namely isovists and space syntax, which have a track record of capturing human experience of space. These metrics can be computed for a specific game state, from the player's perspective, and take into account their embodiment in the game world. We show how to apply those metrics to the 3d blockworld of Minecraft. We use a dataset of generated settlements from the GDMC Settlement Generation Challenge in Minecraft and establish several rank-based correlations between the isovist properties and the rating human judges gave those settelements. We also produce a range of heat maps that demonstrate the location based applicability of the approach, which allows for development of those metrics as measures for a game experience at a specific time and space.
翻訳日:2022-04-11 13:13:53 公開日:2022-04-07
# マイナショット学習における微調整:整流クラスプロトタイプを用いたドメインに依存しない機能適応

Powering Finetuning in Few-shot Learning: Domain-Agnostic Feature Adaptation with Rectified Class Prototypes ( http://arxiv.org/abs/2204.03749v1 )

ライセンス: Link先を確認
Ran Tao, Han Zhang, Yutong Zheng, Marios Savvides(参考訳) 最近の研究では、メタトレーニングセットでトレーニングされた深層ネットワークを活用することが、少数の学習において強力なベースラインとなっている。 本稿では,訓練された深層ネットワークを微調整することで,新古典的特徴を洗練する。 ファインタニングは、クラス非依存とクラス固有のバイアスの2つの側面として定義する、新しいクラスの特徴分布におけるバイアスを減らすことに重点を置いている。 クラス非依存バイアスは,領域差による分布シフトとして定義され,分散校正モジュール(DCM)を提案する。 dcmは最適化中にドメインの違いをなくし、機能適応が速いという利点がある。 クラス固有のバイアスは、新しいクラスにおけるいくつかのサンプルを用いてバイアス推定として定義され、Selected Smpling(SS)を提案する。 ssは、実際のクラス分布を推測せずに、サポートセットのサンプルに関する提案ディストリビューションを使ってサンプリングを実行する。 DCMとSSによる微調整によって、Meta-Datasetの最先端の結果が得られ、さまざまなドメインから10のデータセットに対して一貫したパフォーマンスが向上します。 我々は,本手法が実用的少数ショットアプリケーションに適用可能であることを実証する。

In recent works, utilizing a deep network trained on meta-training set serves as a strong baseline in few-shot learning. In this paper, we move forward to refine novel-class features by finetuning a trained deep network. Finetuning is designed to focus on reducing biases in novel-class feature distributions, which we define as two aspects: class-agnostic and class-specific biases. Class-agnostic bias is defined as the distribution shifting introduced by domain difference, which we propose Distribution Calibration Module(DCM) to reduce. DCM owes good property of eliminating domain difference and fast feature adaptation during optimization. Class-specific bias is defined as the biased estimation using a few samples in novel classes, which we propose Selected Sampling(SS) to reduce. Without inferring the actual class distribution, SS is designed by running sampling using proposal distributions around support-set samples. By powering finetuning with DCM and SS, we achieve state-of-the-art results on Meta-Dataset with consistent performance boosts over ten datasets from different domains. We believe our simple yet effective method demonstrates its possibility to be applied on practical few-shot applications.
翻訳日:2022-04-11 13:12:53 公開日:2022-04-07
# 正確性を超えたAIシステムの測定

Measuring AI Systems Beyond Accuracy ( http://arxiv.org/abs/2204.04211v1 )

ライセンス: Link先を確認
Violet Turri, Rachel Dzombak, Eric Heim, Nathan VanHoudnos, Jay Palat, Anusha Sinha(参考訳) 機械学習(ML)システムのパフォーマンスを評価するための現在のテストと評価(T&E)手法は、しばしば不完全なメトリクスに依存している。 テストはMLシステムのライフサイクルの他のフェーズからサイロ化されることが多い。 ML T&Eに対するクロスドメインアプローチの調査は、最先端の最先端と人工知能(AI)エンジニアリングの規律を構築するために必要である。 本稿では、総合的なT&E戦略を導くための6つの重要な疑問を概説することにより、堅牢で統合されたテストアプローチを提唱する。

Current test and evaluation (T&E) methods for assessing machine learning (ML) system performance often rely on incomplete metrics. Testing is additionally often siloed from the other phases of the ML system lifecycle. Research investigating cross-domain approaches to ML T&E is needed to drive the state of the art forward and to build an Artificial Intelligence (AI) engineering discipline. This paper advocates for a robust, integrated approach to testing by outlining six key questions for guiding a holistic T&E strategy.
翻訳日:2022-04-11 12:45:54 公開日:2022-04-07
# 新しい特徴選択法と変分オートエンコーダを用いた自閉症スペクトラム障害の同定

Identification of Autism spectrum disorder based on a novel feature selection method and Variational Autoencoder ( http://arxiv.org/abs/2204.03654v1 )

ライセンス: Link先を確認
Fangyu Zhang, Yanjie Wei, Jin Liu, Yanlin Wang, Wenhui Xi, Yi Pan(参考訳) 安静時機能的磁気共鳴画像(rs-fMRI)のような非侵襲的な脳イメージングの開発とそのAIアルゴリズムの組み合わせは、自閉症スペクトラム障害(ASD)の早期診断に有望な解決策を提供する。 しかし、rs-fMRIに基づく現在のASD分類の性能は改善される必要がある。 本稿では rs-fMRI に基づく ASD 診断を支援するための分類フレームワークを提案する。 提案手法では, ステップ分布曲線 (dsdc) の差に着目して顕著な機能的結合性 (fcs) を選択する新しいフィルタ特徴選択法を提案し, 簡易変分オートエンコーダ (vae) により事前学習された多層パーセプトロン (mlp) を用いて分類を行った。 また、正規化手順と修正双曲タンジェント(tanh)アクティベーション関数からなるパイプラインを設計し、元のタン関数を置き換えることにより、モデル精度をさらに向上した。 我々のモデルは10倍のクロスバリデーションで評価され、平均精度は78.12%に達し、同じデータセットで報告された最先端の手法を上回った。 疾患診断における感度と特異性の重要性を考慮し,モデルの感度と特異度を最大9.32%,10.21%向上させる2つの制約を設計した。 追加の制約により、モデルは異なるアプリケーションシナリオを処理でき、広く使用できます。

The development of noninvasive brain imaging such as resting-state functional magnetic resonance imaging (rs-fMRI) and its combination with AI algorithm provides a promising solution for the early diagnosis of Autism spectrum disorder (ASD). However, the performance of the current ASD classification based on rs-fMRI still needs to be improved. This paper introduces a classification framework to aid ASD diagnosis based on rs-fMRI. In the framework, we proposed a novel filter feature selection method based on the difference between step distribution curves (DSDC) to select remarkable functional connectivities (FCs) and utilized a multilayer perceptron (MLP) which was pretrained by a simplified Variational Autoencoder (VAE) for classification. We also designed a pipeline consisting of a normalization procedure and a modified hyperbolic tangent (tanh) activation function to replace the original tanh function, further improving the model accuracy. Our model was evaluated by 10 times 10-fold cross-validation and achieved an average accuracy of 78.12%, outperforming the state-of-the-art methods reported on the same dataset. Given the importance of sensitivity and specificity in disease diagnosis, two constraints were designed in our model which can improve the model's sensitivity and specificity by up to 9.32% and 10.21%, respectively. The added constraints allow our model to handle different application scenarios and can be used broadly.
翻訳日:2022-04-11 12:44:16 公開日:2022-04-07
# 脳プログラミングによる有能物体検出アルゴリズムの自動設計

Automated Design of Salient Object Detection Algorithms with Brain Programming ( http://arxiv.org/abs/2204.03722v1 )

ライセンス: Link先を確認
Gustavo Olague, Jose Armando Menendez-Clavijo, Matthieu Olague, Arturo Ocampo, Gerardo Ibarra-Vazquez, Rocio Ochoa and Roberto Pineda(参考訳) 最近のコンピュータビジョンの改善にもかかわらず、ビジュアルコンピューティングアルゴリズムの説明はいまだに解明されていないため、人工視覚システムの設計はいまだに厄介である。 有能な物体検出は、脳の内部動作を理解するのが困難であるため、未解決の問題である。 この研究領域の進歩は、神経科学知識を用いた手作りデザインの伝統的な道を辿る。 近年、遺伝的プログラミングに基づく2つの異なるアプローチが彼らの技術を強化しているようである。 1つは、遺伝的プログラミングとファジィ論理によって、従来の手作りの手法を組み合わせるというアイデアに従う。 もう1つのアプローチは、人工進化を通じて基本的な手作りモデルの計算構造を改善することである。 本研究では,最近の提案手法を用いて,物体検出問題を解くための人工背側ストリームの拡張を提案する。 このアプローチは、この研究領域の主な2つの側面である固定予測とサルエント物体の検出の利点を利用する。 我々は,ビジュアル・サリエンシーと画像分割アルゴリズムの融合をテンプレートとして適用することにした。 提案手法は, 人工進化によりテンプレート内のいくつかの重要な構造を発見する。 本稿では,最先端技術との比較において,専門家が設計したベンチマークの結果について述べる。

Despite recent improvements in computer vision, artificial visual systems' design is still daunting since an explanation of visual computing algorithms remains elusive. Salient object detection is one problem that is still open due to the difficulty of understanding the brain's inner workings. Progress on this research area follows the traditional path of hand-made designs using neuroscience knowledge. In recent years two different approaches based on genetic programming appear to enhance their technique. One follows the idea of combining previous hand-made methods through genetic programming and fuzzy logic. The other approach consists of improving the inner computational structures of basic hand-made models through artificial evolution. This research work proposes expanding the artificial dorsal stream using a recent proposal to solve salient object detection problems. This approach uses the benefits of the two main aspects of this research area: fixation prediction and detection of salient objects. We decided to apply the fusion of visual saliency and image segmentation algorithms as a template. The proposed methodology discovers several critical structures in the template through artificial evolution. We present results on a benchmark designed by experts with outstanding results in comparison with the state-of-the-art.
翻訳日:2022-04-11 12:43:50 公開日:2022-04-07
# ヒューマン・イン・ザ・ループ・イテレーティブ・テキスト・リビジョンのためのシステムデモ

Read, Revise, Repeat: A System Demonstration for Human-in-the-loop Iterative Text Revision ( http://arxiv.org/abs/2204.03685v1 )

ライセンス: Link先を確認
Wanyu Du, Zae Myung Kim, Vipul Raheja, Dhruv Kumar, Dongyeop Kang(参考訳) 改訂は人間の執筆プロセスにおいて不可欠な部分である。 戦略的で適応的で、さらに重要なのは、本質的に反復的であることです。 テキストリビジョンタスクにおける大きな言語モデルの成功にもかかわらず、それらは非イテレーティブでワンショットのリビジョンに限定されている。 大規模な言語モデルによる継続的リビジョンの実施とヒューマンライターとのコラボレーションの能力の検証と評価は、効果的な筆記アシスタント構築への重要なステップである。 本稿では,モデル生成リビジョンとユーザフィードバックの読み取り,文書の改訂,ヒューマンマシンインタラクションの繰り返しによって,人間の努力を最小にし,高品質なテキストリビジョンを実現することを目的とした,r3(human-in-the-loo ply text revision system)を提案する。 r3では、テキストリビジョンモデルは、提案された編集を受け入れたり拒否したりできる人間の作家にテキスト編集提案を提供する。 承認された編集は、ドキュメント修正の次のイテレーションのためにモデルに組み込まれる。 したがって、著者は、システムと対話して文書を反復的に修正し、テキストリビジョンモデルがさらなるリビジョンを行うのをやめるか、予め定義された最大リビジョン数に達するまで、提案された編集を受け付け、削除するだけでよい。 実証実験により、R3は人間のライターに匹敵する受け入れ率のリビジョンを早期のリビジョン深度で生成でき、人間と機械の相互作用は、より少ないイテレーションと編集で高品質なリビジョンが得られることが示された。 収集されたヒューマンモデルインタラクションデータセットとシステムコードは、 \url{https://github.com/v ipulraheja/iterater} で入手できる。 我々のシステムデモは \url{https://youtu.be/lk0 8tipeoae} で利用可能である。

Revision is an essential part of the human writing process. It tends to be strategic, adaptive, and, more importantly, iterative in nature. Despite the success of large language models on text revision tasks, they are limited to non-iterative, one-shot revisions. Examining and evaluating the capability of large language models for making continuous revisions and collaborating with human writers is a critical step towards building effective writing assistants. In this work, we present a human-in-the-loop iterative text revision system, Read, Revise, Repeat (R3), which aims at achieving high quality text revisions with minimal human efforts by reading model-generated revisions and user feedbacks, revising documents, and repeating human-machine interactions. In R3, a text revision model provides text editing suggestions for human writers, who can accept or reject the suggested edits. The accepted edits are then incorporated into the model for the next iteration of document revision. Writers can therefore revise documents iteratively by interacting with the system and simply accepting/rejecting its suggested edits until the text revision model stops making further revisions or reaches a predefined maximum number of revisions. Empirical experiments show that R3 can generate revisions with comparable acceptance rate to human writers at early revision depths, and the human-machine interaction can get higher quality revisions with fewer iterations and edits. The collected human-model interaction dataset and system code are available at \url{https://github.com/v ipulraheja/IteraTeR}. Our system demonstration is available at \url{https://youtu.be/lK0 8tIpEoaE}.
翻訳日:2022-04-11 12:43:24 公開日:2022-04-07
# t4pdm:回転機械の故障診断のためのトランスフォーマーアーキテクチャに基づくディープニューラルネットワーク

T4PdM: a Deep Neural Network based on the Transformer Architecture for Fault Diagnosis of Rotating Machinery ( http://arxiv.org/abs/2204.03725v1 )

ライセンス: Link先を確認
Erick Giovani Sperandio Nascimento, Julian Santana Liang, Ilan Sousa Figueiredo, Lilian Lefol Nani Guarieiro(参考訳) ディープラーニングとビッグデータアルゴリズムは、多くの複雑なシステムにおいて、いくつかのタスクを最適化するために産業アプリケーションで広く使われている。 特に、機械の健康診断と診断のためのディープラーニングモデルは、不要な介入、機械事故、環境災害を避けるために、予測保守(pdm)をより正確かつ信頼性の高い意思決定に活用している。 最近、Transformer Neural Networksは知名度が高くなり、自然言語処理(NLP)タスクに好まれるようになった。 そこで本研究では, トランスフォーマーアーキテクチャの修正版であるT4PdMに基づいて, 自動故障分類器モデルを構築し, 回転機械の複数種類の故障を識別する手法を提案する。 実験結果はMaFaulDaとCWRUデータベースに対して開発された。 t4pdmは、2つのデータセットでそれぞれ99.98%と98%の全体的な精度を達成できた。 さらに,提案したモデルの性能を,他の論文と比較した。 回転する産業機械の故障の検出・分類におけるモデルの有用性を実証した。 そこで,提案する変圧器モデルは,機械故障解析および診断プロセスの性能を向上し,企業を産業4.0の新しい時代へと活用することができる。 さらに、この手法は他の時系列分類のタスクにも適用することができる。

Deep learning and big data algorithms have become widely used in industrial applications to optimize several tasks in many complex systems. Particularly, deep learning model for diagnosing and prognosing machinery health has leveraged predictive maintenance (PdM) to be more accurate and reliable in decision making, in this way avoiding unnecessary interventions, machinery accidents, and environment catastrophes. Recently, Transformer Neural Networks have gained notoriety and have been increasingly the favorite choice for Natural Language Processing (NLP) tasks. Thus, given their recent major achievements in NLP, this paper proposes the development of an automatic fault classifier model for predictive maintenance based on a modified version of the Transformer architecture, namely T4PdM, to identify multiple types of faults in rotating machinery. Experimental results are developed and presented for the MaFaulDa and CWRU databases. T4PdM was able to achieve an overall accuracy of 99.98% and 98% for both datasets, respectively. In addition, the performance of the proposed model is compared to other previously published works. It has demonstrated the superiority of the model in detecting and classifying faults in rotating industrial machinery. Therefore, the proposed Transformer-based model can improve the performance of machinery fault analysis and diagnostic processes and leverage companies to a new era of the Industry 4.0. In addition, this methodology can be adapted to any other task of time series classification.
翻訳日:2022-04-11 12:17:45 公開日:2022-04-07
# オンラインランダム森林を用いたQ学習

Q-learning with online random forests ( http://arxiv.org/abs/2204.03771v1 )

ライセンス: Link先を確認
Joosung Min and Lloyd T. Elliott(参考訳) Q$-learningは最も基本的なモデルなし強化学習アルゴリズムである。 Q$-learningのデプロイには状態アクション値関数($Q$-functionとも呼ばれる)の近似が必要である。 本研究では,オンラインランダム林を$q$関数近似として提供し,ランダム林を(森林拡大を通じて)学習の過程として成長させる新しい手法を提案する。 我々は,2つのOpenAI体育館('blackjack'と'inverted pendulum')において,最先端のDeep $Q$-Networksに対する手法の性能向上を実証した。 ランダムフォレストが享受する過剰フィットに対するレジリエンスは,問題領域の強い表現を必要としない共通タスクに対して,この手法を推奨していると考えられる。 森林の拡大(データの増加に伴って木の数が増える)がパフォーマンスを向上させることを示し、強化学習環境を超えたオンラインランダム森林の他の応用に森林の拡大が有効であることを示す。

$Q$-learning is the most fundamental model-free reinforcement learning algorithm. Deployment of $Q$-learning requires approximation of the state-action value function (also known as the $Q$-function). In this work, we provide online random forests as $Q$-function approximators and propose a novel method wherein the random forest is grown as learning proceeds (through expanding forests). We demonstrate improved performance of our methods over state-of-the-art Deep $Q$-Networks in two OpenAI gyms (`blackjack' and `inverted pendulum') but not in the `lunar lander' gym. We suspect that the resilience to overfitting enjoyed by random forests recommends our method for common tasks that do not require a strong representation of the problem domain. We show that expanding forests (in which the number of trees increases as data comes in) improve performance, suggesting that expanding forests are viable for other applications of online random forests beyond the reinforcement learning setting.
翻訳日:2022-04-11 12:15:44 公開日:2022-04-07
# MHMS:マルチモーダル階層型マルチメディア要約

MHMS: Multimodal Hierarchical Multimedia Summarization ( http://arxiv.org/abs/2204.03734v1 )

ライセンス: Link先を確認
Jielin Qiu, Jiacheng Zhu, Mengdi Xu, Franck Dernoncourt, Trung Bui, Zhaowen Wang, Bo Li, Ding Zhao, Hailin Jin(参考訳) マルチモーダル出力によるマルチメディア要約は、ニュース記事のカバー画像やタイトルの自動生成やオンラインビデオの紹介など、現実世界のアプリケーションにおいて重要な役割を果たす。 本研究では、視覚領域と言語領域を相互作用させてビデオとテキストの要約を生成するマルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。 MHMS法はビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。 最適な移動距離を持つクロスドメインアライメントの目的を定式化し、クロスドメイン相互作用を利用して代表キーフレームとテキスト要約を生成する。 我々は,MHMSを最近の3つのマルチモーダルデータセットで評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。

Multimedia summarization with multimodal output can play an essential role in real-world applications, i.e., automatically generating cover images and titles for news articles or providing introductions to online videos. In this work, we propose a multimodal hierarchical multimedia summarization (MHMS) framework by interacting visual and language domains to generate both video and textual summaries. Our MHMS method contains video and textual segmentation and summarization module, respectively. It formulates a cross-domain alignment objective with optimal transport distance which leverages cross-domain interaction to generate the representative keyframe and textual summary. We evaluated MHMS on three recent multimodal datasets and demonstrated the effectiveness of our method in producing high-quality multimodal summaries.
翻訳日:2022-04-11 12:15:27 公開日:2022-04-07
# 仮設UV: 仮設UVコーディネートによるルース衣料の捕獲

TemporalUV: Capturing Loose Clothing with Temporally Coherent UV Coordinates ( http://arxiv.org/abs/2204.03671v1 )

ライセンス: Link先を確認
You Xie, Huiqi Mao, Angela Yao and Nils Thuerey(参考訳) ゆるい衣服の時間的コヒーレントなuv座標を生成する新しい手法を提案する。 我々の手法は人体の輪郭に拘束されず、ゆるい衣服や髪を捕獲することができる。 我々は、UV座標を用いてRGB入力のシーケンスとテクスチャ間のUVマッピングを学習するために、微分可能なパイプラインを実装した。 各フレームのUV座標を別々に扱う代わりに、我々のデータ生成アプローチは、時間的安定性のために特徴マッチングによってすべてのUV座標を接続する。 その後、空間的品質と時間的安定性のバランスをとるために生成モデルを訓練する。 紫外線と画像空間の両方の教師なしの損失によって駆動される。 実験では,訓練したモデルが高品質なuv座標を出力し,新しいポーズに一般化することを示した。 モデルによりUV座標の列が推定されると、新しい外観と修正された視覚スタイルを柔軟に合成することができる。 既存の手法と比較して,提案手法は計算負荷を減らし,新しい装束を桁違いにアニメーション化する。

We propose a novel approach to generate temporally coherent UV coordinates for loose clothing. Our method is not constrained by human body outlines and can capture loose garments and hair. We implemented a differentiable pipeline to learn UV mapping between a sequence of RGB inputs and textures via UV coordinates. Instead of treating the UV coordinates of each frame separately, our data generation approach connects all UV coordinates via feature matching for temporal stability. Subsequently, a generative model is trained to balance the spatial quality and temporal stability. It is driven by supervised and unsupervised losses in both UV and image spaces. Our experiments show that the trained models output high-quality UV coordinates and generalize to new poses. Once a sequence of UV coordinates has been inferred by our model, it can be used to flexibly synthesize new looks and modified visual styles. Compared to existing methods, our approach reduces the computational workload to animate new outfits by several orders of magnitude.
翻訳日:2022-04-11 12:15:16 公開日:2022-04-07
# Adaptive-Gravity: 敵のサンプルに対する防御

Adaptive-Gravity: A Defense Against Adversarial Samples ( http://arxiv.org/abs/2204.03694v1 )

ライセンス: Link先を確認
Ali Mirzaeian, Zhi Tian, Sai Manoj P D, Banafsheh S. Latibari, Ioannis Savidis, Houman Homayoun, Avesta Sasan(参考訳) 本稿では、ニューラルネットワークの深い分類器の強靭性を高めるために、Adaptive-Gravityと呼ばれる新しいモデルトレーニングソリューションを提案する。 各クラスに関連付けられたモデルパラメータと特徴を、その中心位置と中心付近の特徴のスプレッド(距離の標準偏差)を特徴とする質量として概念化する。 ネットワークトレーニングにおいて,各クラスタに関連付けられたセントロイドを用いて,異なるクラスのセントロイドを互いに引き離す抗重力力を導出する。 次に, 抗重力力により得られた新しい中心体に対して, 各クラスの特徴を集中させる目的関数をカスタマイズした。 この手法により、異なる質量の分離が大きくなり、各セントロイドの周りの特徴の拡散が減少する。 結果として、サンプルは、逆の例をマッピングできる空間から遠ざけられ、逆の例を作るのに必要な摂動の度合いを効果的に増加させる。 私たちはこのトレーニングソリューションを,イテレーション毎に4ステップからなる反復的な方法として実装しました。 1)セントロイド抽出, 2 重力防止力計算 3) 中心性転位, および 4) 重力トレーニング。 FGSM, MIM, BIM, PGD などの攻撃モデルに対して, MNIST と CIFAR10 の分類問題に対してベンチマークした LeNet および ResNet110 ネットワークを用いて,対応する不正行為率を測定することにより,重力効率を評価する。 実験結果から,Gravityは,最先端の敵攻撃に対するモデル強化だけでなく,モデルのトレーニング精度も効果的に向上することを示す。

This paper presents a novel model training solution, denoted as Adaptive-Gravity, for enhancing the robustness of deep neural network classifiers against adversarial examples. We conceptualize the model parameters/features associated with each class as a mass characterized by its centroid location and the spread (standard deviation of the distance) of features around the centroid. We use the centroid associated with each cluster to derive an anti-gravity force that pushes the centroids of different classes away from one another during network training. Then we customized an objective function that aims to concentrate each class's features toward their corresponding new centroid, which has been obtained by anti-gravity force. This methodology results in a larger separation between different masses and reduces the spread of features around each centroid. As a result, the samples are pushed away from the space that adversarial examples could be mapped to, effectively increasing the degree of perturbation needed for making an adversarial example. We have implemented this training solution as an iterative method consisting of four steps at each iteration: 1) centroid extraction, 2) anti-gravity force calculation, 3) centroid relocation, and 4) gravity training. Gravity's efficiency is evaluated by measuring the corresponding fooling rates against various attack models, including FGSM, MIM, BIM, and PGD using LeNet and ResNet110 networks, benchmarked against MNIST and CIFAR10 classification problems. Test results show that Gravity not only functions as a powerful instrument to robustify a model against state-of-the-art adversarial attacks but also effectively improves the model training accuracy.
翻訳日:2022-04-11 12:14:59 公開日:2022-04-07
# (参考訳) diffcloud: 微分可能なシミュレーションと変形可能なオブジェクトのレンダリングを備えたポイントクラウドからのリアル・トゥ・sim [全文訳有]

DiffCloud: Real-to-Sim from Point Clouds with Differentiable Simulation and Rendering of Deformable Objects ( http://arxiv.org/abs/2204.03139v1 )

ライセンス: CC BY 4.0
Priya Sundaresan, Rika Antonova, Jeannette Bohg(参考訳) 変形可能なオブジェクトの操作に関する研究は通常、ハードウェア上の各シナリオの処理に多大な労力を要するため、限られたシナリオで実行される。 様々な種類の変形や相互作用をサポートするリアルシミュレータは、新しいタスクやアルゴリズムによる実験を高速化する可能性がある。 しかし、高度に変形可能なオブジェクトの場合、シミュレータの出力を実際のオブジェクトの振る舞いと整合させることは困難である。 手動チューニングは直感的ではないため、自動化メソッドが必要である。 我々はこのアライメント問題を共同認識推論問題とみなし、最近のニューラルネットワークアーキテクチャを用いて実点雲からのシミュレーションパラメータ推論をうまく実行する方法を実証する。 さまざまなアーキテクチャのパフォーマンスを分析し、データとトレーニング要件を比較します。 さらに,このアライメントの実現に要する時間を大幅に短縮するために,異なる点クラウドサンプリングと微分可能なシミュレーションを活用することを提案する。 我々は,点雲から模擬メッシュへ勾配を伝播し,さらに質量や剛性などの物理シミュレーションパラメータへ伝播する効率的な手法を用いる。 高度に変形可能なオブジェクトを用いた実験により、本手法は実際のオブジェクトの挙動と同等あるいはより良いアライメントを達成でき、これを実現するのに要する時間を1桁以上削減できることが示された。 ビデオと補足資料はhttps://tinyurl.com/ diffcloud.comで入手できる。

Research in manipulation of deformable objects is typically conducted on a limited range of scenarios, because handling each scenario on hardware takes significant effort. Realistic simulators with support for various types of deformations and interactions have the potential to speed up experimentation with novel tasks and algorithms. However, for highly deformable objects it is challenging to align the output of a simulator with the behavior of real objects. Manual tuning is not intuitive, hence automated methods are needed. We view this alignment problem as a joint perception-inference challenge and demonstrate how to use recent neural network architectures to successfully perform simulation parameter inference from real point clouds. We analyze the performance of various architectures, comparing their data and training requirements. Furthermore, we propose to leverage differentiable point cloud sampling and differentiable simulation to significantly reduce the time to achieve the alignment. We employ an efficient way to propagate gradients from point clouds to simulated meshes and further through to the physical simulation parameters, such as mass and stiffness. Experiments with highly deformable objects show that our method can achieve comparable or better alignment with real object behavior, while reducing the time needed to achieve this by more than an order of magnitude. Videos and supplementary material are available at https://tinyurl.com/ diffcloud.
翻訳日:2022-04-09 06:55:36 公開日:2022-04-07
# (参考訳) ビデオ異常検出システムに対する敵対的機械学習攻撃 [全文訳有]

Adversarial Machine Learning Attacks Against Video Anomaly Detection Systems ( http://arxiv.org/abs/2204.03141v1 )

ライセンス: CC BY 4.0
Furkan Mumcu, Keval Doshi, Yasin Yilmaz(参考訳) ビデオにおける異常検出は、自動監視を含む様々なアプリケーションにおいて重要なコンピュータビジョン問題である。 画像理解モデルに対する敵意攻撃はよく研究されているが、ビデオ理解モデルをターゲットにした敵意機械学習の作業は少なく、ビデオ異常検出に焦点を当てた先行研究は行われていない。 そこで本稿では,サイバー攻撃による映像異常検出システムに対する対向機械学習攻撃について検討する。 監視カメラは通常、無線ネットワークを介して異常検知モデルを実行するサーバに接続されるため、無線接続をターゲットとするサイバー攻撃がちである。 ビデオ異常検出システムにおいて,Wi-Fi deauthentication攻撃(DoS攻撃)が対向データ生成に有効であることを示す。 具体的には、ビデオ品質に対するWi-Fi deauthentication攻撃によるいくつかの効果(例えば、スローダウン、フリーズ、高速フォワード、低解像度)を、ビデオ異常検出のための一般的なベンチマークデータセットに適用する。 複数の最先端異常検出モデルを用いた実験により、攻撃者は頻繁に誤報を起こし、監視システムから物理的異常を隠蔽することにより、映像異常検出システムの信頼性を著しく損なうことが判明した。

Anomaly detection in videos is an important computer vision problem with various applications including automated video surveillance. Although adversarial attacks on image understanding models have been heavily investigated, there is not much work on adversarial machine learning targeting video understanding models and no previous work which focuses on video anomaly detection. To this end, we investigate an adversarial machine learning attack against video anomaly detection systems, that can be implemented via an easy-to-perform cyber-attack. Since surveillance cameras are usually connected to the server running the anomaly detection model through a wireless network, they are prone to cyber-attacks targeting the wireless connection. We demonstrate how Wi-Fi deauthentication attack, a notoriously easy-to-perform and effective denial-of-service (DoS) attack, can be utilized to generate adversarial data for video anomaly detection systems. Specifically, we apply several effects caused by the Wi-Fi deauthentication attack on video quality (e.g., slow down, freeze, fast forward, low resolution) to the popular benchmark datasets for video anomaly detection. Our experiments with several state-of-the-art anomaly detection models show that the attackers can significantly undermine the reliability of video anomaly detection systems by causing frequent false alarms and hiding physical anomalies from the surveillance system.
翻訳日:2022-04-09 06:35:25 公開日:2022-04-07
# (参考訳) deeptensor: ディープネットワーク優先による低ランクテンソル分解 [全文訳有]

DeepTensor: Low-Rank Tensor Decomposition with Deep Network Priors ( http://arxiv.org/abs/2204.03145v1 )

ライセンス: CC BY 4.0
Vishwanath Saragadam, Randall Balestriero, Ashok Veeraraghavan, Richard G. Baraniuk(参考訳) deeptensorは、深層生成ネットワークを用いた行列とテンソルの低ランク分解のための計算効率の高いフレームワークである。 低ランクテンソル因子(例えば、2つのベクトルの外積としての行列)の積としてテンソルを分解し、各低ランクテンソルは平均二乗近似誤差を最小限に抑えるために自己教師付きで訓練されたディープネットワーク(DN)によって生成される。 我々のキーとなる観察は、DNsに固有の暗黙正則化により、特異値分解(SVD)や主成分分析(PCA)のような古典的線形手法の到達範囲外にある非線形信号構造(例えば多様体)を捕捉できるということである。 さらに,加法的な白色ガウス雑音からテンソルの成分が逸脱したときの性能が低下するSVDやPCAとは対照的に,DeepTensorの性能は幅広い分布に対して堅牢であることを示す。 本研究では,高スペクトル画像デノイジング,3次元mriトモグラフィ,画像分類などの実世界応用を探索することにより,svd,pca,非負行列因子分解(nmf)および類似分解のロバストかつ計算効率の高いドロップイン置換であることを確認した。 特に、DeepTensorは、ポアソンノイズによって劣化した信号の標準的な雑音化法よりも6dB信号対雑音比の改善を提供し、3D畳み込みを備えた単一のDNよりも60倍早く3Dテンソルを分解することを学ぶ。

DeepTensor is a computationally efficient framework for low-rank decomposition of matrices and tensors using deep generative networks. We decompose a tensor as the product of low-rank tensor factors (e.g., a matrix as the outer product of two vectors), where each low-rank tensor is generated by a deep network (DN) that is trained in a self-supervised manner to minimize the mean-squared approximation error. Our key observation is that the implicit regularization inherent in DNs enables them to capture nonlinear signal structures (e.g., manifolds) that are out of the reach of classical linear methods like the singular value decomposition (SVD) and principal component analysis (PCA). Furthermore, in contrast to the SVD and PCA, whose performance deteriorates when the tensor's entries deviate from additive white Gaussian noise, we demonstrate that the performance of DeepTensor is robust to a wide range of distributions. We validate that DeepTensor is a robust and computationally efficient drop-in replacement for the SVD, PCA, nonnegative matrix factorization (NMF), and similar decompositions by exploring a range of real-world applications, including hyperspectral image denoising, 3D MRI tomography, and image classification. In particular, DeepTensor offers a 6dB signal-to-noise ratio improvement over standard denoising methods for signals corrupted by Poisson noise and learns to decompose 3D tensors 60 times faster than a single DN equipped with 3D convolutions.
翻訳日:2022-04-09 06:25:56 公開日:2022-04-07
# (参考訳) winoground: visio-linguistic compositionalityのための視覚探索と言語モデル [全文訳有]

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality ( http://arxiv.org/abs/2204.03162v1 )

ライセンス: CC BY 4.0
Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross(参考訳) ヴィノグラウンドと呼ばれる視覚言語合成推論を行うための視覚モデルと言語モデルの能力を評価するための新しいタスクとデータセットを提案する。 2つの画像と2つのキャプションが与えられた場合、目標はそれらを正しく一致させることだ。 データセットはエキスパートアノテータによって慎重に手作業で計算され、モデルパフォーマンスの分析を支援するために、豊富なきめ細かいタグがラベル付けされている。 さまざまな最先端のビジョンと言語モデルを調査し、驚くべきことに、それらが偶然よりも優れているものはないことに気付きました。 明らかに、これらのモデルは私たちが期待したように、視覚言語的な構成推論に熟練していない。 我々は、これらのモデルの欠点を緩和しようとする今後の作業について洞察を得るために、広範な分析を行います。 我々は,winogroundを,芸術の進歩と分野のさらなる発展を促すための有用な評価セットとして利用することを目指している。 データセットはhttps://huggingface. co/datasets/facebook /winogroundで利用可能である。

We present a novel task and dataset for evaluating the ability of vision and language models to conduct visio-linguistic compositional reasoning, which we call Winoground. Given two images and two captions, the goal is to match them correctly - but crucially, both captions contain a completely identical set of words, only in a different order. The dataset was carefully hand-curated by expert annotators and is labeled with a rich set of fine-grained tags to assist in analyzing model performance. We probe a diverse range of state-of-the-art vision and language models and find that, surprisingly, none of them do much better than chance. Evidently, these models are not as skilled at visio-linguistic compositional reasoning as we might have hoped. We perform an extensive analysis to obtain insights into how future work might try to mitigate these models' shortcomings. We aim for Winoground to serve as a useful evaluation set for advancing the state of the art and driving further progress in the field. The dataset is available at https://huggingface. co/datasets/facebook /winoground.
翻訳日:2022-04-09 06:04:18 公開日:2022-04-07
# (参考訳) ディープニューラルネットワークに基づく新しいパイプラインによるモデル解釈可能性の向上と睡眠ステージスコーリング性能 [全文訳有]

Enhancement on Model Interpretability and Sleep Stage Scoring Performance with A Novel Pipeline Based on Deep Neural Network ( http://arxiv.org/abs/2204.03173v1 )

ライセンス: CC BY 4.0
Zheng Chen, Ziwei Yang, Ming Huang, Toshiyo Tamura, Naoaki Ono, MD Altaf-Ul-Amin, Shigehiko Kanaya(参考訳) 睡眠医学における自然周波数特性を考慮して,まず,アメリカ睡眠医学会の定義に従って脳波の表現学習(eeg)を行うための時間周波数枠組みを提案する。 睡眠段階の定義特性の時間的ランダム性と過渡性を満たすため,データ自体の属性に自動的に適応するコンテキスト依存型フレキシブルパイプラインを設計する。 すなわち、入力された脳波スペクトログラムを時間と周波数軸のパッチ列に分割し、さらに表現学習を行うための繊細な深層学習ネットワークに入力し、最終的に分類ステップで使用されるステージ依存的特徴を抽出する。 提案したパイプラインは,大規模なデータベース,すなわちSleep Heart Health Study (SHHS) に対して検証され,この結果,N2,N3ステージの競合性能は,それぞれ0.93,0.88,0.87のF1スコアで,それぞれ最先端の作業よりも優れており,その信頼性は0.80カッパであることがわかった。 重要なことは、モデル決定の段階的スコアリング過程をLayer-wise Relevance Propagation (LRP)法で視覚化し、提案したパイプラインがベースラインパイプラインよりも意思決定プロセスにおいてより敏感で知覚可能であることを示す。 したがって、lrp法と共にパイプラインは、臨床支援に重要なモデル解釈性を提供することができる。

Considering the natural frequency characteristics in sleep medicine, this paper first proposes a time-frequency framework for the representation learning of the electroencephalogram (EEG) following the definition of the American Academy of Sleep Medicine. To meet the temporal-random and transient nature of the defining characteristics of sleep stages, we further design a context-sensitive flexible pipeline that automatically adapts to the attributes of data itself. That is, the input EEG spectrogram is partitioned into a sequence of patches in the time and frequency axes, and then input to a delicate deep learning network for further representation learning to extract the stage-dependent features, which are used in the classification step finally. The proposed pipeline is validated against a large database, i.e., the Sleep Heart Health Study (SHHS), and the results demonstrate that the competitive performance for the wake, N2, and N3 stages outperforms the state-of-art works, with the F1 scores being 0.93, 0.88, and 0.87, respectively, and the proposed method has a high inter-rater reliability of 0.80 kappa. Importantly, we visualize the stage scoring process of the model decision with the Layer-wise Relevance Propagation (LRP) method, which shows that the proposed pipeline is more sensitive and perceivable in the decision-making process than the baseline pipelines. Therefore, the pipeline together with the LRP method can provide better model interpretability, which is important for clinical support.
翻訳日:2022-04-09 05:54:42 公開日:2022-04-07
# (参考訳) 3m:音声認識のためのマルチロス、マルチパス、マルチレベルニューラルネットワーク [全文訳有]

3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech recognition ( http://arxiv.org/abs/2204.03178v1 )

ライセンス: CC0 1.0
Zhao You, Shulin Feng, Dan Su, Dong Yu(参考訳) 近年、コンフォーマーベースのCTC/AEDモデルは、ASRの主流アーキテクチャとなっている。 本稿では,先行研究に基づいて,ASRタスクのさらなる改善を実現するために,複数のアプローチを同定・統合し,マルチロス,マルチパス,マルチレベルを「3M」モデルとして記述する。 特に、Multi-lossは共同CTC/AED損失を指し、Mixture-of-Experts(M oE)アーキテクチャは計算コストを大幅に増大させることなくモデル容量を効果的に増加させることができる。 マルチレベルとは、トレーニングを支援するために、深層モデルの複数のレベルで補助損失を導入することを意味する。 提案手法をwenetspeechデータセット上で評価し,提案手法がwenet toolkitでトレーニングされたベースラインモデルに対して12.2%-17.6%の相対的なcer改善をもたらすことを示した。 150k時間コーパスの大規模データセットでは、3mモデルがベースライン適合モデルよりも明らかに優れていることも示しています。

Recently, Conformer based CTC/AED model has become a mainstream architecture for ASR. In this paper, based on our prior work, we identify and integrate several approaches to achieve further improvements for ASR tasks, which we denote as multi-loss, multi-path and multi-level, summarized as "3M" model. Specifically, multi-loss refers to the joint CTC/AED loss and multi-path denotes the Mixture-of-Experts(M oE) architecture which can effectively increase the model capacity without remarkably increasing computation cost. Multi-level means that we introduce auxiliary loss at multiple level of a deep model to help training. We evaluate our proposed method on the public WenetSpeech dataset and experimental results show that the proposed method provides 12.2%-17.6% relative CER improvement over the baseline model trained by Wenet toolkit. On our large scale dataset of 150k hours corpus, the 3M model has also shown obvious superiority over the baseline Conformer model.
翻訳日:2022-04-09 05:22:29 公開日:2022-04-07
# (参考訳) ビザンチン存在下での分布統計min-max学習 [全文訳有]

Distributed Statistical Min-Max Learning in the Presence of Byzantine Agents ( http://arxiv.org/abs/2204.03187v1 )

ライセンス: CC BY 4.0
Arman Adibi, Aritra Mitra, George J. Pappas and Hamed Hassani(参考訳) 近年、GAN(Generative Adversarial Network)、堅牢な制御と最適化、強化学習の文脈における関連性から、min-max最適化のトピックへの関心が高まっている。 この一連の作業に動機づけられ、マルチエージェントのmin-max学習問題を検討し、このような設定で最悪のビザンチン敵エージェントと競合することの新たな課題に焦点をあてる。 近年のロバストな統計から得られた結果をもとに,高次アルゴリズムの頑健な分散変種(min-max最適化のための一般的なアルゴリズム的アプローチ)を設計する。 我々の主な貢献は、滑らかな凸凹関数と滑らかな凸凸凸関数に対する頑健な外勾配アルゴリズムのクリップ解析を提供することである。 具体的には、近似鞍点への収束率を統計的に定めている。 我々の利率はほぼ最適であり、敵の汚職の影響と非汚職エージェント間の協力の利益の両方を明らかにする。 特に、敵エージェントの存在下での大規模分散分極学習に公式な理論的保証を提供する最初の論文である。

Recent years have witnessed a growing interest in the topic of min-max optimization, owing to its relevance in the context of generative adversarial networks (GANs), robust control and optimization, and reinforcement learning. Motivated by this line of work, we consider a multi-agent min-max learning problem, and focus on the emerging challenge of contending with worst-case Byzantine adversarial agents in such a setup. By drawing on recent results from robust statistics, we design a robust distributed variant of the extra-gradient algorithm - a popular algorithmic approach for min-max optimization. Our main contribution is to provide a crisp analysis of the proposed robust extra-gradient algorithm for smooth convex-concave and smooth strongly convex-strongly concave functions. Specifically, we establish statistical rates of convergence to approximate saddle points. Our rates are near-optimal, and reveal both the effect of adversarial corruption and the benefit of collaboration among the non-faulty agents. Notably, this is the first paper to provide formal theoretical guarantees for large-scale distributed min-max learning in the presence of adversarial agents.
翻訳日:2022-04-09 05:12:26 公開日:2022-04-07
# (参考訳) CT肺血管造影による早期肺塞栓症検出のための畳み込みニューラルネットワーク [全文訳有]

Convolutional Neural Network for Early Pulmonary Embolism Detection via Computed Tomography Pulmonary Angiography ( http://arxiv.org/abs/2204.03204v1 )

ライセンス: CC BY-SA 4.0
Ching-Yuan Yu, Ming-Che Chang, Yun-Chien Cheng, Chin Kuo(参考訳) 本研究は,肺塞栓症(PE)患者を対象としたコンピュータ支援検出(CAD)システムの開発である。 システムの目的は、待機期間中の死亡率を下げることであった。 肺動脈造影(CTPA)はPE診断に有用である。 ctpaの報告では、患者を診察し、さらなる管理を推奨する必要があるため、患者が死ぬのを待つ期間が生まれる。 提案したCAD法は,PEを伴わない患者からPEをトリアージするように設計された。 PE診断の迅速化のための鍵PE病変像を同定するCADシステムに関する関連研究とは対照的に,本システムでは,PE検出のための新しい分類モデルアンサンブルと,PE病変ラベリングのためのセグメンテーションモデルを備える。 モデルは中国広東大学病院のデータとオープンリソースを使って訓練された。 分類モデルは受信特性曲線に対して0.73(精度=0.85)、結合上の平均交点はセグメンテーションモデルにおいて0.689であった。 提案したCADシステムは,PE患者と非PE患者を識別し,PE診断の迅速化のために自動的にPE病変をラベル付けする。

This study was conducted to develop a computer-aided detection (CAD) system for triaging patients with pulmonary embolism (PE). The purpose of the system was to reduce the death rate during the waiting period. Computed tomography pulmonary angiography (CTPA) is used for PE diagnosis. Because CTPA reports require a radiologist to review the case and suggest further management, this creates a waiting period during which patients may die. Our proposed CAD method was thus designed to triage patients with PE from those without PE. In contrast to related studies involving CAD systems that identify key PE lesion images to expedite PE diagnosis, our system comprises a novel classification-model ensemble for PE detection and a segmentation model for PE lesion labeling. The models were trained using data from National Cheng Kung University Hospital and open resources. The classification model yielded 0.73 for receiver operating characteristic curve (accuracy = 0.85), while the mean intersection over union was 0.689 for the segmentation model. The proposed CAD system can distinguish between patients with and without PE and automatically label PE lesions to expedite PE diagnosis
翻訳日:2022-04-09 04:39:49 公開日:2022-04-07
# (参考訳) 網膜血管分割のためのU字型ネットワークに基づくMC-UNet多モジュール結合 [全文訳有]

MC-UNet Multi-module Concatenation based on U-shape Network for Retinal Blood Vessels Segmentation ( http://arxiv.org/abs/2204.03213v1 )

ライセンス: CC BY 4.0
Ting Zhang, Jun Li, Yi Zhao, Nan Chen, Han Zhou, Hongtao Xu, Zihao Guan, Changcai Yang, Lanyan Xue, Riqing Chen, Lifang Wei(参考訳) 網膜血管の正確な分割は眼科疾患の診断において重要なステップである。 網膜血管セグメンテーションタスクのために多くのディープラーニングフレームワークが生まれている。 しかし,血管構造が複雑で病理的特徴が不明なため,血管分画は依然として困難である。 本稿では,重畳とマルチカーネルプールに基づく多モジュール結合と呼ばれる新しいu字型ネットワークについて,網膜血管のセグメンテーションについて述べる。 提案するネットワーク構造は,u-netの基本構造である3層を保持し,マルチカーネルプーリングブロックを結合した大規模畳み込みにより,より文脈情報を得るように設計する。 空間アテンションモジュールは、高密度なアトラス畳み込みモジュールとマルチカーネルプールモジュールとを連結し、マルチモジュール結合を形成する。 そして、異なる拡張率はカスケードによって選択され、アトラス畳み込みにおいてより大きな受容野を得る。 これらのパブリック網膜データセット(DRIVE、STARE、CHASE_DB1)について、適切な比較実験を行う。 その結果,提案手法は特にマイクロ容器に有効であることが示唆された。 コードはhttps://github.com/R ebeccala/MC-UNetで公開される。

Accurate segmentation of the blood vessels of the retina is an important step in clinical diagnosis of ophthalmic diseases. Many deep learning frameworks have come up for retinal blood vessels segmentation tasks. However, the complex vascular structure and uncertain pathological features make the blood vessel segmentation still very challenging. A novel U-shaped network named Multi-module Concatenation which is based on Atrous convolution and multi-kernel pooling is put forward to retinal vessels segmentation in this paper. The proposed network structure retains three layers the essential structure of U-Net, in which the atrous convolution combining the multi-kernel pooling blocks are designed to obtain more contextual information. The spatial attention module is concatenated with dense atrous convolution module and multi-kernel pooling module to form a multi-module concatenation. And different dilation rates are selected by cascading to acquire a larger receptive field in atrous convolution. Adequate comparative experiments are conducted on these public retinal datasets: DRIVE, STARE and CHASE_DB1. The results show that the proposed method is effective, especially for microvessels. The code will be put out at https://github.com/R ebeccala/MC-UNet
翻訳日:2022-04-09 04:32:27 公開日:2022-04-07
# (参考訳) ニューラルインプリシットフロー:時空間データのメッシュ非依存次元減少パラダイム

Neural Implicit Flow: a mesh-agnostic dimensionality reduction paradigm of spatio-temporal data ( http://arxiv.org/abs/2204.03216v1 )

ライセンス: CC BY 4.0
Shaowu Pan, Steven L. Brunton, J. Nathan Kutz(参考訳) 高次元時空間力学はしばしば低次元部分空間に符号化される。 このような大規模システムのモデリング、キャラクタリゼーション、設計、制御のための工学的応用は、リアルタイムに解を計算可能なものにするために、しばしば次元の縮小に依存する。 次元減少のための一般的なパラダイムには、特異値分解(SVD)のような線形法や、畳み込みオートエンコーダ(CAE)の変種のような非線形法がある。 しかし、これらの符号化技術は、可変幾何学、非一様格子分解、適応メッシュ化、パラメトリック依存性を必要とする時空間データに関連する複雑さを効率的に表現する能力に欠けており、これらの実用的なエンジニアリング課題を解決するために、大規模、パラメトリック、空間時空間データのメッシュ非依存、低ランク表現を可能にするneural implicit flow(nif)と呼ばれる汎用フレームワークを提案する。 NIFは2つの修飾多層パーセプトロン(MLP)から構成される。 (i)空間的複雑さを分離し表現するシェープネット (ii)パラメータネットは、パラメトリック依存性、時間、センサー測定など、他の入力の複雑さを考慮している。 パラメトリックサーロゲートモデリングにおけるnifの有用性を実証し,複雑な時空間ダイナミクスの解釈可能表現と圧縮,多空間クエリタスクの効率化,スパース再構成のための一般化性能の向上を実現した。

High-dimensional spatio-temporal dynamics can often be encoded in a low-dimensional subspace. Engineering applications for modeling, characterization, design, and control of such large-scale systems often rely on dimensionality reduction to make solutions computationally tractable in real-time. Common existing paradigms for dimensionality reduction include linear methods, such as the singular value decomposition (SVD), and nonlinear methods, such as variants of convolutional autoencoders (CAE). However, these encoding techniques lack the ability to efficiently represent the complexity associated with spatio-temporal data, which often requires variable geometry, non-uniform grid resolution, adaptive meshing, and/or parametric dependencies.To resolve these practical engineering challenges, we propose a general framework called Neural Implicit Flow (NIF) that enables a mesh-agnostic, low-rank representation of large-scale, parametric, spatial-temporal data. NIF consists of two modified multilayer perceptrons (MLPs): (i) ShapeNet, which isolates and represents the spatial complexity, and (ii) ParameterNet, which accounts for any other input complexity, including parametric dependencies, time, and sensor measurements. We demonstrate the utility of NIF for parametric surrogate modeling, enabling the interpretable representation and compression of complex spatio-temporal dynamics, efficient many-spatial-query tasks, and improved generalization performance for sparse reconstruction.
翻訳日:2022-04-09 04:25:19 公開日:2022-04-07
# (参考訳) 明示的特徴相互作用を考慮したグラフニューラルネットワーク [全文訳有]

Explicit Feature Interaction-aware Graph Neural Networks ( http://arxiv.org/abs/2204.03225v1 )

ライセンス: CC BY 4.0
Minkyu Kim, Hyun-Soo Choi, Jinho Kim(参考訳) グラフニューラルネットワークは、グラフ構造化データを処理する強力な方法である。 しかし、既存のグラフニューラルネットワークは、高次特徴相互作用を暗黙的に学習するのみである。 したがって、低次特徴相互作用で発生した情報をキャプチャすることができない。 この問題を解決するために,任意順序の特徴相互作用を明示的に学習する明示的特徴相互作用対応グラフニューラルネットワーク(EFI-GNN)を提案する。 EFI-GNNは、他のグラフニューラルネットワークと共同で学習することができる。 共同学習手法は,様々なノード分類タスクの性能を常に向上させることを示した。 さらに、EFI-GNNは本質的に線形モデルであるため、EFI-GNNの予測結果を解釈することができる。 計算規則により、決定に対する任意の順序特徴の影響を得ることができる。 これにより、一階および二階の機能の効果をヒートマップとして可視化する。

Graph neural networks are powerful methods to handle graph-structured data. However, existing graph neural networks only learn higher-order feature interactions implicitly. Thus, they cannot capture information that occurred in low-order feature interactions. To overcome this problem, we propose Explicit Feature Interaction-aware Graph Neural Network (EFI-GNN), which explicitly learns arbitrary-order feature interactions. EFI-GNN can jointly learn with any other graph neural network. We demonstrate that the joint learning method always enhances performance on the various node classification tasks. Furthermore, since EFI-GNN is inherently a linear model, we can interpret the prediction result of EFI-GNN. With the computation rule, we can obtain an any-order feature's effect on the decision. By that, we visualize the effects of the first-order and second-order features as a form of a heatmap.
翻訳日:2022-04-09 04:22:15 公開日:2022-04-07
# (参考訳) 勾配に基づく学習ランタイムpruningによる注意の促進 [全文訳有]

Accelerating Attention through Gradient-Based Learned Runtime Pruning ( http://arxiv.org/abs/2204.03227v1 )

ライセンス: CC BY 4.0
Zhenge Li and Soroush Ghodrati and Amir Yazdanbakhsh and Hadi Esmaeilzadeh and Mingu Kang(参考訳) 自己アテンションは、様々なトランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する鍵となる。 この注意機構は、文中の他の単語に対する各単語の相関スコアを算出する。 一般的に、少数の単語のサブセットだけが、実行時にのみ決定される単語に非常に関連している。 したがって、注目度が低いためかなりの量の計算は不必要であり、刈り取ることができる。 主な課題は、以下のスコアのしきい値を見つけることである。 このような閾値は離散的であるが、本論文は訓練の損失関数に統合されたソフトな微分可能正則化器による探索を定式化する。 この定式化されたピギーは、閾値と重みを同時に分析的に最適化するバックプロパゲーショントレーニングにバックバックし、精度と計算プラニングの正式な最適バランスを与える。 この数学的革新を最大限活用するために、ビットレベルの初期終端マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルにleopardと呼ばれるビットシリアルアーキテクチャを考案する。 我々は,MemN2N,BERT,ALBERT, GPT-2,Visionトランスモデルの43のバックエンドタスクを対象とした設計評価を行った。 ポストレイアウトの結果、LeOPArdは平均で1.9倍のスピードアップと3.9倍のエネルギー削減を達成し、平均精度をほぼ無傷で維持する(0.2%劣化)。

Self-attention is a key enabler of state-of-art accuracy for various transformer-based Natural Language Processing models. This attention mechanism calculates a correlation score for each word with respect to the other words in a sentence. Commonly, only a small subset of words highly correlates with the word under attention, which is only determined at runtime. As such, a significant amount of computation is inconsequential due to low attention scores and can potentially be pruned. The main challenge is finding the threshold for the scores below which subsequent computation will be inconsequential. Although such a threshold is discrete, this paper formulates its search through a soft differentiable regularizer integrated into the loss function of the training. This formulation piggy backs on the back-propagation training to analytically co-optimize the threshold and the weights simultaneously, striking a formally optimal balance between accuracy and computation pruning. To best utilize this mathematical innovation, we devise a bit-serial architecture, dubbed LeOPArd, for transformer language models with bit-level early termination microarchitectural mechanism. We evaluate our design across 43 back-end tasks for MemN2N, BERT, ALBERT, GPT-2, and Vision transformer models. Post-layout results show that, on average, LeOPArd yields 1.9x and 3.9x speedup and energy reduction, respectively, while keeping the average accuracy virtually intact (<0.2% degradation)
翻訳日:2022-04-09 04:11:32 公開日:2022-04-07
# (参考訳) 文埋め込みによる単語センス誘導を用いたワードネットの自動構築 [全文訳有]

Automatic WordNet Construction using Word Sense Induction through Sentence Embeddings ( http://arxiv.org/abs/2204.03251v1 )

ライセンス: CC BY 4.0
Dan John Velasco, Axel Alba, Trisha Gail Pelagio, Bryce Anthony Ramirez, Jan Christian Blaise Cruz and Charibeth Cheng(参考訳) Wordnetsのような言語リソースは、さまざまな自然言語タスクやアプリケーションに必須のツールである。 しかし、フィリピンのような低リソース言語では、既存のワードネットは古く時代遅れであり、新しいワードネットの生成は時間とリソースの面で遅くコストがかかる可能性がある。 本稿では,ラベルなしコーパスと文埋め込み型言語モデルのみを用いて,スクラッチから単語ネットを構築する自動手法を提案する。 これを用いて、フィリピンの古いWordNetを置き換え、改善する新しいワードネットであるFilWordNetを作成する。 我々は、この自動誘発感覚と合成集合をプリンストンワードネットの感覚とマッチングし、その合成集合を旧フィリピンワードネットと比較することで評価する。 提案手法は,人間の監督を必要とせずに,既存の感覚やシンセットを自動生成することができることを実証的に示す。

Language resources such as wordnets remain indispensable tools for different natural language tasks and applications. However, for low-resource languages such as Filipino, existing wordnets are old and outdated, and producing new ones may be slow and costly in terms of time and resources. In this paper, we propose an automatic method for constructing a wordnet from scratch using only an unlabeled corpus and a sentence embeddings-based language model. Using this, we produce FilWordNet, a new wordnet that supplants and improves the outdated Filipino WordNet. We evaluate our automatically-induce d senses and synsets by matching them with senses from the Princeton WordNet, as well as comparing the synsets to the old Filipino WordNet. We empirically show that our method can induce existing, as well as potentially new, senses and synsets automatically without the need for human supervision.
翻訳日:2022-04-09 03:38:32 公開日:2022-04-07
# (参考訳) アラビア文字音声(TTS)データ作成 [全文訳有]

Arabic Text-To-Speech (TTS) Data Preparation ( http://arxiv.org/abs/2204.03255v1 )

ライセンス: CC BY 4.0
Hala Al Masri, Muhy Eddin Za'ter(参考訳) テキスト音声合成(TTS, Text-to-Speech)に加えて、録音データセットの音声が存在しているという事実に、人々は困惑するかもしれない。 本研究の目的は,TTSとデータ作成手順の関連性を説明することである。 TTSは、TSモジュールの結果に大きな影響を与える可能性があるため、記録データに大きく依存する。 さらに、ドメインが特殊であるか一般であるかにかかわらず、予測されるすべての言語変種やドメインに対応する適切なデータを開発する必要がある。 品質と振舞いを考慮した異なる記録方法もまた、モジュールの開発において有利である。 現在の合成システムにおけるアラビア語の欠如を踏まえ、記録された発話の流れに影響を与える多くの変数が、アラビア語のTSモジュールを操作するために検討されている。 本研究では,言語学とTTSのための高品質記録の作成という2つの視点について論じる。 本研究の目的は, 自然性, 知性, 理解の両面から, 音声システムの進化にどのような影響があるかを明らかにすることである。 音声俳優のスペックだけでなく、スタジオの音声俳優と音声コーチ、そして音声の評価を行う注釈家の両方を支援するデータスペックも提供します。

People may be puzzled by the fact that voice over recordings data sets exist in addition to Text-to-Speech (TTS), Synthesis system advancements, albeit this is not the case. The goal of this study is to explain the relevance of TTS as well as the data preparation procedures. TTS relies heavily on recorded data since it can have a substantial influence on the outcomes of TTS modules. Furthermore, whether the domain is specialized or general, appropriate data should be developed to address all predicted language variants and domains. Different recording methodologies, taking into account quality and behavior, may also be advantageous in the development of the module. In light of the lack of Arabic language in present synthesizing systems, numerous variables that impact the flow of recorded utterances are being considered in order to manipulate an Arabic TTS module. In this study, two viewpoints will be discussed: linguistics and the creation of high-quality recordings for TTS. The purpose of this work is to offer light on how ground-truth utterances may influence the evolution of speech systems in terms of naturalness, intelligibility, and understanding. Well provide voice actor specs as well as data specs that will assist both voice actors and voice coaches in the studio as well as the annotators who will be evaluating the audios.
翻訳日:2022-04-09 03:26:37 公開日:2022-04-07
# (参考訳) pan-cancer computational histopathology (pan-cancer computational histopathology) による弱教師付き深層学習による腫瘍突然変異性重荷状態の解明 [全文訳有]

Pan-cancer computational histopathology reveals tumor mutational burden status through weakly-supervised deep learning ( http://arxiv.org/abs/2204.03257v1 )

ライセンス: CC BY 4.0
Siteng Chen, Jinxi Xiang, Xiyue Wang, Jun Zhang, Sen Yang, Junzhou Huang, Wei Yang, Junhua Zheng, Xiao Han(参考訳) 腫瘍突然変異負担(TMB)は、様々ながんに対する免疫療法の恩恵を受ける患者を特定するのに役立つ潜在的なゲノムバイオマーカーである。 がんゲノムアトラスから3228個の診断スライドの全スライド画像(wsis)と,臨床プロテオミクス腫瘍解析コンソーシアムから531個のwsisを抽出し,パン癌tmb予測モデル(pc-tmb)の開発と検証を行った。 ヘマトキシリン-エオシン(h&e)持続性wsisのみに基づいて7種類の腫瘍のtmbを予測するための多スケール弱教師付き深層学習フレームワークを提案した。 PC-TMBはクロスバリデーションコホートにおいて曲線平均面積(AUC)0.818(0.804-0.8 31)を達成した。 先行論文の最先端tmb予測モデルと比較すると, 従来報告したモデルと比較して, マルチスケールモデルの性能が向上した。 さらに, 単腫瘍モデルに対するPC-TMBの改善も10倍のアブレーション試験により確認した。 PC-TMBアルゴリズムはまた、AUCの0.732 (0.683-0.761)と外部検証コホートをうまく一般化した。 PC-TMBは全ゲノムシークエンシングにより測定されたTMBに匹敵する生存リスクの階層化性能を有していたが, 低コストで, 複数の固形腫瘍の診断的バイオマーカーを提供するための時間効率が高かった。 また,腫瘍内におけるtmbの空間的不均一性もpc-tmbにより同定され,空間的変異を有する分子バイオマーカーのイメージベーススクリーニングが可能となり,遺伝子型と空間的不均一性の関係を探索する可能性が示唆された。

Tumor mutational burden (TMB) is a potential genomic biomarker that can help identify patients who will benefit from immunotherapy across a variety of cancers. We included whole slide images (WSIs) of 3228 diagnostic slides from the Cancer Genome Atlas and 531 WSIs from the Clinical Proteomic Tumor Analysis Consortium for the development and verification of a pan-cancer TMB prediction model (PC-TMB). We proposed a multiscale weakly-supervised deep learning framework for predicting TMB of seven types of tumors based only on routinely used hematoxylin-eosin (H&E)-stained WSIs. PC-TMB achieved a mean area under curve (AUC) of 0.818 (0.804-0.831) in the cross-validation cohort, which was superior to the best single-scale model. In comparison with the state-of-the-art TMB prediction model from previous publications, our multiscale model achieved better performance over previously reported models. In addition, the improvements of PC-TMB over the single-tumor models were also confirmed by the ablation tests on 10x magnification. The PC-TMB algorithm also exhibited good generalization on external validation cohort with AUC of 0.732 (0.683-0.761). PC-TMB possessed a comparable survival-risk stratification performance to the TMB measured by whole exome sequencing, but with low cost and being time-efficient for providing a prognostic biomarker of multiple solid tumors. Moreover, spatial heterogeneity of TMB within tumors was also identified through our PC-TMB, which might enable image-based screening for molecular biomarkers with spatial variation and potential exploring for genotype-spatial heterogeneity relationships.
翻訳日:2022-04-09 03:19:24 公開日:2022-04-07
# (参考訳) mulEEG:脳波信号を用いた多視点表現学習 [全文訳有]

mulEEG: A Multi-View Representation Learning on EEG Signals ( http://arxiv.org/abs/2204.03272v1 )

ライセンス: CC BY-SA 4.0
Vamsi Kumar, Likith Reddy, Shivam Kumar Sharma, Kamalakar Dadi, Chiranjeevi Yarra, Bapi S. Raju and Srijithesh Rajendran(参考訳) 相互に正の影響を与え合う複数の視点を用いた効果的な表現のモデル化は困難であり、既存の手法では睡眠時課題の脳波信号に乏しい。 本稿では、教師なし脳波表現学習のための新しいマルチビュー自己教師方式(mulEEG)を提案する。 提案手法では,複数のビューで利用可能な補完情報を効果的に活用し,より良い表現を学習する。 我々は,複数の視点にまたがる補完的情報を促進する多様な損失を導入する。 本手法は,睡眠課題におけるトランスファー学習実験において,マルチビューベースライン法を上回りながら教師付きトレーニングに勝っている。 本手法は相補的マルチビューを用いてより良い表現を学習できることを実証する。

Modeling effective representations using multiple views that positively influence each other is challenging, and the existing methods perform poorly on Electroencephalogram (EEG) signals for sleep-staging tasks. In this paper, we propose a novel multi-view self-supervised method (mulEEG) for unsupervised EEG representation learning. Our method attempts to effectively utilize the complementary information available in multiple views to learn better representations. We introduce diverse loss that further encourages complementary information across multiple views. Our method with no access to labels beats the supervised training while outperforming multi-view baseline methods on transfer learning experiments carried out on sleep-staging tasks. We posit that our method was able to learn better representations by using complementary multi-views.
翻訳日:2022-04-09 03:10:24 公開日:2022-04-07
# (参考訳) PALBERT:AlbertをPonderに教える [全文訳有]

PALBERT: Teaching ALBERT to Ponder ( http://arxiv.org/abs/2204.03276v1 )

ライセンス: CC BY 4.0
Nikita Balagansky, Daniil Gavrilov(参考訳) 現在、事前訓練されたモデルは幅広いNLPタスクのデフォルト選択と見なすことができる。 sotaの結果にもかかわらず、これらのモデルは異なる入力シーケンスに対して異なる数の計算層を必要とする可能性があるという実用的な証拠がある。 この問題は、最初に推論速度を改善するために設計された適応計算時間アプローチを実装することで解決できる。 最近提案されたPonderNetは、出口層インデックスを潜伏変数として扱うことで早期出口を実行するための有望なソリューションかもしれない。 しかし、当初提案された出口基準は、訓練後分布からのサンプリングを第1層からの流出確率に依存し、モデル出力に大きなばらつきが生じ、結果として得られるモデル性能が著しく低下する。 本稿では,Ponder ALBERT (PALBERT) を提案する。PonderNetの改良として,新しいQ-exit基準と再検討モデルアーキテクチャを提案する。 PALBERTと最近の早期退院法を比較した。 提案した変更は,オリジナルのPonderNetアーキテクチャにおいて大幅に改善され,幅広いGLUEタスクにおいてPABEEを上回っていると考えられる。 さらに,ラムダ層とその性能をより深く理解するために,提案するアーキテクチャの詳細なアブレーション実験を行った。

Currently, pre-trained models can be considered the default choice for a wide range of NLP tasks. Despite their SoTA results, there is practical evidence that these models may require a different number of computing layers for different input sequences, since evaluating all layers leads to overconfidence on wrong predictions (namely overthinking). This problem can potentially be solved by implementing adaptive computation time approaches, which were first designed to improve inference speed. Recently proposed PonderNet may be a promising solution for performing an early exit by treating the exit layers index as a latent variable. However, the originally proposed exit criterion, relying on sampling from trained posterior distribution on the probability of exiting from i-th layer, introduces major variance in model outputs, significantly reducing the resulting models performance. In this paper, we propose Ponder ALBERT (PALBERT): an improvement to PonderNet with a novel deterministic Q-exit criterion and a revisited model architecture. We compared PALBERT with recent methods for performing an early exit. We observed that the proposed changes can be considered significant improvements on the original PonderNet architecture and outperform PABEE on a wide range of GLUE tasks. In addition, we also performed an in-depth ablation study of the proposed architecture to further understand Lambda layers and their performance.
翻訳日:2022-04-09 02:59:02 公開日:2022-04-07
# (参考訳) 科学論文のシーケンスベース抽出要約 [全文訳有]

Sequence-Based Extractive Summarisation for Scientific Articles ( http://arxiv.org/abs/2204.03301v1 )

ライセンス: CC BY 4.0
Daniel Kershaw and Rob Koeling(参考訳) 本稿では,学術論文における教師付き抽出テキスト要約の研究結果について述べる。 文書内のテキストのみに基づく単純な逐次タグ付けモデルは,単純な分類モデルに対して高い結果が得られることを示す。 改善は文レベルの追加機能によって達成できるが、これらは最小限であった。 さらなる分析を通じて,文書の構造に依存した逐次モデルの可能性を示す。

This paper presents the results of research on supervised extractive text summarisation for scientific articles. We show that a simple sequential tagging model based only on the text within a document achieves high results against a simple classification model. Improvements can be achieved through additional sentence-level features, though these were minimal. Through further analysis, we show the potential of the sequential model relying on the structure of the document depending on the academic discipline which the document is from.
翻訳日:2022-04-09 02:50:46 公開日:2022-04-07
# (参考訳) オートエンコーダに基づくlimeにおける局所解釈モデルとしての決定木の利用 [全文訳有]

Using Decision Tree as Local Interpretable Model in Autoencoder-based LIME ( http://arxiv.org/abs/2204.03321v1 )

ライセンス: CC0 1.0
Niloofar Ranjbar and Reza Safabakhsh(参考訳) 近年、ディープニューラルネットワークは精度が高いため、多くの領域で使用されている。 しかし、それらは「黒い箱」と見なされ、人間には説明できないことを意味する。 一方、医療、経済、自動運転車などのタスクでは、ユーザーはモデルを解釈して、これらの結果が信頼できるかどうかを判断する必要がある。 本稿では,alimeと呼ばれる局所的解釈可能性に対するオートエンコーダに基づくアプローチの修正版を提案する。 ALIME自体は、Local Interpretable Model-Agnostic Explanations (LIME)と呼ばれる有名な手法にインスパイアされている。 LIMEは、インスタンスの周りに新しいデータを生成し、局所線形解釈可能なモデルをトレーニングすることで、単一のインスタンスレベルの説明を生成する。 alimeはautoencoderを使ってサンプルの周りの新しいデータを測定する。 それでもALIMEはLIMEと同じように、リニアモデルを解釈可能なモデルとしてローカルにトレーニングする。 本稿では,線形モデルの代わりに決定木を解釈可能なモデルとして用いた新しい手法を提案する。 異なるデータセット上での安定性,局所的忠実性,解釈可能性について,提案モデルを評価した。 ALIMEと比較して、実験は安定性と局所忠実度に有意な結果を示し、解釈可能性にも改善された。

Nowadays, deep neural networks are being used in many domains because of their high accuracy results. However, they are considered as "black box", means that they are not explainable for humans. On the other hand, in some tasks such as medical, economic, and self-driving cars, users want the model to be interpretable to decide if they can trust these results or not. In this work, we present a modified version of an autoencoder-based approach for local interpretability called ALIME. The ALIME itself is inspired by a famous method called Local Interpretable Model-agnostic Explanations (LIME). LIME generates a single instance level explanation by generating new data around the instance and training a local linear interpretable model. ALIME uses an autoencoder to weigh the new data around the sample. Nevertheless, the ALIME uses a linear model as the interpretable model to be trained locally, just like the LIME. This work proposes a new approach, which uses a decision tree instead of the linear model, as the interpretable model. We evaluate the proposed model in case of stability, local fidelity, and interpretability on different datasets. Compared to ALIME, the experiments show significant results on stability and local fidelity and improved results on interpretability.
翻訳日:2022-04-09 02:41:37 公開日:2022-04-07
# (参考訳) 手話認識の包括的レビュー:異なるタイプ、モダリティ、データセット [全文訳有]

A Comprehensive Review of Sign Language Recognition: Different Types, Modalities, and Datasets ( http://arxiv.org/abs/2204.03328v1 )

ライセンス: CC BY 4.0
Dr. M. Madhiarasan and Prof. Partha Pratim Roy(参考訳) 機械は人間の活動を理解し、記号の意味は、聴覚障害者と一般人のコミュニケーション障壁を克服するのに役立つ。 手話認識(slr)は、コンピュータビジョンとパターン認識に関する興味深い研究領域であり、重要なタスクである。 近年、多くのアプリケーションでSLRの利用が増加しているが、環境、背景画像の解像度、モダリティ、データセットが性能に大きく影響している。 多くの研究者が汎用リアルタイムSLRモデルの実行に取り組んでいる。 本稿では,slrの包括的概要を整理し,slrに関するニーズ,課題,課題について考察する。 手動および非手動、様々なモダリティ、データセットに関する関連研究について研究する。 過去10年間で、研究の進展と既存の最先端のSLRモデルがレビューされている。 最後に、この分野における研究のギャップと限界を見つけ、今後の方向性を提案する。 このレビュー論文は,SLRと最先端SLRモデルの進歩的設計について,読者や研究者が完全なガイダンスを得る上で有用である。

A machine can understand human activities, and the meaning of signs can help overcome the communication barriers between the inaudible and ordinary people. Sign Language Recognition (SLR) is a fascinating research area and a crucial task concerning computer vision and pattern recognition. Recently, SLR usage has increased in many applications, but the environment, background image resolution, modalities, and datasets affect the performance a lot. Many researchers have been striving to carry out generic real-time SLR models. This review paper facilitates a comprehensive overview of SLR and discusses the needs, challenges, and problems associated with SLR. We study related works about manual and non-manual, various modalities, and datasets. Research progress and existing state-of-the-art SLR models over the past decade have been reviewed. Finally, we find the research gap and limitations in this domain and suggest future directions. This review paper will be helpful for readers and researchers to get complete guidance about SLR and the progressive design of the state-of-the-art SLR model
翻訳日:2022-04-09 02:32:14 公開日:2022-04-07
# (参考訳) 変分・期待最大化法による放射伝達モデル上の推定 [全文訳有]

Inference over radiative transfer models using variational and expectation maximization methods ( http://arxiv.org/abs/2204.03346v1 )

ライセンス: CC BY 4.0
Daniel Heestermans Svendsen, Daniel Hern\'andez-Lobato, Luca Martino, Valero Laparra, Alvaro Moreno, Gustau Camps-Valls(参考訳) 衛星からの地球観測により、地球を前例のない精度で観測することができる。 放射移動モデル(RTM)は大気中のエネルギー移動を符号化し、地球系をモデル化し理解するために使われ、また逆モデリングによって衛星観測から地球の状態を記述するパラメータを推定するために用いられる。 しかし,このようなシミュレータ上での推論は難しい課題である。 RTMは非線形で微分不可能で計算コストのかかる符号であり、推論の難易度が高い。 本稿では,生物物理パラメータの点推定だけでなく,その共同分布を推定する2つの計算手法を提案する。 そのうちの1つは変分オートエンコーダ法に基づいており、もう1つはモンテカルロ予測最大化法(MCEM)に基づくものである。 各アプローチのメリットと欠点を比較して議論する。 また,土地植生の葉とキャノピーモデルを組み合わせたrtmであるreal prosailモデルと合成シミュレーションの数値比較を行った。 本研究では,地球生物圏の定量化のための3つの重要な生体物理パラメータの分布をモデル化し,推定するための2つの手法の性能解析を行った。

Earth observation from satellites offers the possibility to monitor our planet with unprecedented accuracy. Radiative transfer models (RTMs) encode the energy transfer through the atmosphere, and are used to model and understand the Earth system, as well as to estimate the parameters that describe the status of the Earth from satellite observations by inverse modeling. However, performing inference over such simulators is a challenging problem. RTMs are nonlinear, non-differentiable and computationally costly codes, which adds a high level of difficulty in inference. In this paper, we introduce two computational techniques to infer not only point estimates of biophysical parameters but also their joint distribution. One of them is based on a variational autoencoder approach and the second one is based on a Monte Carlo Expectation Maximization (MCEM) scheme. We compare and discuss benefits and drawbacks of each approach. We also provide numerical comparisons in synthetic simulations and the real PROSAIL model, a popular RTM that combines land vegetation leaf and canopy modeling. We analyze the performance of the two approaches for modeling and inferring the distribution of three key biophysical parameters for quantifying the terrestrial biosphere.
翻訳日:2022-04-09 00:19:16 公開日:2022-04-07
# (参考訳) オンラインマルチセンサ深度融合の学習

Learning Online Multi-Sensor Depth Fusion ( http://arxiv.org/abs/2204.03353v1 )

ライセンス: CC BY-SA 4.0
Erik Sandstr\"om, Martin R. Oswald, Suryansh Kumar, Silvan Weder, Fisher Yu, Cristian Sminchisescu, Luc Van Gool(参考訳) 多くのハンドヘルドまたは混合現実感デバイスは、複数のセンサーから構成されるが、単一のセンサーで3D再構成を行う。 マルチセンサーの奥行き融合は3次元復元法のロバスト性と精度を大幅に向上させるが、既存の技術では様々な値範囲のセンサーやノイズや異常値の統計を扱うには十分ではない。 この目的のために,センサ固有のノイズと外れ値統計を学習し,異なるセンサからの深度フレームのデータストリームをオンライン的に組み合わせた深度融合手法であるSenFuNetを導入する。 本手法は,時間同期やキャリブレーションによらず,複数センサの奥行きストリームを融合し,少ないトレーニングデータで一般化する。 実世界のCoRBSとScene3DのデータセットとReplicaのデータセットで様々なセンサーの組み合わせで実験を行う。 実験により、我々の融合戦略が従来のオンライン深度融合アプローチより優れていることが示された。 さらに、複数のセンサの組み合わせにより、単一のセンサを使用するよりも堅牢なアウトラヤハンドリングと正確な表面再構成が得られる。

Many hand-held or mixed reality devices are used with a single sensor for 3D reconstruction, although they often comprise multiple sensors. Multi-sensor depth fusion is able to substantially improve the robustness and accuracy of 3D reconstruction methods, but existing techniques are not robust enough to handle sensors which operate with diverse value ranges as well as noise and outlier statistics. To this end, we introduce SenFuNet, a depth fusion approach that learns sensor-specific noise and outlier statistics and combines the data streams of depth frames from different sensors in an online fashion. Our method fuses multi-sensor depth streams regardless of time synchronization and calibration and generalizes well with little training data. We conduct experiments with various sensor combinations on the real-world CoRBS and Scene3D datasets, as well as the Replica dataset. Experiments demonstrate that our fusion strategy outperforms traditional and recent online depth fusion approaches. In addition, the combination of multiple sensors yields more robust outlier handling and precise surface reconstruction than the use of a single sensor.
翻訳日:2022-04-09 00:01:22 公開日:2022-04-07
# (参考訳) 予測符号化と確率共鳴:聴覚(ファントム)知覚の統一理論に向けて [全文訳有]

Predictive Coding and Stochastic Resonance: Towards a Unified Theory of Auditory (Phantom) Perception ( http://arxiv.org/abs/2204.03354v1 )

ライセンス: CC BY 4.0
Achim Schilling, William Sedley, Richard Gerum, Claus Metzner, Konstantin Tziridis, Andreas Maier, Holger Schulze, Fan-Gang Zeng, Karl J. Friston, Patrick Krauss(参考訳) 認知計算神経科学(CCN)は、脳機能の機械的理解を得るために、仮説駆動型実験は生物学的に妥当な計算モデルを伴うべきであることを示唆している。 この新しい研究パラダイムは、錬金術から化学、聴覚神経科学への道を提供する。 聴覚ファントム知覚の第一の例として、特にティンニトゥスに焦点をあてて、人工知能、心理学、神経科学の交点における最近の研究をレビューし、実験は形式的または計算的なモデルをテストするのにのみ機械的な洞察をもたらすという考えを予見する。 この見解は、ティンニタスの研究が主にデータ限定であり、先進的なデータ分析アルゴリズムで分析された大規模でマルチモーダルで複雑なデータセットを生成することは、ティンニタスの出現に関する根本的な洞察をもたらすという一般的な考え方に挑戦する。 脳にユビキタスであるという2つの基本的な処理原理は、多くの実験結果に最も適しており、したがって最も説明力となる:トップダウンとしての予測符号化と、補完的なボトムアップメカニズムとしての確率共鳴である。 さらに、現代人工知能と機械学習のアプローチは生物学的な妥当性をほとんど欠いているが、構築すべきモデルはこれらの分野の概念に基づくものでなければならない、と論じる。 それでも生物学的忠実性には対処する必要があるため、動物や患者の研究に応用する前に、シリコで治療戦略をテストすることができる。 この計算および経験的研究の反復は、機械学習と人間の脳の両方の「ブラックボックス」を開くのに役立つかもしれない。

Cognitive computational neuroscience (CCN) suggests that to gain a mechanistic understanding of brain function, hypothesis driven experiments should be accompanied by biologically plausible computational models. This novel research paradigm offers a way from alchemy to chemistry, in auditory neuroscience. With a special focus on tinnitus - as the prime example of auditory phantom perception - we review recent work at the intersection of artificial intelligence, psychology, and neuroscience, foregrounding the idea that experiments will yield mechanistic insight only when employed to test formal or computational models. This view challenges the popular notion that tinnitus research is primarily data limited, and that producing large, multi-modal, and complex data-sets, analyzed with advanced data analysis algorithms, will lead to fundamental insights into how tinnitus emerges. We conclude that two fundamental processing principles - being ubiquitous in the brain - best fit to a vast number of experimental results and therefore provide the most explanatory power: predictive coding as a top-down, and stochastic resonance as a complementary bottom-up mechanism. Furthermore, we argue that even though contemporary artificial intelligence and machine learning approaches largely lack biological plausibility, the models to be constructed will have to draw on concepts from these fields; since they provide a formal account of the requisite computations that underlie brain function. Nevertheless, biological fidelity will have to be addressed, allowing for testing possible treatment strategies in silico, before application in animal or patient studies. This iteration of computational and empirical studies may help to open the "black boxes" of both machine learning and the human brain.
翻訳日:2022-04-09 00:00:20 公開日:2022-04-07
# (参考訳) イベントトランスフォーマー。 効率的なイベントデータ処理のためのスパースアウェアソリューション [全文訳有]

Event Transformer. A sparse-aware solution for efficient event data processing ( http://arxiv.org/abs/2204.03355v1 )

ライセンス: CC BY-SA 4.0
Alberto Sabater and Luis Montesano and Ana C. Murillo(参考訳) イベントカメラは、低リソースで困難な環境で動作する多くのアプリケーションにとって非常に興味深いセンサーである。 時間分解能が高く、ダイナミックレンジも高いが、消費電力は最小限である。 しかし、トップパフォーマンスメソッドは特定のイベントデータプロパティを無視することが多く、汎用的だが計算コストの高いアルゴリズムの開発に繋がる。 効率的な解への取り組みは、通常、複雑なタスクの最高精度の結果を得られない。 この研究は、イベントデータプロパティを効果的に活用し、高効率で正確なイベントトランスフォーマー(EvT)という新しいフレームワークを提案する。 本稿では,新しいパッチベースのイベント表現と,それを処理するためのコンパクトトランスフォーマライクなアーキテクチャを提案する。 EvTは、アクションとジェスチャー認識のためのさまざまなイベントベースのベンチマークで評価される。 評価の結果、evtはgpuとcpuの両方で最小のレイテンシで動作可能にするため、計算リソースをはるかに少なくしながら、最先端と同等あるいは同等の精度を示している。

Event cameras are sensors of great interest for many applications that run in low-resource and challenging environments. They log sparse illumination changes with high temporal resolution and high dynamic range, while they present minimal power consumption. However, top-performing methods often ignore specific event-data properties, leading to the development of generic but computationally expensive algorithms. Efforts toward efficient solutions usually do not achieve top-accuracy results for complex tasks. This work proposes a novel framework, Event Transformer (EvT), that effectively takes advantage of event-data properties to be highly efficient and accurate. We introduce a new patch-based event representation and a compact transformer-like architecture to process it. EvT is evaluated on different event-based benchmarks for action and gesture recognition. Evaluation results show better or comparable accuracy to the state-of-the-art while requiring significantly less computation resources, which makes EvT able to work with minimal latency both on GPU and CPU.
翻訳日:2022-04-08 23:33:17 公開日:2022-04-07
# (参考訳) 表やテキスト上でのパラメータ効率の高い抽象的質問応答 [全文訳有]

Parameter-Efficient Abstractive Question Answering over Tables or Text ( http://arxiv.org/abs/2204.03357v1 )

ライセンス: CC BY 4.0
Vaishali Pal, Evangelos Kanoulas, Maarten de Rijke(参考訳) QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。 現在、メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応している。 パラメータ効率の良いアダプタは、トランスフォーマー層間で小さなタスク固有のボトルネック層を追加して訓練する。 本研究では,構造化表データおよび非構造化テキストデータに対するエンコーダ・デコーダモデルにおけるパラメータ効率の高い抽象的qaについて,各モーダリティに対する1.5%の追加パラメータのみを用いて検討する。 また、エンコーダとデコーダモジュールの両方のアダプタ層をアブレーションして、効率と性能のトレードオフを調査し、トレーニング可能なパラメータを0.7%-1.0%に減らして、同等の結果をもたらすことを示した。 本研究では,Tablesum や FeTaQA などの表形式 QA データセットの最先端モデルより優れており,NarrativeQA のようなテキスト型 QA データセットでは,微調整よりもトレーニング可能なパラメータが大幅に少ない。

A long-term ambition of information seeking QA systems is to reason over multi-modal contexts and generate natural answers to user queries. Today, memory intensive pre-trained language models are adapted to downstream tasks such as QA by fine-tuning the model on QA data in a specific modality like unstructured text or structured tables. To avoid training such memory-hungry models while utilizing a uniform architecture for each modality, parameter-efficient adapters add and train small task-specific bottle-neck layers between transformer layers. In this work, we study parameter-efficient abstractive QA in encoder-decoder models over structured tabular data and unstructured textual data using only 1.5% additional parameters for each modality. We also ablate over adapter layers in both encoder and decoder modules to study the efficiency-performan ce trade-off and demonstrate that reducing additional trainable parameters down to 0.7%-1.0% leads to comparable results. Our models out-perform current state-of-the-art models on tabular QA datasets such as Tablesum and FeTaQA, and achieve comparable performance on a textual QA dataset such as NarrativeQA using significantly less trainable parameters than fine-tuning.
翻訳日:2022-04-08 23:17:56 公開日:2022-04-07
# (参考訳) 1型糖尿病患者における血糖コントロールのためのオフライン強化学習 [全文訳有]

Offline Reinforcement Learning for Safer Blood Glucose Control in People with Type 1 Diabetes ( http://arxiv.org/abs/2204.03376v1 )

ライセンス: CC BY 4.0
Harry Emerson, Matt Guy and Ryan McConville(参考訳) ハイブリッドクローズドループシステムは1型糖尿病(T1D)患者のケアの未来を表す。 これらの装置は通常、単純な制御アルゴリズムを使用して、健康な範囲で血糖値を維持するのに最適なインスリン量を選択する。 オンライン強化学習(RL)は、これらのデバイスにおけるグルコース制御をさらに強化する方法として利用されてきた。 従来のアプローチは、古典的な制御アルゴリズムと比較して患者リスクを減らし、目標範囲に費やした時間を改善することが示されているが、学習過程において不安定になりがちであり、多くの場合、安全でない行動を選択する。 本研究は、患者との相互作用を必要とせず、臨床的に効果的な投与ポリシーを開発する手段として、オフラインRLの評価を行う。 本稿では, UVA/Padova 血糖動態シミュレータにおいて, 血液グルコース管理におけるBCQ, CQL, TD3-BCの有用性を検討した。 オンラインのRLアプローチで必要とされるデータのうち10分の1以下をトレーニングすると、オフラインのRLは、最先端の最先端のベースラインと比較して、健康な血糖値の範囲の時間を大幅に増加させることができる。 これは血糖値の低下を伴わずに達成される。 オフラインrlは、不正確なボラス投与、不規則な食事のタイミング、副最適化のトレーニングデータなど、一般的な挑戦的なシナリオを修正できることも示されている。

Hybrid closed loop systems represent the future of care for people with type 1 diabetes (T1D). These devices usually utilise simple control algorithms to select the optimal insulin dose for maintaining blood glucose levels within a healthy range. Online reinforcement learning (RL) has been utilised as a method for further enhancing glucose control in these devices. Previous approaches have been shown to reduce patient risk and improve time spent in the target range when compared to classical control algorithms, but are prone to instability in the learning process, often resulting in the selection of unsafe actions. This work presents an evaluation of offline RL as a means for developing clinically effective dosing policies without the need for patient interaction. This paper examines the utility of BCQ, CQL and TD3-BC in managing the blood glucose of nine virtual patients within the UVA/Padova glucose dynamics simulator. When trained on less than a tenth of the data required by online RL approaches, this work shows that offline RL can significantly increase time in the healthy blood glucose range when compared to the strongest state-of-art baseline. This is achieved without any associated increase in low blood glucose events. Offline RL is also shown to be able to correct for common and challenging scenarios such as incorrect bolus dosing, irregular meal timings and sub-optimal training data.
翻訳日:2022-04-08 23:01:34 公開日:2022-04-07
# (参考訳) スペクトログラムインパインティングによる誤用音声の補正 [全文訳有]

Correcting Misproducted Speech using Spectrogram Inpainting ( http://arxiv.org/abs/2204.03379v1 )

ライセンス: CC BY 4.0
Talia Ben-Simon, Felix Kreuk, Faten Awwad, Jacob T. Cohen, Joseph Keshet(参考訳) 新しい言語を学ぶには、環境からの参照生成と音声生成を常に比較する必要がある。 言語習得の初期段階において、子どもたちは介護者のスピーチに合わせて調音調整を行う。 成長する言語の学習者は、教師参照に合わせるためにスピーチを微調整します。 本稿では,不正確な発音フィードバックを合成的に生成する手法を提案する。 さらに,本研究の目的は,話者のオリジナル音声を維持しながら,補正された音声を生成することである。 このシステムは、ユーザーにフレーズを発音するよう促す。 音声が記録され、不正確な音素に関連するサンプルがゼロでマスクされる。 この波形は、音声生成装置への入力として機能し、U-netアーキテクチャによるディープラーニング塗装システムとして実装され、再構成された音声を出力するように訓練される。 訓練セットは、不正な固有音声例で構成され、生成器は、元の固有音声を再構築するように訓練される。 発音障害児と同様に英語の最小対の単語を音素置換するシステムの性能を評価した。 その結果,人間の聞き手は,不正確な音素を異なる話者に置き換えるよりも,生成した音声をわずかに好んでいることが示唆された。

Learning a new language involves constantly comparing speech productions with reference productions from the environment. Early in speech acquisition, children make articulatory adjustments to match their caregivers' speech. Grownup learners of a language tweak their speech to match the tutor reference. This paper proposes a method to synthetically generate correct pronunciation feedback given incorrect production. Furthermore, our aim is to generate the corrected production while maintaining the speaker's original voice. The system prompts the user to pronounce a phrase. The speech is recorded, and the samples associated with the inaccurate phoneme are masked with zeros. This waveform serves as an input to a speech generator, implemented as a deep learning inpainting system with a U-net architecture, and trained to output a reconstructed speech. The training set is composed of unimpaired proper speech examples, and the generator is trained to reconstruct the original proper speech. We evaluated the performance of our system on phoneme replacement of minimal pair words of English as well as on children with pronunciation disorders. Results suggest that human listeners slightly prefer our generated speech over a smoothed replacement of the inaccurate phoneme with a production of a different speaker.
翻訳日:2022-04-08 22:46:30 公開日:2022-04-07
# (参考訳) テキストビデオ用hunyuan_tvr [全文訳有]

HunYuan_tvr for Text-Video Retrivial ( http://arxiv.org/abs/2204.03382v1 )

ライセンス: CC BY 4.0
Shaobo Min, Weijie Kong, Rong-Cheng Tu, Dihong Gong, Chengfei Cai, Wenzhe Zhao, Chenyang Liu, Sixiao Zheng, Hongfa Wang, Zhifeng Li, Wei Liu(参考訳) テキストビデオ検索はマルチモーダル理解において重要な役割を担い、近年注目を集めている。 既存のほとんどの手法は、ビデオ全体と完全な字幕文間のコントラスト的なペアの構築に重点を置いており、例えば短いクリップやフレーズや単一のフレームや単語のような細粒度の相互関係を無視している。 本稿では,ビデオ文,クリップフレーズ,フレームワード関係を同時に探索することにより,階層的相互モーダル相互作用を探索する,HunYuan\_tvrという新しい手法を提案する。 HunYuan\_tvrはフレーム間の本質的な意味関係を考慮し、まずフレームワイドな相関を探索し、相関したフレームをクリップレベルの表現に適応的にクラスタリングする。 そこで, クリップワイド相関を用いて, クリップ表現をコンパクトに集約し, 映像を世界規模で表現する。 このように、フレーム・クリップ・ビデオの粒度に対する階層的なビデオ表現を構築し、単語間の相関を探索し、テキストモダリティのためのワード・フレーズ・センテンス埋め込みを形成することができる。 最後に、階層的コントラスト学習は、フレームワード、クリップフレーズ、ビデオセンテンスといったクロスモーダル関係を探索するために設計されており、hunyuan\_tvrが包括的なマルチモーダル理解を達成することができる。 HunYuan\_tvrは、アダプティブラベルのデノシングと限界サンプルの強化によってさらに強化され、様々なベンチマークで、例えば、Right@1 of 55.0%, 57.8%, 29.7%, 52.1%, 57.3% on MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNetなど、新しい最先端の結果が得られる。

Text-Video Retrieval plays an important role in multi-modal understanding and has attracted increasing attention in recent years. Most existing methods focus on constructing contrastive pairs between whole videos and complete caption sentences, while ignoring fine-grained cross-modal relationships, e.g., short clips and phrases or single frame and word. In this paper, we propose a novel method, named HunYuan\_tvr, to explore hierarchical cross-modal interactions by simultaneously exploring video-sentence, clip-phrase, and frame-word relationships. Considering intrinsic semantic relations between frames, HunYuan\_tvr first performs self-attention to explore frame-wise correlations and adaptively clusters correlated frames into clip-level representations. Then, the clip-wise correlation is explored to aggregate clip representations into a compact one to describe the video globally. In this way, we can construct hierarchical video representations for frame-clip-video granularities, and also explore word-wise correlations to form word-phrase-sentence embeddings for the text modality. Finally, hierarchical contrastive learning is designed to explore cross-modal relationships,~\emph {i.e.,} frame-word, clip-phrase, and video-sentence, which enables HunYuan\_tvr to achieve a comprehensive multi-modal understanding. Further boosted by adaptive label denosing and marginal sample enhancement, HunYuan\_tvr obtains new state-of-the-art results on various benchmarks, e.g., Rank@1 of 55.0%, 57.8%, 29.7%, 52.1%, and 57.3% on MSR-VTT, MSVD, LSMDC, DiDemo, and ActivityNet respectively.
翻訳日:2022-04-08 22:33:40 公開日:2022-04-07
# (参考訳) 限界制約下における最大エントロピーのカテゴリー分布 [全文訳有]

Categorical Distributions of Maximum Entropy under Marginal Constraints ( http://arxiv.org/abs/2204.03406v1 )

ライセンス: CC BY 4.0
Orestis Loukas, Ho Ryun Chung(参考訳) 最も一般的な方法で集団からサンプルを要約する限界制約の下でのカテゴリー分布の推定は、多くの機械学習とデータ駆動アプローチにとって鍵となる。 このタスクの保証を可能にするパラメータ非依存の理論的枠組みを提供する (i)限界制約の下での最大エントロピーのカテゴリー分布が常に存在すること、及び (ii)独特であること。 反復比例フィッティング(IPF)の手順は自然に、確率空間における任意の一貫した限界制約の集合からの分布を推定するので、人口の最も偏りのない特徴を導出的に特定する。 IPFと共に理論フレームワークは、提供された現象学的情報のみを用いて分類分布のクラスをモデリングできる包括的なワークフローをもたらす。

The estimation of categorical distributions under marginal constraints summarizing some sample from a population in the most-generalizable way is key for many machine-learning and data-driven approaches. We provide a parameter-agnostic theoretical framework that enables this task ensuring (i) that a categorical distribution of Maximum Entropy under marginal constraints always exists and (ii) that it is unique. The procedure of iterative proportional fitting (IPF) naturally estimates that distribution from any consistent set of marginal constraints directly in the space of probabilities, thus deductively identifying a least-biased characterization of the population. The theoretical framework together with IPF leads to a holistic workflow that enables modeling any class of categorical distributions solely using the phenomenological information provided.
翻訳日:2022-04-08 22:21:05 公開日:2022-04-07
# (参考訳) maestro: モダリティマッチングによるマッチした音声テキスト表現 [全文訳有]

MAESTRO: Matched Speech Text Representations through Modality Matching ( http://arxiv.org/abs/2204.03409v1 )

ライセンス: CC BY 4.0
Zhehuai Chen, Yu Zhang, Andrew Rosenberg, Bhuvana Ramabhadran, Pedro Moreno, Ankur Bapna, Heiga Zen(参考訳) 音声とテキストのモダリティから学習した表現を統一する自己教師型学習手法であるMaestroを提案する。 音声信号からの自己教師型学習は、信号に固有の潜伏構造を学習することを目的としており、テキストからの自己教師型学習は語彙情報を捉えようとする。 非ペア音声とテキストシーケンスからのアライメント表現の学習は難しい課題である。 以前の研究では、これらの2つのモダリティから学んだ表現を、マルチタスクとパラメータ共有、あるいは音声合成によるモダリティの変換を通じて、潜在空間で整列するように暗黙的に強制していた。 前者は2つのモダリティ間の干渉に苦しむが、後者はさらなる複雑さをもたらす。 本稿では,自動音声認識 (asr) や音声翻訳 (st) など,下流のさまざまなタスクに同時移行可能な,これら2つのモダリティから統一表現を学習するアルゴリズムであるmaestroを提案する。 Maestroは、シーケンスアライメント、期間予測、学習空間へのマッチング埋め込みを通じて、整列されたマスク付き言語モデル損失を通じて統一表現を学習する。 11%の単語誤り率(wer)、マルチドメイン音声認識(3.7%の相対性)、21の言語をcovost 2上の英語のstに翻訳し、21言語以上で平均2.8 bleuの改善を行ったvoxpopuli多言語asrの新たな最先端(sota)を確立した。

We present Maestro, a self-supervised training method to unify representations learnt from speech and text modalities. Self-supervised learning from speech signals aims to learn the latent structure inherent in the signal, while self-supervised learning from text attempts to capture lexical information. Learning aligned representations from unpaired speech and text sequences is a challenging task. Previous work either implicitly enforced the representations learnt from these two modalities to be aligned in the latent space through multitasking and parameter sharing or explicitly through conversion of modalities via speech synthesis. While the former suffers from interference between the two modalities, the latter introduces additional complexity. In this paper, we propose Maestro, a novel algorithm to learn unified representations from both these modalities simultaneously that can transfer to diverse downstream tasks such as Automated Speech Recognition (ASR) and Speech Translation (ST). Maestro learns unified representations through sequence alignment, duration prediction and matching embeddings in the learned space through an aligned masked-language model loss. We establish a new state-of-the-art (SOTA) on VoxPopuli multilingual ASR with a 11% relative reduction in Word Error Rate (WER), multidomain SpeechStew ASR (3.7% relative) and 21 languages to English multilingual ST on CoVoST 2 with an improvement of 2.8 BLEU averaged over 21 languages.
翻訳日:2022-04-08 21:52:07 公開日:2022-04-07
# (参考訳) クラスインクリメンタル学習のための事前学習表現によるインクリメンタルプロトタイププロンプトチューニング [全文訳有]

Incremental Prototype Prompt-tuning with Pre-trained Representation for Class Incremental Learning ( http://arxiv.org/abs/2204.03410v1 )

ライセンス: CC BY 4.0
Jieren Deng and Jianhua Hu and Haojian Zhang and Yunkuan Wang(参考訳) クラスインクリメンタルラーニングは多くの注目を集めているが、既存のほとんどの研究は依然として表現モデルを微調整し続けており、悲惨なほど忘れてしまう。 既存のほとんどの方法と同様に、リプレイや蒸留によってそのような忘れ物と戦うのに苦労する代わりに、私たちは、インクリメンタルプロトタイププロンプトチューニング(IPP)によって、固定された意味豊かな事前学習表現モデルに基づいて、新しい視覚概念を逐次学習する事前学習パラダイムを採用し、破滅的な忘れ物を大幅に減少させる。 さらに,異なる位相における学習バイアスに起因する問題である意味的ドリフトを補うために,プロトタイプ分類の例を提案する。 3つのインクリメンタル・ラーニング・ベンチマークで行った広範囲な実験は、この手法が最先端の他の手法よりも大きなマージンで一貫して優れていることを示している。

Class incremental learning has attracted much attention, but most existing works still continually fine-tune the representation model, resulting in much catastrophic forgetting. Instead of struggling to fight against such forgetting by replaying or distillation like most of the existing methods, we take the pre-train-and-prompt -tuning paradigm to sequentially learn new visual concepts based on a fixed semantic rich pre-trained representation model by incremental prototype prompt-tuning (IPP), which substantially reduces the catastrophic forgetting. In addition, an example prototype classification is proposed to compensate for semantic drift, the problem caused by learning bias at different phases. Extensive experiments conducted on the three incremental learning benchmarks demonstrate that our method consistently outperforms other state-of-the-art methods with a large margin.
翻訳日:2022-04-08 21:37:56 公開日:2022-04-07
# (参考訳) クラス依存型IoTノード上でのエネルギー効率の高い適応機械学習 [全文訳有]

Energy-Efficient Adaptive Machine Learning on IoT End-Nodes With Class-Dependent Confidence ( http://arxiv.org/abs/2204.03431v1 )

ライセンス: CC BY 4.0
Francesco Daghero, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini, Enrico Macii, Massimo Poncino(参考訳) エッジデバイス上で直接実行できるエネルギー効率のよい機械学習モデルは、ネットワークのプレッシャーとレスポンスレイテンシを低減し、プライバシを改善することができるため、IoTアプリケーションに非常に関心がある。 少ない精度でエネルギー効率を得る効果的な方法は、より複雑なモデルのセットを順次実行し、最小のモデルで確実に分類できる「簡単」入力の手順を早期に行うことである。 停止基準として、現在の手法では各モデルが生成する出力確率に1つのしきい値を用いる。 本研究では,異なる複雑性のクラスを含むデータセットに対して,そのような基準が準最適であることを示し,クラスごとのしきい値に基づくより一般的なアプローチを示す。 低消費電力エンドノードを用いた実験により,本手法はシングルスレッショルド方式に比べてエネルギー消費を大幅に削減できることを示した。

Energy-efficient machine learning models that can run directly on edge devices are of great interest in IoT applications, as they can reduce network pressure and response latency, and improve privacy. An effective way to obtain energy-efficiency with small accuracy drops is to sequentially execute a set of increasingly complex models, early-stopping the procedure for "easy" inputs that can be confidently classified by the smallest models. As a stopping criterion, current methods employ a single threshold on the output probabilities produced by each model. In this work, we show that such a criterion is sub-optimal for datasets that include classes of different complexity, and we demonstrate a more general approach based on per-classes thresholds. With experiments on a low-power end-node, we show that our method can significantly reduce the energy consumption compared to the single-threshold approach.
翻訳日:2022-04-08 21:23:58 公開日:2022-04-07
# (参考訳) 内視鏡画像解析のためのタスクアウェア能動学習 [全文訳有]

Task-Aware Active Learning for Endoscopic Image Analysis ( http://arxiv.org/abs/2204.03440v1 )

ライセンス: CC BY 4.0
Shrawan Kumar Thapa, Pranav Poudel, Binod Bhattarai, Danail Stoyanov(参考訳) ポリープのセグメンテーションと深さ推定は内視鏡画像解析における2つの重要な研究課題である。 これらの研究課題の研究を行う主な障害の1つは、注釈付きデータの欠如である。 内視鏡的アノテーションは、専門的内科医の専門知識を必要とするため、組織化、費用、時間の浪費が困難である。 この問題に対処するために,本研究では,対象課題に対して最も識別的かつ多様でない例を選択することで,学習例数を減らすためのアクティブラーニングパラダイムを検討する。 既存のアクティブな学習パイプラインのほとんどは、本質的にタスク非依存であり、多くの場合、最終タスクに準最適である。 本稿では,新しいタスク対応能動学習パイプラインを提案し,内視鏡画像解析における2つの重要な課題であるセグメンテーションと深さ推定に適用する。 本手法を競合ベースラインと比較した。 実験結果から,比較基準値に対して有意に改善が見られた。 コードはhttps://github.com/t hetna/endo-active-le arnで入手できる。

Semantic segmentation of polyps and depth estimation are two important research problems in endoscopic image analysis. One of the main obstacles to conduct research on these research problems is lack of annotated data. Endoscopic annotations necessitate the specialist knowledge of expert endoscopists and due to this, it can be difficult to organise, expensive and time consuming. To address this problem, we investigate an active learning paradigm to reduce the number of training examples by selecting the most discriminative and diverse unlabelled examples for the task taken into consideration. Most of the existing active learning pipelines are task-agnostic in nature and are often sub-optimal to the end task. In this paper, we propose a novel task-aware active learning pipeline and applied for two important tasks in endoscopic image analysis: semantic segmentation and depth estimation. We compared our method with the competitive baselines. From the experimental results, we observe a substantial improvement over the compared baselines. Codes are available at https://github.com/t hetna/endo-active-le arn.
翻訳日:2022-04-08 21:15:51 公開日:2022-04-07
# (参考訳) 教師なしソースフリードメイン適応のためのヤコビアンノルム [全文訳有]

Jacobian Norm for Unsupervised Source-Free Domain Adaptation ( http://arxiv.org/abs/2204.03467v1 )

ライセンス: CC BY 4.0
Weikai Li, Meng Cao and Songcan Chen(参考訳) unsupervised source (data) free domain adaptation (usfda)は、よく訓練されたソースモデルから関連するがラベルなしのターゲットドメインに知識を転送することを目的としている。 このようなシナリオでは、ソースデータを必要とする従来の適応メソッドはすべてフェールする。 この課題に対処するため、既存のusfdaは、ソースモデルに隠された潜在分布にターゲット機能を調整することによって、知識を転送する。 しかし、そのような情報は自然に限られている。 したがって、そのようなシナリオにおけるアライメントは困難であるばかりでなく、目標の一般化性能を低下させる不十分である。 現在のusfdaにおけるこのジレンマを緩和するために、私たちは、パフォーマンスを高めるための新しい視点を探求する動機があります。 この目的と必要な洞察を得るために、まずドメイン適応の起源を振り返り、まずモデル滑らか性に基づいて新しいブランドのターゲット一般化誤差を導出する。 そして、理論的な洞察に従って、このジレンマを緩和するために、一般およびモデルスムーズ誘導ジャコビアンノルム(JN)正則化器が設計され、対象領域に課される。 その効果を検証するために広範な実験が行われている。 その実装では、既存のFDAに数行のコードを追加するだけで、さまざまなベンチマークデータセットで優れた結果が得られます。

Unsupervised Source (data) Free domain adaptation (USFDA) aims to transfer knowledge from a well-trained source model to a related but unlabeled target domain. In such a scenario, all conventional adaptation methods that require source data fail. To combat this challenge, existing USFDAs turn to transfer knowledge by aligning the target feature to the latent distribution hidden in the source model. However, such information is naturally limited. Thus, the alignment in such a scenario is not only difficult but also insufficient, which degrades the target generalization performance. To relieve this dilemma in current USFDAs, we are motivated to explore a new perspective to boost their performance. For this purpose and gaining necessary insight, we look back upon the origin of the domain adaptation and first theoretically derive a new-brand target generalization error bound based on the model smoothness. Then, following the theoretical insight, a general and model-smoothness-gui ded Jacobian norm (JN) regularizer is designed and imposed on the target domain to mitigate this dilemma. Extensive experiments are conducted to validate its effectiveness. In its implementation, just with a few lines of codes added to the existing USFDAs, we achieve superior results on various benchmark datasets.
翻訳日:2022-04-08 21:06:53 公開日:2022-04-07
# (参考訳) imagenet: あらゆるバックボーンをトップ結果にトレーニングするための統一スキーム [全文訳有]

Solving ImageNet: a Unified Scheme for Training any Backbone to Top Results ( http://arxiv.org/abs/2204.03475v1 )

ライセンス: CC BY 4.0
Tal Ridnik, Hussam Lawen, Emanuel Ben-Baruch, Asaf Noy(参考訳) ImageNetはコンピュータビジョンモデルの品質を評価するための主要なデータセットである。 今日の一般的な実践は、専門家によって設計、調整された仕組で各アーキテクチャを訓練することである。 本稿では,imagenet上でバックボーンをトレーニングするための統一スキームを提案する。 USI(Unified Scheme for ImageNet)と名付けられたこのスキームは、知識蒸留と現代的なトリックに基づいている。 異なるモデル間の調整やハイパーパラメータチューニングは不要で、トレーニング時間の観点からは効率的である。 我々は,CNN,トランスフォーマー,モバイル指向,MPPのみを含む,さまざまなアーキテクチャでUSIをテストする。 テストされたすべてのモデルにおいて、USIは過去の最先端の結果を上回っている。 したがって、imagenetのトレーニングをエキスパート指向のタスクから自動シームレスなルーチンに変換することができます。 USIは任意のバックボーンを受け入れてトップにトレーニングするため、方法論的な比較を行い、速度精度のパレート曲線に沿って最も効率的なバックボーンを特定することもできる。 実装は、https://github.com/A libaba-MIIL/Solving_ ImageNetで公開されている。

ImageNet serves as the primary dataset for evaluating the quality of computer-vision models. The common practice today is training each architecture with a tailor-made scheme, designed and tuned by an expert. In this paper, we present a unified scheme for training any backbone on ImageNet. The scheme, named USI (Unified Scheme for ImageNet), is based on knowledge distillation and modern tricks. It requires no adjustments or hyper-parameters tuning between different models, and is efficient in terms of training times. We test USI on a wide variety of architectures, including CNNs, Transformers, Mobile-oriented and MLP-only. On all models tested, USI outperforms previous state-of-the-art results. Hence, we are able to transform training on ImageNet from an expert-oriented task to an automatic seamless routine. Since USI accepts any backbone and trains it to top results, it also enables to perform methodical comparisons, and identify the most efficient backbones along the speed-accuracy Pareto curve. Implementation is available at:https://github.co m/Alibaba-MIIL/Solvi ng_ImageNet
翻訳日:2022-04-08 20:47:50 公開日:2022-04-07
# (参考訳) プッシュ・グラッピングのための深層強化学習の長期的行動の最適化

Optimizing the Long-Term Behaviour of Deep Reinforcement Learning for Pushing and Grasping ( http://arxiv.org/abs/2204.03487v1 )

ライセンス: CC BY 4.0
Rodrigo Chau(参考訳) 我々は,Zengらによる"Visual Pushing for Grasping"(VPG)システムと,Ewertonらによる"Hourglass"システムについて検討した。 私たちの研究の焦点は、長期的な報酬と政策を学ぶ両方のシステムの能力の調査です。 Zeng et al. オリジナルのタスクは、限られた事前監視しか必要としない。 Ewerton et al.は、最も迅速な行動のみを考慮したエージェントを使用して、最高のパフォーマンスを得る。 長期的なq値を正確に予測するためのモデルやトレーニングアルゴリズムの能力に興味があります。 この能力を評価するために,新しいビンソートタスクと報酬関数を設計した。 本課題は,エージェントが将来の報酬を正確に推定すること,従って,q値計算に高い割引係数を用いることである。 本稿では,この課題に対するVPGトレーニングアルゴリズムの適応動作について検討する。 この適応は, 長期的行動系列を正確に予測できないことを示す。 Ewertonらによって特定される制限に加えて、過大評価されたQ値のDeep Q-Learning問題に悩まされている。 課題を解決するために、Hourglassモデルに目を向け、それをDouble Q-Learningアプローチと組み合わせる。 提案手法により,大規模な割引要因でトレーニングされた場合,モデルが長期動作シーケンスを正確に予測できることを示す。 その結果,モデルのq値予測が異なってくるため,割引率の高いトレーニングには二重q学習技術が不可欠であることがわかった。 また,割引率スケジューリング,損失計算,探索手順について実験を行った。 以上の結果から,後者の要因は,課題に対するモデルの性能に有意な影響を与えないことが示された。

We investigate the "Visual Pushing for Grasping" (VPG) system by Zeng et al. and the "Hourglass" system by Ewerton et al., an evolution of the former. The focus of our work is the investigation of the capabilities of both systems to learn long-term rewards and policies. Zeng et al. original task only needs a limited amount of foresight. Ewerton et al. attain their best performance using an agent which only takes the most immediate action under consideration. We are interested in the ability of their models and training algorithms to accurately predict long-term Q-Values. To evaluate this ability, we design a new bin sorting task and reward function. Our task requires agents to accurately estimate future rewards and therefore use high discount factors in their Q-Value calculation. We investigate the behaviour of an adaptation of the VPG training algorithm on our task. We show that this adaptation can not accurately predict the required long-term action sequences. In addition to the limitations identified by Ewerton et al., it suffers from the known Deep Q-Learning problem of overestimated Q-Values. In an effort to solve our task, we turn to the Hourglass models and combine them with the Double Q-Learning approach. We show that this approach enables the models to accurately predict long-term action sequences when trained with large discount factors. Our results show that the Double Q-Learning technique is essential for training with very high discount factors, as the models Q-Value predictions diverge otherwise. We also experiment with different approaches for discount factor scheduling, loss calculation and exploration procedures. Our results show that the latter factors do not visibly influence the model's performance for our task.
翻訳日:2022-04-08 20:34:43 公開日:2022-04-07
# (参考訳) 自然言語処理におけるマルチタスク学習の実態調査--タスク関連性と学習方法について [全文訳有]

A Survey of Multi-task Learning in Natural Language Processing: Regarding Task Relatedness and Training Methods ( http://arxiv.org/abs/2204.03508v1 )

ライセンス: CC BY 4.0
Zhihan Zhang, Wenhao Yu, Mengxia Yu, Zhichun Guo, Meng Jiang(参考訳) マルチタスク学習 (MTL) は, 自然言語処理 (NLP) において, 共通性や相違点を生かして, 関連タスクの性能向上を図っている。 にもかかわらず、マルチタスク学習がトレーニングタスクの関連性に基づいてどのように実装できるかは、まだよく理解されていない。 本研究では,NLPにおけるマルチタスク学習手法の最近の進歩を概観し,タスク関連性に基づく2つの一般的なマルチタスク学習手法にまとめる。 (i)ジョイントトレーニング、及び (ii)多段階訓練。 我々は,様々なnlp下流アプリケーションの例を示し,タスク関係を要約し,この課題の今後の方向性について考察する。

Multi-task learning (MTL) has become increasingly popular in natural language processing (NLP) because it improves the performance of related tasks by exploiting their commonalities and differences. Nevertheless, it is still not understood very well how multi-task learning can be implemented based on the relatedness of training tasks. In this survey, we review recent advances of multi-task learning methods in NLP, with the aim of summarizing them into two general multi-task training methods based on their task relatedness: (i) joint training and (ii) multi-step training. We present examples in various NLP downstream applications, summarize the task relationships and discuss future directions of this promising topic.
翻訳日:2022-04-08 20:33:11 公開日:2022-04-07
# (参考訳) 効率的なフレーム補間のための多対多スプレーティング [全文訳有]

Many-to-many Splatting for Efficient Video Frame Interpolation ( http://arxiv.org/abs/2204.03513v1 )

ライセンス: CC BY 4.0
Ping Hu, Simon Niklaus, Stan Sclaroff, Kate Saenko(参考訳) モーションベースのビデオフレーム補間は通常、入力から所望の補間インスタントにピクセルをゆがめるために光フローに依存する。 しかし、運動推定の固有の課題(例えば、咬合や不連続など)により、ほとんどの最先端の補間アプローチでは、後続の結果を改良して満足のいく出力を生成する必要があり、マルチフレーム補間の効率が劇的に低下する。 本研究では,フレームを効率的に補間するための完全微分可能な多対多(m2m)スプレーティングフレームワークを提案する。 具体的には、フレーム対が与えられた場合、複数の双方向フローを推定し、画素を直接所望の時間ステップにワープし、重なり合うピクセルを融合させる。 これにより、各ソースピクセルは複数のターゲット画素をレンダリングし、各ターゲットピクセルはより広い視野の視覚的コンテキストから合成することができる。 これにより、穴のようなアーティファクトに対して堅牢な多対多のスメッティングスキームが確立される。 さらに、各入力フレーム対に対して、M2Mは1回のみ動作推定を行い、任意の数のフレーム間を補間する際の計算オーバーヘッドを極小にするので、高速なマルチフレーム補間を実現する。 m2m分析のために広範な実験を行い,高い効率を維持しつつ効率を大幅に向上させることがわかった。

Motion-based video frame interpolation commonly relies on optical flow to warp pixels from the inputs to the desired interpolation instant. Yet due to the inherent challenges of motion estimation (e.g. occlusions and discontinuities), most state-of-the-art interpolation approaches require subsequent refinement of the warped result to generate satisfying outputs, which drastically decreases the efficiency for multi-frame interpolation. In this work, we propose a fully differentiable Many-to-Many (M2M) splatting framework to interpolate frames efficiently. Specifically, given a frame pair, we estimate multiple bidirectional flows to directly forward warp the pixels to the desired time step, and then fuse any overlapping pixels. In doing so, each source pixel renders multiple target pixels and each target pixel can be synthesized from a larger area of visual context. This establishes a many-to-many splatting scheme with robustness to artifacts like holes. Moreover, for each input frame pair, M2M only performs motion estimation once and has a minuscule computational overhead when interpolating an arbitrary number of in-between frames, hence achieving fast multi-frame interpolation. We conducted extensive experiments to analyze M2M, and found that it significantly improves efficiency while maintaining high effectiveness.
翻訳日:2022-04-08 20:13:49 公開日:2022-04-07
# (参考訳) Habitat-Web: スケールでの人間デモから身体的オブジェクト検索戦略を学ぶ [全文訳有]

Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale ( http://arxiv.org/abs/2204.03514v1 )

ライセンス: CC BY 4.0
Ram Ramrakhya and Eric Undersander and Dhruv Batra and Abhishek Das(参考訳) 本研究では, 仮想ロボットが新しい環境の物体を探索するために必要なタスクにおいて, 人間の実演を模倣する大規模な研究について述べる。(1) オブジェクトゴールナビゲーション(例えば, 椅子へ行きなさい)と(2) ピック&プレイス(例えば, フィンドマグ、ピックマグ、カウンタ、ポットマグ、カウンターをカウンターに置きます)。 First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)? ObjectNavでは,70k人の実演を用いたIL(ベルや笛のない)が240kのエージェント収集軌道でRLを上回っていることがわかった。 ILで訓練されたエージェントは、効率的な物体探索の振る舞いを示します -- 部屋を覗き込み、小さな物体の隅を覗き込み、パノラマ的な視界を得るために回転します -- これらはいずれもRLエージェントによって顕著に示されません。 最後に、正確性とトレーニングデータサイズプロットは有望なスケーリング動作を示し、より多くのデモンストレーションを収集するだけで、さらなる最先端技術がもたらされる可能性が示唆されている。 ピック&プレースでは、ilエージェントが9.5kの人間のデモンストレーションで訓練された場合、新しいオブジェクトレセプタクルロケーションでエピソードで${\sim}$18%の成功を収める一方、rlエージェントは0%を超えない。 全体として、我々の研究は大規模な模倣学習に投資するための説得力のある証拠を提供する。 プロジェクトページ: https://ram81.github .io/projects/habitat -web

We present a large-scale study of imitating human demonstrations on tasks that require a virtual robot to search for objects in new environments -- (1) ObjectGoal Navigation (e.g. 'find & go to a chair') and (2) Pick&Place (e.g. 'find mug, pick mug, find counter, place mug on counter'). First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)? On ObjectNav, we find that IL (with no bells or whistles) using 70k human demonstrations outperforms RL using 240k agent-gathered trajectories. The IL-trained agent demonstrates efficient object-search behavior -- it peeks into rooms, checks corners for small objects, turns in place to get a panoramic view -- none of these are exhibited as prominently by the RL agent, and to induce these behaviors via RL would require tedious reward engineering. Finally, accuracy vs. training data size plots show promising scaling behavior, suggesting that simply collecting more demonstrations is likely to advance the state of art further. On Pick&Place, the comparison is starker -- IL agents achieve ${\sim}$18% success on episodes with new object-receptacle locations when trained with 9.5k human demonstrations, while RL agents fail to get beyond 0%. Overall, our work provides compelling evidence for investing in large-scale imitation learning. Project page: https://ram81.github .io/projects/habitat -web.
翻訳日:2022-04-08 19:58:33 公開日:2022-04-07
# (参考訳) FedADMM: システムの不均一性に適応するロバストな深層学習フレームワーク [全文訳有]

FedADMM: A Robust Federated Deep Learning Framework with Adaptivity to System Heterogeneity ( http://arxiv.org/abs/2204.03529v1 )

ライセンス: CC0 1.0
Yonghai Gong, Yichuan Li, Nikolaos M. Freris(参考訳) フェデレーション・ラーニング(英語: federated learning, fl)は、通信帯域の制限、データ分布と計算資源の多様性、およびプライバシーの考慮を受けるエッジデバイスによる大規模データボリュームの分散処理のための新しいフレームワークである。 本稿では,プリマル・デュアル最適化に基づくfedammと呼ばれる新しいflプロトコルを提案する。 提案手法は,2つの変数を用いて統計的不均一性に対処し,クライアントの作業量の変動を許容することでシステム不均一性に対応する。 FedADMMはFedAvg/Proxと同じ通信コストを維持し、拡張されたラグランジアンを通じてそれらを一般化する。 非凸目的に対しては、データの類似性や1ラウンドあたりの参加者数といった制限なく収束証明が確立される。 IIDデータと非IIDデータの両方をクライアントに分散して、実際のデータセットで広範な実験を行うことで、メリットを実証する。 FedADMMは、通信効率の点で全てのベースライン手法を一貫して上回り、所定の精度に達するのに必要なラウンドの数を最大87%削減した。 このアルゴリズムは、ハイパーパラメータチューニングを必要とせず、双対変数を用いて異種データ分布に効果的に対応し、その利点は大規模システムにおいてより顕著である。

Federated Learning (FL) is an emerging framework for distributed processing of large data volumes by edge devices subject to limited communication bandwidths, heterogeneity in data distributions and computational resources, as well as privacy considerations. In this paper, we introduce a new FL protocol termed FedADMM based on primal-dual optimization. The proposed method leverages dual variables to tackle statistical heterogeneity, and accommodates system heterogeneity by tolerating variable amount of work performed by clients. FedADMM maintains identical communication costs per round as FedAvg/Prox, and generalizes them via the augmented Lagrangian. A convergence proof is established for nonconvex objectives, under no restrictions in terms of data dissimilarity or number of participants per round of the algorithm. We demonstrate the merits through extensive experiments on real datasets, under both IID and non-IID data distributions across clients. FedADMM consistently outperforms all baseline methods in terms of communication efficiency, with the number of rounds needed to reach a prescribed accuracy reduced by up to 87%. The algorithm effectively adapts to heterogeneous data distributions through the use of dual variables, without the need for hyperparameter tuning, and its advantages are more pronounced in large-scale systems.
翻訳日:2022-04-08 19:29:18 公開日:2022-04-07
# (参考訳) 効率的なマルチスケールオブジェクトベーススーパーピクセルフレームワーク [全文訳有]

Efficient Multiscale Object-based Superpixel Framework ( http://arxiv.org/abs/2204.03533v1 )

ライセンス: CC BY 4.0
Felipe Bel\'em and Benjamin Perret and Jean Cousty and Silvio J. F. Guimar\~aes and Alexandre Falc\~ao(参考訳) スーパーピクセルのセグメンテーションは多くのアプリケーションで中間的なステップとして使われ、しばしばオブジェクトのデライン化を改善し、コンピュータのワークロードを減らす。 しかし、古典的な手法では所望のオブジェクトに関する情報は含まない。 ディープラーニングベースのアプローチはオブジェクト情報を扱うが、その記述性能はデータアノテーションに依存する。 さらに、オブジェクトベースのメソッドの計算時間は、通常、要求よりもはるかに高い。 そこで本研究では,マルチスケールセグメンテーションをオンザフライで生成可能なオブジェクト情報を活用する,SICLE(Iterative CLEarcutting)によるSuperpixelsという新しいスーパーピクセルフレームワークを提案する。 SICLEは、シードオーバーサンプリングから始まり、最適な接続ベースのスーパーピクセルデライン化とオブジェクトベースのシード削除を、望ましい数のスーパーピクセルに到達するまで繰り返す。 これは最近のスーパーピクセル法を一般化し、複数のデライン化指標に従って効率と効率性に関する最先端のアプローチを超越している。

Superpixel segmentation can be used as an intermediary step in many applications, often to improve object delineation and reduce computer workload. However, classical methods do not incorporate information about the desired object. Deep-learning-based approaches consider object information, but their delineation performance depends on data annotation. Additionally, the computational time of object-based methods is usually much higher than desired. In this work, we propose a novel superpixel framework, named Superpixels through Iterative CLEarcutting (SICLE), which exploits object information being able to generate a multiscale segmentation on-the-fly. SICLE starts off from seed oversampling and repeats optimal connectivity-based superpixel delineation and object-based seed removal until a desired number of superpixels is reached. It generalizes recent superpixel methods, surpassing them and other state-of-the-art approaches in efficiency and effectiveness according to multiple delineation metrics.
翻訳日:2022-04-08 18:57:48 公開日:2022-04-07
# (参考訳) 騒音ロボットプログラムの抽象化 [全文訳有]

Abstracting Noisy Robot Programs ( http://arxiv.org/abs/2204.03536v1 )

ライセンス: CC BY-SA 4.0
Till Hofmann, Vaishak Belle(参考訳) 抽象化は、重要な側面を保持しながら不要な詳細を省略することを目的として、より粗い仕様によって、低レベルのシステムを表現するために一般的に使用されるプロセスである。 近年,非確率的領域に着目した状況計算の抽象化に関する研究が進められているが,確率的および動的システムの抽象化へのアプローチについて述べる。 確率的信念を持つ状況計算の変種に基づいて, 騒音アクチュエータとセンサを用いた詳細な確率的基本動作理論を, 決定論的基本動作理論によって抽象化できるバイシミュレーションの概念を定義する。 これにより、不要な詳細を省略し、実際の実行のために詳細なプログラムに変換可能な抽象gologプログラムを得る。 これにより、ノイズの多いロボットプログラムの実装を単純化し、確率的問題に対する決定論的推論手法(例えば計画法)の使用可能性を開き、より理解しやすく説明しやすいドメイン記述を提供する。

Abstraction is a commonly used process to represent some low-level system by a more coarse specification with the goal to omit unnecessary details while preserving important aspects. While recent work on abstraction in the situation calculus has focused on non-probabilistic domains, we describe an approach to abstraction of probabilistic and dynamic systems. Based on a variant of the situation calculus with probabilistic belief, we define a notion of bisimulation that allows to abstract a detailed probabilistic basic action theory with noisy actuators and sensors by a possibly deterministic basic action theory. By doing so, we obtain abstract Golog programs that omit unnecessary details and which can be translated back to a detailed program for actual execution. This simplifies the implementation of noisy robot programs, opens up the possibility of using deterministic reasoning methods (e.g., planning) on probabilistic problems, and provides domain descriptions that are more easily understandable and explainable.
翻訳日:2022-04-08 18:40:58 公開日:2022-04-07
# (参考訳) 強い許容性, 扱いやすいアルゴリズム的アプローチ(証明)

Strong Admissibility, a Tractable Algorithmic Approach (proofs) ( http://arxiv.org/abs/2204.03551v1 )

ライセンス: CC BY 4.0
Martin Caminada, Sri Harikrishnan(参考訳) 許容性が優先的意味論の根底にある重要な概念であるのと同様に、強許容性は基底的意味論の根底にある重要な概念であり、強許容性集合の成員は基底的拡張の成員を示すのに十分である。 したがって、強許容集合とラベルリングは、例えば接地意味論の証明手順のいくつかでなされるように、接地拡張のメンバシップの説明として用いられる。 本稿では,特定の引数に対するmin-max数を含む比較的小さな強許容ラベリングを構成する2つの多項式アルゴリズムを提案する。 これらのラベルは、議論の接地拡大のメンバーシップの比較的小さな説明として使うことができる。 我々のアルゴリズムは、議論に対して絶対最小限の許容可能なラベルを与えるという保証はないが(そうすることで指数関数的な複雑さが示唆される)、我々の最高のアルゴリズムは、わずかに大きい結果をもたらす。 さらに、このアルゴリズムの実行時間は、特定の引数に対する絶対最小限の許容可能なラベル付けを計算するための既存のアプローチよりも桁違いに小さい。 このように、我々のアルゴリズムは、時間効率のよい方法で最小または最小の強許容ラベリングを構築することを目的としている状況において、実用的価値を持つことができると信じている。

Much like admissibility is the key concept underlying preferred semantics, strong admissibility is the key concept underlying grounded semantics, as membership of a strongly admissible set is sufficient to show membership of the grounded extension. As such, strongly admissible sets and labellings can be used as an explanation of membership of the grounded extension, as is for instance done in some of the proof procedures for grounded semantics. In the current paper, we present two polynomial algorithms for constructing relatively small strongly admissible labellings, with associated min-max numberings, for a particular argument. These labellings can be used as relatively small explanations for the argument's membership of the grounded extension. Although our algorithms are not guaranteed to yield an absolute minimal strongly admissible labelling for the argument (as doing do would have implied an exponential complexity), our best performing algorithm yields results that are only marginally bigger. Moreover, the runtime of this algorithm is an order of magnitude smaller than that of the existing approach for computing an absolute minimal strongly admissible labelling for a particular argument. As such, we believe that our algorithms can be of practical value in situations where the aim is to construct a minimal or near-minimal strongly admissible labelling in a time-efficient way.
翻訳日:2022-04-08 18:07:35 公開日:2022-04-07
# (参考訳) 多言語マージンのマッピング:英語、スペイン語、アラビア語における感情分析システムの交叉バイアス [全文訳有]

Mapping the Multilingual Margins: Intersectional Biases of Sentiment Analysis Systems in English, Spanish, and Arabic ( http://arxiv.org/abs/2204.03558v1 )

ライセンス: CC BY 4.0
Ant\'onio C\^amara, Nina Taneja, Tamjeed Azad, Emily Allaway, Richard Zemel(参考訳) 自然言語処理システムが普及するにつれて、社会に対するネガティブな影響が理解され、最小限に抑えられるように、実装や展開における公平性の問題に対処する必要がある。 しかし、多言語・交叉型フレームワークや下流タスクを用いた公正性の研究は限られている。 本稿では,4つの多言語エクイティ評価コーパス,社会バイアス測定のための補足的テストセット,自然言語処理における一断面および交叉的社会バイアスの研究のための新しい統計的枠組みを提案する。 これらのツールを使用して、英語、スペイン語、アラビア語の感情回帰タスクに基づいてトレーニングされた5つのモデルにまたがる性別、人種、民族、交叉社会バイアスを測定します。 多くのシステムは統計的に有意な一節的・交叉的社会バイアスを示す。

As natural language processing systems become more widespread, it is necessary to address fairness issues in their implementation and deployment to ensure that their negative impacts on society are understood and minimized. However, there is limited work that studies fairness using a multilingual and intersectional framework or on downstream tasks. In this paper, we introduce four multilingual Equity Evaluation Corpora, supplementary test sets designed to measure social biases, and a novel statistical framework for studying unisectional and intersectional social biases in natural language processing. We use these tools to measure gender, racial, ethnic, and intersectional social biases across five models trained on emotion regression tasks in English, Spanish, and Arabic. We find that many systems demonstrate statistically significant unisectional and intersectional social biases.
翻訳日:2022-04-08 18:06:28 公開日:2022-04-07
# (参考訳) 患者のプライバシーを守るために顔のスワップを活用 [全文訳有]

Practical Digital Disguises: Leveraging Face Swaps to Protect Patient Privacy ( http://arxiv.org/abs/2204.03559v1 )

ライセンス: CC BY 4.0
Ethan Wilson and Frederick Shic and Jenny Skytta and Eakta Jain(参考訳) 画像生成技術の急速な進歩により、プライバシー保護のための顔交換が研究の活発な領域として現れている。 究極のメリットは、医療設定などのビデオデータセットへのアクセスを改善することだ。 近年、顔スワップを行うためのディープネットワークアーキテクチャを提案し、顔認識精度の低下を報告している。 しかし、これらの手法が、民営化されたビデオが意図したアプリケーションに役立ち続けるために必要な意味情報の種類をいかに保存するかについては報告されていない。 本研究の主な貢献は,小児の自閉症症状の標準的な評価ビデオのための,エンドツーエンドの顔交換パイプラインである。 この設計を通じて、私たちは、患者のプライバシ保護に対するフェイススワップアプローチに対するプライバシユーティリティトレードオフを評価するための方法論を初めて提供します。 提案手法は,例えば,現在の深層ネットワークに基づく顔スワップは,実世界ビデオにおける顔検出によってボトルネックされ,視線情報や表情情報が顔スワップによって保存される程度をぼやけなどのベースライン民営化手法と比較して示すことができる。

With rapid advancements in image generation technology, face swapping for privacy protection has emerged as an active area of research. The ultimate benefit is improved access to video datasets, e.g. in healthcare settings. Recent literature has proposed deep network-based architectures to perform facial swaps and reported the associated reduction in facial recognition accuracy. However, there is not much reporting on how well these methods preserve the types of semantic information needed for the privatized videos to remain useful for their intended application. Our main contribution is a novel end-to-end face swapping pipeline for recorded videos of standardized assessments of autism symptoms in children. Through this design, we are the first to provide a methodology for assessing the privacy-utility trade-offs for the face swapping approach to patient privacy protection. Our methodology can show, for example, that current deep network based face swapping is bottle-necked by face detection in real world videos, and the extent to which gaze and expression information is preserved by face swaps relative to baseline privatization methods such as blurring.
翻訳日:2022-04-08 17:24:22 公開日:2022-04-07
# (参考訳) AutoRF:シングルビュー観測から3次元物体放射場を学習する [全文訳有]

AutoRF: Learning 3D Object Radiance Fields from Single View Observations ( http://arxiv.org/abs/2204.03593v1 )

ライセンス: CC BY 4.0
Norman M\"uller, Andrea Simonelli, Lorenzo Porzi, Samuel Rota Bul\`o, Matthias Nie{\ss}ner, Peter Kontschieder(参考訳) トレーニングセットの各オブジェクトが単一のビューでのみ観察されるニューラル3Dオブジェクト表現を学習するための新しいアプローチであるAutoRFを紹介する。 この設定は、同じオブジェクトの複数のビューを利用したり、トレーニング中に明示的な事前設定を採用したり、ピクセル完全アノテーションを必要とする既存の作品のほとんどとは全く対照的である。 この課題に対処するために、埋め込みが形状、外観、ポーズを記述・歪ませる正規化されたオブジェクト中心表現を学習することを提案する。 各エンコーディングは、関心のあるオブジェクトに関するよく一般化されたコンパクトな情報を提供し、シングルショットで新しいターゲットビューにデコードされ、新しいビュー合成を可能にする。 この表現を入力画像に密着させて、テスト時に形状や外観を最適化し、復元品質をさらに向上させる。 一連の実験において,本手法は,nuScenes,KITTI,Mapi llary Metropolisなど,現実のストリートシーンに挑戦するさまざまなデータセットでさえも,見えないオブジェクトに対してうまく一般化可能であることを示す。

We introduce AutoRF - a new approach for learning neural 3D object representations where each object in the training set is observed by only a single view. This setting is in stark contrast to the majority of existing works that leverage multiple views of the same object, employ explicit priors during training, or require pixel-perfect annotations. To address this challenging setting, we propose to learn a normalized, object-centric representation whose embedding describes and disentangles shape, appearance, and pose. Each encoding provides well-generalizable, compact information about the object of interest, which is decoded in a single-shot into a new target view, thus enabling novel view synthesis. We further improve the reconstruction quality by optimizing shape and appearance codes at test time by fitting the representation tightly to the input image. In a series of experiments, we show that our method generalizes well to unseen objects, even across different datasets of challenging real-world street scenes such as nuScenes, KITTI, and Mapillary Metropolis.
翻訳日:2022-04-08 17:09:51 公開日:2022-04-07
# (参考訳) 不均一なターゲット音声分離 [全文訳有]

Heterogeneous Target Speech Separation ( http://arxiv.org/abs/2204.03594v1 )

ライセンス: CC BY 4.0
Efthymios Tzinis, Gordon Wichern, Aswin Subramanian, Paris Smaragdis, Jonathan Le Roux(参考訳) 本稿では,非変異排他的概念(ラウドネス,性別,言語,空間的位置など)を用いて興味の源を区別できる,単一チャネルのターゲットソース分離のための新しいパラダイムを提案する。 提案するヘテロジニアス分離フレームワークは,分散シフトが大きいデータセットをシームレスに利用し,コンディショニングとして多種多様な概念でクロスドメイン表現を学習することができる。 実験により,不均一な条件下での分離モデルの訓練により,ドメイン外データを用いた新しい概念への一般化が促進されるとともに,単一ドメインのスペシャリストモデルよりも大幅に高い性能を示すことが示された。 特に、このようなトレーニングは、新しい難しいソース分離の識別概念をより堅牢に学習させ、オラクルソース選択による置換不変トレーニングよりも改善をもたらす。 異種メタデータを用いた音源分離訓練の本質的挙動を解析し,新たな課題を解消する手法を提案する。 この課題に対する研究をさらに促進するために使用されるすべてのデータセットのための準備レシピのコレクションをリリースする。

We introduce a new paradigm for single-channel target source separation where the sources of interest can be distinguished using non-mutually exclusive concepts (e.g., loudness, gender, language, spatial location, etc). Our proposed heterogeneous separation framework can seamlessly leverage datasets with large distribution shifts and learn cross-domain representations under a variety of concepts used as conditioning. Our experiments show that training separation models with heterogeneous conditions facilitates the generalization to new concepts with unseen out-of-domain data while also performing substantially higher than single-domain specialist models. Notably, such training leads to more robust learning of new harder source separation discriminative concepts and can yield improvements over permutation invariant training with oracle source selection. We analyze the intrinsic behavior of source separation training with heterogeneous metadata and propose ways to alleviate emerging problems with challenging separation conditions. We release the collection of preparation recipes for all datasets used to further promote research towards this challenging task.
翻訳日:2022-04-08 17:00:09 公開日:2022-04-07
# (参考訳) 量子機械学習のセキュリティ面:機会、脅威、防御 [全文訳有]

Security Aspects of Quantum Machine Learning: Opportunities, Threats and Defenses ( http://arxiv.org/abs/2204.03625v1 )

ライセンス: CC BY-SA 4.0
Satwik Kundu and Swaroop Ghosh(参考訳) ここ数年、量子コンピューティングは成長の加速を経験してきた。 量子コンピューティングのエキサイティングな道の1つは、高次元ヒルベルト空間を利用して限られたデータからよりリッチな表現を学習し、複雑な学習タスクを効率的に解く量子機械学習(qml)である。 QMLへの関心が高まっているにもかかわらず、QMLのセキュリティ面について論じる研究は少ない。 本研究では,ハードウェアセキュリティ分野におけるQMLの今後の応用の可能性について検討した。 また、QMLおよび新興攻撃モデルのセキュリティ脆弱性、およびそれに対応する対策を明らかにする。

In the last few years, quantum computing has experienced a growth spurt. One exciting avenue of quantum computing is quantum machine learning (QML) which can exploit the high dimensional Hilbert space to learn richer representations from limited data and thus can efficiently solve complex learning tasks. Despite the increased interest in QML, there have not been many studies that discuss the security aspects of QML. In this work, we explored the possible future applications of QML in the hardware security domain. We also expose the security vulnerabilities of QML and emerging attack models, and corresponding countermeasures.
翻訳日:2022-04-08 16:46:19 公開日:2022-04-07
# (参考訳) Zero-Shot Category-Level Object Poseの推定 [全文訳有]

Zero-Shot Category-Level Object Pose Estimation ( http://arxiv.org/abs/2204.03635v1 )

ライセンス: CC BY-SA 4.0
Walter Goodwin, Sagar Vaze, Ioannis Havoutis, Ingmar Posner(参考訳) オブジェクトのポーズ推定は、多くの視覚パイプラインの重要な要素であり、より一般的には3Dビジョンである。 本稿では,ゼロショット方式で新規な対象カテゴリの配置を推定する問題に取り組む。 これは、ポーズラベル付きデータセットや、トレーニングや推論のためのカテゴリ固有のCADモデルの必要性を取り除くことで、既存の文献の多くを拡張する。 具体的には、以下の貢献をする。 まず,ゼロショット,カテゴリレベルのポーズ推定問題を定式化し,実世界の具体化エージェントに最も適用可能な方法でフレーム化する。 次に,ポーズ推定問題を解くために,自己教師付き視覚トランスフォーマからの意味対応に基づく新しい手法を提案する。 さらに,最近のco3dデータセットを再利用して,制御可能かつ現実的なテスト設定を示す。 最後に,提案手法では平均回転精度が30度で6倍向上することを示す。 私たちのコードはhttps://github.com/a pplied-ai-lab/zero-s hot-poseで利用可能です。

Object pose estimation is an important component of most vision pipelines for embodied agents, as well as in 3D vision more generally. In this paper we tackle the problem of estimating the pose of novel object categories in a zero-shot manner. This extends much of the existing literature by removing the need for pose-labelled datasets or category-specific CAD models for training or inference. Specifically, we make the following contributions. First, we formalise the zero-shot, category-level pose estimation problem and frame it in a way that is most applicable to real-world embodied agents. Secondly, we propose a novel method based on semantic correspondences from a self-supervised vision transformer to solve the pose estimation problem. We further re-purpose the recent CO3D dataset to present a controlled and realistic test setting. Finally, we demonstrate that all baselines for our proposed task perform poorly, and show that our method provides a six-fold improvement in average rotation accuracy at 30 degrees. Our code is available at https://github.com/a pplied-ai-lab/zero-s hot-pose.
翻訳日:2022-04-08 16:33:06 公開日:2022-04-07
# 事前学習DNN-HMMに基づく音響音韻モデルを用いたエンドツーエンド音声言語理解のための3モードモデリング

Three-Module Modeling For End-to-End Spoken Language Understanding Using Pre-trained DNN-HMM-Based Acoustic-Phonetic Model ( http://arxiv.org/abs/2204.03315v1 )

ライセンス: Link先を確認
Nick J.C. Wang and Lu Wang and Yandan Sun and Haimei Kang and Dejun Zhang(参考訳) 音声言語理解(SLU)では、ユーザが言っていることを意図に変換する。 エンドツーエンドのSLUに関する最近の研究は、事前学習アプローチによって精度を向上できることを示した。 本稿では,Lugoschらが提案する音声事前学習と3モジュールモデリングを用いて提案手法を再検討するが,エンドツーエンドSLUモデルの構築を容易にするため,DNN-HMMハイブリッド音声認識(ASR)システムによるオープンソースの音響音響モデルとして,一から学習する代わりに,音素モジュールとして使用する。 したがって、単語モジュールにのみ音声を微調整し、単語と意図モジュールにマルチターゲット学習(MTL)を適用してSLU性能を最適化する。 MTLは意図分類誤り率(1.0%から0.6%)の40%を相対的に減少させる。 3つのモジュールモデルがストリーミングメソッドであることに注意してください。 提案された3つのモジュールモデリングアプローチの最終結果は、fluentspeechのインテント精度が99.4%となり、lugosch氏らと比較すると、インテントエラーレートが50%削減された。 リアルタイムストリーミングに焦点をあてるが、比較のためには非ストリーミング手法もリストアップする。

In spoken language understanding (SLU), what the user says is converted to his/her intent. Recent work on end-to-end SLU has shown that accuracy can be improved via pre-training approaches. We revisit ideas presented by Lugosch et al. using speech pre-training and three-module modeling; however, to ease construction of the end-to-end SLU model, we use as our phoneme module an open-source acoustic-phonetic model from a DNN-HMM hybrid automatic speech recognition (ASR) system instead of training one from scratch. Hence we fine-tune on speech only for the word module, and we apply multi-target learning (MTL) on the word and intent modules to jointly optimize SLU performance. MTL yields a relative reduction of 40% in intent-classificatio n error rates (from 1.0% to 0.6%). Note that our three-module model is a streaming method. The final outcome of the proposed three-module modeling approach yields an intent accuracy of 99.4% on FluentSpeech, an intent error rate reduction of 50% compared to that of Lugosch et al. Although we focus on real-time streaming methods, we also list non-streaming methods for comparison.
翻訳日:2022-04-08 16:09:19 公開日:2022-04-07
# Sinogram inner-Structure Transformer による低用量CTデノーミング

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer ( http://arxiv.org/abs/2204.03163v1 )

ライセンス: Link先を確認
Liutao Yang and Zhongnian, Li and Rongjun, Ge and Junyong, Zhao and Haipeng, Si and Daoqiang Zhang(参考訳) 人体への放射線害を軽減する低線量CT(LDCT)技術が,医療画像分野への関心が高まっている。 低線量放射線により画質が劣化するので、LDCT試験は特別な再構成方法や復調アルゴリズムを必要とする。 しかし、最近の有効な手法のほとんどは、元の投影データ(シングラム)の内部構造を見落としており、その分断能力に制限がある。 シノグラムの内部構造は、シノグラム領域内のデータの特別な特性を表す。 この構造を分断しながら維持することで、ノイズを明らかに抑制することができる。 そこで我々は, シングラム内構造変換器(SIST)と呼ばれるLDCTデノナイズネットワークを提案し, シングラム領域の内部構造を利用してノイズを低減する。 具体的には,シンノグラムのctイメージング機構と統計特性について検討し,高品質ct画像復元のための大域的および局所的内部構造を含むシンノグラム内部構造損失の設計を行った。 また,シンノグラム特徴を抽出するためのシンノグラム変換モジュールを提案する。 自己アテンション機構を用いた変圧器アーキテクチャは、異なる視角の射影間の相互関係を生かし、シノグラムのデノナイジングにおいて優れた性能を達成する。 さらに、画像領域の性能を向上させるために、シンノグラムと画像領域の両方で相補的にデノベーションする画像再構成モジュールを提案する。

Low-Dose Computed Tomography (LDCT) technique, which reduces the radiation harm to human bodies, is now attracting increasing interest in the medical imaging field. As the image quality is degraded by low dose radiation, LDCT exams require specialized reconstruction methods or denoising algorithms. However, most of the recent effective methods overlook the inner-structure of the original projection data (sinogram) which limits their denoising ability. The inner-structure of the sinogram represents special characteristics of the data in the sinogram domain. By maintaining this structure while denoising, the noise can be obviously restrained. Therefore, we propose an LDCT denoising network namely Sinogram Inner-Structure Transformer (SIST) to reduce the noise by utilizing the inner-structure in the sinogram domain. Specifically, we study the CT imaging mechanism and statistical characteristics of sinogram to design the sinogram inner-structure loss including the global and local inner-structure for restoring high-quality CT images. Besides, we propose a sinogram transformer module to better extract sinogram features. The transformer architecture using a self-attention mechanism can exploit interrelations between projections of different view angles, which achieves an outstanding performance in sinogram denoising. Furthermore, in order to improve the performance in the image domain, we propose the image reconstruction module to complementarily denoise both in the sinogram and image domain.
翻訳日:2022-04-08 16:08:24 公開日:2022-04-07
# MDA GAN: 逆学習に基づく3次元地震データ補間と複雑な欠損の復元

MDA GAN: Adversarial-Learning -based 3-D Seismic Data Interpolation and Reconstruction for Complex Missing ( http://arxiv.org/abs/2204.03197v1 )

ライセンス: Link先を確認
Yimin Dou, Kewen Li, Jianbing Zhu, Timing Li, Shaoquan Tan, Zongchao Huang(参考訳) 失われた痕跡の補間と復元は、地震データ処理における重要なステップであり、特に高率のランダムな離散的欠落や、豊富な断層や塩体調査における欠落などの複雑なケースでは、非常に不適切な問題である。 これらの複雑なケースは、現在のスパースや低ランクの事前ベース、ディープラーニングベースのアプローチではほとんど言及されない。 複雑なケースに対処するために,新しい3次元GANフレームワークであるMDA GAN(MDA GAN)を提案する。 各次元における元のデータ分布と再構成されたデータの一貫性を確保するために、3つの識別器を用いる。 特徴スプライシングモジュール(FSM)は、このフレームワークのジェネレータに設計され、組み込まれ、非許容部の機能を再構成部(欠部)のものと自動的にスプライシングし、非許容部の情報を完全保存する。 対向学習による地震データにおける画素歪みを防止するため, よりスムーズな勾配を与えるため, 新たな再構成損失Tanh Cross Entropy(TCE)損失を提案する。 本研究の個々の構成要素の有効性を実験的に検証し,複数の公開データ上で検証した。 この手法は、最大95%のランダムな離散欠失、100の連続欠失、さらに複雑なハイブリッド欠失に対する合理的な再構成を実現する。 断層に富んだ岩体や塩分を含む調査では、各3方向(合計98.2%)に75%の欠落がある有望な復元が可能となる。

The interpolation and reconstruction of missing traces is a crucial step in seismic data processing, moreover it is also a highly ill-posed problem, especially for complex cases such as high-ratio random discrete missing, continuous missing and missing in rich fault or salt body surveys. These complex cases are rarely mentioned in current sparse or low-rank priorbased and deep learning-based approaches. To cope with complex missing cases, we propose Multi-Dimensional Adversarial GAN (MDA GAN), a novel 3-D GAN framework. It employs three discriminators to ensure the consistency of the reconstructed data with the original data distribution in each dimension. The feature splicing module (FSM) is designed and embedded into the generator of this framework, which automatically splices the features of the unmissing part with those of the reconstructed part (missing part), thus fully preserving the information of the unmissing part. To prevent pixel distortion in the seismic data caused by the adversarial learning process, we propose a new reconstruction loss Tanh Cross Entropy (TCE) loss to provide smoother gradients. We experimentally verified the effectiveness of the individual components of the study and then tested the method on multiple publicly available data. The method achieves reasonable reconstructions for up to 95% of random discrete missing, 100 traces of continuous missing and more complex hybrid missing. In surveys of fault-rich and salt bodies, the method can achieve promising reconstructions with up to 75% missing in each of the three directions (98.2% in total).
翻訳日:2022-04-08 16:08:03 公開日:2022-04-07
# ニューラルネットワークを用いた胸部X線中の肺炎検出

Pneumonia Detection in Chest X-Rays using Neural Networks ( http://arxiv.org/abs/2204.03618v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Ashish Ranjan, Dany Bright, Devendra Trivedi, Ketul Kumar, Vivek Kumar, and Anwesh Reddy Paduri(参考訳) AIの進歩に伴い、深層学習技術は、優れたパフォーマンスを達成する医療診断タスクなど、いくつかの分野で堅牢な分類モデルの設計に広く用いられている。 本稿では,北米電波学会(RSNA)データセットを対象とした胸部X線画像の分類のためのCNNモデル(畳み込みニューラルネットワーク)を提案する。 また,近年実施されている手法に対する様々なアプローチを試し,限られた計算資源を用いてrsnaベンチマーク結果の達成を試みる。 提案手法は,非複雑CNNとXception, InceptionV3/V4, EfficientNetB7などの伝達学習アルゴリズムを用いた。 これに加えて,近年実施されている方法論に対する様々なアプローチを試して,限られた計算資源を用いて,同じRSNAベンチマーク結果の達成も試みている。 RSNAベンチマーク MAP スコアは 0.25 であるが、3017 の成層試料上で Mask RCNN モデルを使用することで MAP スコアは 0.15 となった。 一方、超パラメータチューニングなしのyolov3は0.32のマップスコアを与えたが、損失は減少している。 より多くのイテレーションでモデルを実行することで、よりよい結果が得られます。

With the advancement in AI, deep learning techniques are widely used to design robust classification models in several areas such as medical diagnosis tasks in which it achieves good performance. In this paper, we have proposed the CNN model (Convolutional Neural Network) for the classification of Chest X-ray images for Radiological Society of North America Pneumonia (RSNA) datasets. The study also tries to achieve the same RSNA benchmark results using the limited computational resources by trying out various approaches to the methodologies that have been implemented in recent years. The proposed method is based on a non-complex CNN and the use of transfer learning algorithms like Xception, InceptionV3/V4, EfficientNetB7. Along with this, the study also tries to achieve the same RSNA benchmark results using the limited computational resources by trying out various approaches to the methodologies that have been implemented in recent years. The RSNA benchmark MAP score is 0.25, but using the Mask RCNN model on a stratified sample of 3017 along with image augmentation gave a MAP score of 0.15. Meanwhile, the YoloV3 without any hyperparameter tuning gave the MAP score of 0.32 but still, the loss keeps decreasing. Running the model for a greater number of iterations can give better results.
翻訳日:2022-04-08 16:07:32 公開日:2022-04-07
# マルチチャネル連続音声分離のための実会話データ活用

Leveraging Real Conversational Data for Multi-Channel Continuous Speech Separation ( http://arxiv.org/abs/2204.03232v1 )

ライセンス: Link先を確認
Xiaofei Wang, Dongmei Wang, Naoyuki Kanda, Sefik Emre Eskimez, Takuya Yoshioka(参考訳) 既存のマルチチャネル連続音声分離(css)モデルは教師付きデータに大きく依存しており、トレーニングと実データテストの間でデータミスマッチを引き起こすシミュレーションデータか、取得が難しい実際の転写重複データのいずれかであり、会話/会議転写タスクのさらなる改善を妨げている。 本稿では,教師付きデータと大規模非教師付き実世界の会話データの両方を活用可能なCSSモデルの3段階トレーニング手法を提案する。 このスキームは、シミュレーションデータを用いた事前トレーニングと、書き起こされたデータを用いたasr-lossベースのトレーニングの2つの従来のトレーニングアプローチと、教師と教師の学習フレームワークに基づく実データを用いてcssモデルをさらに訓練する2つの新しい半教師付きトレーニングで構成されている。 この方式を,任意のマイクロホンアレイから収集したマルチチャネルデータを用いたアレイジオメトリ非依存cssモデルに適用する。 Microsoftの内部会議データとAMI会議コーパスの両方で大規模な会議書き起こし実験を行う。 各トレーニングステージによる着実に改善が観察され、cssモデルトレーニングに実際の会話データを活用するための提案手法の効果が示された。

Existing multi-channel continuous speech separation (CSS) models are heavily dependent on supervised data - either simulated data which causes data mismatch between the training and real-data testing, or the real transcribed overlapping data, which is difficult to be acquired, hindering further improvements in the conversational/meeti ng transcription tasks. In this paper, we propose a three-stage training scheme for the CSS model that can leverage both supervised data and extra large-scale unsupervised real-world conversational data. The scheme consists of two conventional training approaches -- pre-training using simulated data and ASR-loss-based training using transcribed data -- and a novel continuous semi-supervised training between the two, in which the CSS model is further trained by using real data based on the teacher-student learning framework. We apply this scheme to an array-geometry-agnos tic CSS model, which can use the multi-channel data collected from any microphone array. Large-scale meeting transcription experiments are carried out on both Microsoft internal meeting data and the AMI meeting corpus. The steady improvement by each training stage has been observed, showing the effect of the proposed method that enables leveraging real conversational data for CSS model training.
翻訳日:2022-04-08 16:05:28 公開日:2022-04-07
# ソーシャルネットワークにおける影響最大化のためのマルチトランスフォーメーション進化枠組み

A Multi-Transformation Evolutionary Framework for Influence Maximization in Social Networks ( http://arxiv.org/abs/2204.03297v1 )

ライセンス: Link先を確認
Chao Wang, Jiaxuan Zhao, Lingling Li, Licheng Jiao, Jing Liu, Kai Wu(参考訳) 影響の最大化は、影響のあるノード数を最大化するためにネットワークからシードセットを選択することを目的とした、ソーシャルネットワークの深い情報マイニングの重要な問題である。 シードセットの拡散を効率的に評価するために、既存の研究は、高価なモンテカルロシミュレーションプロセスを置き換えるために、計算コストの低いいくつかのプロキシモデル(変換)を提案している。 これらのネットワーク事前知識に基づく代替変換は、様々な観点から類似した特性を持つ異なる探索行動を引き起こす。 特定のケースでは、ユーザが適切な変換を事前に決定することは困難である。 これらを念頭に置いて,代替変換の潜在的な類似性と独特な利点を活かし,ユーザが手動で最も適したものを決定することを避けるために,マルチトランスフォーメーション進化フレームワークMTEFIMを提案する。 MTEFIMでは、複数の変換を複数のタスクとして同時に最適化する。 各変換には進化的解法が割り当てられる。 MTEFIMの3つの主要コンポーネントが実行される。 1) 異なる集団の個体(種集合)間の重なりの程度に基づいて, トランスフォーメーション間の潜在的関係を推定する。 2)相互変換関係に適応して個体を個体群に移動させる。 3) すべてのプロキシモデル知識を含む最終出力シードセットを選択する。 MTEFIMの有効性は4つの現実世界のソーシャルネットワークで検証されている。 実験結果から,MTEFIMは複数の変換にまたがる潜在的伝達可能な知識を効率よく利用し,高い競争性能を達成できることが示唆された。 MTEFIMの実装はhttps://github.com/x iaofangxd/MTEFIMで見ることができる。

Influence maximization is a key issue for mining the deep information of social networks, which aims to select a seed set from the network to maximize the number of influenced nodes. To evaluate the influence spread of a seed set efficiently, existing works have proposed some proxy models (transformations) with lower computational costs to replace the expensive Monte Carlo simulation process. These alternate transformations based on network prior knowledge induce different search behaviors with similar characteristics from various perspectives. For a specific case, it is difficult for users to determine a suitable transformation a priori. Keeping those in mind, we propose a multi-transformation evolutionary framework for influence maximization (MTEFIM) to exploit the potential similarities and unique advantages of alternate transformations and avoid users to determine the most suitable one manually. In MTEFIM, multiple transformations are optimized simultaneously as multiple tasks. Each transformation is assigned an evolutionary solver. Three major components of MTEFIM are conducted: 1) estimating the potential relationship across transformations based on the degree of overlap across individuals (seed sets) of different populations, 2) transferring individuals across populations adaptively according to the inter-transformation relationship, 3) selecting the final output seed set containing all the proxy model knowledge. The effectiveness of MTEFIM is validated on four real-world social networks. Experimental results show that MTEFIM can efficiently utilize the potentially transferable knowledge across multiple transformations to achieve highly competitive performance compared to several popular IM-specific methods. The implementation of MTEFIM can be accessed at https://github.com/x iaofangxd/MTEFIM.
翻訳日:2022-04-08 16:05:06 公開日:2022-04-07
# ポリフォニック音楽の自動歌詞書き起こしのためのゲンレ条件音響モデル

Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of Polyphonic Music ( http://arxiv.org/abs/2204.03307v1 )

ライセンス: Link先を確認
Xiaoxue Gao, Chitralekha Gupta and Haizhou Li(参考訳) ポリフォニー音楽の歌詞の書き起こしは、歌唱のボーカルが背景音楽によって腐敗しているだけでなく、背景音楽や歌唱スタイルがポップ、メタル、ヒップホップなどの音楽ジャンルによって異なるため、異なる方法で歌詞の理解に影響を及ぼすため、困難である。 本稿では,新しいジャンル条件付きネットワークを用いて多声楽曲の歌詞を書写する手法を提案する。 提案するネットワークは,事前学習されたモデルパラメータを採用し,各階層間のジャンルアダプタを組み込んで歌詞とジャンルのペアの異なるジャンルの特色を捉える。 提案するジャンル条件付きネットワークは,既存の歌詞書き起こしシステムよりも優れていることを示す。

Lyrics transcription of polyphonic music is challenging not only because the singing vocals are corrupted by the background music, but also because the background music and the singing style vary across music genres, such as pop, metal, and hip hop, which affects lyrics intelligibility of the song in different ways. In this work, we propose to transcribe the lyrics of polyphonic music using a novel genre-conditioned network. The proposed network adopts pre-trained model parameters, and incorporates the genre adapters between layers to capture different genre peculiarities for lyrics-genre pairs, thereby only requiring lightweight genre-specific parameters for training. Our experiments show that the proposed genre-conditioned network outperforms the existing lyrics transcription systems.
翻訳日:2022-04-08 16:04:41 公開日:2022-04-07
# 協調型マルチエージェント学習におけるロバストなイベント駆動インタラクション

Robust Event-Driven Interactions in Cooperative Multi-Agent Learning ( http://arxiv.org/abs/2204.03361v1 )

ライセンス: Link先を確認
Daniel Jarne Ornia, Manuel Mazo Jr(参考訳) 本稿では,マルチエージェント学習システムにおけるエージェント間のコミュニケーションを,マルコフ決定プロセスの固有ロバスト性を利用して低減する手法を提案する。 いわゆるロバストネスサーロゲート関数(オフライン関数)を計算し、エージェントがシステム内の他のエージェントを更新する前に、その状態測定値がどの程度逸脱できるかを保守的に示す。 これにより、完全に分散した決定機能が実現され、エージェントが他人を更新する必要があるかどうかを判断できるようになる。 得られた報酬の割引和から得られるシステムの最適性に基づいて境界を導出し、これらの境界が設計パラメータの関数であることを示す。 さらに,データからロバスト性サロゲート関数が学習された場合の結果を拡張し,エージェント間の通信イベントが大幅に減少することを示す実験結果を示す。

We present an approach to reduce the communication required between agents in a Multi-Agent learning system by exploiting the inherent robustness of the underlying Markov Decision Process. We compute so-called robustness surrogate functions (off-line), that give agents a conservative indication of how far their state measurements can deviate before they need to update other agents in the system. This results in fully distributed decision functions, enabling agents to decide when it is necessary to update others. We derive bounds on the optimality of the resulting systems in terms of the discounted sum of rewards obtained, and show these bounds are a function of the design parameters. Additionally, we extend the results for the case where the robustness surrogate functions are learned from data, and present experimental results demonstrating a significant reduction in communication events between agents.
翻訳日:2022-04-08 16:04:26 公開日:2022-04-07
# 支援ベクトルマシンに対する3種類の逆摂動の最適化モデルと解釈

Optimization Models and Interpretations for Three Types of Adversarial Perturbations against Support Vector Machines ( http://arxiv.org/abs/2204.03154v1 )

ライセンス: Link先を確認
Wen Su, Qingna Li, Chunfeng Cui(参考訳) 敵の摂動は、様々なディープニューラルネットワークにおいて大きな注目を集めている。 それらのほとんどは反復によって計算され、よく解釈できない。 対照的に、サポートベクターマシンのような基本的な機械学習モデルにはほとんど注意が払われていない。 本稿では, サンプル対逆摂動 (sAP) やクラス対逆摂動 (cuAP) , ユニバーサル対逆摂動 (uAP) など, 支援ベクトルマシンに対する3種類の逆摂動の最適化モデルと解釈について検討する。 線形バイナリ/マルチ分類支援ベクトルマシン(SVM)では、sAP、cuAP、uAP(バイナリの場合)の明示的な解と、uAPのマルチ分類の近似解を導出する。 また, uAP の不正化率の上限も獲得する。 このような結果は, 3つの逆摂動の解釈性を高めるだけでなく, 反復過程を回避できるため, 計算の利便性も向上する。 その結果,本手法は3種類の逆摂動を高速かつ効果的に計算できることがわかった。

Adversarial perturbations have drawn great attentions in various deep neural networks. Most of them are computed by iterations and cannot be interpreted very well. In contrast, little attentions are paid to basic machine learning models such as support vector machines. In this paper, we investigate the optimization models and the interpretations for three types of adversarial perturbations against support vector machines, including sample-adversarial perturbations (sAP), class-universal adversarial perturbations (cuAP) as well as universal adversarial perturbations (uAP). For linear binary/multi classification support vector machines (SVMs), we derive the explicit solutions for sAP, cuAP and uAP (binary case), and approximate solution for uAP of multi-classification . We also obtain the upper bound of fooling rate for uAP. Such results not only increase the interpretability of the three adversarial perturbations, but also provide great convenience in computation since iterative process can be avoided. Numerical results show that our method is fast and effective in calculating three types of adversarial perturbations.
翻訳日:2022-04-08 16:02:13 公開日:2022-04-07
# All-in EDGEパラダイムのためのディープラーニングの実現

Enabling Deep Learning for All-in EDGE paradigm ( http://arxiv.org/abs/2204.03326v1 )

ライセンス: Link先を確認
Praveen Joshi, Haithem Afli, Mohammed Hasanuzzaman, Chandra Thapa, and Ted Scully(参考訳) 深層学習に基づくモデルは広く研究され,音声認識や画像処理,自然言語理解など,非自明なタスクにおいて顕著な性能を示した。 しかし、これは実質的なデータ要求のコストである。 過去10年間のエッジデバイス(例えばモノのインターネット)の普及を考えると、デバイスクラウド統合プラットフォームのようなエッジパラダイムにおけるディープラーニングは、その優れたパフォーマンスを活用するために必要である。 さらに、エッジデバイスの普及により、生成および収集されたデータのボリュームが爆発的に増加したため、エッジパラダイムにおけるデータ要件の観点からも適しています。 しかし、高計算、高レイテンシ、現実世界のシナリオにおけるディープラーニングアプリケーションに起因する高帯域幅などの要件により、問題が発生している。 そこで本研究では,エッジサーバとエッジデバイスがディープラーニングトレーニングや推論に参加する,エッジでのディープラーニング,アーキテクチャ,テクノロジの実現,モデル適応技術について検討する。 単純さのため、我々はこのパラダイムをオールインEDGEパラダイムと呼んでいる。 さらに,本論文では,Deep-in EDGEパラダイムにおけるDeep Learningの重要なパフォーマンス指標を示し,様々なディープラーニング技術を評価し,適切な設計を選択する。 さらに、オールインEDGEパラダイムにおけるディープラーニングの展開から生じる様々なオープンな課題を特定し、議論する。

Deep Learning-based models have been widely investigated, and they have demonstrated significant performance on non-trivial tasks such as speech recognition, image processing, and natural language understanding. However, this is at the cost of substantial data requirements. Considering the widespread proliferation of edge devices (e.g. Internet of Things devices) over the last decade, Deep Learning in the edge paradigm, such as device-cloud integrated platforms, is required to leverage its superior performance. Moreover, it is suitable from the data requirements perspective in the edge paradigm because the proliferation of edge devices has resulted in an explosion in the volume of generated and collected data. However, there are difficulties due to other requirements such as high computation, high latency, and high bandwidth caused by Deep Learning applications in real-world scenarios. In this regard, this survey paper investigates Deep Learning at the edge, its architecture, enabling technologies, and model adaption techniques, where edge servers and edge devices participate in deep learning training and inference. For simplicity, we call this paradigm the All-in EDGE paradigm. Besides, this paper presents the key performance metrics for Deep Learning at the All-in EDGE paradigm to evaluate various deep learning techniques and choose a suitable design. Moreover, various open challenges arising from the deployment of Deep Learning at the All-in EDGE paradigm are identified and discussed.
翻訳日:2022-04-08 16:01:44 公開日:2022-04-07
# 教師なし時系列出力検出のためのロバストかつ説明可能なオートエンコーダ--拡張版

Robust and Explainable Autoencoders for Unsupervised Time Series Outlier Detection---Extended Version ( http://arxiv.org/abs/2204.03341v1 )

ライセンス: Link先を確認
Tung Kieu, Bin Yang, Chenjuan Guo, Christian S. Jensen, Yan Zhao, Feiteng Huang, Kai Zheng(参考訳) 時系列データは広く発生し、異常検出はデータマイニングにおける根本的な問題であり、多くの応用がある。 既存のオートエンコーダベースのアプローチは、現実の挑戦的なデータに対して最先端のパフォーマンスを提供するが、外れ値に対して脆弱であり、説明可能性の低い。 この2つの制約に対処するために,入力時系列をクリーン時系列に分解するロバストで説明可能な非教師なしオートエンコーダフレームワークと,オートエンコーダを用いた異常時系列を提案する。 清潔な時系列は傾向や周期性といった理解しやすいパターンでより説明できるため、説明可能性の向上が達成される。 本研究は,ポストホックな説明可能性分析と実証的研究による考察である。 さらに,アウトレーヤは連続的にクリーンな時系列から分離されるため,アウトレーヤに対するロバスト性が向上し,精度が向上する。 5つの実世界のデータセットに対するアプローチを評価し、堅牢性と説明可能性の観点から最先端のアプローチの改善を報告します。 これはIEEE ICDE 2022に表示される"Robust and Explainable Autoencoders for Unsupervised Time Series Outlier Detection"の拡張版である。

Time series data occurs widely, and outlier detection is a fundamental problem in data mining, which has numerous applications. Existing autoencoder-based approaches deliver state-of-the-art performance on challenging real-world data but are vulnerable to outliers and exhibit low explainability. To address these two limitations, we propose robust and explainable unsupervised autoencoder frameworks that decompose an input time series into a clean time series and an outlier time series using autoencoders. Improved explainability is achieved because clean time series are better explained with easy-to-understand patterns such as trends and periodicities. We provide insight into this by means of a post-hoc explainability analysis and empirical studies. In addition, since outliers are separated from clean time series iteratively, our approach offers improved robustness to outliers, which in turn improves accuracy. We evaluate our approach on five real-world datasets and report improvements over the state-of-the-art approaches in terms of robustness and explainability. This is an extended version of "Robust and Explainable Autoencoders for Unsupervised Time Series Outlier Detection", to appear in IEEE ICDE 2022.
翻訳日:2022-04-08 16:01:25 公開日:2022-04-07
# リンク、配列調整、価格2部関税を学習するための高速アルゴリズム

Faster algorithms for learning to link, align sequences, and price two-part tariffs ( http://arxiv.org/abs/2204.03569v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Christopher Seiler and Dravyansh Sharma(参考訳) データ駆動アルゴリズムの構成は、調整可能なパラメータを持つアルゴリズムの最悪のケース分析を越えて、有望で学習ベースのアプローチである。 重要なオープン問題は、複数のパラメータを持つアルゴリズムファミリのための効率的なデータ駆動アルゴリズムの設計である。 本研究では,3つの非常に異なる組合せ問題 - 連鎖型クラスタリング,シーケンスアライメントのための動的プログラミング,二部関税体系のオークション設計 - に対して,効率的な(出力多項)多次元パラメータチューニングのためのアルゴリズムを提供する。 我々は,Balcanらによる単一パラメータクラスタリングアルゴリズムであるarXiv:1907.00533を複数のパラメータに拡張し,アルゴリズムが可能なすべてのパラメータ値に対して達成できる全ての状態をコンパクトに表現する実行グラフを提案する。 問題に特有な課題は、パラメータ空間(一意なアルゴリズム状態を持つ領域)の分割が単一のアルゴリズムステップでどのように変化するかを効率的に計算することである。 リンクベースのクラスタリング,シーケンスアライメント,二部関税価格といった,これまで最もよく知られた結果のランタイムを改善するアルゴリズムを提供する。

Data-driven algorithm configuration is a promising, learning-based approach for beyond worst-case analysis of algorithms with tunable parameters. An important open problem is the design of efficient data-driven algorithms for algorithm families with more than one parameter. In this work we provide algorithms for efficient (output-polynomial) multidimensional parameter tuning, i.e. for families with a small constant number of parameters, for three very different combinatorial problems -- linkage-based clustering, dynamic programming for sequence alignment, and auction design for two-part tariff schemes. We extend the single-parameter clustering algorithm of Balcan et al. 2020 arXiv:1907.00533 to multiple parameters and to the sequence alignment problem by proposing an execution graph which compactly represents all the states the algorithm could attain for all possible parameter values. A key problem-specific challenge is to efficiently compute how the partition of the parameter space (into regions with unique algorithmic states) changes with a single algorithmic step. We give algorithms which improve on the runtime of previously best known results for linkage-based clustering, sequence alignment and two-part tariff pricing.
翻訳日:2022-04-08 15:58:50 公開日:2022-04-07
# リスクに基づくすべての規制:データ駆動型検査ターゲティングのための幅広い採用ソリューションの必要性と方法

Risk-based regulation for all: The need and a method for a wide adoption solution for data-driven inspection targeting ( http://arxiv.org/abs/2204.03583v1 )

ライセンス: Link先を確認
Celso H. H. Ribas (1,2) and Jos\'e C. M. Bermudez (1) ((1) Digital Signal Processing Research Laboratory, Federal University of Santa Catarina, Santa Catarina, Brazil, (2) Superintendence of Inspection, National Telecommunications Agency, Amazonas, Brazil)(参考訳) 機械学習技術の利用を含むデータやデータ処理へのアクセスは、近年、大幅に簡単で安価になってきている。 それでも、市場監視およびデータ駆動型ターゲティングの規制当局が広く採用できるソリューションは、科学コミュニティによってはあまり議論されていない。 本稿では,このようなソリューション開発の必要性と難しさについて論じ,規制計画に取り組むための効果的な方法を提案し,規制当局の大多数にとって最も重要かつ一般的な主題である消費者について説明する。 本稿は, 客観的かつ公平, 透明, 説明可能で, 実装が容易で, 計算コストが低く, 世界におけるリスクベースの規制の実施を目指す, データ処理手法の必要性に対して, 規制コミュニティの意識を高めることを目的とする。

Access to data and data processing, including the use of machine learning techniques, has become significantly easier and cheaper in recent years. Nevertheless, solutions that can be widely adopted by regulators for market monitoring and inspection targeting in a data-driven way have not been frequently discussed by the scientific community. This article discusses the need and the difficulties for the development of such solutions, presents an effective method to address regulation planning, and illustrates its use to account for the most important and common subject for the majority of regulators: the consumer. This article hopes to contribute to increase the awareness of the regulatory community to the need for data processing methods that are objective, impartial, transparent, explainable, simple to implement and with low computational cost, aiming to the implementation of risk-based regulation in the world.
翻訳日:2022-04-08 15:58:30 公開日:2022-04-07
# 表面視覚トランスフォーマー:生体表面の柔軟な注意に基づくモデリング

Surface Vision Transformers: Flexible Attention-Based Modelling of Biomedical Surfaces ( http://arxiv.org/abs/2204.03408v1 )

ライセンス: Link先を確認
Simon Dahan, Hao Xu, Logan Z. J. Williams, Abdulah Fawaz, Chunhui Yang, Timothy S. Coalson, Michelle C. Williams, David E. Newby, A. David Edwards, Matthew F. Glasser, Alistair A. Young, Daniel Rueckert, Emma C. Robinson(参考訳) コンピュータビジョンタスクにおける視覚トランスフォーマー(vit)の最近の最先端性能は、長距離自己アテンションを実装する汎用アーキテクチャが畳み込みニューラルネットワークの局所的特徴学習操作を置き換えることを証明している。 本稿では,一般表面メッシュへのパッチ適用機構を提案することにより,シーケンス・ツー・シーケンス学習問題としての表面学習のタスクを再構成することで,vitを表面へ拡張する。 パッチのシーケンスは変換器エンコーダで処理され、分類や回帰に使われる。 我々は,Human Connectome Project (HCP) における脳年齢予測,Human Connectome Project (HCP) における流体情報予測,Scottish Computed Tomography of the Heart (SCOT-HEART) データセットを用いた冠状動脈カルシウムスコア分類など,様々なバイオメディカル表面領域と課題について検証し,事前学習とデータ拡張がモデル性能に与える影響について検討した。 その結果,Surface Vision Transformers (SiT) は,脳年齢および知能予測のための幾何的深層学習法よりも一貫した改善を示し,臨床実習で使用される標準指標とカルシウムスコア分類において同等の性能を示した。 さらに、トランスフォーマー注意マップの解析は、各タスクを駆動する特徴の明確かつ個別化された予測を提供する。 コードはgithubで入手できる。 https://github.com/m etrics-lab/surface-v ision-transformers

Recent state-of-the-art performances of Vision Transformers (ViT) in computer vision tasks demonstrate that a general-purpose architecture, which implements long-range self-attention, could replace the local feature learning operations of convolutional neural networks. In this paper, we extend ViTs to surfaces by reformulating the task of surface learning as a sequence-to-sequence learning problem, by proposing patching mechanisms for general surface meshes. Sequences of patches are then processed by a transformer encoder and used for classification or regression. We validate our method on a range of different biomedical surface domains and tasks: brain age prediction in the developing Human Connectome Project (dHCP), fluid intelligence prediction in the Human Connectome Project (HCP), and coronary artery calcium score classification using surfaces from the Scottish Computed Tomography of the Heart (SCOT-HEART) dataset, and investigate the impact of pretraining and data augmentation on model performance. Results suggest that Surface Vision Transformers (SiT) demonstrate consistent improvement over geometric deep learning methods for brain age and fluid intelligence prediction and achieve comparable performance on calcium score classification to standard metrics used in clinical practice. Furthermore, analysis of transformer attention maps offers clear and individualised predictions of the features driving each task. Code is available on Github: https://github.com/m etrics-lab/surface-v ision-transformers
翻訳日:2022-04-08 15:57:46 公開日:2022-04-07
# 医用画像における生成型adversarial network-based stochastic image modelの確立手順の評価

Evaluating Procedures for Establishing Generative Adversarial Network-based Stochastic Image Models in Medical Imaging ( http://arxiv.org/abs/2204.03547v1 )

ライセンス: Link先を確認
Varun A. Kelkar, Dimitrios S. Gotsis, Frank J. Brooks, Kyle J. Myers, Prabhat KC, Rongping Zeng, Mark A. Anastasio(参考訳) 現代の生成モデル、例えばgenerative adversarial networks(gans)は、無条件の医用画像合成、画像復元、再構成と翻訳、画像システムの最適化など、いくつかの医療画像分野において大きな期待を持っている。 しかし、ganを用いた確率的画像モデル(sims)の確立手順は一般的であり、医療画像に関する特定の問題に対処していない。 本研究では, 血管造影画像中の現実的な血管をシミュレートする標準SIMを用いて, GANを用いたSIMの確立手順を評価する。 GANベースのSIMは、医学的に現実的なSIMが考慮した統計を再現する能力に基づいて、標準SIMと比較される。 古典的指標と医学的関連指標を用いてGANを評価することにより、トレーニングされたGANの忠実度に関する異なる結論が導かれる可能性がある。 本研究は,gan評価のための客観的指標の開発の必要性を浮き彫りにする。

Modern generative models, such as generative adversarial networks (GANs), hold tremendous promise for several areas of medical imaging, such as unconditional medical image synthesis, image restoration, reconstruction and translation, and optimization of imaging systems. However, procedures for establishing stochastic image models (SIMs) using GANs remain generic and do not address specific issues relevant to medical imaging. In this work, canonical SIMs that simulate realistic vessels in angiography images are employed to evaluate procedures for establishing SIMs using GANs. The GAN-based SIM is compared to the canonical SIM based on its ability to reproduce those statistics that are meaningful to the particular medically realistic SIM considered. It is shown that evaluating GANs using classical metrics and medically relevant metrics may lead to different conclusions about the fidelity of the trained GANs. This work highlights the need for the development of objective metrics for evaluating GANs.
翻訳日:2022-04-08 15:57:17 公開日:2022-04-07
# 非線形一般化ナッシュ平衡問題の1次アルゴリズム

First-Order Algorithms for Nonlinear Generalized Nash Equilibrium Problems ( http://arxiv.org/abs/2204.03132v1 )

ライセンス: Link先を確認
Michael I. Jordan, Tianyi Lin, Manolis Zampetakis(参考訳) 非線形一般化ナッシュ均衡問題(NGNEP)では,各プレイヤーの戦略セットが競合プレイヤーの選択に依存するような等式制約と不等式制約によって定義される。 この環境では漸近的大域収束と解法局所収束速度が研究されているが、反復複雑性の解析はまだ初期段階にある。 我々は,2次ペナルティ法と拡張ラグランジアン法に基づく単純な1次アルゴリズムフレームワークを2つ提供し,それぞれ内部ループとしてミラープロックスアルゴリズムを高速化した。 これらのアルゴリズムに対する漸近的理論的保証を提供する。 より具体的には、(強く)単調のngnepsを解くためのアルゴリズムのグローバル収束率を確立し、勾配評価の回数で表される反復複雑性境界を提供する。 実験結果はアルゴリズムの効率を示す。

We consider the problem of computing an equilibrium in a class of nonlinear generalized Nash equilibrium problems (NGNEPs) in which the strategy sets for each player are defined by equality and inequality constraints that may depend on the choices of rival players. While the asymptotic global convergence and local convergence rate of solution procedures have been studied in this setting, the analysis of iteration complexity is still in its infancy. Our contribution is to provide two simple first-order algorithmic frameworks based on the quadratic penalty method and the augmented Lagrangian method, respectively, with an accelerated mirror-prox algorithm as the inner loop. We provide nonasymptotic theoretical guarantees for these algorithms. More specifically, we establish the global convergence rate of our algorithms for solving (strongly) monotone NGNEPs and we provide iteration complexity bounds expressed in terms of the number of gradient evaluations. Experimental results demonstrate the efficiency of our algorithms.
翻訳日:2022-04-08 15:56:05 公開日:2022-04-07
# DDOS:ドメイン適応型事前学習とオピニオンスコアの分布を利用したMOS予測フレームワーク

DDOS: A MOS Prediction Framework utilizing Domain Adaptive Pre-training and Distribution of Opinion Scores ( http://arxiv.org/abs/2204.03219v1 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Wei-Tsung Kao, Hung-yi Lee(参考訳) MOS(Mean opinion score)は、音声合成システムにおいて典型的な主観評価尺度である。 MOSの収集には時間を要するため,自動評価のための正確なMOS予測モデルが存在することが望ましい。 本稿では,新しいMOS予測モデルであるDDOSを提案する。 DDOSは、ドメイン適応事前学習を利用して、合成音声の自己教師付き学習モデルをさらに訓練する。 また,各発話のスコア分布をモデル化するモジュールが提案されている。 提案されたコンポーネントでは、DDOSは以前のBVCCデータセットよりもパフォーマンスがよい。 BC2019データセットのゼロショット転送結果も大幅に改善されている。 DDOSはまた、システムレベルのスコアでInterspeech 2022 VoiceMOSチャレンジで2位を獲得した。

Mean opinion score (MOS) is a typical subjective evaluation metric for speech synthesis systems. Since collecting MOS is time-consuming, it would be desirable if there are accurate MOS prediction models for automatic evaluation. In this work, we propose DDOS, a novel MOS prediction model. DDOS utilizes domain adaptive pre-training to further pre-train self-supervised learning models on synthetic speech. And a proposed module is added to model the opinion score distribution of each utterance. With the proposed components, DDOS outperforms previous works on BVCC dataset. And the zero shot transfer result on BC2019 dataset is significantly improved. DDOS also wins second place in Interspeech 2022 VoiceMOS challenge in terms of system-level score.
翻訳日:2022-04-08 15:55:24 公開日:2022-04-07
# mbi-net : 補聴器用非インタラクティブマルチブランチ音声明瞭度予測モデル

MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility Prediction Model for Hearing Aids ( http://arxiv.org/abs/2204.03305v1 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao(参考訳) ノイズの多い環境下での音声理解能力の向上は、補聴器(HA)の開発に不可欠である。 そのため,HAユーザに対して,音声の明瞭さを正確に予測できる指標を導出することが重要である。 直接的なアプローチは、主観的な聞き取りテストを実行し、テスト結果を評価指標として使うことである。 しかし、大規模なリスニングテストの実行には時間と費用がかかる。 そこで, 主観的聴力検査結果のサロゲートとして評価指標が導出された。 本研究では,haユーザの主観的知性スコアを予測できるマルチブランチ音声知性予測モデル(mbi-net)を提案する。 MBI-Netは2つのモデルのブランチで構成され、各ブランチは1つのチャンネルから音声信号を処理するために、聴覚損失モデル、クロスドメイン特徴抽出モジュール、音声インテリジェンス予測モデルで構成される。 2つの分岐の出力は線形層を通して融合され、予測された音声明瞭度スコアを得る。 実験の結果,トラック1,トラック2のベースラインシステムよりも高い予測スコアを生成するmbi-netの有効性が,clarity prediction challenge 2022データセット上で確認された。

Improving the user's hearing ability to understand speech in noisy environments is critical to the development of hearing aid (HA) devices. For this, it is important to derive a metric that can fairly predict speech intelligibility for HA users. A straightforward approach is to conduct a subjective listening test and use the test results as an evaluation metric. However, conducting large-scale listening tests is time-consuming and expensive. Therefore, several evaluation metrics were derived as surrogates for subjective listening test results. In this study, we propose a multi-branched speech intelligibility prediction model (MBI-Net), for predicting the subjective intelligibility scores of HA users. MBI-Net consists of two branches of models, with each branch consisting of a hearing loss model, a cross-domain feature extraction module, and a speech intelligibility prediction model, to process speech signals from one channel. The outputs of the two branches are fused through a linear layer to obtain predicted speech intelligibility scores. Experimental results confirm the effectiveness of MBI-Net, which produces higher prediction scores than the baseline system in Track 1 and Track 2 on the Clarity Prediction Challenge 2022 dataset.
翻訳日:2022-04-08 15:55:15 公開日:2022-04-07
# MTI-Net:マルチターゲット音声明瞭度予測モデル

MTI-Net: A Multi-Target Speech Intelligibility Prediction Model ( http://arxiv.org/abs/2204.03310v1 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Szu-wei Fu, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao(参考訳) 近年,深層学習(DL)に基づく非侵入的音声評価モデルが注目されている。 多くの研究は、これらのDLベースのモデルは、良好な評価性能と優れた柔軟性をもたらすと報告している。 さらに、品質スコアと比較して、インテリジェンススコアを推定する深層学習モデルの研究は少ない。 本研究は,人間と機械の知性尺度を同時に予測するマルチタスク音声知性予測モデルであるmti-netを提案する。 具体的には,MTI-Netは主観的聴力テスト結果と単語誤り率(WER)のスコアを予測するように設計されている。 また,MTI-Netの予測性能を向上させる手法についても検討した。 まず、自己教師付き学習(SSL)モデルからの低レベル機能や埋め込み、MTI-Netの予測ターゲットなど、さまざまな特徴を比較する。 第2に,移動学習とマルチタスク学習がMTI-Netの学習に与える影響を検討する。 最後に、細調整のSSL埋め込みの潜在的な利点について検討する。 実験の結果,クロスドメイン機能,マルチタスク学習,ssl組込みの微調整の有効性が実証された。 さらに,MTI-Netにより予測されるインテリジェンス性とWERスコアが,地中信頼度と高い相関があることが確認された。

Recently, deep learning (DL)-based non-intrusive speech assessment models have attracted great attention. Many studies report that these DL-based models yield satisfactory assessment performance and good flexibility, but their performance in unseen environments remains a challenge. Furthermore, compared to quality scores, fewer studies elaborate deep learning models to estimate intelligibility scores. This study proposes a multi-task speech intelligibility prediction model, called MTI-Net, for simultaneously predicting human and machine intelligibility measures. Specifically, given a speech utterance, MTI-Net is designed to predict subjective listening test results and word error rate (WER) scores. We also investigate several methods that can improve the prediction performance of MTI-Net. First, we compare different features (including low-level features and embeddings from self-supervised learning (SSL) models) and prediction targets of MTI-Net. Second, we explore the effect of transfer learning and multi-tasking learning on training MTI-Net. Finally, we examine the potential advantages of fine-tuning SSL embeddings. Experimental results demonstrate the effectiveness of using cross-domain features, multi-task learning, and fine-tuning SSL embeddings. Furthermore, it is confirmed that the intelligibility and WER scores predicted by MTI-Net are highly correlated with the ground-truth scores.
翻訳日:2022-04-08 15:54:56 公開日:2022-04-07
# ロバスト音声クローニングのための自己教師あり学習

Self supervised learning for robust voice cloning ( http://arxiv.org/abs/2204.03421v1 )

ライセンス: Link先を確認
Konstantinos Klapsas, Nikolaos Ellinas, Karolos Nikitaras, Georgios Vamvoukakis, Panos Kakoulidis, Konstantinos Markopoulos, Spyros Raptis, June Sig Sung, Gunu Jho, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) 音声のクローン化は,未知の話者の声を効果的に模倣するために,高品質なTSシステムに組み込まれた堅牢で情報的特徴を必要とする難しい作業である。 本研究では,バニラアルゴリズムに特定の音声拡張を適用した場合に,高品質な音声表現を生成するBootstrap Your Own Latent (BYOL) 手法を用いて,自己教師型フレームワークで学習した特徴を利用する。 さらに、トレーニング手順の強化により、結果として生じる特徴が話者のアイデンティティを捕捉し、ノイズや音響条件に頑健になるよう支援する。 学習した特徴は、事前学習された発話レベルの埋め込みや、追加の話者特徴を生かさずにマルチスピーカ音声合成を実現することを目的とした、非警告タコトロンアーキテクチャへの入力として使用される。 この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。 主観的および客観的評価により,提案モデルの有効性,目標発話の音響条件に対するロバスト性について検証した。

Voice cloning is a difficult task which requires robust and informative features incorporated in a high quality TTS system in order to effectively copy an unseen speaker's voice. In our work, we utilize features learned in a self-supervised framework via the Bootstrap Your Own Latent (BYOL) method, which is shown to produce high quality speech representations when specific audio augmentations are applied to the vanilla algorithm. We further extend the augmentations in the training procedure to aid the resulting features to capture the speaker identity and to make them robust to noise and acoustic conditions. The learned features are used as pre-trained utterance-level embeddings and as inputs to a Non-Attentive Tacotron based architecture, aiming to achieve multispeaker speech synthesis without utilizing additional speaker features. This method enables us to train our model in an unlabeled multispeaker dataset as well as use unseen speaker embeddings to copy a speaker's voice. Subjective and objective evaluations are used to validate the proposed model, as well as the robustness to the acoustic conditions of the target utterance.
翻訳日:2022-04-08 15:54:35 公開日:2022-04-07
# 機械学習で実現可能なIoTセキュリティ - 高度な脅威の下での課題と課題

Machine Learning-Enabled IoT Security: Open Issues and Challenges Under Advanced Persistent Threats ( http://arxiv.org/abs/2204.03433v1 )

ライセンス: Link先を確認
Zhiyan Chen, Jinxin Liu, Yu Shen, Murat Simsek, Burak Kantarci, Hussein T. Mouftah and Petar Djukic(参考訳) その技術的利点にもかかわらず、IoT(Internet of Things)は、無線媒体の脆弱性のためにサイバーの弱点がある。 機械学習(ML)ベースの手法は、有望なパフォーマンスを持つIoTネットワークにおけるサイバー脅威に対して広く使用されている。 アドバンスト・永続脅威(APT)は、サイバー犯罪者がネットワークを侵害するために顕著であり、長期的かつ有害な特性にとって重要である。 しかし,APT攻撃を識別するためにMLベースのアプローチを適用することは,通常トラフィックの極めて少ない割合で,有望な検出性能を得るには困難である。 あらゆる種類のAPT攻撃を伴うパブリックデータセットが欠如しているため、IoTネットワークでのAPT攻撃を十分に調査するための調査は限られている。 網羅的なレビュー記事の中で、ネットワーク攻撃検出における最先端の技術をAPT攻撃検出で橋渡しする価値がある。 この記事では、IoTネットワークにおけるセキュリティ上の課題をレビューし、よく知られた攻撃、APT攻撃、IoTシステムの脅威モデルを提示します。 一方、IoTネットワークでは、シグネチャベース、異常ベース、ハイブリッド侵入検知システムが要約される。 本稿は、検出された攻撃の種類と並行して、頻繁に適用されるMLベースのネットワーク侵入対策に関する統計的知見を取り上げている。 最後に,ネットワーク侵入とapt攻撃に関するオープンイシューと課題を今後の研究のために提示する。

Despite its technological benefits, Internet of Things (IoT) has cyber weaknesses due to the vulnerabilities in the wireless medium. Machine learning (ML)-based methods are widely used against cyber threats in IoT networks with promising performance. Advanced persistent threat (APT) is prominent for cybercriminals to compromise networks, and it is crucial to long-term and harmful characteristics. However, it is difficult to apply ML-based approaches to identify APT attacks to obtain a promising detection performance due to an extremely small percentage among normal traffic. There are limited surveys to fully investigate APT attacks in IoT networks due to the lack of public datasets with all types of APT attacks. It is worth to bridge the state-of-the-art in network attack detection with APT attack detection in a comprehensive review article. This survey article reviews the security challenges in IoT networks and presents the well-known attacks, APT attacks, and threat models in IoT systems. Meanwhile, signature-based, anomaly-based, and hybrid intrusion detection systems are summarized for IoT networks. The article highlights statistical insights regarding frequently applied ML-based methods against network intrusion alongside the number of attacks types detected. Finally, open issues and challenges for common network intrusion and APT attacks are presented for future research.
翻訳日:2022-04-08 15:54:15 公開日:2022-04-07
# 半兄弟レグレッションと外惑星イメージング:柔軟なドメイン知識駆動型因果的枠組みを用いたPSFモデリングとサブトラクション

Half-sibling regression meets exoplanet imaging: PSF modeling and subtraction using a flexible, domain knowledge-driven, causal framework ( http://arxiv.org/abs/2204.03439v1 )

ライセンス: Link先を確認
Timothy D. Gebhard and Markus J. Bonse and Sascha P. Quanz and Bernhard Sch\"olkopf(参考訳) 太陽系外惑星の高コントラストイメージングは、データを無声化し、伴星のシグナルを主星から分離する強力な後処理法にかかっている。 既存のポストプロセッシングアルゴリズムは、問題に関して利用可能なすべての事前のドメイン知識を使用しない。 本稿では,データ生成過程の系統的ノイズと因果構造に対する理解に基づく新しい手法を提案する。 我々のアルゴリズムは半兄弟回帰(HSR)の修正版に基づいており、機械学習と因果関係の分野のアイデアを組み合わせたフレキシブルな denoising フレームワークである。 本研究では,瞳孔追跡モードで得られた高コントラスト外惑星イメージングデータの要求に適応する。 鍵となるアイデアは、このピクセルの時系列を因果的に独立な信号のない予測ピクセルのセットに回帰することで、ピクセル内の系統的なノイズを推定することである。 この研究では正規化線形モデルを用いるが、他の(非線形)モデルも可能である。 第2のステップでは、風速や気温などの観測条件を追加の予測器として組み込むことで、HSRフレームワークがどのように実現できるかを実証する。 本手法をvlt/naco計器から4つのデータセットに適用した場合,本手法はpcaベースのpsf減算よりも良好な偽陽性率を提供する。 さらに,HSRに基づく手法は,データセットの校正のために人工的なコンパニオンを挿入することなく,太陽系外惑星のコントラストの直接的かつ正確な推定を行う。 最後に,観測条件を付加的な予測器として用いることにより,結果が向上することを示す。 hsrベースの手法は、太陽系外惑星画像データにおける恒星psfのモデル化と減算と系統的ノイズに対する、代替的で柔軟で有望なアプローチを提供する。

High-contrast imaging of exoplanets hinges on powerful post-processing methods to denoise the data and separate the signal of a companion from its host star, which is typically orders of magnitude brighter. Existing post-processing algorithms do not use all prior domain knowledge that is available about the problem. We propose a new method that builds on our understanding of the systematic noise and the causal structure of the data-generating process. Our algorithm is based on a modified version of half-sibling regression (HSR), a flexible denoising framework that combines ideas from the fields of machine learning and causality. We adapt the method to address the specific requirements of high-contrast exoplanet imaging data obtained in pupil tracking mode. The key idea is to estimate the systematic noise in a pixel by regressing the time series of this pixel onto a set of causally independent, signal-free predictor pixels. We use regularized linear models in this work; however, other (non-linear) models are also possible. In a second step, we demonstrate how the HSR framework allows us to incorporate observing conditions such as wind speed or air temperature as additional predictors. When we apply our method to four data sets from the VLT/NACO instrument, our algorithm provides a better false-positive fraction than PCA-based PSF subtraction, a popular baseline method in the field. Additionally, we find that the HSR-based method provides direct and accurate estimates for the contrast of the exoplanets without the need to insert artificial companions for calibration in the data sets. Finally, we present first evidence that using the observing conditions as additional predictors can improve the results. Our HSR-based method provides an alternative, flexible and promising approach to the challenge of modeling and subtracting the stellar PSF and systematic noise in exoplanet imaging data.
翻訳日:2022-04-08 15:53:57 公開日:2022-04-07
# 機械学習サロゲートモデルを用いた不均質化空間における一般化潜時同化

Generalised Latent Assimilation in Heterogeneous Reduced Spaces with Machine Learning Surrogate Models ( http://arxiv.org/abs/2204.03497v1 )

ライセンス: Link先を確認
Sibo Cheng and Jianhua Chen and Charitos Anastasiou and Panagiota Angeli and Omar K. Matar and Yi-Ke Guo and Christopher C. Pain and Rossella Arcucci(参考訳) 機械学習アルゴリズムを用いた低次元代用モデルと低次元代用モデルが高次元力学系に広く応用され,アルゴリズムの効率が向上した。 本稿では,低次サロゲートモデルと,異なる物理空間からのリアルタイム観測を組み込んだ新しいデータ同化(DA)技術を組み合わせたシステムを開発する。 我々は、符号化されたシステム変数の空間と現在の観測の空間をリンクする局所的滑らかな代理関数を用いて、計算コストの低い変分DAを実行する。 一般化潜在同化(Generalized Latent Assimilation)と呼ばれる新しいシステムは、低次モデリングによって提供される効率とデータ同化の精度の両方に恩恵をもたらす。 局所的なトレーニングセットのサイズに応じて上界が与えられるこの論文では, 代理関数と原同化コスト関数の差に関する理論的解析も行う。 新しいアプローチは、現在のラテント同化法では扱えない非線形観測演算子を持つ二相液体流の高次元CFD応用で検証された。 数値計算により,提案手法はCFDシミュレーションの1000倍近く高速な深層学習サロゲートモデルの再構成と予測精度を大幅に向上させることができることが示された。

Reduced-order modelling and low-dimensional surrogate models generated using machine learning algorithms have been widely applied in high-dimensional dynamical systems to improve the algorithmic efficiency. In this paper, we develop a system which combines reduced-order surrogate models with a novel data assimilation (DA) technique used to incorporate real-time observations from different physical spaces. We make use of local smooth surrogate functions which link the space of encoded system variables and the one of current observations to perform variational DA with a low computational cost. The new system, named Generalised Latent Assimilation can benefit both the efficiency provided by the reduced-order modelling and the accuracy of data assimilation. A theoretical analysis of the difference between surrogate and original assimilation cost function is also provided in this paper where an upper bound, depending on the size of the local training set, is given. The new approach is tested on a high-dimensional CFD application of a two-phase liquid flow with non-linear observation operators that current Latent Assimilation methods can not handle. Numerical results demonstrate that the proposed assimilation approach can significantly improve the reconstruction and prediction accuracy of the deep learning surrogate model which is nearly 1000 times faster than the CFD simulation.
翻訳日:2022-04-08 15:53:21 公開日:2022-04-07
# (参考訳) MTL制約に対するゴログプログラムの制御 [全文訳有]

Controlling Golog Programs against MTL Constraints ( http://arxiv.org/abs/2204.03596v1 )

ライセンス: CC BY-SA 4.0
Till Hofmann, Stefan Schupp(参考訳) Gologはロボットのハイレベルな動作を制御するための表現力のあるプログラミング言語であるが、実際のロボットシステムでの使用は面倒であることが多い。 実際のロボットでは、ユーザーは、つかむためのオブジェクトを検出するカメラなど、ハードウェアコンポーネントの有効化や無効化など、低レベルの詳細を考慮する必要がある。 言い換えると、ハイレベルなアクションは通常、実行対象の具体的なプログラムとは独立した低レベルプラットフォームに暗黙の一時的な制約をもたらす。 本稿では,これらの制約をmtl式としてモデル化することにより,本プログラムに加えて,特定の低レベルプラットフォーム操作の実行を強制する手法を提案する。 タイムド・オートマトン・コントローラ合成の結果に基づいて,mtl仕様を満たすために,高レベルプログラムと低レベルプラットフォーム操作の両方を同時に実行するコントローラを合成する手法について述べる。 これにより、ユーザは低レベルの操作を考慮せずに、高レベルの動作に集中することができる。 クロックによるgologの拡張と必要な理論的基礎および決定可能性結果について述べる。

While Golog is an expressive programming language to control the high-level behavior of a robot, it is often tedious to use on a real robotic system. On an actual robot, the user needs to consider low-level details, such as enabling and disabling hardware components, e.g., a camera to detect objects for grasping. In other words, high-level actions usually pose implicit temporal constraints on the low-level platform, which are typically independent of the concrete program to be executed. In this paper, we propose to make these constraints explicit by modeling them as MTL formulas, which enforce the execution of certain low-level platform operations in addition to the main program. Based on results from timed automata controller synthesis, we describe a method to synthesize a controller that executes both the high-level program and the low-level platform operations concurrently in order to satisfy the MTL specification. This allows the user to focus on the high-level behavior without the need to consider low-level operations. We present an extension to Golog by clocks together with the required theoretical foundations as well as decidability results.
翻訳日:2022-04-08 15:52:29 公開日:2022-04-07
# 韓国のオンラインヘイトスピーチデータセットによるマルチラベル分類:ソーシャルサイエンスはヘイトスピーチデータセットをいかに発展させるか?

Korean Online Hate Speech Dataset for Multilabel Classification: How Can Social Science Aid Developing Better Hate Speech Dataset? ( http://arxiv.org/abs/2204.03262v1 )

ライセンス: Link先を確認
TaeYoung Kang, Eunrang Kwon, Junbum Lee, Youngeun Nam, Junmo Song, JeongKyu Suh(参考訳) 本研究では,(1)人種と国籍,(2)宗教,(3)地域主義,(4)年齢,(5)ミソジニー,(6)性マイノリティ,(7)男性という7つのカテゴリーを網羅した韓国のネットヘイトスピーチデータセットを提案する。 私たちの35Kデータセットは、Krippendorff氏のAlphaラベルによる24Kのオンラインコメントから成り、ウィキペディアの2.2Kの中立文、Human-in-the-Loopの手順によって生成された1.7Kのラベル付き文、ルール生成の7.1Kの中立文で構成されています。 24Kの初期データセットを持つベースモデルはLRAP .892の精度を達成したが、1Kの追加データと組み合わせて.919に改善された。 従来の二分二分法や二分法と異なり、西洋文化に基づく英語テキストの制限を克服するために、文化的・言語的文脈を考慮したデータセットを設計した。 そこで,本稿は,局所ヘイトスピーチデータセットの提示に限らず,社会科学的な視点に基づく多様な文化的背景を持つ,より汎用的なヘイトスピーチデータセット構築マニュアルとして拡張されている。

We suggest a multilabel Korean online hate speech dataset that covers seven categories of hate speech: (1) Race and Nationality, (2) Religion, (3) Regionalism, (4) Ageism, (5) Misogyny, (6) Sexual Minorities, and (7) Male. Our 35K dataset consists of 24K online comments with Krippendorff's Alpha label accordance of .713, 2.2K neutral sentences from Wikipedia, 1.7K additionally labeled sentences generated by the Human-in-the-Loop procedure and rule-generated 7.1K neutral sentences. The base model with 24K initial dataset achieved the accuracy of LRAP .892, but improved to .919 after being combined with 11K additional data. Unlike the conventional binary hate and non-hate dichotomy approach, we designed a dataset considering both the cultural and linguistic context to overcome the limitations of western culture-based English texts. Thus, this paper is not only limited to presenting a local hate speech dataset but extends as a manual for building a more generalized hate speech dataset with diverse cultural backgrounds based on social science perspectives.
翻訳日:2022-04-08 15:22:48 公開日:2022-04-07
# wav2vec 2.0を用いたストータリング療法における副作用の検出

Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 ( http://arxiv.org/abs/2204.03417v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Dominik Wagner, Elmar N\"oth, Korbinian Riedhammer(参考訳) 発声は、個人のコミュニケーション能力を傷つける様々な言語障害である。 発声者(PWS)は、しばしば言語療法を用いて症状に対処する。 このような非定型的な発話や音声療法の有効性を追跡する音声認識システムの改善には、不均一性を検出すると同時に、セラピーで獲得した音声技術を検出するシステムが必要となる。 本稿では, マルチタスク学習と組み合わせて, 発声中の発声を検出するための汎用wav2vec 2.0機能の有効性を高めるため, 発声音声を含む英語コーパスにおいて, 発声の分類を行うための微調整wav2vec 2.0を提案する。 提案手法はFluencybankとKSoF(Kassel State of Fluency)データセットをトレーニングにより評価し,学習支援ベクトルマシン分類器を用いて,ブロック,延長,音の繰り返し,単語の反復,インタージェクション,治療に特有な音声修正の6種類のイベントタイプに対して,細調整したモデルから抽出した特徴を抽出した。 微調整されたモデルからの埋め込みを使用することで、相対的な分類性能はF1スコアの27\%まで向上する。

Stuttering is a varied speech disorder that harms an individual's communication ability. Persons who stutter (PWS) often use speech therapy to cope with their condition. Improving speech recognition systems for people with such non-typical speech or tracking the effectiveness of speech therapy would require systems that can detect dysfluencies while at the same time being able to detect speech techniques acquired in therapy. This paper shows that fine-tuning wav2vec 2.0 for the classification of stuttering on a sizeable English corpus containing stuttered speech, in conjunction with multi-task learning, boosts the effectiveness of the general-purpose wav2vec 2.0 features for detecting stuttering in speech; both within and across languages. We evaluate our method on Fluencybank and the German therapy-centric Kassel State of Fluency (KSoF) dataset by training Support Vector Machine classifiers using features extracted from the fine-tuned models for six different stuttering-related events types: blocks, prolongations, sound repetitions, word repetitions, interjections, and - specific to therapy - speech modifications. Using embeddings from the fine-tuned models leads to relative classification performance gains up to 27\% w.r.t. F1-score.
翻訳日:2022-04-08 15:22:20 公開日:2022-04-07
# ニューラルエンベディングによる声帯疲労の検出

Detecting Vocal Fatigue with Neural Embeddings ( http://arxiv.org/abs/2204.03428v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Dominik Wagner, Ilja Baumann, Korbinian Riedhammer, Tobias Bocklet(参考訳) 声の疲労は、拡張使用による疲労感と音声の弱さを指す。 本稿では, 発声疲労検出のための神経埋め込みの有効性について検討する。 x-vectors, ecapa-tdnn, wav2vec 2.0を学術英語コーパスで比較した。 データの低次元マッピングは、ニューラルネットワークが話者の発声特性の変化に関する情報を長い音声使用中にキャプチャすることを示している。 抽出した埋め込みに時間的平滑化と正規化を適用した場合, 連続発話後50分で3種類のニューラル埋め込みを用いて発声疲労を確実に予測できることを示す。 我々は,x-ベクトルを用いて81%,ecapa-tdnn組込みで85%,入力特徴としてwav2vec 2.0組込みを用いて82%の精度スコアを得た。 学習したシステムが異なる話者と記録環境に適用された場合、適応せずに76%の精度スコアを得る。

Vocal fatigue refers to the feeling of tiredness and weakness of voice due to extended utilization. This paper investigates the effectiveness of neural embeddings for the detection of vocal fatigue. We compare x-vectors, ECAPA-TDNN, and wav2vec 2.0 embeddings on a corpus of academic spoken English. Low-dimensional mappings of the data reveal that neural embeddings capture information about the change in vocal characteristics of a speaker during prolonged voice usage. We show that vocal fatigue can be reliably predicted using all three kinds of neural embeddings after only 50 minutes of continuous speaking when temporal smoothing and normalization are applied to the extracted embeddings. We employ support vector machines for classification and achieve accuracy scores of 81% using x-vectors, 85% using ECAPA-TDNN embeddings, and 82% using wav2vec 2.0 embeddings as input features. We obtain an accuracy score of 76%, when the trained system is applied to a different speaker and recording environment without any adaptation.
翻訳日:2022-04-08 15:21:53 公開日:2022-04-07
# クラスコンテンツ共有クライアントを用いたラベルなしデータからのフェデレーション学習

Federated Learning from Only Unlabeled Data with Class-Conditional-Sh aring Clients ( http://arxiv.org/abs/2204.03304v1 )

ライセンス: Link先を確認
Nan Lu, Zhao Wang, Xiaoxiao Li, Gang Niu, Qi Dou, Masashi Sugiyama(参考訳) supervised federated learning (fl)は、複数のクライアントがラベル付きデータを共有せずにトレーニングされたモデルを共有できるようにする。 しかし、潜在的なクライアントは自身のデータをラベル付けすることにさえ消極的かもしれない。 本稿では,クラスラベルを予測するためのモデルである教師なしFLの可能性を示す。クライアントが所有する未ラベルデータ間でクラス条件分布が共有されている間,クラス優先確率がシフトした場合。 本研究では,教師なし学習(FedUL)のフェデレーションを提案し,各クライアントに対してラベル付きラベル付きデータにラベル付きデータを変換し,教師付きFLにより修正モデルを訓練し,修正モデルから所望モデルを復元する。 FedULは非教師付きFLの非常に一般的な解であり、多くの教師付きFLメソッドと互換性があり、データにラベルが付けられているかのように、所望のモデルの回復を理論的に保証することができる。 ベンチマークと実世界のデータセットの実験は、FedULの有効性を示している。 コードはhttps://github.com/l unanbit/FedULで入手できる。

Supervised federated learning (FL) enables multiple clients to share the trained model without sharing their labeled data. However, potential clients might even be reluctant to label their own data, which could limit the applicability of FL in practice. In this paper, we show the possibility of unsupervised FL whose model is still a classifier for predicting class labels, if the class-prior probabilities are shifted while the class-conditional distributions are shared among the unlabeled data owned by the clients. We propose federation of unsupervised learning (FedUL), where the unlabeled data are transformed into surrogate labeled data for each of the clients, a modified model is trained by supervised FL, and the wanted model is recovered from the modified model. FedUL is a very general solution to unsupervised FL: it is compatible with many supervised FL methods, and the recovery of the wanted model can be theoretically guaranteed as if the data have been labeled. Experiments on benchmark and real-world datasets demonstrate the effectiveness of FedUL. Code is available at https://github.com/l unanbit/FedUL.
翻訳日:2022-04-08 15:20:32 公開日:2022-04-07
# 不均一チャネルによる時系列の短いショット予測

Few-Shot Forecasting of Time-Series with Heterogeneous Channels ( http://arxiv.org/abs/2204.03456v1 )

ライセンス: Link先を確認
Lukas Brinkmeyer and Rafael Rego Drumond and Johannes Burchert and Lars Schmidt-Thieme(参考訳) 複雑な時系列予測モデルの学習は通常、タスク/データセットごとに各モデルがスクラッチからトレーニングされるため、大量のデータを必要とする。 類似したデータセットで学習経験を活用することは、ほとんどショット分類と呼ばれる分類問題の確立したテクニックである。 しかし、既存の手法は時系列予測には適用できない。 一 異なるチャンネルを有する多変量時系列データセット 二 予報は、主に分類と異なる。 本稿では,不均質チャネルを用いた時系列の少ない予測の問題を初めて定式化する。 ベクトルデータにおける不均一属性に関する最近の研究を拡張し、時間的埋め込みを含む置換不変深層集合ブロックからなるモデルを開発した。 40の時系列データセットの最初のメタデータセットを組み立て、我々のモデルが優れた一般化を提供し、タスク間で学習できなかったり、時間的情報を見逃したりする単純なシナリオで実行されたベースラインを上回っていることを実験を通して示します。

Learning complex time series forecasting models usually requires a large amount of data, as each model is trained from scratch for each task/data set. Leveraging learning experience with similar datasets is a well-established technique for classification problems called few-shot classification. However, existing approaches cannot be applied to time-series forecasting because i) multivariate time-series datasets have different channels and ii) forecasting is principally different from classification. In this paper we formalize the problem of few-shot forecasting of time-series with heterogeneous channels for the first time. Extending recent work on heterogeneous attributes in vector data, we develop a model composed of permutation-invarian t deep set-blocks which incorporate a temporal embedding. We assemble the first meta-dataset of 40 multivariate time-series datasets and show through experiments that our model provides a good generalization, outperforming baselines carried over from simpler scenarios that either fail to learn across tasks or miss temporal information.
翻訳日:2022-04-08 15:19:31 公開日:2022-04-07
# 区間境界伝播型マイノショット学習

Interval Bound Propagation--aided Few-shot Learning ( http://arxiv.org/abs/2204.03511v1 )

ライセンス: Link先を確認
Shounak Datta, Sankha Subhra Mullick, Swagatam Das(参考訳) 少数ショット学習は、与えられたタスク分散から、ラベル付きデータの限られた量で、さまざまなタスクのトレーニングから得られた知識を、同じ分散から未認識のタスクに一般化することを目的としている。 効果的な少数ショット一般化の基本的な要件は、タスク多様体のよい表現を学ぶことである。 これを奨励する1つの方法は、数発の学習者が学習した特徴空間内の地域を保存することである。 そこで本研究では,頑健な学習文献から少人数学習への区間境界の概念を導入する。 インターバルバウンダリは、トレーニングタスクの周辺を特徴付けるために使用される。 これらの近傍はタスクとそれぞれの境界の間の距離を最小化することで保存することができる。 さらに,利用可能なタスクとそれぞれのインターバル境界を補間して,新たなタスクを人工的に形成し,タスクが不足している場合に支援する新たな戦略を提案する。 このフレームワークをモデルに依存しないメタラーニングとプロトタイプベースのメトリックラーニングの両方に適用する。 提案手法の有効性は,近年の競争相手数に比べて,様々な分野のデータセットのパフォーマンスが向上していることから明らかである。

Few-shot learning aims to transfer the knowledge acquired from training on a diverse set of tasks, from a given task distribution, to generalize to unseen tasks, from the same distribution, with a limited amount of labeled data. The underlying requirement for effective few-shot generalization is to learn a good representation of the task manifold. One way to encourage this is to preserve local neighborhoods in the feature space learned by the few-shot learner. To this end, we introduce the notion of interval bounds from the provably robust training literature to few-shot learning. The interval bounds are used to characterize neighborhoods around the training tasks. These neighborhoods can then be preserved by minimizing the distance between a task and its respective bounds. We further introduce a novel strategy to artificially form new tasks for training by interpolating between the available tasks and their respective interval bounds, to aid in cases with a scarcity of tasks. We apply our framework to both model-agnostic meta-learning as well as prototype-based metric-learning paradigms. The efficacy of our proposed approach is evident from the improved performance on several datasets from diverse domains in comparison to a sizable number of recent competitors.
翻訳日:2022-04-08 15:19:15 公開日:2022-04-07
# 制約緩和による反事実的説明の探索

Finding Counterfactual Explanations through Constraint Relaxations ( http://arxiv.org/abs/2204.03429v1 )

ライセンス: Link先を確認
Sharmi Dev Gupta, Begum Genc and Barry O'Sullivan(参考訳) インタラクティブな制約システムは、しばしばユーザ制約の衝突によって実現不可能(ソリューションなし)に陥る。 不実現性を取り戻すための一般的なアプローチは、システム内の衝突を引き起こす制約を取り除くことである。 このアプローチによって、システムが"ユーザが制約の一部を放棄する意思があれば、ソリューションが存在する"という説明を提供することができる。 しかし、この説明は有益ではないと批判することができる。 反現実的な説明は、ユーザが既存の制約にどの変更を適用できるかを、削除せずに理解することで、実行可能性を取り戻すための基盤を提供することができる説明の一種である。 このアプローチは機械学習の分野で広く研究されているが、制約満足度という文脈でより詳細な調査が必要である。 本稿では,過制約を満たす制約満足度問題における競合検出と最大緩和に基づく反復的手法を提案する。

Interactive constraint systems often suffer from infeasibility (no solution) due to conflicting user constraints. A common approach to recover infeasibility is to eliminate the constraints that cause the conflicts in the system. This approach allows the system to provide an explanation as: "if the user is willing to drop out some of their constraints, there exists a solution". However, one can criticise this form of explanation as not being very informative. A counterfactual explanation is a type of explanation that can provide a basis for the user to recover feasibility by helping them understand which changes can be applied to their existing constraints rather than removing them. This approach has been extensively studied in the machine learning field, but requires a more thorough investigation in the context of constraint satisfaction. We propose an iterative method based on conflict detection and maximal relaxations in over-constrained constraint satisfaction problems to help compute a counterfactual explanation.
翻訳日:2022-04-08 15:18:57 公開日:2022-04-07
# (参考訳) Imitating, Fast and Slow: 意思決定時計画によるデモからのロバスト学習 [全文訳有]

Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning ( http://arxiv.org/abs/2204.03597v1 )

ライセンス: CC BY 4.0
Carl Qi, Pieter Abbeel, Aditya Grover(参考訳) 模倣学習の目標は、明示的な報酬信号にアクセスすることなく、デモンストレーションから専門家の行動を模倣することである。 一般的なアプローチのクラスでは、(未知の)報酬関数を逆強化学習(IRL)で推論し、続いて強化学習(RL)で報酬関数を最大化する。 しかしながら、これらのアプローチを通じて学んだ方針は、実際は非常に不安定であり、複雑なエラーのために小さなテスト時間摂動でも急速に悪化する。 提案するImitation with Planning at Test-time(IMPLANT)は,意思決定時計画を利用して,任意の基本模倣ポリシーの誤りを補足するメタアルゴリズムである。 既存のアプローチとは対照的に、我々は模倣ポリシーと報酬モデルの両方を意思決定時に保持し、2つのコンポーネントの学習信号の恩恵を受ける。 実験により, インプラントは標準制御環境におけるベンチマーク模倣学習アプローチを著しく上回っており, テスト時力学における難解な摂動を受ける場合, ゼロショット一般化に優れることを示した。

The goal of imitation learning is to mimic expert behavior from demonstrations, without access to an explicit reward signal. A popular class of approach infers the (unknown) reward function via inverse reinforcement learning (IRL) followed by maximizing this reward function via reinforcement learning (RL). The policies learned via these approaches are however very brittle in practice and deteriorate quickly even with small test-time perturbations due to compounding errors. We propose Imitation with Planning at Test-time (IMPLANT), a new meta-algorithm for imitation learning that utilizes decision-time planning to correct for compounding errors of any base imitation policy. In contrast to existing approaches, we retain both the imitation policy and the rewards model at decision-time, thereby benefiting from the learning signal of the two components. Empirically, we demonstrate that IMPLANT significantly outperforms benchmark imitation learning approaches on standard control environments and excels at zero-shot generalization when subject to challenging perturbations in test-time dynamics.
翻訳日:2022-04-08 15:15:46 公開日:2022-04-07
# ProbNVS:学習確率誘導サンプリングによる高速新規ビュー合成

ProbNVS: Fast Novel View Synthesis with Learned Probability-Guided Sampling ( http://arxiv.org/abs/2204.03476v1 )

ライセンス: Link先を確認
Yuemei Zhou, Tao Yu, Zerong Zheng, Ying Fu, Yebin Liu(参考訳) 既存の最先端の新しいビュー合成法は、正確な3次元幾何推定や、全体の効率を抑えるニューラルボリュームレンダリングのための全空間のサンプリングに頼っている。 レンダリング品質を犠牲にすることなく、サンプリングポイントを削減し、レンダリング効率を向上させるために、学習済みのMVS先行データに基づく新しいビュー合成フレームワークを構築することを提案する。 具体的には、学習したMVSアーキテクチャから抽出した深度確率分布のガイダンスに基づいて、少ないが重要な点をサンプリングする。 学習された確率誘導サンプリングに基づいて、ソースビュー情報と学習シーン構造を集約し、フォトリアリスティックなターゲットビュー画像を合成するニューラルネットワークボリュームレンダリングモジュールを精巧に設計する。 最後に、信頼度対応リファインメントモジュールを組み込むことにより、不確実性、オクルード、未参照領域のレンダリング結果をさらに改善することができる。 実験により,提案手法は最先端のベースラインに比べて15~40倍高速なレンダリングを実現し,高い一般化能力と高品質な新規ビュー合成性能を示した。

Existing state-of-the-art novel view synthesis methods rely on either fairly accurate 3D geometry estimation or sampling of the entire space for neural volumetric rendering, which limit the overall efficiency. In order to improve the rendering efficiency by reducing sampling points without sacrificing rendering quality, we propose to build a novel view synthesis framework based on learned MVS priors that enables general, fast and photo-realistic view synthesis simultaneously. Specifically, fewer but important points are sampled under the guidance of depth probability distributions extracted from the learned MVS architecture. Based on the learned probability-guided sampling, a neural volume rendering module is elaborately devised to fully aggregate source view information as well as the learned scene structures to synthesize photorealistic target view images. Finally, the rendering results in uncertain, occluded and unreferenced regions can be further improved by incorporating a confidence-aware refinement module. Experiments show that our method achieves 15 to 40 times faster rendering compared to state-of-the-art baselines, with strong generalization capacity and comparable high-quality novel view synthesis performance.
翻訳日:2022-04-08 15:01:32 公開日:2022-04-07
# surrounddepth: 自己教師付きマルチカメラ深度推定のための周辺視点の絡み合い

SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation ( http://arxiv.org/abs/2204.03636v1 )

ライセンス: Link先を確認
Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Yongming Rao, Guan Huang, Jiwen Lu, Jie Zhou(参考訳) 画像からの深度推定は、自動運転車の3D認識の基本的なステップであり、LiDARのような高価な深度センサーに代わる経済的な代替手段である。 時間光度整合性はラベルなしで自己教師付き深度推定を可能にし、その適用をさらに促進する。 しかし、既存のほとんどの方法は、個々の単眼画像に基づいて深度を予測し、現代の自動運転車で一般的に利用できる複数の周囲カメラ間の相関を無視する。 本稿では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。 具体的には,周囲のすべてのビューを協調ネットワークで処理し,複数のビューから情報を効果的に融合するクロスビュートランスフォーマーを提案する。 マルチカメラ特徴写像間のグローバルな相互作用を効果的に実現するために、クロスビュー自己注意を適用した。 自己教師付き単眼深度推定と異なり,多眼極端行列を与えられた実世界スケールを予測できる。 この目的を達成するために, モデル事前学習のためのスケール認識擬似深さを抽出するために, structure-from-motio n を採用する。 さらに、各カメラのエゴモーションを予測する代わりに、車両の普遍的なエゴモーションを推定し、それを各ビューに転送し、マルチビュー一貫性を実現する。 実験では, DDAD と nuScenes に挑戦するマルチカメラ深度推定データセット上で, 最先端の性能を実現する。

Depth estimation from images serves as the fundamental step of 3D perception for autonomous driving and is an economical alternative to expensive depth sensors like LiDAR. The temporal photometric consistency enables self-supervised depth estimation without labels, further facilitating its application. However, most existing methods predict the depth solely based on each monocular image and ignore the correlations among multiple surrounding cameras, which are typically available for modern self-driving vehicles. In this paper, we propose a SurroundDepth method to incorporate the information from multiple surrounding views to predict depth maps across cameras. Specifically, we employ a joint network to process all the surrounding views and propose a cross-view transformer to effectively fuse the information from multiple views. We apply cross-view self-attention to efficiently enable the global interactions between multi-camera feature maps. Different from self-supervised monocular depth estimation, we are able to predict real-world scales given multi-camera extrinsic matrices. To achieve this goal, we adopt structure-from-motio n to extract scale-aware pseudo depths to pretrain the models. Further, instead of predicting the ego-motion of each individual camera, we estimate a universal ego-motion of the vehicle and transfer it to each view to achieve multi-view consistency. In experiments, our method achieves the state-of-the-art performance on the challenging multi-camera depth estimation datasets DDAD and nuScenes.
翻訳日:2022-04-08 15:01:14 公開日:2022-04-07
# プレトレイン, セルフトレイン, 蒸留 : 簡易な3次元再構成法

Pre-train, Self-train, Distill: A simple recipe for Supersizing 3D Reconstruction ( http://arxiv.org/abs/2204.03642v1 )

ライセンス: Link先を確認
Kalyan Vasudev Alwala, Abhinav Gupta, Shubham Tulsiani(参考訳) 我々の研究は、数百のセマンティックカテゴリからオブジェクトの単一ビュー3D再構成のための統一モデルを学ぶ。 直接3D監視に代わるスケーラブルな代替手段として、一般的なカテゴリの3D学習のための分割画像収集に頼っている。 同様の監督を使いながら、スクラッチから独立したカテゴリ特化モデルを学習する以前の作業とは異なり、統一されたモデルを学ぶという私たちのアプローチは、トレーニングプロセスを単純化するとともに、カテゴリ間の共通構造からモデルのメリットを享受します。 標準認識データセットからの画像収集を用いて,150以上の対象カテゴリの3D推論を学習できることを示す。 2つのデータセットを質的・定量的に評価し,従来のカテゴリ固有の再構築ベースラインよりも統一的再構築アプローチが優れていることを示す。 最終3次元復元モデルは,被写体カテゴリの画像のゼロショット推定も可能であり,訓練カテゴリの増加が復元品質を向上させることを実証的に示す。

Our work learns a unified model for single-view 3D reconstruction of objects from hundreds of semantic categories. As a scalable alternative to direct 3D supervision, our work relies on segmented image collections for learning 3D of generic categories. Unlike prior works that use similar supervision but learn independent category-specific models from scratch, our approach of learning a unified model simplifies the training process while also allowing the model to benefit from the common structure across categories. Using image collections from standard recognition datasets, we show that our approach allows learning 3D inference for over 150 object categories. We evaluate using two datasets and qualitatively and quantitatively show that our unified reconstruction approach improves over prior category-specific reconstruction baselines. Our final 3D reconstruction model is also capable of zero-shot inference on images from unseen object categories and we empirically show that increasing the number of training categories improves the reconstruction quality.
翻訳日:2022-04-08 15:00:48 公開日:2022-04-07
# コンピュータビジョンのための全変動最適化層

Total Variation Optimization Layers for Computer Vision ( http://arxiv.org/abs/2204.03643v1 )

ライセンス: Link先を確認
Raymond A. Yeh, Yuan-Ting Hu, Zhongzheng Ren, Alexander G. Schwing(参考訳) ディープネット層内の最適化は、ディープネット層設計の新しい方向性として現れた。 しかし、これらのレイヤをコンピュータビジョンタスクに適用する場合、主な課題は2つある。 (a)レイヤ内の最適化問題はどれが役に立つか? ; b) レイヤ内の計算が効率的であることを保証するには? 研究にむけて (a)本研究では,コンピュータビジョンのためのレイヤーとして,全変動(tv)最小化を提案する。 画像処理の全体的なバリエーションの成功に動機づけられ、テレビをレイヤーとして、ディープネットにも有用なインダクティブバイアスをもたらすと仮定した。 この仮説を5つのコンピュータビジョンタスク(画像分類、弱い教師付きオブジェクトのローカライゼーション、エッジ保存スムーシング、エッジ検出、画像のデニュージング)について検討し、既存のベースラインよりも改善した。 これらの結果を達成するためには (b):既存のソリューションよりも37ドル以上高速なGPUベースのプロジェクテッドニュートン法を開発した。

Optimization within a layer of a deep-net has emerged as a new direction for deep-net layer design. However, there are two main challenges when applying these layers to computer vision tasks: (a) which optimization problem within a layer is useful?; (b) how to ensure that computation within a layer remains efficient? To study question (a), in this work, we propose total variation (TV) minimization as a layer for computer vision. Motivated by the success of total variation in image processing, we hypothesize that TV as a layer provides useful inductive bias for deep-nets too. We study this hypothesis on five computer vision tasks: image classification, weakly supervised object localization, edge-preserving smoothing, edge detection, and image denoising, improving over existing baselines. To achieve these results we had to address question (b): we developed a GPU-based projected-Newton method which is $37\times$ faster than existing solutions.
翻訳日:2022-04-08 15:00:31 公開日:2022-04-07
# DaViT:デュアルアテンション・ビジョン・トランスフォーマー

DaViT: Dual Attention Vision Transformers ( http://arxiv.org/abs/2204.03645v1 )

ライセンス: Link先を確認
Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan(参考訳) 本稿では,計算効率を保ちながらグローバルなコンテキストを捉えることができる,シンプルで効果的な視覚変換器アーキテクチャであるDual Attention Vision Transformers (DaViT)を紹介する。 本稿では「空間トークン」と「チャネルトークン」の両方で自己認識機構を利用する直交角度からのアプローチを提案する。 空間トークンでは、空間次元はトークンの範囲を定義し、チャネル次元はトークンの特徴次元を定義する。 チャネル次元はトークンの範囲を定義し、空間次元はトークンの特徴次元を定義します。 我々はさらに,モデル全体の線形複雑性を維持するために,空間トークンとチャネルトークンの両方のシーケンス方向に沿ってトークンをグループ化する。 これら2つの自己意識が相互に補完することを示す。 (i)各チャンネルトークンは、画像全体の抽象表現を含むので、チャネル間における注意スコアを計算する際に、すべての空間位置を考慮して、自然にグローバルインタラクション及び表現をキャプチャする。 (ii)空間的注意は、空間的位置間のきめ細かい相互作用を行うことで局所的表現を洗練し、チャネル的注意におけるグローバル情報モデリングを支援する。 大規模な実験により、DaViTは4つの異なるタスクにおける最先端のパフォーマンスを効率的に計算できることを示した。 DaViT-Tiny、DaViT-Small、DaViT-Baseは、それぞれ28.3M、49.7M、87.9MのImageNet-1Kで82.8%、84.2%、84.6%の精度を達成した。 1.5Bの弱教師付き画像とテキストペアでDaViTをさらにスケールアップすると、DaViT-GaintはImageNet-1Kで90.4%のトップ1精度に達する。 コードはhttps://github.com/d ingmyu/davit.comから入手できる。

In this work, we introduce Dual Attention Vision Transformers (DaViT), a simple yet effective vision transformer architecture that is able to capture global context while maintaining computational efficiency. We propose approaching the problem from an orthogonal angle: exploiting self-attention mechanisms with both "spatial tokens" and "channel tokens". With spatial tokens, the spatial dimension defines the token scope, and the channel dimension defines the token feature dimension. With channel tokens, we have the inverse: the channel dimension defines the token scope, and the spatial dimension defines the token feature dimension. We further group tokens along the sequence direction for both spatial and channel tokens to maintain the linear complexity of the entire model. We show that these two self-attentions complement each other: (i) since each channel token contains an abstract representation of the entire image, the channel attention naturally captures global interactions and representations by taking all spatial positions into account when computing attention scores between channels; (ii) the spatial attention refines the local representations by performing fine-grained interactions across spatial locations, which in turn helps the global information modeling in channel attention. Extensive experiments show our DaViT achieves state-of-the-art performance on four different tasks with efficient computations. Without extra data, DaViT-Tiny, DaViT-Small, and DaViT-Base achieve 82.8%, 84.2%, and 84.6% top-1 accuracy on ImageNet-1K with 28.3M, 49.7M, and 87.9M parameters, respectively. When we further scale up DaViT with 1.5B weakly supervised image and text pairs, DaViT-Gaint reaches 90.4% top-1 accuracy on ImageNet-1K. Code is available at https://github.com/d ingmyu/davit.
翻訳日:2022-04-08 15:00:18 公開日:2022-04-07
# FineDiving: アクション品質評価のための細粒度データセット

FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment ( http://arxiv.org/abs/2204.03646v1 )

ライセンス: Link先を確認
Jinglin Xu, Yongming Rao, Xumin Yu, Guangyi Chen, Jie Zhou, Jiwen Lu(参考訳) 既存のアクション品質評価手法の多くは、スコアを予測するためにビデオ全体の深い特徴に依存しており、不透明な推論プロセスと低い解釈可能性のために信頼性が低い。 スポーツビデオにおけるハイレベルセマンティクスと行動の内部的時間構造の両方を理解することが、予測を正確かつ解釈可能なものにするための鍵であると主張する。 この目的に向けて,アクションプロシージャに関する詳細なアノテーションを備えた多種多様なダイビングイベントに基づいて,ファインディビジョンと呼ばれる新しいきめ細かいデータセットを構築した。 また,新たな時間分割注意モジュールを用いて,行動品質評価のための手順認識手法を提案する。 具体的には,ペアワイズクエリとexemplarアクションインスタンスを,意味的および時間的対応の異なる連続したステップに解析する。 提案手法は,問合せと先行ステップ間の埋め込みを学習し,その意味的,空間的,時間的対応を把握し,また信頼性の高いスコアリング機構を導出するための微細なコントラスト回帰に役立てる。 広範な実験により,我々のアプローチは解釈性を高めつつ,最先端のメソッドよりも大幅に改善できることが証明された。 データセットとコードは \url{https://github.com/x ujinglin/finediving} で入手できる。

Most existing action quality assessment methods rely on the deep features of an entire video to predict the score, which is less reliable due to the non-transparent inference process and poor interpretability. We argue that understanding both high-level semantics and internal temporal structures of actions in competitive sports videos is the key to making predictions accurate and interpretable. Towards this goal, we construct a new fine-grained dataset, called FineDiving, developed on diverse diving events with detailed annotations on action procedures. We also propose a procedure-aware approach for action quality assessment, learned by a new Temporal Segmentation Attention module. Specifically, we propose to parse pairwise query and exemplar action instances into consecutive steps with diverse semantic and temporal correspondences. The procedure-aware cross-attention is proposed to learn embeddings between query and exemplar steps to discover their semantic, spatial, and temporal correspondences, and further serve for fine-grained contrastive regression to derive a reliable scoring mechanism. Extensive experiments demonstrate that our approach achieves substantial improvements over state-of-the-art methods with better interpretability. The dataset and code are available at \url{https://github.com/x ujinglin/FineDiving}.
翻訳日:2022-04-08 14:59:45 公開日:2022-04-07
# SunStage: ライトステージとしての太陽を用いたポートレート再構築とリライティング

SunStage: Portrait Reconstruction and Relighting using the Sun as a Light Stage ( http://arxiv.org/abs/2204.03648v1 )

ライセンス: Link先を確認
Yifan Wang, Aleksander Holynski, Xiuming Zhang and Xuaner Cecilia Zhang(参考訳) 屋外のポートレート写真は、直射日光の下で放たれる厳しい影にしばしば浸食される。 これを解決するために、撮影後の照明操作技術を用いることができるが、これらの方法には複雑なハードウェア(例えば、ライトステージ)が必要となるか、画像ベースのプリエントに依存するため、人によって異なる微妙な顔の詳細を再構築することができない。 本稿では,顔の形状と反射率を正確に,個別に調整し,軽量に再現するシステムであるSunStageについて述べる。 提案手法では, 自撮り動画を屋外で撮影し, 位置を回転させ, 顔形状, 反射特性, 照明パラメータの同時再構成における制約として, 太陽と顔の角度の異なる角度を利用する。 リフレクションの他に、リフレクタンス編集やビュー合成といったアプリケーションにも応用できることを示す。 結果とインタラクティブなデモはhttps://grail.cs.was hington.edu/projects /sunstage/で見ることができる。

Outdoor portrait photographs are often marred by the harsh shadows cast under direct sunlight. To resolve this, one can use post-capture lighting manipulation techniques, but these methods either require complex hardware (e.g., a light stage) to capture each individual, or rely on image-based priors and thus fail to reconstruct many of the subtle facial details that vary from person to person. In this paper, we present SunStage, a system for accurate, individually-tailore d, and lightweight reconstruction of facial geometry and reflectance that can be used for general portrait relighting with cast shadows. Our method only requires the user to capture a selfie video outdoors, rotating in place, and uses the varying angles between the sun and the face as constraints in the joint reconstruction of facial geometry, reflectance properties, and lighting parameters. Aside from relighting, we show that our reconstruction can be used for applications like reflectance editing and view synthesis. Results and interactive demos are available at https://grail.cs.was hington.edu/projects /sunstage/.
翻訳日:2022-04-08 14:59:19 公開日:2022-04-07
# 視覚言語モデルのための教師なしプロンプト学習

Unsupervised Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2204.03649v1 )

ライセンス: Link先を確認
Tony Huang, Jack Chu, Fangyun Wei(参考訳) CLIPのような対照的な視覚言語モデルは、ゼロショット転送学習において大きな進歩を見せている。 この新しいパラダイムは、画像とテキストを共通の埋め込み空間でトレーニングし調整するために、大規模な画像テキストペアを使用する。 推論段階では、プロンプトとして知られる適切なテキスト記述をゼロショット転送のために慎重に設計する必要がある。 CoOp、CLIP-Adapter、Tip-Adapterといった最近の研究は、繰り返しプロンプト表現を最適化するか、ラベル付きデータの小さなセットで事前訓練されたビジョン言語モデルの上に追加のアダプタネットワークをトレーニングすることで、下流の画像認識タスクに視覚言語モデルを適用することを提案する。 有望な改善は達成されるが、ターゲットデータセットからのラベル付きイメージを使用することは、事前訓練された視覚言語モデルのゼロショット転送の意図に違反する可能性がある。 本稿では、CLIPに似た視覚言語モデルのゼロショット転送を改善するために、ターゲットデータセットのアノテーションを必要としない教師なしプロンプトラーニング(UPL)フレームワークを提案する。 実験では、ゼロショット転送では、UPLは、プロンプトエンジニアリングやImageNet、その他の10のデータセットで、オリジナルのCLIPよりも優れています。 uplの拡張バージョンは、ほとんどのデータセットで8ショットのcoopと8ショットのティップアダプタと同等ですが、トレーニングのためにラベル付きイメージは不要です。 コードとモデルはhttps://github.com/t onyhuang2022/uplで入手できる。

Contrastive vision-language models like CLIP have shown great progress in zero-shot transfer learning. This new paradigm uses large-scale image-text pairs for training and aligns images and texts in a common embedding space. In the inference stage, the proper text description, known as prompt, needs to be carefully designed for zero-shot transfer. To avoid laborious prompt engineering and simultaneously improve transfer performance, recent works such as CoOp, CLIP-Adapter and Tip-Adapter propose to adapt vision-language models for downstream image recognition tasks by either optimizing the continuous prompt representations or training an additional adapter network on top of the pre-trained vision-language models on a small set of labeled data. Though promising improvements are achieved, using labeled images from target datasets may violate the intention of zero-shot transfer of pre-trained vision-language models. In this paper, we propose an unsupervised prompt learning (UPL) framework, which does not require any annotations of the target dataset, to improve the zero-shot transfer of CLIP-like vision-language models. Experimentally, for zero-shot transfer, our UPL outperforms original CLIP with prompt engineering and on ImageNet as well as other 10 datasets. An enhanced version of UPL is even on par with the 8-shot CoOp and the 8-shot TIP-Adapter on most datasets while our method does not need any labeled images for training. Code and models are available at https://github.com/t onyhuang2022/UPL.
翻訳日:2022-04-08 14:58:58 公開日:2022-04-07
# (参考訳) pin the memory: 意味セグメンテーションを一般化する学習

Pin the Memory: Learning to Generalize Semantic Segmentation ( http://arxiv.org/abs/2204.03609v1 )

ライセンス: CC BY 4.0
Jin Kim, Jiyoung Lee, Jungin Park, Dongbo Min, Kwanghoon Sohn(参考訳) ディープニューラルネットワークの台頭は、セマンティックセグメンテーションにいくつかのブレークスルーをもたらした。 それにもかかわらず、ソースドメインで訓練されたモデルは、しばしばモデルの一般化能力に直接関係する新しい挑戦的なドメインで適切に機能しない。 本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。 特に,本手法はセマンティッククラスの概念的知識を,ドメインを超えて一定のカテゴリ記憶に抽象化する。 メタラーニングの概念に基づき、メモリ誘導ネットワークを繰り返し訓練し、仮想テストをシミュレートする。 1)ドメインに依存しない独特なクラスの情報を記憶する方法を学ぶ。 2)任意のunseenドメインのテストデータにおける表現のあいまいさを減らすために、クラスガイドとして外部に固定されたメモリを提供する。 この目的のために,カテゴリ対応ドメイン一般化のためのメモリ読み込みと更新プロセスの学習を促進するメモリ分散と特徴結合損失を提案する。 セマンティクスのセグメンテーションに関する広範な実験は、様々なベンチマークにおいて最先端の手法よりも優れた一般化能力を示している。

The rise of deep neural networks has led to several breakthroughs for semantic segmentation. In spite of this, a model trained on source domain often fails to work properly in new challenging domains, that is directly concerned with the generalization capability of the model. In this paper, we present a novel memory-guided domain generalization method for semantic segmentation based on meta-learning framework. Especially, our method abstracts the conceptual knowledge of semantic classes into categorical memory which is constant beyond the domains. Upon the meta-learning concept, we repeatedly train memory-guided networks and simulate virtual test to 1) learn how to memorize a domain-agnostic and distinct information of classes and 2) offer an externally settled memory as a class-guidance to reduce the ambiguity of representation in the test data of arbitrary unseen domain. To this end, we also propose memory divergence and feature cohesion losses, which encourage to learn memory reading and update processes for category-aware domain generalization. Extensive experiments for semantic segmentation demonstrate the superior generalization capability of our method over state-of-the-art works on various benchmarks.
翻訳日:2022-04-08 14:57:54 公開日:2022-04-07
# Just-Noticeable-Diff erenceに基づくエッジマップの品質測定

Just-Noticeable-Diff erence Based Edge Map Quality Measure ( http://arxiv.org/abs/2204.03155v1 )

ライセンス: Link先を確認
Ijaz Ahmad and Seokjoo Shin(参考訳) エッジマップ品質測定を効果的に支援することでエッジ検出器の性能を向上させることができる。 複数の評価方法が提案されており、同じ候補エッジマップのパフォーマンススコアが異なる。 しかし, 効率的な尺度は, 自動化可能であり, エッジマップの品質に対する人間の判断と相関するものである。 距離に基づくエッジマップ測定は、エッジマップの品質評価に広く用いられている。 これらの手法は、性能スコアを推定するためにエッジピクセルの距離と統計特性を考慮する。 既存のメソッドは自動化できるが、知覚的な特徴が欠けている。 本稿では,人間の視覚系におけるJust-Noticeable-Diff erence(JND)特徴に基づくエッジマップの品質測定を行い,距離に基づくエッジ測定の欠点を補う。 この目的のために,2つの空間的代替品のJND値を測定するための定数刺激実験を設計した。 実験の結果,JNDに基づく距離計算は主観評価により既存の距離測定よりも優れていた。

The performance of an edge detector can be improved when assisted with an effective edge map quality measure. Several evaluation methods have been proposed resulting in different performance score for the same candidate edge map. However, an effective measure is the one that can be automated and which correlates with human judgement perceived quality of the edge map. Distance-based edge map measures are widely used for assessment of edge map quality. These methods consider distance and statistical properties of edge pixels to estimate a performance score. The existing methods can be automated; however, they lack perceptual features. This paper presents edge map quality measure based on Just-Noticeable-Diff erence (JND) feature of human visual system, to compensate the shortcomings of distance-based edge measures. For this purpose, we have designed constant stimulus experiment to measure the JND value for two spatial alternative. Experimental results show that JND based distance calculation outperforms existing distance-based measures according to subjective evaluation.
翻訳日:2022-04-08 14:56:20 公開日:2022-04-07
# 長尺皮膚病変分類のためのフレキシブルサンプリング

Flexible Sampling for Long-tailed Skin Lesion Classification ( http://arxiv.org/abs/2204.03161v1 )

ライセンス: Link先を確認
Lie Ju, Yicheng Wu, Lin Wang, Zhen Yu, Xin Zhao, Xin Wang, Paul Bonnington, Zongyuan Ge(参考訳) 医療業務の多くは、患者レベルの複雑な状況とまれな疾患の存在により、自然に長期にわたる分布を示す。 既存の長い尾の学習方法は通常、各クラスを等しく扱い、長い尾の分布を再バランスさせる。 しかしながら、いくつかの挑戦的なクラスが多様なクラス内分布を示す可能性があることを考えると、すべてのクラスを再バランスすることは、大きなパフォーマンス低下につながる可能性がある。 そこで,本稿では,長尺皮膚病変分類タスクのためのフレキシブルサンプリングと呼ばれるカリキュラム学習ベースのフレームワークを提案する。 具体的には、トレーニングデータのサブセットを、個々のクラスのプロトタイプに基づいてアンカーポイントとしてサンプリングします。 そして、これらのアンカーポイントを用いて推論モデルを事前学習し、クラスごとの学習困難を評価する。 最後に、カリキュラムサンプリングモジュールを用いて、残りのトレーニングサンプルから新しいサンプルを動的にクエリし、学習困難を意識したサンプリング確率を求める。 isicデータセットの最先端手法に対する評価を行った。 2つの長い尾の配置で得られた結果は,本研究のトレーニング戦略の優位性を証明し,長期の尾の皮膚病変分類のための新しいベンチマークを達成した。

Most of the medical tasks naturally exhibit a long-tailed distribution due to the complex patient-level conditions and the existence of rare diseases. Existing long-tailed learning methods usually treat each class equally to re-balance the long-tailed distribution. However, considering that some challenging classes may present diverse intra-class distributions, re-balancing all classes equally may lead to a significant performance drop. To address this, in this paper, we propose a curriculum learning-based framework called Flexible Sampling for the long-tailed skin lesion classification task. Specifically, we initially sample a subset of training data as anchor points based on the individual class prototypes. Then, these anchor points are used to pre-train an inference model to evaluate the per-class learning difficulty. Finally, we use a curriculum sampling module to dynamically query new samples from the rest training samples with the learning difficulty-aware sampling probability. We evaluated our model against several state-of-the-art methods on the ISIC dataset. The results with two long-tailed settings have demonstrated the superiority of our proposed training strategy, which achieves a new benchmark for long-tailed skin lesion classification.
翻訳日:2022-04-08 14:56:04 公開日:2022-04-07
# L2G: 弱教師付きセマンティックセグメンテーションのための簡易局所言語間知識伝達フレームワーク

L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2204.03206v1 )

ライセンス: Link先を確認
Peng-Tao Jiang, Yuqi Yang, Qibin Hou, Yunchao Wei(参考訳) 正確なクラス認識アテンションマップ、すなわちクラス活性化マップのマイニングは、弱い教師付き意味セグメンテーションに必須である。 本稿では,高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークL2Gを提案する。 入力画像を局所パッチに置き換える際に、より詳細なオブジェクト領域を分類モデルで検出できることを観察する。 これを考慮し,まず局所的分類ネットワークを利用して,入力画像からランダムに切り抜かれた複数の局所的パッチから注意を引き出す。 そして,グローバルネットワークを利用して,複数のローカルアテンションマップを網羅した補完的アテンション知識をオンラインで学習する。 本フレームワークは,収集したリッチオブジェクトの詳細知識をグローバルな視点から学習し,セマンティックセグメンテーションネットワークの擬似アノテーションとして直接使用できる高品質なアテンションマップを生成する。 実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットでは,72.1%,44.2%のmIoUスコアが得られた。 コードはhttps://github.com/P engtaoJiang/L2Gで入手できる。

Mining precise class-aware attention maps, a.k.a, class activation maps, is essential for weakly supervised semantic segmentation. In this paper, we present L2G, a simple online local-to-global knowledge transfer framework for high-quality object attention mining. We observe that classification models can discover object regions with more details when replacing the input image with its local patches. Taking this into account, we first leverage a local classification network to extract attentions from multiple local patches randomly cropped from the input image. Then, we utilize a global network to learn complementary attention knowledge across multiple local attention maps online. Our framework conducts the global network to learn the captured rich object detail knowledge from a global view and thereby produces high-quality attention maps that can be directly used as pseudo annotations for semantic segmentation networks. Experiments show that our method attains 72.1% and 44.2% mIoU scores on the validation set of PASCAL VOC 2012 and MS COCO 2014, respectively, setting new state-of-the-art records. Code is available at https://github.com/P engtaoJiang/L2G.
翻訳日:2022-04-08 14:55:45 公開日:2022-04-07
# 歩行認識のための文脈感応型時間特徴学習

Context-Sensitive Temporal Feature Learning for Gait Recognition ( http://arxiv.org/abs/2204.03270v1 )

ライセンス: Link先を確認
Xiaohu Huang, Duowang Zhu, Xinggang Wang, Hao Wang, Bo Yang, Botao He, Wenyu Liu, and Bin Feng(参考訳) 歩行認識は近年研究の注目を集めているが,空間領域ではシルエットの違いが非常に微妙であるため,識別的時間的表現を学習することは依然として困難である。 異なる時間スケールの時間的クリップに適応的に焦点を合わせることで、人間が異なる被験者の歩行を区別できるという観察に着想を得て、歩行認識のための文脈依存型時間的特徴学習(CSTL)ネットワークを提案する。 CSTLは3つの尺度で時間的特徴を生成し、局所的およびグローバル的視点からコンテキスト情報に基づいて適応的にそれらを集約する。 具体的には、CSTLは適応時間アグリゲーションモジュールを含み、その後、局所関係モデリングとグローバル関係モデリングを行い、マルチスケールの特徴を融合させる。 また,時間的操作による空間的特徴の破損を解消するため,CSTLは空間的特徴を識別するグループを選択するために,空間的特徴学習(SSFL)モジュールを組み込んでいる。 特に,グローバルリレーションモデリングとssflモジュールの実装にトランスフォーマーを利用する。 私たちの知る限りでは、これは歩行認識にtransformerを採用する最初の仕事です。 3つのデータセットで広範な実験が行われ、最先端のパフォーマンスが実証された。 具体的には,CASIA-Bでは98.7%,96.2%,88.7%,OU -MVLPでは97.5%,GREWでは50.6%である。

Although gait recognition has drawn increasing research attention recently, it remains challenging to learn discriminative temporal representation, since the silhouette differences are quite subtle in spatial domain. Inspired by the observation that human can distinguish gaits of different subjects by adaptively focusing on temporal clips with different time scales, we propose a context-sensitive temporal feature learning (CSTL) network for gait recognition. CSTL produces temporal features in three scales, and adaptively aggregates them according to the contextual information from local and global perspectives. Specifically, CSTL contains an adaptive temporal aggregation module that subsequently performs local relation modeling and global relation modeling to fuse the multi-scale features. Besides, in order to remedy the spatial feature corruption caused by temporal operations, CSTL incorporates a salient spatial feature learning (SSFL) module to select groups of discriminative spatial features. Particularly, we utilize transformers to implement the global relation modeling and the SSFL module. To the best of our knowledge, this is the first work that adopts transformer in gait recognition. Extensive experiments conducted on three datasets demonstrate the state-of-the-art performance. Concretely, we achieve rank-1 accuracies of 98.7%, 96.2% and 88.7% under normal-walking, bag-carrying and coat-wearing conditions on CASIA-B, 97.5% on OU-MVLP and 50.6% on GREW.
翻訳日:2022-04-08 14:55:21 公開日:2022-04-07
# 低出力エッジTPUを用いたリアルタイム衛星画像推定のための深層学習

Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge TPU ( http://arxiv.org/abs/2204.03296v1 )

ライセンス: Link先を確認
Alessandro Lotti, Dario Modenini, Paolo Tortora, Massimiliano Saponara, Maria A. Perino(参考訳) 非協力的空間居住者オブジェクトのポーズ推定は、近接操作における自律性に向けた重要な資産である。 この文脈では、単眼カメラはシステム要件が低いため、貴重な解決策である。 しかし、関連する画像処理アルゴリズムは、リアルタイムに実装するには計算コストが高すぎるか、正確でないかのどちらかである。 本稿では,異なる精度・相対性トレードオフにスケール可能なニューラルネットワークアーキテクチャを活用したポーズ推定ソフトウェアを提案する。 われわれのパイプラインはEdge Tensor Processing Unitsと互換性があり、低消費電力の機械学習アクセラレーターが宇宙における人工知能の活用をいかに可能かを示す。 ニューラルネットワークは、Spacecraft Pose Estimation Datasetのベンチマークと、COSMO-SkyMed衛星をさまざまなランダムなポーズとステアブルソーラーパネルの向きで描写したCosmo Photorealistic Datasetの両方でテストされた。 アーキテクチャの最も軽量なバージョンは、両方のデータセットで最先端の精度を達成するが、ネットワークの複雑さはごくわずかで、Coral Dev Board Mini上で毎秒7.7フレームで動作し、わずか2.2Wしか消費しない。

Pose estimation of an uncooperative space resident object is a key asset towards autonomy in close proximity operations. In this context monocular cameras are a valuable solution because of their low system requirements. However, the associated image processing algorithms are either too computationally expensive for real time on-board implementation, or not enough accurate. In this paper we propose a pose estimation software exploiting neural network architectures which can be scaled to different accuracy-latency trade-offs. We designed our pipeline to be compatible with Edge Tensor Processing Units to show how low power machine learning accelerators could enable Artificial Intelligence exploitation in space. The neural networks were tested both on the benchmark Spacecraft Pose Estimation Dataset, and on the purposely developed Cosmo Photorealistic Dataset, which depicts a COSMO-SkyMed satellite in a variety of random poses and steerable solar panels orientations. The lightest version of our architecture achieves state-of-the-art accuracy on both datasets but at a fraction of networks complexity, running at 7.7 frames per second on a Coral Dev Board Mini consuming just 2.2W.
翻訳日:2022-04-08 14:54:56 公開日:2022-04-07
# ディープビジョンアルゴリズムに基づく群行動追跡

Swarm behavior tracking based on a deep vision algorithm ( http://arxiv.org/abs/2204.03319v1 )

ライセンス: Link先を確認
Meihong Wu, Xiaoyan Cao, Shihui Guo(参考訳) 社会昆虫(アリなど)の知的な群れの行動は、異なる環境で発生し、エンボディドインテリジェンスの研究のための洞察を提供すると約束する。 群れの行動を研究するには、研究者が時間とともに個人を正確に追跡する必要がある。 もちろん、個々の昆虫をビデオに手動でラベル付けすることは、労働集約的だ。 しかし、自動追跡手法は、(1)個人は小さく、外観が似ている、(2)相互の頻繁な相互作用は、重篤かつ長期の閉塞を引き起こす。 人工知能とコンピュータビジョン技術の進歩により、我々は上記の課題に対処するために、複数の昆虫の監視を自動化するツールを提供することを期待している。 本稿では,(1)ResNet-50をバックボーンとして使用し,アリの位置を正確に決定する2段階のオブジェクト検出フレームワーク,(2)ResNetモデルを用いてアリの外観記述子を開発し,(3)長期の出現シーケンスを構築し,それらとオンライン追跡を実現するための動き情報を組み合わせた,ビデオ中のマルチアント追跡のための検出・追跡フレームワークを提案する。 本手法を検証するために,室内および屋外の異なるシーンのアリのビデオ10本を含むアリデータベースを構築した。 室内ビデオでは95.7 % mMOTA,81.1 % mMOTP,81.8 % mMOTA,81.9 % mMOTPの最先端性能を実現した。 また,従来の昆虫追跡法よりも6~10倍高速である。 実験の結果,本手法は社会昆虫の群集行動のメカニズムを解明するための強力なツールであることがわかった。

The intelligent swarm behavior of social insects (such as ants) springs up in different environments, promising to provide insights for the study of embodied intelligence. Researching swarm behavior requires that researchers could accurately track each individual over time. Obviously, manually labeling individual insects in a video is labor-intensive. Automatic tracking methods, however, also poses serious challenges: (1) individuals are small and similar in appearance; (2) frequent interactions with each other cause severe and long-term occlusion. With the advances of artificial intelligence and computing vision technologies, we are hopeful to provide a tool to automate monitor multiple insects to address the above challenges. In this paper, we propose a detection and tracking framework for multi-ant tracking in the videos by: (1) adopting a two-stage object detection framework using ResNet-50 as backbone and coding the position of regions of interest to locate ants accurately; (2) using the ResNet model to develop the appearance descriptors of ants; (3) constructing long-term appearance sequences and combining them with motion information to achieve online tracking. To validate our method, we construct an ant database including 10 videos of ants from different indoor and outdoor scenes. We achieve a state-of-the-art performance of 95.7\% mMOTA and 81.1\% mMOTP in indoor videos, 81.8\% mMOTA and 81.9\% mMOTP in outdoor videos. Additionally, Our method runs 6-10 times faster than existing methods for insect tracking. Experimental results demonstrate that our method provides a powerful tool for accelerating the unraveling of the mechanisms underlying the swarm behavior of social insects.
翻訳日:2022-04-08 14:54:36 公開日:2022-04-07
# スパースフローに基づくライン特徴追跡

Sparse Optical Flow-Based Line Feature Tracking ( http://arxiv.org/abs/2204.03331v1 )

ライセンス: Link先を確認
Qiang Fu, Hongshan Yu, Islam Ali, Hong Zhang(参考訳) 本稿では,カメラのポーズ推定問題に対する新しいスパース光フロー(SOF)を用いたライン特徴追跡手法を提案する。 この方法は点ベースSOFアルゴリズムにインスパイアされ、時間変化画像列内の2つの隣接画像が輝度不変性を満たすという観測に基づいて開発された。 この観察に基づいて、ライン機能追跡の目標を再定義する。 記述子マッチングではなくグレー値マッチングに基づいて、ライン機能全体の2つのエンドポイントを追跡する。 この目的を達成するために、まず、与えられた2つのエンドポイントの特徴を2つのエンドポイントで記述し、次に2つのエンドポイントをSOFに基づいて追跡し、ピクセルレベルのグレースケール残差関数を最小化して2つの新しいトラックされたエンドポイントを得る。 与えられたライン特徴と新規ライン特徴との対応性を確立する。 現在のディスクリプタベースの手法と比較して、我々のTETメソッドはディスクリプタを計算し、繰り返し線特徴を検出する必要はない。 当然、計算よりも明らかな優位性がある。 いくつかの公開ベンチマークデータセットで実験したところ、我々の手法は速度よりも明らかな優位性を持つ高い競争精度が得られることがわかった。

In this paper we propose a novel sparse optical flow (SOF)-based line feature tracking method for the camera pose estimation problem. This method is inspired by the point-based SOF algorithm and developed based on an observation that two adjacent images in time-varying image sequences satisfy brightness invariant. Based on this observation, we re-define the goal of line feature tracking: track two endpoints of a line feature instead of the entire line based on gray value matching instead of descriptor matching. To achieve this goal, an efficient two endpoint tracking (TET) method is presented: first, describe a given line feature with its two endpoints; next, track the two endpoints based on SOF to obtain two new tracked endpoints by minimizing a pixel-level grayscale residual function; finally, connect the two tracked endpoints to generate a new line feature. The correspondence is established between the given and the new line feature. Compared with current descriptor-based methods, our TET method needs not to compute descriptors and detect line features repeatedly. Naturally, it has an obvious advantage over computation. Experiments in several public benchmark datasets show our method yields highly competitive accuracy with an obvious advantage over speed.
翻訳日:2022-04-08 14:54:05 公開日:2022-04-07
# シーブへの学習:コンクリート骨材画像からの勾配曲線の予測

Learning to Sieve: Prediction of Grading Curves from Images of Concrete Aggregate ( http://arxiv.org/abs/2204.03333v1 )

ライセンス: Link先を確認
Max Coenen and Dries Beyer and Christian Heipke and Michael Haist(参考訳) 建築材料コンクリートの大きな成分は、粒子径が0.125〜32mmの集合体からなる。 実寸法分布は, 最終コンクリートの品質特性, フレッシュ状態, 硬化状態の両方に有意な影響を与えている。 再生骨材を用いた場合, 粒度分布のばらつきは通常明らかでないが, セメントの使用量の増加によって補うが, コンクリート製造の経済的, 生態的側面に悪影響を及ぼす。 コンクリートのターゲット特性を正確に制御するためには, 寸法分布の未知な変化を定量化し, コンクリートの混合設計をリアルタイムで適切に適応させる必要がある。 そこで,本稿では,コンクリート骨材劣化曲線の決定のための深層学習に基づく手法を提案する。 本稿では,粒子の多種多様なオブジェクトサイズを扱うために,マルチスケール特徴抽出モジュールを適用したネットワークアーキテクチャを提案する。 さらに,本手法の定量的評価に用いるコンクリート骨材の新しいデータセットを提案し,公開する。

A large component of the building material concrete consists of aggregate with varying particle sizes between 0.125 and 32 mm. Its actual size distribution significantly affects the quality characteristics of the final concrete in both, the fresh and hardened states. The usually unknown variations in the size distribution of the aggregate particles, which can be large especially when using recycled aggregate materials, are typically compensated by an increased usage of cement which, however, has severe negative impacts on economical and ecological aspects of the concrete production. In order to allow a precise control of the target properties of the concrete, unknown variations in the size distribution have to be quantified to enable a proper adaptation of the concrete's mixture design in real time. To this end, this paper proposes a deep learning based method for the determination of concrete aggregate grading curves. In this context, we propose a network architecture applying multi-scale feature extraction modules in order to handle the strongly diverse object sizes of the particles. Furthermore, we propose and publish a novel dataset of concrete aggregate used for the quantitative evaluation of our method.
翻訳日:2022-04-08 14:53:43 公開日:2022-04-07
# PSTR:トランスフォーマーを使ったワンステップ検索

PSTR: End-to-End One-Step Person Search With Transformers ( http://arxiv.org/abs/2204.03340v1 )

ライセンス: Link先を確認
Jiale Cao and Yanwei Pang and Rao Muhammad Anwer and Hisham Cholakkal and Jin Xie and Mubarak Shah and Fahad Shahbaz Khan(参考訳) 本稿では,1つのアーキテクチャで人物検出と再識別(re-id)を共同で行う,ワンステップトランスフォーマーに基づく人物検索フレームワークPSTRを提案する。 PSTRは、人検出用検出エンコーダデコーダと、人再識別子用識別リIDデコーダとを含む人探索特化(PSS)モジュールを含む。 識別用再idデコーダは、識別用再id特徴学習のための共有デコーダを備えた多レベル監督スキームと、人の異なる部分間の関係をエンコードする部分注意ブロックとを備える。 さらに,個人インスタンス間のリidを異なるスケールでサポートする,簡易なマルチスケールスキームについても紹介する。 PSTRは、オブジェクトレベルの認識(検出)とインスタンスレベルのマッチング(re-id)の多様な目的を共同で達成する。 我々の知る限りでは、我々は初めてエンドツーエンドのワンステップトランスフォーマーベースの人物検索フレームワークを提案する。 CUHK-SYSUとPRWの2つの人気のあるベンチマークで実験が行われている。 提案された貢献のメリットを広範囲に説明します。 さらに、提案したPSTRは、両方のベンチマークで新しい最先端を設定できる。 PRWベンチマークでは、平均平均精度(mAP)が56.5%に達する。 ソースコードは \url{https://github.com/j ialecao001/pstr} で入手できる。

We propose a novel one-step transformer-based person search framework, PSTR, that jointly performs person detection and re-identification (re-id) in a single architecture. PSTR comprises a person search-specialized (PSS) module that contains a detection encoder-decoder for person detection along with a discriminative re-id decoder for person re-id. The discriminative re-id decoder utilizes a multi-level supervision scheme with a shared decoder for discriminative re-id feature learning and also comprises a part attention block to encode relationship between different parts of a person. We further introduce a simple multi-scale scheme to support re-id across person instances at different scales. PSTR jointly achieves the diverse objectives of object-level recognition (detection) and instance-level matching (re-id). To the best of our knowledge, we are the first to propose an end-to-end one-step transformer-based person search framework. Experiments are performed on two popular benchmarks: CUHK-SYSU and PRW. Our extensive ablations reveal the merits of the proposed contributions. Further, the proposed PSTR sets a new state-of-the-art on both benchmarks. On the challenging PRW benchmark, PSTR achieves a mean average precision (mAP) score of 56.5%. The source code is available at \url{https://github.com/J ialeCao001/PSTR}.
翻訳日:2022-04-08 14:52:35 公開日:2022-04-07
# リアルタイムYOLOv5を用いたCovid-19のためのソーシャルディスタンシング計測システムの実装

Implementing a Real-Time, YOLOv5 based Social Distancing Measuring System for Covid-19 ( http://arxiv.org/abs/2204.03350v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Shrawan Kumar, Selvarangan Krishnan, Hemalatha K, Arunkumar Rajagopal, Nagendra, and Anwesh Reddy Paduri(参考訳) 本研究の目的は,頭上からの視点を用いた YOLOv5 深層学習に基づくソーシャル距離監視フレームワークを提供することである。 さらに,CSP (Cross Stage partial Network) を改良したカスタムモデル YOLOv5 を開発し,COCO および Visdrone データセットの性能評価を行った。 以上の結果から,発達したモデルは社会的距離に違反した個人を識別することに成功した。 トランスファーラーニングなしで修正されたボトルネックCSPの81.7%の精度は、300エポックのモデルをトレーニングした後のCOCOデータセットで観測されるが、同じエポックでは、デフォルトのYOLOv5モデルはトランスファーラーニングで80.1%の精度に達する。 これは,改良したボトルネックcspモデルによる精度の向上を示す。 visdroneデータセットでは、特定のクラスで最大56.5%の精度を達成でき、特にデフォルトのyolov5sモデルを使って30エポックの転送学習を行う人々と歩行者で40%の精度を実現できます。 改良されたボトルネックcspは、特定のクラスで最大58.1%、人と歩行者で約40.4%の精度で、デフォルトモデルよりも若干パフォーマンスが良い。

The purpose of this work is, to provide a YOLOv5 deep learning-based social distance monitoring framework using an overhead view perspective. In addition, we have developed a custom defined model YOLOv5 modified CSP (Cross Stage Partial Network) and assessed the performance on COCO and Visdrone dataset with and without transfer learning. Our findings show that the developed model successfully identifies the individual who violates the social distances. The accuracy of 81.7% for the modified bottleneck CSP without transfer learning is observed on COCO dataset after training the model for 300 epochs whereas for the same epochs, the default YOLOv5 model is attaining 80.1% accuracy with transfer learning. This shows an improvement in accuracy by our modified bottleneck CSP model. For the Visdrone dataset, we are able to achieve an accuracy of upto 56.5% for certain classes and especially an accuracy of 40% for people and pedestrians with transfer learning using the default YOLOv5s model for 30 epochs. While the modified bottleneck CSP is able to perform slightly better than the default model with an accuracy score of upto 58.1% for certain classes and an accuracy of ~40.4% for people and pedestrians.
翻訳日:2022-04-08 14:52:15 公開日:2022-04-07
# ECCVキャプション:MS-COCOのためのマシンとヒューマン認証イメージキャプションアソシエーションの収集による偽陰性訂正

ECCV Caption: Correcting False Negatives by Collecting Machine-and-Human-ve rified Image-Caption Associations for MS-COCO ( http://arxiv.org/abs/2204.03359v1 )

ライセンス: Link先を確認
Sanghyuk Chun, Wonjae Kim, Song Park, Minsuk Chang, Seong Joon Oh(参考訳) 画像テストマッチング(ITM)は、視覚と言語(VL)モデルの品質を評価するための一般的なタスクである。 しかし、既存のIMMベンチマークには大きな制限がある。 それらには、データ構築プロセス自体に由来する多くの通信が欠落している。 例えば、キャプションは1つの画像としか一致しないが、キャプションは他の類似した画像とマッチングできる。 大規模な偽陰性を補正するために,機械や人間のアノテーションに欠落した関連情報を供給し,拡張COCO検証(ECCV)キャプションデータセットを構築した。 我々はアノテーションプロセスに様々な特性を持つ5つの最先端IMMモデルを採用している。 我々のデータセットは、元のms-cocoと比較して、x3.6のポジティブなイメージ対キャプチャーアソシエーションとx8.5のキャプション対イメージアソシエーションを提供する。 また、一般的なRecall@K(R@K)ではなく、有意義なランキングベースのメトリクスを使うことを提案する。 既存の25のVLモデルを既存のベンチマークで再評価する。 その結果,COCO 1K R@K,COCO 5K R@K,CxC R@1などの既存のベンチマークは相関が強く,ECCV mAPに移行するとランキングが変化することがわかった。 最後に,機械アノテータの選択によって引き起こされるバイアスの効果について考察する。 ソースコードとデータセットはhttps://github.com/n aver-ai/eccv-caption で入手できる。

Image-Test matching (ITM) is a common task for evaluating the quality of Vision and Language (VL) models. However, existing ITM benchmarks have a significant limitation. They have many missing correspondences, originating from the data construction process itself. For example, a caption is only matched with one image although the caption can be matched with other similar images, and vice versa. To correct the massive false negatives, we construct the Extended COCO Validation (ECCV) Caption dataset by supplying the missing associations with machine and human annotators. We employ five state-of-the-art ITM models with diverse properties for our annotation process. Our dataset provides x3.6 positive image-to-caption associations and x8.5 caption-to-image associations compared to the original MS-COCO. We also propose to use an informative ranking-based metric, rather than the popular Recall@K(R@K). We re-evaluate the existing 25 VL models on existing and proposed benchmarks. Our findings are that the existing benchmarks, such as COCO 1K R@K, COCO 5K R@K, CxC R@1 are highly correlated with each other, while the rankings change when we shift to the ECCV mAP. Lastly, we delve into the effect of the bias introduced by the choice of machine annotator. Source code and dataset are available at https://github.com/n aver-ai/eccv-caption
翻訳日:2022-04-08 14:51:35 公開日:2022-04-07
# 畳み込みニューラルネットワークを用いた減算ドライバの検出

Detection of Distracted Driver using Convolution Neural Network ( http://arxiv.org/abs/2204.03371v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Jai Arora, MoniShankar Hazra, Naman Vig, Simrandeep Singh Gandhi, Saurabh Gupta, Anwesh Reddy Paduri(参考訳) 年間5000万台以上の自動車が販売され、毎年130万人以上が交通事故で死亡しています。 インドは交通事故による死者の11%を占めている。 事故の78%はドライバーが担当している。 発展途上国の道路安全問題は大きな関心事であり、道路安全問題の主な原因の一つとして人間の行動があげられる。 事故の主な原因は運転者の気晴らしが挙げられている。 モバイルの使用、飲酒、手術器具、顔のメイク、社会的相互作用などの理由によって引き起こされることがある。 このプロジェクトの範囲では、コンピュータビジョンを使用して実行時に異なるドライバの邪魔を分類する、高度に効率的なmlモデルの構築に重点を置く。 また、エッジデバイスに設定できるように、モデルの全体的な速度とスケーラビリティを分析します。 CNN、VGG-16、RestNet50、CNNのアンサンブルを使ってクラスを予測する。

With over 50 million car sales annually and over 1.3 million deaths every year due to motor accidents we have chosen this space. India accounts for 11 per cent of global death in road accidents. Drivers are held responsible for 78% of accidents. Road safety problems in developing countries is a major concern and human behavior is ascribed as one of the main causes and accelerators of road safety problems. Driver distraction has been identified as the main reason for accidents. Distractions can be caused due to reasons such as mobile usage, drinking, operating instruments, facial makeup, social interaction. For the scope of this project, we will focus on building a highly efficient ML model to classify different driver distractions at runtime using computer vision. We would also analyze the overall speed and scalability of the model in order to be able to set it up on an edge device. We use CNN, VGG-16, RestNet50 and ensemble of CNN to predict the classes.
翻訳日:2022-04-08 14:51:11 公開日:2022-04-07
# deep visual geo-localization benchmark (英語)

Deep Visual Geo-localization Benchmark ( http://arxiv.org/abs/2204.03444v1 )

ライセンス: Link先を確認
Gabriele Berton, Riccardo Mereu, Gabriele Trivigno, Carlo Masone, Gabriela Csurka, Torsten Sattler, Barbara Caputo(参考訳) 本稿では,ビジュアルジオローカライゼーション(VG)のための新しいオープンソースのベンチマークフレームワークを提案する。このフレームワークは,ジオローカライゼーションパイプラインの個々のコンポーネントを変更する柔軟性を備えた,広く使用されているアーキテクチャの構築,トレーニング,テストを可能にする。 このフレームワークの目的は2つある。 i) VGパイプラインにおける異なるコンポーネントや設計の選択が、パフォーマンス(recall@Nメトリック)とシステム要件(実行時間やメモリ消費など)の両方の最終的な結果にどのように影響するかについての洞察を得る。 二 異なる方法を比較するための体系的な評価プロトコルを確立すること。 提案フレームワークを用いて,使用状況や要件に応じてバックボーン,アグリゲーション,負マイニングを選択するための基準を提供する実験スイートを多数実施した。 また,プリ/ポスト処理,データ拡張,画像リサイジングといったエンジニアリング手法の影響を評価し,画像の解像度を80%までダウンスケールすることで,抽出時間とデータセットのストレージ要件を36%削減できることを示した。 コードとトレーニングされたモデルはhttps://deep-vg-benc h.herokuapp.com/で入手できる。

In this paper, we propose a new open-source benchmarking framework for Visual Geo-localization (VG) that allows to build, train, and test a wide range of commonly used architectures, with the flexibility to change individual components of a geo-localization pipeline. The purpose of this framework is twofold: i) gaining insights into how different components and design choices in a VG pipeline impact the final results, both in terms of performance (recall@N metric) and system requirements (such as execution time and memory consumption); ii) establish a systematic evaluation protocol for comparing different methods. Using the proposed framework, we perform a large suite of experiments which provide criteria for choosing backbone, aggregation and negative mining depending on the use-case and requirements. We also assess the impact of engineering techniques like pre/post-processing, data augmentation and image resizing, showing that better performance can be obtained through somewhat simple procedures: for example, downscaling the images' resolution to 80% can lead to similar results with a 36% savings in extraction time and dataset storage requirement. Code and trained models are available at https://deep-vg-benc h.herokuapp.com/.
翻訳日:2022-04-08 14:50:58 公開日:2022-04-07
# (参考訳) tmVar 3.0: 改良された変種概念認識と正規化ツール [全文訳有]

tmVar 3.0: an improved variant concept recognition and normalization tool ( http://arxiv.org/abs/2204.03637v1 )

ライセンス: CC BY 4.0
Chih-Hsuan Wei, Alexis Allot, Kevin Riehle, Aleksandar Milosavljevic, Zhiyong Lu(参考訳) 従来の研究によると、科学文献の変種情報を大規模に解き放つためには、自動化されたテキストマイニングツールがますます重要になっている。 これまで何度も試みてきたが、既存のツールはまだ認識範囲と精度が限られている。 tmvar 3.0: 改良された変種認識および正規化ツールを提案する。 前者と比較すると、tmVar 3.0は様々な変種関連エンティティ(例えば、アレルとコピー番号の変種)を認識でき、同じ概念に属する異なる変種言及を記事にまとめて精度を向上させることができる。 さらに、tmvar3 は clingen allele registry の allele-specific identifier などの変種正規化オプションを提供している。 tmvar3は3つの独立したベンチマークデータセットで評価すると、変種認識と正規化におけるf-measureの90%以上の精度で最先端のパフォーマンスを示す。 tmVar3は無料でダウンロードできる。 また、PubMedとPMC全体をtmVar3で処理し、FTPでアノテーションをリリースしました。 利用可能:ftp://ftp.ncbi.nlm. nih.gov/pub/lu/tmvar 3

Previous studies have shown that automated text-mining tools are becoming increasingly important for successfully unlocking variant information in scientific literature at large scale. Despite multiple attempts in the past, existing tools are still of limited recognition scope and precision. We propose tmVar 3.0: an improved variant recognition and normalization tool. Compared to its predecessors, tmVar 3.0 is able to recognize a wide spectrum of variant related entities (e.g., allele and copy number variants), and to group different variant mentions belonging to the same concept in an article for improved accuracy. Moreover, tmVar3 provides additional variant normalization options such as allele-specific identifiers from the ClinGen Allele Registry. tmVar3 exhibits a state-of-the-art performance with over 90% accuracy in F-measure in variant recognition and normalization, when evaluated on three independent benchmarking datasets. tmVar3 is freely available for download. We have also processed the entire PubMed and PMC with tmVar3 and released its annotations on our FTP. Availability: ftp://ftp.ncbi.nlm.n ih.gov/pub/lu/tmVar3
翻訳日:2022-04-08 14:48:14 公開日:2022-04-07
# 上皮異形成診断支援のための病理に基づく機械学習手法

A Pathology-Based Machine Learning Method to Assist in Epithelial Dysplasia Diagnosis ( http://arxiv.org/abs/2204.03572v1 )

ライセンス: Link先を確認
Karoline da Rocha, Jos\'e C. M. Bermudez, Elena R. C. Rivero, M\'arcio H. Costa(参考訳) 上皮性Dysplasia(ED)は口腔癌に先行する病変に存在する組織変化であり、その存在は癌への進行において最も重要な要因の一つである。 本研究では, 異形成性上皮の検出を支援する低計算コスト分類システムの設計法を提案し, 病理組織学的評価の多様性の低減に寄与する。 我々は多層型ニューラルネットワーク (mlp-ann) を用いて, 病理学者の知識に基づいて評価すべき上皮の領域を定義する。 提案手法の性能を統計的に評価した。 MLP-ANNは平均87%の精度を示し、3つの訓練された評価器から得られたものよりも変動性が劣った。 さらに,提案手法は,トランスファー学習によって実装された畳み込みニューラルネットワーク(cnn)を用いて得られた結果に非常に近い結果が得られた。 結論として, 単純なニューラルネットワーク構造は, 論文で日常的に使われている, はるかに複雑な構造に匹敵する性能をもたらす可能性が示唆された。

The Epithelial Dysplasia (ED) is a tissue alteration commonly present in lesions preceding oral cancer, being its presence one of the most important factors in the progression toward carcinoma. This study proposes a method to design a low computational cost classification system to support the detection of dysplastic epithelia, contributing to reduce the variability of pathologist assessments. We employ a multilayer artificial neural network (MLP-ANN) and defining the regions of the epithelium to be assessed based on the knowledge of the pathologist. The performance of the proposed solution was statistically evaluated. The implemented MLP-ANN presented an average accuracy of 87%, with a variability much inferior to that obtained from three trained evaluators. Moreover, the proposed solution led to results which are very close to those obtained using a convolutional neural network (CNN) implemented by transfer learning, with 100 times less computational complexity. In conclusion, our results show that a simple neural network structure can lead to a performance equivalent to that of much more complex structures, which are routinely used in the literature.
翻訳日:2022-04-08 14:42:22 公開日:2022-04-07
# 一般化最小二乗法に基づく複合空間モンテカルロ積分

Composite Spatial Monte Carlo Integration Based on Generalized Least Squares ( http://arxiv.org/abs/2204.03248v1 )

ライセンス: Link先を確認
Kaiji Sekimoto, Muneki Yasuda(参考訳) イジングモデルに対する期待評価は、様々なアプリケーションにおいて不可欠であるが、難解な多重和(あるいは積分)のため、しばしば実現不可能である。 空間モンテカルロ積分(SMCI)はサンプリングに基づく近似であり、そのような難解な期待に対して高精度な推定を行うことができる。 特定の領域(ターゲット領域と呼ばれる)における変数の関数の期待を評価するために、SMCIは対象領域(サム領域と呼ばれる)を含むより大きな領域を考える。 SMCIでは、和領域における変数の多重和を正確に実行し、標準モンテカルロ積分のようなサンプリング近似を用いて外領域における変数の多重和を評価する。 和領域のサイズが大きくなるにつれてSMCI推定器の精度が単調に向上することが保証される。 しかし、和領域のハファザード膨張は組合せ爆発を引き起こす可能性がある。 そのため,そのような領域拡大を伴わずに精度の向上を図りたい。 本研究では,一般化された最小二乗法の理論に基づき,複数のsmci推定器を組み合わせた新しい有効手法を提案する。 提案手法の有効性を理論的および数値的に示す。 その結果,提案手法は逆イジング問題(ボルツマン機械学習)に有効であることが示唆された。

Although evaluation of the expectations on the Ising model is essential in various applications, this is frequently infeasible because of intractable multiple summations (or integrations). Spatial Monte Carlo integration (SMCI) is a sampling-based approximation, and can provide high-accuracy estimations for such intractable expectations. To evaluate the expectation of a function of variables in a specific region (called target region), SMCI considers a larger region containing the target region (called sum region). In SMCI, the multiple summation for the variables in the sum region is precisely executed, and that in the outer region is evaluated by the sampling approximation such as the standard Monte Carlo integration. It is guaranteed that the accuracy of the SMCI estimator is monotonically improved as the size of the sum region increases. However, a haphazard expansion of the sum region could cause a combinatorial explosion. Therefore, we hope to improve the accuracy without such region expansion. In this study, based on the theory of generalized least squares, a new effective method is proposed by combining multiple SMCI estimators. The validity of the proposed method is demonstrated theoretically and numerically. The results indicate that the proposed method can be effective in the inverse Ising problem (or Boltzmann machine learning).
翻訳日:2022-04-08 14:42:03 公開日:2022-04-07
# テキストによるグラフ学習とソフトトランジット

Entailment Graph Learning with Textual Entailment and Soft Transitivity ( http://arxiv.org/abs/2204.03286v1 )

ライセンス: Link先を確認
Zhibin Chen, Yansong Feng and Dongyan Zhao(参考訳) 型付き補足グラフは、述語間の補足関係をテキストから学び、述語ノード間の辺としてモデル化しようとする。 エンテーメントグラフの構築は通常、分布の類似性の重大さと信頼性に悩まされる。 本稿では,テキスト・エンタテイメント・トランジシティー(EGT2)を用いた2段階のEntailment Graphを提案する。 EGT2は、型付きCCGパース付き述語によって形成されたテンプレート文間のテキスト的含意を認識することにより、局所的含意関係を学習する。 生成した局所グラフに基づいて、EGT2は3つの新しいソフトな推移性制約を用いて、包含構造における論理的推移性を考える。 ベンチマークデータセットの実験では、EGT2は細部の問題を軽減するために、細部グラフの推移性をうまくモデル化でき、現在の最先端手法よりも大幅に改善されている。

Typed entailment graphs try to learn the entailment relations between predicates from text and model them as edges between predicate nodes. The construction of entailment graphs usually suffers from severe sparsity and unreliability of distributional similarity. We propose a two-stage method, Entailment Graph with Textual Entailment and Transitivity (EGT2). EGT2 learns local entailment relations by recognizing possible textual entailment between template sentences formed by typed CCG-parsed predicates. Based on the generated local graph, EGT2 then uses three novel soft transitivity constraints to consider the logical transitivity in entailment structures. Experiments on benchmark datasets show that EGT2 can well model the transitivity in entailment graph to alleviate the sparsity issue, and lead to significant improvement over current state-of-the-art methods.
翻訳日:2022-04-08 14:38:32 公開日:2022-04-07
# ターンレベル性能の柔軟導入による対話状態追跡の公正評価に向けて

Towards Fair Evaluation of Dialogue State Tracking by Flexible Incorporation of Turn-level Performances ( http://arxiv.org/abs/2204.03375v1 )

ライセンス: Link先を確認
Suvodip Dey, Ramamohan Kummara, Maunendra Sankar Desarkar(参考訳) 対話状態追跡 (DST) は、主に、接地真実状態が正確に予測と一致するターンの分数として定義されるジョイントゴール精度 (JGA) を用いて評価される。 通常、DSTでは、あるターンの対話状態または信念状態は、そのターンまでユーザが示すすべてのインテントを含む。 このような信念状態の累積的な性質のため、誤予測が発生した場合に正しい予測を得るのは難しい。 したがって、有用な計量であるが、時には厳密であり、DSTモデルの真のポテンシャルを過小評価することがある。 さらに、JGAの改善は、アノテーションの不整合によるターンレベルまたは非累積的信念状態予測の性能を低下させることがある。 したがって、モデル選択のための唯一のメトリックとしてJGAを使用することは、すべてのシナリオに理想的ではないかもしれない。 そこで本研究では,DSTに用いる各種評価指標と欠点について考察する。 既存の問題に対処するため、フレキシブルゴール精度(FGA)という新しい評価指標を提案する。 FGAはJGAの一般化版である。 しかし、JGAとは異なり、局所的に正しい誤予測に対する罰則を与えようとする。 これにより、FGAは累積予測とターンレベルの予測の両方のパフォーマンスを柔軟に考慮し、既存のメトリクスよりも優れた洞察を提供する。 また、FGAはDSTモデルの性能のより良い判別器であることを示す。

Dialogue State Tracking (DST) is primarily evaluated using Joint Goal Accuracy (JGA) defined as the fraction of turns where the ground-truth dialogue state exactly matches the prediction. Generally in DST, the dialogue state or belief state for a given turn contains all the intents shown by the user till that turn. Due to this cumulative nature of the belief state, it is difficult to get a correct prediction once a misprediction has occurred. Thus, although being a useful metric, it can be harsh at times and underestimate the true potential of a DST model. Moreover, an improvement in JGA can sometimes decrease the performance of turn-level or non-cumulative belief state prediction due to inconsistency in annotations. So, using JGA as the only metric for model selection may not be ideal for all scenarios. In this work, we discuss various evaluation metrics used for DST along with their shortcomings. To address the existing issues, we propose a new evaluation metric named Flexible Goal Accuracy (FGA). FGA is a generalized version of JGA. But unlike JGA, it tries to give penalized rewards to mispredictions that are locally correct i.e. the root cause of the error is an earlier turn. By doing so, FGA considers the performance of both cumulative and turn-level prediction flexibly and provides a better insight than the existing metrics. We also show that FGA is a better discriminator of DST model performance.
翻訳日:2022-04-08 14:38:16 公開日:2022-04-07
# ハイパースペクトル画像分類のためのクロスドメイン事前学習モデルの検討

Exploring Cross-Domain Pretrained Model for Hyperspectral Image Classification ( http://arxiv.org/abs/2204.03144v1 )

ライセンス: Link先を確認
Hyungtae Lee and Sungmin Eum and Heesung Kwon(参考訳) プレトレイン-ファインチューン戦略は、CNNトレーニングにデータが不十分な場合に発生するオーバーフィッティングを減らすために広く用いられている。 大規模RGBデータセットで事前訓練されたCNNの最初の数層は、異なるRGBデータセットをターゲットにしたタスクにおいて著しく効果的である一般的な画像特性を取得することができる。 しかし、各ドメインが独自のスペクトル特性を持つハイパースペクトル領域に目を向けると、プレトレイン-ファネチューン戦略は従来の方法で展開できなくなり、3つの大きな問題が提示される。 1)領域間の矛盾したスペクトル特性(周波数範囲など) 2)ドメイン間のデータチャネル数の不整合、及び 3) 大規模ハイパースペクトルデータセットの欠如。 我々は、後に様々なスペクトル領域に展開できる普遍的クロスドメインモデルをトレーニングすることを目指している。 異なる領域間の矛盾するスペクトル特性を扱うように設計された普遍的な部分を備えつつ、モデルに複数の入口を物理的に設ける。 普遍部分のみをファインチューン過程で用いることに注意。 このアプローチは,大規模データセットが存在しない問題に対する効果的な回避策として,複数のドメインでのモデル学習を可能にする。 クロスドメインアプローチでトレーニングされたモデルをスクラッチからトレーニングしたモデルと比較する研究を行った。 提案手法は精度と訓練効率の両方において優れていることがわかった。 さらに,本手法がオーバーフィッティング問題を効果的に軽減し,精度を損なうことなく,13層 (9層) までモデルを深化できることを確認した。

A pretrain-finetune strategy is widely used to reduce the overfitting that can occur when data is insufficient for CNN training. First few layers of a CNN pretrained on a large-scale RGB dataset are capable of acquiring general image characteristics which are remarkably effective in tasks targeted for different RGB datasets. However, when it comes down to hyperspectral domain where each domain has its unique spectral properties, the pretrain-finetune strategy no longer can be deployed in a conventional way while presenting three major issues: 1) inconsistent spectral characteristics among the domains (e.g., frequency range), 2) inconsistent number of data channels among the domains, and 3) absence of large-scale hyperspectral dataset. We seek to train a universal cross-domain model which can later be deployed for various spectral domains. To achieve, we physically furnish multiple inlets to the model while having a universal portion which is designed to handle the inconsistent spectral characteristics among different domains. Note that only the universal portion is used in the finetune process. This approach naturally enables the learning of our model on multiple domains simultaneously which acts as an effective workaround for the issue of the absence of large-scale dataset. We have carried out a study to extensively compare models that were trained using cross-domain approach with ones trained from scratch. Our approach was found to be superior both in accuracy and in training efficiency. In addition, we have verified that our approach effectively reduces the overfitting issue, enabling us to deepen the model up to 13 layers (from 9) without compromising the accuracy.
翻訳日:2022-04-08 14:33:05 公開日:2022-04-07
# (参考訳) 平均場推論を用いた二階意味依存解析のためのラベル相関のモデル化 [全文訳有]

Modeling Label Correlations for Second-Order Semantic Dependency Parsing with Mean-Field Inference ( http://arxiv.org/abs/2204.03619v1 )

ライセンス: CC0 1.0
Songlin Yang, Kewei Tu(参考訳) 終端平均場推論を用いた2階意味解析は優れた性能を示した。 本研究では,隣り合う弧間のラベル相関をモデル化することで,この手法を改善することを目的とする。 しかし、2階のスコアテンソルのサイズが$O(n^3L^2)$$$(n$は文長、$L$はラベルの数)であるため、直接のモデリングはメモリの爆発を引き起こす。 この計算課題に取り組むため、テンソル分解法を活用し、興味深いことに、平均場推論中に大きな二階スコアテンソルを具現化する必要がなく、従って計算の複雑さを立方体から二次に減らすことができる。 semeval 2015タスク18英語データセットについて実験を行い,ラベル相関のモデル化の有効性を示した。 私たちのコードはhttps://github.com/s ustcsonglin/mean-fie ld-dep-parsingで公開されています。

Second-order semantic parsing with end-to-end mean-field inference has been shown good performance. In this work we aim to improve this method by modeling label correlations between adjacent arcs. However, direct modeling leads to memory explosion because second-order score tensors have sizes of $O(n^3L^2)$ ($n$ is the sentence length and $L$ is the number of labels), which is not affordable. To tackle this computational challenge, we leverage tensor decomposition techniques, and interestingly, we show that the large second-order score tensors have no need to be materialized during mean-field inference, thereby reducing the computational complexity from cubic to quadratic. We conduct experiments on SemEval 2015 Task 18 English datasets, showing the effectiveness of modeling label correlations. Our code is publicly available at https://github.com/s ustcsonglin/mean-fie ld-dep-parsing.
翻訳日:2022-04-08 14:31:23 公開日:2022-04-07
# ハードネス適応型カリキュラムを用いたトラベリングセールスマン問題の解法

Learning to Solve Travelling Salesman Problem with Hardness-adaptive Curriculum ( http://arxiv.org/abs/2204.03236v1 )

ライセンス: Link先を確認
Zeyang Zhang, Ziwei Zhang, Xin Wang, Wenwu Zhu(参考訳) 旅行セールスマン問題(TSP)のような組合せ最適化問題に対処するために,様々なニューラルネットワークモデルが提案されている。 既存の学習ベースのTSP手法は、トレーニングデータとテストデータが独立して同一に分散されているという単純な設定を採用する。 しかし、既存の文献では、トレーニングやテストデータが異なる分布を持つ場合、TSPインスタンスを解決できない。 具体的には、異なるトレーニングとテストの分布がより難しいTSPインスタンスをもたらすこと、すなわち、モデルによって得られる解は最適解と大きなギャップを持つ。 この問題に対処するため、本研究では、適応硬度を用いてデータが異なる分布を持つ場合、すなわち、TSPインスタンスが解き手にとっていかに困難であるかを学習ベースのTSP手法について検討する。 この問題は,(1) 硬度測定を定量的に定義することが自明ではないこと,(2) モデルトレーニング時に十分な硬度TSPインスタンスを効率よく連続的に生成すること,(3) より強力なTSPソルバを学習するために,異なる硬度を持つインスタンスを十分に活用すること,などが問題となっている。 これらの課題を解決するために,まずTSPインスタンスの硬さを定量化する原理的硬さ測定法を提案する。 次に,硬度が異なるインスタンスを生成するための硬度適応型生成器を提案する。 さらに、これらのインスタンスをフル活用してTSPソルバを訓練するカリキュラム学習者を提案する。 実験により,本手法は既存手法の10倍の難易度でインスタンスを生成することができ,提案手法は最適性ギャップの点で最先端モデルよりも大幅に改善できることを示した。

Various neural network models have been proposed to tackle combinatorial optimization problems such as the travelling salesman problem (TSP). Existing learning-based TSP methods adopt a simple setting that the training and testing data are independent and identically distributed. However, the existing literature fails to solve TSP instances when training and testing data have different distributions. Concretely, we find that different training and testing distribution will result in more difficult TSP instances, i.e., the solution obtained by the model has a large gap from the optimal solution. To tackle this problem, in this work, we study learning-based TSP methods when training and testing data have different distributions using adaptive-hardness, i.e., how difficult a TSP instance can be for a solver. This problem is challenging because it is non-trivial to (1) define hardness measurement quantitatively; (2) efficiently and continuously generate sufficiently hard TSP instances upon model training; (3) fully utilize instances with different levels of hardness to learn a more powerful TSP solver. To solve these challenges, we first propose a principled hardness measurement to quantify the hardness of TSP instances. Then, we propose a hardness-adaptive generator to generate instances with different hardness. We further propose a curriculum learner fully utilizing these instances to train the TSP solver. Experiments show that our hardness-adaptive generator can generate instances ten times harder than the existing methods, and our proposed method achieves significant improvement over state-of-the-art models in terms of the optimality gap.
翻訳日:2022-04-08 14:13:01 公開日:2022-04-07
# コ変量シフトを緩和する時系列分類のための領域適応

Domain Adaptation for Time-Series Classification to Mitigate Covariate Shift ( http://arxiv.org/abs/2204.03342v1 )

ライセンス: Link先を確認
Felix Ott and David R\"ugamer and Lucas Heublein and Bernd Bischl and Christopher Mutschler(参考訳) 機械学習モデルのパフォーマンスは、当初トレーニングされたデータと似ているが異なるドメインのデータに適用された時に低下する。 このドメインシフト問題を緩和するために、ドメイン適応(DA)技術は、ソースドメインから(現在の)入力データをターゲットドメインに変換する最適な変換を求め、ドメインの差を小さくするドメイン不変表現を学習する。 本稿では,2つのステップに基づいた新しいドメイン適応手法を提案する。 まず、いくつかのサンプルから、ソースからターゲットドメインへの最適なクラス依存変換を探索する。 本研究では,ラプラシアン正規化,シンクホーン輸送,相関アライメントによる地球移動距離などの最適輸送手法を検討する。 第二に、埋め込み類似性技術を用いて推論時に対応する変換を選択する。 我々は高次モーメントマッチング技術を用いた相関指標と最大平均誤差を用いる。 シミュレーションや様々なオンライン手書きデータセットを含むドメインシフトによる時系列データセットの広範な評価を行い、性能を実証する。

The performance of a machine learning model degrades when it is applied to data from a similar but different domain than the data it has initially been trained on. To mitigate this domain shift problem, domain adaptation (DA) techniques search for an optimal transformation that converts the (current) input data from a source domain to a target domain to learn a domain-invariant representations that reduces domain discrepancy. This paper proposes a novel supervised domain adaptation based on two steps. First, we search for an optimal class-dependent transformation from the source to the target domain from a few samples. We consider optimal transport methods such as the earth mover distance with Laplacian regularization, Sinkhorn transport and correlation alignment. Second, we use embedding similarity techniques to select the corresponding transformation at inference. We use correlation metrics and maximum mean discrepancy with higher-order moment matching techniques. We conduct an extensive evaluation on time-series datasets with domain shift including simulated and various online handwriting datasets to demonstrate the performance.
翻訳日:2022-04-08 14:12:30 公開日:2022-04-07
# 連続推論:pytorchのディープニューラルネットワークを用いた効率的なオンライン推論ライブラリ

Continual Inference: A Library for Efficient Online Inference with Deep Neural Networks in PyTorch ( http://arxiv.org/abs/2204.03418v1 )

ライセンス: Link先を確認
Lukas Hedegaard and Alexandros Iosifidis(参考訳) 我々は、オンラインおよびバッチ処理シナリオの両方において効率的な推論のために設計されたニューラルネットワークのクラスであるpytorchに、continual inference network(cins)を実装するためのpythonライブラリであるcontinual inferenceを提案する。 我々は、CINとその実装を包括的に紹介およびガイドし、現代のディープラーニングのための複雑なモジュールを構成するためのベストプラクティスとコード例を提供します。 連続推論はPython Package Indexと \url{www.github.com/lukas hedegaard/continual- inference}で簡単にダウンロードできる。

We present Continual Inference, a Python library for implementing Continual Inference Networks (CINs) in PyTorch, a class of Neural Networks designed specifically for efficient inference in both online and batch processing scenarios. We offer a comprehensive introduction and guide to CINs and their implementation in practice, and provide best-practices and code examples for composing complex modules for modern Deep Learning. Continual Inference is readily downloadable via the Python Package Index and at \url{www.github.com/lukas hedegaard/continual- inference}.
翻訳日:2022-04-08 14:12:16 公開日:2022-04-07
# 強化学習における歴史表現のための時間アライメント

Temporal Alignment for History Representation in Reinforcement Learning ( http://arxiv.org/abs/2204.03525v1 )

ライセンス: Link先を確認
Aleksandr Ermolov, Enver Sangineto, Nicu Sebe(参考訳) 強化学習の環境は通常、部分的にしか観察できない。 この問題を解決するには、エージェントに過去の情報を提供することが考えられる。 しかし、多くのステップの完全な観察を提供することは過度である。 人間の記憶に触発されて,環境に重要な変化のみを伴って歴史を表現し,自己スーパービジョンを用いてこの表現を自動的に取得する手法を提案する。 提案手法(tempal)は時間的に閉じたフレームを整列させ,環境の一般的な,ゆっくりと変化する状態を明らかにする。 この手順はコントラスト損失に基づいており、他のサンプルをバッチから押し離しながら、近傍の観測結果の埋め込みを相互に引き出す。 これは観測の時間的関係を捉える計量として解釈できる。 アーケード学習環境から利用可能なすべてのatariゲームにおいて,共通のインスタント表現と歴史表現を組み合わせることを提案し,テンパを評価する。 TempAlは49の35の環境で、瞬時のみのベースラインを超えている。 このメソッドとすべての実験のソースコードはhttps://github.com/h tdt/tempal.com/で入手できる。

Environments in Reinforcement Learning are usually only partially observable. To address this problem, a possible solution is to provide the agent with information about the past. However, providing complete observations of numerous steps can be excessive. Inspired by human memory, we propose to represent history with only important changes in the environment and, in our approach, to obtain automatically this representation using self-supervision. Our method (TempAl) aligns temporally-close frames, revealing a general, slowly varying state of the environment. This procedure is based on contrastive loss, which pulls embeddings of nearby observations to each other while pushing away other samples from the batch. It can be interpreted as a metric that captures the temporal relations of observations. We propose to combine both common instantaneous and our history representation and we evaluate TempAl on all available Atari games from the Arcade Learning Environment. TempAl surpasses the instantaneous-only baseline in 35 environments out of 49. The source code of the method and of all the experiments is available at https://github.com/h tdt/tempal.
翻訳日:2022-04-08 14:12:07 公開日:2022-04-07
# MultiAuto-DeepONet: 非線形次元削減, 不確かさの定量化, 演算子学習のための多分解能オートエンコーダDeepONet

MultiAuto-DeepONet: A Multi-resolution Autoencoder DeepONet for Nonlinear Dimension Reduction, Uncertainty Quantification and Operator Learning of Forward and Inverse Stochastic Problems ( http://arxiv.org/abs/2204.03193v1 )

ライセンス: Link先を確認
Jiahao Zhang, Shiqi Zhang, Guang Lin(参考訳) 本稿では,確率微分方程式(SDE)の演算子学習のための新しいデータ駆動手法を提案する。 中心的な目標は、限られたデータを用いてより効果的に前方および逆確率問題を解くことである。 演算子学習にはdeep operator network(deeponet)が最近提案されている。 関数を学習するために他のニューラルネットワークと比較して、非線形演算子の学習の問題を目指している。 しかし、元のモデルを用いて高次元確率問題に対する非線形作用素を学習することは困難である。 本稿では,畳み込み型オートエンコーダの助けを借りて,この困難に対処するために,マルチオートディープニートと呼ばれる,新しいマルチレゾリューションオートエンコーダdeeponetモデルを提案する。 ネットワークのエンコーダ部分は、次元性を減らし、高次元確率入力の隠れた特徴を発見するように設計されている。 デコーダはDeepONetという特殊な構造を持つように設計されている。 第1のdeeponet in decoderはランダム性を含む入力関数を再構成し、第2のdeeponetは所望の方程式の解を近似するために使用される。 これら2つのDeepONetsは共通の分岐ネットと2つの独立したトランクネットを持っている。 このアーキテクチャにより、マルチ解像度入力を自然に処理できる。 我々のネットワークに$L_1$正規化を加えることで、分岐ネットと2つのトランクネットからの出力はすべてスパース構造を持つことがわかった。 これにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らし、モデルをより効率的にする。 最後に,不確実な定量化を伴うMultiAuto-DeepONetモデルの有効性を示す数値実験を行った。

A new data-driven method for operator learning of stochastic differential equations(SDE) is proposed in this paper. The central goal is to solve forward and inverse stochastic problems more effectively using limited data. Deep operator network(DeepONet) has been proposed recently for operator learning. Compared to other neural networks to learn functions, it aims at the problem of learning nonlinear operators. However, it can be challenging by using the original model to learn nonlinear operators for high-dimensional stochastic problems. We propose a new multi-resolution autoencoder DeepONet model referred to as MultiAuto-DeepONet to deal with this difficulty with the aid of convolutional autoencoder. The encoder part of the network is designed to reduce the dimensionality as well as discover the hidden features of high-dimensional stochastic inputs. The decoder is designed to have a special structure, i.e. in the form of DeepONet. The first DeepONet in decoder is designed to reconstruct the input function involving randomness while the second one is used to approximate the solution of desired equations. Those two DeepONets has a common branch net and two independent trunk nets. This architecture enables us to deal with multi-resolution inputs naturally. By adding $L_1$ regularization to our network, we found the outputs from the branch net and two trunk nets all have sparse structures. This reduces the number of trainable parameters in the neural network thus making the model more efficient. Finally, we conduct several numerical experiments to illustrate the effectiveness of our proposed MultiAuto-DeepONet model with uncertainty quantification.
翻訳日:2022-04-08 14:11:51 公開日:2022-04-07
# Multi-Sample $\zeta$-mixup:$p$-Se ries Interpolantのよりリッチでよりリアルな合成サンプル

Multi-Sample $\zeta$-mixup: Richer, More Realistic Synthetic Samples from a $p$-Series Interpolant ( http://arxiv.org/abs/2204.03323v1 )

ライセンス: Link先を確認
Kumar Abhishek, Colin J. Brown, Ghassan Hamarneh(参考訳) 現代のディープラーニングトレーニング手順は、データの多様性とラベル情報の豊かさを高めるトレーニングサンプルを生成するデータ拡張法などのモデル正規化技術に依存している。 最近の一般的な手法であるmixupは、元のサンプルのペアの凸結合を使って新しいサンプルを生成する。 しかしながら、実験で示すように、mixupは望ましくない合成サンプルを生成し、データは多様体からサンプリングされ、誤ったラベルを含むことができる。 我々は、$N \geq 2$サンプルの凸結合を許容し、$N$サンプルからの情報を含むより現実的で多様な出力を$p$-seriesインターポータを用いて、証明可能かつ明らかに望ましい性質の混合を一般化する$\zeta$-mixupを提案する。 ミックスアップと比較して、$\zeta$-mixupは、一般化可能なモデルのトレーニングに望ましい性質である原データセットの本質的な次元をよりよく保存することを示す。 さらに,我々は$\zeta$-mixupの実装がmixupよりも高速であることを示し,制御された合成および24実世界の自然および医用画像分類データセットの広範な評価により,$\zeta$-mixupがmixupおよび従来のデータ拡張技術よりも優れていることを示した。

Modern deep learning training procedures rely on model regularization techniques such as data augmentation methods, which generate training samples that increase the diversity of data and richness of label information. A popular recent method, mixup, uses convex combinations of pairs of original samples to generate new samples. However, as we show in our experiments, mixup can produce undesirable synthetic samples, where the data is sampled off the manifold and can contain incorrect labels. We propose $\zeta$-mixup, a generalization of mixup with provably and demonstrably desirable properties that allows convex combinations of $N \geq 2$ samples, leading to more realistic and diverse outputs that incorporate information from $N$ original samples by using a $p$-series interpolant. We show that, compared to mixup, $\zeta$-mixup better preserves the intrinsic dimensionality of the original datasets, which is a desirable property for training generalizable models. Furthermore, we show that our implementation of $\zeta$-mixup is faster than mixup, and extensive evaluation on controlled synthetic and 24 real-world natural and medical image classification datasets shows that $\zeta$-mixup outperforms mixup and traditional data augmentation techniques.
翻訳日:2022-04-08 14:11:23 公開日:2022-04-07
# ランダムパッチを用いた視覚変換器を用いたマルチタスク分散学習

Multi-Task Distributed Learning using Vision Transformer with Random Patch Permutation ( http://arxiv.org/abs/2204.03500v1 )

ライセンス: Link先を確認
Sangjoon Park and Jong Chul Ye(参考訳) 人工知能の健康研究への応用は、現在、データ可用性の制限によって妨げられている。 フェデレートラーニング(FL)や共有ラーニング(SL)といった分散学習手法を導入し,この問題を解決するとともに,データ管理やオーナシップの問題にも長所と短所がある。 最近提案されたFeSTA学習は、ビジョントランスフォーマー(ViT)アーキテクチャにより、参加者間のマルチタスクのコラボレーションを可能にすることで、FLとSLの異なるメリットを解明しようとするが、通信オーバーヘッドの増大に悩まされる。 この問題に対処するために,ランダムパッチ置換を用いたマルチタスク分散学習を提案する。 FeSTAのようにCNNベースのヘッドを使用する代わりに、p-FeSTAはランダムに置換された単純なパッチ埋め込みを採用し、プライバシーを犠牲にすることなくマルチタスク学習性能を向上させる。 実験の結果,提案手法は,マルチタスクコラボレーション,コミュニケーション効率,プライバシ保護のメリットを著しく高め,医療画像分野での実用的なマルチタスク分散学習に光を当てた。

The widespread application of artificial intelligence in health research is currently hampered by limitations in data availability. Distributed learning methods such as federated learning (FL) and shared learning (SL) are introduced to solve this problem as well as data management and ownership issues with their different strengths and weaknesses. The recent proposal of federated split task-agnostic (FeSTA) learning tries to reconcile the distinct merits of FL and SL by enabling the multi-task collaboration between participants through Vision Transformer (ViT) architecture, but they suffer from higher communication overhead. To address this, here we present a multi-task distributed learning using ViT with random patch permutation. Instead of using a CNN based head as in FeSTA, p-FeSTA adopts a randomly permuting simple patch embedder, improving the multi-task learning performance without sacrificing privacy. Experimental results confirm that the proposed method significantly enhances the benefit of multi-task collaboration, communication efficiency, and privacy preservation, shedding light on practical multi-task distributed learning in the field of medical imaging.
翻訳日:2022-04-08 14:10:57 公開日:2022-04-07
# 強い事前学習モデルを用いたクラスインクリメンタル学習

Class-Incremental Learning with Strong Pre-trained Models ( http://arxiv.org/abs/2204.03634v1 )

ライセンス: Link先を確認
Tz-Ying Wu, Gurumurthy Swaminathan, Zhizhong Li, Avinash Ravichandran, Nuno Vasconcelos, Rahul Bhotika, Stefano Soatto(参考訳) クラスインクリメンタルラーニング(cil)は、少数のクラス(ベースクラス)から開始する設定の下で広く研究されている。 代わりに、多数のベースクラスで事前訓練された強力なモデルから始まるCILの実証済み実世界の設定を探索する。 我々は、強力なベースモデルが新しいクラスに良い表現を提供し、漸進的な学習は小さな適応で行うことができると仮定する。 2段階訓練方式を提案する。 一 機能増強 --背骨の一部をクローニングし、新規なデータに基づいて微調整すること。 ii) 融合 -- ベースと新規分類器を統一分類器に結合すること。 実験の結果,提案手法は大規模なImageNetデータセットにおいて,最先端のCIL手法よりも有意に優れていた。 また,分布シフトに伴うベース・ノーベルオーバーラップなど,下記の実践的CILシナリオも提案・分析する。 提案手法はロバストであり,解析されたすべてのcil設定に一般化する。

Class-incremental learning (CIL) has been widely studied under the setting of starting from a small number of classes (base classes). Instead, we explore an understudied real-world setting of CIL that starts with a strong model pre-trained on a large number of base classes. We hypothesize that a strong base model can provide a good representation for novel classes and incremental learning can be done with small adaptations. We propose a 2-stage training scheme, i) feature augmentation -- cloning part of the backbone and fine-tuning it on the novel data, and ii) fusion -- combining the base and novel classifiers into a unified classifier. Experiments show that the proposed method significantly outperforms state-of-the-art CIL methods on the large-scale ImageNet dataset (e.g. +10% overall accuracy than the best). We also propose and analyze understudied practical CIL scenarios, such as base-novel overlap with distribution shift. Our proposed method is robust and generalizes to all analyzed CIL settings.
翻訳日:2022-04-08 14:09:36 公開日:2022-04-07
# 学習パラメータ共有による等分散発見

Equivariance Discovery by Learned Parameter-Sharing ( http://arxiv.org/abs/2204.03640v1 )

ライセンス: Link先を確認
Raymond A. Yeh, Yuan-Ting Hu, Mark Hasegawa-Johnson, Alexander G. Schwing(参考訳) ディープネットへの帰納的バイアスとして等価性を設計することは、効率的なモデルを構築するための顕著なアプローチである。 しかし、これらの帰納バイアスを組み込むには、例えば新しい領域に遭遇する際には利用できないようなデータの等値性に関する知識が必要である。 そこで本研究では,データから解釈可能な等価性を見出す方法について検討する。 具体的には、この発見プロセスをモデルのパラメータ共有スキームに対する最適化問題として定式化する。 本稿では,分割距離を用いて得られた等価性の精度を実証的に定量化する。 また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。 実験により,本手法は数と空間不変量の和に基づいて,置換やシフトなどの既知の等式を復元することを示した。

Designing equivariance as an inductive bias into deep-nets has been a prominent approach to build effective models, e.g., a convolutional neural network incorporates translation equivariance. However, incorporating these inductive biases requires knowledge about the equivariance properties of the data, which may not be available, e.g., when encountering a new domain. To address this, we study how to discover interpretable equivariances from data. Specifically, we formulate this discovery process as an optimization problem over a model's parameter-sharing schemes. We propose to use the partition distance to empirically quantify the accuracy of the recovered equivariance. Also, we theoretically analyze the method for Gaussian data and provide a bound on the mean squared gap between the studied discovery scheme and the oracle scheme. Empirically, we show that the approach recovers known equivariances, such as permutations and shifts, on sum of numbers and spatially-invariant data.
翻訳日:2022-04-08 14:09:22 公開日:2022-04-07
# 生成優先による教師なし画像間翻訳

Unsupervised Image-to-Image Translation with Generative Prior ( http://arxiv.org/abs/2204.03641v1 )

ライセンス: Link先を確認
Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy(参考訳) unsupervised image-to-image translationは、2つのビジュアルドメイン間の翻訳をペアデータなしで学習することを目的としている。 近年,画像翻訳モデルが進歩しているにもかかわらず,複雑な領域間のマッピングを構築することは困難である。 本稿では,この翻訳アルゴリズムの全体的な品質と適用性を改善するために,生成優先型画像間変換(gp-unit)という新しい枠組みを提案する。 私たちの重要な洞察は、事前訓練されたクラス条件gan(例えばbiggan)からのジェネレーティブを活用して、さまざまなドメインにまたがるリッチコンテンツ対応を学ぶことです。 より正確なマルチレベルコンテンツ対応のために、より詳細なコンテンツ特徴を適応的に学習する手法に基づいて、オブジェクトを抽象的な意味レベルでリンクできる頑健な粗いレベルのコンテンツ表現をキャプチャする前に、まず生成物を蒸留する。 広範な実験によって、頑健で高品質で多彩な翻訳において最先端の手法よりも汎用性が優れていることが示されました。

Unsupervised image-to-image translation aims to learn the translation between two visual domains without paired data. Despite the recent progress in image translation models, it remains challenging to build mappings between complex domains with drastic visual discrepancies. In this work, we present a novel framework, Generative Prior-guided UNsupervised Image-to-image Translation (GP-UNIT), to improve the overall quality and applicability of the translation algorithm. Our key insight is to leverage the generative prior from pre-trained class-conditional GANs (e.g., BigGAN) to learn rich content correspondences across various domains. We propose a novel coarse-to-fine scheme: we first distill the generative prior to capture a robust coarse-level content representation that can link objects at an abstract semantic level, based on which fine-level content features are adaptively learned for more accurate multi-level content correspondences. Extensive experiments demonstrate the superiority of our versatile framework over state-of-the-art methods in robust, high-quality and diversified translations, even for challenging and distant domains.
翻訳日:2022-04-08 14:09:10 公開日:2022-04-07
# 地下環境におけるロボット探査のための学習と伝達値関数

Learning and Transferring Value Function for Robot Exploration in Subterranean Environments ( http://arxiv.org/abs/2204.03140v1 )

ライセンス: Link先を確認
Yafei Hu, Chen Wang, John Keller and Sebastian Scherer(参考訳) 従来のロボット探索法では、ロボットは通常、探索している環境に対する事前の偏見を持たない。 このように、ロボットは探索効率が不十分な目標に等しく重要度を割り当てる。 別の方法として、しばしば目標の価値を微調整するために手調整されたポリシーが使用される。 本稿では,状態値関数を用いて測定した状態がいかに「良い」のかを学習し,ロボットが探索判断を行うためのヒントを与える手法を提案する。 従来のオフライン収集データセットから状態値関数を学習し,新しい環境でのテスト中に値関数を転送し,改善することを提案する。 さらに、通常、環境はごく少数であり、ロボットに対する不本意な報酬やフィードバックすらない。 そこで本研究では,環境からの報酬が少なすぎる問題にも対処する。 探索中により多くの情報を得るようロボットに促すため、いくつかの内在的な報酬をデザインする。 これらの報酬関数は、ステート値関数のビルディングブロックとなる。 我々は,地下環境と都市環境に挑戦する手法をテストした。 我々の知る限りでは、この研究は以前に収集したデータセットを用いて初めて価値関数の予測を実証し、地下環境への挑戦に役立つ。

In traditional robot exploration methods, the robot usually does not have prior biases about the environment it is exploring. Thus the robot assigns equal importance to the goals which leads to insufficient exploration efficiency. Alternative, often a hand-tuned policy is used to tweak the value of goals. In this paper, we present a method to learn how "good" some states are, measured by the state value function, to provide a hint for the robot to make exploration decisions. We propose to learn state value functions from previous offline collected datasets and then transfer and improve the value function during testing in a new environment. Moreover, the environments usually have very few and even no extrinsic reward or feedback for the robot. Therefore in this work, we also tackle the problem of sparse extrinsic rewards from the environments. We design several intrinsic rewards to encourage the robot to obtain more information during exploration. These reward functions then become the building blocks of the state value functions. We test our method on challenging subterranean and urban environments. To the best of our knowledge, this work for the first time demonstrates value function prediction with previous collected datasets to help exploration in challenging subterranean environments.
翻訳日:2022-04-08 14:06:15 公開日:2022-04-07
# FedCos: パフォーマンス改善のためのシーン適応型フェデレーション最適化

FedCos: A Scene-adaptive Federated Optimization Enhancement for Performance Improvement ( http://arxiv.org/abs/2204.03174v1 )

ライセンス: Link先を確認
Hao Zhang, Tingting Wu, Siyao Cheng and Jie Liu(参考訳) 新たなテクノロジとして、フェデレーション学習(fl)では、分散エッジデバイス上でマシンラーニングモデルをトレーニングする。 しかし、クライアントデータの不均一性は、集中トレーニングと比べてFLの性能を著しく低下させる。 これにより、ローカルにトレーニングされたクライアントのモデルが異なる方向に移動する。 一方で、グローバルなアップデートを遅くしたり、停止したりすることで、非効率なコミュニケーションにつながります。 一方、局所モデル間の距離を拡大し、結果として性能が劣る集約されたグローバルモデルとなる。 幸いなことに、これらの欠点は、ローカルモデルが移動する方向間の角度を減らすことで軽減できる。 この事実に基づいて,コサイン類似性ペナルティを導入することにより,局所モデルの方向性の不整合を低減するFedCosを提案する。 局所モデル反復を補助的なグローバル方向に向けて促進する。 さらに,本手法は高パラメータの精巧な選択を伴わず,様々な非IID設定に適応する。 実験結果から、FedCosはよく知られたベースラインよりも優れており、さまざまなデータ均一性、参加者数、クロスサイロおよびクロスデバイス設定など、さまざまなFLシーンでそれらを強化することができることがわかった。 さらに、FedCosは通信効率を2倍から5倍改善する。 FedCosの助けを借りて、複数のFLメソッドは、同等の性能のモデルを得るために、以前よりもはるかに少ない通信ラウンドを必要とする。

As an emerging technology, federated learning (FL) involves training machine learning models over distributed edge devices, which attracts sustained attention and has been extensively studied. However, the heterogeneity of client data severely degrades the performance of FL compared with that in centralized training. It causes the locally trained models of clients to move in different directions. On the one hand, it slows down or even stalls the global updates, leading to inefficient communication. On the other hand, it enlarges the distances between local models, resulting in an aggregated global model with poor performance. Fortunately, these shortcomings can be mitigated by reducing the angle between the directions that local models move in. Based on this fact, we propose FedCos, which reduces the directional inconsistency of local models by introducing a cosine-similarity penalty. It promotes the local model iterations towards an auxiliary global direction. Moreover, our approach is auto-adapt to various non-IID settings without an elaborate selection of hyperparameters. The experimental results show that FedCos outperforms the well-known baselines and can enhance them under a variety of FL scenes, including varying degrees of data heterogeneity, different number of participants, and cross-silo and cross-device settings. Besides, FedCos improves communication efficiency by 2 to 5 times. With the help of FedCos, multiple FL methods require significantly fewer communication rounds than before to obtain a model with comparable performance.
翻訳日:2022-04-08 14:06:01 公開日:2022-04-07
# ソフトウェア脆弱性検出のためのトランスフォーマーベース言語モデル:パフォーマンス、モデルのセキュリティ、プラットフォーム

Transformer-Based Language Models for Software Vulnerability Detection: Performance, Model's Security and Platforms ( http://arxiv.org/abs/2204.03214v1 )

ライセンス: Link先を確認
Chandra Thapa and Seung Ick Jang and Muhammad Ejaz Ahmed and Seyit Camtepe and Josef Pieprzyk and Surya Nepal(参考訳) 大きなトランスフォーマーベースの言語モデルは、自然言語処理において優れた性能を示す。 自然言語をC/C++のような高レベルプログラミング言語に近付けることにより、ソフトウェア脆弱性を検出する大きなトランスフォーマーベースの言語モデルがいかに優れているかを研究する。 ソフトウェア脆弱性検出におけるこれらのモデルの優れた性能を示す。 この答えは、トランスフォーマーベースの言語モデルを脆弱性検出に拡張し、自然言語処理ドメインを超えて優れたパフォーマンスを活用することを可能にする。 さらに、モデルのセキュリティを評価するコマンドラインツールであるMicrosoftのCounterfitを使用して、モデルのセキュリティチェックを実行する。 以上の結果から,これらのモデルは敵例に弱いことが判明した。 本稿では,簡単な対策とその結果について述べる。 大規模なモデルの実験は、コンピューティングリソースとプラットフォーム/ライブラリと依存関係を必要とするため、常に課題である。 この作業で直面した経験と難しさに基づいて,これらの大規模モデルを実行するプラットフォームを選択しながら,推奨事項を提示します。 また,本論文では,人気プラットフォームを徹底的に調査する。

The large transformer-based language models demonstrate excellent performance in natural language processing. By considering the closeness of natural languages to the high-level programming language such as C/C++, this work studies how good are the large transformer-based language models detecting software vulnerabilities. Our results demonstrate the well performance of these models on software vulnerability detection. The answer enables extending transformer-based language models to vulnerability detection and leveraging superior performance beyond the natural language processing domain. Besides, we perform the model's security check using Microsoft's Counterfit, a command-line tool to assess the model's security. Our results find that these models are vulnerable to adversarial examples. In this regard, we present a simple countermeasure and its result. Experimenting with large models is always a challenge due to the requirement of computing resources and platforms/libraries & dependencies. Based on the experiences and difficulties we faced during this work, we present our recommendation while choosing the platforms to run these large models. Moreover, the popular platforms are surveyed thoroughly in this paper.
翻訳日:2022-04-08 14:05:38 公開日:2022-04-07
# マルチモーダルコントラスト学習とソフトデータ拡張による意味的コード検索の強化

Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation ( http://arxiv.org/abs/2204.03293v1 )

ライセンス: Link先を確認
Ensheng Shi, Wenchao Gub, Yanlin Wang, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Hongbin Sun(参考訳) コード検索は、ある自然言語クエリに対して最も意味のあるコードスニペットを取得することを目的としている。 近年,CodeBERTやGraphCodeBERTといった大規模コード事前学習モデルでは,ソースコードの汎用表現を学習し,コード検索タスクを大幅に改善している。 しかし、コードスニペットの高品質なシーケンスレベル表現は十分に検討されていない。 本稿では,コード探索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しいアプローチを提案する。 マルチモーダルコントラスト学習は、コードクエリペアの表現をまとめて、未実装のコードスニペットとクエリを分離するために使用される。 さらに、データ拡張は、ハイクオリティな表現を学ぶためのコントラスト学習において重要である。 しかし、既存の作業ではソースコードの意味保存拡張のみが検討されている。 本研究では,コードシーケンス内のトークンを動的にマスキングし,置き換えることで,ペアクエリの正のサンプルとして必ずしも意味保存されないコードスニペットを生成することを提案する。 6つのプログラミング言語を用いた大規模データセットにおいて,提案手法の有効性を評価するための広範な実験を行った。 実験の結果,本手法は最先端手法よりも優れていた。 また,RoBERTaやCodeBERTなどの事前学習モデルにも適用し,コード検索タスクの性能を大幅に向上させる。

Code search aims to retrieve the most semantically relevant code snippet for a given natural language query. Recently, large-scale code pre-trained models such as CodeBERT and GraphCodeBERT learn generic representations of source code and have achieved substantial improvement on code search task. However, the high-quality sequence-level representations of code snippets have not been sufficiently explored. In this paper, we propose a new approach with multimodal contrastive learning and soft data augmentation for code search. Multimodal contrastive learning is used to pull together the representations of code-query pairs and push apart the unpaired code snippets and queries. Moreover, data augmentation is critical in contrastive learning for learning high-quality representations. However, only semantic-preserving augmentations for source code are considered in existing work. In this work, we propose to do soft data augmentation by dynamically masking and replacing some tokens in code sequences to generate code snippets that are similar but not necessarily semantic-preserving as positive samples for paired queries. We conduct extensive experiments to evaluate the effectiveness of our approach on a large-scale dataset with six programming languages. The experimental results show that our approach significantly outperforms the state-of-the-art methods. We also adapt our techniques to several pre-trained models such as RoBERTa and CodeBERT, and significantly boost their performance on the code search task.
翻訳日:2022-04-08 14:05:23 公開日:2022-04-07
# DynLight:マルチレベル信号制御による動的位相長の実現

DynLight: Realize dynamic phase duration with multi-level traffic signal control ( http://arxiv.org/abs/2204.03471v1 )

ライセンス: Link先を確認
Liang Zhang, Shubin Xie, Jianming Deng(参考訳) 信号制御における強化学習(RL)の採用はますます人気がある。 ほとんどのRL法は固定動作間隔(tdurationと表記される)を使用し、各tdurationごとに位相をアクティベートまたは維持することにより、位相の持続時間がよりダイナミックでフレキシブルになる。 さらに、活性化相は任意であり、固定循環相構造を必要とする実世界の展開に影響を与える。 これらの課題に対処するために,最適化手法であるMax-QueueLength (M-QL) を用いたマルチレベル信号制御フレームワークDynLightを提案する。 さらに、DynLightのQ-networkをよく訓練したDynLight-Cを提案し、M-QLを固定された循環制御ポリシーで置き換え、周期的な位相構造を実現する。 複数の実世界のデータセットに関する包括的な実験は、DynLightが新しい最先端を達成していることを示している。 さらに、DynLightの深いQ-networkは、フェーズ期間の決定について十分に学習することができ、DynLight-Cは、デプロイメントの高性能を実証する。

Adopting reinforcement learning (RL) for traffic signal control is increasingly popular. Most RL methods use fixed action interval (denoted as tduration) and actuate or maintain a phase every tduration, which makes the phase duration less dynamic and flexible. In addition, the actuated phase can be arbitrary, affecting the real-world deployment, which requires a fixed cyclical phase structure. To address these challenges, we propose a multi-level traffic signal control framework, DynLight, which uses an optimization method Max-QueueLength (M-QL) to determine the phase and uses a deep Q-network to determine the corresponding duration. Based on DynLight, we further propose DynLight-C that adopts a well trained deep Q-network of DynLight and replace M-QL by a fixed cyclical control policy that actuate a set of phases in fixed order to realize cyclical phase structure. Comprehensive experiments on multiple real-world datasets demonstrate that DynLight achives a new state-of-the-art. Furthermore, the deep Q-network of DynLight can learn well on determining the phase duration and DynLight-C demonstrates high performance for deployment.
翻訳日:2022-04-08 14:05:01 公開日:2022-04-07
# ロボットチームのための分散強化学習 : レビュー

Distributed Reinforcement Learning for Robot Teams: A Review ( http://arxiv.org/abs/2204.03516v1 )

ライセンス: Link先を確認
Yutong Wang and Mehul Damani and Pamela Wang and Yuhong Cao and Guillaume Sartoretti(参考訳) 目的: 近年のセンサ, アクティベーション, 計算の進歩により, 何百台ものロボットからなるマルチロボットシステムへの扉が開かれ, 自動製造, 災害救助, 収穫, 最終マイルの配送, ポート/エアポートの運用, 捜索・救助などへの応用が期待できる。 コミュニティはモデルフリーのマルチエージェント強化学習(MARL)を活用して、マルチロボットシステム(MRS)のための効率的でスケーラブルなコントローラを開発した。 本研究の目的は,マルチロボット協調のための分散MARLにおける最先端技術の解析である。 分散mrsは非定常性や部分的可観測性といった根本的な課題に直面している。 集中トレーニング、分散実行」パラダイムに基づく最近のmarlアプローチには、独立した学習、集中型批判、価値分解、コミュニケーション学習のアプローチなどがある。 協調行動は、AIベンチマークとマルチロボットモーション/パス計画のような基本的な現実世界のロボット機能によって実証される。 まとめ:本調査では,マルチロボット協調と既存アプローチの分散モデルフリーMARLの課題について報告する。 我々は、現在のオープンな研究の道について、ベンチマークとロボット応用を紹介する。

Purpose of review: Recent advances in sensing, actuation, and computation have opened the door to multi-robot systems consisting of hundreds/thousands of robots, with promising applications to automated manufacturing, disaster relief, harvesting, last-mile delivery, port/airport operations, or search and rescue. The community has leveraged model-free multi-agent reinforcement learning (MARL) to devise efficient, scalable controllers for multi-robot systems (MRS). This review aims to provide an analysis of the state-of-the-art in distributed MARL for multi-robot cooperation. Recent findings: Decentralized MRS face fundamental challenges, such as non-stationarity and partial observability. Building upon the "centralized training, decentralized execution" paradigm, recent MARL approaches include independent learning, centralized critic, value decomposition, and communication learning approaches. Cooperative behaviors are demonstrated through AI benchmarks and fundamental real-world robotic capabilities such as multi-robot motion/path planning. Summary: This survey reports the challenges surrounding decentralized model-free MARL for multi-robot cooperation and existing classes of approaches. We present benchmarks and robotic applications along with a discussion on current open avenues for research.
翻訳日:2022-04-08 14:04:39 公開日:2022-04-07
# 量子主成分分析のための共分散行列作成

Covariance matrix preparation for quantum principal component analysis ( http://arxiv.org/abs/2204.03495v1 )

ライセンス: Link先を確認
Max Hunter Gordon, M. Cerezo, Lukasz Cincio, Patrick J. Coles(参考訳) 主成分分析 (principal component analysis, pca) は、データセットの共分散行列の対角化を伴うデータ解析における次元性低減法である。 近年,密度行列の対角化に基づくPCAの量子アルゴリズムが定式化されている。 これらのアルゴリズムは共分散行列を密度行列に符号化できると仮定するが、この符号化のための具体的なプロトコルは欠如している。 私たちの仕事は、このギャップに対処することを目的としています。 データの振幅符号化を仮定すると、アンサンブル $\{p_i,| \psi_i \rangle\}$ で与えられるデータは、アンサンブル平均密度行列 $\overline{\rho} = \sum_i p_i |\psi_i\rangle \langle \psi_i |$ を簡単に作成できる。 まず、$\overline{\rho}$ はデータセットが中心であるときは常にちょうど共分散行列であることを示す。 量子データセットでは、大域的な位相対称性を利用して、常に$\overline{\rho}$と一致する中心的データセットが存在するので、$\overline{\rho}$は常に共分散行列として解釈できる。 これは任意の量子データセットや中心となる古典データセットの共分散行列を作成する単純な手段を提供する。 非中心型古典データセットの場合、この手法はいわゆる「中心化なしPCA」と呼ばれ、シンメトリズドデータセット上でPCAと解釈する。 我々は、これは標準PCAと密接に対応し、標準PCAから得られたスペクトルの偏差を束縛する方程式や不等式を導出する。 我々は,MNIST手書き桁データセットの数値的記述を行う。 また、量子データセット上のPCAは自然かつ有意義であり、分子基底状態データセットに対して数値的に実装する。

Principal component analysis (PCA) is a dimensionality reduction method in data analysis that involves diagonalizing the covariance matrix of the dataset. Recently, quantum algorithms have been formulated for PCA based on diagonalizing a density matrix. These algorithms assume that the covariance matrix can be encoded in a density matrix, but a concrete protocol for this encoding has been lacking. Our work aims to address this gap. Assuming amplitude encoding of the data, with the data given by the ensemble $\{p_i,| \psi_i \rangle\}$, then one can easily prepare the ensemble average density matrix $\overline{\rho} = \sum_i p_i |\psi_i\rangle \langle \psi_i |$. We first show that $\overline{\rho}$ is precisely the covariance matrix whenever the dataset is centered. For quantum datasets, we exploit global phase symmetry to argue that there always exists a centered dataset consistent with $\overline{\rho}$, and hence $\overline{\rho}$ can always be interpreted as a covariance matrix. This provides a simple means for preparing the covariance matrix for arbitrary quantum datasets or centered classical datasets. For uncentered classical datasets, our method is so-called "PCA without centering", which we interpret as PCA on a symmetrized dataset. We argue that this closely corresponds to standard PCA, and we derive equations and inequalities that bound the deviation of the spectrum obtained with our method from that of standard PCA. We numerically illustrate our method for the MNIST handwritten digit dataset. We also argue that PCA on quantum datasets is natural and meaningful, and we numerically implement our method for molecular ground-state datasets.
翻訳日:2022-04-08 14:04:19 公開日:2022-04-07
# (参考訳) 時間非依存vqganと時間感応トランスフォーマによる長寿命映像生成 [全文訳有]

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer ( http://arxiv.org/abs/2204.03638v1 )

ライセンス: CC BY 4.0
Songwei Ge, Thomas Hayes, Harry Yang, Xi Yin, Guan Pang, David Jacobs, Jia-Bin Huang, Devi Parikh(参考訳) ビデオは感情を表現し、情報を交換し、経験を共有する。 ビデオ合成は長い間研究者を魅了してきた。 視覚合成の進歩による急速な進歩にもかかわらず、既存の研究はフレームの品質とフレーム間の遷移を改善することに集中しているが、より長いビデオを生成することはほとんど進歩していない。 本稿では,3D-VQGANとトランスフォーマーを用いて,数千フレームのビデオを生成する手法を提案する。 評価の結果,UCF-101やSky Time-lapse,Taichi-HD といった標準ベンチマークから16フレームのビデオクリップをトレーニングしたモデルでは,多種多様で一貫性があり,高品質な長ビデオが生成できることがわかった。 また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。 ビデオとコードはhttps://songweige.gi thub.io/projects/tat s/index.htmlにある。

Videos are created to express emotion, exchange information, and share experiences. Video synthesis has intrigued researchers for a long time. Despite the rapid progress driven by advances in visual synthesis, most existing studies focus on improving the frames' quality and the transitions between them, while little progress has been made in generating longer videos. In this paper, we present a method that builds on 3D-VQGAN and transformers to generate videos with thousands of frames. Our evaluation shows that our model trained on 16-frame video clips from standard benchmarks such as UCF-101, Sky Time-lapse, and Taichi-HD datasets can generate diverse, coherent, and high-quality long videos. We also showcase conditional extensions of our approach for generating meaningful long videos by incorporating temporal information with text and audio. Videos and code can be found at https://songweige.gi thub.io/projects/tat s/index.html.
翻訳日:2022-04-08 14:01:51 公開日:2022-04-07
# コモンセンス検証と説明のための自動エンコーディング言語モデルに基づくアンサンブル学習

Autoencoding Language Model Based Ensemble Learning for Commonsense Validation and Explanation ( http://arxiv.org/abs/2204.03324v1 )

ライセンス: Link先を確認
Ngo Quang Huy, Tu Minh Phuong and Ngo Xuan Bach(参考訳) 人工知能の究極の目標は、人間の言語を理解できるコンピュータシステムを構築することである。 テキストで表現された世界に関する常識的な知識を理解することは、そのようなインテリジェントなシステムを構築するための基礎的かつ困難な問題の1つです。 そこで,本稿では,共通意味の検証と説明のための自動符号化言語モデルに基づくアンサンブル学習手法であるalmenについて述べる。 提案手法は,RoBERTa,DeBERTa,ELE CTRAといった先進的な事前学習型言語モデルとサイムズニューラルネットワークを併用することにより,コモンセンス(検証サブタスク)に対する自然言語文を識別し,コモンセンス(説明選択サブタスク)に対する理由を正しく識別する。 SemEval-2020 Task 4のベンチマークデータセットによる実験結果から,提案手法は最先端モデルよりも優れており,検証と説明のサブタスクにおいて,97.9%,95.4%の精度が得られた。

An ultimate goal of artificial intelligence is to build computer systems that can understand human languages. Understanding commonsense knowledge about the world expressed in text is one of the foundational and challenging problems to create such intelligent systems. As a step towards this goal, we present in this paper ALMEn, an Autoencoding Language Model based Ensemble learning method for commonsense validation and explanation. By ensembling several advanced pre-trained language models including RoBERTa, DeBERTa, and ELECTRA with Siamese neural networks, our method can distinguish natural language statements that are against commonsense (validation subtask) and correctly identify the reason for making against commonsense (explanation selection subtask). Experimental results on the benchmark dataset of SemEval-2020 Task 4 show that our method outperforms state-of-the-art models, reaching 97.9% and 95.4% accuracies on the validation and explanation selection subtasks, respectively.
翻訳日:2022-04-08 13:34:38 公開日:2022-04-07
# HIT-UAV:無人航空機用高高度赤外線熱データセット

HIT-UAV: A High-altitude Infrared Thermal Dataset for Unmanned Aerial Vehicles ( http://arxiv.org/abs/2204.03245v1 )

ライセンス: Link先を確認
Jiashun Suo, Tianyi Wang, Xingzhou Zhang, Haiyang Chen, Wei Zhou, Weisong Shi(参考訳) 本稿では,無人航空機(UAV)における物体検出のための高高度赤外線熱データセットHIT-UAVを提案する。 HIT-UAVは43470フレームから抽出された2898の赤外線熱画像を含んでいる。 これらの画像は、学校、駐車場、道路、遊び場などからUAVによって収集される。 HIT-UAVは飛行高度(60mから130m)、カメラ視点(30度から90度)、日付、日光強度など、各場所ごとに異なる飛行データを提供している。 それぞれの画像に対して、hit-uavマニュアルはオブジェクトインスタンスに2種類のバウンディングボックス(指向性と標準性)をアノテートし、オブジェクトインスタンスが空中画像で著しく重なり合うという課題に対処する。 我々の知る限りでは、HIT-UAVは人や車両検出のための初めての高高度赤外線熱UAVデータセットである。 さらに,HIT-UAVを用いたベンチマーク検出アルゴリズム(YOLOv4とYOLOv4-tiny)の訓練と評価を行った。 可視光データセットと比較すると,赤外線サーマル画像は検出対象と無関係な情報を多く含まないため,hit-uavでは検出アルゴリズムが優れた性能を示す。 このことは、赤外線熱データセットがオブジェクト検出アプリケーションの開発を著しく促進できることを示している。 HIT-UAVが夜間の交通監視や都市監視などのUAV応用に寄与することを願っている。 データセットはhttps://github.com/s uojiashun/HIT-UAV-In frared-Thermal-Datas etで公開されている。

This paper presents a High-altitude infrared thermal dataset, HIT-UAV, for object detection applications on Unmanned Aerial Vehicles (UAVs). HIT-UAV contains 2898 infrared thermal images extracted from 43470 frames. These images are collected by UAV from schools, parking lots, roads, playgrounds, etc. HIT-UAV provides different flight data for each place, including flight altitude (from 60 to 130 meters), camera perspective (from 30 to 90 degrees), date, and daylight intensity. For each image, the HIT-UAV manual annotates object instances with two types of the bounding box (oriented and standard) to address the challenge that object instances have a significant overlap in aerial images. To the best of our knowledge, HIT-UAV is the first publicly available high-altitude infrared thermal UAV dataset for persons and vehicles detection. Moreover, we trained and evaluated the benchmark detection algorithms (YOLOv4 and YOLOv4-tiny) on HIT-UAV. Compared to the visual light dataset, the detection algorithms have excellent performance on HIT-UAV because the infrared thermal images do not contain a significant quantity of irrelevant information with detection objects. This indicates that infrared thermal datasets can significantly promote the development of object detection applications. We hope HIT-UAV contributes to UAV applications such as traffic surveillance and city monitoring at night. The dataset is available at https://github.com/s uojiashun/HIT-UAV-In frared-Thermal-Datas et.
翻訳日:2022-04-08 13:34:17 公開日:2022-04-07
# ビデオセマンティクスセグメンテーションのための粗粒間特徴マイニング

Coarse-to-Fine Feature Mining for Video Semantic Segmentation ( http://arxiv.org/abs/2204.03330v1 )

ライセンス: Link先を確認
Guolei Sun, Yun Liu, Henghui Ding, Thomas Probst, Luc Van Gool(参考訳) 文脈情報は意味セグメンテーションにおいて中心的な役割を果たす。 ビデオセマンティックセグメンテーションは、静的コンテキストと動きコンテキストを含み、それぞれ静的コンテンツと動画クリップ内の移動コンテンツに対応する。 静的コンテキストは、マルチスケールおよびグローバル/ロングレンジの機能を学ぶことによって、画像セマンティックセグメンテーションにおいてよく利用される。 動きの文脈は、以前のビデオセマンティックセグメンテーションで研究される。 しかし、相互に高い相関性と相補性を持つ静的コンテキストと動作コンテキストを同時に学習する方法は研究されていない。 この問題を解決するために,静的コンテキストと動きコンテキストの統一表現を学習するためのCFFM(Coarse-to-Fine Feature Mining)手法を提案する。 この技術は、粗大な機能集合とクロスフレーム機能マイニングの2つの部分から構成される。 前者の操作は、さらなる処理のためのデータを準備し、静的および運動的コンテキストのその後の共同学習を可能にする。 後者の操作は、シーケンシャルフレームから有用な情報/コンテキストを抽出し、ターゲットフレームの特徴の映像コンテキストを強化する。 拡張された機能は最終予測に直接適用することができる。 提案するCFFMは,ビデオセマンティックセグメンテーションの最先端手法に対して良好に動作することを示す。 実装はhttps://github.com/G uoleiSun/VSS-CFFMで公開しています。

The contextual information plays a core role in semantic segmentation. As for video semantic segmentation, the contexts include static contexts and motional contexts, corresponding to static content and moving content in a video clip, respectively. The static contexts are well exploited in image semantic segmentation by learning multi-scale and global/long-range features. The motional contexts are studied in previous video semantic segmentation. However, there is no research about how to simultaneously learn static and motional contexts which are highly correlated and complementary to each other. To address this problem, we propose a Coarse-to-Fine Feature Mining (CFFM) technique to learn a unified presentation of static contexts and motional contexts. This technique consists of two parts: coarse-to-fine feature assembling and cross-frame feature mining. The former operation prepares data for further processing, enabling the subsequent joint learning of static and motional contexts. The latter operation mines useful information/contexts from the sequential frames to enhance the video contexts of the features of the target frame. The enhanced features can be directly applied for the final prediction. Experimental results on popular benchmarks demonstrate that the proposed CFFM performs favorably against state-of-the-art methods for video semantic segmentation. Our implementation is available at https://github.com/G uoleiSun/VSS-CFFM
翻訳日:2022-04-08 13:33:53 公開日:2022-04-07
# 追加訓練を伴わないPhase LocalizationのためのCLIPの適用

Adapting CLIP For Phrase Localization Without Further Training ( http://arxiv.org/abs/2204.03647v1 )

ライセンス: Link先を確認
Jiahao Li, Greg Shakhnarovich, Raymond A. Yeh(参考訳) 単語ローカライゼーション(テキストグラウンド)の監督または弱教師付き手法は、人間のアノテーションやオブジェクト検出器などの他の教師付きモデルに依存する。 これらのアノテーションの取得は労働集約的であり、実際にスケールするのは困難である。 コントラスト言語ビジョンモデルであるCLIPの最近の進歩を利用して,インターネットから収集した画像とキャプションペアを事前学習することを提案する。 オリジナルの形式では、CLIPは空間分解能のない画像レベルの埋め込みのみを出力する。 我々はクリップを高分解能空間特徴マップに適応させる。 重要なことは、画像埋め込みのセマンティック特性を維持しながら、ViTとResNet CLIPモデルから特徴マップを抽出できることである。 これはフレーズのローカライゼーションの自然な枠組みを提供する。 フレーズローカライゼーションの手法は人間のアノテーションや追加の訓練を必要としない。 提案手法は,ゼロショット句のローカライズにおいて既存のノートレーニング手法よりも優れており,場合によっては教師あり手法よりも優れる場合もある。 コードはhttps://github.com/p als-ttic/adapting-CL IP で公開されている。

Supervised or weakly supervised methods for phrase localization (textual grounding) either rely on human annotations or some other supervised models, e.g., object detectors. Obtaining these annotations is labor-intensive and may be difficult to scale in practice. We propose to leverage recent advances in contrastive language-vision models, CLIP, pre-trained on image and caption pairs collected from the internet. In its original form, CLIP only outputs an image-level embedding without any spatial resolution. We adapt CLIP to generate high-resolution spatial feature maps. Importantly, we can extract feature maps from both ViT and ResNet CLIP model while maintaining the semantic properties of an image embedding. This provides a natural framework for phrase localization. Our method for phrase localization requires no human annotations or additional training. Extensive experiments show that our method outperforms existing no-training methods in zero-shot phrase localization, and in some cases, it even outperforms supervised methods. Code is available at https://github.com/p als-ttic/adapting-CL IP .
翻訳日:2022-04-08 13:31:23 公開日:2022-04-07
# 学習信号生成器の逆混合による事前学習テキストエンコーダ

Pretraining Text Encoders with Adversarial Mixture of Training Signal Generators ( http://arxiv.org/abs/2204.03243v1 )

ライセンス: Link先を確認
Yu Meng, Chenyan Xiong, Payal Bajaj, Saurabh Tiwary, Paul Bennett, Jiawei Han, Xia Song(参考訳) 本稿では,複数の補助発電機からのMixture Of Signalsを通じて,テキストエンコーダを適応学習カリキュラムで事前訓練する新しいフレームワークAMOSを提案する。 ELECTRAスタイルの事前トレーニングの後、メインエンコーダは、補助マスク付き言語モデル(MLM)によって生成される交換トークンを検出するための識別器として訓練される。 1つのMLMをジェネレータとして訓練するELECTRAとは異なり、異なるサイズの複数のMLMを共同で訓練し、様々な難易度で訓練信号を提供する。 代替トークンを用いて識別器をより良く学習するために,補助mlms出力に対する混合重みを学習し,識別器からの勾配をgumbel-softmaxを介してバックプロパゲーションすることにより識別器損失を最大化する。 事前学習効率を向上させるために,複数のMLMを1つの統合補助モデルに組み立てる手法を提案する。 AMOS は ELECTRA と最近の最先端の事前訓練モデルを BERT ベースサイズモデルの GLUE ベンチマークで約1ポイント上回っている。

We present a new framework AMOS that pretrains text encoders with an Adversarial learning curriculum via a Mixture Of Signals from multiple auxiliary generators. Following ELECTRA-style pretraining, the main encoder is trained as a discriminator to detect replaced tokens generated by auxiliary masked language models (MLMs). Different from ELECTRA which trains one MLM as the generator, we jointly train multiple MLMs of different sizes to provide training signals at various levels of difficulty. To push the discriminator to learn better with challenging replaced tokens, we learn mixture weights over the auxiliary MLMs' outputs to maximize the discriminator loss by backpropagating the gradient from the discriminator via Gumbel-Softmax. For better pretraining efficiency, we propose a way to assemble multiple MLMs into one unified auxiliary model. AMOS outperforms ELECTRA and recent state-of-the-art pretrained models by about 1 point on the GLUE benchmark for BERT base-sized models.
翻訳日:2022-04-08 13:31:07 公開日:2022-04-07
# BERTuit:Twitterでスペイン語をネイティブトランスフォーマーで理解する

BERTuit: Understanding Spanish language in Twitter through a native transformer ( http://arxiv.org/abs/2204.03465v1 )

ライセンス: Link先を確認
Javier Huertas-Tato and Alejandro Martin and David Camacho(参考訳) BERT、Roberta、GPT-3のような複雑な注意に基づく言語モデルの出現により、多くのシナリオにおいて非常に複雑なタスクに対処できるようになった。 しかし、特定の領域に適用すると、これらのモデルは非常に困難になる。 これは、非公式で複雑な言語で書かれた情報の流れが変化し続けるTwitterのようなソーシャルネットワークのケースで、各メッセージは、コンテキストが果たす重要な役割を与えられたとしても、慎重に評価する必要がある。 自然言語処理を通じてこのドメインのタスクに取り組むには、厳しい課題が伴う。 このシナリオに強力な最先端の多言語モデルを適用すると、言語固有のニュアンスは翻訳中に失われる。 これらの課題に対処するために、これまでにスペイン語用に提案された大きなトランスフォーマーである \textbf{BERTuit} を、RoBERTa最適化を使用して2億3000万のスペイン語ツイートの巨大なデータセットで事前トレーニングした。 私たちのモチベーションは、スペインのtwitterをよりよく理解するための強力なリソースを提供することと、このソーシャルネットワークにフォーカスしたアプリケーションでの使用です。 BERTuitは、M-BERT、XLM-RoBERTa、XLM-T、非常に競争力のある多言語変換器と比較される。 本手法の応用例は, 偽情報の群を可視化し, 偽情報を拡散する著者をプロファイリングするためのゼロショット手法である。 誤報は英語以外の言語でTwitterなどのプラットフォームに広まり、英語を話すコミュニティ以外ではトランスフォーマーのパフォーマンスが損なわれる可能性がある。

The appearance of complex attention-based language models such as BERT, Roberta or GPT-3 has allowed to address highly complex tasks in a plethora of scenarios. However, when applied to specific domains, these models encounter considerable difficulties. This is the case of Social Networks such as Twitter, an ever-changing stream of information written with informal and complex language, where each message requires careful evaluation to be understood even by humans given the important role that context plays. Addressing tasks in this domain through Natural Language Processing involves severe challenges. When powerful state-of-the-art multilingual language models are applied to this scenario, language specific nuances use to get lost in translation. To face these challenges we present \textbf{BERTuit}, the larger transformer proposed so far for Spanish language, pre-trained on a massive dataset of 230M Spanish tweets using RoBERTa optimization. Our motivation is to provide a powerful resource to better understand Spanish Twitter and to be used on applications focused on this social network, with special emphasis on solutions devoted to tackle the spreading of misinformation in this platform. BERTuit is evaluated on several tasks and compared against M-BERT, XLM-RoBERTa and XLM-T, very competitive multilingual transformers. The utility of our approach is shown with applications, in this case: a zero-shot methodology to visualize groups of hoaxes and profiling authors spreading disinformation. Misinformation spreads wildly on platforms such as Twitter in languages other than English, meaning performance of transformers may suffer when transferred outside English speaking communities.
翻訳日:2022-04-08 13:30:48 公開日:2022-04-07
# 人間の言語判断予測のための自然言語モデルの限界の検証

Testing the limits of natural language models for predicting human language judgments ( http://arxiv.org/abs/2204.03592v1 )

ライセンス: Link先を確認
Tal Golan, Matthew Siegelman, Nikolaus Kriegeskorte, Christopher Baldassano(参考訳) ニューラルネットワーク言語モデルは、人間の言語処理に関する計算仮説として機能する。 多様な言語モデルのモデルと人間の一貫性を、新しい実験手法を用いて比較した。 議論の的になっている文対について、2つの言語モデルでは、どの文が自然文でより起こりやすいかは意見が一致しない。 9つの言語モデル(n-gram、リカレントニューラルネットワーク、トランスフォーマーモデルを含む)を考慮して、コーパスから文を選択したり、合成最適化された文ペアを非常に議論の余地のあるものにすることで、何百もの議論を巻き起こした文ペアを作成しました。 次に、被験者は2つの文のどちらがよりありそうなかを示す判断を下した。 議論の的となる文ペアは、モデルの失敗を明らかにし、人間の判断と最も密接に一致するモデルを特定するのに非常に効果的である。 最も人間一貫性のあるモデルは GPT-2 であったが、実験では人間の知覚との整合性の重大な欠点も明らかにした。

Neural network language models can serve as computational hypotheses about how humans process language. We compared the model-human consistency of diverse language models using a novel experimental approach: controversial sentence pairs. For each controversial sentence pair, two language models disagree about which sentence is more likely to occur in natural text. Considering nine language models (including n-gram, recurrent neural networks, and transformer models), we created hundreds of such controversial sentence pairs by either selecting sentences from a corpus or synthetically optimizing sentence pairs to be highly controversial. Human subjects then provided judgments indicating for each pair which of the two sentences is more likely. Controversial sentence pairs proved highly effective at revealing model failures and identifying models that aligned most closely with human judgments. The most human-consistent model tested was GPT-2, although experiments also revealed significant shortcomings of its alignment with human perception.
翻訳日:2022-04-08 13:29:59 公開日:2022-04-07
# (参考訳) 地形活性化マップを用いた深部ニューラルネットワークの可視化 [全文訳有]

Visualizing Deep Neural Networks with Topographic Activation Maps ( http://arxiv.org/abs/2204.03528v1 )

ライセンス: CC BY 4.0
Andreas Krug, Raihan Kabir Ratul, Sebastian Stober(参考訳) ディープニューラルネットワーク(DNN)による機械学習は、さまざまな分野のアプリケーションでタスクを解くのに成功している。 DNNの成功は、ネットワーク層数や各層内のニューロン数の観点から、DNNが学習したタスクをどのように解決するかを理解するために、非常に複雑であるという点において、その複雑さに強く結びついている。 DNNの説明可能性を改善するために,我々は,複雑で不透明なシステムを解析した経験が豊富であるため,神経科学の手法を適応させる。 本研究は,神経科学が脳の活動を可視化する上での地形図の応用から着想を得たものである。 このアプローチをDNNに転送することで,内部プロセスをより直感的に視覚化し,理解することが可能になる。 しかし、脳とDNNの内部構造は大きく異なる。 そこで,DNNにおけるニューロンの活性化を地形図として可視化するために,類似活動ニューロンが互いに近接する2次元空間においてニューロンを配置する手法について検討した。 本研究では,ネットワーク層内のニューロンの地形的レイアウトを得るための異なる手法を紹介し,比較する。 さらに,得られた地形活性化マップを用いて,dnnやデータセットの誤りやバイアスを識別する方法を示す。 我々の新しい可視化技術は、DNNベースのアルゴリズムによる意思決定システムの透明性を向上し、地理地図が機械学習のエキスパート知識を必要とせず、直感的に解釈できるため、広く利用することができる。

Machine Learning with Deep Neural Networks (DNNs) has become a successful tool in solving tasks across various fields of application. The success of DNNs is strongly connected to their high complexity in terms of the number of network layers or of neurons in each layer, which severely complicates to understand how DNNs solve their learned task. To improve the explainability of DNNs, we adapt methods from neuroscience because this field has a rich experience in analyzing complex and opaque systems. In this work, we draw inspiration from how neuroscience uses topographic maps to visualize the activity of the brain when it performs certain tasks. Transferring this approach to DNNs can help to visualize and understand their internal processes more intuitively, too. However, the inner structures of brains and DNNs differ substantially. Therefore, to be able to visualize activations of neurons in DNNs as topographic maps, we research techniques to layout the neurons in a two-dimensional space in which neurons of similar activity are in the vicinity of each other. In this work, we introduce and compare different methods to obtain a topographic layout of the neurons in a network layer. Moreover, we demonstrate how to use the resulting topographic activation maps to identify errors or encoded biases in DNNs or data sets. Our novel visualization technique improves the transparency of DNN-based algorithmic decision-making systems and is accessible to a broad audience because topographic maps are intuitive to interpret without expert-knowledge in Machine Learning.
翻訳日:2022-04-08 13:27:49 公開日:2022-04-07
# ディープラーニングにおけるアルゴリズム設計のための分布一般化

What You See is What You Get: Distributional Generalization for Algorithm Design in Deep Learning ( http://arxiv.org/abs/2204.03230v1 )

ライセンス: Link先を確認
Bogdan Kulynych, Yao-Yuan Yang, Yaodong Yu, Jaros{\l}aw B{\l}asiok, Preetum Nakkiran(参考訳) 本稿では,差分プライバシ(dp)と最近提案された分布汎化(dg)との関係を調査し,活用する。 この接続を応用して、標準的な確率勾配勾配(SGD)の「病理」をバイパスする深層学習手法を設計するための新しい概念的ツールを導入する。 まず、微分プライベートなメソッドが"What You See Is What You Get"(WYSIWYG)の一般化を保証することを証明します。 この保証は分布的一般化によって正式に捉えられる。 WYSIWYGは、テスト時に不要な振る舞いを緩和するために、列車データ上のこの振る舞いを緩和するのに十分である、という、$\textit{generalization}$ concerns to $\textit{optimization}$ one: を減らして、ディープラーニングのアルゴリズム設計を可能にする。 これは、標準(非dp)メソッドに特に当てはまるため、プライバシが不要な場合でも、この観察は適用できる。 例えば, 標準SGDでは重要サンプリングが失敗することが知られているが, DP学習モデルに対して意図した効果があることを示す。 したがって、DP-SGDでは、SGDとは異なり、原則化された列車時間介入を行うことでテスト時の動作に影響を与えることができる。 これらの知見を用いて,複数の分散ロバスト性アプリケーションにおけるSOTAの整合性や性能を向上する単純なアルゴリズムを構築し,DP-SGDのプライバシー対異な影響トレードオフを大幅に改善する。 最後に、差分プライバシー、安定性、分布一般化に関する既知の理論的境界を改善した。

We investigate and leverage a connection between Differential Privacy (DP) and the recently proposed notion of Distributional Generalization (DG). Applying this connection, we introduce new conceptual tools for designing deep-learning methods that bypass "pathologies" of standard stochastic gradient descent (SGD). First, we prove that differentially private methods satisfy a "What You See Is What You Get (WYSIWYG)" generalization guarantee: whatever a model does on its train data is almost exactly what it will do at test time. This guarantee is formally captured by distributional generalization. WYSIWYG enables principled algorithm design in deep learning by reducing $\textit{generalization}$ concerns to $\textit{optimization}$ ones: in order to mitigate unwanted behavior at test time, it is provably sufficient to mitigate this behavior on the train data. This is notably false for standard (non-DP) methods, hence this observation has applications even when privacy is not required. For example, importance sampling is known to fail for standard SGD, but we show that it has exactly the intended effect for DP-trained models. Thus, with DP-SGD, unlike with SGD, we can influence test-time behavior by making principled train-time interventions. We use these insights to construct simple algorithms which match or outperform SOTA in several distributional robustness applications, and to significantly improve the privacy vs. disparate impact trade-off of DP-SGD. Finally, we also improve on known theoretical bounds relating differential privacy, stability, and distributional generalization.
翻訳日:2022-04-08 13:05:56 公開日:2022-04-07
# 半教師付きニューラルトピックモデリングのための共同学習手法

A Joint Learning Approach for Semi-supervised Neural Topic Modeling ( http://arxiv.org/abs/2204.03208v1 )

ライセンス: Link先を確認
Jeffrey Chiu, Rajat Mittal, Neehal Tumma, Abhishek Sharma, Finale Doshi-Velez(参考訳) トピックモデルは、解釈可能な方法でテキストデータを表現するための最も一般的な方法である。 近年、深部生成モデル、特に自動エンコード変分ベイズ(AEVB)の進歩は、従来の統計に基づくトピックモデルとは対照的に、深部生成モデルを活用する教師なしニューラルネットワークモデルの導入につながっている。 我々は,これらのニューラルネットワークモデルを拡張し,ラベル付きニューラルネットワークモデル(LI-NTM)を導入する。 LI-NTMは文書再構成ベンチマークにおいて既存のニューラルトピックモデルよりも優れており、ラベルの低いデータ構造や情報ラベル付きデータセットにおいて最も顕著な結果が得られる。

Topic models are some of the most popular ways to represent textual data in an interpret-able manner. Recently, advances in deep generative models, specifically auto-encoding variational Bayes (AEVB), have led to the introduction of unsupervised neural topic models, which leverage deep generative models as opposed to traditional statistics-based topic models. We extend upon these neural topic models by introducing the Label-Indexed Neural Topic Model (LI-NTM), which is, to the extent of our knowledge, the first effective upstream semi-supervised neural topic model. We find that LI-NTM outperforms existing neural topic models in document reconstruction benchmarks, with the most notable results in low labeled data regimes and for data-sets with informative labels; furthermore, our jointly learned classifier outperforms baseline classifiers in ablation studies.
翻訳日:2022-04-08 13:04:59 公開日:2022-04-07
# 構成ゼロショット学習のためのソフトプロンプトの構成学習

Learning to Compose Soft Prompts for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2204.03574v1 )

ライセンス: Link先を確認
Nihal V. Nayak, Peilin Yu, Stephen H. Bach(参考訳) 本稿では,大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するためのパラメータ効率の学習手法であるコンポジションソフトプロンプト(CSP)を導入する。 VLMは、フレキシブルテキストエンコーダの自然言語プロンプトとして任意のクラスを表現できるが、合成ゼロショットベンチマークタスクにおいて最先端のメソッドを実行する。 VLMを改善するために,新しいソフトプロンプト方式を提案する。 クラスを語彙の学習可能なトークンとして定義するために構成される属性やオブジェクトを扱い、それらを複数のプロンプトコンポジションでチューニングする。 推論中、学習した属性オブジェクトの語彙を新しい組み合わせで再合成し、CSPがベンチマークデータセット上で平均14.7%の精度で元のVLMより優れていることを示す。 cspはまた、3つのベンチマークデータセットのうち2つで新しい最先端の精度を実現している。 さらに, CSPは, 高次属性属性-属性-オブジェクト合成への一般化と事前学習属性と微調整オブジェクトの組み合わせを改善した。

We introduce compositional soft prompting (CSP), a parameter-efficient learning technique to improve the zero-shot compositionality of large-scale pretrained vision-language models (VLMs) without the overhead of fine-tuning the entire model. VLMs can represent arbitrary classes as natural language prompts in their flexible text encoders but they underperform state-of-the-art methods on compositional zero-shot benchmark tasks. To improve VLMs, we propose a novel form of soft prompting. We treat the attributes and objects that are composed to define classes as learnable tokens of vocabulary and tune them on multiple prompt compositions. During inference, we recompose the learned attribute-object vocabulary in new combinations and show that CSP outperforms the original VLM on benchmark datasets by an average of 14.7 percentage points of accuracy. CSP also achieves new state-of-the-art accuracies on two out of three benchmark datasets, while only fine-tuning a small number of parameters. Further, we show that CSP improves generalization to higher-order attribute-attribute- object compositions and combinations of pretrained attributes and fine-tuned objects.
翻訳日:2022-04-08 13:04:32 公開日:2022-04-07
# ビデオ拡散モデル

Video Diffusion Models ( http://arxiv.org/abs/2204.03458v1 )

ライセンス: Link先を確認
Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, David J. Fleet(参考訳) 時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。 このマイルストーンに向けて,ビデオ生成のための拡散モデルを提案し,非常に有望な初期結果を示す。 我々のモデルは,標準画像拡散アーキテクチャの自然な拡張であり,画像データと映像データとの連立学習を可能にし,ミニバッチ勾配のばらつきを低減し,最適化を高速化する。 長時間高解像度ビデオを生成するために,提案手法よりも優れた空間的・時間的ビデオ拡張のための条件付きサンプリング手法を提案する。 本稿では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最先端の成果を示す。 補足資料はhttps://video-diffus ion.github.io/で入手できる。

Generating temporally coherent high fidelity video is an important milestone in generative modeling research. We make progress towards this milestone by proposing a diffusion model for video generation that shows very promising initial results. Our model is a natural extension of the standard image diffusion architecture, and it enables jointly training from image and video data, which we find to reduce the variance of minibatch gradients and speed up optimization. To generate long and higher resolution videos we introduce a new conditional sampling technique for spatial and temporal video extension that performs better than previously proposed methods. We present the first results on a large text-conditioned video generation task, as well as state-of-the-art results on an established unconditional video generation benchmark. Supplementary material is available at https://video-diffus ion.github.io/
翻訳日:2022-04-08 13:04:09 公開日:2022-04-07
# 画像-テキスト-ラベル空間における統一コントラスト学習

Unified Contrastive Learning in Image-Text-Label Space ( http://arxiv.org/abs/2204.03610v1 )

ライセンス: Link先を確認
Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Bin Xiao, Ce Liu, Lu Yuan, Jianfeng Gao(参考訳) 視覚認識は最近、人間の注釈付き画像ラベルデータによる教師付き学習か、weblycrawled画像テキストペアによる言語画像コントラスト学習のいずれかによって学習される。 教師付き学習はより差別的な表現をもたらすかもしれないが、言語イメージ事前学習は、主にデータソースの異なる性質と学習目的のために、前例のないゼロショット認識能力を示す。 本研究では,2つのデータソースを共通画像-テキスト-ラベル空間に組み合わせ,新しい定式化を導入する。 本稿では,2つのデータ型の相乗効果をシームレスに促進するために,単一の学習目標を持つUnified Contrastive Learning (UniCL) という新たな学習パラダイムを提案する。 広範な実験により、私たちのuniclは、ゼロショット、リニアプロベ、完全微調整、転送学習シナリオにおける画像認識に普遍的に、意味的にリッチで差別的な表現を学習する効果的な方法であることが示されました。 特に、言語画像のコントラスト学習と教師あり学習の手法に関して、ゼロショット認識ベンチマークでは、平均で9.2%、14.5%向上している。 線形プローブ設定では、2つの手法でそれぞれ7.3%と3.4%の性能を向上する。 また,3つの画像分類データセットと2種類の視覚バックボーン(ResNetとSwin Transformer)にまたがる教師あり学習手法に対抗して,UniCLは純粋な画像ラベルデータにおいて優れた学習者であることを示す。 コードはhttps://github.com/m icrosoft/UniCLで入手できる。

Visual recognition is recently learned via either supervised learning on human-annotated image-label data or language-image contrastive learning with webly-crawled image-text pairs. While supervised learning may result in a more discriminative representation, language-image pretraining shows unprecedented zero-shot recognition capability, largely due to the different properties of data sources and learning objectives. In this work, we introduce a new formulation by combining the two data sources into a common image-text-label space. In this space, we propose a new learning paradigm, called Unified Contrastive Learning (UniCL) with a single learning objective to seamlessly prompt the synergy of two data types. Extensive experiments show that our UniCL is an effective way of learning semantically rich yet discriminative representations, universally for image recognition in zero-shot, linear-probe, fully finetuning and transfer learning scenarios. Particularly, it attains gains up to 9.2% and 14.5% in average on zero-shot recognition benchmarks over the language-image contrastive learning and supervised learning methods, respectively. In linear probe setting, it also boosts the performance over the two methods by 7.3% and 3.4%, respectively. Our study also indicates that UniCL stand-alone is a good learner on pure image-label data, rivaling the supervised learning methods across three image classification datasets and two types of vision backbones, ResNet and Swin Transformer. Code is available at https://github.com/m icrosoft/UniCL.
翻訳日:2022-04-08 13:03:56 公開日:2022-04-07
# 正規化とデータ拡張の効果はクラス依存である

The Effects of Regularization and Data Augmentation are Class Dependent ( http://arxiv.org/abs/2204.03632v1 )

ライセンス: Link先を確認
Randall Balestriero, Leon Bottou, Yann LeCun(参考訳) 正規化は、過度な適合を防ぎ、モデルの複雑さを制約することで一般化性能を改善するための基本的な技術である。 現在のDeep Networksは、Data-Augmentation (DA) や weight-decay のような正規化器に大きく依存しており、構造的リスク最小化、すなわちクロスバリデーションを用いて最適な正規化ハイパーパラメータを選択する。 本研究では,DAや体重減少といった手法が,クラス間で不公平な複雑性のモデルを生成することを示す。 クロスバリデーションから得られるDAの最適量や重量減衰は、例えばImagenetでresnet50を使用すれば、トレーニング中にランダムな農作物DAを導入することで、"barn Spider"分類テストの精度が6,8\%から4,6\%に低下する。 さらに驚くべきことに、ウェイト崩壊のような非形式的正規化技術を導入する際にもこのような性能低下が起こる。 これらの結果から,クラスやサンプルの平均的な一般化パフォーマンスの追求は,一部のクラスのパフォーマンスを静かに犠牲にするモデルやレギュラライザに留まっています。 例えば、inaturalistにデプロイされたimagenetプリトレーニングされたresnet50では、imagenetプレトレーニングフェーズでランダムクロップdaを導入すると、クラス \#8889で70\%$から30\%$に低下する。 これらの結果は、クラス依存バイアスのない新規な正則化器の設計がオープンな研究課題であることを示している。

Regularization is a fundamental technique to prevent over-fitting and to improve generalization performances by constraining a model's complexity. Current Deep Networks heavily rely on regularizers such as Data-Augmentation (DA) or weight-decay, and employ structural risk minimization, i.e. cross-validation, to select the optimal regularization hyper-parameters. In this study, we demonstrate that techniques such as DA or weight decay produce a model with a reduced complexity that is unfair across classes. The optimal amount of DA or weight decay found from cross-validation leads to disastrous model performances on some classes e.g. on Imagenet with a resnet50, the "barn spider" classification test accuracy falls from $68\%$ to $46\%$ only by introducing random crop DA during training. Even more surprising, such performance drop also appears when introducing uninformative regularization techniques such as weight decay. Those results demonstrate that our search for ever increasing generalization performance -- averaged over all classes and samples -- has left us with models and regularizers that silently sacrifice performances on some classes. This scenario can become dangerous when deploying a model on downstream tasks e.g. an Imagenet pre-trained resnet50 deployed on INaturalist sees its performances fall from $70\%$ to $30\%$ on class \#8889 when introducing random crop DA during the Imagenet pre-training phase. Those results demonstrate that designing novel regularizers without class-dependent bias remains an open research question.
翻訳日:2022-04-08 13:03:29 公開日:2022-04-07
# (参考訳) PaLM: パスによる言語モデリングのスケールアップ

PaLM: Scaling Language Modeling with Pathways ( http://arxiv.org/abs/2204.02311v2 )

ライセンス: CC BY 4.0
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, Noah Fiedel(参考訳) 大規模な言語モデルでは、わずかな学習でさまざまな自然言語タスクで顕著なパフォーマンスを実現することが示されており、特定のアプリケーションにモデルを適用するのに必要なタスク固有のトレーニング例の数を劇的に削減している。 そこで我々は,Pathways Language Model PaLM(パスウェイズ言語モデルPaLM)と呼ばれる,高密度に活性化されたトランスフォーマー言語モデルである540ビリオンパラメータを訓練した。 我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。 数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを示す。 これらのタスクで、palm 540bは画期的なパフォーマンスを達成し、マルチステップ推論タスクのスイートで最先端を上回り、最近リリースされたbig-benchベンチマークで平均的なヒューマンパフォーマンスを上回った。 かなりの数のBIG-benchタスクでは、モデルスケールから不連続な改善が見られたため、我々の最大のモデルにスケールするにつれて、性能が急激に向上した。 PaLMはまた、多言語タスクやソースコード生成において強力な能力を持ち、幅広いベンチマークで示しています。 さらに,バイアスと毒性に関する総合的な分析を行い,モデルスケールに関するデータ記憶の訓練の程度について検討した。 最後に,大規模言語モデルに関する倫理的考察を議論し,潜在的な緩和戦略について論じる。

Large language models have been shown to achieve remarkable performance across a variety of natural language tasks using few-shot learning, which drastically reduces the number of task-specific training examples needed to adapt the model to a particular application. To further our understanding of the impact of scale on few-shot learning, we trained a 540-billion parameter, densely activated, Transformer language model, which we call Pathways Language Model PaLM. We trained PaLM on 6144 TPU v4 chips using Pathways, a new ML system which enables highly efficient training across multiple TPU Pods. We demonstrate continued benefits of scaling by achieving state-of-the-art few-shot learning results on hundreds of language understanding and generation benchmarks. On a number of these tasks, PaLM 540B achieves breakthrough performance, outperforming the finetuned state-of-the-art on a suite of multi-step reasoning tasks, and outperforming average human performance on the recently released BIG-bench benchmark. A significant number of BIG-bench tasks showed discontinuous improvements from model scale, meaning that performance steeply increased as we scaled to our largest model. PaLM also has strong capabilities in multilingual tasks and source code generation, which we demonstrate on a wide array of benchmarks. We additionally provide a comprehensive analysis on bias and toxicity, and study the extent of training data memorization with respect to model scale. Finally, we discuss the ethical considerations related to large language models and discuss potential mitigation strategies.
翻訳日:2022-04-08 12:19:57 公開日:2022-04-07
# (参考訳) シンプルで効果的な教師なし音声合成 [全文訳有]

Simple and Effective Unsupervised Speech Synthesis ( http://arxiv.org/abs/2204.02524v2 )

ライセンス: CC BY 4.0
Alexander H. Liu, Cheng-I Jeff Lai, Wei-Ning Hsu, Michael Auli, Alexei Baevskiv, James Glass(参考訳) 本稿では,単純かつ効果的なレシピに基づく最初の教師なし音声合成システムを提案する。 このフレームワークは、教師なし音声認識および既存のニューラルベース音声合成における最近の研究を活用している。 本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。 実験では、教師なしシステムは、人間の評価によって測定された自然性と知性の観点から、教師なしのシステムと同様の音声を合成できることを示した。

We introduce the first unsupervised speech synthesis system based on a simple, yet effective recipe. The framework leverages recent work in unsupervised speech recognition as well as existing neural-based speech synthesis. Using only unlabeled speech audio and unlabeled text as well as a lexicon, our method enables speech synthesis without the need for a human-labeled corpus. Experiments demonstrate the unsupervised system can synthesize speech similar to a supervised counterpart in terms of naturalness and intelligibility measured by human evaluation.
翻訳日:2022-04-08 12:18:40 公開日:2022-04-07
# (参考訳) SqueezeNeRF:メモリ効率推論のためのさらなる因子化FastNeRF [全文訳有]

SqueezeNeRF: Further factorized FastNeRF for memory-efficient inference ( http://arxiv.org/abs/2204.02585v2 )

ライセンス: CC BY 4.0
Krishna Wadhwani, Tamaki Kojima(参考訳) NeRF(Neural Radiance Fields)は、複雑なシーンの新たなビュー生成のための最先端の手法として登場したが、推論では非常に遅い。 最近、NeRF推論を高速化する研究がいくつもあるが、リアルタイムNeRF推論の最先端技術はニューラルネットワークの出力をキャッシュすることに依存している。 元のNeRFネットワークのニューラルネットワークをキャッシュすることは不可能であるため、Garbin氏らは、問題を2つのサブネットワークに分解する"FastNeRF"を提案した。 この因子化によってキャッシュサイズは小さくなり、毎秒200フレーム以上で推論できるが、メモリオーバーヘッドは依然として大きい。 本研究では,fastnerfのスパースキャッシュよりもメモリ効率が60倍以上で,推論中に190fps以上の高スペックgpuでレンダリングできるswashnerfを提案する。

Neural Radiance Fields (NeRF) has emerged as the state-of-the-art method for novel view generation of complex scenes, but is very slow during inference. Recently, there have been multiple works on speeding up NeRF inference, but the state of the art methods for real-time NeRF inference rely on caching the neural network output, which occupies several giga-bytes of disk space that limits their real-world applicability. As caching the neural network of original NeRF network is not feasible, Garbin et al. proposed "FastNeRF" which factorizes the problem into 2 sub-networks - one which depends only on the 3D coordinate of a sample point and one which depends only on the 2D camera viewing direction. Although this factorization enables them to reduce the cache size and perform inference at over 200 frames per second, the memory overhead is still substantial. In this work, we propose SqueezeNeRF, which is more than 60 times memory-efficient than the sparse cache of FastNeRF and is still able to render at more than 190 frames per second on a high spec GPU during inference.
翻訳日:2022-04-08 12:06:02 公開日:2022-04-07
# (参考訳) 一般化された人物再同定のための実世界画像から3d文字への衣装のクローニング [全文訳有]

Cloning Outfits from Real-World Images to 3D Characters for Generalizable Person Re-Identification ( http://arxiv.org/abs/2204.02611v2 )

ライセンス: CC0 1.0
Yanan Wang, Xuezhi Liang, Shengcai Liao(参考訳) 近年、大規模合成データセットは、一般化可能な人物の再同定に非常に有用であることが示されている。 しかし、既存のデータセットで合成された人物は、主にマンガ的であり、ランダムなドレスのコロケーションであり、パフォーマンスを制限している。 これに対処するため、本研究では、実際の人物画像から仮想3d文字への衣装全体を直接クローンする自動アプローチが提案されている。 具体的には、UVテクスチャマッピングに基づいて、2つのクローニング方法、すなわち、登録された衣服マッピングと均質な布の展開を設計する。 人物画像から検出された衣服のキーポイントと、通常のuvマップに明快な衣服構造がラベル付けされていれば、登録されたマッピングは、実世界の服をuvマップの表に写し出すためにパースペクティブホモグラフィーを適用する。 見えない衣服部品や不規則なuvマップについては、均質な展開領域を写実的な布模様やセルとして均質に分割し、セルを拡大してuvマップを満たす。 さらに, 人物画像のクラスタリング, クラスタ毎のサンプリング, 3次元文字生成のためのクローン化などにより, 類似度・多様性の拡大戦略を提案する。 このようにして、仮想人物は、モデル学習に挑戦するために視覚的な類似性で密にスケールアップでき、標本分布を豊かにするために人口が多様になる。 最後に、Unity3Dシーンでクローンされた文字をレンダリングすることで、ClonedPersonと呼ばれるより現実的な仮想データセットが作成される。 実験の結果,clonedpersonでトレーニングされたモデルは,他の一般的な実世界および合成人再同定データセットでトレーニングされたモデルよりも優れた一般化性能を示すことがわかった。 ClonedPersonプロジェクトはhttps://github.com/Y anan-Wang-cs/ClonedP ersonで入手できる。

Recently, large-scale synthetic datasets are shown to be very useful for generalizable person re-identification. However, synthesized persons in existing datasets are mostly cartoon-like and in random dress collocation, which limits their performance. To address this, in this work, an automatic approach is proposed to directly clone the whole outfits from real-world person images to virtual 3D characters, such that any virtual person thus created will appear very similar to its real-world counterpart. Specifically, based on UV texture mapping, two cloning methods are designed, namely registered clothes mapping and homogeneous cloth expansion. Given clothes keypoints detected on person images and labeled on regular UV maps with clear clothes structures, registered mapping applies perspective homography to warp real-world clothes to the counterparts on the UV map. As for invisible clothes parts and irregular UV maps, homogeneous expansion segments a homogeneous area on clothes as a realistic cloth pattern or cell, and expand the cell to fill the UV map. Furthermore, a similarity-diversity expansion strategy is proposed, by clustering person images, sampling images per cluster, and cloning outfits for 3D character generation. This way, virtual persons can be scaled up densely in visual similarity to challenge model learning, and diversely in population to enrich sample distribution. Finally, by rendering the cloned characters in Unity3D scenes, a more realistic virtual dataset called ClonedPerson is created, with 5,621 identities and 887,766 images. Experimental results show that the model trained on ClonedPerson has a better generalization performance, superior to that trained on other popular real-world and synthetic person re-identification datasets. The ClonedPerson project is available at https://github.com/Y anan-Wang-cs/ClonedP erson.
翻訳日:2022-04-08 11:51:10 公開日:2022-04-07
# Flow-Guided Video Inpaintingのためのエンドツーエンドフレームワーク

Towards An End-to-End Framework for Flow-Guided Video Inpainting ( http://arxiv.org/abs/2204.02663v2 )

ライセンス: Link先を確認
Zhen Li, Cheng-Ze Lu, Jianhua Qin, Chun-Le Guo, Ming-Ming Cheng(参考訳) フレーム間の動き情報をキャプチャする光フローは、その軌跡に沿ってピクセルを伝播させることにより、最近のビデオインペイント手法で利用される。 しかし、これらの手法における手作りフローベースプロセスは、塗装パイプライン全体を形成するために別々に適用される。 したがって、これらの手法は効率が低く、初期の中間的な結果に大きく依存する。 本稿では,フロー完了,特徴伝達,コンテンツ幻覚モジュールという3つの学習モジュールを精巧に設計し,フロー誘導型ビデオインペインティング(e$^2$fgvi)のエンドツーエンドフレームワークを提案する。 3つのモジュールは、以前のフローベース手法の3つの段階に対応するが、共同最適化が可能であり、より効率的で効果的な塗布プロセスをもたらす。 実験の結果,提案手法は定性的かつ定量的に最先端手法を上回っており,有望な効率性を示している。 コードはhttps://github.com/m cg-nku/e2fgviで入手できる。

Optical flow, which captures motion information across frames, is exploited in recent video inpainting methods through propagating pixels along its trajectories. However, the hand-crafted flow-based processes in these methods are applied separately to form the whole inpainting pipeline. Thus, these methods are less efficient and rely heavily on the intermediate results from earlier stages. In this paper, we propose an End-to-End framework for Flow-Guided Video Inpainting (E$^2$FGVI) through elaborately designed three trainable modules, namely, flow completion, feature propagation, and content hallucination modules. The three modules correspond with the three stages of previous flow-based methods but can be jointly optimized, leading to a more efficient and effective inpainting process. Experimental results demonstrate that the proposed method outperforms state-of-the-art methods both qualitatively and quantitatively and shows promising efficiency. The code is available at https://github.com/M CG-NKU/E2FGVI.
翻訳日:2022-04-08 11:28:30 公開日:2022-04-07
# 構造工学における因果性、因果発見、因果推論

Causality, Causal Discovery, and Causal Inference in Structural Engineering ( http://arxiv.org/abs/2204.01543v2 )

ライセンス: Link先を確認
M.Z. Naser(参考訳) 私たちの実験の多くは、私たちが興味を持っているデータ生成メカニズム(すなわち現象)の背後にある原因と効果を明らかにするように設計されています。 このような関係を明らかにすることで、現象の真の動作を特定し、最も重要なのは、手元にある現象をさらに探究し、正確に予測できるようにするモデルを明確にすることである。 基本的には、そのようなモデルは(観測的または経験的平均とは対照的に)因果的アプローチによって導出される可能性が高い。 このアプローチにおいて因果発見は因果モデルを作成するために必要であり、それは介入の影響を推測するために適用され、仮定的な質問(つまり、我々が持つであろうもの(What ifs? Etc.))に答えることができる。 本稿では、因果発見と因果推論のケースを構築し、これらを従来の機械学習アプローチと対比する。 より具体的には、因果関係の重要な原則と因果関係の発見と因果推論の最も一般的なアルゴリズムとパッケージを概説する。 最後に、本論文では、我々のドメインに因果概念をどのように適用できるかの一連の事例とケーススタディを示す。

Much of our experiments are designed to uncover the cause(s) and effect(s) behind a data generating mechanism (i.e., phenomenon) we happen to be interested in. Uncovering such relationships allows us to identify the true working of a phenomenon and, most importantly, articulate a model that may enable us to further explore the phenomenon on hand and/or allow us to predict it accurately. Fundamentally, such models are likely to be derived via a causal approach (as opposed to an observational or empirical mean). In this approach, causal discovery is required to create a causal model, which can then be applied to infer the influence of interventions, and answer any hypothetical questions (i.e., in the form of What ifs? Etc.) that we might have. This paper builds a case for causal discovery and causal inference and contrasts that against traditional machine learning approaches; all from a civil and structural engineering perspective. More specifically, this paper outlines the key principles of causality and the most commonly used algorithms and packages for causal discovery and causal inference. Finally, this paper also presents a series of examples and case studies of how causal concepts can be adopted for our domain.
翻訳日:2022-04-08 11:28:12 公開日:2022-04-07
# 表情保存型顔フロントエンドは視覚支援音声処理を改善する

Expression-preservin g face frontalization improves visually assisted speech processing ( http://arxiv.org/abs/2204.02810v2 )

ライセンス: Link先を確認
Zhiqi Kang, Mostafa Sadeghi, Radu Horaud and Xavier Alameda-Pineda(参考訳) 顔の正面化は、正面の面を任意に見る面から合成することからなる。 本論文の主な貢献は,視覚支援音声コミュニケーションの性能を高めるために,非剛性顔の変形を保存できるフロントカライズ手法である。 メソッドは、見積もりを交互に行う (i)−剛体変換(スケール、回転、および変換)及び (ii)~任意視面と顔モデルとの間の非剛性変形。 この手法には2つの重要な利点がある:データ中の非ガウス誤差に対処でき、動的顔変形モデルを含む。 そこで本研究では, 音声生成による頭部の剛性動きと顔の変形の両面を考慮し, 一般化された学生t分布と線形力学系を併用した。 本稿では,ゼロ平均正規化相互相関(ZNCC)スコアを用いて,表情の保存能力を評価することを提案する。 本手法は,従来の幾何学的モデルに基づく手法や深層学習に基づく手法と比較し,徹底的に評価する。 さらに,本手法を深層学習パイプライン,すなわち唇読解と音声強調に組み込むと,音声認識と音声の不信度スコアがかなりの差で向上することを示す。 補足材料はhttps://team.inria.f r/robotlearn/researc h/facefrontalization -benchmark/でアクセスできます。

Face frontalization consists of synthesizing a frontally-viewed face from an arbitrarily-viewed one. The main contribution of this paper is a frontalization methodology that preserves non-rigid facial deformations in order to boost the performance of visually assisted speech communication. The method alternates between the estimation of (i)~the rigid transformation (scale, rotation, and translation) and (ii)~the non-rigid deformation between an arbitrarily-viewed face and a face model. The method has two important merits: it can deal with non-Gaussian errors in the data and it incorporates a dynamical face deformation model. For that purpose, we use the generalized Student t-distribution in combination with a linear dynamic system in order to account for both rigid head motions and time-varying facial deformations caused by speech production. We propose to use the zero-mean normalized cross-correlation (ZNCC) score to evaluate the ability of the method to preserve facial expressions. The method is thoroughly evaluated and compared with several state of the art methods, either based on traditional geometric models or on deep learning. Moreover, we show that the method, when incorporated into deep learning pipelines, namely lip reading and speech enhancement, improves word recognition and speech intelligibilty scores by a considerable margin. Supplemental material is accessible at https://team.inria.f r/robotlearn/researc h/facefrontalization -benchmark/
翻訳日:2022-04-08 11:27:51 公開日:2022-04-07
# (参考訳) SemEval-2022 Task 2: BERTRAMを用いたイディオム表現の学習 [全文訳有]

drsphelps at SemEval-2022 Task 2: Learning idiom representations using BERTRAM ( http://arxiv.org/abs/2204.02821v2 )

ライセンス: CC BY 4.0
Dylan Phelps(参考訳) 本稿では,semval-2022タスク2の多言語的慣用性検出と文埋め込みのサブタスクbについて述べる。 この手法により,イディオム表現の質が向上し,タスクの性能が向上することを示す。 また、最終結果の分析を行い、生成したイディオムの埋め込みの品質が入力コンテキストの品質に非常に敏感であることを示す。

This paper describes our system for SemEval-2022 Task 2 Multilingual Idiomaticity Detection and Sentence Embedding sub-task B. We modify a standard BERT sentence transformer by adding embeddings for each idioms, which are created using BERTRAM and a small number of contexts. We show that this technique increases the quality of idiom representations and leads to better performance on the task. We also perform analysis on our final results and show that the quality of the produced idiom embeddings is highly sensitive to the quality of the input contexts.
翻訳日:2022-04-08 11:26:15 公開日:2022-04-07
# GraFN:非パラメトリック分布割り当てによるラベルの少ないグラフ上の半監督ノード分類

GraFN: Semi-Supervised Node Classification on Graph with Few Labels via Non-Parametric Distribution Assignment ( http://arxiv.org/abs/2204.01303v2 )

ライセンス: Link先を確認
Junseok Lee, Yunhak Oh, Yeonjun In, Namkyeong Lee, Dongmin Hyun, Chanyoung Park(参考訳) 様々なアプリケーションにおけるグラフニューラルネットワーク(GNN)の成功にもかかわらず、GNNは、ラベル付きノードの数が限られている場合に、大幅な性能低下に直面する。 一方、近年の自己教師型学習パラダイムは、ラベル付きノードを必要としないプレテキストタスクを解くことで、GNNを訓練することを目的としている。 しかし,自己指導手法の大きな欠点は,学習中にラベル付き情報が利用されないため,クラス識別ノード表現の学習不足である。 そこで本研究では,同じクラスに属するノードをグループ化するために,ラベル付きノードをほとんど活用しないグラフの半教師付き手法であるgrafnを提案する。 具体的には、グラフ全体からラベル付きノードとアンカーノードからランダムにノードをサンプリングする。 そして、2つの異なる拡張グラフからのアンカー支持類似性によって非パラメトリックに割り当てられる2つの予測クラス分布の差を最小化する。 実世界のグラフ上のノード分類において,GraFNが半教師付き手法と自己教師型手法の両方を上回ることを示す。 GraFNのソースコードはhttps://github.com/J unseok0207/GraFNで入手できる。

Despite the success of Graph Neural Networks (GNNs) on various applications, GNNs encounter significant performance degradation when the amount of supervision signals, i.e., number of labeled nodes, is limited, which is expected as GNNs are trained solely based on the supervision obtained from the labeled nodes. On the other hand,recent self-supervised learning paradigm aims to train GNNs by solving pretext tasks that do not require any labeled nodes, and it has shown to even outperform GNNs trained with few labeled nodes. However, a major drawback of self-supervised methods is that they fall short of learning class discriminative node representations since no labeled information is utilized during training. To this end, we propose a novel semi-supervised method for graphs, GraFN, that leverages few labeled nodes to ensure nodes that belong to the same class to be grouped together, thereby achieving the best of both worlds of semi-supervised and self-supervised methods. Specifically, GraFN randomly samples support nodes from labeled nodes and anchor nodes from the entire graph. Then, it minimizes the difference between two predicted class distributions that are non-parametrically assigned by anchor-supports similarity from two differently augmented graphs. We experimentally show that GraFN surpasses both the semi-supervised and self-supervised methods in terms of node classification on real-world graphs. The source code for GraFN is available at https://github.com/J unseok0207/GraFN.
翻訳日:2022-04-08 11:17:25 公開日:2022-04-07
# 深層学習のための最近提案された活性化関数に関する調査

A survey on recently proposed activation functions for Deep Learning ( http://arxiv.org/abs/2204.02921v2 )

ライセンス: Link先を確認
Murilo Gustineli(参考訳) ニューラルネットワーク (artificial neural networks,ann) は、一般にニューラルネットワークと呼ばれ、人間の脳の生物学的構造に触発されて広く成功している機械学習アルゴリズムのクラスである。 ニューラルネットワークは、データから複雑な関数近似を学ぶ能力のために本質的に強力である。 この一般化能力は、画像認識、音声認識、自然言語処理などを含む多分野に影響を及ぼすことができる。 アクティベーション関数はニューラルネットワークの重要なサブコンポーネントである。 彼らは入力セットが与えられたネットワーク内のノードの出力を定義する。 本稿では、ニューラルネットワークにおけるアクティベーション関数の主な概念について論じる。ディープニューラルネットワークの簡単な紹介、アクティベーション関数とは何か、ニューラルネットワークでどのように使用されるのか、最も一般的な特性、アクティベーション関数の異なる種類、いくつかの課題、制限、そして、アクティベーション関数が直面する代替ソリューション、最終説明と一致する。

Artificial neural networks (ANN), typically referred to as neural networks, are a class of Machine Learning algorithms and have achieved widespread success, having been inspired by the biological structure of the human brain. Neural networks are inherently powerful due to their ability to learn complex function approximations from data. This generalization ability has been able to impact multidisciplinary areas involving image recognition, speech recognition, natural language processing, and others. Activation functions are a crucial sub-component of neural networks. They define the output of a node in the network given a set of inputs. This survey discusses the main concepts of activation functions in neural networks, including; a brief introduction to deep neural networks, a summary of what are activation functions and how they are used in neural networks, their most common properties, the different types of activation functions, some of the challenges, limitations, and alternative solutions faced by activation functions, concluding with the final remarks.
翻訳日:2022-04-08 11:17:03 公開日:2022-04-07
# データ中心型グリーンAI:探索的研究

Data-Centric Green AI: An Exploratory Empirical Study ( http://arxiv.org/abs/2204.02766v2 )

ライセンス: Link先を確認
Roberto Verdecchia, Lu\'is Cruz, June Sallou, Michelle Lin, James Wickenden, Estelle Hotellier(参考訳) 大規模データセットの可用性が向上し、安価なストレージと計算能力の普及により、AIが消費するエネルギーが懸念されている。 この問題に対処するため、近年、モデルトレーニング戦略をチューニングすることでaiエネルギー効率をどのように改善できるかを実証する研究が進められている。 それでも、データセットへの修正がAIのエネルギー消費に与える影響は、まだ未解決の問題である。 このギャップを埋めるために、この探索研究において、AIエネルギー効率を向上させるためにデータ中心のアプローチを利用できるかどうかを評価する。 目的を達成するために,6つの異なるaiアルゴリズム,5,574個のデータポイントからなるデータセット,2つのデータセット(データポイント数と特徴数)を考慮した実験を行った。 以上の結果から,データセットの修正を排他的に行うことで,エネルギー消費量が劇的に減少する(最大92.16%)ことが判明した。 追加的な導入結果として,使用するアルゴリズムを排他的に変更することで,最大2桁までの省エネルギーを実現する方法を示す。 結論として、この探索的調査は、aiエネルギー効率を改善するためにデータ中心の技術を適用することの重要性を実証的に示している。 我々の研究成果は、グリーンAIのさらなる有効化と民主化を目的として、データ中心の技術に焦点を当てた研究課題を求めている。

With the growing availability of large-scale datasets, and the popularization of affordable storage and computational capabilities, the energy consumed by AI is becoming a growing concern. To address this issue, in recent years, studies have focused on demonstrating how AI energy efficiency can be improved by tuning the model training strategy. Nevertheless, how modifications applied to datasets can impact the energy consumption of AI is still an open question. To fill this gap, in this exploratory study, we evaluate if data-centric approaches can be utilized to improve AI energy efficiency. To achieve our goal, we conduct an empirical experiment, executed by considering 6 different AI algorithms, a dataset comprising 5,574 data points, and two dataset modifications (number of data points and number of features). Our results show evidence that, by exclusively conducting modifications on datasets, energy consumption can be drastically reduced (up to 92.16%), often at the cost of a negligible or even absent accuracy decline. As additional introductory results, we demonstrate how, by exclusively changing the algorithm used, energy savings up to two orders of magnitude can be achieved. In conclusion, this exploratory investigation empirically demonstrates the importance of applying data-centric techniques to improve AI energy efficiency. Our results call for a research agenda that focuses on data-centric techniques, to further enable and democratize Green AI.
翻訳日:2022-04-08 11:16:45 公開日:2022-04-07
# VNIbCReg: VICRegによる非定常地震信号時系列の評価

VNIbCReg: VICReg with Neighboring-Invarian ce and better-Covariance Evaluated on Non-stationary Seismic Signal Time Series ( http://arxiv.org/abs/2204.02697v2 )

ライセンス: Link先を確認
Daesoo Lee, Erlend Aune, Nad\`ege Langet, and Jo Eidsvik(参考訳) 最新の自己教師付き学習(SSL)手法であるVICRegは線形評価と微調整評価の両方において優れた性能を示した。 しかし、VICRegはコンピュータビジョンにおいて提案され、分散と共分散損失による表現空間を維持しながら、画像のランダムな作物の表現を引いて学習する。 しかし、VICRegは、入力の異なる部分/クロップが非定常性を考えるために異なるエンコードされるような非定常時系列では効果がない。 もうひとつの最近のSSL提案であるTNC(Temporal Neighborhood Coding)は、非定常時系列の符号化に有効である。 本研究では,非定常地震信号時系列を評価データセットとして使用する非定常時系列上で,VICReg方式とTNCの組み合わせがSSLに非常に有効であることを示す。

One of the latest self-supervised learning (SSL) methods, VICReg, showed a great performance both in the linear evaluation and the fine-tuning evaluation. However, VICReg is proposed in computer vision and it learns by pulling representations of random crops of an image while maintaining the representation space by the variance and covariance loss. However, VICReg would be ineffective on non-stationary time series where different parts/crops of input should be differently encoded to consider the non-stationarity. Another recent SSL proposal, Temporal Neighborhood Coding (TNC) is effective for encoding non-stationary time series. This study shows that a combination of a VICReg-style method and TNC is very effective for SSL on non-stationary time series, where a non-stationary seismic signal time series is used as an evaluation dataset.
翻訳日:2022-04-08 11:16:20 公開日:2022-04-07
# 大規模応用のためのビジュアルジオローカライズ再考

Rethinking Visual Geo-localization for Large-Scale Applications ( http://arxiv.org/abs/2204.02287v2 )

ライセンス: Link先を確認
Gabriele Berton, Carlo Masone, Barbara Caputo(参考訳) ビジュアルジオローカライズ(vg)は、既知の場所の画像の大規模なデータベースと比較することにより、所定の写真が撮影された場所を推定するタスクである。 既存の技術が現実世界のvgアプリケーションでどのように機能するかを調べるために、私たちはサンフランシスコのextreme largeを構築しました。これは、都市全体をカバーする新しいデータセットで、以前の最大のビジュアルジオローカライズ用データセットの30倍の大きさの、幅広い挑戦的なケースを提供します。 そのため、我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、一般的なコントラスト学習で必要とされる高価なマイニングを避けるために、トレーニングを分類問題にしている。 幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。 さらに,従来の最先端技術と比較して,CosPlaceでは,列車時のGPUメモリの約80%削減が必要であり,より少ない8倍のディスクリプタで良好な結果が得られ,都市全体のビジュアルジオローカライゼーションが実現された。 データセット、コード、トレーニングされたモデルは、https://github.com/g mberton/cosplaceで研究目的に利用できる。

Visual Geo-localization (VG) is the task of estimating the position where a given photo was taken by comparing it with a large database of images of known locations. To investigate how existing techniques would perform on a real-world city-wide VG application, we build San Francisco eXtra Large, a new dataset covering a whole city and providing a wide range of challenging cases, with a size 30x bigger than the previous largest dataset for visual geo-localization. We find that current methods fail to scale to such large datasets, therefore we design a new highly scalable training technique, called CosPlace, which casts the training as a classification problem avoiding the expensive mining needed by the commonly used contrastive learning. We achieve state-of-the-art performance on a wide range of datasets and find that CosPlace is robust to heavy domain changes. Moreover, we show that, compared to the previous state-of-the-art, CosPlace requires roughly 80% less GPU memory at train time, and it achieves better results with 8x smaller descriptors, paving the way for city-wide real-world visual geo-localization. Dataset, code and trained models are available for research purposes at https://github.com/g mberton/CosPlace.
翻訳日:2022-04-08 11:16:06 公開日:2022-04-07
# AutoOpt:最適化問題に対するメタヒューリスティックの自動設計手法フレームワーク

AutoOpt: A Methodological Framework of Automatically Designing Metaheuristics for Optimization Problems ( http://arxiv.org/abs/2204.00998v2 )

ライセンス: Link先を確認
Qi Zhao, Bai Yan, Yuhui Shi(参考訳) メタヒューリスティックスは勾配のない問題に依存しない探索アルゴリズムである。 彼らは学術や産業で様々な最適化問題を解くことに大きな成功を収めた。 自動メタヒューリスティックデザインは人造デザインに代わる有望な選択肢である。 本稿では,様々な最適化問題に対するメタヒューリスティックスの自動設計のための,汎用的で包括的な方法論フレームワークAutoOptを提案する。 AutoOptは: 1) 設計アルゴリズムの性能を評価するための二段階基準 2) アルゴリズムが設計される場所から決定空間の一般的なスキーマ 3) 設計したアルゴリズムを表すグラフと実数に基づく混合表現。 4) 設計プロセスを実施するためのモデルフリー手法。 autooptは、最適化問題のためのメタヒューリスティックの設計に苦労している学術研究者や実践ユーザに役立つ。 実世界のケーススタディでは、AutoOptの有効性と効率が示されている。

Metaheuristics are gradient-free and problem-independent search algorithms. They have gained huge success in solving various optimization problems in academia and industry. Automated metaheuristic design is a promising alternative to human-made design. This paper proposes a general and comprehensive methodological framework, AutoOpt, for automatically designing metaheuristics for various optimization problems. AutoOpt consists of: 1) a bi-level criterion to evaluate the designed algorithms' performance; 2) a general schema of the decision space from where the algorithms will be designed; 3) a mixed graph- and real number-based representation to represent the designed algorithms; and 4) a model-free method to conduct the design process. AutoOpt benefits academic researchers and practical users struggling to design metaheuristics for optimization problems. A real-world case study demonstrates AutoOpt's effectiveness and efficiency.
翻訳日:2022-04-08 11:15:42 公開日:2022-04-07