このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210809となっている論文です。

PDF登録状況(公開日: 20210809)

TitleAuthorsAbstract論文公表日・翻訳日
# ヘイトフルミーム検出への解釈可能なアプローチ

An Interpretable Approach to Hateful Meme Detection ( http://arxiv.org/abs/2108.10069v1 )

ライセンス: Link先を確認
Tanvi Deshpande and Nitya Mani(参考訳) 憎悪のミームは、憎悪のメッセージを伝えるために画像とテキストの両方を頼りに、インターネット上で憎悪を広める新しい方法だ。 我々は、機械学習と単純なヒューリスティックスを用いて、憎悪のミームを分類する上で最も重要な特徴を特定する、憎悪のミーム検出に対する解釈可能なアプローチを取る。 この過程で我々は,人間のゴールドスタンダードに匹敵する性能(73.8バリデーションと72.7テストauROC)と,この課題に対する最先端のトランスフォーマーモデルを実現するLSTMモデルを構築した。

Hateful memes are an emerging method of spreading hate on the internet, relying on both images and text to convey a hateful message. We take an interpretable approach to hateful meme detection, using machine learning and simple heuristics to identify the features most important to classifying a meme as hateful. In the process, we build a gradient-boosted decision tree and an LSTM-based model that achieve comparable performance (73.8 validation and 72.7 test auROC) to the gold standard of humans and state-of-the-art transformer models on this challenging task.
翻訳日:2021-08-29 12:09:56 公開日:2021-08-09
# 超広帯域(UWB)屋内位置決めシステムにおける一般化ガウス分布法に基づく異常検出

Anomaly Detection Based on Generalized Gaussian Distribution approach for Ultra-Wideband (UWB) Indoor Positioning System ( http://arxiv.org/abs/2108.10210v1 )

ライセンス: Link先を確認
Fuhu Che, Qasim Zeeshan Ahmed, Faheem A. Khan, and Pavlos I. Lazaridis(参考訳) モノのインターネット(IoT)の急速な発展に伴い、屋内測位システム(IPS)は学術研究に大きな関心を集めている。 ultra-wideband (uwb) は、センチメートルレベルの精度を提供するため、ipsに使用できる新しい技術である。 しかし、UWBシステムは実際にはいくつかの技術的課題に直面しており、そのうちの1つはNon-Line-of-Sight (NLoS)信号伝搬である。 NLoSコンポーネント識別にいくつかの機械学習アプローチが適用されている。 しかし、データが非常に少量のNLoSコンポーネントを含んでいる場合、既存のアルゴリズムがそれらを分類することが非常に困難になる。 本稿では,Gaussian Distribution(GD)とGeneralized Gaussian Distribution(GGD)アルゴリズムに基づく異常検出手法を用いて,NLoS成分の検出と同定を行う。 シミュレーションの結果,提案手法は,NLoS信号の分類精度を向上し,UWB位置決めシステムに大幅な改善をもたらすロバストなNLoS成分同定を提供することを示す。

With the rapid development of the Internet of Things (IoT), Indoor Positioning System (IPS) has attracted significant interest in academic research. Ultra-Wideband (UWB) is an emerging technology that can be employed for IPS as it offers centimetre-level accuracy. However, the UWB system still faces several technical challenges in practice, one of which is Non-Line-of-Sight (NLoS) signal propagation. Several machine learning approaches have been applied for the NLoS component identification. However, when the data contains a very small amount of NLoS components it becomes very difficult for existing algorithms to classify them. This paper focuses on employing an anomaly detection approach based on Gaussian Distribution (GD) and Generalized Gaussian Distribution (GGD) algorithms to detect and identify the NLoS components. The simulation results indicate that the proposed approach can provide a robust NLoS component identification which improves the NLoS signal classification accuracy which results in significant improvement in the UWB positioning system.
翻訳日:2021-08-29 12:08:47 公開日:2021-08-09
# (参考訳) オンラインミームにおける憎しみの解消 [全文訳有]

Disentangling Hate in Online Memes ( http://arxiv.org/abs/2108.06207v1 )

ライセンス: CC BY 4.0
Rui Cao, Ziqing Fan, Roy Ka-Wei Lee, Wen-Haw Chong, Jing Jiang(参考訳) 不快で不快なコンテンツ検出は、テキストのような単一のモダリティで広く研究されている。 しかし、このような有害な情報は、オンラインミームのようなマルチモーダルコンテンツを通しても伝達できる。 それゆえ、近年、多様で憎悪的なコンテンツの検出は、学術的・産業的な研究コミュニティに大きな注目を集めている。 本稿では,マルチモーダル・ヘイトフルコンテンツの分類を行う新たな枠組みであるdismultihateを提案することで,この新たな研究課題への貢献を目指す。 具体的には、dismultihateはターゲットエンティティをマルチモーダルミームで分離し、憎悪のあるコンテンツ分類と説明可能性を改善するように設計されている。 公開のヘイトフルミームデータセットとアグレッシブミームデータセットについて,広範な実験を行う。 実験の結果,DisMultiHateは,憎しみのあるミーム分類タスクにおいて,最先端のユニモーダルベースラインやマルチモーダルベースラインより優れていることがわかった。 また、DisMultiHateのミーム内でターゲットエンティティをアンタングルする能力を実証し、最終的にはマルチモーダルヘイトフルコンテンツ分類タスクのDisMultiHateの説明可能性を示す実験ケーススタディも行われた。

Hateful and offensive content detection has been extensively explored in a single modality such as text. However, such toxic information could also be communicated via multimodal content such as online memes. Therefore, detecting multimodal hateful content has recently garnered much attention in academic and industry research communities. This paper aims to contribute to this emerging research topic by proposing DisMultiHate, which is a novel framework that performed the classification of multimodal hateful content. Specifically, DisMultiHate is designed to disentangle target entities in multimodal memes to improve hateful content classification and explainability. We conduct extensive experiments on two publicly available hateful and offensive memes datasets. Our experiment results show that DisMultiHate is able to outperform state-of-the-art unimodal and multimodal baselines in the hateful meme classification task. Empirical case studies were also conducted to demonstrate DisMultiHate's ability to disentangle target entities in memes and ultimately showcase DisMultiHate's explainability of the multimodal hateful content classification task.
翻訳日:2021-08-22 15:35:29 公開日:2021-08-09
# (参考訳) 経済予測に関するfomc議事録文書におけるアスペクトベース感情分析 [全文訳有]

Aspect-based Sentiment Analysis in Document - FOMC Meeting Minutes on Economic Projection ( http://arxiv.org/abs/2108.04080v1 )

ライセンス: CC BY 4.0
Sarah-Yifei-Wang(参考訳) 連邦準備制度内の連邦公開市場委員会はインフレを管理し、雇用を最大化し、金利を安定化させる責任がある。 ミーティングの時間が市場の動きに重要な役割を果たすのは、この経済的な複雑さがいつまでも改善されているか、鳥の視点を提供するからだ。 そのため、経済予測のための大規模な財務資料から様々な側面の感情を分析し抽出することへの関心が高まっている。 しかし、大きなラベル付きデータセットがないため、財務データではアスペクトベースの感情分析は広く使われていない。 本稿では、弱い監督下での財務文書のABSA訓練モデルを提案し、様々なマクロ経済指標の予測力を解析する。

The Federal Open Market Committee within the Federal Reserve System is responsible for managing inflation, maximizing employment, and stabilizing interest rates. Meeting minutes play an important role for market movements because they provide the birds eye view of how this economic complexity is constantly re-weighed. Therefore, There has been growing interest in analyzing and extracting sentiments on various aspects from large financial texts for economic projection. However, Aspect-based Sentiment Analysis is not widely used on financial data due to the lack of large labeled dataset. In this paper, I propose a model to train ABSA on financial documents under weak supervision and analyze its predictive power on various macroeconomic indicators.
翻訳日:2021-08-22 15:17:59 公開日:2021-08-09
# (参考訳) tb-ict:屋内でのcovid-19接触追跡のための信頼性の高いブロックチェーン対応システム [全文訳有]

TB-ICT: A Trustworthy Blockchain-Enabled System for Indoor COVID-19 Contact Tracing ( http://arxiv.org/abs/2108.08275v1 )

ライセンス: CC BY 4.0
Mohammad Salimibeni, Zohreh Hajiakhondi-Meybodi, Arash Mohammadi, Yingxu Wang(参考訳) 新型コロナウイルス(covid-19)パンデミックの結果として、この高度に感染したウイルスの拡散を防ぎ、将来の可能性に備えるため、コンタクトトレーシング(ct)モデルへの依存が大幅に増加している。 屋内環境における新型コロナウイルスの拡散確率は屋外よりはるかに高いため、効率良く、自律的で、信頼性が高く、セキュアな室内ctソリューションの開発・設計が急務である。 このような急務にもかかわらず、この分野はまだ初期段階にある。 このギャップに対処し,TB-ICT(Indoor Contact Tracing)フレームワークのためのTrustworthy Blockchain対応システムを提案する。 TB-ICTフレームワークは、基盤となるCTデータのプライバシーと整合性を保護するために提案されている。 より具体的には、Randomized Hash Window(W-Hash)とDynamic Proof of Credit(dPoC)メカニズムを組み合わせた、提案された動的Proof of Work(dPoW)クレジットベースのコンセンサスアルゴリズムを活用する、完全に分散された革新的なブロックチェーンプラットフォームである。 TB-ICTはデータ複製の分散化を提供するだけでなく、その基盤となるクレジットベースのメカニズムに基づいてノードの振る舞いを定量化する。 高ローカライズ性能を実現するために,iot(internet of things)屋内ローカライズ基盤の可用性を活かし,bluetooth low energy(ble)センサ計測に基づくデータ駆動ローカライズモデルを開発した。 シミュレーションの結果,提案したTB-ICTは,ユーザのプライバシとセキュリティを改善しつつ,高精度な接触追跡モデルを実装することにより,COVID-19の拡散を防いでいることがわかった。

Recently, as a consequence of the COVID-19 pandemic, dependence on Contact Tracing (CT) models has significantly increased to prevent spread of this highly contagious virus and be prepared for the potential future ones. Since the spreading probability of the novel coronavirus in indoor environments is much higher than that of the outdoors, there is an urgent and unmet quest to develop/design efficient, autonomous, trustworthy, and secure indoor CT solutions. Despite such an urgency, this field is still in its infancy. The paper addresses this gap and proposes the Trustworthy Blockchain-enabled system for Indoor Contact Tracing (TB-ICT) framework. The TB-ICT framework is proposed to protect privacy and integrity of the underlying CT data from unauthorized access. More specifically, it is a fully distributed and innovative blockchain platform exploiting the proposed dynamic Proof of Work (dPoW) credit-based consensus algorithm coupled with Randomized Hash Window (W-Hash) and dynamic Proof of Credit (dPoC) mechanisms to differentiate between honest and dishonest nodes. The TB-ICT not only provides a decentralization in data replication but also quantifies the node's behavior based on its underlying credit-based mechanism. For achieving high localization performance, we capitalize on availability of Internet of Things (IoT) indoor localization infrastructures, and develop a data driven localization model based on Bluetooth Low Energy (BLE) sensor measurements. The simulation results show that the proposed TB-ICT prevents the COVID-19 from spreading by implementation of a highly accurate contact tracing model while improving the users' privacy and security.
翻訳日:2021-08-22 15:13:52 公開日:2021-08-09
# 廃棄物分類のための画像処理の改善に向けて

Towards artificially intelligent recycling Improving image processing for waste classification ( http://arxiv.org/abs/2108.06274v1 )

ライセンス: Link先を確認
Youpeng Yu and Ryan Grammenos(参考訳) 世界的不況の増大は、廃棄物・リサイクル管理産業を圧倒している。 環境モニタリングのためのスマートシステムの必要性とリサイクルプロセスの強化は、これまで以上に大きい。 これらの取り組みのうちの1つは、廃棄物分類に人工知能を用いてリサイクルを改善することを目的としたIBMのWastenetプロジェクトである。 本論文で報告された研究は, 伝達学習とデータ拡張技術を用いて, 分類精度を改善することを通じて, このプロジェクトを基礎としている。 畳み込みニューラルネットワーク(CNN)から始めると、廃棄物を異なるリサイクルタイプに分類する必要があるシナリオのコンテキストにおいて、適切な分割比率を選択し、学習率スケジューラ、層凍結、バッチサイズ、損失関数を含む複数のトレーニングパラメータをチューニングするための体系的なアプローチが従う。 その結果,10倍のクロスバリデーションを用いて比較比較を行い,91.21%のテスト精度が得られた。 その後、フリップ、回転、せん断、ズーム、輝度制御を含む様々なデータ拡張技術がこの仕事に組み込まれている。 その結果、これらの拡張技術により最終モデルの試験精度は95.40%向上した。 この分野で報告されている他の研究と異なり、本論文ではモデルのトレーニングに関する詳細を述べる。 さらに,本研究のコードをオープンソースとして公開し,標準的なコンピュータウェブカメラを用いて廃棄物のリアルタイム分類を実現できることを示した。

The ever-increasing amount of global refuse is overwhelming the waste and recycling management industries. The need for smart systems for environmental monitoring and the enhancement of recycling processes is thus greater than ever. Amongst these efforts lies IBM's Wastenet project which aims to improve recycling by using artificial intelligence for waste classification. The work reported in this paper builds on this project through the use of transfer learning and data augmentation techniques to ameliorate classification accuracy. Starting with a convolutional neural network (CNN), a systematic approach is followed for selecting appropriate splitting ratios and for tuning multiple training parameters including learning rate schedulers, layers freezing, batch sizes and loss functions, in the context of the given scenario which requires classification of waste into different recycling types. Results are compared and contrasted using 10-fold cross validation and demonstrate that the model developed achieves a 91.21% test accuracy. Subsequently, a range of data augmentation techniques are then incorporated into this work including flipping, rotation, shearing, zooming, and brightness control. Results show that these augmentation techniques further improve the test accuracy of the final model to 95.40%. Unlike other work reported in the field, this paper provides full details regarding the training of the model. Furthermore, the code for this work has been made open-source and we have demonstrated that the model can perform successful real-time classification of recycling waste items using a standard computer webcam.
翻訳日:2021-08-22 14:41:50 公開日:2021-08-09
# インテリジェント・レコメンデーション・カム・リマインダーシステム

An Intelligent Recommendation-cum-R eminder System ( http://arxiv.org/abs/2108.06206v1 )

ライセンス: Link先を確認
Rohan Saxena, Maheep Chaudhary, Chandresh Kumar Maurya, Shitala Prasad(参考訳) インテリジェントなレコメンデーションとリマインダーシステムは、速い寿命を必要とする。 siri、google assistant、microsoft cortonaなどの現在のインテリジェントシステムには、限られた能力がある。 例えば、午前6時に目が覚めるのは、次の旅行があるからで、手動でアラームをセットする必要がある。 さらにこれらのシステムは、降雨時に傘を運ぶなど、何を運ぶかを推奨したり、思い出させたりしない。 本稿では,メールを入力として取り出し,レコメンデーション・累計リストを返すシステムを提案する。 最初のステップとして、Eメールを解析し、名前付きエンティティ認識(NER)を用いてエンティティを認識する。 第2のステップでは、web上の情報検索を行い、近くの場所や気候条件などを識別する。 すべての場所のレビューからの命令文を抽出してオブジェクト抽出モジュールに渡す。 主な課題は、レビューから関心のあるオブジェクト(項目)を抽出することである。 これを解決するために、修正されたMachine Reading Comprehension-NER(MR C-NER)モデルをトレーニングし、クエリとしてアノテーションルールを定式化する。 見つけたオブジェクトは、ある日前にユーザに推奨される。 オブジェクトの最終的なリマインダーリストは、"packing activity"中に保持されたオブジェクトを追跡するための提案モデルによって決定される。 最終的に、ユーザがイベント/トリップに出発すると、リマインディングリスト項目を含むアラートが送信される。 提案手法は,複数のベースラインに対して,リコールで最大30%,精度で最大10%の優れた性能を実現する。

Intelligent recommendation and reminder systems are the need of the fast-pacing life. Current intelligent systems such as Siri, Google Assistant, Microsoft Cortona, etc., have limited capability. For example, if you want to wake up at 6 am because you have an upcoming trip, you have to set the alarm manually. Besides, these systems do not recommend or remind what else to carry, such as carrying an umbrella during a likely rain. The present work proposes a system that takes an email as input and returns a recommendation-cumre minder list. As a first step, we parse the emails, recognize the entities using named entity recognition (NER). In the second step, information retrieval over the web is done to identify nearby places, climatic conditions, etc. Imperative sentences from the reviews of all places are extracted and passed to the object extraction module. The main challenge lies in extracting the objects (items) of interest from the review. To solve it, a modified Machine Reading Comprehension-NER (MRC-NER) model is trained to tag objects of interest by formulating annotation rules as a query. The objects so found are recommended to the user one day in advance. The final reminder list of objects is pruned by our proposed model for tracking objects kept during the "packing activity." Eventually, when the user leaves for the event/trip, an alert is sent containing the reminding list items. Our approach achieves superior performance compared to several baselines by as much as 30% on recall and 10% on precision.
翻訳日:2021-08-22 14:41:25 公開日:2021-08-09
# 物理システムのシミュレーション学習のための拡張性ベンチマークスイート

An Extensible Benchmark Suite for Learning to Simulate Physical Systems ( http://arxiv.org/abs/2108.07799v1 )

ライセンス: Link先を確認
Karl Otness, Arvi Gjoka, Joan Bruna, Daniele Panozzo, Benjamin Peherstorfer, Teseo Schneider, Denis Zorin(参考訳) 物理システムをシミュレートすることは科学計算のコアコンポーネントであり、幅広い物理領域と応用を包含している。 近年,従来の数値シミュレーション手法を補完するデータ駆動手法が急増しており,計算コストを削減したり,大量のデータにアクセス可能な新しい物理モデルを学ぶ機会に動機付けられている。 しかし、問題設定と応用の多様性は、それぞれ異なる設定で評価され、異なる評価基準で評価される多くのアプローチにつながっている。 我々は,統合ベンチマークと評価プロトコルへの一歩を踏み出すために,一連のベンチマーク問題を紹介する。 本稿では,4つの物理系と,広く使用されている古典的時間積分器と代表的なデータ駆動手法(カーネルベース,MLP,CNN,近隣の周辺機器)のコレクションを提案する。 本フレームワークは,データ駆動方式の安定性,精度,計算効率を客観的に体系的に評価する。 さらに、他の学習タスクの調整を許可し、科学計算のための機械学習の将来の発展のための基盤を確立するための設定も可能である。

Simulating physical systems is a core component of scientific computing, encompassing a wide range of physical domains and applications. Recently, there has been a surge in data-driven methods to complement traditional numerical simulations methods, motivated by the opportunity to reduce computational costs and/or learn new physical models leveraging access to large collections of data. However, the diversity of problem settings and applications has led to a plethora of approaches, each one evaluated on a different setup and with different evaluation metrics. We introduce a set of benchmark problems to take a step towards unified benchmarks and evaluation protocols. We propose four representative physical systems, as well as a collection of both widely used classical time integrators and representative data-driven methods (kernel-based, MLP, CNN, nearest neighbors). Our framework allows evaluating objectively and systematically the stability, accuracy, and computational efficiency of data-driven methods. Additionally, it is configurable to permit adjustments for accommodating other learning tasks and for establishing a foundation for future developments in machine learning for scientific computing.
翻訳日:2021-08-22 14:41:03 公開日:2021-08-09
# (参考訳) Deep2Lead: 小分子リード最適化のための分散ディープラーニングアプリケーション [全文訳有]

Deep2Lead: A distributed deep learning application for small molecule lead optimization ( http://arxiv.org/abs/2108.05183v1 )

ライセンス: CC BY-SA 4.0
Tarun Kumar Chawdhury, David J. Grant, Hyun Yong Jin(参考訳) 鉛最適化は、強力な選択的化合物を生成するための薬物発見の重要なステップである。 歴史的に、シリコスクリーニングや構造に基づく小さな分子の設計はプロセスを容易にした。 薬物発見へのディープラーニングの最近の応用は、in silicoアプリケーションリード最適化ステップの試行をおこなったが、ツールの可用性のため、現実世界のアプリケーションは不足している。 本稿では,Deep2Leadというユーザインタフェースアプリケーションを開発した。 我々のWebアプリケーションはVAEとDeepPurpose DTIを統合しており、ユーザーは事前のプログラミング経験のないリード最適化タスクを迅速に実行できます。

Lead optimization is a key step in drug discovery to produce potent and selective compounds. Historically, in silico screening and structure-based small molecule designing facilitated the processes. Although the recent application of deep learning to drug discovery piloted the possibility of their in silico application lead optimization steps, the real-world application is lacking due to the tool availability. Here, we developed a single user interface application, called Deep2Lead. Our web-based application integrates VAE and DeepPurpose DTI and allows a user to quickly perform a lead optimization task with no prior programming experience.
翻訳日:2021-08-12 21:48:55 公開日:2021-08-09
# 情報処理としての知性:脳、群れ、コンピュータ

Intelligence as information processing: brains, swarms, and computers ( http://arxiv.org/abs/2108.05349v1 )

ライセンス: Link先を確認
Carlos Gershenson(参考訳) インテリジェンスの定義には合意されていないため、脳、スワーミング、コンピュータ、その他のシステムがインテリジェントかどうかを単に問うことは問題である。 異なる認知システムによって提示される潜在的なインテリジェンスを比較するために、私は人工知能と人工知能の生活で使われる一般的なアプローチを使用します。 この組織は情報によって測定できる。 このように,脳やコンピュータを含む認知システムを記述するために情報主義的認識論を適用する。 これにより、異なるコンテキストで脳-コンピュータアナログの有用性と限界を表現できます。 この視点を使って、知性の進化と生態について論じます。

There is no agreed definition of intelligence, so it is problematic to simply ask whether brains, swarms, computers, or other systems are intelligent or not. To compare the potential intelligence exhibited by different cognitive systems, I use the common approach used by artificial intelligence and artificial life: Instead of studying the substrate of systems, let us focus on their organization. This organization can be measured with information. Thus, I apply an informationist epistemology to describe cognitive systems, including brains and computers. This allows me to frame the usefulness and limitations of the brain-computer analogy in different contexts. I also use this perspective to discuss the evolution and ecology of intelligence.
翻訳日:2021-08-12 13:18:48 公開日:2021-08-09
# (参考訳) 偽物か? 南アフリカのニュースサイトにおけるニュース偽情報検出 [全文訳有]

Is it Fake? News Disinformation Detection on South African News Websites ( http://arxiv.org/abs/2108.02941v2 )

ライセンス: CC BY 4.0
Harm de Wet, Vukosi Marivate(参考訳) 偽ニュースによる偽ニュースは、我々の社会で進行中の問題であり、ソーシャルメディアで簡単に拡散している。 大量のデータをフィルタリングする最もコストと時間効率のよい方法は、人間と技術的な介入を組み合わせてそれを識別することだ。 技術的観点からは、自然言語処理(NLP)は偽ニュースの検出に広く用いられている。 ソーシャルメディア企業は、偽ニュースを識別し、ユーザーに警告するためにNLP技術を使っているが、偽ニュースはまだ発見されていない可能性がある。 これは特に(アメリカ合衆国以外で)より局所的な状況において問題となっている。 偽ニュース検出システムをどのように調整し、南アフリカのようなローカルな状況でよりうまく機能させるか。 本研究では南アフリカのウェブサイトで偽ニュースを検出する。 南アフリカの偽ニュースのデータセットをキュレートし、検出モデルをトレーニングします。 これは、広く利用可能なフェイクニュースデータセット(主に米国ウェブサイトから)を使用することとは対照的です。 また、それらを組み合わせることでデータセットをより多様にし、解釈可能な機械学習を用いて各国のフェイクニュース間での書き込みの振る舞いの違いを観察する。

Disinformation through fake news is an ongoing problem in our society and has become easily spread through social media. The most cost and time effective way to filter these large amounts of data is to use a combination of human and technical interventions to identify it. From a technical perspective, Natural Language Processing (NLP) is widely used in detecting fake news. Social media companies use NLP techniques to identify the fake news and warn their users, but fake news may still slip through undetected. It is especially a problem in more localised contexts (outside the United States of America). How do we adjust fake news detection systems to work better for local contexts such as in South Africa. In this work we investigate fake news detection on South African websites. We curate a dataset of South African fake news and then train detection models. We contrast this with using widely available fake news datasets (from mostly USA website). We also explore making the datasets more diverse by combining them and observe the differences in behaviour in writing between nations' fake news using interpretable machine learning.
翻訳日:2021-08-12 07:17:14 公開日:2021-08-09
# (参考訳) GLASS:形状空間の幾何学的潜在拡張 [全文訳有]

GLASS: Geometric Latent Augmentation for Shape Spaces ( http://arxiv.org/abs/2108.03225v2 )

ライセンス: CC BY 4.0
Sanjeev Muralikrishnan, Siddhartha Chaudhuri, Noam Aigerman, Vladimir Kim, Matthew Fisher and Niloy Mitra(参考訳) 本研究では, 非常にスパースな3次元モデルによる生成モデルの訓練の問題点について検討する。 幾何学的に動機づけられたエネルギーを用いて拡張し、サンプル(トレーニング)モデルのスパースコレクションを増強する。 本研究では,ARAP(as-rigid-as-po ssible)エネルギーのヘシアンを解析し,基礎となる(局所的な)形状空間に投射し,拡張データセットを用いて可変オートエンコーダ(VAE)のトレーニングを行う。 我々は,vaeの潜在空間の構築と関連するデータセットの拡張を繰り返すことで,幾何学的かつ意味的に有効なサンプルを作成するための,より豊かで表現力豊かな生成空間を徐々に明らかにする。 当社のフレームワークでは,高品質な3Dモデルの小さなセットであっても,生成可能な3Dモデルをトレーニングすることが可能です。 本手法は強力なベースラインに対して広範囲に評価し, アブレーション研究を行い, 形状対応の確立への応用を示す。 3~10のトレーニング形状から始めても,興味深く有意義な形状変化を示す複数の例を示す。

We investigate the problem of training generative models on a very sparse collection of 3D models. We use geometrically motivated energies to augment and thus boost a sparse collection of example (training) models. We analyze the Hessian of the as-rigid-as-possible (ARAP) energy to sample from and project to the underlying (local) shape space, and use the augmented dataset to train a variational autoencoder (VAE). We iterate the process of building latent spaces of VAE and augmenting the associated dataset, to progressively reveal a richer and more expressive generative space for creating geometrically and semantically valid samples. Our framework allows us to train generative 3D models even with a small set of good quality 3D models, which are typically hard to curate. We extensively evaluate our method against a set of strong baselines, provide ablation studies and demonstrate application towards establishing shape correspondences. We present multiple examples of interesting and meaningful shape variations even when starting from as few as 3-10 training shapes.
翻訳日:2021-08-12 06:08:06 公開日:2021-08-09
# (参考訳) 畳み込みニューラルネットワークを用いたインフルエンザヘマグルチニンタンパク質配列の分類 [全文訳有]

Classification of Influenza Hemagglutinin Protein Sequences using Convolutional Neural Networks ( http://arxiv.org/abs/2108.04240v1 )

ライセンス: CC BY 4.0
Charalambos Chrysostomou, Floris Alexandrou, Mihalis A. Nicolaou and Huseyin Seker(参考訳) インフルエンザウイルスは複数の種に感染し、しばしば宿主に致命的な影響をもたらす最も深刻なウイルスの1つと見なすことができる。 ウイルスのヘマグルチニン(ha)遺伝子は、そのサブタイプと標的宿主の正確な同定によって実現される抗ウイルス薬開発の標的となり得る。 本稿では,インフルエンザA型ウイルスが特定の宿主,具体的にはヒト,鳥,豚の宿主に感染するかどうかを,HA遺伝子のタンパク質配列のみを用いて正確に予測することに焦点を当てる。 より詳しくは、疎水性指数を用いてタンパク質配列を数値信号に符号化し、畳み込みニューラルネットワークに基づく予測モデルを活用することを提案する。 提案する研究で使用されるインフルエンザhaタンパク質配列は、インフルエンザ研究データベース(ird)から得られる。 特に、完全かつユニークなhaタンパク質配列は、鳥類、ヒト、豚の宿主に使用された。 この研究で得られたデータは、17999のヒト宿主タンパク質、17667の鳥類宿主タンパク質9278のブタ宿主タンパク質である。 得られたタンパク質の集合を考えると、提案手法は個々のクラス(すなわちAvian)に対して10%高い精度と、以前の研究よりも5%高い全体的な精度が得られる。 また,本研究における各授業の精度は,本研究で提示したものよりもバランスがとれていることも確認された。 その結果,ヒト,鳥,豚の宿主に感染するウイルスが検出された場合,HAタンパク質配列を高い精度で識別できることがわかった。

The Influenza virus can be considered as one of the most severe viruses that can infect multiple species with often fatal consequences to the hosts. The Hemagglutinin (HA) gene of the virus can be a target for antiviral drug development realised through accurate identification of its sub-types and possible the targeted hosts. This paper focuses on accurately predicting if an Influenza type A virus can infect specific hosts, and more specifically, Human, Avian and Swine hosts, using only the protein sequence of the HA gene. In more detail, we propose encoding the protein sequences into numerical signals using the Hydrophobicity Index and subsequently utilising a Convolutional Neural Network-based predictive model. The Influenza HA protein sequences used in the proposed work are obtained from the Influenza Research Database (IRD). Specifically, complete and unique HA protein sequences were used for avian, human and swine hosts. The data obtained for this work was 17999 human-host proteins, 17667 avian-host proteins and 9278 swine-host proteins. Given this set of collected proteins, the proposed method yields as much as 10% higher accuracy for an individual class (namely, Avian) and 5% higher overall accuracy than in an earlier study. It is also observed that the accuracy for each class in this work is more balanced than what was presented in this earlier study. As the results show, the proposed model can distinguish HA protein sequences with high accuracy whenever the virus under investigation can infect Human, Avian or Swine hosts.
翻訳日:2021-08-12 02:28:28 公開日:2021-08-09
# (参考訳) 高分解能T2強調MRIにおける嗅球分画の自動計測 [全文訳有]

Automated Olfactory Bulb Segmentation on High Resolutional T2-Weighted MRI ( http://arxiv.org/abs/2108.04267v1 )

ライセンス: CC BY 4.0
Santiago Estrada, Ran Lu, Kersten Diers, Weiyi Zeng, Philipp Ehses, Tony St\"ocker, Monique M.B Breteler and Martin Reuter(参考訳) 神経画像解析コミュニティは嗅覚機能において重要な役割を担っているにもかかわらず、嗅球の自動分割(ob)を無視している。 OBの自動処理方法の欠如は、その困難な性質によって説明できる。 しかし、近年のMRI取得技術と解像度の進歩により、ラッカーはより信頼性の高い手動アノテーションを生成できるようになった。 さらに,セマンティックセグメンテーション問題を解決するための深層学習手法の高精度化により,小さな構造でも確実に評価できる選択肢が得られた。 本研究では,サブミリT2重み付き(T2w)全脳MR画像上にOB組織を正確に分割する,新しい,高速かつ完全自動ディープラーニングパイプラインを提案する。 そこで我々は,(1)FastSurferCNNを用いた両方のOBを含む領域の局所化,(2)独立した4つのAttFastSurferCNNによる局所領域内のOB組織の分別化,(3)予測ラベルマップの組み立て,という3段階のパイプラインを設計した。 obパイプラインはラインランド研究の参加者203名において, 境界線画, ob局在, 容積推定の点で, 幅広い年齢にわたって高い性能を示す。 さらに、トレーニング中に遭遇しなかった独立したデータセットのスキャン、異なる取得パラメータと人口統計を持つヒューマンコネクトームプロジェクト(HCP)、ネイティブの0.7mm HCP解像度で30ケースで評価され、デフォルトの0.8mmパイプライン解像度がある。 セグメンテーションの精度だけでなく、OBボリューム効果についてもパイプラインを広範囲に検証し、年齢効果を敏感に再現できることを示した。

The neuroimage analysis community has neglected the automated segmentation of the olfactory bulb (OB) despite its crucial role in olfactory function. The lack of an automatic processing method for the OB can be explained by its challenging properties. Nonetheless, recent advances in MRI acquisition techniques and resolution have allowed raters to generate more reliable manual annotations. Furthermore, the high accuracy of deep learning methods for solving semantic segmentation problems provides us with an option to reliably assess even small structures. In this work, we introduce a novel, fast, and fully automated deep learning pipeline to accurately segment OB tissue on sub-millimeter T2-weighted (T2w) whole-brain MR images. To this end, we designed a three-stage pipeline: (1) Localization of a region containing both OBs using FastSurferCNN, (2) Segmentation of OB tissue within the localized region through four independent AttFastSurferCNN - a novel deep learning architecture with a self-attention mechanism to improve modeling of contextual information, and (3) Ensemble of the predicted label maps. The OB pipeline exhibits high performance in terms of boundary delineation, OB localization, and volume estimation across a wide range of ages in 203 participants of the Rhineland Study. Moreover, it also generalizes to scans of an independent dataset never encountered during training, the Human Connectome Project (HCP), with different acquisition parameters and demographics, evaluated in 30 cases at the native 0.7mm HCP resolution, and the default 0.8mm pipeline resolution. We extensively validated our pipeline not only with respect to segmentation accuracy but also to known OB volume effects, where it can sensitively replicate age effects.
翻訳日:2021-08-12 02:20:49 公開日:2021-08-09
# (参考訳) グラフカット最適化多平面再構成を用いた視覚SLAM [全文訳有]

Visual SLAM with Graph-Cut Optimized Multi-Plane Reconstruction ( http://arxiv.org/abs/2108.04281v1 )

ライセンス: CC BY 4.0
Fangwen Shu, Yaxu Xie, Jason Rambach, Alain Pagani, Didier Stricker(参考訳) 本稿では,インスタンス平面セグメンテーションネットワークからのキューを用いたポーズ推定とマッピングを改善する意味平面SLAMシステムを提案する。 主流のアプローチはrgb-dセンサーだが、このようなシステムを持つ単眼カメラを使うことは、ロバストなデータアソシエーションや正確な幾何学的モデルフィッティングといった課題に直面している。 既存の研究の大半では、ホモグラフィー推定やピースワイドプラナー再構成(PPR)といった幾何学的モデル推定問題は、通常、標準(グレディ)RANSACによって個別に、そして逐次的に解決される。 しかし、シーンに関する情報がない場合(即ち)、不整合閾値の設定は困難である。 規模)。 本研究では,これらの問題を再検討し,空間的コヒーレンスを利用するエネルギー関数を最小化することで2つの幾何学モデル(ホモグラフ/3次元平面)を解くことができると主張する。 グラフカット最適化では、トレーニング済みのCNNの出力が不正確な場合にも、実用的な問題に取り組むことができる。 さらに,本実験に基づく適応パラメータ設定戦略を提案し,各種オープンソースデータセットの包括的評価を報告する。

This paper presents a semantic planar SLAM system that improves pose estimation and mapping using cues from an instance planar segmentation network. While the mainstream approaches are using RGB-D sensors, employing a monocular camera with such a system still faces challenges such as robust data association and precise geometric model fitting. In the majority of existing work, geometric model estimation problems such as homography estimation and piece-wise planar reconstruction (PPR) are usually solved by standard (greedy) RANSAC separately and sequentially. However, setting the inlier-outlier threshold is difficult in absence of information about the scene (i.e. the scale). In this work, we revisit these problems and argue that two mentioned geometric models (homographies/3D planes) can be solved by minimizing an energy function that exploits the spatial coherence, i.e. with graph-cut optimization, which also tackles the practical issue when the output of a trained CNN is inaccurate. Moreover, we propose an adaptive parameter setting strategy based on our experiments, and report a comprehensive evaluation on various open-source datasets.
翻訳日:2021-08-12 02:02:22 公開日:2021-08-09
# (参考訳) 映画を見てカットを学ぶ [全文訳有]

Learning to Cut by Watching Movies ( http://arxiv.org/abs/2108.04294v1 )

ライセンス: CC BY 4.0
Alejandro Pardo, Fabian Caba Heilbron, Juan Le\'on Alc\'azar, Ali Thabet, Bernard Ghanem(参考訳) ビデオコンテンツの制作は驚異的なペースで成長を続けているが、魅力的なストーリーを作るのはまだ難しい。 多くのビデオ編集コンポーネントは、主に生のビデオ素材がないため、驚くほど自動化が難しい。 本稿では,コンピュータ映像編集における新しい課題,すなわちカットの可否をかき集めることに焦点を当てる。 私たちの重要なアイデアは、すでに編集済みのコンテンツを活用して、カットをトリガーするきめ細かいオーディオビジュアルパターンを学ぶことです。 そのために、まず10K以上のビデオのデータソースを収集し、そこから255K以上のカットを抽出しました。 コントラスト学習により,リアルカットと人工カットの区別を学習するモデルを考案する。 ビデオカット生成をベンチマークするための新しいタスクと一連のベースラインを設定しました。 我々は,提案モデルがベースラインを大きなマージンで上回っていることを観測する。 実世界の応用でモデルを実証するために、未編集ビデオのコレクションで人間の研究を行う。 その結果,本モデルでは,ランダムなベースラインや代替ベースラインよりもカットが優れていることがわかった。

Video content creation keeps growing at an incredible pace; yet, creating engaging stories remains challenging and requires non-trivial video editing expertise. Many video editing components are astonishingly hard to automate primarily due to the lack of raw video materials. This paper focuses on a new task for computational video editing, namely the task of raking cut plausibility. Our key idea is to leverage content that has already been edited to learn fine-grained audiovisual patterns that trigger cuts. To do this, we first collected a data source of more than 10K videos, from which we extract more than 255K cuts. We devise a model that learns to discriminate between real and artificial cuts via contrastive learning. We set up a new task and a set of baselines to benchmark video cut generation. We observe that our proposed model outperforms the baselines by large margins. To demonstrate our model in real-world applications, we conduct human studies in a collection of unedited videos. The results show that our model does a better job at cutting than random and alternative baselines.
翻訳日:2021-08-12 01:49:18 公開日:2021-08-09
# (参考訳) 衛星画像によるNatura 2000生息地分類のための自然数値ネットワーク

Natural Numerical Networks for Natura 2000 habitats classification by satellite images ( http://arxiv.org/abs/2108.04327v1 )

ライセンス: CC BY 4.0
Karol Mikula, Michal Kollar, Aneta A. Ozvat, Martin Ambroz, Lucia Cahojova, Ivan Jarolimek, Jozef Sibik, Maria Sibikova(参考訳) 完全グラフ上の前方拡散型の非線形偏微分方程式の数値解に基づく新しい分類アルゴリズムとして自然数値ネットワークを導入した。 提案する自然数値ネットワークは,衛星画像を用いて保護区の自動識別を行う,重要な環境・自然保護タスクに応用される。 自然数値ネットワークでは、前方拡散は特徴空間内の点同士の移動を引き起こす。 反対の効果は、ポイントを互いに遠ざけることで、後方拡散によって引き起こされる。 これは望ましい分類をもたらす。 自然数値ネットワークには,学習フェーズに最適化されたパラメータがいくつか含まれている。 パラメータを学習し、ネットワークグラフのトポロジーを最適化した後、生息地識別に必要な分類を行う。 ナツラ2000の新たな生息環境の分類と発見のためのツールとして,各生息地の関連性マップを導入した。

Natural numerical networks are introduced as a new classification algorithm based on the numerical solution of nonlinear partial differential equations of forward-backward diffusion type on complete graphs. The proposed natural numerical network is applied to open important environmental and nature conservation task, the automated identification of protected habitats by using satellite images. In the natural numerical network, the forward diffusion causes the movement of points in a feature space toward each other. The opposite effect, keeping the points away from each other, is caused by backward diffusion. This yields the desired classification. The natural numerical network contains a few parameters that are optimized in the learning phase of the method. After learning parameters and optimizing the topology of the network graph, classification necessary for habitat identification is performed. A relevancy map for each habitat is introduced as a tool for validating the classification and finding new Natura 2000 habitat appearances.
翻訳日:2021-08-12 01:29:34 公開日:2021-08-09
# (参考訳) COMPARE: ピアレビューにおける比較検討の分類とデータセット [全文訳有]

COMPARE: A Taxonomy and Dataset of Comparison Discussions in Peer Reviews ( http://arxiv.org/abs/2108.04366v1 )

ライセンス: CC BY-SA 4.0
Shruti Singh, Mayank Singh and Pawan Goyal(参考訳) 研究論文の比較は実験研究の進展を示す従来の方法である。 本稿では,実験深層学習領域の研究論文のピアレビューにおける比較,分類,比較議論のデータセットについて述べる。 大量のレビュー文の徹底的な観察から,比較議論においてカテゴリの分類を構築し,これを分析するための詳細なアノテーションスキームを提案する。 概して、1,800文をカバーする117のレビューに注釈を付けます。 ピアレビューで比較文を識別する様々な手法を試し,最大f1スコア0.49を報告する。 また,2つの言語モデル,特にml,nlp,cv論文の要約とレビューを事前学習し,ピアレビューのインフォメーション表現を学ぶ。 アノテーション付きデータセットと事前トレーニングされたモデルはhttps://github.com/s hruti-singh/COMPARE で公開されている。

Comparing research papers is a conventional method to demonstrate progress in experimental research. We present COMPARE, a taxonomy and a dataset of comparison discussions in peer reviews of research papers in the domain of experimental deep learning. From a thorough observation of a large set of review sentences, we build a taxonomy of categories in comparison discussions and present a detailed annotation scheme to analyze this. Overall, we annotate 117 reviews covering 1,800 sentences. We experiment with various methods to identify comparison sentences in peer reviews and report a maximum F1 Score of 0.49. We also pretrain two language models specifically on ML, NLP, and CV paper abstracts and reviews to learn informative representations of peer reviews. The annotated dataset and the pretrained models are available at https://github.com/s hruti-singh/COMPARE .
翻訳日:2021-08-12 01:28:36 公開日:2021-08-09
# (参考訳) RaftMLP: MLPベースのモデルはコンピュータビジョンに勝つだろうか? [全文訳有]

RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision? ( http://arxiv.org/abs/2108.04384v1 )

ライセンス: CC BY 4.0
Yuki Tatsunami and Masato Taki(参考訳) 過去10年間、コンピュータビジョンの世界ではCNNが最高位に君臨してきたが、最近はTransformerの人気が高まっている。 しかし、自己注意の二次計算コストは、実践上の深刻な問題となっている。 この文脈では、CNNと自己注意のないアーキテクチャについて多くの研究がなされている。 特に、MLP-Mixerは、MPPを用いて設計され、Vision Transformerに匹敵する精度を達成した単純なアイデアである。 しかし、このアーキテクチャにおける唯一の帰納バイアスはトークンの埋め込みである。 したがって、アーキテクチャ自体に非畳み込みの帰納バイアスを構築することが可能であり、私たちは2つの単純なアイデアを使って帰納バイアスを構築しました。 トークン混合ブロックを垂直および水平に分割する方法がある。 別の方法は、トークンミキシングのいくつかのチャネル間の空間的相関をより高めることである。 このアプローチにより,MLP-Mixerのパラメータと計算複雑性を低減し,精度を向上させることができた。 他のMLPベースのモデルと比較して、提案モデルであるRaftMLPは計算複雑性、パラメータの数、実際のメモリ使用量のバランスが良い。 さらに,本研究は,MPPモデルが誘導バイアスを採用することでCNNを置き換える可能性を示唆している。 PyTorch バージョンのソースコードは \url{https://github.com/o kojoalg/raft-mlp} で入手できる。

For the past ten years, CNN has reigned supreme in the world of computer vision, but recently, Transformer is on the rise. However, the quadratic computational cost of self-attention has become a severe problem of practice. There has been much research on architectures without CNN and self-attention in this context. In particular, MLP-Mixer is a simple idea designed using MLPs and hit an accuracy comparable to the Vision Transformer. However, the only inductive bias in this architecture is the embedding of tokens. Thus, there is still a possibility to build a non-convolutional inductive bias into the architecture itself, and we built in an inductive bias using two simple ideas. A way is to divide the token-mixing block vertically and horizontally. Another way is to make spatial correlations denser among some channels of token-mixing. With this approach, we were able to improve the accuracy of the MLP-Mixer while reducing its parameters and computational complexity. Compared to other MLP-based models, the proposed model, named RaftMLP has a good balance of computational complexity, the number of parameters, and actual memory usage. In addition, our work indicates that MLP-based models have the potential to replace CNNs by adopting inductive bias. The source code in PyTorch version is available at \url{https://github.com/o kojoalg/raft-mlp}.
翻訳日:2021-08-12 01:21:48 公開日:2021-08-09
# 変圧器による構成課題の解決

Making Transformers Solve Compositional Tasks ( http://arxiv.org/abs/2108.04378v1 )

ライセンス: Link先を確認
Santiago Onta\~{n}\'{o}n, Joshua Ainslie, Vaclav Cvicek and Zachary Fisher(参考訳) いくつかの研究は、意味解析のような多くのnlpタスクにおいて鍵となる一般化である合成を一般化するトランスフォーマーモデルがないことを報告している。 本稿では,いくつかの設計決定によるモデルへの帰納バイアスが構成一般化に大きな影響を及ぼすことを示すトランスフォーマーモデルの設計空間について検討する。 そこで本研究では,様々な構成課題において文献で報告されたよりもはるかに優れた構成を一般化し,意味解析合成一般化ベンチマーク (COGS) と文字列編集操作合成ベンチマーク (PCFG) で最新の結果が得られるトランスフォーマー構成を同定した。

Several studies have reported the inability of Transformer models to generalize compositionally, a key type of generalization in many NLP tasks such as semantic parsing. In this paper we explore the design space of Transformer models showing that the inductive biases given to the model by several design decisions significantly impact compositional generalization. Through this exploration, we identified Transformer configurations that generalize compositionally significantly better than previously reported in the literature in a diverse set of compositional tasks, and that achieve state-of-the-art results in a semantic parsing compositional generalization benchmark (COGS), and a string edit operation composition benchmark (PCFG).
翻訳日:2021-08-11 14:34:18 公開日:2021-08-09
# バッチおよびストリーミングビッグデータ統合のための汎用マルチモーダルアーキテクチャを目指して

Towards a Generic Multimodal Architecture for Batch and Streaming Big Data Integration ( http://arxiv.org/abs/2108.04343v1 )

ライセンス: Link先を確認
Siham Yousfi and Maryem Rhanoui and Dalila Chiadmi(参考訳) ビッグデータは、さまざまな異種データソースから迅速に生成される。 それらはさまざまなタイプ(テキスト、画像、ビデオ、音声)を持ち、信頼性と完全性のレベルが異なる。 大量の新興データを高速で処理する最も興味深いアーキテクチャの1つは、lambda architectureと呼ばれるものだ。 実際、バッチ層とスピード層という2つの異なる処理層を組み合わせて、それぞれがデータの特定のビューを提供し、堅牢性、高速でスケーラブルなデータ処理を保証する。 しかし、lambdaアーキテクチャを扱うほとんどの論文は、単一のデータソースによって一般的に生成される単一の種類のデータに焦点を当てている。 さらに、アーキテクチャのレイヤは独立して実装されるか、あるいは、データ信頼性と完全性の両方を評価することなく、基本的な処理を実行するために結合される。 そこで本稿では,ラムダアーキテクチャに触発されて,複数の異種ビッグデータソースから抽出された知識に基づいて,ほぼリアルタイムに完全かつグローバルで正確な洞察を構築するために,バッチ処理とストリーミング処理を組み合わせる汎用マルチモーダルアーキテクチャを提案する。 私たちのアーキテクチャでは、バッチ処理を使用してデータ構造とコンテンツを分析し、学習モデルを構築し、関連するソースの信頼性指標を算出します。 交通渋滞を検知するために,都市交通管理システムの文脈でアーキテクチャを検証する。

Big Data are rapidly produced from various heterogeneous data sources. They are of different types (text, image, video or audio) and have different levels of reliability and completeness. One of the most interesting architectures that deal with the large amount of emerging data at high velocity is called the lambda architecture. In fact, it combines two different processing layers namely batch and speed layers, each providing specific views of data while ensuring robustness, fast and scalable data processing. However, most papers dealing with the lambda architecture are focusing one single type of data generally produced by a single data source. Besides, the layers of the architecture are implemented independently, or, at best, are combined to perform basic processing without assessing either the data reliability or completeness. Therefore, inspired by the lambda architecture, we propose in this paper a generic multimodal architecture that combines both batch and streaming processing in order to build a complete, global and accurate insight in near-real-time based on the knowledge extracted from multiple heterogeneous Big Data sources. Our architecture uses batch processing to analyze the data structures and contents, build the learning models and calculate the reliability index of the involved sources, while the streaming processing uses the built-in models of the batch layer to immediately process incoming data and rapidly provide results. We validate our architecture in the context of urban traffic management systems in order to detect congestions.
翻訳日:2021-08-11 14:32:52 公開日:2021-08-09
# 説明可能なAIと敵対的攻撃に対する感受性:乳房超音波画像の分類における事例研究

Explainable AI and susceptibility to adversarial attacks: a case study in classification of breast ultrasound images ( http://arxiv.org/abs/2108.04345v1 )

ライセンス: Link先を確認
Hamza Rasaee, Hassan Rivaz(参考訳) 超音波は、不審な乳腺の結節を分類し、乳癌の発症を検出するのに便利な非侵襲的イメージングモードである。 近年,畳み込みニューラルネットワーク (cnn) が乳房の超音波像を良性または悪性に分類する有望な結果を示している。 しかし、cnn推論はブラックボックスモデルとして機能するので、その意思決定は解釈できない。 そのため、特にGRAD-CAMや他のCNNの内部動作の視覚的説明を提供する技術によって、このプロセスの説明に努力が注がれている。 解釈に加えて、これらの方法は生検や治療の場所を特定するなどの臨床的に重要な情報を提供する。 本研究では,これらの重要度マップを劇的に変えるために,実質的に検出不能な敵対的攻撃がいかに考案されたかを分析する。 さらに,この重要度マップの変更は,分類結果の変更や変更を伴わずに実現可能であることを示し,検出をさらに困難にする。 そのため、これらの重要地図を使って深層学習の内部作業に光を当てる場合には注意が必要である。 最後に,Multi-Task Learning(MTL)を用いて,ResNet-50に基づく新たなネットワークを提案する。 私たちの感度と特異性は、アート結果の状況に匹敵するものです。

Ultrasound is a non-invasive imaging modality that can be conveniently used to classify suspicious breast nodules and potentially detect the onset of breast cancer. Recently, Convolutional Neural Networks (CNN) techniques have shown promising results in classifying ultrasound images of the breast into benign or malignant. However, CNN inference acts as a black-box model, and as such, its decision-making is not interpretable. Therefore, increasing effort has been dedicated to explaining this process, most notably through GRAD-CAM and other techniques that provide visual explanations into inner workings of CNNs. In addition to interpretation, these methods provide clinically important information, such as identifying the location for biopsy or treatment. In this work, we analyze how adversarial assaults that are practically undetectable may be devised to alter these importance maps dramatically. Furthermore, we will show that this change in the importance maps can come with or without altering the classification result, rendering them even harder to detect. As such, care must be taken when using these importance maps to shed light on the inner workings of deep learning. Finally, we utilize Multi-Task Learning (MTL) and propose a new network based on ResNet-50 to improve the classification accuracies. Our sensitivity and specificity is comparable to the state of the art results.
翻訳日:2021-08-11 14:30:05 公開日:2021-08-09
# ビジネスプロセス自動化のためのLIMEの拡張

Extending LIME for Business Process Automation ( http://arxiv.org/abs/2108.04371v1 )

ライセンス: Link先を確認
Sohini Upadhyay, Vatche Isahagian, Vinod Muthusamy, Yara Rizk(参考訳) AIビジネスプロセスアプリケーションは、アルゴリズム決定の背景にある根拠を正当化したり、説明したりする需要が高まっている場合、ハイテイクなビジネス判断を自動化する。 ビジネスプロセスアプリケーションには、LIMEのような軽量でモデルに依存しない既存の説明手法が失敗するタスクや機能値の順序や制約があります。 そこで本研究では,AIビジネスプロセスアプリケーションを説明するためにLIMEを拡張した局所的な説明フレームワークを提案する。 私たちの拡張の実証的な評価は、ビジネスプロセス設定における我々のアプローチの利点を強調します。

AI business process applications automate high-stakes business decisions where there is an increasing demand to justify or explain the rationale behind algorithmic decisions. Business process applications have ordering or constraints on tasks and feature values that cause lightweight, model-agnostic, existing explanation methods like LIME to fail. In response, we propose a local explanation framework extending LIME for explaining AI business process applications. Empirical evaluation of our extension underscores the advantage of our approach in the business process setting.
翻訳日:2021-08-11 14:25:39 公開日:2021-08-09
# コンビニアルサンプルと人口の外部的妥当性

The External Validity of Combinatorial Samples and Populations ( http://arxiv.org/abs/2108.04376v1 )

ライセンス: Link先を確認
Andre F. Ribeiro(参考訳) 因果効果の「非現実的」定義は、偏見と正確さから導出され、一般化可能ではない。 本稿では,介入,反事実文,サンプルの外部妥当性(ev)の簡易定義を提案する。 本定義では, 有効性評価に対する反ファクト的アプローチ, アウト・オブ・サンプルの妥当性, 独立性の仮定や推定への依存, 多数の効果とフルモデルの同時推定, バイアス分散トレードオフ, 統計力, 省略変数, 監督・説明技術との接続などについて議論する。 方法論学的には、この定義は非実験サンプルの組合せ列挙問題によって反事実的定義に続くパラメトリックで一般に不適切な推定問題を置き換えることを可能にする。 20以上の現代的手法とシミュレーションを用いて,本手法が標準サンプル外予測,介入効果予測,因果効果推定タスクの精度向上につながることを示す。 新型コロナウイルスのパンデミックは、小さなサンプルで一般的な予測を提供するための学習ソリューションの必要性を強調した。 また,この問題に対する応用例を示す。

The widely used 'Counterfactual' definition of Causal Effects was derived for unbiasedness and accuracy - and not generalizability. We propose a simple definition for the External Validity (EV) of Interventions, Counterfactual statements and Samples. We use the definition to discuss several issues that have baffled the counterfactual approach to effect estimation: out-of-sample validity, reliance on independence assumptions or estimation, concurrent estimation of many effects and full-models, bias-variance tradeoffs, statistical power, omitted variables, and connections to supervised and explaining techniques. Methodologically, the definition also allow us to replace the parametric and generally ill-posed estimation problems that followed the counterfactual definition by combinatorial enumeration problems on non-experimental samples. We use over 20 contemporary methods and simulations to demonstrate that the approach leads to accuracy gains in standard out-of-sample prediction, intervention effect prediction and causal effect estimation tasks. The COVID19 pandemic highlighted the need for learning solutions to provide general predictions in small samples - many times with missing variables. We also demonstrate applications in this pressing problem.
翻訳日:2021-08-11 14:17:46 公開日:2021-08-09
# データセットには政治がありますか? コンピュータビジョンデータセット開発における学際的価値

Do Datasets Have Politics? Disciplinary Values in Computer Vision Dataset Development ( http://arxiv.org/abs/2108.04308v1 )

ライセンス: Link先を確認
Morgan Klaus Scheuerman, Emily Denton, Alex Hanna(参考訳) データは機械学習の重要な要素である。 フィールドはモデルをトレーニング、検証、テストするためのデータに依存しています。 技術的能力の向上に伴い、機械学習の研究は学術と産業の両方で盛んになり、コンピュータビジョンに重点が置かれている。 コンピュータビジョンは、警察の顔認識から自動運転車の物体検出まで、現実の応用にますます関心を持つ機械学習の一般的な分野である。 機械学習の研究を形作り、人間の生活に影響を与えるというコンピュータビジョンの正当性を考えると、データセットドキュメントに関する学際的なプラクティス — データをどのように収集、キュレーション、注釈付け、パッケージ化して、コンピュータビジョンの研究者や実践者がモデルチューニングと開発に使用するデータセットに組み込むか – を理解しようとしています。 具体的には、ビジョンデータの基盤となる価値と、フィールドとしてのコンピュータビジョンのより大きなプラクティスと目標について、データセットのドキュメントが何を伝えるのかを調べます。 そこで本研究では,約500個のコンピュータビジョンデータセットのコーパスを収集し,異なるビジョンタスクにまたがる114個のデータセットのパブリッシングをサンプリングした。 構造化コンテンツ分析とテーマコンテンツ分析の両方を通じて、受け入れられたデータプラクティス、望ましいデータ生成方法、データセット構築プロセスにおける人間の扱いに関する多くの価値を文書化する。 本稿では,コンピュータビジョンデータセットの作成者がケアの犠牲で効率性を評価する方法,文脈性の犠牲による普遍性,位置性犠牲での公平性,データワークの犠牲によるモデルワークについて論じる。 私たちが認識する沈黙的価値の多くは、ソーシャルコンピューティングの実践に反するものです。 最後に、沈黙した値をデータセットの作成とキュレーションプロセスにうまく組み込む方法を提案する。

Data is a crucial component of machine learning. The field is reliant on data to train, validate, and test models. With increased technical capabilities, machine learning research has boomed in both academic and industry settings, and one major focus has been on computer vision. Computer vision is a popular domain of machine learning increasingly pertinent to real-world applications, from facial recognition in policing to object detection for autonomous vehicles. Given computer vision's propensity to shape machine learning research and impact human life, we seek to understand disciplinary practices around dataset documentation - how data is collected, curated, annotated, and packaged into datasets for computer vision researchers and practitioners to use for model tuning and development. Specifically, we examine what dataset documentation communicates about the underlying values of vision data and the larger practices and goals of computer vision as a field. To conduct this study, we collected a corpus of about 500 computer vision datasets, from which we sampled 114 dataset publications across different vision tasks. Through both a structured and thematic content analysis, we document a number of values around accepted data practices, what makes desirable data, and the treatment of humans in the dataset construction process. We discuss how computer vision datasets authors value efficiency at the expense of care; universality at the expense of contextuality; impartiality at the expense of positionality; and model work at the expense of data work. Many of the silenced values we identify sit in opposition with social computing practices. We conclude with suggestions on how to better incorporate silenced values into the dataset creation and curation process.
翻訳日:2021-08-11 14:16:17 公開日:2021-08-09
# AnyoneNet:任意の人のための音声と音声の同期生成

AnyoneNet: Synchronized Speech and Talking Head Generation for arbitrary person ( http://arxiv.org/abs/2108.04325v1 )

ライセンス: Link先を確認
Xinsheng Wang, Qicong Xie, Jihua Zhu, Lei Xie, Scharenborg(参考訳) 音声合成と口唇運動が同期するビデオの自動生成は、多くの人間とコンピュータの対話シナリオにおいて大きな可能性を秘めている。 本稿では、任意の人物のテキストと1つの顔画像に基づいて、同期した音声と話し手の映像を入力として生成する自動手法を提案する。 特定の人の声のみを合成できる従来のテキスト駆動音声ヘッド生成法とは対照的に,提案手法は訓練段階においてアクセシブルな人なら誰でも音声を合成することができる。 具体的には,tts(text-to-speech) ステージと音声駆動型音声ヘッド生成ステージの2段階に分類した。 提案するTTSモジュールは,音声の代わりに話者識別情報を話者画像から取得し,入力された顔画像に基づいてパーソナライズされた音声を合成する,顔条件付きマルチスピーカTSモデルである。 顔画像から音声ヘッドビデオを生成するために,唇の動きと頭部回転の両方を予測する顔ランドマークに基づく手法を提案する。 広汎な実験により,提案手法は任意の人や非人に対して,同期音声と音声ヘッドビデオを生成することができることを示した。 合成音声は、合成音声の音色および画像の外観に関する所定の顔と一致し、提案するランドマークに基づく発話ヘッド法は、自然発話ヘッドビデオを生成するための最先端のランドマークベース手法よりも優れる。

Automatically generating videos in which synthesized speech is synchronized with lip movements in a talking head has great potential in many human-computer interaction scenarios. In this paper, we present an automatic method to generate synchronized speech and talking-head videos on the basis of text and a single face image of an arbitrary person as input. In contrast to previous text-driven talking head generation methods, which can only synthesize the voice of a specific person, the proposed method is capable of synthesizing speech for any person that is inaccessible in the training stage. Specifically, the proposed method decomposes the generation of synchronized speech and talking head videos into two stages, i.e., a text-to-speech (TTS) stage and a speech-driven talking head generation stage. The proposed TTS module is a face-conditioned multi-speaker TTS model that gets the speaker identity information from face images instead of speech, which allows us to synthesize a personalized voice on the basis of the input face image. To generate the talking head videos from the face images, a facial landmark-based method that can predict both lip movements and head rotations is proposed. Extensive experiments demonstrate that the proposed method is able to generate synchronized speech and talking head videos for arbitrary persons and non-persons. Synthesized speech shows consistency with the given face regarding to the synthesized voice's timbre and one's appearance in the image, and the proposed landmark-based talking head method outperforms the state-of-the-art landmark-based method on generating natural talking head videos.
翻訳日:2021-08-11 14:15:46 公開日:2021-08-09
# 脳活動から音楽と生成アートを生成する

Generating Music and Generative Art from Brain activity ( http://arxiv.org/abs/2108.04316v1 )

ライセンス: Link先を確認
Ricardo Andres Diaz-Rincon(参考訳) 今日、技術進歩は全ての人間の活動に影響を与え、新しいダイナミクスとコミュニケーションの方法を生み出している。 この文脈において、一部の芸術家はこれらの進歩を創造的プロセスに取り入れ、文学で「生成的芸術」として言及される独特の美的表現を生み出し、創造的プロセスの一部を特定の自律性を持つシステムに割り当てることによって特徴付けられる(galanter, 2003)。 本研究は,BCI(Brain-Computer Interface)を用いて,デジタルアートワークにおけるユーザの脳活動を表す生成アートを作成する計算システムを提案する。 このようにして、ユーザは創造プロセスにおいてアクティブな役割を担います。 視覚的, 音的表現により, ユーザの精神状態の芸術的部分において, 提案するシステムが実現可能であることを示すため, BCI装置が送信したデータの信頼性を確保するために, いくつかのテストを実施した。 生成されたアートワークは、脳の信号と幾何学、色、空間的位置の概念を使って、自律的な構成を複雑にします。 付加価値として、視覚及び聴覚の産生には、多モード通信キャラクタを提供する芸術作品を補完する嗅覚及び審美成分が伴う。

Nowadays, technological advances have influenced all human activities, creating new dynamics and ways of communication. In this context, some artists have incorporated these advances in their creative process, giving rise to unique aesthetic expressions referred to in the literature as Generative Art, which is characterized by assigning part of the creative process to a system that acts with certain autonomy (Galanter, 2003). This research work introduces a computational system for creating generative art using a Brain-Computer Interface (BCI) which portrays the user's brain activity in a digital artwork. In this way, the user takes an active role in the creative process. In aims of showing that the proposed system materializes in an artistic piece the user's mental states by means of a visual and sound representation, several tests are carried out to ensure the reliability of the BCI device sent data. The generated artwork uses brain signals and concepts of geometry, color and spatial location to give complexity to the autonomous construction. As an added value, the visual and auditory production is accompanied by an olfactory and kinesthetic component which complements the art pieces providing a multimodal communication character.
翻訳日:2021-08-11 14:14:32 公開日:2021-08-09
# ACE: ペアワイズ接続性の統計解析のための新しいアプローチ

ACE: A Novel Approach for the Statistical Analysis of Pairwise Connectivity ( http://arxiv.org/abs/2108.04289v1 )

ライセンス: Link先を確認
Krempl, Georg and Kottke, Daniel and Pham Minh, Tuan(参考訳) イベントストリーム間の相関を分析することは重要な問題である。 例えば神経科学では、ニューロンの接続はニューロンの個々のスパイク活動を記録するスパイクトレインから推測されるべきである。 近年,遅延シナプス接続を推定する手法が提案されているが,処理可能なコネクティビティや遅延のタイプや計算集約的な手順は限られている。 本稿では, スパイク事象(ace)における接続性分析のための統計的アプローチとして, 仮説テストの考え方に基づいた, 遅延相関アクティビティの分析を, より高速かつ柔軟に行う手法を提案する。 まず、ソースとターゲットニューロンの任意のペアを計算し、その後のソースとターゲットのスパイク間の遅延を計算します。 すると、これは \emph{uncorrelated}~neurons のスパイク間遅延分布の null モデルから導かれる。 最後に、観測されたスパイク間遅延の分布をこのヌルモデルと比較し、ピアソンのChi-squaredテスト統計に基づいてペア接続を推定する。 このように、ACEは、未知の非離散的(そして潜在的に大きな)スパイク間遅延との接続を検知することができる。 ACEは漸進的に機能するため、オンライン処理で使用される可能性がある。 実験では,異なる実験シナリオ(特別な場合を除く)におけるACEの利点と,最も現実的な条件下での神経科学研究のために生成された最先端のデータセットを可視化した。

Analysing correlations between streams of events is an important problem. It arises for example in Neurosciences, when the connectivity of neurons should be inferred from spike trains that record neurons' individual spiking activity. While recently some approaches for inferring delayed synaptic connections have been proposed, they are limited in the types of connectivities and delays they are able to handle, or require computation-intensiv e procedures. This paper proposes a faster and more flexible approach for analysing such delayed correlated activity: a statistical approach for the Analysis of Connectivity in spiking Events (ACE), based on the idea of hypothesis testing. It first computes for any pair of a source and a target neuron the inter-spike delays between subsequent source- and target-spikes. Then, it derives a null model for the distribution of inter-spike delays for \emph{uncorrelated}~neurons. Finally, it compares the observed distribution of inter-spike delays to this null model and infers pairwise connectivity based on the Pearson's Chi-squared test statistic. Thus, ACE is capable to detect connections with a priori unknown, non-discrete (and potentially large) inter-spike delays, which might vary between pairs of neurons. Since ACE works incrementally, it has potential for being used in online processing. In our experiments, we visualise the advantages of ACE in varying experimental scenarios (except for one special case) and in a state-of-the-art dataset which has been generated for neuro-scientific research under most realistic conditions.
翻訳日:2021-08-11 14:12:25 公開日:2021-08-09
# ChemiRise:データ駆動レトロシンセシスエンジン

ChemiRise: a data-driven retrosynthesis engine ( http://arxiv.org/abs/2108.04682v1 )

ライセンス: Link先を確認
Xiangyan Sun, Ke Liu, Yuquan Lin, Lingjie Wu, Haoming Xing, Minghong Gao, Ji Liu, Suocheng Tan, Zekun Ni, Qi Han, Junqiu Wu, Jie Fan(参考訳) 我々は,有機化合物の完全再合成経路を迅速かつ確実に提案できる,ChemiRiseというエンドツーエンドのレトロ合成システムを開発した。 このシステムは300万以上の有機反応の処理された特許データベースで訓練された。 実験反応は、原子マップ、クラスター化、反応テンプレートに抽出された。 そこで我々は,テンプレート埋め込みを用いたグラフ畳み込みニューラルネットワークを用いたワンステップ反応提案器を訓練し,化学化合物の有向非環状グラフ(DAG)を導出するアルゴリズムを開発した。 原子マッピングアルゴリズムとワンステップ反応提案器を以前の研究と比較し,より良い結果を得た。 最終製品は、人間の専門家によってレビューされ評価されたレトロシンセシスルートによって実証され、機能の充実と実際のユースケースでの生産性向上の可能性を示した。

We have developed an end-to-end, retrosynthesis system, named ChemiRise, that can propose complete retrosynthesis routes for organic compounds rapidly and reliably. The system was trained on a processed patent database of over 3 million organic reactions. Experimental reactions were atom-mapped, clustered, and extracted into reaction templates. We then trained a graph convolutional neural network-based one-step reaction proposer using template embeddings and developed a guiding algorithm on the directed acyclic graph (DAG) of chemical compounds to find the best candidate to explore. The atom-mapping algorithm and the one-step reaction proposer were benchmarked against previous studies and showed better results. The final product was demonstrated by retrosynthesis routes reviewed and rated by human experts, showing satisfying functionality and a potential productivity boost in real-life use cases.
翻訳日:2021-08-11 14:10:36 公開日:2021-08-09
# (参考訳) PASS:顔認識におけるバイアス軽減のための属性抑制システム

PASS: Protected Attribute Suppression System for Mitigating Bias in Face Recognition ( http://arxiv.org/abs/2108.03764v1 )

ライセンス: CC BY 4.0
Prithviraj Dhar, Joshua Gleason, Aniket Roy, Carlos D. Castillo, Rama Chellappa(参考訳) 顔認識ネットワークは、識別分類の訓練中に機密属性に関する情報を符号化する。 このようなエンコーディングには2つの大きな問題がある: (a) 顔表現をプライバシー漏洩の影響を受けやすくする(b) 顔認識におけるバイアスに寄与するように見える。 しかし、既存のバイアス緩和アプローチは一般的にエンドツーエンドのトレーニングを必要とし、高い精度を達成できない。 そこで本研究では,'protected attribute suppression system (pass)'と呼ばれる記述子ベースの逆バイアス回避手法を提案する。 PASSは、以前に訓練されたハイパフォーマンスネットワークから得られた記述子を使って、アイデンティティを分類し、機密属性のエンコーディングを同時に削減することができる。 これにより、エンドツーエンドのトレーニングが不要になる。 PASSの構成要素として,ネットワークが保護属性情報をエンコードすることを妨げる新たな差別化学習戦略を提案する。 本稿では,Arcface などのSOTA 顔認識ネットワークから,ディスクリプタにおける性別やスキントーン情報を減らすためのPASSの有効性を示す。 その結果、PASS記述子は、高い検証精度を維持しながら、IJB-Cデータセットの性別やスキントンバイアスを減らすことで、既存のベースラインよりも優れていた。

Face recognition networks encode information about sensitive attributes while being trained for identity classification. Such encoding has two major issues: (a) it makes the face representations susceptible to privacy leakage (b) it appears to contribute to bias in face recognition. However, existing bias mitigation approaches generally require end-to-end training and are unable to achieve high verification accuracy. Therefore, we present a descriptor-based adversarial de-biasing approach called `Protected Attribute Suppression System (PASS)'. PASS can be trained on top of descriptors obtained from any previously trained high-performing network to classify identities and simultaneously reduce encoding of sensitive attributes. This eliminates the need for end-to-end training. As a component of PASS, we present a novel discriminator training strategy that discourages a network from encoding protected attribute information. We show the efficacy of PASS to reduce gender and skintone information in descriptors from SOTA face recognition networks like Arcface. As a result, PASS descriptors outperform existing baselines in reducing gender and skintone bias on the IJB-C dataset, while maintaining a high verification accuracy.
翻訳日:2021-08-11 04:04:45 公開日:2021-08-09
# (参考訳) 不完全な観察を行うレストレスバンドのWhittle Index [全文訳有]

Whittle Index for A Class of Restless Bandits with Imperfect Observations ( http://arxiv.org/abs/2108.03812v1 )

ライセンス: CC BY 4.0
Keqin Liu and Ting Wu(参考訳) 本稿では,確率的最適化,強化学習,運用研究において幅広い応用領域を見出す,restless bandit問題の一クラスについて考察する。 我々のモデルでは、独立な2ドル状態のマルコフプロセスがあり、それを観察し、報酬を得るためにアクセスすることができる。 観測はエラーを起こしやすいため、誤報と誤検知の両方が起こる可能性がある。 さらに、ユーザーは各離散時間に観察するために$M~(M<N)$プロセスのサブセットしか選択できない。 状態~1$のプロセスが正しく観察された場合、何らかの報酬が与えられる。 部分的かつ不完全な観測モデルにより、このシステムは無数濃度の情報状態空間を持つレスレスマルチアームバンディット問題として定式化される。 有限状態空間のレスレスバンディット問題は一般にPSPACE-HARDである。 本稿では,このタイプのrestレスバンディットに対して強力な性能を実現するための低複雑度アルゴリズムを提案する。 ある条件下では、Whittle指数の存在(インデクサビリティ)とアルゴリズムに対する同値性を理論的に証明する。 これらの条件が成立しない場合,数値実験によりアルゴリズムの最適に近い性能を示す。

We consider a class of restless bandit problems that finds a broad application area in stochastic optimization, reinforcement learning and operations research. In our model, there are $N$ independent $2$-state Markov processes that may be observed and accessed for accruing rewards. The observation is error-prone, i.e., both false alarm and miss detection may happen. Furthermore, the user can only choose a subset of $M~(M<N)$ processes to observe at each discrete time. If a process in state~$1$ is correctly observed, then it will offer some reward. Due to the partial and imperfect observation model, the system is formulated as a restless multi-armed bandit problem with an information state space of uncountable cardinality. Restless bandit problems with finite state spaces are PSPACE-HARD in general. In this paper, we establish a low-complexity algorithm that achieves a strong performance for this class of restless bandits. Under certain conditions, we theoretically prove the existence (indexability) of Whittle index and its equivalence to our algorithm. When those conditions do not hold, we show by numerical experiments the near-optimal performance of our algorithm in general.
翻訳日:2021-08-11 04:03:47 公開日:2021-08-09
# (参考訳) p-wae : 異常スクリーニングのための一般化パッチwassersteinオートエンコーダ [全文訳有]

P-WAE: Generalized Patch-Wasserstein Autoencoder for Anomaly Screening ( http://arxiv.org/abs/2108.03815v1 )

ライセンス: CC BY 4.0
Yurong Chen(参考訳) 検査者の作業量を軽減し、製品の品質を向上させるため、コンピュータビジョンベースの異常検出(AD)技術は、現実の産業シナリオに徐々に展開される。 最近の異常解析ベンチマークは生成モデルに進歩している。 その目的は、欠陥のない分布をモデル化し、異常を分散サンプルとして分類することにある。 それにもかかわらず、研究者と展開担当者が優先順位を付ける必要がある2つの不穏な要因がある: (i) 限定的な表現能力をもたらす単純化された事前潜在分布; (ii) 崩壊した相互依存的特徴が一般化を損なう。 本稿では,これらの課題を解決するために,Patch-wise Wasserstein AutoEncoder (P-WAE)アーキテクチャを提案する。 特に、ジグソーパズルの解法と結合したパッチワイド変分推論モデルが設計され、これは潜在多様体の表現性や複雑性を高めるための単純かつ効果的な方法である。 これにより、ぼやけた再建の問題が軽減される。 さらに、過正規化表現を制限するために、Hilbert-Schmidt Independence Criterion (HSIC)ボトルネックを導入する。 MVTec ADデータセットを用いた総合的な実験は、我々のプロポの優れた性能を示す。

To mitigate the inspector's workload and improve the quality of the product, computer vision-based anomaly detection (AD) techniques are gradually deployed in real-world industrial scenarios. Recent anomaly analysis benchmarks progress to generative models. The aim is to model the defect-free distribution so that anomalies can be classified as out-of-distribution samples. Nevertheless, there are two disturbing factors that need researchers and deployers to prioritize: (i) the simplistic prior latent distribution inducing limited expressive capability; (ii) the collapsed mutual-dependent features resulting in poor generalization. In this paper, we propose a novel Patch-wise Wasserstein AutoEncoder (P-WAE) architecture to alleviate those challenges. In particular, a patch-wise variational inference model coupled with solving the jigsaw puzzle is designed, which is a simple yet effective way to increase the expressiveness and complexity of the latent manifold. This alleviates the blurry reconstruction problem. In addition, the Hilbert-Schmidt Independence Criterion (HSIC) bottleneck is introduced to constrain the over-regularization representation. Comprehensive experiments, conducted on the MVTec AD dataset, demonstrate the superior performance of our propo
翻訳日:2021-08-11 03:37:50 公開日:2021-08-09
# (参考訳) ペルシア語音声認識におけるDeep Convolutional Maxout Neural Networkを用いた時間周波数定位 [全文訳有]

Time-Frequency Localization Using Deep Convolutional Maxout Neural Network in Persian Speech Recognition ( http://arxiv.org/abs/2108.03818v1 )

ライセンス: CC BY 4.0
Arash Dehghani, Seyyed Ali Seyyedsalehi(参考訳) 本稿では,asr音響モデルにおける音声信号情報の時間周波数定位のためのcnnに基づく構造を提案する。 いくつかの哺乳類の聴覚ニューロン系における受容野の時間周波数柔軟性は認識性能を向上させることが研究で示されている。 バイオシステムは高い効率と性能のために多くの人工システムに影響を与えたため、時間周波数の局在化はシステム性能を改善するために広く用いられている。 近年,TDNN,CNN,LSTM-RNNなどの手法の空間不変性を利用したASRシステムにおける時間周波数情報のローカライズに多くの研究がなされている。 しかし、これらのモデルの多くは大きなパラメータボリュームを持ち、トレーニングが難しい。 TFCMNN (Time-Frequency Convolutional Maxout Neural Network) と呼ばれる構造では、1次元の重み共有を持つ2つの並列ブロックが同時に適用されるが、特徴ベクトルには独立して適用される。 そして、その出力を連結化し、完全に接続されたMaxoutネットワークに適用して分類する。 この構造の性能を向上させるために,新たに開発されたmaxout,dropout,weigh t normalizationなどの手法とモデルを用いた。 従来の1D-CMNNモデルと比較して,2つの実験セットをペルシア語FARSDAT音声データセット上に設計,実装した。 実験結果によると、TFCMNNモデルの平均認識スコアは従来のモデルの平均よりも約1.6%高い。 さらに,TFCMNNモデルの平均トレーニング時間は,従来のモデルの平均トレーニング時間よりも約17時間低い。 その結果、他の文献で述べたように、ASRシステムにおける時間周波数のローカライゼーションはシステムの精度を高め、モデルのトレーニングプロセスを高速化する。

In this paper, a CNN-based structure for time-frequency localization of audio signal information in the ASR acoustic model is proposed for Persian speech recognition. Research has shown that the receptive fields' time-frequency flexibility in some mammals' auditory neurons system improves recognition performance. Biosystems have inspired many artificial systems because of their high efficiency and performance, so time-frequency localization has been used extensively to improve system performance. In the last few years, much work has been done to localize time-frequency information in ASR systems, which has used the spatial immutability properties of methods such as TDNN, CNN and LSTM-RNN. However, most of these models have large parameter volumes and are challenging to train. In the structure we have designed, called Time-Frequency Convolutional Maxout Neural Network (TFCMNN), two parallel blocks consisting of 1D-CMNN each have weight sharing in one dimension, are applied simultaneously but independently to the feature vectors. Then their output is concatenated and applied to a fully connected Maxout network for classification. To improve the performance of this structure, we have used newly developed methods and models such as the maxout, Dropout, and weight normalization. Two experimental sets were designed and implemented on the Persian FARSDAT speech data set to evaluate the performance of this model compared to conventional 1D-CMNN models. According to the experimental results, the average recognition score of TFCMNN models is about 1.6% higher than the average of conventional models. In addition, the average training time of the TFCMNN models is about 17 hours lower than the average training time of traditional models. As a result, as mentioned in other references, time-frequency localization in ASR systems increases system accuracy and speeds up the model training process.
翻訳日:2021-08-11 03:14:48 公開日:2021-08-09
# (参考訳) distillpose: 補助学習による軽量カメラ定位 [全文訳有]

DistillPose: Lightweight Camera Localization Using Auxiliary Learning ( http://arxiv.org/abs/2108.03819v1 )

ライセンス: CC BY 4.0
Yehya Abouelnaga, Mai Bui and Slobodan Ilic(参考訳) RGB画像から6DOFカメラのポーズを予測するための軽量な検索ベースパイプラインを提案する。 私たちのパイプラインでは、クエリ画像を特徴ベクトルとしてエンコードするために畳み込みニューラルネットワーク(cnn)を使用します。 一番近い隣人のルックアップは、ポーズワイドのデータベースイメージを見つける。 シアム畳み込みニューラルネットワークは、近隣のデータベース画像からクエリ画像への相対的なポーズを後退させる。 次に、近接する絶対ポーズに相対ポーズを適用し、クエリ画像の最終絶対ポーズ予測を得る。 本モデルはnn-netの蒸留版であり, パラメータを98.87%, 情報検索特徴ベクトルサイズを87.5%, 推定時間を89.18%削減した。

We propose a lightweight retrieval-based pipeline to predict 6DOF camera poses from RGB images. Our pipeline uses a convolutional neural network (CNN) to encode a query image as a feature vector. A nearest neighbor lookup finds the pose-wise nearest database image. A siamese convolutional neural network regresses the relative pose from the nearest neighboring database image to the query image. The relative pose is then applied to the nearest neighboring absolute pose to obtain the query image's final absolute pose prediction. Our model is a distilled version of NN-Net that reduces its parameters by 98.87%, information retrieval feature vector size by 87.5%, and inference time by 89.18% without a significant decrease in localization accuracy.
翻訳日:2021-08-11 02:55:20 公開日:2021-08-09
# (参考訳) ロバストで汎用的な医用画像セグメンテーションフレームワークを目指して [全文訳有]

Towards to Robust and Generalized Medical Image Segmentation Framework ( http://arxiv.org/abs/2108.03823v1 )

ライセンス: CC BY 4.0
Yurong Chen(参考訳) 放射線技師の作業量を軽減するため、医療画像のレビューと分析を行うコンピュータ支援診断が徐々に展開される。 ディープラーニングに基づく関心セグメンテーションの領域は、最もエキサイティングなユースケースのひとつだ。 しかし、このパラダイムは頑健さと一般化が不十分なため、実世界の臨床応用で制限されている。 問題は、トレーニングデータの欠如により、より邪悪である。 本稿では,表現学習の観点からの課題に対処する。 本研究は,ロバスト性や一般化を損なう主な要因の1つとして,崩壊した表現を転送学習によって回避できることを示す。 そこで本稿では,ロバストな一般化セグメンテーションのための新しい2段階フレームワークを提案する。 特に、非教師付きタイル指向オートエンコーダ(t-ae)プリトレーニングアーキテクチャは、下流タスクの一般化と堅牢性を改善する意味のある表現を学ぶために作られた。 さらに、学習知識をセグメント化ベンチマークに転送する。 画像再構成ネットワークと組み合わせることで、表現はデコードされ続け、モデルがよりセマンティックな特徴を捉えるように促す。 複数胸部x線データを用いた肺分画実験を行った。 実験的な実験結果から,特に限られたトレーニングデータのシナリオ下では,非表示領域に対するフレームワークの高度な一般化能力が,高い性能と汚損に対する堅牢性で実証された。

To mitigate the radiologist's workload, computer-aided diagnosis with the capability to review and analyze medical images is gradually deployed. Deep learning-based region of interest segmentation is among the most exciting use cases. However, this paradigm is restricted in real-world clinical applications due to poor robustness and generalization. The issue is more sinister with a lack of training data. In this paper, we address the challenge from the representation learning point of view. We investigate that the collapsed representations, as one of the main reasons which caused poor robustness and generalization, could be avoided through transfer learning. Therefore, we propose a novel two-stage framework for robust generalized segmentation. In particular, an unsupervised Tile-wise AutoEncoder (T-AE) pretraining architecture is coined to learn meaningful representation for improving the generalization and robustness of the downstream tasks. Furthermore, the learned knowledge is transferred to the segmentation benchmark. Coupled with an image reconstruction network, the representation keeps to be decoded, encouraging the model to capture more semantic features. Experiments of lung segmentation on multi chest X-ray datasets are conducted. Empirically, the related experimental results demonstrate the superior generalization capability of the proposed framework on unseen domains in terms of high performance and robustness to corruption, especially under the scenario of the limited training data.
翻訳日:2021-08-11 02:36:00 公開日:2021-08-09
# (参考訳) AA-RMVSNet:Adaptive Aggregation Recurrent Multi-view Stereo Network [全文訳有]

AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network ( http://arxiv.org/abs/2108.03824v1 )

ライセンス: CC BY 4.0
Zizhuang Wei, Qingtian Zhu, Chen Min, Yisong Chen and Guoping Wang(参考訳) 本稿では,アダプティブアグリゲーション(AA-RMVSNet)を備えた長寿命メモリ(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。 まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを導入する。 複雑なシーンにおけるオクルージョンの変化の難しさを克服するために,全ビュー間でより適合したペアを保存できる適応型画素別ビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。 2つのアダプティブアグリゲーションモジュールは3次元再構成の精度と完全性を改善するために軽量で効果的で相補的である。 従来の3次元CNNの代わりに,高分解能再構成とより微細な仮説平面スイープを実現するために,繰り返し構造を持つハイブリッドネットワークを利用する。 提案するネットワークはエンドツーエンドで訓練され,様々なデータセット上で優れた性能を発揮する。 タンクとテンプルのベンチマークの全ての提出物のうち、$1^{st} をランク付けし、強力な一般化性と堅牢性を示すDTUデータセットの競争結果を達成する。 このメソッドの実装はhttps://github.com/q t-zhu/aa-rmvsnetで利用可能である。

In this paper, we present a novel recurrent multi-view stereo network based on long short-term memory (LSTM) with adaptive aggregation, namely AA-RMVSNet. We firstly introduce an intra-view aggregation module to adaptively extract image features by using context-aware convolution and multi-scale aggregation, which efficiently improves the performance on challenging regions, such as thin objects and large low-textured surfaces. To overcome the difficulty of varying occlusion in complex scenes, we propose an inter-view cost volume aggregation module for adaptive pixel-wise view aggregation, which is able to preserve better-matched pairs among all views. The two proposed adaptive aggregation modules are lightweight, effective and complementary regarding improving the accuracy and completeness of 3D reconstruction. Instead of conventional 3D CNNs, we utilize a hybrid network with recurrent structure for cost volume regularization, which allows high-resolution reconstruction and finer hypothetical plane sweep. The proposed network is trained end-to-end and achieves excellent performance on various datasets. It ranks $1^{st}$ among all submissions on Tanks and Temples benchmark and achieves competitive results on DTU dataset, which exhibits strong generalizability and robustness. Implementation of our method is available at https://github.com/Q T-Zhu/AA-RMVSNet.
翻訳日:2021-08-11 02:01:11 公開日:2021-08-09
# (参考訳) bobとaliceがバーに行く:確率的プログラムで未来を推論する [全文訳有]

Bob and Alice Go to a Bar: Reasoning About Future With Probabilistic Programs ( http://arxiv.org/abs/2108.03834v1 )

ライセンス: CC BY 4.0
David Tolpin and Tomer Dobkin(参考訳) エージェントの好みは決定論的ではなく、確率的に指定すべきである。 確率的嗜好による推論としてのプランニングは、エージェントの振る舞いを自然に記述し、報酬の導入や行動の指数的重み付けを必要とせず、ベイズ統計の確固たる基礎を用いてエージェントを推論することができる。 確率条件付けは確率的嗜好を持つエージェントの背後にある形式主義である。

Agent preferences should be specified stochastically rather than deterministically. Planning as inference with stochastic preferences naturally describes agent behaviors, does not require introducing rewards and exponential weighing of behaviors, and allows to reason about agents using the solid foundation of Bayesian statistics. Stochastic conditioning is the formalism behind agents with stochastic preferences.
翻訳日:2021-08-11 01:44:34 公開日:2021-08-09
# (参考訳) IWSLT 2021評価のためのHW-TSCのオフライン音声翻訳システム [全文訳有]

The HW-TSC's Offline Speech Translation Systems for IWSLT 2021 Evaluation ( http://arxiv.org/abs/2108.03845v1 )

ライセンス: CC BY 4.0
Minghan Wang, Yuxia Wang, Chang Su, Jiaxin Guo, Yingtao Zhang, Yujia Liu, Min Zhang, Shimin Tao, Xingshan Zeng, Liangyou Li, Hao Yang, Ying Qin(参考訳) 本稿では,IWSLT-2021オフライン音声翻訳タスクの取り組みについて述べる。 本システムは,話者ダイアリゼーションモジュール,自動音声認識(ASR)モジュール,機械翻訳(MT)モジュールを含むカスケード形式で構築された。 Lium SpkDiarizationツールを直接ダイアリゼーションモジュールとして使用します。 ASRモジュールは、修正されたTransformerエンコーダを使用して、異なるソースからの3つのASRデータセットで、マルチソーストレーニングによってトレーニングされる。 MTモジュールは大規模なWMTニュース翻訳データセットで事前訓練され、TEDコーパスで微調整される。 本手法は2021年のテストセットで24.6 BLEUスコアを達成する。

This paper describes our work in participation of the IWSLT-2021 offline speech translation task. Our system was built in a cascade form, including a speaker diarization module, an Automatic Speech Recognition (ASR) module and a Machine Translation (MT) module. We directly use the LIUM SpkDiarization tool as the diarization module. The ASR module is trained with three ASR datasets from different sources, by multi-source training, using a modified Transformer encoder. The MT module is pretrained on the large-scale WMT news translation dataset and fine-tuned on the TED corpus. Our method achieves 24.6 BLEU score on the 2021 test set.
翻訳日:2021-08-11 01:32:22 公開日:2021-08-09
# (参考訳) ニュースメディアにおける政治的視点検出の知識グラフ化 [全文訳有]

Knowledge Graph Augmented Political Perspective Detection in News Media ( http://arxiv.org/abs/2108.03861v1 )

ライセンス: CC BY-SA 4.0
Shangbin Feng, Zilong Chen, Qingyao Li, Minnan Luo(参考訳) ニュースメディアにおける政治的視点の特定は、政治的論評の急速な成長とますます分極化されたイデオロギーのために重要な課題となっている。 従来のアプローチでは、意味情報を活用することのみに集中し、個人が政治的スタンスを理解するのに役立つ、豊かな社会的・政治的文脈を排除した。 本稿では,現実世界の政治の外部知識を取り入れた視点検出手法を提案する。 具体的には、1,071の実体と10,703のトリプルを持つ現代政治知識グラフを構築する。 次に,論文の意味論と知識グラフの外部知識を共同でモデル化する異種情報ネットワークを構築した。 最後に、ゲート付き関係グラフ畳み込みネットワークを適用し、グラフレベルの分類として政治的視点検出を行う。 大規模な実験により,本手法は最高の性能を達成し,最先端の手法よりも5.49倍高い性能を示した。 多くのアブレーション研究は、外部知識の必要性と、グラフベースのアプローチの有効性をさらに強調している。

Identifying political perspective in news media has become an important task due to the rapid growth of political commentary and the increasingly polarized ideologies. Previous approaches only focus on leveraging the semantic information and leaves out the rich social and political context that helps individuals understand political stances. In this paper, we propose a perspective detection method that incorporates external knowledge of real-world politics. Specifically, we construct a contemporary political knowledge graph with 1,071 entities and 10,703 triples. We then build a heterogeneous information network for each news document that jointly models article semantics and external knowledge in knowledge graphs. Finally, we apply gated relational graph convolutional networks and conduct political perspective detection as graph-level classification. Extensive experiments show that our method achieves the best performance and outperforms state-of-the-art methods by 5.49\%. Numerous ablation studies further bear out the necessity of external knowledge and the effectiveness of our graph-based approach.
翻訳日:2021-08-11 01:24:27 公開日:2021-08-09
# (参考訳) transforensics: 密着した自己着脱を伴う画像偽造 [全文訳有]

TransForensics: Image Forgery Localization with Dense Self-Attention ( http://arxiv.org/abs/2108.03871v1 )

ライセンス: CC BY 4.0
Jing Hao and Zhixin Zhang and Shicai Yang and Di Xie and Shiliang Pu(参考訳) 最近の高度な画像編集ツールや技術技術は、改ざんされた画像をよりリアルに生成し、画像法医学システムを容易に回避し、画像の真正性検証を困難にする。 この課題に対処するために,トランスフォーマーにインスパイアされた新しい画像フォージェリローカライゼーション手法であるTransForensicsを導入する。 フレームワークの主要な2つのコンポーネントは、密集自己アテンションエンコーダと密集補正モジュールである。 前者はグローバルコンテキストと異なるスケールでのローカルパッチ間のすべてのペアワイズインタラクションをモデル化することであり、後者は隠れたレイヤの透明性を改善し、異なるブランチからの出力を修正するために使用される。 従来の学習法や深層学習法と比較して、TransForensicsは識別表現をキャプチャし、高品質なマスク予測を得るだけでなく、型やパッチシーケンス順序の調整によって制限される。 主要なベンチマーク実験により、TransForensicsは最先端の手法よりも大きなマージンで優れていることを示す。

Nowadays advanced image editing tools and technical skills produce tampered images more realistically, which can easily evade image forensic systems and make authenticity verification of images more difficult. To tackle this challenging problem, we introduce TransForensics, a novel image forgery localization method inspired by Transformers. The two major components in our framework are dense self-attention encoders and dense correction modules. The former is to model global context and all pairwise interactions between local patches at different scales, while the latter is used for improving the transparency of the hidden layers and correcting the outputs from different branches. Compared to previous traditional and deep learning methods, TransForensics not only can capture discriminative representations and obtain high-quality mask predictions but is also not limited by tampering types and patch sequence orders. By conducting experiments on main benchmarks, we show that TransForensics outperforms the stateof-the-art methods by a large margin.
翻訳日:2021-08-11 01:09:14 公開日:2021-08-09
# (参考訳) エンティティスタンス予測のための不均一な社会的・政治的文脈の符号化 [全文訳有]

Encoding Heterogeneous Social and Political Context for Entity Stance Prediction ( http://arxiv.org/abs/2108.03881v1 )

ライセンス: CC BY-SA 4.0
Shangbin Feng, Zilong Chen, Peisheng Yu, Minnan Luo(参考訳) 政治的スタンスの検出は、政治的イデオロギーの分極化によって重要な課題となっている。 既存の作品のほとんどは、ニュース記事やソーシャルメディア投稿の視点を特定することに集中しているが、個人や組織といった社会団体はこれらのテキストを作成し、実際にスタンスを取る。 本稿では,社会的・政治的文脈を考慮したエンティティのスタンス予測を目的とした,エンティティスタンス予測の新しいタスクを提案する。 具体的には、現代アメリカの政治に関する社会的実体に関する事実をウィキペディアから検索する。 そして、我々は、ドメインの専門家の助けを借りて、政治イデオロギーに対する社会団体のスタンスに注釈を付ける。 実体姿勢予測のタスクを定義した後、収集された事実から異種情報ネットワークを構築し、表現学習にゲート付きリレーショナルグラフ畳み込みネットワークを採用するグラフベースのソリューションを提案する。 このモデルは、複数の社会的・政治的現象に動機づけられた、教師付き、自己監督型、教師なしの損失関数の組み合わせで訓練される。 提案手法を既存のテキストおよびグラフ解析ベースラインと比較するために,広範な実験を行う。 本モデルでは,高い姿勢検出精度を達成し,社会的実体の姿勢に関する洞察を得る。 さらにアブレーション研究とパラメータ分析を行い,提案手法のメカニズムと有効性について検討する。

Political stance detection has become an important task due to the increasingly polarized political ideologies. Most existing works focus on identifying perspectives in news articles or social media posts, while social entities, such as individuals and organizations, produce these texts and actually take stances. In this paper, we propose the novel task of entity stance prediction, which aims to predict entities' stances given their social and political context. Specifically, we retrieve facts from Wikipedia about social entities regarding contemporary U.S. politics. We then annotate social entities' stances towards political ideologies with the help of domain experts. After defining the task of entity stance prediction, we propose a graph-based solution, which constructs a heterogeneous information network from collected facts and adopts gated relational graph convolutional networks for representation learning. Our model is then trained with a combination of supervised, self-supervised and unsupervised loss functions, which are motivated by multiple social and political phenomenons. We conduct extensive experiments to compare our method with existing text and graph analysis baselines. Our model achieves highest stance detection accuracy and yields inspiring insights regarding social entity stances. We further conduct ablation study and parameter analysis to study the mechanism and effectiveness of our proposed approach.
翻訳日:2021-08-11 00:56:08 公開日:2021-08-09
# (参考訳) イメージは本当に話すのか? タミル・トロルミーム分類における画像の意義の解析 [全文訳有]

Do Images really do the Talking? Analysing the significance of Images in Tamil Troll meme classification ( http://arxiv.org/abs/2108.03886v1 )

ライセンス: CC BY 4.0
Siddhanth U Hegde and Adeep Hande and Ruba Priyadharshini and Sajeetha Thavareesan and Ratnasingam Sakuntharaj and Sathiyaraj Thangasamy and B Bharathi and Bharathi Raja Chakravarthi(参考訳) ミームは、インターネットを通じて意見や感情を共有するために作られたメディアの一部です。 その人気により、ミームはソーシャルメディア上での新しいコミュニケーション形態となった。 しかし、その性質上、荒らしやサイバーいじめといった有害な方法で徐々に使われている。 様々なデータモデリング手法は、特徴抽出において異なる可能性を生み出し、それらを有益な情報に変換する。 データに含まれる様々なモダリティは、結果を予測する上で重要な役割を果たす。 我々は,ミームの分類における画像の視覚的特徴の重要性を探究する。 ミームは画像とテキストの混合であり、テキストは画像に埋め込まれている。 我々は,これらのミームをトロールと非トロールミームとして,画像とテキストに基づいて組み込もうとする。 しかし、画像は分析され、テキストと組み合わせて性能を高める必要がある。 本研究は、異なるテキスト分析手法を示し、単純なマージから横断的注意まで、世界の最良の視覚とテキストの特徴を活用できるマルチモーダル手法を対比する。 微調整言語モデルであるXLMはテキスト解析において最善を尽くし,マルチモーダル変換器はマルチモーダル解析において最善を尽くした。

A meme is an part of media created to share an opinion or emotion across the internet. Due to its popularity, memes have become the new forms of communication on social media. However, due to its nature, they are being used in harmful ways such as trolling and cyberbullying progressively. Various data modelling methods create different possibilities in feature extraction and turning them into beneficial information. The variety of modalities included in data plays a significant part in predicting the results. We try to explore the significance of visual features of images in classifying memes. Memes are a blend of both image and text, where the text is embedded into the image. We try to incorporate the memes as troll and non-trolling memes based on the images and the text on them. However, the images are to be analysed and combined with the text to increase performance. Our work illustrates different textual analysis methods and contrasting multimodal methods ranging from simple merging to cross attention to utilising both worlds' - best visual and textual features. The fine-tuned cross-lingual language model, XLM, performed the best in textual analysis, and the multimodal transformer performs the best in multimodal analysis.
翻訳日:2021-08-11 00:41:42 公開日:2021-08-09
# (参考訳) 決定木を崩壊させる: 並行データ予測器 [全文訳有]

Collapsing the Decision Tree: the Concurrent Data Predictor ( http://arxiv.org/abs/2108.03887v1 )

ライセンス: CC BY 4.0
Cristian Alb(参考訳) コンカレントデータ予測器のファミリーは、属性を逐次評価する制限を取り除き、決定木分類器から導出される。 属性を同時に評価することにより、決定木はフラット構造に崩壊する。 実験は予測精度の改善を示す。

A family of concurrent data predictors is derived from the decision tree classifier by removing the limitation of sequentially evaluating attributes. By evaluating attributes concurrently, the decision tree collapses into a flat structure. Experiments indicate improvements of the prediction accuracy.
翻訳日:2021-08-11 00:27:00 公開日:2021-08-09
# (参考訳) 微分プライベート深層学習のための高効率ハイパーパラメータ最適化 [全文訳有]

Efficient Hyperparameter Optimization for Differentially Private Deep Learning ( http://arxiv.org/abs/2108.03888v1 )

ライセンス: CC BY 4.0
Aman Priyanshu, Rakshit Naidu, Fatemehsadat Mireshghallah, Mohammad Malekzadeh(参考訳) 微分プライベート確率勾配降下(DPSGD)におけるハイパーパラメータの調整は、根本的な課題である。 一般的なSGDとは異なり、プライベートデータセットはDPSGDのハイパーパラメータサーチ(グリッドサーチなど)に何度も使用することはできない。 したがって、与えられた検索空間内では、最善のプライバシ利用トレードオフのために最適に近いハイパーパラメータを効率的に見つけることができるアルゴリズムが必要不可欠である。 我々は,この問題を,望ましいプライバシ・ユーティリティ・トレードオフを確立するための一般的な最適化フレームワークとして定式化し,提案フレームワークで使用される3つの費用対効果アルゴリズム(進化的,ベイズ的,強化学習)を体系的に研究する。 MNISTとCIFAR-10データセットを用いたDPSGDのハイパーパラメータチューニング実験により,これらの3つのアルゴリズムが広範に使用されているグリッドサーチベースラインを著しく上回ることを示す。 本稿では,dpsgdにおけるハイパーパラメータチューニングのための初歩的なフレームワークを提供するため,既存の課題と今後の研究の方向性について考察する。 私たちの研究がプライベートなディープラーニングのパイプラインで活用できると信じているので、コードをhttps://github.com/A manPriyanshu/DP-Hype rparamTuning.comに公開しています。

Tuning the hyperparameters in the differentially private stochastic gradient descent (DPSGD) is a fundamental challenge. Unlike the typical SGD, private datasets cannot be used many times for hyperparameter search in DPSGD; e.g., via a grid search. Therefore, there is an essential need for algorithms that, within a given search space, can find near-optimal hyperparameters for the best achievable privacy-utility tradeoffs efficiently. We formulate this problem into a general optimization framework for establishing a desirable privacy-utility tradeoff, and systematically study three cost-effective algorithms for being used in the proposed framework: evolutionary, Bayesian, and reinforcement learning. Our experiments, for hyperparameter tuning in DPSGD conducted on MNIST and CIFAR-10 datasets, show that these three algorithms significantly outperform the widely used grid search baseline. As this paper offers a first-of-a-kind framework for hyperparameter tuning in DPSGD, we discuss existing challenges and open directions for future studies. As we believe our work has implications to be utilized in the pipeline of private deep learning, we open-source our code at https://github.com/A manPriyanshu/DP-Hype rparamTuning.
翻訳日:2021-08-11 00:03:08 公開日:2021-08-09
# (参考訳) 深層学習手法に基づく分光角補間 [全文訳有]

SPECT Angle Interpolation Based on Deep Learning Methodologies ( http://arxiv.org/abs/2108.03890v1 )

ライセンス: CC BY 4.0
Charalambos Chrysostomou, Loizos Koutsantonis, Christos Lemesios, Costas N. Papanicolas(参考訳) 深層学習手法に基づく新しいSPECT角補間法を提案する。 提案したモデルのトレーニングには,ソフトウェアファントムからの投影データを使用した。 提案手法の有効性を評価するため, 各種ノイズレベルを付加したシェップローガンに基づくファントムを用い, 補間したシングラムを順序付きサブセット予測最大化(OSEM)を用いて再構成し, 元のシングラムの再構成と比較した。 提案手法はプロジェクションを4倍にし、同じプロセスで元のシノグラムをデノナイズすることができる。 結果が示すように,提案モデルは復元精度を大幅に向上させる。 最後に,実世界のDAT-SPECTシングラムを用いて提案手法の有効性と性能を示す。

A novel method for SPECT angle interpolation based on deep learning methodologies is presented. Projection data from software phantoms were used to train the proposed model. For evaluation of the efficacy of the method, phantoms based on Shepp Logan, with various noise levels added were used, and the resulting interpolated sinograms are reconstructed using Ordered Subset Expectation Maximization (OSEM) and compared to the reconstructions of the original sinograms. The proposed method can quadruple the projections, and denoise the original sinogram, in the same process. As the results show, the proposed model significantly improves the reconstruction accuracy. Finally, to demonstrate the efficacy and capability of the proposed method results from real-world DAT-SPECT sinograms are presented.
翻訳日:2021-08-10 23:55:36 公開日:2021-08-09
# (参考訳) アクティブクラス選択のための確率的アクティブラーニング [全文訳有]

Probabilistic Active Learning for Active Class Selection ( http://arxiv.org/abs/2108.03891v1 )

ライセンス: CC BY 4.0
Daniel Kottke, Georg Krempl, Marianne Stecklina, Cornelius Styp von Rekowski, Tim Sabsch, Tuan Pham Minh, Matthias Deliano, Myra Spiliopoulou, Bernhard Sick(参考訳) 機械学習では、アクティブクラス選択(ACS)アルゴリズムは、クラスを積極的に選択し、そのクラスに対して、リクエスト数を最小化しながら、クラスのパフォーマンスを最適化するインスタンスの提供を託す。 本稿では,疑似インスタンスを導入することでacs問題をアクティブな学習タスクに変換する新しいアルゴリズム(pal-acs)を提案する。 これらは、確率的アクティブラーニングからパフォーマンスゲインモデルを用いて、各クラスに対する今後のインスタンスの有用性を推定するために使用される。 実験結果(合成データと実データ)は,最先端アルゴリズムと比較して,アルゴリズムの利点を示す。 難しいクラスのサンプリングを効果的に好み、分類性能を向上させる。

In machine learning, active class selection (ACS) algorithms aim to actively select a class and ask the oracle to provide an instance for that class to optimize a classifier's performance while minimizing the number of requests. In this paper, we propose a new algorithm (PAL-ACS) that transforms the ACS problem into an active learning task by introducing pseudo instances. These are used to estimate the usefulness of an upcoming instance for each class using the performance gain model from probabilistic active learning. Our experimental evaluation (on synthetic and real data) shows the advantages of our algorithm compared to state-of-the-art algorithms. It effectively prefers the sampling of difficult classes and thereby improves the classification performance.
翻訳日:2021-08-10 23:50:40 公開日:2021-08-09
# (参考訳) fifa: アクションセグメンテーションのための高速推論近似 [全文訳有]

FIFA: Fast Inference Approximation for Action Segmentation ( http://arxiv.org/abs/2108.03894v1 )

ライセンス: CC BY 4.0
Yaser Souri, Yazan Abu Farha, Fabien Despinoy, Gianpiero Francesca and Juergen Gall(参考訳) アクションセグメンテーションとアライメントのための高速近似推論手法であるFIFAを導入する。 従来のアプローチとは異なり、FIFAは推論に高価な動的プログラミングに依存していない。 代わりに、勾配線で最小化できる近似微分可能エネルギー関数を使用する。 FIFAは、パフォーマンスを維持しながら、正確な推論を5倍以上のスピード向上に置き換える一般的なアプローチである。 fifaは、正確な推論よりも優れた速度と正確さのトレードオフを提供する、anytime inferenceアルゴリズムである。 本研究は,FIFAを最先端のアクションセグメンテーション,アライメント,および完全教師付きアクションセグメンテーションに応用する。 FIFAは2つのアクションセグメンテーションデータセットのほとんどのメトリクスで最先端の結果を達成する。

We introduce FIFA, a fast approximate inference method for action segmentation and alignment. Unlike previous approaches, FIFA does not rely on expensive dynamic programming for inference. Instead, it uses an approximate differentiable energy function that can be minimized using gradient-descent. FIFA is a general approach that can replace exact inference improving its speed by more than 5 times while maintaining its performance. FIFA is an anytime inference algorithm that provides a better speed vs. accuracy trade-off compared to exact inference. We apply FIFA on top of state-of-the-art approaches for weakly supervised action segmentation and alignment as well as fully supervised action segmentation. FIFA achieves state-of-the-art results on most metrics on two action segmentation datasets.
翻訳日:2021-08-10 23:41:11 公開日:2021-08-09
# (参考訳) 低射影SPECT画像再構成のための深部畳み込みニューラルネットワーク [全文訳有]

Deep Convolutional Neural Network for Low Projection SPECT Imaging Reconstruction ( http://arxiv.org/abs/2108.03897v1 )

ライセンス: CC BY 4.0
Charalambos Chrysostomou, Loizos Koutsantonis, Christos Lemesios and Costas N. Papanicolas(参考訳) 本稿では,SPECT画像における断層像再構成のための新しい手法を提案する。 新しい再構成法では深層畳み込みニューラルネットワーク(cnn)が用いられる。 ソフトウェアファントムからの投影データはCNNネットワークのトレーニングに使用された。 提案手法の有効性を評価するため,FOV SPECTシステムに基づくソフトウェアファントムとハードウェアファントムを用いた。 得られたトモグラフィー画像は、"Maximum Likelihood expectation Maximisation"(MLEM)によって作成されたものと比較される。

In this paper, we present a novel method for tomographic image reconstruction in SPECT imaging with a low number of projections. Deep convolutional neural networks (CNN) are employed in the new reconstruction method. Projection data from software phantoms were used to train the CNN network. For evaluation of the efficacy of the proposed method, software phantoms and hardware phantoms based on the FOV SPECT system were used. The resulting tomographic images are compared to those produced by the "Maximum Likelihood Expectation Maximisation" (MLEM).
翻訳日:2021-08-10 23:27:08 公開日:2021-08-09
# (参考訳) 高速なMPEのための簡潔関数表現と図形モデルにおける制約付き最適化 [全文訳有]

A Concise Function Representation for Faster Exact MPE and Constrained Optimisation in Graphical Models ( http://arxiv.org/abs/2108.03899v1 )

ライセンス: CC BY 4.0
Filippo Bistaffa(参考訳) 本稿では,多くの推論タスクの基盤を提供する中心的理論フレームワークであるグラフィカルモデルのための新しい簡潔関数表現を提案する。 次に、バケット除去(be)における決定論的有限状態オートマトンに基づく簡潔な表現をどのように活用するかを示す。これは変数除去の概念に基づく一般的なアプローチであり、最も可能性の高い説明や制約付き最適化のような多くの推論と最適化タスクを包含する。 BE のバージョンを FABE と表現します。 FABE内の簡潔な表現を使用することで、実行時およびメモリ要求の観点からBEの性能を劇的に改善します。 確立された実験手法を用いて得られた標準ベンチマークの結果、FABEは最も有効なアプローチ(RBFAOO)よりも優れており、実行時の大幅な改善(テストでは最大2桁まで)をもたらすことが示されている。

We propose a novel concise function representation for graphical models, a central theoretical framework that provides the basis for many reasoning tasks. We then show how we exploit our concise representation based on deterministic finite state automata within Bucket Elimination (BE), a general approach based on the concept of variable elimination that accommodates many inference and optimisation tasks such as most probable explanation and constrained optimisation. We denote our version of BE as FABE. By using our concise representation within FABE, we dramatically improve the performance of BE in terms of runtime and memory requirements. Results on standard benchmarks obtained using an established experimental methodology show that FABE often outperforms the best available approach (RBFAOO), leading to significant runtime improvements (up to 2 orders of magnitude in our tests).
翻訳日:2021-08-10 23:20:58 公開日:2021-08-09
# (参考訳) Multi-View TRGRU:短期メトロ原点推定行列予測のための変圧器を用いた時空間モデル [全文訳有]

Multi-View TRGRU: Transformer based Spatiotemporal Model for Short-Term Metro Origin-Destination Matrix Prediction ( http://arxiv.org/abs/2108.03900v1 )

ライセンス: CC BY 4.0
Jiexia Ye, Furong Zheng, Juanjuan Zhao, Kejiang Ye, Chengzhong Xu(参考訳) 短期od行列の高精度予測(即ち) 様々な起源から目的地への旅客の流動の分布)は、地下鉄システムにおいて重要な課題である。 多くの影響要因の絶えず変化する性質と、リアルタイムな非レイアウトデータ収集の問題により、非常に困難である。 近年,配車および高速交通シナリオにおけるOD行列予測のためのディープラーニングモデルが提案されている。 しかし,これらのモデルでは,事前知識や文脈設定が異なるため,メトロネットワークの局間の複雑な時空間相関を十分に把握できない。 本稿では,ODメトロマトリクス予測に対処するため,ハイブリッド・フレームワークであるマルチビューTRGRUを提案する。 特に、最近のトレンド、日々のトレンド、毎週のトレンドという3つのフロー変化パターンをモデル化するために、3つのモジュールを使用する。 各モジュールにおいて、各ステーションの埋め込みに基づくマルチビュー表現を構築してトランスベースのゲート再電流構造に供給することにより、グローバル自己着信mecha-nismにより異なるステーションのodフローの動的空間依存性をキャプチャする。 大規模で実世界の3つのmetroデータセットに関する広範な実験は、他社よりもマルチビューtrgruが優れていることを示している。

Accurate prediction of short-term OD Matrix (i.e. the distribution of passenger flows from various origins to destinations) is a crucial task in metro systems. It is highly challenging due to the constantly changing nature of many impacting factors and the real-time de- layed data collection problem. Recently, some deep learning-based models have been proposed for OD Matrix forecasting in ride- hailing and high way traffic scenarios. However, these models can not sufficiently capture the complex spatiotemporal correlation between stations in metro networks due to their different prior knowledge and contextual settings. In this paper we propose a hy- brid framework Multi-view TRGRU to address OD metro matrix prediction. In particular, it uses three modules to model three flow change patterns: recent trend, daily trend, weekly trend. In each module, a multi-view representation based on embedding for each station is constructed and fed into a transformer based gated re- current structure so as to capture the dynamic spatial dependency in OD flows of different stations by a global self-attention mecha- nism. Extensive experiments on three large-scale, real-world metro datasets demonstrate the superiority of our Multi-view TRGRU over other competitors.
翻訳日:2021-08-10 22:34:04 公開日:2021-08-09
# (参考訳) 生成的対立ネットワークに基づくSinogram Denoise [全文訳有]

Sinogram Denoise Based on Generative Adversarial Networks ( http://arxiv.org/abs/2108.03903v1 )

ライセンス: CC BY 4.0
Charalambos Chrysostomou(参考訳) SPECT画像の領域におけるGAN(Generative Adversarial Networks)に基づくシングラムデノイズの新しい手法を提案する。 提案したモデルのトレーニングには,ソフトウェアファントムからの投影データを使用した。 Shepp Logan をベースとしたファントム法の有効性を評価するため,様々なノイズレベルを付加した。 結果として生じる分節化シンノグラムは、順序付き部分集合期待最大化(osem)を用いて再構成され、元のノイズ化シンノグラムの再構成と比較される。 以上の結果から,提案手法はシンノグラムを著しく無声化し,復元を著しく改善した。 最後に,実世界のDAT-SPECTシングラムを用いて提案手法の有効性と性能を示す。

A novel method for sinogram denoise based on Generative Adversarial Networks (GANs) in the field of SPECT imaging is presented. Projection data from software phantoms were used to train the proposed model. For evaluation of the efficacy of the method Shepp Logan based phantom, with various noise levels added where used. The resulting denoised sinograms are reconstructed using Ordered Subset Expectation Maximization (OSEM) and compared to the reconstructions of the original noised sinograms. As the results show, the proposed method significantly denoise the sinograms and significantly improves the reconstructions. Finally, to demonstrate the efficacy and capability of the proposed method results from real-world DAT-SPECT sinograms are presented.
翻訳日:2021-08-10 22:17:10 公開日:2021-08-09
# (参考訳) bokehレンダリングとスーパーレゾリューションを用いたカメラアレイの選択的光電界リフォーカス [全文訳有]

Selective Light Field Refocusing for Camera Arrays Using Bokeh Rendering and Superresolution ( http://arxiv.org/abs/2108.03918v1 )

ライセンス: CC BY 4.0
Yingqian Wang, Jungang Yang, Yulan Guo, Chao Xiao, Wei An(参考訳) カメラアレイは、1つのスナップショット内で空間的および角的情報を提供する。 再焦点法では、焦点平面は露出後に変化する。 本稿では,カメラアレイの撮像品質を向上させるための光場再焦点法を提案する。 本手法では,まず差分を推定する。 そして、奥行きに基づく異方性フィルタを用いて非焦点領域(bokeh)を描画する。 最後に、ボケ画像を正規化項とする再構成に基づく超解像法により、再焦点画像を生成する。 本手法では,焦点領域を超解像とし,ボケを審美的にレンダリングした画像を選択的に再焦点することができる。 また,フィールド深度の調整も可能である。 公開および自己開発両方のデータセットで実験を行う。 本手法は他の最先端手法に比べて高い計算コストで優れた視覚性能を実現する。 コードはhttps://github.com/y ingqianwang/selectiv e-lf-refocusingで入手できる。

Camera arrays provide spatial and angular information within a single snapshot. With refocusing methods, focal planes can be altered after exposure. In this letter, we propose a light field refocusing method to improve the imaging quality of camera arrays. In our method, the disparity is first estimated. Then, the unfocused region (bokeh) is rendered by using a depth-based anisotropic filter. Finally, the refocused image is produced by a reconstruction-based superresolution approach where the bokeh image is used as a regularization term. Our method can selectively refocus images with focused region being superresolved and bokeh being aesthetically rendered. Our method also enables postadjustment of depth of field. We conduct experiments on both public and self-developed datasets. Our method achieves superior visual performance with acceptable computational cost as compared to other state-of-the-art methods. Code is available at https://github.com/Y ingqianWang/Selectiv e-LF-Refocusing.
翻訳日:2021-08-10 22:11:51 公開日:2021-08-09
# (参考訳) FA-GAN:MRI画像超解像のための融合注意生成対向ネットワーク [全文訳有]

FA-GAN: Fused Attentive Generative Adversarial Networks for MRI Image Super-Resolution ( http://arxiv.org/abs/2108.03920v1 )

ライセンス: CC BY 4.0
Mingfeng Jiang, Minghao Zhi, Liying Wei, Xiaocheng Yang, Jucheng Zhang, Yongming Li, Pin Wang, Jiahao Huang, Guang Yang(参考訳) 高分解能磁気共鳴画像は微細な解剖学的情報を提供するが、そのようなデータの取得には長い走査時間を要する。 本稿では,低分解能磁気共鳴画像から高分解能MR画像を生成するために,FA-GAN(Fused Attentive Generative Adversarial Networks)と呼ばれるフレームワークを提案する。 FA-GANのフレームワークでは、異なる畳み込みカーネルを用いて異なる3パスネットワークからなる局所融合特徴ブロックを提案し、異なるスケールで画像特徴を抽出する。 また、チャンネルアテンションモジュール、セルフアテンションモジュール、核融合操作を含むグローバル特徴融合モジュールは、mr画像の重要な特徴を強化するように設計されている。 さらに、スペクトル正規化プロセスを導入し、判別器ネットワークを安定させる。 ネットワークのトレーニングには40セットの3d磁気共鳴画像(各セットのイメージは256のスライスを含む)を使用し、提案手法をテストするために10セットのイメージを使用する。 FA-GAN法により生成された超高分解能磁気共鳴画像のPSNRおよびSSIM値は,最先端の再構成法よりも高いことを示す。

High-resolution magnetic resonance images can provide fine-grained anatomical information, but acquiring such data requires a long scanning time. In this paper, a framework called the Fused Attentive Generative Adversarial Networks(FA-GAN) is proposed to generate the super-resolution MR image from low-resolution magnetic resonance images, which can reduce the scanning time effectively but with high resolution MR images. In the framework of the FA-GAN, the local fusion feature block, consisting of different three-pass networks by using different convolution kernels, is proposed to extract image features at different scales. And the global feature fusion module, including the channel attention module, the self-attention module, and the fusion operation, is designed to enhance the important features of the MR image. Moreover, the spectral normalization process is introduced to make the discriminator network stable. 40 sets of 3D magnetic resonance images (each set of images contains 256 slices) are used to train the network, and 10 sets of images are used to test the proposed method. The experimental results show that the PSNR and SSIM values of the super-resolution magnetic resonance image generated by the proposed FA-GAN method are higher than the state-of-the-art reconstruction methods.
翻訳日:2021-08-10 22:01:02 公開日:2021-08-09
# (参考訳) The State of AI Ethics Report (Volume 5)

The State of AI Ethics Report (Volume 5) ( http://arxiv.org/abs/2108.03929v1 )

ライセンス: CC BY 4.0
Abhishek Gupta ((1), (2), and (3)), Connor Wright ((1) and (4)), Marianna Bergamaschi Ganapini ((1) and (5)), Masa Sweidan (1), Renjie Butalid (1) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) Green Software Foundation, (4) University of Exeter, (5) Union College)(参考訳) モントリオールAI倫理研究所のこのレポートは、2021年第2四半期のAI倫理分野における研究と報告の最も健全な進歩を取り上げており、特に「環境とAI」、「クレタティビティとAI」、「地政学とAI」に重点を置いている。 このレポートには、量子物理学のアイデアを応用して人間の特性の複雑さを説明し、お互いの相互作用をどのように形作るべきかを説明する「臨界人種量子コンピュータ」というタイトルの独占記事も掲載されている。 この報告書は、AI倫理、社会学、AI倫理における教育の主題に関する特別な貢献や、実際にAI倫理を実装するための組織的課題も取り上げている。 MaIEIのミッションは、世界中の学者がAI倫理問題に取り組んでいることを強調することであり、このレポートはシンガポールとメキシコで活動している学者の仕事を共有する2つのスポットライトを特徴としている。 報告書はまた、バイアス、プライバシー、透明性、説明責任、公平性、解釈可能性、偽情報、政策立案、法、規則、道徳哲学を含むaiの社会的な影響に関して、さまざまな問題を取り上げている。

This report from the Montreal AI Ethics Institute covers the most salient progress in research and reporting over the second quarter of 2021 in the field of AI ethics with a special emphasis on "Environment and AI", "Creativity and AI", and "Geopolitics and AI." The report also features an exclusive piece titled "Critical Race Quantum Computer" that applies ideas from quantum physics to explain the complexities of human characteristics and how they can and should shape our interactions with each other. The report also features special contributions on the subject of pedagogy in AI ethics, sociology and AI ethics, and organizational challenges to implementing AI ethics in practice. Given MAIEI's mission to highlight scholars from around the world working on AI ethics issues, the report also features two spotlights sharing the work of scholars operating in Singapore and Mexico helping to shape policy measures as they relate to the responsible use of technology. The report also has an extensive section covering the gamut of issues when it comes to the societal impacts of AI covering areas of bias, privacy, transparency, accountability, fairness, interpretability, disinformation, policymaking, law, regulations, and moral philosophy.
翻訳日:2021-08-10 21:52:28 公開日:2021-08-09
# (参考訳) 形態素アナロジーの神経モデルの伝達性について [全文訳有]

On the Transferability of Neural Models of Morphological Analogies ( http://arxiv.org/abs/2108.03938v1 )

ライセンス: CC BY-SA 4.0
Safa Alsaidi, Amandine Decker, Puthineath Lay, Esteban Marquer, Pierre-Alexandre Murena, Miguel Couceiro(参考訳) 分析比例は「A is to B as C is to D」という形で表現され、人工知能や自然言語処理(NLP)におけるいくつかの推論や分類に用いられている。 本稿では形態素課題に着目し,形態素類似性を検出するための深層学習手法を提案する。 我々は、我々のフレームワークが言語間でどのように移行するかを示す実証的研究を行い、これらの言語間の興味深い類似点と相違点を強調します。 これらの結果から,多言語形態素モデルの構築の可能性についても考察する。

Analogical proportions are statements expressed in the form "A is to B as C is to D" and are used for several reasoning and classification tasks in artificial intelligence and natural language processing (NLP). In this paper, we focus on morphological tasks and we propose a deep learning approach to detect morphological analogies. We present an empirical study to see how our framework transfers across languages, and that highlights interesting similarities and differences between these languages. In view of these results, we also discuss the possibility of building a multilingual morphological model.
翻訳日:2021-08-10 21:50:39 公開日:2021-08-09
# (参考訳) 深層学習に基づくハイブリッドMIMOのためのアンテナ時間領域チャネル外挿法 [全文訳有]

Deep Learning Based Antenna-time Domain Channel Extrapolation for Hybrid mmWave Massive MIMO ( http://arxiv.org/abs/2108.03941v1 )

ライセンス: CC BY 4.0
Shunbo Zhang, Shun Zhang, Jianpeng Ma, Tian Liu, and Octavia A. Dobre(参考訳) 時変多重入力多重出力(mimo)システムにおいて、基地局(bs)におけるダウンリンクチャネル状態情報の取得は、ダウンリンクトレーニングやアップリンクフィードバックに伴うオーバーヘッドが極めて高いため、非常に困難な課題である。 本稿では,bsにおけるハイブリッドプリコーディング構造を考察し,アンテナ時間領域チャネル外挿について検討する。 我々は,変分オートエンコーダ(vae)フレームワークの下で潜在常微分方程式(ode)ベースのネットワークを設計し,部分的アップリンクチャネルからbs側の全ダウンリンクチャネルへのマッピング関数を学習する。 具体的には、エンコーダにはゲートリカレントユニットが採用され、デコーダには完全接続ニューラルネットワークが使用される。 エンドツーエンド学習は、ネットワークパラメータの最適化に利用される。 シミュレーションの結果,設計したネットワークは,部分的なアップリンクチャネルから,全ダウンリンクチャネルを効率的に推定でき,チャネルトレーニングのオーバーヘッドを大幅に削減できることがわかった。

In a time-varying massive multiple-input multipleoutput (MIMO) system, the acquisition of the downlink channel state information at the base station (BS) is a very challenging task due to the prohibitively high overheads associated with downlink training and uplink feedback. In this paper, we consider the hybrid precoding structure at BS and examine the antennatime domain channel extrapolation. We design a latent ordinary differential equation (ODE)-based network under the variational auto-encoder (VAE) framework to learn the mapping function from the partial uplink channels to the full downlink ones at the BS side. Specifically, the gated recurrent unit is adopted for the encoder and the fully-connected neural network is used for the decoder. The end-to-end learning is utilized to optimize the network parameters. Simulation results show that the designed network can efficiently infer the full downlink channels from the partial uplink ones, which can significantly reduce the channel training overhead.
翻訳日:2021-08-10 21:42:52 公開日:2021-08-09
# (参考訳) 形態素アナロジー検出のためのニューラルアプローチ [全文訳有]

A Neural Approach for Detecting Morphological Analogies ( http://arxiv.org/abs/2108.03945v1 )

ライセンス: CC BY-SA 4.0
Safa Alsaidi, Amandine Decker, Puthineath Lay, Esteban Marquer, Pierre-Alexandre Murena, Miguel Couceiro(参考訳) 類似の比率は「a is to b as c is to d」という形の文であり、人工知能や自然言語処理(nlp)におけるいくつかの推論や分類のタスクに用いられる。 例えば、意味論や形態学への類似に基づくアプローチがある。 実際、記号的アプローチは、例えば公理的アプローチやコルモゴロフ複雑性に基づく文字列間の類似性を解いたり検出したりするために開発された。 本稿では,リフレクションや共役といった形態素類似性を検出するための深層学習手法を提案する。 我々は,この枠組みが,前述の象徴的アプローチと競合することを示す実証的な結果を示す。 また、言語間の転送能力についても実験的に検討し、両者の興味深い類似点を強調した。

Analogical proportions are statements of the form "A is to B as C is to D" that are used for several reasoning and classification tasks in artificial intelligence and natural language processing (NLP). For instance, there are analogy based approaches to semantics as well as to morphology. In fact, symbolic approaches were developed to solve or to detect analogies between character strings, e.g., the axiomatic approach as well as that based on Kolmogorov complexity. In this paper, we propose a deep learning approach to detect morphological analogies, for instance, with reinflexion or conjugation. We present empirical results that show that our framework is competitive with the above-mentioned state of the art symbolic approaches. We also explore empirically its transferability capacity across languages, which highlights interesting similarities between them.
翻訳日:2021-08-10 21:31:37 公開日:2021-08-09
# (参考訳) 小規模データセットを用いたスウェーデン語読解質問に対するbertに基づく気晴らし生成 [全文訳有]

BERT-based distractor generation for Swedish reading comprehension questions using a small-scale dataset ( http://arxiv.org/abs/2108.03973v1 )

ライセンス: CC BY 4.0
Dmytro Kalpakchi and Johan Boye(参考訳) 理解アセスメントを読み取るためのマルチチョイス質問(mcqs)を構築する上で重要な部分は、不正確だが好ましくない回答オプションである。 本稿では,小さなデータセットのみを用いて,障害を自動生成するBERTベースの新しい手法を提案する。 また,スウェーデンのmcqsのデータセット(モデルのトレーニングに使用される)を新たにリリースし,生成された注意散逸者を評価する手法を提案する。 評価の結果,テストセットにおけるMCQの50%以上に対して,本手法は1つ以上の可視性障害を発生させることがわかった。 教師の視点からは,生成した散逸器の約50%が適切であると考えられた。 結果の詳細な分析も行っています。

An important part when constructing multiple-choice questions (MCQs) for reading comprehension assessment are the distractors, the incorrect but preferably plausible answer options. In this paper, we present a new BERT-based method for automatically generating distractors using only a small-scale dataset. We also release a new such dataset of Swedish MCQs (used for training the model), and propose a methodology for assessing the generated distractors. Evaluation shows that from a student's perspective, our method generated one or more plausible distractors for more than 50% of the MCQs in our test set. From a teacher's perspective, about 50% of the generated distractors were deemed appropriate. We also do a thorough analysis of the results.
翻訳日:2021-08-10 21:10:53 公開日:2021-08-09
# (参考訳) 車両のインターネットにおける信頼性を考慮したSwarm-Federated Deep Learningフレームワーク [全文訳有]

A Credibility-aware Swarm-Federated Deep Learning Framework in Internet of Vehicles ( http://arxiv.org/abs/2108.03981v1 )

ライセンス: CC BY 4.0
Zhe Wang, Xinhang Li, Tianhao Wu, Chen Xu, Lin Zhang(参考訳) Federated Deep Learning (FDL)は、IoT of Vehicles (IoV)における分散機械学習の実現を支援する。 しかし、FDLのグローバルモデルは学習モデルパラメータをアップロードするために複数のクライアントを必要とするため、既存の避けられない通信オーバーヘッドとデータプライバシのリスクがある。 最近提案されたSwarm Learning(SL)は、エッジコンピューティングとブロックチェーンベースのコーディネータを中央コーディネータなしで結合する分散機械学習アプローチを提供する。 本稿では,SLをFDLフレームワークに統合したIoVシステム(IoV-SFDL)におけるSwarm-Federated Deep Learningフレームワークを提案する。 IoV-SFDLは、ブロックチェーン権限付きSLに基づいて隣接する車両で局所的なSLモデルを生成するために車両を編成し、提案された信頼性重み予測アルゴリズムを用いて、異なるSLグループ間でグローバルなFDLモデルを集約する。 大規模な実験結果から,提案したIoV-SFDLフレームワークはベースラインフレームワークと比較して,エッジ・ツー・グロバル通信のオーバヘッドが16.72%削減され,モデル性能は5.02%向上した。

Federated Deep Learning (FDL) is helping to realize distributed machine learning in the Internet of Vehicles (IoV). However, FDL's global model needs multiple clients to upload learning model parameters, thus still existing unavoidable communication overhead and data privacy risks. The recently proposed Swarm Learning (SL) provides a decentralized machine-learning approach uniting edge computing and blockchain-based coordination without the need for a central coordinator. This paper proposes a Swarm-Federated Deep Learning framework in the IoV system (IoV-SFDL) that integrates SL into the FDL framework. The IoV-SFDL organizes vehicles to generate local SL models with adjacent vehicles based on the blockchain empowered SL, then aggregates the global FDL model among different SL groups with a proposed credibility weights prediction algorithm. Extensive experimental results demonstrate that compared with the baseline frameworks, the proposed IoV-SFDL framework achieves a 16.72% reduction in edge-to-global communication overhead while improving about 5.02% in model performance with the same training iterations.
翻訳日:2021-08-10 20:50:24 公開日:2021-08-09
# (参考訳) 知識蓄積:学習の一般的なパターン [全文訳有]

Knowledge accumulating: The general pattern of learning ( http://arxiv.org/abs/2108.03988v1 )

ライセンス: CC BY 4.0
Zhuoran Xu and Hao Liu(参考訳) 人工知能は何十年にもわたって大きな進歩を遂げてきた。 近年、ディープラーニングは現実世界の多くの問題を解決する能力を示している。 画像の分類と検出、自然言語処理、遊びのgo。 理論的には、ニューラルネットワークはあらゆる機能に適合し、強化学習は遅延した報酬から学ぶことができる。 しかし、現実世界のタスクを解決するには、タスク固有の機能に合うようにアルゴリズムを調整するために多くの労力を費やす必要がある。 本稿では,この現象の原因が自然のスパースフィードバックの特徴であり,その改善方法に関わらず,単一のアルゴリズムで高密度なフィードバックタスクや特定のスパースフィードバックタスクを解くことができることを提案する。 本稿では,まずスパースフィードバックがアルゴリズムのパーフォマンスに与える影響を解析し,スパースフィードバック問題を解決するために知識を蓄積する方法を説明するパターンを提案する。

Artificial Intelligence has been developed for decades with the achievement of great progress. Recently, deep learning shows its ability to solve many real world problems, e.g. image classification and detection, natural language processing, playing GO. Theoretically speaking, an artificial neural network can fit any function and reinforcement learning can learn from any delayed reward. But in solving real world tasks, we still need to spend a lot of effort to adjust algorithms to fit task unique features. This paper proposes that the reason of this phenomenon is the sparse feedback feature of the nature, and a single algorithm, no matter how we improve it, can only solve dense feedback tasks or specific sparse feedback tasks. This paper first analyses how sparse feedback affects algorithm perfomance, and then proposes a pattern that explains how to accumulate knowledge to solve sparse feedback problems.
翻訳日:2021-08-10 20:37:56 公開日:2021-08-09
# (参考訳) FOLASP: FO() サーソルソルバーに対する入力言語として [全文訳有]

FOLASP: FO(.) as Input Language for Answer Ser Solvers ( http://arxiv.org/abs/2108.04020v1 )

ライセンス: CC BY 4.0
Kylian Van Dessel, Jo Devriendt, and Joost Vennekens(参考訳) 過去数十年にわたり、解答セットプログラミング(ASP)は宣言的問題解決の重要なパラダイムとして現れてきた。 この領域の技術進歩は、ASP-Core-2言語のような共通標準の使用によって刺激されている。 ASPは非単調な推論にルーツを持っているが、ASPを古典的な一階述語論理(FO)と整合させる努力も行われている。 この結果、fo(.)の開発に至りました。 これは、純粋に古典的な設定でaspのような問題解決を可能にする。 この言語は、既にfoに精通しているドメインエキスパートによりアクセスしやすくなり、古典論理に基づいた他の形式と組み合わせるのが容易になるかもしれない。 IDP推論システムによってサポートされており、多くのASPコンペティションで成功を収めている。 しかし、技術進歩はFO(.)に利用可能な限られた数のシステムによって妨げられている。 本稿では,FO()を変換する翻訳ツールを用いて,このギャップに対処することを目的とする。 これにより、ASP-Core-2ソルバをFO(.NET)のソルバとして使用できる。 それも。 そこで本研究では,本研究で得られた翻訳と既製のASPソルバの組み合わせが,FO()で定式化された問題の解法としてIDPシステムと競合することを示す。 TPLPの受容についての検討

Over the past decades, Answer Set Programming (ASP) has emerged as an important paradigm for declarative problem solving. Technological progress in this area has been stimulated by the use of common standards, such as the ASP-Core-2 language. While ASP has its roots in non-monotonic reasoning, efforts have also been made to reconcile ASP with classical first-order logic (FO). This has resulted in the development of FO(.), an expressive extension of FO, which allows ASP-like problem solving in a purely classical setting. This language may be more accessible to domain experts already familiar with FO, and may be easier to combine with other formalisms that are based on classical logic. It is supported by the IDP inference system, which has successfully competed in a number of ASP competitions. Here, however, technological progress has been hampered by the limited number of systems that are available for FO(.). In this paper, we aim to address this gap by means of a translation tool that transforms an FO(.) specification into ASP-Core-2, thereby allowing ASP-Core-2 solvers to be used as solvers for FO(.) as well. We present experimental results to show that the resulting combination of our translation with an off-the-shelf ASP solver is competitive with the IDP system as a way of solving problems formulated in FO(.). Under consideration for acceptance in TPLP.
翻訳日:2021-08-10 20:26:17 公開日:2021-08-09
# (参考訳) DGEM:レコメンデーションシステムにおける新しいデュアルモーダルグラフ埋め込み手法 [全文訳有]

DGEM: A New Dual-modal Graph Embedding Method in Recommendation System ( http://arxiv.org/abs/2108.04031v1 )

ライセンス: CC BY 4.0
Huimin Zhou and Qing Li and Yong Jiang and Rongwei Yang and Zhuyun Qi(参考訳) 現在のディープラーニングに基づくレコメンデーションシステムでは、高次元スパース特徴ベクトルから低次元密集特徴ベクトルへの変換を完了するために埋め込み法が一般的に用いられる。 しかし、埋め込み層の入力ベクトルの次元が大きすぎるため、埋め込み層の付加はニューラルネットワーク全体の収束速度を著しく遅くするが、現実のシナリオでは受け入れられない。 また,ユーザとアイテム間のインタラクションが増加し,アイテム間の関係が複雑化するにつれ,シーケンスデータに提案される埋め込み手法は,現在の実環境におけるグラフィックデータには適していない。 そこで本稿では,これらの問題を解決するためにDual-modal Graph Embedding Method (DGEM)を提案する。 DGEMには静的モードと動的モードの2つのモードがある。 まず,グラフ構造を抽出するためにアイテムグラフを構築し,不等確率のランダムウォークを用いてアイテム間の高次近接をキャプチャする。 次に、スキップグラムモデルを通じてグラフ埋め込みベクトルを生成し、最後に下流のディープニューラルネットワークにレコメンデーションタスクを供給します。 実験の結果,DGEMはアイテム間の高次近接をマイニングし,レコメンデーションモデルの表現能力を高めることができることがわかった。 また,アイテム間の時間依存関係を利用してレコメンデーション性能を向上させる。

In the current deep learning based recommendation system, the embedding method is generally employed to complete the conversion from the high-dimensional sparse feature vector to the low-dimensional dense feature vector. However, as the dimension of the input vector of the embedding layer is too large, the addition of the embedding layer significantly slows down the convergence speed of the entire neural network, which is not acceptable in real-world scenarios. In addition, as the interaction between users and items increases and the relationship between items becomes more complicated, the embedding method proposed for sequence data is no longer suitable for graphic data in the current real environment. Therefore, in this paper, we propose the Dual-modal Graph Embedding Method (DGEM) to solve these problems. DGEM includes two modes, static and dynamic. We first construct the item graph to extract the graph structure and use random walk of unequal probability to capture the high-order proximity between the items. Then we generate the graph embedding vector through the Skip-Gram model, and finally feed the downstream deep neural network for the recommendation task. The experimental results show that DGEM can mine the high-order proximity between items and enhance the expression ability of the recommendation model. Meanwhile it also improves the recommendation performance by utilizing the time dependent relationship between items.
翻訳日:2021-08-10 20:04:20 公開日:2021-08-09
# (参考訳) マルチフレーム対スプーフィングのための2ストリーム畳み込みネットワーク [全文訳有]

Two-stream Convolutional Networks for Multi-frame Face Anti-spoofing ( http://arxiv.org/abs/2108.04032v1 )

ライセンス: CC BY 4.0
Zhuoyi Zhang, Cheng Jiang, Xiya Zhong, Chang Song, Yifeng Zhang(参考訳) 顔の偽造は、顔認識のセキュリティを保護する重要な課題である。 以前の仕事のほとんどは、差別的で一般化可能な特徴を捉えようとするか、あるいは工業製品の大半では利用できない補助的な情報に依存するかのどちらかである。 映像分類作業に着想を得て,実顔とスプーフ顔の主な相違点を抽出し,複数フレームとRGBの相違点をそれぞれ入力として捉えた,効率的な2ストリームモデルを提案する。 2つの反対の融合方向を持つ特徴ピラミッドモジュールと、特徴表現を強化するためにピラミッドプーリングモジュールが適用される。 提案手法をSiw, Oulu-NPU, CASIA-MFSD, Replay-Attackのデータセット上で評価した。 その結果,本モデルでは,パラメータサイズがはるかに小さいほとんどのデータセットのプロトコル上で,最先端の結果が得られた。

Face anti-spoofing is an important task to protect the security of face recognition. Most of previous work either struggle to capture discriminative and generalizable feature or rely on auxiliary information which is unavailable for most of industrial product. Inspired by the video classification work, we propose an efficient two-stream model to capture the key differences between live and spoof faces, which takes multi-frames and RGB difference as input respectively. Feature pyramid modules with two opposite fusion directions and pyramid pooling modules are applied to enhance feature representation. We evaluate the proposed method on the datasets of Siw, Oulu-NPU, CASIA-MFSD and Replay-Attack. The results show that our model achieves the state-of-the-art results on most of datasets' protocol with much less parameter size.
翻訳日:2021-08-10 19:44:05 公開日:2021-08-09
# (参考訳) トリエンコーダモデルを用いたテーブルとテキストのマルチモーダル検索 [全文訳有]

Multi-modal Retrieval of Tables and Texts Using Tri-encoder Models ( http://arxiv.org/abs/2108.04049v1 )

ライセンス: CC BY 4.0
Bogdan Kosti\'c, Julian Risch, Timo M\"oller(参考訳) オープンドメイン抽出質問応答は、まず候補テキストを検索し、その候補から回答を抽出することにより、テキストデータにうまく機能する。 しかし、いくつかの質問はテキストだけでは答えられず、テーブルに格納された情報を必要とする。 本稿では,テキスト,テーブル,質問を1つのベクトル空間に共同で符号化することで,質問に関連するテキストとテーブルを検索する手法を提案する。 この目的を達成するために,関連する作業からテキストとテーブルデータセットに基づく新しいマルチモーダルデータセットを作成し,異なる符号化スキーマの検索性能を比較する。 その結果,変圧器モデルのベクトル埋め込みは6つの評価データセットのうち4つにおいてスパース埋め込みよりも優れていた。 質問、テキスト、テーブルごとに1つのエンコーダを持つtri-encoderと、質問に対して1つのエンコーダを持つbi-encoderと、テキストとテーブルの両方で1つのエンコーダを比較することで、検索性能が向上する。 新たに作成されたマルチモーダルデータセットをコミュニティにリリースし、トレーニングや評価に使用できるようにします。

Open-domain extractive question answering works well on textual data by first retrieving candidate texts and then extracting the answer from those candidates. However, some questions cannot be answered by text alone but require information stored in tables. In this paper, we present an approach for retrieving both texts and tables relevant to a question by jointly encoding texts, tables and questions into a single vector space. To this end, we create a new multi-modal dataset based on text and table datasets from related work and compare the retrieval performance of different encoding schemata. We find that dense vector embeddings of transformer models outperform sparse embeddings on four out of six evaluation datasets. Comparing different dense embedding models, tri-encoders, with one encoder for each question, text and table, increase retrieval performance compared to bi-encoders with one encoder for the question and one for both text and tables. We release the newly created multi-modal dataset to the community so that it can be used for training and evaluation.
翻訳日:2021-08-10 19:29:32 公開日:2021-08-09
# (参考訳) Few-Shot分類におけるグローバルラベルの役割とテーマの推測方法 [全文訳有]

The Role of Global Labels in Few-Shot Classification and How to Infer Them ( http://arxiv.org/abs/2108.04055v1 )

ライセンス: CC BY 4.0
Ruohan Wang, Massimiliano Pontil, Carlo Ciliberto(参考訳) FSL(Few-shot Learning)はメタラーニングにおいて中心的な問題であり、学習者は限られたトレーニングデータから新しいタスクに迅速に適応しなければならない。 驚くべきことに、最近の研究は、タスク間で共有されるすべてのクラスを共同で分類する標準的な教師あり学習として、FSLに適したメタ学習方法よりも優れている。 しかし、このアプローチは、グローバルラベルをタスク間で共有することを要求することで、標準的なFSL設定に反する。 本稿では,標準分類によるFSLの解法が理論的に有利な理由を示す。 メタラベル学習(Meta Label Learning, MeLa)は,グローバルラベルを推論し,標準分類によるロバストな少数ショットモデルを得る新しいアルゴリズムである。 経験的に、MeLaはメタラーニングの競争相手よりも優れており、基礎となる真理ラベルが与えられるオラクル設定に匹敵する。 我々は,提案手法の重要な特性を明らかにするため,広範なアブレーション研究を行う。

Few-shot learning (FSL) is a central problem in meta-learning, where learners must quickly adapt to new tasks given limited training data. Surprisingly, recent works have outperformed meta-learning methods tailored to FSL by casting it as standard supervised learning to jointly classify all classes shared across tasks. However, this approach violates the standard FSL setting by requiring global labels shared across tasks, which are often unavailable in practice. In this paper, we show why solving FSL via standard classification is theoretically advantageous. This motivates us to propose Meta Label Learning (MeLa), a novel algorithm that infers global labels and obtains robust few-shot models via standard classification. Empirically, we demonstrate that MeLa outperforms meta-learning competitors and is comparable to the oracle setting where ground truth labels are given. We provide extensive ablation studies to highlight the key properties of the proposed strategy.
翻訳日:2021-08-10 19:15:10 公開日:2021-08-09
# (参考訳) 数発テキスト分類のための雑音チャネル言語モデルの提案 [全文訳有]

Noisy Channel Language Model Prompting for Few-Shot Text Classification ( http://arxiv.org/abs/2108.04106v1 )

ライセンス: CC BY 4.0
Sewon Min, Mike Lewis, Hannaneh Hajishirzi, Luke Zettlemoyer(参考訳) 本稿では,小文字分類における言語モデルのためのノイズの多いチャネルアプローチを提案する。 入力(直接モデルとして参照)が与えられたラベルの確率を計算する代わりに、チャネルモデルはラベルが与えられた入力の条件付き確率を計算し、入力中のすべての単語を説明する必要がある。 我々は最近提案された数ショット学習手法にチャネルモデルを使用し、言語モデルパラメータを、文脈内デモやプロンプトチューニングを通じて、ほとんどあるいは非常に限定的に更新する。 実験により, チャネルモデルでは, チャネルモデルの安定性が著しく向上し, 安定性が低下し, 最悪の場合の精度が向上したことがわかった。 また,他の競合モデル(例えば,ダイレクトヘッドチューニング)の代わりにチャネルプロンプトチューニングを使用するタイミングを推奨する広範なアブレーションも提示する。 チャネルプロンプトチューニングは,トレーニングサンプル数が小さい場合や,トレーニングデータのラベルの不均衡,あるいは認識されていないラベルへの一般化が必要である。

We introduce a noisy channel approach for language model prompting in few-shot text classification. Instead of computing the likelihood of the label given the input (referred as direct models), channel models compute the conditional probability of the input given the label, and are thereby required to explain every word in the input. We use channel models for recently proposed few-shot learning methods with no or very limited updates to the language model parameters, via either in-context demonstration or prompt tuning. Our experiments show that, for both methods, channel models significantly outperform their direct counterparts, which we attribute to their stability, i.e., lower variance and higher worst-case accuracy. We also present extensive ablations that provide recommendations for when to use channel prompt tuning instead of other competitive models (e.g., direct head tuning): channel prompt tuning is preferred when the number of training examples is small, labels in the training data are imbalanced, or generalization to unseen labels is required.
翻訳日:2021-08-10 18:59:30 公開日:2021-08-09
# (参考訳) 深層畳み込みニューラルネットワークを用いた歴史地図上の湿地領域の同定 [全文訳有]

Identifying Wetland Areas in Historical Maps using Deep Convolutional Neural Networks ( http://arxiv.org/abs/2108.04107v1 )

ライセンス: CC BY 4.0
Niclas St{\aa}hl, Lisa Weimann(参考訳) 1) 地域環境と土地利用は, 過去100年間で大きく変化している。 歴史的文書や資料は、これらの変化を理解し、従う上で重要である。 したがって、歴史的文書は土地利用の変化の影響と結果を理解する上で重要な要素である。 これは、土地利用の変化から生じる有害で持続不可能な影響を回し減らすために実施できる修復事業の探索において重要である。 2)本研究は,湿地の歴史的立地と地理的分布を手描き地図から抽出する。 これはディープラーニング(DL)と、より具体的には畳み込みニューラルネットワーク(CNN)を使用することで実現される。 cnnモデルはスウェーデンのj\"onk\"oping郡の歴史的湿地に関する手作業によるデータセットで訓練されている。 これらはすべて"Generalstabskartan&q uot;と呼ばれる歴史地図から抽出されている。 3) 提案CNNの性能は良好で,データに対する10倍のクロスバリデーションを用いて評価すると0.886のF_1$スコアが得られる。 訓練されたモデルは、スウェーデンの南半分をカバーするジェネラル・スタブスカルタン(英語版)の南コレクションに描かれている湿地の歴史的地理的分布を推定するGIS層を生成するために、さらに使用される。 このGISレイヤはオープンリソースとしてリリースされ、自由に使用することができる。 4) 要約すると, cnnは歴史地図などの歴史的文書における非文書情報の抽出とデジタル化に有用であることが示された。 本研究では, 過去の土地利用変化をより深く理解するためのGIS資料を作成する。

1) The local environment and land usages have changed a lot during the past one hundred years. Historical documents and materials are crucial in understanding and following these changes. Historical documents are, therefore, an important piece in the understanding of the impact and consequences of land usage change. This, in turn, is important in the search of restoration projects that can be conducted to turn and reduce harmful and unsustainable effects originating from changes in the land-usage. 2) This work extracts information on the historical location and geographical distribution of wetlands, from hand-drawn maps. This is achieved by using deep learning (DL), and more specifically a convolutional neural network (CNN). The CNN model is trained on a manually pre-labelled dataset on historical wetlands in the area of J\"onk\"oping county in Sweden. These are all extracted from the historical map called "Generalstabskartan&q uot;. 3) The presented CNN performs well and achieves a $F_1$-score of 0.886 when evaluated using a 10-fold cross validation over the data. The trained models are additionally used to generate a GIS layer of the presumable historical geographical distribution of wetlands for the area that is depicted in the southern collection in Generalstabskartan, which covers the southern half of Sweden. This GIS layer is released as an open resource and can be freely used. 4) To summarise, the presented results show that CNNs can be a useful tool in the extraction and digitalisation of non-textual information in historical documents, such as historical maps. A modern GIS material that can be used to further understand the past land-usage change is produced within this research.
翻訳日:2021-08-10 18:37:26 公開日:2021-08-09
# (参考訳) チームパワーと階層: チームの成功を理解する

Team Power and Hierarchy: Understanding Team Success ( http://arxiv.org/abs/2108.04108v1 )

ライセンス: CC BY 4.0
Huimin Xu, Yi Bu, Meijun Liu, Chenwei Zhang, Mengyi Sun, Yi Zhang, Eric Meyer, Eduardo Salas, Ying Ding(参考訳) チームワークは協力的で、参加的で、力の共有です。 科学の分野では、チームパワーと階層性の観点からチームコラボレーションの影響を考察する研究はほとんどない。 本研究は,DBLPデータセットを用いて,計算機科学(CS)分野におけるチームパワーとチームの成功との関係を詳細に検討する。 チームの力と階層はアカデミックな年齢で測定され、チームの成功は引用によって定量化されます。 4,106,995のCSチームを分析することで、フラットな構造を持つハイパワーチームが最高のパフォーマンスを持つことがわかった。 逆に、階層構造を持つ低パワーチームは、チームのパフォーマンスのファシリテータです。 これらの結果は、異なる期間とチームサイズで一致しています。

Teamwork is cooperative, participative and power sharing. In science of science, few studies have looked at the impact of team collaboration from the perspective of team power and hierarchy. This research examines in depth the relationships between team power and team success in the field of Computer Science (CS) using the DBLP dataset. Team power and hierarchy are measured using academic age and team success is quantified by citation. By analyzing 4,106,995 CS teams, we find that high power teams with flat structure have the best performance. On the contrary, low-power teams with hierarchical structure is a facilitator of team performance. These results are consistent across different time periods and team sizes.
翻訳日:2021-08-10 18:23:46 公開日:2021-08-09
# (参考訳) 修正Double DQN: 安定性に対処する [全文訳有]

Modified Double DQN: addressing stability ( http://arxiv.org/abs/2108.04115v1 )

ライセンス: CC BY 4.0
Shervin Halat, Mohammad Mehdi Ebadzadeh(参考訳) ダブルq学習アルゴリズムにインスパイアされたダブルdqnアルゴリズムは、元々はオリジナルのdqnアルゴリズムの過大評価問題に対処するために提案された。 二重DQNは、目標値の計算における行動評価と選択の両面でのデカップリングの重要性を理論的にも実証的にも証明した。 それにもかかわらず、DQNによって最初に取り下げられた目標値関数にポリシーネットワークのパラメータが再び出現し、学習過程における移動目標の深刻な問題とそれに起因する不安定性(つまり、移動目標)に対処することが期待されているため、提案されたDouble-DQNのアルゴリズムにはロールバックがあるようである。 そこで本稿では,安定性と過大評価の両面から性能を維持するために,Double-DQNアルゴリズムの3つの改良を提案する。 これらの修正は、目標値関数における最善のアクション選択と評価を分離する論理と、移動対象問題に取り組む論理に焦点を当てている。 それぞれの変更は、他の修正と比べてそれぞれ独自の長所と短所を持っている。 上記の長所と短所は、主に対応するアルゴリズムに必要な実行時間と対応するアルゴリズムが提供する安定性を指す。 また、過大評価の面では、修正はオリジナルのDouble-DQNよりも性能が劣っているように思われる。 提案手法の有効性を評価する目的で,複数の実験実験と理論実験を行った。 得られた結果は、この記事で述べ、論じる。

Inspired by double q learning algorithm, the double DQN algorithm was originally proposed in order to address the overestimation issue in the original DQN algorithm. The double DQN has successfully shown both theoretically and empirically the importance of decoupling in terms of action evaluation and selection in computation of targets values; although, all the benefits were acquired with only a simple adaption to DQN algorithm, minimal possible change as it was mentioned by the authors. Nevertheless, there seems a roll-back in the proposed algorithm of Double-DQN since the parameters of policy network are emerged again in the target value function which were initially withdrawn by DQN with the hope of tackling the serious issue of moving targets and the instability caused by it (i.e., by moving targets) in the process of learning. Therefore, in this paper three modifications to the Double-DQN algorithm are proposed with the hope of maintaining the performance in the terms of both stability and overestimation. These modifications are focused on the logic of decoupling the best action selection and evaluation in the target value function and the logic of tackling the moving targets issue. Each of these modifications have their own pros and cons compared to the others. The mentioned pros and cons mainly refer to the execution time required for the corresponding algorithm and the stability provided by the corresponding algorithm. Also, in terms of overestimation, none of the modifications seem to underperform compared to the original Double-DQN if not outperform it. With the intention of evaluating the efficacy of the proposed modifications, multiple empirical experiments along with theoretical experiments were conducted. The results obtained are represented and discussed in this article.
翻訳日:2021-08-10 18:22:54 公開日:2021-08-09
# (参考訳) ツリーモデルの重要度計算の改善: Shapley vs. Banzhaf

Improved Feature Importance Computations for Tree Models: Shapley vs. Banzhaf ( http://arxiv.org/abs/2108.04126v1 )

ライセンス: CC BY 4.0
Adam Karczmarz, Anish Mukherjee, Piotr Sankowski, Piotr Wygocki(参考訳) シェープ値は、ツリーアンサンブルモデルの予測を説明する主要なツールの1つである。 Shapley値の主な代替手段は、等しく理解されていないBanzhaf値である。 本稿では,このギャップを埋めるための一歩を踏み出し,モデル説明法を実験的および理論的に比較する。 驚くべきことに、Banzhaf値がShapley値に対していくつかの利点を提供する一方で、本質的に同じ説明を提供することを示す。 バンジャフの値がより直感的な解釈であること、(2)より効率的なアルゴリズムを可能にすること、(3)より数値的にロバストであることを確認する。 これらを実験的に評価する。 特に、実世界の事例でそれを示します。 さらに、理論的な観点から、Lundbergらのアルゴリズムと同じShapley値に基づく説明を計算し、改良したアルゴリズムを提供する。 [ナット] Mach インテリ。 2020]. 我々のアルゴリズムは、$O(TLD+n)$timeで動作するのに対し、前のアルゴリズムは$O(TLD^2+n)$run time boundを持つ。 ここで、$t$は木の数、$l$は木の葉の最大数、$d$はアンサンブルの中の木の最大深さを表す。 Shapley値のために開発された計算技術を用いて、Banzhaf値に基づく説明を計算するための最適な$O(TL+n)$Timeアルゴリズムを提供する。 我々の実験では、これらのアルゴリズムは走行時間を桁違いに小さくする。

Shapley values are one of the main tools used to explain predictions of tree ensemble models. The main alternative to Shapley values are Banzhaf values that have not been understood equally well. In this paper we make a step towards filling this gap, providing both experimental and theoretical comparison of these model explanation methods. Surprisingly, we show that Banzhaf values offer several advantages over Shapley values while providing essentially the same explanations. We verify that Banzhaf values: (1) have a more intuitive interpretation, (2) allow for more efficient algorithms, and (3) are much more numerically robust. We provide an experimental evaluation of these theses. In particular, we show that on real world instances. Additionally, from a theoretical perspective we provide new and improved algorithm computing the same Shapley value based explanations as the algorithm of Lundberg et al. [Nat. Mach. Intell. 2020]. Our algorithm runs in $O(TLD+n)$ time, whereas the previous algorithm had $O(TLD^2+n)$ running time bound. Here, $T$ is the number of trees, $L$ is the maximum number of leaves in a tree, and $D$ denotes the maximum depth of a tree in the ensemble. Using the computational techniques developed for Shapley values we deliver an optimal $O(TL+n)$ time algorithm for computing Banzhaf values based explanations. In our experiments these algorithms give running times smaller even by an order of magnitude.
翻訳日:2021-08-10 18:13:28 公開日:2021-08-09
# (参考訳) 構造イメージングによる高分解能拡散のマニホールド・アウェア合成 [全文訳有]

Manifold-Aware Synthesis of High Resolution Diffusion from Structural Imaging ( http://arxiv.org/abs/2108.04135v1 )

ライセンス: CC BY 4.0
Benoit Anctil-Robitaille and Antoine Th\'eberge and Pierre-Marc Jodoin and Maxime Descoteaux and Christian Desrosiers and Herv\'e Lombaert(参考訳) 拡散強調画像(DWI)を取り巻く物理的および臨床的制約はしばしば、生成された画像の空間解像度を、T1w画像の最大8倍のボクセルに制限する。 したがって、T1w画像に含まれる詳細な情報は、高解像度の拡散画像の合成に役立つ。 しかし、拡散イメージングの非ユークリッド的性質は、物理的に有理な画像の合成から現在の深層生成モデルを妨げる。 本研究では,高分解能T1w画像から拡散テンソル(DT)と拡散配向分布関数(DODF)を直接生成するための最初のリーマンネットワークアーキテクチャを提案する。 標準ユークリッドネットワークとは異なり、対数ユークリッド計量の学習目的への統合は、拡散の数学的に有価な合成である。 さらに,本手法は,合成拡散と接地トラス間の分数異方性平均二乗誤差(FA MSE)を23%以上改善し,主方向のコサイン類似度をベースラインと比較して約5%改善する。 その結果を実データと比較することにより,生成した拡散の検証を行った。 類似した繊維束を観察し, 長さが3%未満, 体積が1%未満, 視覚的に近い形状の流線を観察した。 構造入力から15秒以内で高分解能拡散画像を生成することができるが,T1w画像のみに依存する拡散推定の限界を認識し,議論する。 以上の結果から,脳の高次構造と全体ホワイトマターアーキテクチャとの関係が示唆された。

The physical and clinical constraints surrounding diffusion-weighted imaging (DWI) often limit the spatial resolution of the produced images to voxels up to 8 times larger than those of T1w images. Thus, the detailed information contained in T1w imagescould help in the synthesis of diffusion images in higher resolution. However, the non-Euclidean nature of diffusion imaging hinders current deep generative models from synthesizing physically plausible images. In this work, we propose the first Riemannian network architecture for the direct generation of diffusion tensors (DT) and diffusion orientation distribution functions (dODFs) from high-resolution T1w images. Our integration of the Log-Euclidean Metric into a learning objective guarantees, unlike standard Euclidean networks, the mathematically-valid synthesis of diffusion. Furthermore, our approach improves the fractional anisotropy mean squared error (FA MSE) between the synthesized diffusion and the ground-truth by more than 23% and the cosine similarity between principal directions by almost 5% when compared to our baselines. We validate our generated diffusion by comparing the resulting tractograms to our expected real data. We observe similar fiber bundles with streamlines having less than 3% difference in length, less than 1% difference in volume, and a visually close shape. While our method is able to generate high-resolution diffusion images from structural inputs in less than 15 seconds, we acknowledge and discuss the limits of diffusion inference solely relying on T1w images. Our results nonetheless suggest a relationship between the high-level geometry of the brain and the overall white matter architecture.
翻訳日:2021-08-10 18:12:19 公開日:2021-08-09
# (参考訳) 神経フィードバックループの到達可能性解析 [全文訳有]

Reachability Analysis of Neural Feedback Loops ( http://arxiv.org/abs/2108.04140v1 )

ライセンス: CC BY 4.0
Michael Everett, Golnaz Habibi, Chuangchuang Sun, Jonathan P. How(参考訳) ニューラルネット(nns)はクローズドループシステムにおいて大きな経験的性能改善を提供するが、システムの安全性特性を形式的に分析する上での課題も導入している。 特に、この研究は、前方到達可能な 'textit{neural feedback loops} (NNコントローラ付きクローズドループシステム) のセットを推定することに焦点を当てている。 最近の研究は、これらの到達可能な集合の境界を提供するが、計算的に扱いやすいアプローチは(有用性を検証するために使用できない)過度に保守的な境界をもたらし、より厳密な境界を与える手法は、オンライン計算にはあまりにも集中的である。 この研究はnnコントローラを用いた閉ループシステムの到達可能性解析のための凸最適化問題を定式化することでギャップを埋める。 ソリューションは以前の(半定義のプログラムベース)メソッドよりもタイトではないが、計算は大幅に高速であり、これらの計算時間の節約によって、新たな入力セット分割技術によって境界を洗練することができる。 新しいフレームワークは不確実性(測定やプロセスノイズなど)と非線形性(多項式ダイナミクスなど)を持つシステム向けに開発され、実世界のシステムに適用可能であることが示されている。 目標状態セットのみを知/特定する場合に初期状態セットの設計を通知すると共に、目標状態に導くことが保証された状態セットを演算する後方到達性解析のための新しいアルゴリズムも提供される。 数値実験によれば、このアプローチは(線形緩和とパーティショニングに基づく)、150\times$のコンサバティズムを、最先端の計算時間と比較して、50\times$の計算時間で5\times$削減することを示している。 さらに, 四元数, 270状態, 多項式系の実験では, それぞれ不確実性源, 高次元, 非線形力学を扱う能力を示す。

Neural Networks (NNs) can provide major empirical performance improvements for closed-loop systems, but they also introduce challenges in formally analyzing those systems' safety properties. In particular, this work focuses on estimating the forward reachable set of \textit{neural feedback loops} (closed-loop systems with NN controllers). Recent work provides bounds on these reachable sets, but the computationally tractable approaches yield overly conservative bounds (thus cannot be used to verify useful properties), and the methods that yield tighter bounds are too intensive for online computation. This work bridges the gap by formulating a convex optimization problem for the reachability analysis of closed-loop systems with NN controllers. While the solutions are less tight than previous (semidefinite program-based) methods, they are substantially faster to compute, and some of those computational time savings can be used to refine the bounds through new input set partitioning techniques, which is shown to dramatically reduce the tightness gap. The new framework is developed for systems with uncertainty (e.g., measurement and process noise) and nonlinearities (e.g., polynomial dynamics), and thus is shown to be applicable to real-world systems. To inform the design of an initial state set when only the target state set is known/specified, a novel algorithm for backward reachability analysis is also provided, which computes the set of states that are guaranteed to lead to the target set. The numerical experiments show that our approach (based on linear relaxations and partitioning) gives a $5\times$ reduction in conservatism in $150\times$ less computation time compared to the state-of-the-art. Furthermore, experiments on quadrotor, 270-state, and polynomial systems demonstrate the method's ability to handle uncertainty sources, high dimensionality, and nonlinear dynamics, respectively.
翻訳日:2021-08-10 17:37:29 公開日:2021-08-09
# (参考訳) 深層学習を用いた脳活動からの視覚デコードと再構成 [全文訳有]

Using Deep Learning for Visual Decoding and Reconstruction from Brain Activity: A Review ( http://arxiv.org/abs/2108.04169v1 )

ライセンス: CC BY 4.0
Madison Van Horn(参考訳) 本稿では,fMRIデータを用いた画像再構成のための深層学習手法について述べる。 より具体的には、画像再構成の質はデコードと再構成アーキテクチャの選択によって決定される。 これらの構造は、画像中の複雑な物体によって、様々な入力刺激への適応性に苦しむことを示す。 また、特徴表現の重要性も評価される。 本稿では,視覚デコーディングにおける深層学習の利用と,深層ニューラルネットワークを用いた再構成が極めて最適であることを示す。

This literature review will discuss the use of deep learning methods for image reconstruction using fMRI data. More specifically, the quality of image reconstruction will be determined by the choice in decoding and reconstruction architectures. I will show that these structures can struggle with adaptability to various input stimuli due to complicated objects in images. Also, the significance of feature representation will be evaluated. This paper will conclude the use of deep learning within visual decoding and reconstruction is highly optimal when using variations of deep neural networks and will provide details of potential future work.
翻訳日:2021-08-10 16:30:03 公開日:2021-08-09
# (参考訳) PACとSQ学習に対する微分学習の力について

On the Power of Differentiable Learning versus PAC and SQ Learning ( http://arxiv.org/abs/2108.04190v1 )

ライセンス: CC BY 4.0
Emmanuel Abbe, Pritish Kamath, Eran Malach, Colin Sandon, Nathan Srebro(参考訳) 我々は,小バッチ確率勾配勾配降下(SGD)による学習が人口減少に与える影響と,モデルやニューラルネットワークの実証的損失に関するバッチ勾配降下(GD)について検討し,これらのパラダイムを用いてどのような学習問題を学べるかを問う。 SGDとGDは、常に統計的クエリ(SQ)で学習をシミュレートできるが、それを超える能力は、ミニバッチサイズ$b$(SGDの場合)とサンプルサイズ$m$(GDの場合)に対する勾配計算の精度$\rho$(GDの場合)に依存する。 例えば$b \rho$が十分小さい場合、SGDはSQ学習を超えてサンプルベースの学習アルゴリズムをシミュレートできるため、その学習能力はPAC学習と同等である。 同様に、サンプルサイズ$m$に対して十分な精度で、サンプルベースの学習アルゴリズムを$m$サンプルに基づいてシミュレートすることもできる。 特に、多項式的に多くの精度(すなわち)を持つ。 $\rho$が指数関数的に小さい場合、SGDとGDはどちらもミニバッチサイズに関係なくPAC学習をシミュレートできる。 一方、$b \rho^2$ が十分大きい場合、SGD のパワーは SQ 学習と同等である。

We study the power of learning via mini-batch stochastic gradient descent (SGD) on the population loss, and batch Gradient Descent (GD) on the empirical loss, of a differentiable model or neural network, and ask what learning problems can be learnt using these paradigms. We show that SGD and GD can always simulate learning with statistical queries (SQ), but their ability to go beyond that depends on the precision $\rho$ of the gradient calculations relative to the minibatch size $b$ (for SGD) and sample size $m$ (for GD). With fine enough precision relative to minibatch size, namely when $b \rho$ is small enough, SGD can go beyond SQ learning and simulate any sample-based learning algorithm and thus its learning power is equivalent to that of PAC learning; this extends prior work that achieved this result for $b=1$. Similarly, with fine enough precision relative to the sample size $m$, GD can also simulate any sample-based learning algorithm based on $m$ samples. In particular, with polynomially many bits of precision (i.e. when $\rho$ is exponentially small), SGD and GD can both simulate PAC learning regardless of the mini-batch size. On the other hand, when $b \rho^2$ is large enough, the power of SGD is equivalent to that of SQ learning.
翻訳日:2021-08-10 16:13:05 公開日:2021-08-09
# GAN Computers Generate Arts? 生成的adversarial networkを用いた視覚芸術・音楽・文芸テキスト生成に関する調査研究

GAN Computers Generate Arts? A Survey on Visual Arts, Music, and Literary Text Generation using Generative Adversarial Network ( http://arxiv.org/abs/2108.03857v1 )

ライセンス: Link先を確認
Sakib Shahriar(参考訳) 「芸術とは、真実を実現するための嘘である。」 -パブロ・ピカソ。 何世紀もの間、人類は想像力を伝えるために芸術制作に専念してきた。 特に、テクノロジーとディープラーニングの進歩は、コンピュータとアルゴリズムによってアート生成が可能かどうかを調べる多くの研究者の注目を集めている。 generative adversarial network (gans) を用いて、フォトリアリスティックな人間の顔の合成や、画像から自動的にキャプションを作成するアプリケーションを実現する。 本調査では, 視覚芸術, 音楽, 文学テキストの生成にGANを用いた最近の作品について概観する。 各種GANアーキテクチャの性能比較と記述についても述べる。 最後に、GANを使ったアートジェネレーションにおける重要な課題は、今後の仕事の推奨とともに強調されている。

"Art is the lie that enables us to realize the truth." - Pablo Picasso. For centuries, humans have dedicated themselves to producing arts to convey their imagination. The advancement in technology and deep learning in particular, has caught the attention of many researchers trying to investigate whether art generation is possible by computers and algorithms. Using generative adversarial networks (GANs), applications such as synthesizing photorealistic human faces and creating captions automatically from images were realized. This survey takes a comprehensive look at the recent works using GANs for generating visual arts, music, and literary text. A performance comparison and description of the various GAN architecture are also presented. Finally, some of the key challenges in art generation using GANs are highlighted along with recommendations for future work.
翻訳日:2021-08-10 15:51:57 公開日:2021-08-09
# 正常胎児脳3次元MRIの分布的ロバスト分割

Distributionally Robust Segmentation of Abnormal Fetal Brain 3D MRI ( http://arxiv.org/abs/2108.04175v1 )

ライセンス: Link先を確認
Lucas Fidon, Michael Aertsen, Nada Mufti, Thomas Deprest, Doaa Emam, Fr\'ed\'eric Guffens, Ernst Schwartz, Michael Ebner, Daniela Prayer, Gregor Kasprian, Anna L. David, Andrew Melbourne, S\'ebastien Ourselin, Jan Deprest, Georg Langs, Tom Vercauteren(参考訳) ディープニューラルネットワークのパフォーマンスは通常、トレーニング画像の数によって増加する。 しかし、すべての画像が、パフォーマンスと堅牢性の改善に同じ重要性を持っているわけではない。 胎児脳mriでは、発達中の脳解剖学的異常が非病理学的例と比較して悪化する。 トレーニングに使用される臨床データセットで一般的に見られるように、少数の異常症例は、異常な発達中の脳の豊かな変動を公平に表現する可能性は低い。 これにより、非病理学的ケースに対する平均性能を最大化することでトレーニングされた機械学習システムが導かれる。 この問題は近年、隠れ層化と呼ばれるようになった。 臨床用途に適合するためには, 病的症例においても, 自動セグメンテーション法は高品質セグメンテーションの結果を確実に達成する必要がある。 本稿では,最先端のディープラーニングパイプラインであるnnu-netの一般化が困難であることを示す。 この問題を軽減するために,深層ニューラルネットワークを訓練し,データセット上のボリューム当たり損失のパーセンタイルを最小化することを提案する。 分散ロバスト最適化(DRO)を用いてこれを実現できることを示す。 DROはトレーニングサンプルを低いパフォーマンスで自動的にリウェイトし、nnU-Netがすべてのケースでより一貫して機能するように促す。 124例の開脊椎バイフィダ症例,51例の頭部MRIを含む368例の胎児脳T2wMRIを用いてアプローチを検証した。

The performance of deep neural networks typically increases with the number of training images. However, not all images have the same importance towards improved performance and robustness. In fetal brain MRI, abnormalities exacerbate the variability of the developing brain anatomy compared to non-pathological cases. A small number of abnormal cases, as is typically available in clinical datasets used for training, are unlikely to fairly represent the rich variability of abnormal developing brains. This leads machine learning systems trained by maximizing the average performance to be biased toward non-pathological cases. This problem was recently referred to as hidden stratification. To be suited for clinical use, automatic segmentation methods need to reliably achieve high-quality segmentation outcomes also for pathological cases. In this paper, we show that the state-of-the-art deep learning pipeline nnU-Net has difficulties to generalize to unseen abnormal cases. To mitigate this problem, we propose to train a deep neural network to minimize a percentile of the distribution of per-volume loss over the dataset. We show that this can be achieved by using Distributionally Robust Optimization (DRO). DRO automatically reweights the training samples with lower performance, encouraging nnU-Net to perform more consistently on all cases. We validated our approach using a dataset of 368 fetal brain T2w MRIs, including 124 MRIs of open spina bifida cases and 51 MRIs of cases with other severe abnormalities of brain development.
翻訳日:2021-08-10 15:51:02 公開日:2021-08-09
# Pathfinder:並列準ニュートン変分推論

Pathfinder: Parallel quasi-Newton variational inference ( http://arxiv.org/abs/2108.03782v1 )

ライセンス: Link先を確認
Lu Zhang, Bob Carpenter, Andrew Gelman, Aki Vehtari(参考訳) 微分可能なログ密度からほぼサンプリングするための変分法であるpathfinderを提案する。 ランダム初期化から、パスファインダーは準ニュートン最適化経路に沿って目標密度への正規近似を見つけ、局所共分散はオプティマイザが生成する逆ヘッセン推定を用いて推定する。 Pathfinder は、KL (Kullback-Leibler) が真の後部へ発散する最小推定値で近似から引き出す。 そこで我々はPathfinderを広範囲の後方分布で評価し,その近似ドローイングが自動微分変分推論(ADVI)より優れていることを示すとともに,1-ワッサーシュタイン距離で測定した動的ハミルトニアンモンテカルロ(HMC)の短鎖と同等であることを示した。 ADVI と短い動的 HMC の実行と比較して、Pathfinder はログ密度と勾配の評価を桁違いに減らし、より困難な後部を縮小する。 複数のパスファインダーにまたがる重要性は、近似ドローの多様性を改善し、1-wasserstein距離をさらに削減し、高原、サドルポイント、またはマイナーモードでの最適化失敗に対するロバスト性の尺度を提供する。 Monte Carlo KL-divergenceの推定値は、再サンプリングバージョンにおける複数の実行と同様に、コアPathfinderアルゴリズムにおいて恥ずかしく並列化可能である。

We introduce Pathfinder, a variational method for approximately sampling from differentiable log densities. Starting from a random initialization, Pathfinder locates normal approximations to the target density along a quasi-Newton optimization path, with local covariance estimated using the inverse Hessian estimates produced by the optimizer. Pathfinder returns draws from the approximation with the lowest estimated Kullback-Leibler (KL) divergence to the true posterior. We evaluate Pathfinder on a wide range of posterior distributions, demonstrating that its approximate draws are better than those from automatic differentiation variational inference (ADVI) and comparable to those produced by short chains of dynamic Hamiltonian Monte Carlo (HMC), as measured by 1-Wasserstein distance. Compared to ADVI and short dynamic HMC runs, Pathfinder requires one to two orders of magnitude fewer log density and gradient evaluations, with greater reductions for more challenging posteriors. Importance resampling over multiple runs of Pathfinder improves the diversity of approximate draws, reducing 1-Wasserstein distance further and providing a measure of robustness to optimization failures on plateaus, saddle points, or in minor modes. The Monte Carlo KL-divergence estimates are embarrassingly parallelizable in the core Pathfinder algorithm, as are multiple runs in the resampling version, further increasing Pathfinder's speed advantage with multiple cores.
翻訳日:2021-08-10 15:46:59 公開日:2021-08-09
# 縮小順序モデルの辞書を用いた工業設計の不確かさ定量化

Uncertainty quantification for industrial design using dictionaries of reduced order models ( http://arxiv.org/abs/2108.04012v1 )

ライセンス: Link先を確認
Thomas Daniel, Fabien Casenave, Nissrine Akkari, David Ryckelynck, Christian Rey(参考訳) 辞書ベースのrom-net(reduced order model)フレームワーク [t. daniel, f. casenave, n. akkari, d. ryckelynck, model order reduction assisted by deep neural networks (rom-net), advanced modeling and simulation in engineering sciences 7 (16), 2020] を検討し,基礎となる方法論と最近の改善を要約する。 この研究の主な貢献は、熱・遠心・圧力負荷を受ける弾塑性高圧タービンブレードの実寿命産業モデルへの完全ワークフローの適用であり、温度負荷場の不確実性によって生じる2つの量(累積塑性ひずみや応力テンソルなど)の不確かさの定量化である。 辞書ベースのROM-netは、温度負荷場の1008モンテカルロ描画における2つの興味量の予測を2時間48分で計算し、これは、領域分解を用いた参照並列解法に対して、2%の相対誤差で600以上のスピードアップに対応する。 この研究のもう1つの貢献は、縮小された積分点の値から完全メッシュ上の2つの量の関心を再構築するためのメタモデルの導出である。

We consider the dictionary-based ROM-net (Reduced Order Model) framework [T. Daniel, F. Casenave, N. Akkari, D. Ryckelynck, Model order reduction assisted by deep neural networks (ROM-net), Advanced modeling and Simulation in Engineering Sciences 7 (16), 2020] and summarize the underlying methodologies and their recent improvements. The main contribution of this work is the application of the complete workflow to a real-life industrial model of an elastoviscoplastic high-pressure turbine blade subjected to thermal, centrifugal and pressure loadings, for the quantification of the uncertainty on dual quantities (such as the accumulated plastic strain and the stress tensor), generated by the uncertainty on the temperature loading field. The dictionary-based ROM-net computes predictions of dual quantities of interest for 1008 Monte Carlo draws of the temperature loading field in 2 hours and 48 minutes, which corresponds to a speedup greater than 600 with respect to a reference parallel solver using domain decomposition, with a relative error in the order of 2%. Another contribution of this work consists in the derivation of a meta-model to reconstruct the dual quantities of interest over the complete mesh from their values on the reduced integration points.
翻訳日:2021-08-10 15:46:31 公開日:2021-08-09
# 事前学習した視覚言語モデルによる実生活画像の検索

Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models ( http://arxiv.org/abs/2108.04024v1 )

ライセンス: Link先を確認
Zheyuan Liu, Cristian Rodriguez-Opazo, Damien Teney, Stephen Gould(参考訳) 合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 既存の手法は、ファッション製品のような狭い領域内の非複雑画像にのみ適用されており、リッチイメージや言語コンテキストにおける詳細な視覚的推論の研究範囲を制限している。 この問題に対処するために、我々は、36,000組以上のクラウドソースのオープンドメインイメージと人間の生成した修正テキストからなるCIRRデータセットのCompose Image Retrievalを収集した。 現状の手法をオープンドメインに拡張するために,自然言語に基づく視覚特徴の修正に,事前学習された視覚言語知識(v&l)を活用するトランスフォーマーモデルであるcirplantを提案する。 Retrievalは、修正された機能に関する隣人のルックアップによって実行される。 比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。 CIRRのリリースとともに、この研究は合成画像検索のさらなる研究を促すだろうと考えている。

We extend the task of composed image retrieval, where an input query consists of an image and short textual description of how to modify the image. Existing methods have only been applied to non-complex images within narrow domains, such as fashion products, thereby limiting the scope of study on in-depth visual reasoning in rich image and language contexts. To address this issue, we collect the Compose Image Retrieval on Real-life images (CIRR) dataset, which consists of over 36,000 pairs of crowd-sourced, open-domain images with human-generated modifying text. To extend current methods to the open-domain, we propose CIRPLANT, a transformer based model that leverages rich pre-trained vision-and-language (V&L) knowledge for modifying visual features conditioned on natural language. Retrieval is then done by nearest neighbor lookup on the modified features. We demonstrate that with a relatively simple architecture, CIRPLANT outperforms existing methods on open-domain images, while matching state-of-the-art accuracy on the existing narrow datasets, such as fashion. Together with the release of CIRR, we believe this work will inspire further research on composed image retrieval.
翻訳日:2021-08-10 15:45:42 公開日:2021-08-09
# マルチスライスネット:新型コロナウイルス診断のための新しい軽量フレームワーク

Multi-Slice Net: A novel light weight framework for COVID-19 Diagnosis ( http://arxiv.org/abs/2108.03786v1 )

ライセンス: Link先を確認
Harshala Gammulle, Tharindu Fernando, Sridha Sridharan, Simon Denman, Clinton Fookes(参考訳) 本稿では,CTスキャンを用いた軽量な新型コロナウイルス診断フレームワークを提案する。 当システムでは, 異種患者レベルの入力に対して堅牢かつ効率的な診断を行うために, 新たな2段階アプローチを採用している。 特徴抽出器として強力なバックボーンネットワークを用い,識別的スライスレベルの特徴を抽出する。 これらの特徴は、軽量ネットワークによって集約され、患者レベルの診断を得る。 集約ネットワークは、少数のトレーニング可能なパラメータを持つとともに、CTボリュームの様々なバリエーションを一般化し、データ取得時に導入されたノイズに適応するための十分な能力を有するように設計されている。 SPGC COVID-19 Radiomics Datasetのベンチマークでは、トレーニング可能なパラメータはわずか2.5万で、Nvidia-GeForce RTX 2080 GPUを使用して1人の患者のCTボリュームを処理するのに平均0.623秒しか必要とせず、ベースラインよりも大幅なパフォーマンス向上を実現しています。

This paper presents a novel lightweight COVID-19 diagnosis framework using CT scans. Our system utilises a novel two-stage approach to generate robust and efficient diagnoses across heterogeneous patient level inputs. We use a powerful backbone network as a feature extractor to capture discriminative slice-level features. These features are aggregated by a lightweight network to obtain a patient level diagnosis. The aggregation network is carefully designed to have a small number of trainable parameters while also possessing sufficient capacity to generalise to diverse variations within different CT volumes and to adapt to noise introduced during the data acquisition. We achieve a significant performance increase over the baselines when benchmarked on the SPGC COVID-19 Radiomics Dataset, despite having only 2.5 million trainable parameters and requiring only 0.623 seconds on average to process a single patient's CT volume using an Nvidia-GeForce RTX 2080 GPU.
翻訳日:2021-08-10 15:44:39 公開日:2021-08-09
# サンプル学習と一般化のための統一正則性尺度

Unified Regularity Measures for Sample-wise Learning and Generalization ( http://arxiv.org/abs/2108.03913v1 )

ライセンス: Link先を確認
Chi Zhang, Xiaoning Ma, Yu Liu, Le Wang, Yuanqi Su, Yuehu Liu(参考訳) 基本的な機械学習理論は、異なるサンプルが学習プロセスとテストプロセスの両方で不均等に寄与していることを示している。 現代のDNN研究は、そのようなサンプルダイアネンスは本質的なパターン情報、すなわちサンプル規則性の分布に根ざしていることを示している。 ネットワークの記憶と一般化に関する最近の発見に触発されて,定式化に一貫性のある2つのプロセスのサンプル正則度尺度を提案した。 具体的には、トレーニング段階におけるトレーニング/テストサンプルの正しい分類の累積数である累積バイナリトレーニング/一般化損失(CBTL/CBGL)を記憶一般化過程の安定性を定量化するために提案する。 ミニバッチSGD最適化のための提案手法の有効性とロバスト性を検証する実験を行った。 トレーニング/テストサンプル選択のさらなる応用は、未処理の計算手順を共有する提案手法が両方のタスクに有効であることを示している。

Fundamental machine learning theory shows that different samples contribute unequally both in learning and testing processes. Contemporary studies on DNN imply that such sample di?erence is rooted on the distribution of intrinsic pattern information, namely sample regularity. Motivated by the recent discovery on network memorization and generalization, we proposed a pair of sample regularity measures for both processes with a formulation-consiste nt representation. Specifically, cumulative binary training/generalizin g loss (CBTL/CBGL), the cumulative number of correct classi?cations of the training/testing sample within training stage, is proposed to quantize the stability in memorization-general ization process; while forgetting/mal-gener alizing events, i.e., the mis-classification of previously learned or generalized sample, are utilized to represent the uncertainty of sample regularity with respect to optimization dynamics. Experiments validated the effectiveness and robustness of the proposed approaches for mini-batch SGD optimization. Further applications on training/testing sample selection show the proposed measures sharing the uni?ed computing procedure could benefit for both tasks.
翻訳日:2021-08-10 15:44:22 公開日:2021-08-09
# LatticeNet:Permutohe dral Latticesを用いた高速時空間クラウドセグメンテーション

LatticeNet: Fast Spatio-Temporal Point Cloud Segmentation Using Permutohedral Lattices ( http://arxiv.org/abs/2108.03917v1 )

ライセンス: Link先を確認
Radu Alexandru Rosu, Peer Sch\"utt, Jan Quenzel and Sven Behnke(参考訳) 深層畳み込みニューラルネットワーク(CNN)は、画像のセグメンテーションに際し優れた性能を示している。 3dデータに同じ方法を適用することは、重いメモリ要件と構造化データの欠如のため、依然として課題となる。 本稿では,生の点群を入力とする3次元意味セグメンテーションのための新しい手法 latticenet を提案する。 点ネットは、スパースパームトヘドラル格子に埋め込まれた局所幾何学を記述する。 この格子はメモリフットプリントを低く保ちながら高速な畳み込みを可能にする。 さらに、格子機能をポイントクラウドに投影するための新しい学習データ依存補間であるDeformSliceを紹介します。 提案手法が最先端性能を実現する複数のデータセット上での3次元セグメント化の結果について述べる。 また、例えば、ネットワークと動的オブジェクトのセグメンテーションを拡張して評価します。

Deep convolutional neural networks (CNNs) have shown outstanding performance in the task of semantically segmenting images. Applying the same methods on 3D data still poses challenges due to the heavy memory requirements and the lack of structured data. Here, we propose LatticeNet, a novel approach for 3D semantic segmentation, which takes raw point clouds as input. A PointNet describes the local geometry which we embed into a sparse permutohedral lattice. The lattice allows for fast convolutions while keeping a low memory footprint. Further, we introduce DeformSlice, a novel learned data-dependent interpolation for projecting lattice features back onto the point cloud. We present results of 3D segmentation on multiple datasets where our method achieves state-of-the-art performance. We also extend and evaluate our network for instance and dynamic object segmentation.
翻訳日:2021-08-10 15:44:03 公開日:2021-08-09
# 階層エッジコンピューティングにおけるモノのインターネットに対する適応的異常検出:コンテキスト境界アプローチ

Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge Computing: A Contextual-Bandit Approach ( http://arxiv.org/abs/2108.03872v1 )

ライセンス: Link先を確認
Mao V. Ngo, Tie Luo, Tony Q.S. Quek(参考訳) ディープニューラルネットワーク(DNN)の進歩は、IoTアプリケーションにおける異常データのリアルタイム検出を大幅に強化した。 複雑なDNNモデルは高い精度を提供するが、一般的なIoTデバイスは計算負荷をほとんど必要とせず、負荷をクラウドにオフロードする対策は長い遅延を引き起こす。 本稿では,階層型エッジコンピューティング(hec)を用いた適応的異常検出手法を提案する。 具体的には,複雑性が増大する複数の異常検出dnnモデルを構築し,それぞれを対応するhec層に関連付ける。 次に,文脈帯域問題として定式化し,強化学習方針ネットワークを用いて解く適応モデル選択スキームを設計する。 また,分散モデルを活用することにより,学習プロセスを高速化するための並列性ポリシートレーニング手法も取り入れている。 私たちは、実際のIoTデバイスを使用してHECテストベッドを構築し、単変量および多変量IoTデータセットを使用して、コンテキスト帯域アプローチを実装し、評価します。 ベースラインと最先端の両方のスキームと比較して、我々の適応的手法は単変量データセット上で最高の精度と遅延のトレードオフを達成し、最良の(しかし、柔軟性のない)スキームよりもわずかに長い遅延で、多変量データセット上で最高の精度とF1スコアを達成する。

The advances in deep neural networks (DNN) have significantly enhanced real-time detection of anomalous data in IoT applications. However, the complexity-accuracy- delay dilemma persists: complex DNN models offer higher accuracy, but typical IoT devices can barely afford the computation load, and the remedy of offloading the load to the cloud incurs long delay. In this paper, we address this challenge by proposing an adaptive anomaly detection scheme with hierarchical edge computing (HEC). Specifically, we first construct multiple anomaly detection DNN models with increasing complexity, and associate each of them to a corresponding HEC layer. Then, we design an adaptive model selection scheme that is formulated as a contextual-bandit problem and solved by using a reinforcement learning policy network. We also incorporate a parallelism policy training method to accelerate the training process by taking advantage of distributed models. We build an HEC testbed using real IoT devices, implement and evaluate our contextual-bandit approach with both univariate and multivariate IoT datasets. In comparison with both baseline and state-of-the-art schemes, our adaptive approach strikes the best accuracy-delay tradeoff on the univariate dataset, and achieves the best accuracy and F1-score on the multivariate dataset with only negligibly longer delay than the best (but inflexible) scheme.
翻訳日:2021-08-10 15:41:30 公開日:2021-08-09
# モーメント付き確率勾配の過度パラメータについて

On the Hyperparameters in Stochastic Gradient Descent with Momentum ( http://arxiv.org/abs/2108.03947v1 )

ライセンス: Link先を確認
Bin Shi(参考訳) 本論文では,[SSJ20]と同じルーチンに従って,運動量(運動量を含むSGD)による確率勾配降下の理論解析を継続する。 異なることに、運動量を持つSGDでは、非凸最適化における線形収束率に重要な役割を果たす2つのハイパーパラメータ、学習速度と運動量係数が示される。 解析は,運動量を持つSGDの連続代理として機能する超パラメータ依存確率微分方程式(hp依存SDE)を用いて行う。 同様に、運動量を持つSGDの連続時間定式化の線形収束を確立し、クラマース・フォッカー・プランク作用素のスペクトルを解析して最適線形率の明示的な式を得る。 比較して,学習速度についてのみSGDの収束の最適線形速度と最終ギャップが,運動量導入時の運動量係数が0から1に増加するにつれてどのように変化するかを示す。 そこで本研究では,運動量を持つSGDが標準のSGDよりも速く,より堅牢に収束する理由を数学的に解釈する。 最後に、ノイズの存在下でのネステロフ運動量は、標準運動量と本質的な違いがないことを示す。

Following the same routine as [SSJ20], we continue to present the theoretical analysis for stochastic gradient descent with momentum (SGD with momentum) in this paper. Differently, for SGD with momentum, we demonstrate it is the two hyperparameters together, the learning rate and the momentum coefficient, that play the significant role for the linear rate of convergence in non-convex optimization. Our analysis is based on the use of a hyperparameters-depe ndent stochastic differential equation (hp-dependent SDE) that serves as a continuous surrogate for SGD with momentum. Similarly, we establish the linear convergence for the continuous-time formulation of SGD with momentum and obtain an explicit expression for the optimal linear rate by analyzing the spectrum of the Kramers-Fokker-Planc k operator. By comparison, we demonstrate how the optimal linear rate of convergence and the final gap for SGD only about the learning rate varies with the momentum coefficient increasing from zero to one when the momentum is introduced. Then, we propose a mathematical interpretation why the SGD with momentum converges faster and more robust about the learning rate than the standard SGD in practice. Finally, we show the Nesterov momentum under the existence of noise has no essential difference with the standard momentum.
翻訳日:2021-08-10 15:40:19 公開日:2021-08-09
# Johnson-Lindenstraus s Lemma, Linear and linear Random Projections, Random Fourier Features, Random Kitchen Sinks: Tutorial and Survey

Johnson-Lindenstraus s Lemma, Linear and Nonlinear Random Projections, Random Fourier Features, and Random Kitchen Sinks: Tutorial and Survey ( http://arxiv.org/abs/2108.04172v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) ジョンソン・リンデンシュトラウス(JL)補題と線形および非線形ランダム射影に関するチュートリアルおよび調査論文である。 まず線形ランダム射影から始め、JL補題とその証明によってその正しさを正当化する。 次に、$\ell_1$ノルムと補間ノルムを持つスパースランダムプロジェクションを導入する。 低ランク行列近似と近接近傍探索の2つのランダムプロジェクションのハイパーキューブへのランダムプロジェクションによる主な応用を解説する。 ランダムフーリエ特徴(RFF)とランダムキッチンシンク(RKS)は非線形ランダム投影の手法として説明される。 極端学習機械、ランダム重み付きニューラルネットワーク、ランダムプロジェクションのアンサンブルを含む非線形ランダムプロジェクションの他の方法も紹介されている。

This is a tutorial and survey paper on the Johnson-Lindenstraus s (JL) lemma and linear and nonlinear random projections. We start with linear random projection and then justify its correctness by JL lemma and its proof. Then, sparse random projections with $\ell_1$ norm and interpolation norm are introduced. Two main applications of random projection, which are low-rank matrix approximation and approximate nearest neighbor search by random projection onto hypercube, are explained. Random Fourier Features (RFF) and Random Kitchen Sinks (RKS) are explained as methods for nonlinear random projection. Some other methods for nonlinear random projection, including extreme learning machine, randomly weighted neural networks, and ensemble of random projections, are also introduced.
翻訳日:2021-08-10 15:39:57 公開日:2021-08-09
# AutoVideo: 自動ビデオアクション認識システム

AutoVideo: An Automated Video Action Recognition System ( http://arxiv.org/abs/2108.04212v1 )

ライセンス: Link先を確認
Daochen Zha, Zaid Pervaiz Bhat, Yi-Wei Chen, Yicheng Wang, Sirui Ding, AnmollKumar Jain, Mohammad Qazim Bhat, Kwei-Herng Lai, Jiaben Chen, Na Zou, Xia Hu(参考訳) 行動認識はビデオ理解にとって重要な課題である。 本稿では,自動ビデオ行動認識のためのPythonシステムであるAutoVideoを提案する。 現在、7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートしている。 モデル動物園のみを提供する既存のライブラリとは異なり、AutoVideoは標準パイプライン言語で構築されている。 基本的なビルディングブロックはプリミティブで、前処理モジュールやアルゴリズムをハイパーパラメータでラップする。 AutoVideoは高度にモジュール化され拡張可能である。 AutoML検索と簡単に組み合わせることができる。 パイプライン言語は非常に一般的なので,将来的にはさまざまなビデオ関連タスクのアルゴリズムでAutoVideoを簡単に拡張できるようになります。 autovideoはmitライセンスでhttps://github.com/d atamllab/autovideoでリリース

Action recognition is a crucial task for video understanding. In this paper, we present AutoVideo, a Python system for automated video action recognition. It currently supports seven action recognition algorithms and various pre-processing modules. Unlike the existing libraries that only provide model zoos, AutoVideo is built with the standard pipeline language. The basic building block is primitive, which wraps a pre-processing module or an algorithm with some hyperparameters. AutoVideo is highly modular and extendable. It can be easily combined with AutoML searchers. The pipeline language is quite general so that we can easily enrich AutoVideo with algorithms for various other video-related tasks in the future. AutoVideo is released under MIT license at https://github.com/d atamllab/autovideo
翻訳日:2021-08-10 15:39:06 公開日:2021-08-09
# 相似パターンとエンコーダ・デコーダ・ネットワークの組み合わせによる認知的可算な帰納法

Not quite there yet: Combining analogical patterns and encoder-decoder networks for cognitively plausible inflection ( http://arxiv.org/abs/2108.03968v1 )

ライセンス: Link先を確認
Basilio Calderone (CLLE), Nabil Hathout (CLLE), Olivier Bonami (LLF UMR7110)(参考訳) 本論文はSIGMORPHON 2021 Shared Task 0 の第2部に提出された4つのモデルについて述べる。 我々のゴールは、事前にコンパイルされたアナログパターンとエンコーダ・デコーダアーキテクチャを組み合わせることの有用性を探ることである。 2つのモデルが、ネットワークの入力または出力のいずれかのパターンを用いて設計されている。 2つの余分なモデルにより、同じパラダイムセルに存在する既存の屈折形態とナンス反転形態の生の類似性の役割と、類似パターンの型頻度の役割が制御された。 我々の戦略は、外部リソースを使わずに、SIGMORPHONオーガナイザが提供するデータのみに訴えるモデルという意味で、完全に内在的である。 モデル2は提案システムの中で第2位であり,ネットワークアーキテクチャにおける類似パターンの導入は話者の予測を模倣するのに有用であることが示唆された。

The paper presents four models submitted to Part 2 of the SIGMORPHON 2021 Shared Task 0, which aims at replicating human judgements on the inflection of nonce lexemes. Our goal is to explore the usefulness of combining pre-compiled analogical patterns with an encoder-decoder architecture. Two models are designed using such patterns either in the input or the output of the network. Two extra models controlled for the role of raw similarity of nonce inflected forms to existing inflected forms in the same paradigm cell, and the role of the type frequency of analogical patterns. Our strategy is entirely endogenous in the sense that the models appealing solely to the data provided by the SIGMORPHON organisers, without using external resources. Our model 2 ranks second among all submitted systems, suggesting that the inclusion of analogical patterns in the network architecture is useful in mimicking speakers' predictions.
翻訳日:2021-08-10 15:37:57 公開日:2021-08-09
# 人間レベル人工知能を目指して

Toward Human-Level Artificial Intelligence ( http://arxiv.org/abs/2108.03793v1 )

ライセンス: Link先を確認
Deokgun Park(参考訳) 本稿では,1)HLAIの定義,2)HLAIの開発・テスト環境,3)HLAIの認知アーキテクチャなど,HLAIのプログラミングに関する研究について述べる。 AIという言葉は広い意味で使われており、HLAIは明確に定義されていない。 私は、人間レベルの知性の本質は、言語を通じて他人の経験から学ぶ能力であると主張する。 重要なのは、言語によって記述されたイベントが、エージェントが行動ポリシーの更新のために直接経験するのと同じ効果を持つということだ。 このような能力でモデルを開発し、テストするために、SEDRoと呼ばれるシミュレーション環境を開発している。 3Dホームがあり、母親のキャラクターが赤ちゃん(学習エージェント)の世話をし、言語を教える。 この環境は、誕生から1年間、人間の赤ちゃんに匹敵する体験を提供する。 最後に,変調階層予測記憶(mHPM)と呼ばれるHLAIの認知アーキテクチャを提案する。 mHPMには3つの要素がある: ベクトル信号の列が与えられた次のベクトルを予測することを学ぶ普遍的なモジュール、それらのモジュールの階層的ネットワーク、そして学習の報酬に基づく変調である。 mHPMは新皮質の働きをモデル化するが、海馬、報酬体系、本能、扁桃体などの自然補助単位も重要な役割を果たす。

In this paper, we present our research on programming human-level artificial intelligence (HLAI), including 1) a definition of HLAI, 2) an environment to develop and test HLAI, and 3) a cognitive architecture for HLAI. The term AI is used in a broad meaning, and HLAI is not clearly defined. I claim that the essence of Human-Level Intelligence to be the capability to learn from others' experiences via language. The key is that the event described by language has the same effect as if the agent experiences it firsthand for the update of the behavior policy. To develop and test models with such a capability, we are developing a simulated environment called SEDRo. There is a 3D Home, and a mother character takes care of the baby (the learning agent) and teaches languages. The environment provides comparable experiences to that of a human baby from birth to one year. Finally, I propose a cognitive architecture of HLAI called Modulated Heterarchical Prediction Memory (mHPM). In mHPM, there are three components: a universal module that learns to predict the next vector given the sequence of vector signals, a heterarchical network of those modules, and a reward-based modulation of learning. mHPM models the workings of the neocortex but the innate auxiliary units such hippocampus, reward system, instincts, and amygdala play critical roles, too.
翻訳日:2021-08-10 15:36:02 公開日:2021-08-09
# オンライン旅行計画のための空間的意図決定ネットワーク

Spatial-Temporal Deep Intention Destination Networks for Online Travel Planning ( http://arxiv.org/abs/2108.03989v1 )

ライセンス: Link先を確認
Yu Li, Fei Xiong, Ziyi Wang, Zulong Chen, Chuanfei Xu, Yuyu Yin, Li Zhou(参考訳) 現在、ニューラルネットワークはユーザーのオンライン旅行計画に広く使われている。 パーソナライズド・トラベル・プランニングには多くの応用があり、交通タイプ、目的地推定、予算制限、混雑予測など様々な要因に影響されている。 これらの要因の中で,ユーザの意図的目的地予測は,オンライン旅行プラットフォームにおいて重要な課題である。 理由は、ユーザーが旅行計画に興味を持つのは、計画が実際の目的地と一致する場合に限られるからである。 そこで本稿では,オンライン旅行プラットフォームにおけるユーザの意図的目的地の予測に焦点をあてる。 詳細は、オンライン旅行プラットフォーム(FliggyやAirbnbなど)としてユーザ向けの旅行プランを推奨し、ホテルパッケージや観光パッケージなど、さまざまな休暇アイテムで構成されています。 旅行計画における実際の目的地の予測は困難である。 まず、ユーザの意図の目的地は、旅行状況(例えば、旅行の計画や旅行の完了など)と非常に関連がある。 第2に、ユーザのアクション(例)。 さまざまな製品タイプ(例えば、クリック、検索)上のクリック。 列車の切符、ビザ申請) 目的地の予測に異なる表示がある。 第3に、ユーザーは公休日直前に旅行プラットフォームを訪れることがあるため、オンライン旅行プラットフォームにおけるユーザーの行動は、よりスパース、低頻度、長周期である。 そこで本稿では, 深層マルチシーケンス融合ニューラルネットワーク(DMSN)を提案する。 実データセットを用いて提案したDMSNモデルの性能を評価する。 実験の結果,dmsnモデルでは高い意図方向予測精度が得られることがわかった。

Nowadays, artificial neural networks are widely used for users' online travel planning. Personalized travel planning has many real applications and is affected by various factors, such as transportation type, intention destination estimation, budget limit and crowdness prediction. Among those factors, users' intention destination prediction is an essential task in online travel platforms. The reason is that, the user may be interested in the travel plan only when the plan matches his real intention destination. Therefore, in this paper, we focus on predicting users' intention destinations in online travel platforms. In detail, we act as online travel platforms (such as Fliggy and Airbnb) to recommend travel plans for users, and the plan consists of various vacation items including hotel package, scenic packages and so on. Predicting the actual intention destination in travel planning is challenging. Firstly, users' intention destination is highly related to their travel status (e.g., planning for a trip or finishing a trip). Secondly, users' actions (e.g. clicking, searching) over different product types (e.g. train tickets, visa application) have different indications in destination prediction. Thirdly, users may mostly visit the travel platforms just before public holidays, and thus user behaviors in online travel platforms are more sparse, low-frequency and long-period. Therefore, we propose a Deep Multi-Sequences fused neural Networks (DMSN) to predict intention destinations from fused multi-behavior sequences. Real datasets are used to evaluate the performance of our proposed DMSN models. Experimental results indicate that the proposed DMSN models can achieve high intention destination prediction accuracy.
翻訳日:2021-08-10 15:35:40 公開日:2021-08-09
# インセプション残差ブロックを用いた人間の運動予測戦略の開発

Development of Human Motion Prediction Strategy using Inception Residual Block ( http://arxiv.org/abs/2108.04001v1 )

ライセンス: Link先を確認
Shekhar Gupta, Gaurav Kumar Yadav, G. C. Nandi(参考訳) 人間の動き予測はコンピュータビジョンとロボット工学において重要なタスクである。 それは、人間とロボットの相互作用、空港のセキュリティシステムのための人間のアクショントラッキング、自律走行車ナビゲーション、コンピュータゲームなど、多用途のアプリケーションの可能性を持っている。 しかし,空間的特徴や時間的特徴を正しく検出することが困難であるため,過去の行動に基づく人間の動作予測は極めて難しい課題である。 Inception Residual Block (IRB) は,人間のポーズの時間的特徴を検出するために,複数のカーネルを処理して有能な特徴を捉えることができる。 本稿では,カーネルサイズと入力シーケンス長が異なる複数の1次元畳み込みニューラルネットワーク(CNN)を用いて,適切な埋め込みを実現することを提案する。 カーネルが異なる受容領域を横切ると、複数の時間スケールでより小さくより大きな正気な特徴を検出する。 本研究の主な貢献は,入力と入力ブロックの出力との間の残差接続を提案し,前回観測したポーズと次の予測ポーズとの連続性を示すことである。 提案するアーキテクチャでは,人間のポーズに関する事前知識をよりよく学習し,論文で詳述した予測精度をはるかに高めている。 さらに, 空間的特徴学習能力の向上により, グラフ畳み込みニューラルネットワーク(GCN)への入力として, 初期残差ブロックの出力を供給することを提案する。 モデルの設計を改善するためにパラメトリック解析を行い、その後、人間の3.6mデータセットに対するアプローチを評価し、短期的および長期的予測と、私たちのモデルがポーズ結果の大部分を上回る芸術論文の状態との比較を行い、その詳細を論文に詳述した。

Human Motion Prediction is a crucial task in computer vision and robotics. It has versatile application potentials such as in the area of human-robot interactions, human action tracking for airport security systems, autonomous car navigation, computer gaming to name a few. However, predicting human motion based on past actions is an extremely challenging task due to the difficulties in detecting spatial and temporal features correctly. To detect temporal features in human poses, we propose an Inception Residual Block(IRB), due to its inherent capability of processing multiple kernels to capture salient features. Here, we propose to use multiple 1-D Convolution Neural Network (CNN) with different kernel sizes and input sequence lengths and concatenate them to get proper embedding. As kernels strides over different receptive fields, they detect smaller and bigger salient features at multiple temporal scales. Our main contribution is to propose a residual connection between input and the output of the inception block to have a continuity between the previously observed pose and the next predicted pose. With this proposed architecture, it learns prior knowledge much better about human poses and we achieve much higher prediction accuracy as detailed in the paper. Subsequently, we further propose to feed the output of the inception residual block as an input to the Graph Convolution Neural Network (GCN) due to its better spatial feature learning capability. We perform a parametric analysis for better designing of our model and subsequently, we evaluate our approach on the Human 3.6M dataset and compare our short-term as well as long-term predictions with the state of the art papers, where our model outperforms most of the pose results, the detailed reasons of which have been elaborated in the paper.
翻訳日:2021-08-10 15:35:13 公開日:2021-08-09
# 解集合プログラミングにおけるモーダル論理S5の満足度

Modal Logic S5 Satisfiability in Answer Set Programming ( http://arxiv.org/abs/2108.04194v1 )

ライセンス: Link先を確認
Mario Alviano, Sotiris Batsakis, George Baryannis(参考訳) モーダル論理 S5 は、ネストしたモーダル演算子を扱うための単純化されたアプローチのため、いくつかの実用的応用につながっている。 s5の公式の満足性を評価するための効率的な実装は、一般的にはスコーレム化に依存して命題論理式に変換し、基本的には各解釈集合(可能世界)に対して命題原子のコピーを導入する。 このアプローチは単純であるが、しばしば処理が難しい大きな公式になってしまうため、より控えめな構成が必要となる。 本研究では,このような構成の実装にAnswer Set Programmingを用いること,特に,到達可能性関係を用いて,すべての世界に関係する命題原子を特定することを提案する。 提案する符号化は、モーダル作用素が根ざした部分形式関係などの他の性質を利用するように設計されている。 提案する符号化の実験的評価は,到達可能性の関係が非常に効果的であり,satに基づく最先端のs5ソルバに匹敵する性能を示す。 本論文はTPLPの受容について検討中である。

Modal logic S5 has attracted significant attention and has led to several practical applications, owing to its simplified approach to dealing with nesting modal operators. Efficient implementations for evaluating satisfiability of S5 formulas commonly rely on Skolemisation to convert them into propositional logic formulas, essentially by introducing copies of propositional atoms for each set of interpretations (possible worlds). This approach is simple, but often results into large formulas that are too difficult to process, and therefore more parsimonious constructions are required. In this work, we propose to use Answer Set Programming for implementing such constructions, and in particular for identifying the propositional atoms that are relevant in every world by means of a reachability relation. The proposed encodings are designed to take advantage of other properties such as entailment relations of subformulas rooted by modal operators. An empirical assessment of the proposed encodings shows that the reachability relation is very effective and leads to comparable performance to a state-of-the-art S5 solver based on SAT, while entailment relations are possibly too expensive to reason about and may result in overhead. This paper is under consideration for acceptance in TPLP.
翻訳日:2021-08-10 15:34:46 公開日:2021-08-09
# よりシンプルに:分類器重み変換による数ショットセマンティクスセグメンテーション

Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer ( http://arxiv.org/abs/2108.03032v2 )

ライセンス: Link先を確認
Zhihe lu, Sen He, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang(参考訳) 数ショットのセマンティックセグメンテーションモデルは通常、CNNエンコーダ、CNNデコーダ、および単純な分類器(前景と背景画素を分離する)で構成される。 既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。 しかし、単一のサポートセットイメージが利用可能であることを考えれば、新しいクラスへの3つのコンポーネントの効果的なモデル適応は極めて困難である。 本稿では,最も単純なコンポーネントである分類器にのみ焦点を合わせながら,エンコーダとデコーダを事前学習に残しながら,メタラーニングタスクの簡略化を提案する。 十分なアノテーションを持つ多様なトレーニングクラスに対して、オフザシェルフセグメンテーションモデルを事前訓練した場合、エンコーダとデコーダは、任意の未確認クラスに適用可能なリッチな識別的特徴をキャプチャし、その後のメタ学習段階を不要にする、という仮説を立てる。 分類器メタラーニングでは,各問合せ画像に対して,学習した分類器の重みを動的に適応するように設計された分類器重み変換器(CWT)を導入する。 2つの標準ベンチマークの大規模な実験は、その単純さにもかかわらず、我々のメソッドは最先端の代替手法よりも優れていることを示している。

A few-shot semantic segmentation model is typically composed of a CNN encoder, a CNN decoder and a simple classifier (separating foreground and background pixels). Most existing methods meta-learn all three model components for fast adaptation to a new class. However, given that as few as a single support set image is available, effective model adaption of all three components to the new class is extremely challenging. In this work we propose to simplify the meta-learning task by focusing solely on the simplest component, the classifier, whilst leaving the encoder and decoder to pre-training. We hypothesize that if we pre-train an off-the-shelf segmentation model over a set of diverse training classes with sufficient annotations, the encoder and decoder can capture rich discriminative features applicable for any unseen classes, rendering the subsequent meta-learning stage unnecessary. For the classifier meta-learning, we introduce a Classifier Weight Transformer (CWT) designed to dynamically adapt the supportset trained classifier's weights to each query image in an inductive way. Extensive experiments on two standard benchmarks show that despite its simplicity, our method outperforms the state-of-the-art alternatives, often by a large margin.Code is available on https://github.com/z hiheLu/CWT-for-FSS.
翻訳日:2021-08-10 15:34:26 公開日:2021-08-09
# 意味セグメンテーションのための境界認識グラフ推論

Boundary-aware Graph Reasoning for Semantic Segmentation ( http://arxiv.org/abs/2108.03791v1 )

ライセンス: Link先を確認
Haoteng Tang, Haozhe Jia, Weidong Cai, Heng Huang, Yong Xia, Liang Zhan(参考訳) 本稿では,セマンティックセグメンテーションのための長距離コンテキスト特徴を学習するための境界対応グラフ推論(BGR)モジュールを提案する。 バックボーン機能に基づいてグラフを直接構築する代わりに、BGRモジュールはグラフ構築シナリオとセグメンテーションの誤った領域を結合する合理的な方法を模索する。 我々のBGRモジュールは境界領域に広範に分布しているため、境界スコアマップを事前知識として使用し、グラフノード接続を強化することにより、境界領域に焦点をあてるグラフ推論を導出する。 さらに,BGRモジュールを現在のセグメンテーションバックボーンに統合することで計算コストを削減するために,効率的なグラフ畳み込み実装を採用している。 3つの挑戦的セグメンテーションベンチマークの大規模な実験は、セグメンテーションのためのBGRモジュールの有効性を示す。

In this paper, we propose a Boundary-aware Graph Reasoning (BGR) module to learn long-range contextual features for semantic segmentation. Rather than directly construct the graph based on the backbone features, our BGR module explores a reasonable way to combine segmentation erroneous regions with the graph construction scenario. Motivated by the fact that most hard-to-segment pixels broadly distribute on boundary regions, our BGR module uses the boundary score map as prior knowledge to intensify the graph node connections and thereby guide the graph reasoning focus on boundary regions. In addition, we employ an efficient graph convolution implementation to reduce the computational cost, which benefits the integration of our BGR module into current segmentation backbones. Extensive experiments on three challenging segmentation benchmarks demonstrate the effectiveness of our proposed BGR module for semantic segmentation.
翻訳日:2021-08-10 15:22:10 公開日:2021-08-09
# Paint Transformer:ストローク予測によるフィードフォワードニューラルペイント

Paint Transformer: Feed Forward Neural Painting with Stroke Prediction ( http://arxiv.org/abs/2108.03798v1 )

ライセンス: Link先を確認
Songhua Liu, Tianwei Lin, Dongliang He, Fu Li, Ruifeng Deng, Xin Li, Errui Ding, Hao Wang(参考訳) ニューラル・ペインティング(Neural painting)とは、ある画像に対して一連のストロークを生成し、ニューラルネットワークを用いて非フォトリアリスティックに再現する手順である。 強化学習(RL)に基づくエージェントは、このタスクのためにステップごとにストロークシーケンスを生成できるが、安定したRLエージェントを訓練するのは容易ではない。 一方、ストローク最適化手法は、大規模な探索空間において反復的に一連のストロークパラメータを探索する。 本稿では,従来の手法と異なり,このタスクをセット予測問題として定式化し,フィードフォワードネットワークで設定したストロークのパラメータを予測するために,Paint Transformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。 このようにして、モデルが並列に一連のストロークを生成し、ほぼリアルタイムでサイズ512 * 512の最終的な絵を得ることができる。 さらに重要なことは、ペイントトランスフォーマーをトレーニングするためのデータセットがないため、優れた一般化能力を維持しつつ、既成のデータセットなしでトレーニングできるような、自己トレーニングパイプラインを考案する。 提案手法は,従来手法よりも低いトレーニングと推論コストで絵筆性能を向上できることが実証された。 コードとモデルは利用可能である。

Neural painting refers to the procedure of producing a series of strokes for a given image and non-photo-realistica lly recreating it using neural networks. While reinforcement learning (RL) based agents can generate a stroke sequence step by step for this task, it is not easy to train a stable RL agent. On the other hand, stroke optimization methods search for a set of stroke parameters iteratively in a large search space; such low efficiency significantly limits their prevalence and practicality. Different from previous methods, in this paper, we formulate the task as a set prediction problem and propose a novel Transformer-based framework, dubbed Paint Transformer, to predict the parameters of a stroke set with a feed forward network. This way, our model can generate a set of strokes in parallel and obtain the final painting of size 512 * 512 in near real time. More importantly, since there is no dataset available for training the Paint Transformer, we devise a self-training pipeline such that it can be trained without any off-the-shelf dataset while still achieving excellent generalization capability. Experiments demonstrate that our method achieves better painting performance than previous ones with cheaper training and inference costs. Codes and models are available.
翻訳日:2021-08-10 15:21:55 公開日:2021-08-09
# psgr:ct画像によるcovid-19肺炎セグメンテーションの画素別スパースグラフ推論

PSGR: Pixel-wise Sparse Graph Reasoning for COVID-19 Pneumonia Segmentation in CT Images ( http://arxiv.org/abs/2108.03809v1 )

ライセンス: Link先を確認
Haozhe Jia, Haoteng Tang, Guixiang Ma, Weidong Cai, Heng Huang, Liang Zhan, Yong Xia(参考訳) コンピュータ断層撮影(CT)画像における感染部位の自動的かつ正確なセグメンテーションは、新型コロナウイルスの病期と治療反応の予測に重要である。 いくつかのディープ畳み込みニューラルネットワーク(DCNN)がこのタスクのために設計されており、その性能は限られた局所受容領域と不十分なグローバル推論能力によって抑制される傾向にある。 本稿では,ピクセルワイズスパースグラフ推論(psgr)モジュールを提案し,それをセグメンテーションネットワークに挿入することで,ct画像における新型コロナウイルス感染地域セグメンテーションの長距離依存性のモデリングを強化する。 PSGRモジュールでは、まず、セグメント化バックボーンが生成した特徴に基づいて各ピクセルをノード上に投影してグラフを構築し、その後、不確実な各画素に最強の接続を保持することで、疎結合なグラフに変換する。 疎結合グラフ上で長距離情報推論を行い、拡張された特徴を生成する。 このモジュールの利点は、2つある:(1)不正確なピクセル対ノードの投影を避けるだけでなく、各ピクセルの固有情報をグローバル推論のために保存する、(2)疎結合グラフの構築結果は効果的な情報検索とノイズ伝搬の低減をもたらす。 提案手法は3つの公開データセット上の4つの広く利用されているセグメンテーションモデルに対して評価されている。 以上の結果から,PSGRモジュールを用いたセグメンテーションモデルは,CT画像中の新型コロナウイルス感染領域を効果的にセグメンテーションすることができ,他の競合モデルよりも優れた結果が得られた。

Automated and accurate segmentation of the infected regions in computed tomography (CT) images is critical for the prediction of the pathological stage and treatment response of COVID-19. Several deep convolutional neural networks (DCNNs) have been designed for this task, whose performance, however, tends to be suppressed by their limited local receptive fields and insufficient global reasoning ability. In this paper, we propose a pixel-wise sparse graph reasoning (PSGR) module and insert it into a segmentation network to enhance the modeling of long-range dependencies for COVID-19 infected region segmentation in CT images. In the PSGR module, a graph is first constructed by projecting each pixel on a node based on the features produced by the segmentation backbone, and then converted into a sparsely-connected graph by keeping only K strongest connections to each uncertain pixel. The long-range information reasoning is performed on the sparsely-connected graph to generate enhanced features. The advantages of this module are two-fold: (1) the pixel-wise mapping strategy not only avoids imprecise pixel-to-node projections but also preserves the inherent information of each pixel for global reasoning; and (2) the sparsely-connected graph construction results in effective information retrieval and reduction of the noise propagation. The proposed solution has been evaluated against four widely-used segmentation models on three public datasets. The results show that the segmentation model equipped with our PSGR module can effectively segment COVID-19 infected regions in CT images, outperforming all other competing models.
翻訳日:2021-08-10 15:21:34 公開日:2021-08-09
# 選択・精細化による視線追跡のためのビデオアノテーション

Video Annotation for Visual Tracking via Selection and Refinement ( http://arxiv.org/abs/2108.03821v1 )

ライセンス: Link先を確認
Kenan Dai, Jie Zhao, Lijun Wang, Dong Wang, Jianhua Li, Huchuan Lu, Xuesheng Qian, Xiaoyun Yang(参考訳) ディープラーニングベースのビジュアルトラッカは、大量のビデオデータセットをオフラインで事前トレーニングし、正確なバウンディングボックスアノテーションを伴います。 本稿では,ビデオシーケンスに対するボックスアノテーションのバウンディングを容易にする新しいフレームワークを提案する。 目標位置の時間的コヒーレンスを捉え、その品質を測定することで信頼性の高い追跡結果を選択することができる時間アセスメントネットワーク(t-asses net)を提案する。 また,対象の外観と時間的形状の制約を考慮し,不正確な追跡結果を補正することで,選択された追跡結果のさらなる向上を図るために,vg-refine net (visual-geometryfine ing network) も設計されている。 上記の2つのネットワークの組み合わせは、自動ビデオアノテーションの品質を保証するための原則的なアプローチを提供する。 大規模追跡ベンチマークによる実験は,高度に正確な境界ボックスアノテーションを提供でき,94.0%の人的労力削減が可能であり,強化されたトレーニングデータによる追跡性能の向上に有効な手段であることを示す。

Deep learning based visual trackers entail offline pre-training on large volumes of video datasets with accurate bounding box annotations that are labor-expensive to achieve. We present a new framework to facilitate bounding box annotations for video sequences, which investigates a selection-and-refine ment strategy to automatically improve the preliminary annotations generated by tracking algorithms. A temporal assessment network (T-Assess Net) is proposed which is able to capture the temporal coherence of target locations and select reliable tracking results by measuring their quality. Meanwhile, a visual-geometry refinement network (VG-Refine Net) is also designed to further enhance the selected tracking results by considering both target appearance and temporal geometry constraints, allowing inaccurate tracking results to be corrected. The combination of the above two networks provides a principled approach to ensure the quality of automatic video annotation. Experiments on large scale tracking benchmarks demonstrate that our method can deliver highly accurate bounding box annotations and significantly reduce human labor by 94.0%, yielding an effective means to further boost tracking performance with augmented training data.
翻訳日:2021-08-10 15:21:06 公開日:2021-08-09
# 監視ビデオにおける弱教師付き時空間異常検出

Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video ( http://arxiv.org/abs/2108.03825v1 )

ライセンス: Link先を確認
Jie Wu, Wei Zhang, Guanbin Li, Wenhao Wu, Xiao Tan, Yingying Li, Errui Ding, Liang Lin(参考訳) 本稿では,監視ビデオにWakly-Supervised Spatio-Temporal Anomaly Detection (WSSTAD)と呼ばれる新しいタスクを導入する。 特に、ビデオがトリミングされていない場合、WSSTADは、トレーニング中の監督として粗いビデオレベルのアノテーションのみを伴って、異常イベントを囲む時空間管(すなわち連続する境界ボックス列)をローカライズすることを目的としている。 この課題に対処するため,両時空間領域に複数粒度を持つ提案を入力として二分岐ネットワークを提案する。 各ブランチは、管/ビデオレット間の相関を捉えるために関係推論モジュールを使用し、異常な振る舞いの概念学習のためのリッチなコンテキスト情報と複雑なエンティティ関係を提供する。 相互誘導型プログレッシブ・リファインメント・フレームワークは、複数経路相互誘導を反復的に適用し、複数の枝にまたがって補助的な監視情報を反復的に共有する。 それぞれのブランチの学習した概念を、対応するブランチとフレームワーク全体を段階的に洗練する、それぞれのブランチのガイドとして機能させる。 さらに、WSSTADのベンチマークとして、時空間異常アノテーションを含むビデオからなるST-UCF-CrimeとSTRAの2つのデータセットをコントリビュートする。 本研究は,提案手法の有効性を実証し,この課題に寄与する重要な要因を分析するために,広範囲な質的,定量的な評価を行う。

In this paper, we introduce a novel task, referred to as Weakly-Supervised Spatio-Temporal Anomaly Detection (WSSTAD) in surveillance video. Specifically, given an untrimmed video, WSSTAD aims to localize a spatio-temporal tube (i.e., a sequence of bounding boxes at consecutive times) that encloses the abnormal event, with only coarse video-level annotations as supervision during training. To address this challenging task, we propose a dual-branch network which takes as input the proposals with multi-granularities in both spatial-temporal domains. Each branch employs a relationship reasoning module to capture the correlation between tubes/videolets, which can provide rich contextual information and complex entity relationships for the concept learning of abnormal behaviors. Mutually-guided Progressive Refinement framework is set up to employ dual-path mutual guidance in a recurrent manner, iteratively sharing auxiliary supervision information across branches. It impels the learned concepts of each branch to serve as a guide for its counterpart, which progressively refines the corresponding branch and the whole framework. Furthermore, we contribute two datasets, i.e., ST-UCF-Crime and STRA, consisting of videos containing spatio-temporal abnormal annotations to serve as the benchmarks for WSSTAD. We conduct extensive qualitative and quantitative evaluations to demonstrate the effectiveness of the proposed approach and analyze the key factors that contribute more to handle this task.
翻訳日:2021-08-10 15:20:46 公開日:2021-08-09
# 夜間の正規化:暗闇における効率的な自己監督型単眼深度推定

Regularizing Nighttime Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark ( http://arxiv.org/abs/2108.03830v1 )

ライセンス: Link先を確認
Kun Wang, Zhenyu Zhang, Zhiqiang Yan, Xiang Li, Baobei Xu, Jun Li and Jian Yang(参考訳) 単眼深度推定は、単一の画像やビデオから深度を予測することを目的としている。 近年,KITTIやCityscapesなどの日中ベンチマークにおいて,深度アノテーションのない自己管理手法が注目されている。 しかし、視界の低さと照度の変化により、それぞれ弱いテクスチャをもたらし、明るさと一貫性を損なうため、より困難な夜間シナリオで奇妙な出力を生成する。 To address these problems, in this paper we propose a novel framework with several improvements: (1) we introduce Priors-Based Regularization to learn distribution knowledge from unpaired depth maps and prevent model from being incorrectly trained; (2) we leverage Mapping-Consistent Image Enhancement module to enhance image visibility and contrast while maintaining brightness consistency; and (3) we present Statistics-Based Mask strategy to tune the number of removed pixels within textureless regions, using dynamic statistics. 実験の結果,各成分の有効性が示された。 一方、我々のフレームワークは2つの夜間データセットに対して、目覚ましい改善と最先端の結果を達成する。

Monocular depth estimation aims at predicting depth from a single image or video. Recently, self-supervised methods draw much attention, due to their free of depth annotations and impressive performance on several daytime benchmarks, such as KITTI and Cityscapes. However, they produce weird outputs in more challenging nighttime scenarios because of low visibility and varying illuminations, which bring weak textures and break brightness-consisten cy assumption, respectively. To address these problems, in this paper we propose a novel framework with several improvements: (1) we introduce Priors-Based Regularization to learn distribution knowledge from unpaired depth maps and prevent model from being incorrectly trained; (2) we leverage Mapping-Consistent Image Enhancement module to enhance image visibility and contrast while maintaining brightness consistency; and (3) we present Statistics-Based Mask strategy to tune the number of removed pixels within textureless regions, using dynamic statistics. Experimental results demonstrate the effectiveness of each component. Meanwhile, our framework achieves remarkable improvements and state-of-the-art results on two nighttime datasets.
翻訳日:2021-08-10 15:20:20 公開日:2021-08-09
# 弱教師付きセマンティックセグメンテーションのための補足パッチ

Complementary Patch for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.03852v1 )

ライセンス: Link先を確認
Fei Zhang, Chaochen Gu, Chenyue Zhang, Yuchao Dai(参考訳) 画像レベルラベルに基づく弱い教師付きセマンティックセグメンテーション(wsss)は,クラスアクティベーションマップ(cam)の出力を利用して意味セグメンテーションのための擬似ラベルを生成することにより,大きく進歩している。 しかし、CAMは単に少数の領域から種を発見するだけで、セマンティックセグメンテーションの仮面として機能するには不十分である。 本稿では,情報量の増加としてCAMにおける対象領域の拡大を定式化する。 情報理論の観点からは,新たな補足的パッチ(CP)表現を提案し,補足的(パッチ付き)部分を持つ一対の入力画像によるCAMの和の情報,すなわちCPペアがベースラインCAMの情報よりも大きいか等しいことを証明した。 したがって、CPペアによって生成されたCAMの和と元のCAMとのギャップを狭めることにより、対象種子に関するより多くの情報を有するCAMを得ることができる。 本稿では,三重項ネットワークと3つの正規化関数によって実装されたCPネットワークを提案する。 CAMの品質をさらに向上するために,特徴マップとCAM間のオブジェクト領域関係を利用してコンテキスト情報を拡張するためのPixel-Region correlation Module (PRCM)を提案する。 PASCAL VOC 2012データセットの実験結果から,提案手法はWSSSにおける新しい最先端技術を実現し,CP表現とCPNの有効性を検証した。

Weakly Supervised Semantic Segmentation (WSSS) based on image-level labels has been greatly advanced by exploiting the outputs of Class Activation Map (CAM) to generate the pseudo labels for semantic segmentation. However, CAM merely discovers seeds from a small number of regions, which may be insufficient to serve as pseudo masks for semantic segmentation. In this paper, we formulate the expansion of object regions in CAM as an increase in information. From the perspective of information theory, we propose a novel Complementary Patch (CP) Representation and prove that the information of the sum of the CAMs by a pair of input images with complementary hidden (patched) parts, namely CP Pair, is greater than or equal to the information of the baseline CAM. Therefore, a CAM with more information related to object seeds can be obtained by narrowing down the gap between the sum of CAMs generated by the CP Pair and the original CAM. We propose a CP Network (CPN) implemented by a triplet network and three regularization functions. To further improve the quality of the CAMs, we propose a Pixel-Region Correlation Module (PRCM) to augment the contextual information by using object-region relations between the feature maps and the CAMs. Experimental results on the PASCAL VOC 2012 datasets show that our proposed method achieves a new state-of-the-art in WSSS, validating the effectiveness of our CP Representation and CPN.
翻訳日:2021-08-10 15:20:05 公開日:2021-08-09
# 雨の除去と照明の強化を1回で行います

Rain Removal and Illumination Enhancement Done in One Go ( http://arxiv.org/abs/2108.03873v1 )

ライセンス: Link先を確認
Yecong Wan, Yuanshuo Cheng, and Mingwen Shao(参考訳) 降雨除去は劣化した画像の復元に重要な役割を果たしている。 近年,データ駆動方式は顕著な成功を収めている。 しかし、これらのアプローチは雨の出現にはしばしば低い光条件が伴うことを無視し、画質をさらに劣化させる。 そのため、共同して雨を除去し、現実世界の雨画像復元のための光を高めることが不可欠である。 本稿では,この問題を2つの側面から解決する。 まず,雨を除去し,照明を1回で強化できる新しい絡み合いネットワークEMNetを提案する。 具体的には、2つのエンコーダ・デコーダネットワークが、絡み合い構造と平行雨の除去と照明強化を通じて相補的な情報をやり取りする。 エンコーダ・デコーダ構造が空間的詳細の保存に信頼できないことを考慮し,所望の微細なテクスチャを復元するために細部リカバリネットワークを用いる。 第2に,雨画像復元アルゴリズムの開発を促進するために,新しい合成データセットであるdarkrainを提案する。 ダークレインは雨の度合いが異なるだけでなく、照明条件も違っていて、現実世界の雨を現実的にシミュレートしている。 EMNetは提案したベンチマークで広く評価され、最先端の結果が得られる。 また,簡易な変換を行った結果,降雨除去と低照度画像強調の両面で既存の手法を上回った。 ソースコードとデータセットは、後で公開される予定だ。

Rain removal plays an important role in the restoration of degraded images. Recently, data-driven methods have achieved remarkable success. However, these approaches neglect that the appearance of rain is often accompanied by low light conditions, which will further degrade the image quality. Therefore, it is very indispensable to jointly remove the rain and enhance the light for real-world rain image restoration. In this paper, we aim to address this problem from two aspects. First, we proposed a novel entangled network, namely EMNet, which can remove the rain and enhance illumination in one go. Specifically, two encoder-decoder networks interact complementary information through entanglement structure, and parallel rain removal and illumination enhancement. Considering that the encoder-decoder structure is unreliable in preserving spatial details, we employ a detail recovery network to restore the desired fine texture. Second, we present a new synthetic dataset, namely DarkRain, to boost the development of rain image restoration algorithms in practical scenarios. DarkRain not only contains different degrees of rain, but also considers different lighting conditions, and more realistically simulates the rainfall in the real world. EMNet is extensively evaluated on the proposed benchmark and achieves state-of-the-art results. In addition, after a simple transformation, our method outshines existing methods in both rain removal and low-light image enhancement. The source code and dataset will be made publicly available later.
翻訳日:2021-08-10 15:19:38 公開日:2021-08-09
# neuralmvs: 多視点ステレオと新しいビュー合成

NeuralMVS: Bridging Multi-View Stereo and Novel View Synthesis ( http://arxiv.org/abs/2108.03880v1 )

ライセンス: Link先を確認
Radu Alexandru Rosu and Sven Behnke(参考訳) MVS(Multi-View Stereo)は、3Dコンピュータビジョンのコアタスクである。 新たなディープラーニング手法の急増により、学習mvsは古典的アプローチの精度を上回っているが、それでもメモリ集約的な集中的なコストボリュームの構築に依存している。 ニュートラルビュー合成(NVS)は並列的な研究のラインであり、最近、シーン当たりの放射場を最適化するNeural Radiance Field(NeRF)モデルで人気が高まっている。 しかし、NeRF法は斬新なシーンに一般化せず、訓練やテストが遅い。 本稿では,この2つの手法のギャップを,高解像度カラー画像とともに距離関数として3次元シーン形状を復元できる新しいネットワークで埋めることを提案する。 提案手法では,画像のスパースセットのみを入力として使用し,新しいシーンを一般化する。 さらに,速度を大幅に向上させるため,粗粒球追跡手法を提案する。 我々は,本手法がシーンごとの最適化手法に匹敵する精度に到達し,より高速に一般化および実行できることを,様々なデータセットで示す。

Multi-View Stereo (MVS) is a core task in 3D computer vision. With the surge of novel deep learning methods, learned MVS has surpassed the accuracy of classical approaches, but still relies on building a memory intensive dense cost volume. Novel View Synthesis (NVS) is a parallel line of research and has recently seen an increase in popularity with Neural Radiance Field (NeRF) models, which optimize a per scene radiance field. However, NeRF methods do not generalize to novel scenes and are slow to train and test. We propose to bridge the gap between these two methodologies with a novel network that can recover 3D scene geometry as a distance function, together with high-resolution color images. Our method uses only a sparse set of images as input and can generalize well to novel scenes. Additionally, we propose a coarse-to-fine sphere tracing approach in order to significantly increase speed. We show on various datasets that our method reaches comparable accuracy to per-scene optimized methods while being able to generalize and running significantly faster.
翻訳日:2021-08-10 15:19:16 公開日:2021-08-09
# 単眼映像からの適応クロス重み付き損失を考慮した咬合認識3次元形状知覚の自己教師あり学習

Self-supervised Learning of Occlusion Aware Flow Guided 3D Geometry Perception with Adaptive Cross Weighted Loss from Monocular Videos ( http://arxiv.org/abs/2108.03893v1 )

ライセンス: Link先を確認
Jiaojiao Fang, Guizhong Liu(参考訳) 自己教師付き深層学習に基づく3dシーン理解手法は,密接なラベル付き地層獲得の難しさを克服し,多くの進歩を遂げている。 しかし、オクルージョンや動くオブジェクトは依然として大きな制限の1つだ。 本稿では,学習可能なオクルージョン認識型自己監督深度とカメラポーズ推定を適応的クロス重み付き損失により検討し,上記の制限に対処する。 まず, 学習可能なオクルージョンマスクを融合した光フローネットワークを, 時間的補足情報を伴うオクルージョンアウェアフォトメトリックロスと隣接ビューの後方方向一貫性により訓練する。 そして、静止シーンの仮定に反する移動物体を識別するために、幾何学的および測光的誤差の深さ位置と光学的フロー損失の間の適応的相互重み付き損失を設計する。 提案手法は,kitti,make3d,citysc apesデータセットの複数のタスクにおける有望な結果を示す。 また,様々な課題シナリオにおいて,優れた一般化能力を示す。

Self-supervised deep learning-based 3D scene understanding methods can overcome the difficulty of acquiring the densely labeled ground-truth and have made a lot of advances. However, occlusions and moving objects are still some of the major limitations. In this paper, we explore the learnable occlusion aware optical flow guided self-supervised depth and camera pose estimation by an adaptive cross weighted loss to address the above limitations. Firstly, we explore to train the learnable occlusion mask fused optical flow network by an occlusion-aware photometric loss with the temporally supplemental information and backward-forward consistency of adjacent views. And then, we design an adaptive cross-weighted loss between the depth-pose and optical flow loss of the geometric and photometric error to distinguish the moving objects which violate the static scene assumption. Our method shows promising results on KITTI, Make3D, and Cityscapes datasets under multiple tasks. We also show good generalization ability under a variety of challenging scenarios.
翻訳日:2021-08-10 15:18:58 公開日:2021-08-09
# TriTransNet: Triplet Transformer Embedding Network を用いた RGB-D Salient Object Detection

TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network ( http://arxiv.org/abs/2108.03990v1 )

ライセンス: Link先を確認
Zhengyi Liu, Yuan Wang, Zhengzheng Tu, Yun Xiao, Bin Tang(参考訳) salient object detectionはピクセルレベルの密集した予測タスクであり、シーン内の顕著なオブジェクトをハイライトすることができる。 近年、U-Netフレームワークが広く使われ、連続的な畳み込みとプール操作が相互に補完する多層機能を生成する。 性能向上のための高レベルな特徴の寄与を考慮し,層間の長距離依存関係を学習してそれらを強化する3重変換器埋め込みモジュールを提案する。 マルチレベル機能を強化するために、共有重みを持つ3つのトランスフォーマーエンコーダを使った最初のものである。 さらに、入力を処理するスケール調整モジュールを設計、出力を処理する3つのストリームデコーダを考案し、マルチモーダル融合のカラー特徴に奥行き特徴を付加することにより、提案するトリプレットトランスフォーマー埋め込みネットワーク(tritransnet)は、rgb-dサルエントオブジェクト検出における最先端の性能を達成し、性能を新たなレベルに押し上げる。 実験の結果,提案モジュールの有効性とTriTransNetの競合が示された。

Salient object detection is the pixel-level dense prediction task which can highlight the prominent object in the scene. Recently U-Net framework is widely used, and continuous convolution and pooling operations generate multi-level features which are complementary with each other. In view of the more contribution of high-level features for the performance, we propose a triplet transformer embedding module to enhance them by learning long-range dependencies across layers. It is the first to use three transformer encoders with shared weights to enhance multi-level features. By further designing scale adjustment module to process the input, devising three-stream decoder to process the output and attaching depth features to color features for the multi-modal fusion, the proposed triplet transformer embedding network (TriTransNet) achieves the state-of-the-art performance in RGB-D salient object detection, and pushes the performance to a new level. Experimental results demonstrate the effectiveness of the proposed modules and the competition of TriTransNet.
翻訳日:2021-08-10 15:18:38 公開日:2021-08-09
# 斜めマニフォールドのトランスダクティブFew-Shot分類

Transductive Few-Shot Classification on the Oblique Manifold ( http://arxiv.org/abs/2108.04009v1 )

ライセンス: Link先を確認
Guodong Qi, Huimin Yu, Zhaohui Lu, Shuzhao Li(参考訳) FSL(Few-shot Learning)は、限られたデータで学習する。 本研究では,ユークリッド空間における特徴抽出と斜多様体(om)上の測地距離計測を行う。 特に,特徴抽出の高速化のために,空間ピラミッドプーリングを用いた非パラメトリック領域自己注意(RSSPP)を提案し,その一般化と画像特徴の識別能力とのトレードオフを実現する。 そして、その機能をポイントとしてOMに埋め込む。 さらに,学習可能な接点によりOMを局所的に近似した接空間の分類を実現する斜交距離に基づく分類器 (ODC) を設計する。 最後に,パラメータの初期化のための新しい手法と,トランスダクティブ設定における新しい損失関数を提案する。 大規模な実験により,我々のアルゴリズムの有効性が実証され,この手法が一般的なベンチマークであるmini-ImageNet, tiered-ImageNet, Caltech-UCSD Birds-200-2011 (CUB) よりも優れていた。

Few-shot learning (FSL) attempts to learn with limited data. In this work, we perform the feature extraction in the Euclidean space and the geodesic distance metric on the Oblique Manifold (OM). Specially, for better feature extraction, we propose a non-parametric Region Self-attention with Spatial Pyramid Pooling (RSSPP), which realizes a trade-off between the generalization and the discriminative ability of the single image feature. Then, we embed the feature to OM as a point. Furthermore, we design an Oblique Distance-based Classifier (ODC) that achieves classification in the tangent spaces which better approximate OM locally by learnable tangency points. Finally, we introduce a new method for parameters initialization and a novel loss function in the transductive settings. Extensive experiments demonstrate the effectiveness of our algorithm and it outperforms state-of-the-art methods on the popular benchmarks: mini-ImageNet, tiered-ImageNet, and Caltech-UCSD Birds-200-2011 (CUB).
翻訳日:2021-08-10 15:18:16 公開日:2021-08-09
# オブジェクト検出のための動的マルチスケール損失最適化

Dynamic Multi-Scale Loss Optimization for Object Detection ( http://arxiv.org/abs/2108.04014v1 )

ライセンス: Link先を確認
Yihao Luo, Xiang Cao, Juntao Zhang, Peng Cheng, Tianjiang Wang and Qi Feng(参考訳) 高度なモデルアーキテクチャによる物体検出性能の継続的な向上により、トレーニングプロセスにおける不均衡問題に注目が集まっている。 オブジェクト検出フレームワークでは、マルチスケール検出を行うための共通のパラダイムである。 しかし、各スケールはトレーニング中に等しく扱われる。 本稿では,マルチスケール検出器訓練の客観的不均衡を慎重に検討する。 各スケールレベルの損失は等しく重要でも独立でもないと我々は主張する。 マルチタスク重み設定の既存のソリューションとは異なり、トレーニングプロセスにおける各スケールレベルの損失重量を動的に最適化する。 具体的には, 適応可変重み付け (AVW) を提案し, 統計的分散に応じて多スケール損失のバランスをとる。 そして,学習中の重み付けスキームを確率的に決定する新しい強化学習最適化(rlo)を開発した。 提案する動的手法は,計算量や学習可能なパラメータを必要とせず,マルチスケールの学習損失をより有効活用する。 実験により,Pascal VOC および MS COCO ベンチマークにおける各種ベースライン検出器の性能を継続的に向上できることが示された。

With the continuous improvement of the performance of object detectors via advanced model architectures, imbalance problems in the training process have received more attention. It is a common paradigm in object detection frameworks to perform multi-scale detection. However, each scale is treated equally during training. In this paper, we carefully study the objective imbalance of multi-scale detector training. We argue that the loss in each scale level is neither equally important nor independent. Different from the existing solutions of setting multi-task weights, we dynamically optimize the loss weight of each scale level in the training process. Specifically, we propose an Adaptive Variance Weighting (AVW) to balance multi-scale loss according to the statistical variance. Then we develop a novel Reinforcement Learning Optimization (RLO) to decide the weighting scheme probabilistically during training. The proposed dynamic methods make better utilization of multi-scale training loss without extra computational complexity and learnable parameters for backpropagation. Experiments show that our approaches can consistently boost the performance over various baseline detectors on Pascal VOC and MS COCO benchmark.
翻訳日:2021-08-10 15:17:57 公開日:2021-08-09
# 遅延強調mriの自動評価のためのディープラーニング法 EMIDECチャレンジの結果

Deep Learning methods for automatic evaluation of delayed enhancement-MRI. The results of the EMIDEC challenge ( http://arxiv.org/abs/2108.04016v1 )

ライセンス: Link先を確認
Alain Lalande, Zhihao Chen, Thibaut Pommier, Thomas Decourselle, Abdul Qayyum, Michel Salomon, Dominique Ginhac, Youssef Skandarani, Arnaud Boucher, Khawla Brahim, Marleen de Bruijne, Robin Camarasa, Teresa M. Correia, Xue Feng, Kibrom B. Girum, Anja Hennemuth, Markus Huellebrand, Raabid Hussain, Matthias Ivantsits, Jun Ma, Craig Meyer, Rishabh Sharma, Jixi Shi, Nikolaos V. Tsekos, Marta Varela, Xiyue Wang, Sen Yang, Hannu Zhang, Yichi Zhang, Yuncheng Zhou, Xiahai Zhuang, Raphael Couturier, Fabrice Meriaudeau(参考訳) 心筋梗塞(MI)後の心臓状態を評価する重要な要因は、再灌流または再血管形成療法後に心筋セグメントが有効かどうかを測定することである。 造影剤を投与した数分後に行われる遅延造影MRI(de-MRI)は、生存可能な心筋と非生存可能な心筋との間に高いコントラストを与え、MIの程度を評価する方法である。 本論文では, 心筋状態を自動的に評価するために, 本課題に焦点をあてたEMIDECチャレンジの結果について述べる。 挑戦の主な目的は2つだった。 まず,深層学習法が正常症例と病理症例を区別できるかどうかを評価する。 第2に、心筋梗塞の程度を自動的に計算する。 公開されているデータベースは、コントラスト剤を注射した後の正常MRI50例と、心筋梗塞100例(そして、D-MRIのハイパーエンハンス領域を含む)に分けて構成される。 MRIとともに臨床的特徴も提供される。 いくつかの研究から得られた結果から、試験の自動分類は到達可能なタスク(精度0.92の最良の方法)であり、心筋の自動分割が可能であることが示されている。 しかし, 地域規模が小さかったり, 周辺構造とのコントラストの欠如などにより, 疾患領域のセグメンテーションは改善される必要がある。

A key factor for assessing the state of the heart after myocardial infarction (MI) is to measure whether the myocardium segment is viable after reperfusion or revascularization therapy. Delayed enhancement-MRI or DE-MRI, which is performed several minutes after injection of the contrast agent, provides high contrast between viable and nonviable myocardium and is therefore a method of choice to evaluate the extent of MI. To automatically assess myocardial status, the results of the EMIDEC challenge that focused on this task are presented in this paper. The challenge's main objectives were twofold. First, to evaluate if deep learning methods can distinguish between normal and pathological cases. Second, to automatically calculate the extent of myocardial infarction. The publicly available database consists of 150 exams divided into 50 cases with normal MRI after injection of a contrast agent and 100 cases with myocardial infarction (and then with a hyperenhanced area on DE-MRI), whatever their inclusion in the cardiac emergency department. Along with MRI, clinical characteristics are also provided. The obtained results issued from several works show that the automatic classification of an exam is a reachable task (the best method providing an accuracy of 0.92), and the automatic segmentation of the myocardium is possible. However, the segmentation of the diseased area needs to be improved, mainly due to the small size of these areas and the lack of contrast with the surrounding structures.
翻訳日:2021-08-10 15:17:41 公開日:2021-08-09
# 深層畳み込みニューラルネットワークによるアートとアーキテクチャの視覚設計原理の検出

Detecting Visual Design Principles in Art and Architecture through Deep Convolutional Neural Networks ( http://arxiv.org/abs/2108.04048v1 )

ライセンス: Link先を確認
Gozdenur Demir, Asli Cekmis, Vahit Bugra Yesilkaynak, Gozde Unal(参考訳) ビジュアルデザインは、いくつかの基本的なデザイン要素と原則の使用と関連している。 これらは、直感的で主観的なプロセスに依存して、審美目的のために様々な分野のデザイナーによって適用される。 したがって、設計図面の数値解析と、それに埋め込まれた美的価値の開示は困難であると考えられる。 しかし、新たな人工知能技術によって可能になった。 本研究の目的は、異なるドメインに対する設計原則を認識し、分類するニューラルネットワークモデルである。 ドメインには20世紀後半から制作されたアートワーク、プロの写真、現代建築のファサード写真が含まれる。 計算ベースの合成データセットの生成を含むデータの収集とキュレーションプロセスは本物である。 提案モデルは、基盤となる共有パターンを捉えることによって、オリジナルデザインの無数の知識から学習する。 視覚構成の美的評価を客観性で提供することにより,設計プロセスの統合が期待されている。

Visual design is associated with the use of some basic design elements and principles. Those are applied by the designers in the various disciplines for aesthetic purposes, relying on an intuitive and subjective process. Thus, numerical analysis of design visuals and disclosure of the aesthetic value embedded in them are considered as hard. However, it has become possible with emerging artificial intelligence technologies. This research aims at a neural network model, which recognizes and classifies the design principles over different domains. The domains include artwork produced since the late 20th century; professional photos; and facade pictures of contemporary buildings. The data collection and curation processes, including the production of computationally-base d synthetic dataset, is genuine. The proposed model learns from the knowledge of myriads of original designs, by capturing the underlying shared patterns. It is expected to consolidate design processes by providing an aesthetic evaluation of the visual compositions with objectivity.
翻訳日:2021-08-10 15:17:16 公開日:2021-08-09
# zero in on shape:合成データから学習した一般的な2d-3dインスタンス類似度メトリクス

Zero in on Shape: A Generic 2D-3D Instance Similarity Metric learned from Synthetic Data ( http://arxiv.org/abs/2108.04091v1 )

ライセンス: Link先を確認
Maciej Janik, Niklas Gard, Anna Hilsmann, Peter Eisert(参考訳) 本稿では,RGB画像と非テクスチャ型3Dモデルとを表現形状の類似性で比較するネットワークアーキテクチャを提案する。 我々のシステムはゼロショット検索に最適化されており、トレーニングで表示されない形状を認識することができる。 我々は3次元モデルと2次元画像のペアからオブジェクト形状を学習するために、ビューベースの形状記述子とシアムネットワークを使用する。 正確な写真・メッシュ対応のデータセットが不足しているため、合成データのみを用いてネットワークをトレーニングする。 本実験は,学習データの品質と量の違いが検索精度に及ぼす影響について検討し,領域ギャップを埋めることによる知見を提示する。 合成データの多種多様な増加により検索精度が向上し、検索対象の上位10%まで絞り込む限り、ゼロショットモードでのシステムの性能がインスタンス認識モードと一致できることが示されている。

We present a network architecture which compares RGB images and untextured 3D models by the similarity of the represented shape. Our system is optimised for zero-shot retrieval, meaning it can recognise shapes never shown in training. We use a view-based shape descriptor and a siamese network to learn object geometry from pairs of 3D models and 2D images. Due to scarcity of datasets with exact photograph-mesh correspondences, we train our network with only synthetic data. Our experiments investigate the effect of different qualities and quantities of training data on retrieval accuracy and present insights from bridging the domain gap. We show that increasing the variety of synthetic data improves retrieval accuracy and that our system's performance in zero-shot mode can match that of the instance-aware mode, as far as narrowing down the search to the top 10% of objects.
翻訳日:2021-08-10 15:17:04 公開日:2021-08-09
# 微調整表現による伝達学習ガウス異常検出

Transfer Learning Gaussian Anomaly Detection by Fine-Tuning Representations ( http://arxiv.org/abs/2108.04116v1 )

ライセンス: Link先を確認
Oliver Rippel, Arnav Chavan, Chucai Lei, Dorit Merhof(参考訳) 現在の最先端の異常検出(AD)手法は、大規模なImageNetトレーニングによって得られる強力な表現を利用する。 しかし、壊滅的な忘れは、半教師なしの設定で新しいデータセット上で事前訓練された表現の微調整が成功するのを防ぎ、そのため表現は一般に固定される。 本研究では,移動学習環境におけるADの学習表現を微調整する新しい手法を提案する。 生成的および識別的モデリングの関連性に基づき、正規クラスに対して多変量ガウス分布を誘導し、正規画像のマハラノビス距離を学習目的として用いる。 また,破滅的忘れの発症を検出するための検証手法として,胸部リスク最小化によく用いられる拡張法を提案する。 公開MVTec ADデータセットの広範囲な評価により,ADタスクにおける我々の手法により,先行技術に匹敵するAS性能を同時に達成し,新たな技術状態が達成されることが明らかとなった。 さらに, アブレーション研究は, 誘導ガウス分布の重要性と, 拡張の選択に関して提案する微調整スキームの頑健性を示している。

Current state-of-the-art Anomaly Detection (AD) methods exploit the powerful representations yielded by large-scale ImageNet training. However, catastrophic forgetting prevents the successful fine-tuning of pre-trained representations on new datasets in the semi/unsupervised setting, and representations are therefore commonly fixed. In our work, we propose a new method to fine-tune learned representations for AD in a transfer learning setting. Based on the linkage between generative and discriminative modeling, we induce a multivariate Gaussian distribution for the normal class, and use the Mahalanobis distance of normal images to the distribution as training objective. We additionally propose to use augmentations commonly employed for vicinal risk minimization in a validation scheme to detect onset of catastrophic forgetting. Extensive evaluations on the public MVTec AD dataset reveal that a new state of the art is achieved by our method in the AD task while simultaneously achieving AS performance comparable to prior state of the art. Further, ablation studies demonstrate the importance of the induced Gaussian distribution as well as the robustness of the proposed fine-tuning scheme with respect to the choice of augmentations.
翻訳日:2021-08-10 15:16:14 公開日:2021-08-09
# プリスチン特徴の幻覚による非参照画像品質評価

No-Reference Image Quality Assessment by Hallucinating Pristine Features ( http://arxiv.org/abs/2108.04165v1 )

ライセンス: Link先を確認
Baoliang Chen, Lingyu Zhu, Chenqi Kong, Hanwei Zhu, Shiqi Wang and Zhu Li(参考訳) 本稿では,特徴レベルの擬似参照(PR)幻覚を用いた非参照画像品質評価(IQA)手法を提案する。 提案した品質評価フレームワークは,従来の自然画像統計行動モデルに基づいており,視覚的品質を特徴付けるために知覚的に意味のある特徴をうまく活用できるという視点に根ざしている。 ここで、歪んだ画像からのpr特徴を、プリスティーヌ参照を監督とする相互学習スキームによって学習し、さらに、三重項制約によりpr特徴の判別特性をさらに確保する。 品質推定のための歪み画像が与えられると、最終的な品質予測のために可逆神経層で特徴レベルの不等角化が行われ、prとそれに対応する歪み特徴とが比較される。 提案手法の有効性は4つの一般的なIQAデータベース上で実証され,データベース間評価における優れた性能は,提案手法の高一般化能力を示す。 本手法の実装はhttps://github.com/B aoliang93/FPRで公開されている。

In this paper, we propose a no-reference (NR) image quality assessment (IQA) method via feature level pseudo-reference (PR) hallucination. The proposed quality assessment framework is grounded on the prior models of natural image statistical behaviors and rooted in the view that the perceptually meaningful features could be well exploited to characterize the visual quality. Herein, the PR features from the distorted images are learned by a mutual learning scheme with the pristine reference as the supervision, and the discriminative characteristics of PR features are further ensured with the triplet constraints. Given a distorted image for quality inference, the feature level disentanglement is performed with an invertible neural layer for final quality prediction, leading to the PR and the corresponding distortion features for comparison. The effectiveness of our proposed method is demonstrated on four popular IQA databases, and superior performance on cross-database evaluation also reveals the high generalization capability of our method. The implementation of our method is publicly available on https://github.com/B aoliang93/FPR.
翻訳日:2021-08-10 15:15:56 公開日:2021-08-09
# ポーズは必要なすべてだ - ポーズのみのグループアクティビティ認識システム(pogars)

Pose is all you need: The pose only group activity recognition system (POGARS) ( http://arxiv.org/abs/2108.04186v1 )

ライセンス: Link先を確認
Haritha Thilakarathne, Aiden Nibali, Zhen He, Stuart Morgan(参考訳) 本稿では,グループ活動の予測に人々の追跡されたポーズのみを使用することを目的として,Pose Only Group Activity Recognition System (POGARS) と呼ばれる,ディープラーニングに基づくグループ活動認識手法を提案する。 グループアクティビティ認識の既存のアプローチとは対照的に、pogarsは1d cnnを使用してグループアクティビティに関わる個人の時空間ダイナミクスを学び、ピクセルデータから学習機能を禁ずる。 提案モデルは,個人行動分類と集団行動分類を同時に行うために,個人的重要度を推定する空間的・時間的注意機構とマルチタスク学習を用いる。 実験の結果,POGARSは,追跡されたポーズのみを入力として用いながら,広く使用されているバレーボールデータセットの最先端手法と比較して高い競争力を発揮することを確認した。 さらに,本実験では,ポーズを入力としてのみ用いることにより,RGBを入力として使用する手法と比較して,POGARSの一般化性が向上した。

We introduce a novel deep learning based group activity recognition approach called the Pose Only Group Activity Recognition System (POGARS), designed to use only tracked poses of people to predict the performed group activity. In contrast to existing approaches for group activity recognition, POGARS uses 1D CNNs to learn spatiotemporal dynamics of individuals involved in a group activity and forgo learning features from pixel data. The proposed model uses a spatial and temporal attention mechanism to infer person-wise importance and multi-task learning for simultaneously performing group and individual action classification. Experimental results confirm that POGARS achieves highly competitive results compared to state-of-the-art methods on a widely used public volleyball dataset despite only using tracked pose as input. Further our experiments show by using pose only as input, POGARS has better generalization capabilities compared to methods that use RGB as input.
翻訳日:2021-08-10 15:15:08 公開日:2021-08-09
# メタグラデーションadversarial attack

Meta Gradient Adversarial Attack ( http://arxiv.org/abs/2108.04204v1 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Yunpei Jia, Chuanqi Tan, Tao Xue, Shiguang Shan(参考訳) 近年,敵対的攻撃に関する研究が注目されている。 トランスファーベースの敵対攻撃に関する現在の文献は、ブラックボックスモデルの転送性を改善するという有望な結果を得ているが、まだまだ先は長い。 メタラーニングの概念に触発されて,プラグイン・アンド・プレイ可能なメタグラディエント・アタック(MGAA)と呼ばれる新しいアーキテクチャを提案する。 具体的には、モデル動物園から複数のモデルをランダムにサンプリングして異なるタスクを作成し、各タスクにおけるホワイトボックス攻撃とブラックボックス攻撃を反復的にシミュレートします。 ホワイトボックスアタックとブラックボックスアタックの勾配方向間のギャップを狭めることにより、ブラックボックス設定における逆例の転送性を向上させることができる。 CIFAR10とImageNetデータセットの大規模な実験により、我々のアーキテクチャはブラックボックスとホワイトボックスの両方の攻撃設定において最先端の手法よりも優れています。

In recent years, research on adversarial attacks has become a hot spot. Although current literature on the transfer-based adversarial attack has achieved promising results for improving the transferability to unseen black-box models, it still leaves a long way to go. Inspired by the idea of meta-learning, this paper proposes a novel architecture called Meta Gradient Adversarial Attack (MGAA), which is plug-and-play and can be integrated with any existing gradient-based attack method for improving the cross-model transferability. Specifically, we randomly sample multiple models from a model zoo to compose different tasks and iteratively simulate a white-box attack and a black-box attack in each task. By narrowing the gap between the gradient directions in white-box and black-box attacks, the transferability of adversarial examples on the black-box setting can be improved. Extensive experiments on the CIFAR10 and ImageNet datasets show that our architecture outperforms the state-of-the-art methods for both black-box and white-box attack settings.
翻訳日:2021-08-10 15:14:53 公開日:2021-08-09
# タブラルニューラルネットワーク改善のための簡単な修正

Simple Modifications to Improve Tabular Neural Networks ( http://arxiv.org/abs/2108.03214v2 )

ライセンス: Link先を確認
James Fiedler(参考訳) グラフデータに対するニューラルネットワークアーキテクチャへの関心が高まっている。 多くの汎用の表型ディープラーニングモデルが最近導入されており、時として勾配ブースト決定木(gbdts)に匹敵するパフォーマンスがある。 これらの最近のモデルは、GBDT、ファクトリゼーションマシン、他のアプリケーションドメインからのニューラルネットワークなど、さまざまなソースからインスピレーションを得ている。 従来の表型ニューラルネットワークも描画されるが、特に特定の表型問題に関連するモデルについては、考慮されていない可能性がある。 本稿では,いくつかのモデルに着目し,性能改善のための修正を提案する。 これらのモデルが修正されると、GBDTを含む主要な汎用表形式モデルと競合することが示されている。

There is growing interest in neural network architectures for tabular data. Many general-purpose tabular deep learning models have been introduced recently, with performance sometimes rivaling gradient boosted decision trees (GBDTs). These recent models draw inspiration from various sources, including GBDTs, factorization machines, and neural networks from other application domains. Previous tabular neural networks are also drawn upon, but are possibly under-considered, especially models associated with specific tabular problems. This paper focuses on several such models, and proposes modifications for improving their performance. When modified, these models are shown to be competitive with leading general-purpose tabular models, including GBDTs.
翻訳日:2021-08-10 15:14:33 公開日:2021-08-09
# EVGen:電気自動車の充電負荷と隠れ表現を学習する敵ネットワーク

EVGen: Adversarial Networks for Learning Electric Vehicle Charging Loads and Hidden Representations ( http://arxiv.org/abs/2108.03762v1 )

ライセンス: Link先を確認
Robert Buechler, Emmanuel Balogun, Arun Majumdar and Ram Rajagopal(参考訳) 輸送部門を脱炭素化する競争が激化する中、輸送部門と電力網、消費者行動の差はかつてないほど顕著だ。 輸送部門の電化は、技術シフトと電気自動車(EV)の迅速な展開につながっている。 確率的および空間的に不均一な充電負荷の潜在的な増加は、十分に研究されていない独特な課題を示し、効果的に管理しなければグリッド操作、排出、システムの信頼性に重大な影響を与える。 現実的なシナリオジェネレータはオペレータの準備に役立ち、マシンラーニングをこの目的に活用できます。 本研究では,電気自動車(ev)充電セッションと異種表現の分布を学習するために,gans(generative adversarial network)を開発した。 このモデル構造は,無ラベルの時間パターンとパワーパターンを無監督でパラメータ化でき,これらのパラメータを条件とした合成データを生成することができる。 我々はガウス混合モデル(GMM)を用いてモデルの生成能力をベンチマークし、提案モデルフレームワークが電荷分布と時間ダイナミクスを捉えるのに優れていることを実証的に示す。

The nexus between transportation, the power grid, and consumer behavior is more pronounced than ever before as the race to decarbonize the transportation sector intensifies. Electrification in the transportation sector has led to technology shifts and rapid deployment of electric vehicles (EVs). The potential increase in stochastic and spatially heterogeneous charging load presents a unique challenge that is not well studied, and will have significant impacts on grid operations, emissions, and system reliability if not managed effectively. Realistic scenario generators can help operators prepare, and machine learning can be leveraged to this end. In this work, we develop generative adversarial networks (GANs) to learn distributions of electric vehicle (EV) charging sessions and disentangled representations. We show that this model structure successfully parameterizes unlabeled temporal and power patterns without supervision and is able to generate synthetic data conditioned on these parameters. We benchmark the generation capability of this model with Gaussian Mixture Models (GMMs), and empirically show that our proposed model framework is better at capturing charging distributions and temporal dynamics.
翻訳日:2021-08-10 15:12:29 公開日:2021-08-09
# 不均一ネットワークのためのクラスタ・アウェア・エンベディングの協調的教師なし学習フレームワーク

A Framework for Joint Unsupervised Learning of Cluster-Aware Embedding for Heterogeneous Networks ( http://arxiv.org/abs/2108.03953v1 )

ライセンス: Link先を確認
Rayyan Ahmad Khan, Martin Kleinsteuber(参考訳) Heterogeneous Information Network (HIN) は、HINの構造と意味を保存しているHINノードの低次元投影を指す。 hin埋め込みは、クラスタリングやノード分類のような下流タスクを可能にするため、ネットワーク分析の有望な研究分野として浮上した。 本稿では,クラスタ組込みとクラスタ対応hin組込みの合同学習のための \oursを提案する。 接続されたノードが同じクラスタに落ちやすいと仮定し、クラスタを意識した方法で情報を対関係に保存する変分的アプローチを採用する。 さらに、複数のメタパスで同時に情報を活用するために、コントラストモジュールをデプロイすることで、メタパス選択問題(有名なhin埋め込みアプローチの多くで直面する課題)を緩和します。 したがって、HIN埋め込みはクラスタリング性能を向上するだけでなく、高次HIN構造と同様にペアの近接性も維持する。 クラスタリングと下流ノード分類の3つの実世界のデータセット上で,多くの競合ベースラインと比較し,本手法の有効性を示す。

Heterogeneous Information Network (HIN) embedding refers to the low-dimensional projections of the HIN nodes that preserve the HIN structure and semantics. HIN embedding has emerged as a promising research field for network analysis as it enables downstream tasks such as clustering and node classification. In this work, we propose \ours for joint learning of cluster embeddings as well as cluster-aware HIN embedding. We assume that the connected nodes are highly likely to fall in the same cluster, and adopt a variational approach to preserve the information in the pairwise relations in a cluster-aware manner. In addition, we deploy contrastive modules to simultaneously utilize the information in multiple meta-paths, thereby alleviating the meta-path selection problem - a challenge faced by many of the famous HIN embedding approaches. The HIN embedding, thus learned, not only improves the clustering performance but also preserves pairwise proximity as well as the high-order HIN structure. We show the effectiveness of our approach by comparing it with many competitive baselines on three real-world datasets on clustering and downstream node classification.
翻訳日:2021-08-10 15:12:11 公開日:2021-08-09
# 確率MG/OPTを用いた深部残留ネットワークの訓練

Training of deep residual networks with stochastic MG/OPT ( http://arxiv.org/abs/2108.04052v1 )

ライセンス: Link先を確認
Cyrill von Planta, Alena Kopanicakova, Rolf Krause(参考訳) 非線形多重グリッド法MG/OPTの確率的変種を用いてディープ残差ネットワークを訓練する。 マルチレベル階層を構築するために、残差ネットワークに特有の動的システム視点を用いる。 深層ネットワーク上でのMNISTトレーニングにおいて,大幅な高速化とロバスト性について報告する。 また,本実験では,補助ネットワークの多くが元のネットワークに匹敵する精度を持つため,マルチレベルトレーニングをプルーニング手法として使用できることを示す。

We train deep residual networks with a stochastic variant of the nonlinear multigrid method MG/OPT. To build the multilevel hierarchy, we use the dynamical systems viewpoint specific to residual networks. We report significant speed-ups and additional robustness for training MNIST on deep residual networks. Our numerical experiments also indicate that multilevel training can be used as a pruning technique, as many of the auxiliary networks have accuracies comparable to the original network.
翻訳日:2021-08-10 15:11:54 公開日:2021-08-09
# ブラキシズム検出用補聴器の検討

Earables for Detection of Bruxism: a Feasibility Study ( http://arxiv.org/abs/2108.04144v1 )

ライセンス: Link先を確認
Erika Bondareva, El\'in R\'os Hauksd\'ottir, Cecilia Mascolo(参考訳) ブラキシズムは歯磨きとクレンチングを特徴とする疾患であり、多くのブラキシズム患者は、歯の健康の専門家が永久歯を磨くことに気付くまで、この障害に気付いていない。 新型コロナウイルス(covid-19)のパンデミックがブラキシズムの流行を引き起こした理由を説明する要因として、ストレスや不安がブルーキシズムの悪化に影響を及ぼす要因として挙げられることが多い。 ブラキシズムの早期診断を控えめに行うためのツールを開発することが不可欠である。 本研究は,耳栓によるブラキシズム関連事象の検出の可能性を探るものである。 データ収集に慣性測定装置を用い,歯の研削とクレンチング検出に従来の機械学習を活用する。 我々はジャイロスコープデータに基づくモデルの優れた性能を観察し, 制御環境において, 研削作業における88%と66%の精度を達成し, 研削作業における76%と73%の精度を実現した。

Bruxism is a disorder characterised by teeth grinding and clenching, and many bruxism sufferers are not aware of this disorder until their dental health professional notices permanent teeth wear. Stress and anxiety are often listed among contributing factors impacting bruxism exacerbation, which may explain why the COVID-19 pandemic gave rise to a bruxism epidemic. It is essential to develop tools allowing for the early diagnosis of bruxism in an unobtrusive manner. This work explores the feasibility of detecting bruxism-related events using earables in a mimicked in-the-wild setting. Using inertial measurement unit for data collection, we utilise traditional machine learning for teeth grinding and clenching detection. We observe superior performance of models based on gyroscope data, achieving an 88% and 66% accuracy on grinding and clenching activities, respectively, in a controlled environment, and 76% and 73% on grinding and clenching, respectively, in an in-the-wild environment.
翻訳日:2021-08-10 15:11:29 公開日:2021-08-09
# 自動エンコーダをベースとした異種データ中毒検出装置

Classification Auto-Encoder based Detector against Diverse Data Poisoning Attacks ( http://arxiv.org/abs/2108.04206v1 )

ライセンス: Link先を確認
Fereshteh Razmi, Li Xiong(参考訳) ポーティング攻撃(Poisoning attack)は、機械学習モデルのテストエラーを増大させるために、機械学習システムの結果を逆転させようとする敵の機械学習脅威のカテゴリである。 敵はデータ特徴空間やデータラベル、あるいはその両方を改ざんして、それぞれ異なる強度で異なる攻撃戦略に導くことができる。 様々な検出手法が最近登場し、それぞれ1つの攻撃戦略に焦点を当てている。 これら多くの検出手法のアキレス腱は、クリーンで不正なデータセットへのアクセスに依存している。 本稿では,各種有毒データに対する分類オートエンコーダを用いた検知器であるCAEを提案する。 CAEは、アタック戦略を事前に知ることなく、再構築と分類エラーの組み合わせで、あらゆる種類の中毒攻撃を検出することができる。 CAEの強化版(CAE+と呼ばれる)では、防御モデルをトレーニングするためにクリーンなデータセットを使わなくてもよいことを示す。 MNIST, Fashion-MNIST, CIFARの3つの実データに対する実験結果から, 提案手法は, 最大30%の汚染データ以下で機能を維持することができ, 防御されたSVM分類器が最高の精度を取り戻すのに役立つことを示した。

Poisoning attacks are a category of adversarial machine learning threats in which an adversary attempts to subvert the outcome of the machine learning systems by injecting crafted data into training data set, thus increasing the machine learning model's test error. The adversary can tamper with the data feature space, data labels, or both, each leading to a different attack strategy with different strengths. Various detection approaches have recently emerged, each focusing on one attack strategy. The Achilles heel of many of these detection approaches is their dependence on having access to a clean, untampered data set. In this paper, we propose CAE, a Classification Auto-Encoder based detector against diverse poisoned data. CAE can detect all forms of poisoning attacks using a combination of reconstruction and classification errors without having any prior knowledge of the attack strategy. We show that an enhanced version of CAE (called CAE+) does not have to employ a clean data set to train the defense model. Our experimental results on three real datasets MNIST, Fashion-MNIST and CIFAR demonstrate that our proposed method can maintain its functionality under up to 30% contaminated data and help the defended SVM classifier to regain its best accuracy.
翻訳日:2021-08-10 15:11:08 公開日:2021-08-09
# 到達可能性解析を用いたニューラルネットワーク修復

Neural Network Repair with Reachability Analysis ( http://arxiv.org/abs/2108.04214v1 )

ライセンス: Link先を確認
Xiaodong Yang, Tom Yamaguchi, Hoang-Dung Tran, Bardh Hoxha, Taylor T Johnson, Danil Prokhorov(参考訳) 安全性は、知覚と制御のためにディープニューラルネットワークに大きく依存する次世代の自律性にとって重要な関心事である。 十分に訓練されたdnnと学習可能なシステムのアタック、モデル不確実性、センシングエラーによる安全性と堅牢性を正式に検証することは、安全な自律性にとって不可欠である。 本研究は,安全クリティカルシステムにおける安全でないDNNを到達可能性解析で修復する枠組みを提案する。 修復プロセスはDNNの安全性とロバスト性向上に高い効果を発揮した敵の訓練にインスパイアされている。 ランダムな攻撃から敵の例を活用でき、すべての安全でない動作を表現できない従来の敵の訓練方法とは異なり、我々の修復プロセスは、到達可能性分析を用いて正確な安全でない領域を計算し、敵の訓練の有効性と効率を高めるために十分な代表例を同定する。 本フレームワークの性能は,参照として安全なモデルを持たない2種類のベンチマークで評価される。 1つは、訓練データへのアクセスによる航空機の衝突回避のためのDNNコントローラである。 もう1つはロケットランダーで、このフレームワークはよく知られたDeep Deterministic Policy gradient(DDPG)強化学習アルゴリズムとシームレスに統合できる。 実験の結果,本フレームワークは性能劣化を無視して,複数の安全仕様のすべてのインスタンスを修復できることがわかった。 さらに,到達可能性解析アルゴリズムの計算とメモリ効率を向上させるために,既存の正確な解析手法と,新しい集合表現に基づくオーバー近似手法を組み合わせたディープファースト探索アルゴリズムを提案する。 実験結果から,本手法は実行時の5倍改善とメモリ使用率の2倍改善を実現していることがわかった。

Safety is a critical concern for the next generation of autonomy that is likely to rely heavily on deep neural networks for perception and control. Formally verifying the safety and robustness of well-trained DNNs and learning-enabled systems under attacks, model uncertainties, and sensing errors is essential for safe autonomy. This research proposes a framework to repair unsafe DNNs in safety-critical systems with reachability analysis. The repair process is inspired by adversarial training which has demonstrated high effectiveness in improving the safety and robustness of DNNs. Different from traditional adversarial training approaches where adversarial examples are utilized from random attacks and may not be representative of all unsafe behaviors, our repair process uses reachability analysis to compute the exact unsafe regions and identify sufficiently representative examples to enhance the efficacy and efficiency of the adversarial training. The performance of our framework is evaluated on two types of benchmarks without safe models as references. One is a DNN controller for aircraft collision avoidance with access to training data. The other is a rocket lander where our framework can be seamlessly integrated with the well-known deep deterministic policy gradient (DDPG) reinforcement learning algorithm. The experimental results show that our framework can successfully repair all instances on multiple safety specifications with negligible performance degradation. In addition, to increase the computational and memory efficiency of the reachability analysis algorithm, we propose a depth-first-search algorithm that combines an existing exact analysis method with an over-approximation approach based on a new set representation. Experimental results show that our method achieves a five-fold improvement in runtime and a two-fold improvement in memory usage compared to exact analysis.
翻訳日:2021-08-10 15:10:46 公開日:2021-08-09
# 作業計画と作業計画による未知物体の長期操作

Long-Horizon Manipulation of Unknown Objects via Task and Motion Planning with Estimated Affordances ( http://arxiv.org/abs/2108.04145v1 )

ライセンス: Link先を確認
Aidan Curtis, Xiaolin Fang, Leslie Pack Kaelbling, Tom\'as Lozano-P\'erez, Caelan Reed Garrett(参考訳) 本稿では,汎用的なタスク・アンド・モーション・プランナと,未知の物体の性質と価値を推定する認識モジュールを統合した,汎用的なロボット操作システムを設計・構築するための戦略を提案する。 このようなシステムは、RGB画像、深度画像、ロボット関節エンコーダ測定からロボット関節位置コマンドにマッピングするクローズドループポリシーである。 この戦略に従うと、操作可能なオブジェクトの集合やジオメトリ、それらの余裕に関する事前知識がなくても、タスク・アンド・モーション・プランナーが知的行動の計画に利用できることを示す。 セグメンテーション, 特性検出, 形状推定, 把握生成のための知覚モジュールの実装方法について検討する。 本稿では,これらのモジュールをpddlstream task and motion planning frameworkに統合する方法を示す。 最後に、この戦略により、環境を事前に知ることなく、再トレーニングすることなく、幅広い種類のオブジェクト、オブジェクトアレンジメント、目標を一般化し、単一のシステムが様々な実世界のマルチステップ操作タスクを実行できることを実証する。

We present a strategy for designing and building very general robot manipulation systems involving the integration of a general-purpose task-and-motion planner with engineered and learned perception modules that estimate properties and affordances of unknown objects. Such systems are closed-loop policies that map from RGB images, depth images, and robot joint encoder measurements to robot joint position commands. We show that following this strategy a task-and-motion planner can be used to plan intelligent behaviors even in the absence of a priori knowledge regarding the set of manipulable objects, their geometries, and their affordances. We explore several different ways of implementing such perceptual modules for segmentation, property detection, shape estimation, and grasp generation. We show how these modules are integrated within the PDDLStream task and motion planning framework. Finally, we demonstrate that this strategy can enable a single system to perform a wide variety of real-world multi-step manipulation tasks, generalizing over a broad class of objects, object arrangements, and goals, without any prior knowledge of the environment and without re-training.
翻訳日:2021-08-10 15:09:28 公開日:2021-08-09
# 仮定に基づく推論のための高調波インクリメンタルアンサーセットの解法

Harnessing Incremental Answer Set Solving for Reasoning in Assumption-Based Argumentation ( http://arxiv.org/abs/2108.04192v1 )

ライセンス: Link先を確認
Tuomo Lehtonen, Johannes P. Wallner, Matti J\"arvisalo(参考訳) 仮定に基づく議論 (aba) は中央構造的議論形式論である。 最近述べたように、解集合プログラミング(ASP)は、ABAのNPハード推論タスクを、特にABAのよく研究されている論理プログラミングの断片において、効率的に解くことができる。 本研究では,ABA の論理プログラミングフラグメントにおけるタスクの推論に有効なアルゴリズムを開発するために,近年の ASP 問題解決の進歩を生かし,好意的意味論に基づく懐疑的推論や優先的推論など,多項式階層の第2段階において難しいと思われるタスクを推論するアルゴリズムの開発に活用する。 特に,これらのタスクに対するインクリメンタルなasp解法に基づいて,非自明な逆例による抽象的洗練手順を開発する。 また,提案手法が従来提案していたタスクのアルゴリズムよりもはるかに効果的であることを示す。 本論文はTPLPの受容について検討中である。

Assumption-based argumentation (ABA) is a central structured argumentation formalism. As shown recently, answer set programming (ASP) enables efficiently solving NP-hard reasoning tasks of ABA in practice, in particular in the commonly studied logic programming fragment of ABA. In this work, we harness recent advances in incremental ASP solving for developing effective algorithms for reasoning tasks in the logic programming fragment of ABA that are presumably hard for the second level of the polynomial hierarchy, including skeptical reasoning under preferred semantics as well as preferential reasoning. In particular, we develop non-trivial counterexample-guide d abstraction refinement procedures based on incremental ASP solving for these tasks. We also show empirically that the procedures are significantly more effective than previously proposed algorithms for the tasks. This paper is under consideration for acceptance in TPLP.
翻訳日:2021-08-10 15:09:08 公開日:2021-08-09
# レシピと食品画像のクロスモーダル検索のためのモダリティアライメントを用いた学習ジョイント埋め込み

Learning Joint Embedding with Modality Alignments for Cross-Modal Retrieval of Recipes and Food Images ( http://arxiv.org/abs/2108.03788v1 )

ライセンス: Link先を確認
Zhongwei Xie, Ling Liu, Lin Li, Luo Zhong(参考訳) 本稿では,料理レシピと食品画像のクロスモーダル検索のために,ジェマと呼ばれるテキスト画像統合組込み学習のための3層モードアライメントアプローチを提案する。 第1階層は、LSTMネットワークを項抽出とランク付けされた拡張シーケンスパターンに最適化することによりレシピテキストの埋め込みを改善し、ResNeXt-101画像エンコーダとWideResNet-50と word2vecを用いたカテゴリ埋め込みを組み合わせることにより、画像埋め込みを最適化する。 第2階層の相同性アライメントは、ソフトマージン最適化を伴うダブルバッチハード三重項損失を用いて、テキスト-視覚ジョイント埋め込み損失関数を最適化する。 第3のモダリティアライメントは、補助損失正規化として2種類の交叉モダリティアライメントを組み込んでおり、2つのモダリティ固有の埋め込み関数の合同学習におけるアライメント誤差をさらに低減している。 カテゴリベースのクロスモーダルアライメントは、ジョイント埋め込みに対する損失正規化として、画像カテゴリをレシピカテゴリにアライメントすることを目的としている。 クロスモーダル判別器に基づくアライメントは、ジョイント埋め込み損失をさらに正規化するために、視覚的なテキスト埋め込み分布アライメントを追加することを目的としている。 1千万レシピベンチマークデータセットのレシピ1mによる広範囲な実験は、提案されたjemaアプローチが、画像からレシピへの検索とレシピから画像への検索の両方において最先端のクロスモーダル埋め込み手法よりも優れていることを示している。

This paper presents a three-tier modality alignment approach to learning text-image joint embedding, coined as JEMA, for cross-modal retrieval of cooking recipes and food images. The first tier improves recipe text embedding by optimizing the LSTM networks with term extraction and ranking enhanced sequence patterns, and optimizes the image embedding by combining the ResNeXt-101 image encoder with the category embedding using wideResNet-50 with word2vec. The second tier modality alignment optimizes the textual-visual joint embedding loss function using a double batch-hard triplet loss with soft-margin optimization. The third modality alignment incorporates two types of cross-modality alignments as the auxiliary loss regularizations to further reduce the alignment errors in the joint learning of the two modality-specific embedding functions. The category-based cross-modal alignment aims to align the image category with the recipe category as a loss regularization to the joint embedding. The cross-modal discriminator-based alignment aims to add the visual-textual embedding distribution alignment to further regularize the joint embedding loss. Extensive experiments with the one-million recipes benchmark dataset Recipe1M demonstrate that the proposed JEMA approach outperforms the state-of-the-art cross-modal embedding methods for both image-to-recipe and recipe-to-image retrievals.
翻訳日:2021-08-10 15:08:31 公開日:2021-08-09
# 密集した港や水路における無人航空機による安全な船舶航法

Safe Vessel Navigation Visually Aided by Autonomous Unmanned Aerial Vehicles in Congested Harbors and Waterways ( http://arxiv.org/abs/2108.03862v1 )

ライセンス: Link先を確認
Jonas le Fevre Sejersen, Rui Pimentel de Figueiredo and Erdal Kayacan(参考訳) 海上部門では、特に密集した港や水路において、安全な船舶航行が非常に重要である。 この研究の焦点は、関心の対象と潜在的な障害物の間の距離を、共用UAVを用いて推定することである。 提案手法は長距離空中画像とGPSデータを融合する。 まず, 興味, 水, 潜在的な固体の容器を原画像データを用いて識別するために, セマンティックセグメンテーションDNNを用いる。 このネットワークは、現実的なAirSimシミュレーション環境から生成された実画像と画像の両方でトレーニングされる。 そして、新しいGSD推定アルゴリズムを用いて、抽出された容器と非水中障害物ブロックの距離を算出する。 我々の知る限りでは、この研究は、従来のRGBカメラと補助的な絶対位置決めシステム(例えば)で捉えた長距離視覚データから未知の物体までの距離を検出し推定する最初の試みである。 GPS)。 シミュレーション結果は,UAV支援艦艇の視覚支援航法における提案手法の精度と有効性を示すものである。

In the maritime sector, safe vessel navigation is of great importance, particularly in congested harbors and waterways. The focus of this work is to estimate the distance between an object of interest and potential obstacles using a companion UAV. The proposed approach fuses GPS data with long-range aerial images. First, we employ semantic segmentation DNN for discriminating the vessel of interest, water, and potential solid objects using raw image data. The network is trained with both real and images generated and automatically labeled from a realistic AirSim simulation environment. Then, the distances between the extracted vessel and non-water obstacle blobs are computed using a novel GSD estimation algorithm. To the best of our knowledge, this work is the first attempt to detect and estimate distances to unknown objects from long-range visual data captured with conventional RGB cameras and auxiliary absolute positioning systems (e.g. GPS). The simulation results illustrate the accuracy and efficacy of the proposed method for visually aided navigation of vessels assisted by UAV.
翻訳日:2021-08-10 15:08:01 公開日:2021-08-09
# 協調型空中カメラを用いた野生の3次元再構築

3D Human Reconstruction in the Wild with Collaborative Aerial Cameras ( http://arxiv.org/abs/2108.03936v1 )

ライセンス: Link先を確認
Cherie Ho, Andrew Jong, Harry Freeman, Rohan Rao, Rogerio Bonatti, Sebastian Scherer(参考訳) 航空車両は、スポーツ、医療、エンターテイメントなど、野生のダイナミックなターゲットの3D構造を捉える必要があるアプリケーションに革命をもたらしている。 屋外環境で動作させるモーションキャプチャシステムを開発する上での課題は,(1)3次元推論では目標の同時視点が複数必要であり,(2)移動目標追跡時に障害物による閉塞が頻発し,(3)カメラと車両の状態推定がうるさいことである。 本稿では,汎用マーカーを使わずに自然環境下で人間の動きを再現できるマルチカメラ制御のためのリアルタイム航空システムを提案する。 障害物間における目標再構成品質を最適に設定する多ロボット調整手法を開発した。 シミュレーションにおけるシステム性能の評価と、2機のドローンによる実世界性能の検証を行い、目標がジョギングやサッカーなどの活動を行う。 補足ビデオ: https://youtu.be/jxt 91vx0cns

Aerial vehicles are revolutionizing applications that require capturing the 3D structure of dynamic targets in the wild, such as sports, medicine, and entertainment. The core challenges in developing a motion-capture system that operates in outdoors environments are: (1) 3D inference requires multiple simultaneous viewpoints of the target, (2) occlusion caused by obstacles is frequent when tracking moving targets, and (3) the camera and vehicle state estimation is noisy. We present a real-time aerial system for multi-camera control that can reconstruct human motions in natural environments without the use of special-purpose markers. We develop a multi-robot coordination scheme that maintains the optimal flight formation for target reconstruction quality amongst obstacles. We provide studies evaluating system performance in simulation, and validate real-world performance using two drones while a target performs activities such as jogging and playing soccer. Supplementary video: https://youtu.be/jxt 91vx0cns
翻訳日:2021-08-10 15:07:44 公開日:2021-08-09
# DRINet:ポイントクラウドセグメンテーションのためのデュアル表現反復学習ネットワーク

DRINet: A Dual-Representation Iterative Learning Network for Point Cloud Segmentation ( http://arxiv.org/abs/2108.04023v1 )

ライセンス: Link先を確認
Maosheng Ye, Shuangjie Xu, Tongyi Cao, Qifeng Chen(参考訳) 二重表現反復学習を用いたポイントクラウドセグメンテーションのための,新しいフレキシブルなアーキテクチャを提案する。 ポイントクラウド処理では、異なる表現には独自の長所と短所がある。 したがって、置換やスケール不変といった独自の物理的性質を維持しながら、ポイントクラウドデータ構造を表現する適切な方法を見つけることは根本的な問題である。 そこで本稿では,機能伝達の柔軟性と計算コストの低減,特に大規模ポイントクラウドにおいて両表現学習の基本的ネットワーク構造として機能するDRINetを提案する。 DRINetは主にスパースポイント-ボクセル特徴抽出とスパースVoxel-Point特徴抽出と呼ばれる2つのモジュールで構成されている。 これら2つのモジュールを反復的に利用することにより、特徴は2つの異なる表現の間で伝播することができる。 さらに,コンテキスト情報伝達を改善するために,ポイントワイズ局所性学習のための新しいマルチスケールプーリング層を提案する。 我々のネットワークは、高い実行効率を維持しつつ、複数のデータセット上のポイントクラウド分類とセグメンテーションタスクの最先端の結果を達成する。 大規模屋外シナリオでは,提案手法はフレーム当たり62msのリアルタイム推論速度で最先端の手法より優れる。

We present a novel and flexible architecture for point cloud segmentation with dual-representation iterative learning. In point cloud processing, different representations have their own pros and cons. Thus, finding suitable ways to represent point cloud data structure while keeping its own internal physical property such as permutation and scale-invariant is a fundamental problem. Therefore, we propose our work, DRINet, which serves as the basic network structure for dual-representation learning with great flexibility at feature transferring and less computation cost, especially for large-scale point clouds. DRINet mainly consists of two modules called Sparse Point-Voxel Feature Extraction and Sparse Voxel-Point Feature Extraction. By utilizing these two modules iteratively, features can be propagated between two different representations. We further propose a novel multi-scale pooling layer for pointwise locality learning to improve context information propagation. Our network achieves state-of-the-art results for point cloud classification and segmentation tasks on several datasets while maintaining high runtime efficiency. For large-scale outdoor scenarios, our method outperforms state-of-the-art methods with a real-time inference speed of 62ms per frame.
翻訳日:2021-08-10 15:07:27 公開日:2021-08-09
# Tensor Yard:畳み込みニューラルネットワークのためのハードウェアフレンドリーなTensor-Train分割の一ショットアルゴリズム

Tensor Yard: One-Shot Algorithm of Hardware-Friendly Tensor-Train Decomposition for Convolutional Neural Networks ( http://arxiv.org/abs/2108.04029v1 )

ライセンス: Link先を確認
Anuar Taskynov, Vladimir Korviakov, Ivan Mazurenko, Yepan Xiong(参考訳) 今日、深層学習は多くの経済的、技術的、科学的な分野において広く使われるようになった。 ディープニューラルネットワークに基づくソリューションの効率性は、対象タスクの品質基準だけでなく、ターゲットプラットフォーム設計のレイテンシや制約も考慮すべきである。 本稿では,畳み込みニューラルネットワークのハードウェアフレンドリなテンソルトレイン分解実装と,ネットワーク層の分解順序を最適化する1ショットトレーニングアルゴリズムであるtensor yardを提案する。 これらのアイデアは、Ascend 310 NPUデバイス上のResNetモデルを、精度を著しく損なうことなく加速することができる。 例えば、ResNet-101を14.6%高速化し、トップ-1 ImageNetの精度の0.5に下げる。

Nowadays Deep Learning became widely used in many economic, technical and scientific areas of human interest. It is clear that efficiency of solutions based on Deep Neural Networks should consider not only quality metric for the target task, but also latency and constraints of target platform design should be taken into account. In this paper we present novel hardware-friendly Tensor-Train decomposition implementation for Convolutional Neural Networks together with Tensor Yard - one-shot training algorithm which optimizes an order of decomposition of network layers. These ideas allow to accelerate ResNet models on Ascend 310 NPU devices without significant loss of accuracy. For example we accelerate ResNet-101 by 14.6% with drop by 0.5 of top-1 ImageNet accuracy.
翻訳日:2021-08-10 15:07:10 公開日:2021-08-09
# コンピュータビジョンと蛍光を組み合わせた新しいスコーピオン検出システム

Novel scorpion detection system combining computer vision and fluorescence ( http://arxiv.org/abs/2108.04177v1 )

ライセンス: Link先を確認
Francisco Luis Giambelluca, Jorge Osio, Luis A. Giambelluca, Marcelo A. Cappelletti(参考訳) 本研究では,コンピュータビジョンとディープラーニング技術を用いて,スコーピオン検出のための完全自動リアルタイムシステムを開発した。 本システムは,紫外線 (uv) 照射時のスコーピオンの形状特性と蛍光特性を用いた二重検証法の実装に基づいている。 Haar Cascade Classifier (HCC) とYOLO (You Only Look Once) モデルは、スコーピオン形状検出の最初のメカニズムとして使われ、比較されている。 紫外線下でスコーピオンから放出される蛍光の検出は、システムの精度と精度を高めるために、第2の検出機構として用いられてきた。 その結果,本システムはスコーピオンの存在を正確にかつ確実に検出できることがわかった。 また,100%のリコールで得られた値は,健康管理ツールの提供のために不可欠である。 開発されたシステムは、スコーピオンによって放射される蛍光を可視化できる夜間や暗黒環境でのみ使用できるが、スコーピオンの夜間活動はこの第2のバリデーション機構の導入を正当化する。

In this work, a fully automatic and real-time system for the detection of scorpions was developed using computer vision and deep learning techniques. This system is based on the implementation of a double validation process using the shape features and the fluorescent characteristics of scorpions when exposed to ultraviolet (UV) light. The Haar Cascade Classifier (HCC) and YOLO (You Only Look Once) models have been used and compared as the first mechanism for the scorpion shape detection. The detection of the fluorescence emitted by the scorpions under UV light has been used as a second detection mechanism in order to increase the accuracy and precision of the system. The results obtained show that the system can accurately and reliably detect the presence of scorpions. In addition, values obtained of recall of 100% is essential with the purpose of providing a health security tool. Although the developed system can only be used at night or in dark environment, where the fluorescence emitted by the scorpions can be visualized, the nocturnal activity of scorpions justifies the incorporation of this second validation mechanism.
翻訳日:2021-08-10 15:07:00 公開日:2021-08-09
# 「クエリが遅いのはなぜですか? SQLワークロード分析のためのサブグループディスカバリ

"What makes my queries slow?": Subgroup Discovery for SQL Workload Analysis ( http://arxiv.org/abs/2108.03906v1 )

ライセンス: Link先を確認
Youcef Remil, Anes Bendimerad, Romain Mathonat, Philippe Chaleat, Mehdi Kaytoue(参考訳) データベース管理者(DBA)の日々のタスクの中で、スキーマの問題を特定し、パフォーマンスを改善するためのクエリワークロードの分析が重要である。 DBAは、繰り返しパフォーマンス問題を引き起こすクエリを特定できるが、いくつかのプロパティ(パターン)のみを共有するクエリのサブセットを自動的に識別し、実行時間などのいくつかの目標措置を同時に促進することは、依然として困難である。 パターンはクエリ句、環境変数、データベースアラート、メトリクスの組み合わせで定義され、SQLクエリが遅い理由のような質問に答えるのに役立ちますか? I/O通信はなぜ高いのか? 巨大な検索空間でこれらのパターンを自動的に発見し、問題や根本原因をローカライズするための仮説として提供することは、説明可能なAIの文脈において重要である。 そこで本研究では,サブグループ発見を基盤としたアプローチを提案する。 SQLワークロード問題の潜在的な原因を特定するために、この汎用データマイニングフレームワークのインスタンス化と開発方法を示す。 このようなデータマイニング技術はDBAに適用するのは簡単ではないと考えています。 また,インタラクティブな知識発見のための可視化ツールも提供する。 当社の数百のデータベースから1週間のワークロードを分析し、データセットとソースコードの両方を利用可能にし、洞察に富んだ仮説が発見できることを実験的に示します。

Among daily tasks of database administrators (DBAs), the analysis of query workloads to identify schema issues and improving performances is crucial. Although DBAs can easily pinpoint queries repeatedly causing performance issues, it remains challenging to automatically identify subsets of queries that share some properties only (a pattern) and simultaneously foster some target measures, such as execution time. Patterns are defined on combinations of query clauses, environment variables, database alerts and metrics and help answer questions like what makes SQL queries slow? What makes I/O communications high? Automatically discovering these patterns in a huge search space and providing them as hypotheses for helping to localize issues and root-causes is important in the context of explainable AI. To tackle it, we introduce an original approach rooted on Subgroup Discovery. We show how to instantiate and develop this generic data-mining framework to identify potential causes of SQL workloads issues. We believe that such data-mining technique is not trivial to apply for DBAs. As such, we also provide a visualization tool for interactive knowledge discovery. We analyse a one week workload from hundreds of databases from our company, make both the dataset and source code available, and experimentally show that insightful hypotheses can be discovered.
翻訳日:2021-08-10 15:05:39 公開日:2021-08-09
# mis-spoke or mis-lead: マルチエージェント・コミュニケーション強化学習における頑健性の実現

Mis-spoke or mis-lead: Achieving Robustness in Multi-Agent Communicative Reinforcement Learning ( http://arxiv.org/abs/2108.03803v1 )

ライセンス: Link先を確認
Wanqi Xue, Wei Qiu, Bo An, Zinovi Rabinovich, Svetlana Obraztsova, Chai Kiat Yeo(参考訳) 近年,Multi-agent communicative reinforcement learning (MACRL) の研究により,エージェント間の通信が許可された場合,多エージェント協調が著しく改善できることが示されている。 一方、機械学習(ML)の進歩は、機械学習と強化学習(RL)モデルが、学習行動のパフォーマンスを著しく低下させる様々な攻撃に対して脆弱であることを示している。 しかし, MLとMACRLの組み合わせは, 明らかかつ重要度が増しているにもかかわらず, ほとんど検討されていない。 本稿では,MACRL法に対するメッセージアタックの実施に向けて第一歩を踏み出す。 提案方式では,協調グループ内の1つのエージェントが敵に乗っ取られ,デプロイフェーズ中にデプロイされたmacrlベースの協調戦略をディスラプトするために悪意のあるメッセージを送信できる。 我々は、メッセージ再構成による防衛手法の開発により研究をさらに進める。 最終的に、我々は、結果として生じる軍備競争、すなわち、悪意あるエージェントが、良心あるエージェントの防御的コミュニケーション政策の変化と改善に適応する能力を考える。 具体的には、対戦型MACRL問題を2プレイヤーゼロサムゲームとしてモデル化し、次にポリシー空間応答オラクルを用いて通信堅牢性を実現する。 実証実験により,MACRL法はメッセージ攻撃に対して脆弱であり,防御手法であるゲーム理論フレームワークはMACRLの堅牢性を効果的に向上できることを示した。

Recent studies in multi-agent communicative reinforcement learning (MACRL) demonstrate that multi-agent coordination can be significantly improved when communication between agents is allowed. Meanwhile, advances in adversarial machine learning (ML) have shown that ML and reinforcement learning (RL) models are vulnerable to a variety of attacks that significantly degrade the performance of learned behaviours. However, despite the obvious and growing importance, the combination of adversarial ML and MACRL remains largely uninvestigated. In this paper, we make the first step towards conducting message attacks on MACRL methods. In our formulation, one agent in the cooperating group is taken over by an adversary and can send malicious messages to disrupt a deployed MACRL-based coordinated strategy during the deployment phase. We further our study by developing a defence method via message reconstruction. Finally, we address the resulting arms race, i.e., we consider the ability of the malicious agent to adapt to the changing and improving defensive communicative policies of the benign agents. Specifically, we model the adversarial MACRL problem as a two-player zero-sum game and then utilize Policy-Space Response Oracle to achieve communication robustness. Empirically, we demonstrate that MACRL methods are vulnerable to message attacks while our defence method the game-theoretic framework can effectively improve the robustness of MACRL.
翻訳日:2021-08-10 15:03:08 公開日:2021-08-09
# 連続動作空間を有するマルチエージェントシステムの安全深層強化学習

Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous Action Spaces ( http://arxiv.org/abs/2108.03952v1 )

ライセンス: Link先を確認
Ziyad Sheebaelhamd, Konstantinos Zisis, Athina Nisioti, Dimitris Gkouletsos, Dario Pavllo, Jonas Kohler(参考訳) マルチエージェント制御問題は、連続的な行動空間を持つ深層強化学習モデルに対する興味深い応用分野である。 しかし、そのような現実世界のアプリケーションは、通常、違反してはいけない重要な安全上の制約が伴う。 安全性を確保するため、我々は、深層政策ネットワークに安全層を追加することで、よく知られたマルチエージェントの深層決定政策勾配(MADDPG)フレームワークを強化する。 %で,無効行為を自動的に修正する。 特に,安全なddpg(dalal et al., 2018)の単一エージェントシステムに対して行われたように,単一ステップ遷移ダイナミクスをマルチエージェント設定にリニア化するという考え方を拡張した。 また,ソフト制約(Kerrigan & Maciejowski, 2000)を用いて,動作補正ステップの不実現性問題を回避することを提案する。 厳密なペナルティ関数の理論による結果は、穏やかな仮定の下でのソフト制約の制約満足度を保証するために用いられる。 ソフトな定式化によって制約違反の劇的な減少が達成され,学習過程においても安全性が確保される。

Multi-agent control problems constitute an interesting area of application for deep reinforcement learning models with continuous action spaces. Such real-world applications, however, typically come with critical safety constraints that must not be violated. In order to ensure safety, we enhance the well-known multi-agent deep deterministic policy gradient (MADDPG) framework by adding a safety layer to the deep policy network. %which automatically corrects invalid actions. In particular, we extend the idea of linearizing the single-step transition dynamics, as was done for single-agent systems in Safe DDPG (Dalal et al., 2018), to multi-agent settings. We additionally propose to circumvent infeasibility problems in the action correction step using soft constraints (Kerrigan & Maciejowski, 2000). Results from the theory of exact penalty functions can be used to guarantee constraint satisfaction of the soft constraints under mild assumptions. We empirically find that the soft formulation achieves a dramatic decrease in constraint violations, making safety available even during the learning procedure.
翻訳日:2021-08-10 15:02:46 公開日:2021-08-09
# デジタルハードウェアにおける効率的な多数決

Efficient Majority Voting in Digital Hardware ( http://arxiv.org/abs/2108.03979v1 )

ライセンス: Link先を確認
Stefan Baumgartner and Mario Huemer and Michael Lunglmayr(参考訳) 近年,多くの応用において機械学習手法の重要性が高まっている。 しかし、彼らはしばしば、専用のハードウェアアクセラレーターを使用する場合でも、リアルタイムシステムにおける効率的な使用を損なう高い計算要求に悩まされる。 アンサンブル学習法は,低複雑性の個別学習者から構築できるため,ハードウェアアクセラレーションに特に適している。 分類において、これらの学習者の出力は概ね多数決によって結合され、しばしばアンサンブル推論のためのハードウェアアクセラレーターのボトルネックを表す。 本研究では,入力数に対数的な多数のクロックサイクルにおいて,多数決定を下すことのできる新しいアーキテクチャを提案する。 本稿では,手書き文字認識の例として,FPGA上に実装された多数決定アーキテクチャを用いたランダムフォレスト処理エンジンを用いて,毎秒700万枚以上の画像の分類を可能にすることを示す。

In recent years, machine learning methods became increasingly important for a manifold number of applications. However, they often suffer from high computational requirements impairing their efficient use in real-time systems, even when employing dedicated hardware accelerators. Ensemble learning methods are especially suitable for hardware acceleration since they can be constructed from individual learners of low complexity and thus offer large parallelization potential. For classification, the outputs of these learners are typically combined by majority voting, which often represents the bottleneck of a hardware accelerator for ensemble inference. In this work, we present a novel architecture that allows obtaining a majority decision in a number of clock cycles that is logarithmic in the number of inputs. We show, that for the example application of handwritten digit recognition a random forest processing engine employing this majority decision architecture implemented on an FPGA allows the classification of more than seven million images per second.
翻訳日:2021-08-10 15:02:28 公開日:2021-08-09
# 極端偽陽性制約下における静的マルウェア検出の精度向上

Leveraging Uncertainty for Improved Static Malware Detection Under Extreme False Positive Constraints ( http://arxiv.org/abs/2108.04081v1 )

ライセンス: Link先を確認
Andre T. Nguyen and Edward Raff and Charles Nicholas and James Holt(参考訳) マルウェアの検出は、コンピュータ環境の保護にとって重要な課題である。 このタスクでは、非常に低い偽陽性率(fpr)が0.01%以上必要となることが多い。 本稿では,複数のデータセット,モデル,特徴タイプにわたるマルウェア検出における不確実性の利用について,最初の広範囲な調査を行う。 静的マルウェア検出のための機械学習手法のセンセンシングとベイズ処理により、モデルエラーの同定、新しいマルウェアファミリーの発見、極端な偽陽性の制約下での予測性能が向上することを示す。 特に,実際に実現されているfprの1e-5の真の陽性率(tpr)を,従来手法の予測 0.69 から sophos 産業規模データセットのベストパフォーマンスモデルクラス 0.80 まで改善する。 さらに,過去の作業では,誤解を招く結果につながるような評価プロトコルをどのように使用してきたかを示す。

The detection of malware is a critical task for the protection of computing environments. This task often requires extremely low false positive rates (FPR) of 0.01% or even lower, for which modern machine learning has no readily available tools. We introduce the first broad investigation of the use of uncertainty for malware detection across multiple datasets, models, and feature types. We show how ensembling and Bayesian treatments of machine learning methods for static malware detection allow for improved identification of model errors, uncovering of new malware families, and predictive performance under extreme false positive constraints. In particular, we improve the true positive rate (TPR) at an actual realized FPR of 1e-5 from an expected 0.69 for previous methods to 0.80 on the best performing model class on the Sophos industry scale dataset. We additionally demonstrate how previous works have used an evaluation protocol that can lead to misleading results.
翻訳日:2021-08-10 15:01:27 公開日:2021-08-09
# バイオマスソルガムにおけるX型フェノタイプ相互作用の分類と可視化

Classification and Visualization of Genotype x Phenotype Interactions in Biomass Sorghum ( http://arxiv.org/abs/2108.04090v1 )

ライセンス: Link先を確認
Abby Stylianou, Robert Pless, Nadia Shakoor and Todd Mockler(参考訳) 単一ヌクレオチド多型(SNP)または関連SNP群とそれらが制御する表現型との関係を理解するための簡単なアプローチを導入する。 このパイプラインでは、植物の画像とさまざまなsnpの代替バージョンを区別するために、深層畳み込みニューラルネットワーク(cnns)をトレーニングし、分類ネットワークが何を重要視するかを視覚化アプローチを使って強調する。 本研究では,この分類タスクを行う際の深層cnnの容量を実証し,terra-ref gantryによるバイオマスソルガムのrgb画像上での可視化の有用性を示す。 本研究は,表現型が既知の複数の遺伝子マーカーに着目し,この手法を用いて遺伝子型xの表現型関係を明らかにする可能性について論じる。

We introduce a simple approach to understanding the relationship between single nucleotide polymorphisms (SNPs), or groups of related SNPs, and the phenotypes they control. The pipeline involves training deep convolutional neural networks (CNNs) to differentiate between images of plants with reference and alternate versions of various SNPs, and then using visualization approaches to highlight what the classification networks key on. We demonstrate the capacity of deep CNNs at performing this classification task, and show the utility of these visualizations on RGB imagery of biomass sorghum captured by the TERRA-REF gantry. We focus on several different genetic markers with known phenotypic expression, and discuss the possibilities of using this approach to uncover genotype x phenotype relationships.
翻訳日:2021-08-10 15:01:13 公開日:2021-08-09
# サービス指向アーキテクチャと比較して、機械学習デプロイメントのためのフローベースプログラミングの可能性を探る

Exploring the potential of flow-based programming for machine learning deployment in comparison with service-oriented architectures ( http://arxiv.org/abs/2108.04105v1 )

ライセンス: Link先を確認
Andrei Paleyes, Christian Cabrera, Neil D. Lawrence(参考訳) 音声アシスタントや自動運転車など、機械学習の分野で大きな成功を収めたにも関わらず、ビジネスはmlを実運用に投入する上で非常に高い失敗率を維持している。 理由のひとつは、データ収集と分析に関するアクティビティのために設計されていないインフラストラクチャである、と私たちは主張する。 ソフトウェアアプリケーションを構築するための一般的なサービス指向アーキテクチャの代替として,データストリームを用いたフローベースのプログラミングを提案する。 フローベースのプログラミングと広範なサービス指向のアプローチを比較するため,我々はデータ処理アプリケーションを開発し,MLデプロイメントの完全なサイクルを構成する2つのその後のML関連タスクを定式化し,MLコンテキストにおける各プログラミングパラダイムの特性を評価する。 コードメトリクスと経験的観察の両方を用いることで、MLデプロイメントに関しては、各パラダイムに一定のメリットと欠点があることが示されます。 主な結論は、fbpは機械学習のデプロイにインフラ上の利点を提供する大きな可能性を示していますが、データフローグラフを定義して操作するには多くの定型コードが必要です。 私たちは、より良い開発ツールがあればこの問題を緩和できると考えており、現在普及しているSOA駆動のソフトウェア設計アプローチの強力な代替品としてFBPを確立しています。 さらに,データ品質管理よりもモデル開発を優先する傾向について考察する。

Despite huge successes reported by the field of machine learning, such as speech assistants or self-driving cars, businesses still observe very high failure rate when it comes to deployment of ML in production. We argue that part of the reason is infrastructure that was not designed for activities around data collection and analysis. We propose to consider flow-based programming with data streams as an alternative to commonly used service-oriented architectures for building software applications. To compare flow-based programming with the widespread service-oriented approach, we develop a data processing application, and formulate two subsequent ML-related tasks that constitute a complete cycle of ML deployment while allowing us to assess characteristics of each programming paradigm in the ML context. Employing both code metrics and empirical observations, we show that when it comes to ML deployment each paradigm has certain advantages and drawbacks. Our main conclusion is that while FBP shows great potential for providing infrastructural benefits for deployment of machine learning, it requires a lot of boilerplate code to define and manipulate the dataflow graph. We believe that with better developer tools in place this problem can be alleviated, establishing FBP as a strong alternative to currently prevalent SOA-driven software design approach. Additionally, we provide an insight into the trend of prioritising model development over data quality management.
翻訳日:2021-08-10 15:00:58 公開日:2021-08-09
# ディープラーニングを用いたセグメンテーションフリー心病理検出

Segmentation-free Heart Pathology Detection Using Deep Learning ( http://arxiv.org/abs/2108.04139v1 )

ライセンス: Link先を確認
Erika Bondareva, Jing Han, William Bradlow, Cecilia Mascolo(参考訳) 心臓血管疾患(cv; cardiovascular disease)は、世界の主要な死因であり、通常、聴診は心血管検査の重要な部分である。 心臓音に基づいて患者を診断する能力は、マスターするのがかなり難しい。 そこで, 自動心臓聴診に対する多くのアプローチが検討されている。 しかし,提案手法の多くはセグメント化ステップを伴い,高いパルスレートやノイズ信号に対して性能が著しく低下する。 本研究では,新しいセグメンテーションフリー心音分類法を提案する。 具体的には、離散ウェーブレット変換を信号に応用し、特徴抽出と特徴削減を行う。 次に、サポートベクトルマシンとディープニューラルネットワークを用いて分類する。 pascal heart soundデータセットでは,正常クラスとmurmurクラスでそれぞれ81%,96%の精度を示した。 さらに,本手法が正常および大腿骨における92%と86%の精度を達成し,本法を実用化するための自動大腿骨骨折検出の可能性を実証した。

Cardiovascular (CV) diseases are the leading cause of death in the world, and auscultation is typically an essential part of a cardiovascular examination. The ability to diagnose a patient based on their heart sounds is a rather difficult skill to master. Thus, many approaches for automated heart auscultation have been explored. However, most of the previously proposed methods involve a segmentation step, the performance of which drops significantly for high pulse rates or noisy signals. In this work, we propose a novel segmentation-free heart sound classification method. Specifically, we apply discrete wavelet transform to denoise the signal, followed by feature extraction and feature reduction. Then, Support Vector Machines and Deep Neural Networks are utilised for classification. On the PASCAL heart sound dataset our approach showed superior performance compared to others, achieving 81% and 96% precision on normal and murmur classes, respectively. In addition, for the first time, the data were further explored under a user-independent setting, where the proposed method achieved 92% and 86% precision on normal and murmur, demonstrating the potential of enabling automatic murmur detection for practical use.
翻訳日:2021-08-10 15:00:38 公開日:2021-08-09
# 階層的半分離カーネル近似を組み合わせた乗算器の交互方向法による超大規模非線形SVMの訓練

Training very large scale nonlinear SVMs using Alternating Direction Method of Multipliers coupled with the Hierarchically Semi-Separable kernel approximations ( http://arxiv.org/abs/2108.04167v1 )

ライセンス: Link先を確認
S. Cipolla, J. Gondzio(参考訳) 典型的には、非線形サポートベクターマシン(svm)は線形のものに比べてかなり高い分類品質を生み出すが、同時に、その計算複雑性は大規模データセットでは禁止されている。 SVMのトレーニングのコアには、‘textit{simple} convex Optimization problem’があるにもかかわらず、カーネル行列の存在は劇的なパフォーマンス低下の原因であり、大きな問題に対してSVMが非作業的に遅くなる。 大規模非線形svm問題の効率的な解法をめざして,乗算器の\textit{alternating direction method of multipliers} と \textit{hierarchically semi-separable} (hss) カーネル近似を用いた手法を提案する。 この研究で示されるように、アルゴリズムコンポーネント間の相互作用の詳細な分析により、特に効率的なフレームワークが明らかにされ、実際に提示された実験結果は、(分類精度に大きな影響を与えずに) \textit{state-of-the-art} 非線形svmライブラリと比較して大きなスピードアップを示している。

Typically, nonlinear Support Vector Machines (SVMs) produce significantly higher classification quality when compared to linear ones but, at the same time, their computational complexity is prohibitive for large-scale datasets: this drawback is essentially related to the necessity to store and manipulate large, dense and unstructured kernel matrices. Despite the fact that at the core of training a SVM there is a \textit{simple} convex optimization problem, the presence of kernel matrices is responsible for dramatic performance reduction, making SVMs unworkably slow for large problems. Aiming to an efficient solution of large-scale nonlinear SVM problems, we propose the use of the \textit{Alternating Direction Method of Multipliers} coupled with \textit{Hierarchically Semi-Separable} (HSS) kernel approximations. As shown in this work, the detailed analysis of the interaction among their algorithmic components unveils a particularly efficient framework and indeed, the presented experimental results demonstrate a significant speed-up when compared to the \textit{state-of-the-art} nonlinear SVM libraries (without significantly affecting the classification accuracy).
翻訳日:2021-08-10 15:00:20 公開日:2021-08-09
# 胸部ctによるcovid-19診断

COVID-view: Diagnosis of COVID-19 using Chest CT ( http://arxiv.org/abs/2108.03799v1 )

ライセンス: Link先を確認
Shreeraj Jadhav, Gaofeng Deng, Marlene Zawin, Arie E. Kaufman(参考訳) 胸部ctデータを用いた自動肺・病変分画およびcovid-19分類のための深層学習モデル(dl)の研究が盛んに行われている。 しかし、COVID-19の二重視覚+DL診断を支援する総合的な可視化システムは存在しない。 放射線医が胸部CTデータから新型コロナウイルスを診断するための可視化アプリケーションであるCOVID-viewを紹介する。 このシステムには、自動肺分割、肺の異常の局所化と分離、可視化、視覚的およびDL分析、測定/定量化ツールが組み込まれている。 従来の放射線医の2Dワークフローと,より新しい2Dおよび3D可視化技術と,より包括的診断のためのDLサポートを組み合わせる。 covid-viewには、患者を陽性/陰性の患者に分類するための新しいdlモデルが組み込まれており、これはcovid-19-viewを使用して放射線科医の読書支援となり、モデル出力のための説明可能なdlとしてアテンションヒートマップを提供する。 HIV、肺塞栓症、その他の肺感染症の胸部CT検査をかなり経験した専門医による、提案、フィードバック、実世界の患者データのケーススタディにより、COVID-viewを設計、評価した。 デザイン選択を動機づける新型コロナウイルス(covid-19)の診断の要件と課題分析を行い,現実の患者を対応できる実用的なシステムを構築した。

Significant work has been done towards deep learning (DL) models for automatic lung and lesion segmentation and classification of COVID-19 on chest CT data. However, comprehensive visualization systems focused on supporting the dual visual+DL diagnosis of COVID-19 are non-existent. We present COVID-view, a visualization application specially tailored for radiologists to diagnose COVID-19 from chest CT data. The system incorporates a complete pipeline of automatic lungs segmentation, localization/ isolation of lung abnormalities, followed by visualization, visual and DL analysis, and measurement/quantifi cation tools. Our system combines the traditional 2D workflow of radiologists with newer 2D and 3D visualization techniques with DL support for a more comprehensive diagnosis. COVID-view incorporates a novel DL model for classifying the patients into positive/negative COVID-19 cases, which acts as a reading aid for the radiologist using COVID-view and provides the attention heatmap as an explainable DL for the model output. We designed and evaluated COVID-view through suggestions, close feedback and conducting case studies of real-world patient data by expert radiologists who have substantial experience diagnosing chest CT scans for COVID-19, pulmonary embolism, and other forms of lung infections. We present requirements and task analysis for the diagnosis of COVID-19 that motivate our design choices and results in a practical system which is capable of handling real-world patient cases.
翻訳日:2021-08-10 14:59:25 公開日:2021-08-09
# オンラインマルチ目的ミニマックス最適化とその応用

Online Multiobjective Minimax Optimization and Applications ( http://arxiv.org/abs/2108.03837v1 )

ライセンス: Link先を確認
Georgy Noarov, Mallesh Pai, Aaron Roth(参考訳) 学習者の行動空間,学習者の行動空間,対向者に対する行動空間,各座標で凸対となるベクトル値の目的関数からなる新しいゲームを導入する,単純だが汎用的なオンライン学習フレームワークを提案する。 学習者と敵対者はこのゲームでプレーする。 学習者の目標は、累積ベクトル値損失の最大座標を最小にするために遊ぶことである。 結果として得られるワンショットゲームは凸凸ではないので、ミニマックス定理は適用されない。 それにもかかわらず、敵がまず行動を発表しなければならない設定と競合する単純なアルゴリズムを、最適に後悔を減らし、与える。 様々な領域にまたがる最適境界とアルゴリズムを導出することにより、我々のシンプルなフレームワークのパワーを実証する。 最適なアルゴリズムと境界を回復して、外部の後悔、内部の後悔、適応的な後悔、多集団の後悔、その後の後悔、睡眠専門家の設定における後悔の概念を最小化できます。 次に、ブラックウェルのアプローチ可能性理論の変種を導出し、これを「Fast Polytope Approachability」と呼ぶ。 最後に,オンラインの対数多重校正と関連する概念(平均条件付きモーメント多重校正,予測区間多重校正)について,最近導出したアルゴリズムと境界を復元する。

We introduce a simple but general online learning framework, in which at every round, an adaptive adversary introduces a new game, consisting of an action space for the learner, an action space for the adversary, and a vector valued objective function that is convex-concave in every coordinate. The learner and the adversary then play in this game. The learner's goal is to play so as to minimize the maximum coordinate of the cumulative vector-valued loss. The resulting one-shot game is not convex-concave, and so the minimax theorem does not apply. Nevertheless, we give a simple algorithm that can compete with the setting in which the adversary must announce their action first, with optimally diminishing regret. We demonstrate the power of our simple framework by using it to derive optimal bounds and algorithms across a variety of domains. This includes no regret learning: we can recover optimal algorithms and bounds for minimizing external regret, internal regret, adaptive regret, multigroup regret, subsequence regret, and a notion of regret in the sleeping experts setting. Next, we use it to derive a variant of Blackwell's Approachability Theorem, which we term "Fast Polytope Approachability" ;. Finally, we are able to recover recently derived algorithms and bounds for online adversarial multicalibration and related notions (mean-conditioned moment multicalibration, and prediction interval multivalidity).
翻訳日:2021-08-10 14:58:21 公開日:2021-08-09
# 破滅的な忘れ方とアルゴリズムの学習方法

Some thoughts on catastrophic forgetting and how to learn an algorithm ( http://arxiv.org/abs/2108.03940v1 )

ライセンス: Link先を確認
Miguel Ruiz-Garcia(参考訳) マクラスキーとコーエンの研究は破滅的な干渉の概念を広めた。 彼らは2つの異なるタスクとして2つのサンプルグループを使用して追加学習を試みるニューラルネットワークを使用した。 その場合、2番目のタスクの学習は、前回のタスクに関する取得した知識を急速に劣化させました。 これは基本的な問題の徴候であり、追加はパターン認識によって学習すべきでないアルゴリズム的なタスクである。 我々は,二進数の追加に対して正しいアルゴリズムを復元するためにトレーニング可能な,異なるアーキテクチャを持つニューラルネットワークを提案する。 McCloskey と Cohen によって提案された設定でテストし、ランダムな例をひとつずつトレーニングする。 ニューラルネットワークは破滅的な忘れ物に苦しむだけでなく、トレーニングが進むにつれて、目に見えない数字の予測能力を向上させる。 この研究は、ニューラルネットワークアーキテクチャが破滅的な忘れ物の出現に重要であることを強調し、アルゴリズムを学習できるニューラルネットワークを導入している。

The work of McCloskey and Cohen popularized the concept of catastrophic interference. They used a neural network that tried to learn addition using two groups of examples as two different tasks. In their case, learning the second task rapidly deteriorated the acquired knowledge about the previous one. This could be a symptom of a fundamental problem: addition is an algorithmic task that should not be learned through pattern recognition. We propose to use a neural network with a different architecture that can be trained to recover the correct algorithm for the addition of binary numbers. We test it in the setting proposed by McCloskey and Cohen and training on random examples one by one. The neural network not only does not suffer from catastrophic forgetting but it improves its predictive power on unseen pairs of numbers as training progresses. This work emphasizes the importance that neural network architecture has for the emergence of catastrophic forgetting and introduces a neural network that is able to learn an algorithm.
翻訳日:2021-08-10 14:57:57 公開日:2021-08-09
# VeRLPy:強化学習によるディジタルデザイン検証のためのPythonライブラリ

VeRLPy: Python Library for Verification of Digital Designs with Reinforcement Learning ( http://arxiv.org/abs/2108.03978v1 )

ライセンス: Link先を確認
Aebel Joe Shibu, Sadhana S, Shilpa N, Pratyush Kumar(参考訳) ディジタルハードウェアは、ランダムに生成された入力信号の範囲の基準モデルと比較することにより検証される。 入力のランダムな生成は、設計の異なる部分を十分にカバーしたいと考えている。 しかし、このようなカバレッジは多くの場合達成が困難であり、大きな検証努力と遅延が伴う。 別の方法として、強化学習(rl)を使用して、テスト中の設計をより効率的に探求できる入力を優先順位付けすることで、入力を生成する方法がある。 本稿では,エンジニアリングオーバーヘッドが限定されたrlによる検証を可能にするオープンソースライブラリ verlpy を提案する。 これは、(a)オープンソースツールチェーンへの移行と(b)Pythonサポートによる開発における障壁の削減という、EDAコミュニティ内の2つの大きな動きに寄与する。 また、VeRLPyをいくつかの設計に適用し、ランダムに生成された入力信号に対してその値を確立する。

Digital hardware is verified by comparing its behavior against a reference model on a range of randomly generated input signals. The random generation of the inputs hopes to achieve sufficient coverage of the different parts of the design. However, such coverage is often difficult to achieve, amounting to large verification efforts and delays. An alternative is to use Reinforcement Learning (RL) to generate the inputs by learning to prioritize those inputs which can more efficiently explore the design under test. In this work, we present VeRLPy an open-source library to allow RL-driven verification with limited additional engineering overhead. This contributes to two broad movements within the EDA community of (a) moving to open-source toolchains and (b) reducing barriers for development with Python support. We also demonstrate the use of VeRLPy for a few designs and establish its value over randomly generated input signals.
翻訳日:2021-08-10 14:57:43 公開日:2021-08-09
# 超低ビットレート広帯域音声符号化のためのストリームワイズGANボコーダ

A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate ( http://arxiv.org/abs/2108.04051v1 )

ライセンス: Link先を確認
Ahmed Mustafa, Jan B\"uthe, Srikanth Korse, Kishan Gupta, Guillaume Fuchs, Nicola Pia(参考訳) 近年,GANヴォコーダは音声合成の急速な進歩を経験し,高い生成速度で知覚的品質の自己回帰モデルより優れ始めた。 しかし、低ビットレートで符号化された音声信号のニューラル生成には、自己回帰的なボコーダが依然として一般的である。 本稿では,1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成可能なganボコーダを提案する。 提案モデルはStyleMelGAN vocoderの修正版であり、フレーム単位で動作可能であり、ストリーミングアプリケーションに適している。 実験結果から,提案手法は,LPCNetなどの先行自己回帰ボコーダよりも低ビットレート音声符号化に優れ,計算複雑性は約5GMACであり,この領域における新たな技術状態を提供することがわかった。 さらに,この逆数ボコーダは,5.9kbit/sのEVSなどの高度な音声コーデックに対して,低ビットレート音声符号化のためのフィードフォワード完全畳み込みモデルをさらに活用する動機となる品質の競争力を提供する。

Recently, GAN vocoders have seen rapid progress in speech synthesis, starting to outperform autoregressive models in perceptual quality with much higher generation speed. However, autoregressive vocoders are still the common choice for neural generation of speech signals coded at very low bit rates. In this paper, we present a GAN vocoder which is able to generate wideband speech waveforms from parameters coded at 1.6 kbit/s. The proposed model is a modified version of the StyleMelGAN vocoder that can run in frame-by-frame manner, making it suitable for streaming applications. The experimental results show that the proposed model significantly outperforms prior autoregressive vocoders like LPCNet for very low bit rate speech coding, with computational complexity of about 5 GMACs, providing a new state of the art in this domain. Moreover, this streamwise adversarial vocoder delivers quality competitive to advanced speech codecs such as EVS at 5.9 kbit/s on clean speech, which motivates further usage of feed-forward fully-convolutional models for low bit rate speech coding.
翻訳日:2021-08-10 14:57:26 公開日:2021-08-09
# 新しいピークのスケーリング: コンテンツキュレーションを自動化するビューアシップ中心のアプローチ

Scaling New Peaks: A Viewership-centric Approach to Automated Content Curation ( http://arxiv.org/abs/2108.04187v1 )

ライセンス: Link先を確認
Subhabrata Majumdar, Deirdre Paul, Eric Zavesky(参考訳) ビデオコンテンツの要約は、ビデオストリーミングサービスがユーザーを限られた時間でエンゲージする上で重要である。 この目的のために、現在の手法では、手作業によるキュレーションや受動的興味の手がかりを用いて、潜在的な高関心セグメントに注釈を付け、要約されたビデオの基礎を形成し、コストがかかり信頼性が低い。 本稿では,セグメント識別目標の範囲に対応する視聴者主導自動化手法を提案する。 衛星テレビ視聴率データを視聴者の興味の源として利用し,視聴率指標の時系列に統計的異常検出を適用し,高い視聴者の「シード」セグメントを識別する。 これらのセグメントは経験則といくつかのコンテンツメタデータのソースを使って後処理される。 ショット境界、パーソナライゼーションの側面を追加して、最終的なハイライトビデオを生成する。 このアプローチの柔軟性を示すために,2019年12月19日のアメリカ合衆国大統領選挙討論会とwinbledon women's final 2019の2つの事例研究を行った。 メディアや社会的影響が視聴行動に与える影響についての洞察を得るために、公開ハイライトと早期対後期視聴の比較を行う。

Summarizing video content is important for video streaming services to engage the user in a limited time span. To this end, current methods involve manual curation or using passive interest cues to annotate potential high-interest segments to form the basis of summarized videos, and are costly and unreliable. We propose a viewership-driven, automated method that accommodates a range of segment identification goals. Using satellite television viewership data as a source of ground truth for viewer interest, we apply statistical anomaly detection on a timeline of viewership metrics to identify 'seed' segments of high viewer interest. These segments are post-processed using empirical rules and several sources of content metadata, e.g. shot boundaries, adding in personalization aspects to produce the final highlights video. To demonstrate the flexibility of our approach, we present two case studies, on the United States Democratic Presidential Debate on 19th December 2019, and Wimbledon Women's Final 2019. We perform qualitative comparisons with their publicly available highlights, as well as early vs. late viewership comparisons for insights into possible media and social influence on viewing behavior.
翻訳日:2021-08-10 14:56:43 公開日:2021-08-09