このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210409となっている論文です。

PDF登録状況(公開日: 20210409)

TitleAuthorsAbstract論文公表日・翻訳日
# GAEA:強化学習による等価アクセスのためのグラフ拡張

GAEA: Graph Augmentation for Equitable Access via Reinforcement Learning ( http://arxiv.org/abs/2012.03900v2 )

ライセンス: Link先を確認
Govardana Sachithanandam Ramachandran, Ivan Brugere, Lav R. Varshney, and Caiming Xiong(参考訳) 異なるサブ人口による資源の異なるアクセスは、社会技術ネットワークや社会技術ネットワークにおいて主要な問題である。 例えば、都市インフラネットワークは、特定の人種集団が高品質の学校、食料品店、投票所などのリソースをより簡単にアクセスできるようにする。 同様に、大学や組織内のソーシャルネットワークは、あるグループが価値のある情報や影響力を持つ人々にアクセスしやすくする。 本稿では,予算制約下でグラフエッジを編集することにより,ネットワークシステムにおけるエクイティを高めるための新たな問題として,等価アクセスのためのグラフ拡張(gaea)を提案する。 そのような問題はNPハードであり、$(1-\tfrac{1}{3e})$で近似することはできない。 GAEAのためのMRP(Markov Reward Process)に基づくメカニズム設計フレームワークを開発した。 我々のアルゴリズムは多種多様な合成グラフのベースラインを上回る。 さらに,シカゴ市における人口センサス,学校,交通データの統合と,バスネットワークへの人間解釈可能な編集手法の適用により,人種間での質の高い学校への公平なアクセスを促進することにより,実世界のネットワーク上での手法を実証する。 大学内のfacebookネットワークでのさらなる実験は、性別グループ間の特定の帰属ノードへの公平なアクセスを増加させる、新たな社会接続のセットをもたらす。

Disparate access to resources by different subpopulations is a prevalent issue in societal and sociotechnical networks. For example, urban infrastructure networks may enable certain racial groups to more easily access resources such as high-quality schools, grocery stores, and polling places. Similarly, social networks within universities and organizations may enable certain groups to more easily access people with valuable information or influence. Here we introduce a new class of problems, Graph Augmentation for Equitable Access (GAEA), to enhance equity in networked systems by editing graph edges under budget constraints. We prove such problems are NP-hard, and cannot be approximated within a factor of $(1-\tfrac{1}{3e})$. We develop a principled, sample- and time- efficient Markov Reward Process (MRP)-based mechanism design framework for GAEA. Our algorithm outperforms baselines on a diverse set of synthetic graphs. We further demonstrate the method on real-world networks, by merging public census, school, and transportation datasets for the city of Chicago and applying our algorithm to find human-interpretable edits to the bus network that enhance equitable access to high-quality schools across racial groups. Further experiments on Facebook networks of universities yield sets of new social connections that would increase equitable access to certain attributed nodes across gender groups.
翻訳日:2021-05-16 21:39:40 公開日:2021-04-09
# サイドステッピングによるより強いキャリブレーション下限

Stronger Calibration Lower Bounds via Sidestepping ( http://arxiv.org/abs/2012.03454v2 )

ライセンス: Link先を確認
Mingda Qiao, Gregory Valiant(参考訳) 我々は、予測者が1つずつ$t$ビットのシーケンスを観察するオンラインバイナリ予測設定を考える。 各ビットが明かされる前に、予測器はビットが1ドルである確率を予測する。 予測器が well-calibrated と呼ばれるのは、各$p \in [0, 1]$ に対して、予測者が確率 $p$ を予測する$n_p$ のうち、実際の数 $m_p$ が$p \cdot n_p$ に等しい場合である。 キャリブレーション誤差は$\sum_p |m_pp n_p|$と定義され、予測器が適切に校正されない範囲を定量化する。 O(T^{2/3})$キャリブレーション誤差は、ビットが逆選択された場合でも達成可能であり、おそらくは以前の予測に基づいている。 しかし、独立フェアコインフリップの自明な例から従う$\Omega(\sqrt{T})$boundを除いて、下界側ではほとんど知られていない。 本稿では,キャリブレーション誤差に対する$\Omega(T^{0.528})$バウンドを証明し,この設定を私たちの知識の最高のものにするための最初のスーパー=$\sqrt{T}$ローバウンドである。 我々の研究の技術的貢献には、早期停止とサイドステッピングの2つの下限技術が含まれており、これは以前に強いキャリブレーションの下限を妨げていた障害を回避するものである。 また, 予測設定の抽象化として, 独立興味を持った手話保存ゲームを提案する。 このゲームは完全な予測設定よりもずっと小さな状態空間を持ち、より単純な分析を可能にする。 $\Omega(T^{0.528})$ lower bound は Sign-Preservation のゲーム値の下位境界をキャリブレーション誤差の下位境界に変換する一般還元定理から従う。

We consider an online binary prediction setting where a forecaster observes a sequence of $T$ bits one by one. Before each bit is revealed, the forecaster predicts the probability that the bit is $1$. The forecaster is called well-calibrated if for each $p \in [0, 1]$, among the $n_p$ bits for which the forecaster predicts probability $p$, the actual number of ones, $m_p$, is indeed equal to $p \cdot n_p$. The calibration error, defined as $\sum_p |m_p - p n_p|$, quantifies the extent to which the forecaster deviates from being well-calibrated. It has long been known that an $O(T^{2/3})$ calibration error is achievable even when the bits are chosen adversarially, and possibly based on the previous predictions. However, little is known on the lower bound side, except an $\Omega(\sqrt{T})$ bound that follows from the trivial example of independent fair coin flips. In this paper, we prove an $\Omega(T^{0.528})$ bound on the calibration error, which is the first super-$\sqrt{T}$ lower bound for this setting to the best of our knowledge. The technical contributions of our work include two lower bound techniques, early stopping and sidestepping, which circumvent the obstacles that have previously hindered strong calibration lower bounds. We also propose an abstraction of the prediction setting, termed the Sign-Preservation game, which may be of independent interest. This game has a much smaller state space than the full prediction setting and allows simpler analyses. The $\Omega(T^{0.528})$ lower bound follows from a general reduction theorem that translates lower bounds on the game value of Sign-Preservation into lower bounds on the calibration error.
翻訳日:2021-05-16 21:38:57 公開日:2021-04-09
# アイソポイント:ハイブリッド表現を用いたニューラルネットワーク表面の最適化

Iso-Points: Optimizing Neural Implicit Surfaces with Hybrid Representations ( http://arxiv.org/abs/2012.06434v2 )

ライセンス: Link先を確認
Wang Yifan, Shihao Wu, Cengiz Oztireli, Olga Sorkine-Hornung(参考訳) ニューラル暗黙関数は3dの曲面の強力な表現として現れた。 このような関数は、ディープニューラルネットワークのパラメータに複雑な詳細を持つ高品質な表面を符号化することができる。 しかし、特に入力データがノイズや不完全である場合、正確で堅牢な再構成のためのパラメータの最適化は依然として困難である。 本研究では,形状認識型サンプリングと正則化を課すハイブリッドニューラルサーフェス表現を開発し,再構成の忠実性を大幅に改善した。 我々は,神経暗黙関数の明示表現として \emph{iso-points} を用いることを提案する。 これらの点はトレーニング中に計算され更新され、重要な幾何学的特徴を捉え、最適化に幾何的制約を課す。 我々は,多視点画像や点雲からニューラルな暗黙表面を再構築するための最先端技術を改善するために,本手法を適用できることを実証した。 定量的および定性的な評価は,既存のサンプリング法や最適化法と比較して,より高速な収束,一般化,詳細およびトポロジーの正確な回復を可能にすることを示す。

Neural implicit functions have emerged as a powerful representation for surfaces in 3D. Such a function can encode a high quality surface with intricate details into the parameters of a deep neural network. However, optimizing for the parameters for accurate and robust reconstructions remains a challenge, especially when the input data is noisy or incomplete. In this work, we develop a hybrid neural surface representation that allows us to impose geometry-aware sampling and regularization, which significantly improves the fidelity of reconstructions. We propose to use \emph{iso-points} as an explicit representation for a neural implicit function. These points are computed and updated on-the-fly during training to capture important geometric features and impose geometric constraints on the optimization. We demonstrate that our method can be adopted to improve state-of-the-art techniques for reconstructing neural implicit surfaces from multi-view images or point clouds. Quantitative and qualitative evaluations show that, compared with existing sampling and optimization methods, our approach allows faster convergence, better generalization, and accurate recovery of details and topology.
翻訳日:2021-05-11 02:53:35 公開日:2021-04-09
# キースライスROI解析による多相MRボリュームの完全自動肝腫瘍局在と評価

Fully-Automated Liver Tumor Localization and Characterization from Multi-Phase MR Volumes Using Key-Slice ROI Parsing: A Physician-Inspired Approach ( http://arxiv.org/abs/2012.06964v3 )

ライセンス: Link先を確認
Bolin Lai, Yuhsuan Wu, Xiaoyu Bai, Xiao-Yun Zhou, Peng Wang, Jinzheng Cai, Yuankai Huo, Lingyun Huang, Yong Xia, Jing Xiao, Le Lu, Heping Hu, Adam Harrison(参考訳) 肝腫瘍の診断には放射線検査が不可欠である。 多相磁気共鳴(MR)画像を用いた場合であっても、F1のスコアが約80%(肝細胞癌(HCC)対その他のもの)であるのに対して、これは非常に困難である。 このように、コンピュータ支援診断(CAD)ソリューションには大きな意味がある。 重要な課題は、特にエッジケースにおいて、診断可能な関心領域(ROI)の局在化のために、3次元MRボリュームを堅牢に解析することである。 本稿では、まずキースライスを特定し、対応するキーロアをローカライズすることで、医師のワークフローをエミュレートするキースライスパーサ(ksp)を用いてこの問題を解明する。 堅牢性を達成するため、KSPはカーブパーシングと検出信頼度再重み付けも使用している。 これまでの多段階mr肝病変検査データ(生検患者430名)に対するアプローチを評価した。 87%の患者は、基礎的真実と平均3d重なりが40%以上あるが、最もよく検査された検出器は79%である。 分類器と組み合わせると、HCCと他のF1スコアの0.801を達成し、上位の医師に匹敵する完全なCAD性能を提供する。

Using radiological scans to identify liver tumors is crucial for proper patient treatment. This is highly challenging, as top radiologists only achieve F1 scores of roughly 80% (hepatocellular carcinoma (HCC) vs. others) with only moderate inter-rater agreement, even when using multi-phase magnetic resonance (MR) imagery. Thus, there is great impetus for computer-aided diagnosis (CAD) solutions. A critical challenge is to robustly parse a 3D MR volume to localize diagnosable regions of interest (ROI), especially for edge cases. In this paper, we break down this problem using a key-slice parser (KSP), which emulates physician workflows by first identifying key slices and then localizing their corresponding key ROIs. To achieve robustness, the KSP also uses curve-parsing and detection confidence re-weighting. We evaluate our approach on the largest multi-phase MR liver lesion test dataset to date (430 biopsy-confirmed patients). Experiments demonstrate that our KSP can localize diagnosable ROIs with high reliability: 87% patients have an average 3D overlap of >= 40% with the ground truth compared to only 79% using the best tested detector. When coupled with a classifier, we achieve an HCC vs. others F1 score of 0.801, providing a fully-automated CAD performance comparable to top human physicians.
翻訳日:2021-05-09 12:45:21 公開日:2021-04-09
# トランスフォーマー:NLPの「歴史の終わり」?

Transformers: "The End of History" for NLP? ( http://arxiv.org/abs/2105.00813v1 )

ライセンス: Link先を確認
Anton Chernyavskiy, Dmitry Ilvovsky, Preslav Nakov(参考訳) Transformerのようなニューラルアーキテクチャの最近の進歩とBERTのような大規模事前学習モデルの出現は、自然言語処理(NLP)の分野に革命をもたらし、NLPタスクの最先端を推し進めている。 ロベルタ、アルバート、xlnetなど、これらのモデルの豊富なバリエーションが提案されているが、基本的には、それらはいずれも特定の種類の情報をモデル化する能力に制限があり、既存のモデルにとって容易な特定の情報ソースに対応できない。 そこで本研究では,一般的な Transformer アーキテクチャに固有の BERT スタイルのモデルに,いくつかの重要な理論的制約を課すことを目的としている。 まず、セグメンテーションとセグメンテーションラベリングという2つの一般的なタスクと、これらの制限が本当に有害である4つのデータセットについて、非常に単純でナイーブな方法であっても、vanilla robertaとxlnetに対して大きな改善をもたらす可能性があることを実際に実証します。 次に、desiderataについてより一般的な議論を行い、その表現力を高めるトランスフォーマーアーキテクチャへの今後の追加について述べ、次世代の深層nlpアーキテクチャの設計に役立てることを望んでいる。

Recent advances in neural architectures, such as the Transformer, coupled with the emergence of large-scale pre-trained models such as BERT, have revolutionized the field of Natural Language Processing (NLP), pushing the state-of-the-art for a number of NLP tasks. A rich family of variations of these models has been proposed, such as RoBERTa, ALBERT, and XLNet, but fundamentally, they all remain limited in their ability to model certain kinds of information, and they cannot cope with certain information sources, which was easy for pre-existing models. Thus, here we aim to shed some light on some important theoretical limitations of pre-trained BERT-style models that are inherent in the general Transformer architecture. First, we demonstrate in practice on two general types of tasks -- segmentation and segment labeling -- and four datasets that these limitations are indeed harmful and that addressing them, even in some very simple and naive ways, can yield sizable improvements over vanilla RoBERTa and XLNet. Then, we offer a more general discussion on desiderata for future additions to the Transformer architecture that would increase its expressiveness, which we hope could help in the design of the next generation of deep NLP architectures.
翻訳日:2021-05-04 20:41:40 公開日:2021-04-09
# (参考訳) 空気の質が新型コロナウイルスの感染拡大に及ぼす影響。 人工知能のアプローチ [全文訳有]

The Effects of Air Quality on the Spread of the COVID-19. An Artificial Intelligence Approach ( http://arxiv.org/abs/2104.12546v1 )

ライセンス: CC BY 4.0
Andrea Loreggia, Anna Passarelli(参考訳) 新型コロナウイルスのパンデミックは世界中の公衆衛生システムに大きな影響を及ぼす。 ウイルスに関する知識の欠如、この現象の延長、および感染の進化の速度は、これらの現象を研究するために新しいアプローチを採用する必要があることを強調するすべての要因である。 人工知能技術は、ウイルスの影響を受けた領域に関するデータを分析するのに有用である。 本研究の目的は,イタリア地方における大気汚染とcovid-19の感染状況の関連について検討することである。 具体的には, 日中感染者と気温, 相対湿度, 大気汚染物質などの環境要因との関連性について検討した。 本解析により,環境パラメータとウイルスの拡散との関連性が確認できた。 これは、将来の感染数を予測するために環境パラメータでトレーニングされた機械学習モデルが正確であることを示唆している。 予測モデルは、人口を保護し、パンデミックと対比する決定を下すのに役立つかもしれない。

The COVID-19 pandemic considerably affects public health systems around the world. The lack of knowledge about the virus, the extension of this phenomenon, and the speed of the evolution of the infection are all factors that highlight the necessity of employing new approaches to study these events. Artificial intelligence techniques may be useful in analyzing data related to areas affected by the virus. The aim of this work is to investigate any possible relationships between air quality and confirmed cases of COVID-19 in Italian districts. Specifically, we report an analysis of the correlation between daily COVID-19 cases and environmental factors, such as temperature, relative humidity, and atmospheric pollutants. Our analysis confirms a significant association of some environmental parameters with the spread of the virus. This suggests that machine learning models trained on the environmental parameters to predict the number of future infected cases may be accurate. Predictive models may be useful for helping institutions in making decisions for protecting the population and contrasting the pandemic.
翻訳日:2021-05-04 08:50:45 公開日:2021-04-09
# (参考訳) 国連における倫理的AIの枠組み [全文訳有]

A Framework for Ethical AI at the United Nations ( http://arxiv.org/abs/2104.12547v1 )

ライセンス: CC BY 4.0
Lambert Hogenhout(参考訳) 本稿では、人工知能(AI)の倫理的関心事の概要と、それらのリスクを軽減するために必要な枠組みについて述べ、国連におけるAIの開発と利用が倫理的価値観に合致することを確実にするための実践的な道筋を提案する。 要約では、aiが、基本的人権と国連の価値に逆らうネガティブな副作用のリスクが高いものの、善への可能性を持つ、ますます強力なツールになっていることを論じている。 データとAIが密接に絡み合っているため、データガバナンスの原則に沿ったAIの倫理原則の必要性を説明する。 それは存在する異なる倫理的枠組みとアセスメントリストのようなツールを探求する。 国連は、倫理的原則、建築基準、評価方法、ツール、方法論からなる枠組み、およびこの枠組みの実施と遵守を統制するための方針を職員教育プログラムとともに策定することを推奨している。

This paper aims to provide an overview of the ethical concerns in artificial intelligence (AI) and the framework that is needed to mitigate those risks, and to suggest a practical path to ensure the development and use of AI at the United Nations (UN) aligns with our ethical values. The overview discusses how AI is an increasingly powerful tool with potential for good, albeit one with a high risk of negative side-effects that go against fundamental human rights and UN values. It explains the need for ethical principles for AI aligned with principles for data governance, as data and AI are tightly interwoven. It explores different ethical frameworks that exist and tools such as assessment lists. It recommends that the UN develop a framework consisting of ethical principles, architectural standards, assessment methods, tools and methodologies, and a policy to govern the implementation and adherence to this framework, accompanied by an education program for staff.
翻訳日:2021-05-04 08:35:43 公開日:2021-04-09
# KI-BERT:より良い言語とドメイン理解のための知識コンテキストの注入

KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding ( http://arxiv.org/abs/2104.08145v1 )

ライセンス: Link先を確認
Keyur Faldu, Amit Sheth, Prashant Kikani, Hemang Akabari(参考訳) 最先端のディープラーニングモデル(BERT、GPT、T5など)によって学習されたコンテキスト化されたエンティティ表現は、注意機構を利用してデータコンテキストを学習する。 しかし、これらのモデルは知識グラフに存在する知識コンテキストを活用するには依然として盲目である。 知識コンテキストは、エンティティに関する意味論や、知識グラフにおける近隣エンティティとの関係として理解することができる。 本稿では,知識コンテキストを概念的かつ曖昧なエンティティの知識グラフからトランスフォーマーアーキテクチャに基づくモデルに注入する手法を提案する。 提案手法は,同質なベクトル空間に埋め込まれたプロジェクト知識グラフ,エンティティのための新しいトークン型の導入,エンティティ位置IDの整合化,選択的アテンション機構である。 本研究では,BERTをベースラインモデルとし,コンセプションネットとWordNetから知識コンテキストを注入して"Knowledge Infused BERT"を実装する。 KI-BERTベースモデルは、SciTailのようなドメイン固有のタスクや、QQP、QNLI、MNLIの学術サブセットに対してBERT-largeよりも優れています。

Contextualized entity representations learned by state-of-the-art deep learning models (BERT, GPT, T5, etc) leverage the attention mechanism to learn the data context. However, these models are still blind to leverage the knowledge context present in the knowledge graph. Knowledge context can be understood as semantics about entities, and their relationship with neighboring entities in knowledge graphs. We propose a novel and effective technique to infuse knowledge context from knowledge graphs for conceptual and ambiguous entities into models based on transformer architecture. Our novel technique project knowledge graph embedding in the homogeneous vector-space, introduces new token-types for entities, align entity position ids, and a selective attention mechanism. We take BERT as a baseline model and implement "KnowledgeInfused BERT" by infusing knowledge context from ConceptNet and WordNet, which significantly outperforms BERT over a wide range of NLP tasks over eight different GLUE datasets. KI-BERT-base model even outperforms BERT-large for domain-specific tasks like SciTail and academic subsets of QQP, QNLI, and MNLI.
翻訳日:2021-05-03 19:44:04 公開日:2021-04-09
# 分類問題に対する特徴の影響評価 : COVID-19患者への適用

Assessment of the influence of features on a classification problem: an application to COVID-19 patients ( http://arxiv.org/abs/2104.14958v1 )

ライセンス: Link先を確認
L. Davila-Pena, Ignacio Garc\'ia-Jurado, B. Casas-M\'endez(参考訳) 本稿では,機械学習技術が対処する分類問題において重要な課題である,個々人の分類に対する各特徴の影響の評価について述べる。 具体的には、協調ゲームにおけるShapley値を用いて、その影響の尺度を導入する。 さらに, 効率特性とバランスの取れたコントリビューションに基づいて, 提案尺度の公理的特徴付けを行う。 さらに,これらの測定値の適切な性能を検証するために,いくつかの実験が設計されている。 最後に、covid-19患者のサンプルに導入した手法を用いて、特定の人口動態やリスク要因が、疾患の進化に関連する様々な関心事に与える影響を研究する。

This paper deals with an important subject in classification problems addressed by machine learning techniques: the evaluation of the influence of each of the features on the classification of individuals. Specifically, a measure of that influence is introduced using the Shapley value of cooperative games. In addition, an axiomatic characterisation of the proposed measure is provided based on properties of efficiency and balanced contributions. Furthermore, some experiments have been designed in order to validate the appropriate performance of such measure. Finally, the methodology introduced is applied to a sample of COVID-19 patients to study the influence of certain demographic or risk factors on various events of interest related to the evolution of the disease.
翻訳日:2021-05-03 19:43:04 公開日:2021-04-09
# 人工知能、ヒューマンファクター、自動化の組み合わせに関する総合的な体系的レビュー

Comprehensive systematic review into combinations of artificial intelligence, human factors, and automation ( http://arxiv.org/abs/2104.09233v1 )

ライセンス: Link先を確認
Reza Khani-Shekarab, Alireza khani-shekarab(参考訳) 人工知能(AI)ベースのモデルは、医療や金融などさまざまな分野を改善するために使用される。 AIの利点を享受する分野のひとつに自動化がある。 しかし、自動化にAIを適用する際の人間的要因を考えることは重要である。 本稿では,PMにおけるAIの適用を調査するために使用される論文の体系的レビューについて報告する。 この総合的な体系的なレビューでは、ScienceDirectを使用して関連する記事を特定した。 422項目のうち40項目が包括的および排他的基準を満たしており、レビューで使用された。 選択項目は人的要因と適用領域の分類に基づいて分類された。 その結果、人間の要因に対する自動化におけるaiの適用は、身体的人間工学、認知的人間工学、組織的人間工学の3つの領域に分けられることが示された。 身体と認知のエルゴノミクスにおける主な応用分野は、輸送、ユーザー体験、人間と機械の相互作用である。

Artificial intelligence (AI)-based models used to improve different fields including healthcare, and finance. One of the field that receive advantages of AI is automation. However, it is important to consider human factors in application of AI in automation. This paper reports on a systematic review of the published studies used to investigate the application of AI in PM. This comprehensive systematic review used ScienceDirect to identify relevant articles. Of the 422 articles found, 40 met the inclusion and exclusion criteria and were used in the review. Selected articles were classified based on categories of human factors and areas of application. The results indicated that application of AI in automation with respect to human factors could be divided into three areas of physical ergonomics, cognitive ergonomic and organizational ergonomics. The main areas of application in physical and cognitive ergonomics are including transportation, User experience, and human-machine interactions.
翻訳日:2021-05-03 19:41:32 公開日:2021-04-09
# ランダムフィールドを用いた複数の疑似画像分類と疾患適応のための深層信念ネットワーク

Multiple Simultaneous Pseudo Image Classification with Random Fields and a Deep Belief Network for Disease Indication ( http://arxiv.org/abs/2104.10762v1 )

ライセンス: Link先を確認
Robert A. Murphy(参考訳) 2次元整数行列の擬似画像分類のための教師付きエネルギーベースモデルにおいて、ランダム場理論を用いる方法を示す。 モデルでは、2次元整数行列の各行は、局所受容場が同時に学習する個々の行の複数の部分に焦点を当てた擬似画像である。 このモデルは、特定の疾患を示す患者バイオマーカーの存在からなる分類タスクに使用される。

We show how to use random field theory in a supervised, energy-based model for multiple pseudo image classification of 2D integer matrices. In the model, each row of a 2D integer matrix is a pseudo image where a local receptive field focuses on multiple portions of individual rows for simultaneous learning. The model is used for a classification task consisting of presence of patient biomarkers indicative of a particular disease.
翻訳日:2021-05-03 19:40:58 公開日:2021-04-09
# スパースビームフォーミングマップからのソースローカライズとスペクトル生成

Automatic source localization and spectra generation from sparse beamforming maps ( http://arxiv.org/abs/2012.09643v3 )

ライセンス: Link先を確認
Armin Goudarzi, Carsten Spehr, Steffen Herbold(参考訳) ビームフォーミングは、空力音響現象を調査するためのイメージングツールであり、興味のある空間領域を統合することでスペクトルに分解される高次元データを生成する。 本稿では,スパースビームフォーミングマップにおける音響源の自動同定と,それに対応するスペクトルの抽出により,関心領域のマニュアル定義を克服する2つの手法を提案する。 この手法は2つのスケールドエアフレームの半模型風洞実験で評価された。 1つ目は、スパースビームフォーミングマップにおける空気音響ブロードバンド源の空間正規分布に依存する。 2つ目は階層的クラスタリング手法である。 どちらの手法も統計雑音に対して頑健であり、興味のある領域を自動的に決定したソースの存在、位置、空間的確率推定を予測できる。

Beamforming is an imaging tool for the investigation of aeroacoustic phenomena and results in high dimensional data that is broken down to spectra by integrating spatial Regions Of Interest. This paper presents two methods which enable the automated identification of aeroacoustic sources in sparse beamforming maps and the extraction of their corresponding spectra to overcome the manual definition of Regions Of Interest. The methods are evaluated on two scaled airframe half-model wind tunnel measurements. The first relies on the spatial normal distribution of aeroacoustic broadband sources in sparse beamforming maps. The second uses hierarchical clustering methods. Both methods are robust to statistical noise and predict the existence, location and spatial probability estimation for sources based on which Regions Of Interests are automatically determined.
翻訳日:2021-05-03 02:40:17 公開日:2021-04-09
# (参考訳) 時系列予測のための機械学習の進歩

Machine Learning Advances for Time Series Forecasting ( http://arxiv.org/abs/2012.12802v3 )

ライセンス: CC BY 4.0
Ricardo P. Masini, Marcelo C. Medeiros and Eduardo F. Mendes(参考訳) 本稿では,時系列予測のための教師付き機械学習と高次元モデルの最新動向について述べる。 線形および非線形の代替を考える。 線形手法のうち、ペナルティ化された回帰とモデルのアンサンブルに特に注意を払う。 本稿で考慮された非線形手法は、フィードフォワードおよびリカレントバージョンにおける浅層および深層ニューラルネットワークと、ランダム森林や隆起木などの木に基づく手法である。 異なる代替品の材料を組み合わせることで、アンサンブルとハイブリッドモデルも検討する。 優れた予測能力を示すテストは、簡単にレビューされる。 最後に、経済学および金融分野における機械学習の適用について論じ、高周波金融データを用いたイラストを提供する。

In this paper we survey the most recent advances in supervised machine learning and high-dimensional models for time series forecasting. We consider both linear and nonlinear alternatives. Among the linear methods we pay special attention to penalized regressions and ensemble of models. The nonlinear methods considered in the paper include shallow and deep neural networks, in their feed-forward and recurrent versions, and tree-based methods, such as random forests and boosted trees. We also consider ensemble and hybrid models by combining ingredients from different alternatives. Tests for superior predictive ability are briefly reviewed. Finally, we discuss application of machine learning in economics and finance and provide an illustration with high-frequency financial data.
翻訳日:2021-04-25 21:21:44 公開日:2021-04-09
# 実演で見つけたルーチンによるポリシー学習の強化

Augmenting Policy Learning with Routines Discovered from a Demonstration ( http://arxiv.org/abs/2012.12469v3 )

ライセンス: Link先を確認
Zelin Zhao, Chuang Gan, Jiajun Wu, Xiaoxiao Guo, Joshua B. Tenenbaum(参考訳) 人間は非常に少ないデータから事前の知識を抽象化し、それを使ってスキル学習を促進することができる。 本稿では,1つの実演から原始的な行動からなるルーチンを発見し,発見ルーチンを用いて政策学習を増強するルーチン拡張政策学習(RAPL)を提案する。 実演からルーチンを発見するために,まず,実演行動軌跡上で文法を識別し,ルーチン候補を抽象化する。 そして、長さと周波数で測定した最良のルーチンを選択して、ルーチンライブラリを形成する。 本稿では,基本レベルとルーチンレベルを同時に学習し,ルーチンの時間的構造を活用することを提案する。 提案手法は,複数の時間スケールで専門家の行動を模倣して模倣学習を可能にし,強化学習探索を促進する。 Atariゲームに対する大規模な実験により、RAPLは最先端の模倣学習法SQILと強化学習法A2Cを改善した。 さらに,検出されたルーチンは,CoinRunベンチマークの未確認レベルと難易度に一般化可能であることを示す。

Humans can abstract prior knowledge from very little data and use it to boost skill learning. In this paper, we propose routine-augmented policy learning (RAPL), which discovers routines composed of primitive actions from a single demonstration and uses discovered routines to augment policy learning. To discover routines from the demonstration, we first abstract routine candidates by identifying grammar over the demonstrated action trajectory. Then, the best routines measured by length and frequency are selected to form a routine library. We propose to learn policy simultaneously at primitive-level and routine-level with discovered routines, leveraging the temporal structure of routines. Our approach enables imitating expert behavior at multiple temporal scales for imitation learning and promotes reinforcement learning exploration. Extensive experiments on Atari games demonstrate that RAPL improves the state-of-the-art imitation learning method SQIL and reinforcement learning method A2C. Further, we show that discovered routines can generalize to unseen levels and difficulties on the CoinRun benchmark.
翻訳日:2021-04-25 18:17:10 公開日:2021-04-09
# 確率分布と条件輸送の比較

Comparing Probability Distributions with Conditional Transport ( http://arxiv.org/abs/2012.14100v3 )

ライセンス: Link先を確認
Huangjie Zheng and Mingyuan Zhou(参考訳) 2つの確率分布の差を測定するために, 条件付き輸送(CT)を新たな分岐として提案し, さらに, 暗黙的分布と確率的勾配勾配に基づく最適化を実現するために, 償却CT(ACT)コストを近似した。 ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。 生成モデルの訓練に応用すると、ACTはモード被覆と動作探索のバランスが良く、モード崩壊に強く抵抗することが示される。 生成モデルのための様々なベンチマークデータセットにおいて、ACTによる既存の生成逆数ネットワークの既定統計距離を置換することにより、その性能を一貫して改善することを示す。

To measure the difference between two probability distributions, we propose conditional transport (CT) as a new divergence and further approximate it with the amortized CT (ACT) cost to make it amenable to implicit distributions and stochastic gradient descent based optimization. ACT amortizes the computation of its conditional transport plans and comes with unbiased sample gradients that are straightforward to compute. When applied to train a generative model, ACT is shown to strike a good balance between mode covering and seeking behaviors and strongly resist mode collapse. On a wide variety of benchmark datasets for generative modeling, substituting the default statistical distance of an existing generative adversarial network with ACT is shown to consistently improve the performance.
翻訳日:2021-04-19 11:09:18 公開日:2021-04-09
# (参考訳) SFE-Net:対称空間特徴抽出による脳波に基づく感情認識 [全文訳有]

SFE-Net: EEG-based Emotion Recognition with Symmetrical Spatial Feature Extraction ( http://arxiv.org/abs/2104.06308v1 )

ライセンス: CC BY 4.0
Xiangwen Deng, Shangming Yang and Junlin Zhu(参考訳) 脳波に基づく感情認識は、人間とコンピュータの相互作用、遠隔教育、医療において広く用いられている。 しかし、従来の手法では脳波信号の隣接的および対称的特性を無視し、感情に関連する有意な情報も含む。 本稿では,脳波の特徴抽出と感情認識のための空間的折り畳みアンサンブルネットワーク(SFENet)を提案する。 第一に,脳波電極間の未検出領域に対して,脳波路情報補完のためのBicubic-EEG補間アルゴリズムを改良し,より広い範囲の空間特徴を抽出する。 次に,人間の脳の空間的対称性機構に動機づけられ,入力脳波チャネルデータを左右折り畳み,右折り畳み,右折り畳み,右折り畳み,右折り畳み,右折り畳み,右折り畳み,右折り畳みの5つの異なる対称戦略で折り畳み,提案ネットワークが脳波信号の空間的特徴情報をより効果的に抽出できるようにする。 最後に、3dcnnに基づくアンサンブル学習の空間的・時間的抽出とマルチ投票戦略を用いて新しいニューラルネットワークをモデル化する。 このネットワークにより、異なる対称折り畳み符号の空間的特徴を同時に抽出することが可能となり、特徴認識のロバスト性と精度が大幅に向上する。 DEAPとSEEDデータセットの実験結果から,提案アルゴリズムは認識精度の点で同等の性能を示した。

Emotion recognition based on EEG (electroencephalogra phy) has been widely used in human-computer interaction, distance education and health care. However, the conventional methods ignore the adjacent and symmetrical characteristics of EEG signals, which also contain salient information related to emotion. In this paper, we present a spatial folding ensemble network (SFENet) for EEG feature extraction and emotion recognition. Firstly, for the undetected area between EEG electrodes, we employ an improved Bicubic-EEG interpolation algorithm for EEG channel information completion, which allows us to extract a wider range of adjacent space features. Then, motivated by the spatial symmetry mechanism of human brain, we fold the input EEG channel data with five different symmetrical strategies: the left-right folds, the right-left folds, the top-bottom folds, the bottom-top folds, and the entire double-sided brain folding, which enable the proposed network to extract the information of space features of EEG signals more effectively. Finally, 3DCNN based spatial and temporal extraction and multi voting strategy of ensemble Learning are employed to model a new neural network. With this network, the spatial features of different symmetric folding signlas can be extracted simultaneously, which greatly improves the robustness and accuracy of feature recognition. The experimental results on DEAP and SEED data sets show that the proposed algorithm has comparable performance in term of recognition accuracy.
翻訳日:2021-04-16 09:48:14 公開日:2021-04-09
# (参考訳) 時系列分類のための深層変圧器ネットワーク:NPP安全事例 [全文訳有]

Deep Transformer Networks for Time Series Classification: The NPP Safety Case ( http://arxiv.org/abs/2104.05448v1 )

ライセンス: CC0 1.0
Bing Zha, Alessandro Vanni, Yassin Hassan, Tunc Aldemir, Alper Yilmaz(参考訳) 原子力発電所の動的確率的リスクアセスメントの難点は、様々な発生事象とその後の応用において代表的特徴抽出が複雑になる分岐条件に対して、大量の時間的シミュレーションが必要であることである。 人工知能技術は、時間依存のシーケンシャルデータ処理において強力なツールであり、大規模データから複雑な特徴を自動的に抽出し得ることが示されている。 Transformerと呼ばれる高度な時間的ニューラルネットワークは、時間依存のNPPシミュレーションデータをモデル化し、与えられたイベントのシーケンスがコア損傷を引き起こすか否かを推測するために、教師付き学習方式で使用される。 変圧器のトレーニングおよびテストデータセットは、ravenソフトウェアから取得した変数のリストと共に10000 relap5-3d nppブラックアウトシミュレーションを実行して得られる。 各シミュレーションは、結果に基づいて「OK」または「CORE DAMAGE」に分類される。 その結果, 変圧器はシーケンシャルデータの特徴を学習し, 約99%の分類精度で有望な性能が得られることがわかった。

A challenging part of dynamic probabilistic risk assessment for nuclear power plants is the need for large amounts of temporal simulations given various initiating events and branching conditions from which representative feature extraction becomes complicated for subsequent applications. Artificial Intelligence techniques have been shown to be powerful tools in time-dependent sequential data processing to automatically extract and yield complex features from large data. An advanced temporal neural network referred to as the Transformer is used within a supervised learning fashion to model the time-dependent NPP simulation data and to infer whether a given sequence of events leads to core damage or not. The training and testing datasets for the Transformer are obtained by running 10,000 RELAP5-3D NPP blackout simulations with the list of variables obtained from the RAVEN software. Each simulation is classified as "OK" or "CORE DAMAGE" based on the consequence. The results show that the Transformer can learn the characteristics of the sequential data and yield promising performance with approximately 99% classification accuracy on the testing dataset.
翻訳日:2021-04-16 09:34:07 公開日:2021-04-09
# (参考訳) UPB at SemEval-2021 Task 8: Extracting Semantic Information on Measurements as Multi-Turn Question Answering [全文訳有]

UPB at SemEval-2021 Task 8: Extracting Semantic Information on Measurements as Multi-Turn Question Answering ( http://arxiv.org/abs/2104.04549v1 )

ライセンス: CC BY 4.0
Andrei-Marius Avram, George-Eduard Zaharia, Dumitru-Clementin Cercel, Mihai Dascalu(参考訳) 計測とカウントに関する意味情報の抽出は、科学的な談話の分析において重要な話題である。 The 8th Task of SemEval-2021: Counts and Measurements (MeasEval)は、参加者が科学的テキストから測定に関する有意義な情報を抽出するためにモデルをトレーニングするデータセットを提供することによって、この方向の研究を促進することを目的としている。 競技は, 互いに上に構築される5つのサブタスクから構成される: (1) 定量範囲の識別, (2) 同定された量と値の修飾子分類からの単位抽出, (3) 測定された量と測定された特性の分割, (4) 等式範囲の識別, (5) 同定された量, 測定された量, 測定された特性, 等式間の関係抽出。 そこで我々は,まずこれらの課題にアプローチし,まず測定単位を抽出し,対応する修飾子で分類し,その後,最後の3つのサブタスクを多ターン質問応答方式で共同で解いた。 我々の最高のパフォーマンスモデルは、テストセットで36.91%の重なり合うF1スコアを得た。

Extracting semantic information on measurements and counts is an important topic in terms of analyzing scientific discourses. The 8th task of SemEval-2021: Counts and Measurements (MeasEval) aimed to boost research in this direction by providing a new dataset on which participants train their models to extract meaningful information on measurements from scientific texts. The competition is composed of five subtasks that build on top of each other: (1) quantity span identification, (2) unit extraction from the identified quantities and their value modifier classification, (3) span identification for measured entities and measured properties, (4) qualifier span identification, and (5) relation extraction between the identified quantities, measured entities, measured properties, and qualifiers. We approached these challenges by first identifying the quantities, extracting their units of measurement, classifying them with corresponding modifiers, and afterwards using them to jointly solve the last three subtasks in a multi-turn question answering manner. Our best performing model obtained an overlapping F1-score of 36.91% on the test set.
翻訳日:2021-04-16 09:27:41 公開日:2021-04-09
# (参考訳) text2chart:自然言語テキストからの多段チャート生成 [全文訳有]

Text2Chart: A Multi-Staged Chart Generator from Natural Language Text ( http://arxiv.org/abs/2104.04584v1 )

ライセンス: CC BY 4.0
Md. Mahinur Rashid, Hasin Kawsar Jahan, Annysha Huzzat, Riyasaat Ahmed Rahul, Tamim Bin Zakir, Farhana Meem, Md. Saddam Hossain Mukta and Swakkhar Shatabda(参考訳) 解析的自然言語テキストからの科学的可視化の生成は難しい課題である。 本論文では,多段チャート生成手法であるText2Chartを提案する。 Text2Chartは自然言語のテキストを入力として、二次元チャートとして視覚化する。 text2chartは3段階問題にアプローチする。 まず、チャートの軸要素を x と y のエンティティとして知られる与えられたテキストから識別する。 すると、対応する y-元数と x-元数の写像を見つける。 次に、与えられたテキスト(バー、ライン、パイ)に適したチャートタイプを生成する。 これら3つのステージの組み合わせは、与えられた分析テキストから可視化を生成することができる。 この問題に対するデータセットも構築しました。 実験の結果, Text2Chart はまず LSTM モデルを用いた BERT ベースの符号化において,x および y エンティティのラベル付け,マッピングステージの Random Forest 分類器,チャート型予測の fastText を LSTM に埋め込み,最高のパフォーマンスを実現していることがわかった。 本実験では, 解析文からのチャート作成を考慮し, 評価可能な総合的な性能を達成し, 良好な結果と有効性を示した。

Generation of scientific visualization from analytical natural language text is a challenging task. In this paper, we propose Text2Chart, a multi-staged chart generator method. Text2Chart takes natural language text as input and produce visualization as two-dimensional charts. Text2Chart approaches the problem in three stages. Firstly, it identifies the axis elements of a chart from the given text known as x and y entities. Then it finds a mapping of x-entities with its corresponding y-entities. Next, it generates a chart type suitable for the given text: bar, line or pie. Combination of these three stages is capable of generating visualization from the given analytical text. We have also constructed a dataset for this problem. Experiments show that Text2Chart achieves best performances with BERT based encodings with LSTM models in the first stage to label x and y entities, Random Forest classifier for the mapping stage and fastText embedding with LSTM for the chart type prediction. In our experiments, all the stages show satisfactory results and effectiveness considering formation of charts from analytical text, achieving a commendable overall performance.
翻訳日:2021-04-16 09:12:46 公開日:2021-04-09
# (参考訳) 形状と時間基準を用いた深部時系列予測 [全文訳有]

Deep Time Series Forecasting with Shape and Temporal Criteria ( http://arxiv.org/abs/2104.04610v1 )

ライセンス: CC BY 4.0
Vincent Le Guen, Nicolas Thome(参考訳) 本稿では,急激な変化を生じうる非定常信号の時系列予測の課題に対処する。 現在の最先端のディープラーニング予測手法は、しばしばMSEの変種で訓練されるが、決定論的および確率論的文脈において鋭い予測を提供する能力は欠如している。 これらの課題に対処するため,深層モデルの学習目的に形状と時間的基準を取り入れることを提案する。 我々は,動的時間ゆがみ(dtw)と時間歪み指数(tdi)の円滑な緩和に基づいて,形状と時間的類似性と相似性を定義し,微分可能な損失関数と正の半定値(psd)カーネルを構築する。 これらのツールを用いて、決定論的予測の新しい目的であるDILATE (Dstortion Loss including shApe and TimE)を導入し、正確な形状と時間変化検出をサポートする2つの用語を明示的に組み込んだ。 確率予測にはstripe++ (shape and time diverrsity in probabilistic forecasting) を導入する。これは、構造化された形状と時間の多様性を行列点プロセス(dpp)の多様性損失で強制する、鋭く多様な予測を提供するためのフレームワークである。 合成データと実世界のデータセットに関する広範な実験とアブレーションは、時系列予測における形状と時間の特徴を活用する利点を確認する。

This paper addresses the problem of multi-step time series forecasting for non-stationary signals that can present sudden changes. Current state-of-the-art deep learning forecasting methods, often trained with variants of the MSE, lack the ability to provide sharp predictions in deterministic and probabilistic contexts. To handle these challenges, we propose to incorporate shape and temporal criteria in the training objective of deep models. We define shape and temporal similarities and dissimilarities, based on a smooth relaxation of Dynamic Time Warping (DTW) and Temporal Distortion Index (TDI), that enable to build differentiable loss functions and positive semi-definite (PSD) kernels. With these tools, we introduce DILATE (DIstortion Loss including shApe and TimE), a new objective for deterministic forecasting, that explicitly incorporates two terms supporting precise shape and temporal change detection. For probabilistic forecasting, we introduce STRIPE++ (Shape and Time diverRsIty in Probabilistic forEcasting), a framework for providing a set of sharp and diverse forecasts, where the structured shape and time diversity is enforced with a determinantal point process (DPP) diversity loss. Extensive experiments and ablations studies on synthetic and real-world datasets confirm the benefits of leveraging shape and time features in time series forecasting.
翻訳日:2021-04-16 09:03:26 公開日:2021-04-09
# (参考訳) WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for Detecting Toxic Spans [全文訳有]

WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for Detecting Toxic Spans ( http://arxiv.org/abs/2104.04630v1 )

ライセンス: CC BY 4.0
Tharindu Ranasinghe, Diptanu Sarkar, Marcos Zampieri, Alex Ororbia(参考訳) 近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。 これに対し、ソーシャルメディアプラットフォームは、この攻撃的コンテンツの希薄化に対処するため、自動検出方法の開発とヒトモデレーターの活用に取り組んできた。 様々な最先端の統計モデルが有毒なポストの検出に応用されているが、攻撃的な単語や表現の検出に焦点を絞った研究はごくわずかである。 これはSemEval-2021 Task 5: Toxic Spans Detectionコンペティションの組織化を動機としている。 本稿では,SemEval-2021 Task 5のWLV-RITエントリを示す。 我々の最高性能のニューラルトランスモデルは0.68ドルF1スコアを達成する。 さらに,テキスト中の有害なスパンを検出するトランスフォーマーに基づく,攻撃的スパンの多言語検出のためのオープンソースのフレームワークを開発する。

In recent years, the widespread use of social media has led to an increase in the generation of toxic and offensive content on online platforms. In response, social media platforms have worked on developing automatic detection methods and employing human moderators to cope with this deluge of offensive content. While various state-of-the-art statistical models have been applied to detect toxic posts, there are only a few studies that focus on detecting the words or expressions that make a post offensive. This motivates the organization of the SemEval-2021 Task 5: Toxic Spans Detection competition, which has provided participants with a dataset containing toxic spans annotation in English posts. In this paper, we present the WLV-RIT entry for the SemEval-2021 Task 5. Our best performing neural transformer model achieves an $0.68$ F1-Score. Furthermore, we develop an open-source framework for multilingual detection of offensive spans, i.e., MUDES, based on transformers that detect toxic spans in texts.
翻訳日:2021-04-16 09:00:57 公開日:2021-04-09
# (参考訳) TransWiC at SemEval-2021 Task 2: Transformer-based Multilingual and cross-lingual Word-in-Context Disambiguation [全文訳有]

TransWiC at SemEval-2021 Task 2: Transformer-based Multilingual and Cross-lingual Word-in-Context Disambiguation ( http://arxiv.org/abs/2104.04632v1 )

ライセンス: CC BY 4.0
Hansi Hettiarachchi, Tharindu Ranasinghe(参考訳) ある単語が2つの文脈で同じ意味か異なる意味を持っているかを特定することは、自然言語処理において重要な研究領域であり、質問応答、文書要約、情報検索、情報抽出など多くの応用において重要な役割を果たす。 この分野における以前の研究のほとんどは言語固有のリソースに依存しており、言語をまたいだ一般化が難しい。 この制限を考慮すると、semeval-2021タスク2へのアプローチは、事前訓練されたトランスフォーマーモデルのみに基づいており、言語固有の処理やリソースを使用しない。 それにもかかわらず、我々の最良のモデルは英語のサブタスクに対して0.90の精度を達成する。 我々のアプローチは、他のモノリンガル言語と言語間のペアにおいても満足できる結果を得る。

Identifying whether a word carries the same meaning or different meaning in two contexts is an important research area in natural language processing which plays a significant role in many applications such as question answering, document summarisation, information retrieval and information extraction. Most of the previous work in this area rely on language-specific resources making it difficult to generalise across languages. Considering this limitation, our approach to SemEval-2021 Task 2 is based only on pretrained transformer models and does not use any language-specific processing and resources. Despite that, our best model achieves 0.90 accuracy for English-English subtask which is very compatible compared to the best result of the subtask; 0.93 accuracy. Our approach also achieves satisfactory results in other monolingual and cross-lingual language pairs as well.
翻訳日:2021-04-16 08:49:10 公開日:2021-04-09
# (参考訳) 学習歩行遷移による高速かつ効率的な移動 [全文訳有]

Fast and Efficient Locomotion via Learned Gait Transitions ( http://arxiv.org/abs/2104.04644v1 )

ライセンス: CC BY 4.0
Yuxiang Yang, Tingnan Zhang, Erwin Coumans, Jie Tan, Byron Boots(参考訳) 四足歩行ロボットのための効率的な制御器の開発に焦点をあてる。 動物はエネルギー消費を減らすために、異なる速度で積極的に歩行を切り替えることができる。 本稿では,エネルギー最小化の簡単な報酬を伴って,独特の移動歩行と自然歩行遷移が自動的に現れる階層型学習フレームワークを考案する。 ロボットが歩行パターンを用いて所望の速度で歩行できるように,低レベルモデル予測制御器(MPC)はモータトルクを最適化する。 我々は4足歩行ロボットで学習フレームワークをテストし,歩行からトロッティング,フライトローティングまで,最大2.5m/s(5体長/s)まで自動歩行遷移を実証した。 学習した階層型コントローラは,ベースラインコントローラよりも広い移動速度でエネルギーを消費することがわかった。

We focus on the problem of developing efficient controllers for quadrupedal robots. Animals can actively switch gaits at different speeds to lower their energy consumption. In this paper, we devise a hierarchical learning framework, in which distinctive locomotion gaits and natural gait transitions emerge automatically with a simple reward of energy minimization. We use reinforcement learning to train a high-level gait policy that specifies the contact schedules of each foot, while the low-level Model Predictive Controller (MPC) optimizes the motor torques so that the robot can walk at a desired velocity using that gait pattern. We test our learning framework on a quadruped robot and demonstrate automatic gait transitions, from walking to trotting and to fly-trotting, as the robot increases its speed up to 2.5m/s (5 body lengths/s). We show that the learned hierarchical controller consumes much less energy across a wide range of locomotion speed than baseline controllers.
翻訳日:2021-04-16 08:38:36 公開日:2021-04-09
# 小型低濃度蛍光センサと機械学習技術を用いたスペインのオリーブ油質の探索

Exploration of Spanish Olive Oil Quality with a Miniaturized Low-Cost Fluorescence Sensor and Machine Learning Techniques ( http://arxiv.org/abs/2104.06310v1 )

ライセンス: Link先を確認
Francesca Venturini and Michela Sperti and Umberto Michelucci and Ivo Herzig and Michael Baumgartner and Josep Palau Caballero and Arturo Jimenez and and Marco Agostino Deriu(参考訳) エクストラヴァージンオリーブオイル(EVOO)はオリーブ油の最高品質であり、栄養特性が高い。 誤用などによる消費と不正の増大は、新たな課題を生み出し、パフォーマンスが容易で安価な新しい品質評価手法の開発に対する需要が高まっている。 現在,オリーブ油質の定量は,化学分析と有機性評価によって行われている。 化学分析は認定研究所の高度な機器と化学知識を必要とするため、アクセス性は限られている。 本研究では, 極小でポータブルで低コストなセンサを提示し, 蛍光分光法を用いてオリーブ油質評価を行う。 提案技術の可能性は、evoo、virgin olive oil (voo)、lampante olive oil (loo)といった、品質レベルの異なるいくつかのオリーブオイルを分析して検討される。 スペクトルデータは、ニューラルネットワークを含む多数の機械学習手法を用いて分析された。 本研究は,オリーブ油を100$\%の精度で3種類の分類を行う可能性を示した。 これらの結果は、この極小の低コストセンサが、高価で複雑な化学分析を置換する可能性を証明している。

Extra virgin olive oil (EVOO) is the highest quality of olive oil and is characterized by highly beneficial nutritional properties. The large increase in both consumption and fraud, for example through adulteration, creates new challenges and an increasing demand for developing new quality assessment methodologies that are easier and cheaper to perform. As of today, the determination of olive oil quality is performed by producers through chemical analysis and organoleptic evaluation. The chemical analysis requires the advanced equipment and chemical knowledge of certified laboratories, and has therefore a limited accessibility. In this work a minimalist, portable and low-cost sensor is presented, which can perform olive oil quality assessment using fluorescence spectroscopy. The potential of the proposed technology is explored by analyzing several olive oils of different quality levels, EVOO, virgin olive oil (VOO), and lampante olive oil (LOO). The spectral data were analyzed using a large number of machine learning methods, including artificial neural networks. The analysis performed in this work demonstrates the possibility of performing classification of olive oil in the three mentioned classes with an accuracy of 100$\%$. These results confirm that this minimalist low-cost sensor has the potential of substituting expensive and complex chemical analysis.
翻訳日:2021-04-14 13:39:17 公開日:2021-04-09
# テラヘルツセンシングのための信号処理と機械学習技術:概要

Signal Processing and Machine Learning Techniques for Terahertz Sensing: An Overview ( http://arxiv.org/abs/2104.06309v1 )

ライセンス: Link先を確認
Sara Helal, Hadi Sarieddeen, Hayssam Dahrouj, Tareq Y. Al-Naffouri, Mohamed Slim Alouini(参考訳) テラヘルツ(thz)信号の発生と放射法の最近の進歩に続いて、thz通信とセンシングはワイヤレスシステムの未来を形作っている。 この目的に向けて、thzスペクトロスコピーは、材料やガス成分を識別するために、ユーザ機器デバイス上で実行されることが期待されている。 THz 固有の信号処理技術は、THz 帯域の効率的な利用のために、この THz センシングへの関心を補う必要がある。 本稿では,信号前処理(正規変量正規化,min-max正規化,Savitzky-Golayフィルタリング),特徴抽出(主成分分析,部分最小二乗,t分散確率的近傍埋め込み,非負行列分解),および分類技術(支持ベクトルマシン,k-nearest近傍,差別的分析,ナイーブベイズ)を中心に概説する。 また,THz帯で有望な知覚能力を探索し,深層学習の有効性についても検討した。 最後に,共同コミュニケーションとセンシングの文脈における研究手法の性能と複雑さのトレードオフについて検討し,それに対応するユースケースを動機付け,今後の研究の方向性を示す。

Following the recent progress in Terahertz (THz) signal generation and radiation methods, joint THz communications and sensing applications are shaping the future of wireless systems. Towards this end, THz spectroscopy is expected to be carried over user equipment devices to identify material and gaseous components of interest. THz-specific signal processing techniques should complement this re-surged interest in THz sensing for efficient utilization of the THz band. In this paper, we present an overview of these techniques, with an emphasis on signal pre-processing (standard normal variate normalization, min-max normalization, and Savitzky-Golay filtering), feature extraction (principal component analysis, partial least squares, t-distributed stochastic neighbor embedding, and nonnegative matrix factorization), and classification techniques (support vector machines, k-nearest neighbor, discriminant analysis, and naive Bayes). We also address the effectiveness of deep learning techniques by exploring their promising sensing capabilities at the THz band. Lastly, we investigate the performance and complexity trade-offs of the studied methods in the context of joint communications and sensing; we motivate the corresponding use-cases, and we present few future research directions in the field.
翻訳日:2021-04-14 13:21:35 公開日:2021-04-09
# 不確実性を有するスマートグリッドにおける定常偽データ注入検出:ディープトランスファー学習に基づくアプローチ

Stealthy False Data Injection Attack Detection in Smart Grids with Uncertainties: A Deep Transfer Learning Based Approach ( http://arxiv.org/abs/2104.06307v1 )

ライセンス: Link先を確認
Bowen Xu, Fanghong Guo, Changyun Wen, Wen-An Zhang(参考訳) 従来の偽データインジェクションアタック(fdia)検出手法のほとんどは、静的システムパラメータや動的アタックの1つの既知のスナップショットに依存する。 しかし、このような設定は、システムパラメータが動的であり、実用的なスマートグリッドに不確実性が存在するため、操作中に正確に知ることができないという事実に直面すると、これらのアプローチの実用性が著しく低下する。 本稿では,転送学習の観点からFDIA検出機構を提案する。 具体的には、既知の初期/近似系をソースドメインとして扱い、十分にシミュレーションされた正規および攻撃データを提供する。 現実の未知のランニングシステムは、最新のシステム状態を追跡するのに十分な実際の正規データを収集するターゲットドメインとして扱われる。 データの完全活用を目的とした転送戦略は,2つの最適化段階に分けられる。 第1段階では、シミュレーションデータと実データの両方で設計された複数の用語を同時に最適化してディープニューラルネットワーク(dnn)を構築し、第2段階では実データを介して微調整する。 IEEE 14バス電力システムに関するいくつかのケーススタディは、提案機構の有効性を検証する。

Most traditional false data injection attack (FDIA) detection approaches rely on static system parameters or a single known snapshot of dynamic ones. However, such a setting significantly weakens the practicality of these approaches when facing the fact that the system parameters are dynamic and cannot be accurately known during operation due to the presence of uncertainties in practical smart grids. In this paper, we propose an FDIA detection mechanism from the perspective of transfer learning. Specifically, the known initial/approximate system is treated as a source domain, which provides abundant simulated normal and attack data. The real world's unknown running system is taken as a target domain where sufficient real normal data are collected for tracking the latest system states online. The designed transfer strategy that aims at making full use of data in hand is divided into two optimization stages. In the first stage, a deep neural network (DNN) is built by simultaneously optimizing several well-designed terms with both simulated data and real data, and then it is fine-tuned via real data in the second stage. Several case studies on the IEEE 14-bus power system verify the effectiveness of the proposed mechanism.
翻訳日:2021-04-14 13:13:45 公開日:2021-04-09
# 不確かな知識グラフ推論のための確率的ボックス埋め込み

Probabilistic Box Embeddings for Uncertain Knowledge Graph Reasoning ( http://arxiv.org/abs/2104.04597v1 )

ライセンス: Link先を確認
Xuelu Chen, Michael Boratko, Muhao Chen, Shib Sankar Dasgupta, Xiang Lorraine Li, Andrew McCallum(参考訳) 知識ベースは、しばしば様々な情報源から得られた事実から成り、その多くが騒がしく、一部は矛盾し、それぞれの三つ組に不確実性のレベルをもたらす。 知識ベースもしばしば不完全であり、既知の事実から一般化するための埋め込みメソッドの使用を促すが、既存の埋め込みメソッドは3つのレベルの不確かさのみをモデル化し、推論の結果はグローバルな一貫性を欠いている。 そこで本研究では,確率的意味論を校正した新しい未知知識グラフ埋め込み手法であるburreを提案する。 BEUrREは各エンティティをボックスとしてモデル化する。 軸方向のハイパー矩形)と2つのエンティティ間の関係は、アフィンが頭と尾のエンティティボックスに変換される。 ボックスの幾何学は交差点と体積の効率的な計算を可能にし、キャリブレーションされた確率的意味論を持つモデルを提供し、関係制約の組み入れを容易にする。 2つのベンチマークデータセットの大規模な実験により、BEUrREは確率的キャリブレーションと事実間の高次依存関係をキャプチャする能力により、信頼性予測と事実ランキングのベースラインを一貫して上回っている。

Knowledge bases often consist of facts which are harvested from a variety of sources, many of which are noisy and some of which conflict, resulting in a level of uncertainty for each triple. Knowledge bases are also often incomplete, prompting the use of embedding methods to generalize from known facts, however, existing embedding methods only model triple-level uncertainty, and reasoning results lack global consistency. To address these shortcomings, we propose BEUrRE, a novel uncertain knowledge graph embedding method with calibrated probabilistic semantics. BEUrRE models each entity as a box (i.e. axis-aligned hyperrectangle) and relations between two entities as affine transforms on the head and tail entity boxes. The geometry of the boxes allows for efficient calculation of intersections and volumes, endowing the model with calibrated probabilistic semantics and facilitating the incorporation of relational constraints. Extensive experiments on two benchmark datasets show that BEUrRE consistently outperforms baselines on confidence prediction and fact ranking due to its probabilistic calibration and ability to capture high-order dependencies among facts.
翻訳日:2021-04-13 14:43:24 公開日:2021-04-09
# 衛星画像分類における分布外検出

Out-of-distribution detection in satellite image classification ( http://arxiv.org/abs/2104.05442v1 )

ライセンス: Link先を確認
Jakob Gawlikowski, Sudipan Saha, Anna Kruspe, Xiao Xiang Zhu(参考訳) 衛星画像解析では,テストデータの非認識クラスや地理的領域の違いなど,いくつかの理由から,トレーニングデータとテストデータの分布ミスマッチが発生する可能性がある。 ディープラーニングベースのモデルは、トレーニングデータからそのような分散シフトを持つテストデータ(out-of-distribution (OOD)例)に従えば、予期せず振る舞うことができる。 予測的不確実性分析は、衛星画像解析に関してあまり研究されていない研究トピックである。 そこで我々はディリクレ事前ネットワークモデルを用いて,リモートセンシングのためのディープラーニングモデルの分布不確かさを定量化する。 このアプローチは、テスト時に未知の例をよりよく識別するために、ドメイン内の例とOOD例の間の表現ギャップを最大化することを目指している。 3つの例による実験結果から,衛星画像解析におけるモデルの有効性が示された。

In satellite image analysis, distributional mismatch between the training and test data may arise due to several reasons, including unseen classes in the test data and differences in the geographic area. Deep learning based models may behave in unexpected manner when subjected to test data that has such distributional shifts from the training data, also called out-of-distribution (OOD) examples. Predictive uncertainly analysis is an emerging research topic which has not been explored much in context of satellite image analysis. Towards this, we adopt a Dirichlet Prior Network based model to quantify distributional uncertainty of deep learning models for remote sensing. The approach seeks to maximize the representation gap between the in-domain and OOD examples for a better identification of unknown examples at test time. Experimental results on three exemplary test scenarios show the efficacy of the model in satellite image analysis.
翻訳日:2021-04-13 14:31:13 公開日:2021-04-09
# 教師付き変更検出のための小さなトレーニングデータセットの信頼

Trusting small training dataset for supervised change detection ( http://arxiv.org/abs/2104.05443v1 )

ライセンス: Link先を確認
Sudipan Saha, Biplab Banerjee, Xiao Xiang Zhu(参考訳) 深層学習(DL)に基づく教師付き変化検出(CD)モデルは、大きなラベル付きトレーニングデータを必要とする。 ラベル付きマルチテンポラルデータの収集が困難であるため、CD文献では教師なしの手法が好まれる。 しかし、教師なし手法は、データ駆動型ディープラーニングの可能性を完全に活用できないため、教師付き手法の絶対的な代替にはならない。 これにより、教師付きDL手法を深く検討し、ラベル付きトレーニングデータの必要最小限にすることで、CDにどのようにインテリジェントに採用できるかを検討することができる。 これに対し,本研究では,地理的に多様なトレーニングデータセットが,同一サイズの少ないトレーニングデータセットに対して大きな改善をもたらすことを示す。 本稿では,小さなラベル付きデータセットで学習した教師付きモデルの信頼性・信頼性を検証するための簡易信頼度指標を提案する。 さらに, 教師付きCDモデルが信頼性・信頼性の低いテストケースでは, 教師なし手法の方が教師付き手法よりも優れた結果が得られた。

Deep learning (DL) based supervised change detection (CD) models require large labeled training data. Due to the difficulty of collecting labeled multi-temporal data, unsupervised methods are preferred in the CD literature. However, unsupervised methods cannot fully exploit the potentials of data-driven deep learning and thus they are not absolute alternative to the supervised methods. This motivates us to look deeper into the supervised DL methods and investigate how they can be adopted intelligently for CD by minimizing the requirement of labeled training data. Towards this, in this work we show that geographically diverse training dataset can yield significant improvement over less diverse training datasets of the same size. We propose a simple confidence indicator for verifying the trustworthiness/conf idence of supervised models trained with small labeled dataset. Moreover, we show that for the test cases where supervised CD model is found to be less confident/trustworth y, unsupervised methods often produce better result than the supervised ones.
翻訳日:2021-04-13 14:31:00 公開日:2021-04-09
# 人間の知覚に触発されたアクセント音声認識

Accented Speech Recognition Inspired by Human Perception ( http://arxiv.org/abs/2104.04627v1 )

ライセンス: Link先を確認
Xiangyun Chu (1), Elizabeth Combs (1), Amber Wang (1), Michael Picheny (2) ((1) Center for Data Science, New York University, (2) Courant Computer Science and Center for Data Science, New York University)(参考訳) 過去数年間、自動音声認識の性能は改善されてきたが、機械は人間よりもアクセント付き音声の性能が著しく低下している。 さらに、アクセント付き音声の最も重要な改善は、主に数百時間から数千時間のデータで問題を克服することで生じる。 人間は通常、新しいアクセントに対応するためにずっと少ないデータを必要とする。 本稿では,アクセント付き音声の認識における性能改善の可能性を評価するために,人間の知覚にインスパイアされた手法について検討する。 私たちの実験は、研究コミュニティが利用可能な小さなアクセス可能なデータセット上で行われます。 複数アクセントへの事前露出、グラファイムと音素に基づく発音、(新しいアクセントへの一般化を改善するために)ドロップアウト、アクセントモデリングに特化して関連付けられるニューラルネットワークの層同定の4つの手法を探索する。 この結果から,人間の知覚に基づく手法は,WERの低減と,新しいアクセントのためのニューラルネットワークにおけるアクセント付き音声のモデル化に有望であることが示唆された。

While improvements have been made in automatic speech recognition performance over the last several years, machines continue to have significantly lower performance on accented speech than humans. In addition, the most significant improvements on accented speech primarily arise by overwhelming the problem with hundreds or even thousands of hours of data. Humans typically require much less data to adapt to a new accent. This paper explores methods that are inspired by human perception to evaluate possible performance improvements for recognition of accented speech, with a specific focus on recognizing speech with a novel accent relative to that of the training data. Our experiments are run on small, accessible datasets that are available to the research community. We explore four methodologies: pre-exposure to multiple accents, grapheme and phoneme-based pronunciations, dropout (to improve generalization to a novel accent), and the identification of the layers in the neural network that can specifically be associated with accent modeling. Our results indicate that methods based on human perception are promising in reducing WER and understanding how accented speech is modeled in neural networks for novel accents.
翻訳日:2021-04-13 14:29:21 公開日:2021-04-09
# ニューラルRGB-D表面再構成

Neural RGB-D Surface Reconstruction ( http://arxiv.org/abs/2104.04532v1 )

ライセンス: Link先を確認
Dejan Azinovi\'c, Ricardo Martin-Brualla, Dan B Goldman, Matthias Nie{\ss}ner, Justus Thies(参考訳) 本研究では,表面再構成のための暗黙の新規ビュー合成手法を成功させる方法について検討する。 神経放射場を学習する手法は驚くべき画像合成結果を示しているが、基礎となる幾何学表現は実際の幾何学の粗い近似にすぎない。 色と深度データのみに基づく手法よりも詳細な再現結果を得るため, 放射場定式化に深度測定をどのように組み込むことができるかを示す。 密度場を基盤とする幾何表現とは対照的に,符号付き距離場を格納するディープニューラルネットワークを学習することを提案する。 この表現を用いて,学習中の観察画像の色値を推定し,再現損失を計算するために,相変わらず可変ボリュームレンダリングを利用することができることを示す。 これは、深度測定の欠如のある地域で符号付き距離場を学ぶのに有用である。 さらに,カメラの誤調整誤差を補正し,全体の復元精度を向上する。 いくつかの実験で本手法を示し,従来のrgb-d融合と学習表現の比較を行った。

In this work, we explore how to leverage the success of implicit novel view synthesis methods for surface reconstruction. Methods which learn a neural radiance field have shown amazing image synthesis results, but the underlying geometry representation is only a coarse approximation of the real geometry. We demonstrate how depth measurements can be incorporated into the radiance field formulation to produce more detailed and complete reconstruction results than using methods based on either color or depth data alone. In contrast to a density field as the underlying geometry representation, we propose to learn a deep neural network which stores a truncated signed distance field. Using this representation, we show that one can still leverage differentiable volume rendering to estimate color values of the observed images during training to compute a reconstruction loss. This is beneficial for learning the signed distance field in regions with missing depth measurements. Furthermore, we correct misalignment errors of the camera, improving the overall reconstruction quality. In several experiments, we showcase our method and compare to existing works on classical RGB-D fusion and learned representations.
翻訳日:2021-04-13 14:17:56 公開日:2021-04-09
# RaidaR: 雨の街路シーンのリッチな注釈付き画像データセット

RaidaR: A Rich Annotated Image Dataset of Rainy Street Scenes ( http://arxiv.org/abs/2104.04606v1 )

ライセンス: Link先を確認
Jiongchao Jin, Arezou Fatemi, Wallace Lira, Fenggen Yu, Biao Leng, Rui Ma, Ali Mahdavi-Amiri, Hao Zhang(参考訳) raidarは、雨の街並みの豊かな注釈付き画像データセットで、自動運転研究を支援する。 新しいデータセットには、これまでで最大の雨画像(58,542枚)が含まれ、5,000枚がセマンティックセグメンテーション、3,658枚がオブジェクトインスタンスセグメンテーションを提供している。 RaidaRの画像は、霧、滴、道路の反射など、雨によって引き起こされる幅広い現実的な人工物をカバーしており、既存のストリートシーンのデータセットを効果的に増強し、雨天時のデータ駆動マシンの知覚を改善することができる。 大量の画像の効率的なアノテーションを容易にするために,手動セグメンテーションとクロスバリデーションに似た自動処理を組み合わせた半自動スキームを開発し,アノテーション時間で10~20倍の縮小を実現する。 raidarによるデータ拡張が既存のセグメンテーションアルゴリズムの精度をいかに高めるかを示すことによって,新しいデータセットの有用性を実証する。 また,RaidaRから直接雨の人工物を追加・削除するための,未ペア画像変換アルゴリズムを提案する。

We introduce RaidaR, a rich annotated image dataset of rainy street scenes, to support autonomous driving research. The new dataset contains the largest number of rainy images (58,542) to date, 5,000 of which provide semantic segmentations and 3,658 provide object instance segmentations. The RaidaR images cover a wide range of realistic rain-induced artifacts, including fog, droplets, and road reflections, which can effectively augment existing street scene datasets to improve data-driven machine perception during rainy weather. To facilitate efficient annotation of a large volume of images, we develop a semi-automatic scheme combining manual segmentation and an automated processing akin to cross validation, resulting in 10-20 fold reduction on annotation time. We demonstrate the utility of our new dataset by showing how data augmentation with RaidaR can elevate the accuracy of existing segmentation algorithms. We also present a novel unpaired image-to-image translation algorithm for adding/removing rain artifacts, which directly benefits from RaidaR.
翻訳日:2021-04-13 14:17:41 公開日:2021-04-09
# DexYCB: オブジェクトのハンドグレーピングをキャプチャするためのベンチマーク

DexYCB: A Benchmark for Capturing Hand Grasping of Objects ( http://arxiv.org/abs/2104.04631v1 )

ライセンス: Link先を確認
Yu-Wei Chao and Wei Yang and Yu Xiang and Pavlo Molchanov and Ankur Handa and Jonathan Tremblay and Yashraj S. Narang and Karl Van Wyk and Umar Iqbal and Stan Birchfield and Jan Kautz and Dieter Fox(参考訳) DexYCBは、オブジェクトのハンドグルーピングをキャプチャする新しいデータセットである。 最初に、DexYCBと関連するものを比較する。 次に,2次元オブジェクトとキーポイント検出,6次元オブジェクトのポーズ推定,3次元ハンドポーズ推定という3つの課題に対する最先端手法の詳細なベンチマークを示す。 最後に、人間とロボットのオブジェクトのハンドオーバにおいて、安全なロボットグリップを生成するという新しいロボット関連タスクを評価する。 データセットとコードはhttps://dex-ycb.gith ub.ioで入手できる。

We introduce DexYCB, a new dataset for capturing hand grasping of objects. We first compare DexYCB with a related one through cross-dataset evaluation. We then present a thorough benchmark of state-of-the-art approaches on three relevant tasks: 2D object and keypoint detection, 6D object pose estimation, and 3D hand pose estimation. Finally, we evaluate a new robotics-relevant task: generating safe robot grasps in human-to-robot object handover. Dataset and code are available at https://dex-ycb.gith ub.io.
翻訳日:2021-04-13 14:17:23 公開日:2021-04-09
# Pixel Codec アバター

Pixel Codec Avatars ( http://arxiv.org/abs/2104.04638v1 )

ライセンス: Link先を確認
Shugao Ma, Tomas Simon, Jason Saragih, Dawei Wang, Yuecheng Li, Fernando De La Torre, Yaser Sheikh(参考訳) 仮想または拡張現実におけるフォトリアリスティックアバターとの通信は、リモートの物理的距離を3dで真の対面通信を実現するための有望な経路である。 本稿では,Pixel Codec Avatars (PiCA) について述べる。これは3次元人間の顔の深部生成モデルであり,計算効率が高く,実行中のレンダリング条件に適応している。 本モデルでは,(1)空間的に異なる特徴をデコードするための完全な畳み込みアーキテクチャ,(2)レンダリング適応型ピクセル単位のデコーダの2つの基本概念を組み合わせる。 どちらのテクニックも、トレーニング画像上での低トポロジーメッシュトラッキングから弱い教師付き方法で学習される、密度の高い表面表現を介して統合される。 我々は、picaが、性別や肌のトーンが異なる人の表情や視点をテストすることで、既存の技術の再構築を改善できることを実証する。 重要なのは、picaモデルが最先端のベースラインモデルよりもずっと小さく、マルチパーソン・テレコムキャイトンを可能にすることだ。oculus quest 2モバイルvrヘッドセット1台で、同じシーンで5つのアバターがリアルタイムでレンダリングされる。

Telecommunication with photorealistic avatars in virtual or augmented reality is a promising path for achieving authentic face-to-face communication in 3D over remote physical distances. In this work, we present the Pixel Codec Avatars (PiCA): a deep generative model of 3D human faces that achieves state of the art reconstruction performance while being computationally efficient and adaptive to the rendering conditions during execution. Our model combines two core ideas: (1) a fully convolutional architecture for decoding spatially varying features, and (2) a rendering-adaptive per-pixel decoder. Both techniques are integrated via a dense surface representation that is learned in a weakly-supervised manner from low-topology mesh tracking over training images. We demonstrate that PiCA improves reconstruction over existing techniques across testing expressions and views on persons of different gender and skin tone. Importantly, we show that the PiCA model is much smaller than the state-of-art baseline model, and makes multi-person telecommunicaiton possible: on a single Oculus Quest 2 mobile VR headset, 5 avatars are rendered in realtime in the same scene.
翻訳日:2021-04-13 14:17:15 公開日:2021-04-09
# 患者コントラスト学習:心電図モデリングにおけるパフォーマンス・表現・実践的アプローチ

Patient Contrastive Learning: a Performant, Expressive, and Practical Approach to ECG Modeling ( http://arxiv.org/abs/2104.04569v1 )

ライセンス: Link先を確認
Nathaniel Diamant, Erik Reinertsen, Steven Song, Aaron Aguirre, Collin Stultz, Puneet Batra(参考訳) 医療における機械学習の応用は、ラベル付きトレーニングデータの不足により制限されることが多い。 サンプルサイズを小さくすることによるこの効果を軽減するために,多数の未ラベル例からECGの潜在表現を生成するPCLR (Patent Contrastive Learning of Representations) という事前学習手法を導入する。 結果として得られる表現は、幅広い臨床タスクにおいて、表現力、パフォーマンス、実用的なものである。 我々は,約320万個のECGを持つ大規模医療システムを用いてPCLRを開発し,5,000以上のラベルが存在する場合,複数の新しいタスクに対して大幅な改善が示された。 我々は、ECG表現をhttps://github.com/b roadinstitute/ml4h/t ree/master/model_zoo /PCLRで抽出するモデルをリリースする。

Supervised machine learning applications in health care are often limited due to a scarcity of labeled training data. To mitigate this effect of small sample size, we introduce a pre-training approach, Patient Contrastive Learning of Representations (PCLR), which creates latent representations of ECGs from a large number of unlabeled examples. The resulting representations are expressive, performant, and practical across a wide spectrum of clinical tasks. We develop PCLR using a large health care system with over 3.2 million 12-lead ECGs, and demonstrate substantial improvements across multiple new tasks when there are fewer than 5,000 labels. We release our model to extract ECG representations at https://github.com/b roadinstitute/ml4h/t ree/master/model_zoo /PCLR.
翻訳日:2021-04-13 14:02:29 公開日:2021-04-09
# deepsith: 時間スケールで何といつ分解するかによる効率的な学習

DeepSITH: Efficient Learning via Decomposition of What and When Across Time Scales ( http://arxiv.org/abs/2104.04646v1 )

ライセンス: Link先を確認
Brandon Jacques, Zoran Tiganj, Marc W. Howard, Per B. Sederberg(参考訳) さまざまなスケールにわたる時間的関係を抽出することは、人間の認識と認知の目印であり、現実世界の問題に適用される機械学習の重要な特徴である。 ニューラルネットワークは、リカレントニューラルネットワーク(RNN)における爆発的/消滅的な勾配問題に悩まされるか、関連する時間スケール(LSTMなど)を学ぶためにパラメータを調整する必要がある。 本稿では,生物にインスパイアされたスケール不変時史(SITH)モジュールを層間密接な接続で連続的に構成するネットワークであるDeepSITHを紹介する。 SITHモジュールは幾何学的に空間化された時間定数のセットで入力に応答し、DeepSITHネットワークは時間スケールの連続体に沿って問題を学ぶことができる。 我々は,複数の時系列予測および復号化タスクにおいて,DeepSITHとLSTMや他の最近のRNNを比較した。 DeepSITHはこれらの問題に対して最先端のパフォーマンスを達成する。

Extracting temporal relationships over a range of scales is a hallmark of human perception and cognition -- and thus it is a critical feature of machine learning applied to real-world problems. Neural networks are either plagued by the exploding/vanishing gradient problem in recurrent neural networks (RNNs) or must adjust their parameters to learn the relevant time scales (e.g., in LSTMs). This paper introduces DeepSITH, a network comprising biologically-inspire d Scale-Invariant Temporal History (SITH) modules in series with dense connections between layers. SITH modules respond to their inputs with a geometrically-spaced set of time constants, enabling the DeepSITH network to learn problems along a continuum of time-scales. We compare DeepSITH to LSTMs and other recent RNNs on several time series prediction and decoding tasks. DeepSITH achieves state-of-the-art performance on these problems.
翻訳日:2021-04-13 14:02:16 公開日:2021-04-09
# ロングテール音声認識のためのルックアップテーブルリカレント言語モデル

Lookup-Table Recurrent Language Models for Long Tail Speech Recognition ( http://arxiv.org/abs/2104.04552v1 )

ライセンス: Link先を確認
W. Ronny Huang, Tara N. Sainath, Cal Peyser, Shankar Kumar, David Rybach, Trevor Strohman(参考訳) 埋め込みテーブルの表現性を高めて,浮動小数点演算を一定に増加させるRNN言語モデルのスケールアップ方法であるルックアップ・テーブル言語モデル(LookupLM)を紹介する。 特に、単一のトークンではなく、前のn-gramトークンシーケンスを埋め込んだ(追加的な)埋め込みテーブルをインスタンス化する。 これにより、埋め込みテーブルは、トークンの語彙を変更することなく、任意にスケールし、パフォーマンスが上昇します。 埋め込みはルックアップによってテーブルからわずかに取得されるため、テーブルのサイズが大きくなると、各前方パスに余分な操作も、限られたGPU/TPUメモリに格納される必要のある余分なパラメータも追加されない。 約10億のパラメータにn-gramの埋め込みテーブルのスケーリングについて検討する。 3ビリオン文コーパスでトレーニングすると、LookupLMは標準RNN言語モデルベースライン上の下流音声認識タスクにおいて、長いテールログのパープレキシティを2.44倍、長いテールWERを23.4%改善し、ベースラインのスケールアップに匹敵する改善を浮動小数点演算の6.2倍改善することがわかった。

We introduce Lookup-Table Language Models (LookupLM), a method for scaling up the size of RNN language models with only a constant increase in the floating point operations, by increasing the expressivity of the embedding table. In particular, we instantiate an (additional) embedding table which embeds the previous n-gram token sequence, rather than a single token. This allows the embedding table to be scaled up arbitrarily -- with a commensurate increase in performance -- without changing the token vocabulary. Since embeddings are sparsely retrieved from the table via a lookup; increasing the size of the table adds neither extra operations to each forward pass nor extra parameters that need to be stored on limited GPU/TPU memory. We explore scaling n-gram embedding tables up to nearly a billion parameters. When trained on a 3-billion sentence corpus, we find that LookupLM improves long tail log perplexity by 2.44 and long tail WER by 23.4% on a downstream speech recognition task over a standard RNN language model baseline, an improvement comparable to a scaling up the baseline by 6.2x the number of floating point operations.
翻訳日:2021-04-13 13:58:41 公開日:2021-04-09
# ラスタ化形状の不規則なストリップ包装問題に対する座標降下ヒューリスティックス

Coordinate descent heuristics for the irregular strip packing problem of rasterized shapes ( http://arxiv.org/abs/2104.04525v1 )

ライセンス: Link先を確認
Shunji Umetani and Shohei Murakami(参考訳) 画素で表現された不規則な形状のセットを重なりなく長方形容器に配置するラスタライズ形状の不規則ストリップパッキング問題を考える。 ラスタ化された形状は、幾何学的な問題による特別な処理なしに重複をチェックできますが、高い解像度で多くのメモリと計算労力を必要とします。 本研究では,各列の連続画素を単位幅のストリップにマージすることにより,ラスタ化形状の複雑さを低減し,重ね合わせをチェックする効率的なアルゴリズムを開発した。 そこで我々は,水平方向と垂直方向の直線探索を交互に繰り返す座標降下ヒューリスティックを開発した。 テストインスタンスの計算結果から,提案アルゴリズムは合理的な計算時間内に高分解能のラスタ化形状を十分に高密度にレイアウトすることを示した。

We consider the irregular strip packing problem of rasterized shapes, where a given set of pieces of irregular shapes represented in pixels should be placed into a rectangular container without overlap. The rasterized shapes enable us to check overlap without any exceptional handling due to geometric issues, while they often require much memory and computational effort in high-resolution. We develop an efficient algorithm to check overlap using a pair of scanlines that reduces the complexity of rasterized shapes by merging consecutive pixels in each row and column into strips with unit width, respectively. Based on this, we develop coordinate descent heuristics that repeat a line search in the horizontal and vertical directions alternately. Computational results for test instances show that the proposed algorithm obtains sufficiently dense layouts of rasterized shapes in high-resolution within a reasonable computation time.
翻訳日:2021-04-13 13:57:12 公開日:2021-04-09
# AIによって実現されたスマートでセキュアなCAVネットワーク - インテリジェントな安全運転評価の次のフロンティア

Smart and Secure CAV Networks Empowered by AI-Enabled Blockchain: Next Frontier for Intelligent Safe-Driving Assessment ( http://arxiv.org/abs/2104.04572v1 )

ライセンス: Link先を確認
Le Xia, Yao Sun, Rafiq Swash, Lina Mohjazi, Lei Zhang, and Muhammad Ali Imran(参考訳) コネクテッド・自動運転車(CAV)の安全運転状況の確保は、車載デバイスに人工知能がもたらす様々な高度な機能にもかかわらず、広く懸念されている。 さらに、さまざまな悪意のあるネットワーク攻撃は、CAVネットワークでデータを管理するためのさまざまな信頼性とプライバシーの脅威を露呈するInternet of Vehiclesの世界的な実装とともに、ユビキタスなものになっている。 これにより、データセキュリティを損なうことなく自律運転安全性を保証するための効率的なアセスメントシステムを設計する必要性が高まっている。 この目的のために,本論文では,車両情報を保護しながら安全な運転監視を行うためのスマートで信頼性の高いアプローチとして,ブロックチェーン対応のintElligent Safe-Driving AssessmentmenT(BEST) を提案する。 具体的には、IntElligent Safe-driving AssessmentmenT (EST)スキームのために、長期記憶アルゴリズムを利用する有望なソリューションを最初に導入する。 estをさらに促進するために、分散型ブロックチェーンが、ビザンチンフォールトトレランスベースのデリゲートド・オブ・ステーク・コンセンサス機構を用いて、適切な効率、信頼性、レジリエンスを得る方法を示す。 さらに,このBESTアーキテクチャの今後の研究について,いくつかの課題と議論を行う。

Securing a safe-driving circumstance for connected and autonomous vehicles (CAVs) continues to be a widespread concern despite various sophisticated functions delivered by artificial intelligence for in-vehicle devices. Besides, diverse malicious network attacks become ubiquitous along with the worldwide implementation of the Internet of Vehicles, which exposes a range of reliability and privacy threats for managing data in CAV networks. Combined with another fact that CAVs are now limited in handling intensive computation tasks, it thus renders a pressing demand of designing an efficient assessment system to guarantee autonomous driving safety without compromising data security. To this end, we propose in this article a novel framework of Blockchain-enabled intElligent Safe-driving assessmenT (BEST) to offer a smart and reliable approach for conducting safe driving supervision while protecting vehicular information. Specifically, a promising solution of exploiting a long short-term memory algorithm is first introduced in detail for an intElligent Safe-driving assessmenT (EST) scheme. To further facilitate the EST, we demonstrate how a distributed blockchain obtains adequate efficiency, trustworthiness and resilience with an adopted byzantine fault tolerance-based delegated proof-of-stake consensus mechanism. Moreover, several challenges and discussions regarding the future research of this BEST architecture are presented.
翻訳日:2021-04-13 13:56:57 公開日:2021-04-09
# ウェアラブル脳波イベントモニタリングにおける1クラスオートエンコーダによる最適電極設定同定

One-class Autoencoder Approach for Optimal Electrode Set-up Identification in Wearable EEG Event Monitoring ( http://arxiv.org/abs/2104.04546v1 )

ライセンス: Link先を確認
Laura M. Ferrari, Guy Abi Hanna, Paolo Volpe, Esma Ismailova, Fran\c{c}ois Bremond, Maria A. Zuluaga(参考訳) 継続的医療モニタリングのためのウェアラブルデバイスの広範な日常的利用への制限要因は、その面倒で邪魔な性質である。 これは、頭皮と接触する複数の電極の配置を必要とする脳波(eeg)記録において特に当てはまる。 そこで本研究では,脳波によるイベント検出とモニタリングを行うため,最小限の電極数,快適な位置と性能の観点から,ウェアラブル脳波電極の最適セットアップを提案する。 提案手法は,高次元データから潜在表現を学習するために,オートエンコーダ(AE)ネットワークの実証的なパワーを頼りに,異なる電極セットを入力データとして一級分類でAEアーキテクチャを訓練する。 得られたモデルをFスコアを用いて評価し、確立された最適基準に従って最適な設定を選択する。 提案手法は,α波検出をユースケースとして,額と耳の後ろの電極からなる最適なセットアップから,平均f-score 0.78のアルファ状態を検出できることを実証する。 以上の結果から,実生活の医療モニタリングに最適なウェアラブルデバイスの設計と実装を可能にするために,学習に基づくアプローチが有効であることが示唆された。

A limiting factor towards the wide routine use of wearables devices for continuous healthcare monitoring is their cumbersome and obtrusive nature. This is particularly true for electroencephalograp hy (EEG) recordings, which require the placement of multiple electrodes in contact with the scalp. In this work, we propose to identify the optimal wearable EEG electrode set-up, in terms of minimal number of electrodes, comfortable location and performance, for EEG-based event detection and monitoring. By relying on the demonstrated power of autoencoder (AE) networks to learn latent representations from high-dimensional data, our proposed strategy trains an AE architecture in a one-class classification setup with different electrode set-ups as input data. The resulting models are assessed using the F-score and the best set-up is chosen according to the established optimal criteria. Using alpha wave detection as use case, we demonstrate that the proposed method allows to detect an alpha state from an optimal set-up consisting of electrodes in the forehead and behind the ear, with an average F-score of 0.78. Our results suggest that a learning-based approach can be used to enable the design and implementation of optimized wearable devices for real-life healthcare monitoring.
翻訳日:2021-04-13 13:52:16 公開日:2021-04-09
# 深部核融合モデルによるSARS-CoV-2タンパク質標的用小分子インヒビターの高速仮想スクリーニング

High-Throughput Virtual Screening of Small Molecule Inhibitors for SARS-CoV-2 Protein Targets with Deep Fusion Models ( http://arxiv.org/abs/2104.04547v1 )

ライセンス: Link先を確認
Garrett A. Stevenson, Derek Jones, Hyojin Kim, W. F. Drew Bennett, Brian J. Bennion, Monica Borucki, Feliza Bourguet, Aidan Epstein, Magdalena Franco, Brooke Harmon, Stewart He, Max P. Katz, Daniel Kirshner, Victoria Lao, Edmond Y. Lau, Jacky Lo, Kevin McLoughlin, Richard Mosesso, Deepa K. Murugesh, Oscar A. Negrete, Edwin A. Saada, Brent Segelke, Maxwell Stefan, Marisa W. Torres, Dina Weilhammer, Sergio Wong, Yue Yang, Adam Zemla, Xiaohua Zhang, Fangqiang Zhu, Felice C. Lightstone, Jonathan E. Allen(参考訳) 近年、構造に基づくDeep Fusionモデルは、いくつかの物理および機械学習ベースのタンパク質-リガンド結合親和性予測法より優れていることが示されている。 新型コロナウイルス(COVID-19)の感染拡大を受け、5億以上の小さな分子が、新型コロナウイルス(SARS-CoV-2)の4つのタンパク質構造に対してコンピューターでスクリーニングされた。 ディープフュージョンの3つの拡張は、SARS-CoV-2タンパク質標的に対する50億以上のドッキングポーズを評価するために行われた。 第一に、ディープフュージョンの概念は、結合親和性予測精度を改善するために、アーキテクチャを1つに定式化した。 第二に、このモデルは分散型の遺伝的ハイパーパラメータ最適化を用いて訓練された。 最後に, リガンド数を最大化し, 実験評価への道筋を早めるために, スケーラブルで高スループットなスクリーニング機能を開発した。 本研究では,機械学習を用いたハイスループットスクリーニングのための手法と,計算パイプラインを用いてSARS-CoV-2インヒビターの探索を行った。

Structure-based Deep Fusion models were recently shown to outperform several physics- and machine learning-based protein-ligand binding affinity prediction methods. As part of a multi-institutional COVID-19 pandemic response, over 500 million small molecules were computationally screened against four protein structures from the novel coronavirus (SARS-CoV-2), which causes COVID-19. Three enhancements to Deep Fusion were made in order to evaluate more than 5 billion docked poses on SARS-CoV-2 protein targets. First, the Deep Fusion concept was refined by formulating the architecture as one, coherently backpropagated model (Coherent Fusion) to improve binding-affinity prediction accuracy. Secondly, the model was trained using a distributed, genetic hyper-parameter optimization. Finally, a scalable, high-throughput screening capability was developed to maximize the number of ligands evaluated and expedite the path to experimental evaluation. In this work, we present both the methods developed for machine learning-based high-throughput screening and results from using our computational pipeline to find SARS-CoV-2 inhibitors.
翻訳日:2021-04-13 13:51:56 公開日:2021-04-09
# カオス時空間力学の深部強化学習能動制御のための対称性の低減

Symmetry reduction for deep reinforcement learning active control of chaotic spatiotemporal dynamics ( http://arxiv.org/abs/2104.05437v1 )

ライセンス: Link先を確認
Kevin Zeng, Michael D. Graham(参考訳) 深部強化学習(英: Deep reinforcement learning, RL)は、高次元システムにおけるマクロ目的のための複雑な制御戦略を発見するためのデータ駆動型モデルフリー手法である。 フロー制御利害の多くのシステムは、無視された場合、単純な深いRLアプローチの学習と性能を著しく阻害する対称性を持っている。 倉本・シヴァシンスキー方程式 (KSE) と等間隔アクチュエータからなるテストベッドと、散逸と電力コストの最小化を目標とし、深いRL問題を対称性還元空間に移動させることにより、深いRLのナイーブな応用に固有の制限を緩和できることを示した。 我々は, 対称性を低減した深部RLは, ナイーブ深部RLよりもデータ効率が向上し, 制御ポリシの有効性が向上することを示した。 興味深いことに、対称性認識制御剤によって学習されたポリシーは、その存在について明確な情報が与えられていないにもかかわらず、無力KSEの平衡に連続して連結された強制KSEの平衡状態に向かってシステムを駆動する。 目的を達成するために、RLアルゴリズムはシステムの平衡状態を発見し、安定化する。 最後に, 対称性低減制御ポリシは, 観測やアクティベーション信号ノイズに対して頑健であり, これまでに観測されなかったシステムパラメータにも頑健であることを示す。

Deep reinforcement learning (RL) is a data-driven, model-free method capable of discovering complex control strategies for macroscopic objectives in high-dimensional systems, making its application towards flow control promising. Many systems of flow control interest possess symmetries that, when neglected, can significantly inhibit the learning and performance of a naive deep RL approach. Using a test-bed consisting of the Kuramoto-Sivashinsky Equation (KSE), equally spaced actuators, and a goal of minimizing dissipation and power cost, we demonstrate that by moving the deep RL problem to a symmetry-reduced space, we can alleviate limitations inherent in the naive application of deep RL. We demonstrate that symmetry-reduced deep RL yields improved data efficiency as well as improved control policy efficacy compared to policies found by naive deep RL. Interestingly, the policy learned by the the symmetry aware control agent drives the system toward an equilibrium state of the forced KSE that is connected by continuation to an equilibrium of the unforced KSE, despite having been given no explicit information regarding its existence. I.e., to achieve its goal, the RL algorithm discovers and stabilizes an equilibrium state of the system. Finally, we demonstrate that the symmetry-reduced control policy is robust to observation and actuation signal noise, as well as to system parameters it has not observed before.
翻訳日:2021-04-13 13:49:00 公開日:2021-04-09
# 有限温度における教師付き学習のためのテンソルネットワーク

Tensor Network for Supervised Learning at Finite Temperature ( http://arxiv.org/abs/2104.05439v1 )

ライセンス: Link先を確認
Haoxiang Lin, Shuqian Ye, Xi Zhu(参考訳) データセットの大きなバリエーションは、画像分類タスクの大きな障壁である。 本稿では,この観察を取り入れた有限温度テンソルネットワーク(fttn)について紹介する。これはエネルギーベースの学習と同様に,すべての画像を一定温度の環境に配置することで,熱摂動を行列積状態フレームワークにインポートするものである。 テンソルネットワークは熱揺らぎを導入するのに最適なプラットフォームであるため選択される。 個々の損失を損失関数として直接集計する従来のネットワーク構造とは異なり、FTTNはそれを環境との絡み合いから計算した熱平均損失と見なしている。 温度のようなパラメータは自動的に最適化され、各データベースに個別の温度を与える。 FTTNは、複数のデータセットでテスト精度と収束速度の両方を改善する。 非ゼロ温度は、同様の機能を自動的に分離し、以前のアーキテクチャの誤った分類を避ける。 熱ゆらぎは他のフレームワークで改善される可能性があり、トレーニング効果を改善するためにデータベースの温度を実装することもできる。

The large variation of datasets is a huge barrier for image classification tasks. In this paper, we embraced this observation and introduce the finite temperature tensor network (FTTN), which imports the thermal perturbation into the matrix product states framework by placing all images in an environment with constant temperature, in analog to energy-based learning. Tensor network is chosen since it is the best platform to introduce thermal fluctuation. Different from traditional network structure which directly takes the summation of individual losses as its loss function, FTTN regards it as thermal average loss computed from the entanglement with the environment. The temperature-like parameter can be automatically optimized, which gives each database an individual temperature. FTTN obtains improvement in both test accuracy and convergence speed in several datasets. The non-zero temperature automatically separates similar features, avoiding the wrong classification in previous architecture. The thermal fluctuation may give a better improvement in other frameworks, and we may also implement the temperature of database to improve the training effect.
翻訳日:2021-04-13 13:48:34 公開日:2021-04-09
# 非公式都市における商業活動の解明

Uncovering commercial activity in informal cities ( http://arxiv.org/abs/2104.04545v1 )

ライセンス: Link先を確認
Daniel Straulino, Juan C. Saldarriaga, Jairo A. G\'omez, Juan C. Duque, Neave O'Clery(参考訳) 都市内の経済活動の空間的組織に関する知識は、政策上の懸念の鍵となる。 しかし、高水準の非公式性を持つ発展途上国では、この情報はしばしば利用できない。 機械学習の最近の進歩とストリートイメージの可用性は、安価で簡単に自動化できるソリューションを提供する。 本稿では、ストリートビュー画像を用いて、私たちが「見える企業」と呼ぶものを検出するアルゴリズムを提案する。 コロンビアのメデル・イン(Medell\'in)をケーススタディとして、これまで目に見えない経済活動を明らかにするためにこのアプローチをどのように利用できるかを説明する。 データセットに空間分析を適用することで、確立された中心領域と周辺領域の両方に5つの異なるクラスターを持つ多中心構造を検出する。 可視・登録企業の密度を比較すると、非公式な活動は貧しいが人口密度の高い地域に集中していることが分かる。 我々の発見は、公式データと地上の現実との間の大きなギャップを浮き彫りにしている。

Knowledge of the spatial organisation of economic activity within a city is key to policy concerns. However, in developing cities with high levels of informality, this information is often unavailable. Recent progress in machine learning together with the availability of street imagery offers an affordable and easily automated solution. Here we propose an algorithm that can detect what we call 'visible firms' using street view imagery. Using Medell\'in, Colombia as a case study, we illustrate how this approach can be used to uncover previously unseen economic activity. Applying spatial analysis to our dataset we detect a polycentric structure with five distinct clusters located in both the established centre and peripheral areas. Comparing the density of visible and registered firms, we find that informal activity concentrates in poor but densely populated areas. Our findings highlight the large gap between what is captured in official data and the reality on the ground.
翻訳日:2021-04-13 13:47:23 公開日:2021-04-09
# codedstereo: 大きなフィールドステレオのための学習位相マスク

CodedStereo: Learned Phase Masks for Large Depth-of-field Stereo ( http://arxiv.org/abs/2104.04641v1 )

ライセンス: Link先を確認
Shiyu Tan, Yicheng Wu, Shoou-I Yu, Ashok Veeraraghavan(参考訳) 従来のステレオは、画像ボリュームとsnr(signal-to-noise ratio)との根本的なトレードオフに苦しんでいる。 フィールドカメラの奥行きに着想を得て,ステレオイメージングシステムにおいて,カメラの開口面に位相マスクを導入することにより,この制限を克服する新たなエンドツーエンド学習手法を提案する。 位相マスクは深度依存のポイントスプレッド関数を生成し、従来のステレオよりもシャープな画像テクスチャとステレオ対応をかなり拡張した視野深度(edof)で復元できる。 位相マスクパターン、edof画像再構成、ステレオ不一致推定は全て、エンドツーエンドの学習深層ニューラルネットワークを用いて訓練される。 提案手法の理論的解析と特性評価を行い,シミュレーションで画像化できる体積の6倍の増大を示す。 また,このプロトタイプシステムを用いて得られた実世界結果を用いて,実験的なプロトタイプを構築し,そのアプローチを検証する。

Conventional stereo suffers from a fundamental trade-off between imaging volume and signal-to-noise ratio (SNR) -- due to the conflicting impact of aperture size on both these variables. Inspired by the extended depth of field cameras, we propose a novel end-to-end learning-based technique to overcome this limitation, by introducing a phase mask at the aperture plane of the cameras in a stereo imaging system. The phase mask creates a depth-dependent point spread function, allowing us to recover sharp image texture and stereo correspondence over a significantly extended depth of field (EDOF) than conventional stereo. The phase mask pattern, the EDOF image reconstruction, and the stereo disparity estimation are all trained together using an end-to-end learned deep neural network. We perform theoretical analysis and characterization of the proposed approach and show a 6x increase in volume that can be imaged in simulation. We also build an experimental prototype and validate the approach using real-world results acquired using this prototype system.
翻訳日:2021-04-13 13:47:09 公開日:2021-04-09
# 新型コロナウイルスが貿易に与える影響を評価する: 機械学習の対実分析

Assessing the Impact of COVID-19 on Trade: a Machine Learning Counterfactual Analysis ( http://arxiv.org/abs/2104.04570v1 )

ライセンス: Link先を確認
Marco Due\~nas and V\'ictor Ortiz and Massimo Riccaboni and Francesco Serti(参考訳) 本論文は、輸出業者のダイナミクスを複雑な学習プロセスとして解釈することにより、企業の取引状況予測における異なる機械学習(ml)技術の有効性を検討する最初の試みである。 我々は、新型コロナウイルスの設定と非現実的な状況という2つの異なるシナリオの下で、輸出市場で生き残るコロンビア企業の可能性に焦点を当てる。 その結果を比較した結果,covid-19ショックの個別治療効果が企業業績に与える影響を推定した。 最後に, 再帰的パーティショニング法を用いて, 異なる治療効果を有するサブグループを同定する。 時間的次元の他に、治療の不均一性を予測する主な要因は、ファームサイズと産業間の相互作用である。

By interpreting exporters' dynamics as a complex learning process, this paper constitutes the first attempt to investigate the effectiveness of different Machine Learning (ML) techniques in predicting firms' trade status. We focus on the probability of Colombian firms surviving in the export market under two different scenarios: a COVID-19 setting and a non-COVID-19 counterfactual situation. By comparing the resulting predictions, we estimate the individual treatment effect of the COVID-19 shock on firms' outcomes. Finally, we use recursive partitioning methods to identify subgroups with differential treatment effects. We find that, besides the temporal dimension, the main factors predicting treatment heterogeneity are interactions between firm size and industry.
翻訳日:2021-04-13 13:46:35 公開日:2021-04-09
# 単一勾配ステップがランダム二層ニューラルネットワークの逆例を見つける

A single gradient step finds adversarial examples on random two-layers neural networks ( http://arxiv.org/abs/2104.03863v2 )

ライセンス: Link先を確認
S\'ebastien Bubeck, Yeshwanth Cherapanamjeri, Gauthier Gidel and R\'emi Tachet des Combes(参考訳) Daniely と Schacham は先日、ランダム不完全な2層 ReLU ニューラルネットワーク上で勾配降下が逆例となることを示した。 アンダーコンプリート」という用語は、ニューロンの数が周囲の次元の消失分数である場合にのみその証明が成り立つという事実を指す。 それらの結果は、ニューロンの数が次元よりも大きい(また、次元における部分指数)オーバーコンプリートの場合にまで拡大する。 実際、勾配降下の1つのステップが十分であることを示す。 また,スムースなアクティベーション関数を持つ任意のサブ指数幅ランダムニューラルネットワークに対して,この結果を示す。

Daniely and Schacham recently showed that gradient descent finds adversarial examples on random undercomplete two-layers ReLU neural networks. The term "undercomplete" refers to the fact that their proof only holds when the number of neurons is a vanishing fraction of the ambient dimension. We extend their result to the overcomplete case, where the number of neurons is larger than the dimension (yet also subexponential in the dimension). In fact we prove that a single step of gradient descent suffices. We also show this result for any subexponential width random neural network with smooth activation function.
翻訳日:2021-04-13 10:34:32 公開日:2021-04-09
# ORDisCo:半教師付き連続学習におけるインクリメンタル・アンラベルデータの有用性と有効利用

ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for Semi-supervised Continual Learning ( http://arxiv.org/abs/2101.00407v2 )

ライセンス: Link先を確認
Liyuan Wang, Kuo Yang, Chongxuan Li, Lanqing Hong, Zhenguo Li, Jun Zhu(参考訳) 継続的な学習は通常、受信したデータが完全にラベル付けされていると仮定する。 本研究では,部分ラベル付きデータから漸進的に学習する半教師付き連続学習(SSCL)について考察する。 既存の連続学習手法では、ラベルのないデータを継続的に活用する能力がないことを確認し、学習したデータ分布を連続的に分類器に渡す条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するための、識別器の深いオンライン再生(ORDisCo)を提案する。 特にORDisCoは、条件付きジェネレータからサンプリングされたデータをオンラインの方法でリプレイし、ラベルのないデータを時間とストレージ効率で活用する。 さらに、ラベルなしデータの破滅的な忘れを明示的に克服するため、分類器によって予測される古いラベルなしデータのペアと擬ラベルの識別に重要な識別器のパラメータを選択的に安定化する。 我々は、SSCLの各種半教師付き学習ベンチマークデータセット上でORDisCoを広範囲に評価し、強力なベースラインと比較して、SVHN、CIFAR10、Tiny-ImageNetにおいてORDisCoが大幅な性能向上を実現していることを示す。

Continual learning usually assumes the incoming data are fully labeled, which might not be applicable in real applications. In this work, we consider semi-supervised continual learning (SSCL) that incrementally learns from partially labeled data. Observing that existing continual learning methods lack the ability to continually exploit the unlabeled data, we propose deep Online Replay with Discriminator Consistency (ORDisCo) to interdependently learn a classifier with a conditional generative adversarial network (GAN), which continually passes the learned data distribution to the classifier. In particular, ORDisCo replays data sampled from the conditional generator to the classifier in an online manner, exploiting unlabeled data in a time- and storage-efficient way. Further, to explicitly overcome the catastrophic forgetting of unlabeled data, we selectively stabilize parameters of the discriminator that are important for discriminating the pairs of old unlabeled data and their pseudo-labels predicted by the classifier. We extensively evaluate ORDisCo on various semi-supervised learning benchmark datasets for SSCL, and show that ORDisCo achieves significant performance improvement on SVHN, CIFAR10 and Tiny-ImageNet, compared to strong baselines.
翻訳日:2021-04-13 07:23:25 公開日:2021-04-09
# (参考訳) アグロボットに向けて:タイプ2ファジィ論理制御を用いた自律トラクタの軌道制御 [全文訳有]

Towards Agrobots: Trajectory Control of an Autonomous Tractor Using Type-2 Fuzzy Logic Controllers ( http://arxiv.org/abs/2104.04123v1 )

ライセンス: CC BY 4.0
Erdal Kayacan, Erkan Kayacan, Herman Ramon, Okyay Kaynak and Wouter Saeys(参考訳) 農業用車両にいくつかの自律的な機能を設けると、オペレーターの仕事が軽くなるが、その場合、最適な収量を得るために正確さを失うべきではない。 農業車両の自律航法には、ヨー角力学や縦速度力学など、様々な動的サブシステムの制御が含まれる。 本研究では、トラクタの長手速度を制御するために比例積分微分制御器を用いる。 yaw角ダイナミクスの制御には、比例導出制御器がタイプ2ファジィニューラルネットワークと並行して動作する。 このような配置では、前者は関連するサブシステムの安定性を保証し、後者はシステムのダイナミクスを学習し、先頭のコントローラとなる。 このように,モデルベース制御の設計に先立ってサブシステム間のインタラクションをモデル化する代わりに,測定したフィードバックエラーからインタラクションをオンラインで学習する制御アルゴリズムを開発した。 規定されたサブシステムの制御に加えて、トラクタの軌道追従問題に対するx軸とy軸の誤差を修正するためにキネマティックコントローラが必要である。 提案方式のリアルタイム性を示すため,自律トラクタには,合理的な価格のセンサとアクチュエータが組み込まれている。 実験の結果,提案アルゴリズムの有効性と有効性を示した。

Provision of some autonomous functions to an agricultural vehicle would lighten the job of the operator but in doing so, the accuracy should not be lost to still obtain an optimal yield. Autonomous navigation of an agricultural vehicle involves the control of different dynamic subsystems, such as the yaw angle dynamics and the longitudinal speed dynamics. In this study, a proportional-integra l-derivative controller is used to control the longitudinal velocity of the tractor. For the control of the yaw angle dynamics, a proportional-derivat ive controller works in parallel with a type-2 fuzzy neural network. In such an arrangement, the former ensures the stability of the related subsystem, while the latter learns the system dynamics and becomes the leading controller. In this way, instead of modeling the interactions between the subsystems prior to the design of model-based control, we develop a control algorithm which learns the interactions online from the measured feedback error. In addition to the control of the stated subsystems, a kinematic controller is needed to correct the errors in both the x- and the y- axis for the trajectory tracking problem of the tractor. To demonstrate the real-time abilities of the proposed control scheme, an autonomous tractor is equipped with the use of reasonably priced sensors and actuators. Experimental results show the efficacy and efficiency of the proposed learning algorithm.
翻訳日:2021-04-12 20:36:22 公開日:2021-04-09
# (参考訳) C-SSRSを用いたRedditの時間変化と時間不変性の評価 [全文訳有]

Characterization of Time-variant and Time-invariant Assessment of Suicidality on Reddit using C-SSRS ( http://arxiv.org/abs/2104.04140v1 )

ライセンス: CC BY 4.0
Manas Gaur, Vamsi Aribandi, Amanuel Alambo, Ugur Kursuncu, Krishnaprasad Thirunarayan, Jonanthan Beich, Jyotishman Pathak, Amit Sheth(参考訳) 自殺は米国で10番目に多い死因である(1999-2019)。 しかし、自殺未遂の時期の予測はほぼ不可能である。 現代の世界では、精神疾患に苦しむ多くの人々が、redditのような有名で簡単にアクセスできるソーシャルメディアプラットフォーム上で、感情的なサポートとアドバイスを求めています。 従来の人工知能研究は、自殺の考えや行動についてソーシャルメディアから貴重な情報を抽出する能力を示しているが、これらの取り組みはリスクの深刻さと時間性の両方を考慮していない。 このようなデータへのアクセスによって可能になった洞察は、大きな臨床的可能性を持ち、人生を救うために、タイムリーで目標とする介入(自発的で自発的な精神病院化)を採用する引き金として、最も劇的に想定されている。 本研究では,コロンビア自殺重大度評価尺度(c-ssrs)に基づくredditデータから,自殺リスクを評価するための深層学習アルゴリズムを開発することで,この知識のギャップを解決する。 特に,ユーザレベルの自殺リスクアセスメントのための時間変化と時間不変モデリングの2つのディープラーニングアプローチを採用し,c-ssrに基づいてアノテートされた臨床医によるゴールド標準redditコーパスに対するパフォーマンス評価を行った。 以上の結果から, 時変アプローチは自殺関連観念・支援行動の評価において時間不変法よりも優れており, 時間不変モデルは自殺関連行動・自殺未遂の予測に優れていたことが示唆された。 提案手法は臨床診断面接と統合して自殺リスク評価を改善することができる。

Suicide is the 10th leading cause of death in the U.S (1999-2019). However, predicting when someone will attempt suicide has been nearly impossible. In the modern world, many individuals suffering from mental illness seek emotional support and advice on well-known and easily-accessible social media platforms such as Reddit. While prior artificial intelligence research has demonstrated the ability to extract valuable information from social media on suicidal thoughts and behaviors, these efforts have not considered both severity and temporality of risk. The insights made possible by access to such data have enormous clinical potential - most dramatically envisioned as a trigger to employ timely and targeted interventions (i.e., voluntary and involuntary psychiatric hospitalization) to save lives. In this work, we address this knowledge gap by developing deep learning algorithms to assess suicide risk in terms of severity and temporality from Reddit data based on the Columbia Suicide Severity Rating Scale (C-SSRS). In particular, we employ two deep learning approaches: time-variant and time-invariant modeling, for user-level suicide risk assessment, and evaluate their performance against a clinician-adjudicate d gold standard Reddit corpus annotated based on the C-SSRS. Our results suggest that the time-variant approach outperforms the time-invariant method in the assessment of suicide-related ideations and supportive behaviors (AUC:0.78), while the time-invariant model performed better in predicting suicide-related behaviors and suicide attempt (AUC:0.64). The proposed approach can be integrated with clinical diagnostic interviews for improving suicide risk assessments.
翻訳日:2021-04-12 19:56:47 公開日:2021-04-09
# (参考訳) 機械学習モデルにおける個別説明:実践者に対する調査 [全文訳有]

Individual Explanations in MachineLearning Models: A Survey for Practitioners ( http://arxiv.org/abs/2104.04144v1 )

ライセンス: CC BY 4.0
Alfredo Carrillo, Luis F. Cant\'u and Alejandro Noriega(参考訳) 近年、社会的関連性の高い領域における決定に影響を与える洗練された統計モデルの利用が増えている。 これらのモデルはしばしば組織の正確性と効率を大幅に改善するが、多くの政府、機関、企業は、その成果を人間の解釈可能な方法で説明することが難しいため、採用に消極的である。 したがって、これらのモデルは、内部メカニズムが人間の監査に不透明であるという意味で、しばしばブラックボックスと見なされる。 実世界のアプリケーションでは、特に、刑事司法、信用スコアの推定、保険リスク、健康リスクなど、決定に敏感な影響がある領域において、モデル解釈が望まれる。 近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。 この調査は、機械学習における個々のインスタンスを説明する特定の問題に対処するための最先端技術を形成する最も重要で斬新な手法についてレビューする。 データサイエンスと機械学習の実践者が、問題領域に適切な方法を探すためのガイドとなる簡潔なレビューを提供することを目指している。

In recent years, the use of sophisticated statistical models that influence decisions in domains of high societal relevance is on the rise. Although these models can often bring substantial improvements in the accuracy and efficiency of organizations, many governments, institutions, and companies are reluctant to their adoption as their output is often difficult to explain in human-interpretable ways. Hence, these models are often regarded as black-boxes, in the sense that their internal mechanisms can be opaque to human audit. In real-world applications, particularly in domains where decisions can have a sensitive impact--e.g., criminal justice, estimating credit scores, insurance risk, health risks, etc.--model interpretability is desired. Recently, the academic literature has proposed a substantial amount of methods for providing interpretable explanations to machine learning models. This survey reviews the most relevant and novel methods that form the state-of-the-art for addressing the particular problem of explaining individual instances in machine learning. It seeks to provide a succinct review that can guide data science and machine learning practitioners in the search for appropriate methods to their problem domain.
翻訳日:2021-04-12 19:32:40 公開日:2021-04-09
# (参考訳) 機械学習モデルにおける個人説明:貧困推定を事例として [全文訳有]

Individual Explanations in Machine Learning Models: A Case Study on Poverty Estimation ( http://arxiv.org/abs/2104.04148v1 )

ライセンス: CC BY 4.0
Alfredo Carrillo, Luis F. Cant\'u, Luis Tejerina and Alejandro Noriega(参考訳) 機械学習の手法は、決定が人間の生活に影響を与える繊細な社会状況にますます適用されている。 したがって、モデルの予測を簡単に解釈可能な説明を提供する能力を構築する必要がある。 近年の学術文献では、多くの説明方法が提案されている。 残念ながら、私たちの知る限りでは、機械学習の実践者が現実のシナリオに適用する際に直面する課題についてはほとんど文書化されていません。 例えば、機能工学のような典型的な手順は、いくつかの方法論をもはや適用できなくなる。 本研究の主な目的は2つある。 まず、これらの課題とそれらが関連する新しい説明方法の使用に与える影響を明らかにする。 第二に、関連するアプリケーションドメインで説明手法を実装する際に直面するような課題を緩和する一連の戦略を示す。

Machine learning methods are being increasingly applied in sensitive societal contexts, where decisions impact human lives. Hence it has become necessary to build capabilities for providing easily-interpretable explanations of models' predictions. Recently in academic literature, a vast number of explanations methods have been proposed. Unfortunately, to our knowledge, little has been documented about the challenges machine learning practitioners most often face when applying them in real-world scenarios. For example, a typical procedure such as feature engineering can make some methodologies no longer applicable. The present case study has two main objectives. First, to expose these challenges and how they affect the use of relevant and novel explanations methods. And second, to present a set of strategies that mitigate such challenges, as faced when implementing explanation methods in a relevant application domain -- poverty estimation and its use for prioritizing access to social policies.
翻訳日:2021-04-12 19:20:00 公開日:2021-04-09
# (参考訳) 多眼視の自己スーパービジョンによるステレオマッチング [全文訳有]

Stereo Matching by Self-supervision of Multiscopic Vision ( http://arxiv.org/abs/2104.04170v1 )

ライセンス: CC BY 4.0
Weihao Yuan, Yazhan Zhang, Bingkun Wu, Siyu Zhu, Ping Tan, Michael Yu Wang, Qifeng Chen(参考訳) 深さ推定のための自己教師あり学習は教師あり学習よりもいくつかの利点がある。 地底深度の不要な利点、オンラインの微調整、無制限のデータによるより良い一般化により、研究者は自己管理的なソリューションを求めることができる。 本研究では,カメラ位置で撮影した複数の画像を利用したステレオマッチングのための自己教師型フレームワークを提案する。 地中深度情報のないエンドツーエンドマップの学習において, クロス測光損失, 不確実性を考慮した相互スーパービジョン損失, 新たな滑らかさ損失を導入し, ネットワークを最適化する。 このフレームワークをトレーニングするために、3Dエンジンでレンダリングされた合成画像と、実際のカメラでキャプチャされた実画像からなる新しいマルチスコープデータセットを構築した。 合成画像のみをトレーニングした後、我々のネットワークは見知らぬ屋外シーンでよく機能する。 実験の結果,本モデルでは,従来のKITTIデータセットの教師なし手法よりも精度の良い不均一性マップが得られた。 私たちのソースコードとデータセットは公開され、さらに多くの結果がサプリメントで提供されます。

Self-supervised learning for depth estimation possesses several advantages over supervised learning. The benefits of no need for ground-truth depth, online fine-tuning, and better generalization with unlimited data attract researchers to seek self-supervised solutions. In this work, we propose a new self-supervised framework for stereo matching utilizing multiple images captured at aligned camera positions. A cross photometric loss, an uncertainty-aware mutual-supervision loss, and a new smoothness loss are introduced to optimize the network in learning disparity maps end-to-end without ground-truth depth information. To train this framework, we build a new multiscopic dataset consisting of synthetic images rendered by 3D engines and real images captured by real cameras. After being trained with only the synthetic images, our network can perform well in unseen outdoor scenes. Our experiment shows that our model obtains better disparity maps than previous unsupervised methods on the KITTI dataset and is comparable to supervised methods when generalized to unseen data. Our source code and dataset will be made public, and more results are provided in the supplement.
翻訳日:2021-04-12 19:04:44 公開日:2021-04-09
# (参考訳) モデルベース強化学習のための仮想遷移の重み付けのための学習 [全文訳有]

Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2104.04174v1 )

ライセンス: CC BY 4.0
Wenzhen Huang, Qiyue Yin, Junge Zhang, Kaiqi Huang(参考訳) モデルベース強化学習(RL)は、学習力学モデルによって生成された想像軌道を用いて、モデルフリーRLよりも効率的なサンプルである。 モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。 このような問題を緩和するため, 虚構遷移を適応的に再重み付けし, 未生成軌道の負の効果を低減することを提案する。 より具体的には、実際のサンプルで計算された損失の変化を、アクション値とポリシー関数のトレーニングに使用する際に計算し、虚数遷移の効果を評価する。 この評価基準に基づき、よく設計されたメタグラディエントアルゴリズムにより、各虚構遷移を再重み付けするアイデアを構築する。 実験の結果,提案手法は複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムよりも優れていた。 変化する重みの可視化は、再重み付けスキームを利用する必要性をさらに検証する。

Model-based reinforcement learning (RL) is more sample efficient than model-free RL by using imaginary trajectories generated by the learned dynamics model. When the model is inaccurate or biased, imaginary trajectories may be deleterious for training the action-value and policy functions. To alleviate such problem, this paper proposes to adaptively reweight the imaginary transitions, so as to reduce the negative effects of poorly generated trajectories. More specifically, we evaluate the effect of an imaginary transition by calculating the change of the loss computed on the real samples when we use the transition to train the action-value and policy functions. Based on this evaluation criterion, we construct the idea of reweighting each imaginary transition by a well-designed meta-gradient algorithm. Extensive experimental results demonstrate that our method outperforms state-of-the-art model-based and model-free RL algorithms on multiple tasks. Visualization of our changing weights further validates the necessity of utilizing reweight scheme.
翻訳日:2021-04-12 19:02:52 公開日:2021-04-09
# (参考訳) inode: エンドツーエンドのデータ探索システムの構築 [extended vision] [全文訳有]

INODE: Building an End-to-End Data Exploration System in Practice [Extended Vision] ( http://arxiv.org/abs/2104.04194v1 )

ライセンス: CC BY 4.0
Sihem Amer-Yahia (2), Georgia Koutrika (1), Frederic Bastian (7), Theofilos Belmpas (1), Martin Braschler (9), Ursin Brunner (9), Diego Calvanese (8), Maximilian Fabricius (5), Orest Gkini (1), Catherine Kosten (9), Davide Lanti (8), Antonis Litke (6), Hendrik L\"ucke-Tieke (3), Francesco Alessandro Massucci (6), Tarcisio Mendes de Farias (7), Alessandro Mosca (8), Francesco Multari (6), Nikolaos Papadakis (4), Dimitris Papadopoulos (4), Yogendra Patil (2), Aur\'elien Personnaz (2), Guillem Rull (6), Ana Sima (7), Ellery Smith (9), Dimitrios Skoutas (1), Srividya Subramanian (5), Guohui Xiao (8), Kurt Stockinger (9) ((1) Athena Research Center, Greece, (2) CNRS, University Grenoble Alpes, France, (3) Fraunhofer IGD, Germany, (4) Infili, Greece, (5) Max Planck Institute, Germany, (6) SIRIS Academic, Spain, (7) SIB Swiss Institute of Bioinformatics, Switzerland, (8) Free University of Bozen-Bolzano, Italy, (9) ZHAW Zurich University of Applied Sciences, Switzerland)(参考訳) 本格的なデータ探索システムは、異なるアクセスモダリティと、データディスカバリとデータリンクの両方に対してリアクティブで予測可能な、探索プロセスのユーザを導く強力な概念を組み合わせる必要がある。 このようなシステムは、私たちのコミュニティにとって、異なるドメインとデータサイエンスの専門知識を持つユーザに届ける本当の機会です。 我々は、エンドツーエンドのデータ探索システムであるinodeを紹介し、一方、機械学習と、他方で、データ管理(dm)の目的のためのセマンティクスを活用する。 私たちのビジョンは、オープンデータセットへの広範なアクセスを提供する古典的な統一的で包括的なプラットフォームを開発することです。 inodeは、(a)データモデリングとリンク、(b)自然言語を使った統合クエリ処理、(c)ガイダンス、および(d)視覚化によるデータ探索において持続可能なサービスを提供する。 我々は,我々のシステムが,より大きな科学コミュニティから一般市民まで,幅広いユーザに対してユニークなアクセス性を持つことを実証する。 最後に、この研究がDMの新しい研究機会の道のりをいかに拓くかを簡単に説明する。

A full-fledged data exploration system must combine different access modalities with a powerful concept of guiding the user in the exploration process, by being reactive and anticipative both for data discovery and for data linking. Such systems are a real opportunity for our community to cater to users with different domain and data science expertise. We introduce INODE -- an end-to-end data exploration system -- that leverages, on the one hand, Machine Learning and, on the other hand, semantics for the purpose of Data Management (DM). Our vision is to develop a classic unified, comprehensive platform that provides extensive access to open datasets, and we demonstrate it in three significant use cases in the fields of Cancer Biomarker Reearch, Research and Innovation Policy Making, and Astrophysics. INODE offers sustainable services in (a) data modeling and linking, (b) integrated query processing using natural language, (c) guidance, and (d) data exploration through visualization, thus facilitating the user in discovering new insights. We demonstrate that our system is uniquely accessible to a wide range of users from larger scientific communities to the public. Finally, we briefly illustrate how this work paves the way for new research opportunities in DM.
翻訳日:2021-04-12 18:48:20 公開日:2021-04-09
# (参考訳) taylormade vdd:非凸円筒金属オブジェクトの高混合低体積生成のためのドメイン適応視覚欠陥検出器 [全文訳有]

TaylorMade VDD: Domain-adaptive Visual Defect Detector for High-mix Low-volume Production of Non-convex Cylindrical Metal Objects ( http://arxiv.org/abs/2104.04203v1 )

ライセンス: CC BY 4.0
Kyosuke Tashiro, Koji Takeda, Kanji Tanaka, Tomoe Hiroki(参考訳) 高圧筒状配管継手部(VDD-HPPPs)などの非凸金属オブジェクトの高混合低体積化のための視覚欠陥検出(VDD)は、ドメインの微妙な違い(例えば、金属オブジェクト、撮像装置、視点、照明)が個々の金属オブジェクトの反射特性に大きく影響するため、困難である。 本稿では,新しいドメインに自動的に適応可能なカスタマイズ可能なVDDフレームワークを導入することで,この問題に対処する。 具体的には、ネットワークアーキテクチャを強化学習により探索するディープオブジェクト検出ネットワークにおけるネットワークアーキテクチャ探索(NAS)問題として、この適応タスクを定式化する。 本稿では,VDD-HPPPsタスクをファクトリケーススタディとして用いたフレームワークの有効性を示す。 実験結果から,提案手法は,非凸HPPPに対して異なるトレーニング/テスト領域を持つデータに対して,特に領域シフトの影響を受けやすいベースライン法と比較して,バー検出精度が高いことがわかった。

Visual defect detection (VDD) for high-mix low-volume production of non-convex metal objects, such as high-pressure cylindrical piping joint parts (VDD-HPPPs), is challenging because subtle difference in domain (e.g., metal objects, imaging device, viewpoints, lighting) significantly affects the specular reflection characteristics of individual metal object types. In this paper, we address this issue by introducing a tailor-made VDD framework that can be automatically adapted to a new domain. Specifically, we formulate this adaptation task as the problem of network architecture search (NAS) on a deep object-detection network, in which the network architecture is searched via reinforcement learning. We demonstrate the effectiveness of the proposed framework using the VDD-HPPPs task as a factory case study. Experimental results show that the proposed method achieved higher burr detection accuracy compared with the baseline method for data with different training/test domains for the non-convex HPPPs, which are particularly affected by domain shifts.
翻訳日:2021-04-12 18:32:40 公開日:2021-04-09
# (参考訳) 語彙推論を促進するための外部知識の導入 [全文訳有]

Incorporating External Knowledge to Enhance Tabular Reasoning ( http://arxiv.org/abs/2104.04243v1 )

ライセンス: CC BY 4.0
J. Neeraja, Vivek Gupta, Vivek Srikumar(参考訳) 表形式の情報に関する推論は、学習済みの文脈化されたテキストの埋め込みに依存する現代のNLPアプローチに固有の課題をもたらす。 本稿では,これらの課題を,表型自然言語推論の問題を通して考察する。 本稿では,このタスクのモデルに情報がどのように提示されるか,容易かつ効果的な修正を提案する。 本研究では,これらの手法が表層推論性能を大幅に向上させることを示す。

Reasoning about tabular information presents unique challenges to modern NLP approaches which largely rely on pre-trained contextualized embeddings of text. In this paper, we study these challenges through the problem of tabular natural language inference. We propose easy and effective modifications to how information is presented to a model for this task. We show via systematic experiments that these strategies substantially improve tabular inference performance.
翻訳日:2021-04-12 18:25:18 公開日:2021-04-09
# (参考訳) Batch Monte Carlo Tree Search [全文訳有]

Batch Monte Carlo Tree Search ( http://arxiv.org/abs/2104.04278v1 )

ライセンス: CC BY 4.0
Tristan Cazenave(参考訳) 一連の状態におけるディープニューラルネットワークによる推論は、別の状態に対する推論よりもGPUの方がはるかに高速である。 この性質に基づいて,バッチ推論を用いたモンテカルロ木探索アルゴリズムを提案する。 探索木や転置テーブルを使う代わりに、同じアルゴリズムで両方を使うように提案する。 変換テーブルは推論の結果を含み、探索木はモンテカルロ木探索の統計を含む。 また、検索を改善する複数のヒューリスティック($\mu$ FPU, the Virtual Mean, the Last Iteration, the Second Move Heuristics)を分析することを提案する。 それらはMobileNetニューラルネットワークを使用してGoのゲームで評価される。

Making inferences with a deep neural network on a batch of states is much faster with a GPU than making inferences on one state after another. We build on this property to propose Monte Carlo Tree Search algorithms using batched inferences. Instead of using either a search tree or a transposition table we propose to use both in the same algorithm. The transposition table contains the results of the inferences while the search tree contains the statistics of Monte Carlo Tree Search. We also propose to analyze multiple heuristics that improve the search: the $\mu$ FPU, the Virtual Mean, the Last Iteration and the Second Move heuristics. They are evaluated for the game of Go using a MobileNet neural network.
翻訳日:2021-04-12 18:10:55 公開日:2021-04-09
# (参考訳) 機械学習モデル解釈のための特徴空間変換 [全文訳有]

Transforming Feature Space to Interpret Machine Learning Models ( http://arxiv.org/abs/2104.04295v1 )

ライセンス: CC BY-SA 4.0
Alexander Brenning(参考訳) 機械学習モデルを解釈するためのモデルに依存しないツールは、高次元の特徴空間における強い依存的特徴の結合効果を要約するのに苦労する。 この貢献は、特徴空間変換のレンズを通して機械学習モデルを解釈する新しいアプローチを提案する。 非条件と、部分的依存プロット、蓄積された局所効果プロット、置換特徴重要評価を含む条件付きポストホック診断ツールの強化に使用できる。 このアプローチは非線形変換にも適用できるが、主成分分析(PCA)や部分直交化技術を含む線形変換に着目する。 構造化PCAとパスに沿った診断は、ドメイン知識を表現する機会を提供する。 新しいアプローチは、既存の説明可能な機械学習パッケージと組み合わせることができるRパッケージ `wiml` に実装されている。 46の特徴を有するリモートセンシング土地被覆分類のケーススタディを用いて、ドメインエキスパートによるモデル解釈のための提案手法の可能性を示す。

Model-agnostic tools for interpreting machine-learning models struggle to summarize the joint effects of strongly dependent features in high-dimensional feature spaces, which play an important role in pattern recognition, for example in remote sensing of landcover. This contribution proposes a novel approach that interprets machine-learning models through the lens of feature space transformations. It can be used to enhance unconditional as well as conditional post-hoc diagnostic tools including partial dependence plots, accumulated local effects plots, or permutation feature importance assessments. While the approach can also be applied to nonlinear transformations, we focus on linear ones, including principal component analysis (PCA) and a partial orthogonalization technique. Structured PCA and diagnostics along paths offer opportunities for representing domain knowledge. The new approach is implemented in the R package `wiml`, which can be combined with existing explainable machine-learning packages. A case study on remote-sensing landcover classification with 46 features is used to demonstrate the potential of the proposed approach for model interpretation by domain experts.
翻訳日:2021-04-12 17:57:06 公開日:2021-04-09
# (参考訳) 作物型セマンティックセグメンテーションのための文脈自己コントラスト事前学習 [全文訳有]

Context-self contrastive pretraining for crop type semantic segmentation ( http://arxiv.org/abs/2104.04310v1 )

ライセンス: CC BY 4.0
Michail Tarasiou, Riza Alp Guler, Stefanos Zafeiriou(参考訳) 本稿では,特に密な分類タスクに適したコントラスト学習に基づく,教師付き事前学習方式を提案する。 提案するコンテキスト自己コントラスト損失(cscl)は、トレーニングサンプル内の各場所とそのローカルコンテキスト間の類似度メトリックを用いて意味境界をポップアップする埋め込み空間を学習する。 衛星画像からの作物型セマンティックセマンティックセグメンテーションでは、サテライト境界における性能が重要なボトルネックとなり、CSCLがその問題の根本原因に取り組む方法を説明し、このタスクにおける最先端のパフォーマンスを改善する。 さらに、Sentinel-2(S2)衛星ミッションの画像を用いて、我々の知る限り、作物のタイプとパーセルのアイデンティティによって高度にアノテートされた衛星画像のデータセットをコンパイルし、データ生成パイプラインと共に公開する。 このデータを用いて、CSCLは最小限の事前学習でも、すべてのベースラインを改善し、より粒度の細かい作物のクラスを得るための超解像でのセマンティックセグメンテーションのプロセスを示す。 提案手法は,2次元および3次元ボリューム画像における意味的セグメンテーションの課題に基づいて,競合ベースラインにおける一貫した性能向上を示す。

In this paper we propose a fully-supervised pretraining scheme based on contrastive learning particularly tailored to dense classification tasks. The proposed Context-Self Contrastive Loss (CSCL) learns an embedding space that makes semantic boundaries pop-up by use of a similarity metric between every location in an training sample and its local context. For crop type semantic segmentation from satellite images we find performance at parcel boundaries to be a critical bottleneck and explain how CSCL tackles the underlying cause of that problem, improving the state-of-the-art performance in this task. Additionally, using images from the Sentinel-2 (S2) satellite missions we compile the largest, to our knowledge, dataset of satellite image timeseries densely annotated by crop type and parcel identities, which we make publicly available together with the data generation pipeline. Using that data we find CSCL, even with minimal pretraining, to improve all respective baselines and present a process for semantic segmentation at super-resolution for obtaining crop classes at a more granular level. The proposed method is further validated on the task of semantic segmentation on 2D and 3D volumetric images showing consistent performance improvements upon competitive baselines.
翻訳日:2021-04-12 17:45:37 公開日:2021-04-09
# (参考訳) 信頼度推定を用いた雑音ラベルNER [全文訳有]

Noisy-Labeled NER with Confidence Estimation ( http://arxiv.org/abs/2104.04318v1 )

ライセンス: CC BY 4.0
Kun Liu, Yao Fu, Chuanqi Tan, Mosha Chen, Ningyu Zhang, Songfang Huang, Sheng Gao(参考訳) 深層学習における最近の研究は、名前付き実体認識(NER)において大きな進歩を示している。 既存の作品の多くはクリーンなデータアノテーションを前提としているが、現実世界のシナリオにおける基本的な課題は、様々なソース(例えば、疑似、弱、遠方のアノテーション)からの大量のノイズである。 本研究は,信頼度を校正したノイズラベル設定下でnerを学習する。 ノイズラベルとクリーンラベルの異なるトレーニングダイナミクスに関する経験的観察に基づいて,局所的およびグローバル的独立性仮定に基づく信頼度スコアの推定手法を提案する。 信頼性の低いラベルをCRFモデルで部分的にマージする。 さらに,エンティティラベルの構造に基づく信頼度スコアの校正手法を提案する。 当社のアプローチを,パフォーマンス向上のための自己学習フレームワークに統合しています。 4言語と遠隔ラベル付き設定を用いた一般雑音環境実験により,提案手法の有効性が示された。 私たちのコードはhttps://github.com/l iukun95/Noisy-NER-Co nfidence-Estimationにある。

Recent studies in deep learning have shown significant progress in named entity recognition (NER). Most existing works assume clean data annotation, yet a fundamental challenge in real-world scenarios is the large amount of noise from a variety of sources (e.g., pseudo, weak, or distant annotations). This work studies NER under a noisy labeled setting with calibrated confidence estimation. Based on empirical observations of different training dynamics of noisy and clean labels, we propose strategies for estimating confidence scores based on local and global independence assumptions. We partially marginalize out labels of low confidence with a CRF model. We further propose a calibration method for confidence scores based on the structure of entity labels. We integrate our approach into a self-training framework for boosting performance. Experiments in general noisy settings with four languages and distantly labeled settings demonstrate the effectiveness of our method. Our code can be found at https://github.com/l iukun95/Noisy-NER-Co nfidence-Estimation
翻訳日:2021-04-12 17:26:59 公開日:2021-04-09
# (参考訳) コントラスト学習と画像再構成とアテンション重み付きプールの併用によるきめ細かい視覚表現に向けて [全文訳有]

Towards Fine-grained Visual Representations by Combining Contrastive Learning with Image Reconstruction and Attention-weighted Pooling ( http://arxiv.org/abs/2104.04323v1 )

ライセンス: CC BY 4.0
Jonas Dippel, Steffen Dippel, Johannes H\"ohne(参考訳) 本稿では,コントラストと自己再構成損失を併用して画像表現を最適化する自己教師型学習アルゴリズムConRecを提案する。 最先端のコントラスト学習手法(例)を紹介する。 SimCLR)は、表現の細かい視覚的特徴を捉えるのに欠点がある。 ConRecは,(1)自己再構成タスク,(2)コントラスト学習タスク内の注意機構を追加することで,SimCLRフレームワークを拡張した。 これは2つの頭を持つ単純なエンコーダ・デコーダアーキテクチャを適用することで実現される。 両拡張は,細かな視覚的特徴を持つ画像に対するベクトル表現の改善に寄与することを示す。 これらの概念を組み合わせることで、ConRecはSimCLRとSimCLRを、きめ細かい分類データセットのアテンションポーリングで上回ります。

This paper presents Contrastive Reconstruction, ConRec - a self-supervised learning algorithm that obtains image representations by jointly optimizing a contrastive and a self-reconstruction loss. We showcase that state-of-the-art contrastive learning methods (e.g. SimCLR) have shortcomings to capture fine-grained visual features in their representations. ConRec extends the SimCLR framework by adding (1) a self-reconstruction task and (2) an attention mechanism within the contrastive learning task. This is accomplished by applying a simple encoder-decoder architecture with two heads. We show that both extensions contribute towards an improved vector representation for images with fine-grained visual features. Combining those concepts, ConRec outperforms SimCLR and SimCLR with Attention-Pooling on fine-grained classification datasets.
翻訳日:2021-04-12 17:16:17 公開日:2021-04-09
# (参考訳) CropGym: 作物管理のための強化学習環境 [全文訳有]

CropGym: a Reinforcement Learning Environment for Crop Management ( http://arxiv.org/abs/2104.04326v1 )

ライセンス: CC BY 4.0
Hiske Overweg, Herman N.C. Berghuijs, Ioannis N. Athanasiadis(参考訳) 窒素肥料は環境に有害な影響を及ぼし、肥料管理戦略を最適化することで削減することができる。 強化学習エージェントがプロセスベースの作物生育モデルを用いて受精管理方針を学習し、環境影響を低減した政策を識別できる、openaiジム環境を実現する。 我々の環境において, 近似政策最適化アルゴリズムを用いて訓練したエージェントは, 提案する他のベースラインエージェントよりも環境への影響を低減することに成功している。

Nitrogen fertilizers have a detrimental effect on the environment, which can be reduced by optimizing fertilizer management strategies. We implement an OpenAI Gym environment where a reinforcement learning agent can learn fertilization management policies using process-based crop growth models and identify policies with reduced environmental impact. In our environment, an agent trained with the Proximal Policy Optimization algorithm is more successful at reducing environmental impacts than the other baseline agents we present.
翻訳日:2021-04-12 17:05:10 公開日:2021-04-09
# (参考訳) グラフvaeとグラフトランスフォーマの分子グラフ生成への応用 [全文訳有]

A Graph VAE and Graph Transformer Approach to Generating Molecular Graphs ( http://arxiv.org/abs/2104.04345v1 )

ライセンス: CC BY 4.0
Joshua Mitton, Hans M. Senn, Klaas Wynne, Roderick Murray-Smith(参考訳) 本稿では,グラフの畳み込み層とグラフプーリング層をフル活用し,グラフ上で直接動作する変分オートエンコーダと変分トランスフォーマーモデルの組み合わせを提案する。 トランスモデルは新しいノード符号化層を実装し、変圧器で典型的に使用される位置符号化を置き換え、グラフ上で動く位置情報を持たない変圧器を作成し、隣接するノード特性をエッジ生成プロセスに符号化する。 提案モデルでは,エッジ機能を備えたグラフ上でのグラフ生成作業に基づいて構築し,グラフ内のノード数によるスケーラビリティの向上を実現する。 さらに,このモデルは,潜在変数とグラフプロパティのマッピングを通じてグラフ特性を表現する,不連続で解釈可能な潜在空間を学習することができる。 実験では、生成ノードとエッジの両方の重要性を考慮して、分子生成のベンチマークタスクを選択しました。 QM9データセットを用いて、有効な、ユニークな、新しい分子を生成するタスクにおいて、我々のモデルが強く機能することを示した。 最後に,分子特性によって制御される分子を生成することによってモデルが解釈可能であることを示す。

We propose a combination of a variational autoencoder and a transformer based model which fully utilises graph convolutional and graph pooling layers to operate directly on graphs. The transformer model implements a novel node encoding layer, replacing the position encoding typically used in transformers, to create a transformer with no position information that operates on graphs, encoding adjacent node properties into the edge generation process. The proposed model builds on graph generative work operating on graphs with edge features, creating a model that offers improved scalability with the number of nodes in a graph. In addition, our model is capable of learning a disentangled, interpretable latent space that represents graph properties through a mapping between latent variables and graph properties. In experiments we chose a benchmark task of molecular generation, given the importance of both generated node and edge features. Using the QM9 dataset we demonstrate that our model performs strongly across the task of generating valid, unique and novel molecules. Finally, we demonstrate that the model is interpretable by generating molecules controlled by molecular properties, and we then analyse and visualise the learned latent representation.
翻訳日:2021-04-12 16:58:30 公開日:2021-04-09
# (参考訳) 火星のマシンビジョンでロックハンティング [全文訳有]

Rock Hunting With Martian Machine Vision ( http://arxiv.org/abs/2104.04359v1 )

ライセンス: CC BY-SA 4.0
David Noever, Samantha E. Miller Noever(参考訳) Mars Perseveranceローバーは、ナビゲーションとハザード回避にコンピュータビジョンを適用している。 オンボードオブジェクト認識の課題は、低消費電力でカスタマイズされたトレーニングの必要性を強調している。 火星岩石の分類と検出のための深層学習法について検討した。 2値分類(rock vs. rover)の精度は97%以上である。 我々は、岩を数えながら位置決めされた境界箱をレンダリングする検出器を微調整する。 これらのモデルがマイクロコントローラ上で動作するために、ニューラルネットワークの重みを縮小して定量化し、より高速なフレームレート(1フレーム/秒)で精度が低いロックハンター(37%)を示す。

The Mars Perseverance rover applies computer vision for navigation and hazard avoidance. The challenge to do onboard object recognition highlights the need for low-power, customized training, often including low-contrast backgrounds. We investigate deep learning methods for the classification and detection of Martian rocks. We report greater than 97% accuracy for binary classifications (rock vs. rover). We fine-tune a detector to render geo-located bounding boxes while counting rocks. For these models to run on microcontrollers, we shrink and quantize the neural networks' weights and demonstrate a low-power rock hunter with faster frame rates (1 frame per second) but lower accuracy (37%).
翻訳日:2021-04-12 16:49:54 公開日:2021-04-09
# (参考訳) 高速デリバティブ自由最適化のための学習サンプリングポリシー [全文訳有]

Learning Sampling Policy for Faster Derivative Free Optimization ( http://arxiv.org/abs/2104.04405v1 )

ライセンス: CC BY 4.0
Zhou Zhai, Bin Gu, and Heng Huang(参考訳) 2つの関数評価によってのみ勾配を推定するゼロ階数法(ZO, derivative-free)は、機械学習コミュニティに広く応用されているため、近年注目を集めている。 2つの関数の評価は通常、標準ガウス分布からランダムな摂動で生成される。 ZO法を高速化するために、確率的ZO勾配の分散化や適応的なガウス分布の学習など多くの手法が最近提案され、ZO勾配の分散の低減が図られている。 しかし、ZO法の収束をさらに改善する空間が存在するかどうかはまだ未解決の問題である。 そこで本研究では,ZO最適化における摂動をランダムサンプリングの代わりに生成するためのサンプリングポリシを学習する,新しい強化学習ベースのZOアルゴリズムを提案する。 最適ポリシーを見つけるために、2つのニューラルネットワーク関数近似器を用いたディープ決定性ポリシー勾配 (DDPG) と呼ばれるアクタークリティカルなRLアルゴリズムを採用する。 学習されたサンプリングポリシーはパラメータ空間の摂動点をガイドし、より正確なZO勾配を推定する。 我々の知る限り、ZO-RLは既存の手法と平行なZO最適化のための強化学習を用いてサンプリングポリシーを学習する最初のアルゴリズムである。 特に、我々のZO-RLは、アルゴリズムをさらに高速化できる既存のZOアルゴリズムと組み合わせることができる。 異なるZO最適化問題に対する実験結果から,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示された。

Zeroth-order (ZO, also known as derivative-free) methods, which estimate the gradient only by two function evaluations, have attracted much attention recently because of its broad applications in machine learning community. The two function evaluations are normally generated with random perturbations from standard Gaussian distribution. To speed up ZO methods, many methods, such as variance reduced stochastic ZO gradients and learning an adaptive Gaussian distribution, have recently been proposed to reduce the variances of ZO gradients. However, it is still an open problem whether there is a space to further improve the convergence of ZO methods. To explore this problem, in this paper, we propose a new reinforcement learning based ZO algorithm (ZO-RL) with learning the sampling policy for generating the perturbations in ZO optimization instead of using random sampling. To find the optimal policy, an actor-critic RL algorithm called deep deterministic policy gradient (DDPG) with two neural network function approximators is adopted. The learned sampling policy guides the perturbed points in the parameter space to estimate a more accurate ZO gradient. To the best of our knowledge, our ZO-RL is the first algorithm to learn the sampling policy using reinforcement learning for ZO optimization which is parallel to the existing methods. Especially, our ZO-RL can be combined with existing ZO algorithms that could further accelerate the algorithms. Experimental results for different ZO optimization problems show that our ZO-RL algorithm can effectively reduce the variances of ZO gradient by learning a sampling policy, and converge faster than existing ZO algorithms in different scenarios.
翻訳日:2021-04-12 16:43:25 公開日:2021-04-09
# (参考訳) 混乱を通した教師なし授業実践学習 [全文訳有]

Unsupervised Class-Incremental Learning Through Confusion ( http://arxiv.org/abs/2104.04450v1 )

ライセンス: CC BY 4.0
Shivam Khare, Kun Cao, James Rehg(参考訳) 連続学習に関する多くの研究は、破滅的な忘れを緩和する有望な結果を示しているが、彼らは教師付きトレーニングに依存している。 ラベルに依存しないインクリメンタルな設定でうまく学習するには、学習クラスと新しいクラスを区別して、トレーニングのためのサンプルを適切に含む必要がある。 入力データを新しいクラスとして訓練することによるネットワークの混乱を利用した新規性検出手法を提案する。 この検出方法中にクラス不均衡を組み込むことで性能が大幅に向上することがわかった。 提案手法の有効性は,MNIST,SVHN,CIFAR-10 ,CIFAR-100,CRIBの3種類の画像分類ベンチマークで実証された。

While many works on Continual Learning have shown promising results for mitigating catastrophic forgetting, they have relied on supervised training. To successfully learn in a label-agnostic incremental setting, a model must distinguish between learned and novel classes to properly include samples for training. We introduce a novelty detection method that leverages network confusion caused by training incoming data as a new class. We found that incorporating a class-imbalance during this detection method substantially enhances performance. The effectiveness of our approach is demonstrated across a set of image classification benchmarks: MNIST, SVHN, CIFAR-10, CIFAR-100, and CRIB.
翻訳日:2021-04-12 16:29:15 公開日:2021-04-09
# (参考訳) 地域コントラストを用いたブートストラップセマンティックセマンティックセグメンテーション [全文訳有]

Bootstrapping Semantic Segmentation with Regional Contrast ( http://arxiv.org/abs/2104.04465v1 )

ライセンス: CC BY 4.0
Shikun Liu, Shuaifeng Zhi, Edward Johns, Andrew J. Davison(参考訳) 本稿では,セマンティックセグメンテーションの学習を支援するため,地域レベルで設計されたコントラスト学習フレームワークrecoを提案する。 ReCoは、半教師付きまたは教師付きピクセルレベルのコントラスト学習を、最小限のメモリフットプリントで、ハードネガティブピクセルのスパースセットで実行する。 ReCoは実装が容易で、既製のセグメンテーションネットワーク上に構築されており、半教師付きセグメンテーションと教師付きセグメンテーションの両方のパフォーマンスを一貫して改善し、スムーズなセグメンテーション境界とより高速な収束を実現している。 最も強い効果は、ほとんどラベルのない半教師付き学習である。 ReCoでは、CityScapesデータセットで50% mIoUを達成していますが、ラベル付きイメージは20しか必要ありません。 コードは \url{https://github.com/l orenmt/reco} で入手できる。

We present ReCo, a contrastive learning framework designed at a regional level to assist learning in semantic segmentation. ReCo performs semi-supervised or supervised pixel-level contrastive learning on a sparse set of hard negative pixels, with minimal additional memory footprint. ReCo is easy to implement, being built on top of off-the-shelf segmentation networks, and consistently improves performance in both semi-supervised and supervised semantic segmentation methods, achieving smoother segmentation boundaries and faster convergence. The strongest effect is in semi-supervised learning with very few labels. With ReCo, we achieve 50% mIoU in the CityScapes dataset, whilst requiring only 20 labelled images, improving by 10% relative to the previous state-of-the-art. Code is available at \url{https://github.com/l orenmt/reco}.
翻訳日:2021-04-12 16:17:34 公開日:2021-04-09
# (参考訳) 答えは? 会話談話における主観的行為と意図 [全文訳有]

Did they answer? Subjective acts and intents in conversational discourse ( http://arxiv.org/abs/2104.04470v1 )

ライセンス: CC BY 4.0
Elisa Ferracane, Greg Durrett, Junyi Jessy Li and Katrin Erk(参考訳) 談話信号はしばしば暗黙的であり、必要な推論を引き出すためにインタプリタに委ねられる。 同時に、談話は社会的文脈に埋め込まれており、解釈を解く際に解釈者が自身の仮定や信念を適用し、複数の有効な解釈をもたらす。 しかし、現在の談話データとフレームワークは社会的な側面を無視し、一つの根拠だけを期待している。 本稿では,英語会話の多元的・主観的解釈を主観的に表現した最初の談話データセットについて述べる。 我々はデータセットを注意深く分析し,(1)インタプリタのバイアスを考慮すれば解釈の予測がより良くなるという仮説を検証し,(2)不一致はニュアンスであり,異なる文脈要因の深い理解を必要とすることを示した。 私たちはデータセットとコードをhttp://github.com/el isaf/subjective_disc ourseで共有しています。

Discourse signals are often implicit, leaving it up to the interpreter to draw the required inferences. At the same time, discourse is embedded in a social context, meaning that interpreters apply their own assumptions and beliefs when resolving these inferences, leading to multiple, valid interpretations. However, current discourse data and frameworks ignore the social aspect, expecting only a single ground truth. We present the first discourse dataset with multiple and subjective interpretations of English conversation in the form of perceived conversation acts and intents. We carefully analyze our dataset and create computational models to (1) confirm our hypothesis that taking into account the bias of the interpreters leads to better predictions of the interpretations, (2) and show disagreements are nuanced and require a deeper understanding of the different contextual factors. We share our dataset and code at http://github.com/el isaF/subjective_disc ourse.
翻訳日:2021-04-12 16:01:01 公開日:2021-04-09
# (参考訳) 深部強化学習による複数UAVのジャミング耐性経路計画 [全文訳有]

Jamming-Resilient Path Planning for Multiple UAVs via Deep Reinforcement Learning ( http://arxiv.org/abs/2104.04477v1 )

ライセンス: CC BY 4.0
Xueyuan Wang, M. Cenk Gursoy, Tugba Erpek and Yalin E. Sagduyu(参考訳) 無人航空機(UAV)は無線ネットワークの不可欠な部分であると期待されている。 本稿では,複数のセル接続型UAVに対して,動的ジャマの存在下での地上基地局(GBS)との接続要件を満たしつつ,衝突のない経路を見つけることを目的とする。 まず,接続性,衝突回避性,運動的制約を伴う離散領域における逐次的意思決定問題として問題を定式化する。 そこで本研究では,オンライン信号対干渉比(sinr)マッピングを用いたオフライン時間差(td)学習アルゴリズムを提案する。 より具体的には、UAV間の相互作用とUAVと環境の間の相互作用を符号化するTD法で、オフラインでバリューネットワークを構築し、トレーニングし、オンラインSINRマッピングディープニューラルネットワーク(DNN)を教師付き学習によって設計、訓練し、ジャマーによる影響と変化を符号化する。 数値計算の結果,提案アルゴリズムは,ジャマーに関する情報がなければ,理想的なSINRマップを用いて,理想的なシナリオに近い性能レベルを達成できることがわかった。 複数UAVのリアルタイムナビゲーションを高い成功率で効率的に行うことができ、衝突を避けることができる。

Unmanned aerial vehicles (UAVs) are expected to be an integral part of wireless networks. In this paper, we aim to find collision-free paths for multiple cellular-connected UAVs, while satisfying requirements of connectivity with ground base stations (GBSs) in the presence of a dynamic jammer. We first formulate the problem as a sequential decision making problem in discrete domain, with connectivity, collision avoidance, and kinematic constraints. We, then, propose an offline temporal difference (TD) learning algorithm with online signal-to-interferen ce-plus-noise ratio (SINR) mapping to solve the problem. More specifically, a value network is constructed and trained offline by TD method to encode the interactions among the UAVs and between the UAVs and the environment; and an online SINR mapping deep neural network (DNN) is designed and trained by supervised learning, to encode the influence and changes due to the jammer. Numerical results show that, without any information on the jammer, the proposed algorithm can achieve performance levels close to that of the ideal scenario with the perfect SINR-map. Real-time navigation for multi-UAVs can be efficiently performed with high success rates, and collisions are avoided.
翻訳日:2021-04-12 15:40:41 公開日:2021-04-09
# (参考訳) 精密幾何特徴を用いたディープフェイク検出の効率とロバスト性の向上 [全文訳有]

Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features ( http://arxiv.org/abs/2104.04480v1 )

ライセンス: CC BY 4.0
Zekun Sun and Yujie Han and Zeyu Hua and Na Ruan and Weijia Jia(参考訳) ディープフェイクス(Deepfakes)は、ビデオでターゲットの顔を元の顔に移植する悪意ある技法の1つで、著作権侵害、情報の混乱、さらにはパニックなど深刻な問題を引き起こす。 これまでのdeepfakesビデオ検出の取り組みは主に外観機能に焦点を当てており、高度な操作によってバイパスされるリスクがあり、モデルの複雑さとノイズに対する敏感さも高まっている。 さらに、操作されたビデオの時間的特徴を掘り起こし、それらを悪用する方法はまだ未解決の問題だ。 本稿では,正確な幾何学的特徴の時間的モデリングにより,Deepfakesビデオを検出するために,LRNetという効率的で堅牢なフレームワークを提案する。 幾何学的特徴の精度を高めるために新しいキャリブレーションモジュールを考案し、より識別しやすくし、時間的特徴を十分に活用するために2ストリームリカレントニューラルネットワーク(RNN)を構築した。 従来の手法と比較して,提案手法は軽量で訓練が容易である。 さらに,本手法は,高圧縮・ノイズ劣化ビデオの検出において頑健性を示した。 われわれのモデルはFaceForensics++データセットで0.999 AUCを達成した。 一方、高度に圧縮されたビデオに直面するとパフォーマンスが低下する(-0.042 auc)。

Deepfakes is a branch of malicious techniques that transplant a target face to the original one in videos, resulting in serious problems such as infringement of copyright, confusion of information, or even public panic. Previous efforts for Deepfakes videos detection mainly focused on appearance features, which have a risk of being bypassed by sophisticated manipulation, also resulting in high model complexity and sensitiveness to noise. Besides, how to mine the temporal features of manipulated videos and exploit them is still an open question. We propose an efficient and robust framework named LRNet for detecting Deepfakes videos through temporal modeling on precise geometric features. A novel calibration module is devised to enhance the precision of geometric features, making it more discriminative, and a two-stream Recurrent Neural Network (RNN) is constructed for sufficient exploitation of temporal features. Compared to previous methods, our proposed method is lighter-weighted and easier to train. Moreover, our method has shown robustness in detecting highly compressed or noise corrupted videos. Our model achieved 0.999 AUC on FaceForensics++ dataset. Meanwhile, it has a graceful decline in performance (-0.042 AUC) when faced with highly compressed videos.
翻訳日:2021-04-12 15:27:37 公開日:2021-04-09
# (参考訳) エンド・エンド音声認識のための言語モデル融合 [全文訳有]

Language model fusion for streaming end to end speech recognition ( http://arxiv.org/abs/2104.04487v1 )

ライセンス: CC BY 4.0
Rodrigo Cabrera, Xiaofeng Liu, Mohammadreza Ghodsi, Zebulun Matteson, Eugene Weinstein, Anjuli Kannan(参考訳) 音声のストリーム処理は多くの現代的な音声認識タスクに必要である。 今日手書き音声データの大規模なコーパスが利用可能であるにもかかわらず、そのようなコーパスは、オープン・エンド・ディクテーションや音声検索といったタスクにおいて重要な言語内容の長い尾を適切にカバーすることは不可能である。 我々は,非ペアテキストデータにトレーニングされた言語モデル(lm)を用いて,エンドツーエンド(e2e)モデルを強化することで,ストリーミングとテール認識の両方の課題に対処しようとする。 我々は,ストリーミング・リカレントニューラルネットワークトランスデューサ (rnnt) への浅層核融合法と低温核融合法を拡張し,rnntアーキテクチャをさらに強化する2つの新しい競合核融合法を提案する。 異なるトレーニングセットサイズを持つ複数の言語に対する実験結果から,これらの融合手法は言語的特徴を付加することにより,RNNTのストリーミング性能を向上させることが示された。 cold fusionはストリーミングrnntで一貫して機能し、最大8.5%改善されている。

Streaming processing of speech audio is required for many contemporary practical speech recognition tasks. Even with the large corpora of manually transcribed speech data available today, it is impossible for such corpora to cover adequately the long tail of linguistic content that's important for tasks such as open-ended dictation and voice search. We seek to address both the streaming and the tail recognition challenges by using a language model (LM) trained on unpaired text data to enhance the end-to-end (E2E) model. We extend shallow fusion and cold fusion approaches to streaming Recurrent Neural Network Transducer (RNNT), and also propose two new competitive fusion approaches that further enhance the RNNT architecture. Our results on multiple languages with varying training set sizes show that these fusion methods improve streaming RNNT performance through introducing extra linguistic features. Cold fusion works consistently better on streaming RNNT with up to a 8.5% WER improvement.
翻訳日:2021-04-12 15:15:42 公開日:2021-04-09
# (参考訳) ハイパースペクトル画像特徴抽出のためのクラスワイズ主成分分析 [全文訳有]

Class-Wise Principal Component Analysis for hyperspectral image feature extraction ( http://arxiv.org/abs/2104.04496v1 )

ライセンス: CC BY 4.0
Dimitra Koumoutsou, Eleni Charou, Georgios Siolas, Giorgos Stamou(参考訳) 本稿では,ハイパースペクトルデータの教師付き特徴抽出法であるクラスワイド主成分分析を提案する。 ハイパースペクトルイメージング(HSI)は,近年,リモートセンシングなど様々な分野に登場している。 ハイパースペクトル画像の情報抽出タスクがデータ固有の問題に負担されることを認識し,2つの大きな問題を特定し,対処する。 これらは、データキューブの大量発生と、超スペクトルデータセットで一般的なクラス不均衡問題によって生じる次元の呪いである。 次元削減は超スペクトル画像分類タスクを補完する重要な前処理ステップである。 そこで本研究では,主成分分析(PCA)に基づく次元削減のための特徴抽出アルゴリズムを提案する。 インドパインズデータセット上で評価を行い、分類タスクで削減されたデータを使用する場合、大幅な改善が達成されることを示す。

This paper introduces the Class-wise Principal Component Analysis, a supervised feature extraction method for hyperspectral data. Hyperspectral Imaging (HSI) has appeared in various fields in recent years, including Remote Sensing. Realizing that information extraction tasks for hyperspectral images are burdened by data-specific issues, we identify and address two major problems. Those are the Curse of Dimensionality which occurs due to the high-volume of the data cube and the class imbalance problem which is common in hyperspectral datasets. Dimensionality reduction is an essential preprocessing step to complement a hyperspectral image classification task. Therefore, we propose a feature extraction algorithm for dimensionality reduction, based on Principal Component Analysis (PCA). Evaluations are carried out on the Indian Pines dataset to demonstrate that significant improvements are achieved when using the reduced data in a classification task.
翻訳日:2021-04-12 15:04:58 公開日:2021-04-09
# (参考訳) マルチワード表現を用いたニューラルMTの漢字分解 [全文訳有]

Chinese Character Decomposition for Neural MT with Multi-Word Expressions ( http://arxiv.org/abs/2104.04497v1 )

ライセンス: CC BY 4.0
Lifeng Han, Gareth J. F. Jones, Alan F. Smeaton and Paolo Bolzoni(参考訳) 漢字分解は機械翻訳(mt)モデルを強化する機能として用いられており、文字レベルと単語レベルのモデルにラジカルを組み合わせる。 近年の研究ではイデオグラフや脳卒中レベルの埋め込みが研究されている。 しかし、MTに最も適した漢字表現の分解レベル、急進的、ストロークに関する疑問が残る。 本研究は,中国の分解埋め込みの影響,すなわちラジカル,脳卒中,中間レベル,およびこれらの分解がいかに元の文字配列の意味を表わすかを明らかにするために,mtの自動評価と人的評価の両方を用いて分析を行う。 さらに,分解型マルチワード表現(MWE)の組み合わせがモデル学習を促進できるかどうかを検討した。 MTへのMWE統合は10年以上にわたって調査されてきた。 しかし、mwesの分解は未だ検討されていない。

Chinese character decomposition has been used as a feature to enhance Machine Translation (MT) models, combining radicals into character and word level models. Recent work has investigated ideograph or stroke level embedding. However, questions remain about different decomposition levels of Chinese character representations, radical and strokes, best suited for MT. To investigate the impact of Chinese decomposition embedding in detail, i.e., radical, stroke, and intermediate levels, and how well these decompositions represent the meaning of the original character sequences, we carry out analysis with both automated and human evaluation of MT. Furthermore, we investigate if the combination of decomposed Multiword Expressions (MWEs) can enhance the model learning. MWE integration into MT has seen more than a decade of exploration. However, decomposed MWEs has not previously been explored.
翻訳日:2021-04-12 14:58:15 公開日:2021-04-09
# (参考訳) AdCOFE:感情分類のための会話における高度な文脈特徴抽出 [全文訳有]

AdCOFE: Advanced Contextual Feature Extraction in Conversations for emotion classification ( http://arxiv.org/abs/2104.04517v1 )

ライセンス: CC BY 4.0
Vaibhav Bhat, Anita Yadav, Sonal Yadav, Dhivya Chandrasekran, Vijay Mago(参考訳) 会話における感情認識は、ソーシャルメディアスレッドやオンラインサポートなど、意見に基づくフィードバックを必要とする様々な仮想チャットボットにおいて重要なステップである。 Current Emotion recognition in conversations models face issues like (a) loss of contextual information in between two dialogues of a conversation, (b) failure to give appropriate importance to significant tokens in each utterance and (c) inability to pass on the emotional information from previous utterances.The proposed model of Advanced Contextual Feature Extraction (AdCOFE) addresses these issues by performing unique feature extraction using knowledge graphs, sentiment lexicons and phrases of natural language at all levels (word and position embedding) of the utterances. 会話データセットにおける感情認識の実験は、AdCOFEが会話中の感情を捉えるのに有用であることを示している。

Emotion recognition in conversations is an important step in various virtual chat bots which require opinion-based feedback, like in social media threads, online support and many more applications. Current Emotion recognition in conversations models face issues like (a) loss of contextual information in between two dialogues of a conversation, (b) failure to give appropriate importance to significant tokens in each utterance and (c) inability to pass on the emotional information from previous utterances.The proposed model of Advanced Contextual Feature Extraction (AdCOFE) addresses these issues by performing unique feature extraction using knowledge graphs, sentiment lexicons and phrases of natural language at all levels (word and position embedding) of the utterances. Experiments on the Emotion recognition in conversations dataset show that AdCOFE is beneficial in capturing emotions in conversations.
翻訳日:2021-04-12 14:47:10 公開日:2021-04-09
# (参考訳) eGAN:トランスファーラーニングを用いたクラス不均衡に対する教師なしアプローチ [全文訳有]

eGAN: Unsupervised approach to class imbalance using transfer learning ( http://arxiv.org/abs/2104.04162v1 )

ライセンス: CC BY 4.0
Ademola Okerinde and Lior Shamir and William Hsu and Tom Theis and Nasik Nafi(参考訳) クラス不均衡は多くの機械学習分類タスクにおいて固有の問題である。 これはしばしば、実用的な目的のために使用できない訓練されたモデルにつながる。 本研究では,事前学習された画像分類モデルからエンコーダ型生成逆ネットワーク(egan)への転送学習を活用し,これらの不均衡に対処するための教師なし手法を検討する。 我々の知る限りでは、合成された偽画像の強化を必要とせずに、GANを使ってこの問題に対処する最初の試みである。 提案手法では,識別器ネットワークを用いて負あるいは正のスコアを出力する。 我々は少数派と負のスコアを持つサンプルと、正のスコアを持つサンプルを分類する。 p(minority) + p(majority) は 1 にまとめる必要はないため、モデル予測における認識論的不確実性を排除する。 また, トランスファー学習と, 各種事前学習画像分類モデルの組み合わせが, ジェネレータと判別器に与える影響についても検討した。 069 f1-scoreの最良の結果は、不均衡比1:2500のcifar-10分類タスクで得られた。 このアプローチは、機械学習システムの特異性や感度をしきい値化するメカニズムも提供します。 キーワード:クラス不均衡、転送学習、gan、nash均衡

Class imbalance is an inherent problem in many machine learning classification tasks. This often leads to trained models that are unusable for any practical purpose. In this study we explore an unsupervised approach to address these imbalances by leveraging transfer learning from pre-trained image classification models to encoder-based Generative Adversarial Network (eGAN). To the best of our knowledge, this is the first work to tackle this problem using GAN without needing to augment with synthesized fake images. In the proposed approach we use the discriminator network to output a negative or positive score. We classify as minority, test samples with negative scores and as majority those with positive scores. Our approach eliminates epistemic uncertainty in model predictions, as the P(minority) + P(majority) need not sum up to 1. The impact of transfer learning and combinations of different pre-trained image classification models at the generator and discriminator is also explored. Best result of 0.69 F1-score was obtained on CIFAR-10 classification task with imbalance ratio of 1:2500. Our approach also provides a mechanism of thresholding the specificity or sensitivity of our machine learning system. Keywords: Class imbalance, Transfer Learning, GAN, nash equilibrium
翻訳日:2021-04-12 14:22:00 公開日:2021-04-09
# 大規模行動クローンによる逆ストライクデスマッチ

Counter-Strike Deathmatch with Large-Scale Behavioural Cloning ( http://arxiv.org/abs/2104.04258v1 )

ライセンス: Link先を確認
Tim Pearce, Jun Zhu(参考訳) 本稿では,fps(first-person-sh ooter)ゲーム「counter-strike; global offensive」(csgo)をピクセル入力からプレイするaiエージェントについて述べる。 ディープニューラルネットワークであるエージェントは、デスマッチゲームモードにおける中難度aiのパフォーマンスに匹敵し、人間的なプレイスタイルを採用する。 ゲームにおける多くの以前の作業とは異なり、csgoのapiは使用できないため、アルゴリズムはリアルタイムでトレーニングおよび実行する必要がある。 これにより、多くの強化学習アルゴリズムを前提として、生成可能なオンポリシーデータの量を制限することができる。 私たちのソリューションでは,オンラインサーバ上の人間プレイ(イメージネットに匹敵する400万フレーム)から抽出した,大きなノイズの多いデータセットのトレーニングと,高品質な専門家によるデモンストレーションの小さなデータセットを使用しています。 このスケールは、fpsゲームにおける模倣学習の以前の作業よりも桁違いに大きい。

This paper describes an AI agent that plays the popular first-person-shooter (FPS) video game `Counter-Strike; Global Offensive' (CSGO) from pixel input. The agent, a deep neural network, matches the performance of the medium difficulty built-in AI on the deathmatch game mode, whilst adopting a humanlike play style. Unlike much prior work in games, no API is available for CSGO, so algorithms must train and run in real-time. This limits the quantity of on-policy data that can be generated, precluding many reinforcement learning algorithms. Our solution uses behavioural cloning - training on a large noisy dataset scraped from human play on online servers (4 million frames, comparable in size to ImageNet), and a smaller dataset of high-quality expert demonstrations. This scale is an order of magnitude larger than prior work on imitation learning in FPS games.
翻訳日:2021-04-12 14:15:15 公開日:2021-04-09
# SIスコア:物体の位置、回転、サイズに対するロバスト性のきめ細かい分析のための画像データセット

SI-Score: An image dataset for fine-grained analysis of robustness to object location, rotation and size ( http://arxiv.org/abs/2104.04191v1 )

ライセンス: Link先を確認
Jessica Yung, Rob Romijnders, Alexander Kolesnikov, Lucas Beyer, Josip Djolonga, Neil Houlsby, Sylvain Gelly, Mario Lucic, Xiaohua Zhai(参考訳) 機械学習モデルをデプロイする前に、その堅牢性を評価することが重要である。 画像理解のためのディープニューラルネットワークの文脈では、オブジェクトの位置、回転、サイズを変えることは、非自明な方法で予測に影響を与える可能性がある。 本研究では,合成データセットSI-Scoreを用いて,これらの変動要因に対するロバストネスのきめ細かい解析を行う。 特に,リネット,視覚トランスフォーマー,クリップを調査し,それら間の興味深い質的違いを明らかにする。

Before deploying machine learning models it is critical to assess their robustness. In the context of deep neural networks for image understanding, changing the object location, rotation and size may affect the predictions in non-trivial ways. In this work we perform a fine-grained analysis of robustness with respect to these factors of variation using SI-Score, a synthetic dataset. In particular, we investigate ResNets, Vision Transformers and CLIP, and identify interesting qualitative differences between these.
翻訳日:2021-04-12 14:14:41 公開日:2021-04-09
# 逆ロバスト一般化とフラットミニマの関係

Relating Adversarially Robust Generalization to Flat Minima ( http://arxiv.org/abs/2104.04448v1 )

ライセンス: Link先を確認
David Stutz, Matthias Hein, Bernt Schiele(参考訳) 対戦訓練(AT)は、敵の例に対して堅牢なモデルを得るためのデファクトスタンダードとなっている。 しかし、atは厳しい強固な過剰フィッティングを示しており、対向例におけるクロスエントロピー損失、いわゆる強固な損失はトレーニング例で連続的に減少し、最終的にはテスト例で増加する。 実際には、これは不十分なロバストな一般化、すなわち、逆のロバスト性は、新しい例にうまく一般化しない。 本稿では,重み空間におけるロバスト一般化とロバスト損失景観の平坦性との関係,すなわち,ロバスト損失が重みを摂動するときに著しく変化するかどうかについて検討する。 そこで本研究では,ロバストなロスランドスケープにおける平坦性を測定するための平均値と最悪値の指標を提案し,ロバストな一般化と平坦性との関係を示す。 例えば、トレーニングを通じて、オーバーフィッティング中に平坦性が著しく低下し、早期停止がロバストなロスランドスケープにおいて、より平坦なミニマを効果的に見つける。 同様に、高い対向ロバスト性を達成するAT変種も平坦なミニマに対応する。 これはAT-AWP、TRADES、MART、ATなど多くの一般的な選択肢に当てはまり、自己スーパービジョンや追加のラベル付けされていない例や、AutoAugment、ウェイト崩壊、ラベルノイズといった単純な正規化技術がある。 これらのアプローチを公平に比較するために、我々の平坦性尺度は、スケール不変であるように特別に設計され、発見を検証するために広範囲な実験を行う。

Adversarial training (AT) has become the de-facto standard to obtain models robust against adversarial examples. However, AT exhibits severe robust overfitting: cross-entropy loss on adversarial examples, so-called robust loss, decreases continuously on training examples, while eventually increasing on test examples. In practice, this leads to poor robust generalization, i.e., adversarial robustness does not generalize well to new examples. In this paper, we study the relationship between robust generalization and flatness of the robust loss landscape in weight space, i.e., whether robust loss changes significantly when perturbing weights. To this end, we propose average- and worst-case metrics to measure flatness in the robust loss landscape and show a correlation between good robust generalization and flatness. For example, throughout training, flatness reduces significantly during overfitting such that early stopping effectively finds flatter minima in the robust loss landscape. Similarly, AT variants achieving higher adversarial robustness also correspond to flatter minima. This holds for many popular choices, e.g., AT-AWP, TRADES, MART, AT with self-supervision or additional unlabeled examples, as well as simple regularization techniques, e.g., AutoAugment, weight decay or label noise. For fair comparison across these approaches, our flatness measures are specifically designed to be scale-invariant and we conduct extensive experiments to validate our findings.
翻訳日:2021-04-12 14:14:33 公開日:2021-04-09
# 新しい損失関数を持つ緊急ドメインに対するbert型中国語テキスト分類

BERT-based Chinese Text Classification for Emergency Domain with a Novel Loss Function ( http://arxiv.org/abs/2104.04197v1 )

ライセンス: Link先を確認
Zhongju Wang, Long Wang, Chao Huang, Xiong Luo(参考訳) 本稿では,緊急事態報告分類問題を解決するための中国語テキストの自動分類手法を提案する。 トランスフォーマ (bert) からの双方向エンコーダ表現は自然言語処理領域で大きな成功を収めているため, 緊急テキストの特徴を導出するために用いられる。 緊急イベントカテゴリの分布におけるデータ不均衡問題を解決するため,BERTモデルの性能向上を目的とした新たな損失関数を提案する。 一方、極端な学習率の影響を避けるため、Adam から SGD への段階的な滑らかな遷移を実現する Adabound 最適化アルゴリズムを用いてモデルのパラメータを学習する。 提案手法の有効性と有効性を検証するために,インターネットから収集した中国緊急テキストデータセットを用いる。 ベンチマーク法と比較して,提案手法は,精度,重み付け精度,重み付けリコール,重み付けf1値の点で最高の性能を得た。 そのため,スマート緊急管理システムにおいて,提案手法を実運用に活用することが期待されている。

This paper proposes an automatic Chinese text categorization method for solving the emergency event report classification problem. Since bidirectional encoder representations from transformers (BERT) has achieved great success in natural language processing domain, it is employed to derive emergency text features in this study. To overcome the data imbalance problem in the distribution of emergency event categories, a novel loss function is proposed to improve the performance of the BERT-based model. Meanwhile, to avoid the impact of the extreme learning rate, the Adabound optimization algorithm that achieves a gradual smooth transition from Adam to SGD is employed to learn parameters of the model. To verify the feasibility and effectiveness of the proposed method, a Chinese emergency text dataset collected from the Internet is employed. Compared with benchmarking methods, the proposed method has achieved the best performance in terms of accuracy, weighted-precision, weighted-recall, and weighted-F1 values. Therefore, it is promising to employ the proposed method for real applications in smart emergency management systems.
翻訳日:2021-04-12 14:14:06 公開日:2021-04-09
# what and know where: a object-and-room informed bert for indoor vision-language navigation

Know What and Know Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation ( http://arxiv.org/abs/2104.04167v1 )

ライセンス: Link先を確認
Yuankai Qi, Zizheng Pan, Yicong Hong, Ming-Hsuan Yang, Anton van den Hengel, Qi Wu(参考訳) VLN(Vision-and-Langu age Navigation)は、自然言語命令と写真リアルパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。 既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。 しかし、これには異なるテキストのランドマーク(例えば、テレビ、テーブル)を同じビュー機能とマッチさせるモデルが必要となる。 本研究では,視覚的知覚と言語的指示,すなわちオブジェクトと単語を同一の粒度レベルで符号化し,視覚的実体とテキスト的実体のマッチングを容易にし,したがって「何を知る」ためのオブジェクトインフォームドシーケンシャルBERTを提案する。 我々のシーケンシャルBERTは、複数のVLNタスクに欠かせない時間的文脈に照らして、視覚的・テキスト的手がかりを解釈することができる。 さらに,各ナビゲーション可能な位置の相対方向(例えば,左/右/フロント/バック)と,現在および最終ナビゲーション目標のルームタイプ(例えば,寝室,キッチン),すなわち"know where"を識別することができる。 3つの室内VLNタスク(REVERIE, NDH, R2R)における最先端手法との比較実験を行った。

Vision-and-Language Navigation (VLN) requires an agent to navigate to a remote location on the basis of natural-language instructions and a set of photo-realistic panoramas. Most existing methods take words in instructions and discrete views of each panorama as the minimal unit of encoding. However, this requires a model to match different textual landmarks in instructions (e.g., TV, table) against the same view feature. In this work, we propose an object-informed sequential BERT to encode visual perceptions and linguistic instructions at the same fine-grained level, namely objects and words, to facilitate the matching between visual and textual entities and hence "know what". Our sequential BERT enables the visual-textual clues to be interpreted in light of the temporal context, which is crucial to multi-round VLN tasks. Additionally, we enable the model to identify the relative direction (e.g., left/right/front/bac k) of each navigable location and the room type (e.g., bedroom, kitchen) of its current and final navigation goal, namely "know where", as such information is widely mentioned in instructions implying the desired next and final locations. Extensive experiments demonstrate the effectiveness compared against several state-of-the-art methods on three indoor VLN tasks: REVERIE, NDH, and R2R.
翻訳日:2021-04-12 14:13:49 公開日:2021-04-09
# ビデオ支援非教師なし文法インダクション

Video-aided Unsupervised Grammar Induction ( http://arxiv.org/abs/2104.04369v1 )

ライセンス: Link先を確認
Songyang Zhang, Linfeng Song, Lifeng Jin, Kun Xu, Dong Yu, Jiebo Luo(参考訳) 本研究では,未ラベルテキストとその対応映像から構成構文解析を学習するビデオ支援文法インダクションについて検討する。 既存のマルチモーダル文法帰納法は,テキストイメージ対から構文文法を学ぶことに集中しており,静的画像からの情報が帰属に有用であることを示す有望な結果である。 しかし、ビデオは静的なオブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態変化を含む、より豊かな情報を提供する。 本稿では,リッチな特徴(例えば)を探求する。 アクション、オブジェクト、シーン、オーディオ、顔、OCR、スピーチ) ビデオから、最近の複合PCFGモデルをベースラインとします。 さらに,これらのリッチな特徴を異なるモダリティから効果的に集約するマルチモーダル複合pcfgモデル(mmc-pcfg)を提案する。 提案したMCC-PCFGは、エンドツーエンドで訓練され、3つのベンチマークで個々のモダリティと従来の最先端システムよりも優れています。 DiDeMo, YouCook2, MSRVTT は教師なし文法誘導における映像情報の活用の有効性を確認した。

We investigate video-aided grammar induction, which learns a constituency parser from both unlabeled text and its corresponding video. Existing methods of multi-modal grammar induction focus on learning syntactic grammars from text-image pairs, with promising results showing that the information from static images is useful in induction. However, videos provide even richer information, including not only static objects but also actions and state changes useful for inducing verb phrases. In this paper, we explore rich features (e.g. action, object, scene, audio, face, OCR and speech) from videos, taking the recent Compound PCFG model as the baseline. We further propose a Multi-Modal Compound PCFG model (MMC-PCFG) to effectively aggregate these rich features from different modalities. Our proposed MMC-PCFG is trained end-to-end and outperforms each individual modality and previous state-of-the-art systems on three benchmarks, i.e. DiDeMo, YouCook2 and MSRVTT, confirming the effectiveness of leveraging video information for unsupervised grammar induction.
翻訳日:2021-04-12 14:13:24 公開日:2021-04-09
# NLPにおけるインスタンス属性手法の実証的比較

An Empirical Comparison of Instance Attribution Methods for NLP ( http://arxiv.org/abs/2104.04128v1 )

ライセンス: Link先を確認
Pouya Pezeshkpour, Sarthak Jain, Byron C. Wallace and Sameer Singh(参考訳) ディープモデルの普及により、ネットワーク出力を解釈し、モデルデバッグを容易にするアプローチの必要性が高まっている。 インスタンス属性メソッドは、(おそらく)特定の予測に導いたトレーニングインスタンスを取得することで、これらの目標を達成するための1つの手段である。 影響関数(IF; Koh and Liang 2017)は、個々の列車インスタンスの摂動が特定のテスト予測に与える影響を定量化することで、これを行うための機械を提供する。 しかし、IFを近似することでさえ計算コストが高く、多くの場合は禁じられる可能性がある。 より単純なアプローチ(例えば、与えられたテストポイントと最もよく似た列車の例を検索する)は相容れないだろうか? 本研究では,学習サンプルの重要性について,異なる潜在的インスタンスの帰属が一致する程度を評価する。 簡単な検索手法は,勾配に基づく手法(IFsなど)と異なる訓練インスタンスを生成するが,しかしながら,より複雑な帰属法と類似した望ましい特徴を示す。 本論文のすべてのメソッドと実験のコードは、https://github.com/s uccessar/instance_at tributions_NLPで公開されている。

Widespread adoption of deep models has motivated a pressing need for approaches to interpret network outputs and to facilitate model debugging. Instance attribution methods constitute one means of accomplishing these goals by retrieving training instances that (may have) led to a particular prediction. Influence functions (IF; Koh and Liang 2017) provide machinery for doing this by quantifying the effect that perturbing individual train instances would have on a specific test prediction. However, even approximating the IF is computationally expensive, to the degree that may be prohibitive in many cases. Might simpler approaches (e.g., retrieving train examples most similar to a given test point) perform comparably? In this work, we evaluate the degree to which different potential instance attribution agree with respect to the importance of training samples. We find that simple retrieval methods yield training instances that differ from those identified via gradient-based methods (such as IFs), but that nonetheless exhibit desirable characteristics similar to more complex attribution methods. Code for all methods and experiments in this paper is available at: https://github.com/s uccessar/instance_at tributions_NLP.
翻訳日:2021-04-12 14:13:06 公開日:2021-04-09
# 対話状態追跡のための知識対応グラフ強化GPT-2

Knowledge-Aware Graph-Enhanced GPT-2 for Dialogue State Tracking ( http://arxiv.org/abs/2104.04466v1 )

ライセンス: Link先を確認
Weizhe Lin, Bo-Hsian Tseng, Bill Byrne(参考訳) 対話状態追跡は多ドメインタスク指向対話システムにおいて重要な部分であり、ユーザの発話から情報を抽出する役割を担う。 本稿では,強力な生成モデルgpt-2を用いて1つずつのスロット値を生成し,同時にグラフアテンションネットワークを用いて相関関係などのスロット間関係を利用したスロット間情報交換を実現する新しいアーキテクチャを提案する。 私たちのモデルは、multiwoz 2.0で54.86.%$のジョイント精度を達成し、セッションレベルのアノテーション(全トレーニングセットのうち14.3.%$)のみを使用する、スパース監督トレーニングにおいて最大50.43.%のパフォーマンスを保ちます。 本研究は,本課題におけるグラフモデルの有用性を示すための詳細な解析を行い,提案したグラフモジュールがスロット間関係の獲得に役立つことを示す。

Dialogue State Tracking is a crucial part of multi-domain task-oriented dialogue systems, responsible for extracting information from user utterances. We present a novel architecture that utilizes the powerful generative model GPT-2 to generate slot values one by one causally, and at the same time utilizes Graph Attention Networks to enable inter-slot information exchanges, which exploits the inter-slot relations such as correlations. Our model achieves $54.86\%$ joint accuracy in MultiWOZ 2.0, and it retains a performance of up to $50.43\%$ in sparse supervision training, where only session-level annotations ($14.3\%$ of the full training set) are used. We conduct detailed analyses to demonstrate the significance of using graph models in this task, and show by experiments that the proposed graph modules indeed help to capture more inter-slot relations.
翻訳日:2021-04-12 14:12:47 公開日:2021-04-09
# 実世界で公平な回帰を実現する

Implementing Fair Regression In The Real World ( http://arxiv.org/abs/2104.04353v1 )

ライセンス: Link先を確認
Boris Ruf, Marcin Detyniecki(参考訳) ほとんどの公正回帰アルゴリズムは、敏感なサブ集団に対する偏見を緩和し、したがってグループレベルでの公平性を改善する。 本稿では,このような公平な回帰が個人に与える影響について検討する。 より正確には、ベースラインアルゴリズムと同一データポイントに対する公正回帰アルゴリズムの結果を比較することにより、制約なしから公正なアルゴリズムへの連続予測の進化を評価する。 そこで本研究では,既存の公正回帰手法の実用性を改善するためのポストプロセッシングアルゴリズムを提案する。

Most fair regression algorithms mitigate bias towards sensitive sub populations and therefore improve fairness at group level. In this paper, we investigate the impact of such implementation of fair regression on the individual. More precisely, we assess the evolution of continuous predictions from an unconstrained to a fair algorithm by comparing results from baseline algorithms with fair regression algorithms for the same data points. Based on our findings, we propose a set of post-processing algorithms to improve the utility of the existing fair regression approaches.
翻訳日:2021-04-12 14:12:31 公開日:2021-04-09
# 行動指導型アクター批判:深層強化学習のための学習政策行動表現による探索の改善

Behavior-Guided Actor-Critic: Improving Exploration via Learning Policy Behavior Representation for Deep Reinforcement Learning ( http://arxiv.org/abs/2104.04424v1 )

ライセンス: Link先を確認
Ammar Fayad and Majd Ibrahim(参考訳) 本研究では,オフポリシー・アクタ-クリティック深層rlアルゴリズムであるbehavior-guided actor-critic (bac)を提案する。 BACは、政策が生み出す軌道を決定する上で重要な役割を果たす状態力学を考慮に入れながら、各状態-行動ペアの訪問頻度を正確に見積もることで、政策の挙動を数学的に定式化する。 エージェントは、期待された報酬の合計を最大化することで良好な性能を実現しつつ、訪問の少ない状態と行動のペアに対して一貫して行動を変えることを奨励され、その結果、環境の効率的な探索と、すべての高報酬領域の良好な活用に繋がる。 我々のアプローチの顕著な側面は、最大エントロピー深層強化学習アルゴリズムとは対照的に、確率的および決定論的アクターの両方に適用可能であることである。 その結果,いくつかの最先端学習アルゴリズムと比較して,BACの性能は有意に向上した。

In this work, we propose Behavior-Guided Actor-Critic (BAC), an off-policy actor-critic deep RL algorithm. BAC mathematically formulates the behavior of the policy through autoencoders by providing an accurate estimation of how frequently each state-action pair was visited while taking into consideration state dynamics that play a crucial role in determining the trajectories produced by the policy. The agent is encouraged to change its behavior consistently towards less-visited state-action pairs while attaining good performance by maximizing the expected discounted sum of rewards, resulting in an efficient exploration of the environment and good exploitation of all high reward regions. One prominent aspect of our approach is that it is applicable to both stochastic and deterministic actors in contrast to maximum entropy deep reinforcement learning algorithms. Results show considerably better performances of BAC when compared to several cutting-edge learning algorithms.
翻訳日:2021-04-12 14:12:24 公開日:2021-04-09
# 直接微分可能拡張探索

Direct Differentiable Augmentation Search ( http://arxiv.org/abs/2104.04282v1 )

ライセンス: Link先を確認
Aoming Liu, Zehao Huang, Zhiwu Huang, Naiyan Wang(参考訳) データ拡張はディープニューラルネットワークのパフォーマンスを改善するために必須のツールであるが、拡張は異なるタスクやデータセット間ではほとんど転送できない。 その結果、手作りの広範囲なチューニングを伴わずに、適切な拡張ポリシーを学ぶためにAutoML技術を採用する傾向がある。 本稿では,DDAS (Direct Differentiable Augmentation Search) という,効率的な微分可能探索アルゴリズムを提案する。 1ステップの勾配更新と連続リラクゼーションでメタラーニングを活用し、期待されるトレーニング損失を有効活用し、効率的な検索を行う。 我々のDDASは,Gumbel Softmaxや2次勾配近似などの近似に頼ることなく,効率的な拡張探索を実現することができる。 さらに,不適切な増補の悪影響を低減するため,探索空間を2段階階層に整理し,まず増補を適用すべきか否かを判断し,その具体的な増補方針を決定する。 標準的な画像分類ベンチマークでは、DDASは検索コストを劇的に削減しつつ、最先端の性能と効率のトレードオフを達成する。 CIFAR-10の0.15GPU時間。 さらに、オブジェクト検出タスクの強化を検索するためにddasを使用し、1000倍高速で、autoaugmentと同等のパフォーマンスを実現しています。

Data augmentation has been an indispensable tool to improve the performance of deep neural networks, however the augmentation can hardly transfer among different tasks and datasets. Consequently, a recent trend is to adopt AutoML technique to learn proper augmentation policy without extensive hand-crafted tuning. In this paper, we propose an efficient differentiable search algorithm called Direct Differentiable Augmentation Search (DDAS). It exploits meta-learning with one-step gradient update and continuous relaxation to the expected training loss for efficient search. Our DDAS can achieve efficient augmentation search without relying on approximations such as Gumbel Softmax or second order gradient approximation. To further reduce the adverse effect of improper augmentations, we organize the search space into a two level hierarchy, in which we first decide whether to apply augmentation, and then determine the specific augmentation policy. On standard image classification benchmarks, our DDAS achieves state-of-the-art performance and efficiency tradeoff while reducing the search cost dramatically, e.g. 0.15 GPU hours for CIFAR-10. In addition, we also use DDAS to search augmentation for object detection task and achieve comparable performance with AutoAugment, while being 1000x faster.
翻訳日:2021-04-12 14:12:09 公開日:2021-04-09
# mlf-sc: 異常検出のためのスパース符号化にマルチレイヤー機能を組み込む

MLF-SC: Incorporating multi-layer features to sparse coding for anomaly detection ( http://arxiv.org/abs/2104.04289v1 )

ライセンス: Link先を確認
Ryuji Imamura, Kohei Azuma, Atsushi Hanamoto, and Atsunori Kanemura(参考訳) 画像の異常は、カーペットの上の小さな穴から大きな汚れまで、様々なスケールで発生する。 しかしながら、広く使用されている異常検出手法の一つであるスパース符号化に基づく異常検出は、画像のスパース表現に使用されるパッチサイズ外である異常を扱う際に問題となる。 大規模な異常は、小さなスケールで見ると正常と見なすことができるが、全ての画像でうまく機能する単一のスケール(パッチサイズ)を決定することは容易ではない。 そこで本研究では,符号化のスパース化と異常検出性能の向上を目的としたマルチスケール機能を提案する。 提案手法である多層特徴スパース符号化(mlf-sc)は,ニューラルネットワークを用いて特徴抽出を行い,ネットワークの中間層からの特徴マップをスパース符号化に適用する。 MLF-SCは深層学習を含む最先端の異常検出手法より優れていることを示す。 我々の目標は、現実世界の画像からなる最新のベンチマークデータセットであるMVTec Anomaly Detection (MVTec AD)データセットのテクスチャカテゴリである。 私たちのアイデアは、実用的なデータを扱うためのシンプルで実用的な選択肢です。

Anomalies in images occur in various scales from a small hole on a carpet to a large stain. However, anomaly detection based on sparse coding, one of the widely used anomaly detection methods, has an issue in dealing with anomalies that are out of the patch size employed to sparsely represent images. A large anomaly can be considered normal if seen in a small scale, but it is not easy to determine a single scale (patch size) that works well for all images. Then, we propose to incorporate multi-scale features to sparse coding and improve the performance of anomaly detection. The proposed method, multi-layer feature sparse coding (MLF-SC), employs a neural network for feature extraction, and feature maps from intermediate layers of the network are given to sparse coding, whereas the standard sparse-coding-based anomaly detection method directly works on given images. We show that MLF-SC outperforms state-of-the-art anomaly detection methods including those employing deep learning. Our target data are the texture categories of the MVTec Anomaly Detection (MVTec AD) dataset, which is a modern benchmark dataset consisting of images from the real world. Our idea can be a simple and practical option to deal with practical data.
翻訳日:2021-04-12 14:11:50 公開日:2021-04-09
# ハイブリッドasrシステムのための機能置換と組み合わせ

Feature Replacement and Combination for Hybrid ASR Systems ( http://arxiv.org/abs/2104.04298v1 )

ライセンス: Link先を確認
Peter Vieting, Christoph L\"uscher, Wilfried Michel, Ralf Schl\"uter, Hermann Ney(参考訳) ニューラルネットワーク分類器の一部としての生波形と学習特徴抽出器の音響モデリングは、自動音声認識(ASR)分野における多くの研究の目標となっている。 最近、ある研究は、教師なしの方法で音声のみのデータに事前学習できるフレームワークに焦点を合わせ、下流のASRタスクの改善を目指している。 本研究では,これらのフロントエンドフレームワーク,すなわちwav2vecのハイブリッドASRシステムへの応用について検討する。 事前学習した特徴抽出器の展開に加えて,同一タスクで訓練された既存の音響モデル(AM)の活用方法についても検討する。 教師付きasr損失と従来のガンマトーン特徴とを併用して訓練された別の神経フロントエンドが比較に適用される。 さらに,話者適応のためのiベクターをAMに組み込むことができることを示した。 最後に、上記特徴を組み合わせることで、さらなる性能向上を図る。 最終最良のシステムでは、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善が得られる。

Acoustic modeling of raw waveform and learning feature extractors as part of the neural network classifier has been the goal of many studies in the area of automatic speech recognition (ASR). Recently, one line of research has focused on frameworks that can be pre-trained on audio-only data in an unsupervised fashion and aim at improving downstream ASR tasks. In this work, we investigate the usefulness of one of these front-end frameworks, namely wav2vec, for hybrid ASR systems. In addition to deploying a pre-trained feature extractor, we explore how to make use of an existing acoustic model (AM) trained on the same task with different features as well. Another neural front-end which is only trained together with the supervised ASR loss as well as traditional Gammatone features are applied for comparison. Moreover, it is shown that the AM can be retrofitted with i-vectors for speaker adaptation. Finally, the described features are combined in order to further advance the performance. With the final best system, we obtain a relative improvement of 4% and 6% over our previous best model on the LibriSpeech test-clean and test-other sets.
翻訳日:2021-04-12 14:10:27 公開日:2021-04-09
# 共有核の回転不変性が高次元の一般化を防ぐ方法

How rotational invariance of common kernels prevents generalization in high dimensions ( http://arxiv.org/abs/2104.04244v1 )

ライセンス: Link先を確認
Konstantin Donhauser, Mingqi Wu and Fanny Yang(参考訳) カーネルリッジ回帰は、低次元設定で最小の最適速度を達成するためによく知られている。 しかし、高次元におけるその挙動は、あまり理解されていない。 最近の研究は、基底真理関数と入力データの分布を仮定して、カーネル回帰の一貫性を確立する。 本稿では,よく研究されている核(rbf,内積核,奥行きの完全連結ntkなど)の回転不変性が,高次元の低次多項式に対するバイアスを生じさせることを示した。 この結果は、幅広い分布の一般化誤差と、異なる固有値崩壊を持つカーネルのスケーリングの様々な選択に対する低い境界を示唆している。 この下界は、高次元の核リッジ回帰に対する一般的な一貫性の結果は、固有値の崩壊を超える核の構造に依存するより洗練された解析を必要とすることを示唆している。

Kernel ridge regression is well-known to achieve minimax optimal rates in low-dimensional settings. However, its behavior in high dimensions is much less understood. Recent work establishes consistency for kernel regression under certain assumptions on the ground truth function and the distribution of the input data. In this paper, we show that the rotational invariance property of commonly studied kernels (such as RBF, inner product kernels and fully-connected NTK of any depth) induces a bias towards low-degree polynomials in high dimensions. Our result implies a lower bound on the generalization error for a wide range of distributions and various choices of the scaling for kernels with different eigenvalue decays. This lower bound suggests that general consistency results for kernel ridge regression in high dimensions require a more refined analysis that depends on the structure of the kernel beyond its eigenvalue decay.
翻訳日:2021-04-12 14:09:49 公開日:2021-04-09
# 深部生成モデルを用いたタンパク質配列設計

Protein sequence design with deep generative models ( http://arxiv.org/abs/2104.04457v1 )

ライセンス: Link先を確認
Zachary Wu, Kadina E. Johnston, Frances H. Arnold, Kevin K. Yang(参考訳) タンパク質工学は、最適化された性質を持つタンパク質配列を同定しようとする。 機械学習によって導かれると、タンパク質配列生成法は、このプロセスを改善するための事前の知識と実験的な努力を引き出すことができる。 本稿では, タンパク質配列生成における機械学習の最近の応用を取り上げ, 深層生成手法の新たな分野に焦点をあてる。

Protein engineering seeks to identify protein sequences with optimized properties. When guided by machine learning, protein sequence generation methods can draw on prior knowledge and experimental efforts to improve this process. In this review, we highlight recent applications of machine learning to generate protein sequences, focusing on the emerging field of deep generative methods.
翻訳日:2021-04-12 14:09:34 公開日:2021-04-09
# x2ct-flow:flow-based generative modelを用いた一平面胸部x線画像からの多変量胸部ct画像の再構成

X2CT-FLOW: Reconstruction of multiple volumetric chest computed tomography images with different likelihoods from a uni- or biplanar chest X-ray image using a flow-based generative model ( http://arxiv.org/abs/2104.04179v1 )

ライセンス: Link先を確認
Hisaichi Shibata, Shouhei Hanaoka, Yukihiro Nomura, Takahiro Nakao, Tomomi Takenaga, Naoto Hayashi, Osamu Abe(参考訳) 本研究では,フローベースディープジェネティブ(FDG)モデルに基づいて,一次元または二次元デジタル再構成ラジオグラフィ(DRR)または胸部X線(CXR)画像からCT画像の再構成を行うX2CT-FLOWを提案する。 X2CT-FLOWの導入により、再構成された胸部CT画像は、各平面に投影された各画像が各入力DRRまたはCXR画像と一致する条件を満たす。 さらに、X2CT-FLOWは、複数の胸部CT画像を異なる可能性で再構成することができる。 両平面drから再構成した胸部ct画像は, 構造的類似度指標 (0.931) において, 基底像と良好な一致を示した。 また,X2CT-FLOWはDRRから複数の胸部CT像を再構成できることを示した。 最後に、X2CT-FLOWは、実際の単平面CXR画像から複数の胸部CT画像を再構成できることを示す。

We propose X2CT-FLOW for the reconstruction of volumetric chest computed tomography (CT) images from uni- or biplanar digitally reconstructed radiographs (DRRs) or chest X-ray (CXR) images on the basis of a flow-based deep generative (FDG) model. With the adoption of X2CT-FLOW, all the reconstructed volumetric chest CT images satisfy the condition that each of those projected onto each plane coincides with each input DRR or CXR image. Moreover, X2CT-FLOW can reconstruct multiple volumetric chest CT images with different likelihoods. The volumetric chest CT images reconstructed from biplanar DRRs showed good agreement with ground truth images in terms of the structural similarity index (0.931 on average). Moreover, we show that X2CT-FLOW can actually reconstruct such multiple volumetric chest CT images from DRRs. Finally, we demonstrate that X2CT-FLOW can reconstruct multiple volumetric chest CT images from a real uniplanar CXR image.
翻訳日:2021-04-12 14:09:29 公開日:2021-04-09
# リアルタイム災害対応のためのソーシャルメディア画像分類モデル

Social Media Images Classification Models for Real-time Disaster Response ( http://arxiv.org/abs/2104.04184v1 )

ライセンス: Link先を確認
Firoj Alam, Tanvirul Alam, Ferda Ofli, Muhammad Imran(参考訳) ソーシャルメディアで共有されている画像は、危機管理担当者が状況認識を得て、発生した損害を評価するのに役立つ。 このようなコンテンツのボリュームと速度が本当に高いため、より高速な応答を実現するために、リアルタイム画像分類が緊急必要となった。 コンピュータビジョンとディープニューラルネットワークの最近の進歩により、危機事故の検出、無関係な画像のフィルタリング、特定の人道的カテゴリへの分類、損傷の深刻度の評価など、様々なタスクのリアルタイム画像分類モデルの開発が可能になった。 リアルタイムのロバストなモデルを開発するためには,これらのタスクに対して利用可能な事前学習モデルの有効性を理解する必要がある。 現在の危機情報学の現状では、未調査である。 本研究では,このような制限について論じる。 これら4つのタスクに対する10の異なるアーキテクチャを,これらのタスクのための最大公用データセットを用いて検討する。 また、データ拡張、半教師付き技術、マルチタスク設定についても検討する。 大規模な実験では、有望な結果が得られる。

Images shared on social media help crisis managers in terms of gaining situational awareness and assessing incurred damages, among other response tasks. As the volume and velocity of such content are really high, therefore, real-time image classification became an urgent need in order to take a faster response. Recent advances in computer vision and deep neural networks have enabled the development of models for real-time image classification for a number of tasks, including detecting crisis incidents, filtering irrelevant images, classifying images into specific humanitarian categories, and assessing the severity of the damage. For developing real-time robust models, it is necessary to understand the capability of the publicly available pretrained models for these tasks. In the current state-of-art of crisis informatics, it is under-explored. In this study, we address such limitations. We investigate ten different architectures for four different tasks using the largest publicly available datasets for these tasks. We also explore the data augmentation, semi-supervised techniques, and a multitask setup. In our extensive experiments, we achieve promising results.
翻訳日:2021-04-12 14:09:07 公開日:2021-04-09
# GATSBI:生成エージェント中心の時空間オブジェクト間相互作用

GATSBI: Generative Agent-centric Spatio-temporal Object Interaction ( http://arxiv.org/abs/2104.04275v1 )

ライセンス: Link先を確認
Cheol-Hui Min, Jinseok Bae, Junho Lee and Young Min Kim(参考訳) GATSBIは、生の観察の順序を、エージェントの行動の時空間的文脈を完全に捉えた構造化潜在表現に変換することができる生成モデルである。 視覚に基づく意思決定シナリオでは、エージェントは複数のエンティティが相互に相互作用する複雑な高次元の観察に直面します。 エージェントは、必須成分を識別し、時間軸に沿って一貫して伝播する視覚観察のよいシーン表現を必要とする。 提案手法であるgatsbiは,教師なしのオブジェクト中心のシーン表現学習を用いて,アクティブエージェント,静的背景,受動的オブジェクトを分離する。 GATSBIは、分解された実体間の因果関係を反映した相互作用をモデル化し、物理的に妥当な将来の状態を予測する。 我々のモデルは様々な種類のロボットや物体が動的に相互作用する様々な環境に一般化する。 GATSBIはシーン分解と映像予測において,最先端技術と比較して優れた性能を示す。

We present GATSBI, a generative model that can transform a sequence of raw observations into a structured latent representation that fully captures the spatio-temporal context of the agent's actions. In vision-based decision-making scenarios, an agent faces complex high-dimensional observations where multiple entities interact with each other. The agent requires a good scene representation of the visual observation that discerns essential components and consistently propagates along the time horizon. Our method, GATSBI, utilizes unsupervised object-centric scene representation learning to separate an active agent, static background, and passive objects. GATSBI then models the interactions reflecting the causal relationships among decomposed entities and predicts physically plausible future states. Our model generalizes to a variety of environments where different types of robots and objects dynamically interact with each other. We show GATSBI achieves superior performance on scene decomposition and video prediction compared to its state-of-the-art counterparts.
翻訳日:2021-04-12 14:08:51 公開日:2021-04-09
# 符号付き距離マップを用いたセグメンテーションネットワークに基づくMRI画像からの脳表面再構成

Brain Surface Reconstruction from MRI Images Based on Segmentation Networks Applying Signed Distance Maps ( http://arxiv.org/abs/2104.04291v1 )

ライセンス: Link先を確認
Heng Fang, Xi Yang, Taichi Kin, Takeo Igarashi(参考訳) 全脳表面の抽出は、手術計画と異常検出の幅広い視点で神経外科医を提供する医療画像システムにおいて重要なトピックである。 先行形状情報を持たない現在のディープラーニング頭蓋骨ストリッピング法で直面する課題を解決するために,符号付き距離場に関する知識を取り入れ,さらにラプラシアン損失を導入し,予測結果が形状情報を保持することを保証する新しいネットワークアーキテクチャを提案する。 脳磁気共鳴画像データセット(111例)で実験を行い,本手法の有効性を検証した。 評価結果は,本手法が同等のダイススコアを達成し,ハウスドルフ距離と平均対称表面距離を低減し,より安定で滑らかな脳表面異方体を生成することを示した。

Whole-brain surface extraction is an essential topic in medical imaging systems as it provides neurosurgeons with a broader view of surgical planning and abnormality detection. To solve the problem confronted in current deep learning skull stripping methods lacking prior shape information, we propose a new network architecture that incorporates knowledge of signed distance fields and introduce an additional Laplacian loss to ensure that the prediction results retain shape information. We validated our newly proposed method by conducting experiments on our brain magnetic resonance imaging dataset (111 patients). The evaluation results demonstrate that our approach achieves comparable dice scores and also reduces the Hausdorff distance and average symmetric surface distance, thus producing more stable and smooth brain isosurfaces.
翻訳日:2021-04-12 14:08:37 公開日:2021-04-09
# 英語 to yoruba 動詞句機械翻訳システムの設計と実装

Design and Implementation of English To Yoruba Verb Phrase Machine Translation System ( http://arxiv.org/abs/2104.04125v1 )

ライセンス: Link先を確認
Safiriyu Eludiora, Benjamin Ajibade(参考訳) We aim to develop an English to Yoruba machine translation system which can translate English verb phrase text to its Yoruba equivalent.Words from both languages Source Language and Target Language were collected for the verb phrase group in the home domain.The lexical translation is done by assigning values of the matching word in the dictionary.The syntax of the two languages was realized using Context-Free Grammar,we validated the rewrite rules with finite state automata.The human evaluation method was used and expert fluency scored.The evaluation shows the system performed better than that of sampled Google translation with over 70 percent of the response matching that of the system's output.

We aim to develop an English to Yoruba machine translation system which can translate English verb phrase text to its Yoruba equivalent.Words from both languages Source Language and Target Language were collected for the verb phrase group in the home domain.The lexical translation is done by assigning values of the matching word in the dictionary.The syntax of the two languages was realized using Context-Free Grammar,we validated the rewrite rules with finite state automata.The human evaluation method was used and expert fluency scored.The evaluation shows the system performed better than that of sampled Google translation with over 70 percent of the response matching that of the system's output.
翻訳日:2021-04-12 14:08:22 公開日:2021-04-09
# 要約における微細なファクチュアリティの注釈とモデル化

Annotating and Modeling Fine-grained Factuality in Summarization ( http://arxiv.org/abs/2104.04302v1 )

ライセンス: Link先を確認
Tanya Goyal and Greg Durrett(参考訳) 近年、訓練済みの抽象要約システムは信頼性の高い性能を達成し始めているが、実際に使用する上での大きな障壁は、入力に忠実で事実的誤りを含む要約を出力する確率である。 事実性を評価するための注釈付きデータセットや統計モデルが数多く検討されているが、ターゲットにとって何のエラーが最も重要か、現在のテクニックが成功し、失敗しているかを明確に示していない。 学習モデルのための合成データと人間ラベルデータの両方を調査し,要約の誤りを識別し,単語・係り受け・文レベルでの事実性について検討する。 私たちの観察は3倍です。 一般的に使われている単純な合成エラーのトレーニングセットは、XSumのような抽象データセット上のエラーを反映しない。 第二に、微粒度アノテーション付き人間ラベルデータは、文レベルのアノテーションや合成データよりも効果的なトレーニング信号を提供する。 最後に,我々の最良事実検出モデルにより,トレーニングデータ中の非実物トークンを識別することにより,より実物的なXSum要約モデルのトレーニングが可能になることを示す。

Recent pre-trained abstractive summarization systems have started to achieve credible performance, but a major barrier to their use in practice is their propensity to output summaries that are not faithful to the input and that contain factual errors. While a number of annotated datasets and statistical models for assessing factuality have been explored, there is no clear picture of what errors are most important to target or where current techniques are succeeding and failing. We explore both synthetic and human-labeled data sources for training models to identify factual errors in summarization, and study factuality at the word-, dependency-, and sentence-level. Our observations are threefold. First, exhibited factual errors differ significantly across datasets, and commonly-used training sets of simple synthetic errors do not reflect errors made on abstractive datasets like XSum. Second, human-labeled data with fine-grained annotations provides a more effective training signal than sentence-level annotations or synthetic data. Finally, we show that our best factuality detection model enables training of more factual XSum summarization models by allowing us to identify non-factual tokens in the training data.
翻訳日:2021-04-12 14:08:14 公開日:2021-04-09
# ポスト編集によるコンサルテーションノートの評価に関する予備的検討

A preliminary study on evaluating Consultation Notes with Post-Editing ( http://arxiv.org/abs/2104.04402v1 )

ライセンス: Link先を確認
Francesco Moramarco, Alex Papadopoulos Korfiatis, Aleksandar Savkov, Ehud Reiter(参考訳) 自動要約は、ノートテイキングのような事務作業を合理化する医師を助ける可能性がある。 しかし、これらのシステムを評価して、臨床現場での使用が安全であることを実証することは、非常に難しい。 この問題を回避するために,医師が論文を編集後作成して提出する半自動手法を提案する。 編集後,自動生成したコンサルテーションノートの時間節約に関する予備研究を行う。 評価者は、モック・コンサルティングの聴取と、3つの生成されたノートの編集を依頼される。 これを時間をかけて、スクラッチからメモを書くより速いことに気付きます。 この実験から学んだ知見と教訓を提示する。

Automatic summarisation has the potential to aid physicians in streamlining clerical tasks such as note taking. But it is notoriously difficult to evaluate these systems and demonstrate that they are safe to be used in a clinical setting. To circumvent this issue, we propose a semi-automatic approach whereby physicians post-edit generated notes before submitting them. We conduct a preliminary study on the time saving of automatically generated consultation notes with post-editing. Our evaluators are asked to listen to mock consultations and to post-edit three generated notes. We time this and find that it is faster than writing the note from scratch. We present insights and lessons learnt from this experiment.
翻訳日:2021-04-12 14:07:57 公開日:2021-04-09
# 医療用サマリーの品質を客観的に評価する

Towards objectively evaluating the quality of generated medical summaries ( http://arxiv.org/abs/2104.04412v1 )

ライセンス: Link先を確認
Francesco Moramarco, Damir Juric, Aleksandar Savkov, Ehud Reiter(参考訳) 本研究では,エミュレータに事実のカウントを依頼し,生数から精度,リコール,fスコア,精度を算出し,生成テキストの品質を評価する手法を提案する。 このアプローチは、より客観的で、評価を再現しやすくなると信じています。 本研究は,主観的品質と精度の測定が最重要事項である医療報告要約の課題に適用する。

We propose a method for evaluating the quality of generated text by asking evaluators to count facts, and computing precision, recall, f-score, and accuracy from the raw counts. We believe this approach leads to a more objective and easier to reproduce evaluation. We apply this to the task of medical report summarisation, where measuring objective quality and accuracy is of paramount importance.
翻訳日:2021-04-12 14:07:46 公開日:2021-04-09
# 大きなコンテキストタグ: いつ、なぜ機能するのか?

Larger-Context Tagging: When and Why Does It Work? ( http://arxiv.org/abs/2104.04434v1 )

ライセンス: Link先を確認
Jinlan Fu, Liangjing Feng, Qi Zhang, Xuanjing Huang and Pengfei Liu(参考訳) ニューラルネットワークと事前学習技術の開発は、典型的なベンチマークで優れたパフォーマンスを達成する多くの文レベルのタグ付けシステムを生み出した。 しかし、議論の少ないトピックは、現在のトップスコアタグシステムにより多くのコンテキスト情報が導入された場合である。 既存のいくつかの研究は、タグシステムの文レベルから文書レベルへのシフトを試みているが、いつ、なぜそれが機能するのかについての結論は得られていない。 本稿では,アーキテクチャ探査による最先端のタグ付けシステムを追求する代わりに,汎用的な戦略として,大規模コンテキストトレーニングがいつ,なぜ機能するのかを検討することに焦点を当てる。 そこで本稿では,コンテキスト情報収集のための4つのアグリゲータについて,より大規模なコンテキスト学習による改善を解釈するための属性支援評価手法を提案する。 実験では,4つのタグ付けタスクと13のデータセットに基づいてテストベッドを設置した。 願わくば、我々の予備観測は、より大きなコンテキストトレーニングの理解を深め、文脈情報の使用に関するより深いフォローアップ作業を実現することができる。

The development of neural networks and pretraining techniques has spawned many sentence-level tagging systems that achieved superior performance on typical benchmarks. However, a relatively less discussed topic is what if more context information is introduced into current top-scoring tagging systems. Although several existing works have attempted to shift tagging systems from sentence-level to document-level, there is still no consensus conclusion about when and why it works, which limits the applicability of the larger-context approach in tagging tasks. In this paper, instead of pursuing a state-of-the-art tagging system by architectural exploration, we focus on investigating when and why the larger-context training, as a general strategy, can work. To this end, we conduct a thorough comparative study on four proposed aggregators for context information collecting and present an attribute-aided evaluation method to interpret the improvement brought by larger-context training. Experimentally, we set up a testbed based on four tagging tasks and thirteen datasets. Hopefully, our preliminary observations can deepen the understanding of larger-context training and enlighten more follow-up works on the use of contextual information.
翻訳日:2021-04-12 14:07:39 公開日:2021-04-09
# 単語群マスク学習による文ペアのニューラルネットワーク予測

Explaining Neural Network Predictions on Sentence Pairs via Learning Word-Group Masks ( http://arxiv.org/abs/2104.04488v1 )

ライセンス: Link先を確認
Hanjie Chen, Song Feng, Jatin Ganhotra, Hui Wan, Chulaka Gunasekara, Sachindra Joshi, Yangfeng Ji(参考訳) ニューラルネットワークモデルの説明は、現実世界のアプリケーションにおける信頼性を高める上で重要である。 既存のほとんどの方法は、個々の特徴属性を特定したり、隣接する特徴間の相互作用を検出することによって、ニューラルネットワークモデルに対するポストホックな説明を生成する。 しかし、入力としてテキストペアを持つモデル(例えばパラフレーズ識別)では、既存の手法は2つのテキスト間の特徴的相互作用を捉えるのに十分ではなく、2つのテキスト間の全てのワードペア相互作用を計算的に非効率に計算することができる。 本研究では,入力テキストペアから相関単語をグループ化し,対応するnlpタスク全体への寄与度を測定するグループマスク(gmask)手法を提案する。 提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて,自然言語推論とparaphrase識別タスクを含む評価を行う。 実験はGMASKがこれらのモデルに忠実な説明を提供することの有効性を示す。

Explaining neural network models is important for increasing their trustworthiness in real-world applications. Most existing methods generate post-hoc explanations for neural network models by identifying individual feature attributions or detecting interactions between adjacent features. However, for models with text pairs as inputs (e.g., paraphrase identification), existing methods are not sufficient to capture feature interactions between two texts and their simple extension of computing all word-pair interactions between two texts is computationally inefficient. In this work, we propose the Group Mask (GMASK) method to implicitly detect word correlations by grouping correlated words from the input text pair together and measure their contribution to the corresponding NLP tasks as a whole. The proposed method is evaluated with two different model architectures (decomposable attention model and BERT) across four datasets, including natural language inference and paraphrase identification tasks. Experiments show the effectiveness of GMASK in providing faithful explanations to these models.
翻訳日:2021-04-12 14:07:20 公開日:2021-04-09
# 現実的カウンターファクチャリティーを用いた読解記述の評価

Evaluating Explanations for Reading Comprehension with Realistic Counterfactuals ( http://arxiv.org/abs/2104.04515v1 )

ライセンス: Link先を確認
Xi Ye, Rohan Nair, Greg Durrett(参考訳) NLPにおける幅広い分類タスク(例えば感情分析)のモデル予測を説明するために、トークンレベルの属性が広く研究されているが、そのような説明手法は機械読解(RC)タスクでは研究されていない。 ここで使用される変圧器ベースのモデルは分類に使用されるモデルと同一であるが、これらのモデルが実行する根本的な理由は非常に異なり、異なるタイプの説明が必要である。 そこで本研究では,RCモデルの高レベルな動作を現実的な反現実的な入力シナリオの集合に関して理解するための説明手法を提案する。 これらの反事実をいくつかのrc設定で定義し,説明手法の出力を高レベルモデル動作に結びつけることで,様々な説明がいかに有用であるかを評価できる。 分析から,ペアワイズによる説明手法はトークンレベルの帰属よりもrcに適していることが示唆された。 さらに,注意に基づく帰属手法の改良を提案し,モデル行動を明らかにするための説明を行った。

Token-level attributions have been extensively studied to explain model predictions for a wide range of classification tasks in NLP (e.g., sentiment analysis), but such explanation techniques are less explored for machine reading comprehension (RC) tasks. Although the transformer-based models used here are identical to those used for classification, the underlying reasoning these models perform is very different and different types of explanations are required. We propose a methodology to evaluate explanations: an explanation should allow us to understand the RC model's high-level behavior with respect to a set of realistic counterfactual input scenarios. We define these counterfactuals for several RC settings, and by connecting explanation techniques' outputs to high-level model behavior, we can evaluate how useful different explanations really are. Our analysis suggests that pairwise explanation techniques are better suited to RC than token-level attributions, which are often unfaithful in the scenarios we consider. We additionally propose an improvement to an attention-based attribution technique, resulting in explanations which better reveal the model's behavior.
翻訳日:2021-04-12 14:07:03 公開日:2021-04-09
# 信頼性に基づく個人モデルの影響調整のための自己重み付けアンサンブル法

Self-Weighted Ensemble Method to Adjust the Influence of Individual Models based on Reliability ( http://arxiv.org/abs/2104.04120v1 )

ライセンス: Link先を確認
YeongHyeon Park, JoonSung Lee, Wonseok Park(参考訳) ディープラーニングに基づく画像分類技術と性能はすでに高い水準に達している。 それでも、アンサンブルによる分類の安定性向上に多くの努力がなされている。 しかし,既存のアンサンブル法では,各モデル出力の重み付けに要する時間を含む余分な労力が制限されている。 本稿では,各モデルの重みを検証信頼性により配置する自己重み付けアンサンブル (swe) を用いた簡易で改良されたアンサンブル法を提案する。 提案手法である swe は, 分類器を多用した分類システムを構築するための総合的な努力を減少させる。 SWEによる性能は従来のアンサンブル法よりも0.033%高い。 また、前モデルに比べてパフォーマンス上の優位性は73.333%(比8:22)である。

Image classification technology and performance based on Deep Learning have already achieved high standards. Nevertheless, many efforts have conducted to improve the stability of classification via ensembling. However, the existing ensemble method has a limitation in that it requires extra effort including time consumption to find the weight for each model output. In this paper, we propose a simple but improved ensemble method, naming with Self-Weighted Ensemble (SWE), that places the weight of each model via its verification reliability. The proposed ensemble method, SWE, reduces overall efforts for constructing a classification system with varied classifiers. The performance using SWE is 0.033% higher than the conventional ensemble method. Also, the percent of performance superiority to the previous model is up to 73.333% (ratio of 8:22).
翻訳日:2021-04-12 14:06:10 公開日:2021-04-09
# 内因性に基づく屋外照明の空間変動推定

Spatially-Varying Outdoor Lighting Estimation from Intrinsics ( http://arxiv.org/abs/2104.04160v1 )

ライセンス: Link先を確認
Yongjie Zhu, Yinda Zhang, Si Li, Boxin Shi(参考訳) 本研究では,任意の2次元画素位置の屋外画像から屋外照明推定を行うためのニューラルネットワークであるsolid-netを提案する。 以前の作業では、屋外照明を表すために統合された空環境マップを使用していた。 代わりに,グローバルスカイ環境マップと,固有情報から推定される幾何学的情報に照らし合わせて,空間変動する局所照明環境マップを生成する。 画像と局所照明の真理を持つ屋外データセットは容易に利用できないため、物理的にレンダリングされた画像とその固有および照明情報を含むソリッドimgデータセットを導入する。 深層ニューラルネットワークをトレーニングして,物理的に制約のある内在的手がかりを回避し,グローバルおよび局所的な照明推定を行う。 合成データと実データの両方の実験により、SOLID-Netは従来の手法よりも大幅に優れていることが示された。

We present SOLID-Net, a neural network for spatially-varying outdoor lighting estimation from a single outdoor image for any 2D pixel location. Previous work has used a unified sky environment map to represent outdoor lighting. Instead, we generate spatially-varying local lighting environment maps by combining global sky environment map with warped image information according to geometric information estimated from intrinsics. As no outdoor dataset with image and local lighting ground truth is readily available, we introduce the SOLID-Img dataset with physically-based rendered images and their corresponding intrinsic and lighting information. We train a deep neural network to regress intrinsic cues with physically-based constraints and use them to conduct global and local lightings estimation. Experiments on both synthetic and real datasets show that SOLID-Net significantly outperforms previous methods.
翻訳日:2021-04-12 14:06:00 公開日:2021-04-09
# 個人再識別のための深度空間に基づくアーキテクチャ検索

Combined Depth Space based Architecture Search For Person Re-identification ( http://arxiv.org/abs/2104.04163v1 )

ライセンス: Link先を確認
Hanjun Li, Gaojie Wu, Wei-Shi Zheng(参考訳) 人物再識別(ReID)に関する研究の多くは、ReIDの代わりに画像分類用に設計されたResNetのような大きなバックボーンネットワークを利用して特徴抽出を行う。 しかし、これらのバックボーンは計算効率が良くなかったり、ReIDに適したアーキテクチャであったりする。 本研究では,ReIDのための軽量で適切なネットワークを設計することを目的とする。 我々は,CDNetと呼ばれる効率的なネットワークアーキテクチャを,微分可能なアーキテクチャ探索アルゴリズムを用いて探索する,Combined Depth Space (CDS) と呼ばれる新しい検索空間を提案する。 CDSの基本的なビルディングブロックの組み合わせにより、CDNetは一般的に歩行者の画像に見られる複合パターン情報に集中する傾向にある。 そこで我々はTop-k Sample Search戦略という低コストの検索戦略を提案し、検索空間をフル活用し、局所的な最適結果のトラップを避ける。 さらに、推定時に取り外し可能な効果的な粒度バランスネック(fblneck)を提示し、トレーニング過程における三重項損失とソフトマックス損失の効果のバランスをとる。 大規模な実験により、我々のCDNet(~1.8Mパラメータ)は最先端の軽量ネットワークと同等の性能を示した。

Most works on person re-identification (ReID) take advantage of large backbone networks such as ResNet, which are designed for image classification instead of ReID, for feature extraction. However, these backbones may not be computationally efficient or the most suitable architectures for ReID. In this work, we aim to design a lightweight and suitable network for ReID. We propose a novel search space called Combined Depth Space (CDS), based on which we search for an efficient network architecture, which we call CDNet, via a differentiable architecture search algorithm. Through the use of the combined basic building blocks in CDS, CDNet tends to focus on combined pattern information that is typically found in images of pedestrians. We then propose a low-cost search strategy named the Top-k Sample Search strategy to make full use of the search space and avoid trapping in local optimal result. Furthermore, an effective Fine-grained Balance Neck (FBLNeck), which is removable at the inference time, is presented to balance the effects of triplet loss and softmax loss during the training process. Extensive experiments show that our CDNet (~1.8M parameters) has comparable performance with state-of-the-art lightweight networks.
翻訳日:2021-04-12 14:05:46 公開日:2021-04-09
# 挑戦的映像理解評価フレームワークとしてのfill-in-the-blank

Fill-in-the-blank as a Challenging Video Understanding Evaluation Framework ( http://arxiv.org/abs/2104.04182v1 )

ライセンス: Link先を確認
Santiago Castro, Ruoyao Wang, Pingxuan Huang, Ian Stewart, Nan Liu, Jonathan Stroud, Rada Mihalcea(参考訳) 言語非定型ビデオ理解に関する作業は,(1)多段質問によるビデオ質問応答,(2)候補回答の入手が容易であるという事実を生かして,モデルが比較的良好に機能する,(2)システム応答が根拠真理と異なると誤認識される可能性があるため,不正確であることが多いオープンエンド評価フレームワークに依存するビデオキャプション,の2つの課題を主に扱っている。 本稿では,従来の評価の欠点に対処し,複数の選択肢が与えられていない実生活環境を反映した映像理解評価フレームワークとして,Fil-in-the-Blanksを提案する。 タスクは、ビデオのキャプション内のマスク付き名詞句を予測するために、ビデオとその周辺のテキストをモデルに要求することで、ビデオのシステム理解をテストする。 28,000の動画と補足テストからなる新しいデータセットを導入する。 マルチモーダルモデルと強力な言語モデルの両方が人間のパフォーマンスと大きな差があることを示し、現在のビデオ理解ベンチマークよりもタスクが難しいことを示唆する。

Work to date on language-informed video understanding has primarily addressed two tasks: (1) video question answering using multiple-choice questions, where models perform relatively well because they exploit the fact that candidate answers are readily available; and (2) video captioning, which relies on an open-ended evaluation framework that is often inaccurate because system answers may be perceived as incorrect if they differ in form from the ground truth. In this paper, we propose fill-in-the-blanks as a video understanding evaluation framework that addresses these previous evaluation drawbacks, and more closely reflects real-life settings where no multiple choices are given. The task tests a system understanding of a video by requiring the model to predict a masked noun phrase in the caption of the video, given the video and the surrounding text. We introduce a novel dataset consisting of 28,000 videos and fill-in-the-blank tests. We show that both a multimodal model and a strong language model have a large gap with human performance, thus suggesting that the task is more challenging than current video understanding benchmarks.
翻訳日:2021-04-12 14:05:27 公開日:2021-04-09
# ファウショット学習とそれ以上の強化注意

Reinforced Attention for Few-Shot Learning and Beyond ( http://arxiv.org/abs/2104.04192v1 )

ライセンス: Link先を確認
Jie Hong, Pengfei Fang, Weihao Li, Tong Zhang, Christian Simon, Mehrtash Harandi and Lars Petersson(参考訳) 少ないショットラーニングは、サポートサンプルの数が限られているため、不明なクラスからのクエリサンプルを正しく認識することを目的としている。 本稿では,強化学習によって訓練された注目エージェントをバックボーンネットワークに装備することを提案する。 ポリシー勾配アルゴリズムは、時間とともに特徴地図上の代表領域を適応的にローカライズするためにエージェントを訓練する。 さらに,保留データの予測に基づいて報奨関数を設計すれば,注意機構が未知のクラスをまたいでより汎用化することができる。 大規模な実験は、強化された注意の助けを借りて、我々の埋め込みネットワークは、数ショットの学習において、より差別的な表現を徐々に生成する能力を持っていることを示している。 また,画像分類の課題に対する実験により,提案手法の有効性が示された。

Few-shot learning aims to correctly recognize query samples from unseen classes given a limited number of support samples, often by relying on global embeddings of images. In this paper, we propose to equip the backbone network with an attention agent, which is trained by reinforcement learning. The policy gradient algorithm is employed to train the agent towards adaptively localizing the representative regions on feature maps over time. We further design a reward function based on the prediction of the held-out data, thus helping the attention mechanism to generalize better across the unseen classes. The extensive experiments show, with the help of the reinforced attention, that our embedding network has the capability to progressively generate a more discriminative representation in few-shot learning. Moreover, experiments on the task of image classification also show the effectiveness of the proposed design.
翻訳日:2021-04-12 14:05:07 公開日:2021-04-09
# 軽量グラフ畳み込みネットワークを用いた骨格型手指認識

Skeleton-based Hand-Gesture Recognition with Lightweight Graph Convolutional Networks ( http://arxiv.org/abs/2104.04255v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) グラフ畳み込みネットワーク(GCN)は、ディープラーニングを任意の不規則領域、すなわちグラフに拡張することを目的としている。 それらの成功は、入力グラフのトポロジをどのように定義するかに大きく依存しており、既存のGCNアーキテクチャのほとんどは、事前に定義されたまたは手作りのグラフ構造に依存している。 本稿では,GCN設計の一環として入力グラフのトポロジ(あるいは接続性)を学習する新しい手法を提案する。 提案手法の主な貢献は, 畳み込みを実現する前に, ノードをその近傍から最適に集約する直交接続基盤を構築することである。 また,本手法では,学習ベースと基礎となるgcnを軽量にしつつも高い有効性を持つ正則化として機能する確率性基準も検討する。 スケルトンベースハンドジェスチャ認識の課題に関する実験により,学習したgcns w.r.t.の有効性が示された。 関連作品。

Graph convolutional networks (GCNs) aim at extending deep learning to arbitrary irregular domains, namely graphs. Their success is highly dependent on how the topology of input graphs is defined and most of the existing GCN architectures rely on predefined or handcrafted graph structures. In this paper, we introduce a novel method that learns the topology (or connectivity) of input graphs as a part of GCN design. The main contribution of our method resides in building an orthogonal connectivity basis that optimally aggregates nodes, through their neighborhood, prior to achieve convolution. Our method also considers a stochasticity criterion which acts as a regularizer that makes the learned basis and the underlying GCNs lightweight while still being highly effective. Experiments conducted on the challenging task of skeleton-based hand-gesture recognition show the high effectiveness of the learned GCNs w.r.t. the related work.
翻訳日:2021-04-12 14:04:51 公開日:2021-04-09
# CFNet:ロバストステレオマッチングのためのカスケードと融合コストボリューム

CFNet: Cascade and Fused Cost Volume for Robust Stereo Matching ( http://arxiv.org/abs/2104.04314v1 )

ライセンス: Link先を確認
Zhelun Shen, Yuchao Dai, Zhibo Rao(参考訳) 近年,大規模アノテートデータセットの容量の増大がステレオマッチングの大幅な進歩につながった。 しかし、これらの成功の大部分は特定のデータセットに限られており、他のデータセットにうまく当てはまらない。 主な課題は、さまざまなデータセットにわたる大きなドメイン差と不均衡な分散であり、現在のディープステレオマッチングモデルの現実的な適用性を著しく制限している。 本稿では,カスケードとフューズドのコストボリュームに基づくネットワークであるCFNetを提案し,ステレオマッチングネットワークのロバスト性を改善する。 まず、大きなドメイン差に対処するために、コストボリュームの融合表現を提案する。 複数の低分解能密度コスト体積を融合して受容場を拡大することにより、初期差分推定のための頑健な構造表現を抽出できる。 第2に,不均衡分布を緩和するカスケードコスト容積表現を提案する。 具体的には、分散に基づく不確実性推定を用いて、次の段階の不一致探索空間を適応的に調整し、この方法でネットワークを段階的に不一致の空間から逸脱させる。 相違探索空間を反復的に絞り込み、コスト容積分解能を向上させることにより、相違推定を粗大な方法で徐々に洗練する。 同じトレーニングイメージでトレーニングを行い、固定モデルパラメータとハイパーパラメータを用いて、KITTI、ETH3D、ミドルベリーデータセットで評価すると、提案手法は、最先端の全体的な性能を達成し、ロバストビジョンチャレンジ2020のステレオタスクにおける第1位を得る。 コードはhttps://github.com/g allenszl/CFNetで入手できる。

Recently, the ever-increasing capacity of large-scale annotated datasets has led to profound progress in stereo matching. However, most of these successes are limited to a specific dataset and cannot generalize well to other datasets. The main difficulties lie in the large domain differences and unbalanced disparity distribution across a variety of datasets, which greatly limit the real-world applicability of current deep stereo matching models. In this paper, we propose CFNet, a Cascade and Fused cost volume based network to improve the robustness of the stereo matching network. First, we propose a fused cost volume representation to deal with the large domain difference. By fusing multiple low-resolution dense cost volumes to enlarge the receptive field, we can extract robust structural representations for initial disparity estimation. Second, we propose a cascade cost volume representation to alleviate the unbalanced disparity distribution. Specifically, we employ a variance-based uncertainty estimation to adaptively adjust the next stage disparity search space, in this way driving the network progressively prune out the space of unlikely correspondences. By iteratively narrowing down the disparity search space and improving the cost volume resolution, the disparity estimation is gradually refined in a coarse-to-fine manner. When trained on the same training images and evaluated on KITTI, ETH3D, and Middlebury datasets with the fixed model parameters and hyperparameters, our proposed method achieves the state-of-the-art overall performance and obtains the 1st place on the stereo task of Robust Vision Challenge 2020. The code will be available at https://github.com/g allenszl/CFNet.
翻訳日:2021-04-12 14:04:36 公開日:2021-04-09
# メモリベース映像オブジェクトセグメンテーションにおける学習位置と目標整合性

Learning Position and Target Consistency for Memory-based Video Object Segmentation ( http://arxiv.org/abs/2104.04329v1 )

ライセンス: Link先を確認
Li Hu, Peng Zhang, Bang Zhang, Pan Pan, Yinghui Xu, Rong Jin(参考訳) 本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)の問題について検討する。 複数の研究が、メモリベースのアプローチがビデオオブジェクトのセグメンテーションに有効であることを示した。 主に、空間的にも時間的にもピクセルレベルのマッチングに基づいている。 メモリベースのアプローチの主な欠点は、フレーム間のシーケンシャルな順序を考慮せず、ターゲットからのオブジェクトレベルの知識を活用しないことである。 この制限に対処するために,lcmと呼ばれるメモリベースビデオオブジェクトセグメンテーションの位置と目標整合性フレームワークを学習することを提案する。 メモリ機構を適用してピクセルをグローバルに取得し、一方、より信頼性の高いセグメンテーションのための位置一貫性を学習する。 学習された位置応答は、ターゲットとイントラクタのより良い識別を促進する。 さらに、LCMは目標からのオブジェクトレベルの関係を導入して、目標の一貫性を維持する。 実験の結果,DAVISとYoutube-VOSベンチマークの両方において,LCMが最先端の性能を達成することがわかった。 DAVIS 2020の準教師付きVOSタスクでは、第1位にランク付けします。

This paper studies the problem of semi-supervised video object segmentation(VOS). Multiple works have shown that memory-based approaches can be effective for video object segmentation. They are mostly based on pixel-level matching, both spatially and temporally. The main shortcoming of memory-based approaches is that they do not take into account the sequential order among frames and do not exploit object-level knowledge from the target. To address this limitation, we propose to Learn position and target Consistency framework for Memory-based video object segmentation, termed as LCM. It applies the memory mechanism to retrieve pixels globally, and meanwhile learns position consistency for more reliable segmentation. The learned location response promotes a better discrimination between target and distractors. Besides, LCM introduces an object-level relationship from the target to maintain target consistency, making LCM more robust to error drifting. Experiments show that our LCM achieves state-of-the-art performance on both DAVIS and Youtube-VOS benchmark. And we rank the 1st in the DAVIS 2020 challenge semi-supervised VOS task.
翻訳日:2021-04-12 14:04:09 公開日:2021-04-09
# 視覚属性からのマルチモーダル顔合成

Multimodal Face Synthesis from Visual Attributes ( http://arxiv.org/abs/2104.04362v1 )

ライセンス: Link先を確認
Xing Di, Vishal M. Patel(参考訳) 視覚特性からの顔画像の合成は、その法執行や娯楽への応用により、コンピュータビジョンとバイオメトリックスにおいて重要な問題である。 近年の深層生成ネットワークの進歩により,視覚特性から高品質な顔画像の合成が可能になった。 しかし、既存の手法は属性から単眼画像(すなわち可視顔)を生成するために特別に設計されている。 本稿では,マルチモーダル顔画像を保存するアイデンティティを同時に合成する,新たな生成対向ネットワークを提案する。 可視性、スケッチ、熱性など ネットワークをトレーニングするために異なるドメインのペアデータを必要としない視覚的属性から。 本稿では,マルチモーダル顔画像を同時に合成するマルチモーダルストレッチアウトモジュールを備えた新しいジェネレータを提案する。 さらに、実画像と偽画像の識別を行う識別器にマルチモーダルストレッチインモジュールを導入する。 提案する属性に基づくマルチモーダル合成法の有効性を検証するため,いくつかの最先端手法との比較実験を行った。

Synthesis of face images from visual attributes is an important problem in computer vision and biometrics due to its applications in law enforcement and entertainment. Recent advances in deep generative networks have made it possible to synthesize high-quality face images from visual attributes. However, existing methods are specifically designed for generating unimodal images (i.e visible faces) from attributes. In this paper, we propose a novel generative adversarial network that simultaneously synthesizes identity preserving multimodal face images (i.e. visible, sketch, thermal, etc.) from visual attributes without requiring paired data in different domains for training the network. We introduce a novel generator with multimodal stretch-out modules to simultaneously synthesize multimodal face images. Additionally, multimodal stretch-in modules are introduced in the discriminator which discriminates between real and fake images. Extensive experiments and comparisons with several state-of-the-art methods are performed to verify the effectiveness of the proposed attribute-based multimodal synthesis method.
翻訳日:2021-04-12 14:03:55 公開日:2021-04-09
# CondenseNet V2: ディープネットワークのためのスパース機能更新

CondenseNet V2: Sparse Feature Reactivation for Deep Networks ( http://arxiv.org/abs/2104.04382v1 )

ライセンス: Link先を確認
Le Yang, Haojun Jiang, Ruojin Cai, Yulin Wang, Shiji Song, Gao Huang, Qi Tian(参考訳) 高密度接続によるディープネットワークの機能再利用は、高い計算効率を達成する効果的な方法である。 先日提案されたCondenseNetは、冗長な機能を削除すれば、このメカニズムをさらに改善できることを示した。 本稿では,スパース機能再活性化(SFR)という代替手法を提案する。 提案するネットワークであるCondenseNetV2では,1)先行層から最も重要な機能の集合を選択的に再利用し,2)先行層を積極的に更新し,後続層に対する有効性を向上する。 提案手法は画像分類(ImageNet, CIFAR)とオブジェクト検出(MSCOCO)において,理論的効率と実用的速度の両面で有望な性能を達成できることを示す。

Reusing features in deep networks through dense connectivity is an effective way to achieve high computational efficiency. The recent proposed CondenseNet has shown that this mechanism can be further improved if redundant features are removed. In this paper, we propose an alternative approach named sparse feature reactivation (SFR), aiming at actively increasing the utility of features for reusing. In the proposed network, named CondenseNetV2, each layer can simultaneously learn to 1) selectively reuse a set of most important features from preceding layers; and 2) actively update a set of preceding features to increase their utility for later layers. Our experiments show that the proposed models achieve promising performance on image classification (ImageNet and CIFAR) and object detection (MS COCO) in terms of both theoretical efficiency and practical speed.
翻訳日:2021-04-12 14:03:44 公開日:2021-04-09
# look before you leap: ワンステージのビジュアルグラウンドのためのランドマーク機能を学ぶ

Look Before You Leap: Learning Landmark Features for One-Stage Visual Grounding ( http://arxiv.org/abs/2104.04386v1 )

ライセンス: Link先を確認
Binbin Huang, Dongze Lian, Weixin Luo, Shenghua Gao(参考訳) LBYL(`Look Before You Leap')ネットワークは、エンドツーエンドのトレーニング可能なワンステージ視覚グラウンドとして提案されている。 LBYL-Netの背景にある考え方は直感的かつ直感的であり、対象対象を「ランドマーク」と相対的な空間的関係に基づいてローカライズする言語の記述に従う。 LBYL-Netの中核は目覚ましい特徴畳み込みモジュールであり、異なる方向の言語記述のガイダンスで視覚的特徴を伝達する。 したがって、そのようなモジュールは、現在のオブジェクトとそのコンテキスト間の相対的な空間的位置関係を符号化する。 次に、ランドマーク特徴畳み込みモジュールのコンテキスト情報と、対象の視覚特徴とを結合して接地を行う。 この特徴量畳み込み軽量化のために,我々は動的プログラミングアルゴリズム(動的マックスプーリングと呼ばれる)を導入し,その特徴量を抽出する。 目立った機能畳み込みモジュールのおかげで、コンテキスト情報を完全に考慮したLBYL-Netを設計するために、'Look Before You Leap'の人間の振る舞いを模倣する。 4つのグラウンドリングデータセットにおいて,本手法の有効性を示す実験を行った。 具体的には、LBYL-NetはReferitGameの最先端の2段階および1段階の手法よりも優れています。 RefCOCOとRefCOCO+では、我々のLBYL-Netは既存のワンステージ手法よりも同等の結果またはさらに良い結果を得る。

An LBYL (`Look Before You Leap') Network is proposed for end-to-end trainable one-stage visual grounding. The idea behind LBYL-Net is intuitive and straightforward: we follow a language's description to localize the target object based on its relative spatial relation to `Landmarks', which is characterized by some spatial positional words and some descriptive words about the object. The core of our LBYL-Net is a landmark feature convolution module that transmits the visual features with the guidance of linguistic description along with different directions. Consequently, such a module encodes the relative spatial positional relations between the current object and its context. Then we combine the contextual information from the landmark feature convolution module with the target's visual features for grounding. To make this landmark feature convolution light-weight, we introduce a dynamic programming algorithm (termed dynamic max pooling) with low complexity to extract the landmark feature. Thanks to the landmark feature convolution module, we mimic the human behavior of `Look Before You Leap' to design an LBYL-Net, which takes full consideration of contextual information. Extensive experiments show our method's effectiveness in four grounding datasets. Specifically, our LBYL-Net outperforms all state-of-the-art two-stage and one-stage methods on ReferitGame. On RefCOCO and RefCOCO+, Our LBYL-Net also achieves comparable results or even better results than existing one-stage methods.
翻訳日:2021-04-12 14:03:28 公開日:2021-04-09
# フローに基づく人体運動の自己回帰構造予測

Flow-based Autoregressive Structured Prediction of Human Motion ( http://arxiv.org/abs/2104.04391v1 )

ライセンス: Link先を確認
Mohsen Zand, Ali Etemad, and Michael Greenspan(参考訳) エンド・ツー・エンドのディープニューラルネットワークにおいて,時間的および空間的依存性を学習し,人間の運動前兆に対する新しい手法を提案する。 連接接続はフローベース生成モデルに基づく新しい自己回帰構造予測表現を用いて明確にモデル化される。 我々は、高次元構造入力シーケンスに基づいて、連続的なフレームで複雑な体のポーズの潜時空間を学習する。 各潜伏変数を構成するためには, 条件付き正規化流を用いた生成過程において, 関節位置の局所的滑らかさを考慮する。 結果として、シーケンス内のすべてのフレームレベルおよびジョイントレベル連続性がモデルに保存される。 これにより、フレーム間およびフレーム内関係とジョイント接続をパラメータ化し、ロバストな長期予測と短期予測を可能にする。 我々はHuman3.6MとAMASSの2つの挑戦的なベンチマークデータセットの実験を行い、提案手法が動き予測のためのシーケンス情報を効果的にモデル化し、48の総合実験シナリオのうち42の他の手法より優れていることを示した。

A new method is proposed for human motion predition by learning temporal and spatial dependencies in an end-to-end deep neural network. The joint connectivity is explicitly modeled using a novel autoregressive structured prediction representation based on flow-based generative models. We learn a latent space of complex body poses in consecutive frames which is conditioned on the high-dimensional structure input sequence. To construct each latent variable, the general and local smoothness of the joint positions are considered in a generative process using conditional normalizing flows. As a result, all frame-level and joint-level continuities in the sequence are preserved in the model. This enables us to parameterize the inter-frame and intra-frame relationships and joint connectivity for robust long-term predictions as well as short-term prediction. Our experiments on two challenging benchmark datasets of Human3.6M and AMASS demonstrate that our proposed method is able to effectively model the sequence information for motion prediction and outperform other techniques in 42 of the 48 total experiment scenarios to set a new state-of-the-art.
翻訳日:2021-04-12 14:03:06 公開日:2021-04-09
# デヴァナガリー、テルグ、マラヤラムにおけるテキスト認識のベンチマーク

Benchmarking Scene Text Recognition in Devanagari, Telugu and Malayalam ( http://arxiv.org/abs/2104.04437v1 )

ライセンス: Link先を確認
Minesh Mathew, Mohit Jain and CV Jawahar(参考訳) Deep Learningベースの英語シーンテキスト認識の成功に触発されて、Devanagari、Telugu、Malayalamの3つのIndicスクリプトに対して、シーンテキスト認識をポーズし、ベンチマークする。 Unicodeフォントから描画された合成語画像は、認識システムの訓練に使用される。 そして、上記のスクリプトにテキストを含む数百の実シーン画像からなる新しいIIIT-ILSTデータセットに、パフォーマンスをベンチマークする。 我々は、単語イメージを対応するテキストに書き起こすために、セグメンテーションフリーでハイブリッドだがエンドツーエンドのトレーニング可能なCNN-RNNディープニューラルネットワークを使用する。 切り抜いた単語画像は、サブワード単位に区分される必要がなく、その誤りを算出し、所定の単語画像に対して同時にバックプロパゲーションする。 ネットワークはCTC損失を用いて訓練されており、シーケンス対シーケンスの転写タスクに非常に効果的であることが証明されている。 ネットワーク内のCNN層は、単語画像から堅牢な特徴表現を抽出することを学ぶ。 畳み込みブロックによって学習された特徴のシーケンスは、RNN+CTCブロックによってラベルのシーケンスに転写される。 文字は単語の長さや語彙に縛られず、高い屈折率を持つインドの言語に理想的である。 IIIT-ILSTデータセット、合成語画像データセット、合成画像のレンダリングに使われるスクリプトはhttp://cvit.iiit.ac. in/research/projects /cvit-projects/iiit- ilstで入手できる。

Inspired by the success of Deep Learning based approaches to English scene text recognition, we pose and benchmark scene text recognition for three Indic scripts - Devanagari, Telugu and Malayalam. Synthetic word images rendered from Unicode fonts are used for training the recognition system. And the performance is bench-marked on a new IIIT-ILST dataset comprising of hundreds of real scene images containing text in the above mentioned scripts. We use a segmentation free, hybrid but end-to-end trainable CNN-RNN deep neural network for transcribing the word images to the corresponding texts. The cropped word images need not be segmented into the sub-word units and the error is calculated and backpropagated for the the given word image at once. The network is trained using CTC loss, which is proven quite effective for sequence-to-sequence transcription tasks. The CNN layers in the network learn to extract robust feature representations from word images. The sequence of features learnt by the convolutional block is transcribed to a sequence of labels by the RNN+CTC block. The transcription is not bound by word length or a lexicon and is ideal for Indian languages which are highly inflectional. IIIT-ILST dataset, synthetic word images dataset and the script used to render synthetic images are available at http://cvit.iiit.ac. in/research/projects /cvit-projects/iiit- ilst
翻訳日:2021-04-12 14:02:44 公開日:2021-04-09
# マルチタスクビデオ分析パイプラインのための強化学習型エネルギー効率フレームワーク

A Reinforcement-Learni ng-Based Energy-Efficient Framework for Multi-Task Video Analytics Pipeline ( http://arxiv.org/abs/2104.04443v1 )

ライセンス: Link先を確認
Yingying Zhao, Mingzhi Dong, Yujiang Wang, Da Feng, Qin Lv, Robert Dick, Dongsheng Li, Tun Lu, Ning Gu, Li Shang(参考訳) 近年,深層学習に基づくビデオ処理により,映像の変換が進んでいる。 しかし、ビデオ分析パイプラインは高いデータレートと複雑な推論アルゴリズムに依存するため、エネルギー集約的であり、エネルギー制約のあるアプリケーションでは採用が制限されている。 映像データストリームにおける空間冗長性と時間変動の観測を動機とし,マルチタスクビデオ解析パイプラインのエネルギー使用を最小限に抑える適応分解能最適化フレームワークの設計と評価を行った。 我々のフレームワークは、個々のタスクの入力データ解像度をヒューリスティックに調整する代わりに、深い強化学習を利用して、ビデオ分析パイプライン全体の入力解像度と計算を動的に制御する。 高次元映像分析機能の品質に対する様々な解像度の影響をモニタリングすることにより、映像解析結果の精度を高めることにより、提案するエンドツーエンド最適化フレームワークは、入力された映像ストリームの解像度を動的に制御する最適な非光学的ポリシーを学習し、エネルギー効率を劇的に最適化する。 強化学習によって制御される光フローは、精度を維持しつつ再計算につながる不要な時空間冗長性を最小化するためにフレームワークに組み込まれる。 提案フレームワークは,最も困難なマシンビジョンタスクの一つであるビデオインスタンスセグメンテーションに適用され,提案フレームワークのエネルギー消費効率は,youtube-visデータセットにおける類似精度の基準手法をはるかに上回っている。

Deep-learning-based video processing has yielded transformative results in recent years. However, the video analytics pipeline is energy-intensive due to high data rates and reliance on complex inference algorithms, which limits its adoption in energy-constrained applications. Motivated by the observation of high and variable spatial redundancy and temporal dynamics in video data streams, we design and evaluate an adaptive-resolution optimization framework to minimize the energy use of multi-task video analytics pipelines. Instead of heuristically tuning the input data resolution of individual tasks, our framework utilizes deep reinforcement learning to dynamically govern the input resolution and computation of the entire video analytics pipeline. By monitoring the impact of varying resolution on the quality of high-dimensional video analytics features, hence the accuracy of video analytics results, the proposed end-to-end optimization framework learns the best non-myopic policy for dynamically controlling the resolution of input video streams to achieve globally optimize energy efficiency. Governed by reinforcement learning, optical flow is incorporated into the framework to minimize unnecessary spatio-temporal redundancy that leads to re-computation, while preserving accuracy. The proposed framework is applied to video instance segmentation which is one of the most challenging machine vision tasks, and the energy consumption efficiency of the proposed framework has significantly surpassed all baseline methods of similar accuracy on the YouTube-VIS dataset.
翻訳日:2021-04-12 14:02:24 公開日:2021-04-09
# 自動的手法による自発音声のアライメントの研究:協調学習を成功させるために、子どもはタスク固有のレファレントをどのように利用するか?

Studying Alignment in Spontaneous Speech via Automatic Methods: How Do Children Use Task-specific Referents to Succeed in a Collaborative Learning Activity? ( http://arxiv.org/abs/2104.04429v1 )

ライセンス: Link先を確認
Utku Norman, Tanvi Dinkar, Barbara Bruno, Chlo\'e Clavel(参考訳) 異なる言語レベルにおいて、話者間のアライメントがある場合、対話は成功する。 本研究では,協調学習課題に携わる対話者間の対話を考察し,パフォーマンスと学習(すなわち,学習)について考察する。 タスク成功) 対話のアライメントプロセスに関連する。 本研究の主な貢献は、アライメントを自動学習する新しい手段を提案することであり、協調学習活動の文脈において、子ども間の完全に自発的な対話を考えることである。 本研究は, 子どもが目指す課題に関連する表現の使用, これらの表現のフォローアップ行動, 課題成功との関連について考察する。 タスクに関連する表現に焦点を当てることで、子どもがタスクに関連する(潜在的に未知の)用語を使用する方法に関する洞察が得られる。 この研究の最初の発見は、我々が提案する尺度がそのような文脈で語彙的アライメントの要素を捉えることができることの発見である。 これらの測定を通じて、パフォーマンスの悪いチームは、タスク成功を達成するために対話で遅すぎたり、アクションでお互いの指示に従うのが遅かったりすることが分かりました。 また, インターロカクタはタスクに関連する表現を導入する際に, ヘシテーション現象(フィラーを見ることで測定する)を示さないが, 表現を受け入れる前にヘシテーションを呈することが明らかとなった。 最後に、情報管理マーカー(談話マーカー「oh」によって測定される)が、(自動的に)推定された指示からのフォローアップ動作の一般付近で発生することを示す。 しかし、優れたパフォーマーはこれらのアクションに近いマーカーを持つ傾向がある。 我々の尺度は、たとえ総合的に学習の最終的な尺度に結びついていると結論付けることができなくても、対話における学習の細かな側面を反映している。

A dialogue is successful when there is alignment between the speakers, at different linguistic levels. In this work, we consider the dialogue occurring between interlocutors engaged in a collaborative learning task, and explore how performance and learning (i.e. task success) relate to dialogue alignment processes. The main contribution of this work is to propose new measures to automatically study alignment, to consider completely spontaneous spoken dialogues among children in the context of a collaborative learning activity. Our measures of alignment consider the children's use of expressions that are related to the task at hand, their follow-up actions of these expressions, and how it links to task success. Focusing on expressions related to the task gives us insight into the way children use (potentially unfamiliar) terminology related to the task. A first finding of this work is the discovery that the measures we propose can capture elements of lexical alignment in such a context. Through these measures, we find that teams with bad performance often aligned too late in the dialogue to achieve task success, and that they were late to follow up each other's instructions with actions. We also found that while interlocutors do not exhibit hesitation phenomena (which we measure by looking at fillers) in introducing expressions pertaining to the task, they do exhibit hesitation before accepting the expression, in the role of clarification. Lastly, we show that information management markers (measured by the discourse marker 'oh') occur in the general vicinity of the follow up actions from (automatically) inferred instructions. However, good performers tend to have this marker closer to these actions. Our measures still reflect some fine-grained aspects of learning in the dialogue, even if we cannot conclude that overall they are linked to the final measure of learning.
翻訳日:2021-04-12 14:01:38 公開日:2021-04-09
# GPUクラスタによる大規模言語モデルの効率的な学習

Efficient Large-Scale Language Model Training on GPU Clusters ( http://arxiv.org/abs/2104.04473v1 )

ライセンス: Link先を確認
Deepak Narayanan, Mohammad Shoeybi, Jared Casper, Patrick LeGresley, Mostofa Patwary, Vijay Korthikanti, Dmitri Vainbrand, Prethvi Kashinkunti, Julie Bernauer, Bryan Catanzaro, Amar Phanishayee, Matei Zaharia(参考訳) 大規模な言語モデルは様々なタスクに最先端の精度をもたらす。 しかし、これらの大きなモデルを効率的にトレーニングすることは、2つの理由により困難である。a) GPUメモリ容量が限られており、単一のGPUやマルチGPUサーバに大規模なモデルを適合させることが不可能である。 テンソルやパイプラインの並列化といった新しいモデル並列化手法がこれらの課題に対処するために提案されているが、残念なことに、単純な使用法は、高価なクロスノード通信や、他のデバイスで待機するアイドル時間といった様々な理由により、数千のGPUにおいて基本的なスケーリング問題を引き起こす。 本稿では、異なる種類の並列処理手法(テンソル、パイプライン、データパラレル)を何千ものgpuに拡張し、既存のシステムと比較して効率的にトレーニングできるモデルのサイズを2桁増加させる方法を示す。 本稿では,パイプライン並列化の様々な実装について検討し,従来の手法と比較して,メモリフットプリントに匹敵するスループットを10%以上向上できる新しいスケジュールを提案する。 テンソル,パイプライン,データ並列性のトレードオフを定量的に検討し,大規模モデルの分散トレーニングの設定方法に関する直観を提供する。 これらの手法の合成により、3072GPU上で502ペタFLOP/sで1兆個のパラメータを持つモデル上で、GPU当たりのスループットがピークの52%に達した場合、同様のサイズのモデルをトレーニングする以前の取り組みは、より低いスループット(理論ピークの36%)を達成することができる。 私たちのコードはhttps://github.com/n vidia/megatron-lmでオープンソース化されました。

Large language models have led to state-of-the-art accuracies across a range of tasks. However, training these large models efficiently is challenging for two reasons: a) GPU memory capacity is limited, making it impossible to fit large models on a single GPU or even on a multi-GPU server; and b) the number of compute operations required to train these models can result in unrealistically long training times. New methods of model parallelism such as tensor and pipeline parallelism have been proposed to address these challenges; unfortunately, naive usage leads to fundamental scaling issues at thousands of GPUs due to various reasons, e.g., expensive cross-node communication or idle periods waiting on other devices. In this work, we show how to compose different types of parallelism methods (tensor, pipeline, and data paralleism) to scale to thousands of GPUs, achieving a two-order-of-magnitu de increase in the sizes of models we can efficiently train compared to existing systems. We discuss various implementations of pipeline parallelism and propose a novel schedule that can improve throughput by more than 10% with comparable memory footprint compared to previously-proposed approaches. We quantitatively study the trade-offs between tensor, pipeline, and data parallelism, and provide intuition as to how to configure distributed training of a large model. The composition of these techniques allows us to perform training iterations on a model with 1 trillion parameters at 502 petaFLOP/s on 3072 GPUs with achieved per-GPU throughput of 52% of peak; previous efforts to train similar-sized models achieve much lower throughput (36% of theoretical peak). Our code has been open-sourced at https://github.com/n vidia/megatron-lm.
翻訳日:2021-04-12 14:01:06 公開日:2021-04-09
# 粒界因果関係に基づく階層的時系列クラスタリングによる状態推定

Granger Causality Based Hierarchical Time Series Clustering for State Estimation ( http://arxiv.org/abs/2104.04206v1 )

ライセンス: Link先を確認
Sin Yong Tan, Homagni Saha, Margarite Jacoby, Gregor P. Henze, Soumik Sarkar(参考訳) クラスタリングは教師なしの学習テクニックであり、大量のラベルなしデータを処理するのに役立ちます。 実生活における複雑な力学系は、しばしば大量のソースからのデータストリーミングを伴う。 すべてのソース変数を使って正確な状態推定を行うのが望ましいが、計算能力の要求が大きいため、しばしば非現実的であり、これらのケースを扱うための十分に堅牢なアルゴリズムは一般的ではない。 本研究では,シンボリック動的フィルタリングとグレンジャー因果関係に基づく階層的時系列クラスタリング手法を提案する。 提案手法は,多変量時系列における変数階層を形成し,関連する変数を各レベルにクラスタリングすることにより,ノイズや関連変数を分離する。 グランジャー因果関係に基づく新しい距離指標を提案し,時系列クラスタリングや経験的データセットを用いた検証に用いた。 占有検知および建築温度推定タスクによる実験結果は,データ次元を著しく低減した状態予測精度を維持しつつ,経験的データセットに対する忠実度を示す。

Clustering is an unsupervised learning technique that is useful when working with a large volume of unlabeled data. Complex dynamical systems in real life often entail data streaming from a large number of sources. Although it is desirable to use all source variables to form accurate state estimates, it is often impractical due to large computational power requirements, and sufficiently robust algorithms to handle these cases are not common. We propose a hierarchical time series clustering technique based on symbolic dynamic filtering and Granger causality, which serves as a dimensionality reduction and noise-rejection tool. Our process forms a hierarchy of variables in the multivariate time series with clustering of relevant variables at each level, thus separating out noise and less relevant variables. A new distance metric based on Granger causality is proposed and used for the time series clustering, as well as validated on empirical data sets. Experimental results from occupancy detection and building temperature estimation tasks show fidelity to the empirical data sets while maintaining state-prediction accuracy with substantially reduced data dimensionality.
翻訳日:2021-04-12 13:59:55 公開日:2021-04-09
# 病院退院時の有害事象予測のためのディープリカレントネットワークのブレンド知識

Blending Knowledge in Deep Recurrent Networks for Adverse Event Prediction at Hospital Discharge ( http://arxiv.org/abs/2104.04377v1 )

ライセンス: Link先を確認
Prithwish Chakraborty, James Codella, Piyush Madan, Ying Li, Hu Huang, Yoonyoung Park, Chao Yan, Ziqi Zhang, Cheng Gao, Steve Nyemba, Xu Min, Sanjib Basak, Mohamed Ghalwash, Zach Shahn, Parthasararathy Suryanarayanan, Italo Buleje, Shannon Harrer, Sarah Miller, Amol Rajmane, Colin Walsh, Jonathan Wanderer, Gigi Yuen Reed, Kenney Ng, Daby Sow, Bradley A. Malin(参考訳) ディープラーニングアーキテクチャは、さまざまなドメインで複雑なデータをモデリングするのに非常に高い能力を持っています。 しかし、これらのアーキテクチャは、主にデータ疎結合の問題により、30日間の可読性などの保険請求データを用いて、複雑な予測問題を支援する能力に制限されている。 その結果、古典的な機械学習手法、特にドメイン知識を手作りの機能に組み込む手法は、しばしばディープラーニングのアプローチに匹敵し、時として優れています。 本稿では,深層学習アーキテクチャにドメイン知識をブレンドして病院退院時の有害事象を予測することで,深層学習の可能性を実現する方法について述べる。 より具体的には、自己注意に基づくリカレントニューラルネットワークによって計算される患者データの表現を、臨床的に関連する特徴とともに融合する学習アーキテクチャを導入する。 我々は,大規模なクレームデータセットについて広範な実験を行い,ブレンド手法が標準的な機械学習手法よりも優れていることを示す。

Deep learning architectures have an extremely high-capacity for modeling complex data in a wide variety of domains. However, these architectures have been limited in their ability to support complex prediction problems using insurance claims data, such as readmission at 30 days, mainly due to data sparsity issue. Consequently, classical machine learning methods, especially those that embed domain knowledge in handcrafted features, are often on par with, and sometimes outperform, deep learning approaches. In this paper, we illustrate how the potential of deep learning can be achieved by blending domain knowledge within deep learning architectures to predict adverse events at hospital discharge, including readmissions. More specifically, we introduce a learning architecture that fuses a representation of patient data computed by a self-attention based recurrent neural network, with clinically relevant features. We conduct extensive experiments on a large claims dataset and show that the blended method outperforms the standard machine learning approaches.
翻訳日:2021-04-12 13:59:37 公開日:2021-04-09
# 深部ニューラルネットワークの確率的修復

Provable Repair of Deep Neural Networks ( http://arxiv.org/abs/2104.04413v1 )

ライセンス: Link先を確認
Matthew Sotoudeh and Aditya V. Thakur(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、過去10年間で人気が高まり、航空機の衝突回避などの安全上重要な領域で使われている。 これは、DNNで安全でない振る舞いを見つけるための多くのテクニックを動機付けている。 一方,本稿では,安全でない動作が見つかるとDNNの修正に対処する。 本稿では,ネットワークNを修復して,所定の仕様を満たす新しいネットワークN'を構築することの課題である,証明可能な修復問題を紹介する。 安全仕様が有限個の点を超える場合、我々の証明可能な点修復アルゴリズムは、使用するアクティベーション関数に関係なく、仕様を満足する最小限の修正を見つけることができる。 無限に多くの点を含む凸ポリトープに対処する安全仕様について,提案アルゴリズムは,DNNの仕様を満たす最小限の修復を,片方向線形活性化関数を用いて行うことができる。 これら2つのアルゴリズムの背後にある重要な洞察は、線形プログラミング問題に対する証明可能な修復を削減できるデカップリングDNNアーキテクチャの導入である。 実験の結果,様々な課題に対して,Provable repairアルゴリズムの有効性と有効性を示した。

Deep Neural Networks (DNNs) have grown in popularity over the past decade and are now being used in safety-critical domains such as aircraft collision avoidance. This has motivated a large number of techniques for finding unsafe behavior in DNNs. In contrast, this paper tackles the problem of correcting a DNN once unsafe behavior is found. We introduce the provable repair problem, which is the problem of repairing a network N to construct a new network N' that satisfies a given specification. If the safety specification is over a finite set of points, our Provable Point Repair algorithm can find a provably minimal repair satisfying the specification, regardless of the activation functions used. For safety specifications addressing convex polytopes containing infinitely many points, our Provable Polytope Repair algorithm can find a provably minimal repair satisfying the specification for DNNs using piecewise-linear activation functions. The key insight behind both of these algorithms is the introduction of a Decoupled DNN architecture, which allows us to reduce provable repair to a linear programming problem. Our experimental results demonstrate the efficiency and effectiveness of our Provable Repair algorithms on a variety of challenging tasks.
翻訳日:2021-04-12 13:59:21 公開日:2021-04-09
# 深層学習による組織依存複合材料のフルフィールド損傷と破壊パターン予測のためのデータ駆動アプローチ

A Data-Driven Approach to Full-Field Damage and Failure Pattern Prediction in Microstructure-Depen dent Composites using Deep Learning ( http://arxiv.org/abs/2104.04485v1 )

ライセンス: Link先を確認
Reza Sepasdar, Anuj Karpatne, Maryam Shakiba(参考訳) 本稿では, 組織依存複合材料の損傷と破壊を予測するため, 画像ベースのディープラーニングフレームワークを開発した。 この研究は、そのような材料の高忠実度シミュレーションの複雑さと計算コストに動機づけられている。 提案する深層学習フレームワークは, 組織形状に基づく複合材の二次元表現における破壊後の全応力分布とひび割れパターンを予測する。 関心材料は、高性能な一方向炭素繊維強化ポリマー複合材料として選択される。 ディープラーニングフレームワークには、2つのスタックされた完全な畳み込みネットワーク、すなわちGenerator 1とGenerator 2が含まれている。 まず、ジェネレータ1は、ミクロ構造図をフルフィールド後応力分布に変換することを学習する。 そして、ジェネレータ2は、ジェネレータ1の出力を障害パターンに変換することを学習する。 物理インフォームド・ロス関数も設計・組み込まれ,提案フレームワークの性能向上と検証プロセスの促進が図られている。 ディープラーニングフレームワークを訓練し、検証するための十分大きなデータセットを提供するため、効率的な有限要素フレームワークで4500の微細構造表現を合成してシミュレーションする。 提案手法は, 計算ソリッド・メカニクスにおいてシミュレーションする最も複雑な現象の2つである, 破壊後の全応力分布と故障パターンを効果的に予測できることを示す。

An image-based deep learning framework is developed in this paper to predict damage and failure in microstructure-depen dent composite materials. The work is motivated by the complexity and computational cost of high-fidelity simulations of such materials. The proposed deep learning framework predicts the post-failure full-field stress distribution and crack pattern in two-dimensional representations of the composites based on the geometry of microstructures. The material of interest is selected to be a high-performance unidirectional carbon fiber-reinforced polymer composite. The deep learning framework contains two stacked fully-convolutional networks, namely, Generator 1 and Generator 2, trained sequentially. First, Generator 1 learns to translate the microstructural geometry to the full-field post-failure stress distribution. Then, Generator 2 learns to translate the output of Generator 1 to the failure pattern. A physics-informed loss function is also designed and incorporated to further improve the performance of the proposed framework and facilitate the validation process. In order to provide a sufficiently large data set for training and validating the deep learning framework, 4500 microstructural representations are synthetically generated and simulated in an efficient finite element framework. It is shown that the proposed deep learning approach can effectively predict the composites' post-failure full-field stress distribution and failure pattern, two of the most complex phenomena to simulate in computational solid mechanics.
翻訳日:2021-04-12 13:59:02 公開日:2021-04-09
# 異種ネットワークと混合符号化に基づく高速・スマートニューロモルフィックセンサ

Fast, Smart Neuromorphic Sensors Based on Heterogeneous Networks and Mixed Encodings ( http://arxiv.org/abs/2104.04121v1 )

ライセンス: Link先を確認
Angel Yanguas-Gil(参考訳) ニューロモルフィックアーキテクチャは、変化する環境に反応、学習、応答できるスマートセンサーの実装に理想的に適している。 我々の研究は、昆虫の脳をモデルとして、異なる種類のニューロンやエンコーディングを組み込んだ異質なアーキテクチャをどのように利用して、入力処理、評価、応答を統合するシステムを構築することができるのかを理解する。 ここでは、時間とレートのエンコーディングの組み合わせが、わずか数サイクルで入力の仮説を生成し、その仮説を二次入力としてより詳細な分析に活用できる高速なセンサにどのようにつながるかを示す。

Neuromorphic architectures are ideally suited for the implementation of smart sensors able to react, learn, and respond to a changing environment. Our work uses the insect brain as a model to understand how heterogeneous architectures, incorporating different types of neurons and encodings, can be leveraged to create systems integrating input processing, evaluation, and response. Here we show how the combination of time and rate encodings can lead to fast sensors that are able to generate a hypothesis on the input in only a few cycles and then use that hypothesis as secondary input for more detailed analysis.
翻訳日:2021-04-12 13:58:26 公開日:2021-04-09
# Model LineUpper: AutoMLの複数のレベルでの対話型モデル比較をサポートする

Model LineUpper: Supporting Interactive Model Comparison at Multiple Levels for AutoML ( http://arxiv.org/abs/2104.04375v1 )

ライセンス: Link先を確認
Shweta Narkar, Yunfeng Zhang, Q. Vera Liao, Dakuo Wang, Justin D Weisz(参考訳) Automated Machine Learning (AutoML)は、モデル空間を探索し、候補モデルを生成することによって、モデル開発パイプラインを自動化する技術群である。 AutoMLの致命的な最終ステップは、数十の候補から最終モデルを選択することだ。 現在のAutoMLシステムでは、選択はパフォーマンスメトリクスによってのみサポートされる。 これまでの研究では、モデルが予測を行う方法など、追加の基準に基づいてMLモデルを評価することが示されていた。 比較は、エラーの種類から重要な機能、モデルが特定のインスタンスの予測を行う方法に至るまで、複数のレベルで起こりうる。 我々は,複数の説明可能なAI(XAI)と可視化技術を統合することで,AutoMLの対話型モデル比較を支援するために,‘tool{}’を開発した。 そこで我々は,システム評価を行い,AutoMLシステムにおいて,ユーザがモデル比較を行う方法を理解するための技術調査として利用した。 本稿では,モデル比較におけるXAI技術の利用と,AutoMLモデルの比較におけるデータ科学者のユニークなニーズのサポートについて論じる。

Automated Machine Learning (AutoML) is a rapidly growing set of technologies that automate the model development pipeline by searching model space and generating candidate models. A critical, final step of AutoML is human selection of a final model from dozens of candidates. In current AutoML systems, selection is supported only by performance metrics. Prior work has shown that in practice, people evaluate ML models based on additional criteria, such as the way a model makes predictions. Comparison may happen at multiple levels, from types of errors, to feature importance, to how the model makes predictions of specific instances. We developed \tool{} to support interactive model comparison for AutoML by integrating multiple Explainable AI (XAI) and visualization techniques. We conducted a user study in which we both evaluated the system and used it as a technology probe to understand how users perform model comparison in an AutoML system. We discuss design implications for utilizing XAI techniques for model comparison and supporting the unique needs of data scientists in comparing AutoML models.
翻訳日:2021-04-12 13:58:15 公開日:2021-04-09
# 自動車事故発生のための連続オンライン選択部門

Sequential Online Chore Division for Autonomous Vehicle Convoy Formation ( http://arxiv.org/abs/2104.04159v1 )

ライセンス: Link先を確認
Harel Yedidsion, Shani Alkoby, Peter Stone(参考訳) 選択分割(英: Chore division)とは、望ましくない「資源」を参加者の集合間で共有しなければならない公平な分割問題のクラスである。 通常、参加者の集合は最初から固定され、知られている。 本報告では, 参加者の総数と到着・出発時刻が不明である間, 参加者がオンラインで到着・出発する「シーケンシャル・オンライン・ショア・ディビジョン(SOCD)」という, 新たなバリエーションを紹介する。 SOCDでは、正確に一つのエージェントが任意の時間(例えば)に雑用を行う必要がある。 注意)と、パフォーマーを切り替えることにはコストがかかります。 本稿では,soddのメカニズムとして,側方支払いを用いた1つの集中型メカニズムと,参加者の負荷のバランスを図る2つの分散メカニズムを提案する。 分析と結果が自律的な車両輸送隊形成に動機づけられた領域で提示され、そこでは雑踏が護送隊を率いており、すべての支持者が風の抵抗を減らし、楽しむことができる。

Chore division is a class of fair division problems in which some undesirable "resource" must be shared among a set of participants, with each participant wanting to get as little as possible. Typically the set of participants is fixed and known at the outset. This paper introduces a novel variant, called sequential online chore division (SOCD), in which participants arrive and depart online, while the chore is being performed: both the total number of participants and their arrival/departure times are initially unknown. In SOCD, exactly one agent must be performing the chore at any give time (e.g. keeping lookout), and switching the performer incurs a cost. In this paper, we propose and analyze three mechanisms for SOCD: one centralized mechanism using side payments, and two distributed ones that seek to balance the participants' loads. Analysis and results are presented in a domain motivated by autonomous vehicle convoy formation, where the chore is leading the convoy so that all followers can enjoy reduced wind resistance.
翻訳日:2021-04-12 13:57:59 公開日:2021-04-09
# 継承機構としてのコントローラアーカイブを用いた学習によるモルフォ進化

Morpho-evolution with learning using a controller archive as an inheritance mechanism ( http://arxiv.org/abs/2104.04269v1 )

ライセンス: Link先を確認
L\'eni K. Le Goff, Edgar Buchanan, Emma Hart, Agoston E. Eiben, Wei Li, Matteo De Carlo, Alan F. Winfield, Matthew F. Hale, Robert Woolley, Mike Angus, Jon Timmis, Andy M. Tyrrell(参考訳) 進化ロボティクスでは、進化のみを利用するか、進化と学習を組み合わせることによって、ボディプランとコントローラを共同最適化できるいくつかのアプローチが示されている。 リッチな形態空間で働く場合、親のどちらとも非常に異なるボディプランを持つことが一般的であり、適切なコントローラを継承することに関して困難を引き起こす可能性がある。 そこで本研究では,身体計画を生成する進化的アルゴリズムと学習アルゴリズムを組み合わせて,それぞれの身体計画が生成されると,そのトポロジが生成されるニューラルコントローラのパラメータを最適化するフレームワークを提案する。 このアプローチの目新しいところは、学習したコントローラを格納するための外部アーカイブを追加することで、ロボットの明示的な「型」にマッピングする(これはボディプランの特徴に関して定義されている)。 ランダムに初期化したものから学習するのではなく,アーカイブから適切なコントローラを継承することにより,スクラッチから始まるアプローチと比較して,学習の速度と規模が時間とともに増加することを示す。 このフレームワークはまた、進化と学習の複雑な相互作用と、ロボット設計における形態的知性の役割に関する新しい洞察を提供する。

In evolutionary robotics, several approaches have been shown to be capable of the joint optimisation of body-plans and controllers by either using only evolution or combining evolution and learning. When working in rich morphological spaces, it is common for offspring to have body-plans that are very different from either of their parents, which can cause difficulties with respect to inheriting a suitable controller. To address this, we propose a framework that combines an evolutionary algorithm to generate body-plans and a learning algorithm to optimise the parameters of a neural controller where the topology of this controller is created once the body-plan of each offspring body-plan is generated. The key novelty of the approach is to add an external archive for storing learned controllers that map to explicit `types' of robots (where this is defined with respect the features of the body-plan). By inheriting an appropriate controller from the archive rather than learning from a randomly initialised one, we show that both the speed and magnitude of learning increases over time when compared to an approach that starts from scratch, using three different test-beds. The framework also provides new insights into the complex interactions between evolution and learning, and the role of morphological intelligence in robot design.
翻訳日:2021-04-12 13:57:39 公開日:2021-04-09
# 深層畳み込みニューラルネットワークの完全性認証のための可逆的透かし

Reversible Watermarking in Deep Convolutional Neural Networks for Integrity Authentication ( http://arxiv.org/abs/2104.04268v1 )

ライセンス: Link先を確認
Xiquan Guan, Huamin Feng, Weiming Zhang, Hang Zhou, Jie Zhang, and Nenghai Yu(参考訳) 深層畳み込みニューラルネットワークは過去数年間、コンピュータビジョンなど多くの分野で優れた貢献をしており、多くの研究者がよく訓練されたダウンロードネットワークを公開している。 しかし最近の研究では、モデル再利用攻撃とバックドア攻撃による整合性に関する深刻な懸念が示されている。 これらのオープンソースネットワークを保護するため、透かしなど多くのアルゴリズムが提案されている。 しかし、これらの既存のアルゴリズムは、ネットワークの内容を恒久的に修正し、整合性認証には適さない。 本稿では,整合性認証のための可逆な透かしアルゴリズムを提案する。 具体的には,深層畳み込みニューラルネットワークの可逆的透かし問題を示し,モデル圧縮技術のプルーニング理論を用いて,ヒストグラムシフトによる透かし情報の埋め込みに用いるホストシーケンスを構築する。 実験で示されるように, 可逆的透かしが分類性能に及ぼす影響は0.5%以下であり, 透かし抽出後, モデルのパラメータを完全に復元できる。 同時に、可逆な透かしを適用してモデルの完全性を検証することができ、モデルが違法に修正された場合、元のモデルによって生成された認証情報は抽出された透かし情報とは全く異なる。

Deep convolutional neural networks have made outstanding contributions in many fields such as computer vision in the past few years and many researchers published well-trained network for downloading. But recent studies have shown serious concerns about integrity due to model-reuse attacks and backdoor attacks. In order to protect these open-source networks, many algorithms have been proposed such as watermarking. However, these existing algorithms modify the contents of the network permanently and are not suitable for integrity authentication. In this paper, we propose a reversible watermarking algorithm for integrity authentication. Specifically, we present the reversible watermarking problem of deep convolutional neural networks and utilize the pruning theory of model compression technology to construct a host sequence used for embedding watermarking information by histogram shift. As shown in the experiments, the influence of embedding reversible watermarking on the classification performance is less than 0.5% and the parameters of the model can be fully recovered after extracting the watermarking. At the same time, the integrity of the model can be verified by applying the reversible watermarking: if the model is modified illegally, the authentication information generated by original model will be absolutely different from the extracted watermarking information.
翻訳日:2021-04-12 13:56:44 公開日:2021-04-09
# svdistnet: サラウンドビュー魚眼カメラによる近距離自己監視推定

SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround View Fisheye Cameras ( http://arxiv.org/abs/2104.04420v1 )

ライセンス: Link先を確認
Varun Ravi Kumar, Marvin Klingner, Senthil Yogamani, Markus Bach, Stefan Milz, Tim Fingscheidt and Patrick M\"ader(参考訳) 360{\deg}のシーン形状の知覚は、特にパーキングや都市運転のシナリオにおいて、自動走行に不可欠である。 通常はサラウンドビューの魚眼カメラで実現され、車両周辺の近距離領域に焦点を合わせている。 現在の深度推定手法の大半は、複数のカメラに簡単に一般化できない単一のカメラを採用することに焦点を当てている。 深度推定モデルは、カメラジオメトリが異なる数百万台の車に搭載された様々なカメラでテストする必要がある。 1台の車の中でも、内在性は製造耐久性によって異なる。 ディープラーニングモデルはこれらの変化に敏感であり、各カメラのバリエーションをトレーニングし、テストすることは事実上不可能である。 その結果,カメラパラメータを条件入力として用いた新しいカメラ幾何学適応型マルチスケールコンボリューションを提案する。 さらに、ペアワイズおよびパッチワイズベクトルベースの自己アテンションエンコーダネットワークによる距離推定を改善する。 魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。 また、異なるカメラ視角にまたがるアプローチの一般化を示し、コントリビューションを支援するために広範な実験を行う。 他の手法と比較して、KITTIデータセット(ピンホールカメラ画像)のフロントカメラデータを評価し、自己監督単分子法における最先端性能を実現する。 質的な結果を含む概要ビデオはhttps://youtu.be/bmX 0UcU9wtAで公開されている。 ベースラインコードとデータセットが公開される。

A 360{\deg} perception of scene geometry is essential for automated driving, notably for parking and urban driving scenarios. Typically, it is achieved using surround-view fisheye cameras, focusing on the near-field area around the vehicle. The majority of current depth estimation approaches focus on employing just a single camera, which cannot be straightforwardly generalized to multiple cameras. The depth estimation model must be tested on a variety of cameras equipped to millions of cars with varying camera geometries. Even within a single car, intrinsics vary due to manufacturing tolerances. Deep learning models are sensitive to these changes, and it is practically infeasible to train and test on each camera variant. As a result, we present novel camera-geometry adaptive multi-scale convolutions which utilize the camera parameters as a conditional input, enabling the model to generalize to previously unseen fisheye cameras. Additionally, we improve the distance estimation by pairwise and patchwise vector-based self-attention encoder networks. We evaluate our approach on the Fisheye WoodScape surround-view dataset, significantly improving over previous approaches. We also show a generalization of our approach across different camera viewing angles and perform extensive experiments to support our contributions. To enable comparison with other approaches, we evaluate the front camera data on the KITTI dataset (pinhole camera images) and achieve state-of-the-art performance among self-supervised monocular methods. An overview video with qualitative results is provided at https://youtu.be/bmX 0UcU9wtA. Baseline code and dataset will be made public.
翻訳日:2021-04-12 13:56:25 公開日:2021-04-09
# ice core scienceがコンピュータビジョンを満たす - 挑戦と展望

Ice Core Science Meets Computer Vision: Challenges and Perspectives ( http://arxiv.org/abs/2104.04430v1 )

ライセンス: Link先を確認
P. Bohleber, M. Roman, C. Barbante, S. Vascon, K. Siddiqi, M. Pelillo(参考訳) 極氷コアは、自然のアーカイブを通じて地球の気候システムの研究において中心的な役割を果たす。 圧力のかかる問題は、古気候の信号の識別が特に難しい、最も古く、非常に薄い氷コアの断面の分析である。 このために、レーザーアブレーション誘導結合プラズマ質量分析法(LA-ICP-MS)による最先端のイメージングは、ミクロンスケールの2D化学情報と視覚的特徴の組み合わせによって革命的になる可能性がある。 しかし, 化学画像における記録保存の定量的研究は, コンピュータビジョンコミュニティの専門知識を求める新たな疑問を提起する。 この新たな学際的フロンティアを説明するために、選択された重要な質問の集合を記述する。 1つの重要な課題は、主核軸に沿った単線プロファイルの古気候的意義を評価することである。 もう一つの重要な問題は、化学画像が豊富な情報を提供する堆積後層変化の評価である。 そのため、コンピュータビジョンとアイスコアサイエンスの2つの科学コミュニティの間で、より強固な交流が始まっている。 自動画像解析技術を用いた高分解能化学画像調査のための新しい枠組みの構築は、地球科学におけるla-icp-msケミカルイメージングの応用に既に広く貢献している。

Polar ice cores play a central role in studies of the earth's climate system through natural archives. A pressing issue is the analysis of the oldest, highly thinned ice core sections, where the identification of paleoclimate signals is particularly challenging. For this, state-of-the-art imaging by laser-ablation inductively-coupled plasma mass spectrometry (LA-ICP-MS) has the potential to be revolutionary due to its combination of micron-scale 2D chemical information with visual features. However, the quantitative study of record preservation in chemical images raises new questions that call for the expertise of the computer vision community. To illustrate this new inter-disciplinary frontier, we describe a selected set of key questions. One critical task is to assess the paleoclimate significance of single line profiles along the main core axis, which we show is a scale-dependent problem for which advanced image analysis methods are critical. Another important issue is the evaluation of post-depositional layer changes, for which the chemical images provide rich information. Accordingly, the time is ripe to begin an intensified exchange among the two scientific communities of computer vision and ice core science. The collaborative building of a new framework for investigating high-resolution chemical images with automated image analysis techniques will also benefit the already wide-spread application of LA-ICP-MS chemical imaging in the geosciences.
翻訳日:2021-04-12 13:56:01 公開日:2021-04-09
# 骨抑制胸部x線写真によるtb分類の改善

Improved TB classification using bone-suppressed chest radiographs ( http://arxiv.org/abs/2104.04518v1 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Ghada Zamzmi, Les Folio, Philip Alderson and Sameer Antani(参考訳) 胸部X線検査 (CXRs) は心肺異常を検出する最も一般的な診断である。 しかし、リブや鎖骨のような骨構造の存在は、診断ミスをもたらす微妙な異常を引き起こす可能性がある。 本研究の目的は, 結核 (tb) にともなう症状の検出に関連するdlワークフローを含む放射線学的解釈の誤りを軽減するために, 前頭骨cxrの骨構造を同定し除去する, 深層学習(dl)に基づく骨抑制モデルの構築である。 各種の深層構造を有する骨抑制モデルを訓練し,その性能を施設間試験で評価した。 ベストパフォーマンスモデル(ResNet-BS)は深センとモンゴメリーのCXRコレクションの骨の抑制に用いられる。 VGG-16モデルは、公開されているCXRの大規模なコレクションで事前訓練されている。 CXR抑制モデルは、深センとモンゴメリーのCXRコレクションの非骨抑制および骨抑制のCXRに対して個別に微調整され、正常な肺またはTBの徴候を示すものとして分類される。 これらのモデルの性能はいくつかのパフォーマンス指標を用いて比較され、統計的重要性を解析し、それらの予測はクラス選択関連マップ(CRM)を通して質的に解釈される。 深セン, モンゴメリー TB コレクションの非骨抑制 CXR (p<0.05) で個別に訓練したモデルでは, 骨抑制 CXR で訓練したモデルの方が有意に優れていた。 骨抑制CXRをトレーニングしたモデルでは, TB含有所見の検出が向上し, 特徴空間におけるデータポイントのクラスタリングが小型化され, 骨の抑制により, TB分類に対するモデル感度が向上した。

Chest X-rays (CXRs) are the most commonly performed diagnostic examination to detect cardiopulmonary abnormalities. However, the presence of bony structures such as ribs and clavicles can obscure subtle abnormalities resulting in diagnostic errors. This study aims to build a deep learning (DL)-based bone suppression model that identifies and removes these occluding bony structures in frontal CXRs to assist in reducing errors in radiological interpretation, including DL workflows, related to detecting manifestations consistent with Tuberculosis (TB). Several bone suppression models with various deep architectures are trained and their performances are evaluated in a cross-institutional test setting. The best-performing model (ResNet-BS) is used to suppress bones in the Shenzhen and Montgomery TB CXR collections. A VGG-16 model is pretrained on a large collection of publicly available CXRs. The CXR-pretrained model is then fine-tuned individually on the non-bone-suppressed and bone-suppressed CXRs of Shenzhen and Montgomery TB CXR collections to classify them as showing normal lungs or TB manifestations. The performances of these models are compared using several performance metrics, analyzed for statistical significance, and their predictions are qualitatively interpreted through class-selective relevance maps (CRM). It is observed that the models trained on bone-suppressed CXRs significantly outperformed the models trained individually on the non-bone-suppressed CXRs (p<0.05) in the Shenzhen and Montgomery TB collections. Models trained on bone-suppressed CXRs improved detection of TB-consistent findings and resulted in compact clustering of the data points in the feature space signifying that bone suppression improved the model sensitivity toward TB classification.
翻訳日:2021-04-12 13:55:36 公開日:2021-04-09
# FL-AGCNS:グラフ畳み込みネットワーク検索のためのフェデレーション学習フレームワーク

FL-AGCNS: Federated Learning Framework for Automatic Graph Convolutional Network Search ( http://arxiv.org/abs/2104.04141v1 )

ライセンス: Link先を確認
Chunnan Wang, Bozhou Chen, Geng Li, Hongzhi Wang(参考訳) 近年,グラフ畳み込みネットワーク (gcn) アーキテクチャの自動設計のためのニューラルネットワーク探索 (nas) 手法が提案されている。 それらはGCNの使用に非常に便利であるが、アプリケーションを制限する分散データセットとプライベートデータセットを備えたフェデレートラーニング(FL)のシナリオには、ほとんど適用できなかった。 さらに、多くの候補GCNモデルをスクラッチからトレーニングする必要がある。 FLシナリオに適したGCN NASアルゴリズムであるFL-AGCNSを提案する。 fl-agcnsは、分散エージェントがローカルデバイス上で個人情報を保持しながら強力なgcnモデルを協調的に設計できるように、連合進化最適化戦略を設計する。 さらに、GCN SuperNetと重み共有戦略を適用して、GCNモデルの評価を高速化する。 実験の結果,FL-AGCNSは,最先端NAS法やGCNモデルよりも早く,短時間で優れたGCNモデルを見出すことができた。

Recently, some Neural Architecture Search (NAS) techniques are proposed for the automatic design of Graph Convolutional Network (GCN) architectures. They bring great convenience to the use of GCN, but could hardly apply to the Federated Learning (FL) scenarios with distributed and private datasets, which limit their applications. Moreover, they need to train many candidate GCN models from scratch, which is inefficient for FL. To address these challenges, we propose FL-AGCNS, an efficient GCN NAS algorithm suitable for FL scenarios. FL-AGCNS designs a federated evolutionary optimization strategy to enable distributed agents to cooperatively design powerful GCN models while keeping personal information on local devices. Besides, it applies the GCN SuperNet and a weight sharing strategy to speed up the evaluation of GCN models. Experimental results show that FL-AGCNS can find better GCN models in short time under the FL framework, surpassing the state-of-the-arts NAS methods and GCN models.
翻訳日:2021-04-12 13:53:56 公開日:2021-04-09
# 多段階拡張CNN-LSTMモデルを用いた音声による抑うつレベル分類

Speech based Depression Severity Level Classification Using a Multi-Stage Dilated CNN-LSTM Model ( http://arxiv.org/abs/2104.04195v1 )

ライセンス: Link先を確認
Nadee Seneviratne, Carol Espy-Wilson(参考訳) 近年,発話に基づく抑うつ分類が盛んに普及している。 しかしながら、ほとんどの分類研究は、うつ病の被験者と非うつ病の被験者を区別する二分分類に焦点を当てている。 本稿では, うつ病分類課題を重度レベル分類問題として定式化し, 分類結果により粒度を付与する。 重度抑うつ障害の必要特徴である精神運動器の減速の結果起こる神経運動の協調の変化を捉えるために開発された調音調整機能(acfs)を用いる。 声道変数(TV)から派生したACFを用いて,拡張畳み込みニューラルネットワークに基づく抑うつ分類モデルを訓練し,セグメントレベルの予測を行う。 そこで我々は,セグメントレベルの予測からセッションレベルの予測を得るために,リカレントニューラルネットワークに基づくアプローチを提案する。 セグメントワイズ分類器の強度は、セッションワイズ分類器がそこから得られる埋め込みに基づいて訓練されたときに増幅されることを示す。 テレビから派生したACFをトレーニングしたモデルは、Mel Frequency Cepstral Coefficients (MFCCs) から派生したACFと比較して、セッションレベルの分類タスクにおけるUnweighted Average Recall (UAR)の27.47%の相対的な改善を示している。

Speech based depression classification has gained immense popularity over the recent years. However, most of the classification studies have focused on binary classification to distinguish depressed subjects from non-depressed subjects. In this paper, we formulate the depression classification task as a severity level classification problem to provide more granularity to the classification outcomes. We use articulatory coordination features (ACFs) developed to capture the changes of neuromotor coordination that happens as a result of psychomotor slowing, a necessary feature of Major Depressive Disorder. The ACFs derived from the vocal tract variables (TVs) are used to train a dilated Convolutional Neural Network based depression classification model to obtain segment-level predictions. Then, we propose a Recurrent Neural Network based approach to obtain session-level predictions from segment-level predictions. We show that strengths of the segment-wise classifier are amplified when a session-wise classifier is trained on embeddings obtained from it. The model trained on ACFs derived from TVs show relative improvement of 27.47% in Unweighted Average Recall (UAR) at the session-level classification task, compared to the ACFs derived from Mel Frequency Cepstral Coefficients (MFCCs).
翻訳日:2021-04-12 13:53:39 公開日:2021-04-09
# 協調操作のための分散ベイズオンライン学習

Distributed Bayesian Online Learning for Cooperative Manipulation ( http://arxiv.org/abs/2104.04342v1 )

ライセンス: Link先を確認
Pablo Budde gen. Dohmann, Armin Lederer, Marcel Di{\ss}emond, Sandra Hirche(参考訳) 複数のエージェントが物理的に結合しているタスク、例えば協調操作では、個々のエージェント間の協調が重要となり、相互作用のダイナミクスの正確な知識が必要になる。 この問題は一般に、システム全体の柔軟性と堅牢性に悪影響を及ぼす集中型推定器を用いて対処される。 この欠点を克服するために,ベイズ原理を用いた協調操作の模範的タスクのための分散学習フレームワークを提案する。 局所状態情報のみを使用して、各エージェントはオブジェクトのダイナミクスの見積もりを取得し、キネマティックスを把握します。 これらの局所的な推定は動的平均コンセンサスを用いて合成される。 この手法の強い確率的基礎のため、対象のダイナミクスと把握キネマティクスの各々の推定には不確実性の尺度が伴うので、高い確率で有界な予測誤差を保証できる。 さらに、ベイズ原理は、定常的な複雑性を持つ反復学習を直接可能とし、提案する学習方法は、リアルタイムアプリケーションでオンラインで使用できる。 本手法の有効性は, 模擬協調操作作業において実証される。

For tasks where the dynamics of multiple agents are physically coupled, e.g., in cooperative manipulation, the coordination between the individual agents becomes crucial, which requires exact knowledge of the interaction dynamics. This problem is typically addressed using centralized estimators, which can negatively impact the flexibility and robustness of the overall system. To overcome this shortcoming, we propose a novel distributed learning framework for the exemplary task of cooperative manipulation using Bayesian principles. Using only local state information each agent obtains an estimate of the object dynamics and grasp kinematics. These local estimates are combined using dynamic average consensus. Due to the strong probabilistic foundation of the method, each estimate of the object dynamics and grasp kinematics is accompanied by a measure of uncertainty, which allows to guarantee a bounded prediction error with high probability. Moreover, the Bayesian principles directly allow iterative learning with constant complexity, such that the proposed learning method can be used online in real-time applications. The effectiveness of the approach is demonstrated in a simulated cooperative manipulation task.
翻訳日:2021-04-12 13:53:15 公開日:2021-04-09
# 秘密鍵を用いたブロック幅画像変換による海賊耐性DNN透かし

Piracy-Resistant DNN Watermarking by Block-Wise Image Transformation with Secret Key ( http://arxiv.org/abs/2104.04241v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone and Hitoshi Kiya(参考訳) 本稿では,秘密鍵を用いた学習可能な画像変換手法を用いた新しいDNN透かし手法を提案する。 提案手法では,学習可能な変換画像を用いて,モデルに透かしパターンを組み込むことにより,モデルの所有権を遠隔で検証できる。 その結果、海賊行為に耐性があるため、元の透かしを海賊の透かしで上書きすることはできず、新しい透かしを追加すると、既存のDNN透かし法とは異なり、モデルの精度が低下する。 さらに、特別な事前定義されたトレーニングセットやトリガーセットは不要である。 提案手法をCIFAR-10データセット上で実証的に評価した。 その結果,高い透かし検出精度を維持しつつ,微調整や刈り込み攻撃に対して弾力性を示した。

In this paper, we propose a novel DNN watermarking method that utilizes a learnable image transformation method with a secret key. The proposed method embeds a watermark pattern in a model by using learnable transformed images and allows us to remotely verify the ownership of the model. As a result, it is piracy-resistant, so the original watermark cannot be overwritten by a pirated watermark, and adding a new watermark decreases the model accuracy unlike most of the existing DNN watermarking methods. In addition, it does not require a special pre-defined training set or trigger set. We empirically evaluated the proposed method on the CIFAR-10 dataset. The results show that it was resilient against fine-tuning and pruning attacks while maintaining a high watermark-detection accuracy.
翻訳日:2021-04-12 13:52:57 公開日:2021-04-09
# 制御リアプノフ法による逆強化学習

Inverse Reinforcement Learning a Control Lyapunov Approach ( http://arxiv.org/abs/2104.04483v1 )

ライセンス: Link先を確認
Samuel Tesfazgi, Armin Lederer and Sandra Hirche(参考訳) 知的なエージェントの意図をデモンストレーションから推測し、その後行動を予測することは、多くの協調的な環境で重要なタスクである。 この問題を解決するための一般的なアプローチは逆強化学習(IRL)の枠組みであり、観察されたエージェント、例えば人間のデモレーターは、その意図を反映し制御行動を通知する本質的なコスト関数に従って振る舞うと仮定される。 本研究では,任意のclfが有意値関数であることを示す逆最適性を利用して,実演から学習制御リアプノフ関数(clf)へirl推論問題を再構成する。 さらに、導出されたCLF定式化は、推論制御ポリシーの安定性を直接保証する。 提案手法の柔軟性は,連続環境における目標指向運動のデモンストレーションから学ぶことで示される。

Inferring the intent of an intelligent agent from demonstrations and subsequently predicting its behavior, is a critical task in many collaborative settings. A common approach to solve this problem is the framework of inverse reinforcement learning (IRL), where the observed agent, e.g., a human demonstrator, is assumed to behave according to an intrinsic cost function that reflects its intent and informs its control actions. In this work, we reformulate the IRL inference problem to learning control Lyapunov functions (CLF) from demonstrations by exploiting the inverse optimality property, which states that every CLF is also a meaningful value function. Moreover, the derived CLF formulation directly guarantees stability of inferred control policies. We show the flexibility of our proposed method by learning from goal-directed movement demonstrations in a continuous environment.
翻訳日:2021-04-12 13:52:44 公開日:2021-04-09
# 部分多様体上の非リプシッツ最適化のためのリーマンスムージング急降下法

A Riemannian smoothing steepest descent method for non-Lipschitz optimization on submanifolds ( http://arxiv.org/abs/2104.04199v1 )

ライセンス: Link先を確認
Chao Zhang, Xiaojun Chen, Shiqian Ma(参考訳) 本稿では,部分多様体上の非凸および非リプシッツ関数を最小化するリーマン滑らかな最急降下法を提案する。 リーマン多様体上の一般化された部分微分とリーマン勾配部分矛盾を定義・議論する。 リーマンスムージング・急勾配法によって生成される列の任意の累積点が、元の非リプシッツ問題の局所最適性に必要となる手法で用いられる滑らか化関数に付随する定常点であることを証明した。 リーマン勾配部分矛盾条件の下では、任意の集積点が元の非リプシッツ問題のリーマン極限定常点であることも証明する。 提案手法の有効性を実証するために数値実験を行った。

In this paper, we propose a Riemannian smoothing steepest descent method to minimize a nonconvex and non-Lipschitz function on submanifolds. The generalized subdifferentials on Riemannian manifold and the Riemannian gradient sub-consistency are defined and discussed. We prove that any accumulation point of the sequence generated by the Riemannian smoothing steepest descent method is a stationary point associated with the smoothing function employed in the method, which is necessary for the local optimality of the original non-Lipschitz problem. Under the Riemannian gradient sub-consistency condition, we also prove that any accumulation point is a Riemannian limiting stationary point of the original non-Lipschitz problem. Numerical experiments are conducted to demonstrate the efficiency of the proposed method.
翻訳日:2021-04-12 13:52:30 公開日:2021-04-09
# (参考訳) uppsala nlp at semeval-2021 task 2: word-in-context disambiguationにおける微調整と特徴抽出のための多言語モデル [全文訳有]

Uppsala NLP at SemEval-2021 Task 2: Multilingual Language Models for Fine-tuning and Feature Extraction in Word-in-Context Disambiguation ( http://arxiv.org/abs/2104.03767v2 )

ライセンス: CC BY 4.0
Huiling You, Xingran Zhu and Sara Stymne(参考訳) 本論文では,多言語・多言語・言語間の単語間曖昧化に関するSemEval-2021タスク2へのUppsala NLPの提出について述べる。 XLM-RoBERTa(XLMR)、Multilingual BERT(mBERT)、Multilingual distilled BERT(mDistilBERT)の3つの事前学習言語モデルの有用性を検討した。 これら3つのモデルを微調整と特徴抽出の2つの設定で比較した。 2つ目のケースでは、依存性ベースの情報を使う実験も行います。 微調整は特徴抽出よりも優れている。 XLMRは細調整と特徴抽出の両方でmBERTよりも優れているが、これらの2つのモデルは多言語設定で同様の性能を示す。 mDistilBERTは微調整では性能が良くないが、特徴抽出器として使用する場合、他のモデルと同様の結果が得られる。 我々はXLMRとmBERTで微調整した2つの最良のシステムを提出した。

We describe the Uppsala NLP submission to SemEval-2021 Task 2 on multilingual and cross-lingual word-in-context disambiguation. We explore the usefulness of three pre-trained multilingual language models, XLM-RoBERTa (XLMR), Multilingual BERT (mBERT) and multilingual distilled BERT (mDistilBERT). We compare these three models in two setups, fine-tuning and as feature extractors. In the second case we also experiment with using dependency-based information. We find that fine-tuning is better than feature extraction. XLMR performs better than mBERT in the cross-lingual setting both with fine-tuning and feature extraction, whereas these two models give a similar performance in the multilingual setting. mDistilBERT performs poorly with fine-tuning but gives similar results to the other models when used as a feature extractor. We submitted our two best systems, fine-tuned with XLMR and mBERT.
翻訳日:2021-04-12 13:14:40 公開日:2021-04-09
# (参考訳) ORBIT:Teachable Object Recognitionのための実世界のFew-Shotデータセット [全文訳有]

ORBIT: A Real-World Few-Shot Dataset for Teachable Object Recognition ( http://arxiv.org/abs/2104.03841v2 )

ライセンス: CC BY 4.0
Daniela Massiceti, Luisa Zintgraf, John Bronskill, Lida Theodorou, Matthew Tobias Harris, Edward Cutrell, Cecily Morrison, Katja Hofmann, Simone Stumpf(参考訳) オブジェクト認識は過去10年で大きな進歩を遂げてきたが、依然としてオブジェクトカテゴリごとに多くの高品質なトレーニング例に依存している。 対照的に、いくつかの例から新しいオブジェクトを学ぶことで、ロボット工学からユーザパーソナライズまで、多くのインパクトのあるアプリケーションが可能になる。 しかし、ほとんどの少数の機械学習研究は、現実世界にデプロイする際、これらのアプリケーションが直面する高いばらつきに欠けるベンチマークデータセットによって推進されている。 このギャップを埋めるため,我々は,視覚障害者を対象とした実世界の教示可能な物体認識システムとして,orbit datasetとbenchmarkを紹介する。 このデータセットには、携帯電話で視覚障害者が記録した486のオブジェクトの3,822本のビデオが含まれており、このベンチマークは現実的で非常に困難な認識問題を反映している。 我々は、ベンチマークで最初の最先端技術を設定し、さらなるイノベーションのための大きなスコープがあることを示し、ブラインド/ロービジョンコミュニティのためのツールを含む、幅広い現実世界のビジョンアプリケーションに影響を与える可能性を秘めている。 データセットはhttps://bit.ly/2OyEl Cjで、ベンチマークを実行するコードはhttps://bit.ly/39Ygi UWで入手できる。

Object recognition has made great advances in the last decade, but predominately still relies on many high-quality training examples per object category. In contrast, learning new objects from only a few examples could enable many impactful applications from robotics to user personalization. Most few-shot learning research, however, has been driven by benchmark datasets that lack the high variation that these applications will face when deployed in the real-world. To close this gap, we present the ORBIT dataset and benchmark, grounded in a real-world application of teachable object recognizers for people who are blind/low vision. The dataset contains 3,822 videos of 486 objects recorded by people who are blind/low-vision on their mobile phones, and the benchmark reflects a realistic, highly challenging recognition problem, providing a rich playground to drive research in robustness to few-shot, high-variation conditions. We set the first state-of-the-art on the benchmark and show that there is massive scope for further innovation, holding the potential to impact a broad range of real-world vision applications including tools for the blind/low-vision community. The dataset is available at https://bit.ly/2OyEl Cj and the code to run the benchmark at https://bit.ly/39Ygi UW.
翻訳日:2021-04-12 13:06:15 公開日:2021-04-09
# risk-conditioned distributional soft actor-critic for risk-sensitive navigation

Risk-Conditioned Distributional Soft Actor-Critic for Risk-Sensitive Navigation ( http://arxiv.org/abs/2104.03111v2 )

ライセンス: Link先を確認
Jinyoung Choi, Christopher R. Dance, Jung-eun Kim, Seulbin Hwang, Kyung-sik Park(参考訳) 深部強化学習(RL)に基づく現代のナビゲーションアルゴリズムは、有望な効率性と堅牢性を示す。 しかし、ほとんどの深いrlアルゴリズムはリスク中立な方法で動作し、たとえそのような遮蔽が性能の低下をほとんど起こさないとしても、ユーザーを比較的稀だが深刻な結果から守る特別な試みはしない。 さらに、そのようなアルゴリズムは訓練中のモデルの不正確さを確実にするために、訓練中にコスト・オブ・コリジョン(英語版)といくつかのドメイン・ランダム化を加える以外に、訓練対象の環境がひどく複雑であるにもかかわらず、規定を作らない。 本稿では,不確実性を認識したポリシを学習するだけでなく,コストのかかる微調整や再訓練を伴わずにリスク尺度を変更できる新しい分散RLアルゴリズムを提案する。 本手法は,部分的に観測されたナビゲーションタスクにおいて,ベースラインよりも優れた性能と安全性を示す。 また,本手法を用いて訓練したエージェントが,実行時に幅広いリスク対策に適応できることを実証した。

Modern navigation algorithms based on deep reinforcement learning (RL) show promising efficiency and robustness. However, most deep RL algorithms operate in a risk-neutral manner, making no special attempt to shield users from relatively rare but serious outcomes, even if such shielding might cause little loss of performance. Furthermore, such algorithms typically make no provisions to ensure safety in the presence of inaccuracies in the models on which they were trained, beyond adding a cost-of-collision and some domain randomization while training, in spite of the formidable complexity of the environments in which they operate. In this paper, we present a novel distributional RL algorithm that not only learns an uncertainty-aware policy, but can also change its risk measure without expensive fine-tuning or retraining. Our method shows superior performance and safety over baselines in partially-observed navigation tasks. We also demonstrate that agents trained using our method can adapt their policies to a wide range of risk measures at run-time.
翻訳日:2021-04-12 11:33:10 公開日:2021-04-09
# BSTC: 大規模中国語-英語音声翻訳データセット

BSTC: A Large-Scale Chinese-English Speech Translation Dataset ( http://arxiv.org/abs/2104.03575v2 )

ライセンス: Link先を確認
Ruiqing Zhang, Xiyang Wang, Chuanqiang Zhang, Zhongjun He, Hua Wu, Zhi Li, Haifeng Wang, Ying Chen, Qinfei Li(参考訳) 本稿では,中国語と英語の大規模翻訳データセットであるBSTC(Baidu Speech Translation Corpus)を提案する。 このデータセットは、約68時間のマンダリンデータ、手作業による書き起こしと英語への翻訳、自動音声認識(asr)モデルによる自動書き起こしを含む、講演や講義のライセンスビデオのコレクションに基づいて構築されている。 さらに,3人の経験豊富なインタプリタに対して,モックカンファレンスの設定でテスト講演を同時に解釈するように依頼しました。 このコーパスは,自動同時翻訳の研究と実用システムの開発を促進することが期待されている。 同時翻訳タスクを整理し,このコーパスを用いて同時翻訳システムの評価を行った。

This paper presents BSTC (Baidu Speech Translation Corpus), a large-scale Chinese-English speech translation dataset. This dataset is constructed based on a collection of licensed videos of talks or lectures, including about 68 hours of Mandarin data, their manual transcripts and translations into English, as well as automated transcripts by an automatic speech recognition (ASR) model. We have further asked three experienced interpreters to simultaneously interpret the testing talks in a mock conference setting. This corpus is expected to promote the research of automatic simultaneous translation as well as the development of practical systems. We have organized simultaneous translation tasks and used this corpus to evaluate automatic simultaneous translation systems.
翻訳日:2021-04-12 11:32:53 公開日:2021-04-09
# OpenGAN: オープンデータ生成によるオープンセット認識

OpenGAN: Open-Set Recognition via Open Data Generation ( http://arxiv.org/abs/2104.02939v2 )

ライセンス: Link先を確認
Shu Kong, Deva Ramanan(参考訳) 実世界の機械学習システムは、トレーニングデータとは異なる新しいテストデータを分析する必要がある。 K-ウェイ分類において、これは開集合認識(英語版)(open-set recognition)として鮮明に定式化され、その中核はK閉集合クラス以外の開集合データを識別する能力である。 オープンセット識別のための概念的にエレガントな2つのアイデアは、1) 外部データをオープンセットとして活用することにより、オープンvs閉鎖二分判別器を識別的に学習し、2) 閉セットデータ分布をGANを用いて教師なし学習し、その識別器をオープンセット確率関数として利用する。 しかしながら、前者はトレーニングのアウトレーヤに過度に適合するため、様々なオープンテストデータに対して不完全な一般化を行う。 後者は、おそらくGANの不安定な訓練のため、うまく機能しない。 そこで我々はopenganを提案する。openganは複数の技術的洞察を組み合わせることで,それぞれのアプローチの限界に対処している。 まず,ある実データに対して慎重に選択されたgan判別器が,既に最先端の成果を実現できることを示す。 第2に、逆合成された「フェイク」データを用いて、実際のオープントレーニングのサンプルセットを拡大する。 第三に、私たちはクローズドワールドのKウェイネットワークによって計算される機能に対して、識別器を構築します。 大規模な実験により、OpenGANは以前のオープンセット法よりも大幅に優れていた。

Real-world machine learning systems need to analyze novel testing data that differs from the training data. In K-way classification, this is crisply formulated as open-set recognition, core to which is the ability to discriminate open-set data outside the K closed-set classes. Two conceptually elegant ideas for open-set discrimination are: 1) discriminatively learning an open-vs-closed binary discriminator by exploiting some outlier data as the open-set, and 2) unsupervised learning the closed-set data distribution with a GAN and using its discriminator as the open-set likelihood function. However, the former generalizes poorly to diverse open test data due to overfitting to the training outliers, which unlikely exhaustively span the open-world. The latter does not work well, presumably due to the instable training of GANs. Motivated by the above, we propose OpenGAN, which addresses the limitation of each approach by combining them with several technical insights. First, we show that a carefully selected GAN-discriminator on some real outlier data already achieves the state-of-the-art. Second, we augment the available set of real open training examples with adversarially synthesized "fake" data. Third and most importantly, we build the discriminator over the features computed by the closed-world K-way networks. Extensive experiments show that OpenGAN significantly outperforms prior open-set methods.
翻訳日:2021-04-12 11:32:42 公開日:2021-04-09
# SOLD2: 自己管理オクルージョン対応ライン記述と検出

SOLD2: Self-supervised Occlusion-aware Line Description and Detection ( http://arxiv.org/abs/2104.03362v2 )

ライセンス: Link先を確認
R\'emi Pautrat, Juan-Ting Lin, Viktor Larsson, Martin R. Oswald, Marc Pollefeys(参考訳) 特徴点の検出と記述と比較すると、ラインセグメントの検出とマッチングにはさらなる課題がある。 しかし、行機能はマルチビュータスクのポイントを補完する有望な機能である。 線は画像勾配によって明確に定義されており、テクスチャの悪い地域でもしばしば現れ、頑丈な構造的手がかりを提供する。 そこで本研究では,1つのディープネットワークにおいて,ラインセグメントの最初の共同検出と記述を導入する。 自己教師型トレーニングのおかげで、アノテーション付き行ラベルを必要としないため、任意のデータセットに一般化できる。 この検出器は、ワイヤフレーム解析アプローチから外れた画像中の線分を再現可能かつ正確な位置決めを提供する。 近年のディスクリプタ学習の進歩を生かして,提案した行記述子は非常に差別的であり,視点の変化や閉塞に頑健なままである。 我々は,ホモグラフィックワープと実世界の視点変化を用いた複数のマルチビューデータセットに対して,従来の線検出と記述手法に対するアプローチを評価する。 私たちの全パイプラインは、高い再現性、ローカライゼーションの正確さ、メトリクスのマッチングを実現し、学習した機能ポイントメソッドでギャップを埋めるための第一歩を示しています。 コードはhttps://github.com/c vg/SOLD2.comで入手できる。

Compared to feature point detection and description, detecting and matching line segments offer additional challenges. Yet, line features represent a promising complement to points for multi-view tasks. Lines are indeed well-defined by the image gradient, frequently appear even in poorly textured areas and offer robust structural cues. We thus hereby introduce the first joint detection and description of line segments in a single deep network. Thanks to a self-supervised training, our method does not require any annotated line labels and can therefore generalize to any dataset. Our detector offers repeatable and accurate localization of line segments in images, departing from the wireframe parsing approach. Leveraging the recent progresses in descriptor learning, our proposed line descriptor is highly discriminative, while remaining robust to viewpoint changes and occlusions. We evaluate our approach against previous line detection and description methods on several multi-view datasets created with homographic warps as well as real-world viewpoint changes. Our full pipeline yields higher repeatability, localization accuracy and matching metrics, and thus represents a first step to bridge the gap with learned feature points methods. Code and trained weights are available at https://github.com/c vg/SOLD2.
翻訳日:2021-04-12 11:32:17 公開日:2021-04-09
# TokenPose: 人間の視点推定のためのキーポイントトークンの学習

TokenPose: Learning Keypoint Tokens for Human Pose Estimation ( http://arxiv.org/abs/2104.03516v2 )

ライセンス: Link先を確認
Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang, Shu-Tao Xia, Erjin Zhou(参考訳) 人間のポーズ推定は、キーポイントを見つけるために部品間の視覚的手がかりと解剖学的制約に深く依存する。 しかし、既存のcnnベースのメソッドの多くは視覚的表現に優れており、キーポイント間の制約関係を明示的に学習する能力が欠けている。 本稿では,人間のポーズ推定のためのトークン表現(tokenpose)に基づく新しい手法を提案する。 詳しくは、各キーポイントは、画像から制約関係と外観手がかりを同時に学習するトークンとして明示的に埋め込まれている。 広範な実験により、小規模および大規模のトークンポスモデルは、より軽量である一方で、最先端のcnnベースのモデルと同等であることが示された。 具体的には、私たちのTokenPose-SとTokenPose-Lはそれぞれ、COCO検証データセット上で72.5 APと75.8 APを達成し、パラメータ(\downarrow 80.6\%$; $\downarrow$56.8\%$) とGFLOPs$(\downarrow$ 75.3\%$; $\downarrow$24.7\%$) が大幅に削減される。

Human pose estimation deeply relies on visual clues and anatomical constraints between parts to locate keypoints. Most existing CNN-based methods do well in visual representation, however, lacking in the ability to explicitly learn the constraint relationships between keypoints. In this paper, we propose a novel approach based on Token representation for human Pose estimation~(TokenPos e). In detail, each keypoint is explicitly embedded as a token to simultaneously learn constraint relationships and appearance cues from images. Extensive experiments show that the small and large TokenPose models are on par with state-of-the-art CNN-based counterparts while being more lightweight. Specifically, our TokenPose-S and TokenPose-L achieve 72.5 AP and 75.8 AP on COCO validation dataset respectively, with significant reduction in parameters ($\downarrow80.6\%$ ; $\downarrow$ $56.8\%$) and GFLOPs ($\downarrow$$ 75.3\%$; $\downarrow$ $24.7\%$).
翻訳日:2021-04-12 11:31:59 公開日:2021-04-09
# 複数の劣化を伴うブラインド超解法のための条件付きメタネットワーク

Conditional Meta-Network for Blind Super-Resolution with Multiple Degradations ( http://arxiv.org/abs/2104.03926v2 )

ライセンス: Link先を確認
Guanghao Yin, Wei Wang, Zehuan Yuan, Dongdong Yu, Shouqian Sun, Changhu Wang(参考訳) 単一画像の超解像法(SISR)は単一劣化において大きな成功を収めているが、実際のシナリオでは複数の劣化効果で性能低下を被っている。 近年,複数の劣化に対する盲目および非盲目モデルが検討されている。 しかし、これらの手法は通常、トレーニングデータとテストデータの間の分散シフトに対して著しく劣化する。 この目的に向けて,SRフレームワークが入力分布の変化に適応する方法を学ぶのに役立つ条件付きメタネットワークフレームワーク(CMDSR)を初めて提案する。 本稿では,基本SRネットワーク(BaseNet)のパラメータの適応に使用する条件ネットを用いて,タスクレベルでの劣化を抽出する。 具体的には、我々のフレームワークのConditionNetは、最初に、同じタスクから一連の劣化したイメージパッチで構成されたサポートセットから劣化を学習する。 そして、適応的なBaseNetは条件の特徴に応じてパラメータを素早くシフトします。 さらに, 劣化を早期に抽出するために, 内部タスク間距離を減少させ, タスクレベルの機能間のタスク間距離を増加させるタスクコントラスト損失を提案する。 劣化マップを事前に定義しなければ、我々のブラインドフレームワークは1つのパラメータを更新して、かなりのSR結果を得ることができる。 広範囲にわたる実験は、様々な盲目、さらには盲目の方法に対するCMDSRの有効性を示す。 柔軟なBaseNet構造は、CMDSRが大規模なSISRモデルの一般的なフレームワークであることを明らかにする。

Although single-image super-resolution (SISR) methods have achieved great success on single degradation, they still suffer performance drop with multiple degrading effects in real scenarios. Recently, some blind and non-blind models for multiple degradations have been explored. However, those methods usually degrade significantly for distribution shifts between the training and test data. Towards this end, we propose a conditional meta-network framework (named CMDSR) for the first time, which helps SR framework learn how to adapt to changes in input distribution. We extract degradation prior at task-level with the proposed ConditionNet, which will be used to adapt the parameters of the basic SR network (BaseNet). Specifically, the ConditionNet of our framework first learns the degradation prior from a support set, which is composed of a series of degraded image patches from the same task. Then the adaptive BaseNet rapidly shifts its parameters according to the conditional features. Moreover, in order to better extract degradation prior, we propose a task contrastive loss to decrease the inner-task distance and increase the cross-task distance between task-level features. Without predefining degradation maps, our blind framework can conduct one single parameter update to yield considerable SR results. Extensive experiments demonstrate the effectiveness of CMDSR over various blind, even non-blind methods. The flexible BaseNet structure also reveals that CMDSR can be a general framework for large series of SISR models.
翻訳日:2021-04-12 11:31:31 公開日:2021-04-09