このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210712となっている論文です。

PDF登録状況(公開日: 20210712)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 多重光散乱による画像分類の改善 [全文訳有]

Improvement of image classification by multiple optical scattering ( http://arxiv.org/abs/2107.14051v1 )

ライセンス: CC BY 4.0
Xinyu Gao, Yi Li, Yanqing Qiu, Bangning Mao, Miaogen Chen, Yanlong Meng, Chunliu Zhao, Juan Kang, Yong Guo, and Changyu Shen(参考訳) 多重散乱は、光が非一様媒質に伝播するときに起こる。 多重散乱の間、画像は歪められ、その空間情報はスクランブル化していった。 しかし、画像情報は失われず、スペックルパターン(SP)の形で提示される。 本研究では,LCDとRGBレーザーを用いた光ランダム散乱システムを構築した。 その結果,画像から特徴を抽出するために,フィードフォワードニューラルネットワークと見なされるランダム散乱によって画像分類が改善されることがわかった。 コンピュータ上に展開したリッジ分類と合わせて,医療,農業,環境保護などの分野をカバーするさまざまなデータセットに対して,94%以上の優れた分類精度を達成した。 さらに,提案する光散乱システムは,エッジコンピューティングアプリケーションへのデプロイに適した高速・低消費電力・小型化という利点がある。

Multiple optical scattering occurs when light propagates in a non-uniform medium. During the multiple scattering, images were distorted and the spatial information they carried became scrambled. However, the image information is not lost but presents in the form of speckle patterns (SPs). In this study, we built up an optical random scattering system based on an LCD and an RGB laser source. We found that the image classification can be improved by the help of random scattering which is considered as a feedforward neural network to extracts features from image. Along with the ridge classification deployed on computer, we achieved excellent classification accuracy higher than 94%, for a variety of data sets covering medical, agricultural, environmental protection and other fields. In addition, the proposed optical scattering system has the advantages of high speed, low power consumption, and miniaturization, which is suitable for deploying in edge computing applications.
翻訳日:2021-08-01 13:32:33 公開日:2021-07-12
# (参考訳) 放電サマリを用いた自動ICD符号化と分類システムに関する体系的文献レビュー

A Systematic Literature Review of Automated ICD Coding and Classification Systems using Discharge Summaries ( http://arxiv.org/abs/2107.10652v1 )

ライセンス: CC BY 4.0
Rajvir Kaur, Jeewani Anupama Ginige and Oliver Obst(参考訳) フリーテキスト臨床物語の体系化は、資金、保険請求処理、研究などの二次的用途に有用であると長年認識されてきた。 コード割り当ての現在のシナリオは、非常に高価で、時間がかかり、エラーが発生しやすい手動プロセスである。 近年,自然言語処理(nlp),関連する機械学習(ml),深層学習(dl)の手法や手法が臨床物語の手作業によるコーディングの問題を解決し,人間のコーダが臨床コードをより正確かつ効率的に割り当てられるように支援する研究が数多く行われている。 この体系的な文献レビューは、適切なNLP, ML, DLメソッドと技術を利用して要約を出力するためにICD符号を割り当てる自動臨床コーディングシステムの概要を提供する。 我々は体系的レビューとメタ分析(prisma)ガイドラインの推奨報告項目に従い,2010年1月から2020年12月まで4つの学術データベース(pubmed, sciencedirect, association for computing machinery (acm) digital library, association for computational linguistics (acl) anthology)において包括的な出版物検索を行った。 我々は7,556の出版物をレビューした。 このレビューでは、放電サマリーを持つデータセット、NLP技術と他のデータ抽出プロセス、異なる特徴抽出および埋め込み技術が特定された。 分類法の性能を測定するために、異なる評価指標が用いられる。 最後に、ICDコードの自動割り当てに関心のある研究者に今後の研究指針を提供する。 ICDのコード予測精度の向上、大規模未同定臨床コーパスの利用可能化、および最新の分類システムへの取り組みが依然として求められている。 これは経験の浅いプログラマや研究者と知識をガイドし、共有するためのプラットフォームになり得る。

Codification of free-text clinical narratives have long been recognised to be beneficial for secondary uses such as funding, insurance claim processing and research. The current scenario of assigning codes is a manual process which is very expensive, time-consuming and error prone. In recent years, many researchers have studied the use of Natural Language Processing (NLP), related Machine Learning (ML) and Deep Learning (DL) methods and techniques to resolve the problem of manual coding of clinical narratives and to assist human coders to assign clinical codes more accurately and efficiently. This systematic literature review provides a comprehensive overview of automated clinical coding systems that utilises appropriate NLP, ML and DL methods and techniques to assign ICD codes to discharge summaries. We have followed the Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA ) guidelines and conducted a comprehensive search of publications from January, 2010 to December 2020 in four academic databases- PubMed, ScienceDirect, Association for Computing Machinery(ACM) Digital Library, and the Association for Computational Linguistics(ACL) Anthology. We reviewed 7,556 publications; 38 met the inclusion criteria. This review identified: datasets having discharge summaries; NLP techniques along with some other data extraction processes, different feature extraction and embedding techniques. To measure the performance of classification methods, different evaluation metrics are used. Lastly, future research directions are provided to scholars who are interested in automated ICD code assignment. Efforts are still required to improve ICD code prediction accuracy, availability of large-scale de-identified clinical corpora with the latest version of the classification system. This can be a platform to guide and share knowledge with the less experienced coders and researchers.
翻訳日:2021-07-25 13:17:22 公開日:2021-07-12
# (参考訳) Lumen: テキスト中の影響キューを出力する機械学習フレームワーク [全文訳有]

Lumen: A Machine Learning Framework to Expose Influence Cues in Text ( http://arxiv.org/abs/2107.10655v1 )

ライセンス: CC BY 4.0
Hanyu Shi, Mirela Silva, Daniel Capecci, Luiz Giovanini, Lauren Czech, Juliana Fernandes, Daniela Oliveira(参考訳) フィッシングと偽情報(英: phishing and disinformation)は、攻撃者がテキストに影響力のあるヒントを常に適用して、より魅力的なものにするための、人気のあるソーシャルエンジニアリング攻撃である。 i) 説得, (ii) フレーミング, (iii) 感情, (iv) 客観性と主観性, (v) 罪悪感, (vi) 強調の使用。 ルーメンは、偽情報、フィッシング、超党派ニュース、主流ニュースからなる3Kテキストのデータセットを新たに開発した。 他の学習モデルと比較して、LumenとLSTMは最良のF1-microスコアを示したが、Lumenはより良い解釈性を得た。 この結果から,人間による検出の精度向上と,誤認のあるオンラインコンテンツにユーザが陥る可能性を低減するために,自動ラベリングツールを応用することを目指して,MLがテキストに影響を及ぼす可能性を強調した。

Phishing and disinformation are popular social engineering attacks with attackers invariably applying influence cues in texts to make them more appealing to users. We introduce Lumen, a learning-based framework that exposes influence cues in text: (i) persuasion, (ii) framing, (iii) emotion, (iv) objectivity/subjecti vity, (v) guilt/blame, and (vi) use of emphasis. Lumen was trained with a newly developed dataset of 3K texts comprised of disinformation, phishing, hyperpartisan news, and mainstream news. Evaluation of Lumen in comparison to other learning models showed that Lumen and LSTM presented the best F1-micro score, but Lumen yielded better interpretability. Our results highlight the promise of ML to expose influence cues in text, towards the goal of application in automatic labeling tools to improve the accuracy of human-based detection and reduce the likelihood of users falling for deceptive online content.
翻訳日:2021-07-25 13:16:05 公開日:2021-07-12
# HANT: ハードウェア対応ネットワークトランスフォーメーション

HANT: Hardware-Aware Network Transformation ( http://arxiv.org/abs/2107.10624v1 )

ライセンス: Link先を確認
Pavlo Molchanov and Jimmy Hall and Hongxu Yin and Jan Kautz and Nicolo Fusi and Arash Vahdat(参考訳) トレーニングされたネットワークを前提にすれば、特定のハードウェアへのデプロイの効率性にどのように対応できるでしょうか? 一般的に使われているハードウェア対応ネットワーク圧縮技術は、プルーニング、カーネル融合、量子化、精度低下といった問題に対処する。 しかし、これらのアプローチは基盤となるネットワーク操作を変えない。 本稿では,ニューラルネットワーク検索のようなアプローチを用いて,非効率な操作をより効率的な代替手段に置き換えることで,ネットワークを高速化するハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 第1フェーズでは、教師モデルの各レイヤ毎の多数の代替操作を、階層的特徴写像蒸留を用いてトレーニングする。 第2段階では、効率的な演算の組合せ選択は、数秒で解決できる整数最適化問題に緩和される。 カーネルの融合と量子化によりHANTを拡張してスループットをさらに向上する。 EfficientNetファミリの高速化に関する実験結果は、ImageNetデータセットのトップ1の精度において、HANTが最大3.6倍、<0.4%削減できることを示している。 同じレイテンシレベルを比較する場合、HANTはEfficientNet-B4を3%高い精度でEfficientNet-B1と同じレイテンシに高速化することができる。 1層あたり197層までの大規模なオペレーションプールを調査し、選択したオペレーションと最終アーキテクチャに関する洞察を提供する。

Given a trained network, how can we accelerate it to meet efficiency needs for deployment on particular hardware? The commonly used hardware-aware network compression techniques address this question with pruning, kernel fusion, quantization and lowering precision. However, these approaches do not change the underlying network operations. In this paper, we propose hardware-aware network transformation (HANT), which accelerates a network by replacing inefficient operations with more efficient alternatives using a neural architecture search like approach. HANT tackles the problem in two phase: In the first phase, a large number of alternative operations per every layer of the teacher model is trained using layer-wise feature map distillation. In the second phase, the combinatorial selection of efficient operations is relaxed to an integer optimization problem that can be solved in a few seconds. We extend HANT with kernel fusion and quantization to improve throughput even further. Our experimental results on accelerating the EfficientNet family show that HANT can accelerate them by up to 3.6x with <0.4% drop in the top-1 accuracy on the ImageNet dataset. When comparing the same latency level, HANT can accelerate EfficientNet-B4 to the same latency as EfficientNet-B1 while having 3% higher accuracy. We examine a large pool of operations, up to 197 per layer, and we provide insights into the selected operations and final architectures.
翻訳日:2021-07-25 12:00:39 公開日:2021-07-12
# 正規化分類アウェア量子化

Regularized Classification-Aware Quantization ( http://arxiv.org/abs/2107.09716v1 )

ライセンス: Link先を確認
Daniel Severo, Elad Domanovitz, Ashish Khisti(参考訳) 伝統的に、量子化はデータソースの再構成エラーを最小限に抑えるように設計されている。 下流の分類タスクを考慮すると、他の歪みの尺度、例えば0-1の分類損失が興味をそそる。 さらに,これらの量化器の性能は,オンラインでの学習が必ずしも不可能であるため,生産に投入しても劣化しないことが望ましい。 本研究では,バイナリ分類タスクの分散量子化スキームを学習するアルゴリズムのクラスを提案する。 提案手法は未知のデータに対して良好に動作し,データセットサイズの2次項に比例する従来の手法よりも高速である。 復元誤差で0-1損失を正則化することで機能する。 本稿では, 合成混合および二変量ガウスデータの実験を行い, トレーニング, テスト, 一般化誤差を文献からのベンチマーク量子化スキーム群と比較する。 本手法は正規化分類認識量子化と呼ばれる。

Traditionally, quantization is designed to minimize the reconstruction error of a data source. When considering downstream classification tasks, other measures of distortion can be of interest; such as the 0-1 classification loss. Furthermore, it is desirable that the performance of these quantizers not deteriorate once they are deployed into production, as relearning the scheme online is not always possible. In this work, we present a class of algorithms that learn distributed quantization schemes for binary classification tasks. Our method performs well on unseen data, and is faster than previous methods proportional to a quadratic term of the dataset size. It works by regularizing the 0-1 loss with the reconstruction error. We present experiments on synthetic mixture and bivariate Gaussian data and compare training, testing, and generalization errors with a family of benchmark quantization schemes from the literature. Our method is called Regularized Classification-Aware Quantization.
翻訳日:2021-07-25 11:58:30 公開日:2021-07-12
# Project Achoo: 息、声、口の記録からのCOVID-19検出のための実用モデルと応用

Project Achoo: A Practical Model and Application for COVID-19 Detection from Recordings of Breath, Voice, and Cough ( http://arxiv.org/abs/2107.10716v1 )

ライセンス: Link先を確認
Alexander Ponomarchuk and Ilya Burenko and Elian Malkin and Ivan Nazarov and Vladimir Kokh and Manvel Avetisian and Leonid Zhukov(参考訳) 新型コロナウイルスのパンデミックは、感染検出とモニタリングソリューションに対する大きな関心と需要を生み出した。 本稿では,消費者向けデバイスを用いた記録を用いて,covid-19を迅速にトリアージする機械学習手法を提案する。 この手法は,信号処理手法と微調整深層学習ネットワークを組み合わせることで,信号の識別,コークス検出,分類を行う手法を提供する。 我々はまた、症状チェッカーと音声、息、うず信号を使って新型コロナウイルスの感染を検知するモバイルアプリケーションを開発し、展開した。 アプリケーションは、オープンソースデータセットと、エンドユーザによるベータテスト中に収集されたノイズの多いデータの両方で、堅牢なパフォーマンスを示した。

The COVID-19 pandemic created a significant interest and demand for infection detection and monitoring solutions. In this paper we propose a machine learning method to quickly triage COVID-19 using recordings made on consumer devices. The approach combines signal processing methods with fine-tuned deep learning networks and provides methods for signal denoising, cough detection and classification. We have also developed and deployed a mobile application that uses symptoms checker together with voice, breath and cough signals to detect COVID-19 infection. The application showed robust performance on both open sourced datasets and on the noisy data collected during beta testing by the end users.
翻訳日:2021-07-25 11:57:47 公開日:2021-07-12
# (参考訳) 分子特性予測のための説明可能なグラフニューラルネットワークの定量的評価 [全文訳有]

Quantitative Evaluation of Explainable Graph Neural Networks for Molecular Property Prediction ( http://arxiv.org/abs/2107.04119v2 )

ライセンス: CC BY 4.0
Jiahua Rao, Shuangjia Zheng, Yuedong Yang(参考訳) 機械学習の進歩は、グラフニューラルネットワークに基づく薬物発見法につながり、分子設計、化学合成計画、分子特性予測に有望な結果をもたらした。 しかしながら、現在のグラフニューラルネットワーク(GNN)は、その解釈可能性の欠如により、薬物発見への受容が制限されている。 この大きな弱点は、説明可能な人工知能(XAI)技術の発展によって緩和されているが、ほとんどの説明可能なタスクにおける「地下真理」の割り当ては、最終的に人間の主観的な判断と一致し、モデル解釈の質を量的に評価することが困難である。 本研究では,まず3段階のベンチマークデータセットを構築し,最先端gnnモデルの解釈性を定量的に評価する。 そして,最近のXAI手法と異なるGNNアルゴリズムを組み合わせることで,薬物発見のメリット,限界,今後の可能性を明らかにする。 結果として、GradInputとIGは一般的に、特にGraphNetやCMPNNと組み合わせた場合、GNNにとって最良のモデル解釈能力を提供する。 統合され開発されているXAIパッケージは、完全にオープンソースであり、他の薬物発見タスクで新しいモデルをトレーニングするために、実践者が使用することができる。

Advances in machine learning have led to graph neural network-based methods for drug discovery, yielding promising results in molecular design, chemical synthesis planning, and molecular property prediction. However, current graph neural networks (GNNs) remain of limited acceptance in drug discovery is limited due to their lack of interpretability. Although this major weakness has been mitigated by the development of explainable artificial intelligence (XAI) techniques, the "ground truth" assignment in most explainable tasks ultimately rests with subjective judgments by humans so that the quality of model interpretation is hard to evaluate in quantity. In this work, we first build three levels of benchmark datasets to quantitatively assess the interpretability of the state-of-the-art GNN models. Then we implemented recent XAI methods in combination with different GNN algorithms to highlight the benefits, limitations, and future opportunities for drug discovery. As a result, GradInput and IG generally provide the best model interpretability for GNNs, especially when combined with GraphNet and CMPNN. The integrated and developed XAI package is fully open-sourced and can be used by practitioners to train new models on other drug discovery tasks.
翻訳日:2021-07-18 18:35:31 公開日:2021-07-12
# (参考訳) 説明可能なAI:現状と今後の方向性 [全文訳有]

Explainable AI: current status and future directions ( http://arxiv.org/abs/2107.07045v1 )

ライセンス: CC BY 4.0
Prashant Gohel, Priyanka Singh and Manoranjan Mohanty(参考訳) 説明可能な人工知能(XAI)は、人工知能(AI)分野における新たな研究分野である。 XAIは、AIが特定のソリューション(例えば分類やオブジェクト検出)をどのように取得したかを説明し、他の"wh"質問にも答えることができる。 この説明は従来のaiでは不可能である。 信頼と透明性のためにノウハウが必要とされる防衛、医療、法と秩序、自動運転車など、重要な応用には説明責任が不可欠である。 これまでに数多くのXAI技術が応用されている。 本稿では,マルチメディア(テキスト,画像,音声,ビデオ)の観点から,これらの技術の概要について述べる。 これらの手法の利点と欠点について論じており、今後の方向性への指針も提示されている。

Explainable Artificial Intelligence (XAI) is an emerging area of research in the field of Artificial Intelligence (AI). XAI can explain how AI obtained a particular solution (e.g., classification or object detection) and can also answer other "wh" questions. This explainability is not possible in traditional AI. Explainability is essential for critical applications, such as defense, health care, law and order, and autonomous driving vehicles, etc, where the know-how is required for trust and transparency. A number of XAI techniques so far have been purposed for such applications. This paper provides an overview of these techniques from a multimedia (i.e., text, image, audio, and video) point of view. The advantages and shortcomings of these techniques have been discussed, and pointers to some future directions have also been provided.
翻訳日:2021-07-17 06:56:27 公開日:2021-07-12
# (参考訳) 敵対的サプライズによる探索と制御 [全文訳有]

Explore and Control with Adversarial Surprise ( http://arxiv.org/abs/2107.07394v1 )

ライセンス: CC BY 4.0
Arnaud Fickinger, Natasha Jaques, Samyak Parajuli, Michael Chang, Nicholas Rhinehart, Glen Berseth, Stuart Russell, Sergey Levine(参考訳) 強化学習(rl)は、目標指向のポリシーを学習するためのフレームワークを提供する。 しかし,報酬を設計するには工学的な努力を要することが多いため,報酬のない学習の問題に関心があり,エージェントはタスク固有のインセンティブがない場合に有用な行動を見つけなければならない。 内在的モチベーション(英: Intrinsic motivation)は、RLエージェントがより良い探索やスキルの発見につながるように最適化するための汎用的な目標を開発する、教師なしのRL技法のファミリーである。 本稿では,RLエージェントが経験する驚きの量をめぐって,互いに対立する2つのポリシーをピットする対戦ゲームに基づく,新しい教師なしRL手法を提案する。 各ポリシーはエージェントを交代で制御する。 探索政策はエントロピーを最大化し、エージェントを驚きや不慣れな状況に陥らせる。 そして、制御政策が引き継ぎ、エントロピーを最小化することでこれらの状況から回復しようとする。 このゲームはマルチエージェント・コンペティションの力を利用して、エージェントが環境の驚くべき部分を探しながら、それらに熟達することを学ぶ。 本手法が明確な相転移を示すことによって複雑なスキルの出現につながることを実証的に示す。 さらに, 理論的に (潜在状態空間被覆論を通じて) と経験的に, 確率的, 部分的に観測された環境の探索に応用できる可能性が示唆された。 我々は,Adversarial Surpriseがより複雑な振る舞いを学習し,競争ベースラインよりも効果的に探索し,活発な推論に基づく本質的なモチベーション手法,新規性探索(RND),およびMiniGrid,Atari,VizDo om環境におけるマルチエージェント非教師付きRL(Asymmetric Self-Play (ASP))より優れていることを示す。

Reinforcement learning (RL) provides a framework for learning goal-directed policies given user-specified rewards. However, since designing rewards often requires substantial engineering effort, we are interested in the problem of learning without rewards, where agents must discover useful behaviors in the absence of task-specific incentives. Intrinsic motivation is a family of unsupervised RL techniques which develop general objectives for an RL agent to optimize that lead to better exploration or the discovery of skills. In this paper, we propose a new unsupervised RL technique based on an adversarial game which pits two policies against each other to compete over the amount of surprise an RL agent experiences. The policies each take turns controlling the agent. The Explore policy maximizes entropy, putting the agent into surprising or unfamiliar situations. Then, the Control policy takes over and seeks to recover from those situations by minimizing entropy. The game harnesses the power of multi-agent competition to drive the agent to seek out increasingly surprising parts of the environment while learning to gain mastery over them. We show empirically that our method leads to the emergence of complex skills by exhibiting clear phase transitions. Furthermore, we show both theoretically (via a latent state space coverage argument) and empirically that our method has the potential to be applied to the exploration of stochastic, partially-observed environments. We show that Adversarial Surprise learns more complex behaviors, and explores more effectively than competitive baselines, outperforming intrinsic motivation methods based on active inference, novelty-seeking (Random Network Distillation (RND)), and multi-agent unsupervised RL (Asymmetric Self-Play (ASP)) in MiniGrid, Atari and VizDoom environments.
翻訳日:2021-07-17 06:36:08 公開日:2021-07-12
# (参考訳) 1価オークションにおける入札シェーディングのための効率的な深層流通ネットワーク [全文訳有]

An Efficient Deep Distribution Network for Bid Shading in First-Price Auctions ( http://arxiv.org/abs/2107.06650v1 )

ライセンス: CC0 1.0
Tian Zhou, Hao He, Shengjun Pan, Niklas Karlsson, Bharatbhushan Shetty, Brendan Kitts, Djordje Gligorijevic, San Gultekin, Tingyu Mao, Junwei Pan, Jianlong Zhang and Aaron Flores(参考訳) 2019年以降、オンライン広告業界のほとんどの広告取引所や販売側プラットフォーム(ssp)は、第2位から第1位へと移行した。 これらの競売の根本的な違いのため、需要側プラットフォーム(DSP)は不必要な高額な入札を避けるために入札戦略を更新しなければならなかった。 第1価格の競売設定におけるコストと当選確率のバランスをとるために、第2価格の競売を意図した入札価格を調整するために、バイドシェーディングを提案した。 本研究では,オープン(非検閲)とクローズ(検閲)の両方のオンライン1価オークションにおいて,最適な入札を行うための新しい深層流通ネットワークを提案する。 オフラインおよびオンラインa/bテストの結果から,本アルゴリズムは,既存の最先端アルゴリズムを,余剰および有効コスト(ecpx)指標の両方で上回っていることが示された。 さらに、アルゴリズムは実行時に最適化され、ベライゾンMedia DSPにプロダクションアルゴリズムとしてデプロイされ、1日に数十億の入札リクエストを提供する。 オンラインA/Bテストによると、広告主のROIは、インプレッションベース(CPM)、クリックベース(CPC)、コンバージョンベース(CPA)の各キャンペーンで+2.4%、+2.4%、+8.6%向上している。

Since 2019, most ad exchanges and sell-side platforms (SSPs), in the online advertising industry, shifted from second to first price auctions. Due to the fundamental difference between these auctions, demand-side platforms (DSPs) have had to update their bidding strategies to avoid bidding unnecessarily high and hence overpaying. Bid shading was proposed to adjust the bid price intended for second-price auctions, in order to balance cost and winning probability in a first-price auction setup. In this study, we introduce a novel deep distribution network for optimal bidding in both open (non-censored) and closed (censored) online first-price auctions. Offline and online A/B testing results show that our algorithm outperforms previous state-of-art algorithms in terms of both surplus and effective cost per action (eCPX) metrics. Furthermore, the algorithm is optimized in run-time and has been deployed into VerizonMedia DSP as production algorithm, serving hundreds of billions of bid requests per day. Online A/B test shows that advertiser's ROI are improved by +2.4%, +2.4%, and +8.6% for impression based (CPM), click based (CPC), and conversion based (CPA) campaigns respectively.
翻訳日:2021-07-16 05:34:23 公開日:2021-07-12
# 信頼できるAI:計算的視点

Trustworthy AI: A Computational Perspective ( http://arxiv.org/abs/2107.06641v1 )

ライセンス: Link先を確認
Haochen Liu, Yiqi Wang, Wenqi Fan, Xiaorui Liu, Yaxin Li, Shaili Jain, Anil K. Jain, Jiliang Tang(参考訳) 過去数十年間、人工知能(AI)技術は急速に発展し、人々の日常生活を変え、人間の社会の過程を大きく変えてきた。 AIを開発する意図は、人間の労働を減らし、日常生活に日々の便宜をもたらし、社会的利益を促進することで、人間に利益をもたらすことである。 しかし、最近の研究やAIの応用は、AIが安全クリティカルなシナリオにおける信頼できない決定をしたり、あるグループに対して不注意に差別することで公正性を損なうなど、人間に意図しない害を引き起こす可能性があることを示している。 このように、信頼できるAIは近年大きな注目を集めており、AIが人間にもたらす悪影響を避けるために慎重に考慮する必要がある。 近年、信頼できるAIの研究が盛んに行われている。 本稿では,信頼できるAIを実現するための最新の技術を理解するために,計算の観点から信頼に値するAIに関する総合的な調査を紹介する。 信頼できるAIは、さまざまな次元を含む大きくて複雑な領域である。 本研究は,信頼に値するAIを実現する上で最も重要な6つの要素, (i) 安全性とロバスト性, (ii) 差別と公正性, (iii) 説明可能性, (iv) プライバシー, (v) 説明可能性と聴取性, (vi) 環境ウェルビーイングに焦点を当てる。 それぞれの次元について,最近の関連技術について分類学的に検討し,その応用を実世界システムで概説する。 また,異なる次元間での協調的・矛盾する相互作用についても論じ,将来的なAI研究の可能性についても論じる。

In the past few decades, artificial intelligence (AI) technology has experienced swift developments, changing everyone's daily life and profoundly altering the course of human society. The intention of developing AI is to benefit humans, by reducing human labor, bringing everyday convenience to human lives, and promoting social good. However, recent research and AI applications show that AI can cause unintentional harm to humans, such as making unreliable decisions in safety-critical scenarios or undermining fairness by inadvertently discriminating against one group. Thus, trustworthy AI has attracted immense attention recently, which requires careful consideration to avoid the adverse effects that AI may bring to humans, so that humans can fully trust and live in harmony with AI technologies. Recent years have witnessed a tremendous amount of research on trustworthy AI. In this survey, we present a comprehensive survey of trustworthy AI from a computational perspective, to help readers understand the latest technologies for achieving trustworthy AI. Trustworthy AI is a large and complex area, involving various dimensions. In this work, we focus on six of the most crucial dimensions in achieving trustworthy AI: (i) Safety & Robustness, (ii) Non-discrimination & Fairness, (iii) Explainability, (iv) Privacy, (v) Accountability & Auditability, and (vi) Environmental Well-Being. For each dimension, we review the recent related technologies according to a taxonomy and summarize their applications in real-world systems. We also discuss the accordant and conflicting interactions among different dimensions and discuss potential aspects for trustworthy AI to investigate in the future.
翻訳日:2021-07-15 14:21:19 公開日:2021-07-12
# 拷問されたフレーズ:科学における疑わしい文体。 刊行物に影響を及ぼす批判的問題の証拠

Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals ( http://arxiv.org/abs/2107.06751v1 )

ライセンス: Link先を確認
Guillaume Cabanac and Cyril Labb\'e and Alexander Magazinov(参考訳) 確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。 このような非センセーショナルな論文は、人間と機械の両方で容易に検出できる。 現在、より複雑なAIによる生成技術は、人間のものと区別できないテキストを生成し、いくつかのキーワードから科学的テキストを生成することが文書化されている。 本研究は,「知能」の代わりに「偽造意識」などの定説に代えて,思いがけない奇妙な句という,拷問句の概念を紹介する。 我々は、拷問された句のための文献をまとめ、それらが集中する信頼できる日記を1つ研究した。 先進的な言語モデルの使用を仮定し、最近の論文やいくつかの制御セットの要約を検知した。 対数比較の結果、雑誌に「合成」と記された抽象概念の集中が明らかになった。 また,編集タイムラインの急激な変更など,運用上の不備も強調する。 我々は、複数の疑わしい記事を分析し、拷問された文体、存在しない文学の引用、未承認の画像再利用など、疑わしい特徴を強調して調査を呼び掛けた。 驚いたことに、一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズで溢れるgobbledegookを生み出している。 一部の著者は書き直しテキストを使って原稿をパディングしたと信じている。 我々は、疑わしいAI生成または書き直されたテキストを含む出版物に対する認識を高めたい(貧弱な)ピアレビューをパスした。 合成テキストによる偽装は科学文献の完全性を脅かす。

Probabilistic text generators have been used to produce fake scientific papers for more than a decade. Such nonsensical papers are easily detected by both human and machine. Now more complex AI-powered generation techniques produce texts indistinguishable from that of humans and the generation of scientific texts from a few keywords has been documented. Our study introduces the concept of tortured phrases: unexpected weird phrases in lieu of established ones, such as 'counterfeit consciousness' instead of 'artificial intelligence.' We combed the literature for tortured phrases and study one reputable journal where these concentrated en masse. Hypothesising the use of advanced language models we ran a detector on the abstracts of recent articles of this journal and on several control sets. The pairwise comparisons reveal a concentration of abstracts flagged as 'synthetic' in the journal. We also highlight irregularities in its operation, such as abrupt changes in editorial timelines. We substantiate our call for investigation by analysing several individual dubious articles, stressing questionable features: tortured writing style, citation of non-existent literature, and unacknowledged image reuse. Surprisingly, some websites offer to rewrite texts for free, generating gobbledegook full of tortured phrases. We believe some authors used rewritten texts to pad their manuscripts. We wish to raise the awareness on publications containing such questionable AI-generated or rewritten texts that passed (poor) peer review. Deception with synthetic texts threatens the integrity of the scientific literature.
翻訳日:2021-07-15 14:13:34 公開日:2021-07-12
# (参考訳) オントロジベースのプロセスモデリング -- 私たちはそれを見るために生きますか? [全文訳有]

Ontology-Based Process Modelling -- Will we live to see it? ( http://arxiv.org/abs/2107.06146v1 )

ライセンス: CC BY 4.0
Carl Corea, Michael Fellmann, Patrick Delfmann(参考訳) 理論上、オントロジベースのプロセスモデリング(obpm)はビジネスプロセス管理を拡張する大きな可能性を秘めています。 多くの研究がOBPMを研究しており、曖昧さを排除したり、企業プロセスに対する高度な推論を可能にするなど、潜在的なアメニティを明確にしている。 しかし、この学界での承認にもかかわらず、広く普及している産業は見当たらない。 これは主に、プロセスモデルにオントロジーとアノテーションを作成するのに、まだ大量の手作業を必要とするという事実に起因する可能性がある。 これらの問題に対処しなければ、実際にはOBPMの実装は不可能に思える。 そこで本研究では,OBPMの実施を成功させるために必要な要件を特定し,現在の研究状況を評価する。 これらの要件 以上の結果から,OBPMの促進に向けた研究の進展はいまだに目覚ましいほど低く,既存のアプローチの拡張に緊急の努力が必要であることが示唆された。

In theory, ontology-based process modelling (OBPM) bares great potential to extend business process management. Many works have studied OBPM and are clear on the potential amenities, such as eliminating ambiguities or enabling advanced reasoning over company processes. However, despite this approval in academia, a widespread industry adoption is still nowhere to be seen. This can be mainly attributed to the fact, that it still requires high amounts of manual labour to initially create ontologies and annotations to process models. As long as these problems are not addressed, implementing OBPM seems unfeasible in practice. In this work, we therefore identify requirements needed for a successful implementation of OBPM and assess the current state of research w.r.t. these requirements. Our results indicate that the research progress for means to facilitate OBPM are still alarmingly low and there needs to be urgent work on extending existing approaches.
翻訳日:2021-07-15 04:42:46 公開日:2021-07-12
# (参考訳) ストレス分類とパーソナライゼーション: 最少を最大限に活用する [全文訳有]

Stress Classification and Personalization: Getting the most out of the least ( http://arxiv.org/abs/2107.05666v1 )

ライセンス: CC BY 4.0
Ramesh Kumar Sah and Hassan Ghasemzadeh(参考訳) ストレス検出とモニタリングは、個人の個人的、専門的、社会的健康に重要な意味を持つ研究の活発な領域である。 情緒的状態分類の現在のアプローチは、複数のセンサモダリティから計算される特徴を持つ従来の機械学習アルゴリズムを使用する。 これらの方法は、データ集約型であり、日常生活におけるセンサーシステムの実用性を阻害する手作りの機能に依存している。 これらの欠点を克服するために,1つのセンサモードのみのデータを用いて特徴計算を行うことなく,新しい畳み込みニューラルネットワーク(CNN)に基づくストレス検出・分類フレームワークを提案する。 我々の手法は競争力があり、最先端技術よりも優れており、分類精度は92.85 %$、スコアは0.89$である。 その結果,ストレスモデルのパーソナライズの重要性が示唆された。

Stress detection and monitoring is an active area of research with important implications for the personal, professional, and social health of an individual. Current approaches for affective state classification use traditional machine learning algorithms with features computed from multiple sensor modalities. These methods are data-intensive and rely on hand-crafted features which impede the practical applicability of these sensor systems in daily lives. To overcome these shortcomings, we propose a novel Convolutional Neural Network (CNN) based stress detection and classification framework without any feature computation using data from only one sensor modality. Our method is competitive and outperforms current state-of-the-art techniques and achieves a classification accuracy of $92.85\%$ and an $f1$ score of $0.89$. Through our leave-one-subject-ou t analysis, we also show the importance of personalizing stress models.
翻訳日:2021-07-15 04:31:36 公開日:2021-07-12
# (参考訳) 身体的不可避機能のためのサービス保証の質 [全文訳有]

Quality of Service Guarantees for Physical Unclonable Functions ( http://arxiv.org/abs/2107.05675v1 )

ライセンス: CC BY 4.0
Onur G\"unl\"u, Rafael F. Schaefer, and H. Vincent Poor(参考訳) 本研究では, 秘密鍵契約問題として, 公益, 無騒音, 認証ストレージの助けを借りて, 信頼性, 安全性, プライベート鍵契約を容易に行う。 PUF出力は高い相関性を持つため、変換符号法はスカラー量子化器と組み合わせて、信頼度の高い非相関ビット列を抽出する。 連続的な出力を持つPUF回路の場合、変換された出力のモデルは、適合した分布を対応する切り離された分布に置き換えることでより現実的になる。 抽出された各ビットに対する信頼性保証を提供する最新のPUF法は、すべてのPUF出力に対して同じ信頼性レベルを保証するのに不十分であることを示す。 これにより、目標信頼性レベルを保証できるPUF出力の割合を制御するために、サービスパラメータの品質が導入された。 公共リング発振器(RO)出力データセットを用いて、PUF出力の小さなサブセットを除去することにより、加法ガウス雑音成分下でのPUF装置から抽出された各ビットに対して信頼性保証が提供されるように、均一なスカラー量子化器に入力される変換RO出力に、切り離されたガウス分布を適合させることができることを示す。 さらに、余分な機密性やプライバシー漏洩が許されていない場合、PUF出力をなくすことなく、そのような信頼性保証を提供することは不可能であることを示す。

We consider a secret key agreement problem in which noisy physical unclonable function (PUF) outputs facilitate reliable, secure, and private key agreement with the help of public, noiseless, and authenticated storage. PUF outputs are highly correlated, so transform coding methods have been combined with scalar quantizers to extract uncorrelated bit sequences with reliability guarantees. For PUF circuits with continuous-valued outputs, the models for transformed outputs are made more realistic by replacing the fitted distributions with corresponding truncated ones. The state-of-the-art PUF methods that provide reliability guarantees to each extracted bit are shown to be inadequate to guarantee the same reliability level for all PUF outputs. Thus, a quality of service parameter is introduced to control the percentage of PUF outputs for which a target reliability level can be guaranteed. A public ring oscillator (RO) output dataset is used to illustrate that a truncated Gaussian distribution can be fitted to transformed RO outputs that are inputs to uniform scalar quantizers such that reliability guarantees can be provided for each bit extracted from any PUF device under additive Gaussian noise components by eliminating a small subset of PUF outputs. Furthermore, we conversely show that it is not possible to provide such reliability guarantees without eliminating any PUF output if no extra secrecy and privacy leakage is allowed.
翻訳日:2021-07-15 04:25:51 公開日:2021-07-12
# (参考訳) 符号化音声言語モデリングは音楽情報検索に有用な表現を学習する [全文訳有]

Codified audio language modeling learns useful representations for music information retrieval ( http://arxiv.org/abs/2107.05677v1 )

ライセンス: CC BY 4.0
Rodrigo Castellon and Chris Donahue and Percy Liang(参考訳) 我々は、下流MIRタスクに有用な符号化された(離散符号化された)オーディオ学習表現に基づいて事前学習された言語モデルを示す。 具体的には,Jukebox (Dhariwal et al。 2020年 - 100万曲の音声を符号化した言語モデルを含む音楽生成システム。 Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。 タグ付けを前提とした従来のmirモデルの表現と比較すると,jukeboxの表現を入力機能として使用すると,タグ付け,ジャンル分類,感情認識,キー検出という4つのmirタスクの平均的なパフォーマンスが30%向上することがわかった。 キー検出のために、jukeboxからの表現がタグづけの事前学習モデルよりもかなり強いことを観察し、コーディネートされたオーディオ言語モデリングによる事前学習が、従来のアプローチで盲点に対処する可能性があることを示唆する。 我々は、Jukeboxの表現の強さを、タグの代わりにオーディオをモデル化することで、よりリッチな表現をMIRに提供できることの証拠として解釈する。

We demonstrate that language models pre-trained on codified (discretely-encoded) music audio learn representations that are useful for downstream MIR tasks. Specifically, we explore representations from Jukebox (Dhariwal et al. 2020): a music generation system containing a language model trained on codified audio from 1M songs. To determine if Jukebox's representations contain useful information for MIR, we use them as input features to train shallow models on several MIR tasks. Relative to representations from conventional MIR models which are pre-trained on tagging, we find that using representations from Jukebox as input features yields 30% stronger performance on average across four MIR tasks: tagging, genre classification, emotion recognition, and key detection. For key detection, we observe that representations from Jukebox are considerably stronger than those from models pre-trained on tagging, suggesting that pre-training via codified audio language modeling may address blind spots in conventional approaches. We interpret the strength of Jukebox's representations as evidence that modeling audio instead of tags provides richer representations for MIR.
翻訳日:2021-07-15 04:08:25 公開日:2021-07-12
# (参考訳) Wasserstein GANsの隠れ凸性:閉じた解を持つ解釈可能な生成モデル [全文訳有]

Hidden Convexity of Wasserstein GANs: Interpretable Generative Models with Closed-Form Solutions ( http://arxiv.org/abs/2107.05680v1 )

ライセンス: CC BY 4.0
Arda Sahiner, Tolga Ergen, Batu Ozturkler, Burak Bartan, John Pauly, Morteza Mardani, Mert Pilanci(参考訳) generative adversarial network (gans) はデータの複雑な分布をモデル化するのによく用いられる。 GANのジェネレータと判別器は、しばしばニューラルネットワークによってモデル化され、ジェネレータと判別器にそれぞれ非凸と非凹の非透明最適化問題を引き起こす。 このようなネットワークはしばしば勾配降下度(GDA)でヒューリスティックに最適化されるが、最適化問題がサドル点を含むかどうか、あるいはヒューリスティック手法が実際にそれらを見つけることができるかどうかは不明である。 本研究では,2層ニューラルネットワーク識別器を用いたwasserstein ganのトレーニングを凸双対性レンズを通して解析し,様々な生成器に対して,wasserstein gansが凸最適化アプローチによって正確に解くことができる条件を提示するか,凸凸ゲームとして表現することができる。 この凸双対性解釈を用いて、識別器の異なる活性化関数の影響をさらに実証する。 本研究は,線形発生器に対応する凸アーキテクチャの漸進的トレーニングとceleba画像生成のための二次活性化判別器への応用により,凸解釈のパワーを示す数値計算結果を用いて検証した。 実験のコードはhttps://github.com/a rdasahiner/ProCoGAN. comで公開されている。

Generative Adversarial Networks (GANs) are commonly used for modeling complex distributions of data. Both the generators and discriminators of GANs are often modeled by neural networks, posing a non-transparent optimization problem which is non-convex and non-concave over the generator and discriminator, respectively. Such networks are often heuristically optimized with gradient descent-ascent (GDA), but it is unclear whether the optimization problem contains any saddle points, or whether heuristic methods can find them in practice. In this work, we analyze the training of Wasserstein GANs with two-layer neural network discriminators through the lens of convex duality, and for a variety of generators expose the conditions under which Wasserstein GANs can be solved exactly with convex optimization approaches, or can be represented as convex-concave games. Using this convex duality interpretation, we further demonstrate the impact of different activation functions of the discriminator. Our observations are verified with numerical results demonstrating the power of the convex interpretation, with applications in progressive training of convex architectures corresponding to linear generators and quadratic-activation discriminators for CelebA image generation. The code for our experiments is available at https://github.com/a rdasahiner/ProCoGAN.
翻訳日:2021-07-15 03:50:07 公開日:2021-07-12
# (参考訳) CheckThatでのアクセント! 2021:文脈に敏感な語彙学習データ強化によるクレーム識別とランク付け [全文訳有]

Accenture at CheckThat! 2021: Interesting claim identification and ranking with contextually sensitive lexical training data augmentation ( http://arxiv.org/abs/2107.05684v1 )

ライセンス: CC BY 4.0
Evan Williams, Paul Rodrigues, Sieu Tran(参考訳) 本稿では,CLEF2021 CheckThatに対するAccenture Teamのアプローチについて議論する。 ソーシャルメディア上でのクレームが、幅広いオーディエンスにとって興味深く、事実チェックを受けるべきかどうかを特定するための、タスク1である。 twitterのトレーニングとテストデータは英語、アラビア語、スペイン語、トルコ語、ブルガリア語で提供されている。 クレームは分類(チェック値/チェック値なし)され、ファクトチェッカーの優先順位でランク付けされる。 本手法では,与えられたトレーニングデータセットに適用した文脈に敏感な語彙拡張を伴うディープニューラルネットワークトランスフォーマモデルを用いて,追加のトレーニングサンプルを作成した。 この拡張アプローチにより、すべての言語のパフォーマンスが向上した。 全体として、我々のアーキテクチャとデータ拡張パイプラインは、英語、スペイン語、トルコ語、ブルガリア語で提供されたトレーニングデータ量に応じて、アラビア語で最高の送信システムとパフォーマンススケールを生成しました。 本稿では,各言語に対するディープニューラルネットワークアーキテクチャと提供されたデータについて検討し,このアプローチがアラビア語で効果的に機能する理由を検討するとともに,この問題に有用であるべき追加データ拡張対策について考察する。

This paper discusses the approach used by the Accenture Team for CLEF2021 CheckThat! Lab, Task 1, to identify whether a claim made in social media would be interesting to a wide audience and should be fact-checked. Twitter training and test data were provided in English, Arabic, Spanish, Turkish, and Bulgarian. Claims were to be classified (check-worthy/not check-worthy) and ranked in priority order for the fact-checker. Our method used deep neural network transformer models with contextually sensitive lexical augmentation applied on the supplied training datasets to create additional training samples. This augmentation approach improved the performance for all languages. Overall, our architecture and data augmentation pipeline produced the best submitted system for Arabic, and performance scales according to the quantity of provided training data for English, Spanish, Turkish, and Bulgarian. This paper investigates the deep neural network architectures for each language as well as the provided data to examine why the approach worked so effectively for Arabic, and discusses additional data augmentation measures that should could be useful to this problem.
翻訳日:2021-07-15 03:12:35 公開日:2021-07-12
# (参考訳) nlpにおける説明可能性の定量化と性能説明可能性トレードオフの解析アルゴリズム [全文訳有]

Quantifying Explainability in NLP and Analyzing Algorithms for Performance-Explaina bility Tradeoff ( http://arxiv.org/abs/2107.05693v1 )

ライセンス: CC BY-SA 4.0
Mitchell Naylor, Christi French, Samantha Terker, Uday Kamath(参考訳) 医療分野は機械学習の最もエキサイティングな応用分野の1つだが、モデルの透明性の欠如は、業界内での採用の遅れに寄与している。 本研究は,MIMIC-III 臨床ノートにおける死亡予測タスクを用いて,臨床テキスト分類におけるケーススタディにおける説明可能性と解釈可能性の現状について検討する。 完全解釈可能な手法とモデル非依存なポストホック帰属に対する様々な可視化手法を実証し,ロジスティック回帰からbert変種へのモデルタイプ間の不確かさと局所リプシッツを用いた説明の品質評価法を提案する。 これらの指標を用いて,実践者や研究者がモデルの予測性能と利用可能な説明の質の間のフロンティアを評価できる枠組みを提案する。 私たちはこれらの手法の継続的な改良を奨励するためにコードを利用可能にしています。

The healthcare domain is one of the most exciting application areas for machine learning, but a lack of model transparency contributes to a lag in adoption within the industry. In this work, we explore the current art of explainability and interpretability within a case study in clinical text classification, using a task of mortality prediction within MIMIC-III clinical notes. We demonstrate various visualization techniques for fully interpretable methods as well as model-agnostic post hoc attributions, and we provide a generalized method for evaluating the quality of explanations using infidelity and local Lipschitz across model types from logistic regression to BERT variants. With these metrics, we introduce a framework through which practitioners and researchers can assess the frontier between a model's predictive performance and the quality of its available explanations. We make our code available to encourage continued refinement of these methods.
翻訳日:2021-07-15 03:04:06 公開日:2021-07-12
# (参考訳) 心のモデリング理論によるマイトショット言語協調 [全文訳有]

Few-shot Language Coordination by Modeling Theory of Mind ( http://arxiv.org/abs/2107.05697v1 )

ライセンス: CC BY 4.0
Hao Zhu, Graham Neubig, Yonatan Bisk(参考訳) $\textit{No man is a island. 短い会話の中で異なる対話者と協調することで、人間は大きなコミュニティとコミュニケーションを取ります。 この能力は神経伝達物質の構築の研究によって研究されている。 We study the task of few-shot $\textit{lang coordinate}$: agent adapting with their conversational partners' language abilities。 セルフプレイで訓練された現在のコミュニケーションエージェントと異なり、私たちはリードエージェントに、異なる言語能力を持つエージェントの$\textit{population}$を調整させ、素早く人口の見えないエージェントとのコミュニケーションに適応するよう要求します。 これは、人間のコミュニケーションの重要な要素であるパートナーの信念をモデル化する能力を必要とする。 理論オブマインドド(tom; premack & woodruff, 1978)から着想を得て,聞き手の精神状態を明示的にモデル化した話者の効果について検討した。 実験で示したように、スピーカーはパートナーの反応を予測する能力を獲得し、そのコミュニケーション目標を簡潔に表現する指示を生成するのに役立ちます。 我々は,tomモデリングによって生成された命令が,参照ゲームと言語ナビゲーションタスクの両方においてより良いコミュニケーション性能をもたらすという仮説を検証した。 実験のポジティブな結果から,コミュニケーションを社会プラグマティックな進歩として明示的にモデル化することの重要性が示唆された。

$\textit{No man is an island.}$ Humans communicate with a large community by coordinating with different interlocutors within short conversations. This ability has been understudied by the research on building neural communicative agents. We study the task of few-shot $\textit{language coordination}$: agents quickly adapting to their conversational partners' language abilities. Different from current communicative agents trained with self-play, we require the lead agent to coordinate with a $\textit{population}$ of agents with different linguistic abilities, quickly adapting to communicate with unseen agents in the population. This requires the ability to model the partner's beliefs, a vital component of human communication. Drawing inspiration from theory-of-mind (ToM; Premack& Woodruff (1978)), we study the effect of the speaker explicitly modeling the listeners' mental states. The speakers, as shown in our experiments, acquire the ability to predict the reactions of their partner, which helps it generate instructions that concisely express its communicative goal. We examine our hypothesis that the instructions generated with ToM modeling yield better communication performance in both a referential game and a language navigation task. Positive results from our experiments hint at the importance of explicitly modeling communication as a socio-pragmatic progress.
翻訳日:2021-07-15 02:50:38 公開日:2021-07-12
# (参考訳) 6Gにおける効率的な伝達学習に向けて [全文訳有]

Toward Efficient Transfer Learning in 6G ( http://arxiv.org/abs/2107.05728v1 )

ライセンス: CC BY 4.0
Saeedeh Parsaeefard and Alberto Leon-Garcia(参考訳) 6Gネットワークは、トップ(OTT)およびネットワークユースケースに対するデータ指向で自律的なアプリケーションのサポートを大幅に拡大する。 これらのユースケースの成功は、システムの非常にダイナミックな振る舞いとデータ収集手順のコストのため、多くの実シナリオでは実用的ではないビッグデータセットの可用性に依存する。 転送学習(tl)は、様々な学習アルゴリズム間で知識を共有することによって、これらの課題に対処するための有望なアプローチである。 TLでは学習率と学習精度が大幅に向上する。 しかし、tlを6gで効率的にデプロイして利用する実装上の課題がある。 本稿では,TL成功度を測定するためのパフォーマンス指標を提供することで,この議論を開始する。 次に,6gのインフラストラクチャ,アプリケーション,管理,トレーニングプレーンがtlに対応可能であることを示す。 6G における TL の例を示し,効率的な TL に繋がる 6G におけるデータの時空間的特徴を強調した。 シミュレーションの結果,2つのユースケース間の量子化ニューラルネットワーク重みの伝達が,オーバーヘッドとパフォーマンスのトレードオフを生み出し,6gでより効率的なtlを実現することを実証した。 6GのTLにおける今後の研究方向の一覧も提供する。

6G networks will greatly expand the support for data-oriented, autonomous applications for over the top (OTT) and networking use cases. The success of these use cases will depend on the availability of big data sets which is not practical in many real scenarios due to the highly dynamic behavior of systems and the cost of data collection procedures. Transfer learning (TL) is a promising approach to deal with these challenges through the sharing of knowledge among diverse learning algorithms. with TL, the learning rate and learning accuracy can be considerably improved. However, there are implementation challenges to efficiently deploy and utilize TL in 6G. In this paper, we initiate this discussion by providing some performance metrics to measure the TL success. Then, we show how infrastructure, application, management, and training planes of 6G can be adapted to handle TL. We provide examples of TL in 6G and highlight the spatio-temporal features of data in 6G that can lead to efficient TL. By simulation results, we demonstrate how transferring the quantized neural network weights between two use cases can make a trade-off between overheads and performance and attain more efficient TL in 6G. We also provide a list of future research directions in TL for 6G.
翻訳日:2021-07-15 02:33:44 公開日:2021-07-12
# (参考訳) 高次確率グラフィカルモデルにおけるグラフネットワーク推論の一般化 [全文訳有]

Generalization of graph network inferences in higher-order probabilistic graphical models ( http://arxiv.org/abs/2107.05729v1 )

ライセンス: CC BY-SA 4.0
Yicheng Fei, Xaq Pitkow(参考訳) 確率的グラフィカルモデルは複雑な統計構造を記述する強力なツールであり、科学や工学において、ロボットアームの制御から神経計算の理解に至るまで、多くの実世界の応用がある。 これらのグラフィカルモデルにおける大きな課題は、辺化のような推論が一般グラフに対して難解であることである。 これらの推論はしばしば、Belief Propagationのような分散メッセージパッシングアルゴリズムによって近似されるが、これは周期を持つグラフでは必ずしもうまく機能しないし、複雑な連続確率分布では容易に特定できない。 このような困難は、難解な高次相互作用を含む表現力のあるグラフィカルモデルで頻繁に発生する。 本稿では,因子グラフ上に定義されたグラフニューラルネットワークを用いた反復的メッセージパッシングアルゴリズムを構築し,多変数相互作用を含むグラフィカルモデルの高速近似推論を実現する。 いくつかのグラフィカルモデルを用いた実験結果から,本手法の分散汎化能力を異なるサイズグラフに拡張できることを示し,本手法が信念伝播よりも有利な領域を示す。

Probabilistic graphical models provide a powerful tool to describe complex statistical structure, with many real-world applications in science and engineering from controlling robotic arms to understanding neuronal computations. A major challenge for these graphical models is that inferences such as marginalization are intractable for general graphs. These inferences are often approximated by a distributed message-passing algorithm such as Belief Propagation, which does not always perform well on graphs with cycles, nor can it always be easily specified for complex continuous probability distributions. Such difficulties arise frequently in expressive graphical models that include intractable higher-order interactions. In this paper we construct iterative message-passing algorithms using Graph Neural Networks defined on factor graphs to achieve fast approximate inference on graphical models that involve many-variable interactions. Experimental results on several families of graphical models demonstrate the out-of-distribution generalization capability of our method to different sized graphs, and indicate the domain in which our method gains advantage over Belief Propagation.
翻訳日:2021-07-15 02:22:56 公開日:2021-07-12
# (参考訳) EvoBA: ブラックボックス攻撃の強力なベースラインとしての進化戦略 [全文訳有]

EvoBA: An Evolution Strategy as a Strong Baseline forBlack-Box Adversarial Attacks ( http://arxiv.org/abs/2107.05754v1 )

ライセンス: CC BY 4.0
Andrei Ilie, Marius Popescu, Alin Stefanescu(参考訳) 近年の研究では、最先端の画像分類器に対して、ホワイトボックスの敵攻撃がいかに容易に適用できるかが示されている。 しかし、実際のシナリオは、よりブラックボックスの敵条件に似ており、透明性がなく、通常、クエリ予算に自然で厳しい制約を課す。 我々は、驚くほど単純な進化的探索戦略に基づくブラックボックス攻撃である$\textbf{EvoBA}$を提案する。 $\textbf{evoba}$はクエリ効率が高く、$l_0$の逆摂動を最小限に抑え、いかなる形式のトレーニングも必要としない。 $\textbf{evoba}$は、$\textbf{autozoom}$のようなより複雑なブラックボックス攻撃と一致する結果を通じて効率性と有効性を示す。 これは、単純で強力なベースラインブラックボックス攻撃である$\textbf{SimBA}$よりもクエリ効率が良く、同様のレベルの複雑さがある。 そこで本稿では,ブラックボックス攻撃の新たな強力なベースラインとして,画像分類器が$L_0$逆方向摂動に対していかに頑健であるかを実証的に把握するための,高速かつ汎用的なツールとして提案する。 高速で信頼性の高い$L_2$ブラックボックス攻撃があり、例えば$\textbf{SimBA}$や$L_{\infty}$ブラックボックス攻撃、例えば$\textbf{DeepSearch}$がある。 我々は,上記の手法と合わせて,画像分類器のロバスト性を評価する汎用ツールとして機能する,クエリ効率の高い$l_0$ブラックボックス攻撃として$\textbf{evoba}$を提案する。 このような方法の主な利点は、高速で、クエリ効率が高く、画像分類器の開発パイプラインに簡単に統合できる点である。 我々の攻撃は、$L_0$逆転摂動を最小化するが、$L_2$を報告し、最先端の$L_2$ black-box attack、$\textbf{AutoZOOM}$、$L_2$ strong baseline、$\textbf{SimBA}$と比較する。

Recent work has shown how easily white-box adversarial attacks can be applied to state-of-the-art image classifiers. However, real-life scenarios resemble more the black-box adversarial conditions, lacking transparency and usually imposing natural, hard constraints on the query budget. We propose $\textbf{EvoBA}$, a black-box adversarial attack based on a surprisingly simple evolutionary search strategy. $\textbf{EvoBA}$ is query-efficient, minimizes $L_0$ adversarial perturbations, and does not require any form of training. $\textbf{EvoBA}$ shows efficiency and efficacy through results that are in line with much more complex state-of-the-art black-box attacks such as $\textbf{AutoZOOM}$. It is more query-efficient than $\textbf{SimBA}$, a simple and powerful baseline black-box attack, and has a similar level of complexity. Therefore, we propose it both as a new strong baseline for black-box adversarial attacks and as a fast and general tool for gaining empirical insight into how robust image classifiers are with respect to $L_0$ adversarial perturbations. There exist fast and reliable $L_2$ black-box attacks, such as $\textbf{SimBA}$, and $L_{\infty}$ black-box attacks, such as $\textbf{DeepSearch}$. We propose $\textbf{EvoBA}$ as a query-efficient $L_0$ black-box adversarial attack which, together with the aforementioned methods, can serve as a generic tool to assess the empirical robustness of image classifiers. The main advantages of such methods are that they run fast, are query-efficient, and can easily be integrated in image classifiers development pipelines. While our attack minimises the $L_0$ adversarial perturbation, we also report $L_2$, and notice that we compare favorably to the state-of-the-art $L_2$ black-box attack, $\textbf{AutoZOOM}$, and of the $L_2$ strong baseline, $\textbf{SimBA}$.
翻訳日:2021-07-15 02:08:35 公開日:2021-07-12
# (参考訳) ブラジル学生の成績保持予測における性格特性の影響 [全文訳有]

Effects of personality traits in predicting grade retention of Brazilian students ( http://arxiv.org/abs/2107.05767v1 )

ライセンス: CC BY 4.0
Carmen Melo Toledo, Guilherme Mendes Bassedon, Jonathan Batista Ferreira, Lucka de Godoy Gianvechio, Carlos Guatimosim, Felipe Maia Polo, Renato Vicente(参考訳) 学生の成績保持は、多くの教育システム、特に発展途上国で直面する重要な問題である。 本稿では,ブラジルにおける成績保持の予測における学生の性格特性の関連性について検討する。 そのために、2012年と2017年にブラジルのサンパウロ州の田舎セルタオジニョで収集されたデータを使用しました。 セルタオジンホで行った調査には、いくつかの社会経済的質問、標準化されたテスト、パーソナリティテストが含まれていた。 また、2012年は4学年5学年6学年であった。 われわれのアプローチは、2012年から2017年までの情報を用いて調査データの機械学習モデルをトレーニングし、その上で、性格特性の予測力の定量化にいくつかの戦略を用いた。 その結果,社会経済的変数を用いた場合や,標準化されたテスト結果を用いても,個性特性が予測に寄与することがわかった。

Student's grade retention is a key issue faced by many education systems, especially those in developing countries. In this paper, we seek to gauge the relevance of students' personality traits in predicting grade retention in Brazil. For that, we used data collected in 2012 and 2017, in the city of Sertaozinho, countryside of the state of Sao Paulo, Brazil. The surveys taken in Sertaozinho included several socioeconomic questions, standardized tests, and a personality test. Moreover, students were in grades 4, 5, and 6 in 2012. Our approach was based on training machine learning models on the surveys' data to predict grade retention between 2012 and 2017 using information from 2012 or before, and then using some strategies to quantify personality traits' predictive power. We concluded that, besides proving to be fairly better than a random classifier when isolated, personality traits contribute to prediction even when using socioeconomic variables and standardized tests results.
翻訳日:2021-07-15 01:52:58 公開日:2021-07-12
# (参考訳) 自然景観統計と適応分別を用いた深層学習における敵例の検出と防御 [全文訳有]

Detect and Defense Against Adversarial Examples in Deep Learning using Natural Scene Statistics and Adaptive Denoising ( http://arxiv.org/abs/2107.05780v1 )

ライセンス: CC BY 4.0
Anouar Kherchouche, Sid Ahmed Fezza, Wassim Hamidouche(参考訳) ディープニューラルネットワーク(dnn)の膨大な性能にもかかわらず、最近の研究では、ターゲットdnnを騙すために設計された不注意な摂動入力(aes)に対するそれらの消耗性が示されている。 現在、文学はそのようなAEを作ろうとするエフェクティブな攻撃に富んでいる。 一方で、この脆弱性を緩和するために多くのデファンス戦略が開発されている。 しかし、後者は特定の攻撃に対してエフェクティビティを示しており、異なる攻撃に対して一般化しない。 本稿では,DNN分類器を対向サンプルに対して防御するためのフレームワークを提案する。 提案手法は,別個の検出器とデノナイジングブロックを含む2段階の枠組みに基づく。 この検出器は自然景観統計(nss)を用いてaesを検出することを目的としており、これらのスタティス的特徴は逆摂動の存在によって変化することが示されている。 このデノイザは、畳み込みニューラルネットワーク(CNN)によって推定される最適なしきい値によって供給されるブロックマッチング3D(BM3D)フィルタに基づいて、AEsとして検出されたサンプルをデータ多様体に投影する。 我々は,MNIST,CIFAR-10,Tiny -ImageNetの3つの標準データセットについて完全な評価を行った。 実験結果から, ブラックボックス, グレーボックス, ホワイトボックス設定下での攻撃に対するロバスト性向上により, 現状の防御技術よりも優れた防御手法が得られた。 ソースコードはhttps://github.com/k herchouche-anouar/2d aeで入手できる。

Despite the enormous performance of deepneural networks (DNNs), recent studies have shown theirvulnerability to adversarial examples (AEs), i.e., care-fully perturbed inputs designed to fool the targetedDNN. Currently, the literature is rich with many ef-fective attacks to craft such AEs. Meanwhile, many de-fenses strategies have been developed to mitigate thisvulnerability. However, these latter showed their effec-tiveness against specific attacks and does not general-ize well to different attacks. In this paper, we proposea framework for defending DNN classifier against ad-versarial samples. The proposed method is based on atwo-stage framework involving a separate detector anda denoising block. The detector aims to detect AEs bycharacterizing them through the use of natural scenestatistic (NSS), where we demonstrate that these statis-tical features are altered by the presence of adversarialperturbat ions. The denoiser is based on block matching3D (BM3D) filter fed by an optimum threshold valueestimated by a convolutional neural network (CNN) toproject back the samples detected as AEs into theirdata manifold. We conducted a complete evaluation onthree standard datasets namely MNIST, CIFAR-10 andTiny-ImageNet. The experimental results show that theproposed defense method outperforms the state-of-the-art defense techniques by improving the robustnessagainst a set of attacks under black-box, gray-box and white-box settings. The source code is available at: https://github.com/k herchouche-anouar/2D AE
翻訳日:2021-07-15 01:45:57 公開日:2021-07-12
# Combiner: スパース計算コストを考慮したフルアテンショントランス

Combiner: Full Attention Transformer with Sparse Computation Cost ( http://arxiv.org/abs/2107.05768v1 )

ライセンス: Link先を確認
Hongyu Ren, Hanjun Dai, Zihang Dai, Mengjiao Yang, Jure Leskovec, Dale Schuurmans, Bo Dai(参考訳) トランスフォーマーは、シーケンスモデリングに非常に効果的な表現力のあるアーキテクチャのクラスを提供する。 しかし、変換器の鍵となる制限は、その二次記憶と時間複雑性$\mathcal{O}(L^2)$であり、非常に長い列での応用を制限する注意層におけるシーケンス長についてである。 既存のアプローチのほとんどは、コスト削減のために注意行列のスパーシリティや低ランクの仮定を活用するが、表現性を犠牲にする。 代わりに,少ない計算量とメモリの複雑さを維持しつつ,各注意ヘッドに完全な注意機能を提供するコンビネータを提案する。 鍵となる考え方は、自己保持機構を各場所に埋め込まれた条件予測として扱い、その条件分布を構造的因子化で近似することである。 それぞれのロケーションは、直接の注意を通して、あるいは抽象化に対する間接的な注意を通じて、他のすべてのロケーションに出席することができる。 既存のスパーストランスフォーマーで使われるほとんどのスパースアテンションパターンは、完全な注意のためにそのような因子化の設計を刺激することができ、同じサブクアドラルコスト (\mathcal{o}(l\log(l))$ or $\mathcal{o}(l\sqrt{l})$) となる。 Combinerは既存のトランスフォーマーのアテンション層をドロップインで置き換えたもので、共通のフレームワークで簡単に実装できる。 自己回帰的および双方向のシーケンスタスクを実験的に評価することにより,複数の画像およびテキストモデリングタスクに対する最先端結果が得られる。

Transformers provide a class of expressive architectures that are extremely effective for sequence modeling. However, the key limitation of transformers is their quadratic memory and time complexity $\mathcal{O}(L^2)$ with respect to the sequence length in attention layers, which restricts application in extremely long sequences. Most existing approaches leverage sparsity or low-rank assumptions in the attention matrix to reduce cost, but sacrifice expressiveness. Instead, we propose Combiner, which provides full attention capability in each attention head while maintaining low computation and memory complexity. The key idea is to treat the self-attention mechanism as a conditional expectation over embeddings at each location, and approximate the conditional distribution with a structured factorization. Each location can attend to all other locations, either via direct attention, or through indirect attention to abstractions, which are again conditional expectations of embeddings from corresponding local regions. We show that most sparse attention patterns used in existing sparse transformers are able to inspire the design of such factorization for full attention, resulting in the same sub-quadratic cost ($\mathcal{O}(L\log(L))$ or $\mathcal{O}(L\sqrt{L})$). Combiner is a drop-in replacement for attention layers in existing transformers and can be easily implemented in common frameworks. An experimental evaluation on both autoregressive and bidirectional sequence tasks demonstrates the effectiveness of this approach, yielding state-of-the-art results on several image and text modeling tasks.
翻訳日:2021-07-14 15:00:05 公開日:2021-07-12
# softhebb: unsupervised hebbian soft winner-take-all networkにおけるベイズ推定

SoftHebb: Bayesian inference in unsupervised Hebbian soft winner-take-all networks ( http://arxiv.org/abs/2107.05747v1 )

ライセンス: Link先を確認
Timoleon Moraitis, Dmitry Toichkin, Yansong Chua, Qinghai Guo(参考訳) 最先端の人工知能ニューラルネットワーク(ANN)は、ラベル付きデータや層間のフィードバックを必要とし、しばしば生物学的に理解不能であり、人間が受容できない敵の攻撃に弱い。 一方で、wta(ウィナーテイク・オール)ネットワークでのヘビー学習は教師なし、フィードフォワード、生物学的に妥当である。 しかし、WTAネットワークに対する客観的最適化理論は、非常に限定的な仮定の下では欠落している。 ここでは、生物学的に可塑性だが一般的なANN要素に基づいて、そのような理論を正式に導出する。 ヘビアン学習を通じて、ネットワークパラメータはデータのベイズ生成モデルを維持する。 監視損失関数は存在しないが、ネットワークは活性化と入力分布の相互エントロピーを最小限に抑える。 鍵となるのは、絶対的な「硬い」勝者ニューロンが存在しない「ソフト」WTAと、重みと偏りのヘビアン的な可塑性である。 我々は実際に我々の理論を確認し、手書き桁(MNIST)認識において、我々のHebbアルゴリズムであるSoftHebbは、それにアクセスすることなくクロスエントロピーを最小化し、より頻繁に使用されるハードWTA法よりも優れている。 驚くべきことに、特定の条件下では、監視されたエンドツーエンドのバックプロパゲーションよりも優れています。 具体的には、2層ネットワークでは、トレーニングデータセットが1回だけ表示される場合、テストデータがノイズの多い場合、勾配ベースの敵攻撃下では、SoftHebbがバックプロパゲーションを上回っている。 SoftHebbを混乱させる敵攻撃も、人間の目には紛らわしい。 最後に、モデルは入力分布からオブジェクトの補間を生成することができる。

State-of-the-art artificial neural networks (ANNs) require labelled data or feedback between layers, are often biologically implausible, and are vulnerable to adversarial attacks that humans are not susceptible to. On the other hand, Hebbian learning in winner-take-all (WTA) networks, is unsupervised, feed-forward, and biologically plausible. However, an objective optimization theory for WTA networks has been missing, except under very limiting assumptions. Here we derive formally such a theory, based on biologically plausible but generic ANN elements. Through Hebbian learning, network parameters maintain a Bayesian generative model of the data. There is no supervisory loss function, but the network does minimize cross-entropy between its activations and the input distribution. The key is a "soft" WTA where there is no absolute "hard" winner neuron, and a specific type of Hebbian-like plasticity of weights and biases. We confirm our theory in practice, where, in handwritten digit (MNIST) recognition, our Hebbian algorithm, SoftHebb, minimizes cross-entropy without having access to it, and outperforms the more frequently used, hard-WTA-based method. Strikingly, it even outperforms supervised end-to-end backpropagation, under certain conditions. Specifically, in a two-layered network, SoftHebb outperforms backpropagation when the training dataset is only presented once, when the testing data is noisy, and under gradient-based adversarial attacks. Adversarial attacks that confuse SoftHebb are also confusing to the human eye. Finally, the model can generate interpolations of objects from its input distribution.
翻訳日:2021-07-14 14:57:57 公開日:2021-07-12
# 確率的Descence Gradient を用いた最小二乗線形拡張エロージョン回帰法と凸法の違い

Least-Squares Linear Dilation-Erosion Regressor Trained using Stochastic Descent Gradient or the Difference of Convex Methods ( http://arxiv.org/abs/2107.05682v1 )

ライセンス: Link先を確認
Angelica Louren\c{c}o Oliveira and Marcos Eduardo Valle(参考訳) 本稿では,線形拡張エロージョン回帰("\ell$-der")と呼ばれる回帰タスクのためのハイブリッド形態的ニューラルネットワークを提案する。 少数の言葉で言えば、$\ell$-DER モデルは線型および基本モルフォロジー作用素の合成の凸結合によって与えられる。 結果として、それらは連続的な分数次線型関数となり、従って普遍近似である。 $$\ell$-DERモデルの導入とは別に、これらのモデルをトレーニングするためのアプローチとして、確率的降下勾配に基づくモデルと凸プログラミング問題の違いに基づくモデルを示す。 最後に,14の回帰タスクを用いて$\ell$-DERモデルの性能を評価する。 SDGに基づくアプローチは、他の2つよりも高速であるが、規律付き凸凹型プログラミング問題を用いて訓練された$\ell$-DERは、最小限の絶対誤差スコアで他の2つよりも優れていた。

This paper presents a hybrid morphological neural network for regression tasks called linear dilation-erosion regression ($\ell$-DER). In few words, an $\ell$-DER model is given by a convex combination of the composition of linear and elementary morphological operators. As a result, they yield continuous piecewise linear functions and, thus, are universal approximators. Apart from introducing the $\ell$-DER models, we present three approaches for training these models: one based on stochastic descent gradient and two based on the difference of convex programming problems. Finally, we evaluate the performance of the $\ell$-DER model using 14 regression tasks. Although the approach based on SDG revealed faster than the other two, the $\ell$-DER trained using a disciplined convex-concave programming problem outperformed the others in terms of the least mean absolute error score.
翻訳日:2021-07-14 14:57:11 公開日:2021-07-12
# 変圧器を用いた能動学習のための不確実性に基づくクエリ戦略

Uncertainty-based Query Strategies for Active Learning with Transformers ( http://arxiv.org/abs/2107.05687v1 )

ライセンス: Link先を確認
Christopher Schr\"oder, Andreas Niekler, Martin Potthast(参考訳) アクティブラーニング(active learning)は、ターゲットラベリングを通じた分類モデルの反復的な構築であり、大幅なラベリングコスト削減を可能にする。 多くのアクティブラーニングの研究がトランスフォーマーベースの言語モデル(トランスフォーマー)が普及する前に行われてきたが、実際的な重要性にもかかわらず、トランスフォーマーとアクティブラーニングを組み合わせる方法に関する論文はほとんどない。 これは、トランスフォーマーに最先端のクエリ戦略を使用することで、実行時のオーバーヘッドが抑えられ、効果的にキャンセルされるか、あるいは前述のコスト削減を上回っているという事実に起因することができる。 本稿では,従来よりも優れていた不確実性に基づくクエリ戦略を再検討するが,特に微調整型トランスフォーマーの文脈に適している。 広く使われている5つのテキスト分類ベンチマークの広範な評価において、学習曲線下の領域における最大14.4パーセンテージの大幅な改善と、トレーニングデータの0.4%から15%しか使用していない1つのベンチマークを除いて、芸術の水準に近い最終的な精度が達成されていることを示した。

Active learning is the iterative construction of a classification model through targeted labeling, enabling significant labeling cost savings. As most research on active learning has been carried out before transformer-based language models ("transformers") became popular, despite its practical importance, comparably few papers have investigated how transformers can be combined with active learning to date. This can be attributed to the fact that using state-of-the-art query strategies for transformers induces a prohibitive runtime overhead, which effectively cancels out, or even outweighs aforementioned cost savings. In this paper, we revisit uncertainty-based query strategies, which had been largely outperformed before, but are particularly suited in the context of fine-tuning transformers. In an extensive evaluation on five widely used text classification benchmarks, we show that considerable improvements of up to 14.4 percentage points in area under the learning curve are achieved, as well as a final accuracy close to the state of the art for all but one benchmark, using only between 0.4% and 15% of the training data.
翻訳日:2021-07-14 14:56:19 公開日:2021-07-12
# カーネル連続学習

Kernel Continual Learning ( http://arxiv.org/abs/2107.05757v1 )

ライセンス: Link先を確認
Mohammad Mahdi Derakhshani, Xiantong Zhen, Ling Shao, Cees G. M. Snoek(参考訳) 本稿では,カーネル手法の非パラメトリックな性質を活用して,破滅的誤りに対処する,単純かつ効果的な連続学習法であるカーネル継続学習を紹介する。 タスク毎にサンプルのサブセットを格納したエピソディックメモリユニットをデプロイして,カーネルリッジ回帰に基づいてタスク固有の分類器を学習する。 これはメモリの再生を必要とせず、分類器のタスク干渉を体系的に回避する。 さらに,タスク毎にデータ駆動カーネルを学習するために,変動ランダムな特徴を導入する。 そこで我々はカーネル連続学習を変分推論問題として定式化し、ランダムなフーリエ基底を潜在変数として組み込む。 各タスクのコアセットからランダムなフーリエ基底上の変動後分布を推定する。 このようにして、各タスク固有のより情報的なカーネルを生成することができ、さらに重要なことは、コアセットのサイズを小さくすることで、よりコンパクトなメモリを実現し、エピソードメモリに基づくより効率的な連続学習を実現することができる。 4つのベンチマークの広範な評価は、継続的な学習におけるカーネルの有効性と期待を示している。

This paper introduces kernel continual learning, a simple but effective variant of continual learning that leverages the non-parametric nature of kernel methods to tackle catastrophic forgetting. We deploy an episodic memory unit that stores a subset of samples for each task to learn task-specific classifiers based on kernel ridge regression. This does not require memory replay and systematically avoids task interference in the classifiers. We further introduce variational random features to learn a data-driven kernel for each task. To do so, we formulate kernel continual learning as a variational inference problem, where a random Fourier basis is incorporated as the latent variable. The variational posterior distribution over the random Fourier basis is inferred from the coreset of each task. In this way, we are able to generate more informative kernels specific to each task, and, more importantly, the coreset size can be reduced to achieve more compact memory, resulting in more efficient continual learning based on episodic memory. Extensive evaluation on four benchmarks demonstrates the effectiveness and promise of kernels for continual learning.
翻訳日:2021-07-14 14:55:46 公開日:2021-07-12
# 強化学習における分散一般化のための表現学習

Representation Learning for Out-Of-Distribution Generalization in Reinforcement Learning ( http://arxiv.org/abs/2107.05686v1 )

ライセンス: Link先を確認
Andrea Dittadi, Frederik Tr\"auble, Manuel W\"uthrich, Felix Widmaier, Peter Gehler, Ole Winther, Francesco Locatello, Olivier Bachem, Bernhard Sch\"olkopf, Stefan Bauer(参考訳) さまざまな下流タスクに有用なデータ表現を学ぶことは、人工知能の基盤である。 既存の手法は分類や生成画像品質などの下流タスクで一般的に評価されるが,オブジェクトの到達や押下といった下流制御タスクにおける表現の有用性を評価する。 1万以上の強化学習政策を訓練することにより,表現特性の違いがアウト・オブ・ディストリビューション(OOD)の一般化に与える影響を広く評価する。 最後に、ドメインのランダム化や微調整なしに、シミュレーションから実世界へのポリシーのゼロショット転送を実証する。 本稿では,実世界のOODダウンストリームタスクにおける学習表現の有用性を初めて体系的に評価することを目的とする。

Learning data representations that are useful for various downstream tasks is a cornerstone of artificial intelligence. While existing methods are typically evaluated on downstream tasks such as classification or generative image quality, we propose to assess representations through their usefulness in downstream control tasks, such as reaching or pushing objects. By training over 10,000 reinforcement learning policies, we extensively evaluate to what extent different representation properties affect out-of-distribution (OOD) generalization. Finally, we demonstrate zero-shot transfer of these policies from simulation to the real world, without any domain randomization or fine-tuning. This paper aims to establish the first systematic characterization of the usefulness of learned representations for real-world OOD downstream tasks.
翻訳日:2021-07-14 14:54:21 公開日:2021-07-12
# 文脈帯域における誤特定への適応

Adapting to Misspecification in Contextual Bandits ( http://arxiv.org/abs/2107.05745v1 )

ライセンス: Link先を確認
Dylan J. Foster and Claudio Gentile and Mehryar Mohri and Julian Zimmert(参考訳) 文脈帯域における主要な研究方向は、計算効率が良く、柔軟な汎用関数近似をサポートするアルゴリズムを開発することである。 モデリング報酬に基づくアルゴリズムは、強い経験的性能を示してきたが、典型的には明確に定義されたモデルが必要であり、この仮定が守られなければ失敗する可能性がある。 効率的でフレキシブルなアルゴリズムを設計することはできますが、モデルの誤特定に直面して優雅に分解できますか? 我々は、未知のモデルの不特定性に適応する、$\varepsilon$-misspe cified contextual bandits(有限および無限のアクション設定)のための、新しいオラクル効率アルゴリズム群を紹介します。 正方損失の回帰のためにオンラインのオラクルにアクセスすると、我々のアルゴリズムは最適に後悔し、特に、事前の知識なしに、誤特定レベルに最適に依存する。 d$次元の無限の作用を持つ線形文脈的包帯に特化して、未知の誤特定レベル$\varepsilon$に対する最適$O(d\sqrt{T} + \varepsilon\sqrt{d}T)$後悔境界を達成する最初のアルゴリズムを得る。 概念レベルでは,Foster と Rakhlin の回帰オラクル還元フレームワークに対する新たな最適化に基づく視点で,より広範な利用が期待できる。

A major research direction in contextual bandits is to develop algorithms that are computationally efficient, yet support flexible, general-purpose function approximation. Algorithms based on modeling rewards have shown strong empirical performance, but typically require a well-specified model, and can fail when this assumption does not hold. Can we design algorithms that are efficient and flexible, yet degrade gracefully in the face of model misspecification? We introduce a new family of oracle-efficient algorithms for $\varepsilon$-misspe cified contextual bandits that adapt to unknown model misspecification -- both for finite and infinite action settings. Given access to an online oracle for square loss regression, our algorithm attains optimal regret and -- in particular -- optimal dependence on the misspecification level, with no prior knowledge. Specializing to linear contextual bandits with infinite actions in $d$ dimensions, we obtain the first algorithm that achieves the optimal $O(d\sqrt{T} + \varepsilon\sqrt{d}T)$ regret bound for unknown misspecification level $\varepsilon$. On a conceptual level, our results are enabled by a new optimization-based perspective on the regression oracle reduction framework of Foster and Rakhlin, which we anticipate will find broader use.
翻訳日:2021-07-14 14:54:10 公開日:2021-07-12
# DDCNet-Multires:Dens e Predictionのための有効受容場誘導型マルチレゾリューションCNN

DDCNet-Multires: Effective Receptive Field Guided Multiresolution CNN for Dense Prediction ( http://arxiv.org/abs/2107.05634v1 )

ライセンス: Link先を確認
Ali Salehi, Madhusudhanan Balasubramanian(参考訳) 不均質な動きのダイナミクス、オクルージョン、およびシーンの均質性を持つシーンに大きな変位がある場合、高密度光フロー推定は困難である。 これらの課題に対処する従来のアプローチには、階層的およびマルチレゾリューションな処理方法がある。 学習に基づくオプティカルフロー法は通常、幅広い流れ速度と不均質な動きが存在する場合、イメージウォーピングを伴うマルチレゾリューションアプローチを用いる。 このような粗大な手法の精度は、複数の解像度で画像が歪められたときのゴーストアーティファクトや、より高い動きのコントラストを持つ小さなシーン範囲での消滅問題の影響を受けている。 これまで我々は,ネットワーク(DDCNet)の有効受容場(ERF)特性に導かれる高密度予測ネットワークを構築するための戦略を考案した。 DDCNetの設計は意図的にシンプルでコンパクトであり、より複雑でコンパクトなネットワークを設計するためのビルディングブロックとして使用できる。 本研究では, DDCNet をベースとしたサブネットを ERF の範囲を小さくすることで, 異種運動力学を扱うための DDCNet 戦略を拡張した。 マルチレゾリューション機能付きDDCNet(DDCNet-Multir es)は、特別なネットワーク層を持たないコンパクトである。 標準光フローベンチマークを用いたDDCNet-Multiresネットワークの性能評価を行った。 実験により,DDCNet-MultiresはDDCNet-B0および-B1よりも改善し,光学フロー推定を類似の軽量学習法に匹敵する精度で提供することを示した。

Dense optical flow estimation is challenging when there are large displacements in a scene with heterogeneous motion dynamics, occlusion, and scene homogeneity. Traditional approaches to handle these challenges include hierarchical and multiresolution processing methods. Learning-based optical flow methods typically use a multiresolution approach with image warping when a broad range of flow velocities and heterogeneous motion is present. Accuracy of such coarse-to-fine methods is affected by the ghosting artifacts when images are warped across multiple resolutions and by the vanishing problem in smaller scene extents with higher motion contrast. Previously, we devised strategies for building compact dense prediction networks guided by the effective receptive field (ERF) characteristics of the network (DDCNet). The DDCNet design was intentionally simple and compact allowing it to be used as a building block for designing more complex yet compact networks. In this work, we extend the DDCNet strategies to handle heterogeneous motion dynamics by cascading DDCNet based sub-nets with decreasing extents of their ERF. Our DDCNet with multiresolution capability (DDCNet-Multires) is compact without any specialized network layers. We evaluate the performance of the DDCNet-Multires network using standard optical flow benchmark datasets. Our experiments demonstrate that DDCNet-Multires improves over the DDCNet-B0 and -B1 and provides optical flow estimates with accuracy comparable to similar lightweight learning-based methods.
翻訳日:2021-07-14 14:52:24 公開日:2021-07-12
# 判断に対する予測のキャリブレーション:マルチクラスキャリブレーションへの新しいアプローチ

Calibrating Predictions to Decisions: A Novel Approach to Multi-Class Calibration ( http://arxiv.org/abs/2107.05719v1 )

ライセンス: Link先を確認
Shengjia Zhao, Michael P. Kim, Roshni Sahoo, Tengyu Ma, Stefano Ermon(参考訳) 不確実性に直面すると、意思決定者は信頼できる予測を求める。 機械学習プロバイダは、予測したクラス確率のベクター$q$を受け取る入力の中で、クラス上の実際の分布が$q$であることを保証することによって、意思決定者に自信を与えることができる。 しかし、マルチクラスの予測問題では、分布のキャリブレーションを達成することは不可能であり、クラス数$C$でサンプルの複雑さが指数関数的に必要となる。 本研究では,下流意思決定者に対して,予測された分布と真の分布を‘識別不能’とすることを要求する,新たな概念である \emph{decision calibration} を導入する。 すべての可能な意思決定者が考慮されている場合、決定キャリブレーションは分布キャリブレーションと同じである。 しかし、私たちが意思決定者だけを考えるとき、境界値のアクション(例)を選択する。 C$の多項式は、決定のキャリブレーションが実現可能であることを示している -- 私たちは、アクションの数とクラス数でサンプル複雑多項式を必要とする再校正アルゴリズムを設計します。 既存の手法と比較して、決定校正は皮膚病変の意思決定を改善し、画像ネットを現代のニューラルネットワーク予測器で分類する。

When facing uncertainty, decision-makers want predictions they can trust. A machine learning provider can convey confidence to decision-makers by guaranteeing their predictions are distribution calibrated -- amongst the inputs that receive a predicted class probabilities vector $q$, the actual distribution over classes is $q$. For multi-class prediction problems, however, achieving distribution calibration tends to be infeasible, requiring sample complexity exponential in the number of classes $C$. In this work, we introduce a new notion -- \emph{decision calibration} -- that requires the predicted distribution and true distribution to be ``indistinguishable&#x 27;' to a set of downstream decision-makers. When all possible decision makers are under consideration, decision calibration is the same as distribution calibration. However, when we only consider decision makers choosing between a bounded number of actions (e.g. polynomial in $C$), our main result shows that decisions calibration becomes feasible -- we design a recalibration algorithm that requires sample complexity polynomial in the number of actions and the number of classes. We validate our recalibration algorithm empirically: compared to existing methods, decision calibration improves decision-making on skin lesion and ImageNet classification with modern neural network predictors.
翻訳日:2021-07-14 14:49:46 公開日:2021-07-12
# 高速かつ明示的なニューラルビュー合成

Fast and Explicit Neural View Synthesis ( http://arxiv.org/abs/2107.05775v1 )

ライセンス: Link先を確認
Pengsheng Guo, Miguel Angel Bautista, Alex Colburn, Liang Yang, Daniel Ulbricht, Joshua M. Susskind, Qi Shan(参考訳) 本研究では3次元オブジェクトからなるシーンの新規ビュー合成問題について検討する。 本研究では,連続的でも暗黙的でもない,単純かつ効果的なアプローチを提案する。 連続放射場表現は表現力によって注目されているが,本手法では,最先端のベースラインと同等あるいはそれ以上の斬新なビュー再構成品質を得るとともに,レンダリング速度を400倍以上に向上させる。 我々のモデルはカテゴリに依存しない方法で訓練されており、シーン固有の最適化を必要としない。 そのため、学習中に見えない対象カテゴリに新しいビュー合成を一般化することができる。 さらに, 簡易な定式化により, 視線合成を自己超越信号として利用して, 3次元図形学習の効率化を図ることができることを示す。

We study the problem of novel view synthesis of a scene comprised of 3D objects. We propose a simple yet effective approach that is neither continuous nor implicit, challenging recent trends on view synthesis. We demonstrate that although continuous radiance field representations have gained a lot of attention due to their expressive power, our simple approach obtains comparable or even better novel view reconstruction quality comparing with state-of-the-art baselines while increasing rendering speed by over 400x. Our model is trained in a category-agnostic manner and does not require scene-specific optimization. Therefore, it is able to generalize novel view synthesis to object categories not seen during training. In addition, we show that with our simple formulation, we can use view synthesis as a self-supervision signal for efficient learning of 3D geometry without explicit 3D supervision.
翻訳日:2021-07-14 14:48:16 公開日:2021-07-12
# 局所的に強化されたセルフ・アテンション:ローカルとコンテキストの用語としての自己アテンションの再検討

Locally Enhanced Self-Attention: Rethinking Self-Attention as Local and Context Terms ( http://arxiv.org/abs/2107.05637v1 )

ライセンス: Link先を確認
Chenglin Yang, Siyuan Qiao, Adam Kortylewski, Alan Yuille(参考訳) 自己認識はコンピュータビジョンモデルで広く使われている。 完全に連結された条件ランダム場(CRF)に着想を得て、局所的および文脈的に分解する。 これらはCRFの単項および二項項に対応し、射影行列を持つ注意機構によって実装される。 我々は、ユニリー項はアウトプットに対して小さな貢献しかせず、一方、ユニリー項のみに依存する標準的なcnnは様々なタスクで素晴らしいパフォーマンスを達成していると観察する。 そこで本研究では,畳み込みを組み込むことでユニタリ項を強化し,ユナリ演算とバイナリ演算を動的に結合する,局所的拡張セルフアテンション(lesa)を提案する。 実験では,自己注意モジュールをLESAに置き換えた。 imagenet と coco の結果は,画像認識,オブジェクト検出,インスタンスセグメンテーションといったタスクにおいて,畳み込みや自己アテンションベースラインよりも lesa の方が優れていることを示している。 コードは公開されています。

Self-Attention has become prevalent in computer vision models. Inspired by fully connected Conditional Random Fields (CRFs), we decompose it into local and context terms. They correspond to the unary and binary terms in CRF and are implemented by attention mechanisms with projection matrices. We observe that the unary terms only make small contributions to the outputs, and meanwhile standard CNNs that rely solely on the unary terms achieve great performances on a variety of tasks. Therefore, we propose Locally Enhanced Self-Attention (LESA), which enhances the unary term by incorporating it with convolutions, and utilizes a fusion module to dynamically couple the unary and binary operations. In our experiments, we replace the self-attention modules with LESA. The results on ImageNet and COCO show the superiority of LESA over convolution and self-attention baselines for the tasks of image recognition, object detection, and instance segmentation. The code is made publicly available.
翻訳日:2021-07-14 14:44:31 公開日:2021-07-12
# 情報ボトルネックモデルの敵対的ロバスト性について

A Closer Look at the Adversarial Robustness of Information Bottleneck Models ( http://arxiv.org/abs/2107.05712v1 )

ライセンス: Link先を確認
Iryna Korshunova, David Stutz, Alexander A. Alemi, Olivia Wiles, Sven Gowal(参考訳) 分類のための情報ボトルネックモデルの逆強靭性について検討する。 以前の研究は、情報のボトルネックでトレーニングされたモデルの堅牢性が、逆のトレーニングによって改善されることを示した。 各種のホワイトボックス$l_{\infty}$アタックによる評価は,情報ボトルネックだけでは強力な防御戦略ではないことを示唆し,事前の結果は勾配難読化の影響を受けている可能性が示唆された。

We study the adversarial robustness of information bottleneck models for classification. Previous works showed that the robustness of models trained with information bottlenecks can improve upon adversarial training. Our evaluation under a diverse range of white-box $l_{\infty}$ attacks suggests that information bottlenecks alone are not a strong defense strategy, and that previous results were likely influenced by gradient obfuscation.
翻訳日:2021-07-14 14:38:37 公開日:2021-07-12
# 戦略的帰納的変数回帰: 戦略的応答から因果関係を回復する

Strategic Instrumental Variable Regression: Recovering Causal Relationships From Strategic Responses ( http://arxiv.org/abs/2107.05762v1 )

ライセンス: Link先を確認
Keegan Harris, Daniel Ngo, Logan Stapleton, Hoda Heidari, Zhiwei Steven Wu(参考訳) 機械学習アルゴリズムは、しばしば個人に対して、より好ましい予測を受けるために、観測可能な属性を戦略的に修正するよう促す。 結果として、予測モデルをトレーニングした分布は、デプロイメントで運用されているものとは異なる可能性がある。 このような分布変化は、一般的には正確な予測を妨げるが、我々の研究は、戦略的な反応によるシフトに関連するユニークな機会を識別する:我々は、観測可能な特徴と予測したい結果の間の因果関係を効果的に回復するために、戦略的応答を効果的に利用できることを示します。 より具体的には、プリンシパルが一連の戦略エージェント(例えば、大学志願者)に対して利害関係(例えば、カレッジgpa)を予測するために一連のモデルを展開するゲーム理論モデルについて研究する。 戦略エージェントは、より良い予測のために努力し、機能を変更する。 このような設定では、観測不能な条件変数は、エージェントの観測可能な特徴(例えば高校記録)と結果の両方に影響を与える可能性がある。 したがって、標準回帰法は一般にバイアス推定器を生成する。 本研究は,機械学習モデルに対する戦略的応答とインストゥルメンタル変数(iv)回帰との新たな関連性を確立するために,デプロイされたモデルのシーケンスがエージェントの可観測性に影響を与えるが,その結果に直接影響しない機器と見なすことができることを示す。 したがって、2段最小二乗(2SLS)回帰は観測可能な特徴と結果の間の因果関係を回復することができる。 因果回復以外にも,エージェントアウトカムの最大化と予測リスクの最小化という,関連する2つの最適化目標に対処するために,2sls法を構築することが可能です。 最後に, 半合成データを用いた数値シミュレーションにより, 因果関係推定におけるOLS回帰を著しく上回ることを示す。

Machine Learning algorithms often prompt individuals to strategically modify their observable attributes to receive more favorable predictions. As a result, the distribution the predictive model is trained on may differ from the one it operates on in deployment. While such distribution shifts, in general, hinder accurate predictions, our work identifies a unique opportunity associated with shifts due to strategic responses: We show that we can use strategic responses effectively to recover causal relationships between the observable features and outcomes we wish to predict. More specifically, we study a game-theoretic model in which a principal deploys a sequence of models to predict an outcome of interest (e.g., college GPA) for a sequence of strategic agents (e.g., college applicants). In response, strategic agents invest efforts and modify their features for better predictions. In such settings, unobserved confounding variables can influence both an agent's observable features (e.g., high school records) and outcomes. Therefore, standard regression methods generally produce biased estimators. In order to address this issue, our work establishes a novel connection between strategic responses to machine learning models and instrumental variable (IV) regression, by observing that the sequence of deployed models can be viewed as an instrument that affects agents' observable features but does not directly influence their outcomes. Therefore, two-stage least squares (2SLS) regression can recover the causal relationships between observable features and outcomes. Beyond causal recovery, we can build on our 2SLS method to address two additional relevant optimization objectives: agent outcome maximization and predictive risk minimization. Finally, our numerical simulations on semi-synthetic data show that our methods significantly outperform OLS regression in causal relationship estimation.
翻訳日:2021-07-14 14:38:29 公開日:2021-07-12
# 保守的オフライン分布強化学習

Conservative Offline Distributional Reinforcement Learning ( http://arxiv.org/abs/2107.06106v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, Dinesh Jayaraman, Osbert Bastani(参考訳) 多くの強化学習(RL)問題はオフラインであり、観測データから純粋に学習する。 重要な課題は、学習したポリシーが安全であることを確実にする方法であり、異なるアクションに関連するリスクを定量化する必要がある。 オンライン環境では、分布的RLアルゴリズムは、期待されるリターンではなくリターン(すなわち累積的なリターン)上の分布を学習することでそうする。 リスクニュートラル領域とリスクアバース領域の両方に適したオフラインRLアルゴリズムであるCODAC(Reserve Offline Distributional Actor Critic)を提案する。 CODAC は分布 RL をオフライン設定に適応させ、予測された分布の量子化をアウト・オブ・ディストリビューション・アクションとして罰する。 我々はCODACが保守的な回帰分布(特に有限の MDP に対して)を学ぶことを証明し、CODAC は戻り分布の量子化の均一な下界に収束する。 実験では、2つの困難なロボットナビゲーションタスクにおいて、CODACはリスク中立エージェントから純粋に収集されたオフラインデータを用いてリスク逆ポリシーを学習した。 さらに、CODACはD4RL MuJoCoベンチマークの予測とリスク感受性の両方のパフォーマンスにおいて最先端である。

Many reinforcement learning (RL) problems in practice are offline, learning purely from observational data. A key challenge is how to ensure the learned policy is safe, which requires quantifying the risk associated with different actions. In the online setting, distributional RL algorithms do so by learning the distribution over returns (i.e., cumulative rewards) instead of the expected return; beyond quantifying risk, they have also been shown to learn better representations for planning. We propose Conservative Offline Distributional Actor Critic (CODAC), an offline RL algorithm suitable for both risk-neutral and risk-averse domains. CODAC adapts distributional RL to the offline setting by penalizing the predicted quantiles of the return for out-of-distribution actions. We prove that CODAC learns a conservative return distribution -- in particular, for finite MDPs, CODAC converges to an uniform lower bound on the quantiles of the return distribution; our proof relies on a novel analysis of the distributional Bellman operator. In our experiments, on two challenging robot navigation tasks, CODAC successfully learns risk-averse policies using offline data collected purely from risk-neutral agents. Furthermore, CODAC is state-of-the-art on the D4RL MuJoCo benchmark in terms of both expected and risk-sensitive performance.
翻訳日:2021-07-14 14:37:02 公開日:2021-07-12
# ソーシャルネットワーク分析によるInstagramインフルエンサーの検出

Detecting Ideal Instagram Influencer Using Social Network Analysis ( http://arxiv.org/abs/2107.05731v1 )

ライセンス: Link先を確認
M.M.H Dihyat, K Malik, M.A Khan, B Imran(参考訳) ソーシャルメディアは、人々が自分の考え、見解、感情、感情を共有する現代社会の重要な側面である。 ここ数年、ソーシャルメディアの人気が急上昇し、データ量も大幅に増加した。 ユーザはこのメディアを使って、政治や有名人など、さまざまなテーマについて自分の考えや感情、意見を表現できる。 そのためにソーシャルメディアは、企業の範囲を拡大し、今後の展望を改善するための、収益性のあるプラットフォームへと進化した。 本論文は、現実のオンラインマーケティング戦略のためのソーシャルネットワーク分析(SNA)に焦点を当てている。 この研究は、ネットワーク内の最も中央のノードを特定するために様々な集中性指標を比較し、個々のユーザの拡散行動を理解するために線形しきい値モデルを用いている。 結論として,ネットワーク上でもっとも影響力のあるユーザを特定するために,中央集中度と行動の拡散を関連づける。

Social Media is a key aspect of modern society where people share their thoughts, views, feelings and sentiments. Over the last few years, the inflation in popularity of social media has resulted in a monumental increase in data. Users use this medium to express their thoughts, feelings, and opinions on a wide variety of subjects, including politics and celebrities. Social Media has thus evolved into a lucrative platform for companies to expand their scope and improve their prospects. The paper focuses on social network analysis (SNA) for a real-world online marketing strategy. The study contributes by comparing various centrality measures to identify the most central nodes in the network and uses a linear threshold model to understand the spreading behaviour of individual users. In conclusion, the paper correlates different centrality measures and spreading behaviour to identify the most influential user in the network
翻訳日:2021-07-14 14:36:29 公開日:2021-07-12
# 補助的テキスト翻訳課題からの理解と学習による音声翻訳の改善

Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task ( http://arxiv.org/abs/2107.05782v1 )

ライセンス: Link先を確認
Yun Tang, Juan Pino, Xian Li, Changhan Wang, Dmitriy Genzel(参考訳) 事前学習とマルチタスク学習は、テキスト翻訳性能を改善するために広く用いられている。 本研究では,テキスト翻訳モデルに助成的なテキスト翻訳タスクとともに,音声からテキストへの翻訳モデルを訓練することに興味がある。 補助タスクがマルチタスク学習フレームワークにおけるプライマリタスクに与える影響を理解するために,詳細な分析を行う。 解析により、マルチタスク学習は、異なるモダリティから類似のデコーダ表現を生成し、事前訓練されたテキスト翻訳モジュールからより多くの情報を保持する傾向があることを確認した。 2つのタスク間の最小の負の転送効果を観察し、より多くのパラメータを共有することは、テキストタスクから音声タスクへの知識の転送に役立つ。 また、上層デコーダ層におけるモダリティ表現差がまだ無視できないことや、それらの層が翻訳品質に重要なことを明らかにする。 これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。 まず,タスク間の情報共有を強化するためのパラメータ共有と初期化戦略を提案する。 第二に、新しい注意に基づく正規化がエンコーダに対して提案され、異なるモーダルから近い表現を引き出す。 第3に,テキストから音声タスクへの知識伝達を強化するために,オンライン知識蒸留法を提案する。 提案手法は,強いベースライン上で2 BLEU以上の翻訳性能を向上し,英語-ドイツ語,英語-フランス語,英語-スペイン語のペアに対して最先端の結果が得られることを示す。

Pretraining and multitask learning are widely used to improve the speech to text translation performance. In this study, we are interested in training a speech to text translation model along with an auxiliary text to text translation task. We conduct a detailed analysis to understand the impact of the auxiliary task on the primary task within the multitask learning framework. Our analysis confirms that multitask learning tends to generate similar decoder representations from different modalities and preserve more information from the pretrained text translation modules. We observe minimal negative transfer effect between the two tasks and sharing more parameters is helpful to transfer knowledge from the text task to the speech task. The analysis also reveals that the modality representation difference at the top decoder layers is still not negligible, and those layers are critical for the translation quality. Inspired by these findings, we propose three methods to improve translation quality. First, a parameter sharing and initialization strategy is proposed to enhance information sharing between the tasks. Second, a novel attention-based regularization is proposed for the encoders and pulls the representations from different modalities closer. Third, an online knowledge distillation is proposed to enhance the knowledge transfer from the text to the speech task. Our experiments show that the proposed approach improves translation performance by more than 2 BLEU over a strong baseline and achieves state-of-the-art results on the \textsc{MuST-C} English-German, English-French and English-Spanish language pairs.
翻訳日:2021-07-14 14:36:16 公開日:2021-07-12
# 主観的正規化のための階層的事前を持つベイズアトラスビルディング

Bayesian Atlas Building with Hierarchical Priors for Subject-specific Regularization ( http://arxiv.org/abs/2107.05698v1 )

ライセンス: Link先を確認
Jian Wang, Miaomiao Zhang(参考訳) 本稿では, 画像登録を対象とする非バイアス型アトラスの階層的ベイズモデルを提案する。 我々は,個々の画像データに基づいて微分同相変換の滑らかさを制御するためにパラメータを自動的に選択するアトラス構築プロセスを開発した。 これを実現するために,幾何変換の度合いの異なる画像に対する複数のペナルティを許容する正規化パラメータの階層的事前分布を導入する。 次に、正規化パラメータを潜在変数として扱い、モンテカルロ予測最大化(MCEM)アルゴリズムを用いてモデルからそれらを統合する。 我々のアルゴリズムのもう1つの利点は、手動のパラメータチューニングの必要性をなくすことである。 3次元脳mr画像におけるモデルの有効性を実証する。 実験結果から,本モデルでは単一ペナルティ正規化アルゴリズムと比較して,よりシャープなアトラスが得られた。 私たちのコードはhttps://github.com/j w4hv/HierarchicalBay esianAtlasBuildで公開されています。

This paper presents a novel hierarchical Bayesian model for unbiased atlas building with subject-specific regularizations of image registration. We develop an atlas construction process that automatically selects parameters to control the smoothness of diffeomorphic transformation according to individual image data. To achieve this, we introduce a hierarchical prior distribution on regularization parameters that allows multiple penalties on images with various degrees of geometric transformations. We then treat the regularization parameters as latent variables and integrate them out from the model by using the Monte Carlo Expectation Maximization (MCEM) algorithm. Another advantage of our algorithm is that it eliminates the need for manual parameter tuning, which can be tedious and infeasible. We demonstrate the effectiveness of our model on 3D brain MR images. Experimental results show that our model provides a sharper atlas compared to the current atlas building algorithms with single-penalty regularizations. Our code is publicly available at https://github.com/j w4hv/HierarchicalBay esianAtlasBuild.
翻訳日:2021-07-14 14:34:43 公開日:2021-07-12
# 強化学習による山火事に対する送電網の弾力性制御

Reinforcement Learning based Proactive Control for Transmission Grid Resilience to Wildfire ( http://arxiv.org/abs/2107.05756v1 )

ライセンス: Link先を確認
Salah U. Kadir, Subir Majumder, Ajay D. Chhokra, Abhishek Dubey, Himanshu Neema, Aron Laszka, Anurag K. Srivastava(参考訳) 極端なイベントの電力グリッド操作には、認知負荷の高いストレス条件下での人間の操作者による意思決定が必要である。 有害な動的事象、特に予測された場合の意思決定支援は、インテリジェントなプロアクティブ制御によって補うことができる。 ワイルドファイア時の電力系統の運用には、ワイルドファイアのダイナミクスと障害伝播を考慮した負荷シェディング、ラインスイッチング、リソース割り当てに対するレジリエンス駆動の積極的な制御が必要である。 しかし、イベント中の大規模システムにおける行数や負荷スイッチングの可能性は、従来の予測駆動の確率論的アプローチを計算的に難解にし、演算子はしばしば欲求的なアルゴリズムを使う。 我々は, マルコフ決定過程としてプロアクティブ制御問題をモデル化, 解決し, 時空間ワイルドファイア伝播とプロアクティブパワーシステム運用のための統合テストベッドを導入する。 我々は、巨大な野火伝播観測空間を変換し、伝達資産の積極的な非エネルギー化のためのヒューリスティックの一部として利用する。 このヒューリスティックを強化学習に基づく積極的な政策と統合し,生成資産の制御を行う。 提案手法により,この制御器は生成系の一部にセットポイントを供給でき,一方,筋電図演算器は残りのセットのセットポイントを決定でき,共生作用をもたらす。 仮説的な地形にマッピングされたIEEE 24ノードシステムを用いて,本手法の評価を行った。 提案手法は, 極端事象時の負荷損失を低減し, 脱エネルギー線を通した電力流量を低減し, 送電線の短期的熱限界に違反する可能性の低減に有効であることを示す。

Power grid operation subject to an extreme event requires decision-making by human operators under stressful condition with high cognitive load. Decision support under adverse dynamic events, specially if forecasted, can be supplemented by intelligent proactive control. Power system operation during wildfires require resiliency-driven proactive control for load shedding, line switching and resource allocation considering the dynamics of the wildfire and failure propagation. However, possible number of line- and load-switching in a large system during an event make traditional prediction-driven and stochastic approaches computationally intractable, leading operators to often use greedy algorithms. We model and solve the proactive control problem as a Markov decision process and introduce an integrated testbed for spatio-temporal wildfire propagation and proactive power-system operation. We transform the enormous wildfire-propagation observation space and utilize it as part of a heuristic for proactive de-energization of transmission assets. We integrate this heuristic with a reinforcement-learni ng based proactive policy for controlling the generating assets. Our approach allows this controller to provide setpoints for a part of the generation fleet, while a myopic operator can determine the setpoints for the remaining set, which results in a symbiotic action. We evaluate our approach utilizing the IEEE 24-node system mapped on a hypothetical terrain. Our results show that the proposed approach can help the operator to reduce load loss during an extreme event, reduce power flow through lines that are to be de-energized, and reduce the likelihood of infeasible power-flow solutions, which would indicate violation of short-term thermal limits of transmission lines.
翻訳日:2021-07-14 14:33:32 公開日:2021-07-12
# 活性樹状樹は超伝導ニューロンのファンイン制限を緩和する

An active dendritic tree can mitigate fan-in limitations in superconducting neurons ( http://arxiv.org/abs/2107.05777v1 )

ライセンス: Link先を確認
Bryce A. Primavera and Jeffrey M. Shainline(参考訳) 超伝導電子回路は、ニューロモルフィックハードウェアに関して多くのものを提供する。 超伝導量子干渉デバイス(SQUID)は、ニューロンのソマのしきい値演算を行うための活性要素として機能する。 しかし、SQUIDは、印加信号に周期的な応答関数を持つ。 理論的には、単調に増大する応答を維持するためにSQUIDへの総入力を制限すると、ニューロンを閾値まで動かすために多くのシナプスが活性化されなければならない。 次に、活性樹状樹(SQUIDsにもとづく)がニューロンを閾値まで動かさなければならないシナプスの分画を著しく減少させることを示した。 この文脈では、樹状樹を包含することは、各ニューロンの計算能力を高め、スパース入力活性でニューロンをスパイクさせるという二重の利点をもたらす。

Superconducting electronic circuits have much to offer with regard to neuromorphic hardware. Superconducting quantum interference devices (SQUIDs) can serve as an active element to perform the thresholding operation of a neuron's soma. However, a SQUID has a response function that is periodic in the applied signal. We show theoretically that if one restricts the total input to a SQUID to maintain a monotonically increasing response, a large fraction of synapses must be active to drive a neuron to threshold. We then demonstrate that an active dendritic tree (also based on SQUIDs) can significantly reduce the fraction of synapses that must be active to drive the neuron to threshold. In this context, the inclusion of a dendritic tree provides the dual benefits of enhancing the computational abilities of each neuron and allowing the neuron to spike with sparse input activity.
翻訳日:2021-07-14 14:33:08 公開日:2021-07-12
# トピックモデルにおけるスパーストピック分布の確率推定とwasserstein文書距離計算への応用

Likelihood estimation of sparse topic distributions in topic models and its applications to Wasserstein document distance calculations ( http://arxiv.org/abs/2107.05766v1 )

ライセンス: Link先を確認
Xin Bing and Florentina Bunea and Seth Strimas-Mackey and Marten Wegkamp(参考訳) 本稿では,トピックモデルにおける高次元,離散的,おそらくスパースな混合モデルの推定について検討する。 データは、$n$独立文書にまたがる$p$ワードの観測された多項数からなる。 トピックモデルでは、$p\times n$ 期待語周波数行列は$p\times k$ word-topic matrix $a$ と$k\times n$ topic-document matrix $t$ と推定される。 両方の行列の列は確率単純化に属する条件付き確率を表すので、$a$の列はすべての文書に共通する$p$-次元の混合成分と見なされ、$t$の列は文書固有の$k$-次元の混合重みと見なされる。 主な関心は、シャープで有限のサンプルである$\ell_1$-norm収束率を提供することである。 既知の$A$については、MLEの推定に$T$を提案する。 我々の MLE の非標準解析は $\ell_1$ 収束率を確立するだけでなく、顕著な性質を明らかにしている: MLE は余分な正規化を持たず、正確にスパースであり、真の $T$ の零パターンを含むことができる。 さらに、MLEは、スパース分布の大規模なクラスにおいて、未知の空間に適応し、最小限の最適であることを示す。 A$ が未知の場合、プラグイン、ジェネリック、推定器 $\hat{A}$ of $A$ に対応する可能性関数を最適化することで$T$ を推定する。 任意の推定器 $\hat{A}$ が$A$ に近いような詳細な条件を満たす場合、結果として生じる$T$ の推定器は MLE で確立されたプロパティを保持する。 周囲寸法$K$と$p$はサンプルサイズで成長することができる。 本稿では,文書生成分布間の1-wasserstein距離の推定を行う。 2つの確率的文書表現間の新しい1-wasserstein距離を提案し,推定し,解析する。

This paper studies the estimation of high-dimensional, discrete, possibly sparse, mixture models in topic models. The data consists of observed multinomial counts of $p$ words across $n$ independent documents. In topic models, the $p\times n$ expected word frequency matrix is assumed to be factorized as a $p\times K$ word-topic matrix $A$ and a $K\times n$ topic-document matrix $T$. Since columns of both matrices represent conditional probabilities belonging to probability simplices, columns of $A$ are viewed as $p$-dimensional mixture components that are common to all documents while columns of $T$ are viewed as the $K$-dimensional mixture weights that are document specific and are allowed to be sparse. The main interest is to provide sharp, finite sample, $\ell_1$-norm convergence rates for estimators of the mixture weights $T$ when $A$ is either known or unknown. For known $A$, we suggest MLE estimation of $T$. Our non-standard analysis of the MLE not only establishes its $\ell_1$ convergence rate, but reveals a remarkable property: the MLE, with no extra regularization, can be exactly sparse and contain the true zero pattern of $T$. We further show that the MLE is both minimax optimal and adaptive to the unknown sparsity in a large class of sparse topic distributions. When $A$ is unknown, we estimate $T$ by optimizing the likelihood function corresponding to a plug in, generic, estimator $\hat{A}$ of $A$. For any estimator $\hat{A}$ that satisfies carefully detailed conditions for proximity to $A$, the resulting estimator of $T$ is shown to retain the properties established for the MLE. The ambient dimensions $K$ and $p$ are allowed to grow with the sample sizes. Our application is to the estimation of 1-Wasserstein distances between document generating distributions. We propose, estimate and analyze new 1-Wasserstein distances between two probabilistic document representations.
翻訳日:2021-07-14 14:32:40 公開日:2021-07-12
# ニット膜の計算モデルとデータ駆動均質化

Computational modelling and data-driven homogenisation of knitted membranes ( http://arxiv.org/abs/2107.05707v1 )

ライセンス: Link先を確認
Sumudu Herath, Xiao Xiao and Fehmi Cirak(参考訳) 編み物は、ループ間糸の固有の柔軟性と、局所的な縫合パターンのより良い制御を提供する製造の最近の進歩により、複雑な3次元表面を生産する有効な技術である。 大規模な編み膜の糸レベルモデリングは不可能である。 そこで我々は,2段階の均質化手法を検討し,この膜をマクロスケール上のKirchhoff-Loveシェル,マイクロスケール上のEuler-Bernoulliロッドとしてモデル化する。 シェルおよびロッドの制御方程式は、立方体B-スプライン基底関数と区別される。 非線形マイクロスケール問題の解法は、大きな変形と接触制約の強制によりかなりの時間を要するため、従来のオンライン計算の均質化アプローチは実現不可能である。 この問題を回避するために,事前訓練された統計ガウス過程回帰(gpr)モデルを用いて,マクロスケール変形をマクロスケール応力にマッピングする。 オフライン学習段階では、一様またはsobolサンプリングにより得られた十分にリッチな変形状態のマイクロスケール問題を解いてgprモデルを訓練する。 訓練されたgprモデルは、マイクロスケールに存在する非線形性と異方性をエンコードし、マクロスケールキルヒホフ・ラヴシェルの材料モデルとして機能する。 提案手法の異なる成分を検証・検証した後, その汎用性と良好な性能を示すために, 張力およびせん断を受ける膜を含むいくつかの例を紹介する。

Knitting is an effective technique for producing complex three-dimensional surfaces owing to the inherent flexibility of interlooped yarns and recent advances in manufacturing providing better control of local stitch patterns. Fully yarn-level modelling of large-scale knitted membranes is not feasible. Therefore, we consider a two-scale homogenisation approach and model the membrane as a Kirchhoff-Love shell on the macroscale and as Euler-Bernoulli rods on the microscale. The governing equations for both the shell and the rod are discretised with cubic B-spline basis functions. The solution of the nonlinear microscale problem requires a significant amount of time due to the large deformations and the enforcement of contact constraints, rendering conventional online computational homogenisation approaches infeasible. To sidestep this problem, we use a pre-trained statistical Gaussian Process Regression (GPR) model to map the macroscale deformations to macroscale stresses. During the offline learning phase, the GPR model is trained by solving the microscale problem for a sufficiently rich set of deformation states obtained by either uniform or Sobol sampling. The trained GPR model encodes the nonlinearities and anisotropies present in the microscale and serves as a material model for the macroscale Kirchhoff-Love shell. After verifying and validating the different components of the proposed approach, we introduce several examples involving membranes subjected to tension and shear to demonstrate its versatility and good performance.
翻訳日:2021-07-14 14:29:55 公開日:2021-07-12
# カオスの端におけるニューラルネットワークの最適入力表現

Optimal input representation in neural systems at the edge of chaos ( http://arxiv.org/abs/2107.05709v1 )

ライセンス: Link先を確認
Guillermo B. Morales and Miguel A. Mu\~noz(参考訳) 生物システムがどのように情報を表現し、処理し、保存するかという課題は、重要かつ困難な目標である。 刺激的な仮説は議論を呼んでいるが、相転移の端近くで動的に作用する。 臨界または「カオスの端」は、情報処理の生体システムに重要な運用上の利点を与え、例えば、堅牢性と柔軟性の間の最適なトレードオフを作成する。 ここでは、複雑な入力を表すニューラルネットワークの共分散行列のスペクトルが、一元性に近い指数を持つランクのパワーローとして崩壊する必要があるという最近の理論結果について詳述し、マウス視覚野のニューロンで実際に実験的に検証された結果である。 これらの結果の理解と模倣を目的として,ニューラルネットワークを構築し,画像分類を訓練する。 驚くべきことに,ネットワークが臨界点付近で動作し,共分散行列の固有スペクトルが実際のニューロンと全く同じ統計値に従う場合,そのようなタスクにおける最高の性能が得られることがわかった。 したがって、危機に近い操作は、通常主張される美徳に加えて、柔軟で堅牢で効率的な入力表現を可能にする利点を持つことができると結論づける。

Shedding light onto how biological systems represent, process and store information in noisy environments is a key and challenging goal. A stimulating, though controversial, hypothesis poses that operating in dynamical regimes near the edge of a phase transition, i.e. at criticality or the "edge of chaos", can provide information-processi ng living systems with important operational advantages, creating, e.g., an optimal trade-off between robustness and flexibility. Here, we elaborate on a recent theoretical result, which establishes that the spectrum of covariance matrices of neural networks representing complex inputs in a robust way needs to decay as a power-law of the rank, with an exponent close to unity, a result that has been indeed experimentally verified in neurons of the mouse visual cortex. Aimed at understanding and mimicking these results, we construct an artificial neural network and train it to classify images. Remarkably, we find that the best performance in such a task is obtained when the network operates near the critical point, at which the eigenspectrum of the covariance matrix follows the very same statistics as actual neurons do. Thus, we conclude that operating near criticality can also have -- besides the usually alleged virtues -- the advantage of allowing for flexible, robust and efficient input representations.
翻訳日:2021-07-14 14:29:34 公開日:2021-07-12
# (参考訳) 野生ビデオにおける表情認識のための時空間ネットワーク [全文訳有]

Spatial and Temporal Networks for Facial Expression Recognition in the Wild Videos ( http://arxiv.org/abs/2107.05160v1 )

ライセンス: CC BY 4.0
Shuyi Mao, Xinqi Fan, Xiaojiang Peng(参考訳) 本稿では,ABAW(Affective Behavior Analysis in-the-Wild)コンペティション2021の7つの基本表現分類法について述べる。 本課題では,顔の表情認識(FER)法は,様々な背景から正しい表情カテゴリーを分類することを目的としているが,いくつかの課題がある。 まず,事前学習した大規模顔認証データから得られた知識を用いて,そのモデルを適用する。 次に、畳み込みニューラルネットワーク(CNN)、CNN-RNN(CNN-RNN)、CNN-Transformer(CNN- Transformer)を用いたアンサンブルモデルを提案する。 我々のアンサンブルモデルは、f1 を 0.4133、精度を 0.6216、最終計量を 0.4821 と検証した。

The paper describes our proposed methodology for the seven basic expression classification track of Affective Behavior Analysis in-the-wild (ABAW) Competition 2021. In this task, facial expression recognition (FER) methods aim to classify the correct expression category from a diverse background, but there are several challenges. First, to adapt the model to in-the-wild scenarios, we use the knowledge from pre-trained large-scale face recognition data. Second, we propose an ensemble model with a convolution neural network (CNN), a CNN-recurrent neural network (CNN-RNN), and a CNN-Transformer (CNN-Transformer), to incorporate both spatial and temporal information. Our ensemble model achieved F1 as 0.4133, accuracy as 0.6216 and final metric as 0.4821 on the validation set.
翻訳日:2021-07-14 00:16:50 公開日:2021-07-12
# (参考訳) 深層移動学習に基づく電気自動車ネットワークの侵入検知システム [全文訳有]

Deep Transfer Learning Based Intrusion Detection System for Electric Vehicular Networks ( http://arxiv.org/abs/2107.05172v1 )

ライセンス: CC BY 4.0
Sk. Tanzir Mehedi, Adnan Anwar, Ziaur Rahman and Kawsar Ahmed(参考訳) コントローラエリアネットワーク(CAN)バスは、そのシンプルで適切な、堅牢なアーキテクチャのために、リアルタイム車載ネットワーク(IVN)システムにおいて重要なプロトコルとして機能する。 IVNデバイスのリスクは、未承認ネットワークへのアクセシビリティを大幅に向上させる複雑なデータ集約アーキテクチャと、さまざまなサイバー攻撃の可能性のため、依然として安全で脆弱である。 このため、IVNデバイスにおけるサイバー攻撃の検出が注目されている。 IVNの急速な開発と進化する脅威タイプにより、従来の機械学習ベースのIDSは、現在の環境のセキュリティ要件に対処するために更新されなければならない。 近年,深層学習や深層情報伝達学習の進展,その影響はネットワーク侵入検出の有効な解決策として導かれている。 本書では,ivnのための奥行き伝達学習に基づくidsモデルを提案し,他のモデルと比較して性能が向上した。 このユニークな貢献には、悪質なcanメッセージを識別し、正常および異常なアクティビティを正確に検出するのに最も適した効果的な属性選択、深層トランスファー学習ベースのレネットモデルの設計、現実世界のデータを考慮した評価が含まれる。 この目的のために、広範な実験的な性能評価が行われた。 このアーキテクチャと実証的分析により,提案手法は主流の機械学習,ディープラーニング,ベンチマークのディープトランスファーモデルよりも検出精度が大幅に向上し,実時間ivnセキュリティ性能が向上した。

The Controller Area Network (CAN) bus works as an important protocol in the real-time In-Vehicle Network (IVN) systems for its simple, suitable, and robust architecture. The risk of IVN devices has still been insecure and vulnerable due to the complex data-intensive architectures which greatly increase the accessibility to unauthorized networks and the possibility of various types of cyberattacks. Therefore, the detection of cyberattacks in IVN devices has become a growing interest. With the rapid development of IVNs and evolving threat types, the traditional machine learning-based IDS has to update to cope with the security requirements of the current environment. Nowadays, the progression of deep learning, deep transfer learning, and its impactful outcome in several areas has guided as an effective solution for network intrusion detection. This manuscript proposes a deep transfer learning-based IDS model for IVN along with improved performance in comparison to several other existing models. The unique contributions include effective attribute selection which is best suited to identify malicious CAN messages and accurately detect the normal and abnormal activities, designing a deep transfer learning-based LeNet model, and evaluating considering real-world data. To this end, an extensive experimental performance evaluation has been conducted. The architecture along with empirical analyses shows that the proposed IDS greatly improves the detection accuracy over the mainstream machine learning, deep learning, and benchmark deep transfer learning models and has demonstrated better performance for real-time IVN security.
翻訳日:2021-07-14 00:12:32 公開日:2021-07-12
# (参考訳) ゼロショット合成概念学習 [全文訳有]

Zero-Shot Compositional Concept Learning ( http://arxiv.org/abs/2107.05176v1 )

ライセンス: CC BY 4.0
Guangyue Xu, Parisa Kordjamshidi, Joyce Y. Chai(参考訳) 本稿では,ゼロショット学習(ZSL)フレームワークにおける構成属性オブジェクト概念の認識の問題について検討する。 エピソードベースのクロスアテンション(EpiCA)ネットワークを提案する。これは、エピソードベースのトレーニング戦略とクロスアテンション機構の利点を組み合わせて、新しい構成概念を認識する。 第一に、EpiCAは概念と視覚情報を関連付けるためにクロスアテンションをベースとし、ゲートプーリング層を使用して画像と概念の両方のコンテキスト化された表現を構築する。 更新された表現は、概念認識のためのより深いマルチモーダル関連計算に使用される。 第二に、2段階のエピソード訓練戦略、特にトランスダクティブフェーズを採用し、ラベルのないテスト例を用いて低リソース学習問題を緩和する。 広範に使われているゼロショット合成学習(ZSCL)ベンチマークの実験は、従来のZSCL設定と一般化されたZSCL設定の最近のアプローチと比較して、モデルの有効性を実証している。

In this paper, we study the problem of recognizing compositional attribute-object concepts within the zero-shot learning (ZSL) framework. We propose an episode-based cross-attention (EpiCA) network which combines merits of cross-attention mechanism and episode-based training strategy to recognize novel compositional concepts. Firstly, EpiCA bases on cross-attention to correlate concept-visual information and utilizes the gated pooling layer to build contextualized representations for both images and concepts. The updated representations are used for a more in-depth multi-modal relevance calculation for concept recognition. Secondly, a two-phase episode training strategy, especially the transductive phase, is adopted to utilize unlabeled test examples to alleviate the low-resource learning problem. Experiments on two widely-used zero-shot compositional learning (ZSCL) benchmarks have demonstrated the effectiveness of the model compared with recent approaches on both conventional and generalized ZSCL settings.
翻訳日:2021-07-13 23:49:20 公開日:2021-07-12
# (参考訳) 歩行者・自転車の早期警戒 [全文訳有]

Early warning of pedestrians and cyclists ( http://arxiv.org/abs/2107.05186v1 )

ライセンス: CC BY 4.0
Joerg Christian Wolf(参考訳) 最先端の自動車は緊急時に歩行者を突破することができる。 我々は、ドライバーに早期警告を出すのに何が必要かを調査し、反応する時間がある。 歩行者の意図を位置的に確実に予測することは,特に難しい課題であることがわかった。 本稿では,早期歩行者警報システムについて述べる。

State-of-the-art motor vehicles are able to break for pedestrians in an emergency. We investigate what it would take to issue an early warning to the driver so he/she has time to react. We have identified that predicting the intention of a pedestrian reliably by position is a particularly hard challenge. This paper describes an early pedestrian warning demonstration system.
翻訳日:2021-07-13 23:38:04 公開日:2021-07-12
# (参考訳) TransClaw U-Net: 医用画像セグメンテーション用トランスフォーマー付きU-Net [全文訳有]

TransClaw U-Net: Claw U-Net with Transformers for Medical Image Segmentation ( http://arxiv.org/abs/2107.05188v1 )

ライセンス: CC BY 4.0
Yao Chang, Hu Menghan, Zhai Guangtao, Zhang Xiao-Ping(参考訳) 近年,コンピュータ支援診断が話題となっている。 畳み込みニューラルネットワークに基づく手法は、医用画像のセグメンテーションと分類において優れた性能を発揮している。 畳み込み操作の限界のため、長期的空間的特徴はしばしば正確には得られない。 そこで,符号化部における畳み込み演算と変圧器演算を組み合わせたTransClaw U-Netネットワーク構造を提案する。 畳み込み部は、浅い空間的特徴を抽出し、アップサンプリング後の画像解像度の回復を容易にする。 トランス部はパッチのエンコードに使われ、自己保持機構はシーケンス間のグローバル情報を得るために使用される。 復号部は、細部セグメンテーション性能を向上させるためにボトムアップサンプリング構造を保持する。 Synapse Multi-organ Segmentation Datasetsの実験結果から,TransClaw U-Netの性能は他のネットワーク構造よりも優れていることが示された。 アブレーション実験はTransClaw U-Netの一般化性能も証明した。

In recent years, computer-aided diagnosis has become an increasingly popular topic. Methods based on convolutional neural networks have achieved good performance in medical image segmentation and classification. Due to the limitations of the convolution operation, the long-term spatial features are often not accurately obtained. Hence, we propose a TransClaw U-Net network structure, which combines the convolution operation with the transformer operation in the encoding part. The convolution part is applied for extracting the shallow spatial features to facilitate the recovery of the image resolution after upsampling. The transformer part is used to encode the patches, and the self-attention mechanism is used to obtain global information between sequences. The decoding part retains the bottom upsampling structure for better detail segmentation performance. The experimental results on Synapse Multi-organ Segmentation Datasets show that the performance of TransClaw U-Net is better than other network structures. The ablation experiments also prove the generalization performance of TransClaw U-Net.
翻訳日:2021-07-13 23:32:05 公開日:2021-07-12
# (参考訳) RGBカメラを用いた深層学習によるハイパースペクトルイメージング [全文訳有]

Deep-learning-based Hyperspectral imaging through a RGB camera ( http://arxiv.org/abs/2107.05190v1 )

ライセンス: CC BY 4.0
Xinyu Gao, Tianlang Wang, Jing Yang, Jinchao Tao, Yanqing Qiu, Yanlong Meng, Banging Mao, Pengwei Zhou, and Yi Li(参考訳) ハイパースペクトル画像(HSI)には、食品の安全性、リモートセンシング、医療検出に広く用いられている空間パターンとスペクトル情報の両方が含まれている。 しかし、超スペクトル画像の取得は通常、光学スペクトルの取得のための複雑な装置のためにコストがかかる。 近年,畳み込みニューラルネットワーク(CNN)アルゴリズムを用いて単一のRGB画像からHSIを再構成できることが報告されている。 従来のハイパースペクトルカメラと比較して、CNNアルゴリズムに基づく手法は単純でポータブルで低コストである。 本研究では,RGBカメラのスペクトル感度(CSS)がHSIに与える影響に着目した。 モノクロメータを内蔵したキセノンランプは、cssを校正するための標準光源として使用された。 また,実験結果から,HSIの再構築精度においてCSSが重要な役割を担っていることが明らかとなった。 さらに,3次元行列変換により再構成精度を向上させるため,元のハイパースペクトルデータキューブの次元構造を修正した新しいHSI再構成ネットワークを提案する。

Hyperspectral image (HSI) contains both spatial pattern and spectral information which has been widely used in food safety, remote sensing, and medical detection. However, the acquisition of hyperspectral images is usually costly due to the complicated apparatus for the acquisition of optical spectrum. Recently, it has been reported that HSI can be reconstructed from single RGB image using convolution neural network (CNN) algorithms. Compared with the traditional hyperspectral cameras, the method based on CNN algorithms is simple, portable and low cost. In this study, we focused on the influence of the RGB camera spectral sensitivity (CSS) on the HSI. A Xenon lamp incorporated with a monochromator were used as the standard light source to calibrate the CSS. And the experimental results show that the CSS plays a significant role in the reconstruction accuracy of an HSI. In addition, we proposed a new HSI reconstruction network where the dimensional structure of the original hyperspectral datacube was modified by 3D matrix transpose to improve the reconstruction accuracy.
翻訳日:2021-07-13 23:18:41 公開日:2021-07-12
# (参考訳) deep risk model: 潜在リスク因子をマイニングして共分散行列推定を改善するディープラーニングソリューション [全文訳有]

Deep Risk Model: A Deep Learning Solution for Mining Latent Risk Factors to Improve Covariance Matrix Estimation ( http://arxiv.org/abs/2107.05201v1 )

ライセンス: CC BY 4.0
Hengxu Lin, Dong Zhou, Weiqing Liu, Jiang Bian(参考訳) ポートフォリオリスクのモデリングと管理は、おそらく投資パフォーマンスの成長と維持を達成する上で最も重要なステップです。 マークウィッツの理論に基づく現代的なポートフォリオ構築フレームワークでは、ポートフォリオリスクをモデル化するために株リターンの共分散行列が必要である。 共分散行列を推定する従来のアプローチは、共分散推定を改善するためにより良いリスク因子を設計するために、しばしば膨大な時間と労力を必要とする人間の設計したリスク要因に基づいている。 本研究では,マイニングリスク因子の探索を学習問題として定式化し,ニューラルネットワークを用いたリスク因子を効果的に設計する深層学習ソリューションを提案する。 学習目的は、学習されたリスク要因がストックリターンの説明に有効であること、および望ましい直交性と安定性を持つことを確実にするために慎重に設定される。 提案手法は,R^2$で測定した高説明分散を1.9 %で得ることができ,また,グローバルな最小分散ポートフォリオのリスクを低減することができる。 増分分析はアーキテクチャと学習目的の両方の設計をさらに支援します。

Modeling and managing portfolio risk is perhaps the most important step to achieve growing and preserving investment performance. Within the modern portfolio construction framework that built on Markowitz's theory, the covariance matrix of stock returns is required to model the portfolio risk. Traditional approaches to estimate the covariance matrix are based on human designed risk factors, which often requires tremendous time and effort to design better risk factors to improve the covariance estimation. In this work, we formulate the quest of mining risk factors as a learning problem and propose a deep learning solution to effectively "design" risk factors with neural networks. The learning objective is carefully set to ensure the learned risk factors are effective in explaining stock returns as well as have desired orthogonality and stability. Our experiments on the stock market data demonstrate the effectiveness of the proposed method: our method can obtain $1.9\%$ higher explained variance measured by $R^2$ and also reduce the risk of a global minimum variance portfolio. Incremental analysis further supports our design of both the architecture and the learning objective.
翻訳日:2021-07-13 23:12:16 公開日:2021-07-12
# (参考訳) 限られたデータと低照度動作認識のためのデルタサンプリングR-BERT [全文訳有]

Delta Sampling R-BERT for limited data and low-light action recognition ( http://arxiv.org/abs/2107.05202v1 )

ライセンス: CC BY 4.0
Sanchit Hira, Ritwik Das, Abhinav Modi, Daniil Pakhomov(参考訳) 暗黒空間において教師あり行動認識を行う手法を提案する。 本稿では,aridデータセット上での結果を紹介する。 これまでのほとんどの研究は、KineticsやHMDB51のような大きく照らされたデータセットでのみ性能を評価する。 私たちの研究は、暗いビデオのデータセットでトレーニングしながら、非常に低いエラー率を達成できることを示しています。 また、ドメイン転送手法を含む様々なトレーニングおよび推論戦略についても検討し、簡易かつ有用なフレーム選択戦略を提案する。 実験の結果,これまでに公表したベースラインモデルを11%上回った。

We present an approach to perform supervised action recognition in the dark. In this work, we present our results on the ARID dataset. Most previous works only evaluate performance on large, well illuminated datasets like Kinetics and HMDB51. We demonstrate that our work is able to achieve a very low error rate while being trained on a much smaller dataset of dark videos. We also explore a variety of training and inference strategies including domain transfer methodologies and also propose a simple but useful frame selection strategy. Our empirical results demonstrate that we beat previously published baseline models by 11%.
翻訳日:2021-07-13 22:59:51 公開日:2021-07-12
# (参考訳) Split, Embed and merge: 正確なテーブル構造認識器 [全文訳有]

Split, embed and merge: An accurate table structure recognizer ( http://arxiv.org/abs/2107.05214v1 )

ライセンス: CC BY 4.0
Zhenrong Zhang, Jianshu Zhang and Jun Du(参考訳) テーブル構造認識のタスクは、マシンにテーブルを理解するための重要なステップであるテーブルの内部構造を認識することである。 しかし、例えば、構造化されていないデジタル文書の表データ。 Portable Document Format (PDF) とイメージは、特に複雑なテーブルにおいて、その構造とスタイルの複雑さと多様性のため、構造化機械可読形式に解析することは困難である。 本稿では,テーブル構造認識器であるSplit, Embed and Merge(SEM)を紹介する。 最初の段階では、FCNを用いてテーブル行(カラム)セパレータの潜在領域を予測し、テーブルの基本的なグリッドの境界ボックスを得る。 第2段階では、RoIAlignを介して各グリッドに対応する視覚的特徴を抽出するだけでなく、オフザシェルフ認識器とBERTを用いて意味的特徴を抽出する。 両者の融合した特徴は、各テーブルグリッドの特徴付けに使用される。 各グリッドに追加のセマンティック機能を追加することにより、視覚的視点から表構造のあいまいさをある程度解決し、高い精度を実現することができることがわかった。 最後に、これらの基本グリッドのマージを自己回帰的に処理する。 アテンション機構のアテンションマップによって対応子マージ結果が学習される。 提案手法により,複雑なテーブルであっても,テーブルの構造をよく認識することができる。 SEM は SciTSR データセット上で平均 F-Measure の 96.9 %$ を達成することができ、他の手法よりも大きなマージンで優れている。 他の利用可能なテーブル構造認識データセットに対する大規模な実験は、我々のモデルが最先端を達成することを示す。

The task of table structure recognition is to recognize the internal structure of a table, which is a key step to make machines understand tables. However, tabular data in unstructured digital documents, e.g. Portable Document Format (PDF) and images, are difficult to parse into structured machine-readable format, due to complexity and diversity in their structure and style, especially for complex tables. In this paper, we introduce Split, Embed and Merge (SEM), an accurate table structure recognizer. In the first stage, we use the FCN to predict the potential regions of the table row (column) separators, so as to obtain the bounding boxes of the basic grids in the table. In the second stage, we not only extract the visual features corresponding to each grid through RoIAlign, but also use the off-the-shelf recognizer and the BERT to extract the semantic features. The fused features of both are used to characterize each table grid. We find that by adding additional semantic features to each grid, the ambiguity problem of the table structure from the visual perspective can be solved to a certain extent and achieve higher precision. Finally, we process the merging of these basic grids in a self-regression manner. The correspondent merging results is learned by the attention maps in attention mechanism. With the proposed method, we can recognize the structure of tables well, even for complex tables. SEM can achieve an average F-Measure of $96.9\%$ on the SciTSR dataset which outperforms other methods by a large margin. Extensive experiments on other publicly available table structure recognition datasets show that our model achieves state-of-the-art.
翻訳日:2021-07-13 22:46:33 公開日:2021-07-12
# (参考訳) CatVRNN: マルチタスク学習によるカテゴリテキストの生成 [全文訳有]

CatVRNN: Generating Category Texts via Multi-task Learning ( http://arxiv.org/abs/2107.05219v1 )

ライセンス: CC BY 4.0
Pengsen Cheng, Jiayong Liu, Jinqiao Dai(参考訳) 異なるカテゴリのテキストを生成するためにモデルを制御することは、ますます注目を集めている課題である。 近年,generative adversarial net (gan) がカテゴリテキスト生成において有望な結果を示している。 しかし、GANが生成するテキストは、通常モード崩壊やトレーニング不安定といった問題に悩まされる。 上記の問題を回避するために,マルチタスク学習にインスパイアされたカテゴリ認識変動リカレントニューラルネットワーク(CatVRNN)を提案する。 本モデルでは、異なるカテゴリのテキストを生成することを目的として、生成と分類を同時に訓練する。 さらに、分類タスクが適切であれば、マルチタスク学習を用いることで、生成されたテキストの品質を向上させることができる。 そして,catvrnnの隠れた状態を初期化し,特定のカテゴリのテキストを生成するようモデルに強制する関数を提案する。 3つのデータセットによる実験結果から,本モデルでは,生成したテキストのカテゴリ精度と品質において,いくつかの最先端テキスト生成手法より優れていることが示された。

Controlling the model to generate texts of different categories is a challenging task that is getting more and more attention. Recently, generative adversarial net (GAN) has shown promising results in category text generation. However, the texts generated by GANs usually suffer from the problems of mode collapse and training instability. To avoid the above problems, we propose a novel model named category-aware variational recurrent neural network (CatVRNN), which is inspired by multi-task learning. In our model, generation and classification are trained simultaneously, aiming at generating texts of different categories. Moreover, the use of multi-task learning can improve the quality of generated texts, when the classification task is appropriate. And we propose a function to initialize the hidden state of CatVRNN to force model to generate texts of a specific category. Experimental results on three datasets demonstrate that our model can do better than several state-of-the-art text generation methods based GAN in the category accuracy and quality of generated texts.
翻訳日:2021-07-13 22:25:29 公開日:2021-07-12
# (参考訳) ASRシステムに対する敵対的攻撃に対する防御としての知覚に基づくディープラーニングデノイザー [全文訳有]

Perceptual-based deep-learning denoiser as a defense against adversarial attacks on ASR systems ( http://arxiv.org/abs/2107.05222v1 )

ライセンス: CC BY 4.0
Anirudh Sreeram, Nicholas Mehlman, Raghuveer Peri, Dillon Knox, Shrikanth Narayanan(参考訳) 本稿では,自動音声認識(ASR)システムに対する敵対的攻撃に対する防御手段としての音声認識について検討する。 敵対的な攻撃は、元の音声信号に小さな摂動を加えることで誤分類を強要しようとする。 本稿では,asrパイプラインのプリプロセッサとしてニューラルネットワークを用いたdenoiserを用いることで,これに対抗することを提案する。 デノイザは下流のASRモデルとは独立しており、既存のシステムに迅速にデプロイできる。 その結果,視覚的モチベーションを付与した損失関数による難聴者の訓練は,良性サンプルに対するASR性能を損なうことなく,対向的ロバスト性を高めた。 我々の防衛は(DARPA GARDプログラムの一部として)攻撃強度と音声サンプルの範囲にわたる「ケナンズビル」攻撃戦略で評価された。 単語誤り率 (WER) は, 20dB 信号-雑音比 (SNR) 攻撃強度において, 未定義モデルに対して約7.7%向上した。

In this paper we investigate speech denoising as a defense against adversarial attacks on automatic speech recognition (ASR) systems. Adversarial attacks attempt to force misclassification by adding small perturbations to the original speech signal. We propose to counteract this by employing a neural-network based denoiser as a pre-processor in the ASR pipeline. The denoiser is independent of the downstream ASR model, and thus can be rapidly deployed in existing systems. We found that training the denoisier using a perceptually motivated loss function resulted in increased adversarial robustness without compromising ASR performance on benign samples. Our defense was evaluated (as a part of the DARPA GARD program) on the 'Kenansville' attack strategy across a range of attack strengths and speech samples. An average improvement in Word Error Rate (WER) of about 7.7% was observed over the undefended model at 20 dB signal-to-noise-rati o (SNR) attack strength.
翻訳日:2021-07-13 22:13:56 公開日:2021-07-12
# (参考訳) OmniLytics: 分散型機械学習のためのブロックチェーンベースのセキュアデータ市場 [全文訳有]

OmniLytics: A Blockchain-based Secure Data Market for Decentralized Machine Learning ( http://arxiv.org/abs/2107.05252v1 )

ライセンス: CC BY 4.0
Jiacheng Liang, Wensi Jiang and Songze Li(参考訳) 我々は、ブロックチェーンベースの機械学習アプリケーションのためのセキュアなデータ取引市場であるOmniLyticsを提案する。 OmniLyticsを使用すると、多くの分散データ所有者がプライベートデータをコントリビュートして、一部のモデル所有者が要求するMLモデルを集合的にトレーニングし、データコントリビューションの補償を受けることができる。 OmniLyticsは、1)好奇心の強いデータ所有者に対するモデルセキュリティ、2)好奇心の強いモデルとデータ所有者に対するデータセキュリティ、3)有毒なモデルトレーニングに対する欠陥結果を提供する悪意のあるデータ所有者へのレジリエンス、4)支払いを回避しようとする悪意のあるモデルオーナーへのレジリエンスを提供する。 omnilyticsはethereumブロックチェーンのスマートコントラクトとして実装され、支払いのアトミック性を保証する。 OmniLyticsでは、モデルオーナがコントラクトに関する暗号化初期モデルを公開し、参加データオーナがプライベートデータを使用してグラデーションを計算し、契約を通じてグラデーションを安全に集約する。 最後に、契約はデータ所有者を払い戻し、モデル所有者は集約されたモデル更新を復号化する。 我々はEthereum上でOmniLyticsの動作プロトタイプを実装し、様々なパラメータの組み合わせでガスコストと実行時間を計測し、その高い計算効率とコスト効率と強力な実用性を示す。

We propose OmniLytics, a blockchain-based secure data trading marketplace for machine learning applications. Utilizing OmniLytics, many distributed data owners can contribute their private data to collectively train a ML model requested by some model owners, and get compensated for data contribution. OmniLytics enables such model training while simultaneously providing 1) model security against curious data owners; 2) data security against curious model and data owners; 3) resilience to malicious data owners who provide faulty results to poison model training; and 4) resilience to malicious model owner who intents to evade the payment. OmniLytics is implemented as a smart contract on the Ethereum blockchain to guarantee the atomicity of payment. In OmniLytics, a model owner publishes encrypted initial model on the contract, over which the participating data owners compute gradients using their private data, and securely aggregate the gradients through the contract. Finally, the contract reimburses the data owners, and the model owner decrypts the aggregated model update. We implement a working prototype of OmniLytics on Ethereum, and perform extensive experiments to measure its gas cost and execution time under various parameter combinations, demonstrating its high computation and cost efficiency and strong practicality.
翻訳日:2021-07-13 22:06:01 公開日:2021-07-12
# (参考訳) 変圧器模型におけるブラウン運動 [全文訳有]

The Brownian motion in the transformer model ( http://arxiv.org/abs/2107.05264v1 )

ライセンス: CC BY 4.0
Yingshi Chen(参考訳) Transformerは多くの言語および視覚タスクのためのアートモデルの状態である。 本稿では,そのマルチヘッド自己アテンション(MHSA)モジュールの深い解析を行い,(1)各トークンは高次元特徴空間におけるランダム変数であることを示す。 2) 層正規化後、これらの変数は超球面上の点にマッピングされる。 3) これらのトークンの更新はブラウン運動である。 ブラウン運動は特別な性質を持ち、2階のアイテムは無視するべきではない。 そこで我々は,MHSAモジュールのための2階最適化器(反復K-FACアルゴリズム)を提案する。 一言で言えば、全てのトークンは高次元超球面にマッピングされる。 スケールド・ドット積注意$softmax(\frac{\mathbf{q}\mathbf{k}^t}{\sqrt{d}})$ は球面上をランダムに歩くためのマルコフ遷移行列である。 そして、深層学習プロセスは、これらのトークンの適切な位置を得るために適切なカーネル関数を学習する。 MHSAモジュールのトレーニングプロセスは、さらなる研究に値するブラウン運動に対応する。

Transformer is the state of the art model for many language and visual tasks. In this paper, we give a deep analysis of its multi-head self-attention (MHSA) module and find that: 1) Each token is a random variable in high dimensional feature space. 2) After layer normalization, these variables are mapped to points on the hyper-sphere. 3) The update of these tokens is a Brownian motion. The Brownian motion has special properties, its second order item should not be ignored. So we present a new second-order optimizer(an iterative K-FAC algorithm) for the MHSA module. In some short words: All tokens are mapped to high dimension hyper-sphere. The Scaled Dot-Product Attention $softmax(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d}})$ is just the Markov transition matrix for the random walking on the sphere. And the deep learning process would learn proper kernel function to get proper positions of these tokens. The training process in the MHSA module corresponds to a Brownian motion worthy of further study.
翻訳日:2021-07-13 21:47:56 公開日:2021-07-12
# (参考訳) 自動車両評価のためのシナリオ生成のためのカーネル密度推定器からの制約付きサンプリング [全文訳有]

Constrained Sampling from a Kernel Density Estimator to Generate Scenarios for the Assessment of Automated Vehicles ( http://arxiv.org/abs/2107.05278v1 )

ライセンス: CC BY 4.0
Erwin de Gelder, Eric Cator, Jan-Pieter Paardekooper, Olaf Op den Camp, Bart De Schutter(参考訳) 自動運転車(AV)の安全性評価は、AVの開発サイクルの重要な側面である。 シナリオに基づく評価アプローチは、現場の多くのプレイヤーが完全安全評価の一部として受け入れている。 シナリオとは、AVが適切に対応する必要がある道路上の状況を表すものである。 シナリオベースのテスト記述を生成する1つの方法は、シナリオをパラメータ化し、これらのパラメータを確率密度関数(pdf)から引き出すことである。 pdfの形状は事前に分かっていないため、pdfの機能形式を仮定し、パラメータをデータに適合させることで不正確な適合につながる可能性がある。 代替として、カーネル密度推定 (kde) は、基礎となるパラメータの分布と柔軟であるため、基礎となるpdfを推定する有望な候補である。 KDEで推定されたpdfからのランダムサンプルの描画は実際のpdfを評価する必要がなく、モンテカルロ法などのランダムサンプルの描画に適している。 しかしながら、サンプルが線形等式制約を満たす間、KDEからサンプリングすることは、著者が知る限り、文献では説明されていない。 本稿では,kdeを用いて推定したpdfからサンプルを抽出し,線形等式制約を満たす方法を提案する。 また,本手法のアルゴリズムを疑似コードで提示する。 この方法は、例えば、所定の開始速度を持つシナリオを生成するか、異なるタイプのシナリオを生成するために使用できる。 また,Singular Value Decomposition (SVD) を用いてパラメータベクトルの次元を縮小する場合に,シナリオをサンプリングする手法が利用可能であることを示す。

The safety assessment of automated vehicles (AVs) is an important aspect of the development cycle of AVs. A scenario-based assessment approach is accepted by many players in the field as part of the complete safety assessment. A scenario is a representation of a situation on the road to which the AV needs to respond appropriately. One way to generate the required scenario-based test descriptions is to parameterize the scenarios and to draw these parameters from a probability density function (pdf). Because the shape of the pdf is unknown beforehand, assuming a functional form of the pdf and fitting the parameters to the data may lead to inaccurate fits. As an alternative, Kernel Density Estimation (KDE) is a promising candidate for estimating the underlying pdf, because it is flexible with the underlying distribution of the parameters. Drawing random samples from a pdf estimated with KDE is possible without the need of evaluating the actual pdf, which makes it suitable for drawing random samples for, e.g., Monte Carlo methods. Sampling from a KDE while the samples satisfy a linear equality constraint, however, has not been described in the literature, as far as the authors know. In this paper, we propose a method to sample from a pdf estimated using KDE, such that the samples satisfy a linear equality constraint. We also present an algorithm of our method in pseudo-code. The method can be used to generating scenarios that have, e.g., a predetermined starting speed or to generate different types of scenarios. This paper also shows that the method for sampling scenarios can be used in case a Singular Value Decomposition (SVD) is used to reduce the dimension of the parameter vectors.
翻訳日:2021-07-13 21:38:22 公開日:2021-07-12
# (参考訳) ICDAR 2021 集積回路テキストスポッティングと審美性評価に関するコンペティション [全文訳有]

ICDAR 2021 Competition on Integrated Circuit Text Spotting and Aesthetic Assessment ( http://arxiv.org/abs/2107.05279v1 )

ライセンス: CC BY 4.0
Chun Chet Ng, Akmalul Khairi Bin Nazaruddin, Yeong Khang Lee, Xinyu Wang, Yuliang Liu, Chee Seng Chan, Lianwen Jin, Yipeng Sun, and Lixin Fan(参考訳) 何十万もの電子部品が毎日製造されているため、チップメーカーは、チップ部品の印刷テキストの品質を検査するより効率的で効果的な方法を模索する需要が高まっている。 この研究領域を抑える大きな問題は、強力な基盤として機能するチップデータセットに現実的なテキストがないことだ。 したがって、チップデータセット上のテキストであるICTextは、2021年に提案された集積回路テキストスポッティングおよび審美性評価(RRC-ICText)におけるロバスト読解チャレンジの主要なターゲットとして使用される。 競争全体を通じて、私たちは10のユニークなチーム/個人から合計233の応募を受けました。 本報告では、競争結果と提出結果の詳細について述べる。

With hundreds of thousands of electronic chip components are being manufactured every day, chip manufacturers have seen an increasing demand in seeking a more efficient and effective way of inspecting the quality of printed texts on chip components. The major problem that deters this area of research is the lacking of realistic text on chips datasets to act as a strong foundation. Hence, a text on chips dataset, ICText is used as the main target for the proposed Robust Reading Challenge on Integrated Circuit Text Spotting and Aesthetic Assessment (RRC-ICText) 2021 to encourage the research on this problem. Throughout the entire competition, we have received a total of 233 submissions from 10 unique teams/individuals. Details of the competition and submission results are presented in this report.
翻訳日:2021-07-13 21:25:30 公開日:2021-07-12
# (参考訳) サンプリングコストによる継続的時間帯 [全文訳有]

Continuous Time Bandits With Sampling Costs ( http://arxiv.org/abs/2107.05289v1 )

ライセンス: CC BY 4.0
Rahul Vaze and Manjesh K. Hanawal(参考訳) 連続時間マルチアームバンディット問題 (CTMAB) を考えると、学習者は任意の間隔でアームを何回でもサンプリングでき、各サンプルからランダムな報酬を得ることができるが、サンプリング頻度の増加は付加的なペナルティ/コストをもたらす。 したがって、サンプリング周波数の関数として、大きな報酬を得ることと、かかるサンプリングコストとのトレードオフが生じる。 目的は後悔を最小限に抑える学習アルゴリズムを設計することであり、これはオラクルのポリシーと学習アルゴリズムの報酬の差として定義される。 CTMABは、通常のマルチアームバンディット問題(MAB)と根本的に異なる、例えば、単一アームの場合でさえCTMABでは、最適なサンプリング周波数が推定される腕の平均に依存するため、非自明である。 まず,任意のアルゴリズムで達成可能な後悔の限界を低く設定し,対数的要因までの範囲を低くするアルゴリズムを提案する。 単腕の場合、後悔の上の下限は$\omega((\log t)^2/\mu)$であり、ここで$\mu$は腕の平均であり、$t$は時間軸である。 多重腕の場合、後悔の上の下限は$\omega((\log t)^2 \mu/\delta^2)$であり、ここで$\mu$は最高の腕の平均を表し、$\delta$は最高の腕と2番目の腕の平均の差である。 次に,定数項へのバウンドを達成するアルゴリズムを提案する。

We consider a continuous-time multi-arm bandit problem (CTMAB), where the learner can sample arms any number of times in a given interval and obtain a random reward from each sample, however, increasing the frequency of sampling incurs an additive penalty/cost. Thus, there is a tradeoff between obtaining large reward and incurring sampling cost as a function of the sampling frequency. The goal is to design a learning algorithm that minimizes regret, that is defined as the difference of the payoff of the oracle policy and that of the learning algorithm. CTMAB is fundamentally different than the usual multi-arm bandit problem (MAB), e.g., even the single-arm case is non-trivial in CTMAB, since the optimal sampling frequency depends on the mean of the arm, which needs to be estimated. We first establish lower bounds on the regret achievable with any algorithm and then propose algorithms that achieve the lower bound up to logarithmic factors. For the single-arm case, we show that the lower bound on the regret is $\Omega((\log T)^2/\mu)$, where $\mu$ is the mean of the arm, and $T$ is the time horizon. For the multiple arms case, we show that the lower bound on the regret is $\Omega((\log T)^2 \mu/\Delta^2)$, where $\mu$ now represents the mean of the best arm, and $\Delta$ is the difference of the mean of the best and the second-best arm. We then propose an algorithm that achieves the bound up to constant terms.
翻訳日:2021-07-13 21:11:20 公開日:2021-07-12
# (参考訳) HEMP:ニューラルネットワーク圧縮のための高次エントロピー最小化 [全文訳有]

HEMP: High-order Entropy Minimization for neural network comPression ( http://arxiv.org/abs/2107.05298v1 )

ライセンス: CC BY 4.0
Enzo Tartaglione, St\'ephane Lathuili\`ere, Attilio Fiandrotti, Marco Cagnazzo, Marco Grangetto(参考訳) 本研究では, 量子化人工ニューラルネットワークのエントロピーを, 勾配降下により最小化されるコスト関数に正規化項としてプラグインできる微分可能な関数として定式化する。 我々の定式化は1次を超えて効率的にスケールし、量子化スキームを知らない。 ネットワークは量子化パラメータのエントロピーを最小化するために訓練され、エントロピー符号化によって最適な圧縮が可能となる。 我々は、よく知られたネットワークアーキテクチャを複数のデータセット上で量子化し、圧縮するためのエントロピー定式化実験を行った。 提案手法は類似手法よりも有利に比較し,高次エントロピー推定の利点を享受し,非一様量子化への柔軟性(ロイド・マックス量子化を用いる),エントロピー順序への拡張性,圧縮の効率性を示す。 HEMPは, モデル自体の刈り取りや定量化を目的とした他の手法と相乗効果があり, モデルの性能を損なうことなく, ストレージサイズ圧縮性の観点から大きなメリットが得られることを示す。

We formulate the entropy of a quantized artificial neural network as a differentiable function that can be plugged as a regularization term into the cost function minimized by gradient descent. Our formulation scales efficiently beyond the first order and is agnostic of the quantization scheme. The network can then be trained to minimize the entropy of the quantized parameters, so that they can be optimally compressed via entropy coding. We experiment with our entropy formulation at quantizing and compressing well-known network architectures over multiple datasets. Our approach compares favorably over similar methods, enjoying the benefits of higher order entropy estimate, showing flexibility towards non-uniform quantization (we use Lloyd-max quantization), scalability towards any entropy order to be minimized and efficiency in terms of compression. We show that HEMP is able to work in synergy with other approaches aiming at pruning or quantizing the model itself, delivering significant benefits in terms of storage size compressibility without harming the model's performance.
翻訳日:2021-07-13 20:41:10 公開日:2021-07-12
# (参考訳) 映像における活動認識のための人間的関係モデル [全文訳有]

Human-like Relational Models for Activity Recognition in Video ( http://arxiv.org/abs/2107.05319v1 )

ライセンス: CC BY 4.0
Joseph Chrol-Cannon, Andrew Gilbert, Ranko Lazic, Adithya Madhusoodanan, Frank Guerin(参考訳) ディープニューラルネットワークによるビデオアクティビティ認識は多くのクラスで印象的です。 しかし、特に活動の判別に挑戦する場合、人間のパフォーマンスには及ばない。 人間は、コンテナの開口部に入る物体など、明確に認識された物体と部分の間で臨界時空間関係を認識することで、これらの複雑な活動を区別する。 ディープニューラルネットワークは、そのような重要な関係を効果的に学ぶのに苦労する。 そこで本研究では,映像を逐次時間相で解釈し,それらの相における物体と手の特定の関係を抽出する,より人間的な行動認識手法を提案する。 これらの関係からランダム森林分類器を学習する。 我々は,この手法を何かのデータセットの挑戦的なサブセットに適用し,挑戦的なアクティビティに基づくニューラルネットワークのベースラインに対するより堅牢なパフォーマンスを実現する。

Video activity recognition by deep neural networks is impressive for many classes. However, it falls short of human performance, especially for challenging to discriminate activities. Humans differentiate these complex activities by recognising critical spatio-temporal relations among explicitly recognised objects and parts, for example, an object entering the aperture of a container. Deep neural networks can struggle to learn such critical relationships effectively. Therefore we propose a more human-like approach to activity recognition, which interprets a video in sequential temporal phases and extracts specific relationships among objects and hands in those phases. Random forest classifiers are learnt from these extracted relationships. We apply the method to a challenging subset of the something-something dataset and achieve a more robust performance against neural network baselines on challenging activities.
翻訳日:2021-07-13 20:24:21 公開日:2021-07-12
# (参考訳) ウイルスの分類のための統計的検査機能を備えたビジュアルトランスフォーマー [全文訳有]

Visual Transformer with Statistical Test for COVID-19 Classification ( http://arxiv.org/abs/2107.05334v1 )

ライセンス: CC BY 4.0
Chih-Chung Hsu, Guan-Lin Chen, and Mei-Hsuan Wu(参考訳) コロナウイルス19年SARS-CoV-2(COVID-19) による世界の大きな被害を受け、過去2年間に多くの関連研究トピックが提案されている。 Chest Computed Tomography(CT)スキャンは、新型コロナウイルスの症状を診断するための最も貴重な材料である。 しかし、Chest CTスキャンのCOVID-19分類のほとんどのスキームは、単一のスライスレベルに基づいており、最も重要なCTスライスをオリジナルのCTスキャンボリュームから手動で選択すべきであることを示している。 我々は同時に,ctスキャンのcovid-19を予測するための2次元モデルと3次元モデルを提案する。 2次元モデルでは,DWCC(Deep Wilcoxon signed-rank test)を導入し,CTスキャンの各スライスの重要性を判定し,上記の問題を克服する。 さらに,CTスキャン・アウェア変換器(CCAT)を提案し,スライスのコンテキストを完全に把握する。 フレームレベルの特徴は、バックボーンネットワークに基づいて各ctスライスから抽出され、その特徴をwst(inside-slice-tra nsformer)に送ってピクセル次元のコンテキスト情報を検出する。 提案したInterface-Slice-Tran sformer (BST) は,CTスライス毎に抽出した空間コンテキストの特徴を集約するために用いられる。 次に簡単な分類器を使用して、時空間の特徴がCOVID-19か非COVID-19かを判断する。 実験の結果,提案したCCATとDWCCは最先端の手法よりも優れていた。

With the massive damage in the world caused by Coronavirus Disease 2019 SARS-CoV-2 (COVID-19), many related research topics have been proposed in the past two years. The Chest Computed Tomography (CT) scans are the most valuable materials to diagnose the COVID-19 symptoms. However, most schemes for COVID-19 classification of Chest CT scan is based on a single-slice level, implying that the most critical CT slice should be selected from the original CT scan volume manually. We simultaneously propose 2-D and 3-D models to predict the COVID-19 of CT scan to tickle this issue. In our 2-D model, we introduce the Deep Wilcoxon signed-rank test (DWCC) to determine the importance of each slice of a CT scan to overcome the issue mentioned previously. Furthermore, a Convolutional CT scan-Aware Transformer (CCAT) is proposed to discover the context of the slices fully. The frame-level feature is extracted from each CT slice based on any backbone network and followed by feeding the features to our within-slice-Transfo rmer (WST) to discover the context information in the pixel dimension. The proposed Between-Slice-Transf ormer (BST) is used to aggregate the extracted spatial-context features of every CT slice. A simple classifier is then used to judge whether the Spatio-temporal features are COVID-19 or non-COVID-19. The extensive experiments demonstrated that the proposed CCAT and DWCC significantly outperform the state-of-the-art methods.
翻訳日:2021-07-13 20:13:44 公開日:2021-07-12
# (参考訳) エンドウダ : 内視鏡イメージングのためのモダリティ独立セグメンテーションアプローチ [全文訳有]

EndoUDA: A modality independent segmentation approach for endoscopy imaging ( http://arxiv.org/abs/2107.05342v1 )

ライセンス: CC BY 4.0
Numan Celik, Sharib Ali, Soumya Gupta, Barbara Braden and Jens Rittscher(参考訳) 消化器癌の前駆体は、患者のリスク層化を頻繁に監視する必要がある。 自動セグメンテーション手法は、リスク領域をより正確に評価し、治療処置や除去を補助するのに役立つ。 臨床では、従来のホワイトライトイメージング(wli)に加えて、狭帯域イメージング(nbi)や蛍光イメージングなどの補完的モダリティが用いられる。 現在、ほとんどのセグメンテーションアプローチは単一のモダリティデータセットにのみ集中しているが、この研究は、対象に依存しない非教師なしドメイン適応(UDA)技術を利用して、目に見えないターゲットモダリティに一般化することができる。 そこで本研究では,可変オートエンコーダとu-netを共通省エネb4バックボーンに結合し,ターゲットサンプルの潜在空間最適化のための統合損失を用いる,新しいudaベースのセグメンテーション手法を提案する。 我々は,WLI(ソース)モードのみを用いてトレーニングした場合,NBI(ターゲット)モダリティを未確認対象に一般化できることを示す。 上部および下部のgi内視鏡データを用いた実験では,naive supervised approach と state-of-the-art uda segmentation 法との比較を行った。

Gastrointestinal (GI) cancer precursors require frequent monitoring for risk stratification of patients. Automated segmentation methods can help to assess risk areas more accurately, and assist in therapeutic procedures or even removal. In clinical practice, addition to the conventional white-light imaging (WLI), complimentary modalities such as narrow-band imaging (NBI) and fluorescence imaging are used. While, today most segmentation approaches are supervised and only concentrated on a single modality dataset, this work exploits to use a target-independent unsupervised domain adaptation (UDA) technique that is capable to generalize to an unseen target modality. In this context, we propose a novel UDA-based segmentation method that couples the variational autoencoder and U-Net with a common EfficientNet-B4 backbone, and uses a joint loss for latent-space optimization for target samples. We show that our model can generalize to unseen target NBI (target) modality when trained using only WLI (source) modality. Our experiments on both upper and lower GI endoscopy data show the effectiveness of our approach compared to naive supervised approach and state-of-the-art UDA segmentation methods.
翻訳日:2021-07-13 20:05:59 公開日:2021-07-12
# (参考訳) BERTサービングのためのフレキシブルマルチタスクモデル [全文訳有]

A Flexible Multi-Task Model for BERT Serving ( http://arxiv.org/abs/2107.05377v1 )

ライセンス: CC BY 4.0
Tianwen Wei, Jianwei Qi, Shenghuan He(参考訳) 本稿では,タスクの反復的・漸進的開発に適した,BERTに基づく効率的なマルチタスク(MT)フレームワークを提案する。 提案するフレームワークは部分的な微調整という概念に基づいている。 bertの最上位層だけを微調整し、他の層を凍結させる。 各タスクに対して、部分的な微調整を用いて単一タスク(ST)モデルを独立に訓練する。 次に,各STモデルのタスク固有層を知識蒸留を用いて圧縮する。 これらの圧縮STモデルは最終的に1つのMTモデルにマージされ、前者の凍結層がタスク間で共有される。 8つのGLUEタスクに対する我々のアプローチを例示し、強力なパフォーマンスと効率の両方を達成することができることを示す。 我々はXiaomiが開発した商用AIアシスタントであるXiaoAIの発話理解システムに本手法を実装した。 当社のモデルはサービス全体のコストを86%削減できると見積もっている。

In this demonstration, we present an efficient BERT-based multi-task (MT) framework that is particularly suitable for iterative and incremental development of the tasks. The proposed framework is based on the idea of partial fine-tuning, i.e. only fine-tune some top layers of BERT while keep the other layers frozen. For each task, we train independently a single-task (ST) model using partial fine-tuning. Then we compress the task-specific layers in each ST model using knowledge distillation. Those compressed ST models are finally merged into one MT model so that the frozen layers of the former are shared across the tasks. We exemplify our approach on eight GLUE tasks, demonstrating that it is able to achieve both strong performance and efficiency. We have implemented our method in the utterance understanding system of XiaoAI, a commercial AI assistant developed by Xiaomi. We estimate that our model reduces the overall serving cost by 86%.
翻訳日:2021-07-13 19:57:13 公開日:2021-07-12
# (参考訳) SynLiDAR: セマンティックセグメンテーションのための合成LiDARシーケンスポイントクラウドから学ぶ [全文訳有]

SynLiDAR: Learning From Synthetic LiDAR Sequential Point Cloud for Semantic Segmentation ( http://arxiv.org/abs/2107.05399v1 )

ライセンス: CC BY 4.0
Aoran Xiao, Jiaxing Huang, Dayan Guan, Fangneng Zhan, Shijian Lu(参考訳) 合成データから実データへの転送学習は、様々なコンピュータビジョンタスクでデータアノテーション制約を緩和する効果的な方法であることが証明されている。 しかし、大規模な高品質合成ポイントクラウドデータや効果的な転送方法がないため、開発は2dイメージに焦点を絞ったが、3dポイントクラウドではずっと遅れていた。 我々は,高精度な幾何学的形状と包括的意味クラスを備えた大規模ポイントワイドアノテートポイントクラウドを含む合成LiDARポイントクラウドデータセットであるSynLiDARを収集し,実世界のポイントクラウドデータとのギャップを狭めることを目的としたポイントクラウド翻訳ネットワークであるPCT-Netを設計する。 SynLiDARでは,注釈付きLiDARポイントを自動生成可能なリッチなシーンタイプとレイアウトを備えた,複数のリアルな仮想環境を構築するグラフィックツールやプロフェッショナルを活用している。 さらに、PCT-Netは、合成から現実のギャップを外観コンポーネントと空間コンポーネントに切り離し、2つのコンポーネントを現実のデータに別々にアライメントすることでSynLiDARを翻訳する。 複数のデータ拡張と半教師付きセマンティックセグメンテーションタスクに対する大規模な実験では、SynLiDARはより良いモデルをトレーニングするか、パフォーマンスを犠牲にすることなく実世界のアノテートデータを削減できる。

Transfer learning from synthetic to real data has been proved an effective way of mitigating data annotation constraints in various computer vision tasks. However, the developments focused on 2D images but lag far behind for 3D point clouds due to the lack of large-scale high-quality synthetic point cloud data and effective transfer methods. We address this issue by collecting SynLiDAR, a synthetic LiDAR point cloud dataset that contains large-scale point-wise annotated point cloud with accurate geometric shapes and comprehensive semantic classes, and designing PCT-Net, a point cloud translation network that aims to narrow down the gap with real-world point cloud data. For SynLiDAR, we leverage graphic tools and professionals who construct multiple realistic virtual environments with rich scene types and layouts where annotated LiDAR points can be generated automatically. On top of that, PCT-Net disentangles synthetic-to-real gaps into an appearance component and a sparsity component and translates SynLiDAR by aligning the two components with real-world data separately. Extensive experiments over multiple data augmentation and semi-supervised semantic segmentation tasks show very positive outcomes - including SynLiDAR can either train better models or reduce real-world annotated data without sacrificing performance, and PCT-Net translated data further improve model performance consistently.
翻訳日:2021-07-13 19:46:33 公開日:2021-07-12
# (参考訳) ベイズ脳とR'enyi発散 [全文訳有]

Bayesian brains and the R\'enyi divergence ( http://arxiv.org/abs/2107.05438v1 )

ライセンス: CC BY 4.0
Noor Sajid and Francesco Faccio and Lancelot Da Costa and Thomas Parr and J\"urgen Schmidhuber and Karl Friston(参考訳) ベイズ脳仮説の下では、行動の変動は生成モデルパラメータの異なる先行性によって引き起こされる。 これは、なぜ個人が類似の選択に直面した時に一貫性のない行動選択を示すのかという正式な説明を提供する。 例えば、欲求は特定の結果に対する自信(または正確な)の帰結である。 ここでは、R'enyiの発散とその関連する変動境界を用いた行動変数の代替的説明を提供する。 R'enyi 境界は変分自由エネルギー(または証拠下界)と類似しており、同じ仮定の下で導出することができる。 重要なことに、これらの境界は固定前置値が与えられた$\alpha$パラメータを通じて振る舞いの違いを確立するための形式的な方法を提供する。 これは、(連続的なスケールで)境界を変更する$\alpha$の変化に依拠し、異なる後続推定とそれに伴う振る舞いの変化を引き起こす。 このように、個人は異なる先行性を持ち、異なる結論に達したように見える。 より具体的には、$\alpha \to 0^{+}$ 最適化は、質量的変動推定と選択行動の変動性を高める。 さらに、$\alpha \to + \infty$ の最適化は、質量探索のばらつきの後部や欲求に繋がる。 マルチアームバンディットタスクのシミュレーションにより,この定式化を実証する。 これらの$\alpha$ のパラメータ化は特に関係があり、すなわち、真の後方が仮定された(より単純な)近似密度と同じ分布族にない場合、多くの実世界のシナリオでそうであるかもしれない。 バニラ変分推論からの次の離脱は、脳が変分ベイズ推論を行うという仮定の下で、生物学的(または人工的な)エージェントの行動嗜好の違いについて潜在的に有用な説明を与える。

Under the Bayesian brain hypothesis, behavioural variations can be attributed to different priors over generative model parameters. This provides a formal explanation for why individuals exhibit inconsistent behavioural preferences when confronted with similar choices. For example, greedy preferences are a consequence of confident (or precise) beliefs over certain outcomes. Here, we offer an alternative account of behavioural variability using R\'enyi divergences and their associated variational bounds. R\'enyi bounds are analogous to the variational free energy (or evidence lower bound) and can be derived under the same assumptions. Importantly, these bounds provide a formal way to establish behavioural differences through an $\alpha$ parameter, given fixed priors. This rests on changes in $\alpha$ that alter the bound (on a continuous scale), inducing different posterior estimates and consequent variations in behaviour. Thus, it looks as if individuals have different priors, and have reached different conclusions. More specifically, $\alpha \to 0^{+}$ optimisation leads to mass-covering variational estimates and increased variability in choice behaviour. Furthermore, $\alpha \to + \infty$ optimisation leads to mass-seeking variational posteriors and greedy preferences. We exemplify this formulation through simulations of the multi-armed bandit task. We note that these $\alpha$ parameterisations may be especially relevant, i.e., shape preferences, when the true posterior is not in the same family of distributions as the assumed (simpler) approximate density, which may be the case in many real-world scenarios. The ensuing departure from vanilla variational inference provides a potentially useful explanation for differences in behavioural preferences of biological (or artificial) agents under the assumption that the brain performs variational Bayesian inference.
翻訳日:2021-07-13 19:31:58 公開日:2021-07-12
# (参考訳) シーンと周辺:リレーショナルトランスを用いたシーングラフ生成 [全文訳有]

Scenes and Surroundings: Scene Graph Generation using Relation Transformer ( http://arxiv.org/abs/2107.05448v1 )

ライセンス: CC BY 4.0
Rajat Koner, Poulami Sinhamahapatra, Volker Tresp(参考訳) 画像中の物体の識別と、シーングラフとしての相互関係は、画像内容の深い理解につながる。 近年のディープラーニングの進歩にもかかわらず、視覚オブジェクト関係の検出とラベリングは依然として難しい課題である。 本稿では、複雑なグローバルオブジェクトをオブジェクトとオブジェクトに活用し、(リレーション)インタラクションをエッジする、新しいローカルコンテキスト対応アーキテクチャ、relation transformerを提案する。 階層型マルチヘッドアテンションベースアプローチは,オブジェクト間のコンテキスト依存性を効率的に捉え,それらの関係を予測する。 最先端のアプローチと比較して、全体的な平均 \textbf{4.85\%} の改善と、ビジュアルゲノムデータセット上のすべてのシーングラフ生成タスクに対する新しいベンチマークを達成しました。

Identifying objects in an image and their mutual relationships as a scene graph leads to a deep understanding of image content. Despite the recent advancement in deep learning, the detection and labeling of visual object relationships remain a challenging task. This work proposes a novel local-context aware architecture named relation transformer, which exploits complex global objects to object and object to edge (relation) interactions. Our hierarchical multi-head attention-based approach efficiently captures contextual dependencies between objects and predicts their relationships. In comparison to state-of-the-art approaches, we have achieved an overall mean \textbf{4.85\%} improvement and a new benchmark across all the scene graph generation tasks on the Visual Genome dataset.
翻訳日:2021-07-13 18:57:11 公開日:2021-07-12
# (参考訳) AxonEMデータセット:脳皮質領域の3次元軸索インスタンスセグメンテーション [全文訳有]

AxonEM Dataset: 3D Axon Instance Segmentation of Brain Cortical Regions ( http://arxiv.org/abs/2107.05451v1 )

ライセンス: CC BY 4.0
Donglai Wei, Kisuk Lee, Hanyu Li, Ran Lu, J. Alexander Bae, Zequan Liu, Lifu Zhang, M\'arcia dos Santos, Zudi Lin, Thomas Uram, Xueying Wang, Ignacio Arganda-Carreras, Brian Matejek, Narayanan Kasthuri, Jeff Lichtman, Hanspeter Pfister(参考訳) 電子顕微鏡(Electron Microscopy)は、個々のシナプスのレベルでの神経回路の再構築を可能にする。 しかし、複雑な形態のため、皮質軸索の正確な再構築が大きな課題となっている。 さらに悪いことに、軸索に密接な地上真理セグメンテーションを提供する大脳皮質からの大規模なemデータセットは公開されておらず、大規模軸索再建法の開発と評価が困難である。 そこで我々は,ヒトおよびマウス大脳皮質からの2つの30x30x30um^3em画像量からなるaxonemデータセットを提案する。 我々は,18,000以上のaxonインスタンスを徹底的に解析し,高密度3daxonインスタンスセグメンテーションを提供し,軸索再建法の大規模評価を可能にした。 さらに、各データボリュームごとに、トレーニング用の9つの基底真理サブボリュームを強く注釈付けします。 これにより,2つの最先端手法を再現し,評価結果をベースラインとして提供する。 私たちは高度なメソッドの開発を促進するために、コードとデータをhttps://connectomics -bazaar.github.io/pr oj/axonem/index.html で公開しています。

Electron microscopy (EM) enables the reconstruction of neural circuits at the level of individual synapses, which has been transformative for scientific discoveries. However, due to the complex morphology, an accurate reconstruction of cortical axons has become a major challenge. Worse still, there is no publicly available large-scale EM dataset from the cortex that provides dense ground truth segmentation for axons, making it difficult to develop and evaluate large-scale axon reconstruction methods. To address this, we introduce the AxonEM dataset, which consists of two 30x30x30 um^3 EM image volumes from the human and mouse cortex, respectively. We thoroughly proofread over 18,000 axon instances to provide dense 3D axon instance segmentation, enabling large-scale evaluation of axon reconstruction methods. In addition, we densely annotate nine ground truth subvolumes for training, per each data volume. With this, we reproduce two published state-of-the-art methods and provide their evaluation results as a baseline. We publicly release our code and data at https://connectomics -bazaar.github.io/pr oj/AxonEM/index.html to foster the development of advanced methods.
翻訳日:2021-07-13 18:48:01 公開日:2021-07-12
# (参考訳) WikiKG90M-LSCによるOGB-LSC @ KDD Cup 2021のチームGraphMIRAclesの技術的報告 [全文訳有]

Technical Report of Team GraphMIRAcles in the WikiKG90M-LSC Track of OGB-LSC @ KDD Cup 2021 ( http://arxiv.org/abs/2107.05476v1 )

ライセンス: CC BY 4.0
Jianyu Cai, Jiajun Chen, Taoxing Pan, Zhanqiu Zhang, Jie Wang(参考訳) 大規模知識グラフにおけるリンク予測は近年注目を集めている。 OGB-LSCチームはOGB Large-Scale Challenge (OGB-LSC)を発表した。 本稿では、OGB-LSC @ KDD Cup 2021のWikiKG90M-LSCトラックで、チームGraphMIRAclesのソリューションを紹介します。 WikiKG90M-LSCトラックでは、Wikidataから抽出された大規模知識グラフであるWikiKG90Mの欠落リンクを自動的に予測することを目的としている。 この課題に対処するため,我々は3つのコンポーネント – ComplEx-CMRC の基本モデル,ルールマイニング AMIE 3 と,リンク不足を予測する推論モデル – を統合するフレームワークを提案する。 実験の結果,テストデータセット上でのMRRは0.9707であることがわかった。 さらに, 推論モデルの知識蒸留では, 実際に利用できないテストテール候補を用いて, 知識蒸留に関するアブレーション研究を行っている。 実験により,本モデルが完全検証データセット上で0.9533のMRRを達成することを示す。

Link prediction in large-scale knowledge graphs has gained increasing attention recently. The OGB-LSC team presented OGB Large-Scale Challenge (OGB-LSC), a collection of three real-world datasets for advancing the state-of-the-art in large-scale graph machine learning. In this paper, we introduce the solution of our team GraphMIRAcles in the WikiKG90M-LSC track of OGB-LSC @ KDD Cup 2021. In the WikiKG90M-LSC track, the goal is to automatically predict missing links in WikiKG90M, a large scale knowledge graph extracted from Wikidata. To address this challenge, we propose a framework that integrates three components -- a basic model ComplEx-CMRC, a rule miner AMIE 3, and an inference model to predict missing links. Experiments demonstrate that our solution achieves an MRR of 0.9707 on the test dataset. Moreover, as the knowledge distillation in the inference model uses test tail candidates -- which are unavailable in practice -- we conduct ablation studies on knowledge distillation. Experiments demonstrate that our model without knowledge distillation achieves an MRR of 0.9533 on the full validation dataset.
翻訳日:2021-07-13 18:35:42 公開日:2021-07-12
# (参考訳) 地絡みのない合成セグメンテーションのための解剖制約付きコントラスト学習 [全文訳有]

Anatomy-Constrained Contrastive Learning for Synthetic Segmentation without Ground-truth ( http://arxiv.org/abs/2107.05482v1 )

ライセンス: CC BY 4.0
Bo Zhou, Chi Liu, James S. Duncan(参考訳) 大量の手動セグメンテーションは通常、新しいイメージモダリティに興味のあるオブジェクトをセグメンテーションできるように、堅牢なセグメンテーションネットワークを訓練するために必要である。 一つの画像モダリティ(例えばct)の手動セグメンテーションを使用して、別の画像モダリティ(例えばcbct/mri/pet)におけるセグメンテーションネットワークを訓練できる場合、手動の作業は軽減できる。 そこで本研究では,対象画像の正当性を考慮せずにセグメント化ネットワークをトレーニングするための,解剖学的制約のあるコントラスト付き合成セグメンテーションネットワーク(AccSeg-Net)を開発した。 具体的には、解剖学的制約とパッチの対比学習を用いて、教師なし適応時の解剖的忠実度を保証し、正しい解剖学的構造/コンテンツを持つ適応画像上でセグメンテーションネットワークをトレーニングすることを提案した。 accseg-netのトレーニングデータは、1) ソースモダリティにおけるセグメンテーション接地と対の撮像データ、2) 未対のソースおよびターゲットモダリティ画像データからなる。 CBCT, MRI, PET画像データに適用し, 従来法に比べ, セグメンテーション性能が優れていた。

A large amount of manual segmentation is typically required to train a robust segmentation network so that it can segment objects of interest in a new imaging modality. The manual efforts can be alleviated if the manual segmentation in one imaging modality (e.g., CT) can be utilized to train a segmentation network in another imaging modality (e.g., CBCT/MRI/PET). In this work, we developed an anatomy-constrained contrastive synthetic segmentation network (AccSeg-Net) to train a segmentation network for a target imaging modality without using its ground truth. Specifically, we proposed to use anatomy-constraint and patch contrastive learning to ensure the anatomy fidelity during the unsupervised adaptation, such that the segmentation network can be trained on the adapted image with correct anatomical structure/content. The training data for our AccSeg-Net consists of 1) imaging data paired with segmentation ground-truth in source modality, and 2) unpaired source and target modality imaging data. We demonstrated successful applications on CBCT, MRI, and PET imaging data, and showed superior segmentation performances as compared to previous methods.
翻訳日:2021-07-13 18:28:35 公開日:2021-07-12
# (参考訳) 3D Anatomy-aware Cyclic Adversarial Network を用いたアルツハイマー病患者用マルチトラッカーPET画像の合成 [全文訳有]

Synthesizing Multi-Tracer PET Images for Alzheimer's Disease Patients using a 3D Unified Anatomy-aware Cyclic Adversarial Network ( http://arxiv.org/abs/2107.05491v1 )

ライセンス: CC BY 4.0
Bo Zhou, Rui Wang, Ming-Kai Chen, Adam P. Mecca, Ryan S. O'Dell, Christopher H. Van Dyck, Richard E. Carson, James S. Duncan, Chi Liu(参考訳) ポジトロン・エミッション・トモグラフィ(PET)はアルツハイマー病(AD)を研究する重要なツールである。 PETスキャンは診断ツールとして使用することができ、認知障害患者の分子的特徴を提供する。 しかし、グルコース代謝(18f-fdg)、シナプス小胞タンパク質(11c-ucb-j)および$\beta$-amyloid(11c- pib)を測定するために複数のトレーサが必要である。 複数のトレーサを患者に投与すると、高い放射線量と費用がかかる。 さらに、高度な製造方法と短い半減期同位体を持つ新規または低可用性トレーサを用いたPETスキャンへのアクセスは、非常に制限される可能性がある。 したがって, シングルトレーサPETからマルチトレーサPETを生成可能な, 効率的なマルチトレーサPET合成モデルを開発することが望ましい。 医用画像合成の研究は1対1の固定ドメイン翻訳に重点を置いており、マルチトレースドメインから機能を同時に学習することはできない。 3つ以上のトレーサが与えられた場合、従来の手法に依存することで、トレーニング対象のモデルの数が大幅に増加します。 これらの課題に対処するため,複数経路PETボリュームを1つの統一生成モデルで翻訳する3次元統合解剖学的巡回対位ネットワーク(UCAN)を提案する。 NMSEは全PETトレーサに対して15%未満であり,マルチトラックPETデータセットによる評価は,UCANが高品質なマルチトラックPETボリュームを生成可能であることを示す。

Positron Emission Tomography (PET) is an important tool for studying Alzheimer's disease (AD). PET scans can be used as diagnostics tools, and to provide molecular characterization of patients with cognitive disorders. However, multiple tracers are needed to measure glucose metabolism (18F-FDG), synaptic vesicle protein (11C-UCB-J), and $\beta$-amyloid (11C-PiB). Administering multiple tracers to patient will lead to high radiation dose and cost. In addition, access to PET scans using new or less-available tracers with sophisticated production methods and short half-life isotopes may be very limited. Thus, it is desirable to develop an efficient multi-tracer PET synthesis model that can generate multi-tracer PET from single-tracer PET. Previous works on medical image synthesis focus on one-to-one fixed domain translations, and cannot simultaneously learn the feature from multi-tracer domains. Given 3 or more tracers, relying on previous methods will also create a heavy burden on the number of models to be trained. To tackle these issues, we propose a 3D unified anatomy-aware cyclic adversarial network (UCAN) for translating multi-tracer PET volumes with one unified generative model, where MR with anatomical information is incorporated. Evaluations on a multi-tracer PET dataset demonstrate the feasibility that our UCAN can generate high-quality multi-tracer PET volumes, with NMSE less than 15% for all PET tracers.
翻訳日:2021-07-13 18:18:28 公開日:2021-07-12
# (参考訳) 微分可能なモンテカルロ線トレーシングを用いた多視点画像を用いた手形状再構成 [全文訳有]

Multi-view Image-based Hand Geometry Refinement using Differentiable Monte Carlo Ray Tracing ( http://arxiv.org/abs/2107.05509v1 )

ライセンス: CC BY 4.0
Giorgos Karvounas, Nikolaos Kyriazis, Iason Oikonomidis, Aggeliki Tsoli, Antonis A. Argyros(参考訳) ハンドポーズと形状推定の研究分野で利用可能なデータセットとツールの量と品質は、これまでに行われた重要な進歩の証拠となる。 両方の面で、さらにはその先でも改善の余地があることが分かっています。 これまで報告された最高の品質のデータセットでさえ、アノテーションに欠点がある。 文献にはその方向性を支援するツールがあるが、今のところ検討されていない。 これらのギャップをいかに橋渡しできるかを実証するため、我々は、公開可能な手のマルチカメラデータセット(interhand2.6m)を採用し、不完全な基底真理アノテーションを改善するために効果的なイメージベースの改良を行い、より良いデータセットを得る。 画像に基づく精細化は,これまで問題に対して用いられていなかったレイトラック法によって達成されており,過去に採用されてきた近似的な代替法よりも優れていることが示されている。 信頼性のある地上の真実の欠如に対処するため、我々は現実的な合成データを活用し、我々が誘導する改善が確かに有意義で質的かつ定量的であることを示す。

The amount and quality of datasets and tools available in the research field of hand pose and shape estimation act as evidence to the significant progress that has been made. We find that there is still room for improvement in both fronts, and even beyond. Even the datasets of the highest quality, reported to date, have shortcomings in annotation. There are tools in the literature that can assist in that direction and yet they have not been considered, so far. To demonstrate how these gaps can be bridged, we employ such a publicly available, multi-camera dataset of hands (InterHand2.6M), and perform effective image-based refinement to improve on the imperfect ground truth annotations, yielding a better dataset. The image-based refinement is achieved through raytracing, a method that has not been employed so far to relevant problems and is hereby shown to be superior to the approximative alternatives that have been employed in the past. To tackle the lack of reliable ground truth, we resort to realistic synthetic data, to show that the improvement we induce is indeed significant, qualitatively, and quantitatively, too.
翻訳日:2021-07-13 18:08:09 公開日:2021-07-12
# (参考訳) 1st Place Solution for ICDAR 2021 Competition on Mathematical Formula Detection [全文訳有]

1st Place Solution for ICDAR 2021 Competition on Mathematical Formula Detection ( http://arxiv.org/abs/2107.05534v1 )

ライセンス: CC BY 4.0
Yuxiang Zhong, Xianbiao Qi, Shanjun Li, Dengyi Gu, Yihao Chen, Peiyang Ning, Rong Xiao(参考訳) 本技術報告では,数式検出(MFD)に関するICDAR 2021コンペティションにおいて,第1位となるソリューションを提示する。 MFDタスクには、大規模スパン、高さと幅の比率の大きなばらつき、リッチな文字集合と数学的表現を含む3つの重要な課題がある。 これらの課題を考慮し,アンカーベースではなくアンカーフリー手法である一般化焦点損失(gfl)を用い,適応訓練サンプリング戦略(atss)と適切な特徴ピラミッドネットワーク(fpn)がスケール変動の重要な課題を効果的に解決できることを証明する。 一方,Deformable Convolution Network (DCN), SyncBN, Weighted Box Fusion (WBF) といったトリックもMFDタスクに有効であることがわかった。 提案手法は最終15チームで1位であった。

In this technical report, we present our 1st place solution for the ICDAR 2021 competition on mathematical formula detection (MFD). The MFD task has three key challenges including a large scale span, large variation of the ratio between height and width, and rich character set and mathematical expressions. Considering these challenges, we used Generalized Focal Loss (GFL), an anchor-free method, instead of the anchor-based method, and prove the Adaptive Training Sampling Strategy (ATSS) and proper Feature Pyramid Network (FPN) can well solve the important issue of scale variation. Meanwhile, we also found some tricks, e.g., Deformable Convolution Network (DCN), SyncBN, and Weighted Box Fusion (WBF), were effective in MFD task. Our proposed method ranked 1st in the final 15 teams.
翻訳日:2021-07-13 17:54:26 公開日:2021-07-12
# (参考訳) 会話エージェントのためのエンドツーエンド自然言語理解パイプライン [全文訳有]

End-to-End Natural Language Understanding Pipeline for Bangla Conversational Agent ( http://arxiv.org/abs/2107.05541v1 )

ライセンス: CC0 1.0
Fahim Shahriar Khan, Mueeze Al Mushabbir, Mohammad Sabik Irbaz, MD Abdullah Al Nasim(参考訳) チャットボットは人間のインタラクションの代替として使用されるインテリジェントソフトウェアである。 しかしながら、既存の研究は通常、Banglaのような低リソース言語に対する十分なサポートを提供していない。 さらに、ソーシャルメディアの人気が高まっているため、バングラ語話者の間では、バングラ語の文字化(主に英語)の進展も見られる。 本稿では,バングラ語とバングラ語でコミュニケーションできるビジネスアシスタントとして,信頼度の高いバングラ語チャットボットを構築するための新しいアプローチを提案する。 アノテーション付きデータはこの目的には利用できなかったので、rasaオープンソースフレームワーク、fasttext embeddeds、polyglot embeddeds、flask、その他のシステムをビルディングブロックとして、機械学習ライフサイクル全体(データ準備、機械学習モデリング、モデルデプロイ)に取り組む必要がありました。 歪んだアノテートされたデータセットで作業しながら、観測結果の背後にある推論を提供するために、さまざまなセットアップとパイプラインを試します。 最後に,適切な性能を実現するインテント分類とエンティティ抽出のためのパイプラインを提案する(精度: 83.02\%,精度: 80.82\%,リコール: 83.02\%,f1-score: 80\%)。

Chatbots are intelligent software built to be used as a replacement for human interaction. However, existing studies typically do not provide enough support for low-resource languages like Bangla. Moreover, due to the increasing popularity of social media, we can also see the rise of interactions in Bangla transliteration (mostly in English) among the native Bangla speakers. In this paper, we propose a novel approach to build a Bangla chatbot aimed to be used as a business assistant which can communicate in Bangla and Bangla Transliteration in English with high confidence consistently. Since annotated data was not available for this purpose, we had to work on the whole machine learning life cycle (data preparation, machine learning modeling, and model deployment) using Rasa Open Source Framework, fastText embeddings, Polyglot embeddings, Flask, and other systems as building blocks. While working with the skewed annotated dataset, we try out different setups and pipelines to evaluate which works best and provide possible reasoning behind the observed results. Finally, we present a pipeline for intent classification and entity extraction which achieves reasonable performance (accuracy: 83.02\%, precision: 80.82\%, recall: 83.02\%, F1-score: 80\%).
翻訳日:2021-07-13 17:47:11 公開日:2021-07-12
# (参考訳) メタラーニングPINN損失関数

Meta-learning PINN loss functions ( http://arxiv.org/abs/2107.05544v1 )

ライセンス: CC BY 4.0
Apostolos F Psaros, Kenji Kawaguchi, George Em Karniadakis(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)損失関数のオフライン発見のためのメタラーニング手法を提案する。 我々は、メタラーニングに関する先行研究を拡張し、ピンで解くパラメトリズド偏微分方程式(pdes)に基づく多様なタスク分布に対処するための勾配に基づくメタラーニングアルゴリズムを開発した。 さらに,新しい理論に基づいて,PINN問題におけるメタ学習損失の2つの望ましい性質を同定し,新しい正規化法を提案するか,損失関数の特定のパラメトリゼーションを用いる。 計算例では、回帰とPDEタスク分布に対処するテスト時にメタ学習損失が使用される。 その結果,分散型メタテストにおいても,共用型タスクのオフライン学習型ロス関数を用いることで,大幅なパフォーマンス向上が期待できることがわかった。 この場合、メタトレーニングで使用されるタスク分布に属さないテストタスクに対して解決し、メタトレーニングで使用されるPINNアーキテクチャとは異なるPINNアーキテクチャを採用する。 提案手法の能力と限界をよりよく理解するために、損失関数の様々なパラメトリゼーションを検討し、異なるアルゴリズム設計オプションとメタラーニング性能に与える影響について述べる。

We propose a meta-learning technique for offline discovery of physics-informed neural network (PINN) loss functions. We extend earlier works on meta-learning, and develop a gradient-based meta-learning algorithm for addressing diverse task distributions based on parametrized partial differential equations (PDEs) that are solved with PINNs. Furthermore, based on new theory we identify two desirable properties of meta-learned losses in PINN problems, which we enforce by proposing a new regularization method or using a specific parametrization of the loss function. In the computational examples, the meta-learned losses are employed at test time for addressing regression and PDE task distributions. Our results indicate that significant performance improvement can be achieved by using a shared-among-tasks offline-learned loss function even for out-of-distribution meta-testing. In this case, we solve for test tasks that do not belong to the task distribution used in meta-training, and we also employ PINN architectures that are different from the PINN architecture used in meta-training. To better understand the capabilities and limitations of the proposed method, we consider various parametrizations of the loss function and describe different algorithm design options and how they may affect meta-learning performance.
翻訳日:2021-07-13 17:38:26 公開日:2021-07-12
# (参考訳) 微分プライベート確率最適化:凸設定と非凸設定の新しい結果

Differentially Private Stochastic Optimization: New Results in Convex and Non-Convex Settings ( http://arxiv.org/abs/2107.05585v1 )

ライセンス: CC BY 4.0
Crist\'obal Guzm\'an, Raef Bassily, Michael Menart(参考訳) 凸および非凸設定における離散確率最適化について検討する。 凸の場合、非滑らかな一般化線形損失(GLL)の族に焦点を当てる。 提案手法は,超線形時間での一般凸損失に対する最もよく知られた微分プライベートなアルゴリズムである一方,超線形時間での最適超過集団リスクを実現する。 この$\ell_1$設定のアルゴリズムは、ほぼ最適な過剰人口リスク$\tilde{O}\big(\sqrt {\frac {\log{d}}{n}}\big)$であり、一般の非滑らか凸損失に対して[AFKT21]の次元依存下界を回避する。 差動的にプライベートな非凸設定では、人口リスクの定常点を近似するいくつかの新しいアルゴリズムを提供する。 滑らかな損失と多面体制約を持つ $\ell_1$-case に対して、線形時間で最初のほぼ次元の独立なレート $\tilde o\big(\frac{\log^{2/3}{d}}{{n^{1/3}}}\big)$ を提供する。 制約付き$\ell_2$-case に対し、滑らかな損失を持つ線形時間アルゴリズム $\tilde o\big(\frac{1}{n^{3/10}d^{1/10}}+\big(\frac{d}{n^2}\big)^{1/5}\big)$ を得る。 最後に、$\ell_2$-case に対して、$d= O(\sqrt{n})$ のとき、最も優れた非私的アルゴリズムと一致する速度 $\tilde O\big(\frac{1}{n^{1/4}}+\big(\frac{d}{n^2}\big)^{1/6}\big)$ の確率最適化のための最初の方法を提供する。 また、上記のすべての結果を、非凸の$\ell_2$設定に対して$\ell_p$設定に拡張します。

We study differentially private stochastic optimization in convex and non-convex settings. For the convex case, we focus on the family of non-smooth generalized linear losses (GLLs). Our algorithm for the $\ell_2$ setting achieves optimal excess population risk in near-linear time, while the best known differentially private algorithms for general convex losses run in super-linear time. Our algorithm for the $\ell_1$ setting has nearly-optimal excess population risk $\tilde{O}\big(\sqrt{\frac{\log{d}}{n}}\big)$, and circumvents the dimension dependent lower bound of [AFKT21] for general non-smooth convex losses. In the differentially private non-convex setting, we provide several new algorithms for approximating stationary points of the population risk. For the $\ell_1$-case with smooth losses and polyhedral constraint, we provide the first nearly dimension independent rate, $\tilde O\big(\frac{\log^{2/3}{d}}{{n^{1/3}}}\big)$ in linear time. For the constrained $\ell_2$-case, with smooth losses, we obtain a linear-time algorithm with rate $\tilde O\big(\frac{1}{n^{3/10}d^{1/10}}+\big(\frac{d}{n^2}\big)^{1/5}\big)$. Finally, for the $\ell_2$-case we provide the first method for {\em non-smooth weakly convex} stochastic optimization with rate $\tilde O\big(\frac{1}{n^{1/4}}+\big(\frac{d}{n^2}\big)^{1/6}\big)$ which matches the best existing non-private algorithm when $d= O(\sqrt{n})$. We also extend all our results above for the non-convex $\ell_2$ setting to the $\ell_p$ setting, where $1 < p \leq 2$, with only polylogarithmic (in the dimension) overhead in the rates.
翻訳日:2021-07-13 17:37:27 公開日:2021-07-12
# (参考訳) 確率的ヤコビ推定を用いた大規模機械学習のための非線形最小方形 [全文訳有]

Nonlinear Least Squares for Large-Scale Machine Learning using Stochastic Jacobian Estimates ( http://arxiv.org/abs/2107.05598v1 )

ライセンス: CC BY 4.0
Johannes J. Brust(参考訳) 機械学習における大きな非線形最小二乗損失関数に対して、モデルパラメータの数が1バッチでデータを超えるという特性を利用する。 これは損失のヘシアンにおける低ランク構造を意味し、探索方向を計算する効果的な手段を可能にする。 この特性を用いて,ヤコビ行列を推定し,最先端手法と比較してよく動作する2つのアルゴリズムを開発した。

For large nonlinear least squares loss functions in machine learning we exploit the property that the number of model parameters typically exceeds the data in one batch. This implies a low-rank structure in the Hessian of the loss, which enables effective means to compute search directions. Using this property, we develop two algorithms that estimate Jacobian matrices and perform well when compared to state-of-the-art methods.
翻訳日:2021-07-13 17:35:52 公開日:2021-07-12
# (参考訳) unseenドメインにおけるunseenクラス認識のための構造化潜在埋め込み [全文訳有]

Structured Latent Embeddings for Recognizing Unseen Classes in Unseen Domains ( http://arxiv.org/abs/2107.05622v1 )

ライセンス: CC BY 4.0
Shivam Chandhok, Sanath Narayan, Hisham Cholakkal, Rao Muhammad Anwer, Vineeth N Balasubramanian, Fahad Shahbaz Khan, Ling Shao(参考訳) タスク固有のアノテートデータの不足に対処する必要性は、近年、ゼロショット学習(zsl)やドメイン一般化(dg)といった特定の設定において、それぞれセマンティックシフトとドメインシフトの問題を別々に扱うための取り組みが相まってきています。 しかし、現実のアプリケーションは、しばしば制約のある設定を持たず、目に見えないドメインで見えないクラスを扱う必要がある -- Zero-shot Domain Generalizationと呼ばれる設定で、ドメインとセマンティックシフトの問題を同時に提示する。 本研究では,異なる領域からのイメージとクラス固有のセマンティックテキストベース表現を共通潜在空間に投影することにより,ドメインに依存しないラテント埋め込みを学習する手法を提案する。 特に,本手法は, 視覚的, テキスト的意味概念からの多モード的手がかりの整合性, ドメインに依存しないクラスレベルの意味概念による共通潜在空間の分割, および, ドメインの不変性を学習すること, および, 視覚的意味的関節分布を用いて, 目に見えないドメインのクラスに一般化する。 挑戦的なDomainNetとDomainNet-LSベンチマークに関する我々の実験は、我々のアプローチが既存のメソッドよりも優れていることを示している。

The need to address the scarcity of task-specific annotated data has resulted in concerted efforts in recent years for specific settings such as zero-shot learning (ZSL) and domain generalization (DG), to separately address the issues of semantic shift and domain shift, respectively. However, real-world applications often do not have constrained settings and necessitate handling unseen classes in unseen domains -- a setting called Zero-shot Domain Generalization, which presents the issues of domain and semantic shifts simultaneously. In this work, we propose a novel approach that learns domain-agnostic structured latent embeddings by projecting images from different domains as well as class-specific semantic text-based representations to a common latent space. In particular, our method jointly strives for the following objectives: (i) aligning the multimodal cues from visual and text-based semantic concepts; (ii) partitioning the common latent space according to the domain-agnostic class-level semantic concepts; and (iii) learning a domain invariance w.r.t the visual-semantic joint distribution for generalizing to unseen classes in unseen domains. Our experiments on the challenging DomainNet and DomainNet-LS benchmarks show the superiority of our approach over existing methods, with significant gains on difficult domains like quickdraw and sketch.
翻訳日:2021-07-13 17:29:05 公開日:2021-07-12
# (参考訳) 生成的深層学習によるアクティブダイバージェンス-調査と分類 [全文訳有]

Active Divergence with Generative Deep Learning -- A Survey and Taxonomy ( http://arxiv.org/abs/2107.05599v1 )

ライセンス: CC BY-SA 4.0
Terence Broad, Sebastian Berns, Simon Colton, Mick Grierson(参考訳) 生成的ディープラーニングシステムは、データの分散をモデル化し、高忠実度結果を生成する能力から、アーティファクト生成のための強力なツールを提供する。 しかし、計算創造性という文脈では、創造的な方法でトレーニングデータから明確に分離できないことや、ターゲットデータ分布に適合することに限定されていることが大きな欠点である。 これらの制限に対処するため、トレーニングデータから積極的に分岐するために、モデルを最適化、ハッキング、書き換えするためのアプローチが増えている。 本稿では,能動発散技術の現状に関する分類的総合的調査を行い,真に創造的なシステムにおいて,計算創造性研究者がこれらの手法を前進させ,深層生成モデルを用いる可能性を強調した。

Generative deep learning systems offer powerful tools for artefact generation, given their ability to model distributions of data and generate high-fidelity results. In the context of computational creativity, however, a major shortcoming is that they are unable to explicitly diverge from the training data in creative ways and are limited to fitting the target data distribution. To address these limitations, there have been a growing number of approaches for optimising, hacking and rewriting these models in order to actively diverge from the training data. We present a taxonomy and comprehensive survey of the state of the art of active divergence techniques, highlighting the potential for computational creativity researchers to advance these methods and use deep generative models in truly creative systems.
翻訳日:2021-07-13 17:03:16 公開日:2021-07-12
# ボトムアップ特徴回復による測定シフトへのソースフリー適応

Source-Free Adaptation to Measurement Shift via Bottom-Up Feature Restoration ( http://arxiv.org/abs/2107.05446v1 )

ライセンス: Link先を確認
Cian Eastwood, Ian Mason, Christopher K. I. Williams, Bernhard Sch\"olkopf(参考訳) source-free domain adaptation(sfda)は、ソースドメイン内のラベル付きデータに基づいてトレーニングされたモデルを、適応中のソースドメインデータにアクセスせずにターゲットドメイン内のラベル付きデータに適用することを目的としている。 既存のSFDAの手法では,(i)分類にのみ適用されるエントロピー最小化手法,(ii)モデルキャリブレーションの破壊,(iii)ターゲット領域における特徴空間のクラスセパレーションの良好なレベルを達成するために,ソースモデルに依存している。 測定システムの変更(例)によって特徴づけられる測定シフトと呼ばれる,特に広範にわたる領域シフトの問題に対処する。 センサーや照明の変化)。 ソースドメインには、ソースデータの下での機能分布の軽量で柔軟な近似を格納します。 対象領域において、ターゲットデータに基づく近似的特徴分布が、ソースに保存された特徴量と一致するように特徴抽出器を適用する。 私たちは、このメソッドを機能復元(fr)と呼び、ソースから以前抽出されたのと同じ意味を持つ特徴をターゲットドメインから抽出する。 さらに,ネットワークの下位層における学習構造を保存し,パフォーマンスを向上させるためのボトムアップ訓練手法であるboot-up feature restoration (bufr)を提案する。 実験を通して、BUFRは、ターゲットドメインのソースモデルの性能に頼らず、精度、キャリブレーション、データ効率の点で、既存のSFDA法よりも優れていることを示す。

Source-free domain adaptation (SFDA) aims to adapt a model trained on labelled data in a source domain to unlabelled data in a target domain without access to the source-domain data during adaptation. Existing methods for SFDA leverage entropy-minimization techniques which: (i) apply only to classification; (ii) destroy model calibration; and (iii) rely on the source model achieving a good level of feature-space class-separation in the target domain. We address these issues for a particularly pervasive type of domain shift called measurement shift, characterized by a change in measurement system (e.g. a change in sensor or lighting). In the source domain, we store a lightweight and flexible approximation of the feature distribution under the source data. In the target domain, we adapt the feature-extractor such that the approximate feature distribution under the target data realigns with that saved on the source. We call this method Feature Restoration (FR) as it seeks to extract features with the same semantics from the target domain as were previously extracted from the source. We additionally propose Bottom-Up Feature Restoration (BUFR), a bottom-up training scheme for FR which boosts performance by preserving learnt structure in the later layers of a network. Through experiments we demonstrate that BUFR often outperforms existing SFDA methods in terms of accuracy, calibration, and data efficiency, while being less reliant on the performance of the source model in the target domain.
翻訳日:2021-07-13 16:24:02 公開日:2021-07-12
# 高水準自然言語命令実行のための持続的空間意味表現

A Persistent Spatial Semantic Representation for High-level Natural Language Instruction Execution ( http://arxiv.org/abs/2107.05612v1 )

ライセンス: Link先を確認
Valts Blukis, Chris Paxton, Dieter Fox, Animesh Garg, Yoav Artzi(参考訳) 自然言語はロボットエージェントの長期的なタスクを特定するために、アクセス可能で表現可能なインターフェースを提供する。 しかし、非専門家は、いくつかの抽象レイヤを通じて特定のロボットアクションを抽象化するハイレベルな命令でそのようなタスクを指定する可能性が高い。 長い実行地平線で言語とロボットの動作を橋渡しするための鍵となるのは永続的な表現である。 永続的空間意味表現法を提案し、階層的推論を行い長期タスクを効果的に実行するエージェントの構築を可能にする方法を示す。 一般的なステップバイステップ命令を完全に回避しながら,ALFREDベンチマークに対するアプローチを評価した。

Natural language provides an accessible and expressive interface to specify long-term tasks for robotic agents. However, non-experts are likely to specify such tasks with high-level instructions, which abstract over specific robot actions through several layers of abstraction. We propose that key to bridging this gap between language and robot actions over long execution horizons are persistent representations. We propose a persistent spatial semantic representation method, and show how it enables building an agent that performs hierarchical reasoning to effectively execute long-term tasks. We evaluate our approach on the ALFRED benchmark and achieve state-of-the-art results, despite completely avoiding the commonly used step-by-step instructions.
翻訳日:2021-07-13 16:23:38 公開日:2021-07-12
# モデル抽出攻撃のステートフル検出

Stateful Detection of Model Extraction Attacks ( http://arxiv.org/abs/2107.05166v1 )

ライセンス: Link先を確認
Soham Pal, Yash Gupta, Aditya Kanade, Shirish Shevade(参考訳) マシンラーニング・アズ・ア・サービスプロバイダは、アプリケーションプログラミングインターフェース(api)を通じて機械学習(ml)モデルを開発者に公開する。 最近の研究によると、攻撃者はこれらのAPIを利用して、そのようなMLモデルの適切な近似を抽出できる。 本稿では,そのようなサービスのユーザによるクエリの分布を追跡するステートフルモニタであるVarDetectを提案し,モデル抽出攻撃を検出する。 VarDetectは、修正された変分オートエンコーダによって学習された潜伏分布を悪用し、3種類の攻撃サンプルを良質なサンプルからしっかりと分離し、それぞれにアラームを発生させることに成功した。 さらに、VarDetectを自動防御機構として配置することにより、抽出した代替モデルは、意図したように、性能と転送性が劣ることがわかった。 最後に、VarDetectのデプロイに関する事前知識を持つアダプティブアタッカーでさえ、それによって検出されることを示す。

Machine-Learning-as- a-Service providers expose machine learning (ML) models through application programming interfaces (APIs) to developers. Recent work has shown that attackers can exploit these APIs to extract good approximations of such ML models, by querying them with samples of their choosing. We propose VarDetect, a stateful monitor that tracks the distribution of queries made by users of such a service, to detect model extraction attacks. Harnessing the latent distributions learned by a modified variational autoencoder, VarDetect robustly separates three types of attacker samples from benign samples, and successfully raises an alarm for each. Further, with VarDetect deployed as an automated defense mechanism, the extracted substitute models are found to exhibit poor performance and transferability, as intended. Finally, we demonstrate that even adaptive attackers with prior knowledge of the deployment of VarDetect, are detected by it.
翻訳日:2021-07-13 16:23:06 公開日:2021-07-12
# 事前更新による線形帯域のメタラーニング

Metalearning Linear Bandits by Prior Update ( http://arxiv.org/abs/2107.05320v1 )

ライセンス: Link先を確認
Amit Peleg, Naama Pearl and Ron Meir(参考訳) シーケンシャルな意思決定に対する完全なベイズ的アプローチは、問題のパラメータは既知の事前から生成されるが、実際にはそのような情報は欠如しており、学習を通じて推定する必要があると仮定する。 この問題は、ある部分的な情報を持つ意思決定設定において悪化し、不特定事前の使用は、探索の質が悪く、性能が劣る可能性がある。 この研究において、確率線型包帯とガウス事前の文脈において、事前推定が真の先行値に十分近い限り、誤特定された先行値を使用するアルゴリズムの性能は真の先行値を使用するアルゴリズムのそれに近いことを証明した。 次に,学習者が複数のタスクインスタンスにまたがる事前推定値を更新して,将来のタスクの性能向上を図るメタラーニングを通じて,事前学習の課題に対処する。 推定前の値は、受信した観測に基づいて各タスク内で更新され、期待される報酬を最大化するためにアクションが選択される。 本研究では、このスキームを線形バンディット設定に適用し、正しい事前を知るアルゴリズムと比較して、その効果を示すアルゴリズムと後悔の境界を提供する。 私たちの結果は、例えばThompson SmplingやInformation Directed Smplingなど、幅広いアルゴリズムのクラスに当てはまります。

Fully Bayesian approaches to sequential decision-making assume that problem parameters are generated from a known prior, while in practice, such information is often lacking, and needs to be estimated through learning. This problem is exacerbated in decision-making setups with partial information, where using a misspecified prior may lead to poor exploration and inferior performance. In this work we prove, in the context of stochastic linear bandits and Gaussian priors, that as long as the prior estimate is sufficiently close to the true prior, the performance of an algorithm that uses the misspecified prior is close to that of the algorithm that uses the true prior. Next, we address the task of learning the prior through metalearning, where a learner updates its estimate of the prior across multiple task instances in order to improve performance on future tasks. The estimated prior is then updated within each task based on incoming observations, while actions are selected in order to maximize expected reward. In this work we apply this scheme within a linear bandit setting, and provide algorithms and regret bounds, demonstrating its effectiveness, as compared to an algorithm that knows the correct prior. Our results hold for a broad class of algorithms, including, for example, Thompson Sampling and Information Directed Sampling.
翻訳日:2021-07-13 16:22:49 公開日:2021-07-12
# 一般化グラフ描画による強化学習におけるラプラス表現の改善に向けて

Towards Better Laplacian Representation in Reinforcement Learning with Generalized Graph Drawing ( http://arxiv.org/abs/2107.05545v1 )

ライセンス: Link先を確認
Kaixin Wang, Kuangqi Zhou, Qixin Zhang, Jie Shao, Bryan Hooi, Jiashi Feng(参考訳) ラプラシアン表現は、状態遷移グラフのラプラシアン行列の固有ベクトルを状態埋め込みとして取り込むことで、状態の簡潔で情報的な表現を提供するため、強化学習の注目を集めている。 このような表現は、基礎となる状態空間の幾何学を捉え、オプション発見や報酬形成のようなRLタスクに有益である。 大規模な(あるいは連続な)状態空間におけるラプラシアン表現を近似するために、近年の研究はスペクトルグラフ描画の目的を最小化することを提案しているが、固有ベクトル以外の大域最小化は無限に多い。 その結果、彼らの学習されたラプラシアン表現は、基礎的真理とは異なるかもしれない。 この問題を解決するために,グラフ描画対象を一般化した形式に再構成し,固有ベクトルを一意な大域的最小値とする新しい学習対象を導出する。 基礎的真理を忠実に近似する高品質なラプラシア表現を学習することができる。 グリッドワールドと継続的制御環境の集合に関する包括的な実験を通じてこれを検証する。 さらに、学習したラプラシア表現がより探索的な選択肢とより良い報酬形成をもたらすことを示す。

The Laplacian representation recently gains increasing attention for reinforcement learning as it provides succinct and informative representation for states, by taking the eigenvectors of the Laplacian matrix of the state-transition graph as state embeddings. Such representation captures the geometry of the underlying state space and is beneficial to RL tasks such as option discovery and reward shaping. To approximate the Laplacian representation in large (or even continuous) state spaces, recent works propose to minimize a spectral graph drawing objective, which however has infinitely many global minimizers other than the eigenvectors. As a result, their learned Laplacian representation may differ from the ground truth. To solve this problem, we reformulate the graph drawing objective into a generalized form and derive a new learning objective, which is proved to have eigenvectors as its unique global minimizer. It enables learning high-quality Laplacian representations that faithfully approximate the ground truth. We validate this via comprehensive experiments on a set of gridworld and continuous control environments. Moreover, we show that our learned Laplacian representations lead to more exploratory options and better reward shaping.
翻訳日:2021-07-13 16:22:27 公開日:2021-07-12
# Prb-GAN: GANモデリングのための確率的フレームワーク

Prb-GAN: A Probabilistic Framework for GAN Modelling ( http://arxiv.org/abs/2107.05241v1 )

ライセンス: Link先を確認
Blessen George and Vinod K. Kurmi and Vinay P. Namboodiri(参考訳) generative adversarial network (gans) は現実的な画像を生成するのに非常に人気があるが、しばしばトレーニング不安定問題やモード損失の現象に苦しむ。 GAN合成データの多様性を高めるためには,モード損失の問題を解決することが重要である。 我々の研究は、これらの問題に対処できるGANモデリングの確率論的アプローチを探究する。 提案するprb-gansは,可変推論を用いた後進学習によるネットワークパラメータの分布生成にdropoutを用いた新しい変種である。 このようなアプローチの利点を,単純で複雑なデータセットを用いて理論的に検証する。 我々は不確実性対策という概念を用いてさらなる改善を検討する。 GANの各ネットワークにおける損失関数のさらなる修正により、GAN性能の改善を示す結果が得られる。 我々の手法は非常にシンプルで、既存のGANアーキテクチャの変更はほとんど必要ありません。

Generative adversarial networks (GANs) are very popular to generate realistic images, but they often suffer from the training instability issues and the phenomenon of mode loss. In order to attain greater diversity in GAN synthesized data, it is critical to solving the problem of mode loss. Our work explores probabilistic approaches to GAN modelling that could allow us to tackle these issues. We present Prb-GANs, a new variation that uses dropout to create a distribution over the network parameters with the posterior learnt using variational inference. We describe theoretically and validate experimentally using simple and complex datasets the benefits of such an approach. We look into further improvements using the concept of uncertainty measures. Through a set of further modifications to the loss functions for each network of the GAN, we are able to get results that show the improvement of GAN performance. Our methods are extremely simple and require very little modification to existing GAN architecture.
翻訳日:2021-07-13 16:21:28 公開日:2021-07-12
# 階層型ニューラルダイナミックポリシー

Hierarchical Neural Dynamic Policies ( http://arxiv.org/abs/2107.05627v1 )

ライセンス: Link先を確認
Shikhar Bahl, Abhinav Gupta, Deepak Pathak(参考訳) 我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。 非線形力学系に基づく手法のファミリーは、動的ロボットの動作をうまく実証しているが、画像入力から学習するだけでなく、目に見えない構成への一般化が困難である。 最近の研究は、ディープネットワークポリシーを用いて動的システムの構造を埋め込むためにアクションを再パラメータ化することでこの問題にアプローチしているが、画像目標の多様な構成を持つ領域では依然として苦戦しているため、一般化が困難である。 本稿では,階層型神経力学ポリシ(h-ndps)と呼ばれる階層型深層政策学習フレームワークに力学系の構造を組み込むことにより,この二分法に対処する。 H-NDPは、深層力学系を多様なデータに直接適合させる代わりに、状態空間内の小さな領域の局所力学系に基づくポリシーを学習し、それを高次元画像からのみ動作するグローバル力学系ベースのポリシーに蒸留することでカリキュラムを形成する。 さらに、h-ndpsはスムーズな軌道を提供し、現実世界において強力な安全上の利点がある。 実世界(デジタルライティング,スクーピング,注ぐ)とシミュレーション(キャッシング,投げ,摘み)の両方において,動的タスクに関する広範な実験を行う。 我々は,H-NDPが模倣と強化学習の両方と容易に統合され,最先端の成果が得られることを示した。 ビデオはhttps://shikharbahl. github.io/hierarchic al-ndps/。

We tackle the problem of generalization to unseen configurations for dynamic tasks in the real world while learning from high-dimensional image input. The family of nonlinear dynamical system-based methods have successfully demonstrated dynamic robot behaviors but have difficulty in generalizing to unseen configurations as well as learning from image inputs. Recent works approach this issue by using deep network policies and reparameterize actions to embed the structure of dynamical systems but still struggle in domains with diverse configurations of image goals, and hence, find it difficult to generalize. In this paper, we address this dichotomy by leveraging embedding the structure of dynamical systems in a hierarchical deep policy learning framework, called Hierarchical Neural Dynamical Policies (H-NDPs). Instead of fitting deep dynamical systems to diverse data directly, H-NDPs form a curriculum by learning local dynamical system-based policies on small regions in state-space and then distill them into a global dynamical system-based policy that operates only from high-dimensional images. H-NDPs additionally provide smooth trajectories, a strong safety benefit in the real world. We perform extensive experiments on dynamic tasks both in the real world (digit writing, scooping, and pouring) and simulation (catching, throwing, picking). We show that H-NDPs are easily integrated with both imitation as well as reinforcement learning setups and achieve state-of-the-art results. Video results are at https://shikharbahl. github.io/hierarchic al-ndps/
翻訳日:2021-07-13 16:21:15 公開日:2021-07-12
# mect: 中国語名付きエンティティ認識のためのマルチメタデータ埋め込みベースのクロストランスフォーマ

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition ( http://arxiv.org/abs/2107.05418v1 )

ライセンス: Link先を確認
Shuang Wu, Xiaoning Song and Zhenhua Feng(参考訳) 近年,中国語の名前付きエンティティ認識(NER)では単語強調が盛んになり,セグメンテーションエラーを低減し,中国語のセグメンテーション情報や境界情報を増大させている。 しかし,これらの手法は語彙情報の統合後,漢字構造に関する情報を無視する傾向にある。 漢字は古来からピクトグラフから進化しており、その構造はしばしば文字に関する情報を反映している。 本稿では,漢字の構造情報を融合させることで中国語NERの性能を向上させるために,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。 具体的には、マルチメタデータ組込みを2ストリームトランスフォーマーに使用して、漢字の特徴とラジカルレベルの組込みを統合する。 漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。 いくつかの有名なベンチマークデータセットで得られた実験結果は、mectメソッドのメリットと優位性を示している。

Recently, word enhancement has become very popular for Chinese Named Entity Recognition (NER), reducing segmentation errors and increasing the semantic and boundary information of Chinese words. However, these methods tend to ignore the information of the Chinese character structure after integrating the lexical information. Chinese characters have evolved from pictographs since ancient times, and their structure often reflects more information about the characters. This paper presents a novel Multi-metadata Embedding based Cross-Transformer (MECT) to improve the performance of Chinese NER by fusing the structural information of Chinese characters. Specifically, we use multi-metadata embedding in a two-stream Transformer to integrate Chinese character features with the radical-level embedding. With the structural characteristics of Chinese characters, MECT can better capture the semantic information of Chinese characters for NER. The experimental results obtained on several well-known benchmarking datasets demonstrate the merits and superiority of the proposed MECT method.\footnote{The source code of the proposed method is publicly available at https://github.com/C oderMusou/MECT4CNER.
翻訳日:2021-07-13 16:20:18 公開日:2021-07-12
# DaCy: デンマークのNLPのための統一フレームワーク

DaCy: A Unified Framework for Danish NLP ( http://arxiv.org/abs/2107.05295v1 )

ライセンス: Link先を確認
Kenneth Enevoldsen, Lasse Hansen, Kristoffer Nielbo(参考訳) デンマークの自然言語処理(NLP)は近年、複数の新しいデータセットとモデルを追加して大幅に改善されている。 しかし、現在デンマークに最先端のモデルを適用するためのコヒーレントな枠組みは存在しない。 DaCy: SpaCy上に構築されたデンマークNLPの統一フレームワークについて紹介する。 DaCyは効率的なマルチタスクモデルを使用し、名前付きエンティティ認識、音声タグ付け、依存性解析で最先端のパフォーマンスを得る。 DaCyには、極性、感情、主観的検出など、既存のモデルを簡単に統合するためのツールが含まれている。 さらに,デンマークのNLPパイプラインのバイアスとロバスト性に関する一連の試験を,DaNEのテストセットの増大を通じて実施する。 DaCy Largeは、長い入力長とスペルのバリエーションとエラーに対して特に堅牢である。 DaCyを除くすべてのモデルは、民族に関する大きなバイアスを示すが、Polyglotだけが大きなバイアスを示す。 ベンチマークセットが限られている言語の場合、データ拡張はよりリアルできめ細かいパフォーマンス推定を得るのに特に有用である。 中小規模の資源言語のための言語モデルのより詳細な評価に向けた第一歩として,一連の拡張子を提供し,さらなる開発を促進する。

Danish natural language processing (NLP) has in recent years obtained considerable improvements with the addition of multiple new datasets and models. However, at present, there is no coherent framework for applying state-of-the-art models for Danish. We present DaCy: a unified framework for Danish NLP built on SpaCy. DaCy uses efficient multitask models which obtain state-of-the-art performance on named entity recognition, part-of-speech tagging, and dependency parsing. DaCy contains tools for easy integration of existing models such as for polarity, emotion, or subjectivity detection. In addition, we conduct a series of tests for biases and robustness of Danish NLP pipelines through augmentation of the test set of DaNE. DaCy large compares favorably and is especially robust to long input lengths and spelling variations and errors. All models except DaCy large display significant biases related to ethnicity while only Polyglot shows a significant gender bias. We argue that for languages with limited benchmark sets, data augmentation can be particularly useful for obtaining more realistic and fine-grained performance estimates. We provide a series of augmenters as a first step towards a more thorough evaluation of language models for low and medium resource languages and encourage further development.
翻訳日:2021-07-13 16:18:15 公開日:2021-07-12
# MOOCRep:MOOCエンティティの統一されたトレーニング済み埋め込み

MOOCRep: A Unified Pre-trained Embedding of MOOC Entities ( http://arxiv.org/abs/2107.05154v1 )

ライセンス: Link先を確認
Shalini Pandey, Jaideep Srivastava(参考訳) 多くの機械学習モデルは、MOOC(Massive Open Online Courses)プラットフォーム上の情報過負荷問題に対処するために構築されている。 これらのモデルはMOOCエンティティの強力な表現の学習に依存している。 しかし、専門家のラベルデータが少ないという問題に苦しんでいる。 この問題を克服するために,下流タスクに直接適用可能なmoocの構造から,未ラベルの豊富なデータを用いて,事前学習したmoocエンティティの表現を学ぶことを提案する。 強力なテキスト表現を学ぶnlp領域では、既存の事前学習手法が成功しているが、彼らのモデルはmoocエンティティに関するよりリッチな情報を活用していない。 このリッチな情報には、講義、概念、コース間のグラフ関係と、概念の複雑さに関するドメイン知識が含まれている。 提案手法は,2つの事前学習目的を持つトランスフォーマー言語モデルに基づく新しい手法であるMOOCRepを開発する。1) グラフに存在する実体と関係の強力なシグナルを捕捉するためのグラフベース目的,2) 概念の複雑さレベルを効果的に組み込むためのドメイン指向目的である。 実験の結果,MOOCRepの埋め込みは,教育コミュニティにとって重要な2つの課題,概念的前提条件予測,講義推薦において,最先端の表現学習方法よりも優れていることがわかった。

Many machine learning models have been built to tackle information overload issues on Massive Open Online Courses (MOOC) platforms. These models rely on learning powerful representations of MOOC entities. However, they suffer from the problem of scarce expert label data. To overcome this problem, we propose to learn pre-trained representations of MOOC entities using abundant unlabeled data from the structure of MOOCs which can directly be applied to the downstream tasks. While existing pre-training methods have been successful in NLP areas as they learn powerful textual representation, their models do not leverage the richer information about MOOC entities. This richer information includes the graph relationship between the lectures, concepts, and courses along with the domain knowledge about the complexity of a concept. We develop MOOCRep, a novel method based on Transformer language model trained with two pre-training objectives : 1) graph-based objective to capture the powerful signal of entities and relations that exist in the graph, and 2) domain-oriented objective to effectively incorporate the complexity level of concepts. Our experiments reveal that MOOCRep's embeddings outperform state-of-the-art representation learning methods on two tasks important for education community, concept pre-requisite prediction and lecture recommendation.
翻訳日:2021-07-13 16:16:07 公開日:2021-07-12
# 制約付き強化学習に対する単純報酬フリーアプローチ

A Simple Reward-free Approach to Constrained Reinforcement Learning ( http://arxiv.org/abs/2107.05216v1 )

ライセンス: Link先を確認
Sobhan Miryoosefi, Chi Jin(参考訳) 制約付き強化学習(RL)では、学習エージェントは全体の報酬を最適化するだけでなく、追加の安全性、多様性、予算制約を満たす。 したがって、既存の制約付きRLソリューションは、標準RLとは異なるいくつかの新しいアルゴリズム的要素を必要とする。 一方、報酬のないRLは、報酬情報を使わずに遷移力学を学習する非制約文学において独立に開発され、共通力学の下で複数の目的を持つRLに自然に対処することができる。 本稿では報酬のないRLと制約付きRLを橋渡しする。 特に、報酬のないRLオラクルが与えられた場合、アプローチ可能性と制約されたRL問題は、サンプルの複雑さにおいて無視できるオーバーヘッドで直接解決できる簡単なメタアルゴリズムを提案する。 既存の報酬のないRLソルバを用いて、我々のフレームワークは、制約付きRLを表付きMDP設定でシャープなサンプル複雑性結果を提供し、最良の既存の結果と地平線依存の要素を一致させ、我々のフレームワークは、表付き2プレーヤマルコフゲームの設定に直接拡張し、線形関数近似による制約付きRLの新しい結果を与える。

In constrained reinforcement learning (RL), a learning agent seeks to not only optimize the overall reward but also satisfy the additional safety, diversity, or budget constraints. Consequently, existing constrained RL solutions require several new algorithmic ingredients that are notably different from standard RL. On the other hand, reward-free RL is independently developed in the unconstrained literature, which learns the transition dynamics without using the reward information, and thus naturally capable of addressing RL with multiple objectives under the common dynamics. This paper bridges reward-free RL and constrained RL. Particularly, we propose a simple meta-algorithm such that given any reward-free RL oracle, the approachability and constrained RL problems can be directly solved with negligible overheads in sample complexity. Utilizing the existing reward-free RL solvers, our framework provides sharp sample complexity results for constrained RL in the tabular MDP setting, matching the best existing results up to a factor of horizon dependence; our framework directly extends to a setting of tabular two-player Markov games, and gives a new result for constrained RL with linear function approximation.
翻訳日:2021-07-13 16:15:46 公開日:2021-07-12
# Cautious Actor-Critic

Cautious Actor-Critic ( http://arxiv.org/abs/2107.05217v1 )

ライセンス: Link先を確認
Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara(参考訳) アクタークリティカル(AC)設定における非政治学習の振動性能と持続的エラーは、安定クリティカルなアプリケーションに適合するように保守的に学習できるアルゴリズムを呼び起こす。 本稿では, アクター批判 (CAC) に対する非政治的なACアルゴリズムを提案する。 慎重な名前は、俳優の保守的な政策反復と批評家の保守的な価値反復のエントロピー・規則化から古典的な政策補間を生かした二重保守的な性質に由来する。 私たちの重要な観察は、エントロピー正規化された批評家は、堅牢なポリシー改善を確保しながら、望ましくない補間されたアクタ更新を容易化し、単純化することです。 我々は,CACと最先端AC手法を比較し,CACが学習を著しく安定させながら同等の性能を発揮することを示す。

The oscillating performance of off-policy learning and persisting errors in the actor-critic (AC) setting call for algorithms that can conservatively learn to suit the stability-critical applications better. In this paper, we propose a novel off-policy AC algorithm cautious actor-critic (CAC). The name cautious comes from the doubly conservative nature that we exploit the classic policy interpolation from conservative policy iteration for the actor and the entropy-regularizati on of conservative value iteration for the critic. Our key observation is the entropy-regularized critic facilitates and simplifies the unwieldy interpolated actor update while still ensuring robust policy improvement. We compare CAC to state-of-the-art AC methods on a set of challenging continuous control problems and demonstrate that CAC achieves comparable performance while significantly stabilizes learning.
翻訳日:2021-07-13 16:15:27 公開日:2021-07-12
# CoBERL:強化学習のためのコントラストBERT

CoBERL: Contrastive BERT for Reinforcement Learning ( http://arxiv.org/abs/2107.05431v1 )

ライセンス: Link先を確認
Andrea Banino, Adri\`a Puidomenech Badia, Jacob Walker, Tim Scholtes, Jovana Mitrovic, Charles Blundell(参考訳) 多くの強化学習(RL)エージェントは、タスクを解決するために大量の経験を必要とする。 本稿では,新たなコントラスト損失とハイブリッドLSTM変換器アーキテクチャを組み合わせたエージェントであるContrastive BERT for RL (CoBERL)を提案する。 CoBERLは、幅広い領域にわたるピクセルからの効率的で堅牢な学習を可能にする。 我々は,最近のコントラスト法の一般化と組み合わせて,手作業によるデータ拡張を必要とせず,rlにおけるトランスフォーマーの表現改善を学習する。 CoBERLは、完全なAtariスイート、一連のコントロールタスク、挑戦的な3D環境において、一貫してパフォーマンスを改善しています。

Many reinforcement learning (RL) agents require a large amount of experience to solve tasks. We propose Contrastive BERT for RL (CoBERL), an agent that combines a new contrastive loss and a hybrid LSTM-transformer architecture to tackle the challenge of improving data efficiency. CoBERL enables efficient, robust learning from pixels across a wide range of domains. We use bidirectional masked prediction in combination with a generalization of recent contrastive methods to learn better representations for transformers in RL, without the need of hand engineered data augmentations. We find that CoBERL consistently improves performance across the full Atari suite, a set of control tasks and a challenging 3D environment.
翻訳日:2021-07-13 16:15:14 公開日:2021-07-12
# 差分プライバシーによるディープラーニングのアルゴリズムの改善

Improving the Algorithm of Deep Learning with Differential Privacy ( http://arxiv.org/abs/2107.05457v1 )

ライセンス: Link先を確認
Mehdi Amian(参考訳) 本稿では,深層学習モデルに対する微分プライベート確率勾配勾配(DPSGD)アルゴリズムの調整を提案する。 モチベーションの問題として、現在最先端の機械学習アルゴリズムが既存のプライバシ保護コンポーネントを採用しているところはほとんどない。 この研究の考え方は自然で解釈可能であり、最先端技術における実用性の向上に寄与する。 提案手法のもう一つの特性は、より自然で、また現実世界や特に商業用途にも適している、単純さである。 その直感は、プライバシー上の理由から、野生の個人の不一致を減らしバランスをとることであり、同時に、パフォーマンスを求めるための相対的な個人差を維持することである。 ここで提案するアイデアは、勾配爆発問題を解決するためにrecurrent neural networks (rnn)にも適用することができる。 このアルゴリズムは分類タスクのベンチマークデータセットMNISTとCIFAR-10に適用され、実用性尺度が算出される。 結果はオリジナル作品より優れていた。

In this paper, an adjustment to the original differentially private stochastic gradient descent (DPSGD) algorithm for deep learning models is proposed. As a matter of motivation, to date, almost no state-of-the-art machine learning algorithm hires the existing privacy protecting components due to otherwise serious compromise in their utility despite the vital necessity. The idea in this study is natural and interpretable, contributing to improve the utility with respect to the state-of-the-art. Another property of the proposed technique is its simplicity which makes it again more natural and also more appropriate for real world and specially commercial applications. The intuition is to trim and balance out wild individual discrepancies for privacy reasons, and at the same time, to preserve relative individual differences for seeking performance. The idea proposed here can also be applied to the recurrent neural networks (RNN) to solve the gradient exploding problem. The algorithm is applied to benchmark datasets MNIST and CIFAR-10 for a classification task and the utility measure is calculated. The results outperformed the original work.
翻訳日:2021-07-13 16:15:03 公開日:2021-07-12
# 表現学習による時系列分類のためのラベル自動生成:トレーニングにおけるラベルコストの削減

Automated Label Generation for Time Series Classification with Representation Learning: Reduction of Label Cost for Training ( http://arxiv.org/abs/2107.05458v1 )

ライセンス: Link先を確認
Soma Bandyopadhyay, Anish Datta, Arpan Pal(参考訳) エンドユーザーやエッジデバイス、さまざまなウェアラブルによって生成される時系列は、ほとんど役に立たない。 本稿では,ラベル付き時系列のラベルの自動生成手法を提案する。 提案手法は,最良の距離尺度を選択するオートエンコードコンパクトシーケンス(AECS)を用いた表現学習に基づいている。 反復で自己補正を行い、潜伏構造を学習し、ラベルの品質を向上させるために変分自動エンコーダ(VAE)を用いて代表時系列を合成的に増強する。 UCRおよびUCIアーカイブは,異なるアプリケーションドメインから取得した,多変量多変量多変量時系列である。 実験の結果,提案手法は完全教師付き分類によって達成された性能に非常に近いことがわかった。 提案手法はベンチマーク結果に近いだけでなく,ベンチマーク性能を上回っている場合もある。

Time-series generated by end-users, edge devices, and different wearables are mostly unlabelled. We propose a method to auto-generate labels of un-labelled time-series, exploiting very few representative labelled time-series. Our method is based on representation learning using Auto Encoded Compact Sequence (AECS) with a choice of best distance measure. It performs self-correction in iterations, by learning latent structure, as well as synthetically boosting representative time-series using Variational-Auto-Enc oder (VAE) to improve the quality of labels. We have experimented with UCR and UCI archives, public real-world univariate, multivariate time-series taken from different application domains. Experimental results demonstrate that the proposed method is very close to the performance achieved by fully supervised classification. The proposed method not only produces close to benchmark results but outperforms the benchmark performance in some cases.
翻訳日:2021-07-13 16:14:48 公開日:2021-07-12
# 拡張行動モデルによる多動物軌跡からのインタラクションルールの学習

Learning interaction rules from multi-animal trajectories via augmented behavioral models ( http://arxiv.org/abs/2107.05326v1 )

ライセンス: Link先を確認
Keisuke Fujii, Naoya Takeishi, Kazushi Tsutsui, Emyo Fujioka, Nozomi Nishiumi, Ryooya Tanaka, Mika Fukushiro, Kaoru Ide, Hiroyoshi Kohno, Ken Yoda, Susumu Takahashi, Shizuko Hiryu, Yoshinobu Kawahara(参考訳) 移動配列から生物学的エージェントの相互作用規則を抽出することは、様々な領域における課題を引き起こす。 顆粒因果関係は観察された時系列データから相互作用を分析するための実践的な枠組みであるが、この枠組みは動物の行動における生成過程の構造を無視し、解釈上の問題を引き起こす可能性がある。 本稿では,解釈可能なデータ駆動モデルを用いた拡張理論に基づく行動モデルを用いて,多対象軌道からグラガー因果関係を学習するための新しいフレームワークを提案する。 我々は,ニューラルネットワークを用いた時間変化動的システムによって記述された不完全なマルチエージェント行動モデルを強化するアプローチを採用する。 効率的かつ解釈可能な学習には,ナビゲーションと動作プロセスを分離した理論に基づくアーキテクチャと,信頼性のある行動モデリングのための理論誘導型正規化を利用する。 これは、ある特定の者が接近または分離を引き起こすとき、時間の経過とともにグランジャー・コーサル効果の解釈可能な兆候を与えることができる。 合成データセットを用いた実験では, 各種ベースラインよりも優れた性能を示した。 次に,マウス,ハエ,鳥,コウモリの多動物データセットを分析し,その方法を確認し,新たな生物学的知見を得た。

Extracting the interaction rules of biological agents from moving sequences pose challenges in various domains. Granger causality is a practical framework for analyzing the interactions from observed time-series data; however, this framework ignores the structures of the generative process in animal behaviors, which may lead to interpretational problems and sometimes erroneous assessments of causality. In this paper, we propose a new framework for learning Granger causality from multi-animal trajectories via augmented theory-based behavioral models with interpretable data-driven models. We adopt an approach for augmenting incomplete multi-agent behavioral models described by time-varying dynamical systems with neural networks. For efficient and interpretable learning, our model leverages theory-based architectures separating navigation and motion processes, and the theory-guided regularization for reliable behavioral modeling. This can provide interpretable signs of Granger-causal effects over time, i.e., when specific others cause the approach or separation. In experiments using synthetic datasets, our method achieved better performance than various baselines. We then analyzed multi-animal datasets of mice, flies, birds, and bats, which verified our method and obtained novel biological insights.
翻訳日:2021-07-13 16:13:03 公開日:2021-07-12
# 摂動直交射影による構造方向プルーニング

Structured Directional Pruning via Perturbation Orthogonal Projection ( http://arxiv.org/abs/2107.05328v1 )

ライセンス: Link先を確認
YinchuanLi, XiaofengLiu, YunfengShao, QingWang and YanhuiGeng(参考訳) 構造化プルーニング(structured pruning)は、ニューラルネットワークの計算を減らすための効果的な圧縮技術であり、トレーニング損失をわずかに増加させるコストで、ネットワークパラメータを減らすために摂動を追加することで達成される。 より合理的なアプローチは、オプティマイザに見られる平らな最小の谷に沿ってスパース最小値を見つけることである。 確率的勾配降下 トレーニング損失を一定に保つ。 この目的を達成するために, 平らな最小谷に摂動を直交的に投影する構造的方向プルーニングを提案する。 また, 高速解法 sDprun を提案し, 十分な訓練後, 漸近的に方向定式化を実現することを証明した。 CIFAR-10およびCIFAR-100データセット上でのVGG-NetとResNetを用いた実験により,本手法が最先端のプルーンド精度(すなわち精度)を得ることを示す。 93.97%(VGG16、CIFAR-10)の再訓練なし。 MNIST, CIFAR-10, CIFAR-100データセット上でのDNN, VGG-Net, WRN28X10を用いた実験により, 本手法が最適化器と同じ最小の谷に達することを実証した。

Structured pruning is an effective compression technique to reduce the computation of neural networks, which is usually achieved by adding perturbations to reduce network parameters at the cost of slightly increasing training loss. A more reasonable approach is to find a sparse minimizer along the flat minimum valley found by optimizers, i.e. stochastic gradient descent, which keeps the training loss constant. To achieve this goal, we propose the structured directional pruning based on orthogonal projecting the perturbations onto the flat minimum valley. We also propose a fast solver sDprun and further prove that it achieves directional pruning asymptotically after sufficient training. Experiments using VGG-Net and ResNet on CIFAR-10 and CIFAR-100 datasets show that our method obtains the state-of-the-art pruned accuracy (i.e. 93.97% on VGG16, CIFAR-10 task) without retraining. Experiments using DNN, VGG-Net and WRN28X10 on MNIST, CIFAR-10 and CIFAR-100 datasets demonstrate our method performs structured directional pruning, reaching the same minimum valley as the optimizer.
翻訳日:2021-07-13 16:12:44 公開日:2021-07-12
# 早期停止を伴うGD訓練による低パラメータニューラルネットワークによる非パラメトリック回帰

Nonparametric Regression with Shallow Overparameterized Neural Networks Trained by GD with Early Stopping ( http://arxiv.org/abs/2107.05341v1 )

ライセンス: Link先を確認
Ilja Kuzborskij, Csaba Szepesv\'ari(参考訳) 勾配降下 (gd) によって訓練された場合, ラベル雑音を伴わずにリプシッツ回帰関数を学習できる, 過パラメータな浅層ニューラルネットワークの能力について検討した。 ノイズラベルの存在下では、トレーニングエラーをほとんどゼロにトレーニングしたニューラルネットワークは、このクラスでは一貫性がないという問題を避けるため、最適なレートを示すための早期停止ルールを提案する。 これはHu et alの結果の代替となる。 (2021年) 無限幅ネットワーク(神経接核(ntk))近似に完全に依存する非パラメトリック回帰(nonparametric regression)の浅層ネットワークを訓練するための$\ell 2$-regularized gdの性能を研究した。 本稿では、GDによりトレーニングされたニューラルネットワークが入力に対して滑らかであるという事実と相まって、入力空間の分割引数(例えば1-アネレス近傍規則の場合)に基づくより単純な分析を行う。 ノイズフリーの場合、証明はいかなる核化にも依存せず、有限幅の結果と見なすことができる。 ラベルノイズの場合、証明を少し修正することで、このノイズはYao, Rosasco, Caponnetto (2007) の技法で制御される。

We explore the ability of overparameterized shallow neural networks to learn Lipschitz regression functions with and without label noise when trained by Gradient Descent (GD). To avoid the problem that in the presence of noisy labels, neural networks trained to nearly zero training error are inconsistent on this class, we propose an early stopping rule that allows us to show optimal rates. This provides an alternative to the result of Hu et al. (2021) who studied the performance of $\ell 2$ -regularized GD for training shallow networks in nonparametric regression which fully relied on the infinite-width network (Neural Tangent Kernel (NTK)) approximation. Here we present a simpler analysis which is based on a partitioning argument of the input space (as in the case of 1-nearest-neighbor rule) coupled with the fact that trained neural networks are smooth with respect to their inputs when trained by GD. In the noise-free case the proof does not rely on any kernelization and can be regarded as a finite-width result. In the case of label noise, by slightly modifying the proof, the noise is controlled using a technique of Yao, Rosasco, and Caponnetto (2007).
翻訳日:2021-07-13 16:12:24 公開日:2021-07-12
# 深部RLにおける強調トレースの学習

Learning Expected Emphatic Traces for Deep RL ( http://arxiv.org/abs/2107.05405v1 )

ライセンス: Link先を確認
Ray Jiang, Shangtong Zhang, Veronica Chelu, Adam White, Hado van Hasselt(参考訳) オフポリシーサンプリングと経験リプレイは、サンプル効率の向上とモデルフリーの時間差学習手法のスケーリングの鍵である。 ニューラルネットワークのような関数近似と組み合わせると、この組み合わせは致命的な三重項と呼ばれ、潜在的に不安定である。 近年,強調重み付けと多段階更新を組み合わせることで,安定性とスケール性能が向上することが示されている。 しかし、このアプローチは一般に、必要な強調重み付けを計算するために完全な軌跡のサンプリングに限られる。 本稿では,強調重み付けをリプレイバッファからサンプリングした非逐次オフラインデータと組み合わせる方法について検討する。 リプレイと組み合わせることができる多段階の強調重み付けと、時間反転したn$-step td学習アルゴリズムを開発し、必要な強調重み付けを学習する。 これらの状態重み付けは, 従来の手法に比べてばらつきを低減し, 収束保証を提供する。 我々はAtari 2600のビデオゲームで大規模にテストを行い、新しいX-ETD($n$)エージェントがベースラインエージェントよりも改善され、我々のアプローチのスケーラビリティと幅広い適用性の両方を強調した。

Off-policy sampling and experience replay are key for improving sample efficiency and scaling model-free temporal difference learning methods. When combined with function approximation, such as neural networks, this combination is known as the deadly triad and is potentially unstable. Recently, it has been shown that stability and good performance at scale can be achieved by combining emphatic weightings and multi-step updates. This approach, however, is generally limited to sampling complete trajectories in order, to compute the required emphatic weighting. In this paper we investigate how to combine emphatic weightings with non-sequential, off-line data sampled from a replay buffer. We develop a multi-step emphatic weighting that can be combined with replay, and a time-reversed $n$-step TD learning algorithm to learn the required emphatic weighting. We show that these state weightings reduce variance compared with prior approaches, while providing convergence guarantees. We tested the approach at scale on Atari 2600 video games, and observed that the new X-ETD($n$) agent improved over baseline agents, highlighting both the scalability and broad applicability of our approach.
翻訳日:2021-07-13 16:12:02 公開日:2021-07-12
# 超高分解能超音波による乳腺病変の評価

Learned super resolution ultrasound for improved breast lesion characterization ( http://arxiv.org/abs/2107.05270v1 )

ライセンス: Link先を確認
Or Bar-Shira, Ahuva Grubstein, Yael Rapson, Dror Suhami, Eli Atar, Keren Peri-Hanania, Ronnie Rosen, Yonina C. Eldar(参考訳) 乳癌は女性にとって最も多い悪性腫瘍である。 超音波検査では,微小石灰化や腫瘤などのマンモグラフィ所見や腫瘤の形態学的特徴が腫瘍検出の主要な診断対象となっている。 しかし,これらの画像の特異性の改善が必要である。 主要な代替標的は新血管新生である。 病理組織学的には、多くの種類の腫瘍の発生と転移の形成に寄与する。 したがって、微小血管の可視化による血管新生の実証は非常に重要である。 超分解能超音波局在顕微鏡は毛細血管レベルの微小血管のイメージングを可能にする。 しかし, 長期再建時間, ポイントスプレッド機能 (PSF) の事前知識への依存, 超音波コントラストエージェント (UCA) の分離性といった課題は, 超高分解能USのクリニックへの翻訳に対処する必要がある。 この作業では、これらの課題に対処するために、信号構造を効果的に活用するディープニューラルネットワークアーキテクチャを使用します。 臨床検査で得られた3種類の乳腺病変をin vivoで観察した。 トレーニングしたネットワークを利用することで,従来のPSF知識を必要とせず,UCAの分離性も必要とせず,短時間で微小血管構造を復元する。 それぞれの修復物は、既知の組織構造に対応する異なる構造を示す。 本研究は, 臨床スキャナーによる生体内ヒト超解像の可能性を示し, 乳腺病変のUS特異性を高め, 乳腺疾患の診断におけるUSの使用を促進するものである。

Breast cancer is the most common malignancy in women. Mammographic findings such as microcalcifications and masses, as well as morphologic features of masses in sonographic scans, are the main diagnostic targets for tumor detection. However, improved specificity of these imaging modalities is required. A leading alternative target is neoangiogenesis. When pathological, it contributes to the development of numerous types of tumors, and the formation of metastases. Hence, demonstrating neoangiogenesis by visualization of the microvasculature may be of great importance. Super resolution ultrasound localization microscopy enables imaging of the microvasculature at the capillary level. Yet, challenges such as long reconstruction time, dependency on prior knowledge of the system Point Spread Function (PSF), and separability of the Ultrasound Contrast Agents (UCAs), need to be addressed for translation of super-resolution US into the clinic. In this work we use a deep neural network architecture that makes effective use of signal structure to address these challenges. We present in vivo human results of three different breast lesions acquired with a clinical US scanner. By leveraging our trained network, the microvasculature structure is recovered in a short time, without prior PSF knowledge, and without requiring separability of the UCAs. Each of the recoveries exhibits a different structure that corresponds with the known histological structure. This study demonstrates the feasibility of in vivo human super resolution, based on a clinical scanner, to increase US specificity for different breast lesions and promotes the use of US in the diagnosis of breast pathologies.
翻訳日:2021-07-13 16:10:13 公開日:2021-07-12
# マルチラベル分類のための細粒度自動調整

Fine-Grained AutoAugmentation for Multi-label Classification ( http://arxiv.org/abs/2107.05384v1 )

ライセンス: Link先を確認
Ya Wang, Hesen Chen, Fangyi Zhang, Yaohua Wang, Xiuyu Sun, Ming Lin, Hao Li(参考訳) データ拡張は、ディープラーニングモデルの一般化を改善するために一般的に使用されるアプローチである。 近年の研究では、学習データ拡張ポリシーが手作りのものよりもより良い一般化を達成できることが示されている。 しかし、これらの作品の多くはデータセット内のすべてのサンプルに対して統一的な拡張ポリシーを使用しているが、これは必ずしも複数のラベルの分類タスクにおいてすべてのラベルにとって有益ではない。 そこで,本稿では,ラベル・ポリシー・ネットワークによってラベルに対する拡張ポリシーが生成されるマルチラベル・シナリオのためのラベル・ベース・オートエイジメント(lb-aug)手法を提案する。 ポリシーは、ポリシー勾配法による強化学習を通じて学習され、インスタンスラベルから最適な拡張ポリシーへのマッピングを提供する。 数値実験により,LB-Augは画像と映像の分類に関する複数のベンチマークにおいて,従来の最先端化手法よりも大きなマージンで優れていたことがわかった。

Data augmentation is a commonly used approach to improving the generalization of deep learning models. Recent works show that learned data augmentation policies can achieve better generalization than hand-crafted ones. However, most of these works use unified augmentation policies for all samples in a dataset, which is observed not necessarily beneficial for all labels in multi-label classification tasks, i.e., some policies may have negative impacts on some labels while benefitting the others. To tackle this problem, we propose a novel Label-Based AutoAugmentation (LB-Aug) method for multi-label scenarios, where augmentation policies are generated with respect to labels by an augmentation-policy network. The policies are learned via reinforcement learning using policy gradient methods, providing a mapping from instance labels to their optimal augmentation policies. Numerical experiments show that our LB-Aug outperforms previous state-of-the-art augmentation methods by large margins in multiple benchmarks on image and video classification.
翻訳日:2021-07-13 16:09:49 公開日:2021-07-12
# cased-based reasoningとdeep learningを用いた解釈可能なマンモグラフィ画像分類

Interpretable Mammographic Image Classification using Cased-Based Reasoning and Deep Learning ( http://arxiv.org/abs/2107.05605v1 )

ライセンス: Link先を確認
Alina Jade Barnett, Fides Regina Schwartz, Chaofan Tao, Chaofan Chen, Yinhao Ren, Joseph Y. Lo, Cynthia Rudin(参考訳) 機械学習モデルを高精細な医療環境にデプロイする場合、これらのモデルが既知の医学と整合した正確な予測をする必要がある。 本質的に解釈可能なネットワークは、ブラックボックスモデルと同等または高い精度を維持しながら、各決定の背後にある根拠を説明することによって、このニーズに対処する。 本稿では,マンモグラフィにケースベース推論を用いた新しい解釈可能なニューラルネットワークアルゴリズムを提案する。 放射線科医の判断を助けるために設計されたこのネットワークは、悪性度の予測と、既知の医療的特徴を用いた予測の説明の両方を提示する。 我々のネットワークは、まず、新しい画像とトレーニング画像から学習した原型画像の集合を比較して、各画像の臨床的に関係のある意味的特徴を検出し、その臨床特徴を用いて悪性度を予測する。 他の手法と比較して,本モデルは臨床像(マスマージン)を同等以上の精度で検出し,その予測をより詳細に説明し,画像の分類関連部分を識別しやすくする。

When we deploy machine learning models in high-stakes medical settings, we must ensure these models make accurate predictions that are consistent with known medical science. Inherently interpretable networks address this need by explaining the rationale behind each decision while maintaining equal or higher accuracy compared to black-box models. In this work, we present a novel interpretable neural network algorithm that uses case-based reasoning for mammography. Designed to aid a radiologist in their decisions, our network presents both a prediction of malignancy and an explanation of that prediction using known medical features. In order to yield helpful explanations, the network is designed to mimic the reasoning processes of a radiologist: our network first detects the clinically relevant semantic features of each image by comparing each new image with a learned set of prototypical image parts from the training images, then uses those clinical features to predict malignancy. Compared to other methods, our model detects clinical features (mass margins) with equal or higher accuracy, provides a more detailed explanation of its prediction, and is better able to differentiate the classification-relev ant parts of the image.
翻訳日:2021-07-13 16:09:35 公開日:2021-07-12
# ディープラーニングに基づく4Kビデオのリアルタイム超解像システム

Real-Time Super-Resolution System of 4K-Video Based on Deep Learning ( http://arxiv.org/abs/2107.05307v1 )

ライセンス: Link先を確認
Yanpeng Cao, Chengcheng Wang, Changjun Song, He Li, Yongming Tang(参考訳) ビデオ超解像(VSR)技術は、補間に基づくアルゴリズムによって生じる不快なブラー効果を回避し、低品質のビデオの再構成に優れる。 しかし、計算の複雑さとメモリ占有は、特に大規模なVSRタスクにおいて、現実のアプリケーションにおける遅延性と実行時の推論の端を脅かす。 本稿では、リアルタイムVSRシステムの可能性について検討し、EGVSRと呼ばれる効率的で汎用的なVSRネットワークを設計する。 The proposed EGVSR is based on spatio-temporal adversarial learning for temporal coherence。 本稿では,最大4k解像度のvsr処理を高速化するために,軽量ネットワーク構造と効率的なアップサンプリング手法を選択し,高画質でegvsrネットワークに必要な計算量を削減することを試みる。 さらに,実ハードウェアプラットフォーム上でのバッチ正規化計算融合,畳み込み高速化アルゴリズム,その他のニューラルネットワーク高速化手法を実装し,EGVSRネットワークの推論プロセスを最適化する。 最後に、EGVSRは4K@29.61FPSのリアルタイム処理能力を達成する。 現在最も進んだVSRネットワークであるTecoGANと比較して、計算密度の85.04%削減と7.92倍の性能向上を実現している。 視覚的品質の面では、提案されたEGVSRがほとんどの指標(LPIPS、tOF、tLPなど)の上位である。 パブリックテストデータセットのVid4で、パフォーマンススコアで他の最先端メソッドを上回る。 プロジェクトのソースコードはhttps://github.com/T hmen/EGVSRで確認できる。

Video super-resolution (VSR) technology excels in reconstructing low-quality video, avoiding unpleasant blur effect caused by interpolation-based algorithms. However, vast computation complexity and memory occupation hampers the edge of deplorability and the runtime inference in real-life applications, especially for large-scale VSR task. This paper explores the possibility of real-time VSR system and designs an efficient and generic VSR network, termed EGVSR. The proposed EGVSR is based on spatio-temporal adversarial learning for temporal coherence. In order to pursue faster VSR processing ability up to 4K resolution, this paper tries to choose lightweight network structure and efficient upsampling method to reduce the computation required by EGVSR network under the guarantee of high visual quality. Besides, we implement the batch normalization computation fusion, convolutional acceleration algorithm and other neural network acceleration techniques on the actual hardware platform to optimize the inference process of EGVSR network. Finally, our EGVSR achieves the real-time processing capacity of 4K@29.61FPS. Compared with TecoGAN, the most advanced VSR network at present, we achieve 85.04% reduction of computation density and 7.92x performance speedups. In terms of visual quality, the proposed EGVSR tops the list of most metrics (such as LPIPS, tOF, tLP, etc.) on the public test dataset Vid4 and surpasses other state-of-the-art methods in overall performance score. The source code of this project can be found on https://github.com/T hmen/EGVSR.
翻訳日:2021-07-13 16:08:55 公開日:2021-07-12
# 特徴マッチングと知覚損失を伴う残差拡散ganを用いた視覚触覚クロスモーダルデータ生成

Visual-Tactile Cross-Modal Data Generation using Residue-Fusion GAN with Feature-Matching and Perceptual Losses ( http://arxiv.org/abs/2107.05468v1 )

ライセンス: Link先を確認
Shaoyu Cai, Kening Zhu, Yuki Ban, Takuji Narumi(参考訳) 既存の精神物理学的な研究では、交叉視触覚は日常活動を行う人間に共通していることが示されている。 しかし、ロボット操作にとって潜在的に重要な、あるモダリティ空間から別のモダリティ空間へのアルゴリズムマッピングを構築することは依然として困難である。 本稿では,gans(generative adversarial networks)の枠組みを活用し,クロスモーダル視覚触覚データ生成のためのディープラーニング手法を提案する。 本手法は, 材料表面の視覚像を視覚データとし, 触覚データとして表面のペンスライディング運動によって誘導される加速度センサ信号を用いる。 我々は, 条件付きGAN (cGAN) 構造を残差融合 (RF) モジュールとともに採用し, 付加的特徴マッチング (FM) と知覚的損失を用いてモデルを訓練し, クロスモーダルデータ生成を実現する。 実験結果から,RFモジュールとFMと知覚的損失は,生成したデータに対する分類精度と生成したデータとの視覚的類似性の観点から,クロスモーダルデータ生成性能を著しく向上させることが示された。

Existing psychophysical studies have revealed that the cross-modal visual-tactile perception is common for humans performing daily activities. However, it is still challenging to build the algorithmic mapping from one modality space to another, namely the cross-modal visual-tactile data translation/generati on, which could be potentially important for robotic operation. In this paper, we propose a deep-learning-based approach for cross-modal visual-tactile data generation by leveraging the framework of the generative adversarial networks (GANs). Our approach takes the visual image of a material surface as the visual data, and the accelerometer signal induced by the pen-sliding movement on the surface as the tactile data. We adopt the conditional-GAN (cGAN) structure together with the residue-fusion (RF) module, and train the model with the additional feature-matching (FM) and perceptual losses to achieve the cross-modal data generation. The experimental results show that the inclusion of the RF module, and the FM and the perceptual losses significantly improves cross-modal data generation performance in terms of the classification accuracy upon the generated data and the visual similarity between the ground-truth and the generated data.
翻訳日:2021-07-13 16:08:32 公開日:2021-07-12
# let's play for action: 生活シミュレーションゲームから学ぶことによる日常生活活動の認識

Let's Play for Action: Recognizing Activities of Daily Living by Learning from Life Simulation Video Games ( http://arxiv.org/abs/2107.05617v1 )

ライセンス: Link先を確認
Alina Roitberg, David Schneider, Aulia Djamal, Constantin Seibold, Simon Rei{\ss}, Rainer Stiefelhagen(参考訳) ADL(Recognizing Activity of Daily Living)は、インテリジェントな補助ロボットにとって重要なプロセスであるが、大規模な注釈付きデータセットの収集には時間を要する時間的ラベリングと、実際の家庭で収集されたデータなどのプライバシー上の懸念が伴う。 本研究では,生活シミュレーションビデオゲームによるADL認識のためのトレーニング例構築のコンセプトを探求し,人気のある商用ゲームThe SIMS 4で作成したSIMS4ACTIONデータセットを紹介する。 sims4actionは「トップダウン」方式で特別にアクション・オブ・インテイントを実行し、ゲーム環境は環境、カメラアングル、被写体外観を自由に切り替えることができる。 ゲームデータに対するadlの認識は理論的には興味深いが、スマートホームやアシストロボティクスといった現実世界のアプリケーションに移行することで生じる重要な課題である。 この要件を満たすために、sims4actionにはgamingtorealベンチマークが付属しており、既存のadlデータセットから派生した実ビデオでモデルを評価する。 生活シミュレーションビデオゲームの価値を,より安価でより侵入性の低いトレーニングデータソースとして明らかにし,映像ベースのアクティビティ認識のための2つの現代的アルゴリズムをフレームワークに統合した。 しかし,ゲームと実データを組み合わせて行う作業は困難であり,新たな研究の方向性が開けることも示唆された。 私たちはデータセットをhttps://github.com/a roitberg/sims4action で公開します。

Recognizing Activities of Daily Living (ADL) is a vital process for intelligent assistive robots, but collecting large annotated datasets requires time-consuming temporal labeling and raises privacy concerns, e.g., if the data is collected in a real household. In this work, we explore the concept of constructing training examples for ADL recognition by playing life simulation video games and introduce the SIMS4ACTION dataset created with the popular commercial game THE SIMS 4. We build Sims4Action by specifically executing actions-of-interest in a "top-down" manner, while the gaming circumstances allow us to freely switch between environments, camera angles and subject appearances. While ADL recognition on gaming data is interesting from the theoretical perspective, the key challenge arises from transferring it to the real-world applications, such as smart-homes or assistive robotics. To meet this requirement, Sims4Action is accompanied with a GamingToReal benchmark, where the models are evaluated on real videos derived from an existing ADL dataset. We integrate two modern algorithms for video-based activity recognition in our framework, revealing the value of life simulation video games as an inexpensive and far less intrusive source of training data. However, our results also indicate that tasks involving a mixture of gaming and real data are challenging, opening a new research direction. We will make our dataset publicly available at https://github.com/a roitberg/sims4action .
翻訳日:2021-07-13 16:08:10 公開日:2021-07-12
# 離散単位を用いた直接音声音声合成

Direct speech-to-speech translation with discrete units ( http://arxiv.org/abs/2107.05604v1 )

ライセンス: Link先を確認
Ann Lee, Peng-Jen Chen, Changhan Wang, Jiatao Gu, Xutai Ma, Adam Polyak, Yossi Adi, Qing He, Yun Tang, Juan Pino, Wei-Ning Hsu(参考訳) 本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。 従来の研究は、ソース音声スペクトログラムをターゲットスペクトログラムにマッピングするアテンションベースのシーケンス・ツー・シーケンスモデルをトレーニングすることでこの問題に対処する。 対象音声の連続スペクトル特徴をモデル化する課題に取り組むために,ラベルなし音声コーパスから学習した自己教師あり離散表現の予測を提案する。 対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。 フィッシャー・スパニッシュ・イングリッシュデータセットにおける実験では、離散単位の予測と共同音声とテキストの訓練によって11 bleuのモデル性能が向上することが示された。 テキストの書き起こしを使わずにトレーニングすると、我々のモデルはスペクトルを予測し、テキストデータでトレーニングされるベースラインと同じようなパフォーマンスを達成する。

We present a direct speech-to-speech translation (S2ST) model that translates speech from one language to speech in another language without relying on intermediate text generation. Previous work addresses the problem by training an attention-based sequence-to-sequence model that maps source speech spectrograms into target spectrograms. To tackle the challenge of modeling continuous spectrogram features of the target speech, we propose to predict the self-supervised discrete representations learned from an unlabeled speech corpus instead. When target text transcripts are available, we design a multitask learning framework with joint speech and text training that enables the model to generate dual mode output (speech and text) simultaneously in the same inference pass. Experiments on the Fisher Spanish-English dataset show that predicting discrete units and joint speech and text training improve model performance by 11 BLEU compared with a baseline that predicts spectrograms and bridges 83% of the performance gap towards a cascaded system. When trained without any text transcripts, our model achieves similar performance as a baseline that predicts spectrograms and is trained with text data.
翻訳日:2021-07-13 16:07:23 公開日:2021-07-12
# PonderNet: Ponderを学ぶ

PonderNet: Learning to Ponder ( http://arxiv.org/abs/2107.05407v1 )

ライセンス: Link先を確認
Andrea Banino, Jan Balaguer, Charles Blundell(参考訳) 標準的なニューラルネットワークでは、使用する計算量は入力のサイズによって増加するが、学習される問題の複雑さには及ばない。 この制限を克服するため,我々は,問題の複雑性に基づいて計算量を調整することを学ぶ新しいアルゴリズムである pondernet を紹介する。 PonderNetは、トレーニング予測精度、計算コスト、一般化の間の効果的な妥協を達成するために、計算ステップの数をエンドツーエンドに学習する。 複雑な合成問題において、ポンダーネットは従来の適応計算法よりも劇的に性能を向上し、さらに従来のニューラルネットワークが故障する補間テストでも成功している。 また,本手法は実世界の質問や回答データセット上での成果と一致したが,計算量は少なかった。 最後に、ポンダーネットはニューラルネットワークの推論能力をテストするために設計された複雑なタスクの最先端の成果に到達した。

In standard neural networks the amount of computation used grows with the size of the inputs, but not with the complexity of the problem being learnt. To overcome this limitation we introduce PonderNet, a new algorithm that learns to adapt the amount of computation based on the complexity of the problem at hand. PonderNet learns end-to-end the number of computational steps to achieve an effective compromise between training prediction accuracy, computational cost and generalization. On a complex synthetic problem, PonderNet dramatically improves performance over previous adaptive computation methods and additionally succeeds at extrapolation tests where traditional neural networks fail. Also, our method matched the current state of the art results on a real world question and answering dataset, but using less compute. Finally, PonderNet reached state of the art results on a complex task designed to test the reasoning capabilities of neural networks.1
翻訳日:2021-07-13 16:07:04 公開日:2021-07-12
# 雑音を伴うフォスター分解と学習ハーフスペース

Forster Decomposition and Learning Halfspaces with Noise ( http://arxiv.org/abs/2107.05582v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane and Christos Tzamos(参考訳) フォースター変換 (Forster transform) は、分布を優れた反集中特性を持つものに変換する演算である。 Forster変換は常に存在するわけではないが、Forster変換が存在し、効率的に計算できる少数の分布の解離混合として、任意の分布を効率的に分解できることを示す。 この結果の主応用として, 半空間の分布非依存pac学習における最初の多項式時間アルゴリズムを, 実例のビット複雑性とは無関係に, 強い多項式サンプル複雑性を持つマッサート雑音モデルで求めた。 この学習問題の以前のアルゴリズムは、そのような依存が情報理論上必要ではないにもかかわらず、ビット複雑性と多項式的にスケーリングするサンプル複雑性を引き起こした。

A Forster transform is an operation that turns a distribution into one with good anti-concentration properties. While a Forster transform does not always exist, we show that any distribution can be efficiently decomposed as a disjoint mixture of few distributions for which a Forster transform exists and can be computed efficiently. As the main application of this result, we obtain the first polynomial-time algorithm for distribution-indepen dent PAC learning of halfspaces in the Massart noise model with strongly polynomial sample complexity, i.e., independent of the bit complexity of the examples. Previous algorithms for this learning problem incurred sample complexity scaling polynomially with the bit complexity, even though such a dependence is not information-theoreti cally necessary.
翻訳日:2021-07-13 16:06:32 公開日:2021-07-12
# AutoFB:標準超音波による胎児の生体計測の自動化

AutoFB: Automating Fetal Biometry Estimation from Standard Ultrasound Planes ( http://arxiv.org/abs/2107.05255v1 )

ライセンス: Link先を確認
Sophia Bano, Brian Dromey, Francisco Vasconcelos, Raffaele Napolitano, Anna L. David, Donald M. Peebles, Danail Stoyanov(参考訳) 妊娠中、第2トリメスターの超音波検査は、標準化されたチャートに従って胎児の大きさを評価することができる。 再現可能で正確な測定を実現するためには、超音波検査者は胎児解剖学の3つの標準的な2次元平面(頭、腹部、大腿骨)を識別し、画像に重要な解剖学的ランドマークを手動でマークして正確な生体計測と胎児重量の推定を行う必要がある。 これは、特に訓練生のソノグラフィーにとって、時間を要する演算子依存のタスクである。 コンピュータ支援技術は胎児生体計測計算プロセスの自動化に役立つ。 本稿では,胎児の体重評価に必要なすべての測定値を推定する統合的自動化フレームワークを提案する。 提案フレームワークでは, 胎児の解剖を最先端のセグメンテーションモデルを用いて意味的にセグメンテーションし, バイオメトリ推定のための領域適合とスケールリカバリを行った。 本研究は,42妊娠児の超音波標準平面画像のデータセットを用いて,4倍のクロスバリデーションにより,その堅牢性を示すセグメンテーションアルゴリズムのアブレーション研究である。 さらに, セグメンテーション性能のよいネットワークは, バイオメトリ推定において, より正確であることが示唆された。 さらに, 臨床測定と胎児バイオメトリーの誤差は, 定期的な臨床測定における許容誤差よりも低いことを示した。

During pregnancy, ultrasound examination in the second trimester can assess fetal size according to standardized charts. To achieve a reproducible and accurate measurement, a sonographer needs to identify three standard 2D planes of the fetal anatomy (head, abdomen, femur) and manually mark the key anatomical landmarks on the image for accurate biometry and fetal weight estimation. This can be a time-consuming operator-dependent task, especially for a trainee sonographer. Computer-assisted techniques can help in automating the fetal biometry computation process. In this paper, we present a unified automated framework for estimating all measurements needed for the fetal weight assessment. The proposed framework semantically segments the key fetal anatomies using state-of-the-art segmentation models, followed by region fitting and scale recovery for the biometry estimation. We present an ablation study of segmentation algorithms to show their robustness through 4-fold cross-validation on a dataset of 349 ultrasound standard plane images from 42 pregnancies. Moreover, we show that the network with the best segmentation performance tends to be more accurate for biometry estimation. Furthermore, we demonstrate that the error between clinically measured and predicted fetal biometry is lower than the permissible error during routine clinical measurements.
翻訳日:2021-07-13 16:05:19 公開日:2021-07-12
# 対話状態予測と対話の多レベル融合による対話状態追跡

Dialogue State Tracking with Multi-Level Fusion of Predicted Dialogue States and Conversations ( http://arxiv.org/abs/2107.05168v1 )

ライセンス: Link先を確認
Jingyao Zhou, Haipang Wu, Zehao Lin, Guodun Li, Yin Zhang(参考訳) 最近提案された対話状態追跡(dst)のアプローチは、コンテキストと最後の対話状態を利用して現在の対話状態(しばしばスロット値ペア)を追跡する。 文脈は完全な対話情報を含んでいるが、情報は通常間接的であり、取得には推論さえ必要である。 最後に予測された対話状態の情報は直接的であるが、予測エラーが発生した場合、このソースからの対話情報は不完全または誤となる。 本稿では,予測対話状態・会話ネットワーク(FPDSC)の多レベル融合による対話状態追跡を提案する。 本モデルでは,各発話,対応する最終対話状態,対話スロット間の相互作用をモデル化することにより,各対話ターンに関する情報を抽出する。 そして、各対話のターンの表現を階層構造で集約し、DSTの現在のターンで利用される通路情報を形成する。 実験結果は、最先端性能に達するマルチウォズ2.0およびマルチウォズ2.1データセットにおける55.03%と59.07%の合同精度を有する融合ネットワークの有効性を検証する。 さらに,MultiWOZ 2.1上で削除値と関連するスロット実験を行い,そのモデルを評価する。

Most recently proposed approaches in dialogue state tracking (DST) leverage the context and the last dialogue states to track current dialogue states, which are often slot-value pairs. Although the context contains the complete dialogue information, the information is usually indirect and even requires reasoning to obtain. The information in the lastly predicted dialogue states is direct, but when there is a prediction error, the dialogue information from this source will be incomplete or erroneous. In this paper, we propose the Dialogue State Tracking with Multi-Level Fusion of Predicted Dialogue States and Conversations network (FPDSC). This model extracts information of each dialogue turn by modeling interactions among each turn utterance, the corresponding last dialogue states, and dialogue slots. Then the representation of each dialogue turn is aggregated by a hierarchical structure to form the passage information, which is utilized in the current turn of DST. Experimental results validate the effectiveness of the fusion network with 55.03% and 59.07% joint accuracy on MultiWOZ 2.0 and MultiWOZ 2.1 datasets, which reaches the state-of-the-art performance. Furthermore, we conduct the deleted-value and related-slot experiments on MultiWOZ 2.1 to evaluate our model.
翻訳日:2021-07-13 16:03:43 公開日:2021-07-12
# 実裁判における多段階事例提示学習による法的判断予測

Legal Judgment Prediction with Multi-Stage CaseRepresentation Learning in the Real Court Setting ( http://arxiv.org/abs/2107.05192v1 )

ライセンス: Link先を確認
Luyao Ma, Yating Zhang, Tianyi Wang, Xiaozhong Liu, Wei Ye, Changlong Sun, Shikun Zhang(参考訳) 法的判断予測(LJP)は、法的AIにとって不可欠な課題である。 従来の手法では, 判断を予測するための入力として, 判断を要約したケースナラを使用すれば, 現実の裁判所における重要なケースライフサイクル情報を無視することで, ケースロジックの表現品質と予測正しさを脅かす可能性がある。 本稿では,原告の主張と法廷論争データを利用して,訴訟の真正なインプットを活用することによって,実裁判所の法的判断を合理的に予測する,新たな挑戦的データセットを紹介し,訴訟の事実を,裁判所論争の多極的対話を包括的に理解して認識し,その主張をマルチタスク学習を通じて最終判断に達するために識別することを学ぶ。 大規模な民事裁判データセットを用いた広範な実験は、提案モデルが主張、事実、および法的判断予測のための議論の間の相互作用をより正確に特徴づけ、最先端のベースラインよりも顕著な改善を達成できることを示している。 さらに, 実際の審査員や法学部学生によるユーザスタディでは, 神経予測を解釈し, 容易に観察できることが示され, 試験効率と判定品質が向上した。

Legal judgment prediction(LJP) is an essential task for legal AI. While prior methods studied on this topic in a pseudo setting by employing the judge-summarized case narrative as the input to predict the judgment, neglecting critical case life-cycle information in real court setting could threaten the case logic representation quality and prediction correctness. In this paper, we introduce a novel challenging dataset from real courtrooms to predict the legal judgment in a reasonably encyclopedic manner by leveraging the genuine input of the case -- plaintiff's claims and court debate data, from which the case's facts are automatically recognized by comprehensively understanding the multi-role dialogues of the court debate, and then learnt to discriminate the claims so as to reach the final judgment through multi-task learning. An extensive set of experiments with a large civil trial data set shows that the proposed model can more accurately characterize the interactions among claims, fact and debate for legal judgment prediction, achieving significant improvements over strong state-of-the-art baselines. Moreover, the user study conducted with real judges and law school students shows the neural predictions can also be interpretable and easily observed, and thus enhancing the trial efficiency and judgment quality.
翻訳日:2021-07-13 16:03:25 公開日:2021-07-12
# ヘイト対政治:イタリアのツイートで政策立案者に対するヘイト検出

Hate versus Politics: Detection of Hate against Policy makers in Italian tweets ( http://arxiv.org/abs/2107.05357v1 )

ライセンス: Link先を確認
Armend Duzha, Cristiano Casadei, Michael Tosi, Fabio Celli(参考訳) 政治家、政策立案、政治思想に対するヘイトスピーチの正確な検出は、民主主義と言論の自由を維持するために不可欠である。 残念ながら、ヘイトスピーチを検出するトレーニングモデルに必要なラベル付きデータ量は限られており、ドメインに依存しています。 本稿では,イタリアにおけるtwitterの政策立案者に対するヘイトスピーチの分類の問題に対処し,本言語におけるこのタイプのリソースを最初に生み出す。 我々は1264のツイートを収集し,アノテーション間の不一致事例を調査し,異なる特徴とアルゴリズムでドメイン内およびドメイン間ヘイトスピーチ分類を行った。 我々は、ROC AUC 0.83の性能を達成し、最も予測可能な属性を分析し、また、反政治家と反移民ドメインで異なる言語特徴を見出した。 最後に、ハッシュタグのネットワークを視覚化し、ヘイトフルやノーマルなツイートで使用されるトピックをキャプチャした。

Accurate detection of hate speech against politicians, policy making and political ideas is crucial to maintain democracy and free speech. Unfortunately, the amount of labelled data necessary for training models to detect hate speech are limited and domain-dependent. In this paper, we address the issue of classification of hate speech against policy makers from Twitter in Italian, producing the first resource of this type in this language. We collected and annotated 1264 tweets, examined the cases of disagreements between annotators, and performed in-domain and cross-domain hate speech classifications with different features and algorithms. We achieved a performance of ROC AUC 0.83 and analyzed the most predictive attributes, also finding the different language features in the anti-policymakers and anti-immigration domains. Finally, we visualized networks of hashtags to capture the topics used in hateful and normal tweets.
翻訳日:2021-07-13 16:03:00 公開日:2021-07-12
# 認知症をモデルとしたマルチエージェントシミュレーション環境SimDemとその支援

SimDem A Multi-agent Simulation Environment to Model Persons with Dementia and their Assistance ( http://arxiv.org/abs/2107.05346v1 )

ライセンス: Link先を確認
Muhammad Salman Shaukat, Bjarne Christian Hiller, Sebastian Bader, Thomas Kirste(参考訳) 認知症者を支援する人工知能ベースの補助システム(PwD)の開発には、大量のトレーニングデータが必要である。 しかし、データ収集は倫理的、法的、経済的、ロジスティックな問題を引き起こす。 この場合、合成データ生成ツールは潜在的な解決策を提供する。 しかし,このようなツールは行動シミュレーションの認知的欠陥を十分に反映していないと考えられる。 これらの問題に対処するために,PwD が抱える認知障害に着目したシミュレーションモデル (SimDem ) を提案する。

Developing artificial intelligence based assistive systems to aid Persons with Dementia (PwD) requires large amounts of training data. However, data collection poses ethical, legal, economic, and logistic issues. Synthetic data generation tools, in this regard, provide a potential solution. However, we believe that already available such tools do not adequately reflect cognitive deficiencies in behavior simulation. To counter these issues we propose a simulation model (SimDem ) that primarily focuses on cognitive impairments suffered by PwD and can be easily configured and adapted by the users to model and evaluate assistive solutions.
翻訳日:2021-07-13 16:02:13 公開日:2021-07-12
# 知識グラフを用いたゼロショット視覚質問応答

Zero-shot Visual Question Answering using Knowledge Graph ( http://arxiv.org/abs/2107.05348v1 )

ライセンス: Link先を確認
Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan and Huajun Chen(参考訳) VQA(Visual Question Answering)に外部知識を組み込むことは、重要な実践的ニーズとなっている。 既存の手法では、知識マッチングや抽出、機能学習など、さまざまなコンポーネントを持つパイプラインアプローチが採用されているが、そのようなパイプラインアプローチは、一部のコンポーネントが正常に動作しない場合に悩まされ、エラーの伝播と全体的なパフォーマンスの低下につながる。 さらに,既存のアプローチの多くは,回答バイアス問題を無視している。リアルワードアプリケーションでは,多くの回答がトレーニング中(すなわち,未認識の回答)に現れなかったかもしれない。これらのギャップを埋めるため,本稿では,知識グラフを用いたゼロショットvqaアルゴリズムと,外部知識をより取り入れるためのマスクベースの学習機構を提案し,f-vqaデータセットに新たな回答ベースゼロショットvqa分割を提案する。 実験の結果,Zero-shot VQAでは,従来のVQAタスクのエンド・ツー・エンド・エンド・モデルを大幅に拡張する一方,未確認の回答が得られている。

Incorporating external knowledge to Visual Question Answering (VQA) has become a vital practical need. Existing methods mostly adopt pipeline approaches with different components for knowledge matching and extraction, feature learning, etc.However, such pipeline approaches suffer when some component does not perform well, which leads to error propagation and poor overall performance. Furthermore, the majority of existing approaches ignore the answer bias issue -- many answers may have never appeared during training (i.e., unseen answers) in real-word application.To bridge these gaps, in this paper, we propose a Zero-shot VQA algorithm using knowledge graphs and a mask-based learning mechanism for better incorporating external knowledge, and present new answer-based Zero-shot VQA splits for the F-VQA dataset. Experiments show that our method can achieve state-of-the-art performance in Zero-shot VQA with unseen answers, meanwhile dramatically augment existing end-to-end models on the normal VQA task.
翻訳日:2021-07-13 16:02:04 公開日:2021-07-12
# 視覚対話における強化学習状態のモデル化

Modeling Explicit Concerning States for Reinforcement Learning in Visual Dialogue ( http://arxiv.org/abs/2107.05250v1 )

ライセンス: Link先を確認
Zipeng Xu, Fandong Meng, Xiaojie Wang, Duo Zheng, Chenxu Lv and Jie Zhou(参考訳) AIエージェントに意味のあるビジュアル対話(VD)の実行を促すために、強化学習の使用が実証された。 強化学習では、国家を代表し、国家の行動による移行に基づいて報酬を割り当てることが不可欠である。 しかし、以前のVisual Dialogueにおける状態表現はテキスト情報のみを使用し、その遷移は暗黙的である。 本稿では,各ラウンドにおける視覚内容と視覚対話を通しての関心事を表現するために,ECS(Explicit Concerning States)を提案する。 ECSはマルチモーダル情報からモデル化され、明示的に表現される。 ECSに基づいて2つの直感的かつ解釈可能な報酬を定式化し、視覚対話エージェントが多様かつ情報的な視覚情報について会話することを奨励する。 visdial v1.0データセットにおける実験結果から,複数自動計測,人間研究,質的分析により,視覚対話エージェントが従来手法に比べて視覚的にコヒーレント,反復的,視覚的にインフォメーション的な対話を生成できることが示された。

To encourage AI agents to conduct meaningful Visual Dialogue (VD), the use of Reinforcement Learning has been proven potential. In Reinforcement Learning, it is crucial to represent states and assign rewards based on the action-caused transitions of states. However, the state representation in previous Visual Dialogue works uses the textual information only and its transitions are implicit. In this paper, we propose Explicit Concerning States (ECS) to represent what visual contents are concerned at each round and what have been concerned throughout the Visual Dialogue. ECS is modeled from multimodal information and is represented explicitly. Based on ECS, we formulate two intuitive and interpretable rewards to encourage the Visual Dialogue agents to converse on diverse and informative visual information. Experimental results on the VisDial v1.0 dataset show our method enables the Visual Dialogue agents to generate more visual coherent, less repetitive and more visual informative dialogues compared with previous methods, according to multiple automatic metrics, human study and qualitative analysis.
翻訳日:2021-07-13 15:57:58 公開日:2021-07-12
# 地理知識によるリモートセンシング画像の表現学習

Geographical Knowledge-driven Representation Learning for Remote Sensing Images ( http://arxiv.org/abs/2107.05276v1 )

ライセンス: Link先を確認
Wenyuan Li, Keyan Chen, Hao Chen and Zhenwei Shi(参考訳) リモートセンシング衛星の拡散により、大量のリモートセンシング画像が得られた。 しかし、人的・物質的資源の制約のため、リモートセンシング画像の大部分はラベルが付かないままである。 その結果、現在利用可能なディープラーニング手法には適用できない。 残余の無ラベル画像を完全に活用するために,リモートセンシング画像(geokr)のための地理知識駆動表現学習手法を提案し,ネットワーク性能を改善し,注釈付きデータの需要を低減する。 各リモートセンシング画像に関連するグローバルな土地被覆製品と地理的位置を地理的知識とみなし、表現学習とネットワーク事前学習の監督を行う。 リモートセンシング画像と地理知識の分解能の違いによる監視ノイズを解消するために,効率的な事前学習フレームワークを提案する。 ネットワーク事前トレーニングをサポートするために,大規模事前トレーニングデータセット levir-kr を提案する。 様々な解像度のgaofenシリーズの衛星からの1,431,950枚のリモートセンシング画像を含んでいる。 実験の結果,提案手法はImageNetの事前学習や自己指導型表現学習よりも優れており,シーン分類やセマンティックセグメンテーション,オブジェクト検出,クラウド/雪検出といった下流タスクにおけるデータアノテーションの負担を大幅に低減することがわかった。 提案手法がニューラルネットワークの事前学習のための新しいパラダイムとして利用できることを示す。 コードはhttps://github.com/f lyakon/Geographical- Knowledge-driven-Rep resentaion-Learningで入手できる。

The proliferation of remote sensing satellites has resulted in a massive amount of remote sensing images. However, due to human and material resource constraints, the vast majority of remote sensing images remain unlabeled. As a result, it cannot be applied to currently available deep learning methods. To fully utilize the remaining unlabeled images, we propose a Geographical Knowledge-driven Representation learning method for remote sensing images (GeoKR), improving network performance and reduce the demand for annotated data. The global land cover products and geographical location associated with each remote sensing image are regarded as geographical knowledge to provide supervision for representation learning and network pre-training. An efficient pre-training framework is proposed to eliminate the supervision noises caused by imaging times and resolutions difference between remote sensing images and geographical knowledge. A large scale pre-training dataset Levir-KR is proposed to support network pre-training. It contains 1,431,950 remote sensing images from Gaofen series satellites with various resolutions. Experimental results demonstrate that our proposed method outperforms ImageNet pre-training and self-supervised representation learning methods and significantly reduces the burden of data annotation on downstream tasks such as scene classification, semantic segmentation, object detection, and cloud / snow detection. It demonstrates that our proposed method can be used as a novel paradigm for pre-training neural networks. Codes will be available on https://github.com/f lyakon/Geographical- Knowledge-driven-Rep resentaion-Learning.
翻訳日:2021-07-13 15:57:38 公開日:2021-07-12
# GiT: 車両再識別のためのグラフインタラクティブトランス

GiT: Graph Interactive Transformer for Vehicle Re-identification ( http://arxiv.org/abs/2107.05475v1 )

ライセンス: Link先を確認
Fei Shen, Yi Xie, Jianqing Zhu, Xiaobin Zhu, and Huanqiang Zeng(参考訳) トランスフォーマーは、イメージをパッチのシーケンスとして扱い、シーケンスから堅牢なグローバル機能を学ぶコンピュータビジョンにおいて、ますます人気がある。 しかし、適切な車両再識別方法は、ロバストなグローバル特徴と差別的なローカル特徴の両方を考慮するべきである。 本稿では,車両再識別のためのグラフインタラクティブトランス (GiT) を提案する。 全体として、複数のGiTブロックを積み重ねて競合車両再識別モデルを構築し、各GiTブロックは、パッチ内の識別的局所的特徴を抽出するために、新しいローカル相関グラフ(LCG)モジュールを使用して、パッチ間の堅牢なグローバルな特徴を抽出する。 詳細は、現在の GiT ブロックにおいて、LCG モジュールは、以前の GiT ブロックの LCG モジュールと変換器層から生じる局所的およびグローバル的特徴から局所的特徴を学習する。 同様に、トランス層は、前のGiTブロックのトランス層によって生成されたグローバル特徴と、現在のGiTブロックのLCGモジュールを介して出力される新しいローカル特徴からグローバル特徴を学習する。 したがって、lcgモジュールとトランスフォーマーレイヤは結合状態にあり、ローカル機能とグローバル機能の効果的な連携をもたらす。 グラフとトランスフォーマーを組み合わせて車両を再識別する作業は、これが初めてです。 3つの大規模車両再識別データセットに関する広範囲な実験により,本手法が最先端手法よりも優れていることが示された。 コードはもうすぐ入手できる。

Transformers are more and more popular in computer vision, which treat an image as a sequence of patches and learn robust global features from the sequence. However, a suitable vehicle re-identification method should consider both robust global features and discriminative local features. In this paper, we propose a graph interactive transformer (GiT) for vehicle re-identification. On the whole, we stack multiple GiT blocks to build a competitive vehicle re-identification model, in where each GiT block employs a novel local correlation graph (LCG) module to extract discriminative local features within patches and uses a transformer layer to extract robust global features among patches. In detail, in the current GiT block, the LCG module learns local features from local and global features resulting from the LCG module and transformer layer of the previous GiT block. Similarly, the transformer layer learns global features from the global features generated by the transformer layer of the previous GiT block and the new local features outputted via the LCG module of the current GiT block. Therefore, LCG modules and transformer layers are in a coupled status, bringing effective cooperation between local and global features. This is the first work to combine graphs and transformers for vehicle re-identification to the best of our knowledge. Extensive experiments on three large-scale vehicle re-identification datasets demonstrate that our method is superior to state-of-the-art approaches. The code will be available soon.
翻訳日:2021-07-13 15:57:16 公開日:2021-07-12
# anatomically-plausib le segmentationのための文脈対応仮想会話訓練

Context-aware virtual adversarial training for anatomically-plausib le segmentation ( http://arxiv.org/abs/2107.05532v1 )

ライセンス: Link先を確認
Ping Wang and Jizong Peng and Marco Pedersoli and Yuanfeng Zhou and Caiming Zhang and Christian Desrosiers(参考訳) その卓越した精度にもかかわらず、深層ニューラルネットワークに基づく半教師付きセグメンテーション法は、例えば、穴や切断された領域を含む臨床医によって解剖学的に不可能と考えられる予測を導出することができる。 この問題を解決するために、解剖学的に妥当なセグメンテーションを生成するためのコンテキスト対応仮想敵訓練法(CaVAT)を提案する。 精度のみに注目するアプローチとは異なり,本手法では,可微分損失関数では容易にモデル化できない接続性などの複雑な位相的制約も考慮している。 我々は,制約に違反する例を生成するために,新たな例に対する誤った予測をネットワークが回避し,非微分的セグメンテーション制約を処理するためにReinforceアルゴリズムを用いる。 提案手法は,任意のセグメンテーションネットワーク上に制約を付加する汎用的かつ効率的な方法を提供する。 2つの臨床関連データセットを用いた実験により,領域接続性の観点から正確かつ解剖学的に評価可能なセグメンテーションを生成する方法を示した。

Despite their outstanding accuracy, semi-supervised segmentation methods based on deep neural networks can still yield predictions that are considered anatomically impossible by clinicians, for instance, containing holes or disconnected regions. To solve this problem, we present a Context-aware Virtual Adversarial Training (CaVAT) method for generating anatomically plausible segmentation. Unlike approaches focusing solely on accuracy, our method also considers complex topological constraints like connectivity which cannot be easily modeled in a differentiable loss function. We use adversarial training to generate examples violating the constraints, so the network can learn to avoid making such incorrect predictions on new examples, and employ the Reinforce algorithm to handle non-differentiable segmentation constraints. The proposed method offers a generic and efficient way to add any constraint on top of any segmentation network. Experiments on two clinically-relevant datasets show our method to produce segmentations that are both accurate and anatomically-plausib le in terms of region connectivity.
翻訳日:2021-07-13 15:56:51 公開日:2021-07-12
# global relatedness decoupled-distillati onを用いたマイトショット学習

Few-shot Learning with Global Relatedness Decoupled-Distillati on ( http://arxiv.org/abs/2107.05583v1 )

ライセンス: Link先を確認
Yuan Zhou and Yanrong Guo and Shijie Hao and Richang Hong and Zhen junzha and Meng Wang(参考訳) 距離学習ベースのアプローチが数少ない学習で成功しているにもかかわらず、最近の研究はエピソディックトレーニングモードの非効率性を明らかにしている。 本稿では,1)ランダムなエピソードラベルは限られた監視情報しか提供できないが,クエリとサポートサンプルの関連情報は十分に活用されていないこと,2)メタラーナーは通常,ローカルエピソードの限られた文脈情報によって制約されていること,の2つを指摘する。 これらの問題を克服するために,グローバルなカテゴリ知識とRDD戦略を用いたGlobal Relatedness Decoupled-Distillati on(GRDD)手法を提案する。 我々のGRDDは人間の習慣を模倣することで、新しい視覚概念を素早く学習する。 先生から蒸留された深い知識から学ぶ。 より具体的には、まず、カテゴリのグローバルコンテキスト情報を活用するために、カテゴリラベルを使用して、ベースサブセット全体のグローバルラーナーを訓練する。 次に、訓練されたグローバルラーナーを用いて、グローバル依存関係におけるクエリサポート関連性をシミュレートする。 最後に, 蒸留したグローバルクエリサポート関連性を用いて, RDD戦略を用いてメタラーナーを訓練する。 RDD 戦略は,クエリサポートの密接な関連性を疎結合な関連性の群に分離することを目的としている。 また、各グループでは、単一のサポートサンプルと他のクエリサンプルの関係性のみが考慮される。 スパース分離関連群を群別蒸留することにより、より鋭い関連性をメタラーナーに効果的に蒸留し、識別メタラーナーの学習を容易にする。 GRDD法の最先端性能を示す miniImagenet と CIFAR-FS データセットについて広範な実験を行った。

Despite the success that metric learning based approaches have achieved in few-shot learning, recent works reveal the ineffectiveness of their episodic training mode. In this paper, we point out two potential reasons for this problem: 1) the random episodic labels can only provide limited supervision information, while the relatedness information between the query and support samples is not fully exploited; 2) the meta-learner is usually constrained by the limited contextual information of the local episode. To overcome these problems, we propose a new Global Relatedness Decoupled-Distillati on (GRDD) method using the global category knowledge and the Relatedness Decoupled-Distillati on (RDD) strategy. Our GRDD learns new visual concepts quickly by imitating the habit of humans, i.e. learning from the deep knowledge distilled from the teacher. More specifically, we first train a global learner on the entire base subset using category labels as supervision to leverage the global context information of the categories. Then, the well-trained global learner is used to simulate the query-support relatedness in global dependencies. Finally, the distilled global query-support relatedness is explicitly used to train the meta-learner using the RDD strategy, with the goal of making the meta-learner more discriminative. The RDD strategy aims to decouple the dense query-support relatedness into the groups of sparse decoupled relatedness. Moreover, only the relatedness of a single support sample with other query samples is considered in each group. By distilling the sparse decoupled relatedness group by group, sharper relatedness can be effectively distilled to the meta-learner, thereby facilitating the learning of a discriminative meta-learner. We conduct extensive experiments on the miniImagenet and CIFAR-FS datasets, which show the state-of-the-art performance of our GRDD method.
翻訳日:2021-07-13 15:56:34 公開日:2021-07-12
# エンド・ツー・エンドマルチモーダルビデオテンポラリグリング

End-to-end Multi-modal Video Temporal Grounding ( http://arxiv.org/abs/2107.05624v1 )

ライセンス: Link先を確認
Yi-Wen Chen, Yi-Hsuan Tsai, Ming-Hsuan Yang(参考訳) 自然言語記述に基づいて特定の事象の時間間隔を識別することを目的とした,テキスト誘導ビデオの時間的接地問題に対処する。 rgb画像のみを視覚的特徴として扱う既存の手法と異なり,ビデオから補完的情報を抽出するマルチモーダルフレームワークを提案する。 具体的には,外観にrgb画像,動画像に光学フロー,画像構造に深度マップを適用する。 rgb画像は特定のイベントの豊富な視覚的手がかりを提供するが、パフォーマンスは背景クラッタに影響される可能性がある。 そこで,我々は光学フローを用いて大きな動きと奥行きマップに着目し,その動作が物体の形状と関係している場合のシーン構成を推定する。 3つのモーダルをより効率的に統合し、モーダル間学習を可能にするために、モーダル間の相互作用をモデル化するトランスフォーマーを用いた動的融合スキームを設計する。 さらに,モダリティ毎にビデオ間の特徴表現を強化するために,モダリティ内自己教師付き学習を適用することにより,マルチモダリティ学習も容易になる。 本稿では,Charades-STAおよびActivityNet Captionsデータセットに関する広範な実験を行い,提案手法が最先端のアプローチに対して良好に動作することを示す。

We address the problem of text-guided video temporal grounding, which aims to identify the time interval of certain event based on a natural language description. Different from most existing methods that only consider RGB images as visual features, we propose a multi-modal framework to extract complementary information from videos. Specifically, we adopt RGB images for appearance, optical flow for motion, and depth maps for image structure. While RGB images provide abundant visual cues of certain event, the performance may be affected by background clutters. Therefore, we use optical flow to focus on large motion and depth maps to infer the scene configuration when the action is related to objects recognizable with their shapes. To integrate the three modalities more effectively and enable inter-modal learning, we design a dynamic fusion scheme with transformers to model the interactions between modalities. Furthermore, we apply intra-modal self-supervised learning to enhance feature representations across videos for each modality, which also facilitates multi-modal learning. We conduct extensive experiments on the Charades-STA and ActivityNet Captions datasets, and show that the proposed method performs favorably against state-of-the-art approaches.
翻訳日:2021-07-13 15:56:05 公開日:2021-07-12
# 単語をシステムの口に入れる : 単言語データ中毒によるニューラルマシン翻訳への標的攻撃

Putting words into the system's mouth: A targeted attack on neural machine translation using monolingual data poisoning ( http://arxiv.org/abs/2107.05243v1 )

ライセンス: Link先を確認
Jun Wang, Chang Xu, Francisco Guzman, Ahmed El-Kishky, Yuqing Tang, Benjamin I. P. Rubinstein, Trevor Cohn(参考訳) ニューラルマシン翻訳システムは、逆テスト入力に対して脆弱であることが知られているが、本論文で示すように、これらのシステムは、トレーニング攻撃にも脆弱である。 具体的には、悪意のある敵が、バックトランスレーションを用いて訓練されたシステムのトレーニングセットに、少量のモノリンガルテキストを挿入する中毒攻撃を提案する。 このサンプルは、誤った情報をペドリングするなど、特定の翻訳行動を引き起こすように設計されている。 有毒な例を作るための2つの方法を示し,わずか0.02%のトレーニングセットに留まらず,攻撃を成功させるのに十分であることを示す。 我々は、その攻撃に対する防御方法を概説し、問題の一部を改善した。 しかし、われわれはこれが現在のNMTの盲点であり、直ちに注意が必要であると強調する。

Neural machine translation systems are known to be vulnerable to adversarial test inputs, however, as we show in this paper, these systems are also vulnerable to training attacks. Specifically, we propose a poisoning attack in which a malicious adversary inserts a small poisoned sample of monolingual text into the training set of a system trained using back-translation. This sample is designed to induce a specific, targeted translation behaviour, such as peddling misinformation. We present two methods for crafting poisoned examples, and show that only a tiny handful of instances, amounting to only 0.02% of the training set, is sufficient to enact a successful attack. We outline a defence method against said attacks, which partly ameliorates the problem. However, we stress that this is a blind-spot in modern NMT, demanding immediate attention.
翻訳日:2021-07-13 15:55:43 公開日:2021-07-12
# MugRep: 不動産評価のためのマルチタスク階層型グラフ表現学習フレームワーク

MugRep: A Multi-Task Hierarchical Graph Representation Learning Framework for Real Estate Appraisal ( http://arxiv.org/abs/2107.05180v1 )

ライセンス: Link先を確認
Weijia Zhang, Hao Liu, Lijun Zha, Hengshu Zhu, Ji Liu, Dejing Dou, Hui Xiong(参考訳) 不動産評価とは、不動産市場における様々なプレイヤー(不動産業者、鑑定員、貸し手、買い手など)の意思決定において重要な役割を果たす不動産市場価値に対する偏見のない意見を生み出す過程を指す。 しかし,1) 不動産価値の複雑な影響要因,(2) 不動産取引における非同期的時空間依存性,(3) 住宅コミュニティ間の相互関係の多様化,の3つの大きな課題から,正確な不動産評価を行うには,非自明な作業である。 そこで本研究では,正確な不動産評価のためのマルチタスク階層グラフ表現学習(mugrep)フレームワークを提案する。 具体的には,多元都市データを取得し統合することにより,まず,複数の視点(地理的分布,人的移動分布,居住人口分布など)から不動産を総合的にプロファイルする機能セットを構築する。 そして、進化する不動産取引グラフとそれに対応するイベントグラフ畳み込みモジュールを提案し、不動産取引に非同期に時空間依存性を組み込む。 さらに, 住宅コミュニティの観点から貴重な知識を更に取り入れるために, 階層的な異質なコミュニティグラフ畳み込みモジュールを考案し, 住宅コミュニティ間の多様な相関関係を捉える。 最後に、都市地区分割マルチタスク学習モジュールを導入し、不動産に対する異なる分散価値評価を生成する。 2つの実世界のデータセットに関する広範な実験は、mugrepとそのコンポーネントと機能の有効性を示している。

Real estate appraisal refers to the process of developing an unbiased opinion for real property's market value, which plays a vital role in decision-making for various players in the marketplace (e.g., real estate agents, appraisers, lenders, and buyers). However, it is a nontrivial task for accurate real estate appraisal because of three major challenges: (1) The complicated influencing factors for property value; (2) The asynchronously spatiotemporal dependencies among real estate transactions; (3) The diversified correlations between residential communities. To this end, we propose a Multi-Task Hierarchical Graph Representation Learning (MugRep) framework for accurate real estate appraisal. Specifically, by acquiring and integrating multi-source urban data, we first construct a rich feature set to comprehensively profile the real estate from multiple perspectives (e.g., geographical distribution, human mobility distribution, and resident demographics distribution). Then, an evolving real estate transaction graph and a corresponding event graph convolution module are proposed to incorporate asynchronously spatiotemporal dependencies among real estate transactions. Moreover, to further incorporate valuable knowledge from the view of residential communities, we devise a hierarchical heterogeneous community graph convolution module to capture diversified correlations between residential communities. Finally, an urban district partitioned multi-task learning module is introduced to generate differently distributed value opinions for real estate. Extensive experiments on two real-world datasets demonstrate the effectiveness of MugRep and its components and features.
翻訳日:2021-07-13 15:52:37 公開日:2021-07-12
# 相関fmdpsと線形値関数における多項式時間強化学習

Polynomial Time Reinforcement Learning in Correlated FMDPs with Linear Value Functions ( http://arxiv.org/abs/2107.05187v1 )

ライセンス: Link先を確認
Siddartha Devic, Zihao Deng, Brendan Juba(参考訳) 多くの強化学習(RL)環境は、有限マルコフ決定過程(FMDP)によってモデル化される「リファクタリングされた」構造によってコンパクトに記述できる巨大な状態空間を特徴としている。 本稿では, 線形遷移モデルを必要とする代わりに, 因数分解に関して適切な局所基底を持つ線形値関数のみを必要とするFMDPを用いたRLの最初の多項式時間アルゴリズムを提案する。 この仮定により、凸最適化のための効率的な分離オラクルを構築することにより、FMDPを多項式時間で解くことができる。 重要なことは、以前の作業とは対照的に、さまざまな要因の遷移が独立しているとは考えません。

Many reinforcement learning (RL) environments in practice feature enormous state spaces that may be described compactly by a "factored" structure, that may be modeled by Factored Markov Decision Processes (FMDPs). We present the first polynomial-time algorithm for RL with FMDPs that does not rely on an oracle planner, and instead of requiring a linear transition model, only requires a linear value function with a suitable local basis with respect to the factorization. With this assumption, we can solve FMDPs in polynomial time by constructing an efficient separation oracle for convex optimization. Importantly, and in contrast to prior work, we do not assume that the transitions on various factors are independent.
翻訳日:2021-07-13 15:52:13 公開日:2021-07-12
# 深層学習を用いた多地点多国籍医療コホートにおける敗血症予測

Predicting sepsis in multi-site, multi-national intensive care cohorts using deep learning ( http://arxiv.org/abs/2107.05230v1 )

ライセンス: Link先を確認
Michael Moor, Nicolas Bennet, Drago Plecko, Max Horn, Bastian Rieck, Nicolai Meinshausen, Peter B\"uhlmann, Karsten Borgwardt(参考訳) 数十年にわたる臨床研究にもかかわらず、敗血症は高い死亡率と死傷率を持つ世界的な公衆衛生危機である。 現在、敗血症が検出され、病原体が同定されたとき、臓器損傷はすでに不可逆の段階まで進行していた可能性がある。 したがって、効果的な敗血症管理は時間に敏感である。 集中治療室(ICU)で利用可能な臨床データの多元的傾向を体系的に分析することにより、敗血症の早期予測は、早期の病原体同定、耐性試験、効果的な抗生物質および支持療法につながり、生命維持の指標となる。 そこで我々は、ICUにおける敗血症予測のための機械学習(ML)システムを開発し、検証した。 我々の分析はMLを用いた敗血症予測のための多国間多中心ICU研究としては最大である。 我々のデータセットには56,309ドルのユニークなICU入場料が含まれており、3つの国から派生した5つの大きなICUデータベースの洗練され調和したサブセットを表している。 Sepsis-3の国際的コンセンサス定義を用いて、時間ごとに解決されたセプシスのラベルアノテーションを導出した。 我々は,深層自己注意モデルであるアプローチを,MLベースラインだけでなくいくつかの臨床ベースラインと比較し,データベース内およびデータベース間の広範な内部および外部検証を行った。 平均して、我々のモデルは0.847 \pm 0.050$(内部的なサンプル検証)と0.761 \pm 0.052$(外部検証)で敗血症を予測することができた。 調和した17\%の精度で、80\%のリコールで、我々のモデルは、前もって39\%の精度3.7時間の敗血症患者を検出する。

Despite decades of clinical research, sepsis remains a global public health crisis with high mortality, and morbidity. Currently, when sepsis is detected and the underlying pathogen is identified, organ damage may have already progressed to irreversible stages. Effective sepsis management is therefore highly time-sensitive. By systematically analysing trends in the plethora of clinical data available in the intensive care unit (ICU), an early prediction of sepsis could lead to earlier pathogen identification, resistance testing, and effective antibiotic and supportive treatment, and thereby become a life-saving measure. Here, we developed and validated a machine learning (ML) system for the prediction of sepsis in the ICU. Our analysis represents the largest multi-national, multi-centre in-ICU study for sepsis prediction using ML to date. Our dataset contains $156,309$ unique ICU admissions, which represent a refined and harmonised subset of five large ICU databases originating from three countries. Using the international consensus definition Sepsis-3, we derived hourly-resolved sepsis label annotations, amounting to $26,734$ ($17.1\%$) septic stays. We compared our approach, a deep self-attention model, to several clinical baselines as well as ML baselines and performed an extensive internal and external validation within and across databases. On average, our model was able to predict sepsis with an AUROC of $0.847 \pm 0.050$ (internal out-of sample validation) and $0.761 \pm 0.052$ (external validation). For a harmonised prevalence of $17\%$, at $80\%$ recall our model detects septic patients with $39\%$ precision 3.7 hours in advance.
翻訳日:2021-07-13 15:52:02 公開日:2021-07-12
# スパースおよび階層拡張との相関の最大化による個人化フェデレーション学習

Personalized Federated Learning via Maximizing Correlation with Sparse and Hierarchical Extensions ( http://arxiv.org/abs/2107.05330v1 )

ライセンス: Link先を確認
YinchuanLi, XiaofengLiu, XuZhang, YunfengShao, QingWang and YanhuiGeng(参考訳) Federated Learning(FL)は、クライアントのプライベートデータを取得することなく、グローバルモデルをトレーニングするコラボレーション機械学習技術である。 flの主な課題は、クライアント間の統計的な多様性、クライアント機器間のコンピューティング能力の制限、サーバとクライアント間の通信オーバーヘッドと長時間のレイテンシである。 これらの問題に対処するために、相関pFedMacの最大化による新しい個人化フェデレーション学習を提案し、さらにスパースモデルと階層モデルに拡張する。 近似L1ノルムの性質と階層相関を含む損失関数を最小化することにより、統計的多様性データの性能を改善し、ネットワークに必要な通信負荷と計算負荷を低減する。 理論的には、pFedMacはL2-ノルム距離に基づくパーソナライズ法よりも優れている。 この疎階層的パーソナライズアーキテクチャの利点を,最先端のパーソナライズ手法とその拡張(例)と比較して実証した。 pFedMacは、MNISTで99.75%の精度、異種および非i.dデータ分布でシンセティックで87.27%の精度を達成する

Federated Learning (FL) is a collaborative machine learning technique to train a global model without obtaining clients' private data. The main challenges in FL are statistical diversity among clients, limited computing capability among client equipments and the excessive communication overhead and long latency between server and clients. To address these problems, we propose a novel personalized federated learning via maximizing correlation pFedMac), and further extend it to sparse and hierarchical models. By minimizing loss functions including the properties of an approximated L1-norm and the hierarchical correlation, the performance on statistical diversity data is improved and the communicational and computational loads required in the network are reduced. Theoretical proofs show that pFedMac performs better than the L2-norm distance based personalization methods. Experimentally, we demonstrate the benefits of this sparse hierarchical personalization architecture compared with the state-of-the-art personalization methods and their extensions (e.g. pFedMac achieves 99.75% accuracy on MNIST and 87.27% accuracy on Synthetic under heterogeneous and non-i.i.d data distributions)
翻訳日:2021-07-13 15:51:33 公開日:2021-07-12
# オフライン強化学習における重み空間の動作制約

Behavior Constraining in Weight Space for Offline Reinforcement Learning ( http://arxiv.org/abs/2107.05479v1 )

ライセンス: Link先を確認
Phillip Swazinna, Steffen Udluft, Daniel Hein, Thomas Runkler(参考訳) オフラインの強化学習では、1つのプレコンパイルデータセットからポリシーを学ぶ必要がある。 典型的には、ポリシーはトレーニング中にデータ生成ポリシーと同様に振る舞うように規則化され、生成ポリシーと訓練ポリシーの行動分布の相違に基づいてペナルティを課す。 本研究では,その代わりに,その重み空間内で直接ポリシーを制約する新しいアルゴリズムを提案し,その効果を実験で実証する。

In offline reinforcement learning, a policy needs to be learned from a single pre-collected dataset. Typically, policies are thus regularized during training to behave similarly to the data generating policy, by adding a penalty based on a divergence between action distributions of generating and trained policy. We propose a new algorithm, which constrains the policy directly in its weight space instead, and demonstrate its effectiveness in experiments.
翻訳日:2021-07-13 15:51:15 公開日:2021-07-12
# エネルギー効率が進化するロボットの形態と行動に及ぼす影響

Impact of Energy Efficiency on the Morphology and Behaviour of Evolved Robots ( http://arxiv.org/abs/2107.05249v1 )

ライセンス: Link先を確認
Margarita Rebolledo, Daan Zeeuwe, Thomas Bartz-Beielstein, A.E. Eiben(参考訳) ほとんどの進化ロボティクス研究は、エネルギー使用量を考慮することなく、対象とする行動の進化に焦点を当てている。 これは、エネルギー効率が現実の自律ロボットにとって重要な性質であるからである。 本稿では, シミュレーションをバッテリモデルで拡張し, エネルギー消費を考慮したフィットネス評価を行うことにより, この問題を緩和する。 本システムを用いて,ロボットの進化に及ぼすエネルギー意識の影響について検討する。 我々のシステムは、形態学とコントローラーを進化させることであるので、主な研究課題は2つある: (i) 進化したロボットの形態にどのような影響があるか、そして (ii) エネルギー消費がフィットネス評価に含まれる場合、進化したロボットの行動にどんな影響があるのか? その結果,多目的型(nsga-iiによる)フィットネスにおけるエネルギー消費量を含めると,ロボット体の平均サイズは減少し,同時に速度も低下することが示された。 しかし、サイズ削減なしで生成されたロボットは、ベースラインセットのロボットに匹敵する速度を達成することができる。

Most evolutionary robotics studies focus on evolving some targeted behavior without taking the energy usage into account. This limits the practical value of such systems because energy efficiency is an important property for real-world autonomous robots. In this paper, we mitigate this problem by extending our simulator with a battery model and taking energy consumption into account during fitness evaluations. Using this system we investigate how energy awareness affects the evolution of robots. Since our system is to evolve morphologies as well as controllers, the main research question is twofold: (i) what is the impact on the morphologies of the evolved robots, and (ii) what is the impact on the behavior of the evolved robots if energy consumption is included in the fitness evaluation? The results show that including the energy consumption in the fitness in a multi-objective fashion (by NSGA-II) reduces the average size of robot bodies while at the same time reducing their speed. However, robots generated without size reduction can achieve speeds comparable to robots from the baseline set.
翻訳日:2021-07-13 15:50:52 公開日:2021-07-12
# 短距離RTロボット経路計画のための後三角修正法

Post Triangular Rewiring Method for Shorter RRT Robot Path Planning ( http://arxiv.org/abs/2107.05344v1 )

ライセンス: Link先を確認
Jin-Gu Kang, Jin-Woo Jung(参考訳) 本稿では,計画時間の犠牲を最小化し,RRT(Rapidly-Explori ng Random Tree)アルゴリズムのようなサンプリングベースアルゴリズムの最適性の限界を克服する,"Post Triangular Rewiring"手法を提案する。 提案手法は、三角不等式原理を応用する前に、rrtアルゴリズムよりも最適経路に近い経路を生成する。 提案手法の有効性を検証するために実験を行った。 本論文で提案する手法をrrtアルゴリズムに適用すると,計画時間に比べて最適性効率が向上する。

This paper proposed the 'Post Triangular Rewiring' method that minimizes the sacrifice of planning time and overcomes the limit of Optimality of sampling-based algorithm such as Rapidly-exploring Random Tree (RRT) algorithm. The proposed 'Post Triangular Rewiring' method creates a closer to the optimal path than RRT algorithm before application through the triangular inequality principle. The experiments were conducted to verify a performance of the proposed method. When the method proposed in this paper are applied to the RRT algorithm, the Optimality efficiency increase compared to the planning time.
翻訳日:2021-07-13 15:50:34 公開日:2021-07-12
# オントロジーを媒介とするクエリの近似法

How to Approximate Ontology-Mediated Queries ( http://arxiv.org/abs/2107.05369v1 )

ライセンス: Link先を確認
Anneke Haga and Carsten Lutz and Leif Sabellek and Frank Wolter(参考訳) ALC と ALCI の記述論理に基づいて,オントロジーによるクエリに対する近似のいくつかの概念を紹介し,研究する。 近似式は,(1) オントロジーを ELI や特定の TGD などの抽出可能なオントロジー言語で定式化された1つに置き換える,(2) 木幅が定数で有界なデータベースのクラスのような抽出可能なクラスの1つに置き換える,の2種類からなる。 計算の複雑さと結果の近似の相対的完全性を決定する。 ほとんど)これらすべてが、conp完全からptimeへのデータの複雑さを削減します。 種数(1)の近似もまた複合複雑性を減少させるが、これは種数(2)の近似の場合ではない。 場合によっては、統合された複雑さはさらに増加する。

We introduce and study several notions of approximation for ontology-mediated queries based on the description logics ALC and ALCI. Our approximations are of two kinds: we may (1) replace the ontology with one formulated in a tractable ontology language such as ELI or certain TGDs and (2) replace the database with one from a tractable class such as the class of databases whose treewidth is bounded by a constant. We determine the computational complexity and the relative completeness of the resulting approximations. (Almost) all of them reduce the data complexity from coNP-complete to PTime, in some cases even to fixed-parameter tractable and to linear time. While approximations of kind (1) also reduce the combined complexity, this tends to not be the case for approximations of kind (2). In some cases, the combined complexity even increases.
翻訳日:2021-07-13 15:50:25 公開日:2021-07-12
# コミットメッセージ生成モデルの評価について:実験的検討

On the Evaluation of Commit Message Generation Models: An Experimental Study ( http://arxiv.org/abs/2107.05373v1 )

ライセンス: Link先を確認
Wei Tao, Yanlin Wang, Ensheng Shi, Lun Du, Hongyu Zhang, Dongmei Zhang, Wenqiang Zhang(参考訳) コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。 しかし、特にコードが頻繁に更新される場合、手動でコミットメッセージを書くのは時間がかかり、手間がかかる。 コミットメッセージを自動生成するために、生成または検索技術を利用した様々なアプローチが提案されている。 この問題に対する既存のアプローチの理解を深めるために,本稿では,最先端のモデルとデータセットの体系的かつ詳細な分析を行う。 1)既存の手法の評価と理解に影響を及ぼすBLEU計量の異なる変種が過去の研究で用いられている。 2) 既存のデータセットのほとんどはJavaリポジトリからのみクロールされるが、他のプログラミング言語のリポジトリは十分に調査されていない。 3) データセット分割戦略は,既存モデルの性能に大きなマージンを与えることができる。 データセットがコミットによって分割された場合のパフォーマンスが向上するモデルや、タイムスタンプやプロジェクトによってデータセットが分割された場合のパフォーマンスが向上するモデルもある。 本研究は,人間の評価を行い,その課題のスコアと最も相関するBLEU測定値を求める。 また、大規模で情報豊富なマルチ言語コミットメッセージデータセットmcmdを収集し、このデータセット上で既存のモデルを評価する。 さらに、異なるデータセット分割戦略の下で広範な実験を行い、異なるシナリオで適切なモデルを提案する。 実験結果と結果に基づいて,コミットメッセージ生成モデルを包括的に評価し,今後の研究方向性を議論するための提案を行う。 この作業は、実践者や研究者が自動コミットメッセージ生成のためのモデルを評価し、選択するのに役立ちます。

Commit messages are natural language descriptions of code changes, which are important for program understanding and maintenance. However, writing commit messages manually is time-consuming and laborious, especially when the code is updated frequently. Various approaches utilizing generation or retrieval techniques have been proposed to automatically generate commit messages. To achieve a better understanding of how the existing approaches perform in solving this problem, this paper conducts a systematic and in-depth analysis of the state-of-the-art models and datasets. We find that: (1) Different variants of the BLEU metric are used in previous works, which affects the evaluation and understanding of existing methods. (2) Most existing datasets are crawled only from Java repositories while repositories in other programming languages are not sufficiently explored. (3) Dataset splitting strategies can influence the performance of existing models by a large margin. Some models show better performance when the datasets are split by commit, while other models perform better when the datasets are split by timestamp or by project. Based on our findings, we conduct a human evaluation and find the BLEU metric that best correlates with the human scores for the task. We also collect a large-scale, information-rich, and multi-language commit message dataset MCMD and evaluate existing models on this dataset. Furthermore, we conduct extensive experiments under different dataset splitting strategies and suggest the suitable models under different scenarios. Based on the experimental results and findings, we provide feasible suggestions for comprehensively evaluating commit message generation models and discuss possible future research directions. We believe this work can help practitioners and researchers better evaluate and select models for automatic commit message generation.
翻訳日:2021-07-13 15:50:08 公開日:2021-07-12
# レコメンデーションのためのユーザ対応メモリネットワーク

Denoising User-aware Memory Network for Recommendation ( http://arxiv.org/abs/2107.05474v1 )

ライセンス: Link先を確認
Zhi Bian, Shaojun Zhou, Hao Fu, Qihong Yang, Zhenqi Sun, Junjie Tang, Guiquan Liu, Kaikui Liu, Xiaolong Li(参考訳) 近年,ユーザ満足度の向上とビジネス効率向上のために,ユーザの動的嗜好の進化を推し進めるシーケンスベースの推薦システムに注目が集まり,暗黙的かつ明示的なフィードバックシーケンスからユーザの嗜好の進化をよりよく理解できることに気付いた。 しかしながら、既存のレコメンデーション技術のほとんどは、暗黙的なフィードバックに含まれるノイズを考慮せず、ユーザの関心の偏りのある表現と、最適でないレコメンデーションパフォーマンスにつながる。 一方,既存の手法では,ユーザ興味の進化を捉えるためにアイテムシーケンスを利用する。 これらの手法の性能はシーケンスの長さによって制限され、長期間の長期的な関心を効果的にモデル化することはできない。 そこで本研究では,ユーザ認識メモリネットワーク(DUMN)と呼ばれる新しいCTRモデルを提案する。 Specifically, the framework: (i) proposes a feature purification module based on orthogonal mapping, which use the representation of explicit feedback to purify the representation of implicit feedback, and effectively denoise the implicit feedback; (ii) designs a user memory network to model the long-term interests in a fine-grained way by improving the memory network, which is ignored by the existing methods; and (iii) develops a preference-aware interactive representation component to fuse the long-term and short-term interests of users based on gating to understand the evolution of unbiased preferences of users. 2つの実際のEコマースユーザ行動データセットに関する大規模な実験は、DUMNが最先端のベースラインよりも大幅に改善されていることを示している。 DUMNモデルのコードは追加資料としてアップロードされている。

For better user satisfaction and business effectiveness, more and more attention has been paid to the sequence-based recommendation system, which is used to infer the evolution of users' dynamic preferences, and recent studies have noticed that the evolution of users' preferences can be better understood from the implicit and explicit feedback sequences. However, most of the existing recommendation techniques do not consider the noise contained in implicit feedback, which will lead to the biased representation of user interest and a suboptimal recommendation performance. Meanwhile, the existing methods utilize item sequence for capturing the evolution of user interest. The performance of these methods is limited by the length of the sequence, and can not effectively model the long-term interest in a long period of time. Based on this observation, we propose a novel CTR model named denoising user-aware memory network (DUMN). Specifically, the framework: (i) proposes a feature purification module based on orthogonal mapping, which use the representation of explicit feedback to purify the representation of implicit feedback, and effectively denoise the implicit feedback; (ii) designs a user memory network to model the long-term interests in a fine-grained way by improving the memory network, which is ignored by the existing methods; and (iii) develops a preference-aware interactive representation component to fuse the long-term and short-term interests of users based on gating to understand the evolution of unbiased preferences of users. Extensive experiments on two real e-commerce user behavior datasets show that DUMN has a significant improvement over the state-of-the-art baselines. The code of DUMN model has been uploaded as an additional material.
翻訳日:2021-07-13 15:49:44 公開日:2021-07-12
# 少量のデータを用いた深層モード変換モデルの訓練とMVCTからkVCT変換への応用

Training deep cross-modality conversion models with a small amount of data and its application to MVCT to kVCT conversion ( http://arxiv.org/abs/2107.05238v1 )

ライセンス: Link先を確認
Sho Ozaki, Shizuo Kaji, Kanabu Nawa, Toshikazu Imae, Atsushi Aoki, Takahiro Nakamoto, Takeshi Ohta, Yuki Nozawa, Hideomi Yamashita, Akihiro Haga, Keiichi Nakagawa(参考訳) ディープラーニングベースの画像処理は、その高性能のため近年、貴重なツールとして現れている。 しかし、ディープラーニングベースの手法の品質はトレーニングデータの量に大きく依存しており、大量のデータを取得するコストは医療分野においてしばしば禁じられている。 そこで本研究では,少数の教師なし画像のみを必要とする深層学習に基づくCTモダリティ変換を行った。 提案手法は,CT画像に適した複数の拡張を持つGAN(Generative Adversarial Network)に基づく。 この方法は、処理された画像中の構造の保存とトレーニングデータの量の削減を強調する。 メガ電圧ct (mvct) からキロ電圧ct (kvct) 画像への変換を実現するために, 本手法を適用した。 頭頸部癌患者から得られた複数のデータセットを用いて訓練を行った。 データセットのサイズは、16スライス(2人)から2745スライス(137人)、2824スライスのkvct(98人)であった。 処理したMVT画像の品質は大幅に向上し,画像の構造変化は最小限に抑えられた。 トレーニングデータのサイズが増加するにつれて、画像品質は数百スライスから十分な収束を示した。 統計学的および視覚的評価に加えて, コントーリングの正確性の観点から, 医師による臨床評価を行った。 深層学習に基づくMVCTからkVCTへの変換モデルを開発した。 データサイズの変化に対するモデルの安定性が実証された。 この研究は、一般的な質問に部分的に答えることで、臨床医学におけるディープラーニングの信頼性の高い利用を促進する。 どれくらいのデータを用意しなければならないか?

Deep-learning-based image processing has emerged as a valuable tool in recent years owing to its high performance. However, the quality of deep-learning-based methods relies heavily on the amount of training data, and the cost of acquiring a large amount of data is often prohibitive in medical fields. Therefore, we performed CT modality conversion based on deep learning requiring only a small number of unsupervised images. The proposed method is based on generative adversarial networks (GANs) with several extensions tailored for CT images. This method emphasizes the preservation of the structure in the processed images and reduction in the amount of training data. This method was applied to realize the conversion of mega-voltage computed tomography (MVCT) to kilo-voltage computed tomography (kVCT) images. Training was performed using several datasets acquired from patients with head and neck cancer. The size of the datasets ranged from 16 slices (for two patients) to 2745 slices (for 137 patients) of MVCT and 2824 slices of kVCT for 98 patients. The quality of the processed MVCT images was considerably enhanced, and the structural changes in the images were minimized. With an increase in the size of training data, the image quality exhibited a satisfactory convergence from a few hundred slices. In addition to statistical and visual evaluations, these results were clinically evaluated by medical doctors in terms of the accuracy of contouring. We developed an MVCT to kVCT conversion model based on deep learning, which can be trained using a few hundred unpaired images. The stability of the model against the change in the data size was demonstrated. This research promotes the reliable use of deep learning in clinical medicine by partially answering the commonly asked questions: "Is our data enough? How much data must we prepare?"
翻訳日:2021-07-13 15:46:54 公開日:2021-07-12
# TransAttUnet:医療画像分割用トランスフォーマ付きマルチレベル注意誘導U-Net

TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2107.05274v1 )

ライセンス: Link先を確認
Bingzhi Chen, Yishu Liu, Zheng Zhang, Guangming Lu, David Zhang(参考訳) ディープエンコーダデコーダアーキテクチャと大規模アノテートされた医療データセットの開発により、自動医用画像セグメンテーションの開発において大きな進歩を遂げた。 畳み込み層の積み重ねと連続的なサンプリング操作により、既存の標準モデルは必然的に機能表現の情報不況問題に遭遇する。 そこで本稿では,従来のu字型アーキテクチャの機能と柔軟性を効果的に高めるために,マルチレベルガイドアテンションとマルチスケールスキップ接続を共同で設計したtransattunetという,トランスフォーマティブな医用画像セマンティクスセグメンテーションフレームワークを提案する。 TransformerにインスパイアされたTransformerは、Transformer Self Attention(TSA)とGlobal Spatial Attention(GSA)の2つのモジュールをTransAttUnetに統合し、エンコーダの特徴間の非局所的な相互作用を効果的に学習する。 特に,デコーダブロック間のマルチスケールスキップ接続を新たに構築し,セマンティックスケールのアップサンプリング機能を集約する。 このようにして、マルチスケールコンテキスト情報の表現能力を強化し、識別的特徴を生成する。 これら相補的成分の恩恵を受けることにより,情報不況問題による詳細情報の損失を効果的に軽減し,医用画像解析の診断感度と分割品質を向上させることができる。 複数の医用画像セグメンテーションデータセットに対する広範囲な実験により,本手法が最先端のベースラインを一貫して上回っていることを証明した。

With the development of deep encoder-decoder architectures and large-scale annotated medical datasets, great progress has been achieved in the development of automatic medical image segmentation. Due to the stacking of convolution layers and the consecutive sampling operations, existing standard models inevitably encounter the information recession problem of feature representations, which fails to fully model the global contextual feature dependencies. To overcome the above challenges, this paper proposes a novel Transformer based medical image semantic segmentation framework called TransAttUnet, in which the multi-level guided attention and multi-scale skip connection are jointly designed to effectively enhance the functionality and flexibility of traditional U-shaped architecture. Inspired by Transformer, a novel self-aware attention (SAA) module with both Transformer Self Attention (TSA) and Global Spatial Attention (GSA) is incorporated into TransAttUnet to effectively learn the non-local interactions between encoder features. In particular, we also establish additional multi-scale skip connections between decoder blocks to aggregate the different semantic-scale upsampling features. In this way, the representation ability of multi-scale context information is strengthened to generate discriminative features. Benefitting from these complementary components, the proposed TransAttUnet can effectively alleviate the loss of fine details caused by the information recession problem, improving the diagnostic sensitivity and segmentation quality of medical image analysis. Extensive experiments on multiple medical image segmentation datasets of different imaging demonstrate that our method consistently outperforms the state-of-the-art baselines.
翻訳日:2021-07-13 15:46:30 公開日:2021-07-12
# ロボットグラフ検出とRGBのセマンティックセグメンテーションのためのエンドツーエンド学習型ディープニューラルネットワーク

End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation from RGB ( http://arxiv.org/abs/2107.05287v1 )

ライセンス: Link先を確認
Stefan Ainetter and Friedrich Fraundorfer(参考訳) 本稿では,並列平板グリッパーに適した把持検出のための高品質な結果とセマンティクスセグメンテーションを提供するための,新しいエンドツーエンドのトレーニング可能なcnnベースのアーキテクチャを提案する。 そこで本研究では,先行計算による把持検出と意味セグメンテーションを活用し,さらに把持検出精度を向上させるための改良モジュールを提案する。 提案するネットワークは,cornell と jacquard という2つの人気データセットに対して最先端の精度を提供する。 さらに、OCIDデータセットのための新しいデータセット拡張を提供し、難易度の高いシーンにおける把握検出を評価できるようにする。 このデータセットを用いて、意味セグメンテーションは、シーン内の特定のオブジェクトを選択するのに使用できるオブジェクトクラスに把持候補を割り当てるためにも使用できることを示す。

In this work, we introduce a novel, end-to-end trainable CNN-based architecture to deliver high quality results for grasp detection suitable for a parallel-plate gripper, and semantic segmentation. Utilizing this, we propose a novel refinement module that takes advantage of previously calculated grasp detection and semantic segmentation and further increases grasp detection accuracy. Our proposed network delivers state-of-the-art accuracy on two popular grasp dataset, namely Cornell and Jacquard. As additional contribution, we provide a novel dataset extension for the OCID dataset, making it possible to evaluate grasp detection in highly challenging scenes. Using this dataset, we show that semantic segmentation can additionally be used to assign grasp candidates to object classes, which can be used to pick specific objects in the scene.
翻訳日:2021-07-13 15:45:58 公開日:2021-07-12
# R3L:Recurrent Neural Networksとディープ強化学習を結びつけて残像回復による画像認識

R3L: Connecting Deep Reinforcement Learning to Recurrent Neural Networks for Image Denoising via Residual Recovery ( http://arxiv.org/abs/2107.05318v1 )

ライセンス: Link先を確認
Rongkai Zhang, Jiang Zhu, Zhiyuan Zha, Justin Dauwels and Bihan Wen(参考訳) state-of-the-art image denoisersは、決定論的トレーニングを通じて、さまざまなタイプのディープニューラルネットワークを利用する。 あるいは、非常に最近の作品では、様々な、または未知の汚職を伴う画像の復元に深い強化学習を利用している。 深層強化学習は、画像復元におけるオペレータ選択やアーキテクチャ探索のための効果的なポリシーネットワークを生成することができるが、逆問題解決における古典的決定論的トレーニングとどのように結びついているかは、まだ不明である。 本稿では,Reinforcement Learning(R3L)を用いたResidual Recoveryを用いた新しい画像認識手法を提案する。 我々は,R3Lが確率的報酬を用いてトレーニングされた深いリカレントニューラルネットワークと等価であることを示す。 R3Lにおける強化学習の有効性をベンチマークするために、決定論的損失を用いてリカレントニューラルネットワークを同じアーキテクチャでトレーニングし、2つの異なるトレーニング戦略が復調性能に与える影響を分析する。 このような統合ベンチマークシステムを用いて,提案するr3lは,推定ノイズレベルが変化するときの画像の一般化性とロバスト性が,決定論的トレーニングと様々な最先端画像のデノイジングアルゴリズムを用いて比較できることを示す。

State-of-the-art image denoisers exploit various types of deep neural networks via deterministic training. Alternatively, very recent works utilize deep reinforcement learning for restoring images with diverse or unknown corruptions. Though deep reinforcement learning can generate effective policy networks for operator selection or architecture search in image restoration, how it is connected to the classic deterministic training in solving inverse problems remains unclear. In this work, we propose a novel image denoising scheme via Residual Recovery using Reinforcement Learning, dubbed R3L. We show that R3L is equivalent to a deep recurrent neural network that is trained using a stochastic reward, in contrast to many popular denoisers using supervised learning with deterministic losses. To benchmark the effectiveness of reinforcement learning in R3L, we train a recurrent neural network with the same architecture for residual recovery using the deterministic loss, thus to analyze how the two different training strategies affect the denoising performance. With such a unified benchmarking system, we demonstrate that the proposed R3L has better generalizability and robustness in image denoising when the estimated noise level varies, comparing to its counterparts using deterministic training, as well as various state-of-the-art image denoising algorithms.
翻訳日:2021-07-13 15:45:43 公開日:2021-07-12
# 医用画像セグメンテーションにおけるハイパーパラメータ最適化のためのプロキシデータとプロキシネットワークのパワー

The Power of Proxy Data and Proxy Networks for Hyper-Parameter Optimization in Medical Image Segmentation ( http://arxiv.org/abs/2107.05471v1 )

ライセンス: Link先を確認
Vishwesh Nath, Dong Yang, Ali Hatamizadeh, Anas A. Abidin, Andriy Myronenko, Holger Roth, Daguang Xu(参考訳) 医用画像セグメンテーションのためのディープラーニングモデルは、主にデータ駆動である。 より多くのデータでトレーニングされたモデルは、パフォーマンスと一般化性を改善する。 しかし、トレーニングは計算コストの高いプロセスであり、最適なパフォーマンスのために最適な設定を見つけるために複数のハイパーパラメータをテストする必要がある。 本研究では,プロキシデータとプロキシネットワークという2つの手法を提案し,ハイパーパラメータの推定を高速化することに注力する。 どちらもハイパーパラメータをより効率的に推定するのに有用である。 提案手法はよく知られた公開データセットを用いてctとmr画像のモダリティを用いて検証する。 いずれの場合も、プロキシデータを構築するために1つのデータセットと、外部評価のために別のデータソースを使用する。 CTの場合、この手法は2つのデータセットで脾臓のセグメンテーションでテストされる。 最初のデータセットは、プロキシデータが構築され、二次データセットが外部バリデーションデータセットとして使用される医療セグメンテーションデカトロン(MSD)からである。 同様に、MRでは、第1のデータセットがMSD、第2のデータセットがPRSTATExである前立腺のセグメンテーションに基づいてアプローチを評価する。 まず、プロキシデータのランダム選択よりも小さなプロキシデータを使用して外部検証セットでテストする場合、トレーニングにフルデータを使用する場合の相関性が高いことを示す。 第2に、バリデーション・ダイススコアのフルネットワークと比較した場合、プロキシネットワークには高い相関があることを示す。 第3に,プロキシネットワークを利用するアプローチでは,プロキシデータとプロキシネットワークを併用すれば,ハイパーパラメータ検索のためのAutoMLフレームワークを3.3倍,4.4倍高速化できることを示す。

Deep learning models for medical image segmentation are primarily data-driven. Models trained with more data lead to improved performance and generalizability. However, training is a computationally expensive process because multiple hyper-parameters need to be tested to find the optimal setting for best performance. In this work, we focus on accelerating the estimation of hyper-parameters by proposing two novel methodologies: proxy data and proxy networks. Both can be useful for estimating hyper-parameters more efficiently. We test the proposed techniques on CT and MR imaging modalities using well-known public datasets. In both cases using one dataset for building proxy data and another data source for external evaluation. For CT, the approach is tested on spleen segmentation with two datasets. The first dataset is from the medical segmentation decathlon (MSD), where the proxy data is constructed, the secondary dataset is utilized as an external validation dataset. Similarly, for MR, the approach is evaluated on prostate segmentation where the first dataset is from MSD and the second dataset is PROSTATEx. First, we show higher correlation to using full data for training when testing on the external validation set using smaller proxy data than a random selection of the proxy data. Second, we show that a high correlation exists for proxy networks when compared with the full network on validation Dice score. Third, we show that the proposed approach of utilizing a proxy network can speed up an AutoML framework for hyper-parameter search by 3.3x, and by 4.4x if proxy data and proxy network are utilized together.
翻訳日:2021-07-13 15:45:20 公開日:2021-07-12
# MoDIR: 深部画像再構成のための運動補償訓練

MoDIR: Motion-Compensated Training for Deep Image Reconstruction without Ground Truth ( http://arxiv.org/abs/2107.05533v1 )

ライセンス: Link先を確認
Weijie Gan, Yu Sun, Cihat Eldeniz, Jiaming Liu, Hongyu An and Ulugbek S. Kamilov(参考訳) 医用画像再構成のためのディープニューラルネットワークは、伝統的に高品質な地中画像を用いて訓練される。 近年の onnoise2noise (n2n) は、基底的真理の代替として、同じ物体の複数のノイズ測定を用いる可能性を示した。 しかし、既存のN2Nベースの手法では、様々な動作状態からの情報を利用することができず、移動物体について学習する能力は制限される。 本稿では,複数の無登録・無音測定値からの情報をトレーニングに活用できる新しいモーション補償深部画像再構成法(modir)を提案する。 MoDIRはディープ・リコンストラクション・ネットワークと共同で訓練されたディープ・レジスター・モジュールをベース・トラストの監督なしに含めることで物体の動きを扱う。 シミュレーションと実験で収集したMRIデータを用いてMoDIRを検証し,画像品質を著しく向上させることを示した。

Deep neural networks for medical image reconstruction are traditionally trained using high-quality ground-truth images as training targets. Recent work onNoise2Noise (N2N) has shown the potential of using multiple noisy measurements of the same object as an alternative to having a ground truth. However, existing N2N-based methods cannot exploit information from various motion states, limiting their ability to learn on moving objects. This paper addresses this issue by proposing a novel motion-compensated deep image reconstruction (MoDIR) method that can use information from several unregistered and noisy measurements for training. MoDIR deals with object motion by including a deep registration module jointly trained with the deep reconstruction network without any ground-truth supervision. We validate MoDIR on both simulated and experimentally collected magnetic resonance imaging (MRI) data and show that it significantly improves imaging quality.
翻訳日:2021-07-13 15:44:53 公開日:2021-07-12
# ProGS: Property Graph Shapes Language (拡張バージョン)

ProGS: Property Graph Shapes Language (Extended Version) ( http://arxiv.org/abs/2107.05566v1 )

ライセンス: Link先を確認
Philipp Seifer, Ralf L\"ammel, Steffen Staab(参考訳) プロパティグラフは知識グラフを表現するデータモデルを構成する。 それらは、事実に関する事実を含む、事実の便利な表現を可能にし、被写体における三重項または他の三重項の対象位置によって表される。 Wikidataのような知識グラフは、様々なコントリビュータによって作成され、様々なソースが2種類のエラーを犯す傾向にある。 最初のタイプのエラーであるfalsity of factsは、プロヴァンスと妥当性の表現を通じてプロパティグラフによって対処され、メタデータトリプルの主題位置の1次オブジェクトとしてトリプルが発生する。 ドメイン制約に違反している第2のタイプのエラーは、プロパティグラフに関して対処されていない。 RDF表現では、このエラーはSHACLやShExのような形状言語で対処でき、一連のドメイン制約に対してグラフが有効かどうかを確認することができる。 SHACLの構文と意味論の定義からアイデアを借用し、プロパティグラフの形状言語であるProGSを設計し、ノードとエッジの両方に対して、アイデンティティを持つエッジやキー値アノテーションなどの特定の構造を含むプロパティグラフの形状制約を定式化する。 本稿では,ProGS の形式的意味論を定義し,ProGS 形状の集合に対するプロパティグラフの検証の複雑さを検証し,SHACL の対応する結果と比較し,応答集合プログラミングを利用するプロトタイプ検証器を実装した。

Property graphs constitute data models for representing knowledge graphs. They allow for the convenient representation of facts, including facts about facts, represented by triples in subject or object position of other triples. Knowledge graphs such as Wikidata are created by a diversity of contributors and a range of sources leaving them prone to two types of errors. The first type of error, falsity of facts, is addressed by property graphs through the representation of provenance and validity, making triples occur as first-order objects in subject position of metadata triples. The second type of error, violation of domain constraints, has not been addressed with regard to property graphs so far. In RDF representations, this error can be addressed by shape languages such as SHACL or ShEx, which allow for checking whether graphs are valid with respect to a set of domain constraints. Borrowing ideas from the syntax and semantics definitions of SHACL, we design a shape language for property graphs, ProGS, which allows for formulating shape constraints on property graphs including their specific constructs, such as edges with identities and key-value annotations to both nodes and edges. We define a formal semantics of ProGS, investigate the resulting complexity of validating property graphs against sets of ProGS shapes, compare with corresponding results for SHACL, and implement a prototypical validator that utilizes answer set programming.
翻訳日:2021-07-13 15:44:15 公開日:2021-07-12
# 量子機械学習モデルのフォック状態向上表現性

Fock State-enhanced Expressivity of Quantum Machine Learning Models ( http://arxiv.org/abs/2107.05224v1 )

ライセンス: Link先を確認
Beng Yee Gan, Daniel Leykam, and Dimitris G. Angelakis(参考訳) データ埋め込みプロセスは、量子機械学習のボトルネックのひとつであり、量子スピードアップを否定する可能性がある。 これを踏まえ、より効果的なデータエンコーディング戦略が必要である。 本研究では,従来のデータポイントを少ない符号化層で埋め込んで,データポイントを高次元のフォック空間にマッピングすることで非線形光学部品の必要性を回避するフォトニックベースのボソニックデータエンコーディング方式を提案する。 回路の表現力は入力光子数によって制御できる。 我々の研究は、量子フォトニクスが量子機械学習モデルの表現力に持つユニークな利点に光を当てた。 光子数依存表現力を活用することで、異なる教師付き分類タスクに適したリソースのスケールの異なる3つの異なる雑音の中間スケール量子互換バイナリ分類法を提案する。

The data-embedding process is one of the bottlenecks of quantum machine learning, potentially negating any quantum speedups. In light of this, more effective data-encoding strategies are necessary. We propose a photonic-based bosonic data-encoding scheme that embeds classical data points using fewer encoding layers and circumventing the need for nonlinear optical components by mapping the data points into the high-dimensional Fock space. The expressive power of the circuit can be controlled via the number of input photons. Our work shed some light on the unique advantages offers by quantum photonics on the expressive power of quantum machine learning models. By leveraging the photon-number dependent expressive power, we propose three different noisy intermediate-scale quantum-compatible binary classification methods with different scaling of required resources suitable for different supervised classification tasks.
翻訳日:2021-07-13 15:43:21 公開日:2021-07-12
# ベイズ最適化の最近の進歩と光学ナノメトリロジーにおけるパラメータ再構成への応用

Recent advances in Bayesian optimization with applications to parameter reconstruction in optical nano-metrology ( http://arxiv.org/abs/2107.05499v1 )

ライセンス: Link先を確認
Matthias Plock, Sven Burger, Philipp-Immanuel Schneider(参考訳) パラメータ再構成は光ナノ計測において一般的な問題である。 一般に、測定プロセスの数値モデルに適合させようとする一連の測定を含む。 モデル評価は通常、マクスウェルの方程式を解くことを含み、そのため時間を要する。 これにより、再構成は計算的に要求される。 モデルは測定に適合するいくつかの方法が存在する。 一方、高価なブラックボックス最適化のためのベイズ最適化手法は、偏差の2乗和の機械学習モデルを訓練することにより効率的な再構成を可能にする。 一方、levenberg-marquardt法のような曲線フィッティングアルゴリズムは、全てのモデル出力と対応する測定値との間の偏差を考慮に入れ、高速な局所収束を可能にする。 本稿では,この2つのアプローチを組み合わせたベイズ目標ベクトル最適化手法を提案する。 本稿では,従来のベイズ最適化手法とL-BFGS-BとNelder-Meadの単純なアルゴリズムとの比較を行った。 NIST標準基準データベース(NIST Standard Reference Database)から非線形の最小二乗問題(最小二乗問題)を用いる。 提案手法は一般に、類似の再構成性能を達成するために、競合するどのスキームよりもモデル関数の呼び出しが少なくなる。

Parameter reconstruction is a common problem in optical nano metrology. It generally involves a set of measurements, to which one attempts to fit a numerical model of the measurement process. The model evaluation typically involves to solve Maxwell's equations and is thus time consuming. This makes the reconstruction computationally demanding. Several methods exist for fitting the model to the measurements. On the one hand, Bayesian optimization methods for expensive black-box optimization enable an efficient reconstruction by training a machine learning model of the squared sum of deviations. On the other hand, curve fitting algorithms, such as the Levenberg-Marquardt method, take the deviations between all model outputs and corresponding measurement values into account which enables a fast local convergence. In this paper we present a Bayesian Target Vector Optimization scheme which combines these two approaches. We compare the performance of the presented method against a standard Levenberg-Marquardt- like algorithm, a conventional Bayesian optimization scheme, and the L-BFGS-B and Nelder-Mead simplex algorithms. As a stand-in for problems from nano metrology, we employ a non-linear least-square problem from the NIST Standard Reference Database. We find that the presented method generally uses fewer calls of the model function than any of the competing schemes to achieve similar reconstruction performance.
翻訳日:2021-07-13 15:43:09 公開日:2021-07-12
# 分散レコメンデーションのためのスライディングスペクトル分解

Sliding Spectrum Decomposition for Diversified Recommendation ( http://arxiv.org/abs/2107.05204v1 )

ライセンス: Link先を確認
Yanhua Huang, Weikun Wang, Lei Zhang, Ruiwen Xu(参考訳) content feedは、ユーザーが閲覧したりエンゲージしたりするための一連のアイテムを推薦するプロダクトだが、ソーシャルメディアプラットフォームで非常に人気を集めている。 本稿では,時系列分析手法を用いて,項目系列の観点から,このようなシナリオにおける多様性問題を検討する。 我々は,長い項目列を閲覧する際に,ユーザの多様性に対する認識を捉えるスライディングスペクトル分解法(SSD)を考案した。 また、長い尾効果下での正確な類似度測定に適したアイテム埋め込み手法の設計と実装の経験を共有した。 それらを組み合わせて、Xiaohongshu Appのプロダクションレコメンデーションシステムに実装され、毎日数千万人のユーザに対してメインのExplore Feed製品を提供する。 本手法は,理論解析,オフライン実験,オンラインa/bテストにより有効性と有効性を示す。

Content feed, a type of product that recommends a sequence of items for users to browse and engage with, has gained tremendous popularity among social media platforms. In this paper, we propose to study the diversity problem in such a scenario from an item sequence perspective using time series analysis techniques. We derive a method called sliding spectrum decomposition (SSD) that captures users' perception of diversity in browsing a long item sequence. We also share our experiences in designing and implementing a suitable item embedding method for accurate similarity measurement under long tail effect. Combined together, they are now fully implemented and deployed in Xiaohongshu App's production recommender system that serves the main Explore Feed product for tens of millions of users every day. We demonstrate the effectiveness and efficiency of the method through theoretical analysis, offline experiments and online A/B tests.
翻訳日:2021-07-13 15:40:09 公開日:2021-07-12
# 逐次推薦のための位置対応・時間対応グラフ畳み込みネットワーク

Position-enhanced and Time-aware Graph Convolutional Network for Sequential Recommendations ( http://arxiv.org/abs/2107.05235v1 )

ライセンス: Link先を確認
Liwei Huang, Yutao Ma, Yanbo Liu, Shuliang Wang, Deyi Li(参考訳) 既存のディープラーニングベースのシーケンシャルレコメンデーションアプローチのほとんどは、反復ニューラルネットワークアーキテクチャまたは自己アテンションを使用して、ユーザの履歴行動におけるシーケンシャルパターンと時間的影響をモデル化し、特定のタイミングでユーザの好みを学習する。 しかし、これらの手法には2つの主な欠点がある。 まず、ユーザ中心の視点からユーザーの動的状態をモデル化することに集中し、時間とともにアイテムのダイナミクスを常に無視する。 第2に,ユーザとアイテム間の高次接続を考慮せず,ユーザとイテムのインタラクションにのみ対応している場合が多いが,近年では,シーケンシャルなレコメンデーションに有効であることが証明されている。 上記の問題に対処するため、本稿では、二部グラフ構造を用いてユーザ-イテム相互作用をモデル化し、シーケンシャルレコメンデーションのための位置対応および時間対応グラフ畳み込みネットワーク(PTGCN)に基づく新しいレコメンデーションアプローチを提案する。 PTGCNは、位置対応と時間対応のグラフ畳み込み操作を定義し、自己注意アグリゲータを用いて、二部グラフ上のユーザとアイテムの動的表現を同時に学習することにより、ユーザとイテムの相互作用間のシーケンシャルなパターンと時間的ダイナミクスをモデル化する。 また,多層グラフ畳み込みを積み重ねることで,ユーザとアイテム間の高次接続を実現する。 PTGCNの有効性を実証するため,PTGCNの3つの実世界のデータセットに対する総合的な評価を行った。 実験の結果,PTGCNは2つの評価指標を用いて,最先端モデルよりも優れていた。

Most of the existing deep learning-based sequential recommendation approaches utilize the recurrent neural network architecture or self-attention to model the sequential patterns and temporal influence among a user's historical behavior and learn the user's preference at a specific time. However, these methods have two main drawbacks. First, they focus on modeling users' dynamic states from a user-centric perspective and always neglect the dynamics of items over time. Second, most of them deal with only the first-order user-item interactions and do not consider the high-order connectivity between users and items, which has recently been proved helpful for the sequential recommendation. To address the above problems, in this article, we attempt to model user-item interactions by a bipartite graph structure and propose a new recommendation approach based on a Position-enhanced and Time-aware Graph Convolutional Network (PTGCN) for the sequential recommendation. PTGCN models the sequential patterns and temporal dynamics between user-item interactions by defining a position-enhanced and time-aware graph convolution operation and learning the dynamic representations of users and items simultaneously on the bipartite graph with a self-attention aggregator. Also, it realizes the high-order connectivity between users and items by stacking multi-layer graph convolutions. To demonstrate the effectiveness of PTGCN, we carried out a comprehensive evaluation of PTGCN on three real-world datasets of different sizes compared with a few competitive baselines. Experimental results indicate that PTGCN outperforms several state-of-the-art models in terms of two commonly-used evaluation metrics for ranking.
翻訳日:2021-07-13 15:39:54 公開日:2021-07-12
# MidiBERT-Piano:シンボリック音楽理解のための大規模事前学習

MidiBERT-Piano: Large-scale Pre-training for Symbolic Music Understanding ( http://arxiv.org/abs/2107.05223v1 )

ライセンス: Link先を確認
Yi-Hui Chou, I-Chun Chen, Chin-Jui Chang, Joann Ching, and Yi-Hsuan Yang(参考訳) 本稿では、BERTのマスク言語モデリング手法を用いて、4,166個のポリフォニックピアノMIDIファイル上で12層トランスフォーマーモデルを事前訓練し、多くの記号領域識別音楽理解タスクに取り組む。 これには、2つの音階分類タスク、すなわちメロディ抽出と速度予測、および2つのシーケンスレベル分類タスク、すなわち作曲家分類と感情分類が含まれる。 トレーニング済みのTransformerを使えば、私たちのモデルは10エポック未満の微調整で、リカレントニューラルネットワークベースのベースラインを上回ります。 アブレーション研究では, 下流タスクのMIDIデータが事前学習段階で見られなくても, 事前学習が有効であり, 微調整段階でトランスフォーマーの自己保持層を凍結しても性能はわずかに低下することが示された。 この作業で使用されている5つのデータセットはすべて、トレーニング済みおよび微調整済みモデルのチェックポイントとして公開されています。 したがって,本研究は記号領域音楽理解のベンチマークとして捉えることができる。

This paper presents an attempt to employ the mask language modeling approach of BERT to pre-train a 12-layer Transformer model over 4,166 pieces of polyphonic piano MIDI files for tackling a number of symbolic-domain discriminative music understanding tasks. These include two note-level classification tasks, i.e., melody extraction and velocity prediction, as well as two sequence-level classification tasks, i.e., composer classification and emotion classification. We find that, given a pre-trained Transformer, our models outperform recurrent neural network based baselines with less than 10 epochs of fine-tuning. Ablation studies show that the pre-training remains effective even if none of the MIDI data of the downstream tasks are seen at the pre-training stage, and that freezing the self-attention layers of the Transformer at the fine-tuning stage slightly degrades performance. All the five datasets employed in this work are publicly available, as well as checkpoints of our pre-trained and fine-tuned models. As such, our research can be taken as a benchmark for symbolic-domain music understanding.
翻訳日:2021-07-13 15:38:24 公開日:2021-07-12
# ROBIN:ロバストな光バイナリニューラルネットワーク加速器

ROBIN: A Robust Optical Binary Neural Network Accelerator ( http://arxiv.org/abs/2107.05530v1 )

ライセンス: Link先を確認
Febin P. Sunny, Asif Mirza, Mahdi Nikdast, Sudeep Pasricha(参考訳) ドメイン固有のニューラルネットワークアクセラレータは、CPUやGPUと比較してエネルギー効率と推論性能が改善されたため、注目を集めている。 このような加速器はリソース制約のある組み込みシステムに適している。 しかし、これらの加速器に洗練されたニューラルネットワークモデルをマッピングすることは、高い推論時間オーバーヘッドとともに、膨大なエネルギーとメモリ消費を必要とする。 シングルビット重みを使用するbinarized neural networks(bnns)は、ニューラルネットワークモデルをアクセラレーターに実装し、デプロイする効率的な方法である。 本稿では,不均質マイクロリング共振器光デバイスと相補的機能とをインテリジェントに統合し,BNNの重要な機能を効率的に実装する,新しい光ドメインBNNアクセラレータROBINを提案する。 我々は、光学デバイスレベルでの詳細な製造プロセス変動解析を行い、これらのデバイスの効率的な補正チューニングを探索し、サーキットレベルの最適化を統合して熱変動対策を行う。 その結果,提案するRBBINアーキテクチャは,BNNモデルの実行時に,ロバスト,エネルギー効率,低レイテンシ,高スループットという望ましい特性を有することがわかった。 我々の分析によると、RBBINは最もよく知られている光BNN加速器や多くの電子加速器よりも優れている。 特に、我々のエネルギー効率の高いロビン設計は、電子bnn加速器より約4倍、最近提案されたフォトニックbnn加速器より約933倍、電子およびフォトニックbnn加速器よりも約3倍、25倍のエネルギー効率を示す。

Domain specific neural network accelerators have garnered attention because of their improved energy efficiency and inference performance compared to CPUs and GPUs. Such accelerators are thus well suited for resource-constrained embedded systems. However, mapping sophisticated neural network models on these accelerators still entails significant energy and memory consumption, along with high inference time overhead. Binarized neural networks (BNNs), which utilize single-bit weights, represent an efficient way to implement and deploy neural network models on accelerators. In this paper, we present a novel optical-domain BNN accelerator, named ROBIN, which intelligently integrates heterogeneous microring resonator optical devices with complementary capabilities to efficiently implement the key functionalities in BNNs. We perform detailed fabrication-process variation analyses at the optical device level, explore efficient corrective tuning for these devices, and integrate circuit-level optimization to counter thermal variations. As a result, our proposed ROBIN architecture possesses the desirable traits of being robust, energy-efficient, low latency, and high throughput, when executing BNN models. Our analysis shows that ROBIN can outperform the best-known optical BNN accelerators and also many electronic accelerators. Specifically, our energy-efficient ROBIN design exhibits energy-per-bit values that are ~4x lower than electronic BNN accelerators and ~933x lower than a recently proposed photonic BNN accelerator, while a performance-efficien t ROBIN design shows ~3x and ~25x better performance than electronic and photonic BNN accelerators, respectively.
翻訳日:2021-07-13 15:38:03 公開日:2021-07-12
# LATTE: 組込み自動車プラットフォームにおけるLSTM自己注意に基づく異常検出

LATTE: LSTM Self-Attention based Anomaly Detection in Embedded Automotive Platforms ( http://arxiv.org/abs/2107.05561v1 )

ライセンス: Link先を確認
Vipin K. Kukkala, Sooryaa V. Thiruloga, Sudeep Pasricha(参考訳) 現代の車両は、リアルタイム制約のある様々な自動車アプリケーションを実行する複雑な分散組み込みシステムと考えることができる。 近年の自動車産業の自律性向上に向けた進歩により、自動車は様々な外部システム(例えば道路脇のビーコンなど)とますます結びつくようになり、新興車のサイバー攻撃に対する脆弱化が図られている。 さらに、自動車アプリケーションと車載ネットワークの複雑さが増すと、攻撃の可視性が低下し、特に自動車システムにおける攻撃の検出が困難になる。 本研究では,自動車プラットフォーム内のコントローラエリアネットワーク(CAN)におけるサイバー攻撃を検出するための,LATTEと呼ばれる新しい異常検出フレームワークを提案する。 提案するLATTEフレームワークは,設計時の通常の動作を学習するために,新しいアテンション機構を備えたLong Short Term Memory(LSTM)予測ネットワークを使用する。 その後、様々なサイバー攻撃(異常として)を実行時に検出するために、新しい検出スキーム(設計時にも訓練)が使用される。 提案するLATTEフレームワークを,異なる自動車攻撃シナリオ下で評価し,この分野でよく知られた先行研究との比較を行い,その可能性を実証した。

Modern vehicles can be thought of as complex distributed embedded systems that run a variety of automotive applications with real-time constraints. Recent advances in the automotive industry towards greater autonomy are driving vehicles to be increasingly connected with various external systems (e.g., roadside beacons, other vehicles), which makes emerging vehicles highly vulnerable to cyber-attacks. Additionally, the increased complexity of automotive applications and the in-vehicle networks results in poor attack visibility, which makes detecting such attacks particularly challenging in automotive systems. In this work, we present a novel anomaly detection framework called LATTE to detect cyber-attacks in Controller Area Network (CAN) based networks within automotive platforms. Our proposed LATTE framework uses a stacked Long Short Term Memory (LSTM) predictor network with novel attention mechanisms to learn the normal operating behavior at design time. Subsequently, a novel detection scheme (also trained at design time) is used to detect various cyber-attacks (as anomalies) at runtime. We evaluate our proposed LATTE framework under different automotive attack scenarios and present a detailed comparison with the best-known prior works in this area, to demonstrate the potential of our approach.
翻訳日:2021-07-13 15:37:35 公開日:2021-07-12
# (参考訳) ポイントワイズ解析における最遠点サンプリング [全文訳有]

Beyond Farthest Point Sampling in Point-Wise Analysis ( http://arxiv.org/abs/2107.04291v2 )

ライセンス: CC BY 4.0
Yiqun Lin, Lichang Chen, Haibin Huang, Chongyang Ma, Xiaoguang Han and Shuguang Cui(参考訳) サンプリング、グルーピング、アグリゲーションはポイントクラウドのマルチスケール分析において3つの重要なコンポーネントである。 本稿では,ポイントワイズ分析タスクのための新しいデータ駆動型サンプル学習戦略を提案する。 広く使われているサンプリング手法であるfarthest point sampling (fps) とは異なり,サンプリングと下流アプリケーションを同時に学習することを提案する。 我々の重要な洞察は、FPSのような一様サンプリング手法が必ずしも異なるタスクに対して最適であるとは限らないことである。 最後に,タスク関連真実情報によって教師されるサンプリング点変位を学習し,その基礎となる課題と協調して学習できる新しいサンプル学習手法を提案する。 さらに,本手法を意味的部分分割,ポイントクラウド補完,キーポイント検出など,様々な点解析アーキテクチャで実証する。 実験の結果, 従来のベースライン法に比べて, サンプルとタスクの同時学習が著しく改善した。

Sampling, grouping, and aggregation are three important components in the multi-scale analysis of point clouds. In this paper, we present a novel data-driven sampler learning strategy for point-wise analysis tasks. Unlike the widely used sampling technique, Farthest Point Sampling (FPS), we propose to learn sampling and downstream applications jointly. Our key insight is that uniform sampling methods like FPS are not always optimal for different tasks: sampling more points around boundary areas can make the point-wise classification easier for segmentation. Towards the end, we propose a novel sampler learning strategy that learns sampling point displacement supervised by task-related ground truth information and can be trained jointly with the underlying tasks. We further demonstrate our methods in various point-wise analysis architectures, including semantic part segmentation, point cloud completion, and keypoint detection. Our experiments show that jointly learning of the sampler and task brings remarkable improvement over previous baseline methods.
翻訳日:2021-07-13 12:17:21 公開日:2021-07-12
# (参考訳) Mutually-Aware Sub-Graphs Differentiable Architecture Search [全文訳有]

Mutually-aware Sub-Graphs Differentiable Architecture Search ( http://arxiv.org/abs/2107.04324v2 )

ライセンス: CC BY 4.0
Haoxian Tan, Sheng Guo, Yujie Zhong, Weilin Huang(参考訳) 差別化可能なアーキテクチャ検索は、そのシンプルさと効率性のため、nasの分野では、マルチパスアルゴリズムとシングルパスメソッドの2つのパラダイムが支配されている。 マルチパスフレームワーク(例) DARTS)は直感的だが、メモリ使用量とトレーニングの崩壊に悩まされている。 シングルパス法(GDASやProxylessNASなど)はメモリ問題を緩和し、検索と評価のギャップを縮めるが性能を犠牲にする。 本稿では,これら2つのパラダイムを相互に認識するサブグラフ微分可能アーキテクチャ探索 (msg-das) と呼ぶ,概念的に単純かつ効率的な橋渡し手法を提案する。 フレームワークのコアはGumbel-TopKサンプルであり、複数の相互排他的なシングルパスサブグラフを生成する。 複数のサブグラフ設定によるスキップ接続の問題を軽減するため,最適化を安定化するためのDropblock-Identityモジュールを提案する。 利用可能なモデル(スーパーネットとサブグラフ)を最大限に活用するために、トレーニングを改善するためのメモリ効率の高いスーパーネット誘導蒸留を導入する。 提案するフレームワークは、フレキシブルメモリ使用量と検索品質のバランスをとる。 本研究では,imagenet と cifar10 における提案手法の有効性を実証する。

Differentiable architecture search is prevalent in the field of NAS because of its simplicity and efficiency, where two paradigms, multi-path algorithms and single-path methods, are dominated. Multi-path framework (e.g. DARTS) is intuitive but suffers from memory usage and training collapse. Single-path methods (e.g.GDAS and ProxylessNAS) mitigate the memory issue and shrink the gap between searching and evaluation but sacrifice the performance. In this paper, we propose a conceptually simple yet efficient method to bridge these two paradigms, referred as Mutually-aware Sub-Graphs Differentiable Architecture Search (MSG-DAS). The core of our framework is a differentiable Gumbel-TopK sampler that produces multiple mutually exclusive single-path sub-graphs. To alleviate the severer skip-connect issue brought by multiple sub-graphs setting, we propose a Dropblock-Identity module to stabilize the optimization. To make best use of the available models (super-net and sub-graphs), we introduce a memory-efficient super-net guidance distillation to improve training. The proposed framework strikes a balance between flexible memory usage and searching quality. We demonstrate the effectiveness of our methods on ImageNet and CIFAR10, where the searched models show a comparable performance as the most recent approaches.
翻訳日:2021-07-13 11:57:05 公開日:2021-07-12
# 深部畳み込みニューラルネットワーク圧縮のための結合行列分解

Joint Matrix Decomposition for Deep Convolutional Neural Networks Compression ( http://arxiv.org/abs/2107.04386v2 )

ライセンス: Link先を確認
Shaowu Chen, Jiahao Zhou, Weize Sun, Lei Huang(参考訳) 多数のパラメータを持つディープ畳み込みニューラルネットワーク(CNN)は膨大な計算資源を必要とし、リソース制約されたアプライアンスへのCNNの適用を制限する。 そのため,近年,分解に基づく手法がcnnの圧縮に利用されている。 しかし、圧縮係数と性能は負の相関関係にあるため、最先端の作業は厳しい性能劣化に悩まされるか、圧縮係数が限られている。 これらの課題を克服するため,CNNを圧縮し,結合行列分解による性能劣化を軽減することを提案する。 このアイデアは、CNNには多くの繰り返しモジュールがあり、同じ構造を持つ重みを同じ部分空間に投影することで、ネットワークをさらに圧縮し、加速することができるという事実にインスパイアされている。 特に, 3つの合同行列分解スキームを開発し, 特異値分解に基づく最適化手法を提案する。 3つの挑戦的なコンパクトcnnと3つのベンチマークデータセットで広範な実験を行い、提案アルゴリズムの優れた性能を実証した。 その結果,本手法はresnet-34のサイズを22倍圧縮し,精度を低下させることができた。

Deep convolutional neural networks (CNNs) with a large number of parameters requires huge computational resources, which has limited the application of CNNs on resources constrained appliances. Decomposition-based methods, therefore, have been utilized to compress CNNs in recent years. However, since the compression factor and performance are negatively correlated, the state-of-the-art works either suffer from severe performance degradation or have limited low compression factors. To overcome these problems, unlike previous works compressing layers separately, we propose to compress CNNs and alleviate performance degradation via joint matrix decomposition. The idea is inspired by the fact that there are lots of repeated modules in CNNs, and by projecting weights with the same structures into the same subspace, networks can be further compressed and even accelerated. In particular, three joint matrix decomposition schemes are developed, and the corresponding optimization approaches based on Singular Values Decomposition are proposed. Extensive experiments are conducted across three challenging compact CNNs and 3 benchmark data sets to demonstrate the superior performance of our proposed algorithms. As a result, our methods can compress the size of ResNet-34 by 22x with slighter accuracy degradation compared with several state-of-the-art methods.
翻訳日:2021-07-13 11:42:00 公開日:2021-07-12
# マルチタスクマルチデータベース感情認識

Multitask Multi-database Emotion Recognition ( http://arxiv.org/abs/2107.04127v2 )

ライセンス: Link先を確認
Manh Tu Vu, Marie Beurton-Aimar(参考訳) 本稿では,第2回ABAW(Affective Behavior Analysis in-the-Wild)2021コンペティションについて紹介する。 我々は,複数のデータベース上で統合されたディープラーニングモデルを訓練し,7つの基本表情予測とvalence-arousal推定の2つのタスクを実行する。 これらのデータベースは2つのタスクのラベルを含まないため、蒸留知識技術を用いて2つのネットワーク(教師1名と学生1名)を訓練した。 学生モデルは、事前訓練された教師モデルから派生した基底真理ラベルとソフトラベルの両方を使用して訓練される。 トレーニング中にもう1つのタスクを追加します。これは2つのタスクの組み合わせで、タスク間の相関をよりうまく活用します。 また、競争で使用されるAffWild2データベースの2つのタスク間のビデオ共有を利用して、ネットワークの性能をさらに向上する。 実験の結果,ネットワークはAffWild2データベースの検証セットにおいて有望な結果を得た。 コードと事前トレーニングされたモデルはhttps://github.com/g lmanhtu/multitask-ab aw-2021で公開されている。

In this work, we introduce our submission to the 2nd Affective Behavior Analysis in-the-wild (ABAW) 2021 competition. We train a unified deep learning model on multi-databases to perform two tasks: seven basic facial expressions prediction and valence-arousal estimation. Since these databases do not contains labels for all the two tasks, we have applied the distillation knowledge technique to train two networks: one teacher and one student model. The student model will be trained using both ground truth labels and soft labels derived from the pretrained teacher model. During the training, we add one more task, which is the combination of the two mentioned tasks, for better exploiting inter-task correlations. We also exploit the sharing videos between the two tasks of the AffWild2 database that is used in the competition, to further improve the performance of the network. Experiment results shows that the network have achieved promising results on the validation set of the AffWild2 database. Code and pretrained model are publicly available at https://github.com/g lmanhtu/multitask-ab aw-2021
翻訳日:2021-07-13 11:41:42 公開日:2021-07-12
# MRIと超音波ボリューム登録のためのクロスモーダルアテンション

Cross-modal Attention for MRI and Ultrasound Volume Registration ( http://arxiv.org/abs/2107.04548v2 )

ライセンス: Link先を確認
Xinrui Song, Hengtao Guo, Xuanang Xu, Hanqing Chao, Sheng Xu, Baris Turkbey, Bradford J. Wood, Ge Wang, Pingkun Yan(参考訳) 前立腺癌生検は経直腸超音波(TRUS)とMR画像の正確な融合の恩恵を受ける。 過去数年間、畳み込みニューラルネットワーク(cnns)は、画像登録に不可欠な画像特徴を抽出する上で強力であることが証明されてきた。 しかし、挑戦的な応用やコンピュータビジョンの最近の進歩は、cnnが特徴間の空間的対応を理解する能力にかなり制限があることを示唆している。 本稿では,モーダル画像登録のための自己認識機構を開発することを目的とする。 提案するクロスモーダルアテンションブロックは,各特徴量と対応する特徴量とを効果的にマッピングする。 実験の結果,クロスモーダルアテンションブロックを組み込んだCNNネットワークが,CNNネットワークの10倍の性能を発揮することがわかった。 ネットワークの解釈性を改善するために可視化技術も取り入れた。 私たちの作業のソースコードはhttps://github.com/D IAL-RPI/Attention-Re g で公開されています。

Prostate cancer biopsy benefits from accurate fusion of transrectal ultrasound (TRUS) and magnetic resonance (MR) images. In the past few years, convolutional neural networks (CNNs) have been proved powerful in extracting image features crucial for image registration. However, challenging applications and recent advances in computer vision suggest that CNNs are quite limited in its ability to understand spatial correspondence between features, a task in which the self-attention mechanism excels. This paper aims to develop a self-attention mechanism specifically for cross-modal image registration. Our proposed cross-modal attention block effectively maps each of the features in one volume to all features in the corresponding volume. Our experimental results demonstrate that a CNN network designed with the cross-modal attention block embedded outperforms an advanced CNN network 10 times of its size. We also incorporated visualization techniques to improve the interpretability of our network. The source code of our work is available at https://github.com/D IAL-RPI/Attention-Re g .
翻訳日:2021-07-13 11:41:24 公開日:2021-07-12
# ベイズ非パラメトリックにおけるスティック焼成前の感度評価

Evaluating Sensitivity to the Stick-Breaking Prior in Bayesian Nonparametrics ( http://arxiv.org/abs/2107.03584v2 )

ライセンス: Link先を確認
Ryan Giordano, Runjing Liu, Michael I. Jordan, Tamara Broderick(参考訳) クラスタリング、トピックモデリング、その他の教師なし学習タスクのコア要素として、ディリクレプロセスやその他の突破前処理に基づくベイズモデルが提案されている。 しかし、それらの柔軟性は、事前選択の結果がしばしば比較的不透明であることを意味するため、事前の仕様はそのようなモデルにとって比較的困難である。 さらに、これらの選択は後部推論に大きな影響を及ぼす可能性がある。 したがって、ロバスト性についての考察は非パラメトリックなモデリングと相まって行う必要がある。 本稿では,複雑な非パラメトリックモデルに適合する計算上の利点に加えて,ベイズモデルのパラメトリックおよび非パラメトリックな側面に対する感性も与える,変分ベイズ法を活用して,この問題に取り組む。 特に,ディリクレ過程の混合モデルとそれに関連する混合モデルによる推論に対する,濃度パラメータの選択とスティック破断分布に対する結論の感度を評価する方法を示す。 ベイズ感度分析に対する変動的アプローチの理論的および経験的支援を提供する。

Bayesian models based on the Dirichlet process and other stick-breaking priors have been proposed as core ingredients for clustering, topic modeling, and other unsupervised learning tasks. Prior specification is, however, relatively difficult for such models, given that their flexibility implies that the consequences of prior choices are often relatively opaque. Moreover, these choices can have a substantial effect on posterior inferences. Thus, considerations of robustness need to go hand in hand with nonparametric modeling. In the current paper, we tackle this challenge by exploiting the fact that variational Bayesian methods, in addition to having computational advantages in fitting complex nonparametric models, also yield sensitivities with respect to parametric and nonparametric aspects of Bayesian models. In particular, we demonstrate how to assess the sensitivity of conclusions to the choice of concentration parameter and stick-breaking distribution for inferences under Dirichlet process mixtures and related mixture models. We provide both theoretical and empirical support for our variational approach to Bayesian sensitivity analysis.
翻訳日:2021-07-13 11:41:11 公開日:2021-07-12
# 発話識別のための機械学習:レビュー,挑戦,今後の方向性

Machine Learning for Stuttering Identification: Review, Challenges & Future Directions ( http://arxiv.org/abs/2107.04057v2 )

ライセンス: Link先を確認
Shakeel Ahmad Sheikh and Md Sahidullah and Fabrice Hirsch and Slim Ouni(参考訳) シュターリング(stuttering)は、不随意の停止と音の反復によって音声の流れが中断される言語障害である。 スタタリング識別は、病理学、心理学、音響学、信号処理などの分野間の興味深い研究課題であり、検出が困難で複雑である。 機械学習とディープラーニングの最近の進歩は、音声領域を劇的に革命させたが、音声認識にはほとんど注意が払われていない。 この研究は、学際的な分野から研究者を集めようとすることでギャップを埋める。 本稿では,統計的および深層学習に基づくスタブリング/ディフルエンシ分類法について概説する。 いくつかの課題と今後の方向性を示す。

Stuttering is a speech disorder during which the flow of speech is interrupted by involuntary pauses and repetition of sounds. Stuttering identification is an interesting interdisciplinary domain research problem which involves pathology, psychology, acoustics, and signal processing that makes it hard and complicated to detect. Recent developments in machine and deep learning have dramatically revolutionized speech domain, however minimal attention has been given to stuttering identification. This work fills the gap by trying to bring researchers together from interdisciplinary fields. In this paper, we review comprehensively acoustic features, statistical and deep learning based stuttering/disfluenc y classification methods. We also present several challenges and possible future directions.
翻訳日:2021-07-13 11:40:54 公開日:2021-07-12