このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210628となっている論文です。

PDF登録状況(公開日: 20210628)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 機械学習を用いたアジアホーネット目撃レポートの優先度予測 [全文訳有]

Priority prediction of Asian Hornet sighting report using machine learning methods ( http://arxiv.org/abs/2107.05465v1 )

ライセンス: CC BY 4.0
Yixin Liu, Jiaxin Guo, Jieyang Dong, Luoqian Jiang and Haoyuan Ouyang(参考訳) 北アメリカの生態系への悪名高い侵略者として、アジアの巨人ホネット(vespa mandarinia)は、ミツバチのコロニーだけでなく、地元のアピカルチャーにも被害を与えている。 有害種と戦う最も効果的な方法の1つは、巣を見つけ、破壊することである。 アジアの巨人ホルネットの目撃を積極的に報告するために市民を動員することで、政府は時折検査官を派遣して巣を確認、破壊する可能性がある。 しかし、そのような確認には研究室の専門知識が必要で、手動でレポートをチェックすれば、人的資源を非常に消費する。 さらに、アジアの巨人ホルネットに関する一般大衆の限られた知識と報告書提出のランダム性を考えると、多くの報告のごくわずかしか肯定的ではない。 既存の巣。 人員派遣を決定するため、報告を効率的にかつ自動的に分類または優先順位付けする方法は、アジアの巨人ホルネットの統制にとって非常に重要である。 本稿では,機械学習に基づく目撃報告の優先度を予測する手法を提案する。 我々は,視認レポートの最適優先順位付け問題を分類と予測の問題としてモデル化する。 本報告では, 位置, 時間, 画像, テキスト記述など, 多様な特徴を抽出した。 これらの特徴に基づき,ロジスティック回帰に基づく分類モデルを提案し,ある報告の信頼性を予測する。 さらに,本モデルは,レポート間の影響を定量化し,レポートの優先順位付けを行う。 WSDA(ワシントン州農務省)の公開データセットに関する大規模な実験により,本手法の有効性が実証された。

As infamous invaders to the North American ecosystem, the Asian giant hornet (Vespa mandarinia) is devastating not only to native bee colonies, but also to local apiculture. One of the most effective way to combat the harmful species is to locate and destroy their nests. By mobilizing the public to actively report possible sightings of the Asian giant hornet, the governmentcould timely send inspectors to confirm and possibly destroy the nests. However, such confirmation requires lab expertise, where manually checking the reports one by one is extremely consuming of human resources. Further given the limited knowledge of the public about the Asian giant hornet and the randomness of report submission, only few of the numerous reports proved positive, i.e. existing nests. How to classify or prioritize the reports efficiently and automatically, so as to determine the dispatch of personnel, is of great significance to the control of the Asian giant hornet. In this paper, we propose a method to predict the priority of sighting reports based on machine learning. We model the problem of optimal prioritization of sighting reports as a problem of classification and prediction. We extracted a variety of rich features in the report: location, time, image(s), and textual description. Based on these characteristics, we propose a classification model based on logistic regression to predict the credibility of a certain report. Furthermore, our model quantifies the impact between reports to get the priority ranking of the reports. Extensive experiments on the public dataset from the WSDA (the Washington State Department of Agriculture) have proved the effectiveness of our method.
翻訳日:2021-07-18 19:13:19 公開日:2021-06-28
# 記述論理プログラムによる表現的記述論理の合理化

A Rational Entailment for Expressive Description Logics via Description Logic Programs ( http://arxiv.org/abs/2107.06075v1 )

ライセンス: Link先を確認
Giovanni Casini, Umberto Straccia(参考訳) リーマンとマギドールの有理閉包は非単調論理の分野におけるランドマークとして認められ、記述論理(DL)の文脈でも再形式化されている。 本稿では,SROIQ のような表現型 DL の有理形をモデル化し,非単調な DL 知識ベースを記述論理プログラム (dl-gram) にコンパイルする新たな推論手順を提案する。

Lehmann and Magidor's rational closure is acknowledged as a landmark in the field of non-monotonic logics and it has also been re-formulated in the context of Description Logics (DLs). We show here how to model a rational form of entailment for expressive DLs, such as SROIQ, providing a novel reasoning procedure that compiles a non-monotone DL knowledge base into a description logic program (dl-program).
翻訳日:2021-07-18 12:21:24 公開日:2021-06-28
# (参考訳) CVEH: クラウドソーシング(クラウドソーシング)を使ってケースのヒットと実行を軽減するための動的フレームワーク [全文訳有]

CVEH: A Dynamic Framework To Profile Vehicle Movements To Mitigate Hit And Run Cases Using Crowdsourcing ( http://arxiv.org/abs/2107.04026v1 )

ライセンス: CC BY 4.0
Attiq ur Rehman, Asad Waqar Malik, Anis ur Rahman, Sohail Iqbal and Ghalib Ahmed Tahir(参考訳) アメリカ、ドイツ、イギリスといった先進国では、警備軍は高度な装備、高速車両、ドローン、ヘリコプターを使って犯罪者の車を捕まえた。 一方、資源が限られている途上国では、管理コストやその他の制約のため、そのようなスキームは利用できない。 本稿では,開発途上国がクラウドソーシング技術を用いて犯罪車両の動きを把握し,法執行機関の早期警戒システムとして機能するCVEHという枠組みを提案する。 また、市民が安全条件の改善に果たす役割も担っている。 提案されたCVEHフレームワークにより、V2I通信は、違反者の車両の動きを監視し、その情報をコマンド・アンド・コントロール(CC)センターと共有することができる。 CCセンターは経路を計画し、ほぼ位置する法執行機関と協業している。 CVEHはアンドロイドスマートフォン上で開発・評価されている。 本研究で実施したシミュレーションは,本フレームワークの有効性を示す。

In developed countries like the USA, Germany, and the UK, the security forces used highly sophisticated equipment, fast vehicles, drones, and helicopters to catch offenders' vehicles. Whereas, in developing countries with limited resources such schemes cannot be utilized due to management cost and other constraints. In this paper, we proposed a framework called CVEH that enables developing countries to profile the offender vehicle movements through crowdsourcing technique and act as an early warning system to the law forcing agencies. It also engages citizens to play their role in improving security conditions. The proposed CVEH framework allows Vehicle-to-Infrastru cture (V2I) communication to monitor the movement of the offender's vehicle and shared its information with the Command and Control (CC) centre. The CC centre projects the path and engages nearly located law enforcement agencies. CVEH is developed and evaluated on android smartphones. Simulations conducted for this study exhibit the effectiveness of our framework.
翻訳日:2021-07-11 12:27:58 公開日:2021-06-28
# 学力予測のための判別事前学習による知識伝達

Knowledge Transfer by Discriminative Pre-training for Academic Performance Prediction ( http://arxiv.org/abs/2107.04009v1 )

ライセンス: Link先を確認
Byungsoo Kim, Hangyeol Yu, Dongmin Shin, Youngduck Choi(参考訳) 学生の学業成績を正確に推定する必要性は,知的指導システム(its)への注意が高まるとともに強調されている。 しかし、テストスコアなどの学術的パフォーマンスのラベルはITSの外部から収集されるため、ラベルの取得にはコストがかかるため、学術的パフォーマンス予測のために機械学習アプローチを採用することが困難となる。 そこで本稿は,近年の自然言語処理コミュニティにおける事前学習手法の進歩に触発されて,学術的性能予測のための差別的事前学習タスクを用いた転帰学習フレームワークDPAを提案する。 DPAは2つのモデル、ジェネレータと識別器を事前訓練し、学術性能予測において識別器を微調整する。 DPAの事前訓練フェーズでは、元のシーケンスを再構築するために訓練されたジェネレータに、いくつかのトークンがマスクされた一連の相互作用が提供される。 次に、識別器は、マスキングされたトークンをジェネレータの出力に置き換えるインタラクションシーケンスを取り、シーケンス内のすべてのトークンの独自性を予測するように訓練する。 従来の最先端生成事前学習法と比較して、DPAはよりサンプリング効率が良く、より低いアカデミック性能予測誤差に迅速に収束する。 我々はマルチプラットフォームITSアプリケーションから得られた実世界のデータセットについて広範な実験を行い、DPAは平均絶対誤差が4.05%減少し、ラベルスカルシティの増加に対してより堅牢であることを示す。

The needs for precisely estimating a student's academic performance have been emphasized with an increasing amount of attention paid to Intelligent Tutoring System (ITS). However, since labels for academic performance, such as test scores, are collected from outside of ITS, obtaining the labels is costly, leading to label-scarcity problem which brings challenge in taking machine learning approaches for academic performance prediction. To this end, inspired by the recent advancement of pre-training method in natural language processing community, we propose DPA, a transfer learning framework with Discriminative Pre-training tasks for Academic performance prediction. DPA pre-trains two models, a generator and a discriminator, and fine-tunes the discriminator on academic performance prediction. In DPA's pre-training phase, a sequence of interactions where some tokens are masked is provided to the generator which is trained to reconstruct the original sequence. Then, the discriminator takes an interaction sequence where the masked tokens are replaced by the generator's outputs, and is trained to predict the originalities of all tokens in the sequence. Compared to the previous state-of-the-art generative pre-training method, DPA is more sample efficient, leading to fast convergence to lower academic performance prediction error. We conduct extensive experimental studies on a real-world dataset obtained from a multi-platform ITS application and show that DPA outperforms the previous state-of-the-art generative pre-training method with a reduction of 4.05% in mean absolute error and more robust to increased label-scarcity.
翻訳日:2021-07-11 11:36:47 公開日:2021-06-28
# (参考訳) 直流最適潮流における極低温振動最小化のための物理インフォームニューラルネットワーク [全文訳有]

Physics-Informed Neural Networks for Minimising Worst-Case Violations in DC Optimal Power Flow ( http://arxiv.org/abs/2107.00465v1 )

ライセンス: CC BY-SA 4.0
Rahul Nellikkath, Spyros Chatzivasileiadis(参考訳) 物理インフォームドニューラルネットワークは、基礎となる物理システムの既存のモデルを利用して、少ないデータで高精度な結果を生成する。 このようなアプローチは、計算時間を劇的に削減し、動的セキュリティ評価や最適電力フローなど、電力システムにおける計算集約的なプロセスの適切な見積もりを生成するのに役立つ。 ニューラルネットワークの性能に対する最悪の保証の抽出と組み合わせることで、このようなニューラルネットワークは電力システムにおける安全性クリティカルなアプリケーションに適用でき、電力系統オペレーター間の高いレベルの信頼関係を構築することができる。 本論文は,直流最適潮流問題に対する最悪ケースの保証を持つ物理形ニューラルネットワークを,我々の知識に初めて適用する。 我々は, (i) 最大制約違反, (ii) 予測変数と最適決定変数の最大距離, (iii) 入力領域全体の最大部分最適化性に関する保証を求める。 PGLib-OPFネットワークの幅広い範囲において、物理インフォームドニューラルネットワークが最悪のケース保証でどのように供給され、それが従来のニューラルネットワークと比較して最悪のケース違反を減らせるかを示す。

Physics-informed neural networks exploit the existing models of the underlying physical systems to generate higher accuracy results with fewer data. Such approaches can help drastically reduce the computation time and generate a good estimate of computationally intensive processes in power systems, such as dynamic security assessment or optimal power flow. Combined with the extraction of worst-case guarantees for the neural network performance, such neural networks can be applied in safety-critical applications in power systems and build a high level of trust among power system operators. This paper takes the first step and applies, for the first time to our knowledge, Physics-Informed Neural Networks with Worst-Case Guarantees for the DC Optimal Power Flow problem. We look for guarantees related to (i) maximum constraint violations, (ii) maximum distance between predicted and optimal decision variables, and (iii) maximum sub-optimality in the entire input domain. In a range of PGLib-OPF networks, we demonstrate how physics-informed neural networks can be supplied with worst-case guarantees and how they can lead to reduced worst-case violations compared with conventional neural networks.
翻訳日:2021-07-03 06:06:10 公開日:2021-06-28
# 心臓mriによる線維化と傷痕分画の最近の進歩 : 最新知見と今後の展望

Recent Advances in Fibrosis and Scar Segmentation from Cardiac MRI: A State-of-the-Art Review and Future Perspectives ( http://arxiv.org/abs/2106.15707v1 )

ライセンス: Link先を確認
Yinzhe Wu, Zeyu Tang, Binghuan Li, David Firmin, Guang Yang(参考訳) 心臓線維症とスカーの分節化は臨床診断に必須であり、心疾患の治療に有用である。 晩期ガドリニウム増強(LGE)心血管磁気共鳴(CMR)は臨床診断と治療を確実に導くのに有効である。 LGE CMRでは、多くの手法が傷跡領域を正確に区分けすることに成功した。 他の非コントラスト・エージェント(非CA)モダリティ、平衡定常自由譲歩(bSSFP)、シネ磁気共鳴イメージング(MRI)との共存は、心臓解剖の自動化セグメンテーションの有効性をさらに高めることができる。 傷跡の自動的または半自動的セグメンテーションを提供するための多くの従来手法が提案されている。 近年のディープラーニングの発展により、より正確なセグメンテーションを提供する上で、より効率的な高度な手法も見られる。 本稿では,心臓の線維化と傷痕の分節化に異なるモダリティを応用し,従来法と現在法を概観する。

Segmentation of cardiac fibrosis and scar are essential for clinical diagnosis and can provide invaluable guidance for the treatment of cardiac diseases. Late Gadolinium enhancement (LGE) cardiovascular magnetic resonance (CMR) has been successful for its efficacy in guiding the clinical diagnosis and treatment reliably. For LGE CMR, many methods have demonstrated success in accurately segmenting scarring regions. Co-registration with other non-contrast-agent (non-CA) modalities, balanced steady-state free precession (bSSFP) and cine magnetic resonance imaging (MRI) for example, can further enhance the efficacy of automated segmentation of cardiac anatomies. Many conventional methods have been proposed to provide automated or semi-automated segmentation of scars. With the development of deep learning in recent years, we can also see more advanced methods that are more efficient in providing more accurate segmentations. This paper conducts a state-of-the-art review of conventional and current state-of-the-art approaches utilising different modalities for accurate cardiac fibrosis and scar segmentation.
翻訳日:2021-07-01 15:17:33 公開日:2021-06-28
# (参考訳) Deep Learning-based Human Digitizationを活用した効率的な実データ生成フレームワーク [全文訳有]

Efficient Realistic Data Generation Framework leveraging Deep Learning-based Human Digitization ( http://arxiv.org/abs/2106.15409v1 )

ライセンス: CC BY 4.0
C. Symeonidis, P. Nousi, P. Tosidis, K. Tsampazis, N. Passalis, A. Tefas, N. Nikolaidis(参考訳) 教師付きディープラーニングアルゴリズムの性能は、トレーニングに使用されるデータのスケール、品質、多様性に大きく依存する。 大量のデータの収集と手作業によるアノテートは、実行に要する時間とコストのかかる作業である。 視覚人間中心の知覚に関連するタスクでは、プライバシーに関する法律によって、データの収集と配布が制限される場合がある。 さらに、例えば、深層学習に基づく知覚モデルを用いるロボットのような複雑なシステムの設計とテストは、実際のデータセットと大規模データセットで訓練された最先端の手法でさえ、仮想データと実世界のデータの視覚的差異に適応していないため、常に適切に実行できないため、深刻な困難に直面している。 そこで本研究では,a)人物検出,b)顔認識,c)人格推定のためのアノテーションを用いて,リアルな合成データを自動的に生成する手法を提案する。 提案手法では,実際の背景画像を入力し,さまざまなポーズで人物像を投入する。 本研究では,手作りの3dモデルではなく,ディープラーニングによるモデルの利用を提案し,高レベルのリアリズムを維持しつつ,データセット作成コストをさらに削減する。 さらに、提案するパイプラインを実装するオープンソースで使いやすいツールを提供し、さまざまなタスクに対して、高度に現実的な合成データセットを生成することができます。 対応するタスクのベンチマークと評価は、実データの補足として合成データが効果的に使用できることを示している。

The performance of supervised deep learning algorithms depends significantly on the scale, quality and diversity of the data used for their training. Collecting and manually annotating large amount of data can be both time-consuming and costly tasks to perform. In the case of tasks related to visual human-centric perception, the collection and distribution of such data may also face restrictions due to legislation regarding privacy. In addition, the design and testing of complex systems, e.g., robots, which often employ deep learning-based perception models, may face severe difficulties as even state-of-the-art methods trained on real and large-scale datasets cannot always perform adequately as they have not adapted to the visual differences between the virtual and the real world data. As an attempt to tackle and mitigate the effect of these issues, we present a method that automatically generates realistic synthetic data with annotations for a) person detection, b) face recognition, and c) human pose estimation. The proposed method takes as input real background images and populates them with human figures in various poses. Instead of using hand-made 3D human models, we propose the use of models generated through deep learning methods, further reducing the dataset creation costs, while maintaining a high level of realism. In addition, we provide open-source and easy to use tools that implement the proposed pipeline, allowing for generating highly-realistic synthetic datasets for a variety of tasks. A benchmarking and evaluation in the corresponding tasks shows that synthetic data can be effectively used as a supplement to real data.
翻訳日:2021-07-01 09:53:20 公開日:2021-06-28
# (参考訳) ワンショット学習のための高次元分離性

High-dimensional separability for one- and few-shot learning ( http://arxiv.org/abs/2106.15416v1 )

ライセンス: CC BY 4.0
Alexander N. Gorban, Bogdan Grechuk, Evgeny M. Mirkes, Sergey V. Stasenko, Ivan Y. Tyukin(参考訳) この作業は、実用的な質問、人工知能(AI)エラーの修正によって進められている。 大規模なAIシステムの体系的な再訓練はほとんど不可能である。 この問題を解決するため、特殊な外部装置、補正装置を開発した。 レガシーなAIシステムを変更することなく、迅速でイテレーティブなシステム修正を提供する必要がある。 ai補正器の一般的な普遍的な部分は、望ましくない振る舞いと誤った振る舞いを通常の操作から分離する分類器である。 このような分類器の訓練は、単発および少数発の学習方法の中心にある大きな課題である。 一短法と二短法の有効性は、重要な次元の縮小または次元効果の祝福に基づいている。 確率分離性(英: Stochastic separability)は、一点と二点の誤り訂正を可能にする次元的現象の祝福である:広い仮定の下での高次元データセットでは、各点を、単純で堅牢な線形判別式によって、集合の残りの部分から分離することができる。 データ・ユニバースの階層構造は、各データ・クラスタが粒状の内部構造等を有するように導入される。 微細な構造を持つデータ分布に対する新しい確率的分離定理を定式化し、証明する。 無限次元極限における分離定理は、データ空間へのパターンのコンパクト埋め込みの仮定の下で証明される。 AIシステムの新しいマルチコレクタが提示され、深層畳み込みニューラルネットワークによってエラーを予測し、新しいクラスのオブジェクトを学習する例が紹介される。

This work is driven by a practical question, corrections of Artificial Intelligence (AI) errors. Systematic re-training of a large AI system is hardly possible. To solve this problem, special external devices, correctors, are developed. They should provide quick and non-iterative system fix without modification of a legacy AI system. A common universal part of the AI corrector is a classifier that should separate undesired and erroneous behavior from normal operation. Training of such classifiers is a grand challenge at the heart of the one- and few-shot learning methods. Effectiveness of one- and few-short methods is based on either significant dimensionality reductions or the blessing of dimensionality effects. Stochastic separability is a blessing of dimensionality phenomenon that allows one-and few-shot error correction: in high-dimensional datasets under broad assumptions each point can be separated from the rest of the set by simple and robust linear discriminant. The hierarchical structure of data universe is introduced where each data cluster has a granular internal structure, etc. New stochastic separation theorems for the data distributions with fine-grained structure are formulated and proved. Separation theorems in infinite-dimensional limits are proven under assumptions of compact embedding of patterns into data space. New multi-correctors of AI systems are presented and illustrated with examples of predicting errors and learning new classes of objects by a deep convolutional neural network.
翻訳日:2021-07-01 09:41:56 公開日:2021-06-28
# (参考訳) ガウスベイズネットワークを用いた高次元マイクロアレイデータから遺伝子制御ネットワークの複雑な依存性構造を学ぶ [全文訳有]

Learning complex dependency structure of gene regulatory networks from high dimensional micro-array data with Gaussian Bayesian networks ( http://arxiv.org/abs/2106.15365v1 )

ライセンス: CC BY 4.0
Catharina Elisabeth Graafland and Jos\'e Manuel Guti\'errez(参考訳) 遺伝子発現データセットは、比較的少ないサンプル(すなわち)を持つ数千の遺伝子からなる。 large-$p$-small-$n$である。 さらに、データセットに様々な順序の依存関係が共存する。 In the Undirected probabilistic Graphical Model (UGM) framework, the Glasso algorithm has proposed to handle with high dimensional micro-array datasets forced sparsity。 また、複雑な相互作用構造の問題を克服するために、デフォルトのglassoアルゴリズムの修正も開発されている。 本研究では,DAG(Directed Acyclic Graphs)に頼ったガウスベイズネットワーク(BN)を学習する単純なスコアベースヒルクライミングアルゴリズム(HC)の使用を提唱する。 HCとGlassoを比較し,その改良点として,大腸菌ゲノムのマイクロアレイデータからGRNを再構成する能力について検討した。 我々は、DAGをUGMに変換するために、指向性PGMと非指向性PGMの両方が構築されるジョイント確率密度(JPD)関数の解析的性質の恩恵を受ける。 複雑なデータの依存関係はhcアルゴリズムによって最も良く学習され、最も正確かつ効率的に提示され、遺伝子発現データセットに共存する強い局所的および弱いが重要なグローバル接続を同時にモデル化する。 HCアルゴリズムは、特定の構造を事前に強制することなく、データセットの複雑な依存構造に本質的に適応する。 それとは対照的に、glassoとmodifiedsモデルは、ネットワーク内の確率的情報と多くのパラメータを含むだけで緩和できるjpd関数の構造的バイアスを犠牲にして不要な依存関係をモデル化する。

Gene expression datasets consist of thousand of genes with relatively small samplesizes (i.e. are large-$p$-small-$n$) . Moreover, dependencies of various orders co-exist in the datasets. In the Undirected probabilistic Graphical Model (UGM) framework the Glasso algorithm has been proposed to deal with high dimensional micro-array datasets forcing sparsity. Also, modifications of the default Glasso algorithm are developed to overcome the problem of complex interaction structure. In this work we advocate the use of a simple score-based Hill Climbing algorithm (HC) that learns Gaussian Bayesian Networks (BNs) leaning on Directed Acyclic Graphs (DAGs). We compare HC with Glasso and its modifications in the UGM framework on their capability to reconstruct GRNs from micro-array data belonging to the Escherichia Coli genome. We benefit from the analytical properties of the Joint Probability Density (JPD) function on which both directed and undirected PGMs build to convert DAGs to UGMs. We conclude that dependencies in complex data are learned best by the HC algorithm, presenting them most accurately and efficiently, simultaneously modelling strong local and weaker but significant global connections coexisting in the gene expression dataset. The HC algorithm adapts intrinsically to the complex dependency structure of the dataset, without forcing a specific structure in advance. On the contrary, Glasso and modifications model unnecessary dependencies at the expense of the probabilistic information in the network and of a structural bias in the JPD function that can only be relieved including many parameters.
翻訳日:2021-07-01 09:40:52 公開日:2021-06-28
# (参考訳) 正しいバランスを取る:セマンティックセグメンテーションの損失をリコールする [全文訳有]

Striking the Right Balance: Recall Loss for Semantic Segmentation ( http://arxiv.org/abs/2106.14917v1 )

ライセンス: CC BY 4.0
Junjiao Tian, Niluthpol Mithun, Zach Seymour, Han-Pang Chiu, Zsolt Kira(参考訳) クラス不均衡は、セマンティックセグメンテーションのようなコンピュータビジョンアプリケーションにおける基本的な問題である。 特に、トレーニングデータセット内の不均一なクラス分布は、しばしば、未表示のクラスで不十分なパフォーマンスをもたらす。 多くの研究は、サンプル数やクラスマージンなど、クラス統計に基づく事前計算された重み付き標準クロスエントロピー損失関数の重み付けを提案している。 1) 常に重み付けされたマイノリティクラスは、セマンティックセグメンテーションにおいて過剰な偽陽性を導入することができる; 2) マイノリティークラスは必ずしもハードクラスではない。 その結果、過剰な偽陽性による精度が低い。 そこで本研究では,バニラクロスエントロピー損失を瞬時リコール性能に基づいて動的にクラス毎の損失を重み付けるように再構成し,ハードクラスマイニング損失を提案する。 従来のクロスエントロピー損失と逆周波数重み付き損失との間には,新たなリコール損失が徐々に変化することを示す。 また、リコール損失により平均精度が向上し、IoU(Universal Intersection over Union)のパフォーマンスが向上する。 Synthiaデータセットでは,クロスエントロピー損失と比較して,DeepLab-ResNet18を用いた競合平均IoUの平均精度が9%向上した。 コードはhttps://github.com/p otatotian/recall-sem segで入手できる。

Class imbalance is a fundamental problem in computer vision applications such as semantic segmentation. Specifically, uneven class distributions in a training dataset often result in unsatisfactory performance on under-represented classes. Many works have proposed to weight the standard cross entropy loss function with pre-computed weights based on class statistics, such as the number of samples and class margins. There are two major drawbacks to these methods: 1) constantly up-weighting minority classes can introduce excessive false positives in semantic segmentation; 2) a minority class is not necessarily a hard class. The consequence is low precision due to excessive false positives. In this regard, we propose a hard-class mining loss by reshaping the vanilla cross entropy loss such that it weights the loss for each class dynamically based on instantaneous recall performance. We show that the novel recall loss changes gradually between the standard cross entropy loss and the inverse frequency weighted loss. Recall loss also leads to improved mean accuracy while offering competitive mean Intersection over Union (IoU) performance. On Synthia dataset, recall loss achieves 9% relative improvement on mean accuracy with competitive mean IoU using DeepLab-ResNet18 compared to the cross entropy loss. Code available at https://github.com/P otatoTian/recall-sem seg.
翻訳日:2021-07-01 09:14:04 公開日:2021-06-28
# (参考訳) ニューラルネットワークによるモバイルデバイスのリアルタイム物体検出 [全文訳有]

Achieving Real-Time Object Detection on MobileDevices with Neural Pruning Search ( http://arxiv.org/abs/2106.14943v1 )

ライセンス: CC BY-SA 4.0
Pu Zhao, Wei Niu, Geng Yuan, Yuxuan Cai, Bin Ren, Yanzhi Wang, Xue Lin(参考訳) 物体検出は、自動運転車のセキュリティ開発において重要な役割を担っている。 しかし,計算資源が限られている自動運転車の移動システムは,物体検出に困難をもたらす。 これを容易にするために,2次元および3次元物体検出のための自律走行車における高速推論を実現する,コンパイラ対応ニューラルプルーニング探索フレームワークを提案する。 このフレームワークは、各レイヤのプルーニングスキームとレートを自動的に検索し、コンパイラ最適化の下で検出精度と速度性能を最適化する最適なプルーニングを見つける。 実験の結果,提案手法は, YOLOv4による2次元物体検出とPointPillarsによる3次元物体検出において, 最小(あるいは無)の精度で, 実時間, 55ms, 99msの推測時間を実現することができた。

Object detection plays an important role in self-driving cars for security development. However, mobile systems on self-driving cars with limited computation resources lead to difficulties for object detection. To facilitate this, we propose a compiler-aware neural pruning search framework to achieve high-speed inference on autonomous vehicles for 2D and 3D object detection. The framework automatically searches the pruning scheme and rate for each layer to find a best-suited pruning for optimizing detection accuracy and speed performance under compiler optimization. Our experiments demonstrate that for the first time, the proposed method achieves (close-to) real-time, 55ms and 99ms inference times for YOLOv4 based 2D object detection and PointPillars based 3D detection, respectively, on an off-the-shelf mobile phone with minor (or no) accuracy loss.
翻訳日:2021-07-01 08:59:36 公開日:2021-06-28
# (参考訳) 限られたデータを用いた深層学習に基づく加速MRI再構成のためのデータ拡張 [全文訳有]

Data augmentation for deep learning based accelerated MRI reconstruction with limited data ( http://arxiv.org/abs/2106.14947v1 )

ライセンス: CC BY 4.0
Zalan Fabian, Reinhard Heckel, Mahdi Soltanolkotabi(参考訳) ディープニューラルネットワークは、画像復元と再構成タスクの非常に成功したツールとして登場した。 これらのネットワークは、しばしば、画像のノイズや劣化した測定から画像を直接再構築するために、エンドツーエンドで訓練される。 最先端のパフォーマンスを実現するためには,多種多様な画像のトレーニングが重要であると考えられる。 しかし,大量のトレーニング画像の収集は困難かつ費用がかかる場合が多い。 本稿では,分類問題に対するデータ拡張(DA)の成功に触発されて,MRIの高速化のためのデータ拡張のためのパイプラインを提案し,その有効性について検討する。 我々のDAパイプラインであるMRAugmentは、医療画像計測における不変性を、問題の物理を無視する単純なDA戦略として利用するために特別に設計されている。 複数のデータセットに関する広範な研究を通じて、低データ体制のDAは過度な適合を防ぎ、トレーニングデータを大幅に少なくしながら、アートの状態にマッチしたり、超えたりすることを実証しています。 さらに,daはテスト分布の変化に対してモデルのロバスト性を向上させることができることを示した。

Deep neural networks have emerged as very successful tools for image restoration and reconstruction tasks. These networks are often trained end-to-end to directly reconstruct an image from a noisy or corrupted measurement of that image. To achieve state-of-the-art performance, training on large and diverse sets of images is considered critical. However, it is often difficult and/or expensive to collect large amounts of training images. Inspired by the success of Data Augmentation (DA) for classification problems, in this paper, we propose a pipeline for data augmentation for accelerated MRI reconstruction and study its effectiveness at reducing the required training data in a variety of settings. Our DA pipeline, MRAugment, is specifically designed to utilize the invariances present in medical imaging measurements as naive DA strategies that neglect the physics of the problem fail. Through extensive studies on multiple datasets we demonstrate that in the low-data regime DA prevents overfitting and can match or even surpass the state of the art while using significantly fewer training data, whereas in the high-data regime it has diminishing returns. Furthermore, our findings show that DA can improve the robustness of the model against various shifts in the test distribution.
翻訳日:2021-07-01 08:55:13 公開日:2021-06-28
# (参考訳) 重要サンプリングによるストリーミングアルゴリズムの逆ロバスト性 [全文訳有]

Adversarial Robustness of Streaming Algorithms through Importance Sampling ( http://arxiv.org/abs/2106.14952v1 )

ライセンス: CC BY 4.0
Vladimir Braverman, Avinatan Hassidim, Yossi Matias, Mariano Schain, Sandeep Silwal, Samson Zhou(参考訳) 本稿では,重回帰やクラスタリングといった中央的機械学習やアルゴリズム的タスクに対して,より汎用的な部分空間埋め込み,低ランク近似,コアセット構築などに対して,逆ロバストなストリーミングアルゴリズムを導入する。 回帰やその他の数値線形代数関連タスクに対しては,行到着ストリーミングモデルを検討する。 本研究の結果は,多くの重要なサンプリングベースアルゴリズムが,ストリーミング文学において非常に多いが,敵対的攻撃に悩まされているスケッチベースアルゴリズムとは対照的に,敵対的堅牢性をもたらすという,単純かつ強力で強力な観察に基づいている。 さらに、ストリーミングにおけるよく知られたマージと削減パラダイムが逆向きに堅牢であることを示す。 マージと削減のパラダイムはストリーミング環境でコアセットの構成を可能にするので、$k$-means, $k$-median, $k$-center, Bregmanクラスタリング、射影クラスタリング、主成分分析(PCA)、非負行列分解のための堅牢なアルゴリズムが得られる。 我々の知る限りでは、これらの問題は最初の逆向きに堅牢な結果であり、新しいアルゴリズムの実装を必要としない。 最後に,様々な敵攻撃におけるアルゴリズムのロバスト性を確認するとともに,既存のアルゴリズムがロバストでないことを示す。 (抽象的短縮によりarXiv制限を満たす)

In this paper, we introduce adversarially robust streaming algorithms for central machine learning and algorithmic tasks, such as regression and clustering, as well as their more general counterparts, subspace embedding, low-rank approximation, and coreset construction. For regression and other numerical linear algebra related tasks, we consider the row arrival streaming model. Our results are based on a simple, but powerful, observation that many importance sampling-based algorithms give rise to adversarial robustness which is in contrast to sketching based algorithms, which are very prevalent in the streaming literature but suffer from adversarial attacks. In addition, we show that the well-known merge and reduce paradigm in streaming is adversarially robust. Since the merge and reduce paradigm allows coreset constructions in the streaming setting, we thus obtain robust algorithms for $k$-means, $k$-median, $k$-center, Bregman clustering, projective clustering, principal component analysis (PCA) and non-negative matrix factorization. To the best of our knowledge, these are the first adversarially robust results for these problems yet require no new algorithmic implementations. Finally, we empirically confirm the robustness of our algorithms on various adversarial attacks and demonstrate that by contrast, some common existing algorithms are not robust. (Abstract shortened to meet arXiv limits)
翻訳日:2021-07-01 08:35:17 公開日:2021-06-28
# (参考訳) 食品認識ベンチマーク:DeepLearningによる画像上の食品の認識 [全文訳有]

The Food Recognition Benchmark: Using DeepLearning to Recognize Food on Images ( http://arxiv.org/abs/2106.14977v1 )

ライセンス: CC BY 4.0
Sharada Prasanna Mohanty, Gaurav Singhal, Eric Antoine Scuccimarra, Djilani Kebaili, Harris H\'eritier, Victor Boulanger, Marcel Salath\'e(参考訳) 画像上の食品の自動認識には、医療コホートにおける栄養追跡など、多くの興味深い応用がある。 この問題は研究の注目を集めているが、オープンで再現可能なアルゴリズムを開発するための公開ベンチマークが欠落している。 ここでは,モバイル myfoodrepo アプリ から提供された食品画像を用いて,このようなベンチマークのセットアップについて報告する。 4回のラウンドを通じて、ベンチマークは24,119の画像からなるMyFoodRepo-273データセットをリリースし、合計39,325個の分割ポリゴンを273のクラスに分類した。 モデルは、最終ラウンドで5,000のイメージと7,865のアノテーションを持つ同じプラットフォームからプライベートテストセットで評価された。 273食品カテゴリーのトップパフォーマンスモデルの平均精度は0.568(約4回)、平均リコール率は0.885(約3回)に達した。 本報告では, ラウンド4の結果を実験的に検証し, 今後のラウンドにおけるデータセットのサイズと多様性の向上を目的としたベンチマーク設定の有効性について考察する。

The automatic recognition of food on images has numerous interesting applications, including nutritional tracking in medical cohorts. The problem has received significant research attention, but an ongoing public benchmark to develop open and reproducible algorithms has been missing. Here, we report on the setup of such a benchmark using publicly available food images sourced through the mobile MyFoodRepo app. Through four rounds, the benchmark released the MyFoodRepo-273 dataset constituting 24,119 images and a total of 39,325 segmented polygons categorized in 273 different classes. Models were evaluated on private tests sets from the same platform with 5,000 images and 7,865 annotations in the final round. Top-performing models on the 273 food categories reached a mean average precision of 0.568 (round 4) and a mean average recall of 0.885 (round 3). We present experimental validation of round 4 results, and discuss implications of the benchmark setup designed to increase the size and diversity of the dataset for future rounds.
翻訳日:2021-07-01 08:06:02 公開日:2021-06-28
# (参考訳) 信頼度最大化と入力変換による分布シフトへのテスト時間適応 [全文訳有]

Test-Time Adaptation to Distribution Shift by Confidence Maximization and Input Transformation ( http://arxiv.org/abs/2106.14999v1 )

ライセンス: CC BY-SA 4.0
Chaithanya Kumar Mummadi, Robin Hutmacher, Kilian Rambach, Evgeny Levinkov, Thomas Brox, Jan Hendrik Metzen(参考訳) ディープニューラルネットワークは、例えば腐敗によって影響を受けるデータなど、トレインタイムデータ分散下ではあり得ないデータのパフォーマンスが低いことが多い。 従来の研究では、例えばエントロピー最小化(entropy minimization)を用いたデータシフトに対するテスト時間適応は、そのようなシフトした分布の性能を効果的に改善することを示した。 本稿では,対象分布からのラベル付きデータのみを必要とする完全テスト時間適応設定に焦点をあてる。 これにより任意の事前学習ネットワークを適用できる。 具体的には,エントロピー最小化の早期収束と不安定性に対処し,テスト時間適応性を向上させる新しい損失を提案する。 これは、非飽和サロゲートによってエントロピーを置換し、簡単な崩壊解への収束を防止するバッチワイドエントロピー最大化に基づく多様性正規化器を追加することで達成される。 さらに,テスト時分布シフトを部分的に解除できる入力変換モジュールをネットワークに導入することを提案する。 驚いたことに、この前処理は、対象とするドメインラベルやソースドメインデータなしで、エンドツーエンドで完全にテスト時の適応損失を使用してのみ学習することができる。 提案手法は,imagenet-cのような難解なベンチマークにおいて,事前学習済み画像分類器のロバスト性向上に先行する手法である。

Deep neural networks often exhibit poor performance on data that is unlikely under the train-time data distribution, for instance data affected by corruptions. Previous works demonstrate that test-time adaptation to data shift, for instance using entropy minimization, effectively improves performance on such shifted distributions. This paper focuses on the fully test-time adaptation setting, where only unlabeled data from the target distribution is required. This allows adapting arbitrary pretrained networks. Specifically, we propose a novel loss that improves test-time adaptation by addressing both premature convergence and instability of entropy minimization. This is achieved by replacing the entropy by a non-saturating surrogate and adding a diversity regularizer based on batch-wise entropy maximization that prevents convergence to trivial collapsed solutions. Moreover, we propose to prepend an input transformation module to the network that can partially undo test-time distribution shifts. Surprisingly, this preprocessing can be learned solely using the fully test-time adaptation loss in an end-to-end fashion without any target domain labels or source domain data. We show that our approach outperforms previous work in improving the robustness of publicly available pretrained image classifiers to common corruptions on such challenging benchmarks as ImageNet-C.
翻訳日:2021-07-01 07:49:52 公開日:2021-06-28
# (参考訳) Lane-Graphトラバーサルを用いたマルチモーダル軌道予測 [全文訳有]

Multimodal Trajectory Prediction Conditioned on Lane-Graph Traversals ( http://arxiv.org/abs/2106.15004v1 )

ライセンス: CC BY 4.0
Nachiket Deo, Eric M. Wolff and Oscar Beijbom(参考訳) 周囲の車両の将来の動きを正確に予測するには、目標や運転行動に固有の不確実性に関する推論が必要である。 この不確実性は緩やかに横方向(車線維持、旋回)と縦方向(加速、制動など)に分離することができる。 本稿では,レーングラフのサブセット上で学習された離散ポリシーロールアウトと集中デコーダを組み合わせた新しい手法を提案する。 ポリシーのロールアウトは、現在の観測結果から異なる目標を探求し、モデルが横方向の変動を捉えることを保証する。 縦方向の可変性は,レーングラフの様々な部分集合を条件とした新しい潜在変数モデルデコーダによって取得される。 本モデルは, nuScenes動作予測データセット上での最先端性能を実現し, 質的に優れたシーンコンプライアンスを実証する。 詳細な説明は、ポリシーのロールアウトとデコーダアーキテクチャの両方の重要性を強調している。

Accurately predicting the future motion of surrounding vehicles requires reasoning about the inherent uncertainty in goals and driving behavior. This uncertainty can be loosely decoupled into lateral (e.g., keeping lane, turning) and longitudinal (e.g., accelerating, braking). We present a novel method that combines learned discrete policy rollouts with a focused decoder on subsets of the lane graph. The policy rollouts explore different goals given our current observations, ensuring that the model captures lateral variability. The longitudinal variability is captured by our novel latent variable model decoder that is conditioned on various subsets of the lane graph. Our model achieves state-of-the-art performance on the nuScenes motion prediction dataset, and qualitatively demonstrates excellent scene compliance. Detailed ablations highlight the importance of both the policy rollouts and the decoder architecture.
翻訳日:2021-07-01 07:31:45 公開日:2021-06-28
# (参考訳) 確率的物体検出のための不確かさ推定フレームワーク [全文訳有]

An Uncertainty Estimation Framework for Probabilistic Object Detection ( http://arxiv.org/abs/2106.15007v1 )

ライセンス: CC BY 4.0
Zongyao Lyu, Nolan B. Gutierrez, William J. Beksi(参考訳) 本稿では,物体検出における不確実性を推定する2つの一般的な手法を組み合わせた新しい手法を提案する。 不確実性の定量化は、現実世界のロボット応用において重要である。 従来の検出モデルは、高い確率出力を提供する場合でも曖昧である。 高信頼だが信頼できない予測に基づくロボットの行動は、深刻な反響を引き起こす可能性がある。 本手法は,予測の不確かさを近似するために,深いアンサンブルとモンテカルロドロップアウトを用い,ベースライン法の不確かさ推定品質を改善する。 提案手法は,映像のシーケンスから取得した合成画像データセット上で評価される。

In this paper, we introduce a new technique that combines two popular methods to estimate uncertainty in object detection. Quantifying uncertainty is critical in real-world robotic applications. Traditional detection models can be ambiguous even when they provide a high-probability output. Robot actions based on high-confidence, yet unreliable predictions, may result in serious repercussions. Our framework employs deep ensembles and Monte Carlo dropout for approximating predictive uncertainty, and it improves upon the uncertainty estimation quality of the baseline method. The proposed approach is evaluated on publicly available synthetic image datasets captured from sequences of video.
翻訳日:2021-07-01 07:20:23 公開日:2021-06-28
# (参考訳) 自己教師型学習によるfMRIスキャンからの認知疲労の理解 [全文訳有]

Understanding Cognitive Fatigue from fMRI Scans with Self-supervised Learning ( http://arxiv.org/abs/2106.15009v1 )

ライセンス: CC BY 4.0
Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Fillia Makedon, Glenn Wylie(参考訳) 機能的磁気共鳴イメージング(fmri)は、被験者が行う課題に基づいて、異なる領域の血中酸素レベルを捉えて脳内の神経活動を記録する神経イメージング技術である。 fMRIデータから、認知疲労の状態を予測する問題は、その全範囲において研究されていない。 本稿では, 認知疲労の状態を, 不快感から極度の疲労状態まで, 6つのレベルに分けて, マルチクラス分類問題として扱うことを提案する。 空間的特徴抽出に畳み込みニューラルネットワーク(CNN)と4次元fMRIスキャンの時間的モデリングに長寿命メモリ(LSTM)を用いた時空間モデルを構築した。 また、MoCoと呼ばれる自己教師型手法を用いて、公開データセットBOLD5000でモデルを事前訓練し、ラベル付きデータセットで微調整して認知疲労を分類した。 新たなデータセットには,外傷性脳損傷(TBI)患者のfMRIスキャンと,一連の認知タスクを実施中の健康管理(HC)が含まれている。 本手法は,fMRIデータから認知疲労を解析するための最先端技術を確立し,従来の手法に勝ってこの問題を解決する。

Functional magnetic resonance imaging (fMRI) is a neuroimaging technique that records neural activations in the brain by capturing the blood oxygen level in different regions based on the task performed by a subject. Given fMRI data, the problem of predicting the state of cognitive fatigue in a person has not been investigated to its full extent. This paper proposes tackling this issue as a multi-class classification problem by dividing the state of cognitive fatigue into six different levels, ranging from no-fatigue to extreme fatigue conditions. We built a spatio-temporal model that uses convolutional neural networks (CNN) for spatial feature extraction and a long short-term memory (LSTM) network for temporal modeling of 4D fMRI scans. We also applied a self-supervised method called MoCo to pre-train our model on a public dataset BOLD5000 and fine-tuned it on our labeled dataset to classify cognitive fatigue. Our novel dataset contains fMRI scans from Traumatic Brain Injury (TBI) patients and healthy controls (HCs) while performing a series of cognitive tasks. This method establishes a state-of-the-art technique to analyze cognitive fatigue from fMRI data and beats previous approaches to solve this problem.
翻訳日:2021-07-01 07:06:10 公開日:2021-06-28
# (参考訳) 加速度計を用いた集中治療ユニット患者の早期移動認識 [全文訳有]

Early Mobility Recognition for Intensive Care Unit Patients Using Accelerometers ( http://arxiv.org/abs/2106.15017v1 )

ライセンス: CC BY 4.0
Rex Liu, Sarina A Fazio, Huanle Zhang, Albara Ah Ramli, Xin Liu, Jason Yeates Adams(参考訳) IoT(Internet of Things)とAI(Artificial Intelligence)技術の開発により、スマートホームや生活支援など、さまざまな応用が可能になった。 本稿では, 集中治療ユニット(icu)患者に対する, ヒューマンアクティビティ認識, 早期モビリティ認識の新しい医療応用を目標とした。 早期移動は長期固定化に苦しむICU患者に必須である。 我々のシステムには、ICU患者からの加速度計に基づくデータ収集と、患者の早期モビリティを認識するAIモデルが含まれている。 モデルの精度と安定性を向上させるために,センサの向きに敏感な特徴を特定し,多数決戦略を活用して各セグメントの活動を認識するセグメント投票方式を提案する。 この結果から, モデル精度は77.78\%から81.86\%に向上し, モデル不安定性(標準偏差)は16.69\%から6.92\%に低下することがわかった。

With the development of the Internet of Things(IoT) and Artificial Intelligence(AI) technologies, human activity recognition has enabled various applications, such as smart homes and assisted living. In this paper, we target a new healthcare application of human activity recognition, early mobility recognition for Intensive Care Unit(ICU) patients. Early mobility is essential for ICU patients who suffer from long-time immobilization. Our system includes accelerometer-based data collection from ICU patients and an AI model to recognize patients' early mobility. To improve the model accuracy and stability, we identify features that are insensitive to sensor orientations and propose a segment voting process that leverages a majority voting strategy to recognize each segment's activity. Our results show that our system improves model accuracy from 77.78\% to 81.86\% and reduces the model instability (standard deviation) from 16.69\% to 6.92\%, compared to the same AI model without our feature engineering and segment voting process.
翻訳日:2021-07-01 06:57:09 公開日:2021-06-28
# クレデンシャルアサインメントにおけるアルゴリズム独立による強化学習のモジュール性

Modularity in Reinforcement Learning via Algorithmic Independence in Credit Assignment ( http://arxiv.org/abs/2106.14993v1 )

ライセンス: Link先を確認
Michael Chang, Sidhant Kaushik, Sergey Levine, Thomas L. Griffiths(参考訳) 多くのトランスファー問題は、新しいタスクを解くために、以前最適な決定を再利用する必要がある。これは、他のタスクを選択するものと独立して特定のアクションを選択するメカニズムを変更できる学習アルゴリズムの必要性を示唆している。 しかし、現時点でこの種のモジュラークレジット割り当てを達成する方法に関する形式主義や理論は存在しない。 この問いに答えるために、モジュール型クレジット割り当てを、異なる決定のためのフィードバック信号間のアルゴリズム的相互情報の最小化の制約として定義する。 本稿では,学習アルゴリズムがアルゴリズム自体の因果解析を行うことによって,この制約を満たすかどうかをテストするためのモジュラリティ基準を提案する。 我々は、最近提案された社会決定フレームワークをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化し、サイクルを含まない決定シーケンスに対して、特定の一段階の時間差作用値法がこの基準を満たすことを証明する。 実証的な証拠は、このようなアクション値の手法は、以前の最適な決定のシーケンスにばらばらな変更しか必要としない転送問題に対するポリシー段階の手法よりもサンプル効率が高いことを示唆している。

Many transfer problems require re-using previously optimal decisions for solving new tasks, which suggests the need for learning algorithms that can modify the mechanisms for choosing certain actions independently of those for choosing others. However, there is currently no formalism nor theory for how to achieve this kind of modular credit assignment. To answer this question, we define modular credit assignment as a constraint on minimizing the algorithmic mutual information among feedback signals for different decisions. We introduce what we call the modularity criterion for testing whether a learning algorithm satisfies this constraint by performing causal analysis on the algorithm itself. We generalize the recently proposed societal decision-making framework as a more granular formalism than the Markov decision process to prove that for decision sequences that do not contain cycles, certain single-step temporal difference action-value methods meet this criterion while all policy-gradient methods do not. Empirical evidence suggests that such action-value methods are more sample efficient than policy-gradient methods on transfer problems that require only sparse changes to a sequence of previously optimal decisions.
翻訳日:2021-06-30 15:46:44 公開日:2021-06-28
# 条件付きGANは明示的に条件付きか?

Are conditional GANs explicitly conditional? ( http://arxiv.org/abs/2106.15011v1 )

ライセンス: Link先を確認
Houssem-eddine Boulahbal, Adrian Voicila, Andrew Comport(参考訳) 本稿では,このアーキテクチャを利用する多種多様なアプリケーションを改善するために,条件付きジェネレータネットワーク(cGAN)に対する2つの重要な貢献を提案する。 最初の大きな貢献は、明示的に条件付きでないことを示すためにcganの分析である。 特に、識別器とその後のcGANが入力間の条件を自動で学習しないことが示される。 2つ目の貢献はacontrarioと呼ばれる新しい手法で、非条件(逆)の例を学ぶために識別者を訓練する新しいacontrarioロスを通じて、敵アーキテクチャの両部分の条件性を明確にモデル化する。 これにより、GAN(acontrario learning)に対する新しいタイプのデータ拡張アプローチが実現され、ジェネレータの検索空間を悪い例を用いて条件付き出力に制限することができる。 確率分布解析を提案し, 判別器の条件性を評価するための実験を行った。 異なるアプリケーションに対するcGANアーキテクチャとの比較では、Fr\echet Inception Distance(FID)、平均Intersection over Union(mIoU)、Root Mean Square Error log(RMSE log)、NDB(Number of statistically-Differ ent Bins)などのメトリクスを使用した、セマンティック画像合成、イメージセグメンテーション、モノクル深度予測など、よく知られたデータセットのパフォーマンスが大幅に向上した。

This paper proposes two important contributions for conditional Generative Adversarial Networks (cGANs) to improve the wide variety of applications that exploit this architecture. The first main contribution is an analysis of cGANs to show that they are not explicitly conditional. In particular, it will be shown that the discriminator and subsequently the cGAN does not automatically learn the conditionality between inputs. The second contribution is a new method, called acontrario, that explicitly models conditionality for both parts of the adversarial architecture via a novel acontrario loss that involves training the discriminator to learn unconditional (adverse) examples. This leads to a novel type of data augmentation approach for GANs (acontrario learning) which allows to restrict the search space of the generator to conditional outputs using adverse examples. Extensive experimentation is carried out to evaluate the conditionality of the discriminator by proposing a probability distribution analysis. Comparisons with the cGAN architecture for different applications show significant improvements in performance on well known datasets including, semantic image synthesis, image segmentation and monocular depth prediction using different metrics including Fr\'echet Inception Distance(FID), mean Intersection over Union (mIoU), Root Mean Square Error log (RMSE log) and Number of statistically-Differ ent Bins (NDB)
翻訳日:2021-06-30 15:45:44 公開日:2021-06-28
# BioASQ 2021の概要 : 大規模バイオメディカルセマンティックインデックス作成と質問回答における第9回BioASQチャレンジ

Overview of BioASQ 2021: The ninth BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering ( http://arxiv.org/abs/2106.14885v1 )

ライセンス: Link先を確認
Anastasios Nentidis, Georgios Katsimpras, Eirini Vandorou, Anastasia Krithara, Luis Gasco, Martin Krallinger, Georgios Paliouras(参考訳) 大規模バイオメディカルセマンティックインデクシングと質問応答における最先端の取り組みは、BioASQの課題の主な焦点である。 BioASQは、異なるチームが同じベンチマークデータセットで評価されるシステムを開発する、それぞれのタスクを編成する。 本稿では,評価フォーラム(CLEF, Conference and Labs of the Evaluation Forum)2021におけるBioASQチャレンジの9回目の概要について述べる。 今年は、Synergyという名の新しい質問応答タスクが導入され、新型コロナウイルス(COVID-19)の病気を研究する研究者を支援し、課題がまだ進行中である間に、参加チームが情報を識別する能力を測定する。 合計で170以上のシステムを持つ42チームが4つの課題に参加するために登録された。 評価結果は,前年と同様に,この分野における最先端の継続的な改善を示すベースラインに対する性能向上を示す。

Advancing the state-of-the-art in large-scale biomedical semantic indexing and question answering is the main focus of the BioASQ challenge. BioASQ organizes respective tasks where different teams develop systems that are evaluated on the same benchmark datasets that represent the real information needs of experts in the biomedical domain. This paper presents an overview of the ninth edition of the BioASQ challenge in the context of the Conference and Labs of the Evaluation Forum (CLEF) 2021. In this year, a new question answering task, named Synergy, is introduced to support researchers studying the COVID-19 disease and measure the ability of the participating teams to discern information while the problem is still developing. In total, 42 teams with more than 170 systems were registered to participate in the four tasks of the challenge. The evaluation results, similarly to previous years, show a performance gain against the baselines which indicates the continuous improvement of the state-of-the-art in this field.
翻訳日:2021-06-30 15:44:53 公開日:2021-06-28
# データセット特性を用いたマルチラベル分類法の性能説明

Explaining the Performance of Multi-label Classification Methods with Data Set Properties ( http://arxiv.org/abs/2106.15411v1 )

ライセンス: Link先を確認
Jasmin Bogatinovski, Ljup\v{c}o Todorovski, Sa\v{s}o D\v{z}eroski, Dragi Kocev(参考訳) メタ学習は、異なる学習タスクで経験経験を一般化し、機械学習アルゴリズムの振る舞いに関する重要な経験的洞察を提供する。 本稿では,データセットの包括的メタラーニング研究とマルチラベル分類(mlc)の手法を提案する。 MLCは、各サンプルに複数のラベルを同時にラベル付けする、実用的な機械学習タスクである。 本稿では,データの異なる特性を記述する50のメタ特徴を用いて,40個のmlcデータセットを解析する。 本研究の主な成果は以下の通りである。 まず、LCデータセットの空間を記述する最も顕著なメタ機能は、ラベル空間の異なる側面を評価するものである。 第二に、メタモデルは、最も重要なメタ特徴がラベル空間を記述していることを示し、そして、ラベル間の関係を記述するメタ特徴は、個々のラベル間の分布を記述するメタ特徴よりも、少し頻繁に発生する傾向がある。 第三に、ハイパーパラメータの最適化は予測性能を改善することができるが、改善の程度は必ずしも資源利用を正当化するとは限らない。

Meta learning generalizes the empirical experience with different learning tasks and holds promise for providing important empirical insight into the behaviour of machine learning algorithms. In this paper, we present a comprehensive meta-learning study of data sets and methods for multi-label classification (MLC). MLC is a practically relevant machine learning task where each example is labelled with multiple labels simultaneously. Here, we analyze 40 MLC data sets by using 50 meta features describing different properties of the data. The main findings of this study are as follows. First, the most prominent meta features that describe the space of MLC data sets are the ones assessing different aspects of the label space. Second, the meta models show that the most important meta features describe the label space, and, the meta features describing the relationships among the labels tend to occur a bit more often than the meta features describing the distributions between and within the individual labels. Third, the optimization of the hyperparameters can improve the predictive performance, however, quite often the extent of the improvements does not always justify the resource utilization.
翻訳日:2021-06-30 15:43:37 公開日:2021-06-28
# 浅層ニューラルネットワークに対応する変動空間のキャラクタリゼーション

Characterization of the Variation Spaces Corresponding to Shallow Neural Networks ( http://arxiv.org/abs/2106.15002v1 )

ライセンス: Link先を確認
Jonathan W. Siegel, Jinchao Xu(参考訳) l^2(\omega)$ の関数辞書に対応する変分空間を考察し、これらの空間における近似の基本理論を提案する。 具体的には、積分表現に基づく定義と凸包の項による定義を比較する。 浅いReLU$^k$ネットワークに対応する辞書や、崩壊するフーリエモードの辞書を含む多くのケースにおいて、2つの定義が一致することを示す。 また、浅いReLU$^k$ネットワークに対する変分空間の部分的特徴付けを行い、崩壊するフーリエモードの辞書に対する変分空間がバロンスペクトル空間に対応することを示す。

We consider the variation space corresponding to a dictionary of functions in $L^2(\Omega)$ and present the basic theory of approximation in these spaces. Specifically, we compare the definition based on integral representations with the definition in terms of convex hulls. We show that in many cases, including the dictionaries corresponding to shallow ReLU$^k$ networks and a dictionary of decaying Fourier modes, that the two definitions coincide. We also give a partial characterization of the variation space for shallow ReLU$^k$ networks and show that the variation space with respect to the dictionary of decaying Fourier modes corresponds to the Barron spectral space.
翻訳日:2021-06-30 15:42:16 公開日:2021-06-28
# ランダム崩壊勾配を用いたロバスト分散最適化

Robust Distributed Optimization With Randomly Corrupted Gradients ( http://arxiv.org/abs/2106.14956v1 )

ライセンス: Link先を確認
Berkay Turan, Cesar A. Uribe, Hoi-To Wai, Mahnoosh Alizadeh(参考訳) 本稿では,すべてのエージェントが故障し易いビザンチン障害に対して頑健な一階分散最適化アルゴリズムを提案する。 我々は、各エージェントの状態を、異なるタイミングでビザンチンまたは信頼できる行動を示す2状態マルコフ連鎖としてモデル化する。 我々は任意の時刻にビザンチン剤の最大数に制限を課さない。 本手法は, 1) 時間勾配平均化, 2) 頑健な凝集, 3) 勾配正規化という3つの防衛層に基づいて設計する。 本研究では, 標本平均近似と確率近似の2つの確率的最適化について検討し, 強凸および滑らかな非凸コスト関数に対して, 次数最適統計誤差と収束率を達成することを証明した。

In this paper, we propose a first-order distributed optimization algorithm that is provably robust to Byzantine failures-arbitrary and potentially adversarial behavior, where all the participating agents are prone to failure. We model each agent's state over time as a two-state Markov chain that indicates Byzantine or trustworthy behaviors at different time instants. We set no restrictions on the maximum number of Byzantine agents at any given time. We design our method based on three layers of defense: 1) Temporal gradient averaging, 2) robust aggregation, and 3) gradient normalization. We study two settings for stochastic optimization, namely Sample Average Approximation and Stochastic Approximation, and prove that for strongly convex and smooth non-convex cost functions, our algorithm achieves order-optimal statistical error and convergence rates.
翻訳日:2021-06-30 15:35:26 公開日:2021-06-28
# 2段階推薦システムにおける成分相互作用について

On component interactions in two-stage recommender systems ( http://arxiv.org/abs/2106.14979v1 )

ライセンス: Link先を確認
Jiri Hron, Karl Krauth, Michael I. Jordan, Niki Kilbertus(参考訳) スケーラビリティのおかげで、2段階のレコメンデータは、YouTube、LinkedIn、Pinterestなど、今日の最大のオンラインプラットフォームの多くで使用されている。 これらのシステムは2つのステップでレコメンデーションを生成する: (i) 複数のノミネーター - 低予測レイテンシ用に調整された -- アイテムプール全体から候補の小さなサブセットをプリセレクトする; (ii) - 遅いがより正確なランク付け器により、推奨項目をさらに絞り、ユーザに役立ちます。 その人気にもかかわらず、2段階の推薦者に関する文献は比較的少なく、アルゴリズムはその部分の合計として扱われることが多い。 このような処理は、独立して配置された場合、2段階のパフォーマンスは個々のコンポーネントの振る舞いによって説明される、と仮定する。 合成データと実世界のデータを用いて、ランカとノミネータの相互作用が全体的なパフォーマンスに実質的に影響することを実証する。 これらの結果から,各ノミネーターのトレーニングセットの慎重な選択が,貧弱者と最適二段階推薦者の唯一の相違であることを示す一般化の下界を導出した。 良い選択を手動で探すことは難しいので、私たちは代わりに学ぶ。 特に、mixed-of-expertsアプローチを使用して、nominators (experts) をトレーニングして、アイテムプールのさまざまなサブセットを専門化します。 これにより性能が大幅に向上する。

Thanks to their scalability, two-stage recommenders are used by many of today's largest online platforms, including YouTube, LinkedIn, and Pinterest. These systems produce recommendations in two steps: (i) multiple nominators -- tuned for low prediction latency -- preselect a small subset of candidates from the whole item pool; (ii)~a slower but more accurate ranker further narrows down the nominated items, and serves to the user. Despite their popularity, the literature on two-stage recommenders is relatively scarce, and the algorithms are often treated as the sum of their parts. Such treatment presupposes that the two-stage performance is explained by the behavior of individual components if they were deployed independently. This is not the case: using synthetic and real-world data, we demonstrate that interactions between the ranker and the nominators substantially affect the overall performance. Motivated by these findings, we derive a generalization lower bound which shows that careful choice of each nominator's training set is sometimes the only difference between a poor and an optimal two-stage recommender. Since searching for a good choice manually is difficult, we learn one instead. In particular, using a Mixture-of-Experts approach, we train the nominators (experts) to specialize on different subsets of the item pool. This significantly improves performance.
翻訳日:2021-06-30 15:35:13 公開日:2021-06-28
# 浅層ニューラルネットワークの近似速度に及ぼすシャープ下界の影響

Sharp Lower Bounds on the Approximation Rate of Shallow Neural Networks ( http://arxiv.org/abs/2106.14997v1 )

ライセンス: Link先を確認
Jonathan W. Siegel, Jinchao Xu(参考訳) 変動ノルムに対する浅層ニューラルネットワークの近似率について考察する。 これらの値の上限は、シグモダルおよびReLU活性化関数に対して確立されているが、これらの値が鋭いかどうかについては重要な未解決問題のままである。 本稿では、ニューラルネットワーク基底関数の凸包の$l^2$-metric entropyを低くすることで得られる、浅層ニューラルネットワークの近似率の鋭い下界を証明し、この問題に対する解を提供する。 さらに, 本手法は, この凸包のコルモゴロフ $n$-widths に対して鋭い下界を与えるため, 浅層ニューラルネットワークに対応する変動空間を線形法で効率的に近似することはできないことを示した。 これらの下界は、有界変動を持つシグモノイド活性化関数と、ReLUのパワーである活性化関数の両方に適用できる。 我々の結果は、バロンスペクトルノルムが変動ノルムよりもどれほど強いかを定量化し、以前の結果と合わせて、ReLUアクティベーション関数の場合の対数係数まで$L^\infty$-metric entropyの漸近を与える。

We consider the approximation rates of shallow neural networks with respect to the variation norm. Upper bounds on these rates have been established for sigmoidal and ReLU activation functions, but it has remained an important open problem whether these rates are sharp. In this article, we provide a solution to this problem by proving sharp lower bounds on the approximation rates for shallow neural networks, which are obtained by lower bounding the $L^2$-metric entropy of the convex hull of the neural network basis functions. In addition, our methods also give sharp lower bounds on the Kolmogorov $n$-widths of this convex hull, which show that the variation spaces corresponding to shallow neural networks cannot be efficiently approximated by linear methods. These lower bounds apply to both sigmoidal activation functions with bounded variation and to activation functions which are a power of the ReLU. Our results also quantify how much stronger the Barron spectral norm is than the variation norm and, combined with previous results, give the asymptotics of the $L^\infty$-metric entropy up to logarithmic factors in the case of the ReLU activation function.
翻訳日:2021-06-30 15:34:45 公開日:2021-06-28
# メタラーニングによる神経ルミグラフ表現の高速学習

Fast Training of Neural Lumigraph Representations using Meta Learning ( http://arxiv.org/abs/2106.14942v1 )

ライセンス: Link先を確認
Alexander W. Bergman and Petr Kellnhofer and Gordon Wetzstein(参考訳) 新たなビュー合成は、機械学習とコンピュータビジョンにおける長年の問題である。 近年、任意の視点からフォトリアリスティックな画像を合成するニューラルシーン表現とレンダリング技術の開発において重要な進歩を遂げている。 しかしながら、これらの表現はトレーニングが非常に遅く、しばしばレンダリングも遅くなります。 画像に基づくレンダリングのニューラル変種に触発されて,リアルタイムにレンダリング可能な高品質な表現を迅速に学習することを目的とした,新しいニューラルレンダリング手法を開発した。 われわれのアプローチであるMetaNLR++は、ニューラル形状表現と2次元CNNに基づく画像特徴抽出、集約、再投影のユニークな組み合わせを用いてこれを実現する。 表現収束時間を数分に短縮するために、メタ学習を活用して、トレーニングを加速する神経形状と画像特徴を学習する。 最適化された形状と画像の特徴は、従来のグラフィックス技術を使って抽出され、リアルタイムでレンダリングされる。 MetaNLR++は、競合するメソッドが要求する時間のごく一部で、類似またはより優れた新規ビュー合成結果が得られることを示す。

Novel view synthesis is a long-standing problem in machine learning and computer vision. Significant progress has recently been made in developing neural scene representations and rendering techniques that synthesize photorealistic images from arbitrary views. These representations, however, are extremely slow to train and often also slow to render. Inspired by neural variants of image-based rendering, we develop a new neural rendering approach with the goal of quickly learning a high-quality representation which can also be rendered in real-time. Our approach, MetaNLR++, accomplishes this by using a unique combination of a neural shape representation and 2D CNN-based image feature extraction, aggregation, and re-projection. To push representation convergence times down to minutes, we leverage meta learning to learn neural shape and image feature priors which accelerate training. The optimized shape and image features can then be extracted using traditional graphics techniques and rendered in real time. We show that MetaNLR++ achieves similar or better novel view synthesis results in a fraction of the time that competing methods require.
翻訳日:2021-06-30 15:32:49 公開日:2021-06-28
# スペクトル学習に類似した小さなランダム初期化:過パラメータ化低ランク行列再構成の最適化と一般化保証

Small random initialization is akin to spectral learning: Optimization and generalization guarantees for overparameterized low-rank matrix reconstruction ( http://arxiv.org/abs/2106.15013v1 )

ライセンス: Link先を確認
Dominik St\"oger and Mahdi Soltanolkotabi(参考訳) 近年、過パラメータモデルによる非凸損失に対する勾配に基づく手法の収束と一般化の理解に関する理論的な進歩が著しい。 それでも、最適化と一般化の多くの側面、特に小さなランダム初期化の重要な役割は、完全には理解されていない。 本稿では、この役割をデミスティフィケートするために、小さなランダム初期化と数回の勾配降下の繰り返しが一般的なスペクトル法に類似していることを証明する。 また,この非ランダム初期化による暗黙のスペクトルバイアスは,過パラメータモデルでは顕著に顕著であり,勾配降下の反復は,グローバルに最適であるだけでなく,よく一般化する解へと向けられることを示した。 具体的には, 自然非凸定式化による数種類の測定値から低ランク行列を再構成する問題に着目する。 In this setting, we show that the trajectory of the gradient descent iterations from small random initialization can be approximately decomposed into three phases: (I) a spectral or alignment phase where we show that that the iterates have an implicit spectral bias akin to spectral initialization allowing us to show that at the end of this phase the column space of the iterates and the underlying low-rank matrix are sufficiently aligned, (II) a saddle avoidance/refinement phase where we show that the trajectory of the gradient iterates moves away from certain degenerate saddle points, and (III) a local refinement phase where we show that after avoiding the saddles the iterates converge quickly to the underlying low-rank matrix. 我々の分析は、低階再構成以上の計算問題に影響を及ぼす可能性のある、過度にパラメータ化された非凸最適化スキームの分析のための洞察である。

Recently there has been significant theoretical progress on understanding the convergence and generalization of gradient-based methods on nonconvex losses with overparameterized models. Nevertheless, many aspects of optimization and generalization and in particular the critical role of small random initialization are not fully understood. In this paper, we take a step towards demystifying this role by proving that small random initialization followed by a few iterations of gradient descent behaves akin to popular spectral methods. We also show that this implicit spectral bias from small random initialization, which is provably more prominent for overparameterized models, also puts the gradient descent iterations on a particular trajectory towards solutions that are not only globally optimal but also generalize well. Concretely, we focus on the problem of reconstructing a low-rank matrix from a few measurements via a natural nonconvex formulation. In this setting, we show that the trajectory of the gradient descent iterations from small random initialization can be approximately decomposed into three phases: (I) a spectral or alignment phase where we show that that the iterates have an implicit spectral bias akin to spectral initialization allowing us to show that at the end of this phase the column space of the iterates and the underlying low-rank matrix are sufficiently aligned, (II) a saddle avoidance/refinement phase where we show that the trajectory of the gradient iterates moves away from certain degenerate saddle points, and (III) a local refinement phase where we show that after avoiding the saddles the iterates converge quickly to the underlying low-rank matrix. Underlying our analysis are insights for the analysis of overparameterized nonconvex optimization schemes that may have implications for computational problems beyond low-rank reconstruction.
翻訳日:2021-06-30 15:31:38 公開日:2021-06-28
# face anti-spoofingのためのディープラーニング: 調査

Deep Learning for Face Anti-Spoofing: A Survey ( http://arxiv.org/abs/2106.14948v1 )

ライセンス: Link先を確認
Zitong Yu, Yunxiao Qin, Xiaobai Li, Chenxu Zhao, Zhen Lei, Guoying Zhao(参考訳) 対面防止(FAS)は、プレゼンテーションアタック(PA)から顔認識システムを保護する上で重要な役割を担っているため、近年注目を集めている。 新たなタイプのPAが出現するにつれて、手作りの特徴に基づく従来のFAS手法は、表現能力の制限により信頼性が低下する。 近年の大規模学術データセットの出現に伴い、ディープラーニングベースのFASは目覚ましいパフォーマンスを達成し、この分野を支配している。 しかし、この分野の既存のレビューは主に手作りの機能に焦点を当てており、fasコミュニティの進歩のために時代遅れでインスパイアされていない。 本稿では,今後の研究を促進するために,ディープラーニングに基づくFASの最近の進歩を包括的に概観する。 It covers several novel and insightful components: 1) besides supervision with binary label (e.g., '0' for bonafide vs. '1' for PAs), we also investigate recent methods with pixel-wise supervision (e.g., pseudo depth map); 2) in addition to traditional intra-dataset evaluation, we collect and analyze the latest methods specially designed for domain generalization and open-set FAS; and 3) besides commercial RGB camera, we summarize the deep learning applications under multi-modal (e.g., depth and infrared) or specialized (e.g., light field and flash) sensors. この調査は、現在のオープンな問題を強調し、潜在的な可能性を強調して結論づける。

Face anti-spoofing (FAS) has lately attracted increasing attention due to its vital role in securing face recognition systems from presentation attacks (PAs). As more and more realistic PAs with novel types spring up, traditional FAS methods based on handcrafted features become unreliable due to their limited representation capacity. With the emergence of large-scale academic datasets in the recent decade, deep learning based FAS achieves remarkable performance and dominates this area. However, existing reviews in this field mainly focus on the handcrafted features, which are outdated and uninspiring for the progress of FAS community. In this paper, to stimulate future research, we present the first comprehensive review of recent advances in deep learning based FAS. It covers several novel and insightful components: 1) besides supervision with binary label (e.g., '0' for bonafide vs. '1' for PAs), we also investigate recent methods with pixel-wise supervision (e.g., pseudo depth map); 2) in addition to traditional intra-dataset evaluation, we collect and analyze the latest methods specially designed for domain generalization and open-set FAS; and 3) besides commercial RGB camera, we summarize the deep learning applications under multi-modal (e.g., depth and infrared) or specialized (e.g., light field and flash) sensors. We conclude this survey by emphasizing current open issues and highlighting potential prospects.
翻訳日:2021-06-30 15:29:26 公開日:2021-06-28
# 物体検出に基づく手書き位置推定

Object Detection Based Handwriting Localization ( http://arxiv.org/abs/2106.14989v1 )

ライセンス: Link先を確認
Yuli Wu, Yucheng Hu, Suting Miao(参考訳) 本稿では,文書から手書き領域をローカライズするためのオブジェクト検出手法を提案する。 結合ボックスを学習して手書きを検出する畳み込みニューラルネットワークに、印刷テキストと手書きメモまたは署名の両方を含む原画像と前処理画像の連結融合を送出する。 その後、手書き領域を処理できる(例えば、)。 個人識別可能な情報(PII)を隠すために、置換された署名(reacted signatures)。 この深層学習ネットワークCascade R-CNNに基づく処理パイプラインは、推論中にGPU上で10fpsで動作する。 さらに、印象的な一般化性は実証的に証明されている。英語支配のデータセットに基づくトレーニングされたモデルは、中国語でも、架空の目に見えない請求書でうまく機能する。 提案手法は,手書き認識やシグネチャ検証などのタスクも行うことが期待されている。

We present an object detection based approach to localize handwritten regions from documents, which initially aims to enhance the anonymization during the data transmission. The concatenated fusion of original and preprocessed images containing both printed texts and handwritten notes or signatures are fed into the convolutional neural network, where the bounding boxes are learned to detect the handwriting. Afterwards, the handwritten regions can be processed (e.g. replaced with redacted signatures) to conceal the personally identifiable information (PII). This processing pipeline based on the deep learning network Cascade R-CNN works at 10 fps on a GPU during the inference, which ensures the enhanced anonymization with minimal computational overheads. Furthermore, the impressive generalizability has been empirically showcased: the trained model based on the English-dominant dataset works well on the fictitious unseen invoices, even in Chinese. The proposed approach is also expected to facilitate other tasks such as handwriting recognition and signature verification.
翻訳日:2021-06-30 15:29:05 公開日:2021-06-28
# Cosmic-CoNN:cosmic Ray Detection Deep-Learning Framework, Dataset, Toolkit

Cosmic-CoNN: A Cosmic Ray Detection Deep-Learning Framework, Dataset, and Toolkit ( http://arxiv.org/abs/2106.14922v1 )

ライセンス: Link先を確認
Chengyuan Xu, Curtis McCully, Boning Dong, D. Andrew Howell, Pradeep Sen(参考訳) 宇宙線(CR)の排除はCCDキャプチャーデータの科学的解釈に不可欠であるが、単一露光画像におけるCRの検出は依然として困難である。 従来のcr検出アルゴリズムでは、複数のパラメータを実験的にチューニングする必要があるため、さまざまな機器や観測要求の自動化が難しい。 近年のディープラーニングによるCR検出モデルの訓練は有望な結果を示している。 しかし、楽器固有のモデルは、訓練データに含まれない地上設備の画像の性能低下に苦しむ。 本研究では,汎用CR検出モデルを生成するためのディープラーニングフレームワークCosmic-CoNNを提案する。 我々は、Las Cumbres天文台のグローバル望遠鏡ネットワークから数千の画像を利用して、99.91%の真陽性検出率を達成し、Gemini GMOS-N/Sの未確認データに対して96.40%以上の真陽性率を維持する一般的なCR検出モデルを構築する。 オープンソースのフレームワークとデータセットとは別に、私たちはコンソールコマンド、webベースのアプリケーション、python apiを含む一連のツールも構築しています。

Rejecting cosmic rays (CRs) is essential for scientific interpretation of CCD-captured data, but detecting CRs in single-exposure images has remained challenging. Conventional CR-detection algorithms require tuning multiple parameters experimentally making it hard to automate across different instruments or observation requests. Recent work using deep learning to train CR-detection models has demonstrated promising results. However, instrument-specific models suffer from performance loss on images from ground-based facilities not included in the training data. In this work, we present Cosmic-CoNN, a deep-learning framework designed to produce generic CR-detection models. We build a large, diverse ground-based CR dataset leveraging thousands of images from the Las Cumbres Observatory global telescope network to produce a generic CR-detection model which achieves a 99.91% true-positive detection rate and maintains over 96.40% true-positive rates on unseen data from Gemini GMOS-N/S, with a false-positive rate of 0.01%. Apart from the open-source framework and dataset, we also build a suite of tools including console commands, a web-based application, and Python APIs to make automatic, robust CR detection widely accessible by the community of astronomers.
翻訳日:2021-06-30 15:21:31 公開日:2021-06-28
# 二項および負二項回帰における高速ベイズ変数の選択

Fast Bayesian Variable Selection in Binomial and Negative Binomial Regression ( http://arxiv.org/abs/2106.14981v1 )

ライセンス: Link先を確認
Martin Jankowiak(参考訳) ベイズ変数選択は、事前情報と不確実性を考慮した変数選択の原則的方法を提供するため、データ解析の強力なツールである。 しかしながら、ベイズ変数の選択を広く採用することは、計算上の課題、特に多くの共変量や非共役確率を持つ難しい状況によって妨げられている。 生物学、生態学、経済学などで広く使われているカウントデータに対する一般化線形モデルは、重要な特殊なケースである。 ここでは,二項および負の2項回帰における変数選択のための効率的なmcmcスキームを導入し,温帯ギブズサンプリング(zanella and roberts, 2019)を活用し,特別にロジスティック回帰を含む。 実験では、17万の共変量を持つ癌データを含む,我々のアプローチの有効性を実証した。

Bayesian variable selection is a powerful tool for data analysis, as it offers a principled method for variable selection that accounts for prior information and uncertainty. However, wider adoption of Bayesian variable selection has been hampered by computational challenges, especially in difficult regimes with a large number of covariates or non-conjugate likelihoods. Generalized linear models for count data, which are prevalent in biology, ecology, economics, and beyond, represent an important special case. Here we introduce an efficient MCMC scheme for variable selection in binomial and negative binomial regression that exploits Tempered Gibbs Sampling (Zanella and Roberts, 2019) and that includes logistic regression as a special case. In experiments we demonstrate the effectiveness of our approach, including on cancer data with seventeen thousand covariates.
翻訳日:2021-06-30 15:19:58 公開日:2021-06-28
# フェデレーション動的スペクトルアクセス

Federated Dynamic Spectrum Access ( http://arxiv.org/abs/2106.14976v1 )

ライセンス: Link先を確認
Yifei Song, Hao-Hsuan Chang, Zhou Zhou, Shashank Jere and Lingjia Liu(参考訳) モノのインターネット(IoT)デバイスの急増によって発生するデータトラフィックの増加により、無線スペクトルリソースの需要は連邦通信委員会(FCC)によって定義された制限に近づいている。 この目的のために、ダイナミックスペクトラムアクセス(DSA)は、このスペクトル不足を処理するための有望な技術であると考えられている。 しかし、標準的なDSA技術は、しばしば無線ネットワークを解析的にモデル化することに依存しており、そのアプリケーションは測定不足のネットワーク環境では難解である。 したがって、ニューラルネットワークを利用してネットワーク力学を近似するアプローチが代替となる。 本稿では,DSAのタスクのためのフェデレートラーニング(FL)ベースのフレームワークを紹介する。FLは異種データ分散下でネットワーク端末のプライバシを保護できる分散機械学習フレームワークである。 我々は,この枠組みの機会,課題,および課題について論じる。 その実現可能性を評価するために,マルチエージェント強化学習(marl)ベースのflを初期評価結果と関連づけた実現法として実装する。

Due to the growing volume of data traffic produced by the surge of Internet of Things (IoT) devices, the demand for radio spectrum resources is approaching their limitation defined by Federal Communications Commission (FCC). To this end, Dynamic Spectrum Access (DSA) is considered as a promising technology to handle this spectrum scarcity. However, standard DSA techniques often rely on analytical modeling wireless networks, making its application intractable in under-measured network environments. Therefore, utilizing neural networks to approximate the network dynamics is an alternative approach. In this article, we introduce a Federated Learning (FL) based framework for the task of DSA, where FL is a distributive machine learning framework that can reserve the privacy of network terminals under heterogeneous data distributions. We discuss the opportunities, challenges, and opening problems of this framework. To evaluate its feasibility, we implement a Multi-Agent Reinforcement Learning (MARL)-based FL as a realization associated with its initial evaluation results.
翻訳日:2021-06-30 15:19:43 公開日:2021-06-28
# 直交射影勾配勾配による逆向き検出防御の回避

Evading Adversarial Example Detection Defenses with Orthogonal Projected Gradient Descent ( http://arxiv.org/abs/2106.15023v1 )

ライセンス: Link先を確認
Oliver Bryniarski, Nabeel Hingun, Pedro Pachuca, Vincent Wang, Nicholas Carlini(参考訳) 逆境検出の回避には、(a)モデルによって誤分類され、(b)非逆境として検出されなければならない逆境の例を見つける必要がある。 複数の同時制約を満たそうとする既存の攻撃は、他の制約を満たすコストで、ある制約に対して過大に最適化されることが多い。 直交射影勾配Descentは、標準的な勾配に基づく攻撃を行う際の勾配の直交化によってこの問題を回避するために改良された攻撃手法である。 本手法は,4つの最先端検出防御を回避し,0%検出率を維持しつつ精度を0%に下げる。

Evading adversarial example detection defenses requires finding adversarial examples that must simultaneously (a) be misclassified by the model and (b) be detected as non-adversarial. We find that existing attacks that attempt to satisfy multiple simultaneous constraints often over-optimize against one constraint at the cost of satisfying another. We introduce Orthogonal Projected Gradient Descent, an improved attack technique to generate adversarial examples that avoids this problem by orthogonalizing the gradients when running standard gradient-based attacks. We use our technique to evade four state-of-the-art detection defenses, reducing their accuracy to 0% while maintaining a 0% detection rate.
翻訳日:2021-06-30 15:19:28 公開日:2021-06-28
# 侵入検知システムの特徴選択

Feature selection for intrusion detection systems ( http://arxiv.org/abs/2106.14941v1 )

ライセンス: Link先を確認
Firuz Kamalov, Sherif Moussa, Rita Zgheib, Omar Mashaal(参考訳) 本稿では,既存の特徴選択手法を解析して,侵入検出が可能なネットワークトラフィックデータのキー要素を同定する。 さらに,連続的な入力特徴と離散的目標値を考える上での課題に対処する特徴選択手法を提案する。 提案手法がベンチマーク選択手法に対して有効であることを示す。 我々は,ddos信号と良性信号の区別において,99.9%の精度を達成する機械学習に基づく検出システムを開発した。 自動侵入検知システムの設計と構築に関心のある専門家にとって,この結果が有用であると信じている。

In this paper, we analyze existing feature selection methods to identify the key elements of network traffic data that allow intrusion detection. In addition, we propose a new feature selection method that addresses the challenge of considering continuous input features and discrete target values. We show that the proposed method performs well against the benchmark selection methods. We use our findings to develop a highly effective machine learning-based detection systems that achieves 99.9% accuracy in distinguishing between DDoS and benign signals. We believe that our results can be useful to experts who are interested in designing and building automated intrusion detection systems.
翻訳日:2021-06-30 15:16:33 公開日:2021-06-28
# 多目的獲得アンサンブルによるアナログ回路合成のための効率的なバッチ制約ベイズ最適化手法

An Efficient Batch Constrained Bayesian Optimization Approach for Analog Circuit Synthesis via Multi-objective Acquisition Ensemble ( http://arxiv.org/abs/2106.15412v1 )

ライセンス: Link先を確認
Shuhan Zhang, Fan Yang, Changhao Yan, Dian Zhou, Xuan Zeng(参考訳) ベイズ最適化はアナログ回路合成の有望な手法である。 しかし、ベイズ最適化フレームワークのシーケンシャルな性質は、実世界の計算資源を完全に活用する能力を著しく制限している。 本稿では,マルチ目的獲得関数アンサンブル (mace) を用いた効率的な並列化ベイズ最適化アルゴリズムを提案する。 改善確率(pi)、期待改善(ei)、信頼度バウンド(lcb)のパレート面からクエリポイントをサンプリングすることにより、最先端取得関数の利点を組み合わせることで、未制約最適化問題に対する探索と搾取の間の微妙なトレードオフを実現する。 このバッチ設計に基づいて,制約付き最適化問題に対するアルゴリズムをさらに調整する。 最適化手順を2段階に分割し,まず最初に実現可能な点の発見に焦点をあてることで,有効領域についてより多くの情報を得ることができ,有効領域のサンプリングを回避できる。 最初の実現可能点を達成した後、取得関数アンサンブルに特別に設計されたペナルティ化項を採用することにより、実現可能領域を好む。 実験の結果,提案アルゴリズムはバッチサイズが15のときの非制約最適化問題に対する微分進化(DE)と比較して,シミュレーション全体の時間を最大74倍削減できることがわかった。 制約付き最適化問題に対して,提案アルゴリズムは,バッチサイズが15の場合に,重み付き改善に基づくベイズ最適化(WEIBO)アプローチと比較して最大15倍の高速化を実現することができる。

Bayesian optimization is a promising methodology for analog circuit synthesis. However, the sequential nature of the Bayesian optimization framework significantly limits its ability to fully utilize real-world computational resources. In this paper, we propose an efficient parallelizable Bayesian optimization algorithm via Multi-objective ACquisition function Ensemble (MACE) to further accelerate the optimization procedure. By sampling query points from the Pareto front of the probability of improvement (PI), expected improvement (EI) and lower confidence bound (LCB), we combine the benefits of state-of-the-art acquisition functions to achieve a delicate tradeoff between exploration and exploitation for the unconstrained optimization problem. Based on this batch design, we further adjust the algorithm for the constrained optimization problem. By dividing the optimization procedure into two stages and first focusing on finding an initial feasible point, we manage to gain more information about the valid region and can better avoid sampling around the infeasible area. After achieving the first feasible point, we favor the feasible region by adopting a specially designed penalization term to the acquisition function ensemble. The experimental results quantitatively demonstrate that our proposed algorithm can reduce the overall simulation time by up to 74 times compared to differential evolution (DE) for the unconstrained optimization problem when the batch size is 15. For the constrained optimization problem, our proposed algorithm can speed up the optimization process by up to 15 times compared to the weighted expected improvement based Bayesian optimization (WEIBO) approach, when the batch size is 15.
翻訳日:2021-06-30 15:14:39 公開日:2021-06-28
# 不均一センシング情報を用いたオンライン推定とカバレッジ制御

Online Estimation and Coverage Control with Heterogeneous Sensing Information ( http://arxiv.org/abs/2106.14984v1 )

ライセンス: Link先を確認
Andrew McDonald, Lai Wei, Vaibhav Srivastava(参考訳) 不均一なマルチロボットセンシングシステムは、均質なシステムよりも包括的に物理過程を特徴付けることができる。 複数の感覚データへのアクセスにより、このようなシステムは相補的な情報源間で情報を融合し、興味のある現象のより豊かな表現を学ぶことができる。 しばしば、これらのデータは相関するが、忠実度、すなわち精度(バイアス)と精度(ノイズ)が異なる。 低忠実度データはより多く、高忠実度データはより信頼に値するかもしれない。 本稿では,関心の知覚機能を学習・カバーするために,低・高忠実なデータを組み合わせることで,マルチロボットのオンライン推定とカバレッジ制御の問題に対処する。 異種学習とカバレッジの2つの課題 – SMLC(Stochastic Sequencing of Multi-fidelity Learning and Coverage)とDMLC(Deterministic Sequencing of Multi-fidelity Learning and Coverage) – を提案し,漸近的に収束することを証明する。 さらに,数値シミュレーションによるSMLCとDMLCの実証実験の有効性を実証した。

Heterogeneous multi-robot sensing systems are able to characterize physical processes more comprehensively than homogeneous systems. Access to multiple modalities of sensory data allow such systems to fuse information between complementary sources and learn richer representations of a phenomenon of interest. Often, these data are correlated but vary in fidelity, i.e., accuracy (bias) and precision (noise). Low-fidelity data may be more plentiful, while high-fidelity data may be more trustworthy. In this paper, we address the problem of multi-robot online estimation and coverage control by combining low- and high-fidelity data to learn and cover a sensory function of interest. We propose two algorithms for this task of heterogeneous learning and coverage -- namely Stochastic Sequencing of Multi-fidelity Learning and Coverage (SMLC) and Deterministic Sequencing of Multi-fidelity Learning and Coverage (DMLC) -- and prove that they converge asymptotically. In addition, we demonstrate the empirical efficacy of SMLC and DMLC through numerical simulations.
翻訳日:2021-06-30 15:13:47 公開日:2021-06-28
# 公平かつ解釈可能な表現学習のための投影的遠近法:3次元顔形状解析への応用

Projection-wise Disentangling for Fair and Interpretable Representation Learning: Application to 3D Facial Shape Analysis ( http://arxiv.org/abs/2106.13734v2 )

ライセンス: Link先を確認
Xianjing Liu, Bo Li, Esther Bron, Wiro Niessen, Eppo Wolvius and Gennady Roshchupkin(参考訳) 合流バイアスは、特に臨床実践において、機械学習を実践する上で重要な問題である。 我々は,複数のバイアスに依存しない学習表現の問題を考える。 文学では、これは主にバイアス情報を学習した表現から取り除くことで解決される。 しかし我々は,この戦略が表現における情報の多様性を損なうことを期待し,その将来的な利用(解釈など)を制限する。 そこで本研究では,ほぼすべての情報を潜在表現に保持しながらバイアスを軽減することを提案する。 これを実現するため,学習ベクトル方向に潜在機能を投影し,すべての学習特徴よりもバイアスと予測特徴の独立性を強制する。 投影特徴と入力データとのマッピングを解釈するために,学習ベクトル方向に沿ってサンプリングと再構成を行うプロジェクションワイド・アンタングリングを提案する。 提案手法は3次元顔の形状と患者特性(n=5011)の分析に基づいて評価した。 実験により、この概念的に単純な手法は、最先端の公正な予測性能と解釈性を達成し、臨床応用への大きな可能性を示した。

Confounding bias is a crucial problem when applying machine learning to practice, especially in clinical practice. We consider the problem of learning representations independent to multiple biases. In literature, this is mostly solved by purging the bias information from learned representations. We however expect this strategy to harm the diversity of information in the representation, and thus limiting its prospective usage (e.g., interpretation). Therefore, we propose to mitigate the bias while keeping almost all information in the latent representations, which enables us to observe and interpret them as well. To achieve this, we project latent features onto a learned vector direction, and enforce the independence between biases and projected features rather than all learned features. To interpret the mapping between projected features and input data, we propose projection-wise disentangling: a sampling and reconstruction along the learned vector direction. The proposed method was evaluated on the analysis of 3D facial shape and patient characteristics (N=5011). Experiments showed that this conceptually simple method achieved state-of-the-art fair prediction performance and interpretability, showing its great potential for clinical applications.
翻訳日:2021-06-30 11:27:02 公開日:2021-06-28
# (参考訳) 数値精度の低下はモンド林の分類精度を保っている [全文訳有]

Reducing numerical precision preserves classification accuracy in Mondrian Forests ( http://arxiv.org/abs/2106.14340v1 )

ライセンス: CC BY 4.0
Marc Vicuna, Martin Khannouz, Gregory Kiar, Yohan Chatelain and Tristan Glatard(参考訳) mondrian forestsは強力なデータストリーム分類手法だが、その大きなメモリフットプリントは、コネクテッドオブジェクトのような低リソースプラットフォームに適している。 メモリ消費の低減のために,縮小精度浮動小数点表現を用いて検討し,その性能評価を行った。 我々は,データストリームアルゴリズムのC++コレクションであるOrpailleCCによって提供されるMondrian Forestの実装を,RecofitとBanos \emph{et al}の2つの標準データセットに適用した。 その結果,木ノードが使用する浮動小数点値の精度を64ビットから8ビットに削減でき,f1スコアに有意な差は認められなかった。 いくつかのケースでは、その正規化効果により分類性能が向上することが示されている。 数値精度はモンドリアン林における関連するハイパーパラメータであり, 最適性能にはよく使われる2倍精度の値が必要でないと結論づけた。 今後の研究は、これらの発見の他のデータストリーム分類器への一般化可能性を評価する。

Mondrian Forests are a powerful data stream classification method, but their large memory footprint makes them ill-suited for low-resource platforms such as connected objects. We explored using reduced-precision floating-point representations to lower memory consumption and evaluated its effect on classification performance. We applied the Mondrian Forest implementation provided by OrpailleCC, a C++ collection of data stream algorithms, to two canonical datasets in human activity recognition: Recofit and Banos \emph{et al}. Results show that the precision of floating-point values used by tree nodes can be reduced from 64 bits to 8 bits with no significant difference in F1 score. In some cases, reduced precision was shown to improve classification performance, presumably due to its regularization effect. We conclude that numerical precision is a relevant hyperparameter in the Mondrian Forest, and that commonly-used double precision values may not be necessary for optimal performance. Future work will evaluate the generalizability of these findings to other data stream classifiers.
翻訳日:2021-06-30 01:29:37 公開日:2021-06-28
# (参考訳) 深層ニューラルネットワークを用いた広視野小開口望遠鏡用光計測フレームワーク [全文訳有]

The Deep Neural Network based Photometry Framework for Wide Field Small Aperture Telescopes ( http://arxiv.org/abs/2106.14349v1 )

ライセンス: CC BY 4.0
Peng Jia, Yongyang Sun, Qiang Liu(参考訳) 広視野小型開口望遠鏡(WFSAT)は、主に点状およびストリーク状天体の科学的情報を得るために使用される。 しかし,WFSATが取得した画像の品質は,背景雑音や可変点拡散関数の影響を強く受けている。 高速かつ高効率なデータ処理手法の開発は、さらなる科学研究にとって非常に重要である。 近年、深層ニューラルネットワークが天体の検出と分類のために提案されており、従来の手法よりも優れた性能を示している。 本稿では,深層ニューラルネットワークを用いた天文学的ターゲット検出フレームワークの能力をさらに拡張し,測光・天体計測に適合させる。 我々は、異なる天体のタイプ、大きさ、位置を同時に得るために、ディープニューラルネットワークに新しい分岐を追加する。 シミュレーションデータを用いてテストした結果、ニューラルネットワークは従来の手法よりも優れた光量測定性能を持つことがわかった。 光度とアストロメトリーは回帰アルゴリズムであり、粗い分類結果の代わりに高精度な測定値が得られるため、光度とアストロメトリーの精度は異なる観測条件によって影響を受ける。 この問題を解決するため,観測条件が変化したときには,参照星を用いて深部ニューラルネットワークを伝達学習戦略で訓練することを提案する。 本稿では、WFSATの応答速度と科学的出力をさらに向上させるために、WFSATのエンドツーエンドのクイックデータ処理フレームワークとして利用することができる。

Wide field small aperture telescopes (WFSATs) are mainly used to obtain scientific information of point--like and streak--like celestial objects. However, qualities of images obtained by WFSATs are seriously affected by the background noise and variable point spread functions. Developing high speed and high efficiency data processing method is of great importance for further scientific research. In recent years, deep neural networks have been proposed for detection and classification of celestial objects and have shown better performance than classical methods. In this paper, we further extend abilities of the deep neural network based astronomical target detection framework to make it suitable for photometry and astrometry. We add new branches into the deep neural network to obtain types, magnitudes and positions of different celestial objects at the same time. Tested with simulated data, we find that our neural network has better performance in photometry than classical methods. Because photometry and astrometry are regression algorithms, which would obtain high accuracy measurements instead of rough classification results, the accuracy of photometry and astrometry results would be affected by different observation conditions. To solve this problem, we further propose to use reference stars to train our deep neural network with transfer learning strategy when observation conditions change. The photometry framework proposed in this paper could be used as an end--to--end quick data processing framework for WFSATs, which can further increase response speed and scientific outputs of WFSATs.
翻訳日:2021-06-30 01:17:22 公開日:2021-06-28
# (参考訳) 最適値推定におけるインスタンス最適性:分散還元q-learningによる適応性

Instance-optimality in optimal value estimation: Adaptivity via variance-reduced Q-learning ( http://arxiv.org/abs/2106.14352v1 )

ライセンス: CC BY 4.0
Koulik Khamaru, Eric Xia, Martin J. Wainwright, and Michael I. Jordan(参考訳) 強化学習における様々なアルゴリズムは、その収束率と最終的な精度を問題構造の関数として劇的な変動を示す。 このようなインスタンス固有の振る舞いは、本質的に最悪の場合である既存のグローバルミニマックス境界では捉えられません。 割引マルコフ決定過程に対する最適な$Q$値関数を離散状態と動作で推定する問題を解析し、$\ell_\infty$-normにおける推定の困難さを制御するインスタンス依存関数を同定する。 局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。 他方では、分散削減された$q$-learningの版を分析して、状態と行動空間における対数的な要因まで、下限の鋭さを確立する。 本理論は,難易度が連続するアンサンブルによって示されるように,q$-learningの文脈で「簡単な」問題を「ハード」な問題と区別する正確な方法を提供する。

Various algorithms in reinforcement learning exhibit dramatic variability in their convergence rates and ultimate accuracy as a function of the problem structure. Such instance-specific behavior is not captured by existing global minimax bounds, which are worst-case in nature. We analyze the problem of estimating optimal $Q$-value functions for a discounted Markov decision process with discrete states and actions and identify an instance-dependent functional that controls the difficulty of estimation in the $\ell_\infty$-norm. Using a local minimax framework, we show that this functional arises in lower bounds on the accuracy on any estimation procedure. In the other direction, we establish the sharpness of our lower bounds, up to factors logarithmic in the state and action spaces, by analyzing a variance-reduced version of $Q$-learning. Our theory provides a precise way of distinguishing "easy" problems from "hard" ones in the context of $Q$-learning, as illustrated by an ensemble with a continuum of difficulty.
翻訳日:2021-06-30 01:00:52 公開日:2021-06-28
# (参考訳) Word2Box: ボックス埋め込みによる単語表現の学習 [全文訳有]

Word2Box: Learning Word Representation Using Box Embeddings ( http://arxiv.org/abs/2106.14361v1 )

ライセンス: CC BY 4.0
Shib Sankar Dasgupta, Michael Boratko, Shriya Atmakuri, Xiang Lorraine Li, Dhruvesh Patel, Andrew McCallum(参考訳) 単語のベクトル表現を学習することはNLPにおける最も基本的なトピックの1つであり、様々な下流のNLPタスクで有用な構文的および意味的関係を捉えることができる。 しかしベクトル表現は、ドット積の類似性のような典型的なスコアリングが空間におけるベクトルの位置と大きさとを相互に交わすことで制限することができる。 表現学習の領域におけるエキサイティングな革新は、分布、双曲ベクトル、領域などの代替の基本的な表現を提案している。 私たちのモデルであるword2boxは、単語表現の問題を領域ベースのアプローチで表現し、単語をn$-dimensional rectanglesとして表現します。 これらの表現は位置と幅を独立にエンコードし、交叉や封じ込めなどの幾何学的な演算を提供し、共起パターンベクトルをモデル化する。 様々な単語類似性タスク、特にあまり一般的でない単語の性能向上を実証し、word2boxが提供する付加的な一意的な表現性を検討する質的分析を行う。

Learning vector representations for words is one of the most fundamental topics in NLP, capable of capturing syntactic and semantic relationships useful in a variety of downstream NLP tasks. Vector representations can be limiting, however, in that typical scoring such as dot product similarity intertwines position and magnitude of the vector in space. Exciting innovations in the space of representation learning have proposed alternative fundamental representations, such as distributions, hyperbolic vectors, or regions. Our model, Word2Box, takes a region-based approach to the problem of word representation, representing words as $n$-dimensional rectangles. These representations encode position and breadth independently and provide additional geometric operations such as intersection and containment which allow them to model co-occurrence patterns vectors struggle with. We demonstrate improved performance on various word similarity tasks, particularly on less common words, and perform a qualitative analysis exploring the additional unique expressivity provided by Word2Box.
翻訳日:2021-06-30 00:59:48 公開日:2021-06-28
# (参考訳) 暴力的死を特徴付ける話題モデリングと単語埋め込みの統合 [全文訳有]

Integrating topic modeling and word embedding to characterize violent deaths ( http://arxiv.org/abs/2106.14365v1 )

ライセンス: CC BY 4.0
Alina Arseniev-Koehler, Susan D. Cochran, Vickie M. Mays, Kai-Wei Chang, Jacob Gates Foster(参考訳) 多くのドメインからテキストデータ中の潜伏パターンを識別するメソッドはエスカレートする必要性がある。 コーパス内のトピックを識別し,文書をトピックシーケンスとして表現する新しい手法を提案する。 Discourse Atom Topic Modelingは、トピックモデリングと単語の埋め込みを統合するための理論的機械学習の進歩を生かし、それぞれの異なる能力を活用している。 まず、埋め込み空間のスパース表現を提供するベクトル集合("discourse atoms")を識別する。 生成モデルを通じて、原子は単語上の分布にマップされる; 単語列を生成する話題を推測することもできる。 我々は,未利用テキストの顕著な例として,米国国立暴力死亡報告システム(NVDRS)について説明する。 nvdrsは暴力的な死亡事故を構造化変数と非構造化物語で要約している。 物語中の225の潜在トピック(死の準備や身体的な攻撃など)を識別するが、これらのトピックの多くは既存の構造化変数では捉えられていない。 自殺や殺人の既知のパターンや、セマンティック空間におけるジェンダーバイアスの最近の研究によって、私たちはトピックのジェンダーバイアス(例えば、鎮痛薬に関するトピックは女性である)を識別した。 対象者のジェンダーバイアスと,女性被害者と男性被害者の物語の傾向を比較した。 結果は、致死的な暴力とその性的な性質についての報告の詳細な定量的画像を提供する。 本手法は,テキストデータ中のトピックをモデル化するための柔軟かつ広く適用可能なアプローチを提供する。

There is an escalating need for methods to identify latent patterns in text data from many domains. We introduce a new method to identify topics in a corpus and represent documents as topic sequences. Discourse Atom Topic Modeling draws on advances in theoretical machine learning to integrate topic modeling and word embedding, capitalizing on the distinct capabilities of each. We first identify a set of vectors ("discourse atoms") that provide a sparse representation of an embedding space. Atom vectors can be interpreted as latent topics: Through a generative model, atoms map onto distributions over words; one can also infer the topic that generated a sequence of words. We illustrate our method with a prominent example of underutilized text: the U.S. National Violent Death Reporting System (NVDRS). The NVDRS summarizes violent death incidents with structured variables and unstructured narratives. We identify 225 latent topics in the narratives (e.g., preparation for death and physical aggression); many of these topics are not captured by existing structured variables. Motivated by known patterns in suicide and homicide by gender, and recent research on gender biases in semantic space, we identify the gender bias of our topics (e.g., a topic about pain medication is feminine). We then compare the gender bias of topics to their prevalence in narratives of female versus male victims. Results provide a detailed quantitative picture of reporting about lethal violence and its gendered nature. Our method offers a flexible and broadly applicable approach to model topics in text data.
翻訳日:2021-06-30 00:49:13 公開日:2021-06-28
# (参考訳) 時間領域における軽度オーバーラップ音声訓練:ターゲット音声分離と個人的VAD効果の同時学習 [全文訳有]

Sparsely Overlapped Speech Training in the Time Domain: Joint Learning of Target Speech Separation and Personal VAD Benefits ( http://arxiv.org/abs/2106.14371v1 )

ライセンス: CC BY 4.0
Qingjian Lin, Lin Yang, Xuyang Wang, Luyuan Xie, Chen Jia, Junjie Wang(参考訳) ターゲット音声分離(Target speech separation)とは、特定の話者の音声を、追加の話者識別情報に従って混合音声からフィルタリングする過程である。 近年の作業は、時間領域の信号を直接処理することで大幅に改善されている。 多くは、訓練のために完全に重複した混合音声を使用する。 しかし,実際の会話のほとんどがランダムに発生し,重複度が低かったため,重複率の異なるトレーニングが有益である。 そのため、一般に使われているsi-snrの損失はサイレントソースの定義を持たない。 本稿では,重み付きSI-SNR損失と目標音声分離と個人VADの併用学習を提案する。 重み付きSI-SNR損失は、目標話者の持続時間に比例する重み係数を課し、目標話者が欠落した場合にはゼロを返す。 一方、個人vadはマスクを生成し、非ターゲット音声を沈黙に設定する。 実験により, 提案手法は, 完全重複音声におけるSDRと, 疎重複音声における4.17dB, 0.9dBにおいて, 1.73dBのベースラインよりも優れていた。 さらに、性能がわずかに低下すれば、モデルが推論の時間コストを削減できます。

Target speech separation is the process of filtering a certain speaker's voice out of speech mixtures according to the additional speaker identity information provided. Recent works have made considerable improvement by processing signals in the time domain directly. The majority of them take fully overlapped speech mixtures for training. However, since most real-life conversations occur randomly and are sparsely overlapped, we argue that training with different overlap ratio data benefits. To do so, an unavoidable problem is that the popularly used SI-SNR loss has no definition for silent sources. This paper proposes the weighted SI-SNR loss, together with the joint learning of target speech separation and personal VAD. The weighted SI-SNR loss imposes a weight factor that is proportional to the target speaker's duration and returns zero when the target speaker is absent. Meanwhile, the personal VAD generates masks and sets non-target speech to silence. Experiments show that our proposed method outperforms the baseline by 1.73 dB in terms of SDR on fully overlapped speech, as well as by 4.17 dB and 0.9 dB on sparsely overlapped speech of clean and noisy conditions. Besides, with slight degradation in performance, our model could reduce the time costs in inference.
翻訳日:2021-06-30 00:45:26 公開日:2021-06-28
# (参考訳) エキスパート・イン・ザ・ループ機械学習によるモデルインフォームドッキング [全文訳有]

Towards Model-informed Precision Dosing with Expert-in-the-loop Machine Learning ( http://arxiv.org/abs/2106.14384v1 )

ライセンス: CC BY 4.0
Yihuang Kang, Yi-Wen Chiu, Ming-Yen Lin, Fang-yi Su, Sheng-Tai Huang(参考訳) 機械学習(ML)とその応用は私たちの生活を変えつつありますが、公正で説明責任があり、透明で倫理的な人工知能の開発に関する問題も生み出しています。 mlモデルはまだ完全には理解できないため、アルゴリズムによる意思決定プロセスの一部として人間が必要であることは明らかです。 本稿では,モデル学習を高速化し,モデル学習ループに人間専門家を組み込むことで解釈可能性を向上させるMLフレームワークを検討する。 本稿では,データアノテーションのコストが高く,目的タスクと入力特徴の関係をモデル化する適切なデータがないという学習問題に対処することを目的とした,新たなヒューマン・イン・ザ・ループMLフレームワークを提案する。 実験結果から,データから解釈可能なルールを学習し,データアノテーションをルール表現に置き換えることで,専門家の作業負荷を低減できる可能性が示唆された。 このアプローチは、反復的なモデル学習プロセスに専門家のフィードバックを導入することで、アルゴリズムバイアスを取り除くのにも役立ちます。

Machine Learning (ML) and its applications have been transforming our lives but it is also creating issues related to the development of fair, accountable, transparent, and ethical Artificial Intelligence. As the ML models are not fully comprehensible yet, it is obvious that we still need humans to be part of algorithmic decision-making processes. In this paper, we consider a ML framework that may accelerate model learning and improve its interpretability by incorporating human experts into the model learning loop. We propose a novel human-in-the-loop ML framework aimed at dealing with learning problems that the cost of data annotation is high and the lack of appropriate data to model the association between the target tasks and the input features. With an application to precision dosing, our experimental results show that the approach can learn interpretable rules from data and may potentially lower experts' workload by replacing data annotation with rule representation editing. The approach may also help remove algorithmic bias by introducing experts' feedback into the iterative model learning process.
翻訳日:2021-06-30 00:34:29 公開日:2021-06-28
# (参考訳) 政治イデオロギーと政策位置の分極-多次元的アプローチ [全文訳有]

Political Ideology and Polarization of Policy Positions: A Multi-dimensional Approach ( http://arxiv.org/abs/2106.14387v1 )

ライセンス: CC BY 4.0
Barea Sinno, Bernardo Oviedo, Katherine Atwell, Malihe Alikhani, Junyi Jessy Li(参考訳) 政治イデオロギーの分析と分極は、社会における政治的文脈の理解を進める上で非常に重要である。 近年の研究は、ニュースメディアのイデオロギー的バイアス(すなわちスタンス)を左翼のスペクトルに沿って理解する上で大きな進歩を遂げている。 本研究では, 姿勢とイデオロギーの曖昧な共存を分離した議論の下で, 政策のイデオロギーを新たなアプローチで研究する。 政治学の理論的説明と並行して,我々は,イデオロギーを多次元的な構成として扱い,議論中の政治イデオロギーが指導された政治科学者や言語学者によって注釈付けされた,最初のダイアクロニックなニュース記事データセットを導入する。 この枠組みは,イデオロギー距離の時間的多面的尺度である分極の定量的解析を可能にする。 さらに,イデオロギー予測のベースラインモデルを提案する。

Analyzing political ideology and polarization is of critical importance in advancing our understanding of the political context in society. Recent research has made great strides towards understanding the ideological bias (i.e., stance) of news media along a left-right spectrum. In this work, we take a novel approach and study the ideology of the policy under discussion teasing apart the nuanced co-existence of stance and ideology. Aligned with the theoretical accounts in political science, we treat ideology as a multi-dimensional construct, and introduce the first diachronic dataset of news articles whose political ideology under discussion is annotated by trained political scientists and linguists at the paragraph-level. We showcase that this framework enables quantitative analysis of polarization, a temporal, multifaceted measure of ideological distance. We further present baseline models for ideology prediction.
翻訳日:2021-06-30 00:22:25 公開日:2021-06-28
# (参考訳) 汎用ロボットマニピュレーションのための単一RGB-Dカメラ遠隔操作 [全文訳有]

Single RGB-D Camera Teleoperation for General Robotic Manipulation ( http://arxiv.org/abs/2106.14396v1 )

ライセンス: CC BY 4.0
Quan Vuong, Yuzhe Qin, Runlin Guo, Xiaolong Wang, Hao Su, Henrik Christensen(参考訳) 人間のモーションキャプチャー装置として1台のRGB-Dカメラを用いた遠隔操作システムを提案する。 本システムでは, 布の折り畳み, ハンマー加工, 3mmクリアランスペグなどの汎用的な操作を行うことができる。 遠隔操作システムの柔軟性を高めるために,非カルテ的斜め座標フレーム,動的運動スケーリング,演算子フレームの再配置を提案する。 遠隔操作への参入障壁を下げることで、監視された自律システムのより広い展開が可能になり、ロボット操作のための機械学習の可能性を解き放つ現実的なデータセットが生成されると仮定する。 私たちのシステムのデモは、https://sites.google .com/view/manipulati on-teleop-with-rgbdで利用可能です。

We propose a teleoperation system that uses a single RGB-D camera as the human motion capture device. Our system can perform general manipulation tasks such as cloth folding, hammering and 3mm clearance peg in hole. We propose the use of non-Cartesian oblique coordinate frame, dynamic motion scaling and reposition of operator frames to increase the flexibility of our teleoperation system. We hypothesize that lowering the barrier of entry to teleoperation will allow for wider deployment of supervised autonomy system, which will in turn generates realistic datasets that unlock the potential of machine learning for robotic manipulation. Demo of our systems are available online https://sites.google .com/view/manipulati on-teleop-with-rgbd
翻訳日:2021-06-30 00:05:46 公開日:2021-06-28
# (参考訳) BERTを用いた3次元CNNネットワークによるCTスキャン画像の自動診断 [全文訳有]

A 3D CNN Network with BERT For Automatic COVID-19 Diagnosis From CT-Scan Images ( http://arxiv.org/abs/2106.14403v1 )

ライセンス: CC BY 4.0
Weijun Tan, Jingfeng Liu(参考訳) 肺CTスキャンスライス画像からのCOVID1-19自動診断フレームワークを提案する。 本フレームワークでは、CTスキャンボリュームのスライス画像をまずセグメント化技術を用いてプロプロセスし、閉鎖肺の画像をフィルタリングし、無用な背景を除去する。 次に、リサンプリング法を用いて、トレーニングと検証のために、固定数のスライス画像の1つまたは複数のセットを選択する。 BERTを用いた3次元CNNネットワークを用いて、選択したスライス画像の分類を行う。 このネットワークでは、埋め込み機能も抽出される。 ボリューム内に複数のスライス画像がある場合、全セットの特徴を抽出し、CTスキャンボリューム全体のグローバル特徴ベクトルにプールする。 単純な多層パーセプトロン(MLP)ネットワークを使用して、集約された特徴ベクトルをさらに分類する。 モデルはトレーニングされ、提供されるトレーニングと検証データセットに基づいて評価される。 検証データセットでは精度が0.9278、F1スコアが0.9261である。

We present an automatic COVID1-19 diagnosis framework from lung CT-scan slice images. In this framework, the slice images of a CT-scan volume are first proprocessed using segmentation techniques to filter out images of closed lung, and to remove the useless background. Then a resampling method is used to select one or multiple sets of a fixed number of slice images for training and validation. A 3D CNN network with BERT is used to classify this set of selected slice images. In this network, an embedding feature is also extracted. In cases where there are more than one set of slice images in a volume, the features of all sets are extracted and pooled into a global feature vector for the whole CT-scan volume. A simple multiple-layer perceptron (MLP) network is used to further classify the aggregated feature vector. The models are trained and evaluated on the provided training and validation datasets. On the validation dataset, the accuracy is 0.9278 and the F1 score is 0.9261.
翻訳日:2021-06-29 23:48:09 公開日:2021-06-28
# (参考訳) 段階的パターンの時間的制約を捉える

Capturing the temporal constraints of gradual patterns ( http://arxiv.org/abs/2106.14417v1 )

ライセンス: CC BY 4.0
Dickson Odhiambo Owuor(参考訳) 漸進的パターンマイニングは、"the more x, the more y"のような漸進的ルールを通じて属性相関を抽出することができる。 このような相関関係はデータセットのクイックスキャンによって明らかでない属性間の関係を識別し分離するのに有用である。 例えば、研究者は段階的なパターンマイニングを適用して、データセットのどの属性が不慣れな相関を示すかを決定することで、より深い探索や分析のためにそれらを分離することができる。 そこで本研究では, 生物アリの行動を模倣し, 餌を探すための最短経路を探索し, 組合せ問題を解くための一般的な確率的手法を用いたアリコロニー最適化手法を提案する。 第2の貢献として,既存の段階的パターンマイニング手法を拡張し,影響のある段階的項目集合間の時間的ラグを近似し,段階的パターン抽出を可能にした。 このようなパターンはファジィ時間的漸進的なパターンと呼ばれ、「Xが多ければ多いほどYが約3ヶ月後になる」という形式をとるかもしれない。 第3のコントリビューションでは、主に段階的なパターンマイニングアルゴリズムの実装をクラウドプラットフォームに統合可能なデータ交差モデルを提案しています。 このコントリビューションは、私たちの社会のほぼすべての領域におけるIoTアプリケーションの普及によるものであり、異なるソースからの大規模な時系列データの提供が伴います。

Gradual pattern mining allows for extraction of attribute correlations through gradual rules such as: "the more X, the more Y". Such correlations are useful in identifying and isolating relationships among the attributes that may not be obvious through quick scans on a data set. For instance, a researcher may apply gradual pattern mining to determine which attributes of a data set exhibit unfamiliar correlations in order to isolate them for deeper exploration or analysis. In this work, we propose an ant colony optimization technique which uses a popular probabilistic approach that mimics the behavior biological ants as they search for the shortest path to find food in order to solve combinatorial problems. In our second contribution, we extend an existing gradual pattern mining technique to allow for extraction of gradual patterns together with an approximated temporal lag between the affected gradual item sets. Such a pattern is referred to as a fuzzy-temporal gradual pattern and it may take the form: "the more X, the more Y, almost 3 months later". In our third contribution, we propose a data crossing model that allows for integration of mostly gradual pattern mining algorithm implementations into a Cloud platform. This contribution is motivated by the proliferation of IoT applications in almost every area of our society and this comes with provision of large-scale time-series data from different sources.
翻訳日:2021-06-29 23:39:26 公開日:2021-06-28
# (参考訳) 観察・介入データを用いた因果強化学習 [全文訳有]

Causal Reinforcement Learning using Observational and Interventional Data ( http://arxiv.org/abs/2106.14421v1 )

ライセンス: CC BY 4.0
Maxime Gasse, Damien Grasset, Guillaume Gaudron, Pierre-Yves Oudeyer(参考訳) 環境の因果モデルを効率的に学習することは、PMDPで動作するモデルベースRLエージェントの重要な課題である。 ここでは,学習エージェントが環境との直接インタラクション(干渉データ)を通じてオンライン体験を収集できるだけでなく,環境と相互作用する他のエージェント(観測データ)を観察して得られるオフライン体験の大規模なコレクションにもアクセスできるシナリオについて考察する。 この状況を非自明なものにしている重要な要素は、学習エージェントが観察しない隠れ情報に基づいて、観察されたエージェントが環境と対話できるようにすることである。 オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか? そして、オフライン体験がエージェントのパフォーマンスを改善することは期待できますか? これらの質問に答えるために,do-calculusの確立された因果フレームワークからアイデアをインポートし,モデルに基づく強化学習を因果推論問題として表現する。 そこで本研究では,学習中にオフラインデータを活用する方法を提案する。 簡単に言うと、この方法は、介入状態と観測状態の両方を説明する潜時ベースの因果遷移モデルを学習し、回復した潜時変数を使用してデコンウンディングを介して標準のPOMDP遷移モデルを推測する。 本手法は,オフラインデータ(漸近的な場合)によるより良い一般化保証を実現するという意味では,正確かつ効率的であることを証明し,その効果を人工玩具問題に対して実証的に示す。 我々の貢献は、強化学習の分野と因果関係のギャップを埋めることである。

Learning efficiently a causal model of the environment is a key challenge of model-based RL agents operating in POMDPs. We consider here a scenario where the learning agent has the ability to collect online experiences through direct interactions with the environment (interventional data), but has also access to a large collection of offline experiences, obtained by observing another agent interacting with the environment (observational data). A key ingredient, that makes this situation non-trivial, is that we allow the observed agent to interact with the environment based on hidden information, which is not observed by the learning agent. We then ask the following questions: can the online and offline experiences be safely combined for learning a causal model ? And can we expect the offline experiences to improve the agent's performances ? To answer these questions, we import ideas from the well-established causal framework of do-calculus, and we express model-based reinforcement learning as a causal inference problem. Then, we propose a general yet simple methodology for leveraging offline data during learning. In a nutshell, the method relies on learning a latent-based causal transition model that explains both the interventional and observational regimes, and then using the recovered latent variable to infer the standard POMDP transition model via deconfounding. We prove our method is correct and efficient in the sense that it attains better generalization guarantees due to the offline data (in the asymptotic case), and we illustrate its effectiveness empirically on synthetic toy problems. Our contribution aims at bridging the gap between the fields of reinforcement learning and causality.
翻訳日:2021-06-29 23:38:13 公開日:2021-06-28
# (参考訳) 埋め込みによる単調および非単調属性依存のモデル化:理論的解析 [全文訳有]

Modelling Monotonic and Non-Monotonic Attribute Dependencies with Embeddings: A Theoretical Analysis ( http://arxiv.org/abs/2106.14431v1 )

ライセンス: CC BY 4.0
Steven Schockaert(参考訳) 過去10年間で、人工知能ではエンティティ埋め込みがユビキタスになってきた。 このような埋め込みは本質的にコンパクトだが意味的に意味のある表現として機能する。 ほとんどのアプローチでは、ベクターはエンティティ自身を表現するだけでなく、関連する属性を表すために使われる。 属性埋め込みを使用する重要な利点は、属性間の(いくつかの)セマンティックな依存関係をキャプチャできることである。 しかしながら、どのようなセマンティクス依存をこの方法でモデル化できるかは、ほとんど分かっていない。 本研究の目的は, 既知属性の埋め込みをプールすることで, エンティティの埋め込みが得られるような設定に焦点をあてて, この問題を浮き彫りにすることである。 我々の特に焦点は、実際には属性依存を効果的に学習する能力ではなく、異なる埋め込み戦略の理論的限界を研究することである。 まず、いくつかのネガティブな結果を示し、最も人気のある埋め込みモデルのいくつかは、基本的なホーンルールさえキャプチャできないことを明らかにした。 しかし、いくつかの埋め込み戦略は、原則として単調な属性と非単調な属性の依存関係をモデル化することができる。

During the last decade, entity embeddings have become ubiquitous in Artificial Intelligence. Such embeddings essentially serve as compact but semantically meaningful representations of the entities of interest. In most approaches, vectors are used for representing the entities themselves, as well as for representing their associated attributes. An important advantage of using attribute embeddings is that (some of the) semantic dependencies between the attributes can thus be captured. However, little is known about what kinds of semantic dependencies can be modelled in this way. The aim of this paper is to shed light on this question, focusing on settings where the embedding of an entity is obtained by pooling the embeddings of its known attributes. Our particular focus is on studying the theoretical limitations of different embedding strategies, rather than their ability to effectively learn attribute dependencies in practice. We first show a number of negative results, revealing that some of the most popular embedding models are not able to capture even basic Horn rules. However, we also find that some embedding strategies are capable, in principle, of modelling both monotonic and non-monotonic attribute dependencies.
翻訳日:2021-06-29 23:16:01 公開日:2021-06-28
# (参考訳) Masked Hierarchical Transformer による効率的な対話状態追跡 [全文訳有]

Efficient Dialogue State Tracking by Masked Hierarchical Transformer ( http://arxiv.org/abs/2106.14433v1 )

ライセンス: CC BY 4.0
Min Mao, Jiasheng Liu, Jingyao Zhou, Haipang Wu(参考訳) 本稿では,dstc 9トラック2へのアプローチについて述べる。 クロスリンガルマルチドメインダイアログ状態追跡,タスク目標は,リッチリソース言語によるトレーニングセットと低リソース言語によるテストセットを備えたクロスリンガルダイアログ状態トラッカの構築である。 スロット操作分類タスクと状態追跡タスクをそれぞれ共同学習する方法を定式化する。 さらに,対話に関する文脈情報を融合する新しいマスク機構を設計し,提案手法はDSTC Challenge IIにおいて,MultiWOZ(en - zh)データセットとCrossWOZ(zh - en)データセットで62.37%,23.96%の精度で優れた性能を発揮することを示した。

This paper describes our approach to DSTC 9 Track 2: Cross-lingual Multi-domain Dialog State Tracking, the task goal is to build a Cross-lingual dialog state tracker with a training set in rich resource language and a testing set in low resource language. We formulate a method for joint learning of slot operation classification task and state tracking task respectively. Furthermore, we design a novel mask mechanism for fusing contextual information about dialogue, the results show the proposed model achieves excellent performance on DSTC Challenge II with a joint accuracy of 62.37% and 23.96% in MultiWOZ(en - zh) dataset and CrossWOZ(zh - en) dataset, respectively.
翻訳日:2021-06-29 22:58:26 公開日:2021-06-28
# (参考訳) 画像マッティングのための事前情報アライメント [全文訳有]

Prior-Induced Information Alignment for Image Matting ( http://arxiv.org/abs/2106.14439v1 )

ライセンス: CC BY-SA 4.0
Yuhao Liu, Jiake Xie, Yu Qiao, Yong Tang and, Xin Yang(参考訳) 画像マッチングは画像中の前景画素の不透明度を推定することを目的とした不適切な問題である。 しかし、既存のディープラーニングベースの手法の多くは、いまだに粗い詳細に悩まされている。 一般に、これらのアルゴリズムは決定論的領域 (FG と BG の画素) と非決定的領域 (in-between のピクセル) の間の探索の度合いを決定的に区別することができない。 本稿では,画素間応答マップの識別と層間特徴マップの相関を効率的にモデル化できるpiiamatting(prior-in duced information alignment matting network)という新しいネットワークを提案する。 主に動的ガウス変調機構(DGM)と情報調整戦略(IA)で構成されている。 具体的には、DGMは、先行分布から学習した画素単位のドメイン応答マップを動的に取得することができる。 応答マップは、トレーニング中の不透明度変動と収束過程の関係を示すことができる。 一方、IAは、情報マッチングモジュール(IMM)と情報集約モジュール(IAM)とから構成され、隣り合う階層的特徴を適応的にマッチングして集約する。 また,マルチスケール・レセプティブ・フィールド情報をレセプション段階で統合し,変動する外観詳細を復元するマルチスケール・リファインメント(msr)モジュールを開発した。 提案したPIIAMattingはAlphamatting.com, composition-1K, Distinctions-646データセットの最先端の画像マッチング手法に対して好適に動作することを示す。

Image matting is an ill-posed problem that aims to estimate the opacity of foreground pixels in an image. However, most existing deep learning-based methods still suffer from the coarse-grained details. In general, these algorithms are incapable of felicitously distinguishing the degree of exploration between deterministic domains (certain FG and BG pixels) and undetermined domains (uncertain in-between pixels), or inevitably lose information in the continuous sampling process, leading to a sub-optimal result. In this paper, we propose a novel network named Prior-Induced Information Alignment Matting Network (PIIAMatting), which can efficiently model the distinction of pixel-wise response maps and the correlation of layer-wise feature maps. It mainly consists of a Dynamic Gaussian Modulation mechanism (DGM) and an Information Alignment strategy (IA). Specifically, the DGM can dynamically acquire a pixel-wise domain response map learned from the prior distribution. The response map can present the relationship between the opacity variation and the convergence process during training. On the other hand, the IA comprises an Information Match Module (IMM) and an Information Aggregation Module (IAM), jointly scheduled to match and aggregate the adjacent layer-wise features adaptively. Besides, we also develop a Multi-Scale Refinement (MSR) module to integrate multi-scale receptive field information at the refinement stage to recover the fluctuating appearance details. Extensive quantitative and qualitative evaluations demonstrate that the proposed PIIAMatting performs favourably against state-of-the-art image matting methods on the Alphamatting.com, Composition-1K and Distinctions-646 dataset.
翻訳日:2021-06-29 22:41:56 公開日:2021-06-28
# (参考訳) 事前学習した言語モデルに基づく知識接地対話システム [全文訳有]

A Knowledge-Grounded Dialog System Based on Pre-Trained Language Models ( http://arxiv.org/abs/2106.14444v1 )

ライセンス: CC BY 4.0
Weijie Zhang, Jiaoxuan Chen, Haipang Wu, Sanhui Wan, Gongfeng Li(参考訳) 本稿では,9回目となるDialog System Technology Challenge (DSTC9) Track 1 - Beyond Domain APIs: Task-oriented Conversational Modeling with Unstructured Knowledge Accessについて述べる。 既存の言語モデルによるトランスファー学習を活用して,課題トラックのタスクを達成します。 具体的には,タスクを4つのサブタスクに分割し,各サブタスク上で複数のトランスフォーマーモデルを微調整した。 従来のエンティティマッチング技術とモデルの組み合わせや,言語モデルの出力層へのポインタネットワークの追加など,パフォーマンスと効率の両面での利益をもたらすような変更を加えました。

We present a knowledge-grounded dialog system developed for the ninth Dialog System Technology Challenge (DSTC9) Track 1 - Beyond Domain APIs: Task-oriented Conversational Modeling with Unstructured Knowledge Access. We leverage transfer learning with existing language models to accomplish the tasks in this challenge track. Specifically, we divided the task into four sub-tasks and fine-tuned several Transformer models on each of the sub-tasks. We made additional changes that yielded gains in both performance and efficiency, including the combination of the model with traditional entity-matching techniques, and the addition of a pointer network to the output layer of the language model.
翻訳日:2021-06-29 22:19:50 公開日:2021-06-28
# (参考訳) 特徴の組み合わせが注目される - baidu soccer embeddedsとtransformer based temporal detection [全文訳有]

Feature Combination Meets Attention: Baidu Soccer Embeddings and Transformer based Temporal Detection ( http://arxiv.org/abs/2106.14447v1 )

ライセンス: CC BY 4.0
Xin Zhou, Le Kang, Zhiyu Cheng, Bo He, Jingyu Xin(参考訳) 急速に進化するインターネット技術と新興ツールによって、オンラインで生成されたスポーツ関連ビデオは前例のないペースで増えている。 スポーツ映像編集/ハイライト生成プロセスを自動化するために、キータスクは、長い未撮影映像のイベントを正確に認識し、特定することである。 本報告では,サッカー中継映像におけるイベントの発生状況と発生時期を検出する2段階のパラダイムを提案する。 具体的には,サッカーデータ上に複数の行動認識モデルを微調整し,高レベルの意味的特徴を抽出し,目標イベントを特定するための変圧器に基づく時間検出モジュールを設計する。 このアプローチは,CVPR 2021 ActivityNetワークショップにおいて,アクションスポッティングとリプレイグラウンドングという2つのタスクで最先端のパフォーマンスを達成した。 サッカー埋め込み機能はhttps://github.com/b aidu-research/vidpre ss-sportsでリリースしています。 これらの機能をより広いコミュニティと共有することで、サッカービデオ理解の研究を加速したいと思っています。

With rapidly evolving internet technologies and emerging tools, sports related videos generated online are increasing at an unprecedentedly fast pace. To automate sports video editing/highlight generation process, a key task is to precisely recognize and locate the events in the long untrimmed videos. In this tech report, we present a two-stage paradigm to detect what and when events happen in soccer broadcast videos. Specifically, we fine-tune multiple action recognition models on soccer data to extract high-level semantic features, and design a transformer based temporal detection module to locate the target events. This approach achieved the state-of-the-art performance in both two tasks, i.e., action spotting and replay grounding, in the SoccerNet-v2 Challenge, under CVPR 2021 ActivityNet workshop. Our soccer embedding features are released at https://github.com/b aidu-research/vidpre ss-sports. By sharing these features with the broader community, we hope to accelerate the research into soccer video understanding.
翻訳日:2021-06-29 21:54:13 公開日:2021-06-28
# (参考訳) sluにおける意図分類と領域外検出の一般化 [全文訳有]

Enhancing the Generalization for Intent Classification and Out-of-Domain Detection in SLU ( http://arxiv.org/abs/2106.14464v1 )

ライセンス: CC BY 4.0
Yilin Shen, Yen-Chang Hsu, Avik Ray, Hongxia Jin(参考訳) インテント分類は、音声言語理解(SLU)における主要な課題である。 ほとんどのモデルは、事前コンパイルされたドメイン内(IND)訓練発話で構築されているため、サポート対象のドメイン外(OOD)発話を検出する能力は、実用上重要な効果がある。 近年の研究では、余分なデータやラベルを使用することでOOD検出性能が向上することが示されているが、そのようなデータ収集にはコストがかかる可能性がある。 本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。 提案手法は,バニラ分類器の過密な現象を低減し,両ケースにおいてより優れた一般化を実現する新しいドメインレギュラ化モジュール(drm)を設計する。 さらにDRMは、ニューラルネットワークベースのインテント分類器の最後のレイヤのドロップイン置換として使用することができ、大幅な改善のための低コストな戦略を提供する。 4つのデータセットの評価結果から,BERTモデルとRoBERTaモデルを用いて構築した手法は,既存のアプローチに対する最先端のパフォーマンスと,比較のために作成した強力なベースラインを実現する。

Intent classification is a major task in spoken language understanding (SLU). Since most models are built with pre-collected in-domain (IND) training utterances, their ability to detect unsupported out-of-domain (OOD) utterances has a critical effect in practical use. Recent works have shown that using extra data and labels can improve the OOD detection performance, yet it could be costly to collect such data. This paper proposes to train a model with only IND data while supporting both IND intent classification and OOD detection. Our method designs a novel domain-regularized module (DRM) to reduce the overconfident phenomenon of a vanilla classifier, achieving a better generalization in both cases. Besides, DRM can be used as a drop-in replacement for the last layer in any neural network-based intent classifier, providing a low-cost strategy for a significant improvement. The evaluation on four datasets shows that our method built on BERT and RoBERTa models achieves state-of-the-art performance against existing approaches and the strong baselines we created for the comparisons.
翻訳日:2021-06-29 21:45:32 公開日:2021-06-28
# (参考訳) Transformerを用いたCSFI問題インスタンスの複雑度に基づく分割 [全文訳有]

Complexity-based partitioning of CSFI problem instances with Transformers ( http://arxiv.org/abs/2106.14481v1 )

ライセンス: CC BY 4.0
Luca Benedetto, Paolo Fantozzi, Luigi Laura(参考訳) 本稿では,CNF(Conjunctive Normal Form)シンタクティック・フォーミュラ同型問題(CSFI)を,複雑性の異なる群に分割する2段階のアプローチを提案する。 まず、我々は、csfi問題のインスタンスを解決しようとするtransformerアーキテクチャに基づいたモデルを構築します。 次に,そのようなモデルの誤りを活用し,問題インスタンスを異なる複雑性の群に分割するために,第2のトランスフォーマーベースのモデルをトレーニングすることで,コストのかかるリソースを使わずに解決可能な問題を検出する。 提案手法を擬似ランダムに生成したデータセット上で評価し,有望な結果を得た。 最後に、同じタイプのテキスト表現に基づいて、このアプローチを他の問題に拡張する可能性について議論する。

In this paper, we propose a two-steps approach to partition instances of the Conjunctive Normal Form (CNF) Syntactic Formula Isomorphism problem (CSFI) into groups of different complexity. First, we build a model, based on the Transformer architecture, that attempts to solve instances of the CSFI problem. Then, we leverage the errors of such model and train a second Transformer-based model to partition the problem instances into groups of different complexity, thus detecting the ones that can be solved without using too expensive resources. We evaluate the proposed approach on a pseudo-randomly generated dataset and obtain promising results. Finally, we discuss the possibility of extending this approach to other problems based on the same type of textual representation.
翻訳日:2021-06-29 21:32:32 公開日:2021-06-28
# (参考訳) 非IIDデータからの最適フェデレーション学習のための重み付きダイバージェンス・ディバイド・アンド・コンカレントアプローチ [全文訳有]

Weight Divergence Driven Divide-and-Conquer Approach for Optimal Federated Learning from non-IID Data ( http://arxiv.org/abs/2106.14503v1 )

ライセンス: CC BY 4.0
Pravin Chandran, Raghavendra Bhat, Avinash Chakravarthi, Srikanth Chandar(参考訳) Federated Learningは、トレーニングデータを集中化することなく、分散デバイスに格納されたデータのトレーニングを可能にする。 データの不均一性(非識別および独立分布または非iid)を扱う能力に対処することは、連合学習を広く展開するための鍵となる。 本稿では,非IID環境におけるFedAvg制限を克服し,一般的なFedAvgアグリゲーションアルゴリズムの利用を可能にする新しいDivide-and-Conquerトレーニング手法を提案する。 そこで本研究では,深層学習ネットワークをクラス非依存な初期層とクラス特異的深層に分けて分割・克服訓練を行うための,コサイン距離に基づく重み分岐量測定法を提案する。 この手法は,feedprox,feedmaなどの最先端集約アルゴリズムによって達成された数値と同等(場合によっては超過)に訓練されたモデル精度を達成していることを示す。 また,本手法が特定の文書化条件下での計算と帯域幅の最適化につながることを示す。

Federated Learning allows training of data stored in distributed devices without the need for centralizing training data, thereby maintaining data privacy. Addressing the ability to handle data heterogeneity (non-identical and independent distribution or non-IID) is a key enabler for the wider deployment of Federated Learning. In this paper, we propose a novel Divide-and-Conquer training methodology that enables the use of the popular FedAvg aggregation algorithm by overcoming the acknowledged FedAvg limitations in non-IID environments. We propose a novel use of Cosine-distance based Weight Divergence metric to determine the exact point where a Deep Learning network can be divided into class agnostic initial layers and class-specific deep layers for performing a Divide and Conquer training. We show that the methodology achieves trained model accuracy at par (and in certain cases exceeding) with numbers achieved by state-of-the-art Aggregation algorithms like FedProx, FedMA, etc. Also, we show that this methodology leads to compute and bandwidth optimizations under certain documented conditions.
翻訳日:2021-06-29 21:19:45 公開日:2021-06-28
# (参考訳) 断面データを用いた成人脳の異型加齢モデル [全文訳有]

A Diffeomorphic Aging Model for Adult Human Brain from Cross-Sectional Data ( http://arxiv.org/abs/2106.14516v1 )

ライセンス: CC BY 4.0
Alphin J Thottupattu and Jayanthi Sivaswamy and Venkateswaran P.Krishnan(参考訳) 脳のノルマ的老化傾向は、神経学的構造障害の評価において重要な指標となる。 このようなモデルは通常、異なる時間点で同じ被験者の追跡データである縦方向の脳画像データから開発される。 実際には、このような長手データの取得は困難である。 そこで本稿では,異なる時点の異なる被験者の画像を用いて,縦断データがない場合に,与えられた人口の老化モデルを構築する手法を提案する。 本研究では,データから導出される構造テンプレート上の微分同相変形として老化モデルを定義し,自然老化に近い老化モデルを保存する手法を提案する。 提案モデルは,異なる年齢の被験者の集合から構築したテンプレートを提供する2つの公開断面データセット上で,有効に検証される。

Normative aging trends of the brain can serve as an important reference in the assessment of neurological structural disorders. Such models are typically developed from longitudinal brain image data -- follow-up data of the same subject over different time points. In practice, obtaining such longitudinal data is difficult. We propose a method to develop an aging model for a given population, in the absence of longitudinal data, by using images from different subjects at different time points, the so-called cross-sectional data. We define an aging model as a diffeomorphic deformation on a structural template derived from the data and propose a method that develops topology preserving aging model close to natural aging. The proposed model is successfully validated on two public cross-sectional datasets which provide templates constructed from different sets of subjects at different age points.
翻訳日:2021-06-29 21:08:03 公開日:2021-06-28
# (参考訳) 過剰判定による対物的視覚的説明 [全文訳有]

Contrastive Counterfactual Visual Explanations With Overdetermination ( http://arxiv.org/abs/2106.14556v1 )

ライセンス: CC BY 4.0
Adam White, Kwun Ho Ngan, James Phelan, Saman Sadeghi Afgeh, Kevin Ryan, Constantino Carlos Reyes-Aldasoro, Artur d'Avila Garcez(参考訳) 本稿では,CLEAR画像と呼ばれる新しいAI手法を提案する。 CLEARイメージは、満足いく説明は対照的で、事実的であり、測定可能であるべきだという見解に基づいている。 CLEAR Imageは、画像と対応する画像とを逆学習によって自動生成することで、画像の分類確率を説明する。 これにより、各セグメントの重要性を忠実に決定する分節と摂動の両方が可能になる。 CLEAR画像は医学画像ケーススタディに応用され、グラッドCAMやLIMEなどの手法よりも平均27%向上した。 クリアイメージは、画像に複数のパッチがあり、そのどれかがそれ自身で分類確率を1つに近づけるのに十分な"causal over determinationation&q uot;のケースを特定するのに優れている。

A novel explainable AI method called CLEAR Image is introduced in this paper. CLEAR Image is based on the view that a satisfactory explanation should be contrastive, counterfactual and measurable. CLEAR Image explains an image's classification probability by contrasting the image with a corresponding image generated automatically via adversarial learning. This enables both salient segmentation and perturbations that faithfully determine each segment's importance. CLEAR Image was successfully applied to a medical imaging case study where it outperformed methods such as Grad-CAM and LIME by an average of 27% using a novel pointing game metric. CLEAR Image excels in identifying cases of "causal overdetermination&qu ot; where there are multiple patches in an image, any one of which is sufficient by itself to cause the classification probability to be close to one.
翻訳日:2021-06-29 20:51:30 公開日:2021-06-28
# (参考訳) Goal-Directed Constraint Answer Set Programming を用いたイベント計算のモデリングと推論 [全文訳有]

Modeling and Reasoning in Event Calculus using Goal-Directed Constraint Answer Set Programming ( http://arxiv.org/abs/2106.14566v1 )

ライセンス: CC BY 4.0
Joaqu\'in Arias and Manuel Carro and Zhuo Chen and Gopal Gupta(参考訳) 例えば、説明可能なAIを特徴とする人間のようなAIシステムを構築するためには、自動コモンセンス推論が不可欠である。 事象計算 (event calculus, ec) は、常識推論を健全で論理的な基礎でモデル化する形式論の族である。 それまでのECを用いた推論の機械化の試みは、高密度領域の連続的な変化(例えば時間や他の物理量)、変数間の制約、デフォルトの否定、異なる推論手法の均一な適用に困難に直面していた。 制約付き述語応答集合プログラミングのためのクエリ駆動トップダウン実行モデルであるs(casp)を用いて,ecを用いたモデルと推論を行う。 我々は、ECシナリオが自然に直接 s(CASP) にエンコードされる方法と、高密度時間と高密度流動性の両方を含む制約を特徴とするドメインにおける誘引的および誘引的推論タスクを実現する方法を示す。

Automated commonsense reasoning is essential for building human-like AI systems featuring, for example, explainable AI. Event Calculus (EC) is a family of formalisms that model commonsense reasoning with a sound, logical basis. Previous attempts to mechanize reasoning using EC faced difficulties in the treatment of the continuous change in dense domains (e.g., time and other physical quantities), constraints among variables, default negation, and the uniform application of different inference methods, among others. We propose the use of s(CASP), a query-driven, top-down execution model for Predicate Answer Set Programming with Constraints, to model and reason using EC. We show how EC scenarios can be naturally and directly encoded in s(CASP) and how it enables deductive and abductive reasoning tasks in domains featuring constraints involving both dense time and dense fluents.
翻訳日:2021-06-29 20:37:15 公開日:2021-06-28
# (参考訳) 周波数領域解析によるリアルタイムロバスト不正交通検出 [全文訳有]

Realtime Robust Malicious Traffic Detection via Frequency Domain Analysis ( http://arxiv.org/abs/2106.14707v1 )

ライセンス: CC BY 4.0
Chuanpu Fu, Qi Li, Meng Shen, Ke Xu(参考訳) 機械学習(ml)ベースの悪意のあるトラフィック検出は、特にゼロデイアタック検出のための新たなセキュリティパラダイムであり、既存のルールベースの検出を補完するものだ。 しかし、既存のmlベースの検出は、非効率的なトラフィック特徴抽出によって生じる検出精度とスループットが低い。 したがって、特に高スループットネットワークにおいて、リアルタイムに攻撃を検出することはできない。 特に、既存のルールベース検出と類似した検出システムは、高度な攻撃によって容易に回避できる。 そこで本研究では,周波数領域の特徴を利用して高精度かつ高スループットを実現する,リアルタイムmlに基づく悪質なトラヒック検出システムであるwhisperを提案する。 周波数領域の特徴によって表されるシーケンシャルな特徴を利用して境界情報損失を達成し、高い検出精度を確保するとともに、高い検出スループットを達成するために特徴のスケールを制約する。 特に、攻撃者は周波数領域の特徴に容易に干渉できないため、様々な回避攻撃に頑健である。 我々の42種類の攻撃実験は、最先端システムと比較して、whisperは様々な洗練されたステルス攻撃を正確に検出でき、最大18.36%の改善を達成し、2桁のスループットを達成していることを示している。 様々な回避攻撃でも、whisperは90%の精度を維持することができる。

Machine learning (ML) based malicious traffic detection is an emerging security paradigm, particularly for zero-day attack detection, which is complementary to existing rule based detection. However, the existing ML based detection has low detection accuracy and low throughput incurred by inefficient traffic features extraction. Thus, they cannot detect attacks in realtime especially in high throughput networks. Particularly, these detection systems similar to the existing rule based detection can be easily evaded by sophisticated attacks. To this end, we propose Whisper, a realtime ML based malicious traffic detection system that achieves both high accuracy and high throughput by utilizing frequency domain features. It utilizes sequential features represented by the frequency domain features to achieve bounded information loss, which ensures high detection accuracy, and meanwhile constrains the scale of features to achieve high detection throughput. Particularly, attackers cannot easily interfere with the frequency domain features and thus Whisper is robust against various evasion attacks. Our experiments with 42 types of attacks demonstrate that, compared with the state-of-theart systems, Whisper can accurately detect various sophisticated and stealthy attacks, achieving at most 18.36% improvement, while achieving two orders of magnitude throughput. Even under various evasion attacks, Whisper is still able to maintain around 90% detection accuracy.
翻訳日:2021-06-29 20:04:21 公開日:2021-06-28
# (参考訳) 科学文書検索のためのキーフレーズ生成 [全文訳有]

Keyphrase Generation for Scientific Document Retrieval ( http://arxiv.org/abs/2106.14726v1 )

ライセンス: CC BY 4.0
Florian Boudin, Ygor Gallina, Akiko Aizawa(参考訳) sequence-to-sequence モデルによってkeyphrase生成は著しく進展したが、ドキュメント検索に十分な信頼性があるかどうかはまだ不明である。 本研究は,これらのモデルが検索性能を大幅に改善できることを示す実証的証拠を提供するとともに,キーフレーズ生成モデルの限界をよりよく理解することのできる,新たな外部評価フレームワークを提案する。 このフレームワークを使用すると、テキストには存在しないドキュメントを補完したり、ドメインをまたいでモデルを一般化したりするのに直面する困難を指摘し、議論する。 私たちのコードはhttps://github.com/b oudinfl/ir-using-kgで入手できる。

Sequence-to-sequence models have lead to significant progress in keyphrase generation, but it remains unknown whether they are reliable enough to be beneficial for document retrieval. This study provides empirical evidence that such models can significantly improve retrieval performance, and introduces a new extrinsic evaluation framework that allows for a better understanding of the limitations of keyphrase generation models. Using this framework, we point out and discuss the difficulties encountered with supplementing documents with -- not present in text -- keyphrases, and generalizing models across domains. Our code is available at https://github.com/b oudinfl/ir-using-kg
翻訳日:2021-06-29 19:38:31 公開日:2021-06-28
# (参考訳) One-Shot Affordance Detection [全文訳有]

One-Shot Affordance Detection ( http://arxiv.org/abs/2106.14747v1 )

ライセンス: CC BY 4.0
Hongchen Luo (1), Wei Zhai (1 and 3), Jing Zhang (2), Yang Cao (1) and Dacheng Tao (3) ((1) University of Science and Technology of China, China, (2) The University of Sydney, Australia, (3) JD Explore Academy, JD.com, China)(参考訳) Affordance Detectionは、画像中の物体の潜在的な行動可能性を特定することであり、ロボットの知覚と操作にとって重要な能力である。 そこで本論文では,ロボットにこのような非知覚シナリオの能力を持たせるために,アクション目的を表現した支援画像が与えられた場合,シーン内のすべての対象を共通のアフォーアンスで検出する,という課題を考察する。 この目的のために,まずその目的を推定し,すべての候補画像から共通価格を検出するために転送するOne-Shot Affordance Detection (OS-AD)ネットワークを考案した。 協調学習を通じて、OS-ADは、同じ余裕を持つオブジェクト間の共通特性を捉え、見当たらない余裕を知覚する優れた適応能力を学ぶことができる。 さらに, 対象物カテゴリ31種, 対象物カテゴリ72種から4k画像を収集し, ラベル付けすることで, 目的駆動型Affordance Dataset (PAD) を構築する。 実験の結果, 客観的指標と視覚品質の両面で, 従来のモデルよりも優れた結果が得られた。 ベンチマークスイートはProjectPageにある。

Affordance detection refers to identifying the potential action possibilities of objects in an image, which is an important ability for robot perception and manipulation. To empower robots with this ability in unseen scenarios, we consider the challenging one-shot affordance detection problem in this paper, i.e., given a support image that depicts the action purpose, all objects in a scene with the common affordance should be detected. To this end, we devise a One-Shot Affordance Detection (OS-AD) network that firstly estimates the purpose and then transfers it to help detect the common affordance from all candidate images. Through collaboration learning, OS-AD can capture the common characteristics between objects having the same underlying affordance and learn a good adaptation capability for perceiving unseen affordances. Besides, we build a Purpose-driven Affordance Dataset (PAD) by collecting and labeling 4k images from 31 affordance and 72 object categories. Experimental results demonstrate the superiority of our model over previous representative ones in terms of both objective metrics and visual quality. The benchmark suite is at ProjectPage.
翻訳日:2021-06-29 19:27:49 公開日:2021-06-28
# (参考訳) CNNトレーニングスコアの分析によるデータセットバイアス軽減 [全文訳有]

Dataset Bias Mitigation Through Analysis of CNN Training Scores ( http://arxiv.org/abs/2106.14829v1 )

ライセンス: CC BY 4.0
Ekberjan Derman(参考訳) データセットのトレーニングは畳み込みニューラルネットワークベースのアルゴリズムにとって極めて重要である。 そのため、バイアスの最小レベルを持つよく構造化されたデータセットの使用が常に望ましい。 本稿では,トレーニングセットで得られたモデル予測スコアに基づいて,元のトレーニングデータセットの未表示サンプルを同定する,スコアベース再サンプリング(sbr)と呼ばれる新しいドメイン非依存手法を提案する。 本手法では,同一のcnnモデルを用いて,自己のトレーニングサンプルを推定し,予測値を得るとともに,予測値と地中値の距離に基づいて,地中から遠く離れたサンプルを同定し,元のトレーニングセットで補強する。 Sigmoid関数の温度項は、スコアをよりよく区別するために減少する。 実験評価のために,性別分類のためのkaggleデータセットを1つ選択した。 最初に、比較的標準的な構造を持つCNNベースの分類器を使用し、トレーニング画像に基づいて訓練を行い、元のデータセットの検証サンプルについて評価した。 そして、軽男性、軽女性、暗い男性、暗い女性グループからなる全く新しいテストデータセットで評価した。 得られた精度は変化し、元のデータセットの特定のグループに対する分類バイアスの存在が明らかになった。 その後、提案手法に基づいて再サンプリング後のモデルを訓練した。 本手法を先述した変分オートエンコーダ(vae)に基づくアルゴリズムと比較した。 得られた結果から,本手法の有効性を確認し,特定のグループ分類の分類バイアスを低減した。 性別分類のためにテストされているが、提案アルゴリズムは任意のCNNベースのタスクのデータセット構造を調べるのに利用できる。

Training datasets are crucial for convolutional neural network-based algorithms, which directly impact their overall performance. As such, using a well-structured dataset that has minimum level of bias is always desirable. In this paper, we proposed a novel, domain-independent approach, called score-based resampling (SBR), to locate the under-represented samples of the original training dataset based on the model prediction scores obtained with that training set. In our method, once trained, we use the same CNN model to infer on its own training samples, obtain prediction scores, and based on the distance between predicted and ground-truth, we identify samples that are far away from their ground-truth and augment them in the original training set. The temperature term of the Sigmoid function is decreased to better differentiate scores. For experimental evaluation, we selected one Kaggle dataset for gender classification. We first used a CNN-based classifier with relatively standard structure, trained on the training images, and evaluated on the provided validation samples of the original dataset. Then, we assessed it on a totally new test dataset consisting of light male, light female, dark male, and dark female groups. The obtained accuracies varied, revealing the existence of categorical bias against certain groups in the original dataset. Subsequently, we trained the model after resampling based on our proposed approach. We compared our method with a previously proposed variational autoencoder (VAE) based algorithm. The obtained results confirmed the validity of our proposed method regrading identifying under-represented samples among original dataset to decrease categorical bias of classifying certain groups. Although tested for gender classification, the proposed algorithm can be used for investigating dataset structure of any CNN-based tasks.
翻訳日:2021-06-29 19:14:54 公開日:2021-06-28
# (参考訳) Ojaのアルゴリズムのエラーをブートストラップする

Bootstrapping the error of Oja's Algorithm ( http://arxiv.org/abs/2106.14857v1 )

ライセンス: CC BY 4.0
Robert Lunde, Purnamrita Sarkar, Rachel Ward(参考訳) 本稿では,Ojaのストリーム主成分分析アルゴリズムから先頭固有ベクトルの推定誤差を定量化する問題について考察する。 U-統計学の古典的ツールと、確率ベクトルの二次形式に対する高次元中心極限定理と行列積の集中に関する最近の結果を組み合わせることで、集団固有ベクトルとOjaのアルゴリズムの出力との誤差に対する$\chi^2$近似結果を確立する。 近似分布に付随する共分散行列を推定するには未知のモデルパラメータの知識が必要であるため,オンラインで更新できる乗算ブートストラップアルゴリズムを提案する。 我々は,ブートストラップ分布が対応するサンプリング分布に高い確率で近接する条件を確立し,ブートストラップを適切な漸近状態における一貫した推論方法として確立する。

We consider the problem of quantifying uncertainty for the estimation error of the leading eigenvector from Oja's algorithm for streaming principal component analysis, where the data are generated IID from some unknown distribution. By combining classical tools from the U-statistics literature with recent results on high-dimensional central limit theorems for quadratic forms of random vectors and concentration of matrix products, we establish a $\chi^2$ approximation result for the $\sin^2$ error between the population eigenvector and the output of Oja's algorithm. Since estimating the covariance matrix associated with the approximating distribution requires knowledge of unknown model parameters, we propose a multiplier bootstrap algorithm that may be updated in an online manner. We establish conditions under which the bootstrap distribution is close to the corresponding sampling distribution with high probability, thereby establishing the bootstrap as a consistent inferential method in an appropriate asymptotic regime.
翻訳日:2021-06-29 19:00:43 公開日:2021-06-28
# (参考訳) アニメ化可能な全身アバターの服飾モデル [全文訳有]

Explicit Clothing Modeling for an Animatable Full-Body Avatar ( http://arxiv.org/abs/2106.14879v1 )

ライセンス: CC BY 4.0
Donglai Xiang, Fabian Andres Prada, Timur Bagautdinov, Weipeng Xu, Yuan Dong, He Wen, Jessica Hodgins, Chenglei Wu(参考訳) 最近の研究は、フォトリアリスティック・アニマタブルフルボディ・コーデック・アバターの構築に大きな進歩を見せているが、これらのアバターは服の高忠実なアニメーションを作成するのに依然として困難に直面している。 そこで本研究では,多視点映像から,上半身の衣服を明示的に表現した想像可能な身体アバターを構築する手法を提案する。 2層メッシュ表現を用いてテンプレートで3Dスキャンを別々に登録する。 異なるフレーム間での光度対応を改善するために、変分オートエンコーダによって予測される衣服形状とテクスチャの逆レンダリングによりテクスチャアライメントを行う。 次に,上着と内装層を別々にモデル化した新しい2層コーデックアバターを訓練する。 身体の動態と衣服状態の相互作用を学習するために, 時系列畳み込みネットワークを用いて, 入力骨格ポーズのシーケンスに基づいて, 衣服潜伏コードの予測を行う。 3つの異なるアクターに対してフォトリアリスティックなアニメーションを出力し、前作の単層アバターよりも布体アバターの利点を実演する。 また、アニメーション出力で衣服のテクスチャを編集できる明示的な衣料モデルの有用性を示す。

Recent work has shown great progress in building photorealistic animatable full-body codec avatars, but these avatars still face difficulties in generating high-fidelity animation of clothing. To address the difficulties, we propose a method to build an animatable clothed body avatar with an explicit representation of the clothing on the upper body from multi-view captured videos. We use a two-layer mesh representation to separately register the 3D scans with templates. In order to improve the photometric correspondence across different frames, texture alignment is then performed through inverse rendering of the clothing geometry and texture predicted by a variational autoencoder. We then train a new two-layer codec avatar with separate modeling of the upper clothing and the inner body layer. To learn the interaction between the body dynamics and clothing states, we use a temporal convolution network to predict the clothing latent code based on a sequence of input skeletal poses. We show photorealistic animation output for three different actors, and demonstrate the advantage of our clothed-body avatars over single-layer avatars in the previous work. We also show the benefit of an explicit clothing model which allows the clothing texture to be edited in the animation output.
翻訳日:2021-06-29 18:59:29 公開日:2021-06-28
# (参考訳) MLPベースのビジョンバックボーンのためのToken-Mixing MLPの再考 [全文訳有]

Rethinking Token-Mixing MLP for MLP-based Vision Backbone ( http://arxiv.org/abs/2106.14882v1 )

ライセンス: CC BY 4.0
Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li(参考訳) 過去10年間、私たちはマシンビジョンのバックボーンの急速な進歩を目撃してきました。 画像処理から帰納バイアスを導入することで、畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクにおいて優れた性能を発揮し、"emph{de facto}"バックボーンとして確立されている。 近年、NLPタスクにおけるTransformerの大きな成功に触発されて、ビジョントランスフォーマーモデルが登場している。 インダクティブバイアスははるかに少なく、cnnに比べてコンピュータビジョンタスクで有望なパフォーマンスを達成している。 最近では、pure-mlpアーキテクチャを使用してビジョンバックボーンを構築し、インダクティブバイアスをさらに低減し、優れたパフォーマンスを達成するために研究が進められている。 純粋なMLPバックボーンは、チャネルを融合させるMLPと、パッチ間の通信のためにトークンを混合するMLPの上に構築されている。 本稿では,トークン混合型MLPの設計を再考する。 既存のMLPベースバックボーンのトークン混合MLPは空間特異的であり,空間翻訳に敏感であることがわかった。 一方、既存のトークン混合MLPのチャネルに依存しない性質は、トークンを混合する能力を制限する。 これらの制限を克服するため,Circulant Channel-Specific(CCS )トークン混合MLPと呼ばれる改良された構造を提案する。 パラメータは少ないが、ImageNet1Kベンチマークで高い分類精度を達成する。

In the past decade, we have witnessed rapid progress in the machine vision backbone. By introducing the inductive bias from the image processing, convolution neural network (CNN) has achieved excellent performance in numerous computer vision tasks and has been established as \emph{de facto} backbone. In recent years, inspired by the great success achieved by Transformer in NLP tasks, vision Transformer models emerge. Using much less inductive bias, they have achieved promising performance in computer vision tasks compared with their CNN counterparts. More recently, researchers investigate using the pure-MLP architecture to build the vision backbone to further reduce the inductive bias, achieving good performance. The pure-MLP backbone is built upon channel-mixing MLPs to fuse the channels and token-mixing MLPs for communications between patches. In this paper, we re-think the design of the token-mixing MLP. We discover that token-mixing MLPs in existing MLP-based backbones are spatial-specific, and thus it is sensitive to spatial translation. Meanwhile, the channel-agnostic property of the existing token-mixing MLPs limits their capability in mixing tokens. To overcome those limitations, we propose an improved structure termed as Circulant Channel-Specific (CCS) token-mixing MLP, which is spatial-invariant and channel-specific. It takes fewer parameters but achieves higher classification accuracy on ImageNet1K benchmark.
翻訳日:2021-06-29 18:52:33 公開日:2021-06-28
# (参考訳) 測定には何があるの? GPT-3 on SemEval 2021 Task 8 -- MeasEval [全文訳有]

What's in a Measurement? Using GPT-3 on SemEval 2021 Task 8 -- MeasEval ( http://arxiv.org/abs/2106.14720v1 )

ライセンス: CC BY 4.0
Curt Kohler and Ron Daniel Jr(参考訳) 2020年夏、OpenAIはGPT-3自動回帰言語モデルをリリースした。 モデルはいくつかの領域でタスクに約束を示してきたが、結果がいつチェリーピックされたのか、いつ無作為なアウトプットだったのかは必ずしも明確ではない。 我々は特に,GPT-3がSemEval 2021 MeasEvalタスクにどのようなメリットをもたらすかに興味を持っていた。 この課題に対する解決策として,すでにマルチターン質問の回答を実験しています。 私たちは、GPT-3の数発の学習機能を使って、以前の作業よりも優れたパフォーマンスを持つソリューションをより簡単に開発できるかどうかを確かめたかったのです。 残念ながら、私たちはその努力に成功していません。 本稿では,使用したアプローチ,遭遇した課題,観察した結果について述べる。 私たちが遭遇した問題のいくつかは、単に芸術の状態によるものでした。 例えば、プロンプトと応答のサイズの制限は、提供可能なトレーニング信号の量を制限する。 その他のものはより基本的です。 我々は事実情報の保持に優れる生成モデルに気づいていない。 また、プロンプトの変更の影響は予測できないため、パフォーマンスを確実に改善することは難しい。

In the summer of 2020 OpenAI released its GPT-3 autoregressive language model to much fanfare. While the model has shown promise on tasks in several areas, it has not always been clear when the results were cherry-picked or when they were the unvarnished output. We were particularly interested in what benefits GPT-3 could bring to the SemEval 2021 MeasEval task - identifying measurements and their associated attributes in scientific literature. We had already experimented with multi-turn questions answering as a solution to this task. We wanted to see if we could use GPT-3's few-shot learning capabilities to more easily develop a solution that would have better performance than our prior work. Unfortunately, we have not been successful in that effort. This paper discusses the approach we used, challenges we encountered, and results we observed. Some of the problems we encountered were simply due to the state of the art. For example, the limits on the size of the prompt and answer limited the amount of the training signal that could be offered. Others are more fundamental. We are unaware of generative models that excel in retaining factual information. Also, the impact of changes in the prompts is unpredictable, making it hard to reliably improve performance.
翻訳日:2021-06-29 18:23:29 公開日:2021-06-28
# Span-based model for joint overlapped and discontinuous Named Entity Recognition

A Span-Based Model for Joint Overlapped and Discontinuous Named Entity Recognition ( http://arxiv.org/abs/2106.14373v1 )

ライセンス: Link先を確認
Fei Li, Zhichao Lin, Meishan Zhang, Donghong Ji(参考訳) 重複した不連続なエンティティ認識(NER)の研究が注目されている。 以前の作業の大部分は重複したエンティティか不連続なエンティティに重点を置いている。 本稿では,重複エンティティと不連続エンティティの両方を協調的に認識できる新しいスパンベースモデルを提案する。 モデルには2つの大きなステップがある。 まず、エンティティフラグメントはすべての可能なテキストスパンをトラバースすることで認識され、重複したエンティティを認識することができる。 次に、与えられた一対のエンティティフラグメントが重複するかどうかを判断するために関係分類を行う。 このようにして、不連続なエンティティを認識できるだけでなく、重複しているエンティティを二重にチェックできる。 全体として、我々のモデルは本質的に関係抽出パラダイムとみなすことができる。 複数のベンチマークデータセット (CLEF, GENIA, ACE05) に対する実験結果から, 重なり合った非連続的なNERに対して, 我々のモデルは高い競争力を持つことが示された。

Research on overlapped and discontinuous named entity recognition (NER) has received increasing attention. The majority of previous work focuses on either overlapped or discontinuous entities. In this paper, we propose a novel span-based model that can recognize both overlapped and discontinuous entities jointly. The model includes two major steps. First, entity fragments are recognized by traversing over all possible text spans, thus, overlapped entities can be recognized. Second, we perform relation classification to judge whether a given pair of entity fragments to be overlapping or succession. In this way, we can recognize not only discontinuous entities, and meanwhile doubly check the overlapped entities. As a whole, our model can be regarded as a relation extraction paradigm essentially. Experimental results on multiple benchmark datasets (i.e., CLEF, GENIA and ACE05) show that our model is highly competitive for overlapped and discontinuous NER.
翻訳日:2021-06-29 18:12:01 公開日:2021-06-28
# ロシア感情コーポラの現在の景観

Current Landscape of the Russian Sentiment Corpora ( http://arxiv.org/abs/2106.14434v1 )

ライセンス: Link先を確認
Evgeny Kotelnikov(参考訳) 現在、感情分析のためのロシア語コーパスが1ダース以上あり、テキストのソース、ドメイン、サイズ、感情クラスの数と比率、アノテーションメソッドが異なる。 本研究は, 公開されているロシア語コーパスを調査し, 質的かつ定量的な特徴を提示し, 感情分析のためのコーパスの現在の景観の把握を可能にする。 アノテーション品質によるコーパスのランキングが提案され、トレーニングとテストのためのコーパスを選択する際に有用である。 深層ニューラルネットワークモデルBERTを用いて、トレーニングデータセットが感情分析のパフォーマンスに与える影響について検討した。 レビューコーパスを用いた実験により、トレーニングコーパス数の増加に伴い、平均的なモデル品質が増加すると結論付けることができる。 BERTモデルに基づくROMIPセミナーのレビューのコーパスに対して,初めて品質スコアが得られた。 また,感情分析のための普遍モデルを構築するタスクを提案する。

Currently, there are more than a dozen Russian-language corpora for sentiment analysis, differing in the source of the texts, domain, size, number and ratio of sentiment classes, and annotation method. This work examines publicly available Russian-language corpora, presents their qualitative and quantitative characteristics, which make it possible to get an idea of the current landscape of the corpora for sentiment analysis. The ranking of corpora by annotation quality is proposed, which can be useful when choosing corpora for training and testing. The influence of the training dataset on the performance of sentiment analysis is investigated based on the use of the deep neural network model BERT. The experiments with review corpora allow us to conclude that on average the quality of models increases with an increase in the number of training corpora. For the first time, quality scores were obtained for the corpus of reviews of ROMIP seminars based on the BERT model. Also, the study proposes the task of the building a universal model for sentiment analysis.
翻訳日:2021-06-29 18:11:48 公開日:2021-06-28
# ロシアテキストの議論マイニングのための伝統的な機械学習とディープラーニングモデル

Traditional Machine Learning and Deep Learning Models for Argumentation Mining in Russian Texts ( http://arxiv.org/abs/2106.14438v1 )

ライセンス: Link先を確認
Irina Fishcheva, Valeriya Goloviznina, Evgeny Kotelnikov(参考訳) 引数マイニング(英: Argumentation mining)は、テキストから抽出し、それらの間の議論と関係を分類し、議論構造を構築することに専念する計算言語学の分野である。 この領域におけるロシア語の研究の大きな障害は、注釈付きロシア語テキストコーパスの欠如である。 本稿では,ロシア語版Argumentative Microtext Corpus(ArgMicro)を拡張したPersuasive Essays Corpus(PersEssays)の機械翻訳による議論の質向上の可能性を検討する。 これら2つのコーパスを組み合わせるために、ArgMicro と PersEssays で使用されるスキームに基づいたジョイント引数アノテーションスキームを提案する。 本稿では、従来の機械学習技術(SVM, Bagging, XGBoost)とディープニューラルネットワーク(BERTモデル)を用いて、議論的談話単位(ADU)を「pro」(for)と「opp」(against)の2つのクラスに分類する。 XGBoostモデルとBERTモデルのアンサンブルが提案され、両コーパスのADUs分類の最高性能を示した。

Argumentation mining is a field of computational linguistics that is devoted to extracting from texts and classifying arguments and relations between them, as well as constructing an argumentative structure. A significant obstacle to research in this area for the Russian language is the lack of annotated Russian-language text corpora. This article explores the possibility of improving the quality of argumentation mining using the extension of the Russian-language version of the Argumentative Microtext Corpus (ArgMicro) based on the machine translation of the Persuasive Essays Corpus (PersEssays). To make it possible to use these two corpora combined, we propose a Joint Argument Annotation Scheme based on the schemes used in ArgMicro and PersEssays. We solve the problem of classifying argumentative discourse units (ADUs) into two classes - "pro" ("for") and "opp" ("against") using traditional machine learning techniques (SVM, Bagging and XGBoost) and a deep neural network (BERT model). An ensemble of XGBoost and BERT models was proposed, which showed the highest performance of ADUs classification for both corpora.
翻訳日:2021-06-29 18:11:34 公開日:2021-06-28
# NLPにおける社会的バイアスの定量化:外因性公正度尺度の一般化と実証的比較

Quantifying Social Biases in NLP: A Generalization and Empirical Comparison of Extrinsic Fairness Metrics ( http://arxiv.org/abs/2106.14574v1 )

ライセンス: Link先を確認
Paula Czarnowska, Yogarshi Vyas, Kashif Shah(参考訳) バイアスを測定することは、NLP/MLモデルの理解を深め、不公平に対処するための鍵となる。 これはしばしば、様々な集団におけるモデルの振る舞いの違いを定量化する公平度メトリクスによって行われる。 本研究では,NLPにおけるフェアネス指標の相違点と類似点について検討した。 まず、3つの一般化された公正度尺度に基づいて、既存のメトリクスを広範囲に統一し、それらの関係を明らかにする。 次に、既存のメトリクスの広範な比較実験を行い、偏差測定における観測値の違いが一般化されたメトリクスのパラメータ選択の違いによって体系的に説明可能であることを示す。

Measuring bias is key for better understanding and addressing unfairness in NLP/ML models. This is often done via fairness metrics which quantify the differences in a model's behaviour across a range of demographic groups. In this work, we shed more light on the differences and similarities between the fairness metrics used in NLP. First, we unify a broad range of existing metrics under three generalized fairness metrics, revealing the connections between them. Next, we carry out an extensive empirical comparison of existing metrics and demonstrate that the observed differences in bias measurement can be systematically explained via differences in parameter choices for our generalized metrics.
翻訳日:2021-06-29 18:11:09 公開日:2021-06-28
# Rail-5k:レール表面欠陥検出のための実世界のデータセット

Rail-5k: a Real-World Dataset for Rail Surface Defects Detection ( http://arxiv.org/abs/2106.14366v1 )

ライセンス: Link先を確認
Zihao Zhang, Shaozuo Yu, Siwei Yang, Yu Zhou, Bingchen Zhao(参考訳) 本稿では,実世界のアプリケーションシナリオ,すなわちレール表面欠陥検出タスクにおいて,視覚アルゴリズムの性能をベンチマークするための rail-5k データセットを提案する。 中国各地の鉄道から5k以上の高品質の画像を集め、鉄道の専門家の助けを借りて1100枚の画像に注釈を付け、最も一般的な13種類の鉄道欠陥を特定した。 1つは、トレーニングのために1k+ラベル付きイメージを使用して完全に教師された設定、きめ細かい性質、そして欠陥クラスの長い尾の分布を使用すると、ビジュアルアルゴリズムが取り組むのが難しくなることだ。 2つ目は、4k未ラベル画像による半教師付き学習設定であり、これらの4k画像はラベル付き画像との領域シフトを含む未修正であり、従来の半教師付き学習方法では容易に対処できない。 当社のデータセットは,視覚的アルゴリズムの堅牢性と信頼性を評価する上で,貴重なベンチマークになると思います。

This paper presents the Rail-5k dataset for benchmarking the performance of visual algorithms in a real-world application scenario, namely the rail surface defects detection task. We collected over 5k high-quality images from railways across China, and annotated 1100 images with the help from railway experts to identify the most common 13 types of rail defects. The dataset can be used for two settings both with unique challenges, the first is the fully-supervised setting using the 1k+ labeled images for training, fine-grained nature and long-tailed distribution of defect classes makes it hard for visual algorithms to tackle. The second is the semi-supervised learning setting facilitated by the 4k unlabeled images, these 4k images are uncurated containing possible image corruptions and domain shift with the labeled images, which can not be easily tackle by previous semi-supervised learning methods. We believe our dataset could be a valuable benchmark for evaluating robustness and reliability of visual algorithms.
翻訳日:2021-06-29 18:05:17 公開日:2021-06-28
# 正確な生体画像分割のための多成分トランス

Multi-Compound Transformer for Accurate Biomedical Image Segmentation ( http://arxiv.org/abs/2106.14385v1 )

ライセンス: Link先を確認
Yuanfeng Ji, Ruimao Zhang, Huijie Wang, Zhen Li, Lingyun Wu, Shaoting Zhang, and Ping Luo(参考訳) 最近のvision transformer(すなわち画像分類)は、異なるパッチトークンの非局所的注意相互作用を学習する。 しかし、先行技術では、異なるピクセルの大規模依存関係、異なるラベルのセマンティック対応、特徴表現とセマンティック埋め込みの整合性など、バイオメディカルセグメンテーションに欠如している。 本稿では,リッチな特徴学習と意味構造マイニングを融合した,MCTrans(Multi-Compo und Transformer)と呼ばれる統合トランスネットワークを提案する。 具体的には、マルチスケールの畳み込み特徴をトークンのシーケンスとして組み込んで、以前の作品のシングルスケールではなく、イントラスケールとイントラスケールのセルフアテンションを実行する。 さらに,学習可能なプロキシ埋め込みも導入され,セマンティックな関係をモデル化し,自己認識とクロスアテンションを用いて機能強化を行う。 MCTransはUNetライクなネットワークに簡単に接続でき、6つの標準ベンチマークでバイオメディカルイメージセグメンテーションにおける最先端の手法よりも大幅に改善されている。 例えば、mctrans は unet を 3.64%, 3.71%, 4.34%, 2.8%, 1.88%, 1.57% の pannuke, cvc-clinic, cvc-colon, etis, kavirs, isic2018 データセットでそれぞれ上回っている。 コードはhttps://github.com/J iYuanFeng/MCTransで入手できる。

The recent vision transformer(i.e.for image classification) learns non-local attentive interaction of different patch tokens. However, prior arts miss learning the cross-scale dependencies of different pixels, the semantic correspondence of different labels, and the consistency of the feature representations and semantic embeddings, which are critical for biomedical segmentation. In this paper, we tackle the above issues by proposing a unified transformer network, termed Multi-Compound Transformer (MCTrans), which incorporates rich feature learning and semantic structure mining into a unified framework. Specifically, MCTrans embeds the multi-scale convolutional features as a sequence of tokens and performs intra- and inter-scale self-attention, rather than single-scale attention in previous works. In addition, a learnable proxy embedding is also introduced to model semantic relationship and feature enhancement by using self-attention and cross-attention, respectively. MCTrans can be easily plugged into a UNet-like network and attains a significant improvement over the state-of-the-art methods in biomedical image segmentation in six standard benchmarks. For example, MCTrans outperforms UNet by 3.64%, 3.71%, 4.34%, 2.8%, 1.88%, 1.57% in Pannuke, CVC-Clinic, CVC-Colon, Etis, Kavirs, ISIC2018 dataset, respectively. Code is available at https://github.com/J iYuanFeng/MCTrans.
翻訳日:2021-06-29 18:04:59 公開日:2021-06-28
# 画像分類のためのプログレッシブクラスベース拡張学習

Progressive Class-based Expansion Learning For Image Classification ( http://arxiv.org/abs/2106.14412v1 )

ライセンス: Link先を確認
Hui Wang, Hanbin Zhao, and Xi Li(参考訳) 本稿では,画像分類のためのクラスベース拡張学習(class-based expansion learning)と呼ばれる新しい画像処理手法を提案する。 クラスベースの拡張学習は、クラスベースの拡張最適化方式においてボトムアップ成長戦略を採り、優先的に選択されたクラスのきめ細かい分類境界を学習する品質にさらに注意を払う。 さらに,授業の難易度を優先的に選択するためのクラス混乱基準を開発する。 このように、混乱したクラスの分類境界は頻繁に刺激され、粒度の細かい形になる。 実験結果から,提案手法の有効性が示された。

In this paper, we propose a novel image process scheme called class-based expansion learning for image classification, which aims at improving the supervision-stimulat ion frequency for the samples of the confusing classes. Class-based expansion learning takes a bottom-up growing strategy in a class-based expansion optimization fashion, which pays more attention to the quality of learning the fine-grained classification boundaries for the preferentially selected classes. Besides, we develop a class confusion criterion to select the confusing class preferentially for training. In this way, the classification boundaries of the confusing classes are frequently stimulated, resulting in a fine-grained form. Experimental results demonstrate the effectiveness of the proposed scheme on several benchmarks.
翻訳日:2021-06-29 18:04:31 公開日:2021-06-28
# 日本語と中国語のオフライン手書き文字認識のための繰り返しニューラルネットワークトランスデューサ

Recurrent neural network transducer for Japanese and Chinese offline handwritten text recognition ( http://arxiv.org/abs/2106.14459v1 )

ライセンス: Link先を確認
Trung Tan Ngo, Hung Tuan Nguyen, Nam Tuan Ly, Masaki Nakagawa(参考訳) 本稿では,日本語と中国語のオフライン手書きテキストを認識できるrnn-transducerモデルを提案する。 我々の知る限り、これはオフライン手書き文字認識にRNN-Transducerモデルを採用する最初のアプローチである。 提案モデルは,CNN による入力画像から視覚特徴を抽出し,BLSTM による視覚特徴を符号化する視覚特徴エンコーダ,組込み層とLSTM による入力画像から言語特徴を抽出・符号化する言語コンテキストエンコーダ,そして,視覚特徴と言語特徴を完全連結層とソフトマックス層により最終ラベルシーケンスに合成・復号する共同デコーダの3つの構成からなる。 提案モデルは入力画像からの視覚情報と言語情報の両方を利用する。 実験では, 提案モデルの性能を2つのデータセット, Kuzushiji と SCUT-EPT で評価した。 実験結果から,提案モデルが全データセットの最先端性能を実現することが示された。

In this paper, we propose an RNN-Transducer model for recognizing Japanese and Chinese offline handwritten text line images. As far as we know, it is the first approach that adopts the RNN-Transducer model for offline handwritten text recognition. The proposed model consists of three main components: a visual feature encoder that extracts visual features from an input image by CNN and then encodes the visual features by BLSTM; a linguistic context encoder that extracts and encodes linguistic features from the input image by embedded layers and LSTM; and a joint decoder that combines and then decodes the visual features and the linguistic features into the final label sequence by fully connected and softmax layers. The proposed model takes advantage of both visual and linguistic information from the input image. In the experiments, we evaluated the performance of the proposed model on the two datasets: Kuzushiji and SCUT-EPT. Experimental results show that the proposed model achieves state-of-the-art performance on all datasets.
翻訳日:2021-06-29 18:04:21 公開日:2021-06-28
# 不確かさ推定を用いたビデオインスタンス分割における偽陰性化

False Negative Reduction in Video Instance Segmentation using Uncertainty Estimates ( http://arxiv.org/abs/2106.14474v1 )

ライセンス: Link先を確認
Kira Maag(参考訳) 画像のインスタンスセグメンテーションは、シーンの自動理解のための重要なツールである。 ニューラルネットワークは通常、精度の観点から全体的なパフォーマンスを最適化するように訓練される。 一方、自動運転などのアプリケーションでは、見過ごされた歩行者は誤検知された歩行者よりも有害に見える。 本稿では,オンラインアプリケーションにおける画像シーケンスの可利用性を考慮した,追跡インスタンスの時系列不整合に基づく画像シーケンスの誤検出手法を提案する。 このアルゴリズムによってインスタンス数を大幅に増加させることができるため、インスタンスに集約された不確実性推定を用いて偽陽性プルーニングを適用する。 この目的のために、与えられたインスタンスの不確実性と幾何を特徴づけるか、あるいは深さ推定に基づいて述示されるインスタンス単位のメトリクスを構築する。 提案手法は,単一フレームでのみトレーニング可能な任意のニューラルネットワークに適用可能な後処理ステップとして機能する。 本試験では,提案手法を用いて偽陰性と偽陽性とのトレードオフを改良し,推論中にインスタンスセグメンテーションネットワークによって提供される通常のスコア値と比較した。

Instance segmentation of images is an important tool for automated scene understanding. Neural networks are usually trained to optimize their overall performance in terms of accuracy. Meanwhile, in applications such as automated driving, an overlooked pedestrian seems more harmful than a falsely detected one. In this work, we present a false negative detection method for image sequences based on inconsistencies in time series of tracked instances given the availability of image sequences in online applications. As the number of instances can be greatly increased by this algorithm, we apply a false positive pruning using uncertainty estimates aggregated over instances. To this end, instance-wise metrics are constructed which characterize uncertainty and geometry of a given instance or are predicated on depth estimation. The proposed method serves as a post-processing step applicable to any neural network that can also be trained on single frames only. In our tests, we obtain an improved trade-off between false negative and false positive instances by our fused detection approach in comparison to the use of an ordinary score value provided by the instance segmentation network during inference.
翻訳日:2021-06-29 18:04:02 公開日:2021-06-28
# 特徴量拡張と関係推論を用いたよりコンパクトな物体検出ヘッドネットワーク

A More Compact Object Detector Head Network with Feature Enhancement and Relational Reasoning ( http://arxiv.org/abs/2106.14475v1 )

ライセンス: Link先を確認
Wen chao Zhang, Chong Fu, Xiang shi Chang, Teng fei Zhao, Xiang Li, Chiu-Wing Sham(参考訳) 暗黙的特徴相互作用パターンのモデリングは、オブジェクト検出タスクにおいて重要である。 しかし, 2段階検出器では手作り部品の過剰使用のため, インスタンスの特徴の暗黙的関係について考えることは極めて困難である。 この問題に対処するために,トリミングされた局所特徴とグローバル特徴の依存関係関係,インスタンス内の特徴自己相関関係,インスタンス間の相互相関関係という,3つの異なる特徴間関係のレベルを分析した。 この目的のために,よりコンパクトなオブジェクト検出ヘッドネットワーク(codh)を提案する。グローバルコンテキスト情報を保存し,情報密度を凝縮するだけでなく,大規模マトリックス空間におけるインスタンス間特徴量拡張と関係推論を可能にする。 ベルとホイッスルがなければ,本手法はモデルのパラメータを著しく削減しながら検出性能を効果的に向上させることができる。例えば,本手法では,ヘッドネットワークのパラメータは最先端のカスケードR-CNNの0.6倍小さいが,COCOテストデブでは1.3%向上する。 一般性を失うことなく、我々は他の多段検出器のためのより軽量なヘッドネットワークを構築することができる。

Modeling implicit feature interaction patterns is of significant importance to object detection tasks. However, in the two-stage detectors, due to the excessive use of hand-crafted components, it is very difficult to reason about the implicit relationship of the instance features. To tackle this problem, we analyze three different levels of feature interaction relationships, namely, the dependency relationship between the cropped local features and global features, the feature autocorrelation within the instance, and the cross-correlation relationship between the instances. To this end, we propose a more compact object detector head network (CODH), which can not only preserve global context information and condense the information density, but also allows instance-wise feature enhancement and relational reasoning in a larger matrix space. Without bells and whistles, our method can effectively improve the detection performance while significantly reducing the parameters of the model, e.g., with our method, the parameters of the head network is 0.6 times smaller than the state-of-the-art Cascade R-CNN, yet the performance boost is 1.3% on COCO test-dev. Without losing generality, we can also build a more lighter head network for other multi-stage detectors by assembling our method.
翻訳日:2021-06-29 18:03:50 公開日:2021-06-28
# adventurer's treasure hunt: シーングラフに基づく視覚的な構成的視覚的質問応答システム

Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs ( http://arxiv.org/abs/2106.14476v1 )

ライセンス: Link先を確認
Daniel Reich, Felix Putze, Tanja Schultz(参考訳) VQAの推論過程におけるシステムの透明性向上と視覚的基盤化を目標として,シーングラフに基づくVQAの構成作業のためのモジュールシステムを提案する。 我々のシステムは「アドベンチャラーの宝探し(Adventurer's Treasure Hunt, ATH)」と呼ばれており、これは我々のモデルによる解答の手続きと冒険者の宝探しの類似性に由来する。 我々は3つの特徴を念頭にATHを開発した。 設計により、ATHは、各サブコンポーネントが全体のVQAパフォーマンス、および個々のサブタスクに対するパフォーマンスに与える影響を明示的に定量化できます。 2. 宝探し後の探索タスクをモデル化することにより、ATHは本質的に、処理された質問に対する明示的で視覚的に根拠付けられた推論パスを生成する。 3. athは、事前固定された回答語彙上の特別に学習された分類器の出力分布から選択するのではなく、視覚的な知識ベースを直接問い合わせて動的に答えを抽出する、最初のgqa訓練vqaシステムである。 GQAデータセット上では,全コンポーネントの詳細な結果とVQAパフォーマンスへの貢献を報告し,ATHが全システムの中で最高の視覚的グラウンドティングスコアを達成していることを示す。

With the expressed goal of improving system transparency and visual grounding in the reasoning process in VQA, we present a modular system for the task of compositional VQA based on scene graphs. Our system is called "Adventurer's Treasure Hunt" (or ATH), named after an analogy we draw between our model's search procedure for an answer and an adventurer's search for treasure. We developed ATH with three characteristic features in mind: 1. By design, ATH allows us to explicitly quantify the impact of each of the sub-components on overall VQA performance, as well as their performance on their individual sub-task. 2. By modeling the search task after a treasure hunt, ATH inherently produces an explicit, visually grounded inference path for the processed question. 3. ATH is the first GQA-trained VQA system that dynamically extracts answers by querying the visual knowledge base directly, instead of selecting one from a specially learned classifier's output distribution over a pre-fixed answer vocabulary. We report detailed results on all components and their contributions to overall VQA performance on the GQA dataset and show that ATH achieves the highest visual grounding score among all examined systems.
翻訳日:2021-06-29 18:03:27 公開日:2021-06-28
# 画像の作り直し:ディープ・イメージ・コンポジションに関する総合的な調査

Making Images Real Again: A Comprehensive Survey on Deep Image Composition ( http://arxiv.org/abs/2106.14490v1 )

ライセンス: Link先を確認
Li Niu, Wenyan Cong, Liu Liu, Yan Hong, Bo Zhang, Jing Liang, Liqing Zhang(参考訳) 一般的な画像編集操作として、画像合成は前景を1枚の画像から切り離して別の画像に貼り付けることを目的としており、合成画像となる。 しかし、合成画像が非現実的になるような問題は数多くある。 これらの問題は、前景と背景の矛盾(例えば、不適合な色と照明)と幾何学的不整合(例えば、不合理な大きさと位置)である。 以前、画像合成のターゲットは1つ以上の問題だった。 個々の問題は複雑な問題であるため、ある研究方向(例えば、画像調和、オブジェクト配置など)が1つの問題だけに焦点を当てている。 すべての努力をまとめることで、現実的な合成画像を得ることができる。 時には、合成画像が現実的なだけでなく、美的評価も考慮する必要があると期待することもある。 本稿では,上記研究の方向性に関するデータセットと手法について概説する。 また,画像合成の今後の研究を促進するための限界と可能性について考察する。 最後に、二重刃の剣として、画像合成は私たちの生活(例えばフェイクニュース)に悪影響を及ぼす可能性があるため、複合画像と戦うアルゴリズムを開発することが不可欠である。 画像合成のためのデータセットとコードはhttps://github.com/b cmi/Awesome-Image-Co mpositionで要約されている。

As a common image editing operation, image composition aims to cut the foreground from one image and paste it on another image, resulting in a composite image. However, there are many issues that could make the composite images unrealistic. These issues can be summarized as the inconsistency between foreground and background, which include appearance inconsistency (e.g., incompatible color and illumination) and geometry inconsistency (e.g., unreasonable size and location). Previous works on image composition target at one or more issues. Since each individual issue is a complicated problem, there are some research directions (e.g., image harmonization, object placement) which focus on only one issue. By putting all the efforts together, we can acquire realistic composite images. Sometimes, we expect the composite images to be not only realistic but also aesthetic, in which case aesthetic evaluation needs to be considered. In this survey, we summarize the datasets and methods for the above research directions. We also discuss the limitations and potential directions to facilitate the future research for image composition. Finally, as a double-edged sword, image composition may also have negative effect on our lives (e.g., fake news) and thus it is imperative to develop algorithms to fight against composite images. Datasets and codes for image composition are summarized at https://github.com/b cmi/Awesome-Image-Co mposition.
翻訳日:2021-06-29 18:03:06 公開日:2021-06-28
# 周波数領域における相互情報の高速計算と大域的マルチモーダル画像アライメントへの応用

Fast computation of mutual information in the frequency domain with applications to global multimodal image alignment ( http://arxiv.org/abs/2106.14699v1 )

ライセンス: Link先を確認
Johan \"Ofverstedt, Joakim Lindblad, Nata\v{s}a Sladoje(参考訳) マルチモーダル画像アライメント(multimodal image alignment)は、異種データ融合と相関解析を容易にするために、異なる撮像技術または異なる条件下で形成される画像間の空間対応を見つけるプロセスである。 相互情報(mi: information-theoreti c concept of mutual information)は、多くの著作がmiの局所的最大化に焦点を合わせており、通常は小さな変位のみにのみ有効なmiの局所的最大化に焦点を当てているマルチモーダルアライメントプロセスを導くための類似性尺度として広く用いられている。 本稿では、周波数領域で計算された相互相関に基づく全ての離散変位(相互情報関数(CMIF)として形式化された)に対するMIの効率的な計算アルゴリズムを提案する。 このアルゴリズムは,実行時において漸近的に優れている一方,直接手法と等価であることを示す。 さらに,自由度の低い変換モデルのマルチモーダル画像アライメント法(例)を提案する。 剛性) 提案されたCMIFアルゴリズムに基づく。 提案手法の有効性を,航空画像,細胞画像,組織画像の3つの異なるベンチマークデータセットを用いて評価し,良好な成功率(既知の剛性変換の回復),MIの局所最適化,最近の深層学習に基づくアプローチなど,総合的に優れた代替手法を提案する。 また、提案アルゴリズムのGPU実装の実行時間を評価し、直接手法のGPU実装と比較して、現実的な画像サイズに対して100~10,000倍のスピードアップを観測する。 コードはオープンソースとして、 \url{github.com/MIDA-grou p/globalign}で共有されている。

Multimodal image alignment is the process of finding spatial correspondences between images formed by different imaging techniques or under different conditions, to facilitate heterogeneous data fusion and correlative analysis. The information-theoreti c concept of mutual information (MI) is widely used as a similarity measure to guide multimodal alignment processes, where most works have focused on local maximization of MI that typically works well only for small displacements; this points to a need for global maximization of MI, which has previously been computationally infeasible due to the high run-time complexity of existing algorithms. We propose an efficient algorithm for computing MI for all discrete displacements (formalized as the cross-mutual information function (CMIF)), which is based on cross-correlation computed in the frequency domain. We show that the algorithm is equivalent to a direct method while asymptotically superior in terms of run-time. Furthermore, we propose a method for multimodal image alignment for transformation models with few degrees of freedom (e.g. rigid) based on the proposed CMIF-algorithm. We evaluate the efficacy of the proposed method on three distinct benchmark datasets, of aerial images, cytological images, and histological images, and we observe excellent success-rates (in recovering known rigid transformations), overall outperforming alternative methods, including local optimization of MI as well as several recent deep learning-based approaches. We also evaluate the run-times of a GPU implementation of the proposed algorithm and observe speed-ups from 100 to more than 10,000 times for realistic image sizes compared to a GPU implementation of a direct method. Code is shared as open-source at \url{github.com/MIDA-grou p/globalign}.
翻訳日:2021-06-29 18:02:46 公開日:2021-06-28
# 単眼映像からの仮想骨を用いた3次元人物ポーズ推定に基づく動き投影一貫性

Motion Projection Consistency Based 3D Human Pose Estimation with Virtual Bones from Monocular Videos ( http://arxiv.org/abs/2106.14706v1 )

ライセンス: Link先を確認
Guangming Wang, Honghao Zeng, Ziliang Wang, Zhe Liu, Hesheng Wang(参考訳) リアルタイム3次元ポーズ推定は人間とコンピュータの相互作用に不可欠である。 単眼映像のみから3d人物のポーズを推定するのは安価で実用的です。 しかし,最近の骨スプライシングに基づく3次元ポーズ推定法は,累積誤差の問題を引き起こす。 本稿では,このような課題を解決するために仮想骨の概念を提案する。 仮想骨は非隣接関節の間の想像上の骨である。 それらは現実には存在していないが、3d人間の関節の推定に新たなループ制約をもたらす。 本稿では,実際の骨と仮想骨を同時に予測するネットワークを提案する。 実際の骨の最終的な長さは、予測された実骨と仮想骨によって構築されたループによって制限され、学習される。 また, 連続フレームにおける関節の運動制約も考慮した。 ネットワークが予測する2次元投影位置変位とカメラが捉えた実2次元変位との一貫性を、3次元人間のポーズの学習における新たな投影一貫性損失として提案する。 human3.6mデータセットにおける実験は、提案手法の優れた性能を示している。 アブレーション研究は,提案するフレーム間プロジェクション一貫性制約とフレーム内ループ制約の有効性を示す。

Real-time 3D human pose estimation is crucial for human-computer interaction. It is cheap and practical to estimate 3D human pose only from monocular video. However, recent bone splicing based 3D human pose estimation method brings about the problem of cumulative error. In this paper, the concept of virtual bones is proposed to solve such a challenge. The virtual bones are imaginary bones between non-adjacent joints. They do not exist in reality, but they bring new loop constraints for the estimation of 3D human joints. The proposed network in this paper predicts real bones and virtual bones, simultaneously. The final length of real bones is constrained and learned by the loop constructed by the predicted real bones and virtual bones. Besides, the motion constraints of joints in consecutive frames are considered. The consistency between the 2D projected position displacement predicted by the network and the captured real 2D displacement by the camera is proposed as a new projection consistency loss for the learning of 3D human pose. The experiments on the Human3.6M dataset demonstrate the good performance of the proposed method. Ablation studies demonstrate the effectiveness of the proposed inter-frame projection consistency constraints and intra-frame loop constraints.
翻訳日:2021-06-29 18:02:18 公開日:2021-06-28
# インストラクショナルビデオにおける行動の教師なし発見

Unsupervised Discovery of Actions in Instructional Videos ( http://arxiv.org/abs/2106.14733v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Anelia Angelova and Michael S. Ryoo and Irfan Essa(参考訳) 本稿では,教師なしのビデオから原子行動を自動的に検出する問題に対処する。 インストラクショナルビデオは複雑なアクティビティを含み、自律ロボットや仮想アシスタントのようなインテリジェントなエージェントのための豊富な情報源であり、例えば、インストラクショナルビデオからステップを自動的に読み出して実行することができる。 しかし、ビデオがアトミックな活動やその境界や期間に注釈をつけることは滅多にない。 本稿では,様々な授業ビデオから構造化ヒューマンタスクのアトミックアクションを学ぶための教師なしアプローチを提案する。 本稿では,映像の時間的セグメンテーションのための逐次的確率的自己回帰モデルを提案し,タスクの異なるアトミックアクション間の逐次関係を表現・発見し,ビデオの自動的および教師なしの自己ラベルを提供する。 我々のアプローチは、最先端の教師なしメソッドを大きなマージンで上回っている。 コードをオープンソース化します。

In this paper we address the problem of automatically discovering atomic actions in unsupervised manner from instructional videos. Instructional videos contain complex activities and are a rich source of information for intelligent agents, such as, autonomous robots or virtual assistants, which can, for example, automatically `read' the steps from an instructional video and execute them. However, videos are rarely annotated with atomic activities, their boundaries or duration. We present an unsupervised approach to learn atomic actions of structured human tasks from a variety of instructional videos. We propose a sequential stochastic autoregressive model for temporal segmentation of videos, which learns to represent and discover the sequential relationship between different atomic actions of the task, and which provides automatic and unsupervised self-labeling for videos. Our approach outperforms the state-of-the-art unsupervised methods with large margins. We will open source the code.
翻訳日:2021-06-29 18:02:04 公開日:2021-06-28
# CLIPDraw: 言語-画像エンコーダによるテキスト-描画合成の探索

CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders ( http://arxiv.org/abs/2106.14843v1 )

ライセンス: Link先を確認
Kevin Frans, L.B. Soros, Olaf Witkowski(参考訳) 本研究は,自然言語入力に基づく新しい図面を合成するアルゴリズムである clipdraw を提案する。 CLIPDrawはトレーニングを一切必要とせず、トレーニング済みのCLIP言語イメージエンコーダは、与えられた記述と生成された描画との類似性を最大化する指標として使用される。 重要なこととして、CLIPDrawはピクセル画像ではなくベクトルストローク上で動作している。 結果は,CLIPDrawと他の合成-スルー-最適化法を比較し,複数の方法で曖昧なテキストを満たすこと,多彩な芸術的スタイルの図面を確実に作成すること,ストローク数の増加に伴って単純な視覚表現から複雑な視覚表現へのスケーリングなど,CLIPDrawの様々な興味深い振る舞いを強調した。 https://colab.resear ch.google.com/github /kvfrans/clipdraw/bl ob/main/clipdraw.ipy nb

This work presents CLIPDraw, an algorithm that synthesizes novel drawings based on natural language input. CLIPDraw does not require any training; rather a pre-trained CLIP language-image encoder is used as a metric for maximizing similarity between the given description and a generated drawing. Crucially, CLIPDraw operates over vector strokes rather than pixel images, a constraint that biases drawings towards simpler human-recognizable shapes. Results compare between CLIPDraw and other synthesis-through-op timization methods, as well as highlight various interesting behaviors of CLIPDraw, such as satisfying ambiguous text in multiple ways, reliably producing drawings in diverse artistic styles, and scaling from simple to complex visual representations as stroke count is increased. Code for experimenting with the method is available at: https://colab.resear ch.google.com/github /kvfrans/clipdraw/bl ob/main/clipdraw.ipy nb
翻訳日:2021-06-29 18:01:50 公開日:2021-06-28
# アテンションベースおよびディープピクセルワイズバイナリ監視ネットワークによる虹彩提示攻撃検出

Iris Presentation Attack Detection by Attention-based and Deep Pixel-wise Binary Supervision Network ( http://arxiv.org/abs/2106.14845v1 )

ライセンス: Link先を確認
Meiling Fang, Naser Damer, Fadi Boutros, Florian Kirchbuchner, Arjan Kuijper(参考訳) irisプレゼンテーションアタック検出(pad)は、iris認識システムにおいて重要な役割を果たす。 既存のCNNベースのIris PADソリューションは、CNNのトレーニング中にのみバイナリラベルの監視を行い、グローバルな情報学習を提供しながら、局所的な差別的特徴の獲得を弱め、2)より深い畳み込みや専門家が設計したネットワークを優先し、オーバーフィッティングのリスクを高め、3)複数のPADシステムや様々なタイプの機能を融合させ、モバイルデバイスへの展開の困難を増す。 そこで本研究では,A-PBS(Deep Pixel-wise binary supervision)法を提案する。 ピクセル単位での監督は、まず細かいピクセル/パッチレベルの手がかりを捉えることができる。 そして、注意機構がネットワークを誘導し、正確なPAD決定に最も寄与する領域を自動的に見つける。 livdet-iris 2017と他の3つの公開データベースで広範な実験が行われ、提案するa-pbs法の有効性と堅牢性を示している。 例えば、A-PBSモデルはIIITD-WVUデータベース上で6.50%のHTERを達成する。

Iris presentation attack detection (PAD) plays a vital role in iris recognition systems. Most existing CNN-based iris PAD solutions 1) perform only binary label supervision during the training of CNNs, serving global information learning but weakening the capture of local discriminative features, 2) prefer the stacked deeper convolutions or expert-designed networks, raising the risk of overfitting, 3) fuse multiple PAD systems or various types of features, increasing difficulty for deployment on mobile devices. Hence, we propose a novel attention-based deep pixel-wise binary supervision (A-PBS) method. Pixel-wise supervision is first able to capture the fine-grained pixel/patch-level cues. Then, the attention mechanism guides the network to automatically find regions that most contribute to an accurate PAD decision. Extensive experiments are performed on LivDet-Iris 2017 and three other publicly available databases to show the effectiveness and robustness of proposed A-PBS methods. For instance, the A-PBS model achieves an HTER of 6.50% on the IIITD-WVU database outperforming state-of-the-art methods.
翻訳日:2021-06-29 18:01:31 公開日:2021-06-28
# HDMapGen: 高定義マップの階層グラフ生成モデル

HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps ( http://arxiv.org/abs/2106.14880v1 )

ライセンス: Link先を確認
Lu Mi, Hang Zhao, Charlie Nash, Xiaohan Jin, Jiyang Gao, Chen Sun, Cordelia Schmid, Nir Shavit, Yuning Chai, Dragomir Anguelov(参考訳) High Definition (HD) マップは、道路路の正確な定義と交通ルールの豊富な意味を持つ地図である。 それらは、動きの予測や計画など、自律運転システムのいくつかの重要な段階において重要である。 しかし、現実の道路トポロジやジオメトリはごくわずかしかないため、新たな見えないシナリオに一般化するために自動運転スタックをテストする能力は著しく制限されています。 この問題に対処するために,HDマップを生成するための新しい課題を導入する。 本研究では,シーケンス,プレーングラフ,階層グラフなど,さまざまなデータ表現を用いた自己回帰モデルについて検討する。 粗大なアプローチにより高品質で多様なHDマップを生成できる階層グラフ生成モデルであるHDMapGenを提案する。 Argoverseデータセットと社内データセットの実験は、HDMapGenがベースラインメソッドを大幅に上回っていることを示している。 さらに,HDMapGenは高いスケーラビリティと効率を実現することを示す。

High Definition (HD) maps are maps with precise definitions of road lanes with rich semantics of the traffic rules. They are critical for several key stages in an autonomous driving system, including motion forecasting and planning. However, there are only a small amount of real-world road topologies and geometries, which significantly limits our ability to test out the self-driving stack to generalize onto new unseen scenarios. To address this issue, we introduce a new challenging task to generate HD maps. In this work, we explore several autoregressive models using different data representations, including sequence, plain graph, and hierarchical graph. We propose HDMapGen, a hierarchical graph generation model capable of producing high-quality and diverse HD maps through a coarse-to-fine approach. Experiments on the Argoverse dataset and an in-house dataset show that HDMapGen significantly outperforms baseline methods. Additionally, we demonstrate that HDMapGen achieves high scalability and efficiency.
翻訳日:2021-06-29 18:01:10 公開日:2021-06-28
# 初期のコンボリューションはトランスフォーマーを良くする

Early Convolutions Help Transformers See Better ( http://arxiv.org/abs/2106.14881v1 )

ライセンス: Link先を確認
Tete Xiao, Mannat Singh, Eric Mintun, Trevor Darrell, Piotr Doll\'ar, Ross Girshick(参考訳) 視覚変換器(ViT)モデルは準標準最適化性を示す。 特に、オプティマイザの選択(AdamW vs. SGD)、オプティマイザのハイパーパラメータ、スケジュールのトレーニングに敏感である。 対照的に、現代の畳み込みニューラルネットワークは最適化がはるかに容易である。 なぜそうなるのか? 本稿では,入力画像に適用したstride-p pxp畳み込み(デフォルトではp=16)によって実装されるvitモデルのパッチフィズ・ステムが問題となっていると推測する。 この大きなカーネルと大強度の畳み込みは、ニューラルネットワークにおける畳み込み層の典型的な設計選択に逆らう。 この非定型的な設計選択が問題を引き起こすかどうかを検証するため、vitモデルの最適化挙動をオリジナルのpatify stemで分析し、vit stemを少数のスタックストライド2、3x3畳み込みで置き換える単純な対応法と比較した。 2つのViT設計における計算の大部分は同一であるが、初期視覚処理におけるこの小さな変化は、最適化設定に対する感度と最終的なモデルの精度の点で、明らかに異なる訓練行動をもたらす。 ViTで畳み込みステムを使用すると、最適化の安定性が劇的に向上し、フロップとランタイムを維持しながらピークパフォーマンス(ImageNet-1kでは1-2%の精度で)が向上する。 この改善は、モデル複雑度(1Gから36Gフロップ)とデータセットスケール(ImageNet-1kからImageNet-21kまで)の幅広い範囲で観測できる。 これらの結果から,従来のViTモデルと比べ,より堅牢なアーキテクチャ選択として,標準的で軽量なコンボリューションステムを使用することを推奨した。

Vision transformer (ViT) models exhibit substandard optimizability. In particular, they are sensitive to the choice of optimizer (AdamW vs. SGD), optimizer hyperparameters, and training schedule length. In comparison, modern convolutional neural networks are far easier to optimize. Why is this the case? In this work, we conjecture that the issue lies with the patchify stem of ViT models, which is implemented by a stride-p pxp convolution (p=16 by default) applied to the input image. This large-kernel plus large-stride convolution runs counter to typical design choices of convolutional layers in neural networks. To test whether this atypical design choice causes an issue, we analyze the optimization behavior of ViT models with their original patchify stem versus a simple counterpart where we replace the ViT stem by a small number of stacked stride-two 3x3 convolutions. While the vast majority of computation in the two ViT designs is identical, we find that this small change in early visual processing results in markedly different training behavior in terms of the sensitivity to optimization settings as well as the final model accuracy. Using a convolutional stem in ViT dramatically increases optimization stability and also improves peak performance (by ~1-2% top-1 accuracy on ImageNet-1k), while maintaining flops and runtime. The improvement can be observed across the wide spectrum of model complexities (from 1G to 36G flops) and dataset scales (from ImageNet-1k to ImageNet-21k). These findings lead us to recommend using a standard, lightweight convolutional stem for ViT models as a more robust architectural choice compared to the original ViT model design.
翻訳日:2021-06-29 18:00:58 公開日:2021-06-28
# deepimpact, coil, and a concept framework for information retrieval techniquesについて

A Few Brief Notes on DeepImpact, COIL, and a Conceptual Framework for Information Retrieval Techniques ( http://arxiv.org/abs/2106.14807v1 )

ライセンス: Link先を確認
Jimmy Lin and Xueguang Ma(参考訳) 情報検索のための表現学習の最近の発展は、スパース対密表現と教師なし対学習表現の2対のコントラストを確立する概念的枠組みで構成できる。 スパース学習表現はさらに拡張と項重み付け成分に分解することができる。 このフレームワークは,近年提案されているDPR,ANCE,DeepCT,Deep Impact,COILなどの技術との関係を把握し,また,本分析で明らかになったギャップは,まだ探索されていない技術で「低吊り果実」を意味する。 我々は,人気のms marco パスランキングデータセットのスパース検索における現在の最先端の知識を実現する,コイルの単純な拡張である unicoil という新しい手法を提案する。 The Anserini IR Toolkit using the Anserini IR Toolkit built on the Lucene search library, so complete compatible with standard inverted indexs。

Recent developments in representational learning for information retrieval can be organized in a conceptual framework that establishes two pairs of contrasts: sparse vs. dense representations and unsupervised vs. learned representations. Sparse learned representations can further be decomposed into expansion and term weighting components. This framework allows us to understand the relationship between recently proposed techniques such as DPR, ANCE, DeepCT, DeepImpact, and COIL, and furthermore, gaps revealed by our analysis point to "low hanging fruit" in terms of techniques that have yet to be explored. We present a novel technique dubbed "uniCOIL", a simple extension of COIL that achieves to our knowledge the current state-of-the-art in sparse retrieval on the popular MS MARCO passage ranking dataset. Our implementation using the Anserini IR toolkit is built on the Lucene search library and thus fully compatible with standard inverted indexes.
翻訳日:2021-06-29 18:00:27 公開日:2021-06-28
# gaussian mixed generative adversarial networkを用いた非抽出学習

Non-Exhaustive Learning Using Gaussian Mixture Generative Adversarial Networks ( http://arxiv.org/abs/2106.14344v1 )

ライセンス: Link先を確認
Jun Zhuang, Mohammad Al Hasan(参考訳) 教師付き学習は、現実のシナリオでデプロイされるが、しばしば未知のクラスのインスタンスに遭遇する。 教師付き学習モデルを訓練する従来のアルゴリズムでは、そのようなインスタンスを検出できないため、100%の確率でそのようなインスタンスを誤分類する。 Open Set Recognition (OSR) と Non-Exhaustive Learning (NEL) はこの問題を解決するための潜在的な解決策である。 OSRの既存のメソッドは、まず既存のクラスのメンバを分類し、次に新しいクラスのインスタンスを識別する。 しかし、既存のOSRのメソッドの多くはバイナリ決定のみを行うため、未知のクラスの存在を識別するだけである。 したがって、このようなメソッドはインクリメンタルなunseenクラスに属するテストインスタンスを区別できない。 一方、NEL法の大部分は、実生活の複雑なデータセットがよく知られたデータ分布に従わないため、良い結果の返却に失敗するデータ分布に対してパラメトリックな仮定を行うことが多い。 本稿では、これらの問題に対処するために、新しいオンライン非排他的学習モデル、すなわちNon-Exhaustive Gaussian Mixture Generative Adversarial Networks (NE-GM-GAN)を提案する。 提案モデルでは,ganなどの深層生成モデル上でガウス混合に基づく潜在表現を合成し,テストデータ中の新興クラスのインスタンスを漸進的に検出する。 いくつかのベンチマークデータセットによる大規模な実験結果から,NE-GM-GANはストリーミングデータにおける新しいクラスのインスタンスの検出において,最先端の手法よりも著しく優れていた。

Supervised learning, while deployed in real-life scenarios, often encounters instances of unknown classes. Conventional algorithms for training a supervised learning model do not provide an option to detect such instances, so they miss-classify such instances with 100% probability. Open Set Recognition (OSR) and Non-Exhaustive Learning (NEL) are potential solutions to overcome this problem. Most existing methods of OSR first classify members of existing classes and then identify instances of new classes. However, many of the existing methods of OSR only makes a binary decision, i.e., they only identify the existence of the unknown class. Hence, such methods cannot distinguish test instances belonging to incremental unseen classes. On the other hand, the majority of NEL methods often make a parametric assumption over the data distribution, which either fail to return good results, due to the reason that real-life complex datasets may not follow a well-known data distribution. In this paper, we propose a new online non-exhaustive learning model, namely, Non-Exhaustive Gaussian Mixture Generative Adversarial Networks (NE-GM-GAN) to address these issues. Our proposed model synthesizes Gaussian mixture based latent representation over a deep generative model, such as GAN, for incremental detection of instances of emerging classes in the test data. Extensive experimental results on several benchmark datasets show that NE-GM-GAN significantly outperforms the state-of-the-art methods in detecting instances of novel classes in streaming data.
翻訳日:2021-06-29 18:00:01 公開日:2021-06-28
# 局所線形埋め込みに基づく領域適応型広義学習システム

Domain Adaptation Broad Learning System Based on Locally Linear Embedding ( http://arxiv.org/abs/2106.14367v1 )

ライセンス: Link先を確認
Chao Yuan and Chang-E Ren(参考訳) 広範学習システム(bls)は数年前から提案されてきた。 多くの分類や回帰問題に対して効果的な学習能力を示す。 しかしながら、BLSとその改良版は、主に単一のドメインにおける教師なし、教師なし、半教師なしの学習問題に対処するために使用される。 我々の知る限りでは、BLSのクロスドメイン学習能力に少し注意が払われている。 そこで我々は,BLSを伝達学習分野に導入し,局所線形埋め込み(DABLS-LLE)に基づく領域適応広範学習システムを提案する。 提案アルゴリズムは,対象領域からのラベル付きデータのごく一部とソース領域からのラベル付きデータのすべてを用いて,ロバストな分類モデルを学習することができる。 提案アルゴリズムはBLSの計算効率と学習能力を継承する。 ベンチマークデータセット(Office-Caltech-10)の実験は、我々のアプローチの有効性を検証する。 その結果,既存の移動学習手法よりも実行時間が少なく,分類精度が向上することが示唆された。 この手法がBLSに新たな優位性をもたらすことを示す。

Broad learning system (BLS) has been proposed for a few years. It demonstrates an effective learning capability for many classification and regression problems. However, BLS and its improved versions are mainly used to deal with unsupervised, supervised and semi-supervised learning problems in a single domain. As far as we know, a little attention is paid to the cross-domain learning ability of BLS. Therefore, we introduce BLS into the field of transfer learning and propose a novel algorithm called domain adaptation broad learning system based on locally linear embedding (DABLS-LLE). The proposed algorithm can learn a robust classification model by using a small part of labeled data from the target domain and all labeled data from the source domain. The proposed algorithm inherits the computational efficiency and learning capability of BLS. Experiments on benchmark dataset (Office-Caltech-10) verify the effectiveness of our approach. The results show that our approach can get better classification accuracy with less running time than many existing transfer learning approaches. It shows that our approach can bring a new superiority for BLS.
翻訳日:2021-06-29 17:59:39 公開日:2021-06-28
# 乗算パラメータ上のランダム化平滑化による認証ロバスト性

Certified Robustness via Randomized Smoothing over Multiplicative Parameters ( http://arxiv.org/abs/2106.14432v1 )

ライセンス: Link先を確認
Nikita Muravev, Aleksandr Petiushko(参考訳) 乗法パラメータを用いたランダムな平滑化手法を提案する。 この方法を用いて,ガンマ補正摂動に関して証明可能なロバストな分類器を構築し,ガウス平滑化によって得られた分類器と比較する。 私たちの知る限りでは、乗法的ガンマ補正変換に対する認定ロバスト性に関する最初の研究です。

We propose a novel approach of randomized smoothing over multiplicative parameters. Using this method we construct certifiably robust classifiers with respect to a gamma-correction perturbation and compare the result with classifiers obtained via Gaussian smoothing. To the best of our knowledge it is the first work concerning certified robustness against the multiplicative gamma-correction transformation.
翻訳日:2021-06-29 17:59:24 公開日:2021-06-28
# R-Drop: ニューラルネットワークのための正規化ドロップアウト

R-Drop: Regularized Dropout for Neural Networks ( http://arxiv.org/abs/2106.14448v1 )

ライセンス: Link先を確認
Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei Chen, Min Zhang, Tie-Yan Liu(参考訳) dropoutは、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使われているテクニックである。 本稿では,ドロップアウトによって生成されたサブモデルの出力分布を互いに整合させるモデルトレーニングにおいて,ドロップアウト時の単純な正規化戦略,すなわちR-Dropを導入する。 具体的には、各トレーニングサンプルについて、R-Dropは、ドロップアウトによってサンプリングされた2つのサブモデルの出力分布間の双方向KL偏差を最小化する。 理論的解析によると、R-Dropはモデルパラメータの自由を減らし、ドロップアウトを補完する。 ニューラルネットワークの翻訳、抽象要約、言語理解、言語モデリング、画像分類など、広く使われているディープラーニングタスク(合計で\bf{18}$データセット)に関する実験は、r-dropが普遍的に有効であることを示している。 特に、ViT、RoBERTa-large、BARTなどの大規模事前訓練モデルに適用された場合、相当な改善が得られ、WMT14のバニラトランスフォーマーモデルとWMT14のイングリッシュ$\to$ドイツ語翻訳(\bf{30.91}$ BLEU)、WMT14のイングリッシュ$\to$フランス語翻訳(\bf{43.95}$ BLEU)で、さらに大規模なデータと専門家が設計した先進的なトランスフォーマーモデルで訓練されたモデルよりも優れている。 我々のコードはgithub{\url{https://github.com/d ropreg/r-drop}}で入手できる。

Dropout is a powerful and widely used technique to regularize the training of deep neural networks. In this paper, we introduce a simple regularization strategy upon dropout in model training, namely R-Drop, which forces the output distributions of different sub models generated by dropout to be consistent with each other. Specifically, for each training sample, R-Drop minimizes the bidirectional KL-divergence between the output distributions of two sub models sampled by dropout. Theoretical analysis reveals that R-Drop reduces the freedom of the model parameters and complements dropout. Experiments on $\bf{5}$ widely used deep learning tasks ($\bf{18}$ datasets in total), including neural machine translation, abstractive summarization, language understanding, language modeling, and image classification, show that R-Drop is universally effective. In particular, it yields substantial improvements when applied to fine-tune large-scale pre-trained models, e.g., ViT, RoBERTa-large, and BART, and achieves state-of-the-art (SOTA) performances with the vanilla Transformer model on WMT14 English$\to$German translation ($\bf{30.91}$ BLEU) and WMT14 English$\to$French translation ($\bf{43.95}$ BLEU), even surpassing models trained with extra large-scale data and expert-designed advanced variants of Transformer models. Our code is available at GitHub{\url{https://github.com/d ropreg/R-Drop}}.
翻訳日:2021-06-29 17:59:19 公開日:2021-06-28
# 理想的プロトタイプを用いた双曲型ブセマン学習

Hyperbolic Busemann Learning with Ideal Prototypes ( http://arxiv.org/abs/2106.14472v1 )

ライセンス: Link先を確認
Mina Ghadimi Atigh, Martin Keller-Ressel, Pascal Mettes(参考訳) 双曲空間は、木のような構造やテキストからグラフまで、任意のデータの表現学習のための多様体の一般的な選択となった。 ユークリッド空間と超球面空間のプロトタイプによる深層学習の成功に基づいて、最近のいくつかの研究で、分類のための双曲型プロトタイプが提案されている。 このようなアプローチは、低次元の出力空間における効果的な学習を可能にし、クラス間の階層的関係を利用することができるが、双曲型プロトタイプを配置するためにクラスラベルに関する特権情報を必要とする。 本研究では,双曲的ブセマン学習を提案する。 このアプローチの背後にある主要なアイデアは、事前のラベル知識を必要としないpoincareボールの理想的な境界にプロトタイプを置くことです。 理想のプロトタイプへの近さを計算するために,ペナルテッド・ビューゼマンの損失について紹介する。 1次元の場合のロジスティック回帰に対する同値性を証明することにより,理想プロトタイプの使用と損失提案を支持する理論を提供する。 経験的に,本手法は分類信頼度を自然に解釈すると同時に,近年の超球型および双曲型プロトタイプアプローチよりも優れていることを示す。

Hyperbolic space has become a popular choice of manifold for representation learning of arbitrary data, from tree-like structures and text to graphs. Building on the success of deep learning with prototypes in Euclidean and hyperspherical spaces, a few recent works have proposed hyperbolic prototypes for classification. Such approaches enable effective learning in low-dimensional output spaces and can exploit hierarchical relations amongst classes, but require privileged information about class labels to position the hyperbolic prototypes. In this work, we propose Hyperbolic Busemann Learning. The main idea behind our approach is to position prototypes on the ideal boundary of the Poincare ball, which does not require prior label knowledge. To be able to compute proximities to ideal prototypes, we introduce the penalised Busemann loss. We provide theory supporting the use of ideal prototypes and the proposed loss by proving its equivalence to logistic regression in the one-dimensional case. Empirically, we show that our approach provides a natural interpretation of classification confidence, while outperforming recent hyperspherical and hyperbolic prototype approaches.
翻訳日:2021-06-29 17:58:45 公開日:2021-06-28
# 低出力パターン認識のための積分・燃焼ニューロン

Integrate-and-Fire Neurons for Low-Powered Pattern Recognition ( http://arxiv.org/abs/2106.14596v1 )

ライセンス: Link先を確認
Florian Bacho and Dominique Chu(参考訳) 組み込みシステムはセンサーから現実世界に関する情報を取得し、それを処理して意思決定や伝達を行う。 一部の状況では、データと決定の関係は複雑であり、/または送信するデータの量が大きい(例)。 in biologgers) ニューラルネットワーク(anns)は、入力データのパターンを効率的に検出することができ、データ転送のための情報の意思決定や圧縮に適している。 しかし、ANNはバッテリー駆動装置の寿命を短縮する相当なエネルギーを必要とする。 したがって、スパイキングニューラルネットワークを使うことで、エネルギーを消費しすぎずに知覚データを効率的に処理する方法を提供することで、そのようなシステムを改善することができる。 本研究では,キャパシタの電荷と放電特性を利用する低出力ニューロンモデルであるintegration-and-fire を提案する。 並列および直列RC回路を用いて、繰り返し形式で表現できるトレーニング可能なニューロンモデルを開発した。 最後に、犬体姿勢の人工的データセットを用いてシミュレーションを訓練し、有望なエネルギー特性を示すハードウェアとして実装した。 本論文は,第20回人工知能・ソフトコンピューティングWebシステム国際会議(ICAISC 2021)で発表された研究の全文である。

Embedded systems acquire information about the real world from sensors and process it to make decisions and/or for transmission. In some situations, the relationship between the data and the decision is complex and/or the amount of data to transmit is large (e.g. in biologgers). Artificial Neural Networks (ANNs) can efficiently detect patterns in the input data which makes them suitable for decision making or compression of information for data transmission. However, ANNs require a substantial amount of energy which reduces the lifetime of battery-powered devices. Therefore, the use of Spiking Neural Networks can improve such systems by providing a way to efficiently process sensory data without being too energy-consuming. In this work, we introduce a low-powered neuron model called Integrate-and-Fire which exploits the charge and discharge properties of the capacitor. Using parallel and series RC circuits, we developed a trainable neuron model that can be expressed in a recurrent form. Finally, we trained its simulation with an artificially generated dataset of dog postures and implemented it as hardware that showed promising energetic properties. This paper is the full text of the research, presented at the 20th International Conference on Artificial Intelligence and Soft Computing Web System (ICAISC 2021)
翻訳日:2021-06-29 17:58:26 公開日:2021-06-28
# センジングシフト検出器:広範囲な経験的評価

Ensembling Shift Detectors: an Extensive Empirical Evaluation ( http://arxiv.org/abs/2106.14608v1 )

ライセンス: Link先を確認
Simona Maggio and L\'eo Dreyfus-Schmidt(参考訳) データセットシフトという用語は、機械学習モデルをトレーニングするために使用されるデータが、モデルが動作する場所と異なる状況を指す。 いくつかのシフトは自然に発生するが、既存のシフト検出器は特定のシフトにのみ対処するように設計されている。 本稿では,各検出器の統計テストの重要度レベルをデータセットに調整しながら,相補的なシフト検出器を合奏する簡易かつ強力な手法を提案する。 これにより、より堅牢なシフト検出が可能となり、正確なシフトタイプが不明な実生活において不可欠な、あらゆる種類のシフトに対処することができる。 このアプローチは、実世界の構造化データセットに適用された様々な合成シフトに関する大規模な統計的音響ベンチマークによって検証される。

The term dataset shift refers to the situation where the data used to train a machine learning model is different from where the model operates. While several types of shifts naturally occur, existing shift detectors are usually designed to address only a specific type of shift. We propose a simple yet powerful technique to ensemble complementary shift detectors, while tuning the significance level of each detector's statistical test to the dataset. This enables a more robust shift detection, capable of addressing all different types of shift, which is essential in real-life settings where the precise shift type is often unknown. This approach is validated by a large-scale statistically sound benchmark study over various synthetic shifts applied to real-world structured datasets.
翻訳日:2021-06-29 17:58:09 公開日:2021-06-28
# ディープニューラルネットワークのtoposとスタック

Topos and Stacks of Deep Neural Networks ( http://arxiv.org/abs/2106.14587v1 )

ライセンス: Link先を確認
Jean-Claude Belfiore and Daniel Bennequin(参考訳) すべての既知の人工深層ニューラルネットワーク(dnn)は、標準グロタンディークのトポの物体に対応しており、その学習ダイナミクスは、このトポの射の流れに対応する。 層内の不変構造(CNNやLSTMなど)はGiraudのスタックに対応している。 この不変性は、制約の下での学習データから外挿される一般化特性に責任があると考えられる。 ファイバーは、内部論理、直観主義、古典的または線型的(ジラード)を含む人工言語が定義されるプレセマンティックなカテゴリー(Culioli, Thom)を表す。 ネットワークのセマンティック機能は、そのような言語で理論を表現し、入力データに関する出力の質問に答える能力である。 意味情報の量と空間はシャノンのエントロピー(P. Baudot と D.B.)のホモロジー解釈と類似して定義される。 2015). 彼らはCarnap and Bar-Hillel (1952) によって発見された測度を一般化した。 驚くべきことに、上記の意味構造はクイレンの閉モデル圏における幾何学的ファイバーオブジェクトによって分類され、DNNのホモトピー不変量とそれらの意味関数をもたらす。 意図型理論(martin-loef)はこれらの対象とそれらの間のファイブを整理する。 情報の内容と交換はGrothendieckの導師によって分析される。

Every known artificial deep neural network (DNN) corresponds to an object in a canonical Grothendieck's topos; its learning dynamic corresponds to a flow of morphisms in this topos. Invariance structures in the layers (like CNNs or LSTMs) correspond to Giraud's stacks. This invariance is supposed to be responsible of the generalization property, that is extrapolation from learning data under constraints. The fibers represent pre-semantic categories (Culioli, Thom), over which artificial languages are defined, with internal logics, intuitionist, classical or linear (Girard). Semantic functioning of a network is its ability to express theories in such a language for answering questions in output about input data. Quantities and spaces of semantic information are defined by analogy with the homological interpretation of Shannon's entropy (P.Baudot and D.B. 2015). They generalize the measures found by Carnap and Bar-Hillel (1952). Amazingly, the above semantical structures are classified by geometric fibrant objects in a closed model category of Quillen, then they give rise to homotopical invariants of DNNs and of their semantic functioning. Intentional type theories (Martin-Loef) organize these objects and fibrations between them. Information contents and exchanges are analyzed by Grothendieck's derivators.
翻訳日:2021-06-29 17:57:14 公開日:2021-06-28
# スマートコントラクトで大量のディープニューラルネットワークをトレーニングする - 新しい希望

Training Massive Deep Neural Networks in a Smart Contract: A New Hope ( http://arxiv.org/abs/2106.14763v1 )

ライセンス: Link先を確認
Yin Yang(参考訳) ディープニューラルネットワーク(DNN)は、DeFiやNFTトレーディングといったブロックチェーンアプリケーションで非常に有用である。 しかしながら、スマートコントラクトの一部として大規模なDNNをトレーニング/実行することは、今日のブロックチェーンプラットフォームでは不可能である。 第一に、ブロックチェーンは一般的に、各ノードがいつでも完全な世界状態を維持することを必要とし、つまりノードは各ブロックですべてのトランザクションを実行する必要がある。 これは、DNNを含む計算集約的なスマートコントラクトにとって、極めて高価である。 第二に、既存のブロックチェーンプラットフォームは、スマートコントラクトトランザクションが決定論的で再現可能な結果と効果を持つことを期待している。 対照的に、DNNは通常、GPU、TPU、/またはコンピューティングクラスタなどの大規模並列コンピューティングデバイス上で、ロックフリーで訓練され、実行され、決定論的結果が得られない。 本稿では,これらの課題に対処する新しいプラットフォーム設計,すなわちA New Hope (ANH)を提案する。 主なアイデアは、 (i) 計算集約型スマートコントラクトトランザクションは、結果を必要とするノードまたは特別なサービスプロバイダによってのみ実行される。 (ii) 非決定論的スマートコントラクトトランザクションは、比較的高いコストで検証できるが、不確定な結果をもたらす。 さらに,トークンの使いやすさ,シャーディング,プライベートトランザクション,スマートコントラクトの基本的な意味など,ANHのさまざまな意味について論じる。

Deep neural networks (DNNs) could be very useful in blockchain applications such as DeFi and NFT trading. However, training / running large-scale DNNs as part of a smart contract is infeasible on today's blockchain platforms, due to two fundamental design issues of these platforms. First, blockchains nowadays typically require that each node maintain the complete world state at any time, meaning that the node must execute all transactions in every block. This is prohibitively expensive for computationally intensive smart contracts involving DNNs. Second, existing blockchain platforms expect smart contract transactions to have deterministic, reproducible results and effects. In contrast, DNNs are usually trained / run lock-free on massively parallel computing devices such as GPUs, TPUs and / or computing clusters, which often do not yield deterministic results. This paper proposes novel platform designs, collectively called A New Hope (ANH), that address the above issues. The main ideas are (i) computing-intensive smart contract transactions are only executed by nodes who need their results, or by specialized serviced providers, and (ii) a non-deterministic smart contract transaction leads to uncertain results, which can still be validated, though at a relatively high cost; specifically for DNNs, the validation cost can often be reduced by verifying properties of the results instead of their exact values. In addition, we discuss various implications of ANH, including its effects on token fungibility, sharding, private transactions, and the fundamental meaning of a smart contract.
翻訳日:2021-06-29 17:56:26 公開日:2021-06-28
# ASP.NET で定義可能な $\textit{DL-Lite}_{\cal R}$ の推論

Reasoning on $\textit{DL-Lite}_{\cal R}$ with Defeasibility in ASP ( http://arxiv.org/abs/2106.14801v1 )

ライセンス: Link先を確認
Loris Bozzato, Thomas Eiter, Luciano Serafini(参考訳) 難解な知識に対する推論は、知識ベースにおける例外的な事例を表現する必要性に関連するため、記述論理の領域における関心のトピックである。 この方向において,本論文では,決定可能な公理に対する正当化された例外の概念を持つOWL RL知識ベースを表現するためのフレームワークを提示した。 しかし、OWL RLの結果として生じる推論プロセスは、例外の推論に必要な負の情報に対する推論を捉えるために複雑な符号化を導入している。 本稿では, OWL QL を基盤とする言語である $\textit{DL-Lite}_{\cal R}$ の知識ベースに対して, 正当化された例外アプローチを適用する。 証明可能な公理を持つ$\textit{dl-lite}_{\cal r}$ の知識ベースを定義し、それらの意味的および計算的性質について研究する。 特に,名前のない個人に対する例外の影響について検討する。 制限形式である$\textit{DL-Lite}_{\cal R}$ axiomsは、より単純なASPエンコーディングを定式化できます。 結果の実体化法は、例えば $\textit{DL-Lite}_{\cal R}$ で defeasible axioms を持つような完全な推論手順をもたらす。 論理プログラミングの理論と実践(tplp)における考察。

Reasoning on defeasible knowledge is a topic of interest in the area of description logics, as it is related to the need of representing exceptional instances in knowledge bases. In this direction, in our previous works we presented a framework for representing (contextualized) OWL RL knowledge bases with a notion of justified exceptions on defeasible axioms: reasoning in such framework is realized by a translation into ASP programs. The resulting reasoning process for OWL RL, however, introduces a complex encoding in order to capture reasoning on the negative information needed for reasoning on exceptions. In this paper, we apply the justified exception approach to knowledge bases in $\textit{DL-Lite}_{\cal R}$, i.e., the language underlying OWL QL. We provide a definition for $\textit{DL-Lite}_{\cal R}$ knowledge bases with defeasible axioms and study their semantic and computational properties. In particular, we study the effects of exceptions over unnamed individuals. The limited form of $\textit{DL-Lite}_{\cal R}$ axioms allows us to formulate a simpler ASP encoding, where reasoning on negative information is managed by direct rules. The resulting materialization method gives rise to a complete reasoning procedure for instance checking in $\textit{DL-Lite}_{\cal R}$ with defeasible axioms. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-06-29 17:56:01 公開日:2021-06-28
# VAT-Mart:3次元人工物体を操作するための視覚行動軌跡の提案

VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects ( http://arxiv.org/abs/2106.14440v1 )

ライセンス: Link先を確認
Ruihai Wu, Yan Zhao, Kaichun Mo, Zizheng Guo, Yian Wang, Tianhao Wu, Qingnan Fan, Xuelin Chen, Leonidas Guibas, Hao Dong(参考訳) 将来のホームアシストロボットにとって、人間環境における3D関節物体(キャビネット、ドアなど)の知覚と操作は重要な課題である。 3D音声オブジェクトの空間は、無数のセマンティックなカテゴリ、多様な形状の幾何学、複雑な部分の機能に非常に豊富である。 それまでの作業は, 関節パラメータを推定した抽象的運動構造と, 3次元関節物体の視覚的表現として機能する部分である。 本稿では,物体中心の動作可能な視覚プライオリエンスを,知覚系が運動的構造推定よりも行動可能なガイダンスを出力する新しい知覚-相互作用ハンドシェイキングポイントとして提案する。 我々は,多様な相互作用軌跡を探索する好奇心駆動型強化学習政策と,多様な形状のポイントワイズ予測のための探索的知識を要約して一般化する知覚モジュールを同時に訓練することにより,このような実行可能な視覚表現を学習するためのインタラクション・フォー・パーセプション・フレームワークVAT-Martを設計する。 実験は,サピエン環境における大規模partnet-mobilityデータセットを用いた提案手法の有効性を実証し,新しいテスト形状,未発見のオブジェクトカテゴリ,実世界データに有望な一般化能力を示す。 プロジェクトページ: https://hyperplane-l ab.github.io/vat-mar t

Perceiving and manipulating 3D articulated objects (e.g., cabinets, doors) in human environments is an important yet challenging task for future home-assistant robots. The space of 3D articulated objects is exceptionally rich in their myriad semantic categories, diverse shape geometry, and complicated part functionality. Previous works mostly abstract kinematic structure with estimated joint parameters and part poses as the visual representations for manipulating 3D articulated objects. In this paper, we propose object-centric actionable visual priors as a novel perception-interacti on handshaking point that the perception system outputs more actionable guidance than kinematic structure estimation, by predicting dense geometry-aware, interaction-aware, and task-aware visual action affordance and trajectory proposals. We design an interaction-for-perc eption framework VAT-Mart to learn such actionable visual representations by simultaneously training a curiosity-driven reinforcement learning policy exploring diverse interaction trajectories and a perception module summarizing and generalizing the explored knowledge for pointwise predictions among diverse shapes. Experiments prove the effectiveness of the proposed approach using the large-scale PartNet-Mobility dataset in SAPIEN environment and show promising generalization capabilities to novel test shapes, unseen object categories, and real-world data. Project page: https://hyperplane-l ab.github.io/vat-mar t
翻訳日:2021-06-29 17:50:57 公開日:2021-06-28
# R2RNet:Real-low - Real-normal Networkによる低照度画像強調

R2RNet: Low-light Image Enhancement via Real-low to Real-normal Network ( http://arxiv.org/abs/2106.14501v1 )

ライセンス: Link先を確認
Jiang Hai, Zhu Xuan, Ren Yang, Yutong Hao, Fengzhu Zou, Fang Lin and Songchen Han(参考訳) 弱い照明条件で撮影された画像は、画質を著しく低下させる。 低照度画像の一連の劣化を解決することで、画像の視覚的品質と高レベルの視覚タスクのパフォーマンスを効果的に向上させることができる。 本稿では,decom-net,denoise-n et,relight-netの3つのサブネットを含むretinex理論に基づいて,r2rnetと呼ばれる低光度画像強調のための,新しい実低照準ネットワークを提案する。 これら3つのサブネットは、それぞれ分解、分別、コントラスト強調に用いられる。 合成画像で訓練されたほとんどの手法とは異なり、トレーニングのために最初の大規模な実世界対の低正規光画像データセット(lsrwデータセット)を収集する。 本手法はコントラストを適切に改善し,同時にノイズを抑制する。 公開データセットに関する広範囲な実験により,本手法が既存の最先端手法よりも定量的かつ視覚的に大きなマージンで優れていることが証明された。 また,高レベルの視覚タスク (\emph{i.e.}) の性能も示す。 フェース検出) は, 低照度条件下で得られた拡張結果を用いて効果的に改善できる。 我々のコードとLSRWデータセットは以下の通りである。

Images captured in weak illumination conditions will seriously degrade the image quality. Solving a series of degradation of low-light images can effectively improve the visual quality of the image and the performance of high-level visual tasks. In this paper, we propose a novel Real-low to Real-normal Network for low-light image enhancement, dubbed R2RNet, based on the Retinex theory, which includes three subnets: a Decom-Net, a Denoise-Net, and a Relight-Net. These three subnets are used for decomposing, denoising, and contrast enhancement, respectively. Unlike most previous methods trained on synthetic images, we collect the first Large-Scale Real-World paired low/normal-light images dataset (LSRW dataset) for training. Our method can properly improve the contrast and suppress noise simultaneously. Extensive experiments on publicly available datasets demonstrate that our method outperforms the existing state-of-the-art methods by a large margin both quantitatively and visually. And we also show that the performance of the high-level visual task (\emph{i.e.} face detection) can be effectively improved by using the enhanced results obtained by our method in low-light conditions. Our codes and the LSRW dataset are available at: https://github.com/a bcdef2000/R2RNet.
翻訳日:2021-06-29 17:50:32 公開日:2021-06-28
# ACN: 欠損児の脳腫瘍分節に対する対人協調訓練ネットワーク

ACN: Adversarial Co-training Network for Brain Tumor Segmentation with Missing Modalities ( http://arxiv.org/abs/2106.14591v1 )

ライセンス: Link先を確認
Yixin Wang, Yang Zhang, Yang Liu, Zihao Lin, Jiang Tian, Cheng Zhong, Zhongchao Shi, Jianping Fan, Zhiqiang He(参考訳) MRIによる脳腫瘍の正確なセグメンテーションは、診断、予後、手術治療に臨床的に関係しており、相補的な形態学的および生理学的情報を提供するために複数のモダリティを必要とする。 しかし、モダリティの欠如は、画像の破損、人工物、異なる取得プロトコル、あるいは臨床実践における特定のコントラスト剤に対するアレルギーに起因することが多い。 既存の取り組みは、すべての欠落状況に対する統一モデルの可能性を示しているが、そのほとんどは、1つ以上のモダリティが欠落している場合に不適切なパフォーマンスを示す。 本稿では,この問題を解決するための新しい逆共学習ネットワーク(adversarial co-training network,acn)を提案する。 特に、acnは、相互のドメインと特徴表現を補うために、完全モダリティと欠落モダリティの両方の結合学習プロセスを可能にする新しい共学習ネットワークを採用しており、さらに重要なこととして、欠落モダリティの「ミス」情報を復元する。 次に,2つの教師なしモジュール,すなわちエントロピーと知識逆学習モジュールを提案し,予測信頼性を高めつつドメインギャップを最小化し,潜在表現のアライメントを促進する。 また,モダリティ情報伝達学習をacnに適用し,モダリティ間の豊かな相互情報を保持する。 brats2018データセットに関する広範囲な実験により,提案手法が不足している状況下では,すべての最先端メソッドを著しく上回ることがわかった。

Accurate segmentation of brain tumors from magnetic resonance imaging (MRI) is clinically relevant in diagnoses, prognoses and surgery treatment, which requires multiple modalities to provide complementary morphological and physiopathologic information. However, missing modality commonly occurs due to image corruption, artifacts, different acquisition protocols or allergies to certain contrast agents in clinical practice. Though existing efforts demonstrate the possibility of a unified model for all missing situations, most of them perform poorly when more than one modality is missing. In this paper, we propose a novel Adversarial Co-training Network (ACN) to solve this issue, in which a series of independent yet related models are trained dedicated to each missing situation with significantly better results. Specifically, ACN adopts a novel co-training network, which enables a coupled learning process for both full modality and missing modality to supplement each other's domain and feature representations, and more importantly, to recover the `missing' information of absent modalities. Then, two unsupervised modules, i.e., entropy and knowledge adversarial learning modules are proposed to minimize the domain gap while enhancing prediction reliability and encouraging the alignment of latent representations, respectively. We also adapt modality-mutual information knowledge transfer learning to ACN to retain the rich mutual information among modalities. Extensive experiments on BraTS2018 dataset show that our proposed method significantly outperforms all state-of-the-art methods under any missing situation.
翻訳日:2021-06-29 17:50:13 公開日:2021-06-28
# RoboCup SSLにおけるリアルタイム埋め込みオブジェクト検出のデータセットとベンチマーク

Dataset and Benchmarking of Real-Time Embedded Object Detection for RoboCup SSL ( http://arxiv.org/abs/2106.14597v1 )

ライセンス: Link先を確認
Roberto Fernandes, Walber M. Rodrigues, Edna Barros(参考訳) 特定のコンテキストでオブジェクト検出にモデルを生成する場合、第一の障害は、望ましいクラスをラベル付けしたデータセットを持つことである。 RoboCupでは、モデルのトレーニングと評価のために複数のデータセットをすでに持っているリーグもある。 しかし、Small Size League(SSL)では、そのようなデータセットはまだ利用できない。 本稿では,SSLにおけるリアルタイムオブジェクト検出のベンチマークとして使用するオープンソースデータセットを提案する。 この研究は、低消費電力組み込みシステムで畳み込みニューラルネットワーク(CNN)モデルをトレーニング、デプロイ、評価するためのパイプラインも提示した。 このパイプラインは、提案されたデータセットを最先端の最適化モデルで評価するために使用された。 このデータセットでは、MobileNet SSD v1 は SSL ロボット上で実行中に 94 Frames Per Second (FPS) で 44.88% AP50 (68.81% AP50) を達成する。

When producing a model to object detection in a specific context, the first obstacle is to have a dataset labeling the desired classes. In RoboCup, some leagues already have more than one dataset to train and evaluate a model. However, in the Small Size League (SSL), there is not such dataset available yet. This paper presents an open-source dataset to be used as a benchmark for real-time object detection in SSL. This work also presented a pipeline to train, deploy, and evaluate Convolutional Neural Networks (CNNs) models in a low-power embedded system. This pipeline was used to evaluate the proposed dataset with state-of-art optimized models. In this dataset, the MobileNet SSD v1 achieves 44.88% AP (68.81% AP50) at 94 Frames Per Second (FPS) while running on an SSL robot.
翻訳日:2021-06-29 17:49:43 公開日:2021-06-28
# スマートエッジセンサへの意味フィードバックを用いたリアルタイムマルチビュー3次元ポーズ推定

Real-Time Multi-View 3D Human Pose Estimation using Semantic Feedback to Smart Edge Sensors ( http://arxiv.org/abs/2106.14729v1 )

ライセンス: Link先を確認
Simon Bultmann and Sven Behnke(参考訳) 本稿では,マルチカメラによる3次元ポーズ推定手法を提案し,セマンティックフィードバックループを通じて,バックエンドと結合した分散スマートエッジセンサを用いた。 専用埋め込み推論プロセッサにおいて、各カメラビューに対する2次元ジョイント検出をローカルに行う。 セマンティックスケルトン表現のみがネットワークを介して送信され、生画像はセンサーボード上に残る。 3dポーズは、三角測量と人体骨格の事前知識を組み込んだボディモデルに基づいて、中央バックエンドの2d関節から復元される。 バックエンドから個々のセンサへのフィードバックチャネルをセマンティックレベルで実装する。 同中心の3Dポーズは、センサービューにバックプロジェクションされ、2D関節検出と融合する。 これにより、グローバルコンテキスト情報を組み込むことで、各センサ上の局所意味モデルを改善することができる。 パイプライン全体はリアルタイム操作が可能である。 提案手法を3つの公開データセット上で評価し,最新の成果を得られた上で,フィードバックアーキテクチャのメリットと,多人数実験のための独自の設定を示す。 フィードバック信号を用いることで、2次元関節検出が改善され、推定された3次元ポーズが向上する。

We present a novel method for estimation of 3D human poses from a multi-camera setup, employing distributed smart edge sensors coupled with a backend through a semantic feedback loop. 2D joint detection for each camera view is performed locally on a dedicated embedded inference processor. Only the semantic skeleton representation is transmitted over the network and raw images remain on the sensor board. 3D poses are recovered from 2D joints on a central backend, based on triangulation and a body model which incorporates prior knowledge of the human skeleton. A feedback channel from backend to individual sensors is implemented on a semantic level. The allocentric 3D pose is backprojected into the sensor views where it is fused with 2D joint detections. The local semantic model on each sensor can thus be improved by incorporating global context information. The whole pipeline is capable of real-time operation. We evaluate our method on three public datasets, where we achieve state-of-the-art results and show the benefits of our feedback architecture, as well as in our own setup for multi-person experiments. Using the feedback signal improves the 2D joint detections and in turn the estimated 3D poses.
翻訳日:2021-06-29 17:49:30 公開日:2021-06-28
# 畳み込みニューラルネットワークを用いたスマートウォーカーのリアルタイムポーズ推定

Real-Time Human Pose Estimation on a Smart Walker using Convolutional Neural Networks ( http://arxiv.org/abs/2106.14739v1 )

ライセンス: Link先を確認
Manuel Palermo, Sara Moccia, Lucia Migliorelli, Emanuele Frontoni, Cristina P. Santos(参考訳) リハビリテーションは移動障害患者の生活の質を改善するために重要である。 スマートウォーカーは、データ駆動型制御と監視のための自動的および客観的なツールを埋め込むために一般的に使用されるソリューションである。 しかし,本ソリューションでは,全身体的アプローチを伴わない専用センサからの特定指標の抽出に焦点をあてている。 本研究では,リハビリテーションに使用されるスマートウォーカー機器に非オーバーラップビューを装着した2つのrgb+dカメラストリームに基づく,リアルタイムかつフルボディなポーズ推定フレームワークについて検討する。 人間のキーポイント推定は2段階ニューラルネットワークフレームワークを用いて行われる。 2D-Stageは2D画像フレーム内のボディキーポイントを検出するモジュールを実装している。 3D-Stageは、両方のカメラで検出されたキーポイントを歩行者に対して3D空間に持ち上げて関連付けるレグレッションモジュールを実装している。 モデル予測は時間的整合性を改善するために低パスフィルタされる。 提案したフレームワークをオフラインでトレーニングし,評価するために,14名の健常被験者からなるデータセットを取得するために,独自の取得手法が用いられた。 2D-Stageの3.73ピクセルと3D-Stageの44.05mmの全体的なキーポイント検出誤差が報告され、ウォーカの制約されたハードウェアに展開すると26.6msの推論時間が記録された。 スマートウォーカのコンテキストにおける患者モニタリングとデータ駆動型ヒューマン・ザ・ループ制御に対する新しいアプローチを提案する。 リアルタイムおよび安価なセンサから、完全かつコンパクトなボディ表現を抽出でき、下流のメトリクス抽出ソリューションと人間とロボットのインタラクションアプリケーションのための共通基盤として機能する。 有望な結果にもかかわらず、現実のシナリオにおけるリハビリツールとしてのパフォーマンスを評価するために、障害のあるユーザにより多くのデータを収集する必要がある。

Rehabilitation is important to improve quality of life for mobility-impaired patients. Smart walkers are a commonly used solution that should embed automatic and objective tools for data-driven human-in-the-loop control and monitoring. However, present solutions focus on extracting few specific metrics from dedicated sensors with no unified full-body approach. We investigate a general, real-time, full-body pose estimation framework based on two RGB+D camera streams with non-overlapping views mounted on a smart walker equipment used in rehabilitation. Human keypoint estimation is performed using a two-stage neural network framework. The 2D-Stage implements a detection module that locates body keypoints in the 2D image frames. The 3D-Stage implements a regression module that lifts and relates the detected keypoints in both cameras to the 3D space relative to the walker. Model predictions are low-pass filtered to improve temporal consistency. A custom acquisition method was used to obtain a dataset, with 14 healthy subjects, used for training and evaluating the proposed framework offline, which was then deployed on the real walker equipment. An overall keypoint detection error of 3.73 pixels for the 2D-Stage and 44.05mm for the 3D-Stage were reported, with an inference time of 26.6ms when deployed on the constrained hardware of the walker. We present a novel approach to patient monitoring and data-driven human-in-the-loop control in the context of smart walkers. It is able to extract a complete and compact body representation in real-time and from inexpensive sensors, serving as a common base for downstream metrics extraction solutions, and Human-Robot interaction applications. Despite promising results, more data should be collected on users with impairments, to assess its performance as a rehabilitation tool in real-world scenarios.
翻訳日:2021-06-29 17:49:13 公開日:2021-06-28
# プログレッシブ・ジョイントによる低光度強調とノイズ除去

Progressive Joint Low-light Enhancement and Noise Removal for Raw Images ( http://arxiv.org/abs/2106.14844v1 )

ライセンス: Link先を確認
Yucheng Lu and Seung-Won Jung(参考訳) モバイルデバイスでの低照度撮像は、比較的小さな開口部を通過する入射光が不足しているため、信号対雑音比が低いため、通常困難である。 従来の低照度画像処理のほとんどは、照明調整、色強調、ノイズ除去などの単一タスクのみに焦点を絞ったものや、特定のカメラモデルから収集した短距離露光画像対に大きく依存するジョイント照明調整およびデノナイジングタスクに重点を置いているため、カメラ固有のジョイントエンハンスメントと復元が必要な現実の環境では、これらのアプローチは実用的でなく一般化可能である。 そこで本稿では, 共同照明調整, 色強調, デノイングを行う低照度画像処理フレームワークを提案する。 モデル固有のデータ収集の難しさと取得した画像の超高精細な定義を考慮し、係数推定ブランチと合同拡張・分節という2つのブランチを設計した。 係数推定枝は、低分解能空間で動作し、二元学習により拡張係数を予測する一方、関節強化及び脱雑音分岐はフル分解能空間で機能し、進行的に関節強化及び脱雑音を行う。 既存の手法とは対照的に,我々のフレームワークは,他のカメラモデルに適応する際に,大規模なデータを再構成する必要がないため,実用化のためにアプローチを微調整するのに要する労力を大幅に削減できる。 広範な実験を通じて,現在の最先端手法と比較して,実世界の低光度イメージング応用におけるその大きな可能性を示す。

Low-light imaging on mobile devices is typically challenging due to insufficient incident light coming through the relatively small aperture, resulting in a low signal-to-noise ratio. Most of the previous works on low-light image processing focus either only on a single task such as illumination adjustment, color enhancement, or noise removal; or on a joint illumination adjustment and denoising task that heavily relies on short-long exposure image pairs collected from specific camera models, and thus these approaches are less practical and generalizable in real-world settings where camera-specific joint enhancement and restoration is required. To tackle this problem, in this paper, we propose a low-light image processing framework that performs joint illumination adjustment, color enhancement, and denoising. Considering the difficulty in model-specific data collection and the ultra-high definition of the captured images, we design two branches: a coefficient estimation branch as well as a joint enhancement and denoising branch. The coefficient estimation branch works in a low-resolution space and predicts the coefficients for enhancement via bilateral learning, whereas the joint enhancement and denoising branch works in a full-resolution space and performs joint enhancement and denoising in a progressive manner. In contrast to existing methods, our framework does not need to recollect massive data when being adapted to another camera model, which significantly reduces the efforts required to fine-tune our approach for practical usage. Through extensive experiments, we demonstrate its great potential in real-world low-light imaging applications when compared with current state-of-the-art methods.
翻訳日:2021-06-29 17:48:46 公開日:2021-06-28
# Revelio: 分散システム用のML生成デバッグクエリ

Revelio: ML-Generated Debugging Queries for Distributed Systems ( http://arxiv.org/abs/2106.14347v1 )

ライセンス: Link先を確認
Pradeep Dogga (1), Karthik Narasimhan (2), Anirudh Sivaraman (3), Shiv Kumar Saini (4), George Varghese (1), Ravi Netravali (2) ((1) UCLA, (2) Princeton University, (3) NYU, (4) Adobe Research, India)(参考訳) 分散システムのデバッグにおける大きな困難は、利用可能な多くのデバッグツールのどれを使うか、ログのクエリの仕方を手動で決定することだ。 プロダクションデバッグワークフローに関する私たちの独自の研究は、この負担の大きさを確認します。 本稿では,分散システムのデバッグを支援する機械学習モデルを提案する。 ユーザのレポートとシステムログを入力として取得し,バグの根本原因を見つけるために開発者が使用可能なデバッグクエリを出力するデバッグアシスタントであるrevelioを提案する。 主な課題は、(1)異なるタイプの入力(例えば、自然言語のレポートと量的ログ)を組み合わせて、(2)見つからない障害に一般化することである。 Revelioはディープニューラルネットワークを使用して、多様な入力ソースと潜在的クエリを高次元ベクトル空間に均一に埋め込む。 さらに、プロダクションシステムからの観測を利用して、クエリ生成を2つの計算的および統計的に単純な学習タスクに分解する。 Revelioを評価するために、複数の分散アプリケーションとデバッグツールを使ったテストベッドを構築しました。 800のMechanical Turkersのログとレポートに障害を注入してトレーニングを行うことで、Revelioは予測されるトップ3関連クエリの96%に最も有用なクエリが含まれていることを示す。 私たちの開発者調査はRevelioの有用性を確認します。

A major difficulty in debugging distributed systems lies in manually determining which of the many available debugging tools to use and how to query its logs. Our own study of a production debugging workflow confirms the magnitude of this burden. This paper explores whether a machine-learning model can assist developers in distributed systems debugging. We present Revelio, a debugging assistant which takes user reports and system logs as input, and outputs debugging queries that developers can use to find a bug's root cause. The key challenges lie in (1) combining inputs of different types (e.g., natural language reports and quantitative logs) and (2) generalizing to unseen faults. Revelio addresses these by employing deep neural networks to uniformly embed diverse input sources and potential queries into a high-dimensional vector space. In addition, it exploits observations from production systems to factorize query generation into two computationally and statistically simpler learning tasks. To evaluate Revelio, we built a testbed with multiple distributed applications and debugging tools. By injecting faults and training on logs and reports from 800 Mechanical Turkers, we show that Revelio includes the most helpful query in its predicted list of top-3 relevant queries 96% of the time. Our developer study confirms the utility of Revelio.
翻訳日:2021-06-29 17:45:01 公開日:2021-06-28
# Habitat 2.0: ホームアシスタントのトレーニング

Habitat 2.0: Training Home Assistants to Rearrange their Habitat ( http://arxiv.org/abs/2106.14405v1 )

ライセンス: Link先を確認
Andrew Szot, Alex Clegg, Eric Undersander, Erik Wijmans, Yili Zhao, John Turner, Noah Maestre, Mustafa Mukadam, Devendra Chaplot, Oleksandr Maksymets, Aaron Gokaslan, Vladimir Vondrus, Sameer Dharur, Franziska Meier, Wojciech Galuba, Angel Chang, Zsolt Kira, Vladlen Koltun, Jitendra Malik, Manolis Savva, Dhruv Batra(参考訳) 仮想ロボットをインタラクティブな3d環境や複雑な物理シナリオで訓練するためのシミュレーションプラットフォームであるhabitat 2.0(h2.0)を紹介する。 エンボディされたAIスタックのすべてのレベル – データ、シミュレーション、ベンチマークタスクに包括的なコントリビューションを行います。 具体的には、 (i) replicacad: a artist-authored, annotated, reconfigurable 3d dataset of apartments (matching real spaces) with articulated objects (例えば)。 キャビネットと引き出しの開閉が可能なキャビネット) h2.0: 8-gpuノード上で毎秒25,000のシミュレーションステップ(リアルタイム850倍)を超える高速で、以前の作業よりも100倍のスピードアップを表現できる、高性能な物理可能な3dシミュレータ。 これらの大規模エンジニアリングコントリビューションにより、大規模での深層強化学習(RL)と長距離構造化タスクにおける古典的センスプランクト(SPA)パイプラインを体系的に比較することができ、新しいオブジェクト、レセプタクル、レイアウトへの一般化に重点を置いている。 その結果,(1) フラットなRL政策は階層的な政策に比べてHABに苦しむこと,(2) 独立したスキルを持つ階層は「ハンドオフ問題」に悩まされ,(3) SPAパイプラインはRL政策よりも脆弱であることがわかった。

We introduce Habitat 2.0 (H2.0), a simulation platform for training virtual robots in interactive 3D environments and complex physics-enabled scenarios. We make comprehensive contributions to all levels of the embodied AI stack - data, simulation, and benchmark tasks. Specifically, we present: (i) ReplicaCAD: an artist-authored, annotated, reconfigurable 3D dataset of apartments (matching real spaces) with articulated objects (e.g. cabinets and drawers that can open/close); (ii) H2.0: a high-performance physics-enabled 3D simulator with speeds exceeding 25,000 simulation steps per second (850x real-time) on an 8-GPU node, representing 100x speed-ups over prior work; and, (iii) Home Assistant Benchmark (HAB): a suite of common tasks for assistive robots (tidy the house, prepare groceries, set the table) that test a range of mobile manipulation capabilities. These large-scale engineering contributions allow us to systematically compare deep reinforcement learning (RL) at scale and classical sense-plan-act (SPA) pipelines in long-horizon structured tasks, with an emphasis on generalization to new objects, receptacles, and layouts. We find that (1) flat RL policies struggle on HAB compared to hierarchical ones; (2) a hierarchy with independent skills suffers from 'hand-off problems', and (3) SPA pipelines are more brittle than RL policies.
翻訳日:2021-06-29 17:44:41 公開日:2021-06-28
# litegem: lite geometry enhanced molecular representation learning for quantum property prediction

LiteGEM: Lite Geometry Enhanced Molecular Representation Learning for Quantum Property Prediction ( http://arxiv.org/abs/2106.14494v1 )

ライセンス: Link先を確認
Shanzhuo Zhang, Lihang Liu, Sheng Gao, Donglong He, Xiaomin Fang, Weibin Li, Zhengjie Huang, Weiyue Su, Wenjin Wang(参考訳) 本稿では,分子のHOMO-LUMOギャップを予測するための大規模量子化学データセットであるKDD Cup 2021-PCQM4M-LSCを提案する。 我々の解であるLite Geometry Enhanced Molecular representation learning (LiteGEM)は、ディープグラフニューラルネットワークと様々な自己教師型学習タスクの助けを借りて、テストセットの平均絶対誤差0.1204を達成する。 フレームワークのコードはhttps://github.com/p addlepaddle/paddlehe lix/tree/dev/competi tion/kddcup2021-pcqm 4m-lsc/にある。

In this report, we (SuperHelix team) present our solution to KDD Cup 2021-PCQM4M-LSC, a large-scale quantum chemistry dataset on predicting HOMO-LUMO gap of molecules. Our solution, Lite Geometry Enhanced Molecular representation learning (LiteGEM) achieves a mean absolute error (MAE) of 0.1204 on the test set with the help of deep graph neural networks and various self-supervised learning tasks. The code of the framework can be found in https://github.com/P addlePaddle/PaddleHe lix/tree/dev/competi tion/kddcup2021-PCQM 4M-LSC/.
翻訳日:2021-06-29 17:44:11 公開日:2021-06-28
# 不確実性を考慮した逆設定のためのスケーラブル最適分類器

Scalable Optimal Classifiers for Adversarial Settings under Uncertainty ( http://arxiv.org/abs/2106.14702v1 )

ライセンス: Link先を確認
Patrick Loiseau and Benjamin Roussillon(参考訳) 本稿では, 現実的な応用において重要な側面であるが, これまで文献で見過ごされてきた攻撃者が, クラス1データを生成する対角的環境において, 最適な分類器を見つけるという問題を考察する。 この状況をモデル化するために,ディフェンダーが可能な分類器の集合に対して事前制限のない分類器を選択するベイズゲームフレームワークを提案する。 提案フレームワークの主な難しさは、可能な分類器の集合が可能なデータの集合において指数関数であり、それ自体が分類に使用される特徴の数において指数関数的であることである。 これに対抗するために, ベイズナッシュ平衡は, パラメータの少ない関数的しきい値分類器によって完全に特徴づけられることを示した。 そこで,この低次元キャラクタリゼーションにより,ほぼ最適な分類器をスケーラブルに計算できる訓練手法を考案し,後悔の少ないオンライン設定のための学習アルゴリズムを(可能データの次元とは独立に)開発できることを示した。 シミュレーションによって結果を説明する。

We consider the problem of finding optimal classifiers in an adversarial setting where the class-1 data is generated by an attacker whose objective is not known to the defender -- an aspect that is key to realistic applications but has so far been overlooked in the literature. To model this situation, we propose a Bayesian game framework where the defender chooses a classifier with no a priori restriction on the set of possible classifiers. The key difficulty in the proposed framework is that the set of possible classifiers is exponential in the set of possible data, which is itself exponential in the number of features used for classification. To counter this, we first show that Bayesian Nash equilibria can be characterized completely via functional threshold classifiers with a small number of parameters. We then show that this low-dimensional characterization enables to develop a training method to compute provably approximately optimal classifiers in a scalable manner; and to develop a learning algorithm for the online setting with low regret (both independent of the dimension of the set of possible data). We illustrate our results through simulations.
翻訳日:2021-06-29 17:43:57 公開日:2021-06-28
# HALF:FPGAのためのホロスティック自動機械学習

HALF: Holistic Auto Machine Learning for FPGAs ( http://arxiv.org/abs/2106.14771v1 )

ライセンス: Link先を確認
Jonas Ney, Dominik Loroch, Vladimir Rybalkin, Nico Weber, Jens Kr\"uger, Norbert Wehn(参考訳) ディープニューラルネットワーク(dnn)は、画像や自然言語処理などの組み込みシステムに関連する領域における複雑な問題を解決することができる。 所定のコスト基準、例えば、特定のFPGAプラットフォームにDNNを効率よく実装する。 エネルギー効率、設計パラメータの膨大な量は、トポロジから最終的なハードウェア実装まで考慮する必要があります。 異なる設計層間の相互依存関係を考慮し、効率的に探索する必要があるため、手動で最適化されたソリューションを見つけることは不可能である。 FPGA上でのDNN実装の質は, 自動的, 全体的設計手法により大幅に向上する。 この目的のために, クロス層設計空間探索手法を提案する。 ハードウェアを意識したDNNのトポロジ検索から、あるFPGAプラットフォームの最終的な最適化実装まで、最適化で構成されている。 この手法は、進化的探索アルゴリズム、様々な最適化ステップ、およびパラメトリズ可能なハードウェアDNNモジュールのライブラリを組み合わせたHolistic Auto Machine Learning for FPGA(HALF)フレームワークで実装されている。 HALFは、様々なアプリケーションを対象としたターゲットFPGAプラットフォーム上での探索プロセスと最適化されたソリューションの実装の両方を自動化する。 3つの異なる設計目標,すなわち不整脈検出のための医療用ケースにおける半分の性能を示す。 低エネルギー、低出力、高スループット。 我々のFPGA実装は、スループットとエネルギー消費の両方において、Nvidia Jetsonプラットフォーム上でTensorRT最適化モデルより優れている。

Deep Neural Networks (DNNs) are capable of solving complex problems in domains related to embedded systems, such as image and natural language processing. To efficiently implement DNNs on a specific FPGA platform for a given cost criterion, e.g. energy efficiency, an enormous amount of design parameters has to be considered from the topology down to the final hardware implementation. Interdependencies between the different design layers have to be taken into account and explored efficiently, making it hardly possible to find optimized solutions manually. An automatic, holistic design approach can improve the quality of DNN implementations on FPGA significantly. To this end, we present a cross-layer design space exploration methodology. It comprises optimizations starting from a hardware-aware topology search for DNNs down to the final optimized implementation for a given FPGA platform. The methodology is implemented in our Holistic Auto machine Learning for FPGAs (HALF) framework, which combines an evolutionary search algorithm, various optimization steps and a library of parametrizable hardware DNN modules. HALF automates both the exploration process and the implementation of optimized solutions on a target FPGA platform for various applications. We demonstrate the performance of HALF on a medical use case for arrhythmia detection for three different design goals, i.e. low-energy, low-power and high-throughput respectively. Our FPGA implementation outperforms a TensorRT optimized model on an Nvidia Jetson platform in both throughput and energy consumption.
翻訳日:2021-06-29 17:43:39 公開日:2021-06-28
# データ中毒は顔認識から救えない

Data Poisoning Won't Save You From Facial Recognition ( http://arxiv.org/abs/2106.14851v1 )

ライセンス: Link先を確認
Evani Radiya-Dixit, Florian Tram\`er(参考訳) データ中毒は、Webスクラッド画像で訓練された顔認識モデルに対する説得力のある防御として提案されている。 オンラインに投稿する画像をゆがめることで、ユーザーはモデルを誤分類して未来(未成熟)の写真にすることができる。 我々は、この戦略が、当事者間の固有の非対称性を無視して、誤ったセキュリティ感覚をもたらすことを実証する: ユーザーの写真は、公開前に(どの時点でスクレイプされるか)、その後、すべての将来のモデル -- ユーザーの過去の攻撃に対して適応的に訓練されたモデルや、攻撃後に発見された技術を使用するモデルを含む -- を騙さなければならない。 大規模顔認識、Fawkes(500,000ダウンロード以上)、LowKeyの2種類の毒性攻撃システムの評価を行った。 モデルトレーナーは、コンピュータビジョンの将来の発展を単に待つだけで、過去に収集された画像の保護を無効にすることができる。 さらに,ブラックボックスアクセスのある敵は,(i)収集した画像の摂動に抵抗する頑健なモデルを訓練し,(ii)オンラインにアップロードされた有毒な画像を検出することができることを示した。 顔認識による毒殺は、攻撃者とディフェンダーの間の「武器競争」を認めないと警告する。 乱れた画像がスクレイプされると、攻撃は変更できないため、将来の防衛が成功するとユーザーのプライバシーが損なわれる。

Data poisoning has been proposed as a compelling defense against facial recognition models trained on Web-scraped pictures. By perturbing the images they post online, users can fool models into misclassifying future (unperturbed) pictures. We demonstrate that this strategy provides a false sense of security, as it ignores an inherent asymmetry between the parties: users' pictures are perturbed once and for all before being published (at which point they are scraped) and must thereafter fool all future models -- including models trained adaptively against the users' past attacks, or models that use technologies discovered after the attack. We evaluate two systems for poisoning attacks against large-scale facial recognition, Fawkes (500,000+ downloads) and LowKey. We demonstrate how an "oblivious" model trainer can simply wait for future developments in computer vision to nullify the protection of pictures collected in the past. We further show that an adversary with black-box access to the attack can (i) train a robust model that resists the perturbations of collected pictures and (ii) detect poisoned pictures uploaded online. We caution that facial recognition poisoning will not admit an "arms race" between attackers and defenders. Once perturbed pictures are scraped, the attack cannot be changed so any future successful defense irrevocably undermines users' privacy.
翻訳日:2021-06-29 17:43:20 公開日:2021-06-28
# Kimera-Multi:マルチロボットシステムのためのロバスト、分散、高密度メトリックセマンティックSLAM

Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for Multi-Robot Systems ( http://arxiv.org/abs/2106.14386v1 )

ライセンス: Link先を確認
Yulun Tian, Yun Chang, Fernando Herrera Arias, Carlos Nieto-Granda, Jonathan P. How, Luca Carlone(参考訳) 本報告では, マルチロボットシステムであるKimera-Multiについて述べる。このシステムでは, (i) 知覚的エイリアスによる不正確な相互およびロボット内ループの閉包を識別・拒否し, (ii) 完全に分散し, 局所的(ピアツーピア)通信にのみ依存し, かつ (iii) メッシュの顔にセマンティックラベルを付加した, 環境の全体的一貫した3Dメッシュモデルを構築している。 Kimera-Multiは、視覚慣性センサーを備えたロボットチームによって実装されている。 各ロボットはKimeraを使って局所軌道推定と局所メッシュを構築する。 通信が可能になった場合、ロボットは、新しい分散型非凸性アルゴリズムに基づいて、分散場所認識およびロバストポーズグラフ最適化プロトコルを開始する。 提案プロトコルにより,ロボットは,ロボット間のループ閉鎖を有効活用し,オフレーヤに頑健な経路推定を改善することができる。 最後に,各ロボットは改良された軌道推定値を用いてメッシュ変形手法を用いて局所メッシュを補正する。 我々は,フォトリアリスティックシミュレーション,slamベンチマークデータセット,および地上ロボットを用いて収集した屋外データセットにおいてkimera-multiを実演する。 実物とシミュレーションの両方の実験は長い軌道(例えば1ロボットあたり最大800メートル)を含む。 実験の結果,Kimera-Multi (i) は,ロバスト性や精度で技術の現状を上回り, (ii) 集中型SLAMシステムに匹敵する推定誤差を達成し, (iii) 通信帯域幅で同義であり, (iv) 正確な3Dメッシュを生産し, (v) モジュラーで,標準的な3D再構成(セマンティックラベルなしで)や軌道推定(3Dメッシュを再構築せずに)にも使用できることがわかった。

This paper presents Kimera-Multi, the first multi-robot system that (i) is robust and capable of identifying and rejecting incorrect inter and intra-robot loop closures resulting from perceptual aliasing, (ii) is fully distributed and only relies on local (peer-to-peer) communication to achieve distributed localization and mapping, and (iii) builds a globally consistent metric-semantic 3D mesh model of the environment in real-time, where faces of the mesh are annotated with semantic labels. Kimera-Multi is implemented by a team of robots equipped with visual-inertial sensors. Each robot builds a local trajectory estimate and a local mesh using Kimera. When communication is available, robots initiate a distributed place recognition and robust pose graph optimization protocol based on a novel distributed graduated non-convexity algorithm. The proposed protocol allows the robots to improve their local trajectory estimates by leveraging inter-robot loop closures while being robust to outliers. Finally, each robot uses its improved trajectory estimate to correct the local mesh using mesh deformation techniques. We demonstrate Kimera-Multi in photo-realistic simulations, SLAM benchmarking datasets, and challenging outdoor datasets collected using ground robots. Both real and simulated experiments involve long trajectories (e.g., up to 800 meters per robot). The experiments show that Kimera-Multi (i) outperforms the state of the art in terms of robustness and accuracy, (ii) achieves estimation errors comparable to a centralized SLAM system while being fully distributed, (iii) is parsimonious in terms of communication bandwidth, (iv) produces accurate metric-semantic 3D meshes, and (v) is modular and can be also used for standard 3D reconstruction (i.e., without semantic labels) or for trajectory estimation (i.e., without reconstructing a 3D mesh).
翻訳日:2021-06-29 17:42:16 公開日:2021-06-28
# Kolmogorov PDEを近似した物理情報ニューラルネットワーク(PINN)の誤差解析

Error analysis for physics informed neural networks (PINNs) approximating Kolmogorov PDEs ( http://arxiv.org/abs/2106.14473v1 )

ライセンス: Link先を確認
Tim De Ryck and Siddhartha Mishra(参考訳) 物理情報によるPDEの近似解の解は、ポイントワイド残差を最小化する。 この誤差の厳密な境界はPINNによって導かれ、例えば、熱方程式とオプション価格のブラック・スコルズ方程式を含むコルモゴロフ方程式(英語版)の大規模な線形放物型PDEの解を近似する。 我々は,pinn残差(一般化誤差)を必要に応じて小さくすることができるニューラルネットワークを構築する。 また,合計$l^2$-error が一般化誤差によって境界化可能であることを証明した。 さらに,ピンの大きさとトレーニングサンプルの数は,基礎次元と多項式的にのみ増加することを証明し,ピンがこの文脈で次元の呪いを克服できることを示した。 これらの結果から,Kolmogorov PDEの近似におけるPINNの総合的誤差解析が可能となった。

Physics informed neural networks approximate solutions of PDEs by minimizing pointwise residuals. We derive rigorous bounds on the error, incurred by PINNs in approximating the solutions of a large class of linear parabolic PDEs, namely Kolmogorov equations that include the heat equation and Black-Scholes equation of option pricing, as examples. We construct neural networks, whose PINN residual (generalization error) can be made as small as desired. We also prove that the total $L^2$-error can be bounded by the generalization error, which in turn is bounded in terms of the training error, provided that a sufficient number of randomly chosen training (collocation) points is used. Moreover, we prove that the size of the PINNs and the number of training samples only grow polynomially with the underlying dimension, enabling PINNs to overcome the curse of dimensionality in this context. These results enable us to provide a comprehensive error analysis for PINNs in approximating Kolmogorov PDEs.
翻訳日:2021-06-29 17:39:53 公開日:2021-06-28
# ゲームにおける進化ダイナミクスと$\phi$-regret最小化

Evolutionary Dynamics and $\Phi$-Regret Minimization in Games ( http://arxiv.org/abs/2106.14668v1 )

ライセンス: Link先を確認
Georgios Piliouras, Mark Rowland, Shayegan Omidshafiei, Romuald Elie, Daniel Hennes, Jerome Connor, Karl Tuyls(参考訳) 後悔はオンライン学習の基礎概念として確立されており、ゲームにおける学習ダイナミクスの分析にも重要な応用がある。 Regretは、学習者のパフォーマンスと後方視のベースラインとの差を定量化する。 後悔最小化アルゴリズムがゲームにおけるある種の平衡クラスに収束することはよく知られているが、ゲーム理論で使われる従来の後悔の形式は、決定論的行動や戦略に偏りを許容するベースラインを主に考慮している。 本稿では,従来確立されていた$\phi$-regret の枠組みに基づいて,全 \emph{mixed} 戦略空間(すなわち,純粋戦略上の確率分布)の分割上の偏差の観点から,後悔に対する理解を再検討する。 重要なのは、$\Phi$-regretを使用することで、学習エージェントは、外的、内的、スワップ後悔といった既存の後悔の概念を一般化し、学習アルゴリズムの後悔に基づく分析から得られる洞察を拡大することができる。 ここでは、複製子力学(RD)のよく研究された進化的学習アルゴリズムが、基礎となるアルゴリズム自体を変更することなく、一般的な2ドルのゲームにおいて、$\Phi$-regretの可能な最強の形式をシームレスに最小化することを示す。 その後、RDが多種多様な振る舞いを示す144ドルの2ドルゲームで理論結果を検証する実験を行った。 結論として,いくつかのゲームにおいてrdによる$\phi$-regret最小化の実証的証拠を提供し,理論的および経験的観点からこれらのアルゴリズムの$\phi$-regretに基づく研究のさらなる機会を示唆した。

Regret has been established as a foundational concept in online learning, and likewise has important applications in the analysis of learning dynamics in games. Regret quantifies the difference between a learner's performance against a baseline in hindsight. It is well-known that regret-minimizing algorithms converge to certain classes of equilibria in games; however, traditional forms of regret used in game theory predominantly consider baselines that permit deviations to deterministic actions or strategies. In this paper, we revisit our understanding of regret from the perspective of deviations over partitions of the full \emph{mixed} strategy space (i.e., probability distributions over pure strategies), under the lens of the previously-establish ed $\Phi$-regret framework, which provides a continuum of stronger regret measures. Importantly, $\Phi$-regret enables learning agents to consider deviations from and to mixed strategies, generalizing several existing notions of regret such as external, internal, and swap regret, and thus broadening the insights gained from regret-based analysis of learning algorithms. We prove here that the well-studied evolutionary learning algorithm of replicator dynamics (RD) seamlessly minimizes the strongest possible form of $\Phi$-regret in generic $2 \times 2$ games, without any modification of the underlying algorithm itself. We subsequently conduct experiments validating our theoretical results in a suite of 144 $2 \times 2$ games wherein RD exhibits a diverse set of behaviors. We conclude by providing empirical evidence of $\Phi$-regret minimization by RD in some larger games, hinting at further opportunity for $\Phi$-regret based study of such algorithms from both a theoretical and empirical perspective.
翻訳日:2021-06-29 17:39:34 公開日:2021-06-28
# CNNにおける効率的なカーネルサイズと形状の多目的進化的アプローチ

Multi-objective Evolutionary Approach for Efficient Kernel Size and Shape for CNN ( http://arxiv.org/abs/2106.14776v1 )

ライセンス: Link先を確認
Ziwei Wang, Martin A. Trefzer, Simon J. Bale, Andy M. Tyrrell(参考訳) VGGNetやResNetのようなCNNトポロジの最先端開発はますます正確になっているが、これらのネットワークは数十億の演算とパラメータを含む計算コストが高い。 分類精度を改善するために、最先端のCNNは通常、大きく複雑な畳み込み層を含む。 しかし、例えば特定のアプリケーションに対して。 IoT(Internet of Things)では、リソース制約のあるプラットフォームにこのようなCNNを実装する必要があるため、CNNアーキテクチャは小さくて効率的でなければならない。 この問題に対処するため、畳み込み層におけるリソース消費を減らすことは、最も重要なソリューションの一つとなっている。 本研究では,MOEA(Multi-Objectiv e Evolutionary Algorithm)を用いて,計算量とネットワーク精度をトレードオフする多目的最適化手法を提案する。 畳み込みカーネルの数とこれらのカーネルのサイズは、cnnの計算資源消費に比例する。 そこで本稿では,畳み込み層におけるカーネルのサイズと数を削減し,計算資源消費の最適化について検討する。 さらに、非伝統的なカーネル形状の使用が研究され、その結果、一般的に使用される正方形畳み込みカーネルよりも明らかに優れた結果が得られた。 そこで本論文の主な貢献は,従来のカーネル形状に基づいてCNNの計算コストを大幅に削減し,特定のユースケースに対して異なるトレードオフを提供する手法である。 さらに,提案手法は,ネットワーク性能を著しく低下させることなく,資源消費を大幅に改善することを示した。 ベンチマークCNNと比較して、最良のトレードオフアーキテクチャは、最大6倍の乗算が減少し、CIFAR-10データセットの分類精度がわずかに向上していることを示している。

While state-of-the-art development in CNN topology, such as VGGNet and ResNet, have become increasingly accurate, these networks are computationally expensive involving billions of arithmetic operations and parameters. To improve the classification accuracy, state-of-the-art CNNs usually involve large and complex convolutional layers. However, for certain applications, e.g. Internet of Things (IoT), where such CNNs are to be implemented on resource-constrained platforms, the CNN architectures have to be small and efficient. To deal with this problem, reducing the resource consumption in convolutional layers has become one of the most significant solutions. In this work, a multi-objective optimisation approach is proposed to trade-off between the amount of computation and network accuracy by using Multi-Objective Evolutionary Algorithms (MOEAs). The number of convolution kernels and the size of these kernels are proportional to computational resource consumption of CNNs. Therefore, this paper considers optimising the computational resource consumption by reducing the size and number of kernels in convolutional layers. Additionally, the use of unconventional kernel shapes has been investigated and results show these clearly outperform the commonly used square convolution kernels. The main contributions of this paper are therefore a methodology to significantly reduce computational cost of CNNs, based on unconventional kernel shapes, and provide different trade-offs for specific use cases. The experimental results further demonstrate that the proposed method achieves large improvements in resource consumption with no significant reduction in network performance. Compared with the benchmark CNN, the best trade-off architecture shows a reduction in multiplications of up to 6X and with slight increase in classification accuracy on CIFAR-10 dataset.
翻訳日:2021-06-29 17:39:00 公開日:2021-06-28
# PhysiNet: ディジタル双生児のための物理モデルとニューラルネットワークモデルの組み合わせ

PhysiNet: A Combination of Physics-based Model and Neural Network Model for Digital Twins ( http://arxiv.org/abs/2106.14790v1 )

ライセンス: Link先を確認
Chao Sun, Victor Guang Shi(参考訳) 物理システムやプロセスのリアルタイムデジタル対応として、デジタルツインはシステムシミュレーションや最適化に使用される。 ニューラルネットワークは、特に物理モデルが正確でない場合や利用できない場合、データを使用してデジタル双生児モデルを構築する方法の1つである。 しかし、新しく設計されたシステムでは、ニューラルネットワークをモデレートするための十分なデータを蓄積するのに時間がかかる。 そこで本研究では, 物理モデルとニューラルネットワークモデルを組み合わせて, システムのライフサイクル全体の予測精度を向上させるモデルを提案する。 提案モデルでは,モデルの自動合成と予測性能の向上が実現できた。 実験により,提案するハイブリッドモデルは物理モデルとニューラルネットワークモデルの両方を上回った。

As the real-time digital counterpart of a physical system or process, digital twins are utilized for system simulation and optimization. Neural networks are one way to build a digital twins model by using data especially when a physics-based model is not accurate or even not available. However, for a newly designed system, it takes time to accumulate enough data for neural network moded and only an approximate physics-based model is available. To take advantage of both models, this paper proposed a model that combines the physics-based model and the neural network model to improve the prediction accuracy for the whole life cycle of a system. The proposed model was able to automatically combine the models and boost their prediction performance. Experiments showed that the proposed hybrid model outperformed both the physics-based model and the neural network model.
翻訳日:2021-06-29 17:38:33 公開日:2021-06-28
# (参考訳) 行列計算の分散還元とガウス過程への応用 [全文訳有]

Variance Reduction for Matrix Computations with Applications to Gaussian Processes ( http://arxiv.org/abs/2106.14565v1 )

ライセンス: CC BY 4.0
Anant Mathur, Sarat Moka and Zdravko Botev(参考訳) 近年の計算速度とメモリの発達に加え、方法論的進歩は確率シミュレーションの性能向上に寄与している。 本稿では,行列分解による行列計算の分散化に着目した。 大規模行列のエントリを推定するための既存の分散低減手法に関する洞察を提供する。 一般的な手法では、行列が因子化されるときに可能な分散の低減は利用しない。 行列の正方根因数分解の計算がいくつかの重要な場合において任意に優れた確率的性能を達成することを示す。 さらに,行列の積のトレースに対する因子推定器を提案し,ガウス過程の対数類似度を推定する特定の問題に対して最大1000倍の効率で推定できることを示した。 さらに,対数決定式を確率密度の正規化定数として扱う正の半定値行列の対数決定式の新たな推定器を提供する。

In addition to recent developments in computing speed and memory, methodological advances have contributed to significant gains in the performance of stochastic simulation. In this paper, we focus on variance reduction for matrix computations via matrix factorization. We provide insights into existing variance reduction methods for estimating the entries of large matrices. Popular methods do not exploit the reduction in variance that is possible when the matrix is factorized. We show how computing the square root factorization of the matrix can achieve in some important cases arbitrarily better stochastic performance. In addition, we propose a factorized estimator for the trace of a product of matrices and numerically demonstrate that the estimator can be up to 1,000 times more efficient on certain problems of estimating the log-likelihood of a Gaussian process. Additionally, we provide a new estimator of the log-determinant of a positive semi-definite matrix where the log-determinant is treated as a normalizing constant of a probability density.
翻訳日:2021-06-29 17:34:27 公開日:2021-06-28
# (参考訳) monotone single index multi-variate autoregressive model による予測とネットワーク推定の改善

Improved Prediction and Network Estimation Using the Monotone Single Index Multi-variate Autoregressive Model ( http://arxiv.org/abs/2106.14630v1 )

ライセンス: CC BY 4.0
Yue Gao, Garvesh Raskutti(参考訳) 多変量点プロセスや時系列データからのネットワーク推定は基本的な問題である。 先行研究は、既知のパラメトリックモデルを必要とするパラメトリックなアプローチに焦点を合わせており、推定手順が不特定化、非線形性、不均一性をモデル化するのによりロバストではない。 本稿では,これらの課題に対処する単調単一インデックス多変量自己回帰モデル(SIMAM)に基づく半パラメトリックアプローチを開発する。 従属データに対する理論的保証と交互に投影された勾配降下アルゴリズムを提供する。 重要なことは、プロセス上の混合条件を明示的に仮定しない(ただし、強い凸性に類似した条件は必要だが)し、$O(T^{-\frac{1}{3}} \sqrt{s\log(TM)})$(独立設計の場合、最適)$s$は空間レベルを示すネットワークの最大インディグリーのしきい値であり、$M$はアクターの数であり、$T$は時間点数である。 さらに、シミュレーションデータと2つの実データ例の両方において、予測とネットワーク推定の両方において、simamアプローチが最先端のパラメトリック手法よりも優れていることを示す。

Network estimation from multi-variate point process or time series data is a problem of fundamental importance. Prior work has focused on parametric approaches that require a known parametric model, which makes estimation procedures less robust to model mis-specification, non-linearities and heterogeneities. In this paper, we develop a semi-parametric approach based on the monotone single-index multi-variate autoregressive model (SIMAM) which addresses these challenges. We provide theoretical guarantees for dependent data and an alternating projected gradient descent algorithm. Significantly we do not explicitly assume mixing conditions on the process (although we do require conditions analogous to restricted strong convexity) and we achieve rates of the form $O(T^{-\frac{1}{3}} \sqrt{s\log(TM)})$ (optimal in the independent design case) where $s$ is the threshold for the maximum in-degree of the network that indicates the sparsity level, $M$ is the number of actors and $T$ is the number of time points. In addition, we demonstrate the superior performance both on simulated data and two real data examples where our SIMAM approach out-performs state-of-the-art parametric methods both in terms of prediction and network estimation.
翻訳日:2021-06-29 17:17:48 公開日:2021-06-28
# (参考訳) 乳がんWSI処理のための重み付き多段階ディープラーニング解析とフレームワーク [全文訳有]

Weighted multi-level deep learning analysis and framework for processing breast cancer WSIs ( http://arxiv.org/abs/2106.14708v1 )

ライセンス: CC BY 4.0
Peter Bokor, Lukas Hudec, Ondrej Fabian, Wanda Benesova(参考訳) 乳癌(BC)の予防と早期診断は適切な治療の選択に不可欠である。 より高速で正確な診断結果の要求の増加による大きなプレッシャーは、自動ソリューションを駆動する。 過去10年間で、深層学習技術はいくつかの領域でその能力を実証し、コンピュータ支援(CAD)診断はその1つとなった。 しかしながら、WSI(Whole Slide Images)の分析では、既存の作業の多くは、独立したレベルからの予測を計算している。 しかし、これは、BC分類において重要な組織構造のグローバルな構造を見る必要がある病理学者のアプローチとは対照的である。 本稿では,画像レベルの利点を生かした新しいアプローチに基づいて,WSI処理のためのディープラーニングベースのソリューションとフレームワークを提案する。 悪性度の最終分類に,複数のレベルから抽出した情報の重み付けを適用した。 その結果,グローバル情報の収益性は72.2%から84.8%に向上した。

Prevention and early diagnosis of breast cancer (BC) is an essential prerequisite for the selection of proper treatment. The substantial pressure due to the increase of demand for faster and more precise diagnostic results drives for automatic solutions. In the past decade, deep learning techniques have demonstrated their power over several domains, and Computer-Aided (CAD) diagnostic became one of them. However, when it comes to the analysis of Whole Slide Images (WSI), most of the existing works compute predictions from levels independently. This is, however, in contrast to the histopathologist expert approach who requires to see a global architecture of tissue structures important in BC classification. We present a deep learning-based solution and framework for processing WSI based on a novel approach utilizing the advantages of image levels. We apply the weighing of information extracted from several levels into the final classification of the malignancy. Our results demonstrate the profitability of global information with an increase of accuracy from 72.2% to 84.8%.
翻訳日:2021-06-29 17:16:28 公開日:2021-06-28
# (参考訳) 胸部x線画像におけるcovid-19診断のための固有空間におけるタイルスパース符号化 [全文訳有]

Tiled sparse coding in eigenspaces for the COVID-19 diagnosis in chest X-ray images ( http://arxiv.org/abs/2106.14724v1 )

ライセンス: CC BY-SA 4.0
Juan E. Arco and Andr\'es Ortiz and Javier Ram\'irez and Juan M Gorriz(参考訳) 新型コロナウイルス(covid-19)のパンデミック(coonavirus disease 2019)の現在進行中の危機は、世界を変えた。 世界保健機関(who)によると、この病気により400万人が死亡した。 多くの国で医療システムの崩壊は、医療画像から疾患の診断を自動化するためのツールの開発の必要性を実証した。 これまでの研究では、この目的のために深層学習が用いられてきた。 しかし、この代替手段の性能はアルゴリズムのトレーニングに使用されるデータセットのサイズに大きく依存する。 そこで本研究では,異なる病態に関連付けられた肺炎パターンを特定するために,スパースコーディングに基づく分類フレームワークを提案する。 具体的には、各胸部X線像(CXR)を異なるタイルに分割する。 PCAから抽出された最も関連性の高い機能は、スパースコーディング手順内で辞書を構築するために使用される。 辞書の要素から画像が変換され再構成されると、各画像に関連付けられた個々のパッチの再構成エラーから分類が行われる。 細菌性肺炎、ウイルス性肺炎、covid-19の4つの病因を同時に区別する実際のシナリオでパフォーマンスを評価する。 肺炎の存在を同定する精度は93.85%であり、4級分類では88.11%である。 このシナリオにおけるスパースコーディングの優れた結果と先駆的利用は、このアプローチが実際の環境における臨床医の助けとなる可能性を示している。

The ongoing crisis of the COVID-19 (Coronavirus disease 2019) pandemic has changed the world. According to the World Health Organization (WHO), 4 million people have died due to this disease, whereas there have been more than 180 million confirmed cases of COVID-19. The collapse of the health system in many countries has demonstrated the need of developing tools to automatize the diagnosis of the disease from medical imaging. Previous studies have used deep learning for this purpose. However, the performance of this alternative highly depends on the size of the dataset employed for training the algorithm. In this work, we propose a classification framework based on sparse coding in order to identify the pneumonia patterns associated with different pathologies. Specifically, each chest X-ray (CXR) image is partitioned into different tiles. The most relevant features extracted from PCA are then used to build the dictionary within the sparse coding procedure. Once images are transformed and reconstructed from the elements of the dictionary, classification is performed from the reconstruction errors of individual patches associated with each image. Performance is evaluated in a real scenario where simultaneously differentiation between four different pathologies: control vs bacterial pneumonia vs viral pneumonia vs COVID-19. The accuracy when identifying the presence of pneumonia is 93.85%, whereas 88.11% is obtained in the 4-class classification context. The excellent results and the pioneering use of sparse coding in this scenario evidence the applicability of this approach as an aid for clinicians in a real-world environment.
翻訳日:2021-06-29 16:43:58 公開日:2021-06-28
# (参考訳) TENT:温度予測のためのテンソル化エンコーダ変換器 [全文訳有]

TENT: Tensorized Encoder Transformer for Temperature Forecasting ( http://arxiv.org/abs/2106.14742v1 )

ライセンス: CC BY-SA 4.0
Onur Bilgin, Pawe{\l} M\k{a}ka, Thomas Vergutz and Siamak Mehrkanoon(参考訳) 信頼できる気象予報は、科学、ビジネス、社会において非常に重要である。 天気予報タスクで最高のデータ駆動モデルを実行するには、リカレントまたは畳み込みニューラルネットワークに頼っている。 本研究では,気象予報のためのTransformerアーキテクチャに基づく新しいモデルを提案する。 提案したテンソルエンコーダ変換器(TENT)モデルはテンソルアテンションを備えており,多次元テンソルフォーマットで処理することで気象データの時空間構造を利用する。 提案したTENTモデルは,元の変圧器と3次元畳み込みニューラルネットワークのエンコーダ部と比較して,温度予測タスクにおいて,基礎となる複雑な気象データパターンをモデル化できることを示す。 2つの実生活気象データセットの実験を行う。 データセットは、米国、カナダ、ヨーロッパの都市からの歴史的測定から成っている。 最初のデータセットには、2012年10月から2017年11月までの米国とカナダの30都市の気象特性の時間的測定が含まれている。 第2のデータセットは2005年5月から2020年4月までの欧州18都市の気象特性を毎日測定している。 我々は、注意機構から算出した注意スコアを用いて、モデルの意思決定プロセスに光を当て、そのタスクにとって最も重要な都市についての知見を得る。

Reliable weather forecasting is of great importance in science, business and society. The best performing data-driven models for weather prediction tasks rely on recurrent or convolutional neural networks, where some of which incorporate attention mechanisms. In this work, we introduce a new model based on the Transformer architecture for weather forecasting. The proposed Tensorial Encoder Transformer (TENT) model is equipped with tensorial attention and thus it exploits the spatiotemporal structure of weather data by processing it in multidimensional tensorial format. We show that compared to the encoder part of the original transformer and 3D convolutional neural networks, the proposed TENT model can better model the underlying complex pattern of weather data for the studied temperature prediction task. Experiments on two real-life weather datasets are performed. The datasets consist of historical measurements from USA, Canada and European cities. The first dataset contains hourly measurements of weather attributes for 30 cities in USA and Canada from October 2012 to November 2017. The second dataset contains daily measurements of weather attributes of 18 cities across Europe from May 2005 to April 2020. We use attention scores calculated from our attention mechanism to shed light on the decision-making process of our model and have insight knowledge on the most important cities for the task.
翻訳日:2021-06-29 16:05:17 公開日:2021-06-28
# (参考訳) コントラスト表現学習のための理論駆動自己ラベル改良法

A Theory-Driven Self-Labeling Refinement Method for Contrastive Representation Learning ( http://arxiv.org/abs/2106.14749v1 )

ライセンス: CC BY-SA 4.0
Pan Zhou, Caiming Xiong, Xiao-Tong Yuan, Steven Hoi(参考訳) 画像クエリでは、教師なしのコントラスト学習ラベルは、正と同じイメージの作物と、負のイメージの作物とを区別する。 直感的ではあるが、このようなネイティブラベル割り当て戦略は、クエリとその正と負のセマンティックな類似性を明らかにすることができず、いくつかの負はクエリとセマンティックに類似しているか、クエリと同じセマンティッククラスを共有しているため、パフォーマンスを損なう。 本研究は, コントラスト学習において, 不正確なラベル割り当ては, 意味的インスタンス識別の一般化を著しく損なうが, 正確なラベルはその一般化の恩恵を受ける。 この理論に触発されて,コントラスト学習のための新しい自己ラベルリファインメントアプローチを提案する。 i) 正確なラベルを生成するための自己ラベル精製 (SLR) と (ii) モーメント混合 (MM) の2つの相補的なモジュールによるラベル品質の向上により、クエリと正の類似性を高める。 SLRは、クエリとその正と負のセマンティックな類似性を推定するためにクエリの正を用いており、比較学習においてバニララベルの割り当てと推定された類似性を組み合わせ、より正確で情報的なソフトなラベルを生成する。 理論的には,slrはラベル分割されたデータの真の意味ラベルを正確に復元でき,ネットワークを監視して分類タスクの予測誤差をゼロにできることを示す。 MMはクエリとポジティクスをランダムに組み合わせて生成した仮想クエリとそれらのポジティクスのセマンティックな類似性を高め、ラベルの精度を向上させる。 CIFAR10, ImageNet, VOC, COCOの実験結果から, 本手法の有効性が示された。 PyTorchのコードとモデルはオンラインでリリースされる。

For an image query, unsupervised contrastive learning labels crops of the same image as positives, and other image crops as negatives. Although intuitive, such a native label assignment strategy cannot reveal the underlying semantic similarity between a query and its positives and negatives, and impairs performance, since some negatives are semantically similar to the query or even share the same semantic class as the query. In this work, we first prove that for contrastive learning, inaccurate label assignment heavily impairs its generalization for semantic instance discrimination, while accurate labels benefit its generalization. Inspired by this theory, we propose a novel self-labeling refinement approach for contrastive learning. It improves the label quality via two complementary modules: (i) self-labeling refinery (SLR) to generate accurate labels and (ii) momentum mixup (MM) to enhance similarity between query and its positive. SLR uses a positive of a query to estimate semantic similarity between a query and its positive and negatives, and combines estimated similarity with vanilla label assignment in contrastive learning to iteratively generate more accurate and informative soft labels. We theoretically show that our SLR can exactly recover the true semantic labels of label-corrupted data, and supervises networks to achieve zero prediction error on classification tasks. MM randomly combines queries and positives to increase semantic similarity between the generated virtual queries and their positives so as to improves label accuracy. Experimental results on CIFAR10, ImageNet, VOC and COCO show the effectiveness of our method. PyTorch code and model will be released online.
翻訳日:2021-06-29 15:52:55 公開日:2021-06-28
# (参考訳) マルチスケール・クロスグラフィック・コンボリューションに基づくハイパースペクトルリモートセンシング画像分類 [全文訳有]

Hyperspectral Remote Sensing Image Classification Based on Multi-scale Cross Graphic Convolution ( http://arxiv.org/abs/2106.14804v1 )

ライセンス: CC BY-SA 4.0
Yunsong Zhao, Yin Li, Zhihan Chen, Tianchong Qiu and Guojin Liu(参考訳) 特徴のマイニングと利用は、ハイパースペクトルリモートセンシング画像の分類と認識に使用されるモデルの分類性能に直接影響する。 伝統的なモデルは、通常、単一視点から機能マイニングを行い、その特徴は限定され、内部的関係は無視される。 その結果、有用な特徴が失われ、分類結果が不十分となる。 画像特徴を完全にマイニングし活用するために,MGRNet(Multi-scale feature-mining learning algorithm)を提案する。 このモデルは主成分分析を用いて元の超スペクトル画像(hsi)の次元性を減少させ、99.99%のセマンティック情報を保持し、次元の縮小特徴を抽出する。 マルチスケール畳み込みアルゴリズムを用いて, 浅い特徴量を得るために入力次元低減機能をマイニングし, 多スケールグラフ畳み込みアルゴリズムへの入力として利用し, 異なるスケールで固有値間の内部関係を構築した。 そこで我々は,グラフ畳み込みにより得られたマルチスケール情報のクロスフュージョンを行い,特徴マイニングのために残差ネットワークアルゴリズムに新たな情報を入力した。 最後に、フレキシブルな最大転送関数分類器を使用して最終特徴を予測し、分類を完成させた。 3つの一般的なハイパースペクトルデータセットの実験により、mgrnetアルゴリズムが従来の認識精度の方法よりも優れていることを示した。

The mining and utilization of features directly affect the classification performance of models used in the classification and recognition of hyperspectral remote sensing images. Traditional models usually conduct feature mining from a single perspective, with the features mined being limited and the internal relationships between them being ignored. Consequently, useful features are lost and classification results are unsatisfactory. To fully mine and utilize image features, a new multi-scale feature-mining learning algorithm (MGRNet) is proposed. The model uses principal component analysis to reduce the dimensionality of the original hyperspectral image (HSI) to retain 99.99% of its semantic information and extract dimensionality reduction features. Using a multi-scale convolution algorithm, the input dimensionality reduction features were mined to obtain shallow features, which then served as inputs into a multi-scale graph convolution algorithm to construct the internal relationships between eigenvalues at different scales. We then carried out cross fusion of multi-scale information obtained by graph convolution, before inputting the new information obtained into the residual network algorithm for deep feature mining. Finally, a flexible maximum transfer function classifier was used to predict the final features and complete the classification. Experiments on three common hyperspectral datasets showed the MGRNet algorithm proposed in this paper to be superior to traditional methods in recognition accuracy.
翻訳日:2021-06-29 15:51:37 公開日:2021-06-28
# (参考訳) 特徴的重要度誘導攻撃:モデル非依存の敵意攻撃 [全文訳有]

Feature Importance Guided Attack: A Model Agnostic Adversarial Attack ( http://arxiv.org/abs/2106.14815v1 )

ライセンス: CC BY 4.0
Gilad Gressel, Niranjan Hegde, Archana Sreekumar, and Michael Darling(参考訳) 機械学習モデルは、そのパフォーマンスを劇的に低下させる敵攻撃の影響を受けやすい。 これらの攻撃に対する信頼できる防御は未解決の課題である。 本研究では,新たな回避攻撃として,敵の避難サンプルを生成する「FIGA(Feature Importance Guided Attack)」を提案する。 FIGAはモデル非依存であり、防御モデルの学習アルゴリズムの事前知識は想定しないが、特徴表現の知識を前提としている。 FIGAは、我々が模倣したいターゲットクラスの方向において、入力の最も重要な特徴を摂動させます。 8種類のフィッシング検出モデルに対してFIGAを示す。 我々は、敵が支配するフィッシングのウェブサイト機能によって攻撃を現実的に保ちます。 FIGAを用いて、フィッシング検出モデルのF1スコアを平均0.96から0.41に下げることができる。 最後に、FIGAに対する防御として対人訓練を実施し、その効果はあるが、FIGAのパラメータを変更することで回避できることを示す。

Machine learning models are susceptible to adversarial attacks which dramatically reduce their performance. Reliable defenses to these attacks are an unsolved challenge. In this work, we present a novel evasion attack: the 'Feature Importance Guided Attack' (FIGA) which generates adversarial evasion samples. FIGA is model agnostic, it assumes no prior knowledge of the defending model's learning algorithm, but does assume knowledge of the feature representation. FIGA leverages feature importance rankings; it perturbs the most important features of the input in the direction of the target class we wish to mimic. We demonstrate FIGA against eight phishing detection models. We keep the attack realistic by perturbing phishing website features that an adversary would have control over. Using FIGA we are able to cause a reduction in the F1-score of a phishing detection model from 0.96 to 0.41 on average. Finally, we implement adversarial training as a defense against FIGA and show that while it is sometimes effective, it can be evaded by changing the parameters of FIGA.
翻訳日:2021-06-29 15:38:08 公開日:2021-06-28
# (参考訳) ライブコーディングにおける仮想エージェント: 短いレビュー [全文訳有]

Virtual Agents in Live Coding: A Short Review ( http://arxiv.org/abs/2106.14835v1 )

ライセンス: CC BY 4.0
Anna Xamb\'o(参考訳) AIとライブコーディングはほとんど研究されていない。 本稿は,過去と現在を振り返り,今後の方向性を示すライブコーディングの実践において,仮想エージェントを使用することのさまざまな視点について,短いレビューで紹介する。

AI and live coding has been little explored. This article contributes with a short review of different perspectives of using virtual agents in the practice of live coding looking at past and present as well as pointing to future directions.
翻訳日:2021-06-29 15:23:37 公開日:2021-06-28
# (参考訳) 詐欺と戦うことで善を尽くす:モバイル決済のための倫理的反詐欺システム [全文訳有]

Doing good by fighting fraud: Ethical anti-fraud systems for mobile payments ( http://arxiv.org/abs/2106.14861v1 )

ライセンス: CC BY 4.0
Zainul Abi Din (1), Hari Venugopalan (1), Henry Lin (2), Adam Wushensky (2), Steven Liu (2), Samuel T. King (1 and 2) ((1) University of California, Davis, (2) Bouncer Technologies)(参考訳) ppビルダーは一般的に、アプリケーションへのセキュリティ追加にステップアップ認証の形式であるセキュリティ課題を使用する。 しかし、この種の建築の倫理的影響は以前にも研究されていない。 本稿では,モバイルデバイス上で動作している実際のアプリケーションにおいて,既存のセキュリティ問題であるBoxerを大規模に測定する。 Boxerは全体的にうまく機能するが、機械学習モデルを実行するデバイスを毎秒1フレーム未満(FPS)で効率的にスキャンすることができず、安価なデバイスを使用するユーザをブロックしている。 現代のモバイルデバイスで見られる幅広いパフォーマンス特性とハードウェア構成にまたがる、支払いカードのスキャンのための新しいアンチフレイドシステムであるdaredevilをデザインした。 Daredevilは、1FPS以下で動くデバイスの数を、Boxerに比べて桁違いに減らし、詐欺と戦うためのより公平なシステムを提供する。 総計5,085,444台の実デバイスから、プロダクションソフトウェアを実行し、実際のユーザと対話する496個の実アプリにまたがるデータを収集した。

pp builders commonly use security challenges, aform of step-up authentication, to add security to their apps. However, the ethical implications of this type of architecture has not been studied previously. In this paper, we present a large-scale measurement study of running an existing anti-fraud security challenge, Boxer, in real apps running on mobile devices. We find that although Boxer does work well overall, it is unable to scan effectively on devices that run its machine learning models at less than one frame per second (FPS), blocking users who use inexpensive devices. With the insights from our study, we design Daredevil, anew anti-fraud system for scanning payment cards that work swell across the broad range of performance characteristics and hardware configurations found on modern mobile devices. Daredevil reduces the number of devices that run at less than one FPS by an order of magnitude compared to Boxer, providing a more equitable system for fighting fraud. In total, we collect data from 5,085,444 real devices spread across 496 real apps running production software and interacting with real users.
翻訳日:2021-06-29 15:08:18 公開日:2021-06-28
# (参考訳) 複雑で視覚的で難解な領域におけるマルチタスクカリキュラム学習:minecraft [全文訳有]

Multi-task curriculum learning in a complex, visual, hard-exploration domain: Minecraft ( http://arxiv.org/abs/2106.14876v1 )

ライセンス: CC BY 4.0
Ingmar Kanitscheider, Joost Huizinga, David Farhi, William Hebgen Guss, Brandon Houghton, Raul Sampedro, Peter Zhokhov, Bowen Baker, Adrien Ecoffet, Jie Tang, Oleg Klimov, Jeff Clune(参考訳) 強化学習における重要な課題は、幅広いタスクを解決できるトレーニングエージェントである。 タスクが互いに依存している場合(例えば) 学習する前に歩くことを学ぶ必要があるため、カリキュラム学習は学習するべき最善のタスクに集中することで学習をスピードアップすることができる。 私たちは、複雑な視覚的な領域でカリキュラムを探索し、多くの困難な探索課題を経験します。 学習の進捗(タスクの成功確率の変化として定義される)は,効果的なカリキュラムを自動構築するための学習可能性の信頼性の高い尺度であることがわかった。 学習過程に基づくカリキュラムを導入し、複雑な強化学習問題("Simon Says"と呼ばれる)でテストし、エージェントに望ましい目標項目を得るように指示する。 必要なスキルの多くは互いに依存している。 Experiments demonstrate that: (1) a within-episode exploration bonus for obtaining new items improves performance, (2) dynamically adjusting this bonus across training such that it only applies to items the agent cannot reliably obtain yet further increases performance, (3) the learning-progress based curriculum elegantly follows the learning curve of the agent, and (4) when the learning-progress based curriculum is combined with the dynamic exploration bonus it learns much more efficiently and obtains far higher performance than uniform baselines. 以上の結果から,エポゾード内と学習過程における探索ボーナスの組み合わせは,より有能で汎用的なエージェントを訓練する能力を大幅に向上させる,自動カリキュラム生成の有望な方法である可能性が示唆された。

An important challenge in reinforcement learning is training agents that can solve a wide variety of tasks. If tasks depend on each other (e.g. needing to learn to walk before learning to run), curriculum learning can speed up learning by focusing on the next best task to learn. We explore curriculum learning in a complex, visual domain with many hard exploration challenges: Minecraft. We find that learning progress (defined as a change in success probability of a task) is a reliable measure of learnability for automatically constructing an effective curriculum. We introduce a learning-progress based curriculum and test it on a complex reinforcement learning problem (called "Simon Says") where an agent is instructed to obtain a desired goal item. Many of the required skills depend on each other. Experiments demonstrate that: (1) a within-episode exploration bonus for obtaining new items improves performance, (2) dynamically adjusting this bonus across training such that it only applies to items the agent cannot reliably obtain yet further increases performance, (3) the learning-progress based curriculum elegantly follows the learning curve of the agent, and (4) when the learning-progress based curriculum is combined with the dynamic exploration bonus it learns much more efficiently and obtains far higher performance than uniform baselines. These results suggest that combining intra-episode and across-training exploration bonuses with learning progress creates a promising method for automated curriculum generation, which may substantially increase our ability to train more capable, generally intelligent agents.
翻訳日:2021-06-29 14:36:48 公開日:2021-06-28
# RadGraph: 臨床像の抽出と放射線学報告

RadGraph: Extracting Clinical Entities and Relations from Radiology Reports ( http://arxiv.org/abs/2106.14463v1 )

ライセンス: Link先を確認
Saahil Jain, Ashwin Agrawal, Adriel Saporta, Steven QH Truong, Du Nguyen Duong, Tan Bui, Pierre Chambon, Yuhao Zhang, Matthew P. Lungren, Andrew Y. Ng, Curtis P. Langlotz, Pranav Rajpurkar(参考訳) 自由テキスト放射線学レポートから構造化された臨床情報を抽出することで、様々な重要な医療応用に放射線学レポート情報を使用することが可能である。 本研究では, 胸部X線診断レポートにおける実体と関係のデータセットであるRadGraphを, 放射線診断レポートを構築するために設計した新しい情報抽出スキーマに基づいて提示する。 我々はMIMIC-CXRデータセット(14,579件のエンティティと10,889件の関連性)から500件の放射線学レポートに対して、またMIMIC-CXRとCheXpertデータセット間で等しく分割された100件の放射線学レポートに対して、2つの独立した放射線学アノテーションセットを含む開発データセットをリリースする。 これらのデータセットを用いて、MIMIC-CXRおよびCheXpertテストセット上の関係抽出において、それぞれ0.82と0.73のマイクロF1を達成するディープラーニングモデルRadGraph Benchmarkを訓練し、テストする。 さらに、220,763個のMIMIC-CXRレポート(約600万個のエンティティと400万のリレーション)と500個のCheXpertレポート(13,783個のエンティティと9,908個のリレーション)でRadGraph Benchmarkが自動生成するアノテーションを含む推論データセットもリリースしています。 我々の自由なデータセットは、医療用自然言語処理、コンピュータビジョン、胸部X線写真とのリンクによるマルチモーダル学習など、幅広い研究を促進することができる。

Extracting structured clinical information from free-text radiology reports can enable the use of radiology report information for a variety of critical healthcare applications. In our work, we present RadGraph, a dataset of entities and relations in full-text chest X-ray radiology reports based on a novel information extraction schema we designed to structure radiology reports. We release a development dataset, which contains board-certified radiologist annotations for 500 radiology reports from the MIMIC-CXR dataset (14,579 entities and 10,889 relations), and a test dataset, which contains two independent sets of board-certified radiologist annotations for 100 radiology reports split equally across the MIMIC-CXR and CheXpert datasets. Using these datasets, we train and test a deep learning model, RadGraph Benchmark, that achieves a micro F1 of 0.82 and 0.73 on relation extraction on the MIMIC-CXR and CheXpert test sets respectively. Additionally, we release an inference dataset, which contains annotations automatically generated by RadGraph Benchmark across 220,763 MIMIC-CXR reports (around 6 million entities and 4 million relations) and 500 CheXpert reports (13,783 entities and 9,908 relations) with mappings to associated chest radiographs. Our freely available dataset can facilitate a wide range of research in medical natural language processing, as well as computer vision and multi-modal learning when linked to chest radiographs.
翻訳日:2021-06-29 14:08:11 公開日:2021-06-28
# 非線形表現学習のダイナミクス理解とその応用

Understanding Dynamics of Nonlinear Representation Learning and Its Application ( http://arxiv.org/abs/2106.14836v1 )

ライセンス: Link先を確認
Kenji Kawaguchi, Linjun Zhang, Zhun Deng(参考訳) 世界環境の表現は、マシンインテリジェンスにおいて重要な役割を果たす。 画像のピクセル値のような生の感覚表現の空間で推論や推論を直接行うことは、しばしば非効率である。 表現学習は、生の感覚データから適切な表現を自動的に発見する。 例えば、生の知覚データが与えられた場合、多層パーセプトロンは隠れた層での非線形表現を学習し、その後出力層での分類(または回帰)に使用される。 これは、教師付きまたは教師なしの損失を最小化することで、トレーニング中に暗黙的に発生する。 本稿では,このような暗黙的非線形表現学習のダイナミクスについて考察する。 我々は、共通モデル構造仮定とデータ構造アライメント条件と呼ばれる新しい仮定と新しい条件のペアを同定する。 共通モデル構造仮定の下では、データ構造アライメント条件は、大域収束に十分であることが示され、大域最適性に必要である。 モデル構造を設計するための実践的なガイダンスを提供する。例えば、共通モデル構造仮定は、他のモデル構造ではなく特定のモデル構造を使用するための正当化として使用できる。 アプリケーションとして、各データやアーキテクチャに依存した任意のトレーニングアルゴリズムを自動的に修正することにより、データアーキテクチャのアライメント条件を満たす新しいトレーニングフレームワークを導出する。 標準的なトレーニングアルゴリズムが与えられた場合、その修正版を実行するフレームワークは、MNIST、CIFAR-10、CIFAR-100、Semeion、KMNIST、SVHNといった標準ベンチマークデータセットとの畳み込み、スキップ接続、バッチ正規化によるResNet-18のグローバルコンバージェンス保証を提供しながら、競争力(実践的な)テストパフォーマンスを維持するために実証的に示されている。

Representations of the world environment play a crucial role in machine intelligence. It is often inefficient to conduct reasoning and inference directly in the space of raw sensory representations, such as pixel values of images. Representation learning allows us to automatically discover suitable representations from raw sensory data. For example, given raw sensory data, a multilayer perceptron learns nonlinear representations at its hidden layers, which are subsequently used for classification (or regression) at its output layer. This happens implicitly during training through minimizing a supervised or unsupervised loss. In this paper, we study the dynamics of such implicit nonlinear representation learning. We identify a pair of a new assumption and a novel condition, called the common model structure assumption and the data-architecture alignment condition. Under the common model structure assumption, the data-architecture alignment condition is shown to be sufficient for the global convergence and necessary for the global optimality. Our results provide practical guidance for designing a model structure: e.g., the common model structure assumption can be used as a justification for using a particular model structure instead of others. As an application, we then derive a new training framework, which satisfies the data-architecture alignment condition without assuming it by automatically modifying any given training algorithm dependently on each data and architecture. Given a standard training algorithm, the framework running its modified version is empirically shown to maintain competitive (practical) test performances while providing global convergence guarantees for ResNet-18 with convolutions, skip connections, and batch normalization with standard benchmark datasets, including MNIST, CIFAR-10, CIFAR-100, Semeion, KMNIST and SVHN.
翻訳日:2021-06-29 14:05:21 公開日:2021-06-28
# オンラインインタビューとアウトカムのためのCheating Detection Pipeline

Cheating Detection Pipeline for Online Interviews and Exams ( http://arxiv.org/abs/2106.14483v1 )

ライセンス: Link先を確認
Azmi Can \"Ozgen, Mahiye Uluya\u{g}mur \"Ozt\"urk, Umut Bayraktar(参考訳) リモート検査や就職面接は、パンデミックとリモートワークの利点の両面から、普及し、欠かせないものとなっている。 ほとんどの企業や学術機関は採用プロセスやオンライン試験にこれらのシステムを利用している。 しかし,遠隔試験システムの問題点の一つは,信頼性の高い環境下での試験実施である。 本研究では,オンライン面接と試験のための不正分析パイプラインを提案する。 このシステムは、試験中に記録される候補者のビデオのみを必要とする。 そして、不正検出パイプラインを使用して、他人、電子機器の使用状況、および候補不在状態を検出する。 パイプラインは、顔検出、顔認識、オブジェクト検出、顔追跡アルゴリズムで構成される。 パイプラインの性能を評価するために,プライベートビデオデータセットを収集した。 ビデオデータセットには、不正行為とクリーンビデオの両方が含まれている。 最終的に当社のパイプラインは,オンラインインタビューや試験ビデオで不正行為を検出し,分析するための効率的かつ迅速なガイドラインを提供します。

Remote examination and job interviews have gained popularity and become indispensable because of both pandemics and the advantage of remote working circumstances. Most companies and academic institutions utilize these systems for their recruitment processes and also for online exams. However, one of the critical problems of the remote examination systems is conducting the exams in a reliable environment. In this work, we present a cheating analysis pipeline for online interviews and exams. The system only requires a video of the candidate, which is recorded during the exam. Then cheating detection pipeline is employed to detect another person, electronic device usage, and candidate absence status. The pipeline consists of face detection, face recognition, object detection, and face tracking algorithms. To evaluate the performance of the pipeline we collected a private video dataset. The video dataset includes both cheating activities and clean videos. Ultimately, our pipeline presents an efficient and fast guideline to detect and analyze cheating activities in an online interview and exam video.
翻訳日:2021-06-29 14:04:51 公開日:2021-06-28
# 探索的デモレータからの学習:バンドの最適リワード推定

Learning from an Exploring Demonstrator: Optimal Reward Estimation for Bandits ( http://arxiv.org/abs/2106.14866v1 )

ライセンス: Link先を確認
Wenshuo Guo, Kumar Krishna Agrawal, Aditya Grover, Vidya Muthukumar, Ashwin Pananjady(参考訳) 本稿では,マルチアームバンディットインスタンスの報酬を,低レグレットデモンストレータの学習過程から推定する「逆バンディット問題」を提案する。 逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としており、それによって識別可能性の問題に悩まされる。 対照的に、我々のパラダイムは、最適性、特に探索フェーズへの道のりにおける実証者の振舞いを利用して、一貫した報酬推定値を得る。 提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションの簡便かつ効率的な報酬推定手法を開発し,アルゴリズムの後悔が増大するにつれて,報酬推定が徐々に容易になることを示す。 これらの上界を,任意のデモンストレータアルゴリズムに適用可能な情報理論的下界と一致させ,探索と報酬推定の最適トレードオフを特徴付ける。 自然科学による合成データとシミュレーション実験設計データの両方に関する広範な実証的評価は、我々の理論結果と一致している。

We introduce the "inverse bandit" problem of estimating the rewards of a multi-armed bandit instance from observing the learning process of a low-regret demonstrator. Existing approaches to the related problem of inverse reinforcement learning assume the execution of an optimal policy, and thereby suffer from an identifiability issue. In contrast, our paradigm leverages the demonstrator's behavior en route to optimality, and in particular, the exploration phase, to obtain consistent reward estimates. We develop simple and efficient reward estimation procedures for demonstrations within a class of upper-confidence-bas ed algorithms, showing that reward estimation gets progressively easier as the regret of the algorithm increases. We match these upper bounds with information-theoreti c lower bounds that apply to any demonstrator algorithm, thereby characterizing the optimal tradeoff between exploration and reward estimation. Extensive empirical evaluations on both synthetic data and simulated experimental design data from the natural sciences corroborate our theoretical results.
翻訳日:2021-06-29 14:04:41 公開日:2021-06-28
# マルチモーダル・部分モーダル・ファウショット学習のためのディジゴティック条件変分オートエンコーダ

Dizygotic Conditional Variational AutoEncoder for Multi-Modal and Partial Modality Absent Few-Shot Learning ( http://arxiv.org/abs/2106.14467v1 )

ライセンス: Link先を確認
Yi Zhang and Sheng Huang and Xi Peng and Dan Yang(参考訳) データ拡張は、少数ショットの分類タスクのパフォーマンスを改善する強力な技術である。 サプリメントとしてより多くのサンプルを生成し、そのタスクをソリューションのための共通の教師あり学習問題に変換することができる。 しかし、主要なデータ拡張ベースアプローチのほとんどは単一のモダリティ情報のみを考慮し、それによって生成した機能の多様性と品質が低下する。 本稿では、上記の問題に対処するために、Digigotic Conditional Variational AutoEncoder (DCVAE) という新しいマルチモーダルデータ拡張手法を提案する。 DCVAEは、2つの条件変分オートエンコーダ(CVAE)を同じシードでペアリングすることで特徴合成を行うが、ジジゴティック共生方式では異なるモダリティ条件を行う。 その後、2つのCVAEの生成した特徴を適応的に組み合わせて最終特徴を導出し、これらの条件が表現だけでなく機能においても元の条件と一致していることを保証する。 DCVAEは、様々なモーダリティ事前情報の補完を利用して、様々なマルチモーダルシナリオにおけるデータ拡張の新しいアイデアを提供する。 本研究は, miniImageNet, CIFAR-FS, CUBデータセット上での最先端性能を実証し, 部分モダリティ不在症例では有効であることを示す。

Data augmentation is a powerful technique for improving the performance of the few-shot classification task. It generates more samples as supplements, and then this task can be transformed into a common supervised learning issue for solution. However, most mainstream data augmentation based approaches only consider the single modality information, which leads to the low diversity and quality of generated features. In this paper, we present a novel multi-modal data augmentation approach named Dizygotic Conditional Variational AutoEncoder (DCVAE) for addressing the aforementioned issue. DCVAE conducts feature synthesis via pairing two Conditional Variational AutoEncoders (CVAEs) with the same seed but different modality conditions in a dizygotic symbiosis manner. Subsequently, the generated features of two CVAEs are adaptively combined to yield the final feature, which can be converted back into its paired conditions while ensuring these conditions are consistent with the original conditions not only in representation but also in function. DCVAE essentially provides a new idea of data augmentation in various multi-modal scenarios by exploiting the complement of different modality prior information. Extensive experimental results demonstrate our work achieves state-of-the-art performances on miniImageNet, CIFAR-FS and CUB datasets, and is able to work well in the partial modality absence case.
翻訳日:2021-06-29 14:03:13 公開日:2021-06-28
# フラクタルピラミッドネットワーク

Fractal Pyramid Networks ( http://arxiv.org/abs/2106.14694v1 )

ライセンス: Link先を確認
Zhiqiang Deng, Huimin Yu and Yangqi Long(参考訳) 本稿では,広く使用されているエンコーダ・デコーダ構造の代替として,画素単位の予測タスクのための新しいネットワークアーキテクチャであるフラクタルピラミッドネットワークを提案する。 エンコーダ・デコーダ構造では、入力は、セマンティックな大きなチャネル機能を取得しようとするエンコード・デコーダパイプラインによって処理される。 これと異なり、提案するPFNは複数の情報処理経路を保持し、複数の小チャンネルに情報をエンコードする。 ImageNetが事前訓練を受けなくても、自己教師付き単眼深度推定のタスクにおいて、我々のモデルは、はるかに少ないパラメータで、KITTIデータセットの最先端の手法と競合したり、性能を向上することができる。 さらに、予測の視覚的品質が大幅に向上する。 セマンティックセグメンテーションの実験により、PFNが他の画素ワイドな予測タスクに適用可能であることを示すとともに、我々のモデルがよりグローバルな構造情報を得ることができることを示す。

We propose a new network architecture, the Fractal Pyramid Networks (PFNs) for pixel-wise prediction tasks as an alternative to the widely used encoder-decoder structure. In the encoder-decoder structure, the input is processed by an encoding-decoding pipeline that tries to get a semantic large-channel feature. Different from that, our proposed PFNs hold multiple information processing pathways and encode the information to multiple separate small-channel features. On the task of self-supervised monocular depth estimation, even without ImageNet pretrained, our models can compete or outperform the state-of-the-art methods on the KITTI dataset with much fewer parameters. Moreover, the visual quality of the prediction is significantly improved. The experiment of semantic segmentation provides evidence that the PFNs can be applied to other pixel-wise prediction tasks, and demonstrates that our models can catch more global structure information.
翻訳日:2021-06-29 14:02:52 公開日:2021-06-28
# K-Net: 統一イメージセグメンテーションを目指して

K-Net: Towards Unified Image Segmentation ( http://arxiv.org/abs/2106.14855v1 )

ライセンス: Link先を確認
Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy(参考訳) セマンティクス、インスタンス、およびpanopticセグメンテーションは、基盤となる接続にもかかわらず、異なる、特殊なフレームワークを使用して対処されてきた。 本稿では,これらと本質的に類似したタスクに対して,統一的でシンプルで効果的なフレームワークを提案する。 k-netと名付けられたこのフレームワークは、学習可能なカーネルのグループによって、インスタンスとセマンティクスの両方のカテゴリを一貫してセグメンテーションする。 様々なインスタンスを区別することの難しさを解消するために,入力画像中の各カーネルを意味のあるグループに動的かつ条件づけするカーネル更新戦略を提案する。 K-Netは双方向マッチングでエンドツーエンドでトレーニングすることができ、そのトレーニングと推論は自然にNMSフリーで、ボックスフリーである。 ベルとホイッスルがなければ、K-Netは、MS COCOのパン光学セグメントと、52.1% PQと54.3% mIoUのADE20Kのセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスの全ての最先端シングルモデル結果を上回っている。 インスタンスセグメンテーション性能はカスケードマスク R-CNNon MS COCOと同等であり、推論速度は60%-90%高速である。 コードとモデルはhttps://github.com/o pen-mmlab/mmdetectio nでリリースされる。

Semantic, instance, and panoptic segmentations have been addressed using different and specialized frameworks despite their underlying connections. This paper presents a unified, simple, and effective framework for these essentially similar tasks. The framework, named K-Net, segments both instances and semantic categories consistently by a group of learnable kernels, where each kernel is responsible for generating a mask for either a potential instance or a stuff class. To remedy the difficulties of distinguishing various instances, we propose a kernel update strategy that enables each kernel dynamic and conditional on its meaningful group in the input image. K-Net can be trained in an end-to-end manner with bipartite matching, and its training and inference are naturally NMS-free and box-free. Without bells and whistles, K-Net surpasses all previous state-of-the-art single-model results of panoptic segmentation on MS COCO and semantic segmentation on ADE20K with 52.1% PQ and 54.3% mIoU, respectively. Its instance segmentation performance is also on par with Cascade Mask R-CNNon MS COCO with 60%-90% faster inference speeds. Code and models will be released at https://github.com/o pen-mmlab/mmdetectio n.
翻訳日:2021-06-29 14:02:37 公開日:2021-06-28
# BioASQ 2020: 大規模バイオメディカルセマンティックインデクシングと質問回答に関する第8回BioASQチャレンジの概要

Overview of BioASQ 2020: The eighth BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering ( http://arxiv.org/abs/2106.14618v1 )

ライセンス: Link先を確認
Anastasios Nentidis, Anastasia Krithara, Konstantinos Bougiatiotis, Martin Krallinger, Carlos Rodriguez-Penagos, Marta Villegas, Georgios Paliouras(参考訳) 本稿では,評価フォーラム (CLEF) 2020 のラボとして実施されている BioASQ チャレンジの第8版の概要を紹介する。 BioASQは、大規模バイオメディカルセマンティックインデックスと質問応答のためのシステムと方法論の推進を目的とした一連の課題である。 この目的のために、共有タスクは2012年から毎年組織され、異なるチームが、バイオメディカルドメインの専門家の実際の情報ニーズを表す、同じ要求の高いベンチマークデータセットで競うシステムを開発する。 今年は、スペイン語で医療意味索引付けに関する新しいタスクを導入することで、課題が拡大された。 合計で、100以上のシステムを持つ34チームが、チャレンジの3つのタスクに参加した。 前年と同様に、評価の結果、トップパフォーマンスのシステムは強力なベースラインを上回り、最先端のシステムは継続的な改善を通じて研究の最前線を推し進めていることを示している。

In this paper, we present an overview of the eighth edition of the BioASQ challenge, which ran as a lab in the Conference and Labs of the Evaluation Forum (CLEF) 2020. BioASQ is a series of challenges aiming at the promotion of systems and methodologies for large-scale biomedical semantic indexing and question answering. To this end, shared tasks are organized yearly since 2012, where different teams develop systems that compete on the same demanding benchmark datasets that represent the real information needs of experts in the biomedical domain. This year, the challenge has been extended with the introduction of a new task on medical semantic indexing in Spanish. In total, 34 teams with more than 100 systems participated in the three tasks of the challenge. As in previous years, the results of the evaluation reveal that the top-performing systems managed to outperform the strong baselines, which suggests that state-of-the-art systems keep pushing the frontier of research through continuous improvements.
翻訳日:2021-06-29 14:02:14 公開日:2021-06-28
# 自己適応型深層クラスタリングアプローチによる教師なし連続学習

Unsupervised Continual Learning via Self-Adaptive Deep Clustering Approach ( http://arxiv.org/abs/2106.14563v1 )

ライセンス: Link先を確認
Mahardhika Pratama, Andri Ashfahani, Edwin Lughofer(参考訳) 教師なしの連続学習は、既存の作品の大多数が高価なラベル費用を伴う基礎的真理の無制限アクセスを要求するため、既存の文献において比較的未開の領域である。 もう1つの問題は、モデルのアップデートやモデルの予測で知られなければならないタスク境界とタスクidの問題であり、リアルタイムデプロイメントの実現を妨げている。 本稿では,自己適応型Deep Continual Learner(KIERA)の知識保持について述べる。 kieraは、環境の変化をタイムリーに対処するために、柔軟なネットワーク構造を持つフレキシブルなディープクラスタリングアプローチの概念から開発された。 centroidベースの体験リプレイは、壊滅的な忘れる問題を克服するために行われる。 KIERAは、タスクに依存しないメリットを特徴として、ラベル付きサンプルをモデル更新に利用していない。 KIERAの利点は、最先端技術に比べて高い競争力を示す一般的な連続学習問題において数値的に検証されている。 私たちの実装は、textit{\url{https://github.com/C ontinualAL/KIERA}}で利用可能です。

Unsupervised continual learning remains a relatively uncharted territory in the existing literature because the vast majority of existing works call for unlimited access of ground truth incurring expensive labelling cost. Another issue lies in the problem of task boundaries and task IDs which must be known for model's updates or model's predictions hindering feasibility for real-time deployment. Knowledge Retention in Self-Adaptive Deep Continual Learner, (KIERA), is proposed in this paper. KIERA is developed from the notion of flexible deep clustering approach possessing an elastic network structure to cope with changing environments in the timely manner. The centroid-based experience replay is put forward to overcome the catastrophic forgetting problem. KIERA does not exploit any labelled samples for model updates while featuring a task-agnostic merit. The advantage of KIERA has been numerically validated in popular continual learning problems where it shows highly competitive performance compared to state-of-the art approaches. Our implementation is available in \textit{\url{https://github.com/C ontinualAL/KIERA}}.
翻訳日:2021-06-29 14:00:03 公開日:2021-06-28
# エキスパートq-learning: エキスパート例からのステート値を用いた深いq-learning

Expert Q-learning: Deep Q-learning With State Values From Expert Examples ( http://arxiv.org/abs/2106.14642v1 )

ライセンス: Link先を確認
Li Meng, Anis Yazidi, Morten Goodwin, Paal Engelstad(参考訳) 本稿では,エキスパートQ学習という新しいアルゴリズムを提案する。 Q-ラーニングの専門家は、Q-ラーニングにインスパイアされ、Q-バリューを状態値と行動アドバンテージに分割することで、半教師付き学習のアイデアを強化学習に取り入れることを目的とした。 Generative Adversarial Imitation LearningやDeep Q-Learningとは違い、私たちが使ったオフラインの専門家は、{-1, 0, 1}から状態の価値を予測するだけで、これが悪いか、中立か、良い状態かを示す。 エキスパートネットワークは、Qネットワークに加えて設計され、エキスパートのサンプルバッファが空でない場合、通常のオフラインのミニバッチ更新の後に毎回更新される。 また,本アルゴリズムでは,Q-ネットワークとエキスパートネットワークの非同期コピーも保持し,Double Q-learningと同じ方法で目標値を予測する。 我々はOthelloのアルゴリズムを、Double Q-learningとDueling Q-learningを組み合わせた最先端のQ-learningアルゴリズムと比較した。 その結果,専門家のq-learningは有益であり,q-learningの過大評価バイアスに対する抵抗性が高かった。 ベースラインQ学習アルゴリズムは、特に確率的プレイヤーと対戦する場合、不安定で準最適動作を示し、一方エキスパートQ学習はより高いスコアでより堅牢な性能を示した。 例を使用しないエキスパートQ-ラーニングも、固定プレイヤーに対してトレーニングとテストを行う場合、ベースラインアルゴリズムよりも優れた結果を得た。 一方,実例のないエキスパートq-learningは,過剰推定バイアスの低減効果も示しているにもかかわらず,直接ゲームコンペティションにおいて,ベースラインq-learningアルゴリズムに勝てない。

We propose a novel algorithm named Expert Q-learning. Expert Q-learning was inspired by Dueling Q-learning and aimed at incorporating the ideas from semi-supervised learning into reinforcement learning through splitting Q-values into state values and action advantages. Different from Generative Adversarial Imitation Learning and Deep Q-Learning from Demonstrations, the offline expert we have used only predicts the value of a state from {-1, 0, 1}, indicating whether this is a bad, neutral or good state. An expert network is designed in addition to the Q-network and updated each time following the regular offline minibatch update whenever the expert example buffer is not empty. Our algorithm also keeps asynchronous copies of the Q-network and expert network, predicting the target values using the same manner as of Double Q-learning. We compared on the game of Othello our algorithm with the state-of-the-art Q-learning algorithm, which was a combination of Double Q-learning and Dueling Q-learning. The results showed that Expert Q-learning was indeed useful and more resistant to the overestimation bias of Q-learning. The baseline Q-learning algorithm exhibited unstable and suboptimal behavior, especially when playing against a stochastic player, whereas Expert Q-learning demonstrated more robust performance with higher scores. Expert Q-learning without using examples has also gained better results than the baseline algorithm when trained and tested against a fixed player. On the other hand, Expert Q-learning without examples cannot win against the baseline Q-learning algorithm in direct game competitions despite the fact that it has also shown the strength of reducing the overestimation bias.
翻訳日:2021-06-29 13:59:48 公開日:2021-06-28
# robust learning-augmented caching: 実験的検討

Robust Learning-Augmented Caching: An Experimental Study ( http://arxiv.org/abs/2106.14693v1 )

ライセンス: Link先を確認
Jakub Ch{\l}\k{e}dowski, Adam Polak, Bartosz Szabucki, Konrad Zolna(参考訳) 現代のコンピュータシステムの性能には効果的なキャッシュが不可欠である。 キャッシングで発生する重要な最適化問題は、新しいアイテムのために余地を作るために退避するアイテムは、未来を知らずに最適に解決できない。 この問題には多くの古典的近似アルゴリズムがあるが、近年、研究者たちは暗黙の入力パターンを発見し、未来を予測することによって、何を勝ち取るかを決定するために機械学習をうまく適用し始めた。 機械学習は通常、最悪のケースの保証を提供しないが、新しい学習型アルゴリズムの分野は、従来のオンラインキャッシングアルゴリズムを活用して、マシン主導の予測器を堅牢にするソリューションを提案する。 私たちは、これらの学習強化アルゴリズムを、実世界のキャッシュデータセットと最先端のマシン学習予測器で包括的に評価しました。 予測器または古典的ロバストアルゴリズムを盲目的に追従し、一方が他方よりも悪くなると切り換えるという単純な手法は、優れた予測器よりもオーバーヘッドが低く、一方、結合予測器が故障した場合に古典的手法と競合し、安価な最悪の保険を提供する。

Effective caching is crucial for the performance of modern-day computing systems. A key optimization problem arising in caching -- which item to evict to make room for a new item -- cannot be optimally solved without knowing the future. There are many classical approximation algorithms for this problem, but more recently researchers started to successfully apply machine learning to decide what to evict by discovering implicit input patterns and predicting the future. While machine learning typically does not provide any worst-case guarantees, the new field of learning-augmented algorithms proposes solutions that leverage classical online caching algorithms to make the machine-learned predictors robust. We are the first to comprehensively evaluate these learning-augmented algorithms on real-world caching datasets and state-of-the-art machine-learned predictors. We show that a straightforward method -- blindly following either a predictor or a classical robust algorithm, and switching whenever one becomes worse than the other -- has only a low overhead over a well-performing predictor, while competing with classical methods when the coupled predictor fails, thus providing a cheap worst-case insurance.
翻訳日:2021-06-29 13:59:00 公開日:2021-06-28
# 患者状態の同時学習による低レベル臨床イベントの予測の改善

Improving Prediction of Low-Prior Clinical Events with Simultaneous General Patient-State Representation Learning ( http://arxiv.org/abs/2106.14838v1 )

ライセンス: Link先を確認
Matthew Barren, Milos Hauskrecht(参考訳) 低優先度のターゲットは多くの重要な臨床イベントに共通しており、予測モデルの学習を支援する十分なデータを持つことが課題となっている。 多くの先行研究は、まずは一般的な患者状態表現モデルを構築し、次に新しい優先度の低い予測ターゲットに適応することでこの問題に対処した。 このスキーマでは、一般的な患者状態モデルと目標タスクのミスアライメントによって予測性能が妨げられる可能性がある。 この課題を克服するために,低優先度教師付き目標と汎用患者状態表現(GPSR)の両方のマルチタスク学習を通じて,共有モデルを同時に最適化する手法を提案する。 具体的には、目標イベントの損失と広範囲の総合的な臨床イベントを組み合わせた共有モデルを共同最適化することにより、低優先度タスクの予測性能を向上する。 本稿では,リカレントニューラルネットワーク(RNN)の文脈におけるアプローチについて検討する。 mimic-iiiデータを用いた複数の臨床イベントターゲットに対する広範囲な実験を行い,モデルトレーニング中に一般の患者-状態表現タスクを組み込むことにより,個々の低優先度目標の予測が向上することを示した。

Low-prior targets are common among many important clinical events, which introduces the challenge of having enough data to support learning of their predictive models. Many prior works have addressed this problem by first building a general patient-state representation model, and then adapting it to a new low-prior prediction target. In this schema, there is potential for the predictive performance to be hindered by the misalignment between the general patient-state model and the target task. To overcome this challenge, we propose a new method that simultaneously optimizes a shared model through multi-task learning of both the low-prior supervised target and general purpose patient-state representation (GPSR). More specifically, our method improves prediction performance of a low-prior task by jointly optimizing a shared model that combines the loss of the target event and a broad range of generic clinical events. We study the approach in the context of Recurrent Neural Networks (RNNs). Through extensive experiments on multiple clinical event targets using MIMIC-III data, we show that the inclusion of general patient-state representation tasks during model training improves the prediction of individual low-prior targets.
翻訳日:2021-06-29 13:58:39 公開日:2021-06-28
# ジャコビアン正則化による安定化平衡モデル

Stabilizing Equilibrium Models by Jacobian Regularization ( http://arxiv.org/abs/2106.14342v1 )

ライセンス: Link先を確認
Shaojie Bai, Vladlen Koltun, J. Zico Kolter(参考訳) ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。 これらのモデルは、最先端のディープネットワークと性能的に競合するが、メモリは大幅に少ない。 しかし、それらもまた遅く、アーキテクチャ上の選択に脆弱で、モデルに潜在的な不安定性をもたらす。 本稿では,不動点更新方程式のヤコビアンを明示的に正則化し,平衡モデルの学習を安定化するdeqモデルの正則化スキームを提案する。 この正規化は計算コストを最小にし、前方と後方の両方で固定点収束を著しく安定化し、高次元で現実的な領域(例えばwikitext-103言語モデリングとimagenet分類)にスケールする。 この手法を用いて、resnet-101のような一般的なディープネットワークとほぼ同じ速度とレベルのパフォーマンスで動作し、一定のメモリフットプリントとdeqのアーキテクチャ上の単純さを維持しながら、暗黙の奥行きモデルを示す。 コードはhttps://github.com/l ocuslab/deqで入手できる。

Deep equilibrium networks (DEQs) are a new class of models that eschews traditional depth in favor of finding the fixed point of a single nonlinear layer. These models have been shown to achieve performance competitive with the state-of-the-art deep networks while using significantly less memory. Yet they are also slower, brittle to architectural choices, and introduce potential instability to the model. In this paper, we propose a regularization scheme for DEQ models that explicitly regularizes the Jacobian of the fixed-point update equations to stabilize the learning of equilibrium models. We show that this regularization adds only minimal computational cost, significantly stabilizes the fixed-point convergence in both forward and backward passes, and scales well to high-dimensional, realistic domains (e.g., WikiText-103 language modeling and ImageNet classification). Using this method, we demonstrate, for the first time, an implicit-depth model that runs with approximately the same speed and level of performance as popular conventional deep networks such as ResNet-101, while still maintaining the constant memory footprint and architectural simplicity of DEQs. Code is available at https://github.com/l ocuslab/deq .
翻訳日:2021-06-29 13:56:52 公開日:2021-06-28
# laplace redux -- 無力なベイズ深層学習

Laplace Redux -- Effortless Bayesian Deep Learning ( http://arxiv.org/abs/2106.14806v1 )

ライセンス: Link先を確認
Erik Daxberger and Agustinus Kristiadi and Alexander Immer and Runa Eschenhagen and Matthias Bauer and Philipp Hennig(参考訳) 深層学習のベイズ的定式化は説得力のある理論的性質を持ち、予測の不確実性定量化の改善やモデル選択のような実用的な機能的利点を提供する。 ラプラス近似 (laplace approximation, la) は、ディープニューラルネットワークの難解な後方に対する最も単純な近似系である。 しかし、単純さにもかかわらず、LAは変奏ベイズやディープアンサンブルのような代替品ほど人気はない。 これは、LAがヘッセン計算に関係しているため高価である、実装が難しい、あるいは劣った結果をもたらすという仮定によるものかもしれない。 i) コストの少ないバージョンを含むlaの変種の範囲をレビューする、(ii) pytorch向けの使いやすいソフトウェアライブラリである"laplace"を導入する、(iii) laがパフォーマンスの面でより人気のある代替品と競争していることを示す広範な実験を通じて、計算コストの面で優れていることを実証する。 この研究が,ベイズ的アプローチが一般的に考慮されていない領域を含む,実践的なディープラーニングにおけるLAの広範な採用の触媒になることを期待している。

Bayesian formulations of deep learning have been shown to have compelling theoretical properties and offer practical functional benefits, such as improved predictive uncertainty quantification and model selection. The Laplace approximation (LA) is a classic, and arguably the simplest family of approximations for the intractable posteriors of deep neural networks. Yet, despite its simplicity, the LA is not as popular as alternatives like variational Bayes or deep ensembles. This may be due to assumptions that the LA is expensive due to the involved Hessian computation, that it is difficult to implement, or that it yields inferior results. In this work we show that these are misconceptions: we (i) review the range of variants of the LA including versions with minimal cost overhead; (ii) introduce "laplace", an easy-to-use software library for PyTorch offering user-friendly access to all major flavors of the LA; and (iii) demonstrate through extensive experiments that the LA is competitive with more popular alternatives in terms of performance, while excelling in terms of computational cost. We hope that this work will serve as a catalyst to a wider adoption of the LA in practical deep learning, including in domains where Bayesian approaches are not typically considered at the moment.
翻訳日:2021-06-29 13:56:34 公開日:2021-06-28
# 非画像のためのディープラーニング画像認識

Deep Learning Image Recognition for Non-images ( http://arxiv.org/abs/2106.14350v1 )

ライセンス: Link先を確認
Boris Kovalerchuk, Divya Chandrika Kalla, Bedant Agarwal(参考訳) 強力なディープラーニングアルゴリズムは、これらの問題を画像認識問題に変換することによって、非イメージ機械学習(ML)問題を解決する機会を開く。 本章で提示されるCPC-Rアルゴリズムは、非画像データを可視化することにより、非画像データを画像に変換する。 次に、深層学習CNNアルゴリズムがこれらの画像の学習問題を解決する。 CPC-Rアルゴリズムの設計により、2次元画像中のすべての高次元情報を保存できる。 代替手法で用いられる単一の値マッピングの代わりにペア値マッピングを使用することで、各n-D点を2倍の視覚的要素で符号化することができる。 n-d 点の属性はその値の対に分割され、それぞれの対は同じ 2-次元デカルト座標で 2-d 点として視覚化される。 次に、グレースケールまたはカラー強度値を各ペアに割り当ててペアの順序を符号化する。 その結果、ヒートマップ画像が生成される。 CPC-Rの計算実験は、異なるCNNアーキテクチャに対して行われ、CPC-RとディープラーニングのCNNアルゴリズムを組み合わせることで、ベンチマークデータセット上で高い精度で非画像ML問題を解くことができることを示す。 この章では、分類の正確さをテストするためにより多くの実験を追加し、その解釈可能性をテストするために発見された特徴の正当性と情報性を探究し、アプローチを一般化することで、これまでの作業を拡張します。

Powerful deep learning algorithms open an opportunity for solving non-image Machine Learning (ML) problems by transforming these problems to into the image recognition problems. The CPC-R algorithm presented in this chapter converts non-image data into images by visualizing non-image data. Then deep learning CNN algorithms solve the learning problems on these images. The design of the CPC-R algorithm allows preserving all high-dimensional information in 2-D images. The use of pair values mapping instead of single value mapping used in the alternative approaches allows encoding each n-D point with 2 times fewer visual elements. The attributes of an n-D point are divided into pairs of its values and each pair is visualized as 2-D points in the same 2-D Cartesian coordinates. Next, grey scale or color intensity values are assigned to each pair to encode the order of pairs. This is resulted in the heatmap image. The computational experiments with CPC-R are conducted for different CNN architectures, and methods to optimize the CPC-R images showing that the combined CPC-R and deep learning CNN algorithms are able to solve non-image ML problems reaching high accuracy on the benchmark datasets. This chapter expands our prior work by adding more experiments to test accuracy of classification, exploring saliency and informativeness of discovered features to test their interpretability, and generalizing the approach.
翻訳日:2021-06-29 13:55:31 公開日:2021-06-28
# co$^2$l:コントラスト連続学習

Co$^2$L: Contrastive Continual Learning ( http://arxiv.org/abs/2106.14413v1 )

ライセンス: Link先を確認
Hyuntak Cha, Jaeho Lee, Jinwoo Shin(参考訳) 自己教師付き学習の最近の進歩は、そのようなアルゴリズムが、タスク固有の監督に依存する共同学習方法よりも、見えないタスクに転送できる視覚表現を学習していることを示している。 比較的に学習された表現は、協調的に訓練された表現よりも破滅的な忘れ方に対してより強固である。 そこで本研究では,連続的な学習と伝達可能な表現の維持に着目したリハーサルに基づく連続学習アルゴリズムを提案する。 より具体的には,提案手法は,対照的な学習目標を用いて表現を学習し,(2)自己指導型の蒸留工程を用いて学習した表現を保存する。 我々は,人気のあるベンチマーク画像分類データセットで広範囲な検証を行い,新たな最先端性能を設定できる。

Recent breakthroughs in self-supervised learning show that such algorithms learn visual representations that can be transferred better to unseen tasks than joint-training methods relying on task-specific supervision. In this paper, we found that the similar holds in the continual learning con-text: contrastively learned representations are more robust against the catastrophic forgetting than jointly trained representations. Based on this novel observation, we propose a rehearsal-based continual learning algorithm that focuses on continually learning and maintaining transferable representations. More specifically, the proposed scheme (1) learns representations using the contrastive learning objective, and (2) preserves learned representations using a self-supervised distillation step. We conduct extensive experimental validations under popular benchmark image classification datasets, where our method sets the new state-of-the-art performance.
翻訳日:2021-06-29 13:55:09 公開日:2021-06-28
# FreeTickets: ダイナミックスペーシングによるトレーニングによる高精度,ロバスト,効率的なディープアンサンブル

FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training with Dynamic Sparsity ( http://arxiv.org/abs/2106.14568v1 )

ライセンス: Link先を確認
Shiwei Liu, Tianlong Chen, Zahra Atashgahi, Xiaohan Chen, Ghada Sokar, Elena Mocanu, Mykola Pechenizkiy, Zhangyang Wang, Decebal Constantin Mocanu(参考訳) スパースニューラルネットワークに関する最近の研究は、スパースネットワークを個別にトレーニングし、対応する高密度ネットワークの性能をパラメータ数で一致させることができることを示した。 しかしながら、これらのパフォーマンススパースニューラルネットワーク(勝者のチケット)の識別には、コストのかかる反復的な列車-プレーン-リトレインプロセス(例えば、ロッテリー・ティケット仮説)または過拡張スパーストレーニング時間(例えば、動的スパースネスによるトレーニング)が伴う。 本研究では,このコスト削減問題に対してfreeticketsの概念を導入することで,ニューラルネットワークの分散畳み込み性能を高利率に向上させる第1のソリューションである。 具体的には、動的なスパーシティを持つ2つの新しい効率的なアンサンブル手法を提案し、スパーストレーニングプロセス中に多くの多様で正確なチケットを「無料で」撮影することによって、freeticketsの概念をインスタンス化する。 これらのフリーチケットをアンサンブルに組み合わせることで、対応する高密度(アンサンブル)ネットワーク上での精度、不確実性の推定、ロバスト性、効率が大幅に向上した。 この結果から,スパースニューラルネットワークの強みに対する新たな洞察が得られ,スパーシティのメリットが通常のトレーニング/推論の予測効率を超えることが示唆された。 すべてのコードをhttps://github.com/S hiweiliuiiiiiii/Free Ticketsでリリースします。

Recent works on sparse neural networks have demonstrated that it is possible to train a sparse network in isolation to match the performance of the corresponding dense networks with a fraction of parameters. However, the identification of these performant sparse neural networks (winning tickets) either involves a costly iterative train-prune-retrain process (e.g., Lottery Ticket Hypothesis) or an over-extended sparse training time (e.g., Training with Dynamic Sparsity), both of which would raise financial and environmental concerns. In this work, we attempt to address this cost-reducing problem by introducing the FreeTickets concept, as the first solution which can boost the performance of sparse convolutional neural networks over their dense network equivalents by a large margin, while using for complete training only a fraction of the computational resources required by the latter. Concretely, we instantiate the FreeTickets concept, by proposing two novel efficient ensemble methods with dynamic sparsity, which yield in one shot many diverse and accurate tickets "for free" during the sparse training process. The combination of these free tickets into an ensemble demonstrates a significant improvement in accuracy, uncertainty estimation, robustness, and efficiency over the corresponding dense (ensemble) networks. Our results provide new insights into the strength of sparse neural networks and suggest that the benefits of sparsity go way beyond the usual training/inference expected efficiency. We will release all codes in https://github.com/S hiweiliuiiiiiii/Free Tickets.
翻訳日:2021-06-29 13:54:57 公開日:2021-06-28
# 重み付き非凸確率最適化のための高確率境界

High-probability Bounds for Non-Convex Stochastic Optimization with Heavy Tails ( http://arxiv.org/abs/2106.14343v1 )

ライセンス: Link先を確認
Ashok Cutkosky and Harsh Mehta(参考訳) 勾配推定が重い尾を持つような一階アルゴリズムを用いた非凸確率最適化を考える。 勾配クリッピング,運動量および正規化勾配降下の組み合わせは,いくつかの$\mathfrak{p}\in(1,2]$ に対して,勾配が$\mathfrak{p}$th モーメントだけ有界な場合,最もよく知られた損失率で高確率で臨界点に収束することを示す。 次に、この設定で我々の知識が研究されていない二階の滑らかな損失の場合を考え、再び$\mathfrak{p}$ の高確率境界を得る。 さらに、この結果はヒルベルト空間ノルムを必要とする典型的なSGD解析とは対照的に、任意の滑らかなノルムが成り立つ。 さらに,適切な「バーンイン」期間の後に,臨界点が特定されるまで,反復毎に客観的な値が単調に減少することを示す。

We consider non-convex stochastic optimization using first-order algorithms for which the gradient estimates may have heavy tails. We show that a combination of gradient clipping, momentum, and normalized gradient descent yields convergence to critical points in high-probability with best-known rates for smooth losses when the gradients only have bounded $\mathfrak{p}$th moments for some $\mathfrak{p}\in(1,2]$. We then consider the case of second-order smooth losses, which to our knowledge have not been studied in this setting, and again obtain high-probability bounds for any $\mathfrak{p}$. Moreover, our results hold for arbitrary smooth norms, in contrast to the typical SGD analysis which requires a Hilbert space norm. Further, we show that after a suitable "burn-in" period, the objective value will monotonically decrease for every iteration until a critical point is identified, which provides intuition behind the popular practice of learning rate "warm-up" and also yields a last-iterate guarantee.
翻訳日:2021-06-29 13:51:02 公開日:2021-06-28
# ニューラルアーキテクチャ検索における検索空間の確保

Poisoning the Search Space in Neural Architecture Search ( http://arxiv.org/abs/2106.14406v1 )

ライセンス: Link先を確認
Robert Wu, Nayan Saxena, Rohan Jain(参考訳) ディープラーニングは、医療や自動運転など、さまざまなドメインにわたるオブジェクト検出とイメージセグメンテーションのための、非常に効果的な問題解決ツールであることが証明されている。 このパフォーマンスの核心は、ドメイン知識と研究者のために事前の経験に大きく依存する、ニューラルアーキテクチャ設計である。 最近では、可能な操作の最初の検索空間を与えられた最も最適なアーキテクチャを見つけるこのプロセスは、Neural Architecture Search (NAS)によって自動化された。 本稿では, 探索空間におけるデータ非依存的中毒攻撃に対する, ENAS(Efficient NAS)と呼ばれるアルゴリズムのロバスト性を, 慎重に設計した非効率な操作で評価する。 CIFAR-10データセット上でのアルゴリズム性能を評価することにより、新しい検索空間中毒(SSP)アプローチとマルチインスタンス攻撃が、ENASコントローラの設計上の欠陥を悪用し、児童ネットワークの膨らませた予測エラー率に与える影響を実証的に示す。 以上の結果から,NASを用いたアーキテクチャ探索の課題に対する洞察が得られた。

Deep learning has proven to be a highly effective problem-solving tool for object detection and image segmentation across various domains such as healthcare and autonomous driving. At the heart of this performance lies neural architecture design which relies heavily on domain knowledge and prior experience on the researchers' behalf. More recently, this process of finding the most optimal architectures, given an initial search space of possible operations, was automated by Neural Architecture Search (NAS). In this paper, we evaluate the robustness of one such algorithm known as Efficient NAS (ENAS) against data agnostic poisoning attacks on the original search space with carefully designed ineffective operations. By evaluating algorithm performance on the CIFAR-10 dataset, we empirically demonstrate how our novel search space poisoning (SSP) approach and multiple-instance poisoning attacks exploit design flaws in the ENAS controller to result in inflated prediction error rates for child networks. Our results provide insights into the challenges to surmount in using NAS for more adversarially robust architecture search.
翻訳日:2021-06-29 13:50:44 公開日:2021-06-28
# SGDの最終イテレーションの収束速度:次元依存性の分析

The Convergence Rate of SGD's Final Iterate: Analysis on Dimension Dependence ( http://arxiv.org/abs/2106.14588v1 )

ライセンス: Link先を確認
Daogao Liu, Zhou Lu(参考訳) Stochastic Gradient Descent (SGD) は最適化において最も単純で最も人気のある手法の一つである。 SGDの収束速度は広く研究され、ランニング平均スキームの厳密な解析が確立されているが、最終イテレーションの準最適性はまだよく理解されていない。 Shamir2013stochastic は、非滑らか凸函数を最小化する SGD の最終イテレートに対して最もよく知られた上限を与え、これは、リプシッツ凸函数に対して$O(\log T/\sqrt{T})$ と$O(\log T/T)$ である。 しかし、最もよく知られた下界は、$\log T$ の係数によって上界よりも悪い。 harvey2019tightは一致した下界を与えるが、その構成には次元$d=T$が必要である。 その後、koren2020open により、定数次元設定におけるsgdの最終イテレート収束を特徴付ける方法が求められた。 本稿では,任意の$d\leq T$に対してより一般的な設定で,SGDの最終イテレーションの最適値に対する$\Omega(\log d/\sqrt{T})$と$\Omega(\log d/T)$の下限を証明し,非滑らかリプシッツ凸と強凸関数をそれぞれ標準ステップサイズスケジュールで最小化する。 以上の結果から,SGD の最終反復の収束度に従属する第1次一般次元下界が得られ,コレン2020open が提起した COLT の開問題の部分解が得られた。 また, 1 次元の正解率は,koren2020open よりも一般の設定において 1 次元の特別な場合に対して,タイトな $o(1/\sqrt{t})$ の証明のように,\theta(1/\sqrt{t})$ であるべきであることを示すさらなる証拠を示す。

Stochastic Gradient Descent (SGD) is among the simplest and most popular methods in optimization. The convergence rate for SGD has been extensively studied and tight analyses have been established for the running average scheme, but the sub-optimality of the final iterate is still not well-understood. shamir2013stochastic gave the best known upper bound for the final iterate of SGD minimizing non-smooth convex functions, which is $O(\log T/\sqrt{T})$ for Lipschitz convex functions and $O(\log T/ T)$ with additional assumption on strongly convexity. The best known lower bounds, however, are worse than the upper bounds by a factor of $\log T$. harvey2019tight gave matching lower bounds but their construction requires dimension $d= T$. It was then asked by koren2020open how to characterize the final-iterate convergence of SGD in the constant dimension setting. In this paper, we answer this question in the more general setting for any $d\leq T$, proving $\Omega(\log d/\sqrt{T})$ and $\Omega(\log d/T)$ lower bounds for the sub-optimality of the final iterate of SGD in minimizing non-smooth Lipschitz convex and strongly convex functions respectively with standard step size schedules. Our results provide the first general dimension dependent lower bound on the convergence of SGD's final iterate, partially resolving a COLT open question raised by koren2020open. We also present further evidence to show the correct rate in one dimension should be $\Theta(1/\sqrt{T})$, such as a proof of a tight $O(1/\sqrt{T})$ upper bound for one-dimensional special cases in settings more general than koren2020open.
翻訳日:2021-06-29 13:50:27 公開日:2021-06-28
# Recovering Rewardsにおける動的計画と学習

Dynamic Planning and Learning under Recovering Rewards ( http://arxiv.org/abs/2106.14813v1 )

ライセンス: Link先を確認
David Simchi-Levi, Zeyu Zheng, Feng Zhu(参考訳) ライブ配信のeコマースやプロモーション,レコメンデーションなどの新興アプリケーションに動機付けられ,次の2つの特徴を持つマルチアームバンディットの一般的なクラスを導入する。 (i) 意思決定者は,各期間中に最大$K$から$N$の異なる武器から報酬を回収することができ, (ii) 腕の期待報酬は, 引いた後にすぐに低下し, アイドル時間が増加するにつれて非パラメトリックに回復する。 予測累積報酬をT$以上の期間で最大化する目的で,我々は「純粋周期ポリシー」のクラスの性能保証を提案し,構築し,証明する。 すべてのモデルパラメータが知られている場合のオフライン問題に対して、提案手法は1-\mathcal o(1/\sqrt{k})$の順の近似比を得る。 モデルパラメータが不明で学習が必要なオンライン問題に対して、オフラインベンチマークに対して約$\widetilde{\mathcal O}(N\sqrt{T})$後悔するアッパー信頼境界(UCB)ベースのポリシーを設計する。 当社のフレームワークとポリシ設計は,オフライン計画やオンライン学習アプリケーションに,非定常的かつ回復的な報酬を付与する可能性を持ったものです。

Motivated by emerging applications such as live-streaming e-commerce, promotions and recommendations, we introduce a general class of multi-armed bandit problems that have the following two features: (i) the decision maker can pull and collect rewards from at most $K$ out of $N$ different arms in each time period; (ii) the expected reward of an arm immediately drops after it is pulled, and then non parametrically recovers as the idle time increases. With the objective of maximizing expected cumulative rewards over $T$ time periods, we propose, construct and prove performance guarantees for a class of "Purely Periodic Policies". For the offline problem when all model parameters are known, our proposed policy obtains an approximation ratio that is at the order of $1-\mathcal O(1/\sqrt{K})$, which is asymptotically optimal when $K$ grows to infinity. For the online problem when the model parameters are unknown and need to be learned, we design an Upper Confidence Bound (UCB) based policy that approximately has $\widetilde{\mathcal O}(N\sqrt{T})$ regret against the offline benchmark. Our framework and policy design may have the potential to be adapted into other offline planning and online learning applications with non-stationary and recovering rewards.
翻訳日:2021-06-29 13:49:47 公開日:2021-06-28
# 画像からライム病診断のためのコンボリューションニューラルネットワークのベンチマーク

Benchmarking convolutional neural networks for diagnosing Lyme disease from images ( http://arxiv.org/abs/2106.14465v1 )

ライセンス: Link先を確認
Sk Imran Hossain (LIMOS), Jocelyn de Go\"er de Herve (INRAE), Md Shahriar Hassan (LIMOS), Delphine Martineau, Evelina Petrosyan, Violaine Corbain, Jean Beytout, Isabelle Lebert (INRAE), Elisabeth Baux (CHRU Nancy), C\'eline Cazorla (CHU de Saint-Etienne), Carole Eldin (IHU M\'editerran\'ee Infection), Yves Hansmann, Solene Patrat-Delon, Thierry Prazuck (CHR), Alice Raffetin (CHIV), Pierre Tattevin (CHU Rennes), Gwena\"el Vourc'H (INRAE), Olivier Lesens, Engelbert Nguifo (LIMOS)(参考訳) ライム病は世界で最も一般的な感染症の一つである。 初期の段階では、エリスマ・ミクラン (erythema migrans, em) の皮膚病変のほとんどに発症する。 これらの早期形態のより良い診断は、適切な抗生物質療法により重篤な後期形態への移行を防ぎ、予後を改善することができる。 近年の研究では、畳み込みニューラルネットワーク(cnns)は、画像から皮膚病変を識別するのに非常に有効であるが、em病変画像からのライム病予測にはあまり効果がないことが示されている。 本研究の目的は、画像からライム病を診断するためのCNNの有効性を広く分析し、その目的のために最適なCNNアーキテクチャを明らかにすることである。 プライバシの懸念が主な理由として、ライム病の予測のための公開のEMイメージデータセットはない。 本研究では,フランスのClermont-Ferrand大学病院センター(CF-CHU)から収集した画像とインターネットを用いたEMデータセットを用いた。 CF-CHUはフランスのいくつかの病院から画像を収集した。 このデータセットはCF-CHUの皮膚科医や感染症学者によってラベル付けされた。 まず、予測性能メトリクス、計算複雑性メトリクス、統計的重要性テストの観点から、このデータセットを23の有名なCNNアーキテクチャでベンチマークした。 第2に、CNNの性能向上のために、ImageNetの事前訓練モデルからのトランスファー学習と、皮膚病変データセット"Human Against Machine with 10000 training image (HAM1000)"を用いたCNNの事前訓練を行った。 その過程で我々は,各CNNの微調整において,転送学習中に解凍する最も優れたレイヤを探索した。 第3に,モデル説明のために,勾配重み付けクラスアクティベーションマッピングを用いて,cnnにとって重要な入力領域を可視化し,予測を行う。 第4に,予測性能と計算複雑性に基づくモデル選択のガイドラインを提案した。 本研究は,Lyme病プレスキャンモバイルアプリケーションに使用する軽量CNNの有効性と可能性を検証した。 また、トレーニングされたすべてのモデルをhttps://dappem.limos .fr/download.htmlで公開しました。

Lyme disease is one of the most common infectious vector-borne diseases in the world. In the early stage, the disease manifests itself in most cases with erythema migrans (EM) skin lesions. Better diagnosis of these early forms would allow improving the prognosis by preventing the transition to a severe late form thanks to appropriate antibiotic therapy. Recent studies show that convolutional neural networks (CNNs) perform very well to identify skin lesions from the image but, there is not much work for Lyme disease prediction from EM lesion images. The main objective of this study is to extensively analyze the effectiveness of CNNs for diagnosing Lyme disease from images and to find out the best CNN architecture for the purpose. There is no publicly available EM image dataset for Lyme disease prediction mainly because of privacy concerns. In this study, we utilized an EM dataset consisting of images collected from Clermont-Ferrand University Hospital Center (CF-CHU) of France and the internet. CF-CHU collected the images from several hospitals in France. This dataset was labeled by expert dermatologists and infectiologists from CF-CHU. First, we benchmarked this dataset for twenty-three well-known CNN architectures in terms of predictive performance metrics, computational complexity metrics, and statistical significance tests. Second, to improve the performance of the CNNs, we used transfer learning from ImageNet pre-trained models as well as pre-trained the CNNs with the skin lesion dataset "Human Against Machine with 10000 training images (HAM1000)". In that process, we searched for the best performing number of layers to unfreeze during transfer learning fine-tuning for each of the CNNs. Third, for model explainability, we utilized Gradient-weighted Class Activation Mapping to visualize the regions of input that are significant to the CNNs for making predictions. Fourth, we provided guidelines for model selection based on predictive performance and computational complexity. Our study confirmed the effectiveness and potential of even some lightweight CNNs to be used for Lyme disease pre-scanner mobile applications. We also made all the trained models publicly available at https://dappem.limos .fr/download.html, which can be used by others for transfer learning and building pre-scanners for Lyme disease.
翻訳日:2021-06-29 13:47:36 公開日:2021-06-28
# 学習可能な光カーネルを用いたプライバシー保全画像取得

Privacy-Preserving Image Acquisition Using Trainable Optical Kernel ( http://arxiv.org/abs/2106.14577v1 )

ライセンス: Link先を確認
Yamin Sepehri, Pedram Pad, Pascal Frossard, L. Andrea Dunbar(参考訳) センサーやカメラが普及している社会では、プライバシーを守ることが懸念されている。 本研究では,画像センサに到達する前に,光学領域の感度の高い識別情報を除去する訓練可能な画像取得手法を提案する。 トレーニング可能な光畳み込みカーネルの利点は、機密コンテンツをフィルタリングしながら所望の情報を送信することである。 画像センサに到達する前にセンシティブなコンテンツが抑制されるため、デジタルドメインに入力されないため、いかなる種類のプライバシー攻撃でも再生できない。 これは、ダイレクトアクセス攻撃に対して脆弱な現在のデジタルプライバシー保存方法とは対照的である。 また、トレーニングできない従来の光プライバシー保存手法とは対照的に、本手法はデータ駆動型であり、特定のアプリケーションに対して最適化されている。 さらに、この処理は光学領域で受動的に発生し、完全なデジタルプライバシ保存システム上でも使用できるため、取得システムに余分な計算、メモリ、電力負担は発生しない。 提案されたアプローチは、異なるデジタルニューラルネットワークとコンテンツに適応できる。 性別がセンシティブなコンテンツとしてフィルタリングされる間、所望の属性として笑顔検出など、いくつかのシナリオでこれを実証する。 我々は,解析ネットワークが所望の属性を検知し,敵ネットワークがセンシティブなコンテンツを検出しようとする2つの敵ニューラルネットワークと共に,光学カーネルを訓練した。 本手法は,性別選択時に65.1%のセンシティブなコンテンツを減らし,所望のコンテンツの7.3%しか失わないことを示す。 さらに, 再建攻撃の非効率性を確認し, センシティブな内容を得るディープリコンストラクション手法を用いて, 元の顔の再構築を行う。

Preserving privacy is a growing concern in our society where sensors and cameras are ubiquitous. In this work, for the first time, we propose a trainable image acquisition method that removes the sensitive identity revealing information in the optical domain before it reaches the image sensor. The method benefits from a trainable optical convolution kernel which transmits the desired information while filters out the sensitive content. As the sensitive content is suppressed before it reaches the image sensor, it does not enter the digital domain therefore is unretrievable by any sort of privacy attack. This is in contrast with the current digital privacy-preserving methods that are all vulnerable to direct access attack. Also, in contrast with the previous optical privacy-preserving methods that cannot be trained, our method is data-driven and optimized for the specific application at hand. Moreover, there is no additional computation, memory, or power burden on the acquisition system since this processing happens passively in the optical domain and can even be used together and on top of the fully digital privacy-preserving systems. The proposed approach is adaptable to different digital neural networks and content. We demonstrate it for several scenarios such as smile detection as the desired attribute while the gender is filtered out as the sensitive content. We trained the optical kernel in conjunction with two adversarial neural networks where the analysis network tries to detect the desired attribute and the adversarial network tries to detect the sensitive content. We show that this method can reduce 65.1% of sensitive content when it is selected to be the gender and it only loses 7.3% of the desired content. Moreover, we reconstruct the original faces using the deep reconstruction method that confirms the ineffectiveness of reconstruction attacks to obtain the sensitive content.
翻訳日:2021-06-29 13:46:58 公開日:2021-06-28
# Speech2Properties2:g esture-Property Prediction as a Tool of Representational Gestures from Speech

Speech2Properties2Ge stures: Gesture-Property Prediction as a Tool for Generating Representational Gestures from Speech ( http://arxiv.org/abs/2106.14736v1 )

ライセンス: Link先を確認
Taras Kucherenko, Rajmund Nagy, Patrik Jonell, Michael Neff, Hedvig Kjellstr\"om, Gustav Eje Henter(参考訳) 本研究では,より意味的にリッチなジェスチャーを生成するための,データ駆動型アプローチを実現するためのジェスチャー生成フレームワークを提案する。 提案手法はまずジェスチャーを予測し,次にジェスチャー特性の予測を行う。 これらの特性は、高品質な出力が可能な現代の確率的ジェスチャー生成モデルの条件付けとして使用される。 これは多様で表現力のあるジェスチャーを生成するアプローチに力を与えます。

We propose a new framework for gesture generation, aiming to allow data-driven approaches to produce more semantically rich gestures. Our approach first predicts whether to gesture, followed by a prediction of the gesture properties. Those properties are then used as conditioning for a modern probabilistic gesture-generation model capable of high-quality output. This empowers the approach to generate gestures that are both diverse and representational.
翻訳日:2021-06-29 13:46:30 公開日:2021-06-28
# (参考訳) 量子化アウェアトレーニング, ERNIE および Kurtosis Regularizer の短期的実証研究 [全文訳有]

Quantization Aware Training, ERNIE and Kurtosis Regularizer: a short empirical study ( http://arxiv.org/abs/2106.13035v2 )

ライセンス: CC BY 4.0
Andrea Zanetti(参考訳) ErnieやBertのような事前訓練された言語モデルは、現在多くのアプリケーションで使われている。 これらのモデルは、大量のデータに対して教師なし/自己教師なしのモダリティで通常得られる、事前訓練された重みを伴っている。 その後、特定のタスクで微調整される。 アプリケーションはこれらのモデルを推論に使用し、低電力予算や入力と出力の間の低レイテンシなど、追加の制約が適用されることが多い。 これらの追加要件を推論設定で満たす主な方法は、精度の低い計算(例えば)を使用することである。 INT8 は FP32 ではなく FP32 である)が、これは機能性能を劣化させるコストが伴う(例えば、FP32)。 精度)のモデルです この問題に対処し、PTO(ポストトライニング量子化)の限界を超えていくためのいくつかのアプローチが開発されており、より具体的には、QAT(Quantization Aware Training、[4])は、トレーニング自体の量子化フェーズの影響を受け(あるいは単に乱される)ようトレーニングプロセスに干渉する手順である。 qatに加えて、最近intel-habana labsは、正規化器を使用するその後の量子化に対して、トレーニング結果をより堅牢にするための、より直接的な方法を提案している。 しかし彼らの提案は、例えばErnieのような事前訓練されたモデルではうまく機能しない。 この短い論文では、なぜこれが起こらないのか(Ernieの場合)を示し、それを扱うための非常に基本的な方法を提案します。

Pre-trained language models like Ernie or Bert are currently used in many applications. These models come with a set of pre-trained weights typically obtained in unsupervised/self-su pervised modality on a huge amount of data. After that, they are fine-tuned on a specific task. Applications then use these models for inference, and often some additional constraints apply, like low power-budget or low latency between input and output. The main avenue to meet these additional requirements for the inference settings, is to use low precision computation (e.g. INT8 rather than FP32), but this comes with a cost of deteriorating the functional performance (e.g. accuracy) of the model. Some approaches have been developed to tackle the problem and go beyond the limitations of the PTO (Post-Training Quantization), more specifically the QAT (Quantization Aware Training, see [4]) is a procedure that interferes with the training process in order to make it affected (or simply disturbed) by the quantization phase during the training itself. Besides QAT, recently Intel-Habana Labs have proposed an additional and more direct way to make the training results more robust to subsequent quantization which uses a regularizer, therefore changing the loss function that drives the training procedure. But their proposal does not work out-of-the-box for pre-trained models like Ernie, for example. In this short paper we show why this is not happening (for the Ernie case) and we propose a very basic way to deal with it, sharing as well some initial results (increase in final INT8 accuracy) that might be of interest to practitioners willing to use Ernie in their applications, in low precision regime.
翻訳日:2021-06-29 12:08:19 公開日:2021-06-28
# (参考訳) vogue: マルチタスク学習による答えの言語化 [全文訳有]

VOGUE: Answer Verbalization through Multi-Task Learning ( http://arxiv.org/abs/2106.13316v2 )

ライセンス: CC BY 4.0
Endri Kacupaj, Shyamnath Premnadh, Kuldeep Singh, Jens Lehmann, Maria Maleshkova(参考訳) 近年,知識グラフ (KGQA) に対する質問回答 (Qanguage Answering over Knowledge Graphs) が著しく進展している。 全ての顕著な進歩にもかかわらず、現在のKGQAシステムは回答生成技術にのみ焦点を絞っている。 しかし、現実世界のシナリオでは(例えば、AlexaやSiriなどの音声アシスタント)。 ユーザは、生成した応答ではなく、言葉による回答を好む。 本稿では,知識グラフ上の(複雑な)質問応答に対する動詞化の課題に対処する。 そこで本研究では,マルチタスクに基づく応答言語化フレームワークVOGUE(Verbalization thrOuGh mUlti-task lEarning)を提案する。 VOGUEフレームワークは、マルチタスク学習パラダイムを通じてハイブリッドアプローチを用いて、言語化された回答を生成する。 本フレームワークは,質問と問合せを同時入力として,結果を生成することができる。 VOGUEは4つのモジュールから構成され、同時にマルチタスク学習によって訓練される。 我々は,既存データセットの枠組みを評価し,BLEUとMETEORのスコアにおいて,現在のベースラインを上回ります。

In recent years, there have been significant developments in Question Answering over Knowledge Graphs (KGQA). Despite all the notable advancements, current KGQA systems only focus on answer generation techniques and not on answer verbalization. However, in real-world scenarios (e.g., voice assistants such as Alexa, Siri, etc.), users prefer verbalized answers instead of a generated response. This paper addresses the task of answer verbalization for (complex) question answering over knowledge graphs. In this context, we propose a multi-task-based answer verbalization framework: VOGUE (Verbalization thrOuGh mUlti-task lEarning). The VOGUE framework attempts to generate a verbalized answer using a hybrid approach through a multi-task learning paradigm. Our framework can generate results based on using questions and queries as inputs concurrently. VOGUE comprises four modules that are trained simultaneously through multi-task learning. We evaluate our framework on existing datasets for answer verbalization, and it outperforms all current baselines on both BLEU and METEOR scores.
翻訳日:2021-06-29 12:01:06 公開日:2021-06-28
# (参考訳) PVTv2:ピラミッドビジョントランスによるベースライン改善 [全文訳有]

PVTv2: Improved Baselines with Pyramid Vision Transformer ( http://arxiv.org/abs/2106.13797v2 )

ライセンス: CC BY 4.0
Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao(参考訳) コンピュータビジョンのトランスフォーマーは、最近進歩している。 本研究では,(1)重なり合うパッチ埋め込み,(2)畳み込みフィードフォワードネットワーク,(3)線形複雑性注意層を含む3つの改良設計を加えることにより,元のピラミドビジョン変換器(PVTv1)を改善した。 これらの簡単な修正により、PVTv2は分類、検出、セグメンテーションにおいてPVTv1を大幅に改善する。 さらにPVTv2は、Swin Transformerを含む最近の作業よりも優れたパフォーマンスを実現している。 この研究により、最先端の視覚トランスフォーマー研究がよりアクセス可能になることを願っている。 コードはhttps://github.com/w hai362/PVTで入手できる。

Transformer in computer vision has recently shown encouraging progress. In this work, we improve the original Pyramid Vision Transformer (PVTv1) by adding three improvement designs, which include (1) overlapping patch embedding, (2) convolutional feed-forward networks, and (3) linear complexity attention layers. With these simple modifications, our PVTv2 significantly improves PVTv1 on classification, detection, and segmentation. Moreover, PVTv2 achieves better performance than recent works, including Swin Transformer. We hope this work will make state-of-the-art vision Transformer research more accessible. Code is available at https://github.com/w hai362/PVT .
翻訳日:2021-06-29 11:44:10 公開日:2021-06-28
# 変圧器における形状登録

Shape registration in the time of transformers ( http://arxiv.org/abs/2106.13679v2 )

ライセンス: Link先を確認
Giovanni Trappolini, Luca Cosmo, Luca Moschella, Riccardo Marin, Simone Melzi, Emanuele Rodol\`a(参考訳) 本稿では,非剛性3次元点雲の効率的な登録のための変圧器に基づく手法を提案する。 提案手法はデータ駆動型であり、登録タスクにおいて初めてトランスフォーマーアーキテクチャを採用する。 我々の方法は一般的であり、異なる設定に当てはまる。 いくつかの望ましい特性を持つ固定テンプレート(例)が与えられる。 スキンウェイトや他のアニメーションキュー) 取得した生データを登録することで、すべてのテンプレートプロパティを入力ジオメトリに転送することができる。 あるいは、一対の形状を与えられた場合、この方法は第1を第2(あるいはその逆)に登録し、2つの間の高品質な密度対応を得る。 両方の文脈において、結果の品質は、テクスチャ転送や形状補間といった実際の応用を目標にすることができる。 さらに,表面の密度を推定することにより,学習プロセスが簡単になることを示す。 このアーキテクチャの潜在能力を生かして、基礎的真理対応のスパースセットだけを必要とするモデルを訓練することができる(全点の10\sim20\%$)。 提案するモデルと解析により、登録およびマッチングアプリケーションのためのトランスフォーマーベースのアーキテクチャの今後の探究の道が開けた。 定性的かつ定量的な評価は,異なるデータセットやシナリオの3dデータ登録を変形可能かつ無秩序にするために,パイプラインが最先端の手法よりも優れていることを示している。

In this paper, we propose a transformer-based procedure for the efficient registration of non-rigid 3D point clouds. The proposed approach is data-driven and adopts for the first time the transformer architecture in the registration task. Our method is general and applies to different settings. Given a fixed template with some desired properties (e.g. skinning weights or other animation cues), we can register raw acquired data to it, thereby transferring all the template properties to the input geometry. Alternatively, given a pair of shapes, our method can register the first onto the second (or vice-versa), obtaining a high-quality dense correspondence between the two. In both contexts, the quality of our results enables us to target real applications such as texture transfer and shape interpolation. Furthermore, we also show that including an estimation of the underlying density of the surface eases the learning process. By exploiting the potential of this architecture, we can train our model requiring only a sparse set of ground truth correspondences ($10\sim20\%$ of the total points). The proposed model and the analysis that we perform pave the way for future exploration of transformer-based architectures for registration and matching applications. Qualitative and quantitative evaluations demonstrate that our pipeline outperforms state-of-the-art methods for deformable and unordered 3D data registration on different datasets and scenarios.
翻訳日:2021-06-29 11:10:43 公開日:2021-06-28
# VOLO:視覚認識の視覚的見通し

VOLO: Vision Outlooker for Visual Recognition ( http://arxiv.org/abs/2106.13112v2 )

ライセンス: Link先を確認
Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan(参考訳) 視覚認識は長年、畳み込みニューラルネットワーク(CNN)によって支配されてきた。 近年,vts (prevailing vision transformers) は,イメージネット分類における自己着脱型モデルの潜在性は高いが,データ提供がなければ,その性能は最新の sota cnn よりも劣っている。 本研究では,パフォーマンスギャップを解消し,注意に基づくモデルがCNNよりも優れていることを示す。 ImageNet分類におけるViTの性能を制限する主要な要因は、トークン表現に微細な特徴をエンコードする際の効果が低いことである。 これを解決するために,新しいoutlook attentionを導入し,単純で汎用的なアーキテクチャであるvision outlooker(volo)を提案する。 粗いレベルでのグローバルな依存性モデリングに焦点を当てた自己注意とは異なり、展望はより細かいレベルの特徴やコンテキストをトークンに効率的にエンコードする。 実験の結果、VOLOはImageNet-1K分類において87.1%の精度を達成しており、これはこの競合ベンチマークにおいて、余分なトレーニングデータを用いることなく、最初のモデルである87%を超える精度である。 都市景観検証セットで84.3% mIoU、ADE20K検証セットで54.3%を得る。 コードは \url{https://github.com/s ail-sg/volo} で入手できる。

Visual recognition has been dominated by convolutional neural networks (CNNs) for years. Though recently the prevailing vision transformers (ViTs) have shown great potential of self-attention based models in ImageNet classification, their performance is still inferior to that of the latest SOTA CNNs if no extra data are provided. In this work, we try to close the performance gap and demonstrate that attention-based models are indeed able to outperform CNNs. We find a major factor limiting the performance of ViTs for ImageNet classification is their low efficacy in encoding fine-level features into the token representations. To resolve this, we introduce a novel outlook attention and present a simple and general architecture, termed Vision Outlooker (VOLO). Unlike self-attention that focuses on global dependency modeling at a coarse level, the outlook attention efficiently encodes finer-level features and contexts into tokens, which is shown to be critically beneficial to recognition performance but largely ignored by the self-attention. Experiments show that our VOLO achieves 87.1% top-1 accuracy on ImageNet-1K classification, which is the first model exceeding 87% accuracy on this competitive benchmark, without using any extra training data In addition, the pre-trained VOLO transfers well to downstream tasks, such as semantic segmentation. We achieve 84.3% mIoU score on the cityscapes validation set and 54.3% on the ADE20K validation set. Code is available at \url{https://github.com/s ail-sg/volo}.
翻訳日:2021-06-29 11:10:25 公開日:2021-06-28
# モダリティの探索:視覚言語事前学習のための自己注意型視覚解析

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training ( http://arxiv.org/abs/2106.13488v2 )

ライセンス: Link先を確認
Hongwei Xue, Yupan Huang, Bei Liu, Houwen Peng, Jianlong Fu, Houqiang Li, Jiebo Luo(参考訳) Vision-Language Pre-Training (VLP)は、画像テキストペアからマルチモーダル表現を学習し、微調整で下流の視覚言語タスクに役立てることを目的としている。 支配的なVLPモデルはCNN-Transformerアーキテクチャを採用し、CNNにイメージを埋め込んで、画像とテキストをTransformerにアライメントする。 視覚コンテンツ間の視覚的関係は画像理解において重要な役割を担い、モーダル間アライメント学習の基礎となる。 しかしながら、cnnは、長距離依存関係のモデリングにおける局所受容野の弱さのため、視覚関係学習に制限がある。 したがって、視覚関係とモーダル間アライメントの2つの目的は同じトランスフォーマーネットワークにカプセル化される。 このような設計は、各目的の特殊特性を無視してトランスフォーマーにおけるモーダル間アライメント学習を制限する可能性がある。 そこで本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。 具体的には、視覚と言語モダリティ(モダリティ間)の相互作用を測定するために、IMF(Inter-Modality Flow)と呼ばれる指標を提案する。 また,モダリティ間の学習をさらに促進するために,Transformer で Masked Feature Regression (MFR) という新しいマスキング最適化機構を設計する。 我々の知る限りでは、VLPにおける視覚的特徴学習におけるTransformerのメリットを探求する最初の研究である。 本手法は,画像テキスト検索,vqa(visual question answering),視覚インテリメント(visual entailment),視覚推論(visual reasoning)など,幅広い視覚言語タスクで検証する。 当社のアプローチは、最先端のVLPのパフォーマンスを上回るだけでなく、IMFの指標にもメリットがあります。

Vision-Language Pre-training (VLP) aims to learn multi-modal representations from image-text pairs and serves for downstream vision-language tasks in a fine-tuning fashion. The dominant VLP models adopt a CNN-Transformer architecture, which embeds images with a CNN, and then aligns images and text with a Transformer. Visual relationship between visual contents plays an important role in image understanding and is the basic for inter-modal alignment learning. However, CNNs have limitations in visual relation learning due to local receptive field's weakness in modeling long-range dependencies. Thus the two objectives of learning visual relation and inter-modal alignment are encapsulated in the same Transformer network. Such design might restrict the inter-modal alignment learning in the Transformer by ignoring the specialized characteristic of each objective. To tackle this, we propose a fully Transformer visual embedding for VLP to better learn visual relation and further promote inter-modal alignment. Specifically, we propose a metric named Inter-Modality Flow (IMF) to measure the interaction between vision and language modalities (i.e., inter-modality). We also design a novel masking optimization mechanism named Masked Feature Regression (MFR) in Transformer to further promote the inter-modality learning. To the best of our knowledge, this is the first study to explore the benefit of Transformer for visual feature learning in VLP. We verify our method on a wide range of vision-language tasks, including Image-Text Retrieval, Visual Question Answering (VQA), Visual Entailment and Visual Reasoning. Our approach not only outperforms the state-of-the-art VLP performance, but also shows benefits on the IMF metric.
翻訳日:2021-06-29 11:09:57 公開日:2021-06-28
# クラブハウスにおけるヘイトスピーチ検出

Hate Speech Detection in Clubhouse ( http://arxiv.org/abs/2106.13238v2 )

ライセンス: Link先を確認
Hadi Mansourifar, Dana Alsagheer, Reza Fathi, Weidong Shi, Lan Ni, Yan Huang(参考訳) 音声チャットルームの出現により、自然言語処理タスクのための研究コミュニティに膨大な量のデータを公開することができる。 音声チャットルームのモデレーターは、議論を積極的に監視し、不快な言葉で参加者を排除します。 しかし、一部の参加者は、ヘイトスピーチを明瞭化するための創造的な方法を見つけようとするため、ヘイトスピーチ検出がさらに困難になる。 これにより、clubhouseのような新しいソーシャルメディアではヘイトスピーチ検出が困難になる。 私たちの知る限り、ヘイトスピーチデータセットはすべて、twitterのようなテキストリソースから収集されています。 本稿では,ソーシャルメディア業界のスターとして,Clubhouseから重要なデータセットを収集する第一歩を踏み出した。 Google Perspective Scoresを用いて,収集したインスタンスを統計的視点から分析する。 私たちの実験では、視点スコアが高レベルのテキスト機能として単語とword2vecの袋を上回ることを示しています。

With the rise of voice chat rooms, a gigantic resource of data can be exposed to the research community for natural language processing tasks. Moderators in voice chat rooms actively monitor the discussions and remove the participants with offensive language. However, it makes the hate speech detection even more difficult since some participants try to find creative ways to articulate hate speech. This makes the hate speech detection challenging in new social media like Clubhouse. To the best of our knowledge all the hate speech datasets have been collected from text resources like Twitter. In this paper, we take the first step to collect a significant dataset from Clubhouse as the rising star in social media industry. We analyze the collected instances from statistical point of view using the Google Perspective Scores. Our experiments show that, the Perspective Scores can outperform Bag of Words and Word2Vec as high level text features.
翻訳日:2021-06-29 11:09:25 公開日:2021-06-28