このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210713となっている論文です。

PDF登録状況(公開日: 20210713)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) FairyTailor: ストーリーテリングのためのマルチモーダルな生成フレームワーク [全文訳有]

FairyTailor: A Multimodal Generative Framework for Storytelling ( http://arxiv.org/abs/2108.04324v1 )

ライセンス: CC BY 4.0
Eden Bensaid, Mauro Martino, Benjamin Hoover, Jacob Andreas and Hendrik Strobelt(参考訳) ストーリーテリングは創造的な思考を伴い、常にアイデアの流れを必要とするオープンエンドのタスクです。 ストーリーテリングのための自然言語生成(nlg: natural language generation)は特に困難である。 本稿では,人間とループのビジュアルストーリーを共同制作するためのシステムと web ベースのデモ,fairytailor を紹介する。 ユーザーは、生成したテキストと検索した画像を入力で織り込むことで、結束した子供のおとぎ話を作ることができる。 FairyTailorは別のモダリティを追加し、テキスト生成プロセスを変更して、一貫性があり創造的なテキストと画像のシーケンスを生成する。 私たちの知る限り、これはテキストと画像の両方のインタラクティブな共同形成を可能にする、マルチモーダルストーリー生成のための最初の動的ツールです。 ユーザーは共同制作したストーリーについてフィードバックし、結果を共有できる。

Storytelling is an open-ended task that entails creative thinking and requires a constant flow of ideas. Natural language generation (NLG) for storytelling is especially challenging because it requires the generated text to follow an overall theme while remaining creative and diverse to engage the reader. In this work, we introduce a system and a web-based demo, FairyTailor, for human-in-the-loop visual story co-creation. Users can create a cohesive children's fairytale by weaving generated texts and retrieved images with their input. FairyTailor adds another modality and modifies the text generation process to produce a coherent and creative sequence of text and images. To our knowledge, this is the first dynamic tool for multimodal story generation that allows interactive co-formation of both texts and images. It allows users to give feedback on co-created stories and share their results.
翻訳日:2021-08-15 16:25:52 公開日:2021-07-13
# オープンセット認識のためのadversarial motorial prototype framework

Adversarial Motorial Prototype Framework for Open Set Recognition ( http://arxiv.org/abs/2108.04225v1 )

ライセンス: Link先を確認
Ziheng Xia, Penghui Wang, Ganggang Dong, and Hongwei Liu(参考訳) open set recognitionは既知のクラスを識別し、未知のクラスを同時に拒否するように設計されている。 具体的には、既知のクラスを特定し、未知のクラスを拒絶することは、それぞれ経験的リスクとオープンスペースリスクを減少させる。 まず、既知のクラスをプロトタイプ分類の考え方に従って分類する運動プロトタイプフレームワーク(MPF)を提案する。 さらに、MPFの損失関数に運動限界制約項を追加することにより、特徴空間における既知のクラスのクラスタリングコンパクト性をさらに向上し、両方のリスクを低減することができる。 第2に,MPFに基づく逆運動プロトタイプフレームワーク(AMPF)を提案する。 一方, このモデルでは, 対向的なサンプルを生成し, これらのサンプルをトレーニングフェーズに付加することができるが, 他方では, 辺制限半径の対向運動を持つ未知のクラスに対して, モデルの差分マッピング能力をさらに向上させることができる。 最後に、AMPFのアップグレード版AMPF++を提案する。 本稿では,提案するモデルの性能が,従来のモデルよりも優れていることを示す実験を多数行った。

Open set recognition is designed to identify known classes and to reject unknown classes simultaneously. Specifically, identifying known classes and rejecting unknown classes correspond to reducing the empirical risk and the open space risk, respectively. First, the motorial prototype framework (MPF) is proposed, which classifies known classes according to the prototype classification idea. Moreover, a motorial margin constraint term is added into the loss function of the MPF, which can further improve the clustering compactness of known classes in the feature space to reduce both risks. Second, this paper proposes the adversarial motorial prototype framework (AMPF) based on the MPF. On the one hand, this model can generate adversarial samples and add these samples into the training phase; on the other hand, it can further improve the differential mapping ability of the model to known and unknown classes with the adversarial motion of the margin constraint radius. Finally, this paper proposes an upgraded version of the AMPF, AMPF++, which adds much more generated unknown samples into the training phase. In this paper, a large number of experiments prove that the performance of the proposed models is superior to that of other current works.
翻訳日:2021-08-15 11:28:42 公開日:2021-07-13
# 新しいモビリティのための回廊 aachen-d\"usseldorf: method and concepts of the research project accord

Corridor for new mobility Aachen-D\"usseldorf: Methods and concepts of the research project ACCorD ( http://arxiv.org/abs/2107.14048v1 )

ライセンス: Link先を確認
Laurent Kloeker, Amarin Kloeker, Fabian Thomsen, Armin Erraji, Lutz Eckstein, Serge Lamberty, Adrian Fazekas, Eszter Kall\'o, Markus Oeser, Charlotte Fl\'echon, Jochen Lohmiller, Pascal Pfeiffer, Martin Sommer, Helen Winter(参考訳) The Corridor for New Mobility Aachen - D\"usseldorf"では、既存のテスト機能を取り入れた統合開発環境が作成され、接続されたインテリジェントトランスポートシステムステーション(ITS-Ss)と相互作用する自動車両の系統的テストと検証が行われる。 これは、シミュレーション、クローズドテストサイト、および公共交通機関のテストフィールドが最善の方法でリンクされる、時間とコスト効率のよいツールチェーンと方法論によって達成される。 ディジタルツインを実装することで、記録されたトラフィックイベントをリアルタイムに可視化し、実データに基づくシミュレーションで駆動機能をテストできる。 様々な交通シナリオを表現するために、回廊には高速道路区間、田園部、都市部が含まれている。 まず,個々のプロジェクト内容を詳細に述べる前に,プロジェクトの目標を概説する。 これには、交通検知、運転機能開発、デジタルツイン開発、公的な関与といった概念が含まれる。

With the Corridor for New Mobility Aachen - D\"usseldorf, an integrated development environment is created, incorporating existing test capabilities, to systematically test and validate automated vehicles in interaction with connected Intelligent Transport Systems Stations (ITS-Ss). This is achieved through a time- and cost-efficient toolchain and methodology, in which simulation, closed test sites as well as test fields in public transport are linked in the best possible way. By implementing a digital twin, the recorded traffic events can be visualized in real-time and driving functions can be tested in the simulation based on real data. In order to represent diverse traffic scenarios, the corridor contains a highway section, a rural area, and urban areas. First, this paper outlines the project goals before describing the individual project contents in more detail. These include the concepts of traffic detection, driving function development, digital twin development, and public involvement.
翻訳日:2021-08-01 11:02:48 公開日:2021-07-13
# (参考訳) 深層学習による医療画像診断 : 総合的考察 [全文訳有]

Medical Imaging with Deep Learning for COVID- 19 Diagnosis: A Comprehensive Review ( http://arxiv.org/abs/2107.09602v1 )

ライセンス: CC BY 4.0
Subrato Bharati, Prajoy Podder, M. Rubaiyat Hossain Mondal, V.B. Surya Prasath(参考訳) 新型コロナウイルス感染症(COVID-19)の流行は、数百万人の命と人間の生活のあらゆる側面に影響を与えている。 本稿では, 深層学習モデル(DL)の医療画像・薬物発見への応用に焦点をあてる。 本稿では,x線,ct(ct)画像などの医用画像を用いた各種研究と,肺炎とcovid-19を分類するdl法について概説する。 医学画像へのDL技術の応用は、画像の局在、セグメンテーション、登録、および新型コロナウイルス検出につながる分類の観点からさらに説明される。 最近の論文では、InstaCovNet-19 DL法が361人、肺炎362人、正常365人のX線データセットに適用された際に、99.80%の分類精度が得られた。 さらに、edl_covid dl法が、新型コロナウイルス患者、肺腫瘍患者、正常者が等しく7500例のct画像データセットに適用された場合に、99.054%の最良の分類精度が得られる。 さらに、新型コロナウイルス対策における薬物やワクチンの発見におけるDL技術の可能性について述べる。 最後に、新型コロナウイルス(covid-19)のdlアプリケーションに関連する多くの問題、懸念、今後の研究方向について論じる。

The outbreak of novel coronavirus disease (COVID- 19) has claimed millions of lives and has affected all aspects of human life. This paper focuses on the application of deep learning (DL) models to medical imaging and drug discovery for managing COVID-19 disease. In this article, we detail various medical imaging-based studies such as X-rays and computed tomography (CT) images along with DL methods for classifying COVID-19 affected versus pneumonia. The applications of DL techniques to medical images are further described in terms of image localization, segmentation, registration, and classification leading to COVID-19 detection. The reviews of recent papers indicate that the highest classification accuracy of 99.80% is obtained when InstaCovNet-19 DL method is applied to an X-ray dataset of 361 COVID-19 patients, 362 pneumonia patients and 365 normal people. Furthermore, it can be seen that the best classification accuracy of 99.054% can be achieved when EDL_COVID DL method is applied to a CT image dataset of 7500 samples where COVID-19 patients, lung tumor patients and normal people are equal in number. Moreover, we illustrate the potential DL techniques in drug or vaccine discovery in combating the coronavirus. Finally, we address a number of problems, concerns and future research directions relevant to DL applications for COVID-19.
翻訳日:2021-07-25 12:44:57 公開日:2021-07-13
# 消費者生成コーパスにおける半パラメトリック潜在トピックモデリング

Semiparametric Latent Topic Modeling on Consumer-Generated Corpora ( http://arxiv.org/abs/2107.10651v1 )

ライセンス: Link先を確認
Dominic B. Dayta and Erniel B. Barrios(参考訳) トピックモデリングのレガシな手順は、一般的にオーバーフィッティングの問題や、スパースなトピック構造を再構築する上での弱点に苦しんでいる。 本稿では, 一般消費者が生成するコーパスからモチベーションを得て, 非負行列因数分解と半パラメトリック回帰を利用したトピックモデルを提案する。 このモデルにより、コーパス内のスパーストピック構造を再構築し、コーパスに入る新しい文書のトピックを予測する生成モデルを提供する。 トピックに関連する補助情報の存在を仮定すると、コーパスが小さく語彙が限られている場合のトピック構造の発見において、より優れた性能を示す。 実際の消費者フィードバックコーパスでは、モデルは他の手法で生成されたものと同等の、解釈可能で有用なトピック定義を提供する。

Legacy procedures for topic modelling have generally suffered problems of overfitting and a weakness towards reconstructing sparse topic structures. With motivation from a consumer-generated corpora, this paper proposes semiparametric topic model, a two-step approach utilizing nonnegative matrix factorization and semiparametric regression in topic modeling. The model enables the reconstruction of sparse topic structures in the corpus and provides a generative model for predicting topics in new documents entering the corpus. Assuming the presence of auxiliary information related to the topics, this approach exhibits better performance in discovering underlying topic structures in cases where the corpora are small and limited in vocabulary. In an actual consumer feedback corpus, the model also demonstrably provides interpretable and useful topic definitions comparable with those produced by other methods.
翻訳日:2021-07-25 12:00:20 公開日:2021-07-13
# 最適動的処理レジーム推定のためのペナルテッド共有パラメータアルゴリズム

A Penalized Shared-parameter Algorithm for Estimating Optimal Dynamic Treatment Regimens ( http://arxiv.org/abs/2107.07875v1 )

ライセンス: Link先を確認
Trikay Nalamada, Shruti Agarwal, Maria Jahja, Bibhas Chakraborty and Palash Ghosh(参考訳) 動的治療レギュラー(英: dynamic treatment regimen、DTR)とは、個人の治療を医療履歴を用いてパーソナライズするための一連の決定規則である。 Q-ラーニングに基づくQ-Sharedアルゴリズムは、複数の介入の段階で共有される決定ルールを含むDTRの開発に使用されている。 既存のQ-Sharedアルゴリズムは,Q-ラーニングにおける線形モデルの使用により,非収束性に悩まされることを示し,Q-Sharedが失敗する条件を特定する。 拡張制約付き通常の最小二乗法から得られる特性を利用して、条件に反する設定に収束するだけでなく、条件が満たされても元のQ共有アルゴリズムより優れる。 提案手法を実世界の応用と数種類の合成シミュレーションで実証する。

A dynamic treatment regimen (DTR) is a set of decision rules to personalize treatments for an individual using their medical history. The Q-learning based Q-shared algorithm has been used to develop DTRs that involve decision rules shared across multiple stages of intervention. We show that the existing Q-shared algorithm can suffer from non-convergence due to the use of linear models in the Q-learning setup, and identify the condition in which Q-shared fails. Leveraging properties from expansion-constraine d ordinary least-squares, we give a penalized Q-shared algorithm that not only converges in settings that violate the condition, but can outperform the original Q-shared algorithm even when the condition is satisfied. We give evidence for the proposed method in a real-world application and several synthetic simulations.
翻訳日:2021-07-25 11:59:48 公開日:2021-07-13
# 今日と未来は違う:翻訳型臨床バイオマーカー開発におけるモデル評価の考察

The Future will be Different than Today: Model Evaluation Considerations when Developing Translational Clinical Biomarker ( http://arxiv.org/abs/2107.08787v1 )

ライセンス: Link先を確認
Yichen Lu, Jane Fridlyand, Tiffany Tang, Ting Qi, Noah Simon and Ning Leng(参考訳) 翻訳バイオマーカーの発見は、医療におけるパーソナライズされた医療の未来の中心にある。 強靭なバイオマーカーを同定する際の顕著な課題は、あるシナリオにおいて優れた性能を持つ人では、新しい試行(例)ではうまく機能しない場合が多いためである。 人口、人口など)。 臨床試験の世界(例)の急速な発展と共に 新しい臨床試験は、多くの点でレガシーと非常に異なる可能性があり、バイオマーカーの開発においては、この異種性を考慮するべきである。 バイオマーカーの評価において,異質性の構築を検討することを推奨する。 本稿では,従来のクロスバリデーション (cv) 法の代わりにLeft-one-Study-out (LOSO) を用いることで,バイオマーカーの構築と試験に使用する試験の多種性を考慮した評価戦略を提案する。 バイオマーカーの効果を推定するためのK-fold vs. LOSO cvの性能を示すために,臨床実験およびシミュレーション研究のデータを活用した。 評価において,LOSO cvは今後の性能をより客観的に評価した。 この結論は、異なる評価指標と異なる統計手法で真であった。

Finding translational biomarkers stands center stage of the future of personalized medicine in healthcare. We observed notable challenges in identifying robust biomarkers as some with great performance in one scenario often fail to perform well in new trials (e.g. different population, indications). With rapid development in the clinical trial world (e.g. assay, disease definition), new trials very likely differ from legacy ones in many perspectives and in development of biomarkers this heterogeneity should be considered. In response, we recommend considering building in the heterogeneity when evaluating biomarkers. In this paper, we present one evaluation strategy by using leave-one-study-out (LOSO) in place of conventional cross-validation (cv) methods to account for the potential heterogeneity across trials used for building and testing the biomarkers. To demonstrate the performance of K-fold vs LOSO cv in estimating the effect size of biomarkers, we leveraged data from clinical trials and simulation studies. In our assessment, LOSO cv provided a more objective estimate of the future performance. This conclusion remained true across different evaluation metrics and different statistical methods.
翻訳日:2021-07-25 11:59:07 公開日:2021-07-13
# DISCO : 凸緩和による離散自然言語問題に対する効率的な教師なし復号化

DISCO : efficient unsupervised decoding for discrete natural language problems via convex relaxation ( http://arxiv.org/abs/2107.05380v2 )

ライセンス: Link先を確認
Anish Acharya, Rudrajit Das(参考訳) 本稿では,幅広い自然言語処理(nlp)問題にまたがるほぼ全ての逐次テキスト生成タスクにおけるユビキタスステップであるテスト時間復号法について検討する。 我々の主な貢献は、組合せNPハード復号問題のための連続緩和フレームワークを開発し、標準1次勾配に基づく効率的なアルゴリズムであるディスコを提案することである。 我々は、厳密な解析を行い、提案アルゴリズムがオプティマの$\epsilon$近傍に線形収束することを示す。 最後に, 逆テキスト生成の課題について予備実験を行い, いくつかの一般的な復号法に対してdiscoの優れた性能を示す。

In this paper we study test time decoding; an ubiquitous step in almost all sequential text generation task spanning across a wide array of natural language processing (NLP) problems. Our main contribution is to develop a continuous relaxation framework for the combinatorial NP-hard decoding problem and propose Disco - an efficient algorithm based on standard first order gradient based. We provide tight analysis and show that our proposed algorithm linearly converges to within $\epsilon$ neighborhood of the optima. Finally, we perform preliminary experiments on the task of adversarial text generation and show superior performance of Disco over several popular decoding approaches.
翻訳日:2021-07-18 12:35:50 公開日:2021-07-13
# ハードウェア障害を考慮したRIS支援多ユーザOFDMシステムのチャネル推定のための訓練なしDNN

Untrained DNN for Channel Estimation of RIS-Assisted Multi-User OFDM System with Hardware Impairments ( http://arxiv.org/abs/2107.07423v1 )

ライセンス: Link先を確認
Nipuni Ginige, K. B. Shashika Manosha, Nandana Rajatheva, and Matti Latva-aho(参考訳) reconfigurable intelligent surface (ris) は第5世代 (5g) とそれ以上のネットワークのパフォーマンスを向上させる新しい技術である。 RISを補助するシステムのチャネル推定は、RISの受動的性質のために困難である。 本稿では,ハードウェア障害のあるsimo(multi-user single-input-multipl e-output)直交周波数分割多重化(ofdm)システムのための,深層学習に基づく低複雑性チャネル推定器を提案する。 本稿では、従来のパイロットベース最小二乗推定(LS)から得られたシステムの有効チャネルを識別し、より正確な推定を行うために、DIPネットワークに基づく訓練されていないディープニューラルネットワークを提案する。 提案手法は従来の手法に比べて精度と複雑さの点で高い性能を示した。 さらに,提案した推定器は,トランスシーバとRISのハードウェア障害による干渉に対して頑健であることを示した。

Reconfigurable intelligent surface (RIS) is an emerging technology for improving performance in fifth-generation (5G) and beyond networks. Practically channel estimation of RIS-assisted systems is challenging due to the passive nature of the RIS. The purpose of this paper is to introduce a deep learning-based, low complexity channel estimator for the RIS-assisted multi-user single-input-multipl e-output (SIMO) orthogonal frequency division multiplexing (OFDM) system with hardware impairments. We propose an untrained deep neural network (DNN) based on the deep image prior (DIP) network to denoise the effective channel of the system obtained from the conventional pilot-based least-square (LS) estimation and acquire a more accurate estimation. We have shown that our proposed method has high performance in terms of accuracy and low complexity compared to conventional methods. Further, we have shown that the proposed estimator is robust to interference caused by the hardware impairments at the transceiver and RIS.
翻訳日:2021-07-16 13:48:43 公開日:2021-07-13
# (参考訳) HDMapNet: オンラインHDマップの構築と評価フレームワーク [全文訳有]

HDMapNet: An Online HD Map Construction and Evaluation Framework ( http://arxiv.org/abs/2107.06307v1 )

ライセンス: CC BY 4.0
Qi Li, Yue Wang, Yilun Wang, Hang Zhao(参考訳) 高精細地図(HDマップ)の構築は自動運転にとって重要な問題である。 この問題は通常、高品質の点雲を集め、同じシーンの複数の点雲を融合させ、地図要素を注釈付けし、常にマップを更新する。 しかしこのパイプラインは、スケーラビリティを制限する大量の人的努力とリソースを必要とします。 さらに、従来のhdマップは、多くのシナリオでは信頼できないセンチメートルレベルの正確なローカライズと結合されている。 本稿では,hdマップを動的に構築するオンラインマップ学習が,従来のhdマップよりも,自動運転車に先立って意味と幾何学を提供する上で,よりスケーラブルな方法であると主張する。 一方,我々はhdmapnetというオンライン地図学習手法を紹介する。 周囲のカメラやLiDARの点雲からの画像の特徴を符号化し、鳥の目視でベクトル化された地図要素を予測する。 nuScenesデータセット上でHDMapNetをベンチマークし、すべての設定において、ベースラインメソッドよりも優れたパフォーマンスを示す。 注目すべきは、私たちの融合ベースのHDMapNetは、すべてのメトリクスで既存のメソッドを50%以上上回っています。 今後の研究を加速するために,セマンティックレベルとインスタンスレベルの両方を含むマップ学習性能を評価するためのカスタムメトリクスを開発した。 この方法とメトリクスを導入することで,この新たなマップ学習問題の研究をコミュニティに依頼する。 今後の開発を促進するため、コードと評価キットをリリースします。

High-definition map (HD map) construction is a crucial problem for autonomous driving. This problem typically involves collecting high-quality point clouds, fusing multiple point clouds of the same scene, annotating map elements, and updating maps constantly. This pipeline, however, requires a vast amount of human efforts and resources which limits its scalability. Additionally, traditional HD maps are coupled with centimeter-level accurate localization which is unreliable in many scenarios. In this paper, we argue that online map learning, which dynamically constructs the HD maps based on local sensor observations, is a more scalable way to provide semantic and geometry priors to self-driving vehicles than traditional pre-annotated HD maps. Meanwhile, we introduce an online map learning method, titled HDMapNet. It encodes image features from surrounding cameras and/or point clouds from LiDAR, and predicts vectorized map elements in the bird's-eye view. We benchmark HDMapNet on the nuScenes dataset and show that in all settings, it performs better than baseline methods. Of note, our fusion-based HDMapNet outperforms existing methods by more than 50% in all metrics. To accelerate future research, we develop customized metrics to evaluate map learning performance, including both semantic-level and instance-level ones. By introducing this method and metrics, we invite the community to study this novel map learning problem. We will release our code and evaluation kit to facilitate future development.
翻訳日:2021-07-16 05:18:51 公開日:2021-07-13
# (参考訳) 逆文脈帯域:時間とともに行動がどのように変化するかを学ぶ [全文訳有]

Inverse Contextual Bandits: Learning How Behavior Evolves over Time ( http://arxiv.org/abs/2107.06317v1 )

ライセンス: CC BY 4.0
Alihan H\"uy\"uk, Daniel Jarrett, Mihaela van der Schaar(参考訳) 行動を観察してエージェントの優先順位を理解することは、医療などの意思決定プロセスにおいて透明性と説明責任に不可欠である。 政策学習の従来のアプローチは、行動の定常性をほぼ常に想定するが、実際にはそうではない。医療プラクティスは絶えず進化しており、臨床専門家は優先順位を常に微調整している。 我々は(1)意思決定の解釈可能な表現、(2)行動の非定常性の説明、(3)オフラインの操作を提供する政策学習へのアプローチを望んでいる。 まず,学習エージェントの動作を文脈的バンディットの観点からモデル化し,逆文脈的バンディット問題(icb)を定式化する。 第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。 最後に,肝移植における実データと模擬データを用いて,本手法の適用性と説明可能性,精度の検証を行った。

Understanding an agent's priorities by observing their behavior is critical for transparency and accountability in decision processes, such as in healthcare. While conventional approaches to policy learning almost invariably assume stationarity in behavior, this is hardly true in practice: Medical practice is constantly evolving, and clinical professionals are constantly fine-tuning their priorities. We desire an approach to policy learning that provides (1) interpretable representations of decision-making, accounts for (2) non-stationarity in behavior, as well as operating in an (3) offline manner. First, we model the behavior of learning agents in terms of contextual bandits, and formalize the problem of inverse contextual bandits (ICB). Second, we propose two algorithms to tackle ICB, each making varying degrees of assumptions regarding the agent's learning strategy. Finally, through both real and simulated data for liver transplantations, we illustrate the applicability and explainability of our method, as well as validating its accuracy.
翻訳日:2021-07-16 05:05:28 公開日:2021-07-13
# (参考訳) Graphhopper: ビジュアル質問応答のためのマルチホップシーングラフ推論 [全文訳有]

Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering ( http://arxiv.org/abs/2107.06325v1 )

ライセンス: CC BY 4.0
Rajat Koner, Hang Li, Marcel Hildebrandt, Deepan Das, Volker Tresp, Stephan G\"unnemann(参考訳) VQA(Visual Question Answering)とは、画像に関する自由形式の質問に答えることである。 疑問に対する深い意味的・言語的な理解と、画像に存在する様々なオブジェクトと関連付ける能力を必要とするため、これは野心的な作業であり、コンピュータビジョンと自然言語処理の両方からマルチモーダルな推論を必要とする。 本稿では,知識グラフ推論,コンピュータビジョン,自然言語処理技術を統合した新しい手法であるGraphhopperを提案する。 具体的には,シーンエンティティとその意味的・空間的関係に基づいて,コンテキスト駆動のシーケンシャルな推論を行う。 最初のステップとして、画像内のオブジェクトとその属性とその相互関係を記述するシーングラフを導出する。 その後、強化学習エージェントを訓練し、抽出されたシーングラフをマルチホップで自律的にナビゲートし、回答を導出する基礎となる推論パスを生成する。 我々は,手動でキュレートされたシーングラフと自動生成されたシーングラフの両方に基づいて,挑戦的なデータセットGQAについて実験を行った。 この結果から,手作業によるシーングラフの人為的パフォーマンスに追随することを示す。 さらに,グラフホッパーは,手作業で収集したシーングラフと自動生成したシーングラフの両方に対して,最先端のシーングラフ推論モデルよりも大幅に優れていることがわかった。

Visual Question Answering (VQA) is concerned with answering free-form questions about an image. Since it requires a deep semantic and linguistic understanding of the question and the ability to associate it with various objects that are present in the image, it is an ambitious task and requires multi-modal reasoning from both computer vision and natural language processing. We propose Graphhopper, a novel method that approaches the task by integrating knowledge graph reasoning, computer vision, and natural language processing techniques. Concretely, our method is based on performing context-driven, sequential reasoning based on the scene entities and their semantic and spatial relationships. As a first step, we derive a scene graph that describes the objects in the image, as well as their attributes and their mutual relationships. Subsequently, a reinforcement learning agent is trained to autonomously navigate in a multi-hop manner over the extracted scene graph to generate reasoning paths, which are the basis for deriving answers. We conduct an experimental study on the challenging dataset GQA, based on both manually curated and automatically generated scene graphs. Our results show that we keep up with a human performance on manually curated scene graphs. Moreover, we find that Graphhopper outperforms another state-of-the-art scene graph reasoning model on both manually curated and automatically generated scene graphs by a significant margin.
翻訳日:2021-07-16 04:43:56 公開日:2021-07-13
# (参考訳) 対向環境生成による分布的ロバストな政策学習 [全文訳有]

Distributionally Robust Policy Learning via Adversarial Environment Generation ( http://arxiv.org/abs/2107.06353v1 )

ライセンス: CC BY 4.0
Allen Z. Ren, Anirudha Majumdar(参考訳) 我々の目標は、目に見えない環境にうまく一般化する制御ポリシーを訓練することです。 DRAGEN(Distributedal ly Robust Optimization:分散ロバスト最適化)フレームワークにインスパイアされ、敵環境を生成することにより、現実的な分散シフトに対するポリシーの堅牢性を反復的に改善する。 鍵となるアイデアは、潜在変数がコスト予測的かつ現実的な環境変動をキャプチャする環境生成モデルを学ぶことである。 我々は、潜伏空間上の勾配上昇によって現実的な対向環境を生成することにより、ワッサースタイン球の環境の実証分布に関するDROを行う。 我々は, (i) 振り子をオンボードビジョンで揺らし, (ii) 現実的な2d/3dオブジェクトをつかむシミュレーションにおいて, 強いアウト・オブ・ディストリビューション(ood)一般化を示す。 ハードウェア上でのグラッピング実験は、ドメインランダム化よりも優れたsim2realパフォーマンスを示す。

Our goal is to train control policies that generalize well to unseen environments. Inspired by the Distributionally Robust Optimization (DRO) framework, we propose DRAGEN - Distributionally Robust policy learning via Adversarial Generation of ENvironments - for iteratively improving robustness of policies to realistic distribution shifts by generating adversarial environments. The key idea is to learn a generative model for environments whose latent variables capture cost-predictive and realistic variations in environments. We perform DRO with respect to a Wasserstein ball around the empirical distribution of environments by generating realistic adversarial environments via gradient ascent on the latent space. We demonstrate strong Out-of-Distribution (OoD) generalization in simulation for (i) swinging up a pendulum with onboard vision and (ii) grasping realistic 2D/3D objects. Grasping experiments on hardware demonstrate better sim2real performance compared to domain randomization.
翻訳日:2021-07-16 04:26:07 公開日:2021-07-13
# (参考訳) 幾何と一般化:ネットワークの一般化に失敗する予測子としての固有値 [全文訳有]

Geometry and Generalization: Eigenvalues as predictors of where a network will fail to generalize ( http://arxiv.org/abs/2107.06386v1 )

ライセンス: CC BY 4.0
Susama Agarwala, Benjamin Dees, Andrew Gearhart, Corey Lowman(参考訳) トレーニングされた重み行列のヤコビアンを介して、訓練されたオートエンコーダによって入力空間の変形を研究する。 そのような場合、固有ベクトルの直交性に関する仮定の下で、入力空間の点に対する平均二乗誤差の有界性を証明する。 また,ヤコビ行列の固有値のトレースと積はテスト点におけるmseのよい予測因子であることを示した。 これは、新しい入力を一般化するオートエンコーダの能力をテストする、データセット独立の手段である。 すなわち、ネットワークがトレーニングされたデータセットに関する知識は必要ではなく、トレーニングされたモデルのパラメータのみである。

We study the deformation of the input space by a trained autoencoder via the Jacobians of the trained weight matrices. In doing so, we prove bounds for the mean squared errors for points in the input space, under assumptions regarding the orthogonality of the eigenvectors. We also show that the trace and the product of the eigenvalues of the Jacobian matrices is a good predictor of the MSE on test points. This is a dataset independent means of testing an autoencoder's ability to generalize on new input. Namely, no knowledge of the dataset on which the network was trained is needed, only the parameters of the trained model.
翻訳日:2021-07-16 04:04:25 公開日:2021-07-13
# (参考訳) スパースリワード課題に対する最短パス制約強化学習 [全文訳有]

Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks ( http://arxiv.org/abs/2107.06405v1 )

ライセンス: CC BY 4.0
Sungryull Sohn, Sungtae Lee, Jongwook Choi, Harm van Seijen, Mehdi Fatemi, Honglak Lee(参考訳) スパースリワードMDPのサンプル効率を向上させるため, エージェントの軌道に対する新しい制約であるk-Shortest-Path(k-SP )制約を提案する。 最適ポリシーは必ずk-SP制約を満たすことを示す。 特に、k-SP制約は、政策が非k-SP軌道に沿った状態-作用対(例えば、前後)を探索することを防ぐ。 しかし実際には、状態-作用対を除くと、RLアルゴリズムの収束を妨げる可能性がある。 そこで本研究では,sp制約に違反する方針をペナライズする新たなコスト関数を提案する。 表式rl設定における数値実験により,sp制約がポリシーの軌道空間を著しく低減できることが証明された。 その結果,冗長な探索と搾取を抑えることで,より効率的なサンプル学習が可能となった。 提案手法は,MiniGrid,DeepMind Lab,Atari,Fetchで行った実験の結果,提案手法はPPOを著しく改善し,連続的な制御タスクにおいてもカウントベース探索を含む既存の新規探索手法よりも優れており,エージェントの冗長な動作を防止し,サンプル効率の向上を図っている。

We propose the k-Shortest-Path (k-SP) constraint: a novel constraint on the agent's trajectory that improves the sample efficiency in sparse-reward MDPs. We show that any optimal policy necessarily satisfies the k-SP constraint. Notably, the k-SP constraint prevents the policy from exploring state-action pairs along the non-k-SP trajectories (e.g., going back and forth). However, in practice, excluding state-action pairs may hinder the convergence of RL algorithms. To overcome this, we propose a novel cost function that penalizes the policy violating SP constraint, instead of completely excluding it. Our numerical experiment in a tabular RL setting demonstrates that the SP constraint can significantly reduce the trajectory space of policy. As a result, our constraint enables more sample efficient learning by suppressing redundant exploration and exploitation. Our experiments on MiniGrid, DeepMind Lab, Atari, and Fetch show that the proposed method significantly improves proximal policy optimization (PPO) and outperforms existing novelty-seeking exploration methods including count-based exploration even in continuous control tasks, indicating that it improves the sample efficiency by preventing the agent from taking redundant actions.
翻訳日:2021-07-16 03:45:22 公開日:2021-07-13
# (参考訳) 不要な入力次元間におけるニューラルネットワークのデータ効率のフォア [全文訳有]

The Foes of Neural Network's Data Efficiency Among Unnecessary Input Dimensions ( http://arxiv.org/abs/2107.06409v1 )

ライセンス: CC BY 4.0
Vanessa D'Amario, Sanjana Srivastava, Tomotake Sasaki, Xavier Boix(参考訳) データセットはしばしば出力ラベルを予測するのに不要な入力次元を含む。 オブジェクト認識のバックグラウンドは、よりトレーニング可能なパラメータにつながります。 ディープニューラルネットワーク(DNN)は、隠れた層におけるパラメータの数を増やすために堅牢であるが、これが入力層に当てはまるかどうかは不明である。 本稿では,不必要な入力次元がDNNの中心的課題,すなわちデータ効率に与える影響について検討する。 特定の一般化性能を達成するのに必要な例の量。 その結果,タスク非関連な不必要な入力次元はデータ効率を著しく低下させることがわかった。 これは、データ効率の向上を可能にするために{task-unrelated}次元を取り除くメカニズムの必要性を強調している。

Datasets often contain input dimensions that are unnecessary to predict the output label, e.g. background in object recognition, which lead to more trainable parameters. Deep Neural Networks (DNNs) are robust to increasing the number of parameters in the hidden layers, but it is unclear whether this holds true for the input layer. In this letter, we investigate the impact of unnecessary input dimensions on a central issue of DNNs: their data efficiency, ie. the amount of examples needed to achieve certain generalization performance. Our results show that unnecessary input dimensions that are task-unrelated substantially degrade data efficiency. This highlights the need for mechanisms that remove {task-unrelated} dimensions to enable data efficiency gains.
翻訳日:2021-07-16 02:57:06 公開日:2021-07-13
# (参考訳) 抽象的議論を伴うケースベース推論における単調性と雑音許容性(付録付き) [全文訳有]

Monotonicity and Noise-Tolerance in Case-Based Reasoning with Abstract Argumentation (with Appendix) ( http://arxiv.org/abs/2107.06413v1 )

ライセンス: CC BY-SA 4.0
Guilherme Paulino-Passos, Francesca Toni(参考訳) 最近、ケースベース推論(略してaa{\text -} cbr$)の抽象的議論に基づくモデルが提案されている。 しかし、推論システムとしての$aa{\text -} cbr$ の形式的性質はほとんど解明されていない。 本稿では,通常の$AA{\text -} CBR$($AA{\text -} CBR_{\succeq}$)の非単調性を解析することに焦点を当てる。 具体的には、$AA{\text -} CBR_{\succeq}$が、文学においてしばしば望まれる性質である慎重な単調性ではないことを証明する。 次に、慎重に単調な$AA{\text -} CBR_{\succeq}$の変種を定義する。 さらに、そのような変動は、元のケースベースにおけるすべての"sprising"および"sufficient"ケースからなる制限されたケースベースを持つ$AA{\text -} CBR_{\succeq}$と等価であることを示す。 副産物として、この$AA{\text -} CBR_{\succeq}$の変動は累積的かつ合理的に単調であり、「一貫性のない」ケースベースにおけるノイズの原則的処理を付与する。 最後に、米国商務長官ドメインの法的ケースベースに関するケーススタディに、$AA{\text -} CBR$と慎重な単調性に関する質問について説明する。

Recently, abstract argumentation-based models of case-based reasoning ($AA{\text -} CBR$ in short) have been proposed, originally inspired by the legal domain, but also applicable as classifiers in different scenarios. However, the formal properties of $AA{\text -} CBR$ as a reasoning system remain largely unexplored. In this paper, we focus on analysing the non-monotonicity properties of a regular version of $AA{\text -} CBR$ (that we call $AA{\text -} CBR_{\succeq}$). Specifically, we prove that $AA{\text -} CBR_{\succeq}$ is not cautiously monotonic, a property frequently considered desirable in the literature. We then define a variation of $AA{\text -} CBR_{\succeq}$ which is cautiously monotonic. Further, we prove that such variation is equivalent to using $AA{\text -} CBR_{\succeq}$ with a restricted casebase consisting of all "surprising" and "sufficient" cases in the original casebase. As a by-product, we prove that this variation of $AA{\text -} CBR_{\succeq}$ is cumulative, rationally monotonic, and empowers a principled treatment of noise in "incoherent" casebases. Finally, we illustrate $AA{\text -} CBR$ and cautious monotonicity questions on a case study on the U.S. Trade Secrets domain, a legal casebase.
翻訳日:2021-07-16 02:38:12 公開日:2021-07-13
# (参考訳) Tourbillon: 物理的に可塑性なニューラルネットワーク [全文訳有]

Tourbillon: a Physically Plausible Neural Architecture ( http://arxiv.org/abs/2107.06424v1 )

ライセンス: CC BY 4.0
Mohammadamin Tavakoli, Pierre Baldi, Peter Sadowski(参考訳) 物理的ニューラルネットワークでは、バックプロパゲーションには、ラベル付きデータの必要性、局所性学習原則の違反、対称接続の必要性、モジュラリティの欠如など、多くの障害がある。 Tourbillonは、これらの制限に対処する新しいアーキテクチャである。 コアは円形のオートエンコーダのスタックと出力層で構成されている。 円形オートエンコーダは、非対称接続を用いてスタック全体を通してエラー情報を伝播するオプションにより、再循環アルゴリズムと教師モードの上位層により自己教師モードで訓練される。 Tourbillonアーキテクチャは、主に物理的な制約に対処することを目的としており、ディープラーニングの現在の工学的応用を改善するものではないが、MNIST、Fashion MNIST、CIFAR10といった標準ベンチマークデータセットでその可能性を示す。 フィードバックアライメントなど,他の物理的に妥当なアルゴリズムでトレーニングされたバックプロパゲーションモデルやパフォーマンスモデルでトレーニングされたモデルに比較して,Turbillonの性能が向上することを示す。

In a physical neural system, backpropagation is faced with a number of obstacles including: the need for labeled data, the violation of the locality learning principle, the need for symmetric connections, and the lack of modularity. Tourbillon is a new architecture that addresses all these limitations. At its core, it consists of a stack of circular autoencoders followed by an output layer. The circular autoencoders are trained in self-supervised mode by recirculation algorithms and the top layer in supervised mode by stochastic gradient descent, with the option of propagating error information through the entire stack using non-symmetric connections. While the Tourbillon architecture is meant primarily to address physical constraints, and not to improve current engineering applications of deep learning, we demonstrate its viability on standard benchmark datasets including MNIST, Fashion MNIST, and CIFAR10. We show that Tourbillon can achieve comparable performance to models trained with backpropagation and outperform models that are trained with other physically plausible algorithms, such as feedback alignment.
翻訳日:2021-07-16 02:01:12 公開日:2021-07-13
# (参考訳) 高次元階層モデルの場合、データセットを横断する代わりに共変量間の効果の交換可能性を考える

For high-dimensional hierarchical models, consider exchangeability of effects across covariates instead of across datasets ( http://arxiv.org/abs/2107.06428v1 )

ライセンス: CC BY 4.0
Brian L. Trippe, Hilary K. Finucane, Tamara Broderick(参考訳) 階層ベイズ法は、複数の関連する回帰問題間で情報共有を可能にする。 標準的手法は,(1)データセット間で交換可能な回帰パラメータ(効果)をモデル化し,(2)共変量間で異なる次数に相関するが,コ変量数がデータセット数を超えると統計性能が低下することを示す。 例えば、統計遺伝学では、何百万もの遺伝的変異(共変量)に対して、何千もの個人(応答)に対して何十もの特性(データセットの定義)を回帰させる可能性がある。 アナリストがデータセットよりも共変量が多い場合、(1)共変量間で交換可能な効果と(2)データセット間で異なる次数に相関する効果をモデル化することがより自然であると論じる。 この目的のために,我々の代替視点を表現する階層モデルを提案する。 データセット間の相関度を学習するための経験的ベイズ推定器を考案する。 本手法は,共変量数がデータセット数を支配する場合の古典的なアプローチよりも優れており,複数の高次元多重回帰問題や分類問題に対して実証的に相関する理論を考案する。

Hierarchical Bayesian methods enable information sharing across multiple related regression problems. While standard practice is to model regression parameters (effects) as (1) exchangeable across datasets and (2) correlated to differing degrees across covariates, we show that this approach exhibits poor statistical performance when the number of covariates exceeds the number of datasets. For instance, in statistical genetics, we might regress dozens of traits (defining datasets) for thousands of individuals (responses) on up to millions of genetic variants (covariates). When an analyst has more covariates than datasets, we argue that it is often more natural to instead model effects as (1) exchangeable across covariates and (2) correlated to differing degrees across datasets. To this end, we propose a hierarchical model expressing our alternative perspective. We devise an empirical Bayes estimator for learning the degree of correlation between datasets. We develop theory that demonstrates that our method outperforms the classic approach when the number of covariates dominates the number of datasets, and corroborate this result empirically on several high-dimensional multiple regression and classification problems.
翻訳日:2021-07-16 01:49:03 公開日:2021-07-13
# CLIPはビジョンとランゲージのタスクにどの程度適しているのか?

How Much Can CLIP Benefit Vision-and-Language Tasks? ( http://arxiv.org/abs/2107.06383v1 )

ライセンス: Link先を確認
Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer(参考訳) 既存のVision-and-Language (V&L) モデルは、視覚世界を知覚するために、手動で注釈付けされた(Webcrawledデータと比較して)比較的小さなデータセットを使用して、事前訓練されたビジュアルエンコーダに依存している。 しかし、大規模な事前訓練は通常、CLIP(Contrastive Language- Image Pre-training)のような、大量の画像キャプチャペアに基づいて訓練された、様々な視覚タスクにおいて強力なゼロショット能力を示すような、より優れた一般化性能をもたらすことが観察されている。 CLIPをタスク固有の微調整にプラグインすること、CLIPとV&L事前学習と下流タスクへの転送の2つの典型的なシナリオにおいて、CLIPを様々なV&Lモデルにおけるビジュアルエンコーダとして使用することを提案する。 CLIPは、BottomUp-TopDownのようなドメイン内のアノテーション付きデータで訓練された広範に使われているビジュアルエンコーダよりも優れていることを示す。 多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。 コードをhttps://github.com/c lip-vil/CLIP-ViLでリリースします。

Most existing Vision-and-Language (V&L) models rely on pre-trained visual encoders, using a relatively small set of manually-annotated data (as compared to web-crawled data), to perceive the visual world. However, it has been observed that large-scale pretraining usually can result in better generalization performance, e.g., CLIP (Contrastive Language-Image Pre-training), trained on a massive amount of image-caption pairs, has shown a strong zero-shot capability on various vision tasks. To further study the advantage brought by CLIP, we propose to use CLIP as the visual encoder in various V&L models in two typical scenarios: 1) plugging CLIP into task-specific fine-tuning; 2) combining CLIP with V&L pre-training and transferring to downstream tasks. We show that CLIP significantly outperforms widely-used visual encoders trained with in-domain annotated data, such as BottomUp-TopDown. We achieve competitive or better results on diverse V&L tasks, while establishing new state-of-the-art results on Visual Question Answering, Visual Entailment, and V&L Navigation tasks. We release our code at https://github.com/c lip-vil/CLIP-ViL.
翻訳日:2021-07-15 14:29:23 公開日:2021-07-13
# TSCAN : SCANを用いた対話構造発見

TSCAN : Dialog Structure discovery using SCAN ( http://arxiv.org/abs/2107.06426v1 )

ライセンス: Link先を確認
Apurba Nath, Aayush Kubba(参考訳) 発話をラベル付きクラスタに分割することでダイアログ構造を発見できる。 これらのラベルはデータから生成できる。 通常、ダイアログにはオントロジーが必要で、構造を発見するのにそれを使うが、教師なしの分類と自己ラベルを用いることで、この構造をラベルやオントロジーなしで直観することができる。 本稿では,SCAN (Semantic Clustering using Nearest Neighbors) をダイアログデータに適用する。 プレテキストタスクにはBERTを使用し、クラスタリングや自己ラベルにはSCANを適用しました。 これらのクラスタは、遷移確率を特定し、ダイアログ構造を作成するために使用される。 SCANで使用される自己ラベル方式は、これらの構造を全てのクラスタがラベルを持つように解釈できる。 アプローチは教師なしであり、評価指標は課題であり、構造品質のプロキシとして統計測度を用いる。

Can we discover dialog structure by dividing utterances into labelled clusters. Can these labels be generated from the data. Typically for dialogs we need an ontology and use that to discover structure, however by using unsupervised classification and self-labelling we are able to intuit this structure without any labels or ontology. In this paper we apply SCAN (Semantic Clustering using Nearest Neighbors) to dialog data. We used BERT for pretext task and an adaptation of SCAN for clustering and self labeling. These clusters are used to identify transition probabilities and create the dialog structure. The self-labelling method used for SCAN makes these structures interpretable as every cluster has a label. As the approach is unsupervised, evaluation metrics is a challenge, we use statistical measures as proxies for structure quality
翻訳日:2021-07-15 14:28:00 公開日:2021-07-13
# プロセスモデルの一般化を定量化するadversarial system variant approximation methodの性能解析について

On the Performance Analysis of the Adversarial System Variant Approximation Method to Quantify Process Model Generalization ( http://arxiv.org/abs/2107.06319v1 )

ライセンス: Link先を確認
Julian Theis, Ilia Mokhtarian, and Houshang Darabi(参考訳) プロセスマイニングアルゴリズムは、イベントログからプロセスモデルを発見する。 結果のプロセスモデルでは、基盤となるシステムのすべてのイベントシーケンスを記述することが求められます。 一般化はプロセスモデルの品質の次元である。 一般化計量は、プロセスモデルがイベントログに含まれる観測されたイベントシーケンスと、システムの観測されていないイベントシーケンスを表す範囲を定量化すべきである。 文献で利用可能なメトリクスのほとんどは、プロセスモデルの一般化を適切に定量化できない。 最近発表されたAdversarial System Variant Approximationと呼ばれる[1]は、Generative Adversarial Networksを利用して、イベントログからシステムの根底にあるイベントシーケンス分布を近似する。 本手法は,プロセスモデルの一般化を計測する既存手法よりも性能が向上することを示したが,その実験的評価は理想的な条件下で行われている。 本稿では,バイアスドや限定イベントログなどの非理想条件下での逆システム変種近似の性能を実験的に検討する。 さらに,本手法で提案するサンプリングハイパーパラメータ値とその性能について,一般化を計測するために実験を行った。 その結果, 逆システム型近似手法の作業条件に対する意識を高める必要性が確認された。 本論文の成果は,今後の研究の方向性にも寄与する。 [1]Theis、Julian、Houshang Darabi。 「プロセスモデル一般化の定量化のための逆系変数近似」 IEEE Access 8 (2020): 194410-194427。

Process mining algorithms discover a process model from an event log. The resulting process model is supposed to describe all possible event sequences of the underlying system. Generalization is a process model quality dimension of interest. A generalization metric should quantify the extent to which a process model represents the observed event sequences contained in the event log and the unobserved event sequences of the system. Most of the available metrics in the literature cannot properly quantify the generalization of a process model. A recently published method [1] called Adversarial System Variant Approximation leverages Generative Adversarial Networks to approximate the underlying event sequence distribution of a system from an event log. While this method demonstrated performance gains over existing methods in measuring the generalization of process models, its experimental evaluations have been performed under ideal conditions. This paper experimentally investigates the performance of Adversarial System Variant Approximation under non-ideal conditions such as biased and limited event logs. Moreover, experiments are performed to investigate the originally proposed sampling hyperparameter value of the method on its performance to measure the generalization. The results confirm the need to raise awareness about the working conditions of the Adversarial System Variant Approximation method. The outcomes of this paper also serve to initiate future research directions. [1] Theis, Julian, and Houshang Darabi. "Adversarial System Variant Approximation to Quantify Process Model Generalization." ; IEEE Access 8 (2020): 194410-194427.
翻訳日:2021-07-15 14:26:45 公開日:2021-07-13
# thinkback: タスク固有の分散検出

Thinkback: Task-SpecificOut-of- Distribution Detection ( http://arxiv.org/abs/2107.06668v1 )

ライセンス: Link先を確認
Lixuan Yang and Dario Rossi(参考訳) ディープラーニング(DL)の成功の増加は、最近、さまざまな業界セグメントにDLモデルを大規模に展開するきっかけとなった。 しかし、教師付きモデルの重大な弱点は、配布外サンプル、すなわち訓練時にモデルに提示されなかったクラスに属するサンプルを扱うのに固有の困難さである。 本稿では,DLモデルに適した分布外検出問題を定式化するための新しい手法を提案する。 本手法では,トレーニングデータに対する微調整処理は必要としないが,分散検出のための最先端技術よりも精度が高い。

The increased success of Deep Learning (DL) has recently sparked large-scale deployment of DL models in many diverse industry segments. Yet, a crucial weakness of supervised model is the inherent difficulty in handling out-of-distribution samples, i.e., samples belonging to classes that were not presented to the model at training time. We propose in this paper a novel way to formulate the out-of-distribution detection problem, tailored for DL models. Our method does not require fine tuning process on training data, yet is significantly more accurate than the state of the art for out-of-distribution detection.
翻訳日:2021-07-15 14:26:16 公開日:2021-07-13
# 深層ニューラルネットワークは驚くほど可逆的:ゼロショットインバージョンのためのベースライン

Deep Neural Networks are Surprisingly Reversible: A Baseline for Zero-Shot Inversion ( http://arxiv.org/abs/2107.06304v1 )

ライセンス: Link先を確認
Xin Dong, Hongxu Yin, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov(参考訳) 事前訓練されたディープニューラルネットワーク(DNN)の動作と脆弱性を理解することは、それらを改善するのに役立つ。 分析はネットワークの流れを逆転して内部表現から入力を生成することで行うことができる。 既存の作業の多くは、モデルを逆転させるための事前やデータ集約的な最適化に依存していますが、深いアーキテクチャや複雑なデータセットへのスケールアップには苦労しています。 本稿では,内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデルインバージョンフレームワークを提案する。 本手法の要点は、合成データの助けを借りて、逆層をサイクル整合性誘導により再同期しながら、DNNを分割整合的に反転させることである。 その結果、元のタスクの実際のデータを見ることなく、単一のフォワードパスで反転できる単一のフィードフォワードモデルが得られる。 提案手法では,深層アーキテクチャや複雑なデータセットへのゼロショット直接反転をスケールする。 imagenet上の現代的な分類モデルは、驚くべきことに反転可能であり、20層以上後の表現から元の224x224px画像を近似的に復元できることを実証的に示す。 さらに、GANsにおけるジェネレータのインバージョンは、与えられた合成顔画像の潜時符号を128x128pxで公開する。

Understanding the behavior and vulnerability of pre-trained deep neural networks (DNNs) can help to improve them. Analysis can be performed via reversing the network's flow to generate inputs from internal representations. Most existing work relies on priors or data-intensive optimization to invert a model, yet struggles to scale to deep architectures and complex datasets. This paper presents a zero-shot direct model inversion framework that recovers the input to the trained model given only the internal representation. The crux of our method is to inverse the DNN in a divide-and-conquer manner while re-syncing the inverted layers via cycle-consistency guidance with the help of synthesized data. As a result, we obtain a single feed-forward model capable of inversion with a single forward pass without seeing any real data of the original task. With the proposed approach, we scale zero-shot direct inversion to deep architectures and complex datasets. We empirically show that modern classification models on ImageNet can, surprisingly, be inverted, allowing an approximate recovery of the original 224x224px images from a representation after more than 20 layers. Moreover, inversion of generators in GANs unveils latent code of a given synthesized face image at 128x128px, which can even, in turn, improve defective synthesized images from GANs.
翻訳日:2021-07-15 14:25:52 公開日:2021-07-13
# BRIMA:low-overhead BRowserのみのIMage Annotationツール(プレプリント)

BRIMA: low-overhead BRowser-only IMage Annotation tool (Preprint) ( http://arxiv.org/abs/2107.06351v1 )

ライセンス: Link先を確認
Tuomo Lahtinen, Hannu Turtiainen, Andrei Costin(参考訳) 画像アノテーションと大規模な注釈付きデータセットは,コンピュータビジョンと人工知能分野において重要な部分であると同時に,画像アノテーションプロセスが困難で時間を要する,スケールアップが難しい,という研究コミュニティから広く認知されている。 そのため、研究者や実践者は、より簡単に、より速く、より高品質でアノテーションを実行する方法を模索しています。 広く使われているツールがいくつか存在し、ツールのランドスケープは大幅に進化したものの、ほとんどのツールは複雑な技術的なセットアップと、オペレーターやクラウドソースのコントリビューターによる高いレベルの技術革新を必要としている。 このような課題に対処するため、BRIMA - BRowserのみのIMage Annotationをかなり少ないオーバーヘッドで実現可能な、柔軟でオープンソースのブラウザ拡張を開発する。 一度ブラウザに追加すると、ユーザーはクライアント側でインストールや設定をすることなく、簡単に、かつ効率的にブラウザから直接画像に注釈を付けることができる。 クロスブラウザとクロスプラットフォームの機能も備えており、コンピュータビジョン、人工知能、プライバシー関連の分野の研究者にとって最適なツールだ。

Image annotation and large annotated datasets are crucial parts within the Computer Vision and Artificial Intelligence fields.At the same time, it is well-known and acknowledged by the research community that the image annotation process is challenging, time-consuming and hard to scale. Therefore, the researchers and practitioners are always seeking ways to perform the annotations easier, faster, and at higher quality. Even though several widely used tools exist and the tools' landscape evolved considerably, most of the tools still require intricate technical setups and high levels of technical savviness from its operators and crowdsource contributors. In order to address such challenges, we develop and present BRIMA -- a flexible and open-source browser extension that allows BRowser-only IMage Annotation at considerably lower overheads. Once added to the browser, it instantly allows the user to annotate images easily and efficiently directly from the browser without any installation or setup on the client-side. It also features cross-browser and cross-platform functionality thus presenting itself as a neat tool for researchers within the Computer Vision, Artificial Intelligence, and privacy-related fields.
翻訳日:2021-07-15 14:25:29 公開日:2021-07-13
# ディープラーニングを用いたリアルタイムポトホール検出

Real-Time Pothole Detection Using Deep Learning ( http://arxiv.org/abs/2107.06356v1 )

ライセンス: Link先を確認
Anas Al Shaghouri, Rami Alkhatib, Samir Berjaoui(参考訳) 道路は異なる場所を繋いでおり、毎日使われている。 道路の定期的な整備は安全と機能を維持する。 責任ある部門にポットホールの存在を検出して報告することは、それらを取り除くのに役立ちます。 本研究は,ポットホールを検出するために,異なるディープラーニングアーキテクチャをデプロイし,テストした。 トレーニング用の画像は、車のフロントガラスに取り付けられた携帯電話で収集され、インターネットからダウンロードされた多くの画像に加えて、データベースのサイズと変動性も向上した。 第2に,sdd-tensorflow,yolo v3darknet53,yolov4da rknet53など,さまざまなオブジェクト検出アルゴリズムを採用し,リアルタイムにポットホールを検出する。 yolov4は81%のリコール、85%の精度、85.39%の平均平均精度(map)で最高の性能を達成した。 処理速度は毎秒20フレームであった。 システムはカメラから100メートル離れた範囲からポットホールを検出することができた。 このシステムはドライバーの安全性を高め、前方のポットホール時間を検出することで自動運転車の性能を向上させることができる。

Roads are connecting line between different places, and used daily. Roads' periodic maintenance keeps them safe and functional. Detecting and reporting the existence of potholes to responsible departments can help in eliminating them. This study deployed and tested on different deep learning architecture to detect potholes. The images used for training were collected by cellphone mounted on the windshield of the car, in addition to many images downloaded from the internet to increase the size and variability of the database. Second, various object detection algorithms are employed and compared to detect potholes in real-time like SDD-TensorFlow, YOLOv3Darknet53 and YOLOv4Darknet53. YOLOv4 achieved the best performance with 81% recall, 85% precision and 85.39% mean Average Precision (mAP). The speed of processing was 20 frame per second. The system was able to detect potholes from a range on 100 meters away from the camera. The system can increase the safety of drivers and improve the performance of self-driving cars by detecting pothole time ahead.
翻訳日:2021-07-15 14:25:11 公開日:2021-07-13
# AI論文について、機能の記述は何か?

What do writing features tell us about AI papers? ( http://arxiv.org/abs/2107.06310v1 )

ライセンス: Link先を確認
Zining Zhu, Bai Li, Yang Xu, Frank Rudzicz(参考訳) 会議への提出数が急速に増加するにつれて,学術論文の品質を自動的に,説得力強く,高精度に評価する作業が注目されるようになる。 これらの提案の解釈可能な次元の研究は、スケーラブルなソリューションにつながる可能性がある。 我々は,文章の特徴の集合を抽出し,これらの特徴の引用数予測とAI関連論文の公開における有用性を評価するための一連の予測タスクを構築する。 会場によっては、f1スコアが最大60-90、時にはコンテンツベースのtf-idf機能やrobertaよりも優れる場合もあります。 内容よりも文章のスタイルを記述した特徴が示される。 結果をさらに理解するために,最も示唆的な特徴の因果的影響を推定する。 本研究は,学術論文の執筆を大規模に評価し,精査するための視点を提供する。

As the numbers of submissions to conferences grow quickly, the task of assessing the quality of academic papers automatically, convincingly, and with high accuracy attracts increasing attention. We argue that studying interpretable dimensions of these submissions could lead to scalable solutions. We extract a collection of writing features, and construct a suite of prediction tasks to assess the usefulness of these features in predicting citation counts and the publication of AI-related papers. Depending on the venues, the writing features can predict the conference vs. workshop appearance with F1 scores up to 60-90, sometimes even outperforming the content-based tf-idf features and RoBERTa. We show that the features describe writing style more than content. To further understand the results, we estimate the causal impact of the most indicative features. Our analysis on writing features provides a perspective to assessing and refining the writing of academic articles at scale.
翻訳日:2021-07-15 14:22:03 公開日:2021-07-13
# 線形鎖条件ランダム場を用いた2ストリームニューラルネットワークを用いた胚の発達段階分類

Developmental Stage Classification of EmbryosUsing Two-Stream Neural Network with Linear-Chain Conditional Random Field ( http://arxiv.org/abs/2107.06360v1 )

ライセンス: Link先を確認
Stanislav Lukyanenko, Won-Dong Jang, Donglai Wei, Robbert Struyven, Yoon Kim, Brian Leahy, Helen Yang, Alexander Rush, Dalit Ben-Yosef, Daniel Needleman and Hanspeter Pfister(参考訳) 胚の発生過程は単調な順序に従う。 胚は徐々に1つの細胞から複数の細胞に切断され、最終的にモルラや胚盤胞へと変化する。 胚のタイムラプスビデオでは、既存の発達段階分類法は、各ステップで画像フレームを使用してフレームごとの予測を行う。 しかし、画像のみを用いた分類は、細胞間の重複とステージ間の不均衡に苦しむ。 時間的情報は、隣接するフレーム間の動きをキャプチャすることで、この問題に対処するのに有用である。 本研究では,発達段階分類のための二流モデルを提案する。 従来の手法とは異なり、2ストリームモデルは時間情報と画像情報の両方を受け入れる。 我々は,時間的および画像的ストリームから抽出したニューラルネットワーク機能の上に線形鎖条件付きランダムフィールド(CRF)を構築し,両方のモードを利用する。 線形鎖 CRF の定式化により、グローバルシーケンシャルモデルを複数のフレームで学習可能とし、学習プロセスに単調な開発順序制約を明示的に注入することができる。 このアルゴリズムを2つのタイムラプス胚ビデオデータセット(i)マウスとii)ヒト胚データセットで実証した。 マウスおよびヒト胚ステージの分類において98.1 %, 80.6 %をそれぞれ達成した。 本手法は,より深い臨床・生物学的研究を可能にし,時間的情報を活用した発達段階分類の新たな方向性を示唆する。

The developmental process of embryos follows a monotonic order. An embryo can progressively cleave from one cell to multiple cells and finally transform to morula and blastocyst. For time-lapse videos of embryos, most existing developmental stage classification methods conduct per-frame predictions using an image frame at each time step. However, classification using only images suffers from overlapping between cells and imbalance between stages. Temporal information can be valuable in addressing this problem by capturing movements between neighboring frames. In this work, we propose a two-stream model for developmental stage classification. Unlike previous methods, our two-stream model accepts both temporal and image information. We develop a linear-chain conditional random field (CRF) on top of neural network features extracted from the temporal and image streams to make use of both modalities. The linear-chain CRF formulation enables tractable training of global sequential models over multiple frames while also making it possible to inject monotonic development order constraints into the learning process explicitly. We demonstrate our algorithm on two time-lapse embryo video datasets: i) mouse and ii) human embryo datasets. Our method achieves 98.1 % and 80.6 % for mouse and human embryo stage classification, respectively. Our approach will enable more profound clinical and biological studies and suggests a new direction for developmental stage classification by utilizing temporal information.
翻訳日:2021-07-15 14:20:22 公開日:2021-07-13
# Surgeon Assist-Net:手術指導のためのコンテキスト対応ヘッドマウントディスプレイベース拡張現実を目指して

SurgeonAssist-Net: Towards Context-Aware Head-Mounted Display-Based Augmented Reality for Surgical Guidance ( http://arxiv.org/abs/2107.06397v1 )

ライセンス: Link先を確認
Mitchell Doughty, Karan Singh, and Nilesh R. Ghugre(参考訳) 本稿では,市販の光学式シースルーヘッドマウントディスプレイ (ost-hmd) に対して,予め定義された手術タスクのセットに対して,アクション・アンド・ワークフロー駆動の仮想支援を実現する軽量フレームワークである surgeonassist-net を提案する。 腹腔鏡下手術ワークフロー用ベンチマークデータセットでは,自動タスク認識のための予測精度において最先端のアプローチと競合するが,パラメータの7.4倍,毎秒10.2倍の浮動小数点演算(FLOPS)が必要であり,CPU上での推論では7.0倍高速で,Microsoft HoloLens 2 OST-HMD上でほぼリアルタイムのパフォーマンスを実現している。 これを実現するために、画像データから識別的特徴を抽出するために効率的な畳み込みニューラルネットワーク(CNN)と、長期的な時間的依存関係を学習するために低パラメータリカレントニューラルネットワーク(RNN)アーキテクチャを利用する。 hololens 2での推論アプローチの実現可能性を示すために、ユーザー中心の視点から記録されたいくつかの手術タスクのビデオを含むサンプルデータセットを作成しました。 訓練後,本モデルを適用し,その性能をオンラインシミュレーションによる手術シナリオに分類し,現在の手術課題の予測を行った。 本手法はいくつかの臨床応用事例の議論において有用性を検討した。 私たちのコードはhttps://github.com/d oughtmw/surgeon-assi st-netで公開しています。

We present SurgeonAssist-Net: a lightweight framework making action-and-workflow- driven virtual assistance, for a set of predefined surgical tasks, accessible to commercially available optical see-through head-mounted displays (OST-HMDs). On a widely used benchmark dataset for laparoscopic surgical workflow, our implementation competes with state-of-the-art approaches in prediction accuracy for automated task recognition, and yet requires 7.4x fewer parameters, 10.2x fewer floating point operations per second (FLOPS), is 7.0x faster for inference on a CPU, and is capable of near real-time performance on the Microsoft HoloLens 2 OST-HMD. To achieve this, we make use of an efficient convolutional neural network (CNN) backbone to extract discriminative features from image data, and a low-parameter recurrent neural network (RNN) architecture to learn long-term temporal dependencies. To demonstrate the feasibility of our approach for inference on the HoloLens 2 we created a sample dataset that included video of several surgical tasks recorded from a user-centric point-of-view. After training, we deployed our model and cataloged its performance in an online simulated surgical scenario for the prediction of the current surgical task. The utility of our approach is explored in the discussion of several relevant clinical use-cases. Our code is publicly available at https://github.com/d oughtmw/surgeon-assi st-net.
翻訳日:2021-07-15 14:20:04 公開日:2021-07-13
# bertエンコーディングを用いたsmsスパム検出におけるmad-lib攻撃

Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection ( http://arxiv.org/abs/2107.06400v1 )

ライセンス: Link先を確認
Sergio Rojas-Galeano(参考訳) スパムフィルターを欺くために使われる戦略の一つは、検出アルゴリズムによってメッセージが無視されるような同義語または類似の単語で挑発性を置き換えることである。 本稿では,Google の BERT のような単語の意味や文脈に敏感な言語モデルの最近の開発が,この敵対的攻撃を克服するのに有用かどうかを考察する(置換ゲームでは "Mad-lib" と呼ぶ)。 5572のsmsスパムメッセージのデータセットを用いて,広く知られている文書表現モデル(bow,tfidf)と新しいbertモデル(decision tree, knn, svm, logistic regression, naive bayes, multilayer perceptron)を用いた検出性能のベースラインを確立した。 そして、これらのメッセージに含まれる語彙のシソーラスを構築し、(ベースライン実験では使われない)保持されたデータのサブセットのそれぞれのメッセージをシソーラスとシソーラスのシノニムの異なる元の単語の置換率で修正する、マッドリブ攻撃実験(mad-lib attack experiment)を設定した。 最後に, 3つの表現モデル (BoW, TFIDF, BERT) と, ベースライン実験 (SVM) の最適分類器の組み合わせによる検出性能を評価した。 その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したが、BERTモデルは96%を得た。 一方、Mad-lib攻撃実験では、BERTエンコーディングは、メッセージごとの平均置換率1.82ワード、メッセージごとの置換率3.34ワードの95%で、同様のBA性能を96%維持することを示した。 対照的に、バウとtfidfエンコーダのba性能は、偶然に低下した。 これらの結果は、言語における意味的関係の不適切な使用に対して、BERTモデルがこのような創発的な攻撃に対処する可能性を示している。

One of the stratagems used to deceive spam filters is to substitute vocables with synonyms or similar words that turn the message unrecognisable by the detection algorithms. In this paper we investigate whether the recent development of language models sensitive to the semantics and context of words, such as Google's BERT, may be useful to overcome this adversarial attack (called "Mad-lib" as per the word substitution game). Using a dataset of 5572 SMS spam messages, we first established a baseline of detection performance using widely known document representation models (BoW and TFIDF) and the novel BERT model, coupled with a variety of classification algorithms (Decision Tree, kNN, SVM, Logistic Regression, Naive Bayes, Multilayer Perceptron). Then, we built a thesaurus of the vocabulary contained in these messages, and set up a Mad-lib attack experiment in which we modified each message of a held out subset of data (not used in the baseline experiment) with different rates of substitution of original words with synonyms from the thesaurus. Lastly, we evaluated the detection performance of the three representation models (BoW, TFIDF and BERT) coupled with the best classifier from the baseline experiment (SVM). We found that the classic models achieved a 94% Balanced Accuracy (BA) in the original dataset, whereas the BERT model obtained 96%. On the other hand, the Mad-lib attack experiment showed that BERT encodings manage to maintain a similar BA performance of 96% with an average substitution rate of 1.82 words per message, and 95% with 3.34 words substituted per message. In contrast, the BA performance of the BoW and TFIDF encoders dropped to chance. These results hint at the potential advantage of BERT models to combat these type of ingenious attacks, offsetting to some extent for the inappropriate use of semantic relationships in language.
翻訳日:2021-07-15 14:17:10 公開日:2021-07-13
# 学習性能の学習可能性とデータ評価への応用

Learnability of Learning Performance and Its Application to Data Valuation ( http://arxiv.org/abs/2107.06336v1 )

ライセンス: Link先を確認
Tianhao Wang, Yu Yang, Ruoxi Jia(参考訳) ほとんどの機械学習(ml)タスクでは、与えられたデータセットでの学習性能を評価するには集中的な計算が必要です。 一方、学習性能を効率的に推定する能力は、アクティブラーニング、データ品質管理、データバリュエーションといった幅広いアプリケーションに恩恵をもたらす可能性がある。 最近の実証研究では、多くの一般的なMLモデルに対して、少量のサンプルを用いて任意の入力データセットの学習性能を予測するパラメトリックモデルを正確に学習できることが示されている。 しかし、そのような性能予測モデルの学習可能性の理論的基礎はいまだに欠けている。 本研究では,MLの性能学習問題の理論的解析を初めて行う。 本稿では,入力データセットの関数として学習性能の挙動をうまく記述できる部分モジュラリティの緩和概念を提案する。 一定の仮定の下で定数近似を実現する学習アルゴリズムを与える。 さらに,新たに導出した構造結果に基づいて任意に小さな誤差を発生させる学習アルゴリズムを与える。 次に、多くのデータの組み合わせで学習性能を推定する必要性から計算上の課題に苦しむデータバリュエーションを学習パフォーマンス学習の自然な、重要なユースケースについて論じる。 性能学習はデータのバリュエーションの精度を大幅に向上できることを示す。

For most machine learning (ML) tasks, evaluating learning performance on a given dataset requires intensive computation. On the other hand, the ability to efficiently estimate learning performance may benefit a wide spectrum of applications, such as active learning, data quality management, and data valuation. Recent empirical studies show that for many common ML models, one can accurately learn a parametric model that predicts learning performance for any given input datasets using a small amount of samples. However, the theoretical underpinning of the learnability of such performance prediction models is still missing. In this work, we develop the first theoretical analysis of the ML performance learning problem. We propose a relaxed notion for submodularity that can well describe the behavior of learning performance as a function of input datasets. We give a learning algorithm that achieves a constant-factor approximation under certain assumptions. Further, we give a learning algorithm that achieves arbitrarily small error based on a newly derived structural result. We then discuss a natural, important use case of learning performance learning -- data valuation, which is known to suffer computational challenges due to the requirement of estimating learning performance for many data combinations. We show that performance learning can significantly improve the accuracy of data valuation.
翻訳日:2021-07-15 14:16:20 公開日:2021-07-13
# NFA学習のためのSATモデルの改良

Improved SAT models for NFA learning ( http://arxiv.org/abs/2107.06672v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Lardeux (LERIA), Eric Monfroy (LERIA)(参考訳) 文法推論は、単語からオートマトンや文法を学ぶアルゴリズムの研究に関係している。 単語のサンプルからサイズkの非決定論的有限オートマトンを学習することに集中する。 この目的のために、問題をSATモデルとして定式化する。 生成されるSATインスタンスは巨大であり,変数数,節数,節サイズといったモデルの改良も提案する。 これらの改善によりインスタンスは大幅に削減されるが、ジェネレーション時間が長くなる。 したがって、インスタンスサイズと生成時間と解決時間のバランスをとろうとします。 また、実験的な比較を行い、様々なモデルの改善について分析した。

Grammatical inference is concerned with the study of algorithms for learning automata and grammars from words. We focus on learning Nondeterministic Finite Automaton of size k from samples of words. To this end, we formulate the problem as a SAT model. The generated SAT instances being enormous, we propose some model improvements, both in terms of the number of variables, the number of clauses, and clauses size. These improvements significantly reduce the instances, but at the cost of longer generation time. We thus try to balance instance size vs. generation and solving time. We also achieved some experimental comparisons and we analyzed our various model improvements.
翻訳日:2021-07-15 14:14:25 公開日:2021-07-13
# 情報融合のためのD-S理論の連結分解と解離分解の効率的な正確な計算:翻訳と拡張

Efficient exact computation of the conjunctive and disjunctive decompositions of D-S Theory for information fusion: Translation and extension ( http://arxiv.org/abs/2107.06329v1 )

ライセンス: Link先を確認
Maxime Chaveroche, Franck Davoine, V\'eronique Cherfaoui(参考訳) dempster-shafer theory (dst) はベイズ確率論を一般化し、有用な追加情報を提供するが、高い計算量に苦しむ。 Dempsterの法則と情報融合に使用される計算の複雑さを軽減するために多くの研究がなされている。 しかし、他の重要な情報融合の方法の核となる証拠の結合的および断続的分解の計算の複雑さを減らすための研究はほとんど行われていない。 本稿では,これらの分解に含まれる実際の証拠(情報)を活用して計算を行う手法を提案する。 これは、焦点集合の概念から派生した焦点と呼ばれる新しい概念に基づいている。 これにより、ある場合において焦点集合の個数において、これらの計算を線形複雑性まで減らすことができる。 より広い視点で見ると、我々の公式は、既存の文体とは対照的に、識別のフレームのサイズが数ダースの可能な状態を超えると、引くことができる可能性がある。 この記事では、2019年のフランス語カンファレンスGRETSIで発表された作業を拡張し、翻訳します。

Dempster-Shafer Theory (DST) generalizes Bayesian probability theory, offering useful additional information, but suffers from a high computational burden. A lot of work has been done to reduce the complexity of computations used in information fusion with Dempster's rule. Yet, few research had been conducted to reduce the complexity of computations for the conjunctive and disjunctive decompositions of evidence, which are at the core of other important methods of information fusion. In this paper, we propose a method designed to exploit the actual evidence (information) contained in these decompositions in order to compute them. It is based on a new notion that we call focal point, derived from the notion of focal set. With it, we are able to reduce these computations up to a linear complexity in the number of focal sets in some cases. In a broader perspective, our formulas have the potential to be tractable when the size of the frame of discernment exceeds a few dozen possible states, contrary to the existing litterature. This article extends (and translates) our work published at the french conference GRETSI in 2019.
翻訳日:2021-07-15 14:10:46 公開日:2021-07-13
# コンテキストゲーム:サイド情報によるマルチエージェント学習

Contextual Games: Multi-Agent Learning with Side Information ( http://arxiv.org/abs/2107.06327v1 )

ライセンス: Link先を確認
Pier Giuseppe Sessa, Ilija Bogunovic, Andreas Krause, Maryam Kamgarpour(参考訳) 各ラウンドでコンテキスト情報によって駆動される繰り返しゲームであるコンテキストゲームの新しいクラスを定式化する。 カーネルに基づく正則性仮定を用いて、異なる文脈とゲーム結果の相関をモデル化し、そのような相関を利用して個々のプレイヤーの文脈的後悔を最小限に抑える新しいオンライン(メタ)アルゴリズムを提案する。 c-cce(contextual correlationd equilibria)のゲーム理論的概念と,この新しいゲーム群における最適文脈福祉の概念を定義し,プレイヤーの文脈的後悔が消えてしまえば,c-ccesと最適福祉がアプローチできることを示す。 最後に,我々のアルゴリズムは,使用可能なコンテキスト情報やゲーム内に存在する相関を利用していないベースラインと比較して,より優れた性能と高い福祉をもたらす,トラフィックルーティング実験の成果を実証的に検証する。

We formulate the novel class of contextual games, a type of repeated games driven by contextual information at each round. By means of kernel-based regularity assumptions, we model the correlation between different contexts and game outcomes and propose a novel online (meta) algorithm that exploits such correlations to minimize the contextual regret of individual players. We define game-theoretic notions of contextual Coarse Correlated Equilibria (c-CCE) and optimal contextual welfare for this new class of games and show that c-CCEs and optimal welfare can be approached whenever players' contextual regrets vanish. Finally, we empirically validate our results in a traffic routing experiment, where our algorithm leads to better performance and higher welfare compared to baselines that do not exploit the available contextual information or the correlations present in the game.
翻訳日:2021-07-15 14:09:46 公開日:2021-07-13
# attaccによるアテンション層の二次ボトルネック

ATTACC the Quadratic Bottleneck of Attention Layers ( http://arxiv.org/abs/2107.06419v1 )

ライセンス: Link先を確認
Sheng-Chun Kao, Suvinay Subramanian, Gaurav Agrawal, Tushar Krishna(参考訳) 注意機構は、さまざまなタスクのための最先端の機械学習モデルのバックボーンを形成する。 しかし、ディープニューラルネットワーク(DNN)アクセラレーターにそれらをデプロイすることは、特に長いシーケンスでは非常に難しい。 注意層内のオペレータは、メモリフットプリントの限られた再利用と二次的な成長を示し、メモリバウンドネスを著しく高める。 本稿では,演算子融合,ループネスト最適化,インターリーブ実行を利用した新しいデータフローであるflatを提案する。 高帯域幅で低容量のオンチップバッファを効率よく利用することにより、効率的なメモリ帯域幅を増大させ、実行時間と計算資源の利用を向上する。 FLAT互換アクセラレータATTACCと呼ぶ。 評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。

Attention mechanisms form the backbone of state-of-the-art machine learning models for a variety of tasks. Deploying them on deep neural network (DNN) accelerators, however, is prohibitively challenging especially under long sequences. Operators in attention layers exhibit limited reuse and quadratic growth in memory footprint, leading to severe memory-boundedness. This paper introduces a new attention-tailored dataflow, termed FLAT, which leverages operator fusion, loop-nest optimizations, and interleaved execution. It increases the effective memory bandwidth by efficiently utilizing the high-bandwidth, low-capacity on-chip buffer and thus achieves better run time and compute resource utilization. We term FLAT-compatible accelerators ATTACC. In our evaluation, ATTACC achieves 1.94x and 1.76x speedup and 49% and 42% of energy reduction comparing to state-of-the-art edge and cloud accelerators.
翻訳日:2021-07-15 14:09:28 公開日:2021-07-13
# (参考訳) 微分プライベート確率最適化:凸設定と非凸設定の新しい結果

Differentially Private Stochastic Optimization: New Results in Convex and Non-Convex Settings ( http://arxiv.org/abs/2107.05585v2 )

ライセンス: CC BY 4.0
Raef Bassily, Crist\'obal Guzm\'an, Michael Menart(参考訳) 凸および非凸設定における離散確率最適化について検討する。 凸の場合、非滑らかな一般化線形損失(GLL)の族に焦点を当てる。 提案手法は,超線形時間での一般凸損失に対する最もよく知られた微分プライベートなアルゴリズムである一方,超線形時間での最適超過集団リスクを実現する。 この$\ell_1$設定のアルゴリズムは、ほぼ最適な過剰人口リスク$\tilde{O}\big(\sqrt {\frac {\log{d}}{n}}\big)$であり、一般の非滑らか凸損失に対して[AFKT21]の次元依存下界を回避する。 差動的にプライベートな非凸設定では、人口リスクの定常点を近似するいくつかの新しいアルゴリズムを提供する。 滑らかな損失と多面体制約を持つ $\ell_1$-case に対して、線形時間で最初のほぼ次元の独立なレート $\tilde o\big(\frac{\log^{2/3}{d}}{{n^{1/3}}}\big)$ を提供する。 制約付き$\ell_2$-case に対し、滑らかな損失を持つ線形時間アルゴリズム $\tilde o\big(\frac{1}{n^{3/10}d^{1/10}}+\big(\frac{d}{n^2}\big)^{1/5}\big)$ を得る。 最後に、$\ell_2$-case に対して、$d= O(\sqrt{n})$ のとき、最も優れた非私的アルゴリズムと一致する速度 $\tilde O\big(\frac{1}{n^{1/4}}+\big(\frac{d}{n^2}\big)^{1/6}\big)$ の確率最適化のための最初の方法を提供する。 また、上記のすべての結果を、非凸の$\ell_2$設定に対して$\ell_p$設定に拡張します。

We study differentially private stochastic optimization in convex and non-convex settings. For the convex case, we focus on the family of non-smooth generalized linear losses (GLLs). Our algorithm for the $\ell_2$ setting achieves optimal excess population risk in near-linear time, while the best known differentially private algorithms for general convex losses run in super-linear time. Our algorithm for the $\ell_1$ setting has nearly-optimal excess population risk $\tilde{O}\big(\sqrt{\frac{\log{d}}{n}}\big)$, and circumvents the dimension dependent lower bound of [AFKT21] for general non-smooth convex losses. In the differentially private non-convex setting, we provide several new algorithms for approximating stationary points of the population risk. For the $\ell_1$-case with smooth losses and polyhedral constraint, we provide the first nearly dimension independent rate, $\tilde O\big(\frac{\log^{2/3}{d}}{{n^{1/3}}}\big)$ in linear time. For the constrained $\ell_2$-case, with smooth losses, we obtain a linear-time algorithm with rate $\tilde O\big(\frac{1}{n^{3/10}d^{1/10}}+\big(\frac{d}{n^2}\big)^{1/5}\big)$. Finally, for the $\ell_2$-case we provide the first method for {\em non-smooth weakly convex} stochastic optimization with rate $\tilde O\big(\frac{1}{n^{1/4}}+\big(\frac{d}{n^2}\big)^{1/6}\big)$ which matches the best existing non-private algorithm when $d= O(\sqrt{n})$. We also extend all our results above for the non-convex $\ell_2$ setting to the $\ell_p$ setting, where $1 < p \leq 2$, with only polylogarithmic (in the dimension) overhead in the rates.
翻訳日:2021-07-15 11:34:25 公開日:2021-07-13
# コンピュータビジョンにおける産業と学術研究

Industry and Academic Research in Computer Vision ( http://arxiv.org/abs/2107.04902v2 )

ライセンス: Link先を確認
Iuliia Kotseruba(参考訳) 本研究は,コンピュータビジョンにおける産学研究と学界のダイナミクスを研究することを目的とする。 結果は、この分野を代表するトップ5ビジョンカンファレンスのセットで実証される。 このような分析データの入手は容易ではなかったため、原版からのメタデータの収集と処理に多大な労力が費やされた。 第一に,本研究は産業支援研究のシェアを定量化する。 具体的には,産業界の研究者が発行する論文の割合が増加しており,より多くの学者が企業に参加したり協力したりしていることを示している。 次に、研究トピックや引用パターンの分布など、業界におけるプレゼンスの影響について検討する。 その結果,研究トピックの分布は産業論文や学術論文に類似していることが示唆された。 しかし、業界論文の引用には強い好みがある。 最後に,コードの可利用性や影響などの引用バイアスの原因について検討した。

This work aims to study the dynamic between research in the industry and academia in computer vision. The results are demonstrated on a set of top-5 vision conferences that are representative of the field. Since data for such analysis was not readily available, significant effort was spent on gathering and processing meta-data from the original publications. First, this study quantifies the share of industry-sponsored research. Specifically, it shows that the proportion of papers published by industry-affiliated researchers is increasing and that more academics join companies or collaborate with them. Next, the possible impact of industry presence is further explored, namely in the distribution of research topics and citation patterns. The results indicate that the distribution of the research topics is similar in industry and academic papers. However, there is a strong preference towards citing industry papers. Finally, possible reasons for citation bias, such as code availability and influence, are investigated.
翻訳日:2021-07-15 11:17:32 公開日:2021-07-13
# (参考訳) Kit-Net: 新しい3Dオブジェクトを新しい3Dキャビティに組み込むための自己指導型学習 [全文訳有]

Kit-Net: Self-Supervised Learning to Kit Novel 3D Objects into Novel 3D Cavities ( http://arxiv.org/abs/2107.05789v1 )

ライセンス: CC BY 4.0
Shivin Devgon and Jeffrey Ichnowski and Michael Danielczuk and Daniel S. Brown and Ashwin Balakrishna and Shirin Joshi and Eduardo M. C. Rocha and Eugen Solowjow and Ken Goldberg(参考訳) 工業用部品キットでは、輸送用またはその後の組み立て用のキャビティに3Dオブジェクトを挿入する。 キッティングは下流の処理と処理時間を短縮し、ストレージと出荷コストを削減できるため、重要なステップである。 対象キャビティとグリッパーが保持する物体の深さ画像が不明な初期方向の深さから3dオブジェクトをキャビティにキットするフレームワークであるkit-netを提案する。 kit-netは、自己教師付きディープラーニングとデータ拡張を使用して、畳み込みニューラルネットワーク(cnn)をトレーニングし、シミュレーションされた深度画像ペアの大規模なトレーニングデータセットを使用して、オブジェクト間の3d回転を堅牢に見積もる。 kit-netはトレーニングされたcnnを使用して、新しいオブジェクトをオリエントおよび位置決めするコントローラを実装し、新しいプリズムおよび共形3dキャビティに挿入する。 シミュレーション実験では、kit-netはオブジェクトを向き付け、オブジェクトメッシュとターゲットキャビティの平均交点体積を98.9%とすることを示唆している。 工業用物体を用いた物理実験は, ベースライン法で18%, Kit-Netで63%の試験で成功した。 ビデオ、コード、データはhttps://github.com/b erkeleyautomation/ki t-netで入手できる。

In industrial part kitting, 3D objects are inserted into cavities for transportation or subsequent assembly. Kitting is a critical step as it can decrease downstream processing and handling times and enable lower storage and shipping costs. We present Kit-Net, a framework for kitting previously unseen 3D objects into cavities given depth images of both the target cavity and an object held by a gripper in an unknown initial orientation. Kit-Net uses self-supervised deep learning and data augmentation to train a convolutional neural network (CNN) to robustly estimate 3D rotations between objects and matching concave or convex cavities using a large training dataset of simulated depth images pairs. Kit-Net then uses the trained CNN to implement a controller to orient and position novel objects for insertion into novel prismatic and conformal 3D cavities. Experiments in simulation suggest that Kit-Net can orient objects to have a 98.9% average intersection volume between the object mesh and that of the target cavity. Physical experiments with industrial objects succeed in 18% of trials using a baseline method and in 63% of trials with Kit-Net. Video, code, and data are available at https://github.com/B erkeleyAutomation/Ki t-Net.
翻訳日:2021-07-15 01:24:17 公開日:2021-07-13
# (参考訳) 深層ニューラルネットワークによる読解時の人間の意識分布の解明

Deep Neural Networks Evolve Human-like Attention Distribution during Reading Comprehension ( http://arxiv.org/abs/2107.05799v1 )

ライセンス: CC BY 4.0
Jiajie Zou and Nai Ding(参考訳) 注意は、生物学的脳と最先端のディープニューラルネットワーク(dnn)の両方において、情報選択の重要なメカニズムである。 そこで本研究では,人間とDNNがテキストの文読解時に,それと同等の方法で注意を割くかどうかを検討する。 読解タスクの実行訓練において,人間レベルの性能に達する3つのトランスフォーマーベースDNNを分析した。 DNNの注意分布は固定時間による人間の注意分布と定量的に類似していることがわかった。 人間の読者は、質問応答タスクにもっと関係のある単語に固執し、刺激の低レベルの視覚とテキストの特徴に加えて、トップダウンの読書目標によって注意が移されることを示している。 さらに、DNNの注意重みはトップダウン読み上げ目標と下位レベルの刺激特徴の両方の影響を受けており、浅い層は下位レベルのテキスト特徴に強く影響され、深い層はタスク関連語により強く依存することが明らかとなった。 さらに,学習済みのDNNモデルを微調整して読解タスクを実行すると,タスク関連語に対する深いレイヤの注意が徐々に高まっていく。 これらの結果は、DNNがタスク最適化によって人間のような注意分布を進化させることができることを示している。

Attention is a key mechanism for information selection in both biological brains and many state-of-the-art deep neural networks (DNNs). Here, we investigate whether humans and DNNs allocate attention in comparable ways when reading a text passage to subsequently answer a specific question. We analyze 3 transformer-based DNNs that reach human-level performance when trained to perform the reading comprehension task. We find that the DNN attention distribution quantitatively resembles human attention distribution measured by fixation times. Human readers fixate longer on words that are more relevant to the question-answering task, demonstrating that attention is modulated by top-down reading goals, on top of lower-level visual and text features of the stimulus. Further analyses reveal that the attention weights in DNNs are also influenced by both top-down reading goals and lower-level stimulus features, with the shallow layers more strongly influenced by lower-level text features and the deep layers attending more to task-relevant words. Additionally, deep layers' attention to task-relevant words gradually emerges when pre-trained DNN models are fine-tuned to perform the reading comprehension task, which coincides with the improvement in task performance. These results demonstrate that DNNs can evolve human-like attention distribution through task optimization, which suggests that human attention during goal-directed reading comprehension is a consequence of task optimization.
翻訳日:2021-07-15 01:07:00 公開日:2021-07-13
# (参考訳) 深層ネットワークの訓練に必要な自由度:損失景観の観点から [全文訳有]

How many degrees of freedom do we need to train deep networks: a loss landscape perspective ( http://arxiv.org/abs/2107.05802v1 )

ライセンス: CC BY 4.0
Brett W. Larsen, Stanislav Fort, Nic Becker, Surya Ganguli(参考訳) プルーニング、抽選券、ランダムな部分空間内のトレーニングなど、最近の様々な研究によって、ディープニューラルネットワークはパラメータの総数よりもはるかに少ない自由度でトレーニングできることが示されている。 まず、与えられた訓練次元のランダムな部分空間内でトレーニングを行う場合、トレーニング損失サブレベルセットをヒットする成功確率を調べることにより、この現象を説明する。 トレーニング次元がしきい値を超えると、成功確率の急激な位相遷移が0ドルから1ドルになる。 このしきい値トレーニング寸法は、所望の最終損失が減少するにつれて増加するが、初期損失が減少するにつれて減少する。 次に, この相転移の起源を理論的に説明し, 損失景観の高次元幾何学の精密な性質の観点から, 初期化と最終所望損失に依存することを説明する。 特に、ゴードンの脱出定理(英語版)を通して、初期化を囲む単位球面に投影される所望の損失部分レベル集合の訓練次元とガウス幅が、成功確率が大きくなるためのパラメータの総数を超えなければならないことを示す。 いくつかのアーキテクチャとデータセットにおいて、しきい値トレーニング次元を初期化の関数として測定し、パラメータの総数のごく一部であることを証明した。 さらに、このしきい値トレーニングディメンションは、宝くじや、より最適な方法である宝くじサブスペースを含む、より洗練された自由度訓練方法の有効性を評価するための強力なヌルモデルを提供する。

A variety of recent works, spanning pruning, lottery tickets, and training within random subspaces, have shown that deep neural networks can be trained using far fewer degrees of freedom than the total number of parameters. We explain this phenomenon by first examining the success probability of hitting a training loss sub-level set when training within a random subspace of a given training dimensionality. We find a sharp phase transition in the success probability from $0$ to $1$ as the training dimension surpasses a threshold. This threshold training dimension increases as the desired final loss decreases, but decreases as the initial loss decreases. We then theoretically explain the origin of this phase transition, and its dependence on initialization and final desired loss, in terms of precise properties of the high dimensional geometry of the loss landscape. In particular, we show via Gordon's escape theorem, that the training dimension plus the Gaussian width of the desired loss sub-level set, projected onto a unit sphere surrounding the initialization, must exceed the total number of parameters for the success probability to be large. In several architectures and datasets, we measure the threshold training dimension as a function of initialization and demonstrate that it is a small fraction of the total number of parameters, thereby implying, by our theory, that successful training with so few dimensions is possible precisely because the Gaussian width of low loss sub-level sets is very large. Moreover, this threshold training dimension provides a strong null model for assessing the efficacy of more sophisticated ways to reduce training degrees of freedom, including lottery tickets as well a more optimal method we introduce: lottery subspaces.
翻訳日:2021-07-15 01:05:53 公開日:2021-07-13
# (参考訳) 部分制御環境における逆RLの階層的ベイズモデル [全文訳有]

A Hierarchical Bayesian model for Inverse RL in Partially-Controlled Environments ( http://arxiv.org/abs/2107.05818v1 )

ライセンス: CC BY 4.0
Kenneth Bogert (University of North Carolina Asheville) and Prashant Doshi (University of Georgia)(参考訳) 逆強化学習(IRL)を用いて現実世界の観測から学習するロボットは、専門家以外の環境の物体やエージェントに遭遇し、デモンストレーション中に迷惑な観察を引き起こすことがある。 これらの結合要素は通常、仮想シミュレーションや実験室の設定など、完全に制御された環境で取り除かれる。 完全な除去が不可能な場合には、ニュアンス観測をフィルタリングしなければならない。 しかし,大量の観測を行う際の観測源の同定は困難である。 これに対処するために,我々は,ロボットが受ける多様な観察を明示的にモデル化するために,エキスパートとコンファウンディング要素の両方を組み込んだ階層ベイズモデルを提案する。 我々は, 従来のirlアルゴリズムを, 専門者の部分的咬合下で動作するように設計し, 多様な観察を考慮できるように拡張する。 咬合要素と結合要素の両方を含むシミュレーションロボットソートドメインでは,モデルの有効性を示す。 特に,本手法は,対象の軌跡について完全な知識を持つために,他の比較手法よりも優れている。

Robots learning from observations in the real world using inverse reinforcement learning (IRL) may encounter objects or agents in the environment, other than the expert, that cause nuisance observations during the demonstration. These confounding elements are typically removed in fully-controlled environments such as virtual simulations or lab settings. When complete removal is impossible the nuisance observations must be filtered out. However, identifying the source of observations when large amounts of observations are made is difficult. To address this, we present a hierarchical Bayesian model that incorporates both the expert's and the confounding elements' observations thereby explicitly modeling the diverse observations a robot may receive. We extend an existing IRL algorithm originally designed to work under partial occlusion of the expert to consider the diverse observations. In a simulated robotic sorting domain containing both occlusion and confounding elements, we demonstrate the model's effectiveness. In particular, our technique outperforms several other comparative methods, second only to having perfect knowledge of the subject's trajectory.
翻訳日:2021-07-15 00:45:48 公開日:2021-07-13
# (参考訳) 弱監視セマンティックパーシングにおける一貫性の強化 [全文訳有]

Enforcing Consistency in Weakly Supervised Semantic Parsing ( http://arxiv.org/abs/2107.05833v1 )

ライセンス: CC BY 4.0
Nitish Gupta, Sameer Singh, Matt Gardner(参考訳) 弱い教師付き意味解析における主な課題は、間違った理由のために正しい答えを評価するスプリアスプログラムである。 先行研究では、精巧な探索戦略を用いて、スプリアスプログラムの頻度を緩和するが、通常は一度に一つの入力しか考慮しない。 本研究では,関連する入力に対する出力プログラム間の整合性を利用して,スプリアスプログラムの影響を低減する。 我々は、プログラム検索(したがってモデルのトレーニング信号)を、関連する入力の同じフレーズをそれぞれのプログラムの同じサブパートにマッピングするプログラムにバイアスする。 さらに,このような保守性に基づくトレーニングを促進する論理形式設計の重要性について検討する。 より一貫性のある形式性は、一貫性に基づくトレーニングがなくても、モデルパフォーマンスを改善することにつながります。 組み合わせると、これらの2つの洞察は、自然言語ビジュアル推論データセットの最高の事前結果に対して10%の絶対的な改善をもたらす。

The predominant challenge in weakly supervised semantic parsing is that of spurious programs that evaluate to correct answers for the wrong reasons. Prior work uses elaborate search strategies to mitigate the prevalence of spurious programs; however, they typically consider only one input at a time. In this work we explore the use of consistency between the output programs for related inputs to reduce the impact of spurious programs. We bias the program search (and thus the model's training signal) towards programs that map the same phrase in related inputs to the same sub-parts in their respective programs. Additionally, we study the importance of designing logical formalisms that facilitate this kind of consAistency-based training. We find that a more consistent formalism leads to improved model performance even without consistency-based training. When combined together, these two insights lead to a 10% absolute improvement over the best prior result on the Natural Language Visual Reasoning dataset.
翻訳日:2021-07-15 00:31:49 公開日:2021-07-13
# (参考訳) nucmmデータセット:3次元ニューロン核インスタンスのサブキュービックミリメートルスケールでのセグメンテーション [全文訳有]

NucMM Dataset: 3D Neuronal Nuclei Instance Segmentation at Sub-Cubic Millimeter Scale ( http://arxiv.org/abs/2107.05840v1 )

ライセンス: CC BY 4.0
Zudi Lin, Donglai Wei, Mariela D. Petkova, Yuelong Wu, Zergham Ahmed, Krishna Swaroop K, Silin Zou, Nils Wendt, Jonathan Boulanger-Weill, Xueying Wang, Nagaraju Dhanyasi, Ignacio Arganda-Carreras, Florian Engert, Jeff Lichtman, Hanspeter Pfister(参考訳) 顕微鏡画像から3d細胞核を分割することは生物学的および臨床的解析に不可欠であり、細胞の発現パターンと細胞系統の研究を可能にする。 しかし、現在の神経核のデータセットには、1ボリュームあたり500インスタンス未満の10^{\text{-}3}\mm^3$未満のボリュームが含まれており、大脳領域の複雑さを明らかにできず、ニューロン構造の調査を制限している。 本稿では,この課題をサブキュービックミリメートルスケールにまで前進させ,nucmmデータセットを2つの完全な注釈付きボリュームでキュレートした。約170,000核のゼブラフィッシュ脳のほぼ全域を含む0.1\mm^3$電子顕微鏡(em)ボリュームと,約7,000核のマウス視覚皮質の一部を含む0.25\mm^3$ micro-ct(uct)ボリュームである。 2つの画像モダリティと、体積サイズとインスタンス数を大幅に増加させ、外観と密度におけるニューロン核の多様性を見出し、この分野に新たな挑戦をもたらした。 また,これらの課題を定量的に説明するための統計分析を行った。 この課題に対処するために,前景マスク,輪郭マップ,および符号付き距離変換の利点を組み合わせたハイブリッド表現学習モデルを提案し,高品質な3Dマスクを作成する。 nucmmデータセットのベンチマーク比較の結果,提案手法が最先端の核セグメンテーション手法を著しく上回っていることがわかった。 コードとデータはhttps://connectomics -bazaar.github.io/pr oj/nucmm/index.htmlで入手できる。

Segmenting 3D cell nuclei from microscopy image volumes is critical for biological and clinical analysis, enabling the study of cellular expression patterns and cell lineages. However, current datasets for neuronal nuclei usually contain volumes smaller than $10^{\text{-}3}\ mm^3$ with fewer than 500 instances per volume, unable to reveal the complexity in large brain regions and restrict the investigation of neuronal structures. In this paper, we have pushed the task forward to the sub-cubic millimeter scale and curated the NucMM dataset with two fully annotated volumes: one $0.1\ mm^3$ electron microscopy (EM) volume containing nearly the entire zebrafish brain with around 170,000 nuclei; and one $0.25\ mm^3$ micro-CT (uCT) volume containing part of a mouse visual cortex with about 7,000 nuclei. With two imaging modalities and significantly increased volume size and instance numbers, we discover a great diversity of neuronal nuclei in appearance and density, introducing new challenges to the field. We also perform a statistical analysis to illustrate those challenges quantitatively. To tackle the challenges, we propose a novel hybrid-representatio n learning model that combines the merits of foreground mask, contour map, and signed distance transform to produce high-quality 3D masks. The benchmark comparisons on the NucMM dataset show that our proposed method significantly outperforms state-of-the-art nuclei segmentation approaches. Code and data are available at https://connectomics -bazaar.github.io/pr oj/nucMM/index.html.
翻訳日:2021-07-15 00:23:13 公開日:2021-07-13
# (参考訳) ハイパーパラメータ最適化:基盤、アルゴリズム、ベストプラクティス、オープンチャレンジ

Hyperparameter Optimization: Foundations, Algorithms, Best Practices and Open Challenges ( http://arxiv.org/abs/2107.05847v1 )

ライセンス: CC BY 4.0
Bernd Bischl (1), Martin Binder (1), Michel Lang (1), Tobias Pielok (1), Jakob Richter (1), Stefan Coors (1), Janek Thomas (1), Theresa Ullmann (2), Marc Becker (1), Anne-Laure Boulesteix (2), Difan Deng (3), Marius Lindauer (3) ((1) Department of Statistics, Ludwig Maximilian University Munich, (2) Institute for Medical Information Processing, Biometry and Epidemiology, Ludwig Maximilian University Munich, (3) Institute for Information Processing, Leibniz University Hannover)(参考訳) ほとんどの機械学習アルゴリズムは、1つまたは複数のハイパーパラメータによって構成される。 高性能なハイパーパラメータ構成を見つけるための時間的消費と再現不可能な手動試行とエラープロセスを避けるために、教師付き機械学習のための再サンプリング誤差推定に基づくhpo(automatic hyperparameter optimization)メソッドを用いることができる。 一般論としてHPOを導入した後、グリッドやランダム検索、進化アルゴリズム、ベイズ最適化、ハイパーバンド、レースなどの重要なHPO手法を概説する。 HPOアルゴリズム自体、パフォーマンス評価、HPOとMLパイプラインの結合方法、ランタイム改善、並列化など、HPOの実行時に行う重要な選択に関する実践的な推奨事項を提供する。

Most machine learning algorithms are configured by one or several hyperparameters that must be carefully chosen and often considerably impact performance. To avoid a time consuming and unreproducible manual trial-and-error process to find well-performing hyperparameter configurations, various automatic hyperparameter optimization (HPO) methods, e.g., based on resampling error estimation for supervised machine learning, can be employed. After introducing HPO from a general perspective, this paper reviews important HPO methods such as grid or random search, evolutionary algorithms, Bayesian optimization, Hyperband and racing. It gives practical recommendations regarding important choices to be made when conducting HPO, including the HPO algorithms themselves, performance evaluation, how to combine HPO with ML pipelines, runtime improvements, and parallelization.
翻訳日:2021-07-15 00:11:19 公開日:2021-07-13
# (参考訳) 古典的計画解における構成性の符号化 [全文訳有]

Encoding Compositionality in Classical Planning Solutions ( http://arxiv.org/abs/2107.05850v1 )

ライセンス: CC BY 4.0
Angeline Aguinaldo, William Regli(参考訳) 古典的なAIプランナーは、長く不透明なテキスト出力という形で計画問題の解決策を提供する。 計画解の伝達可能性を理解するためには,現行のライン・バイ・ライン・テキスト・表記を超えて,人間とコンピュータの双方に対して,リッチで理解しやすい表現が必要である。 特に、選択されたアクション間の依存関係をキャプチャするために、計画全体を通してリテラルのトレースをエンコードすることが望ましい。 本研究のアプローチは,リテラルと選択した計画間のマップとして,アクションをマップの合成として見ることである。 圏論と呼ばれる数学理論は、地図、それらの構成、および構成間の写像を捉えるための関連する構造を提供する。 この理論を用いて、よく使われる計画記述言語PDDLで表現される領域、問題、計画に対するアルゴリズムに依存しないモデルベース表現を提案する。 この圏論的な表現は、計画のすべてのステップで使われるリテラルを推論するのに使える代数的表現と同様の線形表記に加えて、グラフィカルな構文が伴っている。 これは適切な構成的抽象化を提供し、人間の演算子に対する理解を促進する。 本稿では、blocksworldドメイン内のプランでこれを実証する。

Classical AI planners provide solutions to planning problems in the form of long and opaque text outputs. To aid in the understanding transferability of planning solutions, it is necessary to have a rich and comprehensible representation for both human and computers beyond the current line-by-line text notation. In particular, it is desirable to encode the trace of literals throughout the plan to capture the dependencies between actions selected. The approach of this paper is to view the actions as maps between literals and the selected plan as a composition of those maps. The mathematical theory, called category theory, provides the relevant structures for capturing maps, their compositions, and maps between compositions. We employ this theory to propose an algorithm agnostic, model-based representation for domains, problems, and plans expressed in the commonly used planning description language, PDDL. This category theoretic representation is accompanied by a graphical syntax in addition to a linear notation, similar to algebraic expressions, that can be used to infer literals used at every step of the plan. This provides the appropriate constructive abstraction and facilitates comprehension for human operators. In this paper, we demonstrate this on a plan within the Blocksworld domain.
翻訳日:2021-07-15 00:10:19 公開日:2021-07-13
# (参考訳) auto iv: 自動インストゥルメンタル変数分解による反事実予測 [全文訳有]

Auto IV: Counterfactual Prediction via Automatic Instrumental Variable Decomposition ( http://arxiv.org/abs/2107.05884v1 )

ライセンス: CC BY 4.0
Junkun Yuan, Anpeng Wu, Kun Kuang, Bo Li, Runze Wu, Fei Wu, Lanfen Lin(参考訳) 測定変数(IVs)は、結果から条件的に独立した治療ランダム化の源であり、観測されていない共同設立者との因果推論において重要な役割を果たす。 しかし、既存のIVベースの対実予測手法では、適切に定義されたIVが必要ですが、現実のシーンで有効なIVを見つけるのは科学というよりはむしろ芸術です。 さらに、予め定義された手作りのIVは、有効なIVの条件に違反することで、弱いか誤っている可能性がある。 これらの厄介な事実は、IVベースの対実予測法の適用を妨げる。 本稿では,観測変数(IV候補)からIVの役割を担う表現を自動的に生成する,新しい自動機器変数分解(AutoIV)アルゴリズムを提案する。 具体的には、学習されたiv表現を、相互情報最大化および最小化制約により、処理および排他条件と結果との関連条件を満足させる。 共同創設者の表現も、治療と結果の両方に関連があるように促すことで学んでいます。 IV と共同設立者表現は、敵ゲームにおいて制約のある情報を求めて競争し、IV ベースの対実予測に対して有効な IV 表現を得ることができる。 本手法は, 精度の高いIV-based counterfactual predictionのための有効なIV表現を生成する。

Instrumental variables (IVs), sources of treatment randomization that are conditionally independent of the outcome, play an important role in causal inference with unobserved confounders. However, the existing IV-based counterfactual prediction methods need well-predefined IVs, while it's an art rather than science to find valid IVs in many real-world scenes. Moreover, the predefined hand-made IVs could be weak or erroneous by violating the conditions of valid IVs. These thorny facts hinder the application of the IV-based counterfactual prediction methods. In this paper, we propose a novel Automatic Instrumental Variable decomposition (AutoIV) algorithm to automatically generate representations serving the role of IVs from observed variables (IV candidates). Specifically, we let the learned IV representations satisfy the relevance condition with the treatment and exclusion condition with the outcome via mutual information maximization and minimization constraints, respectively. We also learn confounder representations by encouraging them to be relevant to both the treatment and the outcome. The IV and confounder representations compete for the information with their constraints in an adversarial game, which allows us to get valid IV representations for IV-based counterfactual prediction. Extensive experiments demonstrate that our method generates valid IV representations for accurate IV-based counterfactual prediction.
翻訳日:2021-07-14 23:58:41 公開日:2021-07-13
# (参考訳) パルストランジット時間を用いた自動発作検出 [全文訳有]

Automatic Seizure Detection Using the Pulse Transit Time ( http://arxiv.org/abs/2107.05894v1 )

ライセンス: CC BY 4.0
Eric Fiege, Salima Houta, Pinar Bisgin, Rainer Surges, Falk Howar(参考訳) てんかん発作のドキュメンテーションは治療計画において重要な役割を担っている。 てんかん発作の自動検出の解決策は、てんかん発作の非完全および誤マニュアルの現在の問題を改善するのに役立つ。 近年、この目的のために多くのウェアラブルセンサーがテストされている。 しかし、微妙な症状を伴う発作の検出は依然として困難であり、現在の解決策は誤報率が高い傾向がある。 発作は患者の血圧にも影響するが、センサーによる検出はまだ研究されていない。 パルス通過時間(PTT)は動脈血圧の非侵襲的推定を提供する。 パルス波の到来時間差を測定する2つのセンサを使用することで得られる。 タイムチップの分離により、クロックドリフトが出現し、PTTに強い影響を及ぼす。 本研究では,PTTの変動に応答し,クロックドリフトを考慮し,分離センサを用いた非侵襲的血圧変動モニタリングを可能にするアルゴリズムを提案する。 さらに,PTTを用いて発作を検出できるかどうかを検討した。 以上の結果から,ランダムフォレストによる発作検出が可能であることが示唆された。 マルチモーダルアプローチでpttを他の信号と併用することで、微妙な症状を伴う発作の検出を改善することができる。

Documentation of epileptic seizures plays an essential role in planning medical therapy. Solutions for automated epileptic seizure detection can help improve the current problem of incomplete and erroneous manual documentation of epileptic seizures. In recent years, a number of wearable sensors have been tested for this purpose. However, detecting seizures with subtle symptoms remains difficult and current solutions tend to have a high false alarm rate. Seizures can also affect the patient's arterial blood pressure, which has not yet been studied for detection with sensors. The pulse transit time (PTT) provides a noninvasive estimate of arterial blood pressure. It can be obtained by using to two sensors, which are measuring the time differences between arrivals of the pulse waves. Due to separated time chips a clock drift emerges, which is strongly influencing the PTT. In this work, we present an algorithm which responds to alterations in the PTT, considering the clock drift and enabling the noninvasive monitoring of blood pressure alterations using separated sensors. Furthermore we investigated whether seizures can be detected using the PTT. Our results indicate that using the algorithm, it is possible to detect seizures with a Random Forest. Using the PTT along with other signals in a multimodal approach, the detection of seizures with subtle symptoms could thereby be improved.
翻訳日:2021-07-14 23:41:39 公開日:2021-07-13
# (参考訳) 咬合対象クラスに基づくマイクロ表現認識のための領域注意とグラフ埋め込みネットワーク [全文訳有]

Region attention and graph embedding network for occlusion objective class-based micro-expression recognition ( http://arxiv.org/abs/2107.05904v1 )

ライセンス: CC BY 4.0
Qirong Mao, Ling Zhou, Wenming Zheng, Xiuyan Shao, Xiaohua Huang(参考訳) マイクロ表現認識(\textbf{mer})は10年間で多くの研究者の注目を集めている。 しかし、現実のシナリオではmerでは閉塞が起こる。 本稿では、MER, \ie, occlusion MERにおける興味深いが未解明の課題を深く研究する。 まず,merを実世界のオクルージョン下で研究するために,コミュニティのために様々なマスクを用いて合成オクルード型マイクロ表現データベースを作成する。 第二に、オクルージョンの影響を抑制するために、様々な顔領域間の関係をモデル化するために、アンダーライン{R}easoning \underline{R}easoning \underline{N}etwork (\textbf{RRRN})を提案する。 RRRNは、バックボーンネットワーク、Regional-Inspired (\textbf{RI})モジュール、Relation Reasoning (\textbf{RR})モジュールで構成される。 具体的には、異なる顔領域から特徴表現を抽出することを目的としたバックボーンネットワーク、未閉塞性や閉塞の影響を抑えることの重要性を考慮し、注意機構に基づいて地域自体から適応重みを演算するRIモジュール、グラフ畳み込みによってこれらの領域間の進行的相互作用を利用するRRモジュール。 MEGC 2018プロトコルのハンドアウトデータベース評価および複合データベース評価タスクについて実験を行った。 実験の結果,RRRNは顔面領域の重要性を明らかに把握し,MERにおける顔面領域の協調補完関係を捉えることができることがわかった。 その結果、RRRNは最先端のアプローチ、特に閉塞に対して優れており、RRRNは閉塞に対してより堅牢であることを示した。

Micro-expression recognition (\textbf{MER}) has attracted lots of researchers' attention in a decade. However, occlusion will occur for MER in real-world scenarios. This paper deeply investigates an interesting but unexplored challenging issue in MER, \ie, occlusion MER. First, to research MER under real-world occlusion, synthetic occluded micro-expression databases are created by using various mask for the community. Second, to suppress the influence of occlusion, a \underline{R}egion-inspired \underline{R}elation \underline{R}easoning \underline{N}etwork (\textbf{RRRN}) is proposed to model relations between various facial regions. RRRN consists of a backbone network, the Region-Inspired (\textbf{RI}) module and Relation Reasoning (\textbf{RR}) module. More specifically, the backbone network aims at extracting feature representations from different facial regions, RI module computing an adaptive weight from the region itself based on attention mechanism with respect to the unobstructedness and importance for suppressing the influence of occlusion, and RR module exploiting the progressive interactions among these regions by performing graph convolutions. Experiments are conducted on handout-database evaluation and composite database evaluation tasks of MEGC 2018 protocol. Experimental results show that RRRN can significantly explore the importance of facial regions and capture the cooperative complementary relationship of facial regions for MER. The results also demonstrate RRRN outperforms the state-of-the-art approaches, especially on occlusion, and RRRN acts more robust to occlusion.
翻訳日:2021-07-14 23:33:36 公開日:2021-07-13
# (参考訳) CATスキャンではなく猫:2次元医用画像分類のための転写学習におけるデータセット類似性の検討 [全文訳有]

Cats, not CAT scans: a study of dataset similarity in transfer learning for 2D medical image classification ( http://arxiv.org/abs/2107.05940v1 )

ライセンス: CC BY 4.0
Irma van den Brandt, Floris Fok, Bas Mulders, Joaquin Vanschoren, Veronika Cheplygina(参考訳) 転送学習は、特にソースデータの事前トレーニングとターゲットデータの微調整を通じて、医療画像分類の一般的な戦略である。 現在、適切なソースデータを選択する方法に関するコンセンサスはなく、文献では、ImageNetのような大きな自然画像データセットを好む証拠と、より専門的な医療データセットを好む証拠の両方が見つかる。 本稿では,9つのソース・データセット,自然画像,医用画像,および3つのターゲット医療データセット,すべて2次元画像を用いた系統的研究を行う。 ImageNetは最高のパフォーマンスにつながるソースですが、大きなデータセットが必ずしも優れたものではないことも分かりました。 また,データ類似性の定義も異なる。 類似性に関する共通の直観は不正確であり、したがって適切な情報源を事前に予測するには不十分であることを示す。 最後に、この分野でのさらなる研究に必要ないくつかのステップ、特に他のタイプの医療画像(例えば3D)について論じる。 我々の実験と事前学習モデルは \url{https://www.github.c om/vcheplygina/cats- scans} で利用可能である。

Transfer learning is a commonly used strategy for medical image classification, especially via pretraining on source data and fine-tuning on target data. There is currently no consensus on how to choose appropriate source data, and in the literature we can find both evidence of favoring large natural image datasets such as ImageNet, and evidence of favoring more specialized medical datasets. In this paper we perform a systematic study with nine source datasets with natural or medical images, and three target medical datasets, all with 2D images. We find that ImageNet is the source leading to the highest performances, but also that larger datasets are not necessarily better. We also study different definitions of data similarity. We show that common intuitions about similarity may be inaccurate, and therefore not sufficient to predict an appropriate source a priori. Finally, we discuss several steps needed for further research in this field, especially with regard to other types (for example 3D) medical images. Our experiments and pretrained models are available via \url{https://www.github.c om/vcheplygina/cats- scans}
翻訳日:2021-07-14 23:09:22 公開日:2021-07-13
# (参考訳) 注釈付き熱光学融合画像のための新しい深層学習法 [全文訳有]

A Novel Deep Learning Method for Thermal to Annotated Thermal-Optical Fused Images ( http://arxiv.org/abs/2107.05942v1 )

ライセンス: CC BY 4.0
Suranjan Goswami, IEEE Student Member, Satish Kumar Singh, Senior Member, IEEE and Bidyut B. Chaudhuri, Life Fellow, IEEE(参考訳) 熱画像は物体の受動的放射をプロファイルし、それらをグレースケールの画像でキャプチャする。 このような画像は、光学カラー画像とは全く異なるデータ分布を持つ。 ここでは,熱入力を付与した灰色スケール熱光学融解マスクを製作する。 これはディープラーニングに基づく先駆的な研究であり、私たちの知る限り、熱光学グレースケール融合に関する研究は他にない。 ここで提案しているディープラーニング手法は、グレーレベルドメインの代わりに離散ウェーブレット変換(DWT)ドメインで動作するという意味でもユニークな方法です。 また、本研究の一環として、5種類の異なるデータに対して関心領域を含む既存の熱視覚対データベースに基づいて、熱画像に対する関心領域を取得するための、新しいユニークなデータベースを提案する。 最後に、融合領域(RoF)と呼ばれる融合画像の関心領域を特定するための単純な低コストなオーバーヘッド統計尺度を提案している。 データベース上の実験では、融合画像に対する関心領域の同定が促進されている。 また,熱画像のみでなく混合形態で処理できることを示した。

Thermal Images profile the passive radiation of objects and capture them in grayscale images. Such images have a very different distribution of data compared to optical colored images. We present here a work that produces a grayscale thermo-optical fused mask given a thermal input. This is a deep learning based pioneering work since to the best of our knowledge, there exists no other work on thermal-optical grayscale fusion. Our method is also unique in the sense that the deep learning method we are proposing here works on the Discrete Wavelet Transform (DWT) domain instead of the gray level domain. As a part of this work, we also present a new and unique database for obtaining the region of interest in thermal images based on an existing thermal visual paired database, containing the Region of Interest on 5 different classes of data. Finally, we are proposing a simple low cost overhead statistical measure for identifying the region of interest in the fused images, which we call as the Region of Fusion (RoF). Experiments on the database show encouraging results in identifying the region of interest in the fused images. We also show that they can be processed better in the mixed form rather than with only thermal images.
翻訳日:2021-07-14 22:57:26 公開日:2021-07-13
# (参考訳) ピアノのインペインティング応用 [全文訳有]

The Piano Inpainting Application ( http://arxiv.org/abs/2107.05944v1 )

ライセンス: CC BY 4.0
Ga\"etan Hadjeres and L\'eopold Crestel(参考訳) オートレグレッシブ・モデルは高品質なmidiピアノ演奏を生成できるようになった。 この進歩は音楽の作曲を支援する新しいツールを示しているが、生成アルゴリズムは、演奏者のコントロールの制限、推論時間の制限、ミュージシャンのワークフローへの統合の欠如などにより、まだアーティストによって広く使われていない。 本稿では、この基本操作(ピアノ演奏の欠落部分の復元)が人間と機械の相互作用を助長し、音楽作曲へのアプローチの新たな方法を開くと信じ、ピアノ演奏のインペインティングに焦点を当てた生成モデルであるピアノインペインティング応用(pia)を提案する。 提案手法は,MIDIピアノ演奏のための新しい表現を訓練したエンコーダ・デコーダ線形変換器アーキテクチャであるStructured MIDI Encodingに依存する。 リニアトランスとインペインティングタスクの興味深い相乗効果を明らかにすることで、ピアノ演奏の連続した領域を効率的に塗り替えることができ、インタラクティブでレスポンシブなa.i.アシスト構成に適したモデルとなる。 ミュージシャンは、広く使われているデジタルオーディオワークステーション内で、piaを使ってmidiクリップをスムーズに生成または修正することができます。

Autoregressive models are now capable of generating high-quality minute-long expressive MIDI piano performances. Even though this progress suggests new tools to assist music composition, we observe that generative algorithms are still not widely used by artists due to the limited control they offer, prohibitive inference times or the lack of integration within musicians' workflows. In this work, we present the Piano Inpainting Application (PIA), a generative model focused on inpainting piano performances, as we believe that this elementary operation (restoring missing parts of a piano performance) encourages human-machine interaction and opens up new ways to approach music composition. Our approach relies on an encoder-decoder Linear Transformer architecture trained on a novel representation for MIDI piano performances termed Structured MIDI Encoding. By uncovering an interesting synergy between Linear Transformers and our inpainting task, we are able to efficiently inpaint contiguous regions of a piano performance, which makes our model suitable for interactive and responsive A.I.-assisted composition. Finally, we introduce our freely-available Ableton Live PIA plugin, which allows musicians to smoothly generate or modify any MIDI clip using PIA within a widely-used professional Digital Audio Workstation.
翻訳日:2021-07-14 22:24:49 公開日:2021-07-13
# (参考訳) 訓練済みのnnU-NetモデルがCovid-19でサイレントに故障した場合の検出 [全文訳有]

Detecting when pre-trained nnU-Net models fail silently for Covid-19 ( http://arxiv.org/abs/2107.05975v1 )

ライセンス: CC BY 4.0
Camila Gonzalez, Karol Gotkowski, Andreas Bucher, Ricarda Fischbach, Isabel Kaltenborn, Anirban Mukhopadhyay(参考訳) コンピュータ断層撮影における肺病変の自動分離は、コビッドウイルスパンデミックにおける臨床医の負担を軽減する可能性がある。 しかし、予測されたディープラーニングモデルは、ood(out-of-distribut ion)データで静かに失敗するため、臨床ルーチンでは信頼できない。 本稿では,特徴空間におけるマハラノビス距離を利用した軽量OOD検出手法を提案する。 提案されたアプローチは,モデルアーキテクチャやトレーニング手順の変更を必要とせずに,最先端のセグメンテーションパイプラインにシームレスに統合することができる。 提案手法を,マルチインスティカルデータセットを用いて訓練したパッチベースのnnU-Netアーキテクチャを用いて検証し,モデルセグメントが正しくないサンプルを効果的に検出することを確認した。

Automatic segmentation of lung lesions in computer tomography has the potential to ease the burden of clinicians during the Covid-19 pandemic. Yet predictive deep learning models are not trusted in the clinical routine due to failing silently in out-of-distribution (OOD) data. We propose a lightweight OOD detection method that exploits the Mahalanobis distance in the feature space. The proposed approach can be seamlessly integrated into state-of-the-art segmentation pipelines without requiring changes in model architecture or training procedure, and can therefore be used to assess the suitability of pre-trained models to new data. We validate our method with a patch-based nnU-Net architecture trained with a multi-institutional dataset and find that it effectively detects samples that the model segments incorrectly.
翻訳日:2021-07-14 22:12:26 公開日:2021-07-13
# (参考訳) NLPのためのジェンダー増強データの生成 [全文訳有]

Generating Gender Augmented Data for NLP ( http://arxiv.org/abs/2107.05987v1 )

ライセンス: CC BY 4.0
Nishtha Jain, Maja Popovic, Declan Groves, Eva Vanmassenhove(参考訳) ジェンダーバイアスはNLPベースのアプリケーションで頻繁に発生し、特に性差のある言語では顕著である。 バイアスは、特定の形容詞やアニメート名詞と参照者の自然な性別の関連付けを通じて現れるが、同時に、屈折した単語の不均衡な文法的性別頻度によっても現れる。 このようなバイアスは、現在NLPアプリケーションが文レベルのコンテキストで動作しているため、文内で性別が特定されていない会話的発話を生成する際により明確になる。 より包括的なNLPへのステップとして,短い会話文に対する自動的かつ一般化可能な書き換え手法を提案する。 書き直し法(rewriting method)は、性別の観点で複数の等価な選択肢を持つ文に適用することができる。 この方法は、性別バランスのとれたアウトプットの作成と、性別バランスの訓練データの作成の両方に応用できる。 提案するアプローチは、あるジェンダーから別のジェンダーへの"翻訳"を訓練されたニューラルマシン翻訳(NMT)システムに基づいている。 このアプローチの自動分析と手動分析は、スペイン語の会話文の自動生成に有望な結果を示している。

Gender bias is a frequent occurrence in NLP-based applications, especially pronounced in gender-inflected languages. Bias can appear through associations of certain adjectives and animate nouns with the natural gender of referents, but also due to unbalanced grammatical gender frequencies of inflected words. This type of bias becomes more evident in generating conversational utterances where gender is not specified within the sentence, because most current NLP applications still work on a sentence-level context. As a step towards more inclusive NLP, this paper proposes an automatic and generalisable rewriting approach for short conversational sentences. The rewriting method can be applied to sentences that, without extra-sentential context, have multiple equivalent alternatives in terms of gender. The method can be applied both for creating gender balanced outputs as well as for creating gender balanced training data. The proposed approach is based on a neural machine translation (NMT) system trained to 'translate' from one gender alternative to another. Both the automatic and manual analysis of the approach show promising results for automatic generation of gender alternatives for conversational sentences in Spanish.
翻訳日:2021-07-14 22:02:37 公開日:2021-07-13
# (参考訳) 学習型E2Eエネルギー効率による5Gおよびそれ以上のネットワークのためのジョイントラジオとNFVの資源配分 [全文訳有]

Learning based E2E Energy Efficient in Joint Radio and NFV Resource Allocation for 5G and Beyond Networks ( http://arxiv.org/abs/2107.05991v1 )

ライセンス: CC BY 4.0
Narges Gholipoor, Ali Nouruzi, Shima Salarhosseini, Mohammad Reza Javan, Nader Mokari, and Eduard A. Jorswieck(参考訳) 本稿では,nfv対応ネットワークのための無線およびコアリソース割当フレームワークを提案する。 提案したシステムモデルでは、異なるサービスタイプに対するエンドツーエンド(E2E)サービス品質(QoS)を保証することにより、エネルギー効率(EE)を最大化する。 この目的のために、無線部に電力とスペクトルの資源を割り当てる最適化問題を定式化する。 コア部分では、すべてのユーザのqosを保証するために、関数の連鎖、配置、スケジューリングが行われる。 この共同最適化問題は、利用可能なリソースと無線チャネルの時間的特性を考慮したマルコフ決定プロセス(MDP)としてモデル化される。 次に、最大エントロピーフレームワークに基づくソフトアクター・クリティック・ディープ強化学習(SAC-DRL)アルゴリズムを用いて、上記のMDPを解く。 数値計算の結果,SAC-DRLアルゴリズムに基づくジョイントアプローチは,R-RAとNFV-RAの問題を個別に最適化した場合と比較して,エネルギー消費を大幅に削減できることがわかった。

In this paper, we propose a joint radio and core resource allocation framework for NFV-enabled networks. In the proposed system model, the goal is to maximize energy efficiency (EE), by guaranteeing end-to-end (E2E) quality of service (QoS) for different service types. To this end, we formulate an optimization problem in which power and spectrum resources are allocated in the radio part. In the core part, the chaining, placement, and scheduling of functions are performed to ensure the QoS of all users. This joint optimization problem is modeled as a Markov decision process (MDP), considering time-varying characteristics of the available resources and wireless channels. A soft actor-critic deep reinforcement learning (SAC-DRL) algorithm based on the maximum entropy framework is subsequently utilized to solve the above MDP. Numerical results reveal that the proposed joint approach based on the SAC-DRL algorithm could significantly reduce energy consumption compared to the case in which R-RA and NFV-RA problems are optimized separately.
翻訳日:2021-07-14 22:01:28 公開日:2021-07-13
# (参考訳) 予算制限下での適応型インセンティブアロケーションのための未知のソーシャルネットワークにおけるインフルエンシアルユーザ同定

Identifying Influential Users in Unknown Social Networks for Adaptive Incentive Allocation Under Budget Restriction ( http://arxiv.org/abs/2107.05992v1 )

ライセンス: CC BY 4.0
Shiqing Wu, Weihua Li, Hao Shen, Quan Bai(参考訳) 近年、多くの分野においてレコメンデーションシステムが広く採用されている。 これらのシステムは、ユーザがシステムが期待する振る舞いを選択することに影響を及ぼす。 一方、インセンティブの提供はユーザーの行動に影響を与えるためのより積極的な方法であることが証明されている。 予算の制限により、インセンティブを得られるユーザ数は制限される。 ここでは,ユーザ間で存在する社会的影響を活用し,インセンティブの効果を高めることを目的とする。 影響力のあるユーザーに直接インセンティブを与えることで、ソーシャルネットワークのフォロワーは間接的にインセンティブを受ける可能性がある。 しかし、多くの現実世界のシナリオでは、ネットワークのトポロジー構造は通常不明であり、影響力のあるユーザーを特定することは困難である。 上記の課題に取り組むため,本稿では,ネットワークのトポロジを知らずに,過去の行動に基づいてユーザ間の影響力関係を推定できる未知ネットワークにおける影響力のあるユーザを探索する新しいアルゴリズムを提案する。 一方,我々は,ユーザの嗜好と影響度に基づいてインセンティブ値を決定する適応的インセンティブ割当手法を考案する。 提案手法の有効性を,合成データセットと実世界のデータセットの両方で実験することで評価する。 実験の結果,提案手法の有効性が示された。

In recent years, recommendation systems have been widely applied in many domains. These systems are impotent in affecting users to choose the behavior that the system expects. Meanwhile, providing incentives has been proven to be a more proactive way to affect users' behaviors. Due to the budget limitation, the number of users who can be incentivized is restricted. In this light, we intend to utilize social influence existing among users to enhance the effect of incentivization. Through incentivizing influential users directly, their followers in the social network are possibly incentivized indirectly. However, in many real-world scenarios, the topological structure of the network is usually unknown, which makes identifying influential users difficult. To tackle the aforementioned challenges, in this paper, we propose a novel algorithm for exploring influential users in unknown networks, which can estimate the influential relationships among users based on their historical behaviors and without knowing the topology of the network. Meanwhile, we design an adaptive incentive allocation approach that determines incentive values based on users' preferences and their influence ability. We evaluate the performance of the proposed approaches by conducting experiments on both synthetic and real-world datasets. The experimental results demonstrate the effectiveness of the proposed approaches.
翻訳日:2021-07-14 21:28:12 公開日:2021-07-13
# (参考訳) ゼロショット音声翻訳 [全文訳有]

Zero-shot Speech Translation ( http://arxiv.org/abs/2107.06010v1 )

ライセンス: CC BY-SA 4.0
Tu Anh Dinh(参考訳) 音声翻訳 (st) は、ある言語でスピーチを別の言語でテキストに変換する作業である。 自動音声認識 (ASR) と機械翻訳 (MT) システムを用いたSTの従来のケースドアプローチは, 誤りの伝播が困難である。 エンドツーエンドのアプローチでは、エラー伝播を避けるために1つのシステムのみを使用するが、データ不足のため採用が困難である。 ゼロショット変換は、トレーニング中に見つからない言語のペアを翻訳するので、エンドツーエンドのSTデータの使用を避けることができる。 ゼロショット翻訳は多言語機械翻訳では有効であることが示されているが、音声翻訳では研究されていない。 ASRおよびMTタスクのみで訓練されるが、推論時にSTタスクを実行できるゼロショットSTモデルを構築しようとする。 課題は、テキストとオーディオの表現が著しく異なるため、モデルが異なる方法でasrとmtタスクを学習するため、ゼロショットを実行することは自明ではない。 我々は、追加のトレーニングデータと、テキストとオーディオの違いを最小限に抑える補助的損失関数を含めることで、この問題に取り組む。 実験結果と解析結果から, ゼロショットSTに期待できることが判明した。 さらに,本手法は,事前訓練されたASRモデルから微調整したSTモデルと比較して,直接の終端STモデルに比べて最大11.8BLEU点,+3.9BLEU点の改善など,限られたSTデータが得られる数ショット環境では特に有用である。

Speech Translation (ST) is the task of translating speech in one language into text in another language. Traditional cascaded approaches for ST, using Automatic Speech Recognition (ASR) and Machine Translation (MT) systems, are prone to error propagation. End-to-end approaches use only one system to avoid propagating error, yet are difficult to employ due to data scarcity. We explore zero-shot translation, which enables translating a pair of languages that is unseen during training, thus avoid the use of end-to-end ST data. Zero-shot translation has been shown to work for multilingual machine translation, yet has not been studied for speech translation. We attempt to build zero-shot ST models that are trained only on ASR and MT tasks but can do ST task during inference. The challenge is that the representation of text and audio is significantly different, thus the models learn ASR and MT tasks in different ways, making it non-trivial to perform zero-shot. These models tend to output the wrong language when performing zero-shot ST. We tackle the issues by including additional training data and an auxiliary loss function that minimizes the text-audio difference. Our experiment results and analysis show that the methods are promising for zero-shot ST. Moreover, our methods are particularly useful in the few-shot settings where a limited amount of ST data is available, with improvements of up to +11.8 BLEU points compared to direct end-to-end ST models and +3.9 BLEU points compared to ST models fine-tuned from pre-trained ASR model.
翻訳日:2021-07-14 21:27:15 公開日:2021-07-13
# (参考訳) この人物は(おそらく)存在する。 GAN生成顔に対するアイデンティティーメンバーシップ攻撃 [全文訳有]

This Person (Probably) Exists. Identity Membership Attacks Against GAN Generated Faces ( http://arxiv.org/abs/2107.06018v1 )

ライセンス: CC BY 4.0
Ryan Webster and Julien Rabin and Loic Simon and Frederic Jurie(参考訳) 最近、gans(generative adversarial network)は素晴らしい現実主義を実現し、人間のオブザーバーさえも騙している。 実際、人気の高いLong-in-cheek Webサイト {\small \url{ http://thispersondoe snotexist.com}}は、GANが生成した画像は、信じられないほどリアルに思える。 一方、GANは、最近文献で実証された会員攻撃による証拠として、トレーニングデータに関する情報を漏らしている。 本研究では,ganが真に新しい創造物であるという仮定に挑戦し,新たな種類の会員攻撃を成功させる。 以前の研究とは異なり、攻撃はトレーニングサンプルと同じアイデンティティを共有するサンプルを、同じサンプルであることなく正確に識別することができる。 いくつかの一般的な顔データセットとGANトレーニング手順にまたがって攻撃の関心を示す。 注目すべきは、重要なデータセットの多様性が存在する場合でも、過度に表現された人物がプライバシの懸念を抱く可能性があることだ。

Recently, generative adversarial networks (GANs) have achieved stunning realism, fooling even human observers. Indeed, the popular tongue-in-cheek website {\small \url{ http://thispersondoe snotexist.com}}, taunts users with GAN generated images that seem too real to believe. On the other hand, GANs do leak information about their training data, as evidenced by membership attacks recently demonstrated in the literature. In this work, we challenge the assumption that GAN faces really are novel creations, by constructing a successful membership attack of a new kind. Unlike previous works, our attack can accurately discern samples sharing the same identity as training samples without being the same samples. We demonstrate the interest of our attack across several popular face datasets and GAN training procedures. Notably, we show that even in the presence of significant dataset diversity, an over represented person can pose a privacy concern.
翻訳日:2021-07-14 21:07:25 公開日:2021-07-13
# (参考訳) 種共存パターンを解読する深部生成型人工知能システム [全文訳有]

A Deep Generative Artificial Intelligence system to decipher species coexistence patterns ( http://arxiv.org/abs/2107.06020v1 )

ライセンス: CC BY 4.0
J. Hirn, J. E. Garc\'ia, A. Montesinos-Navarro, R. Sanchez-Mart\'in, V. Sanz, M. Verd\'u(参考訳) 1. 特に、これらのパターンの複雑さが、古典的な実験的アプローチとの近似を妨げる間接的な相互作用によって拡大されるリッチなコミュニティにおいて、共存パターンの解読は、多様性の維持を理解するための現在の課題である。 2. 我々は、ジェネレーティブ・人工知能(GenAI)と呼ばれる最先端の機械学習技術を検討し、植生パッチにおける種共存パターンを解読し、ジェネレーティブ・敵ネットワーク(GAN)と変分オートエンコーダ(VAE)を訓練し、コミュニティの集合の背後にあるいくつかのメカニズムを解明する。 3. GANは、植物種の異なる土壌タイプへの親和性だけでなく、実際のパッチの種組成を正確に再現し、VAEは99%以上の高い精度に達する。 人工的に生成したパッチを用いて,高次相互作用が低次相互作用の正の効果を抑制する傾向を示した。 最後に、逐次軌道の再構築により、種組成の点で異なるパッチの多様性を高い可能性を持つ先駆的な種を特定できる。 4. 多様な生態系における種共存パターンの複雑さを理解するには、ヒューリスティックなルールを超えた新しいアプローチが必要である。 生成的人工知能は、この課題の本質的な次元を克服できるため、この目的のための強力なツールとなり得る。

1. Deciphering coexistence patterns is a current challenge to understanding diversity maintenance, especially in rich communities where the complexity of these patterns is magnified through indirect interactions that prevent their approximation with classical experimental approaches. 2. We explore cutting-edge Machine Learning techniques called Generative Artificial Intelligence (GenAI) to decipher species coexistence patterns in vegetation patches, training generative adversarial networks (GAN) and variational AutoEncoders (VAE) that are then used to unravel some of the mechanisms behind community assemblage. 3. The GAN accurately reproduces the species composition of real patches as well as the affinity of plant species to different soil types, and the VAE also reaches a high level of accuracy, above 99%. Using the artificially generated patches, we found that high order interactions tend to suppress the positive effects of low order interactions. Finally, by reconstructing successional trajectories we could identify the pioneer species with larger potential to generate a high diversity of distinct patches in terms of species composition. 4. Understanding the complexity of species coexistence patterns in diverse ecological communities requires new approaches beyond heuristic rules. Generative Artificial Intelligence can be a powerful tool to this end as it allows to overcome the inherent dimensionality of this challenge.
翻訳日:2021-07-14 20:55:58 公開日:2021-07-13
# (参考訳) ラグランジュ緩和における凸共役の持ち上げ:連続マルコフ確率場に対する扱い可能なアプローチ [全文訳有]

Lifting the Convex Conjugate in Lagrangian Relaxations: A Tractable Approach for Continuous Markov Random Fields ( http://arxiv.org/abs/2107.06028v1 )

ライセンス: CC BY 4.0
Hartmut Bauermeister and Emanuel Laude and Thomas M\"ollenhoff and Michael Moeller and Daniel Cremers(参考訳) 非凸最適化における双対分解アプローチは双対性ギャップに悩まされる。 これは、連続状態空間を持つマルコフ確率場(MRF)におけるMAP推論のような非凸問題に直接適用する場合に問題となる。 このようなギャップをなくすために,測度空間における元の非凸タスクの再構成を検討する。 この無限次元の再構成は半無限で近似され、双対の多項式離散化によって得られる。 双対離散化によって引き起こされる原始問題の裏にある幾何学的直観を提供し、モーメント空間上の最適化への接続を引き出す。 グリッドバイアスに苦しむ既存の離散化とは対照的に、分割多項式の離散化は問題の連続的性質をよりよく保存することを示す。 最適輸送理論と凸代数幾何学から結果を導き、半無限プログラムを有限プログラムに減らし、半無限計画に基づく実践的な実装を提供する。 実験的および理論的に、このアプローチが双対性ギャップを減少させることを示した。 提案手法のスケーラビリティを示すために,2つの画像間のステレオマッチング問題に適用する。

Dual decomposition approaches in nonconvex optimization may suffer from a duality gap. This poses a challenge when applying them directly to nonconvex problems such as MAP-inference in a Markov random field (MRF) with continuous state spaces. To eliminate such gaps, this paper considers a reformulation of the original nonconvex task in the space of measures. This infinite-dimensional reformulation is then approximated by a semi-infinite one, which is obtained via a piecewise polynomial discretization in the dual. We provide a geometric intuition behind the primal problem induced by the dual discretization and draw connections to optimization over moment spaces. In contrast to existing discretizations which suffer from a grid bias, we show that a piecewise polynomial discretization better preserves the continuous nature of our problem. Invoking results from optimal transport theory and convex algebraic geometry we reduce the semi-infinite program to a finite one and provide a practical implementation based on semidefinite programming. We show, experimentally and in theory, that the approach successfully reduces the duality gap. To showcase the scalability of our approach, we apply it to the stereo matching problem between two images.
翻訳日:2021-07-14 20:44:26 公開日:2021-07-13
# (参考訳) autoscore-imbalance: レアイベントデータを用いた臨床スコア作成のための解釈可能な機械学習ツール [全文訳有]

AutoScore-Imbalance: An interpretable machine learning tool for development of clinical scores with rare events data ( http://arxiv.org/abs/2107.06039v1 )

ライセンス: CC BY 4.0
Han Yuan, Feng Xie, Marcus Eng Hock Ong, Yilin Ning, Marcel Lucas Chee, Seyed Ehsan Saffari, Hairil Rizal Abdullah, Benjamin Alan Goldstein, Bibhas Chakraborty, Nan Liu(参考訳) 背景:医療的意思決定は個人と公共の健康の両方に影響を及ぼす。 臨床スコアは、ベッドサイドの疾患の程度を決定するための様々な意思決定モデルで一般的に使用される。 AutoScoreは機械学習と一般化線形モデルに基づく有用な臨床スコア生成器として提案された。 しかし、現在のフレームワークは、レアなイベントの不均衡なデータに対処する際に改善の余地を残している。 手法: マシンインテリジェンスアプローチを用いて、トレーニングデータセット最適化、サンプル重量最適化、調整されたAutoScoreの3つのコンポーネントからなるAutoScore-Im Balanceを開発した。 全てのスコアリングモデルは、特性解析とバランスのとれた精度(すなわち感度と特異度の平均値)の受信機において、曲線下領域(auc)に基づいて評価された。 本研究では,Beth Israel Deaconess Medical Centerから公開されているデータセットを用いて,院内死亡予測におけるモデルおよびベースラインアプローチの評価を行った。 結果: AutoScore-Im Balance は AUC と平衡精度でベースラインを上回った。 9変数のAutoScore-Im Balanceサブモデルは0.786 (0.732-0.839)、11変数のAutoScoreは0.723 (0.663-0.783)、21変数のロジスティック回帰は0.743 (0.685-0.800)に達した。 AutoScore-Im Balanceサブモデル(ダウンサンプリングアルゴリズム)ではAUCは0。 0.771 (0.718-0.823) で5つの変数しか持たない。 結論: このautoscore-imbalanceツールは、高度にバランスの取れないデータセットに適用され、まれな医療イベントに関するさらなる洞察を得て、実際の臨床意思決定を促進する可能性がある。

Background: Medical decision-making impacts both individual and public health. Clinical scores are commonly used among a wide variety of decision-making models for determining the degree of disease deterioration at the bedside. AutoScore was proposed as a useful clinical score generator based on machine learning and a generalized linear model. Its current framework, however, still leaves room for improvement when addressing unbalanced data of rare events. Methods: Using machine intelligence approaches, we developed AutoScore-Imbalance, which comprises three components: training dataset optimization, sample weight optimization, and adjusted AutoScore. All scoring models were evaluated on the basis of their area under the curve (AUC) in the receiver operating characteristic analysis and balanced accuracy (i.e., mean value of sensitivity and specificity). By utilizing a publicly accessible dataset from Beth Israel Deaconess Medical Center, we assessed the proposed model and baseline approaches in the prediction of inpatient mortality. Results: AutoScore-Imbalance outperformed baselines in terms of AUC and balanced accuracy. The nine-variable AutoScore-Imbalance sub-model achieved the highest AUC of 0.786 (0.732-0.839) while the eleven-variable original AutoScore obtained an AUC of 0.723 (0.663-0.783), and the logistic regression with 21 variables obtained an AUC of 0.743 (0.685-0.800). The AutoScore-Imbalance sub-model (using down-sampling algorithm) yielded an AUC of 0. 0.771 (0.718-0.823) with only five variables, demonstrating a good balance between performance and variable sparsity. Conclusions: The AutoScore-Imbalance tool has the potential to be applied to highly unbalanced datasets to gain further insight into rare medical events and to facilitate real-world clinical decision-making.
翻訳日:2021-07-14 20:13:50 公開日:2021-07-13
# (参考訳) エントロピー保存によるグラフデータ拡張戦略 [全文訳有]

A Graph Data Augmentation Strategy with Entropy Preserving ( http://arxiv.org/abs/2107.06048v1 )

ライセンス: CC BY 4.0
Xue Liu, Dan Sun, Wei Wei(参考訳) Kipf と Welling が提案した Graph Convolutional Networks (GCNs) は、半教師付き学習に有効なモデルであるが、オーバースムーシングの障害に直面し、GCN の表現能力を弱める。 近年,グラフトポロジや特徴行列をランダムに摂動することで,学習用入力としてデータ拡張を生成する手法が提案されている。 しかし、これらの操作は、情報構造完全性の破れの代償を払い、必然的に元のグラフから情報を犠牲にしなければならない。 本稿では,グラフ間の特徴情報の拡散を評価する定量的指標として,新しいグラフエントロピー定義を提案する。 本稿では,グラフエントロピーの保存を考慮し,グラフトポロジの完全性を保証するとともに,少量のグラフエントロピー減衰を伴って,確率的機構を用いて摂動トレーニングデータを生成する効果的な方法を提案する。 実世界のデータセットについて広範な実験を行い,提案手法がベースライン数の増加と比較して,半教師付きノード分類精度の向上に有効であることを検証した。 さらに,本提案手法は,トレーニング過程におけるGCNの堅牢性と一般化能力を大幅に向上させる。

The Graph Convolutional Networks (GCNs) proposed by Kipf and Welling are effective models for semi-supervised learning, but facing the obstacle of over-smoothing, which will weaken the representation ability of GCNs. Recently some works are proposed to tackle with above limitation by randomly perturbing graph topology or feature matrix to generate data augmentations as input for training. However, these operations have to pay the price of information structure integrity breaking, and inevitably sacrifice information stochastically from original graph. In this paper, we introduce a novel graph entropy definition as an quantitative index to evaluate feature information diffusion among a graph. Under considerations of preserving graph entropy, we propose an effective strategy to generate perturbed training data using a stochastic mechanism but guaranteeing graph topology integrity and with only a small amount of graph entropy decaying. Extensive experiments have been conducted on real-world datasets and the results verify the effectiveness of our proposed method in improving semi-supervised node classification accuracy compared with a surge of baselines. Beyond that, our proposed approach significantly enhances the robustness and generalization ability of GCNs during the training process.
翻訳日:2021-07-14 20:03:21 公開日:2021-07-13
# (参考訳) 並列可能な存在規則: 作品の物語 [全文訳有]

Parallelisable Existential Rules: a Story of Pieces ( http://arxiv.org/abs/2107.06054v1 )

ライセンス: CC BY 4.0
Maxime Buron, Marie-Laure Mugnier, Micha\"el Thomazo(参考訳) 本稿では、オントロジーに基づくデータ統合の文脈において、存在論的知識の表現やデータ-オントロジーマッピングによく適合する表現的形式主義である存在規則を考察する。 chaseは、データベースインスタンスのルールによって引き起こされるすべての事実を計算するため、存在規則を推論するための基本的なツールである。 実存規則の並列化可能集合を導入し,任意のインスタンスからチェイスを1つの幅優先ステップで計算する。 我々が調査する問題は、そのような規則集合の特徴付けである。 並列化可能な規則集合は、追跡のために有界かつ新しいルールのクラスに属するような規則集合であることを示す。 断片的なクラスは、特にフロンティアが保護する存在規則と(プレーンな)データログを含んでいる。 また、書き換えに基づくルール構成の観点から、並列可能なルールセットの別の特徴を与える。

In this paper, we consider existential rules, an expressive formalism well suited to the representation of ontological knowledge and data-to-ontology mappings in the context of ontology-based data integration. The chase is a fundamental tool to do reasoning with existential rules as it computes all the facts entailed by the rules from a database instance. We introduce parallelisable sets of existential rules, for which the chase can be computed in a single breadth-first step from any instance. The question we investigate is the characterization of such rule sets. We show that parallelisable rule sets are exactly those rule sets both bounded for the chase and belonging to a novel class of rules, called pieceful. The pieceful class includes in particular frontier-guarded existential rules and (plain) datalog. We also give another characterization of parallelisable rule sets in terms of rule composition based on rewriting.
翻訳日:2021-07-14 19:51:58 公開日:2021-07-13
# (参考訳) インドの法律NLPベンチマーク : 調査 [全文訳有]

Indian Legal NLP Benchmarks : A Survey ( http://arxiv.org/abs/2107.06056v1 )

ライセンス: CC BY 4.0
Prathamesh Kalamkar, Janani Venugopalan Ph.D., Vivek Raghavan Ph.D(参考訳) 挑戦的なベンチマークの可用性は、特定の分野におけるAIの進歩の鍵であり、法定テキストは通常の英語のテキストと大きく異なるため、インド法定テキストのための別の自然言語処理ベンチマークを作成する必要がある。 これはインドの法的テキストに対する自然言語処理の応用の革新を刺激し、aiコミュニティと法的友愛に利益をもたらすだろう。 本稿では,インド法定自然言語処理のための新しいベンチマークを作成するためのアイデアを提案する。

Availability of challenging benchmarks is the key to advancement of AI in a specific field.Since Legal Text is significantly different than normal English text, there is a need to create separate Natural Language Processing benchmarks for Indian Legal Text which are challenging and focus on tasks specific to Legal Systems. This will spur innovation in applications of Natural language Processing for Indian Legal Text and will benefit AI community and Legal fraternity. We review the existing work in this area and propose ideas to create new benchmarks for Indian Legal Natural Language Processing.
翻訳日:2021-07-14 19:11:33 公開日:2021-07-13
# (参考訳) メッセージパッシングニューラルネットワークのアンサンブルを用いた分子特性予測のための校正不確かさ [全文訳有]

Calibrated Uncertainty for Molecular Property Prediction using Ensembles of Message Passing Neural Networks ( http://arxiv.org/abs/2107.06068v1 )

ライセンス: CC BY 4.0
Jonas Busk, Peter Bj{\o}rn J{\o}rgensen, Arghya Bhowmik, Mikkel N. Schmidt, Ole Winther, Tejs Vegge(参考訳) 機械学習に基づくデータ駆動手法は、原子構造の解析を加速する可能性がある。 しかし、機械学習モデルは過度に信頼された予測を生成できるため、不確実性を慎重に検出し対処することが重要である。 ここでは、分子や物質の特性をキャリブレーションされた確率的予測分布で予測するために設計されたメッセージパッシングニューラルネットワークを拡張する。 本論文では,先行研究と異なる手法として,統一フレームワークにおけるアレテータ性および認識論的不確実性の検討と,未知覚データに対する予測分布の再調整を行った。 計算機実験により,2つの公開分子ベンチマークデータセット,qm9とpc9のトレーニングデータ分布における不確かさを校正した分子形成エネルギーを予測するための正確なモデルが得られた。 提案手法はニューラルネットワークアンサンブルモデルのトレーニングと評価のための一般的な枠組みを提供し,不確かさを校正した分子の性質の正確な予測を実現できる。

Data-driven methods based on machine learning have the potential to accelerate analysis of atomic structures. However, machine learning models can produce overconfident predictions and it is therefore crucial to detect and handle uncertainty carefully. Here, we extend a message passing neural network designed specifically for predicting properties of molecules and materials with a calibrated probabilistic predictive distribution. The method presented in this paper differs from the previous work by considering both aleatoric and epistemic uncertainty in a unified framework, and by re-calibrating the predictive distribution on unseen data. Through computer experiments, we show that our approach results in accurate models for predicting molecular formation energies with calibrated uncertainty in and out of the training data distribution on two public molecular benchmark datasets, QM9 and PC9. The proposed method provides a general framework for training and evaluating neural network ensemble models that are able to produce accurate predictions of properties of molecules with calibrated uncertainty.
翻訳日:2021-07-14 18:54:58 公開日:2021-07-13
# (参考訳) 機械学習に基づく極値理論におけるハイパーパラメータの選択について [全文訳有]

On Choice of Hyper-parameter in Extreme Value Theory based on Machine Learning Techniques ( http://arxiv.org/abs/2107.06074v1 )

ライセンス: CC BY 4.0
Chikara Nakamura(参考訳) 極値理論(EVT)は極端な事象を分析する統計ツールである。 理論的な背景は強いが、EVTを適用するにはハイパーパラメータを選択する必要がある。 近年の機械学習研究において,ハイパーパラメータの選択手法がよく研究されている。 本稿では,機械学習手法に基づいてevtにおけるハイパーパラメータを選択する新しい手法を提案する。 また,本手法を実世界のデータに適用し,有効利用性を示す。

Extreme value theory (EVT) is a statistical tool for analysis of extreme events. It has a strong theoretical background, however, we need to choose hyper-parameters to apply EVT. In recent studies of machine learning, techniques of choosing hyper-parameters have been well-studied. In this paper, we propose a new method of choosing hyper-parameters in EVT based on machine learning techniques. We also experiment our method to real-world data and show good usability of our method.
翻訳日:2021-07-14 18:37:33 公開日:2021-07-13
# (参考訳) 交通信号制御最適化のための深層強化学習手法 [全文訳有]

A Deep Reinforcement Learning Approach for Traffic Signal Control Optimization ( http://arxiv.org/abs/2107.06115v1 )

ライセンス: CC BY 4.0
Zhenning Li, Chengzhong Xu, Guohui Zhang(参考訳) 非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。 強化学習(rl)は、複雑な都市交通ネットワークにおける適応的交通信号制御のためのトレンドデータ駆動アプローチである。 ディープニューラルネットワーク(DNN)の開発は、学習能力をさらに強化するが、非定常環境、探索-探索ジレンマ、マルチエージェントトレーニングスキーム、連続アクションスペースなど、複数の信号化交差点を持つ交通ネットワークにディープRを適用する上ではまだ、いくつかの課題がある。 これらの問題に対処するため,本稿では,アクタ-批判的ポリシー勾配アルゴリズムを拡張したマルチエージェント・ディープ決定性ポリシー勾配法(MADDPG)を提案する。 MADDPGは集中学習と分散実行パラダイムを持ち、批評家はトレーニングプロセスの合理化に追加情報を使用し、アクターは自身のローカルな観察を行う。 本モデルは,都市移動度シミュレーション(SUMO)プラットフォーム上でのシミュレーションにより評価する。 モデル比較結果は,提案アルゴリズムの信号制御における効率性を示す。

Inefficient traffic signal control methods may cause numerous problems, such as traffic congestion and waste of energy. Reinforcement learning (RL) is a trending data-driven approach for adaptive traffic signal control in complex urban traffic networks. Although the development of deep neural networks (DNN) further enhances its learning capability, there are still some challenges in applying deep RLs to transportation networks with multiple signalized intersections, including non-stationarity environment, exploration-exploita tion dilemma, multi-agent training schemes, continuous action spaces, etc. In order to address these issues, this paper first proposes a multi-agent deep deterministic policy gradient (MADDPG) method by extending the actor-critic policy gradient algorithms. MADDPG has a centralized learning and decentralized execution paradigm in which critics use additional information to streamline the training process, while actors act on their own local observations. The model is evaluated via simulation on the Simulation of Urban MObility (SUMO) platform. Model comparison results show the efficiency of the proposed algorithm in controlling traffic lights.
翻訳日:2021-07-14 18:29:41 公開日:2021-07-13
# (参考訳) Delaunay-Graph ニューラルネットワークによるスケーラブル表面再構成 [全文訳有]

Scalable Surface Reconstruction with Delaunay-Graph Neural Networks ( http://arxiv.org/abs/2107.06130v1 )

ライセンス: CC BY 4.0
Raphael Sulzer, Loic Landrieu, Renaud Marlet, Bruno Vallet(参考訳) 本稿では,新しい学習ベース,可視性を考慮した表面再構成手法を提案する。 本手法は,実生活型マルチビューステレオ (mvs) におけるポイントクラウドの欠陥のスケールと多様さに対応できる。 本手法は, 3次元デラウネー四面体化法を用いて, 細胞をグラフニューラルネットワークとグラフカットで溶解可能なエネルギーモデルにより, 内部および外部に分類した。 私たちのモデルは,局所幾何学的属性と視線視認性情報の両方を用いて,少量の合成訓練データから可視性モデルを学び,実生活の獲得に一般化する。 ディープラーニング手法の効率性とエネルギーベースモデルのスケーラビリティを両立させ,学習アルゴリズムと非学習ベース再構築アルゴリズムを両ベンチマークで比較した。

We introduce a novel learning-based, visibility-aware, surface reconstruction method for large-scale, defect-laden point clouds. Our approach can cope with the scale and variety of point cloud defects encountered in real-life Multi-View Stereo (MVS) acquisitions. Our method relies on a 3D Delaunay tetrahedralization whose cells are classified as inside or outside the surface by a graph neural network and an energy model solvable with a graph cut. Our model, making use of both local geometric attributes and line-of-sight visibility information, is able to learn a visibility model from a small amount of synthetic training data and generalizes to real-life acquisitions. Combining the efficiency of deep learning methods and the scalability of energy based models, our approach outperforms both learning and non learning-based reconstruction algorithms on two publicly available reconstruction benchmarks.
翻訳日:2021-07-14 18:10:22 公開日:2021-07-13
# (参考訳) IWSLT 2021 BUT音声翻訳システム [全文訳有]

The IWSLT 2021 BUT Speech Translation Systems ( http://arxiv.org/abs/2107.06155v1 )

ライセンス: CC BY 4.0
Hari Krishna Vydana, Martin Karafi'at, Luk'as Burget, "Honza" Cernock'y(参考訳) 本稿では、IWSLT2021向けに開発されたBUTの音声翻訳システムについて述べる。 これらは、自動音声認識と機械翻訳を共同で訓練したモデルに基づいている。 それらの性能はMustC-Commonテストセットで評価される。 本研究では,ASR訓練データとMT訓練データとを分離し,音声翻訳訓練データが少ない観点から,それらの効率性について検討する。 ASRおよびMTモデルの事前訓練に大量のASRおよびMTトレーニングデータを利用する。 音声翻訳データを用いて、音声から翻訳へのエンドツーエンドの微分パスを定義することにより、ASR-MTモデルを協調的に最適化する。 本研究では,ASRデコーダの内部連続表現をMTモジュールへの入力として使用する。 テキストのみのMT学習データを用いて,ASRデコーダをMTモジュールと共同で訓練することにより,音声翻訳をさらに改善できることを示す。 また,句読点タスクをmtモジュールに残さずに,句読点テキストを生成可能なasrモジュールをトレーニングすることで,大幅に改善した。

The paper describes BUT's English to German offline speech translation(ST) systems developed for IWSLT2021. They are based on jointly trained Automatic Speech Recognition-Machine Translation models. Their performances is evaluated on MustC-Common test set. In this work, we study their efficiency from the perspective of having a large amount of separate ASR training data and MT training data, and a smaller amount of speech-translation training data. Large amounts of ASR and MT training data are utilized for pre-training the ASR and MT models. Speech-translation data is used to jointly optimize ASR-MT models by defining an end-to-end differentiable path from speech to translations. For this purpose, we use the internal continuous representations from the ASR-decoder as the input to MT module. We show that speech translation can be further improved by training the ASR-decoder jointly with the MT-module using large amount of text-only MT training data. We also show significant improvements by training an ASR module capable of generating punctuated text, rather than leaving the punctuation task to the MT module.
翻訳日:2021-07-14 17:47:31 公開日:2021-07-13
# (参考訳) スパースニューラルネットワークのロバスト性とそのランダム隠れ構造的前提との相関解析 [全文訳有]

Correlation Analysis between the Robustness of Sparse Neural Networks and their Random Hidden Structural Priors ( http://arxiv.org/abs/2107.06158v1 )

ライセンス: CC BY 4.0
M. Ben Amor, J. Stier, M. Granitzer(参考訳) ディープラーニングモデルは敵の攻撃に弱いことが示されている。 この認識は、パフォーマンス指標の観点からだけでなく、特定のタイプの敵の攻撃に対する堅牢性から、ディープラーニングモデルの解析につながった。 我々は、グラフ理論の観点からニューラルネットワークのアーキテクチャ構造をロバスト性に関連付けるもう1つの一歩を踏み出す。 本研究では,グラフ理論特性とスパースニューラルネットワークのロバスト性との関係について検討する。 我々の仮説は、ニューラルネットワーク構造に先立つグラフ理論特性は、その頑健性に関連しているというものである。 この仮説に答えるために、我々はニューラルネットワークモデルを用いて、ネットワークのスパース構造的先行として用いられるランダムグラフから得られた経験的研究を設計した。 また,基準点としてランダムに刈り取られた完全接続ネットワークの評価についても検討した。 高次グラフ密度は低次ロバスト性に相関するが、平均経路長と平均ノード偏心度はロバスト性尺度と負の相関を示す。 仮説への答えを締めくくるために、さらなる経験的、分析的な研究を動機付けたいと思っています。

Deep learning models have been shown to be vulnerable to adversarial attacks. This perception led to analyzing deep learning models not only from the perspective of their performance measures but also their robustness to certain types of adversarial attacks. We take another step forward in relating the architectural structure of neural networks from a graph theoretic perspective to their robustness. We aim to investigate any existing correlations between graph theoretic properties and the robustness of Sparse Neural Networks. Our hypothesis is, that graph theoretic properties as a prior of neural network structures are related to their robustness. To answer to this hypothesis, we designed an empirical study with neural network models obtained through random graphs used as sparse structural priors for the networks. We additionally investigated the evaluation of a randomly pruned fully connected network as a point of reference. We found that robustness measures are independent of initialization methods but show weak correlations with graph properties: higher graph densities correlate with lower robustness, but higher average path lengths and average node eccentricities show negative correlations with robustness measures. We hope to motivate further empirical and analytical research to tightening an answer to our hypothesis.
翻訳日:2021-07-14 17:34:06 公開日:2021-07-13
# (参考訳) 距離場に基づく3次元パラメトリックワイヤフレーム抽出 [全文訳有]

3D Parametric Wireframe Extraction Based on Distance Fields ( http://arxiv.org/abs/2107.06165v1 )

ライセンス: CC BY 4.0
Albert Matveev, Alexey Artemov, Denis Zorin and Evgeny Burnaev(参考訳) 本稿では,高密度サンプリング点雲からのパラメトリックワイヤフレーム抽出のためのパイプラインを提案する。 我々のアプローチは、最も近い鋭い特徴曲線に近接するスカラー距離場を処理する。 中間段階において、コーナーを検出し、曲線セグメンテーションを構築し、ワイヤフレームに適合したトポロジグラフを構築する。 出力として、任意に編集してサンプル化できるパラメトリックスプライン曲線を生成する。 提案手法を50種類の複雑な3次元形状で評価し,新しい深層学習技術と比較し,優れた品質を示す。

We present a pipeline for parametric wireframe extraction from densely sampled point clouds. Our approach processes a scalar distance field that represents proximity to the nearest sharp feature curve. In intermediate stages, it detects corners, constructs curve segmentation, and builds a topological graph fitted to the wireframe. As an output, we produce parametric spline curves that can be edited and sampled arbitrarily. We evaluate our method on 50 complex 3D shapes and compare it to the novel deep learning-based technique, demonstrating superior quality.
翻訳日:2021-07-14 17:22:23 公開日:2021-07-13
# (参考訳) どんな分類器が知らないか知ってる? [全文訳有]

What classifiers know what they don't? ( http://arxiv.org/abs/2107.06217v1 )

ライセンス: CC BY 4.0
Mohamed Ishmael Belghazi and David Lopez-Paz(参考訳) 未知の状況に直面することが、インテリジェントな意思決定の鍵となる。 しかし、機械学習アルゴリズムは予測の不確実性に関する信頼性の高い推定を欠いている。 これは、トレーニング中にクラスが見当たらないとき、誤った、過度に信頼できる判断につながる。 実世界に向けて不確実性推定を備えた分類器の装備の重要性にもかかわらず、以前の研究は小さなデータセットに重点を置いており、トレーニングとテストデータのクラス差はほとんど、あるいは全くない。 このギャップを埋めるために,我々は,深層画像分類器の予測不確実性評価を行う,現実的なイメージネット規模のテストベッドであるUIMNETを紹介した。 我々のベンチマークでは,8つの最先端アルゴリズム,6つの不確実性尺度,4つのドメイン内メトリック,3つのドメイン外メトリクス,およびモデルのトレーニング,キャリブレーション,アンサンブル,セレクション,評価のための完全自動化パイプラインを実装している。 テストベッドはオープンソースで、その結果はすべて、リポジトリの固定コミットから再現可能です。 新しいデータセット、アルゴリズム、測定値、メトリクスの追加は、数行のコードインの問題であり、uimnetが現実的な、厳密で再現可能な不確実性推定の研究への一歩になることを願っている。 ERM分類器のアンサンブルと単一MIMO分類器のアンサンブルは、ドメイン内およびドメイン外両方の不確実性を測定するために現在利用できる2つの選択肢である。

Being uncertain when facing the unknown is key to intelligent decision making. However, machine learning algorithms lack reliable estimates about their predictive uncertainty. This leads to wrong and overly-confident decisions when encountering classes unseen during training. Despite the importance of equipping classifiers with uncertainty estimates ready for the real world, prior work has focused on small datasets and little or no class discrepancy between training and testing data. To close this gap, we introduce UIMNET: a realistic, ImageNet-scale test-bed to evaluate predictive uncertainty estimates for deep image classifiers. Our benchmark provides implementations of eight state-of-the-art algorithms, six uncertainty measures, four in-domain metrics, three out-domain metrics, and a fully automated pipeline to train, calibrate, ensemble, select, and evaluate models. Our test-bed is open-source and all of our results are reproducible from a fixed commit in our repository. Adding new datasets, algorithms, measures, or metrics is a matter of a few lines of code-in so hoping that UIMNET becomes a stepping stone towards realistic, rigorous, and reproducible research in uncertainty estimation. Our results show that ensembles of ERM classifiers as well as single MIMO classifiers are the two best alternatives currently available to measure uncertainty about both in-domain and out-domain classes.
翻訳日:2021-07-14 17:13:06 公開日:2021-07-13
# (参考訳) 悲観的モデルベースオフラインRL:PAC境界と部分被覆下での後方サンプリング

Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling under Partial Coverage ( http://arxiv.org/abs/2107.06226v1 )

ライセンス: CC BY 4.0
Masatoshi Uehara, Wen Sun(参考訳) 汎用関数近似を用いたモデルベースオフライン強化学習について検討した。 本稿では,一般関数クラスを利用してペシミズムを符号化する制約付き悲観的政策最適化(cppo)というアルゴリズムを提案する。 基底真理モデルが我々の関数クラスに属するという仮定の下で、CPPOは、部分的カバレッジのみを提供するオフラインデータ、すなわち、関数クラスの統計的複雑さに関する多項式サンプル複雑性において、オフラインデータによってカバーされるポリシーに対して完全なポリシーを学ぶことができる。 そして、このアルゴリズムの枠組みが多くの特殊なマルコフ決定プロセスに適用できることを示し、そこでは構造的仮定が部分的カバレッジの概念をさらに洗練することができる。 1つの顕著な例は、表現学習を伴う低ランク MDP であり、その部分的カバレッジは、基礎となる未知の基底的真理特徴表現によって測定される相対的条件数の概念を用いて定義される。 最後に、オフラインRLにおけるベイズの設定を紹介し、研究する。 ベイズ的オフラインRLの重要な利点は、アルゴリズム的に、線形構造を持つモデルを超えて難しいペシミズムや報酬のペナルティを明示的に構築する必要はないことである。 本稿では,後方分布からモデルを反復的にサンプリングし,サンプルモデル内で1段階の漸進的ポリシー最適化を行うことにより,後続サンプリングに基づく漸進的ポリシー最適化アルゴリズム(ps-po)を提案する。 理論的には、PS-POは以前の分布に期待して、多項式サンプルの複雑さを伴う部分的カバレッジの下で、ほぼ最適なポリシーを学ぶことができる。

We study model-based offline Reinforcement Learning with general function approximation. We present an algorithm named Constrained Pessimistic Policy Optimization (CPPO) which leverages a general function class and uses a constraint to encode pessimism. Under the assumption that the ground truth model belongs to our function class, CPPO can learn with the offline data only providing partial coverage, i.e., it can learn a policy that completes against any policy that is covered by the offline data, in polynomial sample complexity with respect to the statistical complexity of the function class. We then demonstrate that this algorithmic framework can be applied to many specialized Markov Decision Processes where the additional structural assumptions can further refine the concept of partial coverage. One notable example is low-rank MDP with representation learning where the partial coverage is defined using the concept of relative condition number measured by the underlying unknown ground truth feature representation. Finally, we introduce and study the Bayesian setting in offline RL. The key benefit of Bayesian offline RL is that algorithmically, we do not need to explicitly construct pessimism or reward penalty which could be hard beyond models with linear structures. We present a posterior sampling-based incremental policy optimization algorithm (PS-PO) which proceeds by iteratively sampling a model from the posterior distribution and performing one-step incremental policy optimization inside the sampled model. Theoretically, in expectation with respect to the prior distribution, PS-PO can learn a near optimal policy under partial coverage with polynomial sample complexity.
翻訳日:2021-07-14 15:59:29 公開日:2021-07-13
# (参考訳) 教師なしドメイン適応のための自己組織化学習による画像翻訳 [全文訳有]

Exploiting Image Translations via Ensemble Self-Supervised Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2107.06235v1 )

ライセンス: CC BY 4.0
Fabrizio J. Piva, Gijs Dubbelman(参考訳) 本稿では,複数の画像翻訳,アンサンブル学習,自己教師あり学習を組み合わせた,unsupervised domain adaption (uda)戦略を提案する。 我々は,ラベル付き合成データとラベル付き実世界のデータを用いてセグメンテーションモデルを訓練するUDAの標準的なタスクの1つに着目し,後者の性能向上を目指す。 そこで本研究では,3つの分類器が異なる画像翻訳の入力特徴として計算し,各分類器が独立して学習し,それらの出力を疎多項ロジスティック回帰によって組み合わせて予測するアンサンブル学習手法を提案する。 メタラーナーとして知られる回帰レイヤは、自己教師付き学習を行う際に擬似ラベル生成時のバイアスを低減し、各分類器の寄与を考慮してモデルの一般化性を向上させる。 標準 UDA ベンチマーク,すなわち,本手法の評価を行った。 GTA V と Synthia を都市景観に適用し、最先端の成果を達成すれば、ユニオン計量の平均交叉が得られる。 広範なアブレーション実験を行い,提案するuda戦略の有利性を強調した。

We introduce an unsupervised domain adaption (UDA) strategy that combines multiple image translations, ensemble learning and self-supervised learning in one coherent approach. We focus on one of the standard tasks of UDA in which a semantic segmentation model is trained on labeled synthetic data together with unlabeled real-world data, aiming to perform well on the latter. To exploit the advantage of using multiple image translations, we propose an ensemble learning approach, where three classifiers calculate their prediction by taking as input features of different image translations, making each classifier learn independently, with the purpose of combining their outputs by sparse Multinomial Logistic Regression. This regression layer known as meta-learner helps to reduce the bias during pseudo label generation when performing self-supervised learning and improves the generalizability of the model by taking into consideration the contribution of each classifier. We evaluate our method on the standard UDA benchmarks, i.e. adapting GTA V and Synthia to Cityscapes, and achieve state-of-the-art results in the mean intersection over union metric. Extensive ablation experiments are reported to highlight the advantageous properties of our proposed UDA strategy.
翻訳日:2021-07-14 15:58:19 公開日:2021-07-13
# (参考訳) 正当化意思決定のための公平性を考慮した要約 [全文訳有]

Fairness-aware Summarization for Justified Decision-Making ( http://arxiv.org/abs/2107.06243v1 )

ライセンス: CC BY 4.0
Moniba Keymanesh, Tanya Berger-Wolf, Micha Elsner, Srinivasan Parthasarathy(参考訳) recidivism prediction, facility inspection, benefit assignmentといった多くのアプリケーションでは、個人がモデル予測の意思決定に関連する情報を知ることが重要である。 さらに、モデルの予測はかなり正当化されるべきである。 本質的に、意思決定に関連する特徴は、予測された結果に十分な情報を提供し、人種や性別のような保護されたグループ内の個人のメンバーシップから独立すべきである。 本研究では,テキストベースニューラルモデルの正当化における不公平性の問題に焦点をあてる。 モデルの説明力と結果の公平性とを結びつけるとともに,そのバイアスを検出し,対処するための公平性を考慮した要約機構を提案する。 決定のための潜在的なバイアスのある自然言語の説明を考えると、我々は多タスクニューラルモデルと統合勾配に基づく帰属機構を用いて、要約の形で高実用性と差別なしの正当化を抽出する。 抽出された要約は、個人のための決定を行うためのモデルをトレーニングするために使用される。 i)モデルの決定にどの情報が使われているかを理解するのを支援し、(ii)人口統計学的漏洩を著しく減少させながら、結果の公平性を高める。

In many applications such as recidivism prediction, facility inspection, and benefit assignment, it's important for individuals to know the decision-relevant information for the model's prediction. In addition, the model's predictions should be fairly justified. Essentially, decision-relevant features should provide sufficient information for the predicted outcome and should be independent of the membership of individuals in protected groups such as race and gender. In this work, we focus on the problem of (un)fairness in the justification of the text-based neural models. We tie the explanatory power of the model to fairness in the outcome and propose a fairness-aware summarization mechanism to detect and counteract the bias in such models. Given a potentially biased natural language explanation for a decision, we use a multi-task neural model and an attribution mechanism based on integrated gradients to extract the high-utility and discrimination-free justifications in the form of a summary. The extracted summary is then used for training a model to make decisions for individuals. Results on several real-world datasets suggests that our method: (i) assists users to understand what information is used for the model's decision and (ii) enhances the fairness in outcomes while significantly reducing the demographic leakage.
翻訳日:2021-07-14 15:32:50 公開日:2021-07-13
# RLの一般化が難しい理由:てんかん性POMDPと難治部分可観測性

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability ( http://arxiv.org/abs/2107.06277v1 )

ライセンス: Link先を確認
Dibya Ghosh, Jad Rahme, Aviral Kumar, Amy Zhang, Ryan P. Adams, Sergey Levine(参考訳) 一般化は、実世界における強化学習(RL)システムの展開における中心的な課題である。 本稿では,RL問題の逐次構造は,教師あり学習においてよく研究された手法を超えた,新たな一般化手法を必要とすることを示す。 教師付き学習法は, 先天的不確実性を明示的に考慮せずに効果的に一般化することができるが, 意外なことに, RLではそうではない。 限られた訓練条件から見つからないテスト条件への一般化は、暗黙的な部分観測可能性をもたらし、完全に観察されたMDPをPOMDPに変換する。 この観察から,我々は認識論的pomdpと呼ばれる部分的観測マルコフ決定過程の解法として,rlの一般化の問題を再演する。 この部分可観測性を適切に処理しないアルゴリズムの故障モードを実証し、部分可観測問題を近似解くための単純なアンサンブルに基づく手法を提案する。 実証的な結果として,疫学的なPOMDPから得られた簡単なアルゴリズムが,Procgenベンチマークスイートの現在の手法よりも大幅に向上することを示した。

Generalization is a central challenge for the deployment of reinforcement learning (RL) systems in the real world. In this paper, we show that the sequential structure of the RL problem necessitates new approaches to generalization beyond the well-studied techniques used in supervised learning. While supervised learning methods can generalize effectively without explicitly accounting for epistemic uncertainty, we show that, perhaps surprisingly, this is not the case in RL. We show that generalization to unseen test conditions from a limited number of training conditions induces implicit partial observability, effectively turning even fully-observed MDPs into POMDPs. Informed by this observation, we recast the problem of generalization in RL as solving the induced partially observed Markov decision process, which we call the epistemic POMDP. We demonstrate the failure modes of algorithms that do not appropriately handle this partial observability, and suggest a simple ensemble-based technique for approximately solving the partially observed problem. Empirically, we demonstrate that our simple algorithm derived from the epistemic POMDP achieves significant gains in generalization over current methods on the Procgen benchmark suite.
翻訳日:2021-07-14 14:59:33 公開日:2021-07-13
# AlterSGD:代替学習による継続学習のためのフラットミニマを見つける

AlterSGD: Finding Flat Minima for Continual Learning by Alternative Training ( http://arxiv.org/abs/2107.05804v1 )

ライセンス: Link先を確認
Zhongzhan Huang, Mingfu Liang, Senwei Liang, Wei He(参考訳) ディープニューラルネットワークは、複数の知識を逐次学習するときに壊滅的な忘れがちであり、この問題を軽減するために多くのアプローチが提案されている。 これらの手法のいくつかは、平らな局所最小値と連続学習における緩和を忘れることとを関連付けることで、かなりの性能を発揮した。 しかし、それらは必然的に(1)退屈なハイパーパラメータチューニング、(2)追加の計算コストを必要とする。 そこで本研究では,損失景観における平坦な最小値を求めるために,AlterSGDと呼ばれる単純な最適化手法を提案する。 AlterSGDでは、新たな知識を学習する各セッションでネットワークが収束する傾向にある場合、勾配降下と上昇を行う。 さらに、そのような戦略が最適化をフラットなミニマに収束させることを理論的に証明する。 意味セグメンテーションのための連続学習ベンチマークのaltersgdを検証し, 実験結果から, 連続学習プロトコルの難易度において, 最先端の手法の忘れ方や超越性を著しく軽減できることを示した。

Deep neural networks suffer from catastrophic forgetting when learning multiple knowledge sequentially, and a growing number of approaches have been proposed to mitigate this problem. Some of these methods achieved considerable performance by associating the flat local minima with forgetting mitigation in continual learning. However, they inevitably need (1) tedious hyperparameters tuning, and (2) additional computational cost. To alleviate these problems, in this paper, we propose a simple yet effective optimization method, called AlterSGD, to search for a flat minima in the loss landscape. In AlterSGD, we conduct gradient descent and ascent alternatively when the network tends to converge at each session of learning new knowledge. Moreover, we theoretically prove that such a strategy can encourage the optimization to converge to a flat minima. We verify AlterSGD on continual learning benchmark for semantic segmentation and the empirical results show that we can significantly mitigate the forgetting and outperform the state-of-the-art methods with a large margin under challenging continual learning protocols.
翻訳日:2021-07-14 14:59:16 公開日:2021-07-13
# 表現学習モデルの設計について

On Designing Good Representation Learning Models ( http://arxiv.org/abs/2107.05948v1 )

ライセンス: Link先を確認
Qinglin Li, Bin Li, Jonathan M Garibaldi, Guoping Qiu(参考訳) 表現学習の目標は、意思決定などの機械学習の最終的な目的とは異なるため、表現学習モデルを訓練するための明確かつ直接的な目的を確立することは極めて困難である。 優れた表現は、基礎となる変動要因を絡み合うべきであるが、これをトレーニング目的に変換する方法はまだ不明である。 本稿では,良質な表現学習モデルを開発するための直接訓練基準と設計原則を確立する試みについて述べる。 優れた表現学習モデルは、入力構成の最大数を識別できるような、最大表現型であるべきである。 表現性を定義し,一般学習モデルの最大表現性(mexs)定理を導入する。 モデルの滑らかさなどの一般的な事前性も取り入れながら,その表現性を最大化し,モデルを訓練することを提案する。 本稿では,モデルをMEXSに到達させるとともに,モデルのスムーズさを先行する良心競合学習アルゴリズムを提案する。 また、類似したサンプルに一貫したラベルを割り当てることを奨励することにより、モデルの滑らかさを高めるためのラベル一貫性トレーニング(LCT)手法も導入する。 本手法は,最先端の表現と同等かそれ以上に優れた表現を開発できる表現学習モデルを設計することができることを示すために,広範な実験結果を示す。 また,本手法は計算効率が高く,異なるパラメータ設定に対して堅牢であり,様々なデータセットで効果的に動作することを示す。

The goal of representation learning is different from the ultimate objective of machine learning such as decision making, it is therefore very difficult to establish clear and direct objectives for training representation learning models. It has been argued that a good representation should disentangle the underlying variation factors, yet how to translate this into training objectives remains unknown. This paper presents an attempt to establish direct training criterions and design principles for developing good representation learning models. We propose that a good representation learning model should be maximally expressive, i.e., capable of distinguishing the maximum number of input configurations. We formally define expressiveness and introduce the maximum expressiveness (MEXS) theorem of a general learning model. We propose to train a model by maximizing its expressiveness while at the same time incorporating general priors such as model smoothness. We present a conscience competitive learning algorithm which encourages the model to reach its MEXS whilst at the same time adheres to model smoothness prior. We also introduce a label consistent training (LCT) technique to boost model smoothness by encouraging it to assign consistent labels to similar samples. We present extensive experimental results to show that our method can indeed design representation learning models capable of developing representations that are as good as or better than state of the art. We also show that our technique is computationally efficient, robust against different parameter settings and can work effectively on a variety of datasets.
翻訳日:2021-07-14 14:58:57 公開日:2021-07-13
# CADSketchNet' - ディープニューラルネットワークを用いた3次元CADモデル検索のためのアノテーション付きスケッチデータセット

'CADSketchNet' -- An Annotated Sketch dataset for 3D CAD Model Retrieval with Deep Neural Networks ( http://arxiv.org/abs/2107.06212v1 )

ライセンス: Link先を確認
Bharadwaj Manda, Shubham Dhayarkar, Sai Mitheran, V.K. Viekash, Ramanathan Muthuganapathy(参考訳) 3Dモデリングとデジタルアーカイブの分野での進歩は、デジタルに保存されるデータの量を大幅に減らした。 その結果,データベースに格納されるデータの種類に応じて,複数の検索システムが開発された。 しかし、テキストデータや画像とは異なり、3Dモデルの検索は簡単ではない。 3Dモデルの中で、3D Engineering/CADモデルやメカニカルコンポーネントの検索は、穴やボリュームの特徴、鋭いエッジの存在などにより、CAD自体をドメインとして切り離すため、さらに難しい。 本稿では,深層学習に基づく3次元cadモデルの検索システム構築に適したデータセットを開発することを目的とした。 利用可能なCADデータベースから3次元CADモデルを収集し、「CADSketchNet」と呼ばれるコンピュータ生成スケッチデータのデータセットを作成する。 さらにcadsketchnetには、コンポーネントの手書きスケッチも追加されている。 また,本データセットのスケッチ画像を用いて,スケッチ画像を入力クエリとして受信する3次元CADモデルの検索システムや検索エンジンの性能を評価することを目的とした。 多くの実験モデルがcadsketchnetで構築され、テストされている。 これらの実験は、モデルアーキテクチャとともに、検索結果とともに類似度指標の選択を報告する。

Ongoing advancements in the fields of 3D modelling and digital archiving have led to an outburst in the amount of data stored digitally. Consequently, several retrieval systems have been developed depending on the type of data stored in these databases. However, unlike text data or images, performing a search for 3D models is non-trivial. Among 3D models, retrieving 3D Engineering/CAD models or mechanical components is even more challenging due to the presence of holes, volumetric features, presence of sharp edges etc., which make CAD a domain unto itself. The research work presented in this paper aims at developing a dataset suitable for building a retrieval system for 3D CAD models based on deep learning. 3D CAD models from the available CAD databases are collected, and a dataset of computer-generated sketch data, termed 'CADSketchNet', has been prepared. Additionally, hand-drawn sketches of the components are also added to CADSketchNet. Using the sketch images from this dataset, the paper also aims at evaluating the performance of various retrieval system or a search engine for 3D CAD models that accepts a sketch image as the input query. Many experimental models are constructed and tested on CADSketchNet. These experiments, along with the model architecture, choice of similarity metrics are reported along with the search results.
翻訳日:2021-07-14 14:58:34 公開日:2021-07-13
# Heterogeneous Data によるDeep Alzheimer 診断のスケーラブル・軸索的説明

Scalable, Axiomatic Explanations of Deep Alzheimer's Diagnosis from Heterogeneous Data ( http://arxiv.org/abs/2107.05997v1 )

ライセンス: Link先を確認
Sebastian P\"olsterl and Christina Aigner and Christian Wachinger(参考訳) ディープニューラルネットワーク(DNN)は、複雑なバイオメディカルデータから学ぶ大きな可能性を秘めている。 特に、DNNは神経解剖学、遺伝学、バイオマーカー、および高度に正確なアルツハイマー病の診断のための神経心理学的検査から異種情報をシームレスに融合するために使われてきた。 一方, そのブラックボックスの性質は, 解釈可能性が不可欠であるクリニックにおいて, このようなシステムを採用する上で, 依然として障壁となっている。 神経解剖学および表層バイオマーカーの3D点雲からDNNによって診断されたアルツハイマー病の診断を説明するために, ヘテロジニアスニューラルネットワーク(SVEHNN)のShapley Value Explanationを提案する。 我々の説明はシェープリー値に基づいており、これは文献で以前に確立された局所的な説明のために全ての基本公理を満たすユニークな方法である。 このように、SVEHNNは、これまでの医学的意思決定における解釈可能性の欠如に多くの望ましい特徴を持っている。 そこで本稿では,Shapley値の指数時間的複雑性を回避するために,与えられたDNNを再学習せずに軽量確率的深層ネットワークに変換することを提案する。 合成データと実データに関する実験では、シャプリーの正確な値を劇的に削減し、ネットワークがデータから学んだ隠れた知識を明らかにすることができることを示した。

Deep Neural Networks (DNNs) have an enormous potential to learn from complex biomedical data. In particular, DNNs have been used to seamlessly fuse heterogeneous information from neuroanatomy, genetics, biomarkers, and neuropsychological tests for highly accurate Alzheimer's disease diagnosis. On the other hand, their black-box nature is still a barrier for the adoption of such a system in the clinic, where interpretability is absolutely essential. We propose Shapley Value Explanation of Heterogeneous Neural Networks (SVEHNN) for explaining the Alzheimer's diagnosis made by a DNN from the 3D point cloud of the neuroanatomy and tabular biomarkers. Our explanations are based on the Shapley value, which is the unique method that satisfies all fundamental axioms for local explanations previously established in the literature. Thus, SVEHNN has many desirable characteristics that previous work on interpretability for medical decision making is lacking. To avoid the exponential time complexity of the Shapley value, we propose to transform a given DNN into a Lightweight Probabilistic Deep Network without re-training, thus achieving a complexity only quadratic in the number of features. In our experiments on synthetic and real data, we show that we can closely approximate the exact Shapley value with a dramatically reduced runtime and can reveal the hidden knowledge the network has learned from the data.
翻訳日:2021-07-14 14:58:17 公開日:2021-07-13
# 誰もがユニークな: 偏りのないメッシュリカバリに向けて

Everybody Is Unique: Towards Unbiased Human Mesh Recovery ( http://arxiv.org/abs/2107.06239v1 )

ライセンス: Link先を確認
Ren Li and Meng Zheng and Srikrishna Karanam and Terrence Chen and Ziyan Wu(参考訳) 我々は、肥満者のメッシュ回復、すなわちパラメトリックなヒューマンメッシュを肥満者の画像に適用する問題を考える。 肥満者のメッシュフィッティングは多くのアプリケーション(例えばヘルスケア)において重要な問題であるにもかかわらず、メッシュリカバリの進歩は非肥満者の画像に限られている。 本研究では,既存のアルゴリズムの限界を提示し,議論することで,現在の文献におけるこの重要なギャップを明らかにする。 次に,既存のアルゴリズムと組み合わせることで,その性能を向上させることが可能な,スケーラブルなこの問題に対処するためのシンプルなベースラインを提案する。 最後に,肥満者画像とコミュニティ標準ベンチマークデータセットの両方において,既存の手法の性能を大幅に向上させる汎用的ヒューマンメッシュ最適化アルゴリズムを提案する。 この技術の重要なイノベーションは、高価なメッシュパラメータからの監督に依存しないことだ。 代わりに、広くかつ安価な2dキーポイントアノテーションから始め、既存のメッシュ推定アルゴリズムを再訓練し、微調整するために使用できるメッシュパラメータを自動的に生成します。 そこで,本手法は,様々なメッシュ推定手法の性能を向上させるためのドロップインとして機能することを示す。 標準人物画像と肥満人物画像の両方を含む複数のデータセットについて広範な実験を行い,提案手法の有効性を実証する。

We consider the problem of obese human mesh recovery, i.e., fitting a parametric human mesh to images of obese people. Despite obese person mesh fitting being an important problem with numerous applications (e.g., healthcare), much recent progress in mesh recovery has been restricted to images of non-obese people. In this work, we identify this crucial gap in the current literature by presenting and discussing limitations of existing algorithms. Next, we present a simple baseline to address this problem that is scalable and can be easily used in conjunction with existing algorithms to improve their performance. Finally, we present a generalized human mesh optimization algorithm that substantially improves the performance of existing methods on both obese person images as well as community-standard benchmark datasets. A key innovation of this technique is that it does not rely on supervision from expensive-to-create mesh parameters. Instead, starting from widely and cheaply available 2D keypoints annotations, our method automatically generates mesh parameters that can in turn be used to re-train and fine-tune any existing mesh estimation algorithm. This way, we show our method acts as a drop-in to improve the performance of a wide variety of contemporary mesh estimation methods. We conduct extensive experiments on multiple datasets comprising both standard and obese person images and demonstrate the efficacy of our proposed techniques.
翻訳日:2021-07-14 14:57:30 公開日:2021-07-13
# HAT: 人物再識別のための階層的集約変換器

HAT: Hierarchical Aggregation Transformers for Person Re-identification ( http://arxiv.org/abs/2107.05946v1 )

ライセンス: Link先を確認
Guowen Zhang and Pingping Zhang and Jinqing Qi and Huchuan Lu(参考訳) 近年、深層畳み込みニューラルネットワーク(CNN)の進歩により、人物認識(Re-ID)は様々なアプリケーションで大きな成功を収めている。 しかしながら、cnnの受容領域が限られているにもかかわらず、非オーバーラップカメラ下の人々のグローバルビューで差別表現を抽出することは依然として困難である。 一方、トランスフォーマーは、空間的およびシーケンシャルなデータに対する長距離依存をモデル化する強力な能力を示す。 本研究では,CNNとトランスフォーマーの双方の利点を生かし,ハイパフォーマンスな人物Re-IDのための階層型アグリゲーショントランスフォーマ(HAT)という新しい学習フレームワークを提案する。 この目的を達成するために,我々はまず,CNNバックボーンから階層的特徴を逐次集約するDeeply Supervised Aggregation (DSA)を提案する。 マルチグラニュラリティの監視により、DSAは従来の方法とは大きく異なる、人物検索のためのマルチスケール機能を強化することができる。 次に,高レベル意味情報のグローバルプリエントとして低レベル詳細情報を統合するトランスフォーマティブ型特徴量校正(tfc)を提案する。 提案したTFCは階層的な各レベルに挿入され,性能が向上した。 我々の知る限り、この研究は、画像ベースのRe-IDに対して、CNNとTransformerの両方の利点を利用する最初のものである。 4つの大規模Re-IDベンチマークの総合的な実験により,本手法はいくつかの最先端手法よりも優れた結果を示した。 コードはhttps://github.com/A I-Zhpp/HATで公開されている。

Recently, with the advance of deep Convolutional Neural Networks (CNNs), person Re-Identification (Re-ID) has witnessed great success in various applications. However, with limited receptive fields of CNNs, it is still challenging to extract discriminative representations in a global view for persons under non-overlapped cameras. Meanwhile, Transformers demonstrate strong abilities of modeling long-range dependencies for spatial and sequential data. In this work, we take advantages of both CNNs and Transformers, and propose a novel learning framework named Hierarchical Aggregation Transformer (HAT) for image-based person Re-ID with high performance. To achieve this goal, we first propose a Deeply Supervised Aggregation (DSA) to recurrently aggregate hierarchical features from CNN backbones. With multi-granularity supervisions, the DSA can enhance multi-scale features for person retrieval, which is very different from previous methods. Then, we introduce a Transformer-based Feature Calibration (TFC) to integrate low-level detail information as the global prior for high-level semantic information. The proposed TFC is inserted to each level of hierarchical features, resulting in great performance improvements. To our best knowledge, this work is the first to take advantages of both CNNs and Transformers for image-based person Re-ID. Comprehensive experiments on four large-scale Re-ID benchmarks demonstrate that our method shows better results than several state-of-the-art methods. The code is released at https://github.com/A I-Zhpp/HAT.
翻訳日:2021-07-14 14:56:56 公開日:2021-07-13
# 地球観測変化検出のための深層学習手法

Deep learning approaches to Earth Observation change detection ( http://arxiv.org/abs/2107.06132v1 )

ライセンス: Link先を確認
Antonio Di Pilato, Nicol\`o Taggio, Alexis Pompili, Michele Iacobellis, Adriano Di Florio, Davide Passarelli, Sergio Samarelli(参考訳) 近年,リモートセンシング分野における変化検出への関心が高まっている。 衛星画像の変化の探索は、土地被覆や土地利用分析から異常検出まで、多くの有用な応用がある。 特に、都市変化検出は、数年間の観測を通して都市の拡大と成長を研究する効率的なツールを提供する。 同時に、変更検出は計算上困難かつ時間のかかるタスクであり、疑わしい値と妥当な時間内で最適な結果を保証するための革新的な方法が必要となる。 本稿では、畳み込みニューラルネットワークを用いて良好な結果を得るための2つの異なるアプローチ(セマンティックセグメンテーションと分類)を提案する。

The interest for change detection in the field of remote sensing has increased in the last few years. Searching for changes in satellite images has many useful applications, ranging from land cover and land use analysis to anomaly detection. In particular, urban change detection provides an efficient tool to study urban spread and growth through several years of observation. At the same time, change detection is often a computationally challenging and time-consuming task, which requires innovative methods to guarantee optimal results with unquestionable value and within reasonable time. In this paper we present two different approaches to change detection (semantic segmentation and classification) that both exploit convolutional neural networks to achieve good results, which can be further refined and used in a post-processing workflow for a large variety of applications.
翻訳日:2021-07-14 14:56:29 公開日:2021-07-13
# 金融ドメインのセマンティック表現を改善するためのネットワーク構造の構築

Exploiting Network Structures to Improve Semantic Representation for the Financial Domain ( http://arxiv.org/abs/2107.05885v1 )

ライセンス: Link先を確認
Chao Feng, Shi-jie We(参考訳) 本稿では,finsim-3の共通課題である英語の金融分野における意味的類似性学習におけるminitrueチームへの参加について述べる。 提案手法は,変換言語モデルから学習した文脈埋め込みと外部知識ソースから抽出したネットワーク構造埋め込みを組み合わせることで,金融ドメインエンティティや用語のより意味のある表現を生成する。 このため、BERTベースの2つの言語モデルと知識グラフ埋め込みモデルを使用する。 さらに,最終推論のための3つの基本モデルを結合する投票関数を提案する。 実験の結果,知識グラフ埋め込みモデルが,文脈埋め込みのみを用いたモデルよりも優れた結果を得たことがわかった。 それでも、我々の投票機能が最終システムにさらなる利益をもたらすことも観察する。

This paper presents the participation of the MiniTrue team in the FinSim-3 shared task on learning semantic similarities for the financial domain in English language. Our approach combines contextual embeddings learned by transformer-based language models with network structures embeddings extracted on external knowledge sources, to create more meaningful representations of financial domain entities and terms. For this, two BERT based language models and a knowledge graph embedding model are used. Besides, we propose a voting function to joint three basic models for the final inference. Experimental results show that the model with the knowledge graph embeddings has achieved a superior result than these models with only contextual embeddings. Nevertheless, we also observe that our voting function brings an extra benefit to the final system.
翻訳日:2021-07-14 14:55:58 公開日:2021-07-13
# Carle's Game: 探索機械の創造性への挑戦

Carle's Game: An Open-Ended Challenge in Exploratory Machine Creativity ( http://arxiv.org/abs/2107.05786v1 )

ライセンス: Link先を確認
Q. Tyrell Davis(参考訳) この論文は紹介と招待の両方です。 ライフライクなセルオートマトンシミュレータと強化学習環境であるCARLEの導入である。 また、オープンエンドマシン探索と創造性の挑戦であるCarle's Gameへの招待でもある。 複数のセルオートマチック宇宙にまたがる興味深いパターンを作るために、機械エージェントを誘導することは大きな課題であり、この課題に取り組むには、人工生命、AI、機械学習、複雑さの分野から、さまざまなレベルの関心を持って貢献する必要がある。 Carle's Gameはセルラーオートマタ強化学習環境であるCARLEとのマシンエージェントインタラクションに基づいている。 CARLEは柔軟で、ライフライクなセルオートマトン宇宙を定義する262,144のルールをシミュレートすることができる。 carleはまた高速で、ベクトル化とgpuアクセラレーションの組み合わせによって、毎秒数万歩の速度でオートマトン宇宙をシミュレートすることができる。 最後に、CARLEは単純です。 人間のプレイヤー向けに設計された高忠実な物理シミュレータやビデオゲームと比較すると、CARLEの2次元グリッドワールドは複雑さにもかかわらず、離散的で決定論的でアトミックな普遍的な遊び場を提供する。 CARLEと組み合わせて、Carle's Gameは、エージェントポリシー、学習とメタ学習アルゴリズム、そして、探索や特定のタスクを奨励するために調整可能な報酬ラッパーのセットを提供する。

This paper is both an introduction and an invitation. It is an introduction to CARLE, a Life-like cellular automata simulator and reinforcement learning environment. It is also an invitation to Carle's Game, a challenge in open-ended machine exploration and creativity. Inducing machine agents to excel at creating interesting patterns across multiple cellular automata universes is a substantial challenge, and approaching this challenge is likely to require contributions from the fields of artificial life, AI, machine learning, and complexity, at multiple levels of interest. Carle's Game is based on machine agent interaction with CARLE, a Cellular Automata Reinforcement Learning Environment. CARLE is flexible, capable of simulating any of the 262,144 different rules defining Life-like cellular automaton universes. CARLE is also fast and can simulate automata universes at a rate of tens of thousands of steps per second through a combination of vectorization and GPU acceleration. Finally, CARLE is simple. Compared to high-fidelity physics simulators and video games designed for human players, CARLE's two-dimensional grid world offers a discrete, deterministic, and atomic universal playground, despite its complexity. In combination with CARLE, Carle's Game offers an initial set of agent policies, learning and meta-learning algorithms, and reward wrappers that can be tailored to encourage exploration or specific tasks.
翻訳日:2021-07-14 14:55:30 公開日:2021-07-13
# 注意政策プログラミング:強化学習のための単調政策改善におけるkl正規化の活用

Cautious Policy Programming: Exploiting KL Regularization in Monotonic Policy Improvement for Reinforcement Learning ( http://arxiv.org/abs/2107.05798v1 )

ライセンス: Link先を確認
Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara(参考訳) 本稿では,学習中に単調なポリシー改善を実現するための新しい価値ベース強化学習(rl)アルゴリズムである,注意ポリシープログラミング(cpp)を提案する。 エントロピー正規化rlの性質に基づき、期待されるポリシーアドバンテージ関数を推定するだけで済む新しいエントロピー正規化・アウェアローバウンドのポリシー改善を導出する。 cppはこの下限を基準として、政策の変動を軽減するための政策更新の程度を調整する。 主に理論指向の類似アルゴリズムと異なり、CPPを高次元制御問題においてより良くスケールさせる新しい補間スキームも提案する。 提案アルゴリズムがoを取引できることを実証する。 ドクティック古典制御問題と高次元アタリゲームの両方のパフォーマンスと安定性。

In this paper, we propose cautious policy programming (CPP), a novel value-based reinforcement learning (RL) algorithm that can ensure monotonic policy improvement during learning. Based on the nature of entropy-regularized RL, we derive a new entropy regularization-aware lower bound of policy improvement that only requires estimating the expected policy advantage function. CPP leverages this lower bound as a criterion for adjusting the degree of a policy update for alleviating policy oscillation. Different from similar algorithms that are mostly theory-oriented, we also propose a novel interpolation scheme that makes CPP better scale in high dimensional control problems. We demonstrate that the proposed algorithm can trade o? performance and stability in both didactic classic control problems and challenging high-dimensional Atari games.
翻訳日:2021-07-14 14:55:09 公開日:2021-07-13
# 逐次的意思決定タスクにおけるヒューマンガイダンス活用の最近の進歩

Recent Advances in Leveraging Human Guidance for Sequential Decision-Making Tasks ( http://arxiv.org/abs/2107.05825v1 )

ライセンス: Link先を確認
Ruohan Zhang, Faraz Torabi, Garrett Warnell, Peter Stone(参考訳) 人工知能の長年の目標は、連続的な意思決定を必要とするタスクを実行するために学習できるエージェントを作ることである。 重要なのは、学習し行動する人工エージェントであるが、実行すべき特定のタスクを特定するのは人間次第である。 古典的なタスク特定アプローチは、通常、人間が望ましいタスクの固定的な報酬機能や明示的なデモンストレーションを提供する。 しかし、最近は、人間が学習エージェントを指導したり、例えば特定のタスクに適したり、人間の努力を減らしたりといった方法を模索するために多くの研究エネルギーが投資されている。 この調査は、事前に指定された報酬関数や従来のステップバイステップのアクションデモとは別に、主に人間のガイダンスに依存する、最近の5つの機械学習フレームワークのハイレベルな概要を提供する。 我々は,各フレームワークの動機,前提,実装について検討し,今後の方向性について考察する。

A longstanding goal of artificial intelligence is to create artificial agents capable of learning to perform tasks that require sequential decision making. Importantly, while it is the artificial agent that learns and acts, it is still up to humans to specify the particular task to be performed. Classical task-specification approaches typically involve humans providing stationary reward functions or explicit demonstrations of the desired tasks. However, there has recently been a great deal of research energy invested in exploring alternative ways in which humans may guide learning agents that may, e.g., be more suitable for certain tasks or require less human effort. This survey provides a high-level overview of five recent machine learning frameworks that primarily rely on human guidance apart from pre-specified reward functions or conventional, step-by-step action demonstrations. We review the motivation, assumptions, and implementation of each framework, and we discuss possible future research directions.
翻訳日:2021-07-14 14:54:57 公開日:2021-07-13
# 分割学習による同一プライバシ保存グラフニューラルネットワーク表現に向けて

Towards Representation Identical Privacy-Preserving Graph Neural Network via Split Learning ( http://arxiv.org/abs/2107.05917v1 )

ライセンス: Link先を確認
Chuanqiang Shan, Huiyun Jiao, Jie Fu(参考訳) 近年、グラフニューラルネットワーク(GNN)の研究が急速に増加し、理論研究から現実の応用段階へと移行している。 GNNによる奨励的なパフォーマンスにもかかわらず、関連する文献では、分散グラフデータに対するプライバシー保護トレーニングと推論にはあまり注意が払われていない。 グラフ構造の特異性のため、既存のプライベート学習フレームワークをGNNに拡張することは困難である。 分割学習のアイデアに動機づけられて,水平分割クロスサイロシナリオにおけるノードレベルタスクのための \textbf{s}erver \textbf{a}ided \textbf{p}rivacy-preserving \textbf{gnn} (sapgnn) を提案する。 集約を最大/minプールする分離グラフへの集中型gnnの自然な拡張を提供すると同時に、計算に関わるすべてのプライベートデータがローカルデータホルダに保持されることを保証する。 データプライバシをさらに強化するため,セキュアなプーリング集約機構を提案する。 理論および実験の結果,提案モデルが複合データ上で学習したモデルと同等の精度が得られることがわかった。

In recent years, the fast rise in number of studies on graph neural network (GNN) has put it from the theories research to reality application stage. Despite the encouraging performance achieved by GNN, less attention has been paid to the privacy-preserving training and inference over distributed graph data in the related literature. Due to the particularity of graph structure, it is challenging to extend the existing private learning framework to GNN. Motivated by the idea of split learning, we propose a \textbf{S}erver \textbf{A}ided \textbf{P}rivacy-preserving \textbf{GNN} (SAPGNN) for the node level task on horizontally partitioned cross-silo scenario. It offers a natural extension of centralized GNN to isolated graph with max/min pooling aggregation, while guaranteeing that all the private data involved in computation still stays at local data holders. To further enhancing the data privacy, a secure pooling aggregation mechanism is proposed. Theoretical and experimental results show that the proposed model achieves the same accuracy as the one learned over the combined data.
翻訳日:2021-07-14 14:54:42 公開日:2021-07-13
# 応答歪カーネルリッジ回帰のためのオーバーサンプリング除算器

Oversampling Divide-and-conquer for Response-skewed Kernel Ridge Regression ( http://arxiv.org/abs/2107.05834v1 )

ライセンス: Link先を確認
Jingyi Zhang and Xiaoxiao Sun(参考訳) 分割・対数法は大規模カーネルリッジ回帰推定に広く用いられている。 残念なことに、応答変数が非常に歪んだ場合、分割・分割カーネルリッジ回帰 (dackrr) は、未表示領域を見落とし、受け入れられない結果をもたらす可能性がある。 この制限を克服するために,新しい応答適応分割戦略を開発した。 特に,複数のノード(ローカルプロセッサ)に注意深く識別された情報観測の複製を割り当てる手法を提案する。 そのアイデアは一般的なオーバーサンプリング手法に似ています。 このようなテクニックは、離散ラベルの歪に対処するために広く用いられてきたが、dacKRR設定に拡張することは簡単ではない。 我々は,dacKRR設定下での観測を効果的にオーバーサンプリングする方法に関する理論的および実践的なガイダンスを提供する。 さらに,提案した推定値の漸近平均二乗誤差(AMSE)は,軽度条件下での古典的ダックKRR推定値よりも小さいことを示す。 我々の理論的な知見はシミュレーションと実データ解析の両方で裏付けられている。

The divide-and-conquer method has been widely used for estimating large-scale kernel ridge regression estimates. Unfortunately, when the response variable is highly skewed, the divide-and-conquer kernel ridge regression (dacKRR) may overlook the underrepresented region and result in unacceptable results. We develop a novel response-adaptive partition strategy to overcome the limitation. In particular, we propose to allocate the replicates of some carefully identified informative observations to multiple nodes (local processors). The idea is analogous to the popular oversampling technique. Although such a technique has been widely used for addressing discrete label skewness, extending it to the dacKRR setting is nontrivial. We provide both theoretical and practical guidance on how to effectively over-sample the observations under the dacKRR setting. Furthermore, we show the proposed estimate has a smaller asymptotic mean squared error (AMSE) than that of the classical dacKRR estimate under mild conditions. Our theoretical findings are supported by both simulated and real-data analyses.
翻訳日:2021-07-14 14:53:45 公開日:2021-07-13
# ドメイン適応の誘導

Induced Domain Adaptation ( http://arxiv.org/abs/2107.05911v1 )

ライセンス: Link先を確認
Yang Liu, Yatong Chen, Jiaheng Wei(参考訳) 本稿では,本モデルが展開する分散/ドメインシフトを導入した場合の誘導ドメイン適応(IDA)問題を定式化する。 私たちの定式化は、デプロイされた機械学習モデルがヒューマンエージェントと相互作用するアプリケーションによって動機付けられています。 IDA設定における学習の伝達可能性に関する議論は、利用可能なソース分布(データ)に基づいてトレーニングされたモデルが、誘導されたドメインのパフォーマンスにどのように変換するかを研究することで定式化する。 我々は, 誘導領域シフトによる性能差の上限と, 分類器がソーストレーニング分布と誘導目標分布のいずれかに負担しなければならないトレードオフの上限の両方を提供する。 共変量シフトとラベルシフトを含む2つの人気ドメイン適応設定のさらなるインスタンス化解析を提供する。 IDAの重要な特徴と、計算と学習の課題を強調します。

We formulate the problem of induced domain adaptation (IDA) when the underlying distribution/domain shift is introduced by the model being deployed. Our formulation is motivated by applications where the deployed machine learning models interact with human agents, and will ultimately face responsive and interactive data distributions. We formalize the discussions of the transferability of learning in our IDA setting by studying how the model trained on the available source distribution (data) would translate to the performance on the induced domain. We provide both upper bounds for the performance gap due to the induced domain shift, as well as lower bound for the trade-offs a classifier has to suffer on either the source training distribution or the induced target distribution. We provide further instantiated analysis for two popular domain adaptation settings with covariate shift and label shift. We highlight some key properties of IDA, as well as computational and learning challenges.
翻訳日:2021-07-14 14:53:29 公開日:2021-07-13
# あまり多くはないでしょうか? ラベル雑音の増加が有益である場合

Can Less be More? When Increasing-to-Balanc ing Label Noise Rates Considered Beneficial ( http://arxiv.org/abs/2107.05913v1 )

ライセンス: Link先を確認
Yang Liu and Jialu Wang(参考訳) 本稿では,ラベルノイズを挿入した場合(報知ラベルなし)に,より正確で公平なモデルを返すことができるという疑問に答える。 我々は,1)特定の種類のラベルノイズを増加させ,ノイズ率(バランス向上)をバランスさせると学習が容易になる,2)ラベルバイアスに対する公平性が向上する,という2つの観察から着想を得た。 本稿では,あるインスタンスのラベルノイズ率w.r.tを増大させることによって導入されたトレードオフを,まず定量化する。 学習の困難とパフォーマンスの保証です 一般化誤差の改善や公平性保証の観点から,このような増大が有益であることを解析的に示す。 そこで本研究では,雑音ラベルを用いた学習において,フェアネス制約の有無にかかわらずラベルノイズを挿入する手法を提案する。 私たちが直面している主な技術的課題は、どのデータインスタンスが高ノイズに悩まされているのかわからないこと、そして仮説を検証するための基礎となる真理ラベルがないという事実です。 本研究では,どのラベル群が高騒音に悩まされているかを,真理情報を用いることなく検出する手法を提案する。 提案手法の有効性を正式に確立し,広範な実験により実証する。

In this paper, we answer the question when inserting label noise (less informative labels) can instead return us more accurate and fair models. We are primarily inspired by two observations that 1) increasing a certain class of instances' label noise to balance the noise rates (increasing-to-balan cing) results in an easier learning problem; 2) Increasing-to-balanc ing improves fairness guarantees against label bias. In this paper, we will first quantify the trade-offs introduced by increasing a certain group of instances' label noise rate w.r.t. the learning difficulties and performance guarantees. We analytically demonstrate when such an increase proves to be beneficial, in terms of either improved generalization errors or the fairness guarantees. Then we present a method to leverage our idea of inserting label noise for the task of learning with noisy labels, either without or with a fairness constraint. The primary technical challenge we face is due to the fact that we would not know which data instances are suffering from higher noise, and we would not have the ground truth labels to verify any possible hypothesis. We propose a detection method that informs us which group of labels might suffer from higher noise, without using ground truth information. We formally establish the effectiveness of the proposed solution and demonstrate it with extensive experiments.
翻訳日:2021-07-14 14:53:16 公開日:2021-07-13
# スペクトル注意を伴う深い自己回帰モデル

Deep Autoregressive Models with Spectral Attention ( http://arxiv.org/abs/2107.05984v1 )

ライセンス: Link先を確認
Fernando Moreno-Pino, Pablo M. Olmos and Antonio Art\'es-Rodr\'iguez(参考訳) 時系列予測は、多くのドメインにおいて重要な問題であり、複数の現実世界アプリケーションにおいて重要な役割を果たす。 本稿では,深部自己回帰モデルとスペクトルアテンション(SA)モジュールを組み合わせた予測アーキテクチャを提案する。 時系列の埋め込みをランダムなプロセスの発生としてスペクトル領域に特徴付けることにより,グローバルな傾向と季節パターンを同定することができる。 時系列に対するグローバルとローカルの2つのスペクトルアテンションモデルは、この情報を予測の中に統合し、スペクトルフィルタリングを行い、時系列のノイズを除去する。 提案するアーキテクチャは、よく知られた予測アーキテクチャに効果的に組み込むことができ、パラメータを少なくし、予測精度を向上させる解釈可能な結果を生成することができる。 我々は、いくつかのよく知られた予測データセット上で、スペクトル注意自己回帰モデル(SAAM)をテストする。

Time series forecasting is an important problem across many domains, playing a crucial role in multiple real-world applications. In this paper, we propose a forecasting architecture that combines deep autoregressive models with a Spectral Attention (SA) module, which merges global and local frequency domain information in the model's embedded space. By characterizing in the spectral domain the embedding of the time series as occurrences of a random process, our method can identify global trends and seasonality patterns. Two spectral attention models, global and local to the time series, integrate this information within the forecast and perform spectral filtering to remove time series's noise. The proposed architecture has a number of useful properties: it can be effectively incorporated into well-know forecast architectures, requiring a low number of parameters and producing interpretable results that improve forecasting accuracy. We test the Spectral Attention Autoregressive Model (SAAM) on several well-know forecast datasets, consistently demonstrating that our model compares favorably to state-of-the-art approaches.
翻訳日:2021-07-14 14:52:56 公開日:2021-07-13
# Wasserstein GAN:Bitcoinの金融時系列にディープジェネレーションを適用する

Wasserstein GAN: Deep Generation applied on Bitcoins financial time series ( http://arxiv.org/abs/2107.06008v1 )

ライセンス: Link先を確認
Rikli Samuel, Bigler Daniel Nico, Pfenninger Moritz, Osterrieder Joerg(参考訳) 金融時系列のモデリングは、高いボラティリティと市場の予期せぬ出来事のために難しい。 ほとんどの金融モデルとアルゴリズムは、過去の金融時系列の欠如を補おうとしており、過度な適合に対して非常に脆弱である。 代替として、サンプル生成に焦点を当てたデータ駆動モデルであるWGAN-GPと呼ばれるディープニューラルネットワークを紹介する。 WGAN-GPはLSTMアーキテクチャを利用するジェネレータと識別器の機能からなる。 wgan-gpは、入力データの基盤となる構造、つまり私たちの場合、bitcoinを学習することになっている。 Bitcoinの振る舞いはユニークで、価格が変動し、価格トレンドを推測することは不可能だ。 敵対的なトレーニングを通じて、WGAN-GPはbitcoinの基盤構造を学び、bitcoin配布の非常に似たサンプルを生成するべきである。 生成された合成時系列は、実データと視覚的に区別できない。 しかし, 得られたデータは実データ分布に近いが, 識別可能であることを示す。 モデルは主に安定した学習行動を示す。 しかし、モデルには最適化の余地があり、ハイパーパラメータを調整することで達成できる。

Modeling financial time series is challenging due to their high volatility and unexpected happenings on the market. Most financial models and algorithms trying to fill the lack of historical financial time series struggle to perform and are highly vulnerable to overfitting. As an alternative, we introduce in this paper a deep neural network called the WGAN-GP, a data-driven model that focuses on sample generation. The WGAN-GP consists of a generator and discriminator function which utilize an LSTM architecture. The WGAN-GP is supposed to learn the underlying structure of the input data, which in our case, is the Bitcoin. Bitcoin is unique in its behavior; the prices fluctuate what makes guessing the price trend hardly impossible. Through adversarial training, the WGAN-GP should learn the underlying structure of the bitcoin and generate very similar samples of the bitcoin distribution. The generated synthetic time series are visually indistinguishable from the real data. But the numerical results show that the generated data were close to the real data distribution but distinguishable. The model mainly shows a stable learning behavior. However, the model has space for optimization, which could be achieved by adjusting the hyperparameters.
翻訳日:2021-07-14 14:52:40 公開日:2021-07-13
# Adaptive Margin Triplet Loss を用いたDeep Ranking

Deep Ranking with Adaptive Margin Triplet Loss ( http://arxiv.org/abs/2107.06187v1 )

ライセンス: Link先を確認
Mai Lan Ha and Volker Blanz(参考訳) 固定マージン三重項損失から適応マージン三重項損失への簡単な修正を提案する。 従来の3重項損失は,顔認識,顔認識,細粒度類似性などの分類問題に広く用いられているが,評価値が連続値である評価データセットには適している。 データを注意深くサンプリングしなければならない元のトリプレット損失とは対照的に、outメソッドでは、データセット全体を使用してトリプレットを生成し、モデル崩壊問題に頻繁にぶつかることなく最適化を収束させることができる。 適応マージンはトレーニングの前に1回だけ計算する必要があり、固定マージンの場合のようにエポックのたびにトリプレットを生成するよりもずっと安価である。 トレーニングの安定性が大幅に向上した(既存の3重項損失でトレーニングが崩壊した2回と比べて、提案したモデルは実験では崩壊しなかった)他、さまざまな評価データセットやネットワークアーキテクチャにおいて、元の3重項損失よりも若干パフォーマンスが向上した。

We propose a simple modification from a fixed margin triplet loss to an adaptive margin triplet loss. While the original triplet loss is used widely in classification problems such as face recognition, face re-identification and fine-grained similarity, our proposed loss is well suited for rating datasets in which the ratings are continuous values. In contrast to original triplet loss where we have to sample data carefully, in out method, we can generate triplets using the whole dataset, and the optimization can still converge without frequently running into a model collapsing issue. The adaptive margins only need to be computed once before the training, which is much less expensive than generating triplets after every epoch as in the fixed margin case. Besides substantially improved training stability (the proposed model never collapsed in our experiments compared to a couple of times that the training collapsed on existing triplet loss), we achieved slightly better performance than the original triplet loss on various rating datasets and network architectures.
翻訳日:2021-07-14 14:51:43 公開日:2021-07-13
# カーネル密度識別による生成逆学習

Generative Adversarial Learning via Kernel Density Discrimination ( http://arxiv.org/abs/2107.06197v1 )

ライセンス: Link先を確認
Abdelhak Lemkhenter, Adam Bielski, Alp Eren Sari, Paolo Favaro(参考訳) 本稿では,新しい生成的逆学習法であるkernel density discrimination gan (kdd gan)を提案する。 KDD GANは、(局所)カーネル密度推定(KDE)を介してデータ分布を明示的に記述する確率比最適化問題としてトレーニングを定式化する。 これは、最近のコントラスト学習の進歩とKDEとの関係に触発されている。 我々は,KDEを機能空間で直接定義し,カーネル機能マッピングの可逆性の必要性を排除した。 提案手法では,従来のGAN定式化のように線形分離性に最適化されるのではなく,特徴空間における分布のより一般的な識別に最適化される。 特徴表現に対する損失の勾配を分析し、元のヒンジ損失よりも振舞いがよいことを示す。 我々は、CIFAR10とImageNetのスケール版の両方において、トレーニング損失または正規化項として使用されるKDEに基づく損失実験を行った。 私たちはバックボーンとベースラインとしてbiggan/sa-ganを使用しています。 また,fidをベースラインと比較した場合,生成試料の品質が10%から40%向上することを示した。 コードは利用可能になる。

We introduce Kernel Density Discrimination GAN (KDD GAN), a novel method for generative adversarial learning. KDD GAN formulates the training as a likelihood ratio optimization problem where the data distributions are written explicitly via (local) Kernel Density Estimates (KDE). This is inspired by the recent progress in contrastive learning and its relation to KDE. We define the KDEs directly in feature space and forgo the requirement of invertibility of the kernel feature mappings. In our approach, features are no longer optimized for linear separability, as in the original GAN formulation, but for the more general discrimination of distributions in the feature space. We analyze the gradient of our loss with respect to the feature representation and show that it is better behaved than that of the original hinge loss. We perform experiments with the proposed KDE-based loss, used either as a training loss or a regularization term, on both CIFAR10 and scaled versions of ImageNet. We use BigGAN/SA-GAN as a backbone and baseline, since our focus is not to design the architecture of the networks. We show a boost in the quality of generated samples with respect to FID from 10% to 40% compared to the baseline. Code will be made available.
翻訳日:2021-07-14 14:51:25 公開日:2021-07-13
# ニューラル判別器解析による識別器潜在空間の学習

Learning a Discriminant Latent Space with Neural Discriminant Analysis ( http://arxiv.org/abs/2107.06209v1 )

ライセンス: Link先を確認
Mai Lan Ha, Gianni Franchi, Emanuel Aldea and Volker Blanz(参考訳) 識別的特徴は、画像と物体の分類において重要な役割を担い、また分布検出から半教師付き学習、細粒度分類、その他の研究分野において重要な役割を担っている。 線形判別分析 (LDA) に着想を得て, ディープ畳み込みニューラルネットワーク (DCNN) のためのニューラル識別分析 (NDA) という最適化を提案する。 NDAは深い特徴をより差別的へと変換し、様々なタスクのパフォーマンスを改善する。 提案する最適化には,クラス間分散とクラス内分散の2つの主な目標がある。 1つ目は各クラス内の分散を最小化することである。 2つ目の目標は、異なるクラスから来る機能間のペアワイズ距離を最大化することです。 一般教師あり分類,細粒度分類,半教師あり学習,分布検出など,様々な分野におけるnda最適化の評価を行った。 NDAを使用しないベースライン手法と比較して,すべての分野の性能向上を実現している。 さらに、ndaを使用すると、さまざまなテストデータセットの4つのタスクの最先端技術を超えます。

Discriminative features play an important role in image and object classification and also in other fields of research such as semi-supervised learning, fine-grained classification, out of distribution detection. Inspired by Linear Discriminant Analysis (LDA), we propose an optimization called Neural Discriminant Analysis (NDA) for Deep Convolutional Neural Networks (DCNNs). NDA transforms deep features to become more discriminative and, therefore, improves the performances in various tasks. Our proposed optimization has two primary goals for inter- and intra-class variances. The first one is to minimize variances within each individual class. The second goal is to maximize pairwise distances between features coming from different classes. We evaluate our NDA optimization in different research fields: general supervised classification, fine-grained classification, semi-supervised learning, and out of distribution detection. We achieve performance improvements in all the fields compared to baseline methods that do not use NDA. Besides, using NDA, we also surpass the state of the art on the four tasks on various testing datasets.
翻訳日:2021-07-14 14:51:07 公開日:2021-07-13
# Retrieve in Style: Unsupervised Facial Feature Transfer and Retrieval

Retrieve in Style: Unsupervised Facial Feature Transfer and Retrieval ( http://arxiv.org/abs/2107.06256v1 )

ライセンス: Link先を確認
Min Jin Chong, Wen-Sheng Chu, Abhishek Kumar(参考訳) Retrieve in Style (RIS) は、顔の特徴の微粒化と実際の画像の検索のための、教師なしのフレームワークである。 近年の研究では,StyleGAN潜伏空間のゆがみ特性を利用して,生成画像上の顔の特徴を局所的に意味伝達できるカタログを学習することが可能であることが示されている。 RISは既存の技術を改善している: 1) 機能障害を特徴とし、SoTA法では示されなかった挑戦的な移動(髪とポーズ)を可能にする。 2)画像単位のハイパーパラメータチューニングの必要性を排除し,大量の画像のカタログ計算を行う。 3) 提案する顔特徴(例えば目)と最善の知識を用いた顔検索を可能にすることは, きめ細かなレベルで顔画像を取得する最初の作業である。 4)実画像に対する堅牢性と自然な適用。 質的,定量的解析により,RISは高忠実度特徴伝達と実画像の精密な精細な検索を両立させることができた。 RISの責任ある応用について論じる。

We present Retrieve in Style (RIS), an unsupervised framework for fine-grained facial feature transfer and retrieval on real images. Recent work shows that it is possible to learn a catalog that allows local semantic transfers of facial features on generated images by capitalizing on the disentanglement property of the StyleGAN latent space. RIS improves existing art on: 1) feature disentanglement and allows for challenging transfers (i.e., hair and pose) that were not shown possible in SoTA methods. 2) eliminating the need for per-image hyperparameter tuning, and for computing a catalog over a large batch of images. 3) enabling face retrieval using the proposed facial features (e.g., eyes), and to our best knowledge, is the first work to retrieve face images at the fine-grained level. 4) robustness and natural application to real images. Our qualitative and quantitative analyses show RIS achieves both high-fidelity feature transfers and accurate fine-grained retrievals on real images. We discuss the responsible application of RIS.
翻訳日:2021-07-14 14:50:51 公開日:2021-07-13
# シンボリック・マルチトラック音楽の部品分割学習による自動インスツルメンテーション

Towards Automatic Instrumentation by Learning to Separate Parts in Symbolic Multitrack Music ( http://arxiv.org/abs/2107.05916v1 )

ライセンス: Link先を確認
Hao-Wen Dong, Chris Donahue, Taylor Berg-Kirkpatrick, Julian McAuley(参考訳) 現代のキーボードは、ミュージシャンがキーボードの固定ピッチ範囲であるゾーンを異なる楽器に割り当てることで、複数の楽器を同時に演奏することができる。 本稿では,この考え方をさらに拡張し,演奏中に楽器を音符に動的に割り当てる自動楽器化の実現可能性を検討することを目的とする。 オンラインでリアルタイムに使用できるパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。 オリジナル・ソロ・ミュージックと全編のペア・データの欠如により、楽器がキーボードで演奏されることを前提に、曲の混合部分(例えば、声、楽器、トラック)とシンボリック・マルチトラック・ミュージックの混合部分とを分離して学習し、自動楽器化にアプローチする。 パート分離のタスクを逐次的多クラス分類問題としてモデル化し,ノートのシーケンスを部分ラベルのシーケンスにマッピングする機械学習を採用する。 提案モデルの有効性を検討するため,Bach合唱曲,弦楽四重奏曲,ゲーム音楽,ポップ音楽の4つの異なるジャンルとアンサンブルのデータセットを総合的に評価した。 実験の結果,提案モデルが様々なベースラインを上回ることがわかった。 また,提案したモデルが,その混合物を部品に分離することで,既存の配置に対する代替の説得器具を生産する可能性を実証する。 すべてのソースコードとオーディオサンプルはhttps://salu133445.g ithub.io/arranger/ で見ることができる。

Modern keyboards allow a musician to play multiple instruments at the same time by assigning zones -- fixed pitch ranges of the keyboard -- to different instruments. In this paper, we aim to further extend this idea and examine the feasibility of automatic instrumentation -- dynamically assigning instruments to notes in solo music during performance. In addition to the online, real-time-capable setting for performative use cases, automatic instrumentation can also find applications in assistive composing tools in an offline setting. Due to the lack of paired data of original solo music and their full arrangements, we approach automatic instrumentation by learning to separate parts (e.g., voices, instruments and tracks) from their mixture in symbolic multitrack music, assuming that the mixture is to be played on a keyboard. We frame the task of part separation as a sequential multi-class classification problem and adopt machine learning to map sequences of notes into sequences of part labels. To examine the effectiveness of our proposed models, we conduct a comprehensive empirical evaluation over four diverse datasets of different genres and ensembles -- Bach chorales, string quartets, game music and pop music. Our experiments show that the proposed models outperform various baselines. We also demonstrate the potential for our proposed models to produce alternative convincing instrumentations for an existing arrangement by separating its mixture into parts. All source code and audio samples can be found at https://salu133445.g ithub.io/arranger/ .
翻訳日:2021-07-14 14:50:32 公開日:2021-07-13
# DIVINE:データ可視化とモデルリファインメントのための多種多様なインフルエンシャルトレーニングポイント

DIVINE: Diverse Influential Training Points for Data Visualization and Model Refinement ( http://arxiv.org/abs/2107.05978v1 )

ライセンス: Link先を確認
Umang Bhatt, Isabel Chien, Muhammad Bilal Zafar, Adrian Weller(参考訳) 機械学習(ML)モデルの複雑さが増大し、予測可能性の欠如が生じるにつれて、モデルに最も影響を与えるトレーニングデータポイントの観点からモデルの振る舞いを説明するためのいくつかの手法が開発されている。 しかしながら、これらの手法は外れ値を非常に影響力のある点としてマークする傾向があり、実践者がトレーニングデータの代表的でない点から引き出すことのできる洞察を制限している。 本研究では、トレーニングデータもよく表現した、影響力のあるトレーニングポイントを見つけるための一歩を踏み出します。 まず,重要度をトレーニングポイントに割り当てる手法について検討する。 そこで本研究では,DIVerse InfluEntial (DIVINE) トレーニングポイントをモデル行動の有用な説明として選択する方法を提案する。 実践者はモデルの正確性に影響を及ぼすデータポイントを見つけることに関心があるだけでなく、他の重要なメトリクスにも関心があるため、グループフェアネスに基づいてトレーニングデータポイントを評価する方法を示す。 本手法は,公平性向上のために除去できる不公平性誘導訓練点を同定することができる。 我々の定量的実験とユーザスタディにより、DIVINEポイントの可視化は、実践者が以前のアプローチよりもモデル行動を理解し説明するのに役立ちます。

As the complexity of machine learning (ML) models increases, resulting in a lack of prediction explainability, several methods have been developed to explain a model's behavior in terms of the training data points that most influence the model. However, these methods tend to mark outliers as highly influential points, limiting the insights that practitioners can draw from points that are not representative of the training data. In this work, we take a step towards finding influential training points that also represent the training data well. We first review methods for assigning importance scores to training points. Given importance scores, we propose a method to select a set of DIVerse INfluEntial (DIVINE) training points as a useful explanation of model behavior. As practitioners might not only be interested in finding data points influential with respect to model accuracy, but also with respect to other important metrics, we show how to evaluate training data points on the basis of group fairness. Our method can identify unfairness-inducing training points, which can be removed to improve fairness outcomes. Our quantitative experiments and user studies show that visualizing DIVINE points helps practitioners understand and explain model behavior better than earlier approaches.
翻訳日:2021-07-14 14:50:06 公開日:2021-07-13
# 一般モデルクラスを用いた強化学習のための最適値に近いモデル選択

Model Selection with Near Optimal Rates for Reinforcement Learning with General Model Classes ( http://arxiv.org/abs/2107.05849v1 )

ライセンス: Link先を確認
Avishek Ghosh, Sayak Ray Chowdhury and Kannan Ramchandran(参考訳) 我々は、遷移核 $p^*$ が有限計量エントロピーを持つモデルの族 $\mathcal{p}^*$ に属する有限地平線エピソディック強化学習(rl)問題に対するモデル選択の問題に対処する。 モデル選択フレームワークでは、$\mathcal{P}^*$の代わりに、遷移カーネルのネストされたファミリー$\cP_1 \subset \cP_2 \subset \ldots \subset \cP_M$が与えられる。 我々は,真移行カーネルが$P^*$である最小のファミリに適応する新しいアルゴリズム,すなわち \emph{Adaptive Reinforcement Learning (General)} (\textt{ARL-GEN}) を提案し,解析する。 \texttt{ARL-GEN} は、評価対象回帰をブラックボックスとしてアッパー信頼強化学習 (\texttt{UCRL}) アルゴリズムを使用し、各エポックの初めにモデル選択モジュールを配置する。 モデルクラスに対する穏やかな分離可能性の仮定の下では、 \textt{arl-gen} は $\tilde{\mathcal{o}}(d_{\mathcal{e}}^*h^2+\sqrt{d_{\mathcal{e}}^* \mathbb{m}^* h^2 t})$ の後悔を得ることを示し、高い確率で$h$ は水平長、$t$ はステップの総数、$d_{\mathcal{e}}^*$ はeluder次元、$\mathbb{m}^*$ は $\mathcal{p}^*$ に対応する計量エントロピーであることを示した。 この後悔のスケーリングは、事前に$\mathcal{P}^*$を知っているオラクルのスケーリングと一致することに注意してください。 ここでは,<texttt{ARL-GEN} に対するモデル選択のコストは,T$ に対する弱い依存度をもつ後悔の加法項であることを示す。 その後、分離性仮定を除去し、遷移カーネル $P^*$ が線形関数近似を持つ線形混合 MDP のセットアップを考える。 この低ランク構造を用いて,モデル選択のための新しい適応アルゴリズムを提案し,真のモデルクラスの知識を持つオラクルと同一の(順序的に)後悔を得る。

We address the problem of model selection for the finite horizon episodic Reinforcement Learning (RL) problem where the transition kernel $P^*$ belongs to a family of models $\mathcal{P}^*$ with finite metric entropy. In the model selection framework, instead of $\mathcal{P}^*$, we are given $M$ nested families of transition kernels $\cP_1 \subset \cP_2 \subset \ldots \subset \cP_M$. We propose and analyze a novel algorithm, namely \emph{Adaptive Reinforcement Learning (General)} (\texttt{ARL-GEN}) that adapts to the smallest such family where the true transition kernel $P^*$ lies. \texttt{ARL-GEN} uses the Upper Confidence Reinforcement Learning (\texttt{UCRL}) algorithm with value targeted regression as a blackbox and puts a model selection module at the beginning of each epoch. Under a mild separability assumption on the model classes, we show that \texttt{ARL-GEN} obtains a regret of $\Tilde{\mathcal{O}}(d_{\mathcal{E}}^*H^2+\sqrt{d_{\mathcal{E}}^* \mathbb{M}^* H^2 T})$, with high probability, where $H$ is the horizon length, $T$ is the total number of steps, $d_{\mathcal{E}}^*$ is the Eluder dimension and $\mathbb{M}^*$ is the metric entropy corresponding to $\mathcal{P}^*$. Note that this regret scaling matches that of an oracle that knows $\mathcal{P}^*$ in advance. We show that the cost of model selection for \texttt{ARL-GEN} is an additive term in the regret having a weak dependence on $T$. Subsequently, we remove the separability assumption and consider the setup of linear mixture MDPs, where the transition kernel $P^*$ has a linear function approximation. With this low rank structure, we propose novel adaptive algorithms for model selection, and obtain (order-wise) regret identical to that of an oracle with knowledge of the true model class.
翻訳日:2021-07-14 14:49:26 公開日:2021-07-13
# 時変システムのための適応機械学習:低次元ラテント空間チューニング

Adaptive Machine Learning for Time-Varying Systems: Low Dimensional Latent Space Tuning ( http://arxiv.org/abs/2107.06207v1 )

ライセンス: Link先を確認
Alexander Scheinker(参考訳) エンコーダ・デコーダ・畳み込みニューラルネットワーク(CNN)のような機械学習(ML)ツールは、画像とスカラーの組み合わせをマッピングする驚くほど複雑な非線形関数を表現できる。 例えば、CNNは、荷電粒子ビームの6次元位相空間分布の2次元射影である加速器パラメータと画像の組み合わせを、様々な粒子加速器位置間で輸送する際にマッピングすることができる。 その強みにもかかわらず、mlを時変システムやシフト分布を持つシステムに適用することは、特に再トレーニングのための新しいデータ収集が非実用的あるいは中断的な大規模システムにとって、オープンな問題である。 粒子加速器は、詳細なトレーニングデータを収集するためには、通常の操作では利用できないような、長い専用のビーム測定が必要である。 本稿では,時間変化システムの適応型MLを提案する。 我々は,エンコーダデコーダCNNのエンコーダ部出力において,非常に高い(N>100k)次元入力(スカラーパラメータと画像の組み合わせ)を低次元(N~2)潜在空間にマッピングする。 次に、デコーダ部が画像ベース高次元位相空間密度表現に戻す前に、適応的に調整されたフィードバックベクトルを付加することにより、複素力学の低次元潜在空間ベース表現を積極的に調整する。 そこで本手法では, パラメータシステムの特性を高速に学習し, フィードバックに基づいて, 新たなデータセットを組み込まずに, リアルタイムにその進化を追従する手法を提案する。

Machine learning (ML) tools such as encoder-decoder convolutional neural networks (CNN) can represent incredibly complex nonlinear functions which map between combinations of images and scalars. For example, CNNs can be used to map combinations of accelerator parameters and images which are 2D projections of the 6D phase space distributions of charged particle beams as they are transported between various particle accelerator locations. Despite their strengths, applying ML to time-varying systems, or systems with shifting distributions, is an open problem, especially for large systems for which collecting new data for re-training is impractical or interrupts operations. Particle accelerators are one example of large time-varying systems for which collecting detailed training data requires lengthy dedicated beam measurements which may no longer be available during regular operations. We present a recently developed method of adaptive ML for time-varying systems. Our approach is to map very high (N>100k) dimensional inputs (a combination of scalar parameters and images) into the low dimensional (N~2) latent space at the output of the encoder section of an encoder-decoder CNN. We then actively tune the low dimensional latent space-based representation of complex system dynamics by the addition of an adaptively tuned feedback vector directly before the decoder sections builds back up to our image-based high-dimensional phase space density representations. This method allows us to learn correlations within and to quickly tune the characteristics of incredibly high parameter systems and to track their evolution in real time based on feedback without massive new data sets for re-training.
翻訳日:2021-07-14 14:48:35 公開日:2021-07-13
# 動的アフィン特徴写像変換による3次元画像とタブラルデータの組み合わせ

Combining 3D Image and Tabular Data via the Dynamic Affine Feature Map Transform ( http://arxiv.org/abs/2107.05990v1 )

ライセンス: Link先を確認
Sebastian P\"olsterl and Tom Nuno Wolf and Christian Wachinger(参考訳) 脳の磁気共鳴画像からアルツハイマー病を診断する以前の研究で、畳み込みニューラルネットワーク(cnns)が患者の分類に高次元画像情報を利用することができた。 しかし、これらのモデルが患者の人口統計や実験室の測定など、通常低次元の表型情報をどのように活用できるかについてはほとんど研究されていない。 本稿では,CNN の汎用モジュールである Dynamic Affine Feature Map Transform (DAFT) を紹介する。 DAFTは診断のための3次元画像と表型情報を組み合わせるのに非常に有効であり,それぞれ平均平衡精度0.622,平均c-インデックス0.748で競合するCNNよりも優れていた。 我々の広範囲にわたるアブレーション研究は、DAFTのアーキテクチャ特性に関する貴重な洞察を提供する。 私たちの実装はhttps://github.com/a i-med/daftで利用可能です。

Prior work on diagnosing Alzheimer's disease from magnetic resonance images of the brain established that convolutional neural networks (CNNs) can leverage the high-dimensional image information for classifying patients. However, little research focused on how these models can utilize the usually low-dimensional tabular information, such as patient demographics or laboratory measurements. We introduce the Dynamic Affine Feature Map Transform (DAFT), a general-purpose module for CNNs that dynamically rescales and shifts the feature maps of a convolutional layer, conditional on a patient's tabular clinical information. We show that DAFT is highly effective in combining 3D image and tabular information for diagnosis and time-to-dementia prediction, where it outperforms competing CNNs with a mean balanced accuracy of 0.622 and mean c-index of 0.748, respectively. Our extensive ablation study provides valuable insights into the architectural properties of DAFT. Our implementation is available at https://github.com/a i-med/DAFT.
翻訳日:2021-07-14 14:48:01 公開日:2021-07-13
# エージェントにマップの仕方を教える:マルチオブジェクトナビゲーションのための空間推論

Teaching Agents how to Map: Spatial Reasoning for Multi-Object Navigation ( http://arxiv.org/abs/2107.06011v1 )

ライセンス: Link先を確認
Pierre Marza, Laetitia Matignon, Olivier Simonin, Christian Wolf(参考訳) 視覚ナビゲーションの文脈では,エージェントがその観測履歴を考慮した場所で活用し,既知の目標を効率的に達成するためには,新たな環境をマップする能力が必要である。 この能力は空間的推論と結びつきがあり、エージェントは空間的関係や規則性を知覚し、対象の余裕を発見することができる。 古典的な強化学習(RL)では、報酬だけでこの能力が学習される。 本稿では,目標達成目標達成のために訓練されたエージェントにおける空間認識能力の出現を指向した補助的タスクの形で補足的監視を導入する。 与えられた位置におけるエージェントと到達目標の間の空間的関係を定量化する指標を推定する学習は、多目的ナビゲーション設定において高い正の影響を及ぼすことを示す。 提案手法は,環境の明示的あるいは暗黙的な表現を構築する,異なるベースラインエージェントの性能を著しく向上させる。

In the context of visual navigation, the capacity to map a novel environment is necessary for an agent to exploit its observation history in the considered place and efficiently reach known goals. This ability can be associated with spatial reasoning, where an agent is able to perceive spatial relationships and regularities, and discover object affordances. In classical Reinforcement Learning (RL) setups, this capacity is learned from reward alone. We introduce supplementary supervision in the form of auxiliary tasks designed to favor the emergence of spatial perception capabilities in agents trained for a goal-reaching downstream objective. We show that learning to estimate metrics quantifying the spatial relationships between an agent at a given location and a goal to reach has a high positive impact in Multi-Object Navigation settings. Our method significantly improves the performance of different baseline agents, that either build an explicit or implicit representation of the environment, even matching the performance of incomparable oracle agents taking ground-truth maps as input.
翻訳日:2021-07-14 14:47:44 公開日:2021-07-13
# Force-in-domain GAN インバージョン

Force-in-domain GAN inversion ( http://arxiv.org/abs/2107.06050v1 )

ライセンス: Link先を確認
Guangjie Leng, Yeku Zhu and Zhi-Qin John Xu(参考訳) 実証研究は、画像生成の訓練を受ける際に、GAN(Generative Adversarial Networks)の潜在領域に様々な意味が現れることを示唆している。 実際の画像編集を行うには、これらの学習されたセマンティクスを活用するために、実際の画像から潜在空間への正確なマッピングが必要である。 実画像空間内の反転符号から得られた再構成画像を強制することで、潜伏空間内の反転符号を制約するドメイン内GANインバージョン手法が最近提案されている。 経験的に、ドメイン内GANによる反転コードは、潜在空間から著しく逸脱することができる。 そこで,この問題を解決するために,判別器を用いて潜在空間内に可逆コードを強制する,ドメイン内ganに基づくパワーインドメインganを提案する。 ドメイン内のフォースガンは、少し修正したサイクルGANでも解釈できる。 広範にわたる実験により,我々の領域内GANは,対象画像を画素レベルで再構成するだけでなく,逆コードと潜在空間との整合性も示している。

Empirical works suggest that various semantics emerge in the latent space of Generative Adversarial Networks (GANs) when being trained to generate images. To perform real image editing, it requires an accurate mapping from the real image to the latent space to leveraging these learned semantics, which is important yet difficult. An in-domain GAN inversion approach is recently proposed to constraint the inverted code within the latent space by forcing the reconstructed image obtained from the inverted code within the real image space. Empirically, we find that the inverted code by the in-domain GAN can deviate from the latent space significantly. To solve this problem, we propose a force-in-domain GAN based on the in-domain GAN, which utilizes a discriminator to force the inverted code within the latent space. The force-in-domain GAN can also be interpreted by a cycle-GAN with slight modification. Extensive experiments show that our force-in-domain GAN not only reconstructs the target image at the pixel level, but also align the inverted code with the latent space well for semantic editing.
翻訳日:2021-07-14 14:47:28 公開日:2021-07-13
# 教師なし領域一般化のためのドメイン非関連表現学習

Domain-Irrelevant Representation Learning for Unsupervised Domain Generalization ( http://arxiv.org/abs/2107.06219v1 )

ライセンス: Link先を確認
Xingxuan Zhang, Linjun Zhou, Renzhe Xu, Peng Cui, Zheyan Shen, Haoxin Liu(参考訳) ドメインの一般化(Domain Generalization, DG)は、ソースドメインの集合で訓練されたモデルが、見えないターゲットドメインでより良く一般化することを支援することを目的としている。 現在のDGメソッドのパフォーマンスは、主に十分なラベル付きデータに依存しているが、通常はコストがかかるか利用できない。 ラベルのないデータははるかにアクセスしやすいが、教師なし学習がドメイン間の深いモデルの一般化にどのように役立つかを探究する。 具体的には,教師なし領域一般化(unsupervised domain generalization)という,ラベルなしデータを用いた一般化モデルの学習を目的とした新しい一般化問題について検討する。 さらに,ラベルなしデータにおける重要かつ誤解を招く異質性と,ソースデータとターゲットデータ間の重大な分散シフトに対処するための,ドメイン非関連非教師付き学習(diul)手法を提案する。 驚くべきことに、ラベル付きデータの不足を克服するだけでなく、ラベル付きデータが十分であればモデルの一般化能力を高めることができる。 事前トレーニングアプローチとして、利用可能なデータがラベル付けされていない場合や、ImageNetに比べてはるかに少ない場合であっても、DIULはImageNet事前トレーニングプロトコルよりも優れている。 本手法の有効性を,最先端の教師なし学習方法と比較して明らかに実証した。

Domain generalization (DG) aims to help models trained on a set of source domains generalize better on unseen target domains. The performances of current DG methods largely rely on sufficient labeled data, which however are usually costly or unavailable. While unlabeled data are far more accessible, we seek to explore how unsupervised learning can help deep models generalizes across domains. Specifically, we study a novel generalization problem called unsupervised domain generalization, which aims to learn generalizable models with unlabeled data. Furthermore, we propose a Domain-Irrelevant Unsupervised Learning (DIUL) method to cope with the significant and misleading heterogeneity within unlabeled data and severe distribution shifts between source and target data. Surprisingly we observe that DIUL can not only counterbalance the scarcity of labeled data but also further strengthen the generalization ability of models when the labeled data are sufficient. As a pretraining approach, DIUL shows superior to ImageNet pretraining protocol even when the available data are unlabeled and of a greatly smaller amount compared to ImageNet. Extensive experiments clearly demonstrate the effectiveness of our method compared with state-of-the-art unsupervised learning counterparts.
翻訳日:2021-07-14 14:47:10 公開日:2021-07-13
# 街路画像からの物体追跡とジオローカライゼーション

Object Tracking and Geo-localization from Street Images ( http://arxiv.org/abs/2107.06257v1 )

ライセンス: Link先を確認
Daniel Wilson, Thayer Alshaabi, Colin Van Oort, Xiaohan Zhang, Jonathan Nelson, Safwan Wshah(参考訳) 道路画像からの静的物体のジオローカライズは困難であるが,道路資産マッピングや自動運転においても非常に重要である。 本稿では,低フレームレートストリートビデオから交通標識を検出・位置情報化する2段階フレームワークを提案する。 提案システムでは、標準分類とバウンディングボックス回帰に加えて、カメラに対する各符号の位置オフセットを予測するRetinaNet(GPS-Retina Net)の修正版を用いている。 GPS-RetinaNetからの候補標識検出は、学習されたメートル法ネットワークとハンガリーアルゴリズムの変種から構成されるカスタムトラッカーにより、ジオローカライズされた標識に凝縮される。 我々のメトリックネットワークは、検出のペア間の類似度を推定し、次いでハンガリーアルゴリズムは、メトリックネットワークが提供する類似度スコアを用いて、画像間で検出をマッチングする。 我々のモデルは、25,544の画像と47.589の署名アノテーション ~\cite{arts}を含むARTSデータセットの更新版を使用してトレーニングされた。 提案されたデータセットは、幅広い道路から集められた多様な環境をカバーする。 各annotaitonには、サインクラスラベル、地理的位置、アセンブリラベル、道路表示器の側面、および評価を支援するユニークな識別子が含まれている。 このデータセットは今後の分野の進歩をサポートし,提案システムでは,現実的なジオローカライゼーションデータセットのユニークな特徴をいかに活用するかを実証する。

Geo-localizing static objects from street images is challenging but also very important for road asset mapping and autonomous driving. In this paper we present a two-stage framework that detects and geolocalizes traffic signs from low frame rate street videos. Our proposed system uses a modified version of RetinaNet (GPS-RetinaNet), which predicts a positional offset for each sign relative to the camera, in addition to performing the standard classification and bounding box regression. Candidate sign detections from GPS-RetinaNet are condensed into geolocalized signs by our custom tracker, which consists of a learned metric network and a variant of the Hungarian Algorithm. Our metric network estimates the similarity between pairs of detections, then the Hungarian Algorithm matches detections across images using the similarity scores provided by the metric network. Our models were trained using an updated version of the ARTS dataset, which contains 25,544 images and 47.589 sign annotations ~\cite{arts}. The proposed dataset covers a diverse set of environments gathered from a broad selection of roads. Each annotaiton contains a sign class label, its geospatial location, an assembly label, a side of road indicator, and unique identifiers that aid in the evaluation. This dataset will support future progress in the field, and the proposed system demonstrates how to take advantage of some of the unique characteristics of a realistic geolocalization dataset.
翻訳日:2021-07-14 14:46:49 公開日:2021-07-13
# Smoothed Bernstein Online Aggregation for Day-Ahead Electricity Demand Forecasting

Smoothed Bernstein Online Aggregation for Day-Ahead Electricity Demand Forecasting ( http://arxiv.org/abs/2107.06268v1 )

ライセンス: Link先を確認
Florian Ziel(参考訳) 本稿では,日頭電力需要予測におけるIEEE DataPortコンペティションの勝利方法について述べる。 日頭負荷予測手法は、複数点予測モデルのオンライン予測組み合わせに基づいている。 i)データクリーニングと前処理,i)ホリデー調整手順,iii)個別予測モデルのトレーニング,iv)スムーズなBernstein Online Aggregation(BOA)による予測の組み合わせ。 このアプローチは柔軟で、新型コロナウイルス(COVID-19)のシャットダウンの前後で発生した新しいエネルギーシステムに迅速に適用することができる。 個々の予測モデルのプールは、比較的単純な時系列モデルから一般化加法モデル(GAM)やラッソによって推定される高次元線形モデルのような洗練されたモデルまで様々である。 自動回帰、カレンダー、気象効果を効果的に取り入れる。 全てのステップは、提案手法の優れた予測性能に寄与する新しい概念を含んでいる。 これは特にホリデー調整手順と完全に適応したboaアプローチに当てはまる。

We present a winning method of the IEEE DataPort Competition on Day-Ahead Electricity Demand Forecasting: Post-COVID Paradigm. The day-ahead load forecasting approach is based on online forecast combination of multiple point prediction models. It contains four steps: i) data cleaning and preprocessing, ii) a holiday adjustment procedure, iii) training of individual forecasting models, iv) forecast combination by smoothed Bernstein Online Aggregation (BOA). The approach is flexible and can quickly adopt to new energy system situations as they occurred during and after COVID-19 shutdowns. The pool of individual prediction models ranges from rather simple time series models to sophisticated models like generalized additive models (GAMs) and high-dimensional linear models estimated by lasso. They incorporate autoregressive, calendar and weather effects efficiently. All steps contain novel concepts that contribute to the excellent forecasting performance of the proposed method. This holds particularly for the holiday adjustment procedure and the fully adaptive smoothed BOA approach.
翻訳日:2021-07-14 14:46:26 公開日:2021-07-13
# 粗大な規則の下での格付け

Rating Facts under Coarse-to-fine Regimes ( http://arxiv.org/abs/2107.06051v1 )

ライセンス: Link先を確認
Guojun Wu(参考訳) フェイクニュースを政治兵器として操作することの台頭は世界的な懸念となり、急速に生成されたフェイクニュースに対して手動で事実チェックができないことを強調した。 したがって,この問題を効率的に解決するには統計的アプローチが必要である。 公開データセットの不足は、自動ファクトチェックの大きなボトルネックのひとつだ。 これに対処するために、我々はpolitifactから24kの手動で評価されたステートメントを収集した。 表1に示すように、クラス値は真理性に関して自然な順序を示す。 このように、我々のタスクはクラス間の様々な類似性のため、標準分類から逸脱している。 そこで我々は, 粗大な分類体制を定義し, 新たな分類課題を提示した。 そこで本研究では,BERTモデルを提案する。 トレーニング後、クラス類似性は、多クラスデータセット、特にきめ細かいデータセットに対して賢明である。 すべての体制の下で、BERTは芸術の状態を達成し、追加のレイヤは重要な改善を提供する。

The rise of manipulating fake news as a political weapon has become a global concern and highlighted the incapability of manually fact checking against rapidly produced fake news. Thus, statistical approaches are required if we are to address this problem efficiently. The shortage of publicly available datasets is one major bottleneck of automated fact checking. To remedy this, we collected 24K manually rated statements from PolitiFact. The class values exhibit a natural order with respect to truthfulness as shown in Table 1. Thus, our task represents a twist from standard classification, due to the various degrees of similarity between classes. To investigate this, we defined coarse-to-fine classification regimes, which presents new challenge for classification. To address this, we propose BERT-based models. After training, class similarity is sensible over the multi-class datasets, especially in the fine-grained one. Under all the regimes, BERT achieves state of the art, while the additional layers provide insignificant improvement.
翻訳日:2021-07-14 14:46:10 公開日:2021-07-13
# 自由次ケースマーキング言語翻訳の難しさについて

On the Difficulty of Translating Free-Order Case-Marking Languages ( http://arxiv.org/abs/2107.06055v1 )

ライセンス: Link先を確認
Arianna Bisazza, Ahmet \"Ust\"un, Stephan Sportel(参考訳) 将来の自然言語処理技術で言語平等に達するためには、特定の言語を他の言語よりもモデル化しにくくする要因を特定することが不可欠である。 ロシア語、ラテン語、タミル語のような自由順序のケースマーキング言語は、構文解析や主観的な合意予測のタスクにおいて、固定順序の言語よりも困難であることが証明されている。 本研究では,現在最先端のニューラルマシン翻訳モデル(NMT)により,この言語が翻訳が困難であるかどうかを考察する。 様々な合成言語と新たに導入された翻訳課題セットを用いて,基本動詞の引数が意味的手がかりのない文では曖昧になりつつも,ソース言語の単語順の柔軟性はNTT品質の低下にのみ寄与することがわかった。 後者の問題はケースマーキングの追加によって解決される。 しかし、中・低リソース環境では、固定順序言語の全体的なNMT品質は未整合である。

Identifying factors that make certain languages harder to model than others is essential to reach language equality in future Natural Language Processing technologies. Free-order case-marking languages, such as Russian, Latin or Tamil, have proved more challenging than fixed-order languages for the tasks of syntactic parsing and subject-verb agreement prediction. In this work, we investigate whether this class of languages is also more difficult to translate by state-of-the-art Neural Machine Translation models (NMT). Using a variety of synthetic languages and a newly introduced translation challenge set, we find that word order flexibility in the source language only leads to a very small loss of NMT quality, even though the core verb arguments become impossible to disambiguate in sentences without semantic cues. The latter issue is indeed solved by the addition of case marking. However, in medium- and low-resource settings, the overall NMT quality of fixed-order languages remains unmatched.
翻訳日:2021-07-14 14:45:58 公開日:2021-07-13
# 柔軟性と一貫性:字幕と字幕の合同生成

Between Flexibility and Consistency: Joint Generation of Captions and Subtitles ( http://arxiv.org/abs/2107.06246v1 )

ライセンス: Link先を確認
Alina Karakanta, Marco Gaido, Matteo Negri, Marco Turchi(参考訳) 音声翻訳(ST)は、中間ソース言語の転写とタイミング(すなわち、タイミング)を必要とせず、字幕生成への関心が高まっている。 キャプション)。 しかし、ソースキャプションとターゲット字幕の合同生成は、2つの復号処理が相互に通知する際の潜在的な出力品質の利点をもたらすだけでなく、多言語シナリオにおいてもしばしば必要となる。 本研究では、構造や語彙内容の観点から一貫した字幕字幕を生成するSTモデルに焦点を当てる。 さらに,一貫性を評価するための新しい指標についても紹介する。 以上の結果から,ジョイント・デコードにより,字幕と字幕の一貫性が向上すると同時に,言語固有のニーズや規範に準拠した字幕を作成できる柔軟性が得られている。

Speech translation (ST) has lately received growing interest for the generation of subtitles without the need for an intermediate source language transcription and timing (i.e. captions). However, the joint generation of source captions and target subtitles does not only bring potential output quality advantages when the two decoding processes inform each other, but it is also often required in multilingual scenarios. In this work, we focus on ST models which generate consistent captions-subtitles in terms of structure and lexical content. We further introduce new metrics for evaluating subtitling consistency. Our findings show that joint decoding leads to increased performance and consistency between the generated captions and subtitles while still allowing for sufficient flexibility to produce subtitles conforming to language-specific needs and norms.
翻訳日:2021-07-14 14:45:41 公開日:2021-07-13
# NFAモデルのサイズ最適化のためのGAとILS

GA and ILS for optimizing the size of NFA models ( http://arxiv.org/abs/2107.05877v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Lardeux (LERIA), Eric Monfroy (LERIA)(参考訳) 文法的推論は形式文法(書き換え規則または有限状態機械のセットとして)を学ぶことから始まる。 非決定論的有限オートマタ(NFA)を正と負の単語のサンプルから学習することに関心がある。 NFAはSATでモデル化できる。 標準モデル[1]は巨大であり、より小さなインスタンスを生成するプレフィックス[2]に基づくモデルも試します。 また,接尾辞に基づく新しいモデルと接尾辞と接尾辞に基づくハイブリッドモデルを提案する。 次に、ハイブリッドモデルから発行されるSATインスタンスのサイズを最適化することに集中する。 この組み合わせを最適化する2つの手法を提案する。1つは反復局所探索(ils)、もう1つは遺伝的アルゴリズム(ga)に基づく。 組み合わせの最適化は、satインスタンスとその解決時間を大幅に削減するが、長い生成時間のコストがかかる。 そこで,実験による比較により,生成時間と解解時間とのバランスについて検討し,モデルの改良について検討した。

Grammatical inference consists in learning a formal grammar (as a set of rewrite rules or a finite state machine). We are concerned with learning Nondeterministic Finite Automata (NFA) of a given size from samples of positive and negative words. NFA can naturally be modeled in SAT. The standard model [1] being enormous, we also try a model based on prefixes [2] which generates smaller instances. We also propose a new model based on suffixes and a hybrid model based on prefixes and suffixes. We then focus on optimizing the size of generated SAT instances issued from the hybrid models. We present two techniques to optimize this combination, one based on Iterated Local Search (ILS), the second one based on Genetic Algorithm (GA). Optimizing the combination significantly reduces the SAT instances and their solving time, but at the cost of longer generation time. We, therefore, study the balance between generation time and solving time thanks to some experimental comparisons, and we analyze our various model improvements.
翻訳日:2021-07-14 14:45:26 公開日:2021-07-13
# Q-SMASH:人間中心のモノの自己適応

Q-SMASH: Q-Learning-based Self-Adaptation of Human-Centered Internet of Things ( http://arxiv.org/abs/2107.05949v1 )

ライセンス: Link先を確認
Hamed Rahimi, Iago Felipe Trentin, Fano Ramparany, Olivier Boissier(参考訳) ヒューマン中心のモノのインターネット(hciot)アプリケーション数が増加するにつれて、そのサービスやデバイスの自己適応は意思決定プロセスにおける環境の不確実性に対処するための基本的な要件になりつつある。 HCIoTの自己適応は、動的環境における実行時の変更を管理し、IoTオブジェクトの機能を調整することで、実行中に望ましい目標を達成することを目的としている。 SMASHは,IoTオブジェクトを環境の不確実性に自律的に適応する,HCIoTの自己適応のためのセマンティック対応マルチエージェントシステムである。 SMASHは、ユーザの行動に対処する一方で、ユーザの人的価値に応じてのみ、IoTアプリケーションの自己適応に対処する。 この記事では、人間中心環境におけるIoTオブジェクトの自己適応のためのマルチエージェント強化学習ベースのアプローチであるQ-SMASHについて述べる。 Q-SMASHは人間の価値観を尊重しながらユーザの行動を学ぶことを目的としている。 Q-SMASHの学習能力は、ユーザの行動変化に適応し、異なる状態や状況におけるより正確な意思決定を可能にする。

As the number of Human-Centered Internet of Things (HCIoT) applications increases, the self-adaptation of its services and devices is becoming a fundamental requirement for addressing the uncertainties of the environment in decision-making processes. Self-adaptation of HCIoT aims to manage run-time changes in a dynamic environment and to adjust the functionality of IoT objects in order to achieve desired goals during execution. SMASH is a semantic-enabled multi-agent system for self-adaptation of HCIoT that autonomously adapts IoT objects to uncertainties of their environment. SMASH addresses the self-adaptation of IoT applications only according to the human values of users, while the behavior of users is not addressed. This article presents Q-SMASH: a multi-agent reinforcement learning-based approach for self-adaptation of IoT objects in human-centered environments. Q-SMASH aims to learn the behaviors of users along with respecting human values. The learning ability of Q-SMASH allows it to adapt itself to the behavioral change of users and make more accurate decisions in different states and situations.
翻訳日:2021-07-14 14:45:10 公開日:2021-07-13
# 説明可能なaiによる車両の燃費に影響を与える要因の理解:説明可能なブースティングマシンを事例として

Understanding Factors Affecting Fuel Consumption of Vehicles Through Explainable AI: A Use Case With Explainable Boosting Machines ( http://arxiv.org/abs/2107.06031v1 )

ライセンス: Link先を確認
Alberto Barbado, \'Oscar Corcho(参考訳) 車両群で運用する多くの企業にとって大きな経済的コストは、その燃料消費に関連している。 この消費は、自動車ドライバーの運転行動スタイルのようないくつかの側面に作用することで減らすことができる。 運転行動の改善(およびその他の機能)は、計画されたルートや停車駅などの他の側面を変更することなく、車両群で燃料を節約することができる。 これは、企業内の経済コストを軽減するだけでなく、主にガソリンやディーゼルエンジンを積んだ場合に、燃料消費に関連する排出を減らすためにも重要である。 本稿では,異なる特徴群が特定の艦隊の燃料消費に与える影響を定量化するために,説明可能な人工知能(xai)がいかに有用かを示す。 そのために、説明可能なブースティングマシン(EBM:Explainable Boosting Machines)を用いて、異なる機能(最大70)でトレーニングを行い、まず、それらと燃料消費の関係をモデル化し、それを説明します。 そこで本研究では,EBM が提案する説明と,これらの特徴が燃料消費に与える影響を推定する文献からの一般文献との比較を行い,本手法の有効性を検証した。 私たちは、乗用車を持つものからトラックのような大型車を含むものまで、さまざまな種類の車両を表す現実世界の業界データセットをいくつか扱っています。

A significant economic cost for many companies that operate with fleets of vehicles is related to their fuel consumption. This consumption can be reduced by acting over some aspects, such as the driving behaviour style of vehicle drivers. Improving driving behaviour (and other features) can save fuel on a fleet of vehicles without needing to change other aspects, such as the planned routes or stops. This is important not only for mitigating economic costs within a company, but also for reducing the emissions associated to fuel consumption, mainly when the vehicles have petrol or diesel engines. In this paper we show how Explainable Artificial Intelligence (XAI) can be useful for quantifying the impact that different feature groups have on the fuel consumption of a particular fleet. For that, we use Explainable Boosting Machines (EBM) that are trained over different features (up to 70) in order to first model the relationship between them and the fuel consumption, and then explain it. With it, we compare the explanations provided by the EBM with general references from the literature that estimate the potential impact that those features may have on the fuel consumption, in order to validate this approach. We work with several real-world industry datasets that represent different types of fleets, from ones that have passenger cars to others that include heavy-duty vehicles such as trucks.
翻訳日:2021-07-14 14:44:54 公開日:2021-07-13
# visual parser: トランスフォーマーで部分階層を表現する

Visual Parser: Representing Part-whole Hierarchies with Transformers ( http://arxiv.org/abs/2107.05790v1 )

ライセンス: Link先を確認
Shuyang Sun*, Xiaoyu Yue*, Song Bai, Philip Torr(参考訳) 人間の視覚はシーン全体から階層的な情報を捉えることができる。 本稿では,変換器を用いた階層構造を明示的に構築するビジュアルパーザ(ViP)を提案する。 ViPは視覚表現を、部分レベルと全体レベルという2つのレベルに分割する。 各部分の情報は、全体内の複数の独立したベクトルの組み合わせを表す。 2つのレベルの表現をモデル化するために、まず、注意機構を通じて、全体から部分ベクトルに情報をエンコードし、次に、部分ベクトル内のグローバル情報を全体表現に復号する。 提案するエンコーダとデコーダの相互作用で2つのレベルを反復的に解析することで、モデルは徐々に両方のレベルの機能を洗練することができる。 実験の結果、ViPは3つの主要なタスクにおいて非常に競争力のある性能を達成できることが示された。 分類、検出、インスタンスのセグメンテーション。 特に、これまでの最先端CNNバックボーンを、オブジェクト検出において大きなマージンで超えることができる。 7.2\times$少ないパラメータと10.9\times$少ないFLOPSの小さなモデルでは、最大のモデルであるResNeXt-101-64$\time s$4dのResNe(X)tファミリと互換性がある。 可視化の結果は、学習した部分が予測クラスに非常に有意義であることを示し、ViPが従来の基本アーキテクチャよりも説明しやすいことを示している。 コードはhttps://github.com/k evin-ssy/ViP.comで入手できる。

Human vision is able to capture the part-whole hierarchical information from the entire scene. This paper presents the Visual Parser (ViP) that explicitly constructs such a hierarchy with transformers. ViP divides visual representations into two levels, the part level and the whole level. Information of each part represents a combination of several independent vectors within the whole. To model the representations of the two levels, we first encode the information from the whole into part vectors through an attention mechanism, then decode the global information within the part vectors back into the whole representation. By iteratively parsing the two levels with the proposed encoder-decoder interaction, the model can gradually refine the features on both levels. Experimental results demonstrate that ViP can achieve very competitive performance on three major tasks e.g. classification, detection and instance segmentation. In particular, it can surpass the previous state-of-the-art CNN backbones by a large margin on object detection. The tiny model of the ViP family with $7.2\times$ fewer parameters and $10.9\times$ fewer FLOPS can perform comparably with the largest model ResNeXt-101-64$\time s$4d of ResNe(X)t family. Visualization results also demonstrate that the learnt parts are highly informative of the predicting class, making ViP more explainable than previous fundamental architectures. Code is available at https://github.com/k evin-ssy/ViP.
翻訳日:2021-07-14 14:44:15 公開日:2021-07-13
# 極小最適化によるマルチタスクアイデンティティ対応画像ステレオグラフィ

Multitask Identity-Aware Image Steganography via Minimax Optimization ( http://arxiv.org/abs/2107.05819v1 )

ライセンス: Link先を確認
Jiabao Cui, Pengyi Zhang, Songyuan Li, Liangli Zheng, Cuizhu Bao, Jupeng Xia, Xi Li(参考訳) 高容量画像ステガノグラフィ(high-capacity image steganography)は、秘密画像に秘密画像を隠すことを目的とした、顔や指紋などの機密データを保存する技術である。 以前の方法は、送信中のセキュリティに注目し、受信端で秘密画像が復元された後にプライバシーリークのリスクを負う。 この問題に対処するため、秘密画像の復元なしにコンテナイメージの直接認識を実現するためのMultitask Identity-Aware Image Steganography(MIAIS) というフレームワークを提案する。 直接認識の鍵となる問題は、秘密画像のアイデンティティ情報をコンテナイメージに保存し、コンテナイメージを同時にカバーイメージに類似させることである。 そこで我々は,アイデンティティ情報を保存するための単純なコンテンツロスと,矛盾する側面に対処するためのミニマックス最適化を提案する。 我々は、ロバスト性の結果を異なるカバーデータセット間で転送できることを実証した。 秘密画像復元に柔軟性を持たせるために,オプションの復元ネットワークを本手法に組み込み,マルチタスク・フレームワークを提供する。 マルチタスクシナリオによる実験は,他の視覚情報隠蔽法や最先端画像ステガノグラフィ法と比較して,フレームワークの有効性を示す。

High-capacity image steganography, aimed at concealing a secret image in a cover image, is a technique to preserve sensitive data, e.g., faces and fingerprints. Previous methods focus on the security during transmission and subsequently run a risk of privacy leakage after the restoration of secret images at the receiving end. To address this issue, we propose a framework, called Multitask Identity-Aware Image Steganography (MIAIS), to achieve direct recognition on container images without restoring secret images. The key issue of the direct recognition is to preserve identity information of secret images into container images and make container images look similar to cover images at the same time. Thus, we introduce a simple content loss to preserve the identity information, and design a minimax optimization to deal with the contradictory aspects. We demonstrate that the robustness results can be transferred across different cover datasets. In order to be flexible for the secret image restoration in some cases, we incorporate an optional restoration network into our method, providing a multitask framework. The experiments under the multitask scenario show the effectiveness of our framework compared with other visual information hiding methods and state-of-the-art high-capacity image steganography methods.
翻訳日:2021-07-14 14:43:56 公開日:2021-07-13
# 検出と位置:セマンティック・ノイズレベルのスーパービジョンを用いた対面マニピュレーション手法

Detect and Locate: A Face Anti-Manipulation Approach with Semantic and Noise-level Supervision ( http://arxiv.org/abs/2107.05821v1 )

ライセンス: Link先を確認
Chenqi Kong, Baoliang Chen, Haoliang Li, Shiqi Wang, Anderson Rocha, and Sam Kwong(参考訳) 深層学習の技術進歩により、高度な顔操作が実現され、近代社会における深刻な信頼問題やセキュリティ上の懸念が高まった。 一般的に、操作された顔を検出し、潜在的に変化する領域を特定することは難しい作業である。 そこで本研究では,操作領域を同時に特定しながら,画像中の偽造面を効率的に検出する概念的かつ効果的な手法を提案する。 提案手法は,画像に関する有意義な高レベル意味情報を提供するセグメンテーションマップに依存している。 さらに、ノイズマップを推定し、低レベルの手がかりを捕捉し、次いで意思決定の強化に補完的な役割を果たす。 最後に、これら2つのモジュールの機能を組み合わせて、フェイクフェイスを区別する。 広汎な実験により,提案モデルが最先端検出精度と顕著な局所化性能を達成することを示す。

The technological advancements of deep learning have enabled sophisticated face manipulation schemes, raising severe trust issues and security concerns in modern society. Generally speaking, detecting manipulated faces and locating the potentially altered regions are challenging tasks. Herein, we propose a conceptually simple but effective method to efficiently detect forged faces in an image while simultaneously locating the manipulated regions. The proposed scheme relies on a segmentation map that delivers meaningful high-level semantic information clues about the image. Furthermore, a noise map is estimated, playing a complementary role in capturing low-level clues and subsequently empowering decision-making. Finally, the features from these two modules are combined to distinguish fake faces. Extensive experiments show that the proposed model achieves state-of-the-art detection accuracy and remarkable localization performance.
翻訳日:2021-07-14 14:43:37 公開日:2021-07-13
# モノのインターネットにおけるノードレベルでのエッジインテリジェンスの動的分布

Dynamic Distribution of Edge Intelligence at the Node Level for Internet of Things ( http://arxiv.org/abs/2107.05828v1 )

ライセンス: Link先を確認
Hawzhin Mohammed, Tolulope A. Odetola, Nan Guo, Syed Rafay Hasan(参考訳) 本稿では,IoTレベルデバイスのみを利用した畳み込みニューラルネットワーク(CNN)アーキテクチャの動的展開を提案する。 CNNの分割とパイプライン化によって、リソース制約されたデバイス(水平協調と呼ばれる)間で計算負荷を水平に分散し、スループットを増大させる。 パーティショニングにより、個々のIoTデバイスの計算とエネルギー消費を削減し、精度を犠牲にすることなくスループットを向上させることができる。 また、生成点のデータを処理することにより、データのプライバシを実現できる。 その結果、CNNを2つと3つのリソース制約されたデバイスに共有するために、スループットを1.55倍から1.75倍に向上できることがわかった。

In this paper, dynamic deployment of Convolutional Neural Network (CNN) architecture is proposed utilizing only IoT-level devices. By partitioning and pipelining the CNN, it horizontally distributes the computation load among resource-constrained devices (called horizontal collaboration), which in turn increases the throughput. Through partitioning, we can decrease the computation and energy consumption on individual IoT devices and increase the throughput without sacrificing accuracy. Also, by processing the data at the generation point, data privacy can be achieved. The results show that throughput can be increased by 1.55x to 1.75x for sharing the CNN into two and three resource-constrained devices, respectively.
翻訳日:2021-07-14 14:43:23 公開日:2021-07-13
# rellie:低光度画像強調のための深層強化学習

ReLLIE: Deep Reinforcement Learning for Customized Low-Light Image Enhancement ( http://arxiv.org/abs/2107.05830v1 )

ライセンス: Link先を確認
Rongkai Zhang, Lanqing Guo, Siyu Huang and Bihan Wen(参考訳) 低光度画像強調(llie:low-light image enhancement)は,1) 撮影条件の違いにより低光度測定が変化する可能性があり,2) 個々の好みに応じて主観的に画像が啓蒙されるため,広汎かつ難解な問題である。 本稿では,この2つの課題に対処するために,ReLLIEと呼ばれる新しい深層強化学習手法を提案する。 rellie は llie をマルコフ決定過程、すなわち画素単位の画像固有曲線を逐次および反復的に推定する。 非参照損失関数の集合から計算された報酬を考えると、低照度画像入力の啓蒙曲線を推定するために、軽量ネットワークが提案されている。 ReLLIEは、一対一のイメージ変換の代わりにポリシーを学習するので、様々な低照度測定を処理でき、異なるタイミングでポリシーを柔軟に適用することで、カスタマイズされた拡張出力を提供できる。 さらに、ReLLIEは、プラグ・アンド・プレイ・デノイザを使用することで、ノイズなどのハイブリッドな汚職を伴う現実世界の画像を拡張できる。 様々なベンチマークに関する大規模な実験は、最先端の手法と比較して、ReLLIEの利点を示している。

Low-light image enhancement (LLIE) is a pervasive yet challenging problem, since: 1) low-light measurements may vary due to different imaging conditions in practice; 2) images can be enlightened subjectively according to diverse preferences by each individual. To tackle these two challenges, this paper presents a novel deep reinforcement learning based method, dubbed ReLLIE, for customized low-light enhancement. ReLLIE models LLIE as a markov decision process, i.e., estimating the pixel-wise image-specific curves sequentially and recurrently. Given the reward computed from a set of carefully crafted non-reference loss functions, a lightweight network is proposed to estimate the curves for enlightening of a low-light image input. As ReLLIE learns a policy instead of one-one image translation, it can handle various low-light measurements and provide customized enhanced outputs by flexibly applying the policy different times. Furthermore, ReLLIE can enhance real-world images with hybrid corruptions, e.g., noise, by using a plug-and-play denoiser easily. Extensive experiments on various benchmarks demonstrate the advantages of ReLLIE, comparing to the state-of-the-art methods.
翻訳日:2021-07-14 14:43:13 公開日:2021-07-13
# eproduct: 製品認識の課題に対処する100万規模のビジュアル検索ベンチマーク

eProduct: A Million-Scale Visual Search Benchmark to Address Product Recognition Challenges ( http://arxiv.org/abs/2107.05856v1 )

ライセンス: Link先を確認
Jiangbo Yuan, An-Ti Chiang, Wen Tang, Antonio Haro(参考訳) 大規模製品認識は、eコマース分野におけるコンピュータビジョンと機械学習の主要な応用の1つである。 製品数は通常製品のカテゴリ数よりもはるかに大きいため、画像に基づく製品認識は分類問題ではなく視覚検索として使われることが多い。 また、超細粒度認識の例の1つであり、微妙または微妙な視覚差を持つ製品が多数存在する。 現実の環境で様々なビジュアル検索ソリューションのトレーニングと評価のためのベンチマークデータセットを作成することは、常に課題だった。 この動機づけは、自己教師付き学習、弱い教師付き学習、および細かな粒度の認識のためのマルチモーダル学習といった分野の開発を加速するための、250万の製品イメージからなるデータセットである。 本稿では,eProductをトレーニングセットと評価セットとして提示する。トレーニングセットには,モデル開発のためのタイトルと階層的なカテゴリラベルを含む1.3M+のイメージと,ビジュアル検索評価のための1万のクエリと1100万のインデックスイメージが含まれている。 本稿では,eProductの構成手順,多様性の分析,トレーニングしたベースラインモデルの性能について紹介する。

Large-scale product recognition is one of the major applications of computer vision and machine learning in the e-commerce domain. Since the number of products is typically much larger than the number of categories of products, image-based product recognition is often cast as a visual search rather than a classification problem. It is also one of the instances of super fine-grained recognition, where there are many products with slight or subtle visual differences. It has always been a challenge to create a benchmark dataset for training and evaluation on various visual search solutions in a real-world setting. This motivated creation of eProduct, a dataset consisting of 2.5 million product images towards accelerating development in the areas of self-supervised learning, weakly-supervised learning, and multimodal learning, for fine-grained recognition. We present eProduct as a training set and an evaluation set, where the training set contains 1.3M+ listing images with titles and hierarchical category labels, for model development, and the evaluation set includes 10,000 query and 1.1 million index images for visual search evaluation. We will present eProduct's construction steps, provide analysis about its diversity and cover the performance of baseline models trained on it.
翻訳日:2021-07-14 14:42:53 公開日:2021-07-13
# 食品のインターネットのための食品知識グラフの構築に向けて

Towards Building a Food Knowledge Graph for Internet of Food ( http://arxiv.org/abs/2107.05869v1 )

ライセンス: Link先を確認
Weiqing Min, Chunlin Liu, Shuqiang Jiang(参考訳) 背景: 食品システムにおける様々なネットワーク(モノのインターネット(IoT)やモバイルネットワーク)とデータベース(栄養表や食品構成データベースなど)の配置は、よく知られたデータ調和の問題により、膨大な情報サイロを生成する。 食品知識グラフは、統一的で標準化された概念用語とその関係を構造化された形で提供し、それによって、これらの情報サイロを食品システム全体にわたって、より再利用可能なデジタル接続されたインターネット・オブ・フードに変換することができる。 スコープとアプローチ: 食品分類, 食品オントロジーから食品知識グラフまで, 食品知識組織の進化を概観する。 次に,食品知識グラフの進歩について,いくつかの代表的な応用から考察する。 最後に、主要な課題と今後の方向性について話し合う。 主な知見と結論: 食品知識グラフに関する最近の研究の概要は、食品検索・質問回答(QA)、パーソナライズされた食事レコメンデーション、食品分析・可視化、食品トレーサビリティ、食品知能製造など、食品指向のアプリケーションにおいて、食品知識グラフが重要な役割を果たすことを示している。 食品知識グラフの今後の方向性は、マルチモーダル食品知識グラフや食品インテリジェンスなど、いくつかの分野をカバーする。

Background: The deployment of various networks (e.g., Internet of Things (IoT) and mobile networks) and databases (e.g., nutrition tables and food compositional databases) in the food system generates massive information silos due to the well-known data harmonization problem. The food knowledge graph provides a unified and standardized conceptual terminology and their relationships in a structured form and thus can transform these information silos across the whole food system to a more reusable globally digitally connected Internet of Food, enabling every stage of the food system from farm-to-fork. Scope and approach: We review the evolution of food knowledge organization, from food classification, food ontology to food knowledge graphs. We then discuss the progress in food knowledge graphs from several representative applications. We finally discuss the main challenges and future directions. Key findings and conclusions: Our comprehensive summary of current research on food knowledge graphs shows that food knowledge graphs play an important role in food-oriented applications, including food search and Question Answering (QA), personalized dietary recommendation, food analysis and visualization, food traceability, and food machinery intelligent manufacturing. Future directions for food knowledge graphs cover several fields such as multimodal food knowledge graphs and food intelligence.
翻訳日:2021-07-14 14:42:34 公開日:2021-07-13
# ST-DETR:時空間オブジェクトトレースアテンション検出変換器

ST-DETR: Spatio-Temporal Object Traces Attention Detection Transformer ( http://arxiv.org/abs/2107.05887v1 )

ライセンス: Link先を確認
Eslam Mohamed and Ahmad El-Sallab(参考訳) 時間的フレーム列からのオブジェクト検出のための時空間トランスフォーマーアーキテクチャST-DETRを提案する。 時間的フレームを空間と時間の両方のシーケンスとして扱い、両方の次元における特徴相関を生かした完全な注意機構を用いる。 この処理により、時間的対象が空間内のすべての位置をトレースするので、フレームシーケンスを処理できる。 初期の空間的特徴を時間的次元上でアグリゲーションする手法と,オブジェクトクエリ空間的特徴の遅い時間的アグリゲーションについて検討する。 さらに,時系列情報をエンコードする新しい時間的位置埋め込み手法を提案する。 提案手法を評価するために,時間次元の重要性を示すのに最適な候補であるため,移動物体検出(MOD)タスクを選択する。 その結果,KITTI MODデータセットでは1段階の空間ベースラインよりも5%のmAP改善が見られた。

We propose ST-DETR, a Spatio-Temporal Transformer-based architecture for object detection from a sequence of temporal frames. We treat the temporal frames as sequences in both space and time and employ the full attention mechanisms to take advantage of the features correlations over both dimensions. This treatment enables us to deal with frames sequence as temporal object features traces over every location in the space. We explore two possible approaches; the early spatial features aggregation over the temporal dimension, and the late temporal aggregation of object query spatial features. Moreover, we propose a novel Temporal Positional Embedding technique to encode the time sequence information. To evaluate our approach, we choose the Moving Object Detection (MOD)task, since it is a perfect candidate to showcase the importance of the temporal dimension. Results show a significant 5% mAP improvement on the KITTI MOD dataset over the 1-step spatial baseline.
翻訳日:2021-07-14 14:42:09 公開日:2021-07-13
# PU-Flow: 正規化フローを備えたポイントクラウドアップサンプリングネットワーク

PU-Flow: a Point Cloud Upsampling Networkwith Normalizing Flows ( http://arxiv.org/abs/2107.05893v1 )

ライセンス: Link先を確認
Aihua Mao, Zihui Du, Junhui Hou, Yaqi Duan, Yong-jin Liu, Ying He(参考訳) 点雲アップサンプリングは、与えられたスパースから高密度な点雲を生成することを目的としており、これは点集合の不規則で秩序のない性質のために難しい課題である。 この問題に対処するため,本論文では,基礎面上に均一に分布する密点を生成するために,正規化フローと特徴補間手法を組み込んだ,新しい深層学習モデルpu-flowを提案する。 具体的には、局所幾何学的文脈から補間重みを適応的に学習する潜在空間における点補間としてアップサンプリング過程を定式化し、正規化フローの可逆特性を利用してユークリッド空間と潜在空間の間の点を変換する。 我々は,鮮明な特徴と高周波の詳細を持つ広範囲な3次元モデル上でPU-Flowを評価する。 定性的かつ定量的な結果から,本手法は,再現性,近接精度,計算効率の観点から,最先端の深層学習アプローチよりも優れていた。

Point cloud upsampling aims to generate dense point clouds from given sparse ones, which is a challenging task due to the irregular and unordered nature of point sets. To address this issue, we present a novel deep learning-based model, called PU-Flow,which incorporates normalizing flows and feature interpolation techniques to produce dense points uniformly distributed on the underlying surface. Specifically, we formulate the upsampling process as point interpolation in a latent space, where the interpolation weights are adaptively learned from local geometric context, and exploit the invertible characteristics of normalizing flows to transform points between Euclidean and latent spaces. We evaluate PU-Flow on a wide range of 3D models with sharp features and high-frequency details. Qualitative and quantitative results show that our method outperforms state-of-the-art deep learning-based approaches in terms of reconstruction quality, proximity-to-surface accuracy, and computation efficiency.
翻訳日:2021-07-14 14:41:57 公開日:2021-07-13
# 部分重なるラベルからの学習:アノテーションシフトによる画像分割

Learning from Partially Overlapping Labels: Image Segmentation under Annotation Shift ( http://arxiv.org/abs/2107.05938v1 )

ライセンス: Link先を確認
Gregory Filbrandt, Konstantinos Kamnitsas, David Bernstein, Alexandra Taylor, Ben Glocker(参考訳) 高品質な注釈付き画像の不足は、正確な画像分割モデルの訓練の限界要素である。 より多くの注釈付きデータセットが公開されているが、個々のデータベース内のサンプル数は少ないことが多い。 異なるデータベースを組み合わせて大量のトレーニングデータを作成することは、データ取得とアノテーションプロセスの違いによる異質性のため、しばしば互換性のない情報や矛盾する情報を生み出すため、非常に難しい。 本稿では,腹部臓器分節の文脈におけるラベルの重なりから学ぶためのいくつかの戦略について検討し,提案する。 半教師付きアプローチと適応的クロスエントロピー損失を組み合わせることで、不均一なアノテートデータを活用することができ、ベースラインや代替手法と比較してセグメンテーション精度を大幅に向上させることができる。

Scarcity of high quality annotated images remains a limiting factor for training accurate image segmentation models. While more and more annotated datasets become publicly available, the number of samples in each individual database is often small. Combining different databases to create larger amounts of training data is appealing yet challenging due to the heterogeneity as a result of differences in data acquisition and annotation processes, often yielding incompatible or even conflicting information. In this paper, we investigate and propose several strategies for learning from partially overlapping labels in the context of abdominal organ segmentation. We find that combining a semi-supervised approach with an adaptive cross entropy loss can successfully exploit heterogeneously annotated data and substantially improve segmentation accuracy compared to baseline and alternative approaches.
翻訳日:2021-07-14 14:41:39 公開日:2021-07-13
# CentripetalText: シーンテキスト検出のための効率的なテキストインスタンス表現

CentripetalText: An Efficient Text Instance Representation for Scene Text Detection ( http://arxiv.org/abs/2107.05945v1 )

ライセンス: Link先を確認
Tao Sheng, Jie Chen, Zhouhui Lian(参考訳) テキストの曲率、向き、アスペクト比の変動のため、シーンテキスト検出は依然として大きな課題である。 最も難解な問題の1つは、任意の形状のテキストインスタンスをどのように表現するかである。 多くの最先端の手法が不規則テキストを柔軟にモデル化するために提案されているが、そのほとんどは単純さと堅牢さを失う。 これらの複雑な後処理とディラックデルタ分布下での回帰は検出性能と一般化能力を損なう。 本稿では,テキストインスタンスをテキストカーネルと中心的なシフトの組み合わせに分解する,CentripetalText (CT) という効率的なテキストインスタンス表現を提案する。 具体的には、外部のテキストピクセルを内部テキストカーネルに誘導する画素アグリゲーションを実装するために、遠心シフトを利用する。 緩和操作は遠心シフトの密回帰に積分され、特定の値ではなく範囲で正確な予測が可能となる。 本手法では,テキスト輪郭の簡易な再構築と予測誤差の許容により,高い検出精度と高速推論速度が保証される。 さらに、テキスト検出器をCentripetalText Proposal Network (CPN) という提案生成モジュールに縮小し、Mask TextSpotter v3のSPNを置き換えるとともに、より正確な提案を生成する。 提案手法の有効性を検証するため,曲面および多目的テキストデータセットを含む複数のシーンテキストベンチマークを用いて実験を行った。 シーンテキスト検出では,f-measureが40.0 fps,f-measureが86.3%,f-measureが86.1%,msra-td500が34.8 fps,など,既存の手法と比較して優れているか,競争力がある。 エンド・ツー・エンドのシーンテキスト認識のタスクでは、全テキストでMask TextSpotter v3を1.1%上回ります。

Scene text detection remains a grand challenge due to the variation in text curvatures, orientations, and aspect ratios. One of the most intractable problems is how to represent text instances of arbitrary shapes. Although many state-of-the-art methods have been proposed to model irregular texts in a flexible manner, most of them lose simplicity and robustness. Their complicated post-processings and the regression under Dirac delta distribution undermine the detection performance and the generalization ability. In this paper, we propose an efficient text instance representation named CentripetalText (CT), which decomposes text instances into the combination of text kernels and centripetal shifts. Specifically, we utilize the centripetal shifts to implement the pixel aggregation, which guide the external text pixels to the internal text kernels. The relaxation operation is integrated into the dense regression for centripetal shifts, allowing the correct prediction in a range, not a specific value. The convenient reconstruction of the text contours and the tolerance of the prediction errors in our method guarantee the high detection accuracy and the fast inference speed respectively. Besides, we shrink our text detector into a proposal generation module, namely CentripetalText Proposal Network (CPN), replacing SPN in Mask TextSpotter v3 and producing more accurate proposals. To validate the effectiveness of our designs, we conduct experiments on several commonly used scene text benchmarks, including both curved and multi-oriented text datasets. For the task of scene text detection, our approach achieves superior or competitive performance compared to other existing methods, e.g., F-measure of 86.3% at 40.0 FPS on Total-Text, F-measure of 86.1% at 34.8 FPS on MSRA-TD500, etc. For the task of end-to-end scene text recognition, we outperform Mask TextSpotter v3 by 1.1% on Total-Text.
翻訳日:2021-07-14 14:41:26 公開日:2021-07-13
# MSR-Net:1対1のリライトのためのマルチスケールリライトネットワーク

MSR-Net: Multi-Scale Relighting Network for One-to-One Relighting ( http://arxiv.org/abs/2107.06125v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Nisarg A. Shah, Saikat Dutta(参考訳) ディープ・イメージ・リライティング(deep image relighting)は、人間の努力なしに照明特有のリタッチによって写真の強化を可能にする。 relightingで使用可能な既存の一般的なメソッドのほとんどは、実行時集中型であり、メモリ効率が悪い。 これらの問題を念頭に置いて,各画像から異なるスケールで特徴を集約する階層型階層型ネットワークのスタック化を提案する。 我々のソリューションは、入力画像からターゲット画像への画像照明設定の変換に適しており、堅牢である。 また,2つの異なる損失関数を持つこの問題に対する多段階学習手法を用いることで,性能が著しく向上し,高画質な画像再構成が可能となることを示した。

Deep image relighting allows photo enhancement by illumination-specifi c retouching without human effort and so it is getting much interest lately. Most of the existing popular methods available for relighting are run-time intensive and memory inefficient. Keeping these issues in mind, we propose the use of Stacked Deep Multi-Scale Hierarchical Network, which aggregates features from each image at different scales. Our solution is differentiable and robust for translating image illumination setting from input image to target image. Additionally, we have also shown that using a multi-step training approach to this problem with two different loss functions can significantly boost performance and can achieve a high quality reconstruction of a relighted image.
翻訳日:2021-07-14 14:40:55 公開日:2021-07-13
# 任意形テキスト検出のための双方向回帰

Bidirectional Regression for Arbitrary-Shaped Text Detection ( http://arxiv.org/abs/2107.06129v1 )

ライセンス: Link先を確認
Tao Sheng, Zhouhui Lian(参考訳) 任意字型テキスト検出は近年関心が高まり、ディープラーニングアルゴリズムの普及とともに急速に発展している。 それにもかかわらず、既存のアプローチは、文脈情報を利用する比較的弱い能力とオフセット参照の不適切な選択のために、しばしば不正確な検出結果を得る。 本稿では,前景情報と背景情報の両方をパイプラインに統合し,オフセット開始時にテキスト境界付近の画素を自然に利用する新しいテキストインスタンス表現を提案する。 さらに、対応する後処理アルゴリズムは、4つの予測結果を逐次組み合わせてテキストインスタンスを正確に再構築するように設計されている。 本手法は,曲面および多目的テキストデータセットを含む,いくつかの挑戦的なシーンテキストベンチマークで評価する。 実験の結果,提案手法は,テキスト総数で83.4%f-score,msra-td 500で82.4%f-scoreなど,最先端手法に比べて優れているか,あるいは競争力が高いことがわかった。

Arbitrary-shaped text detection has recently attracted increasing interests and witnessed rapid development with the popularity of deep learning algorithms. Nevertheless, existing approaches often obtain inaccurate detection results, mainly due to the relatively weak ability to utilize context information and the inappropriate choice of offset references. This paper presents a novel text instance expression which integrates both foreground and background information into the pipeline, and naturally uses the pixels near text boundaries as the offset starts. Besides, a corresponding post-processing algorithm is also designed to sequentially combine the four prediction results and reconstruct the text instance accurately. We evaluate our method on several challenging scene text benchmarks, including both curved and multi-oriented text datasets. Experimental results demonstrate that the proposed approach obtains superior or competitive performance compared to other state-of-the-art methods, e.g., 83.4% F-score for Total-Text, 82.4% F-score for MSRA-TD500, etc.
翻訳日:2021-07-14 14:40:43 公開日:2021-07-13
# MINERVAS: VirtuAl合成のための大規模インテリア環境

MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis ( http://arxiv.org/abs/2107.06149v1 )

ライセンス: Link先を確認
Haocheng Ren and Hao Zhang and Jia Zheng and Jiaxiang Zheng and Rui Tang and Rui Wang and Hujun Bao(参考訳) データ駆動技術が急速に発展し、様々なコンピュータビジョンタスクにおいてデータが重要な役割を担ってきた。 様々な問題に対処するために、多くの現実的な合成データセットが提案されている。 しかし,(1)データセットの作成は通常,手作業による面倒なプロセスであり,(2)ほとんどのデータセットは1つの特定のタスクのためにのみ設計されており,(3)3Dシーンの変更やランダム化は困難であり,(4)商用3Dデータのリリースは著作権問題に直面する可能性がある。 本稿では,大規模室内環境仮想合成システムである minervas について,視覚課題に対する3次元シーンの修正と2次元画像合成を容易にすることを目的とする。 特に,ドメイン特化言語を用いたプログラム可能なパイプラインを設計し,(1)市販屋内シーンデータベースからシーンを選択すること,(2)カスタマイズされたルールで異なるタスクのシーンを合成すること,(3)視覚色,幾何学的構造,セマンティックラベルなどの様々な画像データを描画することなどが可能である。 本システムでは,タスクごとに多数のシーンをカスタマイズすることの難しさを軽減し,マルチレベルサンプリングシステムを用いてユーザ制御可能なランダム性を提供することにより,きめ細かいシーン構成の操作を省く。 最も重要なことは、ユーザーが数百万の屋内シーンを持つ商用シーンデータベースにアクセスし、コアデータ資産、例えば3DCADモデルの著作権を保護することである。 本稿では,様々なコンピュータビジョンタスクの性能を向上させるために,合成データを用いてシステムの有効性と柔軟性を示す。

With the rapid development of data-driven techniques, data has played an essential role in various computer vision tasks. Many realistic and synthetic datasets have been proposed to address different problems. However, there are lots of unresolved challenges: (1) the creation of dataset is usually a tedious process with manual annotations, (2) most datasets are only designed for a single specific task, (3) the modification or randomization of the 3D scene is difficult, and (4) the release of commercial 3D data may encounter copyright issue. This paper presents MINERVAS, a Massive INterior EnviRonments VirtuAl Synthesis system, to facilitate the 3D scene modification and the 2D image synthesis for various vision tasks. In particular, we design a programmable pipeline with Domain-Specific Language, allowing users to (1) select scenes from the commercial indoor scene database, (2) synthesize scenes for different tasks with customized rules, and (3) render various imagery data, such as visual color, geometric structures, semantic label. Our system eases the difficulty of customizing massive numbers of scenes for different tasks and relieves users from manipulating fine-grained scene configurations by providing user-controllable randomness using multi-level samplers. Most importantly, it empowers users to access commercial scene databases with millions of indoor scenes and protects the copyright of core data assets, e.g., 3D CAD models. We demonstrate the validity and flexibility of our system by using our synthesized data to improve the performance on different kinds of computer vision tasks.
翻訳日:2021-07-14 14:40:28 公開日:2021-07-13
# ロバスト領域適応のための高速バッチ核ノルム最大化と最小化

Fast Batch Nuclear-norm Maximization and Minimization for Robust Domain Adaptation ( http://arxiv.org/abs/2107.06154v1 )

ライセンス: Link先を確認
Shuhao Cui, Shuhui Wang, Junbao Zhuo, Liang Li, Qingming Huang and Qi Tian(参考訳) 視覚領域適応における領域の相違のため、ソースモデルの性能は、対象領域における決定境界付近の高データ密度にぶつかると劣化する。 一般的な解決策は、シャノンエントロピーを最小化し、決定境界を高密度領域から遠ざけることである。 しかし、エントロピーの最小化は予測の多様性を著しく低下させ、残念ながらドメイン適応に害をもたらす。 本稿では,ランダムに選択されたデータバッチの分類出力行列の構造を調べることにより,予測判別性と多様性について検討する。 理論解析により, 予測判別性と多様性は, バッチ出力行列のフロベニウスノルムとランクによって別々に測定できることがわかった。 核ノルムは前者の上限であり、後者の凸近似である。 そこで本研究では,ターゲット出力マトリックス上で核ノルム最大化を行い,目標予測能力を高めるバッチ核ノルム最大化と,ソースバッチ出力マトリックスにおける核ノルム最小化を行い,ソースドメイン知識の適用性を高めるバッチ核ノルム最大化と最小化を提案する。 さらに,l_{1,2}-ノルムによる核ノルムを近似し,多数のカテゴリの安定解に対するマルチバッチ最適化を設計する。 高速近似法はo(n^2)計算の複雑さと収束性の向上を実現する。 実験により、3つの典型的なドメイン適応シナリオにおいて適応精度とロバスト性を高めることができた。 コードはhttps://github.com/c uishuhao/bnmで入手できる。

Due to the domain discrepancy in visual domain adaptation, the performance of source model degrades when bumping into the high data density near decision boundary in target domain. A common solution is to minimize the Shannon Entropy to push the decision boundary away from the high density area. However, entropy minimization also leads to severe reduction of prediction diversity, and unfortunately brings harm to the domain adaptation. In this paper, we investigate the prediction discriminability and diversity by studying the structure of the classification output matrix of a randomly selected data batch. We find by theoretical analysis that the prediction discriminability and diversity could be separately measured by the Frobenius-norm and rank of the batch output matrix. The nuclear-norm is an upperbound of the former, and a convex approximation of the latter. Accordingly, we propose Batch Nuclear-norm Maximization and Minimization, which performs nuclear-norm maximization on the target output matrix to enhance the target prediction ability, and nuclear-norm minimization on the source batch output matrix to increase applicability of the source domain knowledge. We further approximate the nuclear-norm by L_{1,2}-norm, and design multi-batch optimization for stable solution on large number of categories. The fast approximation method achieves O(n^2) computational complexity and better convergence property. Experiments show that our method could boost the adaptation accuracy and robustness under three typical domain adaptation scenarios. The code is available at https://github.com/c uishuhao/BNM.
翻訳日:2021-07-14 14:40:01 公開日:2021-07-13
# cmt:畳み込みニューラルネットワークが視覚トランスフォーマーに対応

CMT: Convolutional Neural Networks Meet Vision Transformers ( http://arxiv.org/abs/2107.06263v1 )

ライセンス: Link先を確認
Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu and Yunhe Wang(参考訳) 視覚トランスフォーマーは、画像内の長距離依存性をキャプチャできるため、画像認識タスクにうまく適用されている。 しかし、トランスと既存の畳み込みニューラルネットワーク(CNN)のパフォーマンスと計算コストにはまだギャップがある。 本稿では,この課題に対処し,標準変圧器だけでなく,高性能な畳み込みモデルにも勝るネットワークを構築することを目的とする。 本稿では,長距離依存性を捉えるためにトランスを活用し,局所的な特徴をモデル化するためのcnnを用いて,新しいトランスフォーマティブ・ハイブリッド・ネットワークを提案する。 さらに,従来の畳み込みモデルやトランスフォーマーモデルよりも精度と効率が向上し,cmtsと呼ばれるモデル群を得るようにスケールする。 特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。 提案されたCMT-Sは、CIFAR10 (99.2%)、CIFAR100 (91.7%)、花(98.7%)、COCO (44.3% mAP)などの挑戦的なビジョンデータセットにもよく応用でき、計算コストもかなり少ない。

Vision transformers have been successfully applied to image recognition tasks due to their ability to capture long-range dependencies within an image. However, there are still gaps in both performance and computational cost between transformers and existing convolutional neural networks (CNNs). In this paper, we aim to address this issue and develop a network that can outperform not only the canonical transformers, but also the high-performance convolutional models. We propose a new transformer based hybrid network by taking advantage of transformers to capture long-range dependencies, and of CNNs to model local features. Furthermore, we scale it to obtain a family of models, called CMTs, obtaining much better accuracy and efficiency than previous convolution and transformer based models. In particular, our CMT-S achieves 83.5% top-1 accuracy on ImageNet, while being 14x and 2x smaller on FLOPs than the existing DeiT and EfficientNet, respectively. The proposed CMT-S also generalizes well on CIFAR10 (99.2%), CIFAR100 (91.7%), Flowers (98.7%), and other challenging vision datasets such as COCO (44.3% mAP), with considerably less computational cost.
翻訳日:2021-07-14 14:39:37 公開日:2021-07-13
# ピクセル単位の分類は意味的セグメンテーションに必要な全てではない

Per-Pixel Classification is Not All You Need for Semantic Segmentation ( http://arxiv.org/abs/2107.06278v1 )

ライセンス: Link先を確認
Bowen Cheng and Alexander G. Schwing and Alexander Kirillov(参考訳) 現代のアプローチでは、セマンティックセグメンテーションはピクセル単位の分類タスクとして定式化され、インスタンスレベルのセグメンテーションは代替マスクの分類で扱われる。 我々の重要な洞察は、マスク分類は、全く同じモデル、損失、訓練手順を用いて意味論的およびインスタンスレベルのセグメンテーションタスクを統一的に解くのに十分一般的なものである。 そこで本研究では,単一グローバルクラスラベルの予測に関連付けられた2値マスクの集合を予測するシンプルなマスク分類モデルMaskFormerを提案する。 総合的に,マスク分類に基づく手法は,意味的・単眼的セグメンテーションタスクに対する効果的なアプローチの景観を単純化し,優れた経験的結果を示す。 特に,クラス数が大きくなると,MaskFormerがピクセル単位の分類ベースラインを上回っている。 マスク分類に基づく手法は,現在最先端のセマンティクス(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。

Modern approaches typically formulate semantic segmentation as a per-pixel classification task, while instance-level segmentation is handled with an alternative mask classification. Our key insight: mask classification is sufficiently general to solve both semantic- and instance-level segmentation tasks in a unified manner using the exact same model, loss, and training procedure. Following this observation, we propose MaskFormer, a simple mask classification model which predicts a set of binary masks, each associated with a single global class label prediction. Overall, the proposed mask classification-based method simplifies the landscape of effective approaches to semantic and panoptic segmentation tasks and shows excellent empirical results. In particular, we observe that MaskFormer outperforms per-pixel classification baselines when the number of classes is large. Our mask classification-based method outperforms both current state-of-the-art semantic (55.6 mIoU on ADE20K) and panoptic segmentation (52.7 PQ on COCO) models.
翻訳日:2021-07-14 14:39:14 公開日:2021-07-13
# 医療保険評価のための対話型情報抽出システム

A Dialogue-based Information Extraction System for Medical Insurance Assessment ( http://arxiv.org/abs/2107.05866v1 )

ライセンス: Link先を確認
Shuang Peng, Mengdi Zhou, Minghui Yang, Haitao Mi, Shaosheng Cao, Zujie Wen, Teng Xu, Hongbin Wang, Lei Liu(参考訳) 中国の医療保険業界では、査定官の役割は必須であり、請求者との会話に多大な努力を要する。 これは非常に専門的な仕事であり、個人情報の特定、関連する証拠の収集、最終保険報告書の作成など、多くの部分に関わる。 新型コロナウイルス(COVID-19)パンデミックのため、以前のオフライン保険評価をオンラインで実施する必要がある。 しかし, 実践経験が乏しいジュニアアセステータにおいては, このような複雑なオンライン手続きを迅速に扱うことは容易ではないが, 保険会社は, 評価者のフィードバックに基づいて, どれだけの補償を受けるべきかを判断する必要がある。 本稿では,医療保険評価のための高度なNLP技術を統合した対話型情報抽出システムを提案する。 システムの補助により, 作業時間の平均コストを55分から35分に短縮し, 人的資源コストを従来のオフライン処理と比較して30%削減した。 これまで、このシステムは何千ものオンラインクレームケースを提供してきた。

In the Chinese medical insurance industry, the assessor's role is essential and requires significant efforts to converse with the claimant. This is a highly professional job that involves many parts, such as identifying personal information, collecting related evidence, and making a final insurance report. Due to the coronavirus (COVID-19) pandemic, the previous offline insurance assessment has to be conducted online. However, for the junior assessor often lacking practical experience, it is not easy to quickly handle such a complex online procedure, yet this is important as the insurance company needs to decide how much compensation the claimant should receive based on the assessor's feedback. In order to promote assessors' work efficiency and speed up the overall procedure, in this paper, we propose a dialogue-based information extraction system that integrates advanced NLP technologies for medical insurance assessment. With the assistance of our system, the average time cost of the procedure is reduced from 55 minutes to 35 minutes, and the total human resources cost is saved 30% compared with the previous offline procedure. Until now, the system has already served thousands of online claim cases.
翻訳日:2021-07-14 14:38:53 公開日:2021-07-13
# データ駆動低ランクニューラルネットワーク圧縮

Data-Driven Low-Rank Neural Network Compression ( http://arxiv.org/abs/2107.05787v1 )

ライセンス: Link先を確認
Dimitris Papadimitriou, Swayambhoo Jain(参考訳) Deep Neural Networks (DNN) の最近の多くの応用にもかかわらず、隠されたレイヤ内の多数のパラメータは、ストレージ容量の制約のあるデバイスへのデプロイには不適当である。 本稿では,データ駆動型低ランク(DDLR)手法を提案する。DNNのパラメータ数を削減し,全接続層に低ランク構造を付与し,全体の精度を制御し,再トレーニングを必要としない。 提案手法は,各全連結層における最下位の階数近似を与えられた性能保証付きで発見し,トラクタブル凸最適化問題に緩和する問題である。 本稿では, DNNアーキテクチャにおいて, 分類精度をわずかに低下させるだけで, パラメータ数を著しく削減できることを示す。 我々はDDLRとNet-Trimを比較し、これは空間性に基づくデータ駆動DNN圧縮技術であり、DDLRは高い精度を維持しながら、より圧縮されたニューラルネットワークを一貫して生成することを示す。

Despite many modern applications of Deep Neural Networks (DNNs), the large number of parameters in the hidden layers makes them unattractive for deployment on devices with storage capacity constraints. In this paper we propose a Data-Driven Low-rank (DDLR) method to reduce the number of parameters of pretrained DNNs and expedite inference by imposing low-rank structure on the fully connected layers, while controlling for the overall accuracy and without requiring any retraining. We pose the problem as finding the lowest rank approximation of each fully connected layer with given performance guarantees and relax it to a tractable convex optimization problem. We show that it is possible to significantly reduce the number of parameters in common DNN architectures with only a small reduction in classification accuracy. We compare DDLR with Net-Trim, which is another data-driven DNN compression technique based on sparsity and show that DDLR consistently produces more compressed neural networks while maintaining higher accuracy.
翻訳日:2021-07-14 14:37:58 公開日:2021-07-13
# 大規模学習のための自動学習率スケジューラ

Automated Learning Rate Scheduler for Large-batch Training ( http://arxiv.org/abs/2107.05855v1 )

ライセンス: Link先を確認
Chiheon Kim, Saehoon Kim, Jongmin Kim, Donghoon Lee, Sungwoong Kim(参考訳) ディープラーニングで大規模データセットとモデルを活用するには,大規模トレーニングが不可欠だ。 大規模なバッチサイズを使用するには計算上のメリットがあるが、より小さなバッチトレーニングと同等のパフォーマンスを達成するために特別に設計された学習率(LR)スケジュールを必要とすることが多い。 特に、トレーニングエポックの数が制限されている場合、更新ステップの削減により、大容量LRの使用とウォームアップ戦略が大規模バッチトレーニングの最終性能に欠かせない。 本研究では,与えられたエポック予算の下で,大きなバッチサイズを持つニューラルネットワークのトレーニングに有効である自動lrスケジューリングアルゴリズムを提案する。 スケジュール全体は、適応的なウォームアップと事前定義された崩壊という2つのフェーズで構成され、トレーニング損失が減少し、トレーニング終了まで0に減少するまでLRが増大する。 ここでは, トレーニング損失が最小値に達したか否かを, 低計算負担のオンライン手法で, ガウス過程を円滑に検証する。 提案するスケジューラは,AdamPやLAMBなどの適応確率最適化器と組み合わせて,煩雑なハイパーパラメータチューニングを伴わずにLRの調整に成功し,様々な画像分類ベンチマークや幅広いバッチサイズを持つアーキテクチャにおいて,ベースラインをチューニングするよりも,同等あるいは優れた性能を実現する。

Large-batch training has been essential in leveraging large-scale datasets and models in deep learning. While it is computationally beneficial to use large batch sizes, it often requires a specially designed learning rate (LR) schedule to achieve a comparable level of performance as in smaller batch training. Especially, when the number of training epochs is constrained, the use of a large LR and a warmup strategy is critical in the final performance of large-batch training due to the reduced number of updating steps. In this work, we propose an automated LR scheduling algorithm which is effective for neural network training with a large batch size under the given epoch budget. In specific, the whole schedule consists of two phases: adaptive warmup and predefined decay, where the LR is increased until the training loss no longer decreases and decreased to zero until the end of training. Here, whether the training loss has reached the minimum value is robustly checked with Gaussian process smoothing in an online manner with a low computational burden. Coupled with adaptive stochastic optimizers such as AdamP and LAMB, the proposed scheduler successfully adjusts the LRs without cumbersome hyperparameter tuning and achieves comparable or better performances than tuned baselines on various image classification benchmarks and architectures with a wide range of batch sizes.
翻訳日:2021-07-14 14:37:41 公開日:2021-07-13
# 1次元畳み込みニューラルネットワークを用いたマルチラベル分類のためのマルチスケールラベル関係学習

Multi-Scale Label Relation Learning for Multi-Label Classification Using 1-Dimensional Convolutional Neural Networks ( http://arxiv.org/abs/2107.05941v1 )

ライセンス: Link先を確認
Junhyung Kim, Byungyoon Park, Charmgil Hong(参考訳) 本稿では,1次元畳み込みカーネルを用いたマルチラベル分類(mlc)に対する新しいアプローチであるマルチスケールラベル依存関係ネットワーク(msdn)を提案する。 現代のマルチラベル分類器は、ラベル依存関係を捕捉し活用するためのメモリ構造として、リカレントニューラルネットワーク(RNN)を採用している。 しかし、RNNベースのLCCモデルは、過度に適合する問題を引き起こす可能性のある非常に多くのパラメータを導入する傾向がある。 提案手法は,1次元畳み込みニューラルネットワーク(1D-CNN)を用いて,より効率的な目的を達成する。 複数のカーネルサイズを持つモデルをトレーニングすることにより,ラベル間の依存関係関係を複数のスケールで学習することが可能になる。 公開ベンチマークデータセットを用いて、RNNベースのMLCモデルと比較して、モデルパラメータの少ないモデルで精度を向上できることを実証する。

We present Multi-Scale Label Dependence Relation Networks (MSDN), a novel approach to multi-label classification (MLC) using 1-dimensional convolution kernels to learn label dependencies at multi-scale. Modern multi-label classifiers have been adopting recurrent neural networks (RNNs) as a memory structure to capture and exploit label dependency relations. The RNN-based MLC models however tend to introduce a very large number of parameters that may cause under-/over-fitting problems. The proposed method uses the 1-dimensional convolutional neural network (1D-CNN) to serve the same purpose in a more efficient manner. By training a model with multiple kernel sizes, the method is able to learn the dependency relations among labels at multiple scales, while it uses a drastically smaller number of parameters. With public benchmark datasets, we demonstrate that our model can achieve better accuracies with much smaller number of model parameters compared to RNN-based MLC models.
翻訳日:2021-07-14 14:37:17 公開日:2021-07-13
# 帯域における事前学習のレグレットはない

No Regrets for Learning the Prior in Bandits ( http://arxiv.org/abs/2107.06196v1 )

ライセンス: Link先を確認
Soumya Basu, Branislav Kveton, Manzil Zaheer, Csaba Szepesv\'ari(参考訳) 我々は,トンプソンサンプリングアルゴリズムである${\tt adats}$を提案する。 ${\tt adats}$の鍵となるアイデアは、パラメータの分布を維持して未知のタスクの事前分布に適応させることである。 盗賊の問題を解くとき、その不確実性は疎外され、適切に説明される。 ${\tt adats}$ は、バンドイット問題のいくつかのクラスで効率的に実装できる完全ベイズアルゴリズムである。 我々は、そのベイズ上の上限を導き出し、そのタスクを事前に知らないために損失を定量化し、それが小さいことを示すことを後悔する。 我々の理論は実験によって支持されており、${\tt AdaTS}$は以前のアルゴリズムより優れ、現実世界の課題でもうまく機能する。

We propose ${\tt AdaTS}$, a Thompson sampling algorithm that adapts sequentially to bandit tasks that it interacts with. The key idea in ${\tt AdaTS}$ is to adapt to an unknown task prior distribution by maintaining a distribution over its parameters. When solving a bandit task, that uncertainty is marginalized out and properly accounted for. ${\tt AdaTS}$ is a fully-Bayesian algorithm that can be implemented efficiently in several classes of bandit problems. We derive upper bounds on its Bayes regret that quantify the loss due to not knowing the task prior, and show that it is small. Our theory is supported by experiments, where ${\tt AdaTS}$ outperforms prior algorithms and works well even in challenging real-world problems.
翻訳日:2021-07-14 14:36:43 公開日:2021-07-13
# 構成可能な多言語モデルは、すべての言語を認識するために必要なすべてである

A Configurable Multilingual Model is All You Need to Recognize All Languages ( http://arxiv.org/abs/2107.05876v1 )

ライセンス: Link先を確認
Long Zhou, Jinyu Li, Eric Sun, Shujie Liu(参考訳) マルチリンガル自動音声認識(ASR)モデルは、モデルトレーニングと展開プロセスの簡略化により近年大きな可能性を秘めている。 従来の手法では、言語情報を受け取らずに普遍的な多言語モデルを訓練するか、1ホット言語ID(LID)ベクターを用いて目標言語の認識を誘導する。 実際には、ユーザーはいくつかの言語を事前に選択するよう促すことができる。 LIDのない多言語モデルは、ユーザが設定した言語情報をうまく利用できないが、LIDを持つ多言語モデルは、1つの事前選択された言語しか扱えない。 本稿では,言語固有のモジュールをトレーニングされたCMMからユニバーサルモデルとともに抽出することにより,ユーザ選択に基づいて異なるモデルとして構成できる新しい構成可能な多言語モデル(CMM)を提案する。 特に,ひとつのCMMを任意のユーザシナリオにデプロイすることで,任意の言語の組み合わせを事前に選択することができる。 匿名化microsoft multilingual dataを75k時間トレーニングし、10言語テストセットで評価したcmmは、ユーザが1, 2, 3言語を選択すると、ユニバーサル多言語モデルから26.0%、16.9%、相対的単語誤り低減10.4%改善する。 CMMはコードスイッチングテストセットでも大幅に改善されている。

Multilingual automatic speech recognition (ASR) models have shown great promise in recent years because of the simplified model training and deployment process. Conventional methods either train a universal multilingual model without taking any language information or with a 1-hot language ID (LID) vector to guide the recognition of the target language. In practice, the user can be prompted to pre-select several languages he/she can speak. The multilingual model without LID cannot well utilize the language information set by the user while the multilingual model with LID can only handle one pre-selected language. In this paper, we propose a novel configurable multilingual model (CMM) which is trained only once but can be configured as different models based on users' choices by extracting language-specific modules together with a universal model from the trained CMM. Particularly, a single CMM can be deployed to any user scenario where the users can pre-select any combination of languages. Trained with 75K hours of transcribed anonymized Microsoft multilingual data and evaluated with 10-language test sets, the proposed CMM improves from the universal multilingual model by 26.0%, 16.9%, and 10.4% relative word error reduction when the user selects 1, 2, or 3 languages, respectively. CMM also performs significantly better on code-switching test sets.
翻訳日:2021-07-14 14:35:49 公開日:2021-07-13
# 回転位置埋め込みを用いたコンフォーマに基づくエンドツーエンド音声認識

Conformer-based End-to-end Speech Recognition With Rotary Position Embedding ( http://arxiv.org/abs/2107.05907v1 )

ライセンス: Link先を確認
Shengqiang Li, Menglong Xu, Xiao-Lei Zhang(参考訳) 近年,トランスフォーマチック・エンド・ツー・エンド音声認識モデルが,高い訓練速度と長距離大域的文脈のモデル化能力により注目を集めている。 入力シーケンス内の異なる位置にある要素間の依存性モデリングの監視を提供するので、トランスフォーマーアーキテクチャへの位置埋め込みは不可欠である。 入力シーケンスの時間順序を利用するため、多くのワークは要素の相対的または絶対的な位置に関する情報を入力シーケンスに注入する。 本研究では,畳み込み型変圧器(コンバータ)の様々な位置埋め込み法について検討し,回転位置埋め込み(RoPE)と呼ばれる新しい実装を採用する。 RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。 提案手法の有効性を評価するため,AISHELL-1とLibriSpeech corporaの実験を行った。 その結果、ロープで強化されたコンフォーメータは音声認識タスクにおいて優れた性能が得られることがわかった。 具体的には,LbriSpeech コーパスのテストクリーンおよびテスト他のセットのコンバータに対して,相対単語誤り率を8.70%,7.27%削減する。

Transformer-based end-to-end speech recognition models have received considerable attention in recent years due to their high training speed and ability to model a long-range global context. Position embedding in the transformer architecture is indispensable because it provides supervision for dependency modeling between elements at different positions in the input sequence. To make use of the time order of the input sequence, many works inject some information about the relative or absolute position of the element into the input sequence. In this work, we investigate various position embedding methods in the convolution-augmente d transformer (conformer) and adopt a novel implementation named rotary position embedding (RoPE). RoPE encodes absolute positional information into the input sequence by a rotation matrix, and then naturally incorporates explicit relative position information into a self-attention module. To evaluate the effectiveness of the RoPE method, we conducted experiments on AISHELL-1 and LibriSpeech corpora. Results show that the conformer enhanced with RoPE achieves superior performance in the speech recognition task. Specifically, our model achieves a relative word error rate reduction of 8.70% and 7.27% over the conformer on test-clean and test-other sets of the LibriSpeech corpus respectively.
翻訳日:2021-07-14 14:35:28 公開日:2021-07-13
# ガウス過程補間:モデルの族の選択は選択基準よりも重要である

Gaussian process interpolation: the choice of the family of models is more important than that of the selection criterion ( http://arxiv.org/abs/2107.06006v1 )

ライセンス: Link先を確認
S\'ebastien Petit (L2S, GdR MASCOT-NUM), Julien Bect (L2S, GdR MASCOT-NUM), Paul Feliot, Emmanuel Vazquez (L2S, GdR MASCOT-NUM)(参考訳) 本稿では,ガウス過程補間におけるパラメータ選択の基本問題を再検討する。 パラメトリックファミリー内のガウス過程の平均および共分散関数を選択することにより、ユーザは未知の機能についての予測を行うベイズ手順のファミリーを取得し、良好な予測パフォーマンスを提供する家族を選択する必要がある。 本研究は,2009年にファスハウアーと共著者が提唱した概念に基づいて,例えば一般のクロスバリデーション基準のような標準選択基準の回復を可能にする,離脱一貫選択基準と検証基準を構築するための効果的な枠組みを提供する,スコアリングルールの一般的な概念に基づく。 この条件下では, 適切なモデル群の選択が, 特定の選択基準の選択よりも重要であることが, 文献のいくつかのテスト問題として実証的に示される。 さらに,mat{\'e}rn共分散の正則性パラメータは,ほとんどの選択基準により効果的に選択できることを示した。

This article revisits the fundamental problem of parameter selection for Gaussian process interpolation. By choosing the mean and the covariance functions of a Gaussian process within parametric families, the user obtains a family of Bayesian procedures to perform predictions about the unknown function, and must choose a member of the family that will hopefully provide good predictive performances. We base our study on the general concept of scoring rules, which provides an effective framework for building leave-one-out selection and validation criteria, and a notion of extended likelihood criteria based on an idea proposed by Fasshauer and co-authors in 2009, which makes it possible to recover standard selection criteria such as, for instance, the generalized cross-validation criterion. Under this setting, we empirically show on several test problems of the literature that the choice of an appropriate family of models is often more important than the choice of a particular selection criterion (e.g., the likelihood versus a leave-one-out selection criterion). Moreover, our numerical results show that the regularity parameter of a Mat{\'e}rn covariance can be selected effectively by most selection criteria.
翻訳日:2021-07-14 14:35:04 公開日:2021-07-13
# 高ダイナミックレンジ画像復元のための注意誘導型進行神経テクスチャ融合

Attention-Guided Progressive Neural Texture Fusion for High Dynamic Range Image Restoration ( http://arxiv.org/abs/2107.06211v1 )

ライセンス: Link先を確認
Jie Chen, Zaifeng Yang, Tsz Nam Chan, Hui Li, Junhui Hou, and Lap-Pui Chau(参考訳) マルチ露光融合による高ダイナミックレンジ(HDR)イメージングは、現代のほとんどのイメージングプラットフォームにとって重要な課題である。 近年のハードウェアとアルゴリズムのイノベーションの発展にもかかわらず、ゴースト、ノイズ、ブラーといったマルチ露光融合で導入された飽和、動き、および様々なアーティファクトによって引き起こされるコンテンツ関連の不明瞭さに対する課題が残っている。 本研究では,Attention-guided Progressive Neural Texture Fusion (APNT-Fusion) HDR修復モデルを提案する。 飽和領域におけるテクスチャ特性の伝達とマルチ露光トナーとテクスチャ特徴の融合に着目した,効率的な2ストリーム構造を提案する。 マスキング飽和hdrドメインにおける多スケールvgg特徴量に基づく異なる露光間の空間対応性を確立する神経特徴伝達機構を,曖昧な画像領域における識別的文脈手がかりとして提案する。 プログレッシブテクスチャブレンディングモジュールは、エンコードされた2ストリーム特徴をマルチスケールかつプログレッシブな方法でブレンドするように設計されている。 また,動き注目モジュールは,参照画像間のコンテンツの不一致を検出し,抑制する,飽和注意モジュールは,動きによる飽和に起因する不一致を区別し易くする,スケール注意モジュールは,異なるコーダ/デコーダスケール間のテクスチャブレンド一貫性を確保する,といった,いくつかの新しい注意機構を導入する。 我々は,これらの新モジュールが同一の枠組みの下で協調して動作し,最先端の手法より優れていることを検証する,総合的な質的,定量的な評価とアブレーション研究を行う。

High Dynamic Range (HDR) imaging via multi-exposure fusion is an important task for most modern imaging platforms. In spite of recent developments in both hardware and algorithm innovations, challenges remain over content association ambiguities caused by saturation, motion, and various artifacts introduced during multi-exposure fusion such as ghosting, noise, and blur. In this work, we propose an Attention-guided Progressive Neural Texture Fusion (APNT-Fusion) HDR restoration model which aims to address these issues within one framework. An efficient two-stream structure is proposed which separately focuses on texture feature transfer over saturated regions and multi-exposure tonal and texture feature fusion. A neural feature transfer mechanism is proposed which establishes spatial correspondence between different exposures based on multi-scale VGG features in the masked saturated HDR domain for discriminative contextual clues over the ambiguous image areas. A progressive texture blending module is designed to blend the encoded two-stream features in a multi-scale and progressive manner. In addition, we introduce several novel attention mechanisms, i.e., the motion attention module detects and suppresses the content discrepancies among the reference images; the saturation attention module facilitates differentiating the misalignment caused by saturation from those caused by motion; and the scale attention module ensures texture blending consistency between different coder/decoder scales. We carry out comprehensive qualitative and quantitative evaluations and ablation studies, which validate that these novel modules work coherently under the same framework and outperform state-of-the-art methods.
翻訳日:2021-07-14 14:34:27 公開日:2021-07-13
# 胸部CT肺血管造影における肺塞栓予測のための注意ベースCNN-LSTMネットワーク

Attention based CNN-LSTM Network for Pulmonary Embolism Prediction on Chest Computed Tomography Pulmonary Angiograms ( http://arxiv.org/abs/2107.06276v1 )

ライセンス: Link先を確認
Sudhir Suman, Gagandeep Singh, Nicole Sakla, Rishabh Gattu, Jeremy Green, Tej Phatak, Dimitris Samaras, Prateek Prasanna(参考訳) 米国では年間6万人以上の死亡があり、肺塞栓症(pe)は最も致命的な心血管疾患の1つである。 肺の動脈閉塞によって引き起こされ、その存在確認は時間がかかり、過度に診断されやすい。 自動pe検出システムの利用は診断の正確性と効率に重要である。 本研究では,PE,関連型(時系列,急性)およびそれに対応する位置(左サイド,右サイド,中央)をCT検査で予測するための2段階注目型CNN-LSTMネットワークを提案する。 今回我々は,最大の公共用ct肺血管造影peデータセット (rsna-str pulmonary embolism ct (rspect) dataset, n=7279 ct study) を用いて実験を行った。 本枠組みは, 肺塞栓の診断過程をマルチスライス法により反映し, 肺塞栓の精度と病理組織学的予後を慎重に評価し, 医師がPEの病原性を評価するのに役立つ。 提案手法は,ベースラインcnn分類器と単段cnn-lstmネットワークを上回り,試験セット上で0.95 %の auc を達成し,pe の存在を検知した。

With more than 60,000 deaths annually in the United States, Pulmonary Embolism (PE) is among the most fatal cardiovascular diseases. It is caused by an artery blockage in the lung; confirming its presence is time-consuming and is prone to over-diagnosis. The utilization of automated PE detection systems is critical for diagnostic accuracy and efficiency. In this study we propose a two-stage attention-based CNN-LSTM network for predicting PE, its associated type (chronic, acute) and corresponding location (leftsided, rightsided or central) on computed tomography (CT) examinations. We trained our model on the largest available public Computed Tomography Pulmonary Angiogram PE dataset (RSNA-STR Pulmonary Embolism CT (RSPECT) Dataset, N=7279 CT studies) and tested it on an in-house curated dataset of N=106 studies. Our framework mirrors the radiologic diagnostic process via a multi-slice approach so that the accuracy and pathologic sequela of true pulmonary emboli may be meticulously assessed, enabling physicians to better appraise the morbidity of a PE when present. Our proposed method outperformed a baseline CNN classifier and a single-stage CNN-LSTM network, achieving an AUC of 0.95 on the test set for detecting the presence of PE in the study.
翻訳日:2021-07-14 14:33:59 公開日:2021-07-13
# 数学教育のための人工知能システムの分類

A Classification of Artificial Intelligence Systems for Mathematics Education ( http://arxiv.org/abs/2107.06015v1 )

ライセンス: Link先を確認
Steven Van Vaerenbergh and Adri\'an P\'erez-Suay(参考訳) この章では、現代数学教育(ME)のデジタルツールで使われているさまざまな人工知能(AI)システムの概要について紹介する。 それは、AIと機械学習(ML)の研究者を対象にしており、教育アプリケーションで使われている特定の技術に光を当てています。 デジタルmeアプリケーションのコンポーネントとして見出されるaiツールのハイレベルな分類を確立して分析を開始します。 そして、これらのAIツール、特にMLが、2つの主要なアプリケーション、特にAIベースの電卓とインテリジェントなチューターシステムでどのように使われているかを詳細に説明する。 本章では,学生のモデリングシステムと人工知能との関連について論じる。

This chapter provides an overview of the different Artificial Intelligence (AI) systems that are being used in contemporary digital tools for Mathematics Education (ME). It is aimed at researchers in AI and Machine Learning (ML), for whom we shed some light on the specific technologies that are being used in educational applications; and at researchers in ME, for whom we clarify: i) what the possibilities of the current AI technologies are, ii) what is still out of reach and iii) what is to be expected in the near future. We start our analysis by establishing a high-level taxonomy of AI tools that are found as components in digital ME applications. Then, we describe in detail how these AI tools, and in particular ML, are being used in two key applications, specifically AI-based calculators and intelligent tutoring systems. We finish the chapter with a discussion about student modeling systems and their relationship to artificial general intelligence.
翻訳日:2021-07-14 14:32:54 公開日:2021-07-13
# 最適オークションのロバスト学習

Robust Learning of Optimal Auctions ( http://arxiv.org/abs/2107.06259v1 )

ライセンス: Link先を確認
Wenshuo Guo, Michael I. Jordan, Manolis Zampetakis(参考訳) 入札者の評価値のサンプルが反対に破損したり、反対に混乱した分布から引き出されたりする場合に、サンプルから収益最適のマルチバイダーオークションを学習する問題について検討する。 第一に, 人口モデルの下で, 定評定分布と単調ハザード率(mhr)の分布の両方において, 腐敗した分布で得られる収益の上限を厳密に証明する。 次に、入札者の評価に「近似分布」のみを与えられた新しいアルゴリズムを提案し、コルモゴロフ-スミルノフ距離における元の分布に対して$\alpha$-closeの全ての「真の分布」に対して、収益がほぼ同時に最適であるメカニズムを学習する。 提案アルゴリズムは,従来研究されてきた有界分布の設定を超えて動作し,分布が MHR である場合の真の分布の下での最適収益の1-O(\alpha)$1-O(\alp ha)が保証される。 さらに、分布が正規である場合には、最適収益の少なくとも1-o(\sqrt{\alpha})$が与えられることが保証される。 一致した下界を提供することで、これらの上界をさらに改善することは不可能である。 最後に, MHRと正規分布の双方に対して, ほぼ最適のオークションを学習するために, サンプル複雑性上限を導出する。

We study the problem of learning revenue-optimal multi-bidder auctions from samples when the samples of bidders' valuations can be adversarially corrupted or drawn from distributions that are adversarially perturbed. First, we prove tight upper bounds on the revenue we can obtain with a corrupted distribution under a population model, for both regular valuation distributions and distributions with monotone hazard rate (MHR). We then propose new algorithms that, given only an ``approximate distribution'' for the bidder's valuation, can learn a mechanism whose revenue is nearly optimal simultaneously for all ``true distributions'' that are $\alpha$-close to the original distribution in Kolmogorov-Smirnov distance. The proposed algorithms operate beyond the setting of bounded distributions that have been studied in prior works, and are guaranteed to obtain a fraction $1-O(\alpha)$ of the optimal revenue under the true distribution when the distributions are MHR. Moreover, they are guaranteed to yield at least a fraction $1-O(\sqrt{\alpha})$ of the optimal revenue when the distributions are regular. We prove that these upper bounds cannot be further improved, by providing matching lower bounds. Lastly, we derive sample complexity upper bounds for learning a near-optimal auction for both MHR and regular distributions.
翻訳日:2021-07-14 14:32:02 公開日:2021-07-13
# 軌道最適化における解多様体学習による運動計画

Motion Planning by Learning the Solution Manifold in Trajectory Optimization ( http://arxiv.org/abs/2107.05842v1 )

ライセンス: Link先を確認
Takayuki Osa(参考訳) 軌道最適化で用いられる目的関数は、しばしば非凸であり、無限の局所最適集合を持つことができる。 そのような場合、与えられたタスクを実行するための様々なソリューションがあります。 運動計画のための複数の解を見つける方法はいくつかあるが、それらは有限の解を生成することに限定されている。 本稿では,軌道最適化において無限の解集合を学習する最適化手法を提案する。 私たちのフレームワークでは、ソリューションの潜在表現を学習することで、多様なソリューションが得られます。 本手法は,移動計画のための衝突のない軌道の深部生成モデルの訓練と解釈できる。 実験結果は、トレーニングされたモデルが運動計画問題のホモトピー解の無限集合を表すことを示している。

The objective function used in trajectory optimization is often non-convex and can have an infinite set of local optima. In such cases, there are diverse solutions to perform a given task. Although there are a few methods to find multiple solutions for motion planning, they are limited to generating a finite set of solutions. To address this issue, we presents an optimization method that learns an infinite set of solutions in trajectory optimization. In our framework, diverse solutions are obtained by learning latent representations of solutions. Our approach can be interpreted as training a deep generative model of collision-free trajectories for motion planning. The experimental results indicate that the trained model represents an infinite set of homotopic solutions for motion planning problems.
翻訳日:2021-07-14 14:31:38 公開日:2021-07-13
# 経験報告:異常検出のためのディープラーニングに基づくシステムログ分析

Experience Report: Deep Learning-based System Log Analysis for Anomaly Detection ( http://arxiv.org/abs/2107.05908v1 )

ライセンス: Link先を確認
Zhuangbin Chen, Jinyang Liu, Wenwei Gu, Yuxin Su, and Michael R. Lyu(参考訳) ログは多くのソフトウェアシステム、特に大規模分散システムの信頼性と継続性を保証するための必須リソースである。 彼らは、システムのトラブルシューティングと振る舞い理解を容易にするために、実行時情報を忠実に記録します。 現代のソフトウェアシステムの大規模化と複雑さのため、ログのボリュームは前例のないレベルに達している。 したがって,ログに基づく異常検出では,従来の手作業による検査手法や,従来の機械学習に基づく手法が非実用的となり,ディープラーニングに基づくソリューションの急速な発展の触媒となる。 しかし、現在、ニューラルネットワークモデルを利用する代表的ログベースの異常検出器の間には厳密な比較が欠けている。 さらに、再実装プロセスでは、非自明な努力とバイアスが要求される。 本稿では, 各種異常検知器の特性をよりよく理解するために, 6つの最先端手法で用いられる5つの人気モデルの総合的なレビューと評価を行う。 特に、選択された4つのメソッドは教師なしであり、残りの2つは教師なしである。 これらの方法は2つの公開ログデータセットで評価され、合計で約1600万のログメッセージと0.40万の異常インスタンスを含む。 私たちの研究はこの分野の基礎となり、将来の学術研究や産業応用に寄与できると考えています。

Logs have been an imperative resource to ensure the reliability and continuity of many software systems, especially large-scale distributed systems. They faithfully record runtime information to facilitate system troubleshooting and behavior understanding. Due to the large scale and complexity of modern software systems, the volume of logs has reached an unprecedented level. Consequently, for log-based anomaly detection, conventional methods of manual inspection or even traditional machine learning-based methods become impractical, which serve as a catalyst for the rapid development of deep learning-based solutions. However, there is currently a lack of rigorous comparison among the representative log-based anomaly detectors which resort to neural network models. Moreover, the re-implementation process demands non-trivial efforts and bias can be easily introduced. To better understand the characteristics of different anomaly detectors, in this paper, we provide a comprehensive review and evaluation on five popular models used by six state-of-the-art methods. Particularly, four of the selected methods are unsupervised and the remaining two are supervised. These methods are evaluated with two publicly-available log datasets, which contain nearly 16 millions log messages and 0.4 million anomaly instances in total. We believe our work can serve as a basis in this field and contribute to the future academic researches and industrial applications.
翻訳日:2021-07-14 14:31:28 公開日:2021-07-13
# ニューラルネットワークを用いた医療監視システムにおける感情認識

Emotion Recognition for Healthcare Surveillance Systems Using Neural Networks: A Survey ( http://arxiv.org/abs/2107.05989v1 )

ライセンス: Link先を確認
Marwan Dhuheir, Abdullatif Albaseer, Emna Baccour, Aiman Erbad, Mohamed Abdallah, and Mounir Hamdi(参考訳) 近年, 深層学習技術を用いた患者の感情認識が注目されている。 感情を自動的に識別することで、患者のうつ病やストレスを早期に発見できるスマートヘルスケアセンターを構築することができる。 高度な技術を使って感情を識別することは、人間と機械の関係を定義する最もエキサイティングなトピックの1つだ。 機械は様々な方法で感情を予測する方法を学んだ。 本稿では,ニューラルネットワークを用いた感情認識の分野での最近の研究について述べる。 音声,表情,音声・視覚入力から感情の認識を研究することに集中し,これらのアルゴリズムを現実世界に展開する様々な技術を示す。 これら3つの感情認識技術は、医療センターにおける患者を監視する監視システムとして使用できる。 本調査は,感情認識の応用に関する知見を提供するため,課題と今後の課題に関するプレゼンテーションで締めくくった。

Recognizing the patient's emotions using deep learning techniques has attracted significant attention recently due to technological advancements. Automatically identifying the emotions can help build smart healthcare centers that can detect depression and stress among the patients in order to start the medication early. Using advanced technology to identify emotions is one of the most exciting topics as it defines the relationships between humans and machines. Machines learned how to predict emotions by adopting various methods. In this survey, we present recent research in the field of using neural networks to recognize emotions. We focus on studying emotions' recognition from speech, facial expressions, and audio-visual input and show the different techniques of deploying these algorithms in the real world. These three emotion recognition techniques can be used as a surveillance system in healthcare centers to monitor patients. We conclude the survey with a presentation of the challenges and the related future work to provide an insight into the applications of using emotion recognition.
翻訳日:2021-07-14 14:31:09 公開日:2021-07-13
# 大量保存LSTMを用いた高速スロー流モデル

Fast-Slow Streamflow Model Using Mass-Conserving LSTM ( http://arxiv.org/abs/2107.06057v1 )

ライセンス: Link先を確認
Miguel Paredes Qui\~nones, Maciel Zortea, Leonardo S. A. Martins(参考訳) 流量予測は、水資源を効果的に管理し、気候変動によって悪化する自然災害の発生に備える鍵となる。 ここでは、高速かつ低速なフロー成分の概念を用いて、新しい大量保存長短期記憶(LSTM)ニューラルネットワークモデルを作成する。 水理学的時系列と漁獲属性を用いて毎日の河川流出を予測する。 予備的な結果は、近年の文献と比較して異なるスコアのスキルの向上が証明されている。

Streamflow forecasting is key to effectively managing water resources and preparing for the occurrence of natural calamities being exacerbated by climate change. Here we use the concept of fast and slow flow components to create a new mass-conserving Long Short-Term Memory (LSTM) neural network model. It uses hydrometeorological time series and catchment attributes to predict daily river discharges. Preliminary results evidence improvement in skills for different scores compared to the recent literature.
翻訳日:2021-07-14 14:30:55 公開日:2021-07-13
# 視覚指導による美的レイアウトの学習

Learning Aesthetic Layouts via Visual Guidance ( http://arxiv.org/abs/2107.06262v1 )

ライセンス: Link先を確認
Qingyuan Zheng, Zhuoru Li, Adam Bargteil(参考訳) 視覚指導のための計算手法を探求し,美的な芸術とグラフィックデザインの創出を支援する。 我々の研究は、人間が画像を見るためのモデルを開発した以前の研究を補完し、構築しています。 私たちのアプローチは3つのステップからなる。 まず、アートの傑作のデータセットを収集し、最先端のビジョンモデルで視覚修正をラベル付けしました。 第2に,教師なし学習による芸術作品の視覚指導テンプレートのクラスタリングを行った。 第3に,視覚誘導の原理を学習するために生成的対向ネットワークを用いたパイプラインを開発し,美的なレイアウトを創出する。 視覚的指導の原理を高次元モデルに学習・統合し,図形要素の特徴に照らし合わせることができることを示す。 我々は,様々な図面やグラフィックデザインのレイアウトを生成できる手法を評価した。 さらに,レイアウト生成時の図形要素の色や構造についても考察する。 その結果,複数の美的レイアウトを数秒で生成するツールによって,アーティストが美しいアートやグラフィックデザインを作成できると考えている。

We explore computational approaches for visual guidance to aid in creating aesthetically pleasing art and graphic design. Our work complements and builds on previous work that developed models for how humans look at images. Our approach comprises three steps. First, we collected a dataset of art masterpieces and labeled the visual fixations with state-of-art vision models. Second, we clustered the visual guidance templates of the art masterpieces with unsupervised learning. Third, we developed a pipeline using generative adversarial networks to learn the principles of visual guidance and that can produce aesthetically pleasing layouts. We show that the aesthetic visual guidance principles can be learned and integrated into a high-dimensional model and can be queried by the features of graphic elements. We evaluate our approach by generating layouts on various drawings and graphic designs. Moreover, our model considers the color and structure of graphic elements when generating layouts. Consequently, we believe our tool, which generates multiple aesthetic layout options in seconds, can help artists create beautiful art and graphic designs.
翻訳日:2021-07-14 14:30:10 公開日:2021-07-13
# 指数多項式密度による不定値ガウス混合モデル間のジェフリーズ発散の高速近似

Fast approximations of the Jeffreys divergence between univariate Gaussian mixture models via exponential polynomial densities ( http://arxiv.org/abs/2107.05901v1 )

ライセンス: Link先を確認
Frank Nielsen(参考訳) ジェフリーズ偏差(英: Jeffreys divergence)は、機械学習、信号処理、情報科学でよく用いられる統計的なクルバック・リーブラー偏差の有名な対称性である。 ユビキタス・ガウス混合モデル間のジェフリーズ発散は閉形式では利用できないため、(i)推定、(ii)近似、(iii)この発散を下限と上限のいずれかに様々な長所と短所を持つ多くの手法が文献に提案されている。 本研究では,任意の成分の2つのGMM間のジェフリーズ偏差を近似する単純かつ高速なヒューリスティックを提案する。 ヒューリスティックはGMMを指数族に属する双対パラメータ化された確率密度のペアに変換することに頼っている。 特に,ポリノミアル指数密度を考察し,Hyv\"arinen分散の一般化であるGMMとPEDの相違性を測定するために,適合度基準を設計する。 この基準により、PEDの順序を選択してGMMを近似することができる。 実験により,確率的モンテカルロ推定基準値に対するヒューリスティックの計算時間は数桁の精度で改善され,ジェフリーズ偏差を適切に近似し,特に単変量混合が少数のモードを持つ場合について実験的に検証した。

The Jeffreys divergence is a renown symmetrization of the statistical Kullback-Leibler divergence which is often used in machine learning, signal processing, and information sciences. Since the Jeffreys divergence between the ubiquitous Gaussian Mixture Models are not available in closed-form, many techniques with various pros and cons have been proposed in the literature to either (i) estimate, (ii) approximate, or (iii) lower and upper bound this divergence. In this work, we propose a simple yet fast heuristic to approximate the Jeffreys divergence between two GMMs of arbitrary number of components. The heuristic relies on converting GMMs into pairs of dually parameterized probability densities belonging to exponential families. In particular, we consider Polynomial Exponential Densities, and design a goodness-of-fit criterion to measure the dissimilarity between a GMM and a PED which is a generalization of the Hyv\"arinen divergence. This criterion allows one to select the orders of the PEDs to approximate the GMMs. We demonstrate experimentally that the computational time of our heuristic improves over the stochastic Monte Carlo estimation baseline by several orders of magnitude while approximating reasonably well the Jeffreys divergence, specially when the univariate mixtures have a small number of modes.
翻訳日:2021-07-14 14:29:11 公開日:2021-07-13
# v2x通信における分散リソース共有のための二重qネットワークを用いたマルチエージェント強化学習における転送学習

Transfer Learning in Multi-Agent Reinforcement Learning with Double Q-Networks for Distributed Resource Sharing in V2X Communication ( http://arxiv.org/abs/2107.06195v1 )

ライセンス: Link先を確認
Hammad Zafar, Zoran Utkovski, Martin Kasparick, Slawomir Stanczak(参考訳) 本稿では,V2X通信ネットワークにおける分散スペクトル共有の問題に対処する。 目的は、V2IおよびV2Vリンクの資源効率の高い共存を提供することである。 このトピックに関する最近の研究は、指紋に基づく深層Q-network(DQN)アーキテクチャを活用する深層Q-learningに基づくマルチエージェント強化学習(MARL)アプローチを提案する。 この研究は、ダブルQ-ラーニング(Double DQN)とトランスファーラーニング(Transfer Learning)を組み合わせることで、このフレームワークの拡張を検討する。 背景にある動機は、二重Q学習は従来のQ学習に存在する行動値の過大評価の問題を軽減することができる一方で、移行学習は専門家モデルが獲得した知識を活用してMARL設定での学習を加速することができることである。 提案アルゴリズムは,シミュレーション環境(建物,葉,車両のアウトライン)の位置特異的な地理的記述子を組み込んだ幾何学的伝播モデルに基づいて,現実的なV2X設定で評価される。 提案手法の利点は数値シミュレーションにより実証された。

This paper addresses the problem of decentralized spectrum sharing in vehicle-to-everythin g (V2X) communication networks. The aim is to provide resource-efficient coexistence of vehicle-to-infrastru cture(V2I) and vehicle-to-vehicle(V 2V) links. A recent work on the topic proposes a multi-agent reinforcement learning (MARL) approach based on deep Q-learning, which leverages a fingerprint-based deep Q-network (DQN) architecture. This work considers an extension of this framework by combining Double Q-learning (via Double DQN) and transfer learning. The motivation behind is that Double Q-learning can alleviate the problem of overestimation of the action values present in conventional Q-learning, while transfer learning can leverage knowledge acquired by an expert model to accelerate learning in the MARL setting. The proposed algorithm is evaluated in a realistic V2X setting, with synthetic data generated based on a geometry-based propagation model that incorporates location-specific geographical descriptors of the simulated environment(outlines of buildings, foliage, and vehicles). The advantages of the proposed approach are demonstrated via numerical simulations.
翻訳日:2021-07-14 14:28:41 公開日:2021-07-13
# ML-Quest:K-12学生に機械学習の概念を導入するゲーム

ML-Quest: A Game for Introducing Machine Learning Concepts to K-12 Students ( http://arxiv.org/abs/2107.06206v1 )

ライセンス: Link先を確認
Shruti Priya, Shubhankar Bhadra and Sridhar Chimalakonda(参考訳) 現在、機械学習(ML)は、膨大なデータと高い計算資源が利用できるため、社会にとって非常に重要である。 最終的に、計算思考を促進するためにK-12の学生を含む複数のレベルの教育でMLの概念が導入された。 しかし、これらの概念をk-12にビデオ講義や本のような伝統的な方法論で教えることは困難である。 文学における多くの研究は、ゲームのようなインタラクティブな環境を使って計算思考とプログラミングを教えることで、学生の保持能力とモチベーションが向上したと報告している。 したがって、ゲームを用いたMLの概念の導入は、生徒の主題に対する理解を高め、さらに学ぶ動機を与える可能性がある。 しかし,ゲームプレイの学生にMLの概念を導入することに焦点を当てた既存のゲームは,全く意識していない。 そこで本稿では,ML-Questという3つの概念,すなわち教師付き学習,グラディエント・ディクエンス,K-Nearest Neighbor(KNN)の分類概念を概念的に示す3Dビデオゲームを提案する。 ゲームの要点は,概念概念の定義と作業の導入であり,概念的概要(conceptual overview)と呼ぶもので,MLの複雑さに悩む圧倒的な生徒を伴わないシミュレーションシナリオである。 このゲームは、23人の高校生の助けを借りて、TAM(Technology Acceptance Model)モデルを用いて、その有用性とプレイヤー体験について、主に評価されてきた。 その結果,約70%の参加者が,ML-QuestがML概念に導入する上で非常にインタラクティブで有用であることに同意するか,あるいは強く同意していることがわかった。

Today, Machine Learning (ML) is of a great importance to society due to the availability of huge data and high computational resources. This ultimately led to the introduction of ML concepts at multiple levels of education including K-12 students to promote computational thinking. However, teaching these concepts to K-12 through traditional methodologies such as video lectures and books is challenging. Many studies in the literature have reported that using interactive environments such as games to teach computational thinking and programming improves retention capacity and motivation among students. Therefore, introducing ML concepts using a game might enhance students' understanding of the subject and motivate them to learn further. However, we are not aware of any existing game which explicitly focuses on introducing ML concepts to students using game play. Hence, in this paper, we propose ML-Quest, a 3D video game to provide conceptual overview of three ML concepts: Supervised Learning, Gradient Descent and K-Nearest Neighbor (KNN) Classification. The crux of the game is to introduce the definition and working of these concepts, which we call conceptual overview, in a simulated scenario without overwhelming students with the intricacies of ML. The game has been predominantly evaluated for its usefulness and player experience using the Technology Acceptance Model (TAM) model with the help of 23 higher-secondary school students. The survey result shows that around 70% of the participants either agree or strongly agree that the ML-Quest is quite interactive and useful in introducing them to ML concepts.
翻訳日:2021-07-14 14:28:23 公開日:2021-07-13
# 深層学習型マルチヘッドアテンションモデルによる楽器の音色分類

Timbre Classification of Musical Instruments with a Deep Learning Multi-Head Attention-Based Model ( http://arxiv.org/abs/2107.06231v1 )

ライセンス: Link先を確認
Carlos Hernandez-Olivan, Jose R. Beltran(参考訳) この研究の目的は、できるだけ少ないパラメータで異なる楽器の音色を識別できるディープラーニングに基づくモデルを定義することである。 この目的のために、私たちはいくつかの楽器ファミリーの一部であり、同じピッチ範囲で音符を演奏する、異なるダイナミクスで演奏される古典的なオーケストラ楽器と協業してきた。 楽器が同じ音符を同じ強度で演奏している場合でも、音色で楽器を分類する能力を評価することが可能である。 使用したネットワークは、8つのヘッドを持つマルチヘッドアテンション機構と、音響サンプルの対数量スペクトルを入力として出力に高密度ネットワークを使用する。 このネットワークは、クラシックオーケストラの20の楽器クラスを識別でき、全体のf$_1$の値が 0.62 になる。 注目層の重み分析を行い、モデルの混乱行列を示し、提案アーキテクチャが音色を識別する能力を評価し、将来の作業が焦点を置くべき側面を確立することができる。

The aim of this work is to define a model based on deep learning that is able to identify different instrument timbres with as few parameters as possible. For this purpose, we have worked with classical orchestral instruments played with different dynamics, which are part of a few instrument families and which play notes in the same pitch range. It has been possible to assess the ability to classify instruments by timbre even if the instruments are playing the same note with the same intensity. The network employed uses a multi-head attention mechanism, with 8 heads and a dense network at the output taking as input the log-mel magnitude spectrograms of the sound samples. This network allows the identification of 20 instrument classes of the classical orchestra, achieving an overall F$_1$ value of 0.62. An analysis of the weights of the attention layer has been performed and the confusion matrix of the model is presented, allowing us to assess the ability of the proposed architecture to distinguish timbre and to establish the aspects on which future work should focus.
翻訳日:2021-07-14 14:27:59 公開日:2021-07-13
# (参考訳) 箱をハックする: ディープラーニングの抽象化に基づくモニタ [全文訳有]

Hack The Box: Fooling Deep Learning Abstraction-Based Monitors ( http://arxiv.org/abs/2107.04764v2 )

ライセンス: CC BY 4.0
Sara Hajj Ibrahim and Mohamed Nassar(参考訳) ディープラーニングは、概念の深い階層に適応する機械学習の一種である。 ディープラーニング分類器は、入力層における概念の最も基本的なバージョンと出力層における概念の最も抽象的なバージョン(クラスまたはラベルとしても知られる)をリンクする。 しかし、一度有限個のクラスで訓練されたとき、ある深層学習モデルは与えられた入力がどのクラスにも属さず、単純にリンクできないと言う力を持っていない。 非関連クラスの予測を正しく無効にすることは、文学において多くの点で取り組まれてきた難しい問題である。 新規性検出は、新しい/見えないクラスに対して「知らない」出力を深層学習に与えます。 それでも、新規性検出のセキュリティ面には注意が向けられていない。 本稿では,抽象に基づく新奇性検出のケーススタディを考察し,敵のサンプルに対して頑健ではないことを示す。 さらに,深層学習分類器を騙し,新奇な検出監視をバイパスする,逆行的なサンプル作成の可能性を示す。 言い換えれば、これらの監視ボックスはハック可能である。 新規検出自体が攻撃面となることを実証する。

Deep learning is a type of machine learning that adapts a deep hierarchy of concepts. Deep learning classifiers link the most basic version of concepts at the input layer to the most abstract version of concepts at the output layer, also known as a class or label. However, once trained over a finite set of classes, some deep learning models do not have the power to say that a given input does not belong to any of the classes and simply cannot be linked. Correctly invalidating the prediction of unrelated classes is a challenging problem that has been tackled in many ways in the literature. Novelty detection gives deep learning the ability to output "do not know" for novel/unseen classes. Still, no attention has been given to the security aspects of novelty detection. In this paper, we consider the case study of abstraction-based novelty detection and show that it is not robust against adversarial samples. Moreover, we show the feasibility of crafting adversarial samples that fool the deep learning classifier and bypass the novelty detection monitoring at the same time. In other words, these monitoring boxes are hackable. We demonstrate that novelty detection itself ends up as an attack surface.
翻訳日:2021-07-14 12:19:53 公開日:2021-07-13
# (参考訳) 胸部ctにおけるcov19-ct-dbベースラインの改善 [全文訳有]

COVID Detection in Chest CTs: Improving the Baseline on COV19-CT-DB ( http://arxiv.org/abs/2107.04808v2 )

ライセンス: CC BY 4.0
Radu Miron, Cosmin Moisii, Sergiu Dinu, Mihaela Breaban(参考訳) 胸部CTにおける深層学習に基づく3つの異なるアプローチの比較検討を行った。 最初のアプローチは3次元畳み込みを伴うボリュームトリクティックなアプローチで、他の2つのアプローチは最初はスライスワイズ分類を行い、その後ボリュームレベルで結果を集約する。 実験はCOV19-CT-DBデータセット上で実施され、ICCV 2021内のMIA-COV19Dコンペティションによって提起された課題に対処することを目的としている。 検証サブセットの最良の結果はマクロF1スコアの0.92に達し、オーガナイザが設定したベースラインスコアの0.70を大幅に改善する。

The paper presents a comparative analysis of three distinct approaches based on deep learning for COVID-19 detection in chest CTs. The first approach is a volumetric one, involving 3D convolutions, while the other two approaches perform at first slice-wise classification and then aggregate the results at the volume level. The experiments are carried on the COV19-CT-DB dataset, with the aim of addressing the challenge raised by the MIA-COV19D Competition within ICCV 2021. Our best results on the validation subset reach a macro-F1 score of 0.92, which improves considerably the baseline score of 0.70 set by the organizers.
翻訳日:2021-07-14 12:11:12 公開日:2021-07-13
# (参考訳) BSDA-Net:OCTA画像のセグメンテーションと分類のための境界形状と距離を考慮した共同学習フレームワーク [全文訳有]

BSDA-Net: A Boundary Shape and Distance Aware Joint Learning Framework for Segmenting and Classifying OCTA Images ( http://arxiv.org/abs/2107.04823v2 )

ライセンス: CC BY 4.0
Li Lin, Zhonghua Wang, Jiewei Wu, Yijin Huang, Junyan Lyu, Pujin Cheng, Jiong Wu, Xiaoying Tang(参考訳) 光コヒーレンストモグラフィアンギオグラフィー(OCTA)は、新しい非侵襲的イメージング技術であり、網膜層にまたがる血管と胎児の血管ゾーン(FAZ)の可視化を可能にする。 臨床研究は、fazの形態と輪郭の不規則性が様々な眼疾患の重要なバイオマーカーであることを示唆している。 したがって、FAZの正確なセグメンテーションは、非常に興味深い。 また、FAZの特徴が深層診断分類網の性能を向上させるという研究報告はない。 本稿では,OCTA画像からのFAZセグメンテーションと診断のためのマルチレベル境界形状と距離認識型共同学習フレームワークBSDA-Netを提案する。 2つの補助枝、すなわち境界熱マップ回帰と符号付き距離マップ再構成枝がセグメンテーション部に加えて構築され、セグメンテーション性能が向上し、より正確なFAZ輪郭とより少ないアウトリーが生じる。 さらに、上記の3つの枝(形状、大きさ、境界、FAZの符号付き方向距離マップ)の低レベル特徴と高レベル特徴は、診断分類器の特徴と階層的に融合する。 大規模な実験により、提案したBSDA-NetはOCTA-500、OCTAGON、FAZIDデータセットの最先端のセグメンテーションと分類結果が得られることがわかった。

Optical coherence tomography angiography (OCTA) is a novel non-invasive imaging technique that allows visualizations of vasculature and foveal avascular zone (FAZ) across retinal layers. Clinical researches suggest that the morphology and contour irregularity of FAZ are important biomarkers of various ocular pathologies. Therefore, precise segmentation of FAZ has great clinical interest. Also, there is no existing research reporting that FAZ features can improve the performance of deep diagnostic classification networks. In this paper, we propose a novel multi-level boundary shape and distance aware joint learning framework, named BSDA-Net, for FAZ segmentation and diagnostic classification from OCTA images. Two auxiliary branches, namely boundary heatmap regression and signed distance map reconstruction branches, are constructed in addition to the segmentation branch to improve the segmentation performance, resulting in more accurate FAZ contours and fewer outliers. Moreover, both low-level and high-level features from the aforementioned three branches, including shape, size, boundary, and signed directional distance map of FAZ, are fused hierarchically with features from the diagnostic classifier. Through extensive experiments, the proposed BSDA-Net is found to yield state-of-the-art segmentation and classification results on the OCTA-500, OCTAGON, and FAZID datasets.
翻訳日:2021-07-14 12:03:13 公開日:2021-07-13
# (参考訳) 会話エージェントのためのエンドツーエンド自然言語理解パイプライン [全文訳有]

End-to-End Natural Language Understanding Pipeline for Bangla Conversational Agents ( http://arxiv.org/abs/2107.05541v2 )

ライセンス: CC0 1.0
Fahim Shahriar Khan, Mueeze Al Mushabbir, Mohammad Sabik Irbaz, MD Abdullah Al Nasim(参考訳) チャットボットは人間のインタラクションの代替として使用されるインテリジェントソフトウェアである。 しかしながら、既存の研究は通常、Banglaのような低リソース言語に対する十分なサポートを提供していない。 さらに、ソーシャルメディアの人気が高まっているため、バングラ語話者の間では、バングラ語の文字化(主に英語)の進展も見られる。 本稿では,バングラ語とバングラ語でコミュニケーションできるビジネスアシスタントとして,信頼度の高いバングラ語チャットボットを構築するための新しいアプローチを提案する。 アノテーション付きデータはこの目的には利用できなかったので、rasaオープンソースフレームワーク、fasttext embeddeds、polyglot embeddeds、flask、その他のシステムをビルディングブロックとして、機械学習ライフサイクル全体(データ準備、機械学習モデリング、モデルデプロイ)に取り組む必要がありました。 歪んだアノテートされたデータセットで作業しながら、観測結果の背後にある推論を提供するために、さまざまなセットアップとパイプラインを試します。 最後に,適切な性能を実現するインテント分類とエンティティ抽出のためのパイプラインを提案する(精度: 83.02\%,精度: 80.82\%,リコール: 83.02\%,f1-score: 80\%)。

Chatbots are intelligent software built to be used as a replacement for human interaction. However, existing studies typically do not provide enough support for low-resource languages like Bangla. Moreover, due to the increasing popularity of social media, we can also see the rise of interactions in Bangla transliteration (mostly in English) among the native Bangla speakers. In this paper, we propose a novel approach to build a Bangla chatbot aimed to be used as a business assistant which can communicate in Bangla and Bangla Transliteration in English with high confidence consistently. Since annotated data was not available for this purpose, we had to work on the whole machine learning life cycle (data preparation, machine learning modeling, and model deployment) using Rasa Open Source Framework, fastText embeddings, Polyglot embeddings, Flask, and other systems as building blocks. While working with the skewed annotated dataset, we try out different setups and pipelines to evaluate which works best and provide possible reasoning behind the observed results. Finally, we present a pipeline for intent classification and entity extraction which achieves reasonable performance (accuracy: 83.02\%, precision: 80.82\%, recall: 83.02\%, F1-score: 80\%).
翻訳日:2021-07-14 11:51:29 公開日:2021-07-13
# マルチラベル分類のための細粒度自動調整

Fine-Grained AutoAugmentation for Multi-Label Classification ( http://arxiv.org/abs/2107.05384v2 )

ライセンス: Link先を確認
Ya Wang, Hesen Chen, Fangyi Zhang, Yaohua Wang, Xiuyu Sun, Ming Lin, Hao Li(参考訳) データ拡張は、ディープラーニングモデルの一般化を改善するために一般的に使用されるアプローチである。 近年の研究では、学習データ拡張ポリシーが手作りのものよりもより良い一般化を達成できることが示されている。 しかし、これらの作品の多くはデータセット内のすべてのサンプルに対して統一的な拡張ポリシーを使用しているが、これは必ずしも複数のラベルの分類タスクにおいてすべてのラベルにとって有益ではない。 そこで,本稿では,ラベル・ポリシー・ネットワークによってラベルに対する拡張ポリシーが生成されるマルチラベル・シナリオのためのラベル・ベース・オートエイジメント(lb-aug)手法を提案する。 ポリシーは、ポリシー勾配法による強化学習を通じて学習され、インスタンスラベルから最適な拡張ポリシーへのマッピングを提供する。 数値実験により,LB-Augは画像と映像の分類に関する複数のベンチマークにおいて,従来の最先端化手法よりも大きなマージンで優れていたことがわかった。

Data augmentation is a commonly used approach to improving the generalization of deep learning models. Recent works show that learned data augmentation policies can achieve better generalization than hand-crafted ones. However, most of these works use unified augmentation policies for all samples in a dataset, which is observed not necessarily beneficial for all labels in multi-label classification tasks, i.e., some policies may have negative impacts on some labels while benefitting the others. To tackle this problem, we propose a novel Label-Based AutoAugmentation (LB-Aug) method for multi-label scenarios, where augmentation policies are generated with respect to labels by an augmentation-policy network. The policies are learned via reinforcement learning using policy gradient methods, providing a mapping from instance labels to their optimal augmentation policies. Numerical experiments show that our LB-Aug outperforms previous state-of-the-art augmentation methods by large margins in multiple benchmarks on image and video classification.
翻訳日:2021-07-14 11:42:51 公開日:2021-07-13
# 知識グラフを用いたゼロショット視覚質問応答

Zero-shot Visual Question Answering using Knowledge Graph ( http://arxiv.org/abs/2107.05348v2 )

ライセンス: Link先を確認
Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan and Huajun Chen(参考訳) VQA(Visual Question Answering)に外部知識を組み込むことは、重要な実践的ニーズとなっている。 既存の手法では、知識マッチングや抽出、機能学習など、さまざまなコンポーネントを持つパイプラインアプローチが採用されているが、そのようなパイプラインアプローチは、一部のコンポーネントが正常に動作しない場合に悩まされ、エラーの伝播と全体的なパフォーマンスの低下につながる。 さらに、既存のアプローチの大部分は回答バイアスの問題を無視している -- 実単語アプリケーションでトレーニング中に、多くの回答が現れたことがないかもしれない(すなわち、見当たらない回答)。 本稿では,これらのギャップを埋めるために,知識グラフを用いたゼロショットvqaアルゴリズムと,外部知識の統合性を高めるマスクベース学習機構を提案し,f-vqaデータセットのための新しい回答ベースゼロショットvqa分割を提案する。 実験の結果,Zero-shot VQAでは,従来のVQAタスクのエンド・ツー・エンド・エンド・モデルを大幅に拡張する一方,未確認の回答が得られている。

Incorporating external knowledge to Visual Question Answering (VQA) has become a vital practical need. Existing methods mostly adopt pipeline approaches with different components for knowledge matching and extraction, feature learning, etc.However, such pipeline approaches suffer when some component does not perform well, which leads to error propagation and poor overall performance. Furthermore, the majority of existing approaches ignore the answer bias issue -- many answers may have never appeared during training (i.e., unseen answers) in real-word application. To bridge these gaps, in this paper, we propose a Zero-shot VQA algorithm using knowledge graphs and a mask-based learning mechanism for better incorporating external knowledge, and present new answer-based Zero-shot VQA splits for the F-VQA dataset. Experiments show that our method can achieve state-of-the-art performance in Zero-shot VQA with unseen answers, meanwhile dramatically augment existing end-to-end models on the normal VQA task.
翻訳日:2021-07-14 11:42:38 公開日:2021-07-13
# 7つの基本表情分類のためのベイズ畳み込みニューラルネットワーク

Bayesian Convolutional Neural Networks for Seven Basic Facial Expression Classifications ( http://arxiv.org/abs/2107.04834v2 )

ライセンス: Link先を確認
Yuan Tai, Yihua Tan, Wei Gong, Hailan Huang(参考訳) 7つの基本的な表情分類は、複雑な人間の感情を表現する基本的な方法であり、人工知能研究の重要な部分である。 従来のベイズニューラルネットワークの枠組みに基づき,本論文で構築したresnet18_bnnネットワークは,(1)不確定パラメータのkl損失と特定のパラメータの交叉からなる,新たな目的関数を提案する。 エントロピー損失組成物。 2) 特殊目的関数を対象として, これら2つのパラメータを交互に更新するトレーニングスキームを提案する。 (3) 最後の畳み込み群のパラメータのみをモデル化する。 FER2013テストセットのテストを通じて、PublicTestSetとPrivateTestSetでそれぞれ71.5%と73.1%の精度を達成した。 従来のベイズ型ニューラルネットワークと比較すると,本手法は分類精度が最も高い。

The seven basic facial expression classifications are a basic way to express complex human emotions and are an important part of artificial intelligence research. Based on the traditional Bayesian neural network framework, the ResNet18_BNN network constructed in this paper has been improved in the following three aspects: (1) A new objective function is proposed, which is composed of the KL loss of uncertain parameters and the intersection of specific parameters. Entropy loss composition. (2) Aiming at a special objective function, a training scheme for alternately updating these two parameters is proposed. (3) Only model the parameters of the last convolution group. Through testing on the FER2013 test set, we achieved 71.5% and 73.1% accuracy in PublicTestSet and PrivateTestSet, respectively. Compared with traditional Bayesian neural networks, our method brings the highest classification accuracy gain.
翻訳日:2021-07-14 11:42:19 公開日:2021-07-13
# anatomically-plausib le segmentationのための文脈対応仮想会話訓練

Context-aware virtual adversarial training for anatomically-plausib le segmentation ( http://arxiv.org/abs/2107.05532v2 )

ライセンス: Link先を確認
Ping Wang and Jizong Peng and Marco Pedersoli and Yuanfeng Zhou and Caiming Zhang and Christian Desrosiers(参考訳) その卓越した精度にもかかわらず、深層ニューラルネットワークに基づく半教師付きセグメンテーション法は、例えば、穴や切断された領域を含む臨床医によって解剖学的に不可能と考えられる予測を導出することができる。 この問題を解決するために、解剖学的に妥当なセグメンテーションを生成するためのコンテキスト対応仮想敵訓練法(CaVAT)を提案する。 精度のみに注目するアプローチとは異なり,本手法では,可微分損失関数では容易にモデル化できない接続性などの複雑な位相的制約も考慮している。 我々は,制約に違反する例を生成するために,新たな例に対する誤った予測をネットワークが回避し,非微分的セグメンテーション制約を処理するためにReinforceアルゴリズムを用いる。 提案手法は,任意のセグメンテーションネットワーク上に制約を付加する汎用的かつ効率的な方法を提供する。 2つの臨床関連データセットを用いた実験により,領域接続性の観点から正確かつ解剖学的に評価可能なセグメンテーションを生成する方法を示した。

Despite their outstanding accuracy, semi-supervised segmentation methods based on deep neural networks can still yield predictions that are considered anatomically impossible by clinicians, for instance, containing holes or disconnected regions. To solve this problem, we present a Context-aware Virtual Adversarial Training (CaVAT) method for generating anatomically plausible segmentation. Unlike approaches focusing solely on accuracy, our method also considers complex topological constraints like connectivity which cannot be easily modeled in a differentiable loss function. We use adversarial training to generate examples violating the constraints, so the network can learn to avoid making such incorrect predictions on new examples, and employ the Reinforce algorithm to handle non-differentiable segmentation constraints. The proposed method offers a generic and efficient way to add any constraint on top of any segmentation network. Experiments on two clinically-relevant datasets show our method to produce segmentations that are both accurate and anatomically-plausib le in terms of region connectivity.
翻訳日:2021-07-14 11:42:06 公開日:2021-07-13
# コミットメッセージ生成モデルの評価について:実験的検討

On the Evaluation of Commit Message Generation Models: An Experimental Study ( http://arxiv.org/abs/2107.05373v2 )

ライセンス: Link先を確認
Wei Tao, Yanlin Wang, Ensheng Shi, Lun Du, Hongyu Zhang, Dongmei Zhang, Wenqiang Zhang(参考訳) コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。 しかし、特にコードが頻繁に更新される場合、手動でコミットメッセージを書くのは時間がかかり、手間がかかる。 コミットメッセージを自動生成するために、生成または検索技術を利用した様々なアプローチが提案されている。 この問題に対する既存のアプローチの理解を深めるために,本稿では,最先端のモデルとデータセットの体系的かつ詳細な分析を行う。 1)既存の手法の評価と理解に影響を及ぼすBLEU計量の異なる変種が過去の研究で用いられている。 2) 既存のデータセットのほとんどはJavaリポジトリからのみクロールされるが、他のプログラミング言語のリポジトリは十分に調査されていない。 3) データセット分割戦略は,既存モデルの性能に大きなマージンを与えることができる。 データセットがコミットによって分割された場合のパフォーマンスが向上するモデルや、タイムスタンプやプロジェクトによってデータセットが分割された場合のパフォーマンスが向上するモデルもある。 本研究は,人間の評価を行い,その課題のスコアと最も相関するBLEU測定値を求める。 また、大規模で情報豊富なマルチ言語コミットメッセージデータセットmcmdを収集し、このデータセット上で既存のモデルを評価する。 さらに、異なるデータセット分割戦略の下で広範な実験を行い、異なるシナリオで適切なモデルを提案する。 実験結果と結果に基づいて,コミットメッセージ生成モデルを包括的に評価し,今後の研究方向性を議論するための提案を行う。 この作業は、実践者や研究者が自動コミットメッセージ生成のためのモデルを評価し、選択するのに役立ちます。

Commit messages are natural language descriptions of code changes, which are important for program understanding and maintenance. However, writing commit messages manually is time-consuming and laborious, especially when the code is updated frequently. Various approaches utilizing generation or retrieval techniques have been proposed to automatically generate commit messages. To achieve a better understanding of how the existing approaches perform in solving this problem, this paper conducts a systematic and in-depth analysis of the state-of-the-art models and datasets. We find that: (1) Different variants of the BLEU metric are used in previous works, which affects the evaluation and understanding of existing methods. (2) Most existing datasets are crawled only from Java repositories while repositories in other programming languages are not sufficiently explored. (3) Dataset splitting strategies can influence the performance of existing models by a large margin. Some models show better performance when the datasets are split by commit, while other models perform better when the datasets are split by timestamp or by project. Based on our findings, we conduct a human evaluation and find the BLEU metric that best correlates with the human scores for the task. We also collect a large-scale, information-rich, and multi-language commit message dataset MCMD and evaluate existing models on this dataset. Furthermore, we conduct extensive experiments under different dataset splitting strategies and suggest the suitable models under different scenarios. Based on the experimental results and findings, we provide feasible suggestions for comprehensively evaluating commit message generation models and discuss possible future research directions. We believe this work can help practitioners and researchers better evaluate and select models for automatic commit message generation.
翻訳日:2021-07-14 11:41:49 公開日:2021-07-13
# 半教師型顔行動分析のためのマルチタスク平均教師

A Multi-task Mean Teacher for Semi-supervised Facial Affective Behavior Analysis ( http://arxiv.org/abs/2107.04225v2 )

ライセンス: Link先を確認
Lingfeng Wang, Shisen Wang(参考訳) 影響行動分析は人間とコンピュータの相互作用において重要な要素である。 tsav[9]のような既存の感情的行動分析手法は、不完全なラベル付きデータセットの課題に苦しむ。 そこで本論文では,ラベルの欠落から学習し,複数の関連課題を同時に学習するための,半教師付き感情行動分析のためのマルチタスク平均教師モデルを提案する。 具体的には、TSAVをベースラインモデルとして利用し、3つのタスクを同時に認識する。 我々は,より優れた意味情報を提供するために,マスクのレンダリング前処理法を変更した。 その後、平均教師を用いてTSAVモデルを半教師付きモデルに拡張し、ラベルなしデータから恩恵を受けることができた。 評価実験の結果,提案手法はTSAVモデルよりも優れた性能を達成し,提案手法が適応的行動解析性能を向上させるために,新たなラベル付きデータを効果的に学習できることが確認された。

Affective Behavior Analysis is an important part in human-computer interaction. Existing successful affective behavior analysis method such as TSAV[9] suffer from challenge of incomplete labeled datasets. To boost its performance, this paper presents a multi-task mean teacher model for semi-supervised Affective Behavior Analysis to learn from missing labels and exploring the learning of multiple correlated task simultaneously. To be specific, we first utilize TSAV as baseline model to simultaneously recognize the three tasks. We have modified the preprocessing method of rendering mask to provide better semantics information. After that, we extended TSAV model to semi-supervised model using mean teacher, which allow it to be benefited from unlabeled data. Experimental results on validation datasets show that our method achieves better performance than TSAV model, which verifies that the proposed network can effectively learn additional unlabeled data to boost the affective behavior analysis performance.
翻訳日:2021-07-14 11:41:25 公開日:2021-07-13
# 単一モデルだけで十分か? MuCoS: セマンティックコード検索のためのマルチモデルアンサンブル学習

Is a Single Model Enough? MuCoS: A Multi-Model Ensemble Learning for Semantic Code Search ( http://arxiv.org/abs/2107.04773v2 )

ライセンス: Link先を確認
Lun Du, Xiaozhou Shi, Yanlin Wang, Ensheng Shi, Shi Han and Dongmei Zhang(参考訳) 近年,コードスニペットと検索クエリ間のセマンティックな相関がより良くなり,有望な性能を持つため,深層学習がコード検索の主流となっている。 しかし、コードスニペットはビジネスロジック、特定のアルゴリズム、ハードウェア通信など、さまざまな次元の様々な情報を持っているため、単一のコード表現モジュールがすべての視点をカバーすることは困難である。 一方、特定のクエリは1つまたは複数の視点にフォーカスする可能性があるため、単一のクエリ表現モジュールが異なるユーザ意図を表現することは困難である。 本稿では,意味コード検索のためのマルチモデルアンサンブル学習アーキテクチャであるMuCoSを提案する。 複数の個別の学習者が組み合わさり、それぞれがコードスニペットの特定の視点を強調する。 私たちは、コード情報の異なる視点を含む異なるデータセットで個々の学習者を訓練し、これらの異なるデータセットを取得するためにデータ拡張戦略を使用します。 次に、学習者をアンサンブルして、コードスニペットの包括的な特徴を捉えます。

Recently, deep learning methods have become mainstream in code search since they do better at capturing semantic correlations between code snippets and search queries and have promising performance. However, code snippets have diverse information from different dimensions, such as business logic, specific algorithm, and hardware communication, so it is hard for a single code representation module to cover all the perspectives. On the other hand, as a specific query may focus on one or several perspectives, it is difficult for a single query representation module to represent different user intents. In this paper, we propose MuCoS, a multi-model ensemble learning architecture for semantic code search. It combines several individual learners, each of which emphasizes a specific perspective of code snippets. We train the individual learners on different datasets which contain different perspectives of code information, and we use a data augmentation strategy to get these different datasets. Then we ensemble the learners to capture comprehensive features of code snippets.
翻訳日:2021-07-14 11:41:11 公開日:2021-07-13