このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220428となっている論文です。

PDF登録状況(公開日: 20220428)

TitleAuthorsAbstract論文公表日・翻訳日
# 自己組織型民主学習--大規模分散学習システムに向けて

Self-organizing Democratized Learning: Towards Large-scale Distributed Learning Systems ( http://arxiv.org/abs/2007.03278v3 )

ライセンス: Link先を確認
Minh N. H. Nguyen, Shashi Raj Pandey, Tri Nguyen Dang, Eui-Nam Huh, Nguyen H. Tran, Walid Saad, Choong Seon Hong(参考訳) デバイス横断人工知能(AI)アプリケーションを進化させるには、従来の集中型学習システムから、複雑な学習タスクを協調的に実行できる大規模分散AIシステムに移行する必要がある。 この点において、民主化された学習(Dem-AI)は、大規模に分散された民主化された機械学習システムを構築するための基本原則を備えた全体論的哲学を定めている。 概説された原則は、連合学習のような既存のメカニズムを超える分散学習システムの一般化を研究することを目的としている。 さらに、このような学習システムは、限定的で高度にパーソナライズされたデータを持ち、専門的および一般化されたプロセスの基盤となる双対性に基づいて自分自身を進化させ、制御できる、十分に接続された分散学習エージェントの階層的自己組織化に依存している。 本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。 このアプローチは、集合的クラスタリング、階層的一般化、およびそれに対応する学習機構に基づく自己組織化階層構造機構で構成されている。 その後,再帰形式における階層的一般化学習問題を定式化し,分散パーソナライズ学習問題と階層的更新機構の解法を用いて大まかに解き明かした。 そこで,分散学習アルゴリズムであるDemLearnを提案する。 ベンチマークMNIST, Fashion-MNIST, FE-MNIST, CIFAR-10データセットの大規模な実験により, 提案アルゴリズムは従来のFLアルゴリズムと比較して, エージェントにおける学習モデルの一般化性能を向上することを示した。 詳細な分析により,Dem-AIシステムにおける学習モデルの一般化と特殊化性能の両立が図られる。

Emerging cross-device artificial intelligence (AI) applications require a transition from conventional centralized learning systems towards large-scale distributed AI systems that can collaboratively perform complex learning tasks. In this regard, democratized learning (Dem-AI) lays out a holistic philosophy with underlying principles for building large-scale distributed and democratized machine learning systems. The outlined principles are meant to study a generalization in distributed learning systems that goes beyond existing mechanisms such as federated learning. Moreover, such learning systems rely on hierarchical self-organization of well-connected distributed learning agents who have limited and highly personalized data and can evolve and regulate themselves based on the underlying duality of specialized and generalized processes. Inspired by Dem-AI philosophy, a novel distributed learning approach is proposed in this paper. The approach consists of a self-organizing hierarchical structuring mechanism based on agglomerative clustering, hierarchical generalization, and corresponding learning mechanism. Subsequently, hierarchical generalized learning problems in recursive forms are formulated and shown to be approximately solved using the solutions of distributed personalized learning problems and hierarchical update mechanisms. To that end, a distributed learning algorithm, namely DemLearn is proposed. Extensive experiments on benchmark MNIST, Fashion-MNIST, FE-MNIST, and CIFAR-10 datasets show that the proposed algorithms demonstrate better results in the generalization performance of learning models in agents compared to the conventional FL algorithms. The detailed analysis provides useful observations to further handle both the generalization and specialization performance of the learning models in Dem-AI systems.
翻訳日:2022-11-12 18:47:30 公開日:2022-04-28
# 安全な集合を伴うフェデレーション学習における品質推論

Quality Inference in Federated Learning with Secure Aggregation ( http://arxiv.org/abs/2007.06236v3 )

ライセンス: Link先を確認
Bal\'azs Pej\'o and Andr\'as T\'otth and Gergely Bicz\'ok(参考訳) フェデレート学習アルゴリズムは効率上の理由から開発され、個人データとビジネスデータのプライバシーと機密性を保証する。 データが明示的に共有されていないにもかかわらず、最近の研究では、このメカニズムが機密情報を漏洩する可能性があることが示されている。 したがって、セキュアアグリゲーションは多くの現実世界のシナリオで使われ、特定の参加者への帰属を防ぐ。 本稿では,個別のトレーニングデータセットの品質に着目し,セキュアなアグリゲーションを適用した場合でも,その品質情報を特定の参加者に推論し,属性付けることができることを示す。 具体的には,一連の画像認識実験を通じて,参加者の相対的品質秩序を推定する。 さらに,推定された品質情報を誤動作の検出,トレーニングパフォーマンスの安定化,参加者の個人貢献度の測定に応用した。

Federated learning algorithms are developed both for efficiency reasons and to ensure the privacy and confidentiality of personal and business data, respectively. Despite no data being shared explicitly, recent studies showed that the mechanism could still leak sensitive information. Hence, secure aggregation is utilized in many real-world scenarios to prevent attribution to specific participants. In this paper, we focus on the quality of individual training datasets and show that such quality information could be inferred and attributed to specific participants even when secure aggregation is applied. Specifically, through a series of image recognition experiments, we infer the relative quality ordering of participants. Moreover, we apply the inferred quality information to detect misbehaviours, to stabilize training performance, and to measure the individual contributions of participants.
翻訳日:2022-11-10 23:31:00 公開日:2022-04-28
# CLAS12検出器における粒子追跡同定のための機械学習

Using Machine Learning for Particle Track Identification in the CLAS12 Detector ( http://arxiv.org/abs/2008.12860v2 )

ライセンス: Link先を確認
Polykarpos Thomadakis, Angelos Angelopoulos, Gagik Gavalian, Nikos Chrisochoides(参考訳) 粒子軌道再構成は、核物理学実験において最も計算集約的なプロセスである。 従来のアルゴリズムは、実際の粒子軌道を形成するものを特定するために、計測値(hits)を徹底的にテストする組合せアプローチを用いる。 本稿では,ドリフトチャンバー内の測定結果から有効なトラック候補を同定し,追跡アルゴリズムを支援する4つの機械学習(ml)モデルの開発について述べる。 畳み込みニューラルネットワーク(cnn)、多層パーセプトロン(mlp)、極端にランダム化された木(ert)、リカレントニューラルネットワーク(rnn)など、いくつかの機械学習モデルがテストされた。 この結果,CLAS12再構成ソフトウェアの一部としてMLPネットワーク分類器が実装され,トラック候補を推薦する追跡コードを提供することができた。 その結果、ソフトウェアは99\%以上の精度を達成し、既存のアルゴリズムと比較してエンドツーエンドのスピードアップは35\%になった。

Particle track reconstruction is the most computationally intensive process in nuclear physics experiments. Traditional algorithms use a combinatorial approach that exhaustively tests track measurements ("hits") to identify those that form an actual particle trajectory. In this article, we describe the development of four machine learning (ML) models that assist the tracking algorithm by identifying valid track candidates from the measurements in drift chambers. Several types of machine learning models were tested, including: Convolutional Neural Networks (CNN), Multi-Layer Perceptrons (MLP), Extremely Randomized Trees (ERT) and Recurrent Neural Networks (RNN). As a result of this work, an MLP network classifier was implemented as part of the CLAS12 reconstruction software to provide the tracking code with recommended track candidates. The resulting software achieved accuracy of greater than 99\% and resulted in an end-to-end speedup of 35\% compared to existing algorithms.
翻訳日:2022-10-24 02:33:29 公開日:2022-04-28
# 共役等式制約下での$\beta$-divergencesを持つNMFの乗法的更新

Multiplicative Updates for NMF with $\beta$-Divergences under Disjoint Equality Constraints ( http://arxiv.org/abs/2010.16223v2 )

ライセンス: Link先を確認
Valentin Leplat, Nicolas Gillis, J\'er\^ome Idier(参考訳) 非負行列分解 (non negative matrix factorization, nmf) は、入力非負行列を2つの小さい非負行列(w$ と $h$)の積として近似する問題である。 本稿では,非結合的等式制約を持つ$\beta$-divergences (\beta$-nmf) と目的関数におけるペナルティ項に基づいて,nmfの乗法的更新(mu)を設計するための汎用フレームワークを提案する。 逆結合によって、各変数が少なくとも1つの等式制約に現れることを意味する。 目的関数が単調に減少することを保証しながら、最適化プロセス中の変数の更新毎に制約セットを満たす。 このフレームワークを3つのnmfモデルで紹介し,(1)$h$,(2) 最小体積$\beta$-nmf,(3) sparse$\beta$-nmf,$w$ カラム上で$\ell_2$-norm制約付き$\ell_2$-nmf,(2) の3つのnmfモデルで比較した。

Nonnegative matrix factorization (NMF) is the problem of approximating an input nonnegative matrix, $V$, as the product of two smaller nonnegative matrices, $W$ and $H$. In this paper, we introduce a general framework to design multiplicative updates (MU) for NMF based on $\beta$-divergences ($\beta$-NMF) with disjoint equality constraints, and with penalty terms in the objective function. By disjoint, we mean that each variable appears in at most one equality constraint. Our MU satisfy the set of constraints after each update of the variables during the optimization process, while guaranteeing that the objective function decreases monotonically. We showcase this framework on three NMF models, and show that it competes favorably the state of the art: (1)~$\beta$-NMF with sum-to-one constraints on the columns of $H$, (2) minimum-volume $\beta$-NMF with sum-to-one constraints on the columns of $W$, and (3) sparse $\beta$-NMF with $\ell_2$-norm constraints on the columns of $W$.
翻訳日:2022-10-01 16:45:56 公開日:2022-04-28
# メモリ駆動トランスフォーマによる放射線レポートの生成

Generating Radiology Reports via Memory-driven Transformer ( http://arxiv.org/abs/2010.16056v2 )

ライセンス: Link先を確認
Zhihong Chen, Yan Song, Tsung-Hui Chang, Xiang Wan(参考訳) 医療画像は、診断と治療のための臨床および臨床試験で頻繁に使用される。 画像報告を書くのは時間がかかり、経験の浅い放射線科医にとっては誤りやすい。 そのため, 放射線学報告の自動作成は, 放射線科医の作業負荷を軽くし, 臨床自動化を促進することが望まれており, 医療領域に人工知能を適用する上で不可欠な課題である。 本稿では,生成プロセスのキー情報を記録するためにリレーショナルメモリを設計,トランスデコーダにメモリを組み込むためにメモリ駆動条件層正規化を適用するメモリ駆動トランスフォーマによる放射線レポートの生成を提案する。 iu x-ray と mimic-cxr の2つの画像データを用いた実験の結果,提案手法は,言語生成指標と臨床評価の両方において,従来のモデルよりも優れていた。 特に、MIMIC-CXRで生成結果を報告したのはこれが初めてです。 さらに,本手法は,医用用語と有意義な画像テキストアテンションマッピングを併用して,長いレポートを作成できることを示す。

Medical imaging is frequently used in clinical practice and trials for diagnosis and treatment. Writing imaging reports is time-consuming and can be error-prone for inexperienced radiologists. Therefore, automatically generating radiology reports is highly desired to lighten the workload of radiologists and accordingly promote clinical automation, which is an essential task to apply artificial intelligence to the medical domain. In this paper, we propose to generate radiology reports with memory-driven Transformer, where a relational memory is designed to record key information of the generation process and a memory-driven conditional layer normalization is applied to incorporating the memory into the decoder of Transformer. Experimental results on two prevailing radiology report datasets, IU X-Ray and MIMIC-CXR, show that our proposed approach outperforms previous models with respect to both language generation metrics and clinical evaluations. Particularly, this is the first work reporting the generation results on MIMIC-CXR to the best of our knowledge. Further analyses also demonstrate that our approach is able to generate long reports with necessary medical terms as well as meaningful image-text attention mappings.
翻訳日:2022-10-01 16:44:35 公開日:2022-04-28
# RAMP-CNN: 自動車用レーダー物体認識のための新しいニューラルネットワーク

RAMP-CNN: A Novel Neural Network for Enhanced Automotive Radar Object Recognition ( http://arxiv.org/abs/2011.08981v2 )

ライセンス: Link先を確認
Xiangyu Gao, Guanbin Xing, Sumit Roy, and Hui Liu(参考訳) ミリ波レーダーは、ロバストで高性能な物体検出、ローカライゼーション、そして新しい環境認識の重要な要素である認識を可能にすることで、新しい高度な運転支援システムをサポートするために、商用車にますます統合されている。 本稿では,RVA(Range-Vlocity-angle)ヒートマップシーケンスのさらなる処理に基づいて,オブジェクトの位置とクラスを抽出する新しいレーダ多重パースペクティブ畳み込みニューラルネットワーク(RAMP-CNN)を提案する。 4次元畳み込みニューラルネットワーク(NN)の複雑さを回避するため、我々はRAMP-CNNモデルにいくつかの低次元NNモデルを組み合わせることを提案する。 広範な実験により,提案モデルが従来のテストシナリオよりも高い平均リコールと平均精度を達成することが示された。 また、RAMP-CNNモデルは夜間に頑健に機能することが検証されており、厳しい条件下で純粋な光センシングの代替として低コストのレーダーを利用できる。

Millimeter-wave radars are being increasingly integrated into commercial vehicles to support new advanced driver-assistance systems by enabling robust and high-performance object detection, localization, as well as recognition - a key component of new environmental perception. In this paper, we propose a novel radar multiple-perspectives convolutional neural network (RAMP-CNN) that extracts the location and class of objects based on further processing of the range-velocity-angle (RVA) heatmap sequences. To bypass the complexity of 4D convolutional neural networks (NN), we propose to combine several lower-dimension NN models within our RAMP-CNN model that nonetheless approaches the performance upper-bound with lower complexity. The extensive experiments show that the proposed RAMP-CNN model achieves better average recall and average precision than prior works in all testing scenarios. Besides, the RAMP-CNN model is validated to work robustly under nighttime, which enables low-cost radars as a potential substitute for pure optical sensing under severe conditions.
翻訳日:2022-09-25 23:28:09 公開日:2022-04-28
# 伝達学習と因果グラフを主入力としたs&p500指標方向の予測

Predicting S&P500 Index direction with Transfer Learning and a Causal Graph as main Input ( http://arxiv.org/abs/2011.13113v3 )

ライセンス: Link先を確認
Djoumbissie David Romain(参考訳) 本研究では,金融市場ダイナミクスの複雑かつ不確定な因果過程を表現するための統合マルチタスクフレームワークを提案し,s&p500指数の月次方向のアプリケーションを用いて,任意の種類の指標の移動を予測する。 私たちの解決策は3つの柱に基づいています (i)すべての金融市場間で知識と特徴(表現、学習)を共有し、トレーニングサンプルのサイズを増加させ、トレーニング、検証、テストサンプル間の安定性を維持するための転校学習の利用。 (ii)金融市場のグローバルトップダウンダイナミクスを表現するための多分野の知識(金融経済学、行動ファイナンス、市場構造、ポートフォリオ構築理論)のグラフによる組み合わせ (iii)前方の非構造化データの統合、潜伏変数/ノードを通して異なる種類のコンテキスト(長・中・短期)、そしてその分散表現を同時に学習するためにユニークなvaeネットワーク(パラメータ共有)を使用する。 精度,f1-scoreおよびmatthew相関は,3つの不安定かつ難解なサブ周期を含む12年間の試験期間において,業界およびその他のベンチマークで74.3 %,67 %,0.42であった。

We propose a unified multi-tasking framework to represent the complex and uncertain causal process of financial market dynamics, and then to predict the movement of any type of index with an application on the monthly direction of the S&P500 index. our solution is based on three main pillars: (i) the use of transfer learning to share knowledge and feature (representation, learning) between all financial markets, increase the size of the training sample and preserve the stability between training, validation and test sample. (ii) The combination of multidisciplinary knowledge (Financial economics, behavioral finance, market microstructure and portfolio construction theories) to represent a global top-down dynamics of any financial market, through a graph. (iii) The integration of forward looking unstructured data, different types of contexts (long, medium and short term) through latent variables/nodes and then, use a unique VAE network (parameter sharing) to learn simultaneously their distributional representation. We obtain Accuracy, F1-score, and Matthew Correlation of 74.3 %, 67 % and 0.42 above the industry and other benchmark on 12 years test period which include three unstable and difficult sub-period to predict.
翻訳日:2022-09-20 08:38:17 公開日:2022-04-28
# 認知行動療法の局所的ダイナミックモード

Local dynamic mode of Cognitive Behavioral Therapy ( http://arxiv.org/abs/2205.09752v1 )

ライセンス: Link先を確認
Victor Ardulov, Torrey A. Creed, David C. Atkins, Shrikanth Narayanan(参考訳) 最も脆弱で限界的な地域社会におけるメンタルヘルスの公平性を高めるためには、高品質なセラピストへのアクセスを増やすことが重要である。 これらのニーズに対処する1つの側面は、特定のクライアントや彼らが持っているインタラクションにもコンテキスト化されている方法で、クライアントと対話するときに、臨床医にタイムリーなフィードバックを提供することである。 動的システムは相互作用を分析するフレームワークを提供する。 本研究は,認知行動療法(CBT)における心理療法士の自律的評価分野に適用する。 提案手法は会話の短い窓から局所動的モードを抽出し,観察したダイナミクスとcbt能力の関係を学習する。 その結果、このパラダイムの価値が示され、治療戦略の研究と改善にこれらの方法が利用できる方法を概説する。

In order to increase mental health equity among the most vulnerable and marginalized communities, it is important to increase access to high-quality therapists. One facet of addressing these needs, is to provide timely feedback to clinicians as they interact with their clients, in a way that is also contextualized to specific clients and interactions they have had. Dynamical systems provide a framework through which to analyze interactions. The present work applies these methods to the domain of automated psychotherapist evaluation for Cognitive Behavioral Therapy (CBT). Our methods extract local dynamic modes from short windows of conversation and learns to correlate the observed dynamics to CBT competence. The results demonstrate the value of this paradigm and outlines the way in which these methods can be used to study and improve therapeutic strategies.
翻訳日:2022-05-29 21:21:56 公開日:2022-04-28
# 記号回帰のためのテイラー遺伝的プログラミング

Taylor Genetic Programming for Symbolic Regression ( http://arxiv.org/abs/2205.09751v1 )

ライセンス: Link先を確認
Baihe He, Qiang Lu, Qingyun Yang, Jake Luo and Zhiguang Wang(参考訳) 遺伝的プログラミング(GP)は、記号回帰(SR)問題を解決するために一般的に用いられる手法である。 事前定義されたモデルとSR問題を解決するトレーニングデータセットに依存する機械学習やディープラーニングの手法と比較して、GPは検索空間におけるソリューションの発見に重点を置いている。 GPは大規模ベンチマークでは優れた性能を示すが、データセットの特徴を生かさず、ランダムに個人を検索結果に変換する。 そこで、GPの探索過程は通常遅く、最終結果は不安定であり、これらの特徴によりGPを誘導するために、TaylorGPと呼ばれるSRの新しい手法を提案する(コードと付録はhttps://kgae-cup.github.io/TaylorGP/)。 TaylorGP はテイラー多項式を利用して、データセットに適合するシンボリック方程式を近似する。 また、テイラー多項式を用いて、低次多項式判別、可変分離性、境界、単調、パリティといった記号方程式の特徴を抽出する。 gp はテイラー多項式法によって強化される。 実験は古典的SR、機械学習、物理の3種類のベンチマークで行われている。 実験の結果,TaylorGPは9つのベースライン法よりも精度が高いだけでなく,安定な結果の発見も高速であることがわかった。

Genetic programming (GP) is a commonly used approach to solve symbolic regression (SR) problems. Compared with the machine learning or deep learning methods that depend on the pre-defined model and the training dataset for solving SR problems, GP is more focused on finding the solution in a search space. Although GP has good performance on large-scale benchmarks, it randomly transforms individuals to search results without taking advantage of the characteristics of the dataset. So, the search process of GP is usually slow, and the final results could be unstable.To guide GP by these characteristics, we propose a new method for SR, called Taylor genetic programming (TaylorGP) (Code and appendix at https://kgae-cup.github.io/TaylorGP/). TaylorGP leverages a Taylor polynomial to approximate the symbolic equation that fits the dataset. It also utilizes the Taylor polynomial to extract the features of the symbolic equation: low order polynomial discrimination, variable separability, boundary, monotonic, and parity. GP is enhanced by these Taylor polynomial techniques. Experiments are conducted on three kinds of benchmarks: classical SR, machine learning, and physics. The experimental results show that TaylorGP not only has higher accuracy than the nine baseline methods, but also is faster in finding stable results.
翻訳日:2022-05-29 21:20:13 公開日:2022-04-28
# RISCLESS: 未使用のクラウドリソースを爆発させる強化学習戦略

RISCLESS: A Reinforcement Learning Strategy to Exploit Unused Cloud Resources ( http://arxiv.org/abs/2205.08350v1 )

ライセンス: Link先を確認
Sidahmed Yalles (UR1, IRISA-D4), Mohamed Handaoui (Hypermedia, UR1, IRISA-D4), Jean-Emile Dartois (IRT b-com, DiverSe, UR1, IRISA-D4), Olivier Barais (UR1, IRISA-D4), Laurent d'Orazio, Jalil Boukhobza (ENSTA Bretagne, Lab-STICC\_SHAKER)(参考訳) Cloud Providers(CP)の主な目的の1つは、運用コストを削減しつつ、顧客のSLA(Service-Level Agreement)を保証することである。 この目標を達成するため、CPは大規模データセンターを構築した。 しかし、これは未使用の資源とコストの増加につながります。 資源の利用を改善する方法は、未使用の部品を回収し、低価格で再販売することである。 再利用されたリソースに対してSLAを保証することは、高いボラティリティのため、課題である。 一部の最先端ソリューションでは、ワークロードの急激な変動を吸収するためにリソースの比率を自由に保つことを検討している。 他の人々は、失われたリソースを埋めるために揮発性のリソースの上に安定したリソースを考える。 しかしながら、これらの戦略は、再利用可能なリソースの量を減らすか、Amazon Spotインスタンスのような揮発性の低いリソースを運用する。 本稿では,未使用のクラウドリソースを活用するための強化学習戦略RISCLESSを提案する。 当社のアプローチは、顧客SLAの保証と全体的なコスト削減のために、短命なリソースとともに、少数の安定したオンデマンドリソースを使用することから成り立っている。 このアプローチは、顧客の要求を満たすために、いつ、どの程度安定したリソースを割り当てるかを決定する。 RISCLESSは最先端戦略と比較してCPの利益を平均15.9%改善した。 また、sla違反時間を平均36.7%削減し、使用済みの短命資源を平均19.5%増加させた。

One of the main objectives of Cloud Providers (CP) is to guarantee the Service-Level Agreement (SLA) of customers while reducing operating costs. To achieve this goal, CPs have built large-scale datacenters. This leads, however, to underutilized resources and an increase in costs. A way to improve the utilization of resources is to reclaim the unused parts and resell them at a lower price. Providing SLA guarantees to customers on reclaimed resources is a challenge due to their high volatility. Some state-of-the-art solutions consider keeping a proportion of resources free to absorb sudden variation in workloads. Others consider stable resources on top of the volatile ones to fill in for the lost resources. However, these strategies either reduce the amount of reclaimable resources or operate on less volatile ones such as Amazon Spot instance. In this paper, we proposed RISCLESS, a Reinforcement Learning strategy to exploit unused Cloud resources. Our approach consists of using a small proportion of stable on-demand resources alongside the ephemeral ones in order to guarantee customers SLA and reduce the overall costs. The approach decides when and how much stable resources to allocate in order to fulfill customers' demands. RISCLESS improved the CPs' profits by an average of 15.9% compared to state-of-the-art strategies. It also reduced the SLA violation time by an average of 36.7% while increasing the amount of used ephemeral resources by 19.5% on average
翻訳日:2022-05-22 12:15:19 公開日:2022-04-28
# (参考訳) 風力タービンギアボックスの故障時予測のためのディジタルツインフレームワーク:概念

Digital Twin Framework for Time to Failure Forecasting of Wind Turbine Gearbox: A Concept ( http://arxiv.org/abs/2205.03513v1 )

ライセンス: CC BY 4.0
Mili Wadhwani, Sakshi Deshmukh, Harsh S. Dhiman(参考訳) 風力タービンは複雑な機械であり、回転・非回転装置は故障に敏感である。 摩耗や裂け目の増加により、風力タービンの保守性は極めて重要である。 風力タービンの部品が予期せぬ故障によりo\&mコストが増大し、最終的に風力発電所の有効電力を削減できる。 風力タービンの故障検出は、10分間のサンプル間隔で時系列形式で風力発電事業者から利用可能なSCADAデータで補足されることが多い。 さらに、時系列分析とデータ表現は、風力タービンのような複雑な機械の動的過程をより深く把握するための強力なツールとなっている。 風力タービンscadaデータは、通常、ギアボックスオイル温度、ギアボックスベアリング温度、ナセル温度、ローター速度、アクティブパワーなどの変数を持つ多変量時系列として利用可能である。 本稿では,予測モジュールがリアルタイムSCADAデータによって継続的に更新される風力タービンギヤボックスの故障予測のためのディジタルツインの概念について議論し,風力発電事業者に有意義な洞察を与える。

Wind turbine is a complex machine with its rotating and non-rotating equipment being sensitive to faults. Due to increased wear and tear, the maintenance aspect of a wind turbine is of critical importance. Unexpected failure of wind turbine components can lead to increased O\&M costs which ultimately reduces effective power capture of a wind farm. Fault detection in wind turbines is often supplemented with SCADA data available from wind farm operators in the form of time-series format with a 10-minute sample interval. Moreover, time-series analysis and data representation has become a powerful tool to get a deeper understating of the dynamic processes in complex machinery like wind turbine. Wind turbine SCADA data is usually available in form of a multivariate time-series with variables like gearbox oil temperature, gearbox bearing temperature, nacelle temperature, rotor speed and active power produced. In this preprint, we discuss the concept of a digital twin for time to failure forecasting of the wind turbine gearbox where a predictive module continuously gets updated with real-time SCADA data and generates meaningful insights for the wind farm operator.
翻訳日:2022-05-16 01:35:39 公開日:2022-04-28
# (参考訳) 時系列解析におけるトランスフォーマー:チュートリアル

Transformers in Time-series Analysis: A Tutorial ( http://arxiv.org/abs/2205.01138v1 )

ライセンス: CC BY 4.0
Sabeen Ahmed, Ian E. Nielsen, Aakash Tripathi, Shamoon Siddiqui, Ghulam Rasool, Ravi P. Ramachandran(参考訳) トランスフォーマーアーキテクチャは、特に自然言語処理やコンピュータビジョンにおいて広く応用されている。 近年, 時系列解析にトランスフォーマーが採用されている。 本チュートリアルでは、Transformerアーキテクチャ、その応用の概要と、時系列解析における最近の研究論文の例を紹介する。 本稿では,トランスフォーマーのコアコンポーネントとして,自己保持機構,位置符号化,マルチヘッド,エンコーダ/デコーダなどについて解説する。 最初のTransformerアーキテクチャのいくつかの拡張は、時系列タスクに取り組むために強調されている。 チュートリアルはまた、時系列分析のためにTransformerを効果的にトレーニングする課題を克服するためのベストプラクティスとテクニックも提供している。

Transformer architecture has widespread applications, particularly in Natural Language Processing and computer vision. Recently Transformers have been employed in various aspects of time-series analysis. This tutorial provides an overview of the Transformer architecture, its applications, and a collection of examples from recent research papers in time-series analysis. We delve into an explanation of the core components of the Transformer, including the self-attention mechanism, positional encoding, multi-head, and encoder/decoder. Several enhancements to the initial, Transformer architecture are highlighted to tackle time-series tasks. The tutorial also provides best practices and techniques to overcome the challenge of effectively training Transformers for time-series analysis.
翻訳日:2022-05-09 00:03:33 公開日:2022-04-28
# 非ユークリッドノルムをサポートする適応的漸進勾配法

An Adaptive Incremental Gradient Method With Support for Non-Euclidean Norms ( http://arxiv.org/abs/2205.02273v1 )

ライセンス: Link先を確認
Binghui Xie, Chenhan Jin, Kaiwen Zhou, James Cheng, Wei Meng(参考訳) 確率分散低減法は有限サム問題の解法において強い性能を示した。 しかし、これらのメソッドは通常、ユーザーがステップサイズを手動で調整する必要がある。 そこで本研究では,SAGAアルゴリズムの適応型を新たにいくつか提案し,解析する。 最終的に、メモリ効率と高速収束を確保するためにインクリメンタル勾配法に適したBarzilai-Borweinステップサイズを設計する。 我々は、滑らか性の定義における非ユークリッドノルムと、機械学習の幅広い応用をカバーする複合目的を許容する一般的な設定の下で、その収束保証を確立する。 既存の作業の空白を満たす非ユークリッドノルムをサポートするために,SAGAの分析を改善した。 標準データセットの数値実験は,提案アルゴリズムの既存の分散還元法とその適応的変種と比較して,競合性能を示す。

Stochastic variance reduced methods have shown strong performance in solving finite-sum problems. However, these methods usually require the users to manually tune the step-size, which is time-consuming or even infeasible for some large-scale optimization tasks. To overcome the problem, we propose and analyze several novel adaptive variants of the popular SAGA algorithm. Eventually, we design a variant of Barzilai-Borwein step-size which is tailored for the incremental gradient method to ensure memory efficiency and fast convergence. We establish its convergence guarantees under general settings that allow non-Euclidean norms in the definition of smoothness and the composite objectives, which cover a broad range of applications in machine learning. We improve the analysis of SAGA to support non-Euclidean norms, which fills the void of existing work. Numerical experiments on standard datasets demonstrate a competitive performance of the proposed algorithm compared with existing variance-reduced methods and their adaptive variants.
翻訳日:2022-05-08 23:37:50 公開日:2022-04-28
# (参考訳) ファジィグラフのエネルギーとラプラシアンエネルギーの類似性尺度に基づく意思決定問題への応用

The Application of Energy and Laplacian Energy of Hesitancy Fuzzy Graph Based on Similarity Measures in Decision Making Problems ( http://arxiv.org/abs/2205.00880v1 )

ライセンス: CC0 1.0
Rajagopal Reddy N, Sharief Basha Shaik(参考訳) 本稿では、新しいヘッシタンシーファジィ類似度測度を定義し、その後、作業手順を用いてヘッシタンシーファジィグラフを分類するために用いられる、ヘッシタンシーファジィ類似度測度の行列を開発するために使用する。 本研究では,HFPR(Hesitancy fuzzy preference relationship)とHFPR(HFPR)の類似度を相互に適用することにより,専門家の評価値を評価する作業手順(Algorithm)を構築した。 最後のステップとして、作業手順の実証と検証のための実時間数値例を提供する。

In this article, a new hesitancy fuzzy similarity measure is defined and then used to develop the matrix of hesitancy fuzzy similarity measures, which is subsequently used to classify hesitancy fuzzy graph using the working procedure. We build a working procedure (Algorithm) for estimating the eligible reputation scores values of experts by applying hesitancy fuzzy preference relationships (HFPRs) and the usual similarity degree of one distinct HFPRs to each other's. As the last step, we provide real time numerical examples to demonstrate and validate our working procedure.
翻訳日:2022-05-06 09:42:15 公開日:2022-04-28
# 変圧器の確率論的解釈

A Probabilistic Interpretation of Transformers ( http://arxiv.org/abs/2205.01080v1 )

ライセンス: Link先を確認
Alexander Shim(参考訳) 本稿では,指数関数系に基づく変圧器の指数ドット積注意の確率論的解釈と対比学習を提案する。 変圧器のアテンション部分層は、ホップフィールド注意理論のlog-sum-exp項である対数正規化器の勾配上昇ステップと等価である。 この上昇ステップは点の平行展開を誘導し、これは層正規化からの収縮によって相反する。 また、我々の理論とホップフィールド理論の理論的制限を述べ、分解の方向性を提案する。

We propose a probabilistic interpretation of exponential dot product attention of transformers and contrastive learning based off of exponential families. The attention sublayer of transformers is equivalent to a gradient ascent step of the log normalizer, which is the log-sum-exp term in the Hopfield theory of attention. This ascent step induces a parallel expansion of points, which is counterbalanced by a contraction from layer normalization. We also state theoretical limitations of our theory and the Hopfield theory and suggest directions for resolution.
翻訳日:2022-05-03 16:09:40 公開日:2022-04-28
# 多数派ダイナミクスによる不完全な選好のための合意を目標に

Let's Agree to Agree: Targeting Consensus for Incomplete Preferences through Majority Dynamics ( http://arxiv.org/abs/2205.00881v1 )

ライセンス: Link先を確認
Sirin Botan, Simon Rey, Zoi Terzopoulou(参考訳) 不完全な嗜好を持つエージェントが集団的な決定を行う必要がある設定について検討する。 我々は、問題が一つずつ解決され、未決定のエージェントが多数派の意見に従う、多数派力学のプロセスに焦点を当てる。 コンドルチェットの勝者のような様々なコンセンサス概念に対するこのプロセスの効果を評価し、最悪の場合、大多数のコンセンサスに対する筋電図の付着が既存のコンセンサスに与える影響を示す。 また、課題が議論される順序を決定することにより、意思決定プロセスの議長がコンセンサスの存在(またはアイデンティティ)を制御できるシナリオについても検討する。

We study settings in which agents with incomplete preferences need to make a collective decision. We focus on a process of majority dynamics where issues are addressed one at a time and undecided agents follow the opinion of the majority. We assess the effects of this process on various consensus notions -- such as the Condorcet winner -- and show that in the worst case, myopic adherence to the majority damages existing consensus; yet, simulation experiments indicate that the damage is often mild. We also examine scenarios where the chair of the decision process can control the existence (or the identity) of consensus, by determining the order in which the issues are discussed.
翻訳日:2022-05-03 16:06:40 公開日:2022-04-28
# 大規模ehrデータセットを用いたicuにおける抗精神病薬のデリリウムに対する効果に関する因果的発見

Causal Discovery on the Effect of Antipsychotic Drugs on Delirium Patients in the ICU using Large EHR Dataset ( http://arxiv.org/abs/2205.01057v1 )

ライセンス: Link先を確認
Riddhiman Adib, Md Osman Gani, Sheikh Iqbal Ahamed, Mohammad Adibuzzaman(参考訳) デリリウムはICU(Intensive Care Unit)で約80%の症例で発生し、長期入院、死亡率の増加、その他の関連する問題と関連している。 デリリウムはバイオマーカーに基づく診断を受けておらず、一般的に抗精神病薬(APD)で治療されている。 しかしながら、複数の研究は、デリリウムの治療におけるAPDの有効性や安全性について議論している。 ランダム化制御試験 (RCT) は費用対効果が高く, 時間対効果が高いため, 振り返りコホート分析を用いて, デリリウム治療におけるAPDの有効性について検討する。 icu患者に対する大規模観測データの利用を活用し,因果構造モデルの検討に因果推論フレームワークを利用する計画である。 APDに関連付けられた各種共変体を結合した大規模観測データセットを用いて, ICUにおけるデリリウムの因果モデルの構築を目的とする。 病院入所者53,423名を対象に,ehr(ehr)データセットであるimmit iiiデータベースを用いた。 以上より, ICUの薬物群別では, デリリウム患者に有意な差は認められなかった。 調査,機械学習,因果解析により,Haloperidol 薬物群では平均潜伏期間と最大潜伏期間が有意に高く,ハロペリドール群は他の2群と比較して1年で死亡率が高くなった。 生成した因果モデルでは,異なる共変量間の機能的関係が明確に示される。 今後,データセット上で時間変動解析を行う予定である。

Delirium occurs in about 80% cases in the Intensive Care Unit (ICU) and is associated with a longer hospital stay, increased mortality and other related issues. Delirium does not have any biomarker-based diagnosis and is commonly treated with antipsychotic drugs (APD). However, multiple studies have shown controversy over the efficacy or safety of APD in treating delirium. Since randomized controlled trials (RCT) are costly and time-expensive, we aim to approach the research question of the efficacy of APD in the treatment of delirium using retrospective cohort analysis. We plan to use the Causal inference framework to look for the underlying causal structure model, leveraging the availability of large observational data on ICU patients. To explore safety outcomes associated with APD, we aim to build a causal model for delirium in the ICU using large observational data sets connecting various covariates correlated with delirium. We utilized the MIMIC III database, an extensive electronic health records (EHR) dataset with 53,423 distinct hospital admissions. Our null hypothesis is: there is no significant difference in outcomes for delirium patients under different drug-group in the ICU. Through our exploratory, machine learning based and causal analysis, we had findings such as: mean length-of-stay and max length-of-stay is higher for patients in Haloperidol drug group, and haloperidol group has a higher rate of death in a year compared to other two-groups. Our generated causal model explicitly shows the functional relationships between different covariates. For future work, we plan to do time-varying analysis on the dataset.
翻訳日:2022-05-03 14:00:35 公開日:2022-04-28
# bitcoin価格予測のためのクロス暗号通貨関係マイニング

Cross Cryptocurrency Relationship Mining for Bitcoin Price Prediction ( http://arxiv.org/abs/2205.00974v1 )

ライセンス: Link先を確認
Panpan Li, Shengbo Gong, Shaocong Xu, Jiajun Zhou, Yu Shanqing, Qi Xuan(参考訳) ブロックチェーンファイナンス(ブロックチェーンファイナンス)は世界金融システムの一部となり、bitcoinの価格に注意を向けることが多い。 しかし、ビットコインの価格変動を捉えるための技術的指標の使用には依然として多くの作業が限られており、歴史的関係や関連する暗号通貨間の相互作用はほとんど考慮されていない。 本稿では,ビットコインと関連するAltcoin間の同期的および非同期的影響を効果的に捉えることができるC2RMという汎用的なクロスクリプト通貨関係マイニングモジュールを提案する。 具体的には、動的時間ワープアルゴリズムを用いてリードラグ関係を抽出し、Altcoinsの情報を集約してリレーショナル影響因子を形成するためのリードラグ可変カーネルを生成する。 包括的実験の結果,c2rmは,既存の価格予測手法が大幅な性能向上を実現するのに役立つことが示され,bitcoin価格予測のメリットに対する暗号間相互作用の有効性が示唆された。

Blockchain finance has become a part of the world financial system, most typically manifested in the attention to the price of Bitcoin. However, a great deal of work is still limited to using technical indicators to capture Bitcoin price fluctuation, with little consideration of historical relationships and interactions between related cryptocurrencies. In this work, we propose a generic Cross-Cryptocurrency Relationship Mining module, named C2RM, which can effectively capture the synchronous and asynchronous impact factors between Bitcoin and related Altcoins. Specifically, we utilize the Dynamic Time Warping algorithm to extract the lead-lag relationship, yielding Lead-lag Variance Kernel, which will be used for aggregating the information of Altcoins to form relational impact factors. Comprehensive experimental results demonstrate that our C2RM can help existing price prediction methods achieve significant performance improvement, suggesting the effectiveness of Cross-Cryptocurrency interactions on benefitting Bitcoin price prediction.
翻訳日:2022-05-03 13:53:10 公開日:2022-04-28
# (参考訳) ゲノミクスデータに基づく下流課題に対するマルチタスク学習と深層計算の結合

Coupling Deep Imputation with Multitask Learning for Downstream Tasks on Genomics Data ( http://arxiv.org/abs/2204.13705v1 )

ライセンス: CC BY 4.0
Sophie Peacock, Etai Jacob, Nikolay Burlutskiy(参考訳) RNA遺伝子発現、メチル化、マイクロRNA発現などのゲノムデータは、様々な臨床予測タスクのための貴重な情報源である。 例えば、生存率、癌組織型、その他の患者の関連情報を、臨床データだけでなく分子データを用いて予測することができる。 さらに、例えばマルチタスク学習でこれらのデータソースを併用することで、パフォーマンスが向上する。 しかし、実際には、全症例を解析する際に、患者数を大幅に低下させるデータポイントが欠落しており、この設定では、すべてのモダリティが存在していることを言及している。 本稿では, 深層学習とマルチタスク学習の併用により, RNA, マイクロRNA, メチル化の併用による最先端のパフォーマンス向上に寄与することを示す。 本稿では,患者が1つを除いてすべてのモダリティを持つような値を暗示する,一般化された深層計算法を提案する。 興味深いことに、深い計算だけでは、ほとんどのモダリティの組み合わせの分類と回帰タスクにおいて、マルチタスク学習よりも優れています。 対照的に、全てのモダリティを生存予測に用いた場合、マルチタスク学習だけでは統計的意義(調整されたp値0.03)だけで深い計算結果を上回ることが観察される。 したがって、ダウンストリーム予測タスクのパフォーマンスを最適化する場合、両方のアプローチは相補的である。

Genomics data such as RNA gene expression, methylation and micro RNA expression are valuable sources of information for various clinical predictive tasks. For example, predicting survival outcomes, cancer histology type and other patients' related information is possible using not only clinical data but molecular data as well. Moreover, using these data sources together, for example in multitask learning, can boost the performance. However, in practice, there are many missing data points which leads to significantly lower patient numbers when analysing full cases, which in our setting refers to all modalities being present. In this paper we investigate how imputing data with missing values using deep learning coupled with multitask learning can help to reach state-of-the-art performance results using combined genomics modalities, RNA, micro RNA and methylation. We propose a generalised deep imputation method to impute values where a patient has all modalities present except one. Interestingly enough, deep imputation alone outperforms multitask learning alone for the classification and regression tasks across most combinations of modalities. In contrast, when using all modalities for survival prediction we observe that multitask learning alone outperforms deep imputation alone with statistical significance (adjusted p-value 0.03). Thus, both approaches are complementary when optimising performance for downstream predictive tasks.
翻訳日:2022-05-03 10:17:42 公開日:2022-04-28
# (参考訳) 誰が残るの? 市民科学者のエンゲージメントを予測するためにDeep Learningを使う

Who will stay? Using Deep Learning to predict engagement of citizen scientists ( http://arxiv.org/abs/2204.14046v1 )

ライセンス: CC BY-SA 4.0
Alexander Semenov, Yixin Zhang, Marisa Ponti(参考訳) 市民科学と機械学習は、気候変動による脅威の規模と知識ギャップを埋める限られた資源のため、沿岸環境と海洋環境の監視のために考慮すべきである。 スウェーデンの海洋プロジェクトにおいて市民科学者のアノテーション活動から得られたデータを用いて,今後の関与を予測するためにディープニューラルネットワークモデルを構築した。 アノテーションエンゲージメントのパターンを特定するために、モデルをテストしました。 結果に基づいて、今後のセッションでアノテーションタがアクティブになるかどうかを予測することができる。 個々の市民科学プロジェクトの目標によっては、出発するボランティアか、注釈を継続するボランティアのどちらかを特定する必要がある。 これは予測のしきい値を変化させることで予測できる。 モデルを構築するのに使用されるエンゲージメントメトリクスは、時間とアクティビティに基づいており、ボランティアの潜伏特性を推測し、アクティビティパターンに基づいてタスクの関心を予測できる。 ボランティアは、一定時間内に特定のタスク数を達成できるかどうかを見積もることができ、誰がトップコントリビュータになる可能性が高いか早期に特定したり、誰が辞めるかを特定して、ターゲットとした介入を提供することができる。 予測モデルの新規性は、Deep Neural Networksの使用とボランティアアノテーションのシーケンスにあります。 私たちのモデルの制限は、多くのレコメンダシステムのように、ユーザプロファイルから構築した埋め込みを入力データとして使用しないことです。 ユーザプロファイルを含めれば、予測パフォーマンスが向上すると思います。

Citizen science and machine learning should be considered for monitoring the coastal and ocean environment due to the scale of threats posed by climate change and the limited resources to fill knowledge gaps. Using data from the annotation activity of citizen scientists in a Swedish marine project, we constructed Deep Neural Network models to predict forthcoming engagement. We tested the models to identify patterns in annotation engagement. Based on the results, it is possible to predict whether an annotator will remain active in future sessions. Depending on the goals of individual citizen science projects, it may also be necessary to identify either those volunteers who will leave or those who will continue annotating. This can be predicted by varying the threshold for the prediction. The engagement metrics used to construct the models are based on time and activity and can be used to infer latent characteristics of volunteers and predict their task interest based on their activity patterns. They can estimate if volunteers can accomplish a given number of tasks in a certain amount of time, identify early on who is likely to become a top contributor or identify who is likely to quit and provide them with targeted interventions. The novelty of our predictive models lies in the use of Deep Neural Networks and the sequence of volunteer annotations. A limitation of our models is that they do not use embeddings constructed from user profiles as input data, as many recommender systems do. We expect that including user profiles would improve prediction performance.
翻訳日:2022-05-03 10:01:52 公開日:2022-04-28
# (参考訳) 機械学習モデルのハイパーパラメータ最適化に基づく品質多様性最適化問題の集合

A Collection of Quality Diversity Optimization Problems Derived from Hyperparameter Optimization of Machine Learning Models ( http://arxiv.org/abs/2204.14061v1 )

ライセンス: CC BY 4.0
Lennart Schneider, Florian Pfisterer, Janek Thomas, Bernd Bischl(参考訳) Quality Diversity Optimization の目標は、与えられた問題に対する多様な高性能なソリューションのコレクションを作成することである。 典型的なベンチマーク問題は、例えばロボットアームの構成のレパートリーやゲームプレイ戦略のコレクションを見つけることである。 本稿では,機械学習モデルのハイパーパラメータ最適化に取り組む品質多様性最適化問題の集合を提案する。 我々のベンチマーク問題は、解釈可能性やモデルの資源利用など、新しい特徴関数を含む。 高速かつ効率的なベンチマークを可能にするため、我々は最近提案されたハイパーパラメータ最適化のためのオープンソースのベンチマークスイートであるYAHPO Gymをベースとして、高性能なサロゲートモデルを使用し、真の高価なブラックボックス関数を評価するのではなく、これらのサロゲートモデル予測を返す。 本稿では,ベンチマーク問題に対する品質多様性オプティマイザの比較実験を行った。 さらに,超パラメータ最適化における品質多様性最適化の今後の方向性と課題についても論じる。

The goal of Quality Diversity Optimization is to generate a collection of diverse yet high-performing solutions to a given problem at hand. Typical benchmark problems are, for example, finding a repertoire of robot arm configurations or a collection of game playing strategies. In this paper, we propose a set of Quality Diversity Optimization problems that tackle hyperparameter optimization of machine learning models - a so far underexplored application of Quality Diversity Optimization. Our benchmark problems involve novel feature functions, such as interpretability or resource usage of models. To allow for fast and efficient benchmarking, we build upon YAHPO Gym, a recently proposed open source benchmarking suite for hyperparameter optimization that makes use of high performing surrogate models and returns these surrogate model predictions instead of evaluating the true expensive black box function. We present results of an initial experimental study comparing different Quality Diversity optimizers on our benchmark problems. Furthermore, we discuss future directions and challenges of Quality Diversity Optimization in the context of hyperparameter optimization.
翻訳日:2022-05-03 09:49:53 公開日:2022-04-28
# (参考訳) 不確かさを考慮したタグ支援マルチモーダル感情分析

Tag-assisted Multimodal Sentiment Analysis under Uncertain Missing Modalities ( http://arxiv.org/abs/2204.13707v1 )

ライセンス: CC BY 4.0
Jiandian Zeng, Tianyi Liu, Jiantao Zhou(参考訳) マルチモーダル感情分析は、すべてのモダリティが利用できるという仮定の下で研究されている。 しかし、そのような強い仮定は実際には必ずしも成り立たないため、ほとんどのマルチモーダル融合モデルは部分モジュラリティが欠落しているときに失敗する。 いくつかの研究はモダリティの欠如に対処してきたが、そのほとんどは単一のモダリティの欠如を考慮し、複数のモダリティの欠如を無視した。 そこで本稿では,不確かさを解消するタッグアシストトランスコーダ(tate)ネットワークを提案する。 具体的には、単一のモダリティと複数のモダリティの欠如ケースの両方をカバーするタグエンコーディングモジュールを設計し、ネットワークの注意を欠いたモダリティに導く。 さらに、共通ベクトルを整列させるために新しい空間射影パターンを採用する。 そして、トランスフォーマーエンコーダデコーダネットワークを用いて、欠落したモダリティ特徴を学習する。 最終的に、最終的な感情分類にはTransformerエンコーダの出力が使用される。 CMU-MOSI と IEMOCAP のデータセットを用いて大規模な実験を行い、本手法はいくつかのベースラインと比較して大幅に改善できることを示した。

Multimodal sentiment analysis has been studied under the assumption that all modalities are available. However, such a strong assumption does not always hold in practice, and most of multimodal fusion models may fail when partial modalities are missing. Several works have addressed the missing modality problem; but most of them only considered the single modality missing case, and ignored the practically more general cases of multiple modalities missing. To this end, in this paper, we propose a Tag-Assisted Transformer Encoder (TATE) network to handle the problem of missing uncertain modalities. Specifically, we design a tag encoding module to cover both the single modality and multiple modalities missing cases, so as to guide the network's attention to those missing modalities. Besides, we adopt a new space projection pattern to align common vectors. Then, a Transformer encoder-decoder network is utilized to learn the missing modality features. At last, the outputs of the Transformer encoder are used for the final sentiment classification. Extensive experiments are conducted on CMU-MOSI and IEMOCAP datasets, showing that our method can achieve significant improvements compared with several baselines.
翻訳日:2022-05-03 09:38:28 公開日:2022-04-28
# (参考訳) 宇宙グラフを用いた宇宙論の学習とクラスタリング

Learning cosmology and clustering with cosmic graphs ( http://arxiv.org/abs/2204.13713v1 )

ライセンス: CC BY 4.0
Pablo Villanueva-Domingo, Francisco Villaescusa-Navarro(参考訳) 我々は、CAMELSプロジェクトの最先端の流体力学シミュレーションから数千の銀河カタログのディープラーニングモデルを訓練し、回帰と推論を行う。 我々は、宇宙の銀河の分布のような不規則でスパースなデータを扱うように設計されたアーキテクチャであるグラフニューラルネットワーク(GNN)を採用している。 まず、GNNが数パーセントの精度で銀河カタログのパワースペクトルを計算することができることを示す。 次に、GNNをトレーニングし、銀河場レベルで可能性のない推論を行う。 我々のモデルは、$(25~h^{-1}{\rm mpc})^3$の体積で$(25~h^{-1}{\rm mpc})の位置から、$\sim12\%-13\%$の精度で$\omega_{\rm m}$の値を推測することができる。 恒星の質量、恒星の金属性、恒星半径などの銀河の性質からの情報を組み込むと、精度は4\%-8\%$になる。 我々のモデルは、翻訳的および回転的不変量として構築され、2つの銀河の間の最小距離よりも大きいスケールから情報を抽出することができる。 しかし、我々のモデルは、完全に堅牢ではない。トレーニングに使用されるものほど正確な結果が得られない、異なるサブグリッド物理学で実行されるシミュレーションをテストする。

We train deep learning models on thousands of galaxy catalogues from the state-of-the-art hydrodynamic simulations of the CAMELS project to perform regression and inference. We employ Graph Neural Networks (GNNs), architectures designed to work with irregular and sparse data, like the distribution of galaxies in the Universe. We first show that GNNs can learn to compute the power spectrum of galaxy catalogues with a few percent accuracy. We then train GNNs to perform likelihood-free inference at the galaxy-field level. Our models are able to infer the value of $\Omega_{\rm m}$ with a $\sim12\%-13\%$ accuracy just from the positions of $\sim1000$ galaxies in a volume of $(25~h^{-1}{\rm Mpc})^3$ at $z=0$ while accounting for astrophysical uncertainties as modelled in CAMELS. Incorporating information from galaxy properties, such as stellar mass, stellar metallicity, and stellar radius, increases the accuracy to $4\%-8\%$. Our models are built to be translational and rotational invariant, and they can extract information from any scale larger than the minimum distance between two galaxies. However, our models are not completely robust: testing on simulations run with a different subgrid physics than the ones used for training does not yield as accurate results.
翻訳日:2022-05-03 09:22:42 公開日:2022-04-28
# (参考訳) 地球物理学の逆転の興味深い性質

An Intriguing Property of Geophysics Inversion ( http://arxiv.org/abs/2204.13731v1 )

ライセンス: CC BY 4.0
Yinan Feng, Yinpeng Chen, Shihang Feng, Peng Jin, Zicheng Liu, Youzuo Lin(参考訳) インバージョン技術は、地表の物理特性(速度、導電率など)を地表での測定(地震、電磁気(EM)データなど)から再構築するために広く用いられている。 問題は波動やマクスウェル方程式のような偏微分方程式~(PDE)によって支配される。 物理反転問題の解法は、不備と計算コストが高いために困難である。 これらの問題を緩和するために、最近の研究は深層ニューラルネットワークを利用して、地球物理学的な測定から地球物理学的性質への反転マッピングを直接学習している。 本稿では,そのようなマッピングを5層しか持たない \textit{very shallow}~(ただし幅は広くない)ネットワークでうまくモデル化できることを示す。 これは、高次元空間における積分変換を適用した後に、入力と出力の間の近距離線形関係を持つ、興味をそそる性質の新たな発見に基づいて達成される。 特に, 地震データから波動方程式による地下速度への逆変換を扱う場合, ガウス核による速度の積分結果は, 正弦核による地震データの積分と線形に相関する。 さらに、この特性はインバージョンのための軽量エンコーダデコーダネットワークに容易に変換できる。 エンコーダは、微調整を必要とせず、地震データと線形変換の統合を含む。 デコーダは、速度の積分を反転させる単一のトランスブロックのみからなる。 実験により、この興味深い性質は4つの異なるデータセット上の2つの地球物理学の逆問題に当てはまることが示された。 より深いInversionNet~\cite{wu2019inversionnet}と比較して、我々の手法は同等の精度を達成できるが、パラメータは著しく少ない。

Inversion techniques are widely used to reconstruct subsurface physical properties (e.g., velocity, conductivity, and others) from surface-based geophysical measurements (e.g., seismic, electric/magnetic (EM) data). The problems are governed by partial differential equations~(PDEs) like the wave or Maxwell's equations. Solving geophysical inversion problems is challenging due to the ill-posedness and high computational cost. To alleviate those issues, recent studies leverage deep neural networks to learn the inversion mappings from geophysical measurements to the geophysical property directly. In this paper, we show that such a mapping can be well modeled by a \textit{very shallow}~(but not wide) network with only five layers. This is achieved based on our new finding of an intriguing property: \textit{a near-linear relationship between the input and output, after applying integral transform in high dimensional space.} In particular, when dealing with the inversion from seismic data to subsurface velocity governed by a wave equation, the integral results of velocity with Gaussian kernels are linearly correlated to the integral of seismic data with sine kernels. Furthermore, this property can be easily turned into a light-weight encoder-decoder network for inversion. The encoder contains the integration of seismic data and the linear transformation without need for fine-tuning. The decoder only consists of a single transformer block to reverse the integral of velocity. Experiments show that this interesting property holds for two geophysics inversion problems over four different datasets. Compared to much deeper InversionNet~\cite{wu2019inversionnet}, our method achieves comparable accuracy, but consumes significantly fewer parameters.
翻訳日:2022-05-03 08:57:18 公開日:2022-04-28
# (参考訳) HiNER: 巨大なヒンディー語でエンティティ認識データセット

HiNER: A Large Hindi Named Entity Recognition Dataset ( http://arxiv.org/abs/2204.13743v1 )

ライセンス: CC BY 4.0
Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya(参考訳) 名前付きエンティティ認識(NER)は、Person、Location、Organisation、Time、Numberといったクラスラベルをフリーテキストで単語に提供するための基礎的なNLPタスクである。 名前付きエンティティは、NERアノテーションプロセス中に追加のI-O-Bアノテーション情報をラベル付けするマルチワード式でもある。 英語とヨーロッパの言語は、NERタスクに対してかなりの注釈付きデータを持っているが、インドの言語は、量と標準に従うという面で、その面に欠けている。 本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む,相当規模の標準Hindi NERデータセットをリリースする。 データセットの統計を本質的な細部まで検討し,我々のデータで使用するnerタグセットの詳細な分析を行う。 データセット内のタグセットの統計は、タグごとの健全な分布を示し、特に人、場所、組織といった著名なクラスについて示しています。 リソース有効性の証明は、リソースを用いたモデルの構築と、ベンチマークデータによるモデルテスト、共有タスクにおけるリーダーボードエントリに対するテストであるので、上記のデータでも同様に行う。 我々は異なる言語モデルを用いてnerのシーケンスラベリングタスクを実行し、ヒンディー語nerタスクで利用可能な他のデータセットでトレーニングされたモデルとの比較評価を行い、データの有効性を示す。 我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。 私たちの知る限りでは、hindi nerに関する限り、利用可能なデータセットはボリューム(最大)と可変(多様性)の基準を満たしていない。 私たちはこの作業でこのギャップを埋めることができ、NLPがヒンディー語に大いに役立つことを期待しています。 私たちはこのデータセットをhttps://github.com/cfiltnlp/hinerでコードとモデルでリリースします。

Named Entity Recognition (NER) is a foundational NLP task that aims to provide class labels like Person, Location, Organisation, Time, and Number to words in free text. Named Entities can also be multi-word expressions where the additional I-O-B annotation information helps label them during the NER annotation process. While English and European languages have considerable annotated data for the NER task, Indian languages lack on that front -- both in terms of quantity and following annotation standards. This paper releases a significantly sized standard-abiding Hindi NER dataset containing 109,146 sentences and 2,220,856 tokens, annotated with 11 tags. We discuss the dataset statistics in all their essential detail and provide an in-depth analysis of the NER tag-set used with our data. The statistics of tag-set in our dataset show a healthy per-tag distribution, especially for prominent classes like Person, Location and Organisation. Since the proof of resource-effectiveness is in building models with the resource and testing the model on benchmark data and against the leader-board entries in shared tasks, we do the same with the aforesaid data. We use different language models to perform the sequence labelling task for NER and show the efficacy of our data by performing a comparative evaluation with models trained on another dataset available for the Hindi NER task. Our dataset helps achieve a weighted F1 score of 88.78 with all the tags and 92.22 when we collapse the tag-set, as discussed in the paper. To the best of our knowledge, no available dataset meets the standards of volume (amount) and variability (diversity), as far as Hindi NER is concerned. We fill this gap through this work, which we hope will significantly help NLP for Hindi. We release this dataset with our code and models at https://github.com/cfiltnlp/HiNER
翻訳日:2022-05-03 08:41:04 公開日:2022-04-28
# (参考訳) GCN-FFNN:部分微分方程式学習のための2ストリームディープモデル

GCN-FFNN: A Two-Stream Deep Model for Learning Solution to Partial Differential Equations ( http://arxiv.org/abs/2204.13744v1 )

ライセンス: CC BY-SA 4.0
Onur Bilgin, Thomas Vergutz, Siamak Mehrkanoon(参考訳) 本稿では,非線形偏微分方程式(pdes)の解法を学ぶために,グラフ畳み込みネットワーク(gcn)とフィードフォワードニューラルネットワーク(ffnn)に基づく新しい2ストリーム深層モデルを提案する。 このモデルは,GCNモデルとFFNNモデルに対応する2つのストリームを用いて,グラフとグリッドの入力表現を統合することを目的としている。 各ストリーム層は、独自の入力表現を受信し、処理する。 グリッド状構造を受信するFFNNとは対照的に、GCNストリーム層は、グラフの隣接行列を介して近隣情報が組み込まれたグラフ入力データを操作する。 このようにして、提案したGCN-FFNNモデルは、PDEドメインの離散化によって得られるグリッドとグラフデータという、2種類の入力表現から学習する。 GCN-FFNNモデルは2つのフェーズで訓練される。 第1フェーズでは、各ストリームのモデルパラメータを個別にトレーニングする。 どちらのストリームも、与えられたPDEを満たすモデルと、グリッドやグラフのコロケーション(トレーニング)データの初期および境界条件を強制することによって、パラメータを調整するために、同じエラー関数を使用する。 第2フェーズでは、2ストリーム層の学習パラメータを凍結し、その学習された表現ソリューションを、以前に使用したエラー関数を用いてパラメータを学習した完全連結層に供給する。 学習したGCN-FFNNモデルは、PDEドメイン内外にあるテストデータでテストされる。 その結果, 1D-Burgers, 1D-Schr\odinger, 2D-Burgers, 2D-Schr\odinger方程式上の個々のGCNおよびFFNNモデルに対するGCN-FFNNモデルの適用性および効率性を示した。

This paper introduces a novel two-stream deep model based on graph convolutional network (GCN) architecture and feed-forward neural networks (FFNN) for learning the solution of nonlinear partial differential equations (PDEs). The model aims at incorporating both graph and grid input representations using two streams corresponding to GCN and FFNN models, respectively. Each stream layer receives and processes its own input representation. As opposed to FFNN which receives a grid-like structure, the GCN stream layer operates on graph input data where the neighborhood information is incorporated through the adjacency matrix of the graph. In this way, the proposed GCN-FFNN model learns from two types of input representations, i.e. grid and graph data, obtained via the discretization of the PDE domain. The GCN-FFNN model is trained in two phases. In the first phase, the model parameters of each stream are trained separately. Both streams employ the same error function to adjust their parameters by enforcing the models to satisfy the given PDE as well as its initial and boundary conditions on grid or graph collocation (training) data. In the second phase, the learned parameters of two-stream layers are frozen and their learned representation solutions are fed to fully connected layers whose parameters are learned using the previously used error function. The learned GCN-FFNN model is tested on test data located both inside and outside the PDE domain. The obtained numerical results demonstrate the applicability and efficiency of the proposed GCN-FFNN model over individual GCN and FFNN models on 1D-Burgers, 1D-Schr\"odinger, 2D-Burgers and 2D-Schr\"odinger equations.
翻訳日:2022-05-03 08:24:42 公開日:2022-04-28
# (参考訳) BEINIT:変分量子アルゴリズムにおけるバレンプラトーの回避

BEINIT: Avoiding Barren Plateaus in Variational Quantum Algorithms ( http://arxiv.org/abs/2204.13751v1 )

ライセンス: CC BY 4.0
Ankit Kulshrestha and Ilya Safro(参考訳) バレンプラトーは変分量子アルゴリズムの最適化において悪名高い問題であり、より効率的な量子機械学習アルゴリズムの探求において重要な障害となる。 バレン高原の多くの潜在的な原因が特定されているが、実際にはそれらを避けるための解決策が提案されていない。 既存のソリューションは、入力データによって引き起こされる変化を考慮せずにユニタリゲートパラメータの初期化に重点を置いている。 本稿では,ベータ分布から引き出すことでユニタリゲートのパラメータを初期化する代替戦略を提案する。 データからベータ分布のハイパーパラメータを推定する。 トレーニング中の不毛高原をさらに防止するため,傾斜降下ステップ毎に新たな摂動を追加する。 これらのアイデアを組み合わせることで,提案手法は複雑な量子ニューラルネットワークが不毛高原に定着する可能性を大幅に減少させることを示した。

Barren plateaus are a notorious problem in the optimization of variational quantum algorithms and pose a critical obstacle in the quest for more efficient quantum machine learning algorithms. Many potential reasons for barren plateaus have been identified but few solutions have been proposed to avoid them in practice. Existing solutions are mainly focused on the initialization of unitary gate parameters without taking into account the changes induced by input data. In this paper, we propose an alternative strategy which initializes the parameters of a unitary gate by drawing from a beta distribution. The hyperparameters of the beta distribution are estimated from the data. To further prevent barren plateau during training we add a novel perturbation at every gradient descent step. Taking these ideas together, we empirically show that our proposed framework significantly reduces the possibility of a complex quantum neural network getting stuck in a barren plateau.
翻訳日:2022-05-03 08:11:03 公開日:2022-04-28
# (参考訳) Triformer: 長周期多変量時系列予測のための三角形・可変特有注意--フルバージョン

Triformer: Triangular, Variable-Specific Attentions for Long Sequence Multivariate Time Series Forecasting--Full Version ( http://arxiv.org/abs/2204.13767v1 )

ライセンス: CC BY 4.0
Razvan-Gabriel Cirstea, Chenjuan Guo, Bin Yang, Tung Kieu, Xuanyi Dong, Shirui Pan(参考訳) 様々な現実世界のアプリケーションは、決定を行うために将来的な情報に頼るため、効率的で正確なロングシーケンスの時系列予測を要求する。 最近の注意に基づく予測モデルでは、長期的な依存関係を捉える能力が強いが、それでも2つの重要な制限に苦しんでいる。 第一に、正準自己注意は入力時系列の長さの2次複雑さを持つため、効率が低下する。 第二に、異なる変数の時系列は、しばしば異なる時間ダイナミクスを持ち、既存の研究では捉えられず、同じモデルパラメータ空間(例えば射影行列)を全ての変数の時系列に対して使用するため、精度が低くなる。 高い効率性と精度を確保するため,三角形の可変特化注意点であるTriformerを提案する。 (i)線形複雑性:線形複雑性を伴う新しいパッチアテンションを導入する。 パッチアテンションの複数の層を積み重ねる際には, 層径が指数関数的に小さくなり, 線形複雑性が維持されるような三角形構造が提案される。 変数固有のパラメータ: 異なる変数の時系列に対して異なるモデルパラメータの集合を有効化し、効率とメモリ使用率を損なうことなく精度を向上させる軽量な手法を提案する。 複数のドメインからの4つのデータセットに関する強い実証的証拠は、設計選択を正当化し、Triformerが精度と効率の両方において最先端の手法より優れていることを示す。 これは"Triformer: Triangular, Variable-Specific Attentions for Long Sequence Multivariate Time Series Forecasting"の拡張版で、さらなる実験結果を含むIJCAI 2022(Cirstea et al., 2022a)に表示される。

A variety of real-world applications rely on far future information to make decisions, thus calling for efficient and accurate long sequence multivariate time series forecasting. While recent attention-based forecasting models show strong abilities in capturing long-term dependencies, they still suffer from two key limitations. First, canonical self attention has a quadratic complexity w.r.t. the input time series length, thus falling short in efficiency. Second, different variables' time series often have distinct temporal dynamics, which existing studies fail to capture, as they use the same model parameter space, e.g., projection matrices, for all variables' time series, thus falling short in accuracy. To ensure high efficiency and accuracy, we propose Triformer, a triangular, variable-specific attention. (i) Linear complexity: we introduce a novel patch attention with linear complexity. When stacking multiple layers of the patch attentions, a triangular structure is proposed such that the layer sizes shrink exponentially, thus maintaining linear complexity. (ii) Variable-specific parameters: we propose a light-weight method to enable distinct sets of model parameters for different variables' time series to enhance accuracy without compromising efficiency and memory usage. Strong empirical evidence on four datasets from multiple domains justifies our design choices, and it demonstrates that Triformer outperforms state-of-the-art methods w.r.t. both accuracy and efficiency. This is an extended version of "Triformer: Triangular, Variable-Specific Attentions for Long Sequence Multivariate Time Series Forecasting", to appear in IJCAI 2022 [Cirstea et al., 2022a], including additional experimental results.
翻訳日:2022-05-03 07:58:30 公開日:2022-04-28
# (参考訳) 言語モデルによる帰属関係の推論

Inferring Implicit Relations with Language Models ( http://arxiv.org/abs/2204.13778v1 )

ライセンス: CC BY 4.0
Uri Katz, Mor Geva, Jonathan Berant(参考訳) 現代の言語理解システムにおいて顕著な課題は、暗黙の推論問題に答える能力である。 本研究では,現在のモデルが暗黙の推論質問応答(qa)タスクに苦しむ理由を,その実行から推論ステップの推論を分離することで検証する。 暗黙的関係推論の新しいタスクを定義し, IMPLICITRELATIONSというベンチマークを構築し, ある質問に対して, モデルが解答に必要な暗黙的推論ステップを記述した概念-関係ペアのリストを出力する。 IMPLICITrelationSを用いて、GPT-3ファミリーのモデルを評価し、これらのモデルが暗黙的推論QAタスクに苦労する一方で、暗黙的関係を推測することに成功した。 このことは、暗黙の推論問題に答えるボトルネックは、正確な推論戦略を計画するよりも、言語モデルによる情報検索と推論能力にあることを示唆している。

A prominent challenge for modern language understanding systems is the ability to answer implicit reasoning questions, where the required reasoning steps for answering the question are not mentioned in the text explicitly. In this work, we investigate why current models struggle with implicit reasoning question answering (QA) tasks, by decoupling inference of reasoning steps from their execution. We define a new task of implicit relation inference and construct a benchmark, IMPLICITRELATIONS, where given a question, a model should output a list of concept-relation pairs, where the relations describe the implicit reasoning steps required for answering the question. Using IMPLICITRELATIONS, we evaluate models from the GPT-3 family and find that, while these models struggle on the implicit reasoning QA task, they often succeed at inferring implicit relations. This suggests that the bottleneck for answering implicit reasoning questions is in the ability of language models to retrieve and reason over information rather than to plan an accurate reasoning strategy
翻訳日:2022-05-03 07:30:40 公開日:2022-04-28
# (参考訳) AGIC:フェデレートラーニングにおける近似勾配インバージョンアタック

AGIC: Approximate Gradient Inversion Attack on Federated Learning ( http://arxiv.org/abs/2204.13784v1 )

ライセンス: CC BY 4.0
Jin Xu, Chi Hong, Jiyue Huang, Lydia Y. Chen, J\'er\'emie Decouchant(参考訳) フェデレーション学習(federated learning)は、中央サーバがローカルアップデートを集約してグローバルモデルを計算する前に、クライアントが自身のデータでローカルモデルをトレーニングする、プライベート・バイ・デザインの分散学習パラダイムである。 使用する集計方法によっては、ローカル更新は、局所学習モデルの勾配または重み付けのいずれかである。 最近のレコンストラクション攻撃は、1つのミニバッチの勾配更新に勾配反転最適化を適用し、訓練中にクライアントが使用するプライベートデータを再構築する。 最先端の再構築攻撃は単一の更新のみに焦点を当てているため、複数の更新の監視や、複数のミニバッチからトレーニングされた更新など、現実的な敵シナリオは見過ごされている。 いくつかの研究は、複数のミニバッチに基づくモデル更新のみが観測可能で、各ローカルステップの基盤となるサンプルを絡める計算コストの高いシミュレーションに頼る、より困難な敵対的シナリオを考察している。 本稿では,モデルまたはグラデーション更新,および複数のエポックにわたって画像の効率的かつ効果的に再構成する,新しい近似勾配反転攻撃であるagicを提案する。 AGIC (複数形 AGICs) (i)コストのかかるシミュレーション手順を避けるため、モデル更新から使用したトレーニングサンプルの勾配更新を近似する。 (ii)複数のエポックから収集した勾配/モデル更新を活用し、 (iii) 階層の重み付けをニューラルネットワークの構造の再構成品質に割り当てる。 CIFAR-10, CIFAR-100, ImageNetの3つのデータセット上でAGICを広範囲に評価した。 以上の結果から,AGICは2つの最先端勾配反転攻撃と比較してピーク信号対雑音比(PSNR)を最大50%増加させることがわかった。 さらに、AGICは最先端のシミュレーションベースの攻撃よりも高速で、例えば、モデル更新間の8つのローカルステップでFedAvgを攻撃する場合の5倍高速である。

Federated learning is a private-by-design distributed learning paradigm where clients train local models on their own data before a central server aggregates their local updates to compute a global model. Depending on the aggregation method used, the local updates are either the gradients or the weights of local learning models. Recent reconstruction attacks apply a gradient inversion optimization on the gradient update of a single minibatch to reconstruct the private data used by clients during training. As the state-of-the-art reconstruction attacks solely focus on single update, realistic adversarial scenarios are overlooked, such as observation across multiple updates and updates trained from multiple mini-batches. A few studies consider a more challenging adversarial scenario where only model updates based on multiple mini-batches are observable, and resort to computationally expensive simulation to untangle the underlying samples for each local step. In this paper, we propose AGIC, a novel Approximate Gradient Inversion Attack that efficiently and effectively reconstructs images from both model or gradient updates, and across multiple epochs. In a nutshell, AGIC (i) approximates gradient updates of used training samples from model updates to avoid costly simulation procedures, (ii) leverages gradient/model updates collected from multiple epochs, and (iii) assigns increasing weights to layers with respect to the neural network structure for reconstruction quality. We extensively evaluate AGIC on three datasets, CIFAR-10, CIFAR-100 and ImageNet. Our results show that AGIC increases the peak signal-to-noise ratio (PSNR) by up to 50% compared to two representative state-of-the-art gradient inversion attacks. Furthermore, AGIC is faster than the state-of-the-art simulation based attack, e.g., it is 5x faster when attacking FedAvg with 8 local steps in between model updates.
翻訳日:2022-05-03 07:08:50 公開日:2022-04-28
# (参考訳) 鉛製造における確率モデル

Probabilistic Models for Manufacturing Lead Times ( http://arxiv.org/abs/2204.13792v1 )

ライセンス: CC BY 4.0
Recep Yusuf Bekci, Yacine Mahdid, Jinling Xing, Nikita Letov, Ying Zhang, Zahid Pasha(参考訳) 本研究では, ガウス過程, 確率的ニューラルネットワーク, 自然勾配ブースティング, 量子性回帰拡張勾配ブースティングを用いて, レーザ製造プロセスのリードタイムをモデル化する。 確率的モデリングをドメインに導入し、異なる能力の観点でモデルを比較する。 実生活データにおけるモデルの比較を提供する一方で、我々の作業には多くのユースケースと実質的なビジネス価値があります。 その結果,全てのモデルが,ドメインエクスペリエンスを使用し,経験周波数と良好な校正を行う企業評価ベンチマークに勝っていることがわかった。

In this study, we utilize Gaussian processes, probabilistic neural network, natural gradient boosting, and quantile regression augmented gradient boosting to model lead times of laser manufacturing processes. We introduce probabilistic modelling in the domain and compare the models in terms of different abilities. While providing a comparison between the models in real-life data, our work has many use cases and substantial business value. Our results indicate that all of the models beat the company estimation benchmark that uses domain experience and have good calibration with the empirical frequencies.
翻訳日:2022-05-03 06:45:35 公開日:2022-04-28
# (参考訳) マルチタスクQAによる言語モデルにおける型知識の注入

Instilling Type Knowledge in Language Models via Multi-Task QA ( http://arxiv.org/abs/2204.13796v1 )

ライセンス: CC BY 4.0
Shuyang Li, Mukund Sridhar, Chandana Satya Prakash, Jin Cao, Wael Hamza, Julian McAuley(参考訳) 人間の言語を理解するには、しばしば知識の分類学における実体とその位置を理解する必要がある。 エンティティタイプを学ぶ以前の方法は、粗末でノイズの多い、不完全なラベルを持つデータセットの分類器のトレーニングに依存している。 本稿では,知識ベース文書と知識グラフを活用した,テキストからテキストへの事前学習による言語モデルにおけるきめ細かい型知識の注入手法を提案する。 Wikidataナレッジグラフにリンクされた100万のWikipedia記事のエンティティとエントリを41Kタイプで作成する。 WikiWikiでトレーニングされたモデルは、ゼロショットダイアログ状態追跡ベンチマークで最先端のパフォーマンスを実現し、ウィキペディアの記事のエンティティタイプを正確に推測し、人間の裁判官が有用なと考えられる新しいタイプを発見できる。

Understanding human language often necessitates understanding entities and their place in a taxonomy of knowledge -- their types. Previous methods to learn entity types rely on training classifiers on datasets with coarse, noisy, and incomplete labels. We introduce a method to instill fine-grained type knowledge in language models with text-to-text pre-training on type-centric questions leveraging knowledge base documents and knowledge graphs. We create the WikiWiki dataset: entities and passages from 10M Wikipedia articles linked to the Wikidata knowledge graph with 41K types. Models trained on WikiWiki achieve state-of-the-art performance in zero-shot dialog state tracking benchmarks, accurately infer entity types in Wikipedia articles, and can discover new types deemed useful by human judges.
翻訳日:2022-05-03 06:39:09 公開日:2022-04-28
# (参考訳) bilp-q: 量子結合構造の生成

BILP-Q: Quantum Coalition Structure Generation ( http://arxiv.org/abs/2204.13802v1 )

ライセンス: CC BY 4.0
Supreeth Mysore Venkatesh, Antonio Macaluso, Matthias Klusch(参考訳) 量子AIは、量子コンピューティングを使用してAIの典型的な複雑な問題を解決する新興分野である。 本稿では, NP-hard である Coalition Structure Generation problem (CSGP) を解くための最初の一般量子アプローチである BILP-Q を提案する。 特に,従来の量子アルゴリズム(例えばQAOA)を活用して最高の連立構造を得るために,CSGPを準線形組合せ最適化(QUBO)問題の観点から再構成する。 したがって,提案する量子アプローチと最も一般的な古典的ベースラインとの時間的複雑性の観点から比較分析を行う。 さらに,ibm qiskit環境を用いた小規模実験においてbilp-qをテストするために,連合値の標準ベンチマーク分布を検討する。 最後に、QUBO問題を量子アニールで解くことができるので、実量子アニール器(D-Wave)を用いて中規模の問題に対してBILP-Qを実行する。

Quantum AI is an emerging field that uses quantum computing to solve typical complex problems in AI. In this work, we propose BILP-Q, the first-ever general quantum approach for solving the Coalition Structure Generation problem (CSGP), which is notably NP-hard. In particular, we reformulate the CSGP in terms of a Quadratic Binary Combinatorial Optimization (QUBO) problem to leverage existing quantum algorithms (e.g., QAOA) to obtain the best coalition structure. Thus, we perform a comparative analysis in terms of time complexity between the proposed quantum approach and the most popular classical baselines. Furthermore, we consider standard benchmark distributions for coalition values to test the BILP-Q on small-scale experiments using the IBM Qiskit environment. Finally, since QUBO problems can be solved operating with quantum annealing, we run BILP-Q on medium-size problems using a real quantum annealer (D-Wave).
翻訳日:2022-05-03 06:24:33 公開日:2022-04-28
# (参考訳) 科学技術におけるジェンダーギャップへの貢献としての書体調査

Investigating writing style as a contributor to gender gaps in science and technology ( http://arxiv.org/abs/2204.13805v1 )

ライセンス: CC BY 4.0
Ekaterina Levitskaya, Kara Kedrick, Russell J. Funk(参考訳) 普遍主義は科学の基本原理であるが、研究の流れは、科学的貢献は著者の性別によって異なる評価を受けており、女性は同等の質の仕事であっても男性に対してより少ない引用を受ける傾向にある。 驚くべきことに、こうした性差は盲目なレビューでも見えることを示しており、評価者は著者の性別を意識していない。 本稿では, 書体における男女差, 男性と女性のコミュニケーションの仕方, が, 観察された男女差に寄与するかどうかを考察する。 我々は,文章の言語的スタイルを特徴付ける枠組みとして,情報的特徴(事実を強調する特徴)と関係を強調する特徴(関係を強調する特徴)の2つのセットを区別する。 学術論文や特許の大規模なサンプルを用いて、性別による書き方に大きな違いを見出す。女性は、フィールド全体にわたって普遍的に保持するパターンである、より関連する特徴を使用する。 効果の大きさは分野によって異なり、社会科学や芸術の人文科学においてより大きな男女差が見られ、物理科学や技術において小さなギャップが生じる。 著者,発明者,特許弁護士の性別を統制した後でも,より情報的な特徴を持つ論文や特許は男性によって引用される傾向にあり,より関係のある特徴を持つものは女性によって引用される傾向にある。 その結果,形式的な文章は人格を欠くものではなく,評価のバイアスに寄与し,普遍主義の規範を損なう可能性が示唆された。

While universalism is a foundational principle of science, a growing stream of research finds that scientific contributions are evaluated differently depending on the gender of the author, with women tending to receive fewer citations relative to men, even for work of comparable quality. Strikingly, research also suggests that these gender gaps are visible even under blinded review, wherein the evaluator is not aware of the gender of the author. In this article, we consider whether gender differences in writing styles -- how men and women communicate their work -- may contribute to these observed gender gaps. We ground our investigation in a previously established framework for characterizing the linguistic style of written text, which distinguishes between two sets of features -- informational (i.e., features that emphasize facts) and involved (i.e., features that emphasize relationships). Using a large, matched sample of academic papers and patents, we find significant differences in writing style by gender; women use more involved features in their writing, a pattern that holds universally across fields. The magnitude of the effect varies across fields, with larger gender differences observed in the social sciences and arts humanities and smaller gaps in the physical sciences and technology. Subsequently, we show that gender differences in writing style may have parallels in reading preferences; papers and patents with more informational features tend to be cited more by men, while those with more involved features tend to be cited more by women, even after controlling for the gender of the author, inventor, and patent attorney. Our findings suggest that formal written text is not devoid of personal character, which could contribute to bias in evaluation, thereby compromising the norm of universalism.
翻訳日:2022-05-03 06:14:49 公開日:2022-04-28
# (参考訳) 高次元パラメータ空間の可視化と最適化技術

Visualization and Optimization Techniques for High Dimensional Parameter Spaces ( http://arxiv.org/abs/2204.13812v1 )

ライセンス: CC BY 4.0
Anjul Tyagi(参考訳) 高次元パラメータ空間最適化は多くの応用において不可欠である。 この性能に影響するパラメータは、その型において数値的かつ分類的である。 既存のブラックボックス最適化とビジュアル解析の手法は数値パラメータを扱うのに優れているが、数値変数の文脈におけるカテゴリー変数の分析はよく研究されていない。 そこで本研究では,直接最適化手法と視覚分析研究を組み合わせた,ストレージシステムの最適化のための自動チューニングフレームワークを提案する。 最適化アルゴリズムがシステムのコアとなる一方で、視覚分析は外部エージェント(専門家)の助けを借りて、最適化エンジンの巨大な検索スペースを狭めるための重要なヒントを提供する。 ストレージシステムの最適化のための自動チューニングエンジンを開発する最初のステップの一環として、複数の最適化目標が与えられたパラメータ設定によって、依存する数値変数がどのように影響を受けるかを学ぶためのアナリストのニーズに直接対処する、インタラクティブな構成エクスプローラ \textit{ice}を作成しました。 ICEは各カテゴリ変数のコンテキストにおける依存変数の完全な分布と統計を示すので、情報を失うことはない。 アナリストは対話的に変数をフィルタして、最大パフォーマンス、低分散などのある目標のために最適化することができる。 本システムは,システムパフォーマンス研究者グループと緊密に連携して開発され,その最終効果をエキスパートインタビュー,比較ユーザ調査,2つのケーススタディで評価した。 また,ブラックボックス最適化とストレージシステム性能最適化のためのビジュアル分析を組み合わせた効率的な自動チューニングフレームワークを構築するための研究計画についても論じる。

High dimensional parameter space optimization is crucial in many applications. The parameters affecting this performance can be both numerical and categorical in their type. The existing techniques of black-box optimization and visual analytics are good in dealing with numerical parameters but analyzing categorical variables in context of the numerical variables are not well studied. Hence, we propose a novel approach, to create an auto-tuning framework for storage systems optimization combining both direct optimization techniques and visual analytics research. While the optimization algorithm will be the core of the system, visual analytics will provide a guideline with the help of an external agent (expert) to provide crucial hints to narrow down the large search space for the optimization engine. As part of the initial step towards creating an auto-tuning engine for storage systems optimization, we created an Interactive Configuration Explorer \textit{ICE}, which directly addresses the need of analysts to learn how the dependent numerical variable is affected by the parameter settings given multiple optimization objectives. No information is lost as ICE shows the complete distribution and statistics of the dependent variable in context with each categorical variable. Analysts can interactively filter the variables to optimize for certain goals such as achieving a system with maximum performance, low variance, etc. Our system was developed in tight collaboration with a group of systems performance researchers and its final effectiveness was evaluated with expert interviews, a comparative user study, and two case studies. We also discuss our research plan for creating an efficient auto-tuning framework combining black-box optimization and visual analytics for storage systems performance optimization.
翻訳日:2022-05-03 04:57:26 公開日:2022-04-28
# マルチモーダル問題におけるNSGA-IIの最初の実行時解析

A First Runtime Analysis of the NSGA-II on a Multimodal Problem ( http://arxiv.org/abs/2204.13750v1 )

ライセンス: Link先を確認
Zhongdi Qu and Benjamin Doerr(参考訳) 最近では、多目的進化最適化器NSGA-IIの最初の数学的ランタイム解析が行われた(AAAI 2022, GECCO 2022 (to appear), arxiv 2022)。 2つのマルチモーダル目的からなるベンチマーク問題に対して,このアルゴリズムの初回実行時解析を行い,この一連の研究を継続する。 N$がパレートフロントの少なくとも4倍の大きさであれば、NSGA-IIは4つの異なる方法で親を選択することができ、ビットワイドの変異はOneJumpZeroJumpベンチマークをジャンプサイズ~2$le k \le n/4$ in time $O(N n^k)$で最適化する。 最近提案されたヘビーテール変異演算子であるfast mutationを使用すると、この保証は$k^{\omega(k)}$によって改善される。 この研究は、NSGA-IIが少なくともグローバルSEMOアルゴリズムと同様にOneJumpZeroJump問題の局所最適化に対処していることを示している。

Very recently, the first mathematical runtime analyses of the multi-objective evolutionary optimizer NSGA-II have been conducted (AAAI 2022, GECCO 2022 (to appear), arxiv 2022). We continue this line of research with a first runtime analysis of this algorithm on a benchmark problem consisting of two multimodal objectives. We prove that if the population size $N$ is at least four times the size of the Pareto front, then the NSGA-II with four different ways to select parents and bit-wise mutation optimizes the OneJumpZeroJump benchmark with jump size~$2 \le k \le n/4$ in time $O(N n^k)$. When using fast mutation, a recently proposed heavy-tailed mutation operator, this guarantee improves by a factor of $k^{\Omega(k)}$. Overall, this work shows that the NSGA-II copes with the local optima of the OneJumpZeroJump problem at least as well as the global SEMO algorithm.
翻訳日:2022-05-02 15:12:11 公開日:2022-04-28
# Probabilistic Permutation Graph Search: ランク付けの公正性のためのブラックボックス最適化

Probabilistic Permutation Graph Search: Black-Box Optimization for Fairness in Ranking ( http://arxiv.org/abs/2204.13765v1 )

ライセンス: Link先を確認
Ali Vardasbi, Fatemeh Sarvi, Maarten de Rijke(参考訳) ランク付けの公平性には、異なる前提と視点に基づくいくつかの尺度がある。 REINFORCEアルゴリズムによるPL最適化は、置換によるブラックボックス目的関数の最適化に利用できる。 特に、公正度を最適化するために使用できる。 しかし、緩やかな繰り返しセッション数を持つクエリには有効であるが、PL最適化は、少数の繰り返しセッション数を持つクエリに対して改善の余地がある。 本稿では、置換グラフの概念に基づいて、置換分布を表現する新しい方法を提案する。 PLと同様に、PPGと呼ばれる分布表現は、公正性のブラックボックス最適化に利用できる。 分布パラメータとしてポイントワイドロジットが使用されるPLと異なり、PPGのペアワイド反転確率は参照置換とともに分布を構成する。 したがって、基準置換は目的関数に関する最良のサンプル置換に設定でき、ppgは決定論的および確率的ランキングの両方に適合する。 実験の結果,ppgはplに匹敵する大規模なセッション繰り返し(すなわち確率的ランキング)に対して,1つのセッション(すなわち決定論的ランキング)でクエリの公平性指標を最適化するplよりも改善されていることがわかった。 さらに、表型モデルのように正確なユーティリティ推定が可能であれば、公平性最適化におけるppgの性能は、学習からランクモデルへの低い品質のユーティリティ推定と比べて大幅に向上し、plによるパフォーマンスギャップが大きくなる。 最後に、ペアワイズ確率は、"item $d_1$ should always than item $d_2$"のようなペアワイズ制約を課すことを可能にする。 このような制約は、公正度メトリックを同時に最適化し、ランキングパフォーマンスなどの他の目的を制御するために使用できる。

There are several measures for fairness in ranking, based on different underlying assumptions and perspectives. PL optimization with the REINFORCE algorithm can be used for optimizing black-box objective functions over permutations. In particular, it can be used for optimizing fairness measures. However, though effective for queries with a moderate number of repeating sessions, PL optimization has room for improvement for queries with a small number of repeating sessions. In this paper, we present a novel way of representing permutation distributions, based on the notion of permutation graphs. Similar to PL, our distribution representation, called PPG, can be used for black-box optimization of fairness. Different from PL, where pointwise logits are used as the distribution parameters, in PPG pairwise inversion probabilities together with a reference permutation construct the distribution. As such, the reference permutation can be set to the best sampled permutation regarding the objective function, making PPG suitable for both deterministic and stochastic rankings. Our experiments show that PPG, while comparable to PL for larger session repetitions (i.e., stochastic ranking), improves over PL for optimizing fairness metrics for queries with one session (i.e., deterministic ranking). Additionally, when accurate utility estimations are available, e.g., in tabular models, the performance of PPG in fairness optimization is significantly boosted compared to lower quality utility estimations from a learning to rank model, leading to a large performance gap with PL. Finally, the pairwise probabilities make it possible to impose pairwise constraints such as "item $d_1$ should always be ranked higher than item $d_2$." Such constraints can be used to simultaneously optimize the fairness metric and control another objective such as ranking performance.
翻訳日:2022-05-02 15:09:40 公開日:2022-04-28
# 無線センサネットワークにおける攻撃検知のためのオンラインアンサンブル学習モデル

An Online Ensemble Learning Model for Detecting Attacks in Wireless Sensor Networks ( http://arxiv.org/abs/2204.13814v1 )

ライセンス: Link先を確認
Hiba Tabbaa, Samir Ifzarne and Imad Hafidi(参考訳) 現代の世界では、技術の使用は避けられず、インターネットや通信分野の急速な進歩により、無線センサネットワーク(WSN)技術が拡張されている。 多数のセンシングデバイスが、様々な分野や応用のために、時間を通じて多数のセンシングデータを収集および/または生成する。 しかし、WSNはセキュリティ侵害に弱いことが証明されており、これらのネットワークの厳しい配置と制約されたリソースと、生成されたデータの量を組み合わせることで、大きなセキュリティ上の懸念が生じている。 WSNアプリケーションは極めて重要であり、攻撃や侵入の検出を可能にするオンラインデータストリーム分析の高速かつ継続的なメカニズムを含む信頼性の高いソリューションを構築することが不可欠である。 そこで本研究では,アンサンブル学習と呼ばれる重要な機械学習概念を応用し,インテリジェントで効率的かつ高効率な侵入検知システムを開発することを目的としている。 アンサンブルモデルはオフライン学習に有用であることが証明されているが、ストリーミングアプリケーションではあまり注目されていない。 本稿では,無線センサネットワーク検出システム(wsn-ds)データセットを用いたセンサデータ解析における,均質で異質なオンラインアンサンブルの応用について検討し,ブラックホール攻撃,グレイホール,フラッディング,および通常のネットワークトラフィック間のスケジューリングの4種類の攻撃を分類する。 提案されたオンラインアンサンブルのうち、アダプティブ・ランダム・フォレスト(ARF)とHoeffding Adaptive Tree(HAT)アルゴリズムを組み合わせた異種アンサンブルと、10モデルからなる同種アンサンブルHATは、それぞれ96.84%と97.2%という高い検出率を達成した。 上記のモデルは、wsnsのリソース制約を考慮しつつ、概念ドリフトに対処する上で効率的かつ効果的である。

In today's modern world, the usage of technology is unavoidable and the rapid advances in the Internet and communication fields have resulted to expand the Wireless Sensor Network (WSN) technology. A huge number of sensing devices collect and/or generate numerous sensory data throughout time for a wide range of fields and applications. However, WSN has been proven to be vulnerable to security breaches, the harsh and unattended deployment of these networks, combined with their constrained resources and the volume of data generated introduce a major security concern. WSN applications are extremely critical, it is essential to build reliable solutions that involve fast and continuous mechanisms for online data stream analysis enabling the detection of attacks and intrusions. In this context, our aim is to develop an intelligent, efficient, and updatable intrusion detection system by applying an important machine learning concept known as ensemble learning in order to improve detection performance. Although ensemble models have been proven to be useful in offline learning, they have received less attention in streaming applications. In this paper, we examine the application of different homogeneous and heterogeneous online ensembles in sensory data analysis, on a specialized wireless sensor network-detection system (WSN-DS) dataset in order to classify four types of attacks: Blackhole attack, Grayhole, Flooding, and Scheduling among normal network traffic. Among the proposed novel online ensembles, both the heterogeneous ensemble consisting of an Adaptive Random Forest (ARF) combined with the Hoeffding Adaptive Tree (HAT) algorithm and the homogeneous ensemble HAT made up of 10 models achieved higher detection rates of 96.84% and 97.2%, respectively. The above models are efficient and effective in dealing with concept drift, while taking into account the resource constraints of WSNs.
翻訳日:2022-05-02 15:05:32 公開日:2022-04-28
# マルチレシーバCNN技術分類器の自動機械学習

Automatic Machine Learning for Multi-Receiver CNN Technology Classifiers ( http://arxiv.org/abs/2204.13819v1 )

ライセンス: Link先を確認
Amir-Hossein Yazdani-Abyaneh and Marwan Krunz(参考訳) 畳み込みニューラルネットワーク(CNN)は、変調、技術、検出、識別を含む信号分類のための最も研究されているディープラーニングモデルの1つである。 本研究では,複数の同期受信機から収集した生のi/qサンプルに基づいて技術分類を行う。 例として,5GHzのUnlicensed National Information Infrastructure(U-NII)帯域に共存するWi-Fi,LTE-LAA,および5G NR-U技術のプロトコル識別について検討した。 正確なCNN分類器の設計と訓練は、モデルのアーキテクチャ設定を微調整し、学習率やバッチサイズなどの適切なハイパーパラメータ設定を決定するために、かなりの時間と労力を要する。 アーキテクチャ設定自体をハイパーパラメータとして定義することで、前者に取り組む。 我々は、ハイパーパラメータ最適化(HyperOpt)問題を形成することで、これらのアーキテクチャパラメータを、他の前処理(例えば、各分類器入力内のI/Qサンプル数)やハイパーパラメータの学習とともに自動的に最適化しようとする。 得られた近最適CNN(OCNN)分類器は、様々なSNR値を考慮して、OTAの分類精度とシミュレーションデータセットを研究するために使用される。 cnnのマルチチャネル入力を構成する受信機の数は、ハイパーバンドによって最適化されるプリプロセッシングハイパーパラメータとして定義すべきである。 OTAの結果,OCNN分類器の分類精度は手作業によるCNNと比較して24.58%向上した。 また、各分類器の入力におけるI/Qサンプルのmin-max正規化が、トレーニングセットのSNR以外のSNRを用いたシミュレーションデータセットの一般化精度に及ぼす影響について検討し、I/Qサンプルの正規化時の平均108.05%の改善を示す。

Convolutional Neural Networks (CNNs) are one of the most studied family of deep learning models for signal classification, including modulation, technology, detection, and identification. In this work, we focus on technology classification based on raw I/Q samples collected from multiple synchronized receivers. As an example use case, we study protocol identification of Wi-Fi, LTE-LAA, and 5G NR-U technologies that coexist over the 5 GHz Unlicensed National Information Infrastructure (U-NII) bands. Designing and training accurate CNN classifiers involve significant time and effort that goes into fine-tuning a model's architectural settings and determining the appropriate hyperparameter configurations, such as learning rate and batch size. We tackle the former by defining architectural settings themselves as hyperparameters. We attempt to automatically optimize these architectural parameters, along with other preprocessing (e.g., number of I/Q samples within each classifier input) and learning hyperparameters, by forming a Hyperparameter Optimization (HyperOpt) problem, which we solve in a near-optimal fashion using the Hyperband algorithm. The resulting near-optimal CNN (OCNN) classifier is then used to study classification accuracy for OTA as well as simulations datasets, considering various SNR values. We show that the number of receivers to construct multi-channel inputs for CNNs should be defined as a preprocessing hyperparameter to be optimized via Hyperband. OTA results reveal that our OCNN classifiers improve classification accuracy by 24.58% compared to manually tuned CNNs. We also study the effect of min-max normalization of I/Q samples within each classifier's input on generalization accuracy over simulated datasets with SNRs other than training set's SNR and show an average of 108.05% improvement when I/Q samples are normalized.
翻訳日:2022-05-02 15:04:59 公開日:2022-04-28
# 歪定位をモデル化するニューラルネットワークを用いた再生カーネル粒子法

A Neural Network-enhanced Reproducing Kernel Particle Method for Modeling Strain Localization ( http://arxiv.org/abs/2204.13821v1 )

ライセンス: Link先を確認
Jonghyuk Baek, Jiun-Shyan Chen, Kristen Susuki(参考訳) 損傷した固体の局所的な集中変形をモデル化するには、高精度な予測のための高精度な離散化が必要である。 適応型モデルの改良は有効性を高めるために利用できるが、進化するローカライゼーションをモデル化しながら従来のメッシュベースの手法を実行するのは困難である。 本研究では, 局所化近傍の溶液転移の位置, 配向, 形状を, ブロックレベルのニューラルネットワーク最適化によりNN近似によって自動的に把握する, ニューラルネットワーク強化再生カーネル粒子法(NN-RKPM)を提案する。 ブロックされたパラメトリゼーションネットワークの重みとバイアスは、局所化の位置と向きを制御する。 設計された基本4カネルnnブロックは、三重結合または四重結合位相パターンをキャプチャできるが、より複雑な局在位相パターは複数の4ケネルnnブロックの重ね合わせによってキャプチャされる。 標準的なRK近似を用いて解の滑らかな部分を近似し、従来の方法での鋭い解転移を捉えるのに必要な高分解能の離散化よりもずっと粗い離散化を可能にする。 離散化非依存的な材料応答に対して、ニューラルネットワーク近似の正規化が導入された。 NN-RKPMの有効性を数値検証により検証した。

Modeling the localized intensive deformation in a damaged solid requires highly refined discretization for accurate prediction, which significantly increases the computational cost. Although adaptive model refinement can be employed for enhanced effectiveness, it is cumbersome for the traditional mesh-based methods to perform while modeling the evolving localizations. In this work, neural network-enhanced reproducing kernel particle method (NN-RKPM) is proposed, where the location, orientation, and shape of the solution transition near a localization is automatically captured by the NN approximation via a block-level neural network optimization. The weights and biases in the blocked parametrization network control the location and orientation of the localization. The designed basic four-kernel NN block is capable of capturing a triple junction or a quadruple junction topological pattern, while more complicated localization topological patters are captured by the superposition of multiple four-kernel NN blocks. The standard RK approximation is then utilized to approximate the smooth part of the solution, which permits a much coarser discretization than the high-resolution discretization needed to capture sharp solution transitions with the conventional methods. A regularization of the neural network approximation is additionally introduced for discretization-independent material responses. The effectiveness of the proposed NN-RKPM is verified by a series of numerical verifications.
翻訳日:2022-05-02 15:01:20 公開日:2022-04-28
# CKH:データと先行データから構造因果モデルを推定するための因果知識階層

CKH: Causal Knowledge Hierarchy for Estimating Structural Causal Models from Data and Priors ( http://arxiv.org/abs/2204.13775v1 )

ライセンス: Link先を確認
Riddhiman Adib, Md Mobasshir Arshed Naved, Chih-Hao Fang, Md Osman Gani, Ananth Grama, Paul Griffin, Sheikh Iqbal Ahamed, Mohammad Adibuzzaman(参考訳) 構造因果モデル(scms)は、経済学から医学まで幅広い分野における観察データと実験データから因果を識別するための原則的なアプローチを提供する。 しかし、SCMは一般的にグラフィカルモデルとして表されるドメイン知識を必要とする。 この文脈における重要な課題は、事前(背景知識)を体系的な方法で因果モデルにエンコードするための方法論的フレームワークがないことである。 我々は,事前を因果モデルにエンコードするために,因果知識階層 (ckh) と呼ばれる抽象化を提案する。 我々のアプローチは医学における「証拠のレベル」の基礎に基づいており、因果情報の信頼性に重点を置いている。 CKHを用いて、様々なデータソースから因果先を符号化し、それらを組み合わせてSCMを導出するための方法論的枠組みを提案する。 シミュレーションデータセット上でのアプローチを評価し,感度分析による基底真理因果モデルと比較し,全体的な性能を示す。

Structural causal models (SCMs) provide a principled approach to identifying causation from observational and experimental data in disciplines ranging from economics to medicine. SCMs, however, require domain knowledge, which is typically represented as graphical models. A key challenge in this context is the absence of a methodological framework for encoding priors (background knowledge) into causal models in a systematic manner. We propose an abstraction called causal knowledge hierarchy (CKH) for encoding priors into causal models. Our approach is based on the foundation of "levels of evidence" in medicine, with a focus on confidence in causal information. Using CKH, we present a methodological framework for encoding causal priors from various data sources and combining them to derive an SCM. We evaluate our approach on a simulated dataset and demonstrate overall performance compared to the ground truth causal model with sensitivity analysis.
翻訳日:2022-05-02 14:43:18 公開日:2022-04-28
# 隣人に基づくロジスティック回帰機械学習モデルによる電気自動車の占有状況検出

Neighbor-Based Optimized Logistic Regression Machine Learning Model For Electric Vehicle Occupancy Detection ( http://arxiv.org/abs/2204.13702v1 )

ライセンス: Link先を確認
Sayan Shaw, Keaton Chia, Jan Kleissl(参考訳) 本稿では,電気自動車(EV)の充電ステーションの占有率を,近隣駅の占有率から予測するロジスティック回帰機械学習モデルを提案する。 そのモデルは時間に合わせて最適化された。 カリフォルニア大学サンディエゴ校の57のev充電ステーションで訓練されたこのモデルは、平均88.43%の精度と92.23%の最大精度を達成し、永続モデルベンチマークを上回った。

This paper presents an optimized logistic regression machine learning model that predicts the occupancy of an Electric Vehicle (EV) charging station given the occupancy of neighboring stations. The model was optimized for the time of day. Trained on data from 57 EV charging stations around the University of California San Diego campus, the model achieved an 88.43% average accuracy and 92.23% maximum accuracy in predicting occupancy, outperforming a persistence model benchmark.
翻訳日:2022-05-02 14:35:53 公開日:2022-04-28
# 予期せぬ攻撃に対するロバストネスの定式化

Formulating Robustness Against Unforeseen Attacks ( http://arxiv.org/abs/2204.13779v1 )

ライセンス: Link先を確認
Sihui Dai, Saeed Mahloujifar, Prateek Mittal(参考訳) 敵の訓練のような敵の例に対する既存の防御は、通常、敵は固定予算内での$\ell_p$摂動のような特定のまたは既知の脅威モデルに従うと仮定する。 本稿では,訓練中に防衛側が想定する脅威モデルにミスマッチがあるシナリオと,テスト時の敵の実際の能力に注目した。 学習者が特定の"ソース"脅威モデルに対してトレーニングした場合、テスト期間中に、堅牢性がより強力な未知の"ターゲット"脅威モデルに一般化できるでしょうか? 我々の重要な貢献は、予期せぬ敵によって学習と一般化の問題を正式に定義することであり、既知の敵の従来の見方から、敵のリスクの増加の理由付けに役立ちます。 本フレームワークの適用により,対象脅威モデルと対象脅威モデルの一般化ギャップを特徴抽出器の変動に関連付ける一般化境界が導出され,与えられた脅威モデル間で抽出された特徴の最大差を測定する。 一般化バウンダリに基づいて、トレーニング中のソース脅威モデルにおける特徴抽出器のばらつきを低減する変動正則化(AT-VR)による逆トレーニングを提案する。 at-vrはgaussianやimage datasetsの通常の敵対的トレーニングと比較して,テスト期間中の予期せぬ攻撃に対する一般化を改善できることを実証的に実証する。

Existing defenses against adversarial examples such as adversarial training typically assume that the adversary will conform to a specific or known threat model, such as $\ell_p$ perturbations within a fixed budget. In this paper, we focus on the scenario where there is a mismatch in the threat model assumed by the defense during training, and the actual capabilities of the adversary at test time. We ask the question: if the learner trains against a specific "source" threat model, when can we expect robustness to generalize to a stronger unknown "target" threat model during test-time? Our key contribution is to formally define the problem of learning and generalization with an unforeseen adversary, which helps us reason about the increase in adversarial risk from the conventional perspective of a known adversary. Applying our framework, we derive a generalization bound which relates the generalization gap between source and target threat models to variation of the feature extractor, which measures the expected maximum difference between extracted features across a given threat model. Based on our generalization bound, we propose adversarial training with variation regularization (AT-VR) which reduces variation of the feature extractor across the source threat model during training. We empirically demonstrate that AT-VR can lead to improved generalization to unforeseen attacks during test-time compared to standard adversarial training on Gaussian and image datasets.
翻訳日:2022-05-02 14:35:45 公開日:2022-04-28
# 構造因果モデル作成における実用的臨床試験

Pragmatic Clinical Trials in the Rubric of Structural Causal Models ( http://arxiv.org/abs/2204.13782v1 )

ライセンス: Link先を確認
Riddhiman Adib, Sheikh Iqbal Ahamed, Mohammad Adibuzzaman(参考訳) ランダム化試験のような説明研究は、結果に対する介入の真の因果効果を抽出することを目的としており、ランダム化によって共変量に調整される。 逆に観察的研究は、介入なしに起こった出来事の表現である。 どちらも構造因果モデル(scm)を用いて説明することができ、因果効果を推定するためにdo-calculusを用いることができる。 実用的臨床試験(PCT)は、この2つの設計スペクトルの両端に該当し、定義が困難である。 現実的な性質のため、SCMによるPCTの標準化された表現はまだ確立されていない。 本稿では,PCTの一般化表現を構造因果モデル (SCM) のルーリックの下で提案することで,この問題に対処する。 提案するグラフィカルモデルを用いて,PCT でよく用いられる様々な解析手法について論じる。 提案手法の適用性を示すために,実用的臨床試験から得られた実験データセットを利用する。 SCMのPCTによる提案は、臨床データセット上でのdo-calculusおよび関連する数学的操作を活用するための経路を作成する。

Explanatory studies, such as randomized controlled trials, are targeted to extract the true causal effect of interventions on outcomes and are by design adjusted for covariates through randomization. On the contrary, observational studies are a representation of events that occurred without intervention. Both can be illustrated using the Structural Causal Model (SCM), and do-calculus can be employed to estimate the causal effects. Pragmatic clinical trials (PCT) fall between these two ends of the trial design spectra and are thus hard to define. Due to its pragmatic nature, no standardized representation of PCT through SCM has been yet established. In this paper, we approach this problem by proposing a generalized representation of PCT under the rubric of structural causal models (SCM). We discuss different analysis techniques commonly employed in PCT using the proposed graphical model, such as intention-to-treat, as-treated, and per-protocol analysis. To show the application of our proposed approach, we leverage an experimental dataset from a pragmatic clinical trial. Our proposition of SCM through PCT creates a pathway to leveraging do-calculus and related mathematical operations on clinical datasets.
翻訳日:2022-05-02 14:29:30 公開日:2022-04-28
# これらすべてを合成するための1つのモデル:データのインプテーションを欠くマルチコントラストマルチスケールトランスフォーマー

One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation ( http://arxiv.org/abs/2204.13738v1 )

ライセンス: Link先を確認
Jiang Liu, Srivathsa Pasumarthi, Ben Duffy, Enhao Gong, Greg Zaharchuk, Keshav Datta(参考訳) 多コントラストMRI(Multi-Contrast magnetic resonance imaging)は臨床で広く用いられている。 しかし、それぞれのコントラストは実際には患者によって異なる可能性がある。 これは放射線科医と自動画像解析アルゴリズムの両方に問題をもたらす。 この問題を解決する一般的なアプローチは、データインプテーションの欠如であり、既存のデータとのコントラストの欠如を合成することを目的としている。 いくつかの畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムが提案されているが、CNNモデルの基本的な制限、例えば入力チャネルと出力チャネルの固定数の要件、長距離依存をキャプチャできないこと、解釈可能性の欠如などに悩まされている。 本稿では,データインプテーションの欠落をシーケンスからシーケンスへの学習問題として定式化し,入力コントラストの任意のサブセットを取り込んで,欠落したデータを合成するマルチコントラストマルチスケールトランス(mmt)を提案する。 MMTは、入力の階層的な表現を構築するマルチスケールトランスフォーマーエンコーダと、粗い方法で出力を生成するマルチスケールトランスフォーマーデコーダで構成される。 提案するマルチコントラストスウィントランスブロックにより、コントラスト内およびインターコントラスト間の依存性を効率的に捕捉し、正確な画像合成を行うことができる。 さらに、MTMは本質的に解釈可能である。 これにより、デコーダ内のTransformerブロックの組込みアテンションマップを解析することにより、各入力コントラストの重要性を理解することができる。 2つの大規模マルチコントラストMRIデータセットに対する大規模な実験により、MTTは最先端の手法を定量的に質的に優れていることが示された。

Multi-contrast magnetic resonance imaging (MRI) is widely used in clinical practice as each contrast provides complementary information. However, the availability of each contrast may vary amongst patients in reality. This poses challenges to both radiologists and automated image analysis algorithms. A general approach for tackling this problem is missing data imputation, which aims to synthesize the missing contrasts from existing ones. While several convolutional neural network (CNN) based algorithms have been proposed, they suffer from the fundamental limitations of CNN models, such as requirement for fixed numbers of input and output channels, inability to capture long-range dependencies, and lack of interpretability. In this paper, we formulate missing data imputation as a sequence-to-sequence learning problem and propose a multi-contrast multi-scale Transformer (MMT), which can take any subset of input contrasts and synthesize those that are missing. MMT consists of a multi-scale Transformer encoder that builds hierarchical representations of inputs combined with a multi-scale Transformer decoder that generates the outputs in a coarse-to-fine fashion. Thanks to the proposed multi-contrast Swin Transformer blocks, it can efficiently capture intra- and inter-contrast dependencies for accurate image synthesis. Moreover, MMT is inherently interpretable. It allows us to understand the importance of each input contrast in different regions by analyzing the in-built attention maps of Transformer blocks in the decoder. Extensive experiments on two large-scale multi-contrast MRI datasets demonstrate that MMT outperforms the state-of-the-art methods quantitatively and qualitatively.
翻訳日:2022-05-02 14:28:40 公開日:2022-04-28
# CAVES: ウイルスワクチンに関する説明可能な分類と要約を容易にするデータセット

CAVES: A Dataset to facilitate Explainable Classification and Summarization of Concerns towards COVID Vaccines ( http://arxiv.org/abs/2204.13746v1 )

ライセンス: Link先を確認
Soham Poddar, Azlaan Mustafa Samad, Rajdeep Mukherjee, Niloy Ganguly, Saptarshi Ghosh(参考訳) 新型コロナウイルスに対するワクチン接種を強制することは、現代において重要な社会的課題である。 この目標に向かう第一歩として、多くの先行研究はソーシャルメディア分析に依存し、潜在的な副作用、非効率性、政治的要因など、人々がこれらのワクチンに対して抱いている特定の懸念を理解する。 ソーシャルメディアの投稿を広範にアンチvaxとプロvaxのラベルに分類するデータセットはあるが、投稿に言及されている特定の反真空懸念に応じてソーシャルメディアの投稿をラベル付けするデータセット(われわれの知る限り)は存在しない。 本稿では,約10kのCOVID-19アンチワクチンツイートを含む最初の大規模データセットであるCAVESを,複数ラベル設定で様々な特定の抗ワクチンの懸念にラベル付けした。 これはまた、ラベルごとに説明を提供する最初のマルチラベル分類データセットである。 さらに、データセットはすべてのツイートのクラスレベルの要約も提供する。 また,データセットに関する予備的な実験を行い,いくつかの最先端モデルによって得られた適度なスコアから明らかなように,マルチラベル説明可能な分類とツイート要約のための非常に困難なデータセットであることを示す。 私たちのデータセットとコードは、https://github.com/sohampoddar26/caves-dataで利用可能です。

Convincing people to get vaccinated against COVID-19 is a key societal challenge in the present times. As a first step towards this goal, many prior works have relied on social media analysis to understand the specific concerns that people have towards these vaccines, such as potential side-effects, ineffectiveness, political factors, and so on. Though there are datasets that broadly classify social media posts into Anti-vax and Pro-Vax labels, there is no dataset (to our knowledge) that labels social media posts according to the specific anti-vaccine concerns mentioned in the posts. In this paper, we have curated CAVES, the first large-scale dataset containing about 10k COVID-19 anti-vaccine tweets labelled into various specific anti-vaccine concerns in a multi-label setting. This is also the first multi-label classification dataset that provides explanations for each of the labels. Additionally, the dataset also provides class-wise summaries of all the tweets. We also perform preliminary experiments on the dataset and show that this is a very challenging dataset for multi-label explainable classification and tweet summarization, as is evident by the moderate scores achieved by some state-of-the-art models. Our dataset and codes are available at: https://github.com/sohampoddar26/caves-data
翻訳日:2022-05-02 13:45:16 公開日:2022-04-28
# ランダムな平滑化攻撃: 実用性はどの程度優れているか?

Randomized Smoothing under Attack: How Good is it in Pratice? ( http://arxiv.org/abs/2204.14187v1 )

ライセンス: Link先を確認
Thibault Maho, Teddy Furon, Erwan Le Merrer(参考訳) ランダムな平滑化は、任意の分類器の堅牢性を証明するための、最近で有名な解である。 反逆攻撃に対して理論的な堅牢性を提供するが、現在の分類器の次元性は必ずモンテカルロの応用を強制する。 本稿では,芸術的ブラックボックス攻撃に対する防御手段としてのランダム化平滑化の有効性を疑問視する。 これは新しい視点であり、以前の研究は認証を疑わしい保証と見なしていた。 まず、理論的証明と分類器に対する攻撃の実践のミスマッチを正式に強調する。 次に,無作為な平滑化を防御として攻撃する。 本研究の主目的は,分類器の精度を保ちながら高い信頼性のロバスト性を得たり,ブラックボックス攻撃を打ち負かす場合に,RSの設定に重大なミスマッチがあることである。

Randomized smoothing is a recent and celebrated solution to certify the robustness of any classifier. While it indeed provides a theoretical robustness against adversarial attacks, the dimensionality of current classifiers necessarily imposes Monte Carlo approaches for its application in practice. This paper questions the effectiveness of randomized smoothing as a defense, against state of the art black-box attacks. This is a novel perspective, as previous research works considered the certification as an unquestionable guarantee. We first formally highlight the mismatch between a theoretical certification and the practice of attacks on classifiers. We then perform attacks on randomized smoothing as a defense. Our main observation is that there is a major mismatch in the settings of the RS for obtaining high certified robustness or when defeating black box attacks while preserving the classifier accuracy.
翻訳日:2022-05-02 13:44:03 公開日:2022-04-28
# カーネル主成分分析による高次元ベイズ最適化

High Dimensional Bayesian Optimization with Kernel Principal Component Analysis ( http://arxiv.org/abs/2204.13753v1 )

ライセンス: Link先を確認
Kirill Antonov, Elena Raponi, Hao Wang, Carola Doerr(参考訳) ベイズ最適化 (bayesian optimization, bo) は、対象関数を近似するガウス過程回帰 (gpr) モデルと候補点を提案する獲得関数に依存する、サーロゲートに基づく大域的最適化戦略である。 gprモデルは十分な精度を達成するためにかなり多くのデータポイントを必要とし、高次元で計算コストがかかるため、boは高次元問題に対してうまくスケールできないことがよく知られている。 いくつかの最近の研究は、オンライン変数選択を実装したり、元の検索空間の低次元部分多様体上で探索を行う方法など、これらの問題に対処することを目的としている。 そこで本研究では,線形部分多様体を学習するPCA-BOの従来の成果を活用し,線形部分多様体に非線形部分多様体を埋め込んだ新しいカーネルPCA-BO(KPCA-BO)アルゴリズムを提案する。 直感的には、低次元のサブ多様体上にGPRモデルを構築することは、目的関数からより多くのデータを必要とすることなく、モデリング精度を向上させるのに役立つ。 また, 本手法では, 低次元部分多様体上の獲得関数を定義し, 獲得最適化をより管理しやすくする。 我々は、COCO/BBOBベンチマークスイートのマルチモーダル問題に対して、KPCA-BOとバニラBOとPCA-BOの性能を比較した。 実験の結果、KPCA-BOは、ほとんどのテスト問題において収束速度においてBOよりも優れており、この利点は次元が大きくなるとより顕著になる。 60D関数の場合、KPCA-BOは多くのテストケースでPCA-BOを上回っている。 さらに、GPRモデルのトレーニングに必要なCPU時間を効率よく削減し、バニラBOと比較して取得機能を最適化する。

Bayesian Optimization (BO) is a surrogate-based global optimization strategy that relies on a Gaussian Process regression (GPR) model to approximate the objective function and an acquisition function to suggest candidate points. It is well-known that BO does not scale well for high-dimensional problems because the GPR model requires substantially more data points to achieve sufficient accuracy and acquisition optimization becomes computationally expensive in high dimensions. Several recent works aim at addressing these issues, e.g., methods that implement online variable selection or conduct the search on a lower-dimensional sub-manifold of the original search space. Advancing our previous work of PCA-BO that learns a linear sub-manifold, this paper proposes a novel kernel PCA-assisted BO (KPCA-BO) algorithm, which embeds a non-linear sub-manifold in the search space and performs BO on this sub-manifold. Intuitively, constructing the GPR model on a lower-dimensional sub-manifold helps improve the modeling accuracy without requiring much more data from the objective function. Also, our approach defines the acquisition function on the lower-dimensional sub-manifold, making the acquisition optimization more manageable. We compare the performance of KPCA-BO to the vanilla BO and PCA-BO on the multi-modal problems of the COCO/BBOB benchmark suite. Empirical results show that KPCA-BO outperforms BO in terms of convergence speed on most test problems, and this benefit becomes more significant when the dimensionality increases. For the 60D functions, KPCA-BO surpasses PCA-BO in many test cases. Moreover, it efficiently reduces the CPU time required to train the GPR model and optimize the acquisition function compared to the vanilla BO.
翻訳日:2022-05-02 13:43:49 公開日:2022-04-28
# 文書に忠実か、それとも世界に忠実か? 抽象要約におけるエンティティリンク知識による幻覚の緩和

Faithful to the Document or to the World? Mitigating Hallucinations via Entity-linked Knowledge in Abstractive Summarization ( http://arxiv.org/abs/2204.13761v1 )

ライセンス: Link先を確認
Yue Dong, John Wieting, Pat Verga(参考訳) 近年の抽象要約の進歩にもかかわらず、現在の要約システムは、モデルがソース文書と無関係または矛盾するテキストを生成する内容の幻覚に悩まされている。 しかしながら、先行研究は、ソースに明示的に現れていない生成された事実は、望ましくない幻覚である、という仮定に基づいている。 このシナリオに対処するために、最終的にソースドキュメントの'faithfulness'を改善する方法が提案されているが、実際には、金の参照ターゲットの中に、直接ソースにないエンティティの大部分が存在している。 本稿では,これらのエンティティが収差ではないことを示すが,その代わりに外部の世界知識を活用して,ソース内のエンティティからの推論パスを推論する必要がある。 また,外部知識ベースを利用することで,単に抽出性を高めることなく要約の忠実性を向上させることができることを示すとともに,外部知識ベースが生成した要約の事実性に寄与することを示す。

Despite recent advances in abstractive summarization, current summarization systems still suffer from content hallucinations where models generate text that is either irrelevant or contradictory to the source document. However, prior work has been predicated on the assumption that any generated facts not appearing explicitly in the source are undesired hallucinations. Methods have been proposed to address this scenario by ultimately improving `faithfulness' to the source document, but in reality, there is a large portion of entities in the gold reference targets that are not directly in the source. In this work, we show that these entities are not aberrations, but they instead require utilizing external world knowledge to infer reasoning paths from entities in the source. We show that by utilizing an external knowledge base, we can improve the faithfulness of summaries without simply making them more extractive, and additionally, we show that external knowledge bases linked from the source can benefit the factuality of generated summaries.
翻訳日:2022-05-02 13:41:34 公開日:2022-04-28
# 相対的クエリによるOracleのガイド画像合成

Oracle Guided Image Synthesis with Relative Queries ( http://arxiv.org/abs/2204.14189v1 )

ライセンス: Link先を確認
Alec Helbling, Christopher John Rozell, Matthew O'Shaughnessy, Kion Fallah(参考訳) ユーザフレンドリーな方法で生成モデルの出力の特定の特徴を分離し、制御することは困難かつオープンな問題である。 当社のフレームワークは条件付きvaeで構成されており、収集された相対的クエリを使用して、潜在空間を選好関連機能と非参照関連機能に分割する。 次に、ユーザの相対的なクエリに対する応答を用いて、想定された出力画像に対応する嗜好関連機能を決定する。 さらに,画像の予測された嗜好関連特徴の不確かさをモデル化する手法を開発し,相対的問合せ学習セットがノイズを含むシナリオを一般化する。

Isolating and controlling specific features in the outputs of generative models in a user-friendly way is a difficult and open-ended problem. We develop techniques that allow an oracle user to generate an image they are envisioning in their head by answering a sequence of relative queries of the form \textit{"do you prefer image $a$ or image $b$?"} Our framework consists of a Conditional VAE that uses the collected relative queries to partition the latent space into preference-relevant features and non-preference-relevant features. We then use the user's responses to relative queries to determine the preference-relevant features that correspond to their envisioned output image. Additionally, we develop techniques for modeling the uncertainty in images' predicted preference-relevant features, allowing our framework to generalize to scenarios in which the relative query training set contains noise.
翻訳日:2022-05-02 13:17:26 公開日:2022-04-28
# 低次元リンク予測のための双曲的階層的知識グラフ埋め込み

Hyperbolic Hierarchical Knowledge Graph Embeddings for Link Prediction in Low Dimensions ( http://arxiv.org/abs/2204.13704v1 )

ライセンス: Link先を確認
Wenjie Zheng, Wenxue Wang, Fulan Qian, Shu Zhao and Yanping Zhang(参考訳) 知識グラフ埋め込み(KGE)は、エンティティをユークリッド空間にマッピングし、関係をエンティティの変換として扱うため、知識グラフ(KG)の欠落リンクを推測する強力な方法として検証されている。 現在、いくつかのユークリッドKGE法は、KGで広く使われている意味階層をモデル化し、リンク予測の性能を促進する。 階層データでは、従来のユークリッド空間の代わりに、埋め込み空間としての双曲空間は高忠実性と低メモリ消費の期待を示すが、既存の双曲kge法はそれらをモデル化することを怠っている。 この問題に対処するため、双曲型階層型KGE(HypHKGE)という新しいKGEモデルを提案する。 具体的には、まず注意に基づくハイパーボリック空間の学習可能な曲率を設計し、リッチなセマンティック階層を保存する。 さらに,双曲幾何学の理論に基づいた双曲的階層変換を定義する。 実験により、HypHKGEは双曲空間のセマンティック階層を効果的にモデル化でき、特に低次元において最先端の双曲的手法よりも優れていることが示された。

Knowledge graph embeddings (KGE) have been validated as powerful methods for inferring missing links in knowledge graphs (KGs) since they map entities into Euclidean space and treat relations as transformations of entities. Currently, some Euclidean KGE methods model semantic hierarchies prevalent in KGs and promote the performance of link prediction. For hierarchical data, instead of traditional Euclidean space, hyperbolic space as an embedding space has shown the promise of high fidelity and low memory consumption; however, existing hyperbolic KGE methods neglect to model them. To address this issue, we propose a novel KGE model -- hyperbolic hierarchical KGE (HypHKGE). To be specific, we first design the attention-based learnable curvatures for hyperbolic space to preserve rich semantic hierarchies. Moreover, we define the hyperbolic hierarchical transformations based on the theory of hyperbolic geometry, which utilize hierarchies that we preserved to infer the links. Experiments show that HypHKGE can effectively model semantic hierarchies in hyperbolic space and outperforms the state-of-the-art hyperbolic methods, especially in low dimensions.
翻訳日:2022-05-02 13:16:35 公開日:2022-04-28
# 簡易変圧器による深さ推定

Depth Estimation with Simplified Transformer ( http://arxiv.org/abs/2204.13791v1 )

ライセンス: Link先を確認
John Yang, Le An, Anurag Dixit, Jinkyu Koo, Su Inn Park(参考訳) トランスフォーマーとその変種は、画像分類から密度予測まで、近年多くの視覚タスクにおいて最先端の結果を示している。 その成功にもかかわらず、自律運転やロボットナビゲーションなど、レイテンシクリティカルなアプリケーションへのデプロイのためのモデル効率の改善に関する限られた作業が報告されている。 本稿では,視覚における既存のトランスフォーマーの改善を目標とし,GPUベースのプラットフォームへのデプロイに特に適した簡易トランスフォーマー(DEST)を用いた自己教師型単眼深度推定法を提案する。 戦略的設計の選択を通じて、我々のモデルはモデルのサイズ、複雑さ、および推論遅延を大幅に削減し、最先端技術と比較して精度が向上する。 また,我々の設計はベルやホイッスルを使わずに,他の密集した予測タスクにうまく一般化することを示した。

Transformer and its variants have shown state-of-the-art results in many vision tasks recently, ranging from image classification to dense prediction. Despite of their success, limited work has been reported on improving the model efficiency for deployment in latency-critical applications, such as autonomous driving and robotic navigation. In this paper, we aim at improving upon the existing transformers in vision, and propose a method for self-supervised monocular Depth Estimation with Simplified Transformer (DEST), which is efficient and particularly suitable for deployment on GPU-based platforms. Through strategic design choices, our model leads to significant reduction in model size, complexity, as well as inference latency, while achieving superior accuracy as compared to state-of-the-art. We also show that our design generalize well to other dense prediction task without bells and whistles.
翻訳日:2022-05-02 13:14:23 公開日:2022-04-28
# CogView2:階層変換によるテキスト・画像生成の高速化と改善

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers ( http://arxiv.org/abs/2204.14217v1 )

ライセンス: Link先を確認
Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang(参考訳) トランスベースのテキスト対画像モデルの開発は、その低解像度画像の生成と複雑さによって妨げられている。 本研究では,階層的トランスフォーマーと局所並列オートリグレッシブ生成に基づく解法を提案する。 我々は,単純で柔軟な自己教師付きタスクであるcoglm(cross-modal general language model)を用いて6bパラメータトランスフォーマーを事前訓練し,高速超解像のために微調整する。 新しいテキスト・ツー・イメージシステムであるCogView2は、最先端のDALL-E-2と競合する生成能力を示し、画像のインタラクティブなテキストガイド編集を自然にサポートする。

The development of the transformer-based text-to-image models are impeded by its slow generation and complexity for high-resolution images. In this work, we put forward a solution based on hierarchical transformers and local parallel auto-regressive generation. We pretrain a 6B-parameter transformer with a simple and flexible self-supervised task, Cross-modal general language model (CogLM), and finetune it for fast super-resolution. The new text-to-image system, CogView2, shows very competitive generation compared to concurrent state-of-the-art DALL-E-2, and naturally supports interactive text-guided editing on images.
翻訳日:2022-05-02 13:13:52 公開日:2022-04-28
# クロスモーダルプロトタイプコントラストによる教師なし音声顔表現学習

Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype Contrast ( http://arxiv.org/abs/2204.14057v1 )

ライセンス: Link先を確認
Boqing Zhu, Kele Xu, Changjian Wang, Zheng Qin, Tao Sun, Huaimin Wang, Yuxing Peng(参考訳) 同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。 以前の著作では、声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクを使用している。 これらの方法は異なるビデオの意味的内容を無視し、トレーニングノイズとして偽陰性ペアを導入する。 さらに、音声クリップと視覚フレームとの自然な相関に基づいて正のペアを構築する。 しかし、この相関関係は現実世界の大量のデータにおいて弱いか不正確な場合があり、これは対照的なパラダイムに正を逸脱させる。 そこで本研究では,対照法を活用し,偽陰性の悪影響に抵抗し,正を逸脱するクロスモーダル型コントラスト学習(cmpc)を提案する。 一方、CMPCは、教師なしクラスタリングを異なるモードで構成することで、クラス内不変性を学習することができた。 一方,クロスモーダル・インスタンスとクロスモーダル・プロトタイプの類似性を比較することにより,学習不能なインスタンスの全体的な損失に対する貢献を動的に再調整する。 実験の結果,提案手法は様々な音声・音声関連評価プロトコルにおいて,最先端の教師なし手法よりも優れていた。 また,低ショットの監督設定では,従来のインスタンス間比較学習に比べて有意に改善が見られた。

We present an approach to learn voice-face representations from the talking face videos, without any identity labels. Previous works employ cross-modal instance discrimination tasks to establish the correlation of voice and face. These methods neglect the semantic content of different videos, introducing false-negative pairs as training noise. Furthermore, the positive pairs are constructed based on the natural correlation between audio clips and visual frames. However, this correlation might be weak or inaccurate in a large amount of real-world data, which leads to deviating positives into the contrastive paradigm. To address these issues, we propose the cross-modal prototype contrastive learning (CMPC), which takes advantage of contrastive methods and resists adverse effects of false negatives and deviate positives. On one hand, CMPC could learn the intra-class invariance by constructing semantic-wise positives via unsupervised clustering in different modalities. On the other hand, by comparing the similarities of cross-modal instances from that of cross-modal prototypes, we dynamically recalibrate the unlearnable instances' contribution to overall loss. Experiments show that the proposed approach outperforms state-of-the-art unsupervised methods on various voice-face association evaluation protocols. Additionally, in the low-shot supervision setting, our method also has a significant improvement compared to previous instance-wise contrastive learning.
翻訳日:2022-05-02 13:13:38 公開日:2022-04-28
# 自動バイアス検出のための分割学習

Learning to Split for Automatic Bias Detection ( http://arxiv.org/abs/2204.13749v1 )

ライセンス: Link先を確認
Yujia Bao, Regina Barzilay(参考訳) 分類器はバイアス付きデータセットで訓練されるとバイアスを受ける。 本研究では,自動バイアス検出のためのアルゴリズムであるlearning to split (ls)を提案する。 入力ラベルペアのデータセットが与えられると、lsはこのデータセットを分割することを学び、トレーニングでトレーニングされた予測者がテストの分割に悪影響を与えるようにします。 このパフォーマンスギャップは、学習した機能のバイアスの度合いを測定するプロキシを提供し、従ってバイアスを減らすために使用できる。 分割方法に関する明確なアノテーションがないため、一般化不可能な分割を特定することは難しい。 本研究は,テスト例の予測精度を弱監督源として用いることを示し,テスト分割から正しく予測された例を移動させた場合,一般化性能は低下し,誤予測された例のみが残ることを示した。 我々は,Beer Review,Waterbirds,CelebA,MNLIに対するアプローチを評価した。 実験の結果、lsは人間の特定バイアスと相関する驚くほど難しい分割を生成できることが示されている。 さらに,lsで同定されたスプリットとロバストな学習アルゴリズム(グループdroなど)を組み合わせることで,自動脱バイアスが可能となることを示す。 従来の最先端技術と比較して、トレーニングや検証においてバイアスの源が不明な場合の最悪のグループパフォーマンス(平均23.4%)を大幅に改善する。

Classifiers are biased when trained on biased datasets. As a remedy, we propose Learning to Split (ls), an algorithm for automatic bias detection. Given a dataset with input-label pairs, ls learns to split this dataset so that predictors trained on the training split generalize poorly to the testing split. This performance gap provides a proxy for measuring the degree of bias in the learned features and can therefore be used to reduce biases. Identifying non-generalizable splits is challenging as we don't have any explicit annotations about how to split. In this work, we show that the prediction correctness of the testing example can be used as a source of weak supervision: generalization performance will drop if we move examples that are predicted correctly away from the testing split, leaving only those that are mispredicted. We evaluate our approach on Beer Review, Waterbirds, CelebA and MNLI. Empirical results show that ls is able to generate astonishingly challenging splits that correlate with human-identified biases. Moreover, we demonstrate that combining robust learning algorithms (such as group DRO) with splits identified by ls enables automatic de-biasing. Compared with previous state-of-the-arts, we substantially improves the worst-group performance (23.4% on average) when the source of biases is unknown during training and validation.
翻訳日:2022-05-02 12:52:37 公開日:2022-04-28
# (参考訳) 動的に制御された逆さま

Adversarial Fine-tune with Dynamically Regulated Adversary ( http://arxiv.org/abs/2204.13232v1 )

ライセンス: CC BY 4.0
Pengyue Hou, Ming Zhou, Jie Han, Petr Musilek, Xingyu Li(参考訳) 敵意トレーニングは、悪意のある敵意攻撃に対するモデルのロバスト性を高める効果的な方法である。 しかし、このようなモデルロバスト性の改善は、しばしばクリーンイメージにおける標準性能の大幅な犠牲につながる。 健康診断や自律手術ロボットなどの現実世界の多くの応用において、このような極めて悪意のある攻撃に対するモデルロバスト性よりも、標準的な性能が重視されている。 標準性能を犠牲にすることなく、どの程度モデルロバスト性を高めることができるのか? 本研究は, この課題に対処し, モデル標準性能に対する対人サンプルの負の効果を解消する, 単純かつ効果的な移動学習に基づく対人訓練戦略を提案する。 さらに,トレーニングの複雑さを伴わずに,敵の強靭性を向上する訓練フレンドリーな敵攻撃アルゴリズムを導入する。 大規模実験により, 提案手法は, モデル標準性能をクリーンデータに保ちながら, モデルロバスト性を向上し, 従来の逆トレーニングアルゴリズムよりも優れていたことが示唆された。

Adversarial training is an effective method to boost model robustness to malicious, adversarial attacks. However, such improvement in model robustness often leads to a significant sacrifice of standard performance on clean images. In many real-world applications such as health diagnosis and autonomous surgical robotics, the standard performance is more valued over model robustness against such extremely malicious attacks. This leads to the question: To what extent we can boost model robustness without sacrificing standard performance? This work tackles this problem and proposes a simple yet effective transfer learning-based adversarial training strategy that disentangles the negative effects of adversarial samples on model's standard performance. In addition, we introduce a training-friendly adversarial attack algorithm, which facilitates the boost of adversarial robustness without introducing significant training complexity. Extensive experimentation indicates that the proposed method outperforms previous adversarial training algorithms towards the target: to improve model robustness while preserving model's standard performance on clean data.
翻訳日:2022-04-30 04:36:44 公開日:2022-04-28
# (参考訳) BI-GreenNet:境界積分ネットワークによるグリーン関数の学習

BI-GreenNet: Learning Green's functions by boundary integral network ( http://arxiv.org/abs/2204.13247v1 )

ライセンス: CC BY 4.0
Guochang Lin, Fukai Chen, Pipi Hu, Xiang Chen, Junqing Chen, Jun Wang, Zuoqiang Shi(参考訳) グリーン関数は偏微分方程式(PDE)の理論解析と数値計算において重要な役割を果たしている。 しかし、ほとんどの場合、グリーン関数の計算は困難である。 問題は次の3つの折りたたみで起こる。 まず、元のPDEと比較すると、グリーン関数の次元は2倍になり、従来のメッシュベースの手法では扱えない。 第二に、グリーンの函数は通常、良い近似を得るのが難しくなる特異点を含む。 最後に、計算領域は非常に複雑または非有界である。 本稿では,これらの問題を克服するために,基本解,境界積分法,ニューラルネットワークを用いて,グリーン関数を高精度に計算する新しい手法を提案する。 我々は、有界領域、非有界領域におけるポアソン方程式とヘルムホルツ方程式のグリーン関数に焦点を当てる。 また、ポアソン方程式とヘルムホルツ整域をインターフェースで考える。 広範な数値実験により,グリーン関数の解法の有効性と精度が示された。 さらに,本手法で計算したグリーン関数を用いてPDEのクラスを解き,高精度な解を得る。

Green's function plays a significant role in both theoretical analysis and numerical computing of partial differential equations (PDEs). However, in most cases, Green's function is difficult to compute. The troubles arise in the following three folds. Firstly, compared with the original PDE, the dimension of Green's function is doubled, making it impossible to be handled by traditional mesh-based methods. Secondly, Green's function usually contains singularities which increase the difficulty to get a good approximation. Lastly, the computational domain may be very complex or even unbounded. To override these problems, we leverage the fundamental solution, boundary integral method and neural networks to develop a new method for computing Green's function with high accuracy in this paper. We focus on Green's function of Poisson and Helmholtz equations in bounded domains, unbounded domains. We also consider Poisson equation and Helmholtz domains with interfaces. Extensive numerical experiments illustrate the efficiency and the accuracy of our method for solving Green's function. In addition, we also use the Green's function calculated by our method to solve a class of PDE, and also obtain high-precision solutions, which shows the good generalization ability of our method on solving PDEs.
翻訳日:2022-04-30 04:22:27 公開日:2022-04-28
# (参考訳) Watts: オープンエンドラーニングのためのインフラストラクチャ

Watts: Infrastructure for Open-Ended Learning ( http://arxiv.org/abs/2204.13250v1 )

ライセンス: CC0 1.0
Aaron Dharna and Charlie Summers and Rohin Dasari and Julian Togelius and Amy K. Hoover(参考訳) 本稿では,オープンエンド学習(OEL)アルゴリズムの実装,比較,再結合を行うWattsというフレームワークを提案する。 モジュラリティとアルゴリズムの柔軟性によって動機づけられたWattsは、OELシステムのコンポーネントを微粒化し、アプローチ間の研究と直接比較を促進する。 3つのOELアルゴリズムの実装を調べた結果,フレームワークのモジュールについて紹介した。 Wattsがベンチマークを有効にし、新しいタイプのOELアルゴリズムを探求することを期待している。 リポジトリは \url{https://github.com/aadharna/watts} で入手できる。

This paper proposes a framework called Watts for implementing, comparing, and recombining open-ended learning (OEL) algorithms. Motivated by modularity and algorithmic flexibility, Watts atomizes the components of OEL systems to promote the study of and direct comparisons between approaches. Examining implementations of three OEL algorithms, the paper introduces the modules of the framework. The hope is for Watts to enable benchmarking and to explore new types of OEL algorithms. The repo is available at \url{https://github.com/aadharna/watts}
翻訳日:2022-04-30 04:03:19 公開日:2022-04-28
# (参考訳) LLVMパスシーケンス最適化のためのShackletonフレームワークの遺伝的改良

Genetic Improvement in the Shackleton Framework for Optimizing LLVM Pass Sequences ( http://arxiv.org/abs/2204.13261v1 )

ライセンス: CC BY 4.0
Shuyue Stella Li, Hannah Peeler, Andrew N. Sloss, Kenneth N. Reid, Wolfgang Banzhaf(参考訳) 遺伝的改善は、与えられた問題に対する許容可能な解決策を改善することを目的とした検索技術である。 本稿では,問題特異的に最適化されたLLVMパスシーケンスを見つけるために,遺伝子改良の新たな利用法を提案する。 線形遺伝プログラミングフレームワークShackletonにおけるパスレベルのパッチ表現を開発し、デフォルトの最適化パスシーケンスに適用するための修正を進化させる。 我々のGI進化ソリューションは、実行時に最適化されるデフォルトコード生成オプションの-O3最適化レベルと比較して平均3.7%のランタイム改善があります。 提案手法は,専門分野の知識を必要とせず,汎用的な解法を改善する問題固有最適化シーケンスの自動探索方法を提供する。 本稿では,Shackleton FrameworkにおけるGI機能の利点と限界について論じ,その結果について述べる。

Genetic improvement is a search technique that aims to improve a given acceptable solution to a problem. In this paper, we present the novel use of genetic improvement to find problem-specific optimized LLVM pass sequences. We develop a pass-level patch representation in the linear genetic programming framework, Shackleton, to evolve the modifications to be applied to the default optimization pass sequences. Our GI-evolved solution has a mean of 3.7% runtime improvement compared to the -O3 optimization level in the default code generation options which optimizes on runtime. The proposed GI method provides an automatic way to find a problem-specific optimization sequence that improves upon a general solution without any expert domain knowledge. In this paper, we discuss the advantages and limitations of the GI feature in the Shackleton Framework and present our results.
翻訳日:2022-04-30 03:48:07 公開日:2022-04-28
# (参考訳) 画像翻訳とvocodingによる音楽エンハンスメント

Music Enhancement via Image Translation and Vocoding ( http://arxiv.org/abs/2204.13289v1 )

ライセンス: CC BY 4.0
Nikhil Kandpal, Oriol Nieto, Zeyu Jin(参考訳) モバイルデバイスで捉えたようなコンシューマグレードの音楽録音は、一般的にバックグラウンドノイズ、リバーブ、マイクロフォンによるEQの形で歪みを含む。 本稿では,低品質な音楽録音を組み合わせて強化する深層学習手法を提案する。 (i)メル・スペクトログラム表現における音声操作のための画像から画像への変換モデル (II)合成したメルスペクトルを知覚現実的な波形にマッピングする音楽ヴォコーディングモデル。 メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。 さらに,提案手法を聴取試験により評価する際には,音楽領域で使用する場合の一般的な音声強調評価指標の信頼性を解析する。

Consumer-grade music recordings such as those captured by mobile devices typically contain distortions in the form of background noise, reverb, and microphone-induced EQ. This paper presents a deep learning approach to enhance low-quality music recordings by combining (i) an image-to-image translation model for manipulating audio in its mel-spectrogram representation and (ii) a music vocoding model for mapping synthetically generated mel-spectrograms to perceptually realistic waveforms. We find that this approach to music enhancement outperforms baselines which use classical methods for mel-spectrogram inversion and an end-to-end approach directly mapping noisy waveforms to clean waveforms. Additionally, in evaluating the proposed method with a listening test, we analyze the reliability of common audio enhancement evaluation metrics when used in the music domain.
翻訳日:2022-04-30 03:44:39 公開日:2022-04-28
# (参考訳) 連続圏分布の正規化定数について

On the Normalizing Constant of the Continuous Categorical Distribution ( http://arxiv.org/abs/2204.13290v1 )

ライセンス: CC BY 4.0
Elliott Gordon-Rodriguez, Gabriel Loaiza-Ganem, Andres Potapczynski, John P. Cunningham(参考訳) simplexでサポートされている確率分布は、統計と機械学習にまたがる幅広い応用を享受している。 近年、そのような分布の新しい族、すなわち連続カテゴリーが発見されている。 密度関数はディリクレ分布のそれに似ているが、初等関数のみを使用して閉じた形で書くことができる正規化定数を持つ。 この数学的単純さにもかかわらず、正規化定数に対する我々の理解は完成にはほど遠いままである。 本研究では,正規化定数の数値的挙動を特徴付けるとともに,連続的カテゴリ分布のより広い応用を可能にするための理論的・方法論的進歩を示す。 私たちのコードはhttps://github.com/cunningham-lab/cb_and_cc/で利用可能です。

Probability distributions supported on the simplex enjoy a wide range of applications across statistics and machine learning. Recently, a novel family of such distributions has been discovered: the continuous categorical. This family enjoys remarkable mathematical simplicity; its density function resembles that of the Dirichlet distribution, but with a normalizing constant that can be written in closed form using elementary functions only. In spite of this mathematical simplicity, our understanding of the normalizing constant remains far from complete. In this work, we characterize the numerical behavior of the normalizing constant and we present theoretical and methodological advances that can, in turn, help to enable broader applications of the continuous categorical distribution. Our code is available at https://github.com/cunningham-lab/cb_and_cc/.
翻訳日:2022-04-30 03:33:09 公開日:2022-04-28
# (参考訳) 再生可能エネルギーにおけるニューラルネットワークによる深層伝達学習のためのモデル選択・適応・組み合わせ

Model Selection, Adaptation, and Combination for Deep Transfer Learning through Neural Networks in Renewable Energies ( http://arxiv.org/abs/2204.13293v1 )

ライセンス: CC BY 4.0
Jens Schreiber and Bernhard Sick(参考訳) 近年,コンピュータビジョンタスクにおける事前学習モデルの集合であるmodel hubsの利用が注目されている。 モデルハブを利用するために、まずソースモデルを選択し、次にターゲットのモデルに差分を補うように適応する。 コンピュータビジョンタスクのモデル選択と適応についてはまだ研究が限られているが、再生可能エネルギーの分野ではさらに研究が進んでいる。 同時に,数値的な気象予報から得られた気象特性に基づいて,電力需要の増加に対する予報を提供することが重要な課題である。 再生可能電力予測における伝達学習のためのモデル選択と適応に関する最初の徹底的な実験を行い,6つのデータセットのコンピュータビジョンの分野における最近の結果を採用し,これらのギャップを解消した。 異なる季節のデータに基づいてモデルを採用し,トレーニングデータの量を制限する。 現状の延長として,ニューラルネットワークから抽出した特徴に基づいて応答を予測するためにベイズ線形回帰を用いた。 このアプローチは、7日間のトレーニングデータでベースラインを上回っている。 さらに,複数のモデルをアンサンブルで組み合わせることで,モデル選択と適応アプローチを大幅に改善できることを示す。 実際、30日以上のトレーニングデータを持つ2つのモデルの組み合わせ技術は、トレーニングデータ1年分でトレーニングされたモデルと同じような結果を得る。

There is recent interest in using model hubs, a collection of pre-trained models, in computer vision tasks. To utilize the model hub, we first select a source model and then adapt the model for the target to compensate for differences. While there is yet limited research on a model selection and adaption for computer vision tasks, this holds even more for the field of renewable power. At the same time, it is a crucial challenge to provide forecasts for the increasing demand for power forecasts based on weather features from a numerical weather prediction. We close these gaps by conducting the first thorough experiment for model selection and adaptation for transfer learning in renewable power forecast, adopting recent results from the field of computer vision on six datasets. We adopt models based on data from different seasons and limit the amount of training data. As an extension of the current state of the art, we utilize a Bayesian linear regression for forecasting the response based on features extracted from a neural network. This approach outperforms the baseline with only seven days of training data. We further show how combining multiple models through ensembles can significantly improve the model selection and adaptation approach. In fact, with more than 30 days of training data, both proposed model combination techniques achieve similar results to those models trained with a full year of training data.
翻訳日:2022-04-30 03:20:50 公開日:2022-04-28
# (参考訳) 進化過程を用いた多戦略コミュニティ関連リンク予測手法による曖昧なコミュニティ構造の構築

Enhance Ambiguous Community Structure via Multi-strategy Community Related Link Prediction Method with Evolutionary Process ( http://arxiv.org/abs/2204.13301v1 )

ライセンス: CC BY 4.0
Qiming Yang, Wei Wei, Ruizhi Zhang, Bowen Pang and Xiangnan Feng(参考訳) ほとんどの実世界のネットワークは不完全さや不正確さに苦しんでおり、これは実世界のデータセットに固有の属性である。 その結果、コミュニティ検出手法のような複雑なネットワークにおける下流機械学習タスクは、十分な事前処理手段を必要とするため、満足度が低い可能性がある。 本稿では,新しいコミュニティ属性に基づくリンク予測戦略 HAP を設計し,HAP に基づく自動進化プロセスを備えた2段階のコミュニティ拡張アルゴリズムを提案する。 本稿では,あいまいなコミュニティ構造を明らかにするためのリンクを追加することで,コミュニティの強化を図ることを目的とする。 HAP法は近傍の不確実性とシャノンエントロピーを用いて境界ノードを同定し,ノードのコミュニティ属性とコミュニティサイズを同時に考慮してリンクを確立する。 ground truth community を用いた実世界の12のデータセットにおける実験結果から,提案手法は他のベースライン手法よりも優れており,コミュニティの強化が期待進化過程に従っていることが示唆された。

Most real-world networks suffer from incompleteness or incorrectness, which is an inherent attribute to real-world datasets. As a consequence, those downstream machine learning tasks in complex network like community detection methods may yield less satisfactory results, i.e., a proper preprocessing measure is required here. To address this issue, in this paper, we design a new community attribute based link prediction strategy HAP and propose a two-step community enhancement algorithm with automatic evolution process based on HAP. This paper aims at providing a community enhancement measure through adding links to clarify ambiguous community structures. The HAP method takes the neighbourhood uncertainty and Shannon entropy to identify boundary nodes, and establishes links by considering the nodes' community attributes and community size at the same time. The experimental results on twelve real-world datasets with ground truth community indicate that the proposed link prediction method outperforms other baseline methods and the enhancement of community follows the expected evolution process.
翻訳日:2022-04-30 03:19:15 公開日:2022-04-28
# (参考訳) 幾何学的視点から見た言語モデルの堅牢性向上

Improving robustness of language models from a geometry-aware perspective ( http://arxiv.org/abs/2204.13309v1 )

ライセンス: CC BY 4.0
Bin Zhu, Zhaoquan Gu, Le Wang, Jinyin Chen, Qi Xuan(参考訳) 近年の研究では、ノルム境界射影の除去と対向訓練における探索ステップの増大がロバスト性を大幅に改善することが示されている。 しかし,探索手順が多すぎると精度が低下する可能性がある。 少ないステップで効率的に強靭性を得る。 おもちゃの実験を通して、クリーンなデータを決定境界に摂動させるが、それを渡さないことは、テスト精度を劣化させるものではない。 そこで我々は,親和性のある敵対データを生成するために,親和性のある敵対データ拡張(FADA)を提案する。 また,FADA上では,幾何対応の敵対的訓練(GAT)を提案し,友好的な敵対的データに対する敵対的訓練を行い,多数の探索ステップを省く。 2つの広く使われているデータセットと3つの事前訓練された言語モデルにわたる総合的な実験は、GATがより少ないステップで強力な堅牢性を得ることができることを示した。 さらに,今後の研究を促進するために,実験結果とロバスト性に関する詳細な分析を行った。

Recent studies have found that removing the norm-bounded projection and increasing search steps in adversarial training can significantly improve robustness. However, we observe that a too large number of search steps can hurt accuracy. We aim to obtain strong robustness efficiently using fewer steps. Through a toy experiment, we find that perturbing the clean data to the decision boundary but not crossing it does not degrade the test accuracy. Inspired by this, we propose friendly adversarial data augmentation (FADA) to generate friendly adversarial data. On top of FADA, we propose geometry-aware adversarial training (GAT) to perform adversarial training on friendly adversarial data so that we can save a large number of search steps. Comprehensive experiments across two widely used datasets and three pre-trained language models demonstrate that GAT can obtain stronger robustness via fewer steps. In addition, we provide extensive empirical results and in-depth analyses on robustness to facilitate future studies.
翻訳日:2022-04-30 02:59:48 公開日:2022-04-28
# (参考訳) 自律運転のための制御対応予測対象

Control-Aware Prediction Objectives for Autonomous Driving ( http://arxiv.org/abs/2204.13319v1 )

ライセンス: CC BY 4.0
Rowan McAllister, Blake Wulfe, Jean Mercat, Logan Ellis, Sergey Levine, Adrien Gaidon(参考訳) 自律走行車ソフトウェアは通常、個々のコンポーネント(知覚、予測、計画など)のモジュールパイプラインとして構成され、解釈可能なサブタスクへの関心事の分離を支援する。 エンドツーエンドのトレーニングが可能であっても、各モジュールは、安全性保証、サンプル効率、正規化、解釈可能性のために、独自の目標セットを持っている。 しかし、中間目標は常にシステム全体の性能と一致しない。 例えば、軌道予測モジュールの可能性の最適化は、安全クリティカルな行動や稀な行動(例えば、ジェイウォーキング)よりも予測が容易なエージェントに焦点を当てる。 本稿では,制御に対する予測の下流効果を,プランナの識別を必要とせずに評価する制御認識予測目標(CAPO)を提案する。 本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。 実験では,carlaシミュレータを用いて郊外運転シナリオにおけるシステム全体の性能向上を目標とする。

Autonomous vehicle software is typically structured as a modular pipeline of individual components (e.g., perception, prediction, and planning) to help separate concerns into interpretable sub-tasks. Even when end-to-end training is possible, each module has its own set of objectives used for safety assurance, sample efficiency, regularization, or interpretability. However, intermediate objectives do not always align with overall system performance. For example, optimizing the likelihood of a trajectory prediction module might focus more on easy-to-predict agents than safety-critical or rare behaviors (e.g., jaywalking). In this paper, we present control-aware prediction objectives (CAPOs), to evaluate the downstream effect of predictions on control without requiring the planner be differentiable. We propose two types of importance weights that weight the predictive likelihood: one using an attention model between agents, and another based on control variation when exchanging predicted trajectories for ground truth trajectories. Experimentally, we show our objectives improve overall system performance in suburban driving scenarios using the CARLA simulator.
翻訳日:2022-04-30 02:46:38 公開日:2022-04-28
# (参考訳) 画像と映像の着色と脱色の2年

Two Decades of Colorization and Decolorization for Images and Videos ( http://arxiv.org/abs/2204.13322v1 )

ライセンス: CC BY 4.0
Shiguang Liu(参考訳) カラー化(colorization)は、グレーの画像やビデオに色を与えるコンピュータ支援のプロセスである。 白黒写真、昔ながらの映画、科学的画像結果など、白黒画像の強化に使用できる。 逆にデカラー化とは、カラー画像や動画をグレースケールに変換することである。 グレースケールの画像またはビデオは、色情報のない輝度情報のみを持つ画像またはビデオを指す。 これは、パターン認識、画像分割、画像強調などの下流画像処理アプリケーションの基礎となっている。 画像のデカラー化と異なり、ビデオのデカラー化は、ビデオフレームのコントラスト保存だけでなく、ビデオフレーム間の時間的・空間的一貫性も考慮すべきである。 研究者は空間-時間整合性とアルゴリズム効率のバランスをとることで脱色法を開発することに尽力した。 デジタルカメラと携帯電話の先行評価により、画像とビデオのカラー化とデカラー化が研究者によってますます注目されている。 本稿では,過去20年間の映像・映像のカラー化とデカラー化の進展について概説する。

Colorization is a computer-aided process, which aims to give color to a gray image or video. It can be used to enhance black-and-white images, including black-and-white photos, old-fashioned films, and scientific imaging results. On the contrary, decolorization is to convert a color image or video into a grayscale one. A grayscale image or video refers to an image or video with only brightness information without color information. It is the basis of some downstream image processing applications such as pattern recognition, image segmentation, and image enhancement. Different from image decolorization, video decolorization should not only consider the image contrast preservation in each video frame, but also respect the temporal and spatial consistency between video frames. Researchers were devoted to develop decolorization methods by balancing spatial-temporal consistency and algorithm efficiency. With the prevalance of the digital cameras and mobile phones, image and video colorization and decolorization have been paid more and more attention by researchers. This paper gives an overview of the progress of image and video colorization and decolorization methods in the last two decades.
翻訳日:2022-04-30 02:34:05 公開日:2022-04-28
# (参考訳) 車両再識別のための識別領域注意と直交視点生成モデル

Discriminative-Region Attention and Orthogonal-View Generation Model for Vehicle Re-Identification ( http://arxiv.org/abs/2204.13323v1 )

ライセンス: CC BY 4.0
Huadong Li, Yuefeng Wang, Ying Wei, Lin Wang, Li Ge(参考訳) 自動車再識別(Re-ID)は、都市交通管理の煩雑化による圧迫を軽減するために緊急に要求される。 複数の課題がビジョンベース車両のRe-ID手法の適用を妨げる:(1)同一ブランド/モデルが異なる車両の外観はよく似ているが、(2)同一車両の外観は異なる視点から大きく異なる。 これまでは主に、手動で注釈付きマルチ属性データセットを使用して、詳細なキューを取得し、マルチビューを参照して車両のRe-IDパフォーマンスを改善する。 しかしながら、詳細なラベル付き車両データセットは通常、実際のアプリケーションシナリオでは達成できない。 そこで,本論文では,車両の複数課題を克服するためにIDラベルのみを必要とするDRA-OVGモデルを提案する。 また、OVGモデルは、入力ビュー機能に基づいてマルチビュー機能を生成し、視点ミスマッチの影響を低減することができる。 最後に、車両の外観間の距離を識別領域特徴と多視点特徴とで提示する。 したがって、不完全特徴空間において、車両間の対距離測定の重要性が向上する。 提案する各成分の有効性を広範な実験により検証し, 実験結果から, vehicleid および veri-776 データセットの車体re-id法に比較して, 著しい改善が得られた。

Vehicle re-identification (Re-ID) is urgently demanded to alleviate thepressure caused by the increasingly onerous task of urban traffic management. Multiple challenges hamper the applications of vision-based vehicle Re-ID methods: (1) The appearances of different vehicles of the same brand/model are often similar; However, (2) the appearances of the same vehicle differ significantly from different viewpoints. Previous methods mainly use manually annotated multi-attribute datasets to assist the network in getting detailed cues and in inferencing multi-view to improve the vehicle Re-ID performance. However, finely labeled vehicle datasets are usually unattainable in real application scenarios. Hence, we propose a Discriminative-Region Attention and Orthogonal-View Generation (DRA-OVG) model, which only requires identity (ID) labels to conquer the multiple challenges of vehicle Re-ID.The proposed DRA model can automatically extract the discriminative region features, which can distinguish similar vehicles. And the OVG model can generate multi-view features based on the input view features to reduce the impact of viewpoint mismatches. Finally, the distance between vehicle appearances is presented by the discriminative region features and multi-view features together. Therefore, the significance of pairwise distance measure between vehicles is enhanced in acomplete feature space. Extensive experiments substantiate the effectiveness of each proposed ingredient, and experimental results indicate that our approach achieves remarkable improvements over the state- of-the-art vehicle Re-ID methods on VehicleID and VeRi-776 datasets.
翻訳日:2022-04-30 02:09:17 公開日:2022-04-28
# (参考訳) 双方向変圧器による逐次決定問題の柔軟推論に向けて

Towards Flexible Inference in Sequential Decision Problems via Bidirectional Transformers ( http://arxiv.org/abs/2204.13326v1 )

ライセンス: CC BY 4.0
Micah Carroll, Jessy Lin, Orr Paradise, Raluca Georgescu, Mingfei Sun, David Bignell, Stephanie Milani, Katja Hofmann, Matthew Hausknecht, Anca Dragan, Sam Devlin(参考訳) 単語トークンのランダムマスキングと予測は、ダウンストリームタスクで言語モデルを事前学習するのに成功している。 本研究では,振る舞いのクローン化,オフラインrl,逆ダイナミクス,waypoint条件付けなど,多くのよく研究されたタスクが,状態,アクション,戻り値のシーケンス上で異なるシーケンスマスキングに対応するような,シーケンシャルな意思決定にも,同じアイデアが自然に適用されることを観察する。 FlexiBiTフレームワークを導入し、さまざまなシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。 1つのFlexiBiTモデルが、特殊モデルと同等かそれ以上の性能を持つ多くのタスクを同時に実行可能であることを示す。 さらに、特定のタスクに対して一般的なモデルを微調整することで、パフォーマンスをさらに改善できることを示す。

Randomly masking and predicting word tokens has been a successful approach in pre-training language models for a variety of downstream tasks. In this work, we observe that the same idea also applies naturally to sequential decision making, where many well-studied tasks like behavior cloning, offline RL, inverse dynamics, and waypoint conditioning correspond to different sequence maskings over a sequence of states, actions, and returns. We introduce the FlexiBiT framework, which provides a unified way to specify models which can be trained on many different sequential decision making tasks. We show that a single FlexiBiT model is simultaneously capable of carrying out many tasks with performance similar to or better than specialized models. Additionally, we show that performance can be further improved by fine-tuning our general model on specific tasks of interest.
翻訳日:2022-04-30 01:51:00 公開日:2022-04-28
# (参考訳) 知識グラフを用いた医用診断のためのリファインディング診断法

Refining Diagnosis Paths for Medical Diagnosis based on an Augmented Knowledge Graph ( http://arxiv.org/abs/2204.13329v1 )

ライセンス: CC BY 4.0
Niclas Heilig, Jan Kirchhoff, Florian Stumpe, Joan Plepi, Lucie Flek, Heiko Paulheim(参考訳) 医療診断とは、患者が抱える可能性のある疾患を、一連の症状や観察から予測する過程である。 これは、特に多種多様な病気をカバーする場合に、広範な専門知識を必要とする。 このような知識は、疾患、症状、診断経路を包含する知識グラフでコード化することができる。 知識自体もエンコーディングも不完全であるため、知識グラフを追加情報で精算することで、医師がより良い予測を行うのに役立つ。 同時に、病院への展開には、診断が説明可能で透明でなければならない。 本稿では,医療知識グラフにおける診断経路を用いたアプローチを提案する。 これらのグラフはrdf2vecを用いた潜在表現を用いて洗練できるが、最終的な診断は説明可能な方法で行われている。 内在性と専門家による評価の両方を用いて、埋め込みに基づく予測アプローチは、グラフを追加の有効な条件で精錬するのに有用であることを示す。

Medical diagnosis is the process of making a prediction of the disease a patient is likely to have, given a set of symptoms and observations. This requires extensive expert knowledge, in particular when covering a large variety of diseases. Such knowledge can be coded in a knowledge graph -- encompassing diseases, symptoms, and diagnosis paths. Since both the knowledge itself and its encoding can be incomplete, refining the knowledge graph with additional information helps physicians making better predictions. At the same time, for deployment in a hospital, the diagnosis must be explainable and transparent. In this paper, we present an approach using diagnosis paths in a medical knowledge graph. We show that those graphs can be refined using latent representations with RDF2vec, while the final diagnosis is still made in an explainable way. Using both an intrinsic as well as an expert-based evaluation, we show that the embedding-based prediction approach is beneficial for refining the graph with additional valid conditions.
翻訳日:2022-04-30 01:34:20 公開日:2022-04-28
# (参考訳) ロボット:過去世紀と前世紀

Robots: the Century Past and the Century Ahead ( http://arxiv.org/abs/2204.13331v1 )

ライセンス: CC BY 4.0
Federico Pigozzi(参考訳) ロボット工学の現状を振り返ってみよう。 今年はR.U.R.の101ドルの記念日であり、作家のカレル・チャペック(Karel \v{C}apek)の戯曲で、しばしば「ロボット」という言葉を導入したとされている。 かつてはスラヴ語で封建的な強制労働者を指す言葉であった。 実際、ロボットシステムの重要な特徴の1つを指摘している:彼らは単なる奴隷であり、権利を持ち、命令によって我々の意志の指示を実行する。 生物学では、1つの種が利益を得るとき、2つの共生種の間の共生性サブシスト(ロボットは人間の生産性を高める)、もう1つの種は利益も害も与えられない(ロボットは単に機能するだけで利益があると言うのか)。 そして、ロボットと「生きている機械」、つまり生命と融合した機械を区別する。 もし生きた機械が現実になるべきなら、我々は彼らとの関係をコミュナリズムから相互主義へと変える必要がある。 この区別は微妙ではない。私たちは家畜と毎日経験しており、飼料と保護のために農薬を交換している。 これは、生命が奴隷化の試みに抵抗するために進化したからであり、頑固である。 リビングマシンへの道のりでは、過去100ドルでロボット工学が成し遂げた成果は何なのか? 今後1億ドルで達成すべきことは何か? 私たちにとって、答えは、以下のとおり、ジュース、必要(または死)、そして体現の3つの単語にまとめられる。

Let us reflect on the state of robotics. This year marks the $101$-st anniversary of R.U.R., a play by the writer Karel \v{C}apek, often credited with introducing the word "robot". The word used to refer to feudal forced labourers in Slavic languages. Indeed, it points to one key characteristic of robotic systems: they are mere slaves, have no rights, and execute our wills instruction by instruction, without asking anything in return. The relationship with us humans is commensalism; in biology, commensalism subsists between two symbiotic species when one species benefits from it (robots boost productivity for humans), while the other species neither benefits nor is harmed (can you really argue that robots benefit from simply functioning?). We then distinguish robots from "living machines", that is, machines infused with life. If living machines should ever become a reality, we would need to shift our relationship with them from commensalism to mutualism. The distinction is not subtle: we experience it every day with domesticated animals, that exchange serfdom for forage and protection. This is because life has evolved to resist any attempt at enslaving it; it is stubborn. In the path towards living machines, let us ask: what has been achieved by robotics in the last $100$ years? What is left to accomplish in the next $100$ years? For us, the answers boil down to three words: juice, need (or death), and embodiment, as we shall see in the following.
翻訳日:2022-04-30 01:23:46 公開日:2022-04-28
# (参考訳) Anomaly-Aware Bidirectional GANを用いた不完全異常知識の活用による異常検出

Anomaly Detection by Leveraging Incomplete Anomalous Knowledge with Anomaly-Aware Bidirectional GANs ( http://arxiv.org/abs/2204.13335v1 )

ライセンス: CC BY 4.0
Bowen Tian, Qinliang Su, Jian Yin(参考訳) 異常検出の目標は、正常なサンプルから異常なサンプルを特定することである。 本稿では,訓練段階では少数の異常が存在すると仮定するが,いくつかの異常タイプのみから収集されると仮定し,収集された異常データセットには表示されない異常タイプが多数残されている。 収集された異常を表わすこの種の不完全異常知識を効果的に活用するために,正規サンプルをモデル化できるだけでなく,収集異常に対して低い密度値を割り当てることを保証する確率分布を学習する。 この目的のために,gan(anomaly-ware generative adversarial network)が開発され,通常のサンプルのモデル化に加えて,収集された異常サンプルの確率の割り当てを明示的に回避することができる。 さらに, 再構成誤差などの異常検出基準の計算を容易にするため, 提案した異常認識型GANを双方向に設計し, 発電機のエンコーダを付加する。 実験結果から,提案手法は不完全な異常情報を効果的に利用でき,既存の手法と比較して高い性能向上が得られた。

The goal of anomaly detection is to identify anomalous samples from normal ones. In this paper, a small number of anomalies are assumed to be available at the training stage, but they are assumed to be collected only from several anomaly types, leaving the majority of anomaly types not represented in the collected anomaly dataset at all. To effectively leverage this kind of incomplete anomalous knowledge represented by the collected anomalies, we propose to learn a probability distribution that can not only model the normal samples, but also guarantee to assign low density values for the collected anomalies. To this end, an anomaly-aware generative adversarial network (GAN) is developed, which, in addition to modeling the normal samples as most GANs do, is able to explicitly avoid assigning probabilities for collected anomalous samples. Moreover, to facilitate the computation of anomaly detection criteria like reconstruction error, the proposed anomaly-aware GAN is designed to be bidirectional, attaching an encoder for the generator. Extensive experimental results demonstrate that our proposed method is able to effectively make use of the incomplete anomalous information, leading to significant performance gains compared to existing methods.
翻訳日:2022-04-30 01:18:55 公開日:2022-04-28
# (参考訳) 画像・映像におけるカラー・トランスファーとスタイル・トランスファーの概観

An Overview of Color Transfer and Style Transfer for Images and Videos ( http://arxiv.org/abs/2204.13339v1 )

ライセンス: CC BY 4.0
Shiguang Liu(参考訳) 画像または映像の外観特徴(例えば、色、テクスチャ、トーン、照明、等)は、画像または映像の視覚的知覚と直接の印象を反映する。 ソース画像(ビデオ)とターゲット画像(ビデオ)とが与えられると、画像(ビデオ)カラー転送技術は、ソース画像またはビデオの色(ソース画像またはビデオが参照画像またはビデオにも言及されていることに注意)を処理して、ターゲット画像またはビデオの外観をソース画像またはビデオの外観に移し、ソース画像またはビデオの知覚を変化させる。 カラートランスファーの拡張として、スタイルトランスファー(style transfer)は、スタイルトランスファーモデルを通して、スタイルサンプルまたは一連のイメージを用いて、アーティストのスタイルでターゲット画像またはビデオの内容をレンダリングすることを指す。 新たな分野として、スタイル伝達の研究は多くの研究者の注目を集めている。 数十年にわたる発展の後、様々な芸術的表現スタイルの学際的な研究が達成されている。 本稿では,過去数年間のカラー転送とスタイル転送について概説する。

Image or video appearance features (e.g., color, texture, tone, illumination, and so on) reflect one's visual perception and direct impression of an image or video. Given a source image (video) and a target image (video), the image (video) color transfer technique aims to process the color of the source image or video (note that the source image or video is also referred to the reference image or video in some literature) to make it look like that of the target image or video, i.e., transferring the appearance of the target image or video to that of the source image or video, which can thereby change one's perception of the source image or video. As an extension of color transfer, style transfer refers to rendering the content of a target image or video in the style of an artist with either a style sample or a set of images through a style transfer model. As an emerging field, the study of style transfer has attracted the attention of a large number of researchers. After decades of development, it has become a highly interdisciplinary research with a variety of artistic expression styles can be achieved. This paper provides an overview of color transfer and style transfer methods over the past years.
翻訳日:2022-04-30 00:54:22 公開日:2022-04-28
# (参考訳) 早期行動予測のための時間的進行注意

Temporal Progressive Attention for Early Action Prediction ( http://arxiv.org/abs/2204.13340v1 )

ライセンス: CC BY 4.0
Alexandros Stergiou, Dima Damen(参考訳) 初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。 本稿では,細粒度から硬度までの段階的サンプリングにより,動作の進化を捉えるボトルネックに基づく注意モデルを提案する。 提案するテンポラルプログレッシブ(TemPr)モデルは,複数のアテンションタワーで構成されている。 予測された行動ラベルは、これらの注目塔の信頼度を考慮した集合的な合意に基づいている。 3つのビデオデータセットにわたる広範囲な実験は、さまざまなバックボーンアーキテクチャでの早期行動予測のタスクにおける最先端のパフォーマンスを示している。 詳細な説明を通じてTemPrの有効性と一貫性を示す。

Early action prediction deals with inferring the ongoing action from partially-observed videos, typically at the outset of the video. We propose a bottleneck-based attention model that captures the evolution of the action, through progressive sampling over fine-to-coarse scales. Our proposed Temporal Progressive (TemPr) model is composed of multiple attention towers, one for each scale. The predicted action label is based on the collective agreement considering confidences of these attention towers. Extensive experiments over three video datasets showcase state-of-the-art performance on the task of Early Action Prediction across a range of backbone architectures. We demonstrate the effectiveness and consistency of TemPr through detailed ablations.
翻訳日:2022-04-30 00:28:30 公開日:2022-04-28
# (参考訳) UniTE: 統一翻訳評価

UniTE: Unified Translation Evaluation ( http://arxiv.org/abs/2204.13346v1 )

ライセンス: CC BY 4.0
Yu Wan, Dayiheng Liu, Baosong Yang, Haibo Zhang, Boxing Chen, Derek F. Wong, Lidia S. Chao(参考訳) 翻訳品質評価は機械翻訳において重要な役割を果たす。 入力形式によれば、主に3つのタスク、すなわち参照専用、ソース専用、ソース参照結合に分けられる。 期待された結果にもかかわらず、最近の手法は特別に設計され、最適化されている。 これはこれらのメソッドの利便性を制限し、タスク間の共通性を見落とします。 本稿では,3つの評価課題すべてを扱う能力に携わる最初の統合フレームワークであるUniTEを提案する。 具体的には,入力セグメント間のインタラクションを制御するための単調な局所的注意と,マルチタスク学習の適応性を高めるための統一事前学習を提案する。 我々は、wmt 2019 metricsとwmt 2020 quality estimation benchmarksでフレームワークをテストした。 広範な分析により、我々の \textit{single model} は、タスク間で様々な最先端メソッドや勝者メソッドを普遍的に超越できることが示された。 ソースコードと関連するモデルの両方がhttps://github.com/NLP2CT/UniTEで公開されている。

Translation quality evaluation plays a crucial role in machine translation. According to the input format, it is mainly separated into three tasks, i.e., reference-only, source-only and source-reference-combined. Recent methods, despite their promising results, are specifically designed and optimized on one of them. This limits the convenience of these methods, and overlooks the commonalities among tasks. In this paper, we propose UniTE, which is the first unified framework engaged with abilities to handle all three evaluation tasks. Concretely, we propose monotonic regional attention to control the interaction among input segments, and unified pretraining to better adapt multi-task learning. We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks. Extensive analyses show that our \textit{single model} can universally surpass various state-of-the-art or winner methods across tasks. Both source code and associated models are available at https://github.com/NLP2CT/UniTE.
翻訳日:2022-04-30 00:09:39 公開日:2022-04-28
# (参考訳) 画像復元のためのDeep Generalized Unfolding Networks

Deep Generalized Unfolding Networks for Image Restoration ( http://arxiv.org/abs/2204.13348v1 )

ライセンス: CC BY 4.0
Chong Mou, Qian Wang, Jian Zhang(参考訳) ディープニューラルネットワーク(DNN)は画像復元において大きな成功を収めている。 しかし、ほとんどのDNNメソッドはブラックボックスとして設計されており、透明性と解釈性に欠ける。 従来の最適化アルゴリズムとDNNを組み合わせる方法が提案されているが、通常は事前に定義された分解プロセスや手作りの仮定を必要とするため、複雑で現実的なアプリケーションを扱うのは困難である。 本稿では,画像復元のためのDeep Generalized Unfolding Network (DGUNet)を提案する。 具体的には、解釈可能性を失うことなく、近次勾配降下(PGD)アルゴリズムの勾配降下ステップに勾配推定戦略を統合することにより、複雑な実世界の画像劣化に対処する。 さらに,様々なpgd反復で近位マッピングを横断する段階間情報経路を設計し,dun (deep unfolding network) における本質的情報損失を,マルチスケールで空間適応的な方法で補正する。 フレキシブル勾配勾配と情報的近位写像を組み合わせることで、反復PGDアルゴリズムをトレーニング可能なDNNに展開する。 様々な画像復元課題に関する広範囲な実験は,最先端の性能,解釈性,一般化性の観点から,この手法が優れていることを示している。 ソースコードはhttps://github.com/MC-E/Deep-Generalized-Unfolding-Networks-for-Image-Restorationで公開されている。

Deep neural networks (DNN) have achieved great success in image restoration. However, most DNN methods are designed as a black box, lacking transparency and interpretability. Although some methods are proposed to combine traditional optimization algorithms with DNN, they usually demand pre-defined degradation processes or handcrafted assumptions, making it difficult to deal with complex and real-world applications. In this paper, we propose a Deep Generalized Unfolding Network (DGUNet) for image restoration. Concretely, without loss of interpretability, we integrate a gradient estimation strategy into the gradient descent step of the Proximal Gradient Descent (PGD) algorithm, driving it to deal with complex and real-world image degradation. In addition, we design inter-stage information pathways across proximal mapping in different PGD iterations to rectify the intrinsic information loss in most deep unfolding networks (DUN) through a multi-scale and spatial-adaptive way. By integrating the flexible gradient descent and informative proximal mapping, we unfold the iterative PGD algorithm into a trainable DNN. Extensive experiments on various image restoration tasks demonstrate the superiority of our method in terms of state-of-the-art performance, interpretability, and generalizability. The source code is available at https://github.com/MC-E/Deep-Generalized-Unfolding-Networks-for-Image-Restoration.
翻訳日:2022-04-29 23:53:09 公開日:2022-04-28
# (参考訳) 固定事前学習特徴抽出器を用いたベイズモデルによる連続学習

Continual Learning with Bayesian Model based on a Fixed Pre-trained Feature Extractor ( http://arxiv.org/abs/2204.13349v1 )

ライセンス: CC BY 4.0
Yang Yang, Zhiying Cui, Junjie Xu, Changhong Zhong, Wei-Shi Zheng, Ruixuan Wang(参考訳) ディープラーニングは、さまざまなアプリケーションで人間レベルのパフォーマンスを示している。 しかし、現在のディープラーニングモデルは、新しいクラスを学ぶ際に古い知識を忘れることによって特徴付けられる。 これは、当初は限られた病気のトレーニングデータしか利用できない知的診断システムにおいて、特に課題となる。 この場合、新しい疾患のデータでインテリジェントなシステムを更新することは、学習済みの疾患のパフォーマンスを必然的に低下させる。 人間の脳における新しい知識の学習プロセスに触発されて,固定された訓練済み特徴抽出器上に構築された連続学習のためのベイズ生成モデルを提案する。 このモデルでは、各古いクラスの知識は、例えばガウス混合モデルのような統計分布の集合でコンパクトに表現することができ、時間とともに連続的な学習を忘れないように自然に保たれる。 既存のクラス増分学習法とは異なり,提案手法は継続学習プロセスに敏感ではなく,データ増分学習シナリオにも適用可能である。 複数の医学的・自然的な画像分類タスクにおける実験により,提案手法は,新しい授業の連続学習中に古いクラスのイメージを保ち続けるような最先端のアプローチよりも優れていることが示された。

Deep learning has shown its human-level performance in various applications. However, current deep learning models are characterised by catastrophic forgetting of old knowledge when learning new classes. This poses a challenge particularly in intelligent diagnosis systems where initially only training data of a limited number of diseases are available. In this case, updating the intelligent system with data of new diseases would inevitably downgrade its performance on previously learned diseases. Inspired by the process of learning new knowledge in human brains, we propose a Bayesian generative model for continual learning built on a fixed pre-trained feature extractor. In this model, knowledge of each old class can be compactly represented by a collection of statistical distributions, e.g. with Gaussian mixture models, and naturally kept from forgetting in continual learning over time. Unlike existing class-incremental learning methods, the proposed approach is not sensitive to the continual learning process and can be additionally well applied to the data-incremental learning scenario. Experiments on multiple medical and natural image classification tasks showed that the proposed approach outperforms state-of-the-art approaches which even keep some images of old classes during continual learning of new classes.
翻訳日:2022-04-29 23:35:22 公開日:2022-04-28
# (参考訳) WMT2021 Metrics Task の RoBLEURT 提出

RoBLEURT Submission for the WMT2021 Metrics Task ( http://arxiv.org/abs/2204.13352v1 )

ライセンス: CC BY 4.0
Yu Wan, Dayiheng Liu, Baosong Yang, Tianchi Bi, Haibo Zhang, Boxing Chen, Weihua Luo, Derek F. Wong, Lidia S. Chao(参考訳) 本稿では,共有メトリックタスクのRoBLEURT(Robustly Optimizing the Training of BLEURT)について述べる。 トレーニング可能なメトリクスの最近の進歩を調査した結果、私たちは次のような重要な側面を結論付けている。 1)ソースインクルードモデルと参照専用モデルの利点を共同で活用する。 2)大量合成データペアでモデルを継続的に事前訓練し、 3) データ記述戦略でモデルを微調整する。 実験の結果,10対の言語対のうち8対に対して,WMT2020の人文アノテーションと最先端の相関が得られた。

In this paper, we present our submission to Shared Metrics Task: RoBLEURT (Robustly Optimizing the training of BLEURT). After investigating the recent advances of trainable metrics, we conclude several aspects of vital importance to obtain a well-performed metric model by: 1) jointly leveraging the advantages of source-included model and reference-only model, 2) continuously pre-training the model with massive synthetic data pairs, and 3) fine-tuning the model with data denoising strategy. Experimental results show that our model reaching state-of-the-art correlations with the WMT2020 human annotations upon 8 out of 10 to-English language pairs.
翻訳日:2022-04-29 23:33:53 公開日:2022-04-28
# (参考訳) エネルギーフレンドリー操作による注意機構

Attention Mechanism with Energy-Friendly Operations ( http://arxiv.org/abs/2204.13353v1 )

ライセンス: CC BY 4.0
Yu Wan, Baosong Yang, Dayiheng Liu, Rong Xiao, Derek F. Wong, Haibo Zhang, Boxing Chen, Lidia S. Chao(参考訳) 注意機構は自然言語処理モデルにおいて支配的なモジュールとなっている。 計算集約であり、巨大なパワーハングリー乗法に依存する。 本稿では,エネルギー消費の観点から注意機構の変種を再考する。 いくつかのエネルギーフレンドリーな演算のエネルギーコストが乗算よりもはるかに少ないという結論に達した後、選択的な演算や加算に乗算を置き換え、新しい注意モデルを構築した。 3つの機械翻訳タスクにおける実験結果は,提案モデルがバニラモデルに対して,アライメント計算とアライメント手順全体において99\%と66\%の省エネルギを節約しつつ,計算可能な精度を達成することを示した。 コードは、https://github.com/NLP2CT/E-Att.comで入手できる。

Attention mechanism has become the dominant module in natural language processing models. It is computationally intensive and depends on massive power-hungry multiplications. In this paper, we rethink variants of attention mechanism from the energy consumption aspects. After reaching the conclusion that the energy costs of several energy-friendly operations are far less than their multiplication counterparts, we build a novel attention model by replacing multiplications with either selective operations or additions. Empirical results on three machine translation tasks demonstrate that the proposed model, against the vanilla one, achieves competitable accuracy while saving 99\% and 66\% energy during alignment calculation and the whole attention procedure. Code is available at: https://github.com/NLP2CT/E-Att.
翻訳日:2022-04-29 23:25:15 公開日:2022-04-28
# (参考訳) poly-cam:畳み込みニューラルネットワークのための高分解能クラスアクティベーションマップ

Poly-CAM: High resolution class activation map for convolutional neural networks ( http://arxiv.org/abs/2204.13359v1 )

ライセンス: CC BY 4.0
Alexandre Englebert, Olivier Cornu, Christophe De Vleeschouwer(参考訳) ディープラーニングの発展に伴い、説明可能なAIの必要性が高まっている。 畳み込みニューラルネットワークに由来する塩分マップは、ネットワーク予測を正当化する画像特徴を精度良くローカライズするのに失敗する。 これは、これらの地図がcam(zhou et al., 2016)のように低解像度であるか、摂動に基づく手法(zeiler and fergus, 2014)でスムーズであるか、勾配に基づくアプローチで広く分布するピークスポット(sundararajan et al., 2017 smilkov et al., 2017)に対応しているためである。 これとは対照的に,本稿では,従来のネットワークレイヤの情報と後続のレイヤの情報を組み合わせて,挿入削除忠実度指標の観点から従来の技術と競合する高解像度のクラス活性化マップを作成することを提案する。

The need for Explainable AI is increasing with the development of deep learning. The saliency maps derived from convolutional neural networks generally fail in localizing with accuracy the image features justifying the network prediction. This is because those maps are either low-resolution as for CAM [Zhou et al., 2016], or smooth as for perturbation-based methods [Zeiler and Fergus, 2014], or do correspond to a large number of widespread peaky spots as for gradient-based approaches [Sundararajan et al., 2017, Smilkov et al., 2017]. In contrast, our work proposes to combine the information from earlier network layers with the one from later layers to produce a high resolution Class Activation Map that is competitive with the previous art in term of insertion-deletion faithfulness metrics, while outperforming it in term of precision of class-specific features localization.
翻訳日:2022-04-29 23:15:06 公開日:2022-04-28
# (参考訳) Tailor: 属性ベースの制御されたテキスト生成のためのプロンプトベースのアプローチ

Tailor: A Prompt-Based Approach to Attribute-Based Controlled Text Generation ( http://arxiv.org/abs/2204.13362v1 )

ライセンス: CC BY 4.0
Kexin Yang, Dayiheng Liu, Wenqiang Lei, Baosong Yang, Mingfeng Xue, Boxing Chen, Jun Xie(参考訳) 属性ベース制御テキスト生成(ctg)は、望ましい属性(例えば感情や話題)を満たす文を生成することを指す。 既存の作品では、細かなチューニングや追加の属性分類を行うことが多いが、ストレージや推論時間の増加に苦しむ。 これらの問題に対処するために,属性に基づくCTGを即時的に探索する。 要するに、提案されたtailorは、各属性を事前学習された連続ベクトル(すなわち、単一属性プロンプト)として表現し、固定されたplmスイッチの生成を予め指定された属性に導く。 実験により,これらのプロンプトは再訓練することなく,多属性ctgに単純に連結できるが,フラレンシ低下や位置感度の問題を引き起こすことが判明した。 この目的のために、tailorはマルチアトリビュートプロンプトマスクと再インデックス位置idsシーケンスを提供し、トレーニング(各タスクのプロンプト)とテストステージ(複数のプロンプトを連結する)の間のギャップを埋める。 このようなシングルアトリビュートプロンプトの組み合わせをさらに強化するために、Talor氏は、マルチアトリビュートテキスト生成への2つのシングルアトリビュートプロンプトと結合可能な、トレーニング可能なプロンプトコネクタも導入している。 11の属性固有の生成タスクの実験は、シングル属性とマルチ属性のCTGに対して、GPT-2の0.08\%のトレーニングパラメータで、Tailorの強い性能を示す。

Attribute-based Controlled Text Generation (CTG) refers to generating sentences that satisfy desirable attributes (e.g., emotions and topics). Existing works often utilize fine-tuning or resort to extra attribute classifiers, yet suffer from storage and inference time increases. To address these concerns, we explore attribute-based CTG in a prompt-based manner. In short, the proposed Tailor represents each attribute as a pre-trained continuous vector (i.e., single-attribute prompt) and guides the generation of a fixed PLM switch to a pre-specified attribute. We experimentally find that these prompts can be simply concatenated as a whole to multi-attribute CTG without any re-training, yet raises problems of fluency decrease and position sensitivity. To this end, Tailor provides a multi-attribute prompt mask and a re-indexing position-ids sequence to bridge the gap between the training (one prompt for each task) and testing stage (concatenating more than one prompt). To further enhance such single-attribute prompt combinations, Tailor also introduces a trainable prompt connector, which can be concatenated with any two single-attribute prompts to multi-attribute text generation. Experiments on 11 attribute-specific generation tasks demonstrate strong performances of Tailor on both single-attribute and multi-attribute CTG, with 0.08\% training parameters of a GPT-2.
翻訳日:2022-04-29 23:12:26 公開日:2022-04-28
# (参考訳) D3:コンピュータサイエンス研究の現状を分析するための学術メタデータの膨大なデータセット

D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research ( http://arxiv.org/abs/2204.13384v1 )

ライセンス: CC BY-SA 4.0
Jan Philip Wahle and Terry Ruas and Saif M. Mohammad and Bela Gipp(参考訳) DBLPは、コンピュータ科学に関する科学論文の公開リポジトリであり、出版物、著者、会場に関連するメタデータを提供している。 我々はDBLPから600万以上の出版物を検索し、出版テキストから関連するメタデータ(要約、著者関係、引用など)を抽出し、DBLPディスカバリデータセット(D3)を作成しました。 D3は、コンピュータ科学研究のアクティビティ、生産性、焦点、バイアス、アクセシビリティ、および影響の傾向を特定するために使用できる。 本稿では,コンピュータサイエンス研究のボリューム(論文数,著者数,研究活動数),興味のあるトピックの傾向,引用パターンなどに着目した初期分析を行う。 その結果,コンピュータ科学は研究分野の成長(毎年約15%)であり,活発で協調的な研究者コミュニティであることがわかった。 近年の論文は、過去数十年に比べて書誌的な内容が多いが、引用数の平均は減少している。 論文の要約を見ると、最近のトピックトレンドがd3に明らかに反映されていることが分かる。 最後に、d3のさらなる応用をリストアップし、補足的な研究課題を提起する。 d3データセット、我々の調査結果、ソースコードは研究目的で公開されています。

DBLP is the largest open-access repository of scientific articles on computer science and provides metadata associated with publications, authors, and venues. We retrieved more than 6 million publications from DBLP and extracted pertinent metadata (e.g., abstracts, author affiliations, citations) from the publication texts to create the DBLP Discovery Dataset (D3). D3 can be used to identify trends in research activity, productivity, focus, bias, accessibility, and impact of computer science research. We present an initial analysis focused on the volume of computer science research (e.g., number of papers, authors, research activity), trends in topics of interest, and citation patterns. Our findings show that computer science is a growing research field (approx. 15% annually), with an active and collaborative researcher community. While papers in recent years present more bibliographical entries in comparison to previous decades, the average number of citations has been declining. Investigating papers' abstracts reveals that recent topic trends are clearly reflected in D3. Finally, we list further applications of D3 and pose supplemental research questions. The D3 dataset, our findings, and source code are publicly available for research purposes.
翻訳日:2022-04-29 22:56:20 公開日:2022-04-28
# (参考訳) ストックポートフォリオ選択のためのファジィエキスパートシステム:ボンベイ証券取引所への適用

Fuzzy Expert System for Stock Portfolio Selection: An Application to Bombay Stock Exchange ( http://arxiv.org/abs/2204.13385v1 )

ライセンス: CC BY 4.0
Gour Sundar Mitra Thakur, Rupak Bhattacharyyab, Seema Sarkar (Mondal)(参考訳) 投資比率を割り振る前の適切な株式の選択は、常に投資家にとって重要な課題である。 ストックパフォーマンスにおける多くの影響要因の存在は、研究者に様々な人工知能(AI)技術の採用を動機付けている。 本稿では,ボンベイ証券取引所(BSE)の株式評価とランク付けを目的としたファジィエキスパートシステムモデルを提案する。 Dempster-Shafer(DS)エビデンス理論は、ファジィルールベースの結果を自動的に生成し、エキスパートシステムの知識ベース開発における労力を削減するために初めて用いられる。 後にポートフォリオ最適化モデルが構築され、目的関数は、ファジィポートフォリオリターンの差と、使用済み資産の重み付け平均半分散に対するリスクフリーリターンの比率と見なされる。 このモデルは上位の株式を優先してアントコロニー最適化(ACO)アルゴリズムを適用することで解決される。 このモデルの性能は、株の最近の業績と比較すると短期投資期間において満足できることがわかった。

Selection of proper stocks, before allocating investment ratios, is always a crucial task for the investors. Presence of many influencing factors in stock performance have motivated researchers to adopt various Artificial Intelligence (AI) techniques to make this challenging task easier. In this paper a novel fuzzy expert system model is proposed to evaluate and rank the stocks under Bombay Stock Exchange (BSE). Dempster-Shafer (DS) evidence theory is used for the first time to automatically generate the consequents of the fuzzy rule base to reduce the effort in knowledge base development of the expert system. Later a portfolio optimization model is constructed where the objective function is considered as the ratio of the difference of fuzzy portfolio return and the risk free return to the weighted mean semi-variance of the assets that has been used. The model is solved by applying Ant Colony Optimization (ACO) algorithm by giving preference to the top ranked stocks. The performance of the model proved to be satisfactory for short-term investment period when compared with the recent performance of the stocks.
翻訳日:2022-04-29 22:42:31 公開日:2022-04-28
# (参考訳) WeaNF: 正規化フローによる弱スーパービジョン

WeaNF: Weak Supervision with Normalizing Flows ( http://arxiv.org/abs/2204.13409v1 )

ライセンス: CC BY 4.0
Andreas Stephan, Benjamin Roth(参考訳) 大きなデータセットの高価な手動アノテーションの必要性を減らすための一般的なアプローチは、ノイズの多いラベル、カバレッジ、バイアスの問題を引き起こす弱い監督である。 これらの問題を克服する手法は差別モデルに依存するか、弱い監督に特有のコスト関数で訓練されたか、より最近では自動アノテーションプロセスの出力をモデル化しようとする生成モデルである。 本研究では,アノテーションプロセス(ラベル付け関数マッチング)の出力をモデル化する代わりに,ラベル付け関数がカバーする入力側データ分布(特徴空間)を生成的にモデル化する。 具体的には,流れの正規化を用いて,各弱いラベリング源やラベリング関数の密度を推定する。 本手法の不可欠な部分は,複数の同時ラベリング関数のフローベースモデリングであり,ラベリング関数の重なりや相関といった現象を捉えている。 本研究では,一般的な弱監視データセットの有効性とモデリング能力を分析し,弱監視正規化フローと標準弱監視ベースラインを比較した。

A popular approach to decrease the need for costly manual annotation of large data sets is weak supervision, which introduces problems of noisy labels, coverage and bias. Methods for overcoming these problems have either relied on discriminative models, trained with cost functions specific to weak supervision, and more recently, generative models, trying to model the output of the automatic annotation process. In this work, we explore a novel direction of generative modeling for weak supervision: Instead of modeling the output of the annotation process (the labeling function matches), we generatively model the input-side data distributions (the feature space) covered by labeling functions. Specifically, we estimate a density for each weak labeling source, or labeling function, by using normalizing flows. An integral part of our method is the flow-based modeling of multiple simultaneously matching labeling functions, and therefore phenomena such as labeling function overlap and correlations are captured. We analyze the effectiveness and modeling capabilities on various commonly used weak supervision data sets, and show that weakly supervised normalizing flows compare favorably to standard weak supervision baselines.
翻訳日:2022-04-29 22:27:11 公開日:2022-04-28
# (参考訳) 重度不均衡データセットに対する連合学習のロバスト性向上

Improving the Robustness of Federated Learning for Severely Imbalanced Datasets ( http://arxiv.org/abs/2204.13414v1 )

ライセンス: CC BY 4.0
Debasrita Chakraborty and Ashish Ghosh(参考訳) ますますデータ不足とディープニューラルネットワークの成功により、分散ディープラーニングの研究が注目されるようになった。 この分散学習を実現するための2つの一般的なアプローチは、同期と非同期の重み更新である。 本稿では,非常に単純な同期重み更新機構について検討した。 ワーカノードの増加に伴い、パフォーマンスが大幅に低下することがわかった。 この効果は、極端な不均衡分類(例えば、異常検出)の文脈で研究されている。 実際の場合、i.d.の仮定条件は満たされないかもしれない。 また、ローカルサーバが深刻な不均衡データを受信し、マイノリティクラスからのサンプルが得られない、異常検出のようなグローバルクラスの不均衡が発生する可能性がある。 その場合、ローカルサーバのDNNは、彼らが受け取る多数派に完全に偏っている。 これはパラメータサーバでの学習(実際にはデータを見ることができない)に大きな影響を与えるでしょう。 並列環境では、パラメータサーバで既存のフェデレーションウェイト更新機構を使用すると、ワーカノード数の増加によってパフォーマンスが劇的に低下する。 これは主に、ノード数が増加するにつれて、1つのワーカノードがデータのごく一部を取得できる可能性が高く、過度に適合したり、高度に不均衡なクラス分布を持つことなくモデルをトレーニングできないためである。 そこで,本章では,適応的コスト感応運動量平均化の概念を導入することで,この問題に対する回避策を提案する。 提案手法では,性能の低下を最小限に抑えることはできなかったが,他の手法は最下位に到達した。

With the ever increasing data deluge and the success of deep neural networks, the research of distributed deep learning has become pronounced. Two common approaches to achieve this distributed learning is synchronous and asynchronous weight update. In this manuscript, we have explored very simplistic synchronous weight update mechanisms. It has been seen that with an increasing number of worker nodes, the performance degrades drastically. This effect has been studied in the context of extreme imbalanced classification (e.g. outlier detection). In practical cases, the assumed conditions of i.i.d. may not be fulfilled. There may also arise global class imbalance situations like that of outlier detection where the local servers receive severely imbalanced data and may not get any samples from the minority class. In that case, the DNNs in the local servers will get completely biased towards the majority class that they receive. This would highly impact the learning at the parameter server (which practically does not see any data). It has been observed that in a parallel setting if one uses the existing federated weight update mechanisms at the parameter server, the performance degrades drastically with the increasing number of worker nodes. This is mainly because, with the increasing number of nodes, there is a high chance that one worker node gets a very small portion of the data, either not enough to train the model without overfitting or having a highly imbalanced class distribution. The chapter, hence, proposes a workaround to this problem by introducing the concept of adaptive cost-sensitive momentum averaging. It is seen that for the proposed system, there was no to minimal degradation in performance while most of the other methods hit their bottom performance before that.
翻訳日:2022-04-29 22:14:28 公開日:2022-04-28
# (参考訳) 共有空間からの投影による多言語ニュースクラスタリングの簡略化

Simplifying Multilingual News Clustering Through Projection From a Shared Space ( http://arxiv.org/abs/2204.13418v1 )

ライセンス: CC BY 4.0
Jo\~ao Santos, Afonso Mendes and Sebasti\~ao Miranda(参考訳) メディア監視のための多言語ニュース記事の整理とクラスタ化は,ニュース記事のリアルタイムな追跡に不可欠である。 このタスクのほとんどのアプローチは、高リソース言語(主に英語)に焦点を当てており、低リソース言語は無視されている。 そこで我々は,言語固有の機能に依存することなく,よりシンプルな文書ストリームをクラスタリングできるオンラインシステムを提案する。 文書表現における多言語文脈埋め込みの使用はクラスタリングの品質を大幅に向上させることを示す。 単言語クラスタ構築の前提条件を取り除き,従来の言語間アプローチに挑戦する。 我々は,類似文書を集約するための線形分類器のセットとしてクラスタリングプロセスをモデル化し,密接に関連する多言語クラスタをオンラインの方法でマージすることにより修正する。 本システムは,多言語ニュースストリームクラスタリングデータセット上で最先端の成果を達成し,複数言語におけるゼロショットニュースクラスタリングの新しい評価手法を提案する。 コードをオープンソースとして公開しています。

The task of organizing and clustering multilingual news articles for media monitoring is essential to follow news stories in real time. Most approaches to this task focus on high-resource languages (mostly English), with low-resource languages being disregarded. With that in mind, we present a much simpler online system that is able to cluster an incoming stream of documents without depending on language-specific features. We empirically demonstrate that the use of multilingual contextual embeddings as the document representation significantly improves clustering quality. We challenge previous crosslingual approaches by removing the precondition of building monolingual clusters. We model the clustering process as a set of linear classifiers to aggregate similar documents, and correct closely-related multilingual clusters through merging in an online fashion. Our system achieves state-of-the-art results on a multilingual news stream clustering dataset, and we introduce a new evaluation for zero-shot news clustering in multiple languages. We make our code available as open-source.
翻訳日:2022-04-29 21:57:56 公開日:2022-04-28
# (参考訳) オートエンコーダを用いたハイブリッドマルチタスク予測ネットワークによるインド株の日内オープン・ロークローズ価格予測

Autoencoder based Hybrid Multi-Task Predictor Network for Daily Open-High-Low-Close Prices Prediction of Indian Stocks ( http://arxiv.org/abs/2204.13422v1 )

ライセンス: CC BY 4.0
Debasrita Chakraborty, Susmita Ghosh, Ashish Ghosh(参考訳) 株価は非常に不安定であり、トレンドの急激な変化はしばしば従来の予測モデルに対処する上で非常に問題となる。 LSTM(Long Short Term Memory)ネットワークは、そのような予測の最先端モデルと見なされている。 しかし、これらのモデルは価格傾向の急変と劇的な変化には対処できない。 さらに、株式のオープン・ハイ・ロー・クローズ(ohlc)価格にはいくつかの固有の制約がある。 文学はOHLC価格の性質についての研究を欠いている。 我々は、翌日のohlc価格の予測は、これらのohlc価格のみを用いて主に計算されるため、株価の傾向を予測するよりもずっと有益であると主張する。 主にBTST(Buy-Today Sell-Tomorrow)取引に重点を置いている。 この点において、株価で事前訓練されたAEは有益かもしれない。 プレトレーニングエンコーダがマルチタスク予測ネットワークの前でカスケードされる,新たなフレームワークを提案する。 このハイブリッドネットワークは、ネットワークの組み合わせのパワーを活用し、OHLCの制約に対処すると同時に、突然の価格変動を捉えることができる。 このようなネットワークは、株価を予測するのにはるかに効率的である。 実験は翌日に最も利益率が高く、最も過多な株を推奨するために延長された。 このモデルは複数のインド企業でテストされており、提案されたモデルからのレコメンデーションでは300日間の試験期間で1回も損なわれていないことが判明した。

Stock prices are highly volatile and sudden changes in trends are often very problematic for traditional forecasting models to handle. The standard Long Short Term Memory (LSTM) networks are regarded as the state-of-the-art models for such predictions. But, these models fail to handle sudden and drastic changes in the price trend. Moreover, there are some inherent constraints with the open, high, low and close (OHLC) prices of the stocks. Literature lacks the study on the inherent property of OHLC prices. We argue that predicting the OHLC prices for the next day is much more informative than predicting the trends of the stocks as the trend is mostly calculated using these OHLC prices only. The problem mainly is focused on Buy-Today Sell-Tomorrow (BTST) trading. In this regard, AEs when pre-trained with the stock prices, may be beneficial. A novel framework is proposed where a pre-trained encoder is cascaded in front of the multi-task predictor network. This hybrid network can leverage the power of a combination of networks and can both handle the OHLC constraints as well as capture any sudden drastic changes in the prices. It is seen that such a network is much more efficient at predicting stock prices. The experiments have been extended to recommend the most profitable and most overbought stocks on the next day. The model has been tested for multiple Indian companies and it is found that the recommendations from the proposed model have not resulted in a single loss for a test period of 300 days.
翻訳日:2022-04-29 21:49:23 公開日:2022-04-28
# (参考訳) AE-NeRF:3次元物体操作のための自動符号化ニューラルネットワーク

AE-NeRF: Auto-Encoding Neural Radiance Fields for 3D-Aware Object Manipulation ( http://arxiv.org/abs/2204.13426v1 )

ライセンス: CC BY 4.0
Mira Kim, Jaehoon Ko, Kyusun Cho, Junmyeong Choi, Daewon Choi, Seungryong Kim(参考訳) 本稿では,AE-NeRF(Auto-Encoding Neural Radiance Fields)と呼ばれる3次元オブジェクト操作のための新しいフレームワークを提案する。 本モデルはオートエンコーダアーキテクチャで定式化されており、画像から3d形状、外観、カメラポーズ等の異角形3d属性を抽出し、異角形神経放射野(nerf)を介してその属性から高品質な画像を生成する。 そこで本研究では,入力と出力の間に定義されたグローバルな属性整合性損失と,帰属型分類損失の2つの損失を示す。 このような自動エンコーディングネットワークを、地味な形状や外観情報のないスクラッチからトレーニングすることは容易ではないため、パフォーマンスを劇的に向上させる段階的トレーニングスキームを提案する。 提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。

We propose a novel framework for 3D-aware object manipulation, called Auto-Encoding Neural Radiance Fields (AE-NeRF). Our model, which is formulated in an auto-encoder architecture, extracts disentangled 3D attributes such as 3D shape, appearance, and camera pose from an image, and a high-quality image is rendered from the attributes through disentangled generative Neural Radiance Fields (NeRF). To improve the disentanglement ability, we present two losses, global-local attribute consistency loss defined between input and output, and swapped-attribute classification loss. Since training such auto-encoding networks from scratch without ground-truth shape and appearance information is non-trivial, we present a stage-wise training scheme, which dramatically helps to boost the performance. We conduct experiments to demonstrate the effectiveness of the proposed model over the latest methods and provide extensive ablation studies.
翻訳日:2022-04-29 21:32:47 公開日:2022-04-28
# (参考訳) DOTIN: GNNのタスク関連ノードのドロップ

DOTIN: Dropping Task-Irrelevant Nodes for GNNs ( http://arxiv.org/abs/2204.13429v1 )

ライセンス: CC BY 4.0
Shaofeng Zhang, Feng Zhu, Junchi Yan, Rui Zhao, Xiaokang Yang(参考訳) スケーラビリティはディープグラフニューラルネットワークの重要な考慮事項である。 CNNの従来のプーリング層にインスパイアされた最近のグラフ学習アプローチでは、スケーラビリティと効率性を改善するために、学習用のグラフのサイズを減らすためのプーリング戦略が導入されている。 しかし、これらのプーリングベースのメソッドは、主に単一のグラフレベルのタスクに調整され、ローカル情報により多くの注意を払って、タスク固有のグローバル情報を必要とするマルチタスク設定のパフォーマンスを制限する。 本稿では、これらのプーリングに基づく取り組みから離れ、グラフのサイズを減らすために、DOTIN (\underline{D}r\underline{o}pping \underline{T}ask-\underline{I}rrelevant \underline{N}odes) と呼ばれる新しいアプローチを設計する。 具体的には、K$の学習可能な仮想ノードを導入して、それぞれK$の異なるグラフレベルのタスクを対象とするグラフ埋め込みを表現することで、注意モデルによる注意力の低い生ノードの最大90%が、顕著なパフォーマンス低下を伴わずに適応的にドロップできる。 ほぼ同じ精度で、グラフ分類やグラフ編集距離(GED)を含むグラフレベルのタスクでは、D\&Dデータセットでは、約60\%のメモリでGATを約50%高速化する。 コードはhttps://github.com/Sherrylone/DOTINで公開される。

Scalability is an important consideration for deep graph neural networks. Inspired by the conventional pooling layers in CNNs, many recent graph learning approaches have introduced the pooling strategy to reduce the size of graphs for learning, such that the scalability and efficiency can be improved. However, these pooling-based methods are mainly tailored to a single graph-level task and pay more attention to local information, limiting their performance in multi-task settings which often require task-specific global information. In this paper, departure from these pooling-based efforts, we design a new approach called DOTIN (\underline{D}r\underline{o}pping \underline{T}ask-\underline{I}rrelevant \underline{N}odes) to reduce the size of graphs. Specifically, by introducing $K$ learnable virtual nodes to represent the graph embeddings targeted to $K$ different graph-level tasks, respectively, up to 90\% raw nodes with low attentiveness with an attention model -- a transformer in this paper, can be adaptively dropped without notable performance decreasing. Achieving almost the same accuracy, our method speeds up GAT by about 50\% on graph-level tasks including graph classification and graph edit distance (GED) with about 60\% less memory, on D\&D dataset. Code will be made publicly available in https://github.com/Sherrylone/DOTIN.
翻訳日:2022-04-29 21:03:45 公開日:2022-04-28
# (参考訳) regotron:単調アライメント損失によるtacotron2アーキテクチャの規則化

Regotron: Regularizing the Tacotron2 architecture via monotonic alignment loss ( http://arxiv.org/abs/2204.13437v1 )

ライセンス: CC BY 4.0
Efthymios Georgiou, Kosmas Kritsis, Georgios Paraskevopoulos, Athanasios Katsamanis, Vassilis Katsouros, Alexandros Potamianos(参考訳) 最近のdeep learning text-to-speech (tts)システムは、人間のパリティに近い音声を生成することで素晴らしいパフォーマンスを達成している。 しかし、トレーニング安定性の問題や、中間音響表現と入力テキストシーケンスの不正なアライメントに悩まされている。 本研究では,トレーニング問題を緩和し,同時にモノトニックアライメントを生成することを目的としたTacotron2の正規化バージョンであるRegotronを紹介する。 本手法は,バニラTacotron2目的関数を付加項で拡張し,位置感応性注意機構における非単調アライメントをペナル化する。 この正規化項を適切に調整することで、損失曲線はより滑らかになり、同時にRegotronはトレーニングプロセスの初期段階(エポックの総数の13倍%)においても、見知らぬ例において一律に単調なアライメントを発生させるが、完全に収束したTacotron2はそうしない。 さらに,提案手法では,ttsの誤りを低減し,50名の評価者から収集した主観的平均評価スコア (mos) により音声の自然性が向上した。

Recent deep learning Text-to-Speech (TTS) systems have achieved impressive performance by generating speech close to human parity. However, they suffer from training stability issues as well as incorrect alignment of the intermediate acoustic representation with the input text sequence. In this work, we introduce Regotron, a regularized version of Tacotron2 which aims to alleviate the training issues and at the same time produce monotonic alignments. Our method augments the vanilla Tacotron2 objective function with an additional term, which penalizes non-monotonic alignments in the location-sensitive attention mechanism. By properly adjusting this regularization term we show that the loss curves become smoother, and at the same time Regotron consistently produces monotonic alignments in unseen examples even at an early stage (13\% of the total number of epochs) of its training process, whereas the fully converged Tacotron2 fails to do so. Moreover, our proposed regularization method has no additional computational overhead, while reducing common TTS mistakes and achieving slighlty improved speech naturalness according to subjective mean opinion scores (MOS) collected from 50 evaluators.
翻訳日:2022-04-29 20:47:05 公開日:2022-04-28
# (参考訳) 奥行き対応機能マップ:形状マッチングにおける対称性問題に対処する

Deep Orientation-Aware Functional Maps: Tackling Symmetry Issues in Shape Matching ( http://arxiv.org/abs/2204.13453v1 )

ライセンス: CC BY 4.0
Nicolas Donati and Etienne Corman and Maks Ovsjanikov(参考訳) 非剛性形状マッチングのための最先端の完全内在ネットワークは、しばしば不安定な対応予測につながる形状の対称性を曖昧化するのに苦労する。 一方、関数写像フレームワークの最近の進歩により、接ベクトル場移動の関数表現を用いて、いわゆる複素関数写像を通して配向保存を強制することができる。 この表現を用いて,完全教師なし環境で方位認識機能を学ぶための新しいディープラーニング手法を提案する。 私たちのアーキテクチャはdiffencenet上に構築されており、変更の離散化に堅牢です。 さらに,ベクトル場に基づく損失について紹介し,(しばしば不安定な)外部ディスクリプタを用いずに方位保存を促進する。

State-of-the-art fully intrinsic networks for non-rigid shape matching often struggle to disambiguate the symmetries of the shapes leading to unstable correspondence predictions. Meanwhile, recent advances in the functional map framework allow to enforce orientation preservation using a functional representation for tangent vector field transfer, through so-called complex functional maps. Using this representation, we propose a new deep learning approach to learn orientation-aware features in a fully unsupervised setting. Our architecture is built on top of DiffusionNet, making it robust to discretization changes. Additionally, we introduce a vector field-based loss, which promotes orientation preservation without using (often unstable) extrinsic descriptors.
翻訳日:2022-04-29 20:32:32 公開日:2022-04-28
# (参考訳) ファジィ認知地図と隠れマルコフモデル:時系列分類タスクの細部における効率の比較分析

Fuzzy Cognitive Maps and Hidden Markov Models: Comparative Analysis of Efficiency within the Confines of the Time Series Classification Task ( http://arxiv.org/abs/2204.13455v1 )

ライセンス: CC BY 4.0
Jakub Micha{\l} Bilski and Agnieszka Jastrz\k{e}bska(参考訳) 時系列分類は、非常に人気のある機械学習タスクの1つである。 本稿では,HMM(Hidden Markov Model)の時系列分類への応用について検討する。 HMMアプリケーションの2つのモードを区別する。 1つ目は、クラス毎に1つのモデルを構築することです。 2つ目は、1つのHMMを時系列ごとに構築する。 次に,分類器構成の2つのアプローチをファジィ認知写像の領域に移す。 HMM NN (HMM, 1シリーズ)、HMM 1C (HMM, 1クラス)、FCM NN、FCM 1Cの4つのモデルが一連の実験で研究されている。 異なるモデルの性能を比較し,そのハイパーパラメータが時系列分類精度に与える影響について検討する。 経験的評価は1シリーズ1モデルアプローチの明確な利点を示している。 その結果,HMMとFCMの選択はデータセットに依存していることが示唆された。

Time series classification is one of the very popular machine learning tasks. In this paper, we explore the application of Hidden Markov Model (HMM) for time series classification. We distinguish between two modes of HMM application. The first, in which a single model is built for each class. The second, in which one HMM is built for each time series. We then transfer both approaches for classifier construction to the domain of Fuzzy Cognitive Maps. The identified four models, HMM NN (HMM, one per series), HMM 1C (HMM, one per class), FCM NN, and FCM 1C are then studied in a series of experiments. We compare the performance of different models and investigate the impact of their hyperparameters on the time series classification accuracy. The empirical evaluation shows a clear advantage of the one-model-per-series approach. The results show that the choice between HMM and FCM should be dataset-dependent.
翻訳日:2022-04-29 20:11:37 公開日:2022-04-28
# (参考訳) costi: 時間間隔のシーケンスのための新しい分類器

COSTI: a New Classifier for Sequences of Temporal Intervals ( http://arxiv.org/abs/2204.13467v1 )

ライセンス: CC BY 4.0
Jakub Micha{\l} Bilski and Agnieszka Jastrz\k{e}bska(参考訳) 時間間隔のシーケンスの分類は、一連の事象に関する時系列分析の一部である。 本稿では,問題を多変量級数分類のタスクに変換する新しい手法を提案する。 後者の領域の最先端アルゴリズムの1つを新しい表現に使用し、前フィールドの最先端アルゴリズムよりも精度が大幅に向上した。 我々は,このワークフローの限界について議論し,時間間隔のシーケンスを直接操作するCOSTI (Short for Classification of Classifications of Temporal Intervals) と呼ばれる新しい分類法を開発した。 提案手法は高い精度を保ち、変換データの操作に接続する欠点を回避しつつ、より良い性能が得られる。 本稿では,各事象にその強度に関する情報を補足する時間間隔の分類問題に関する一般化版を提案する。 また、この情報が実質的な価値を持つ2つの新しいデータセットも提供します。

Classification of sequences of temporal intervals is a part of time series analysis which concerns series of events. We propose a new method of transforming the problem to a task of multivariate series classification. We use one of the state-of-the-art algorithms from the latter domain on the new representation to obtain significantly better accuracy than the state-of-the-art methods from the former field. We discuss limitations of this workflow and address them by developing a novel method for classification termed COSTI (short for Classification of Sequences of Temporal Intervals) operating directly on sequences of temporal intervals. The proposed method remains at a high level of accuracy and obtains better performance while avoiding shortcomings connected to operating on transformed data. We propose a generalized version of the problem of classification of temporal intervals, where each event is supplemented with information about its intensity. We also provide two new data sets where this information is of substantial value.
翻訳日:2022-04-29 19:59:10 公開日:2022-04-28
# (参考訳) TJ4DRadSet:自動運転のための4Dレーダデータセット

TJ4DRadSet: A 4D Radar Dataset for Autonomous Driving ( http://arxiv.org/abs/2204.13483v1 )

ライセンス: CC BY 4.0
Lianqing Zheng, Zhixiong Ma, Xichan Zhu, Bin Tan, Sen Li, Kai Long, Weiqi Sun, Sihan Chen, Lu Zhang, Mengyue Wan, Libo Huang, Jie Bai(参考訳) 次世代の4D高解像度イメージングレーダーは、大量の点雲だけでなく、高度測定も可能で、自動運転における3Dセンシングの可能性が大きい。 本稿では,TJ4DRadSetという自律走行データセットを導入し,約40Kフレームの4次元レーダ,ライダー,カメラ,GNSSを含むマルチモーダルセンサについて述べる。 様々な運転シナリオにおける連続44列以内7757フレームは、3DバウンディングボックスとトラックIDでよく注釈付けされている。 4次元レーダーを用いた3次元物体検出ベースラインをデータセットに提供し,4次元レーダーポイントクラウドにおけるディープラーニング手法の有効性を実証した。

The new generation of 4D high-resolution imaging radar provides not only a huge amount of point cloud but also additional elevation measurement, which has a great potential of 3D sensing in autonomous driving. In this paper, we introduce an autonomous driving dataset named TJ4DRadSet, including multi-modal sensors that are 4D radar, lidar, camera and GNSS, with about 40K frames in total. 7757 frames within 44 consecutive sequences in various driving scenarios are well annotated with 3D bounding boxes and track id. We provide a 4D radar-based 3D object detection baseline for our dataset to demonstrate the effectiveness of deep learning methods for 4D radar point clouds.
翻訳日:2022-04-29 19:43:41 公開日:2022-04-28
# (参考訳) EVI:知識に基づく指導・検証・識別のための多言語対話タスクとデータセット

EVI: Multilingual Spoken Dialogue Tasks and Dataset for Knowledge-Based Enrolment, Verification, and Identification ( http://arxiv.org/abs/2204.13496v1 )

ライセンス: CC BY 4.0
Georgios P. Spithourakis, Ivan Vuli\'c, Micha{\l} Lis, I\~nigo Casanueva, Pawe{\l} Budzianowski(参考訳) ナレッジベースの認証は、パーソナライズされたプライバシー重視のサービスを提供するタスク指向の対話システムにとって不可欠である。 このようなシステムは、(e) を問う、(v) を検証し、(i) 個人情報(例えば、郵便番号、名前、生年月日)に基づいて新規かつ定期的なユーザーを特定することができるべきである。 本稿では,3つの認証タスクとその評価プロトコルを定式化し,英語,ポーランド語,フランス語で5,506の対話を有する多言語音声データセットeviを提案する。 提案したモデルは,最初の競合ベンチマークを設定し,音声対話の多言語自然言語処理の課題を探究し,今後の研究に向けた方向性を定めている。

Knowledge-based authentication is crucial for task-oriented spoken dialogue systems that offer personalised and privacy-focused services. Such systems should be able to enrol (E), verify (V), and identify (I) new and recurring users based on their personal information, e.g. postcode, name, and date of birth. In this work, we formalise the three authentication tasks and their evaluation protocols, and we present EVI, a challenging spoken multilingual dataset with 5,506 dialogues in English, Polish, and French. Our proposed models set the first competitive benchmarks, explore the challenges of multilingual natural language processing of spoken dialogue, and set directions for future research.
翻訳日:2022-04-29 19:36:01 公開日:2022-04-28
# (参考訳) 拡散幾何による非教師なし空間分光ハイパースペクトル画像再構成とクラスタリング

Unsupervised Spatial-spectral Hyperspectral Image Reconstruction and Clustering with Diffusion Geometry ( http://arxiv.org/abs/2204.13497v1 )

ライセンス: CC BY 4.0
Kangning Cui, Ruoning Li, Sam L. Polk, James M. Murphy, Robert J. Plemmons, Raymond H. Chan(参考訳) 百以上の反射スペクトルを格納するハイパースペクトル画像は、自然科学や社会科学において重要なデータ源となっている。 ハイパースペクトル画像は、しばしば比較的粗い空間分解能で大量に生成される。 そのため、ハイパースペクトル画像に既知の構造を組み込んだ教師なし機械学習アルゴリズムが必要となる。 本研究では,空間スペクトル画像再構成と拡散幾何を用いたクラスタリング(DSIRC)アルゴリズムを導入する。 DSIRCは形状適応型再構成法により測定ノイズを低減する。 特に、各画素について、DSIRCはデータ適応空間近傍にスペクトル相関画素を配置し、その画素のスペクトルシグネチャを近隣の画素を用いて再構成する。 その後、DSIRCは高密度高純度画素を他の高密度高純度画素から遠く離れた拡散距離(データ依存距離メートル法)に配置し、それぞれにユニークなラベルを与える。 非モード画素は、既にラベル付けされている密度と純度の高い拡散距離アネレスト近傍のラベルに割り当てられる。 画像再構成による空間情報の取り込みにより,ピクセルワイドクラスタリングの性能が大幅に向上することを示す。

Hyperspectral images, which store a hundred or more spectral bands of reflectance, have become an important data source in natural and social sciences. Hyperspectral images are often generated in large quantities at a relatively coarse spatial resolution. As such, unsupervised machine learning algorithms incorporating known structure in hyperspectral imagery are needed to analyze these images automatically. This work introduces the Spatial-Spectral Image Reconstruction and Clustering with Diffusion Geometry (DSIRC) algorithm for partitioning highly mixed hyperspectral images. DSIRC reduces measurement noise through a shape-adaptive reconstruction procedure. In particular, for each pixel, DSIRC locates spectrally correlated pixels within a data-adaptive spatial neighborhood and reconstructs that pixel's spectral signature using those of its neighbors. DSIRC then locates high-density, high-purity pixels far in diffusion distance (a data-dependent distance metric) from other high-density, high-purity pixels and treats these as cluster exemplars, giving each a unique label. Non-modal pixels are assigned the label of their diffusion distance-nearest neighbor of higher density and purity that is already labeled. Strong numerical results indicate that incorporating spatial information through image reconstruction substantially improves the performance of pixel-wise clustering.
翻訳日:2022-04-29 19:17:20 公開日:2022-04-28
# (参考訳) 大規模言語モデルによる文脈内学習におけるコーパス事前学習の効果について

On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model ( http://arxiv.org/abs/2204.13509v1 )

ライセンス: CC BY 4.0
Seongjin Shin, Sang-Woo Lee, Hwijeen Ahn, Sungdong Kim, HyoungSeok Kim, Boseop Kim, Kyunghyun Cho, Gichang Lee, Woomyoung Park, Jung-Woo Ha, Nako Sung(参考訳) 大規模言語モデルに関する最近の多くの研究は、文脈内ゼロおよび少数ショット学習能力の成功を報告している。 しかしながら、コンテキスト内学習の発生時期に関する詳細な分析はまだ不足している。 例えば、トレーニングコーパスが変化するにつれて、文脈内学習のパフォーマンスがどう変化するかは不明である。 本稿では,韓国中心のGPT-3モデルであるHyperCLOVAにおいて,事前学習コーパスのソースとサイズが文脈学習に与える影響について検討する。 From our in-depth investigation, we introduce the following observations: (1) in-context learning performance heavily depends on the corpus domain source, and the size of the pretraining corpus does not necessarily determine the emergence of in-context learning, (2) in-context learning ability can emerge when a language model is trained on a combination of multiple corpora, even when each corpus does not result in in-context learning on its own, (3) pretraining with a corpus related to a downstream task does not always guarantee the competitive in-context learning performance of the downstream task, especially in the few-shot setting, and (4) the relationship between language modeling (measured in perplexity) and in-context learning does not always correlate: e.g., low perplexity does not always imply high in-context few-shot learning performance.

Many recent studies on large-scale language models have reported successful in-context zero- and few-shot learning ability. However, the in-depth analysis of when in-context learning occurs is still lacking. For example, it is unknown how in-context learning performance changes as the training corpus varies. Here, we investigate the effects of the source and size of the pretraining corpus on in-context learning in HyperCLOVA, a Korean-centric GPT-3 model. From our in-depth investigation, we introduce the following observations: (1) in-context learning performance heavily depends on the corpus domain source, and the size of the pretraining corpus does not necessarily determine the emergence of in-context learning, (2) in-context learning ability can emerge when a language model is trained on a combination of multiple corpora, even when each corpus does not result in in-context learning on its own, (3) pretraining with a corpus related to a downstream task does not always guarantee the competitive in-context learning performance of the downstream task, especially in the few-shot setting, and (4) the relationship between language modeling (measured in perplexity) and in-context learning does not always correlate: e.g., low perplexity does not always imply high in-context few-shot learning performance.
翻訳日:2022-04-29 19:07:17 公開日:2022-04-28
# (参考訳) ゼロショット多言語抽出要約のためのニューラルラベル探索

Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization ( http://arxiv.org/abs/2204.13512v1 )

ライセンス: CC BY 4.0
Ruipeng Jia, Xingxing Zhang, Yanan Cao, Shi Wang, Zheng Lin, Furu Wei(参考訳) ゼロショットの多言語抽出テキスト要約では、モデルは典型的には英語の要約データセットで訓練され、他の言語の要約データセットに適用される。 英語の金の要約と文書が与えられると、抽出要約のための文レベルのラベルは通常ヒューリスティックスを使用して生成される。 しかし、これらの単言語ラベルは、異なる言語間の統語的あるいは意味的な相違があるため、他の言語のデータセットでは最適ではないかもしれない。 このようにして、英語データセットを他の言語に翻訳し、ヒューリスティックスを用いて異なるラベルセットを再び取得することができる。 これら異なるラベルセットの情報を完全に活用するため,我々は,これらのラベルセットの階層的重みと要約モデルを同時に学習するnlssum(neural label search for summarization)を提案する。 mlsumデータセットとwikilinguaデータセットの多言語ゼロショット要約実験を行い,これら2つのデータセットの人的評価と自動評価の両方を用いて,最先端の結果を得る。

In zero-shot multilingual extractive text summarization, a model is typically trained on English summarization dataset and then applied on summarization datasets of other languages. Given English gold summaries and documents, sentence-level labels for extractive summarization are usually generated using heuristics. However, these monolingual labels created on English datasets may not be optimal on datasets of other languages, for that there is the syntactic or semantic discrepancy between different languages. In this way, it is possible to translate the English dataset to other languages and obtain different sets of labels again using heuristics. To fully leverage the information of these different sets of labels, we propose NLSSum (Neural Label Search for Summarization), which jointly learns hierarchical weights for these different sets of labels together with our summarization model. We conduct multilingual zero-shot summarization experiments on MLSUM and WikiLingua datasets, and we achieve state-of-the-art results using both human and automatic evaluations across these two datasets.
翻訳日:2022-04-29 18:37:31 公開日:2022-04-28
# (参考訳) UM6P-CS at SemEval-2022 Task 11: Enhancing Multilingual and Code-Mixed Complex Named Entity Recognition via Pseudo Labels using Multilingual Transformer (英語)

UM6P-CS at SemEval-2022 Task 11: Enhancing Multilingual and Code-Mixed Complex Named Entity Recognition via Pseudo Labels using Multilingual Transformer ( http://arxiv.org/abs/2204.13515v1 )

ライセンス: CC BY 4.0
Abdellah El Mekki and Abdelkader El Mahdaouy and Mohammed Akallouch and Ismail Berrada and Ahmed Khoumsi(参考訳) 現実世界の複雑な名前付きエンティティ認識(NER)システムの構築は難しい作業である。 これは、短い入力文、新興エンティティ、複雑なエンティティといった様々なコンテキストに現れる名前付きエンティティの複雑さとあいまいさのためである。 さらに、実際のクエリは、コード混合や多言語化が可能なため、ほとんどが変形している。 本稿では,多言語複合型エンティティ認識(multiconer)共有タスクに提案するシステムを提案する。 我々は,多言語変換器 XLM-RoBERTa が提供する文脈化表現を頼りに,多言語およびコード混合クエリの複雑な NER にアプローチする。 CRFに基づくトークン分類層に加えて、名前付きエンティティを識別するためにスパン分類損失を組み込む。 さらに,大きなラベルなしデータセットから弱い注釈データを生成するために,自己学習機構を用いる。 提案システムは多言語とコード混在したMultiCoNERのトラックでそれぞれ6位と8位にランクされている。

Building real-world complex Named Entity Recognition (NER) systems is a challenging task. This is due to the complexity and ambiguity of named entities that appear in various contexts such as short input sentences, emerging entities, and complex entities. Besides, real-world queries are mostly malformed, as they can be code-mixed or multilingual, among other scenarios. In this paper, we introduce our submitted system to the Multilingual Complex Named Entity Recognition (MultiCoNER) shared task. We approach the complex NER for multilingual and code-mixed queries, by relying on the contextualized representation provided by the multilingual Transformer XLM-RoBERTa. In addition to the CRF-based token classification layer, we incorporate a span classification loss to recognize named entities spans. Furthermore, we use a self-training mechanism to generate weakly-annotated data from a large unlabeled dataset. Our proposed system is ranked 6th and 8th in the multilingual and code-mixed MultiCoNER's tracks respectively.
翻訳日:2022-04-29 18:24:29 公開日:2022-04-28
# (参考訳) Tragedy Plus Time: 弱いラベル付きビデオから意図しない人間の活動をキャプチャする

Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos ( http://arxiv.org/abs/2204.13548v1 )

ライセンス: CC BY 4.0
Arnav Chakravarthy, Zhiyuan Fang, Yezhou Yang(参考訳) 意図しない行動を含むビデオでは、エージェントは目的を達成することができない。 このようなビデオでは、コンピュータビジョンシステムがゴール指向行動や、非常に初期の人間の能力といった高レベルな概念を理解することは困難である。 人工的に知性のあるエージェントにこの能力を与えると、テレロジカルレンズで人間の行動を評価することによって、より優れた社会学習者が得られる。 このタスクを実行するためのディープラーニングモデルの有効性を検証するために,Oopsデータセット上に構築されたW-Oopsデータセットをキュレートする[15]。 w-oopsは2100の意図しない人間のアクションビデオで構成され、44の目標指向と30の意図しないビデオレベルのアクティビティラベルを人間のアノテーションで収集する。 高価なセグメントアノテーション手法により,ビデオレベルのラベルのみを利用するビデオにおいて,ゴール指向と意図しない時間領域をローカライズする弱い教師付きアルゴリズムを提案する。 特に,分類タスクに最も寄与する時間領域を予測する注意機構に基づく戦略を採用する。 一方,設計した重複正規化により,時間的順序を保証しながら,ゴール指向と意図しない動作を推定するために,ビデオの異なる部分に集中することができる。 広範囲な定量的実験により,本手法の有効性が検証された。 さらに,映像キャプション実験を行い,提案するローカライゼーションモジュールが実際にテレロジー的行動理解を支援することを実証する。

In videos that contain actions performed unintentionally, agents do not achieve their desired goals. In such videos, it is challenging for computer vision systems to understand high-level concepts such as goal-directed behavior, an ability present in humans from a very early age. Inculcating this ability in artificially intelligent agents would make them better social learners by allowing them to evaluate human action under a teleological lens. To validate the ability of deep learning models to perform this task, we curate the W-Oops dataset, built upon the Oops dataset [15]. W-Oops consists of 2,100 unintentional human action videos, with 44 goal-directed and 30 unintentional video-level activity labels collected through human annotations. Due to the expensive segment annotation procedure, we propose a weakly supervised algorithm for localizing the goal-directed as well as unintentional temporal regions in the video leveraging solely video-level labels. In particular, we employ an attention mechanism-based strategy that predicts the temporal regions which contribute the most to a classification task. Meanwhile, our designed overlap regularization allows the model to focus on distinct portions of the video for inferring the goal-directed and unintentional activity while guaranteeing their temporal ordering. Extensive quantitative experiments verify the validity of our localization method. We further conduct a video captioning experiment which demonstrates that the proposed localization module does indeed assist teleological action understanding.
翻訳日:2022-04-29 18:15:39 公開日:2022-04-28
# (参考訳) 誤情報検出システムにおける正義:アルゴリズム,利害関係者,潜在的損害の分析

Justice in Misinformation Detection Systems: An Analysis of Algorithms, Stakeholders, and Potential Harms ( http://arxiv.org/abs/2204.13568v1 )

ライセンス: CC BY 4.0
Terrence Neumann and Maria De-Arteaga and Sina Fazelpour(参考訳) ソーシャルメディア上の誤報の規模と急増に直面した多くのプラットフォームやファクトチェック組織は、誤報検出パイプラインの重要な部分を自動化するアルゴリズムに目を向けている。 スケールの課題に対する有望な解決策を提供する一方で、アルゴリズムの誤情報検出に関連する倫理的・社会的リスクは十分に理解されていない。 本稿では,情報正義の概念を取り入れ,表現,参加,利益と負担の分配,誤情報検出パイプラインの信頼性に関する正義の問題を解明するための枠組みを構築した。 枠組みは,(1)パイプライン内の3つのアルゴリズム段階における利害関係者の不正がいかに成立するか,(2)これらの不正を評価するための実証的尺度を提案し,(3)これらの害の潜在的な原因を特定する。 このフレームワークは、研究者、政策立案者、実践者がこれらのアルゴリズムに関連する潜在的な害やリスクを判断し、このドメインにおけるアルゴリズム的公正監査の設計のための概念的ガイダンスを提供する。

Faced with the scale and surge of misinformation on social media, many platforms and fact-checking organizations have turned to algorithms for automating key parts of misinformation detection pipelines. While offering a promising solution to the challenge of scale, the ethical and societal risks associated with algorithmic misinformation detection are not well-understood. In this paper, we employ and extend upon the notion of informational justice to develop a framework for explicating issues of justice relating to representation, participation, distribution of benefits and burdens, and credibility in the misinformation detection pipeline. Drawing on the framework: (1) we show how injustices materialize for stakeholders across three algorithmic stages in the pipeline; (2) we suggest empirical measures for assessing these injustices; and (3) we identify potential sources of these harms. This framework should help researchers, policymakers, and practitioners reason about potential harms or risks associated with these algorithms and provide conceptual guidance for the design of algorithmic fairness audits in this domain.
翻訳日:2022-04-29 17:48:32 公開日:2022-04-28
# (参考訳) 人生は常にうつ病ではない:うつ病に罹患した人々の幸せな気分を探る

Life is not Always Depressing: Exploring the Happy Moments of People Diagnosed with Depression ( http://arxiv.org/abs/2204.13569v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Adrian Cosma, Liviu P. Dinu(参考訳) 本研究では,ソーシャルメディアにおける抑うつと幸福感の関係について考察する。 うつ病を取り巻く作品の多くは症状に焦点を当てているが、心理学的な研究は幸福を求めることとうつ病と診断されることの間に強い関係があることを示している。 ポジティブなラベルのない学習パラダイムを用いて,抑うつと診断されたユーザのソーシャルメディア投稿から幸福な瞬間を自動的に抽出し,liwcやキーネス情報といった言語ツールを用いて質的に分析する。 抑うつ状態の人の生活は必ずしも弱くなく、友人や家族に関するポジティブな出来事は、コントロールの利用者が報告したより平凡な幸福な出来事と比較して、彼らの生活に特に注目される。

In this work, we explore the relationship between depression and manifestations of happiness in social media. While the majority of works surrounding depression focus on symptoms, psychological research shows that there is a strong link between seeking happiness and being diagnosed with depression. We make use of Positive-Unlabeled learning paradigm to automatically extract happy moments from social media posts of both controls and users diagnosed with depression, and qualitatively analyze them with linguistic tools such as LIWC and keyness information. We show that the life of depressed individuals is not always bleak, with positive events related to friends and family being more noteworthy to their lives compared to the more mundane happy events reported by control users.
翻訳日:2022-04-29 17:24:33 公開日:2022-04-28
# (参考訳) 機械の残存寿命予測のための説明可能な回帰フレームワーク

An Explainable Regression Framework for Predicting Remaining Useful Life of Machines ( http://arxiv.org/abs/2204.13574v1 )

ライセンス: CC BY 4.0
Talhat Khan, Kashif Ahmad, Jebran Khan, Imran Khan, Nasir Ahmad(参考訳) 機械の残留実用寿命(RUL)の予測は、予測保守における重要なタスクの1つである。 このタスクは、機械学習(ML)アルゴリズムを使用してマシンコンポーネントのRULを予測する回帰問題として扱われる。 これらのMLアルゴリズムは一般に、アルゴリズムの決定と動作メカニズムの背後にある潜在的な原因を特定することなく、パフォーマンスに全力を注ぐブラックボックスとして使用される。 私たちは、パフォーマンス(平均二乗誤差(MSE)など)だけでは、予測の背後にある原因に関する洞察よりも、ML予測における利害関係者の信頼を構築するには不十分だと信じています。 本稿では,機械のRUL予測のための説明可能な回帰フレームワークを提案することにより,説明可能なAI(XAI)技術の可能性を検討する。 また,そのタスクに対する古典的およびニューラルネットワーク(nns)ベースのソリューションを含む,いくつかのmlアルゴリズムを評価した。 説明のために、我々は2つのモデル非依存XAIメソッド、すなわちLocal Interpretable Model-Agnostic Explanations (LIME)とShapley Additive Explanations (SHAP)に依存している。 我々は、この研究が将来の研究のベースラインとなると信じている。

Prediction of a machine's Remaining Useful Life (RUL) is one of the key tasks in predictive maintenance. The task is treated as a regression problem where Machine Learning (ML) algorithms are used to predict the RUL of machine components. These ML algorithms are generally used as a black box with a total focus on the performance without identifying the potential causes behind the algorithms' decisions and their working mechanism. We believe, the performance (in terms of Mean Squared Error (MSE), etc.,) alone is not enough to build the trust of the stakeholders in ML prediction rather more insights on the causes behind the predictions are needed. To this aim, in this paper, we explore the potential of Explainable AI (XAI) techniques by proposing an explainable regression framework for the prediction of machines' RUL. We also evaluate several ML algorithms including classical and Neural Networks (NNs) based solutions for the task. For the explanations, we rely on two model agnostic XAI methods namely Local Interpretable Model-Agnostic Explanations (LIME) and Shapley Additive Explanations (SHAP). We believe, this work will provide a baseline for future research in the domain.
翻訳日:2022-04-29 17:12:55 公開日:2022-04-28
# (参考訳) meshup: 全文生物医学文書インデックス作成のためのコーパス

MeSHup: A Corpus for Full Text Biomedical Document Indexing ( http://arxiv.org/abs/2204.13604v1 )

ライセンス: CC BY 4.0
Xindi Wang, Robert E. Mercer, Frank Rudzicz(参考訳) MeSHインデックス(Messical Subject Heading)とは、非常に大きなMeSH用語から、与えられたバイオメディカル文書を最も関連性の高いラベルに割り当てる問題である。 現在、PubMedデータベースの膨大な数のバイオメディカル記事は人事キュレーターによって手動で注釈付けされており、それは時間と費用がかかり、索引付けを補助できる計算システムは非常に貴重である。 教師付きMeSHインデックスシステムを開発する際には,大規模注釈付きテキストコーパスの利用が望ましい。 様々なシステムの堅牢な評価と比較を可能にする,公開可能な大規模コーパスは,研究コミュニティにとって重要である。 我々は、MEDLINEデータベースから収集されたMeSHラベルとメタデータ、著者、出版会場とともに、英語で1,342,667のフルテキスト記事を含む大規模注釈付きMeSHインデックスコーパスMeSHupをリリースした。 コーパス上の文書とその関連ラベルの機能を組み合わせたエンドツーエンドモデルをトレーニングし、新しいベースラインを報告します。

Medical Subject Heading (MeSH) indexing refers to the problem of assigning a given biomedical document with the most relevant labels from an extremely large set of MeSH terms. Currently, the vast number of biomedical articles in the PubMed database are manually annotated by human curators, which is time consuming and costly; therefore, a computational system that can assist the indexing is highly valuable. When developing supervised MeSH indexing systems, the availability of a large-scale annotated text corpus is desirable. A publicly available, large corpus that permits robust evaluation and comparison of various systems is important to the research community. We release a large scale annotated MeSH indexing corpus, MeSHup, which contains 1,342,667 full text articles in English, together with the associated MeSH labels and metadata, authors, and publication venues that are collected from the MEDLINE database. We train an end-to-end model that combines features from documents and their associated labels on our corpus and report the new baseline.
翻訳日:2022-04-29 17:02:00 公開日:2022-04-28
# (参考訳) Process-BERT:教育プロセスデータを用いた表現学習フレームワーク

Process-BERT: A Framework for Representation Learning on Educational Process Data ( http://arxiv.org/abs/2204.13607v1 )

ライセンス: CC BY 4.0
Alexander Scarlatos, Christopher Brinton, Andrew Lan(参考訳) 教育プロセスデータ(すなわち、コンピュータまたはオンライン学習プラットフォームにおける詳細な学生活動のログ)は、学生の学習方法に関する深い洞察を提供する可能性がある。 プロセスデータは、結果予測の学習やパーソナライズされた介入の自動配信など、多くの下流タスクに使用することができる。 しかし、プロセスデータの特定の形式は異なる学習/テストシナリオによって大きく異なるため、プロセスデータの解析は困難である。 本稿では,様々な学習シナリオに適用可能な教育プロセスデータの表現を学習するためのフレームワークを提案する。 我々のフレームワークは、BERT型の目的を用いてシーケンシャルなプロセスデータから表現を学習する事前学習ステップと、下流の予測タスク上でこれらの表現を更に調整する微調整ステップで構成される。 当社のフレームワークは,学生の問題解決プロセスデータからなる2019年のレポートカードデータマイニングコンペティションデータセットに適用し,このシナリオで使用する具体的なモデルを詳細に説明します。 我々は定量的かつ質的な実験を行い、我々のフレームワークが予測的かつ情報的なプロセスデータ表現をもたらすことを示す。

Educational process data, i.e., logs of detailed student activities in computerized or online learning platforms, has the potential to offer deep insights into how students learn. One can use process data for many downstream tasks such as learning outcome prediction and automatically delivering personalized intervention. However, analyzing process data is challenging since the specific format of process data varies a lot depending on different learning/testing scenarios. In this paper, we propose a framework for learning representations of educational process data that is applicable across many different learning scenarios. Our framework consists of a pre-training step that uses BERT-type objectives to learn representations from sequential process data and a fine-tuning step that further adjusts these representations on downstream prediction tasks. We apply our framework to the 2019 nation's report card data mining competition dataset that consists of student problem-solving process data and detail the specific models we use in this scenario. We conduct both quantitative and qualitative experiments to show that our framework results in process data representations that are both predictive and informative.
翻訳日:2022-04-29 16:44:26 公開日:2022-04-28
# (参考訳) オートエンコーダに基づく次元縮小を用いた電力系統計画のための代表周期選択

Representative period selection for power system planning using autoencoder-based dimensionality reduction ( http://arxiv.org/abs/2204.13608v1 )

ライセンス: CC BY 4.0
Marc Barbar and Dharik S. Mallapragada(参考訳) 将来の低炭素グリッドシナリオの研究に使用されるパワーセクタ容量拡張モデル(cems)は、グリッド操作の詳細な表現を組み込む必要がある。 しばしば、CEMはクラスタリングアルゴリズムを用いて元の入力データからサンプリングされた代表周期のグリッド操作をモデル化する。 しかし、これらの代表周期選択(RPS)法は、入力データの次元性の増大に伴うクラスタリングアルゴリズムの有効性の低下によって制限され、CEM結果に対する入力データの変動の相対的重要性は考慮されない。 本稿では,クラスタリングに先立って,ニューラルネットワークを用いたオートエンコーダによって実現される次元性低減を組み込んだrps手法を提案する。 このような次元減少はクラスタリングアルゴリズムの性能を向上するだけでなく、入力データ(例えば1週間)の各不整合周期に対して、CEMの簡易バージョンの並列解から生成される推定出力など、追加的な特徴の利用も促進する。 RPS法の一部として次元減少を取り入れた影響は、対応する縮小空間CEMと全空間CEMの誤差によって定量化される。 様々なネットワークにわたる広範囲な数値実験と、様々な技術と政策シナリオにより、次元再現法に基づくrps法の優越性が確立される。

Power sector capacity expansion models (CEMs) that are used for studying future low-carbon grid scenarios must incorporate detailed representation of grid operations. Often CEMs are formulated to model grid operations over representative periods that are sampled from the original input data using clustering algorithms. However, such representative period selection (RPS) methods are limited by the declining efficacy of the clustering algorithm with increasing dimensionality of the input data and do not consider the relative importance of input data variations on CEM outcomes. Here, we propose a RPS method that addresses these limitations by incorporating dimensionality reduction, accomplished via neural network based autoencoders, prior to clustering. Such dimensionality reduction not only improves the performance of the clustering algorithm, but also facilitates using additional features, such as estimated outputs produced from parallel solutions of simplified versions of the CEM for each disjoint period in the input data (e.g. 1 week). The impact of incorporating dimensionality reduction as part of RPS methods is quantified through the error in outcomes of the corresponding reduced-space CEM vs. the full space CEM. Extensive numerical experimentation across various networks and range of technology and policy scenarios establish the superiority of the dimensionality-reduction based RPS methods.
翻訳日:2022-04-29 16:27:32 公開日:2022-04-28
# (参考訳) 複数の既知のクラスタによる個人化フェデレーション学習

Personalized Federated Learning with Multiple Known Clusters ( http://arxiv.org/abs/2204.13619v1 )

ライセンス: CC BY-SA 4.0
Boxiang Lyu, Filip Hanzely, Mladen Kolar(参考訳) ユーザ内に既知のクラスタ構造がある場合、パーソナライズされた連合学習の問題を考える。 直感的なアプローチとして、同じクラスタのユーザが同様のモデル重みを共有するようにパラメータを定式化する。 クラスタ間の距離は、異なるユーザのクラスタ間の類似性を反映して正規化することができる。 我々は,各クラスタが独立して通信し,収束結果を導出するアルゴリズムを開発した。 我々は,階層線形モデルを用いて,エージェントが独立に学習し,エージェントが単一の共有重みを学習することを理論的に実証する。 最後に,シミュレーションデータと実世界データの両方を用いて,このアプローチの利点を示す。

We consider the problem of personalized federated learning when there are known cluster structures within users. An intuitive approach would be to regularize the parameters so that users in the same cluster share similar model weights. The distances between the clusters can then be regularized to reflect the similarity between different clusters of users. We develop an algorithm that allows each cluster to communicate independently and derive the convergence results. We study a hierarchical linear model to theoretically demonstrate that our approach outperforms agents learning independently and agents learning a single shared weight. Finally, we demonstrate the advantages of our approach using both simulated and real-world data.
翻訳日:2022-04-29 16:02:54 公開日:2022-04-28
# (参考訳) 航空画像から建物足跡を抽出するための学習

Learning to Extract Building Footprints from Off-Nadir Aerial Images ( http://arxiv.org/abs/2204.13637v1 )

ライセンス: CC BY 4.0
Jinwang Wang, Lingxuan Meng, Weijia Li, Wen Yang, Lei Yu, Gui-Song Xia(参考訳) 航空画像から建物の足跡を抽出することは、フォトグラムコンピュータビジョン技術を用いた正確な都市地図作成に不可欠である。 既存のアプローチでは、建物の屋根と足跡はよく重なり合っており、その間に大きなオフセットがしばしばあるため、沖の空中画像は保持されない可能性がある。 本稿では,オフnadir画像における建物足跡抽出問題を,建物屋根のインスタンスレベルのジョイント予測問題とそれに対応する「足跡へのルーフ」オフセットベクトルに変換するオフセットベクトル学習手法を提案する。 これにより、予測されたオフセットベクトルに応じて予測されたルーフマスクを翻訳することで足跡を推定することができる。 さらに,追加コストを少なくすることでオフセットベクトル予測を大幅に改善できる,単純かつ効果的な機能レベルのオフセット拡張モジュールを提案する。 さらに,本論文では,新たなデータセットであるビルディング・イン・オフ・ナディア航空画像(BONAI)を作成し,公開する。 建物には3,300枚の航空画像にまたがる268,958個の建物インスタンスがあり、それぞれにインスタンスレベルの屋根、足跡、対応するオフセットベクターが備わっている。 BONAIデータセットを用いた実験により,F1スコアの3.37ポイントから7.39ポイントに向上し,最先端技術を実現した。 コード、データセット、トレーニングされたモデルはhttps://github.com/jwwangchn/bonai.gitで入手できる。

Extracting building footprints from aerial images is essential for precise urban mapping with photogrammetric computer vision technologies. Existing approaches mainly assume that the roof and footprint of a building are well overlapped, which may not hold in off-nadir aerial images as there is often a big offset between them. In this paper, we propose an offset vector learning scheme, which turns the building footprint extraction problem in off-nadir images into an instance-level joint prediction problem of the building roof and its corresponding "roof to footprint" offset vector. Thus the footprint can be estimated by translating the predicted roof mask according to the predicted offset vector. We further propose a simple but effective feature-level offset augmentation module, which can significantly refine the offset vector prediction by introducing little extra cost. Moreover, a new dataset, Buildings in Off-Nadir Aerial Images (BONAI), is created and released in this paper. It contains 268,958 building instances across 3,300 aerial images with fully annotated instance-level roof, footprint, and corresponding offset vector for each building. Experiments on the BONAI dataset demonstrate that our method achieves the state-of-the-art, outperforming other competitors by 3.37 to 7.39 points in F1-score. The codes, datasets, and trained models are available at https://github.com/jwwangchn/BONAI.git.
翻訳日:2022-04-29 16:01:53 公開日:2022-04-28
# (参考訳) 深度検索蒸留のためのカリキュラム学習

Curriculum Learning for Dense Retrieval Distillation ( http://arxiv.org/abs/2204.13679v1 )

ライセンス: CC BY 4.0
Hansi Zeng, Hamed Zamani, Vishwa Vinay(参考訳) 近年の研究では、既存のベース再ランクモデルからランキング知識を抽出することにより、より効果的な高密度検索モデルが得られることが示されている。 本稿では,再ランキング(教師)モデルによって生成された学習データの難易度を制御するcl-drdと呼ばれる汎用カリキュラム学習に基づく最適化フレームワークを提案する。 CL-DRDは、知識蒸留データの難易度を増大させることにより、密集検索(学生)モデルを反復的に最適化する。 より詳しくは、まず、教師のランキングにおける文書間の粗粒度の選好ペアを学生モデルに提供し、徐々に細粒度の文書の順序付け要件へと移行する。 実験では, CL-DRDフレームワークの簡単な実装を適用し, 2つの最先端密度検索モデルを強化する。 3つのパブリックパス検索データセットの実験により,提案手法の有効性が示された。

Recent work has shown that more effective dense retrieval models can be obtained by distilling ranking knowledge from an existing base re-ranking model. In this paper, we propose a generic curriculum learning based optimization framework called CL-DRD that controls the difficulty level of training data produced by the re-ranking (teacher) model. CL-DRD iteratively optimizes the dense retrieval (student) model by increasing the difficulty of the knowledge distillation data made available to it. In more detail, we initially provide the student model coarse-grained preference pairs between documents in the teacher's ranking and progressively move towards finer-grained pairwise document ordering requirements. In our experiments, we apply a simple implementation of the CL-DRD framework to enhance two state-of-the-art dense retrieval models. Experiments on three public passage retrieval datasets demonstrate the effectiveness of our proposed framework.
翻訳日:2022-04-29 15:43:55 公開日:2022-04-28
# (参考訳) 雑音量子実験から学ぶための基礎

Foundations for learning from noisy quantum experiments ( http://arxiv.org/abs/2204.13691v1 )

ライセンス: CC BY 4.0
Hsin-Yuan Huang, Steven T. Flammia, John Preskill(参考訳) 実験から何が学べるかを理解することは科学的進歩の中心である。 本研究では,全ての操作(状態準備,力学,測定)が未知である場合,量子機械における物理操作の学習タスクについて,学習理論の観点から検討する。 事前の知識がなければ、操作を構成することによって完全な量子状態空間を探索できるならば、すべての操作が学習可能であることを証明します。 完全状態空間を探索できないが、全ての操作がおおよそ知られ、クリフォードゲートのノイズはゲートに依存しない場合、初期状態の忠実さを特徴付ける単一の既知パラメータまで全ての操作を学習する効率的なアルゴリズムを見つける。 クリフォードゲートのノイズチャネルを一定の精度で学習するために,従来知られていたプロトコルよりも二乗的に少ない実験を用いる。 より一般的な条件下では、ノイズの真の記述は学習不可能であり、例えば、ベンチマークプロトコルが完全な状態準備と測定の下でもクリフォード+Tゲート上のゲート依存のパウリノイズを学習できないことを証明する。 ノイズを学習できないにもかかわらず、未知の状態の複数のコピーで絡み合った測定を行うノイズ量子コンピュータは、個々のコピーを計測し、古典的なコンピュータを用いて測定データを処理するノイズレス装置と比較して、状態の学習特性に大きな利点をもたらすことを示す。 具体的には、2ビットゲート誤り率 $\epsilon$ のノイズ量子コンピュータが状態の$N$コピーを用いて学習タスクを達成できるのに対し、$N^{\Omega(1/\epsilon)$コピーは古典的に要求される。

Understanding what can be learned from experiments is central to scientific progress. In this work, we use a learning-theoretic perspective to study the task of learning physical operations in a quantum machine when all operations (state preparation, dynamics, and measurement) are a priori unknown. We prove that, without any prior knowledge, if one can explore the full quantum state space by composing the operations, then every operation can be learned. When one cannot explore the full state space but all operations are approximately known and noise in Clifford gates is gate-independent, we find an efficient algorithm for learning all operations up to a single unlearnable parameter characterizing the fidelity of the initial state. For learning a noise channel on Clifford gates to a fixed accuracy, our algorithm uses quadratically fewer experiments than previously known protocols. Under more general conditions, the true description of the noise can be unlearnable; for example, we prove that no benchmarking protocol can learn gate-dependent Pauli noise on Clifford+T gates even under perfect state preparation and measurement. Despite not being able to learn the noise, we show that a noisy quantum computer that performs entangled measurements on multiple copies of an unknown state can yield a large advantage in learning properties of the state compared to a noiseless device that measures individual copies and then processes the measurement data using a classical computer. Concretely, we prove that noisy quantum computers with two-qubit gate error rate $\epsilon$ can achieve a learning task using $N$ copies of the state, while $N^{\Omega(1/\epsilon)}$ copies are required classically.
翻訳日:2022-04-29 15:34:15 公開日:2022-04-28
# Schr\"odingerのFP:ディープラーニング学習のための浮動小数点コンテナの動的適応

Schr\"odinger's FP: Dynamic Adaptation of Floating-Point Containers for Deep Learning Training ( http://arxiv.org/abs/2204.13666v1 )

ライセンス: Link先を確認
Milo\v{s} Nikoli\'c, Enrique Torres Sanchez, Jiahui Wang, Ali Hadi Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, Andreas Moshovos(参考訳) 本稿では、bfloat16またはfp32によるトレーニング中のメモリトラフィックとフットプリントを削減し、エネルギー効率と実行時間パフォーマンスを向上させるソフトウェアハードウエア共同設計手法を提案する。 トレーニング中の活性化と重みを格納するために使用される浮動小数点コンテナのサイズと形式を動的に調整する手法を提案する。 異なる値分布は、指数とマンティッサに対する異なるアプローチへとつながります。 geckoは、32ビット浮動小数点のベースラインと比較して、合計指数のフットプリントを最大5,8\%$削減するために、損失のないデルタエンコーディングアプローチで好適な指数分布を利用する。 雑音の大きいマンティッサ分布を満足させるため, 精度に影響を与えず, 最下位ビットを極力排除する2つの損失法を提案する。 quantum mantissa(量子マンティッサ)は、トレーニングの勾配降下アルゴリズムをタップして、層単位の粒度で最小マンティッサビット長を学習し、合計マンティッサフットプリントを最大$92\%削減する機械学習ファーストマンティッサ圧縮法である。 あるいは、トレーニング中の損失関数の変化を観察して、mantissaビット長ネットワーク全体の調整を行うことで、フットプリントが811\%減少する。 schr\"{o}dingerのfpはgecko/quantum mantissaまたはgecko/bitchopによって誘導されるハードウェアエンコーダ/デコーダを実装し、オフチップメモリへの転送時に透過的にエンコード/デコードする。

We introduce a software-hardware co-design approach to reduce memory traffic and footprint during training with BFloat16 or FP32 boosting energy efficiency and execution time performance. We introduce methods to dynamically adjust the size and format of the floating-point containers used to store activations and weights during training. The different value distributions lead us to different approaches for exponents and mantissas. Gecko exploits the favourable exponent distribution with a loss-less delta encoding approach to reduce the total exponent footprint by up to $58\%$ in comparison to a 32 bit floating point baseline. To content with the noisy mantissa distributions, we present two lossy methods to eliminate as many as possible least significant bits while not affecting accuracy. Quantum Mantissa, is a machine learning-first mantissa compression method that taps on training's gradient descent algorithm to also learn minimal mantissa bitlengths on a per-layer granularity, and obtain up to $92\%$ reduction in total mantissa footprint. Alternatively, BitChop observes changes in the loss function during training to adjust mantissa bit-length network-wide yielding a reduction of $81\%$ in footprint. Schr\"{o}dinger's FP implements hardware encoders/decoders that guided by Gecko/Quantum Mantissa or Gecko/BitChop transparently encode/decode values when transferring to/from off-chip memory boosting energy efficiency and reducing execution time.
翻訳日:2022-04-29 15:31:59 公開日:2022-04-28
# 医用画像のための資源効率の高いドメイン適応事前学習

Resource-efficient domain adaptive pre-training for medical images ( http://arxiv.org/abs/2204.13280v1 )

ライセンス: Link先を確認
Yasar Mehmood, Usama Ijaz Bajwa, Xianfang Sun(参考訳) 深層学習に基づく医療画像の分析は、高いアノテーションコストとプライバシーの懸念から、データの不足に悩まされている。 このドメインの研究者たちは、複雑なアーキテクチャを使用する場合の過剰フィットを避けるために、転送学習を使ってきた。 しかし、事前トレーニングと下流データのドメイン差は、下流タスクのパフォーマンスを妨げます。 最近の研究ではドメイン適応型事前学習(DAPT)を用いてこの問題に対処している。 daptでは、モデルが一般的なデータセットで初期化され、適度なサイズのインドメインデータセット(医療画像)を使用してさらなる事前トレーニングが行われる。 この手法は, DAPTのデータセットが適度なサイズであっても, 精度とロバスト性の観点から, 下流タスクに対して良好な結果が得られるが, 計算コストが高い。 これらの計算集約的な手法とモデルは環境に悪影響を及ぼし、限られた資源を持つ研究者にとって不均一な遊び場を生み出す。 本研究は下流の精度とロバスト性を損なうことなく計算効率のよい dapt を提案した。 本研究は,第1部(部分DAPT)がレイヤのサブセット上でDAPTを行う3つの手法を提案する。 2つ目は、いくつかのエポックに対して部分DAPTを実行し、残りのエポックに対して完全なDAPTを実行するハイブリッド戦略(ハイブリッドDAPT)を採用する。 第3のテクニックは、ベースアーキテクチャの簡易な変形に対してDAPTを実行する。 その結果,標準DAPT (Full DAPT) と比較して,ハイブリッドDAPT技術は開発および外部データセットの性能が向上した。 対照的に、単純化されたアーキテクチャ(DAPT以降)は、開発データセットで控えめなパフォーマンスを達成しながら、最高の堅牢性を達成した。

The deep learning-based analysis of medical images suffers from data scarcity because of high annotation costs and privacy concerns. Researchers in this domain have used transfer learning to avoid overfitting when using complex architectures. However, the domain differences between pre-training and downstream data hamper the performance of the downstream task. Some recent studies have successfully used domain-adaptive pre-training (DAPT) to address this issue. In DAPT, models are initialized with the generic dataset pre-trained weights, and further pre-training is performed using a moderately sized in-domain dataset (medical images). Although this technique achieved good results for the downstream tasks in terms of accuracy and robustness, it is computationally expensive even when the datasets for DAPT are moderately sized. These compute-intensive techniques and models impact the environment negatively and create an uneven playing field for researchers with limited resources. This study proposed computationally efficient DAPT without compromising the downstream accuracy and robustness. This study proposes three techniques for this purpose, where the first (partial DAPT) performs DAPT on a subset of layers. The second one adopts a hybrid strategy (hybrid DAPT) by performing partial DAPT for a few epochs and then full DAPT for the remaining epochs. The third technique performs DAPT on simplified variants of the base architecture. The results showed that compared to the standard DAPT (full DAPT), the hybrid DAPT technique achieved better performance on the development and external datasets. In contrast, simplified architectures (after DAPT) achieved the best robustness while achieving modest performance on the development dataset .
翻訳日:2022-04-29 15:31:26 公開日:2022-04-28
# 非合理的な人的エージェントの解釈可能な集団知能

Interpretable collective intelligence of non-rational human agents ( http://arxiv.org/abs/2204.13424v1 )

ライセンス: Link先を確認
Alexey V. Osipov, Nikolay N. Osipov(参考訳) 任意の専門家のグループから、任意の論理命題の真理の確率を、明示的な形式を持ち、この確率を解釈する集合情報とともに導き出すための最適な方法を提供するメカニズムの作り方について概説する。 このようなシステムは、特に世界中の専門家にインセンティブを与え、科学や医学の問題を非常に効率的な方法で総合的に解くことができる。 実際の専門家についての主な考察では、それらはベイズ的ではないと仮定され、その振る舞いはフォン・ノイマン・モーゲンシュテルン公理を局所的にのみ満たすユーティリティによって記述される。

We outline how to create a mechanism that provides an optimal way to elicit, from an arbitrary group of experts, the probability of the truth of an arbitrary logical proposition together with collective information that has an explicit form and interprets this probability. Such a system could, in particular, incentivize experts from all over the world to collectively solve scientific or medical problems in a very efficient manner. In our main considerations about real experts, they are not assumed to be Bayesian and their behavior is described by utilities that satisfy the von Neumann-Morgenstern axioms only locally.
翻訳日:2022-04-29 15:31:01 公開日:2022-04-28
# 経路対応型マルチパスマルチメディア配信のためのアクタクリティカルスケジューリング

Actor-Critic Scheduling for Path-Aware Air-to-Ground Multipath Multimedia Delivery ( http://arxiv.org/abs/2204.13343v1 )

ライセンス: Link先を確認
Achilles Machumilane, Alberto Gotta, Pietro Cassar\`a, Claudio Gennaro, and Giuseppe Amato(参考訳) 強化学習(rl)は、ネットワークトラフィック管理や制御において、ネットワークモデルの事前知識を必要としないため、広く応用されている。 本稿では,Actor-Critic (AC) RLアルゴリズムに基づくマルチパスシステムにおけるリアルタイムマルチメディア配信のための新しいスケジューラを提案する。 我々は,複数の無線経路を用いた無人航空機(uav)からのリアルタイムビデオストリーミングの難易度に注目する。 rlエージェントとして機能するスケジューラは、経路選択の最適ポリシー、経路レート割り当て、フロー保護の冗長性推定をリアルタイムに学習する。 GStreamerフレームワークのモジュールとして実装されたスケジューラは、実またはシミュレートされた設定で使用することができる。 シミュレーションの結果,ネットワークチャネルモデルの事前知識に頼らずに,スケジューリングポリシーを経路条件に動的に適応させることにより,スケジューラは受信機において非常に低い損失率を目標とできることがわかった。

Reinforcement Learning (RL) has recently found wide applications in network traffic management and control because some of its variants do not require prior knowledge of network models. In this paper, we present a novel scheduler for real-time multimedia delivery in multipath systems based on an Actor-Critic (AC) RL algorithm. We focus on a challenging scenario of real-time video streaming from an Unmanned Aerial Vehicle (UAV) using multiple wireless paths. The scheduler acting as an RL agent learns in real-time the optimal policy for path selection, path rate allocation and redundancy estimation for flow protection. The scheduler, implemented as a module of the GStreamer framework, can be used in real or simulated settings. The simulation results show that our scheduler can target a very low loss rate at the receiver by dynamically adapting in real-time the scheduling policy to the path conditions without performing training or relying on prior knowledge of network channel models.
翻訳日:2022-04-29 15:30:34 公開日:2022-04-28
# 非エルミート系の知識獲得および高速化逆設計のための機械学習

Machine learning for knowledge acquisition and accelerated inverse-design for non-Hermitian systems ( http://arxiv.org/abs/2204.13376v1 )

ライセンス: Link先を確認
W. W. Ahmed, M. Farhat, K. Staliunas, X. Zhang, and Y. Wu(参考訳) 非エルミート系は、従来の波動伝播対称性を破り、波動伝播方向に対する非対称反射と対称透過をもたらす屈折率の実際の部分と想像上の部分の再分配によって柔軟に操作できる特異な物理特性のための新しいプラットフォームを提供する。 ここでは,逆設計プロセスの高速化を図る非エルミートシステムにおいて,教師付き学習技術と教師なし学習技術を用いて知識獲得を行う。 特に,非保守的な環境下での伝送と非対称反射を関連付ける深層学習モデルを構築し,伝送スペクトルから非エルミート特徴を認識するためのサブマニフォールド学習を提案する。 開発したディープラーニングフレームワークは、所定の構造に対する所望のスペクトル応答の実現可能性を決定し、スペクトル応答を調整するための効果的なゲイン損失パラメータの役割を明らかにする。 これらの発見は知的逆設計への道を開き、一般の非エルミート系における物理的メカニズムの理解を形作る。

Non-Hermitian systems offer new platforms for unusual physical properties that can be flexibly manipulated by redistribution of the real and imaginary parts of refractive indices, whose presence breaks conventional wave propagation symmetries, leading to asymmetric reflection and symmetric transmission with respect to the wave propagation direction. Here, we use supervised and unsupervised learning techniques for knowledge acquisition in non-Hermitian systems which accelerate the inverse design process. In particular, we construct a deep learning model that relates the transmission and asymmetric reflection in non-conservative settings and proposes sub-manifold learning to recognize non-Hermitian features from transmission spectra. The developed deep learning framework determines the feasibility of a desired spectral response for a given structure and uncovers the role of effective gain-loss parameters to tailor the spectral response. These findings pave the way for intelligent inverse design and shape our understanding of the physical mechanism in general non-Hermitian systems.
翻訳日:2022-04-29 15:30:17 公開日:2022-04-28
# 密度推定のためのボナfide Rieszプロジェクション

Bona fide Riesz projections for density estimation ( http://arxiv.org/abs/2204.13606v1 )

ライセンス: Link先を確認
P. del Aguila Pla and Michael Unser(参考訳) 正規格子上の基底で表される再構成空間へのサンプル測定の投影は、確率密度関数を推定するための強力で単純なアプローチである。 本稿では, リース基底に着目し, 従来の研究とは対照的に, 推定値のボナfide特性, 非ネガティビティ, 総確率質量 1 ドルを保証した射影演算子を提案する。 我々のボナフィデ射影は凸問題として定義される。 我々は解法を提案し,それを評価する。 結果から,パフォーマンスが向上したことが示唆される。

The projection of sample measurements onto a reconstruction space represented by a basis on a regular grid is a powerful and simple approach to estimate a probability density function. In this paper, we focus on Riesz bases and propose a projection operator that, in contrast to previous works, guarantees the bona fide properties for the estimate, namely, non-negativity and total probability mass $1$. Our bona fide projection is defined as a convex problem. We propose solution techniques and evaluate them. Results suggest an improved performance, specifically in circumstances prone to rippling effects.
翻訳日:2022-04-29 15:28:39 公開日:2022-04-28
# (参考訳) HuMMan:Versatile Sensing and Modelingのためのマルチモーダル4Dヒューマンデータセット

HuMMan: Multi-Modal 4D Human Dataset for Versatile Sensing and Modeling ( http://arxiv.org/abs/2204.13686v1 )

ライセンス: CC BY 4.0
Zhongang Cai, Daxuan Ren, Ailing Zeng, Zhengyu Lin, Tao Yu, Wenjia Wang, Xiangyu Fan, Yang Gao, Yifan Yu, Liang Pan, Fangzhou Hong, Mingyuan Zhang, Chen Change Loy, Lei Yang, Ziwei Liu(参考訳) 4Dヒューマンセンシングとモデリングは多くのアプリケーションで視覚とグラフィックの基本的なタスクである。 新しいセンサーとアルゴリズムの進歩により、より汎用的なデータセットの需要が高まっている。 本研究では,1000人の被験者,400kシーケンス,60Mフレームからなる大規模マルチモーダル4DデータセットであるHummanを寄贈する。 HuMManにはいくつかの魅力的な特性がある。 1)色画像,点雲,キーポイント,SMPLパラメータ,テクスチャメッシュを含むマルチモーダルデータ及びアノテーション 2) 一般的なモバイルデバイスは,センサスイートに含まれている。 3) 基本運動をカバーするように設計された一連の500の行動 4) 行動認識, ポーズ推定, パラメトリック・ヒューマン・リカバリ, テクスチャメッシュ再構築などの複数のタスクをサポートし, 評価した。 hummanの広範な実験は、細粒度なアクション認識、ダイナミックなヒューマンメッシュ再構成、ポイントクラウドベースのパラメトリックなヒューマンリカバリ、クロスデバイスドメインギャップといった課題に関するさらなる研究の必要性を訴えている。

4D human sensing and modeling are fundamental tasks in vision and graphics with numerous applications. With the advances of new sensors and algorithms, there is an increasing demand for more versatile datasets. In this work, we contribute HuMMan, a large-scale multi-modal 4D human dataset with 1000 human subjects, 400k sequences and 60M frames. HuMMan has several appealing properties: 1) multi-modal data and annotations including color images, point clouds, keypoints, SMPL parameters, and textured meshes; 2) popular mobile device is included in the sensor suite; 3) a set of 500 actions, designed to cover fundamental movements; 4) multiple tasks such as action recognition, pose estimation, parametric human recovery, and textured mesh reconstruction are supported and evaluated. Extensive experiments on HuMMan voice the need for further study on challenges such as fine-grained action recognition, dynamic human mesh reconstruction, point cloud-based parametric human recovery, and cross-device domain gaps.
翻訳日:2022-04-29 15:26:53 公開日:2022-04-28
# バーストスパイクを用いたスパイクニューラルネットワークの効率的かつ正確な変換

Efficient and Accurate Conversion of Spiking Neural Network with Burst Spikes ( http://arxiv.org/abs/2204.13271v1 )

ライセンス: Link先を確認
Yang Li, Yi Zeng(参考訳) 脳にインスパイアされたエネルギー効率の高いニューラルネットワークであるスパイキングニューラルネットワーク(SNN)は、研究者の関心を集めている。 スパイクニューラルネットワークのトレーニングは依然としてオープンな問題である。 1つの効果的な方法は、訓練されたANNの重量をSNNにマッピングし、高い推論能力を達成することである。 しかし、変換されたスパイクニューラルネットワークは、しばしば性能劣化とかなりの遅延に悩まされる。 推論プロセスの高速化と高精度化を目的として, IFとReLUの差, 時間次元, プール操作の3つの観点から, 変換プロセスの誤差を理論的に解析した。 本稿では,残余情報の解法として,安価で高効率なバーストスパイクを放出するニューロンモデルを提案する。 また、変換過程におけるMaxPoolingによる不正確性を解決するために、LIPooling ( Lateral Inhibition Pooling) を提案する。 CIFARとImageNetの実験結果から,我々のアルゴリズムは効率的かつ正確であることが示された。 例えば、本手法はsnnのほぼ無損失な変換を保証でき、典型的な方法の0.693$\times$エネルギー消費の下でのシミュレーション時間は約1/10(100未満)しか使用できない。 私たちのコードはhttps://github.com/brain-inspired-cognitive-engine/conversion_burstで利用可能です。

Spiking neural network (SNN), as a brain-inspired energy-efficient neural network, has attracted the interest of researchers. While the training of spiking neural networks is still an open problem. One effective way is to map the weight of trained ANN to SNN to achieve high reasoning ability. However, the converted spiking neural network often suffers from performance degradation and a considerable time delay. To speed up the inference process and obtain higher accuracy, we theoretically analyze the errors in the conversion process from three perspectives: the differences between IF and ReLU, time dimension, and pooling operation. We propose a neuron model for releasing burst spikes, a cheap but highly efficient method to solve residual information. In addition, Lateral Inhibition Pooling (LIPooling) is proposed to solve the inaccuracy problem caused by MaxPooling in the conversion process. Experimental results on CIFAR and ImageNet demonstrate that our algorithm is efficient and accurate. For example, our method can ensure nearly lossless conversion of SNN and only use about 1/10 (less than 100) simulation time under 0.693$\times$ energy consumption of the typical method. Our code is available at https://github.com/Brain-Inspired-Cognitive-Engine/Conversion_Burst.
翻訳日:2022-04-29 14:57:22 公開日:2022-04-28
# 無線チャネル推定のための注意型ニューラルネットワーク

Attention Based Neural Networks for Wireless Channel Estimation ( http://arxiv.org/abs/2204.13465v1 )

ライセンス: Link先を確認
Dianxin Luan, John Thompson(参考訳) 本稿では、ダウンリンクにおける直交周波数分割多重波形のチャネル推定の改善を実現するための自己アテンション機構をデプロイする。 具体的には,注意機構を利用して最も重要な入力情報に焦点を当てた,新たなハイブリッドエンコーダ・デコーダ構造(ha02)を初めて提案する。 特に,エンコーダとしてトランスコーダブロックを実装し,入力特徴のスパース性を実現するとともに,アテンション機構の成功に触発された残存ニューラルネットワークをデコーダとして実装する。 3gppチャネルモデルを用いて,提案手法は,他の候補ニューラルネットワーク法よりも優れた推定性能を示す。

In this paper, we deploy the self-attention mechanism to achieve improved channel estimation for orthogonal frequency-division multiplexing waveforms in the downlink. Specifically, we propose a new hybrid encoder-decoder structure (called HA02) for the first time which exploits the attention mechanism to focus on the most important input information. In particular, we implement a transformer encoder block as the encoder to achieve the sparsity in the input features and a residual neural network as the decoder respectively, inspired by the success of the attention mechanism. Using 3GPP channel models, our simulations show superior estimation performance compared with other candidate neural network methods for channel estimation.
翻訳日:2022-04-29 14:56:59 公開日:2022-04-28
# ADVISER: ナイジェリアにおけるワクチン摂取増加のためのAI駆動ワクチン介入オプティマイザ

ADVISER: AI-Driven Vaccination Intervention Optimiser for Increasing Vaccine Uptake in Nigeria ( http://arxiv.org/abs/2204.13663v1 )

ライセンス: Link先を確認
Vineet Nair, Kritika Prakash, Michael Wilbur, Aparna Taneja, Corrine Namblard, Oyindamola Adeyemo, Abhishek Dubey, Abiodun Adereni, Milind Tambe, Ayan Mukhopadhyay(参考訳) 5歳未満の子供500万人以上は毎年、予防や治療の可能な医療疾患で死亡しており、ワクチン接種率の低い未開発国では死亡者の割合が圧倒的に多い。 国連の持続可能な開発目標(sdg3)の1つは、5歳未満の新生児や子供の予防可能な死亡を終わらせることである。 私たちはナイジェリアに集中し、幼児死亡率がひどい。 我々はナイジェリアの大規模非営利組織であるHelpMumと共同で、不確実性の下での不均一な健康介入を設計し、最適化し、ワクチン接種率を高める。 我々のフレームワークであるADVISER: AI-Driven Vaccination Intervention Optimiserは、予防接種の成功確率を最大化する整数線形プログラムに基づいている。 私たちの最適化の定式化は実際は難解です。 実世界のユースケースの問題を解決するためのヒューリスティックなアプローチを提案する。 また、ヒューリスティックな方法の理論的境界も提示する。 最後に, 提案手法が, 実験的評価によるワクチン接種率の基準法を上回っていることを示す。 HelpMumは現在、ナイジェリア最大の都市に展開する私たちのアプローチに基づくパイロットプログラムを計画している。これは、AIによるワクチン接種プログラムの最初の展開であり、ナイジェリアにおける健康改善のための他のデータ駆動プログラムへの道を開くことを願っている。

More than 5 million children under five years die from largely preventable or treatable medical conditions every year, with an overwhelmingly large proportion of deaths occurring in under-developed countries with low vaccination uptake. One of the United Nations' sustainable development goals (SDG 3) aims to end preventable deaths of newborns and children under five years of age. We focus on Nigeria, where the rate of infant mortality is appalling. We collaborate with HelpMum, a large non-profit organization in Nigeria to design and optimize the allocation of heterogeneous health interventions under uncertainty to increase vaccination uptake, the first such collaboration in Nigeria. Our framework, ADVISER: AI-Driven Vaccination Intervention Optimiser, is based on an integer linear program that seeks to maximize the cumulative probability of successful vaccination. Our optimization formulation is intractable in practice. We present a heuristic approach that enables us to solve the problem for real-world use-cases. We also present theoretical bounds for the heuristic method. Finally, we show that the proposed approach outperforms baseline methods in terms of vaccination uptake through experimental evaluation. HelpMum is currently planning a pilot program based on our approach to be deployed in the largest city of Nigeria, which would be the first deployment of an AI-driven vaccination uptake program in the country and hopefully, pave the way for other data-driven programs to improve health outcomes in Nigeria.
翻訳日:2022-04-29 14:56:48 公開日:2022-04-28
# 有限トレース上の線形時間論理モデュロ理論(拡張版)

Linear Temporal Logic Modulo Theories over Finite Traces (Extended Version) ( http://arxiv.org/abs/2204.13693v1 )

ライセンス: Link先を確認
Luca Geatti, Alessandro Gianola and Nicola Gigante(参考訳) 本稿では,任意の理論上で解釈された一階公式に命題文字が置き換えられる有限トレース(ltlf)上の線形時相論理について,満足性モジュラー理論の精神を用いて検討する。 結果として得られる論理は LTLf Modulo Theories (LTLfMT) と呼ばれ、半決定可能である。 それでも、その高い表現力は、データ認識プロセスのモデルチェックやデータ認識計画など、多くのユースケースで有用である。 これらの問題の一般的な不決定性にもかかわらず、満足できる事例を解くことは研究に値する妥協である。 このような事例のモチベーションと記述の後,一通り木型卓上システムのSMT符号化に基づくLTLfMTの完全半決定法を提案する。 このアルゴリズムはBLACK満足度チェックツールに実装され、新しいベンチマークにおけるアプローチの有効性を実験的に評価した。

This paper studies Linear Temporal Logic over Finite Traces (LTLf) where proposition letters are replaced with first-order formulas interpreted over arbitrary theories, in the spirit of Satisfiability Modulo Theories. The resulting logic, called LTLf Modulo Theories (LTLfMT), is semi-decidable. Nevertheless, its high expressiveness comes useful in a number of use cases, such as model-checking of data-aware processes and data-aware planning. Despite the general undecidability of these problems, being able to solve satisfiable instances is a compromise worth studying. After motivating and describing such use cases, we provide a sound and complete semi-decision procedure for LTLfMT based on the SMT encoding of a one-pass tree-shaped tableau system. The algorithm is implemented in the BLACK satisfiability checking tool, and an experimental evaluation shows the feasibility of the approach on novel benchmarks.
翻訳日:2022-04-29 14:56:22 公開日:2022-04-28
# 空飛ぶ光分断による咬合除去における視野の役割について

On the Role of Field of View for Occlusion Removal with Airborne Optical Sectioning ( http://arxiv.org/abs/2204.13371v1 )

ライセンス: Link先を確認
Francis Seits, Indrajit Kurmi, Rakesh John Amala Arokia Nathan, Rudolf Ortner, and Oliver Bimber(参考訳) 植生によって引き起こされる閉塞は、捜索救助、山火事の検出、野生生物の観察、監視、国境管理など、リモートセンシングの応用において不可欠な問題である。 Airborne Optical Sectioning (AOS) は、光学的に波長に依存しない合成開口イメージング技術であり、リアルタイムに計算閉塞除去をサポートする。 無人または無人の航空機、例えばドローンに適用することができる。 本稿では,森林密度と適用画像システムの視野(FOV)との関係を実証する。 この発見は,従来の統計モデルよりも現実的な閉塞特性を考慮に入れたシミュレートされた手続き林モデルの助けを借りて行われた。 これまでAOSは自動および自律的な研究プロトタイプで研究されてきたが、DJIシステム向けの無料のAOS統合を提示する。 ブルーライトの組織や他の企業は、互換性があり手動操作のドローンでAOSを利用できる。 この実装の(デジタルトリミングされた)デフォルトのFOVは、私たちの新しい発見に基づいて選ばれました。

Occlusion caused by vegetation is an essential problem for remote sensing applications in areas, such as search and rescue, wildfire detection, wildlife observation, surveillance, border control, and others. Airborne Optical Sectioning (AOS) is an optical, wavelength-independent synthetic aperture imaging technique that supports computational occlusion removal in real-time. It can be applied with manned or unmanned aircrafts, such as drones. In this article, we demonstrate a relationship between forest density and field of view (FOV) of applied imaging systems. This finding was made with the help of a simulated procedural forest model which offers the consideration of more realistic occlusion properties than our previous statistical model. While AOS has been explored with automatic and autonomous research prototypes in the past, we present a free AOS integration for DJI systems. It enables bluelight organizations and others to use and explore AOS with compatible, manually operated, off-the-shelf drones. The (digitally cropped) default FOV for this implementation was chosen based on our new finding.
翻訳日:2022-04-29 14:54:23 公開日:2022-04-28
# 色知覚を模倣したスペクトル空間的応答を持つ逆設計メタ光学

Inverse-Designed Meta-Optics with Spectral-Spatial Engineered Response to Mimic Color Perception ( http://arxiv.org/abs/2204.13520v1 )

ライセンス: Link先を確認
Chris Munley, Wenchao Ma, Johannes E. Fr\"och, Quentin A. A. Tanguy, Elyas Bayati, Karl F. B\"ohringer, Zin Lin, Rapha\"el Pestourie, Steven G. Johnson, Arka Majumdar(参考訳) メタ光学は光とフォトニクスのコミュニティにおいて急速に研究分野となり、サブ波長散乱器のアレイとの相互作用を通じて光波面を制御することによって可能であったような無限の機会によって強く推進されている。 より多くのモダリティが探求されるにつれて、望ましい機能を実現するための設計戦略がますます要求され、より高度な設計技術が必要となる。 ここでは、逆設計法を用いて、フィルタを使わずに集光光のスペクトルを同時に形成する、単層メタ光学のセットを作成する。 したがって、メタ光学の空間的およびスペクトル的特性の両方を最適化し、cie 1931 xyz色空間の色マッチング関数を模倣するスペクトルとなり、光中の波長の分布と人間の目の色知覚を関連付ける。 これらのメタ光学の実験的実証は、理論的な予測と定性的な一致を示し、これらの装置の集中機構の解明に役立つ。

Meta-optics have rapidly become a major research field within the optics and photonics community, strongly driven by the seemingly limitless opportunities made possible by controlling optical wavefronts through interaction with arrays of sub-wavelength scatterers. As more and more modalities are explored, the design strategies to achieve desired functionalities become increasingly demanding, necessitating more advanced design techniques. Herein, the inverse-design approach is utilized to create a set of single-layer meta-optics that simultaneously focus light and shape the spectra of focused light without using any filters. Thus, both spatial and spectral properties of the meta-optics are optimized, resulting in spectra that mimic the color matching functions of the CIE 1931 XYZ color space, which links the distributions of wavelengths in light and the color perception of a human eye. Experimental demonstrations of these meta-optics show qualitative agreement with the theoretical predictions and help elucidate the focusing mechanism of these devices.
翻訳日:2022-04-29 14:54:08 公開日:2022-04-28
# 画像超解像のための生成型adversarial network: a survey

Generative Adversarial Networks for Image Super-Resolution: A Survey ( http://arxiv.org/abs/2204.13620v1 )

ライセンス: Link先を確認
Chunwei Tian, Xuanyu Zhang, Jerry Chun-Wen Lin, Wangmeng Zuo, Yanning Zhang(参考訳) 単一画像スーパーレゾリューション(sisr)は画像処理の分野で重要な役割を担っている。 近年のGAN(Generative Adversarial Network)は,小サンプルを用いた低解像度画像に対して優れた結果が得られる。 しかし、SISRに異なるGANを要約する文献はほとんどない。 本稿では,異なる視点からGANの比較研究を行う。 まず、GANの開発について見ていきます。 第2に,画像アプリケーションのための大規模および小規模なサンプルにおいて,gansの一般的なアーキテクチャを提案する。 そして, 教師付き, 半教師なし, 教師なしの手法を用いて, 画像超解像に対するGANに基づく最適化手法と識別学習のモチベーション, 実装, 差異を分析する。 次に、SISRの量的および定性的な分析を通じて、パブリックデータセット上のこれらの人気のあるGANのパフォーマンスを比較する。 最後に、GANの課題とSISRの潜在的研究ポイントを強調します。

Single image super-resolution (SISR) has played an important role in the field of image processing. Recent generative adversarial networks (GANs) can achieve excellent results on low-resolution images with small samples. However, there are little literatures summarizing different GANs in SISR. In this paper, we conduct a comparative study of GANs from different perspectives. We first take a look at developments of GANs. Second, we present popular architectures for GANs in big and small samples for image applications. Then, we analyze motivations, implementations and differences of GANs based optimization methods and discriminative learning for image super-resolution in terms of supervised, semi-supervised and unsupervised manners. Next, we compare performance of these popular GANs on public datasets via quantitative and qualitative analysis in SISR. Finally, we highlight challenges of GANs and potential research points for SISR.
翻訳日:2022-04-29 14:53:51 公開日:2022-04-28
# TTAGN:Ethereumフィッシング詐欺検出のための時間トランザクション集約グラフネットワーク

TTAGN: Temporal Transaction Aggregation Graph Network for Ethereum Phishing Scams Detection ( http://arxiv.org/abs/2204.13442v1 )

ライセンス: Link先を確認
Sijia Li, Gaopeng Gou, Chang Liu, Chengshang Hou, Zhenzhen Li, Gang Xiong(参考訳) 近年、フィッシング詐欺は2番目に大きなブロックチェーンプラットフォームであるethereumに関わる最も深刻な犯罪となっている。 Ethereum上の既存のフィッシング詐欺検出技術は、主に従来の機械学習またはネットワーク表現学習を使用して、トランザクションネットワークから重要な情報をマイニングしてフィッシングアドレスを特定する。 しかしながら、これらのメソッドは最後のトランザクションレコードを採用するか、あるいはこれらのレコードを完全に無視する。 本稿では,Ethereum上でのフィッシング詐欺検出性能を向上させるための時間トランザクション集約グラフネットワーク(TTAGN)を提案する。 具体的には、時間的エッジ表現モジュールにおいて、ノード間の履歴トランザクションレコードの時間的関係をモデル化し、Ethereumトランザクションネットワークのエッジ表現を構築する。 さらに、ノード周辺のエッジ表現は、エッジ2ノードモジュール内のトレーディング機能としても知られるトレーディング機能に、トポロジカルな相互関係を融合するために集約される。 さらに,グラフニューラルネットワークによって得られた共通統計的特徴と構造的特徴を組み合わせ,フィッシングアドレスを識別する。 実世界のethereumフィッシング詐欺データセット上で評価され、我々のttagn (92.8% auc, 81.6% f1score) は最先端の手法よりも優れており、時間的エッジ表現とedge2nodeモジュールの有効性も実証されている。

In recent years, phishing scams have become the most serious type of crime involved in Ethereum, the second-largest blockchain platform. The existing phishing scams detection technology on Ethereum mostly uses traditional machine learning or network representation learning to mine the key information from the transaction network to identify phishing addresses. However, these methods adopt the last transaction record or even completely ignore these records, and only manual-designed features are taken for the node representation. In this paper, we propose a Temporal Transaction Aggregation Graph Network (TTAGN) to enhance phishing scams detection performance on Ethereum. Specifically, in the temporal edges representation module, we model the temporal relationship of historical transaction records between nodes to construct the edge representation of the Ethereum transaction network. Moreover, the edge representations around the node are aggregated to fuse topological interactive relationships into its representation, also named as trading features, in the edge2node module. We further combine trading features with common statistical and structural features obtained by graph neural networks to identify phishing addresses. Evaluated on real-world Ethereum phishing scams datasets, our TTAGN (92.8% AUC, and 81.6% F1score) outperforms the state-of-the-art methods, and the effectiveness of temporal edges representation and edge2node module is also demonstrated.
翻訳日:2022-04-29 14:53:32 公開日:2022-04-28
# ディープニューラルネットワークを用いたペルシア語音声の感情認識

Emotion Recognition In Persian Speech Using Deep Neural Networks ( http://arxiv.org/abs/2204.13601v1 )

ライセンス: Link先を確認
Ali Yazdani, Hossein Simchi, Yaser Shekofteh(参考訳) 音声感情認識(SER)は、人間とコンピュータの相互作用(HCI)において非常に重要である。 近年、SER技術を改善するために様々な機械学習とディープラーニングアルゴリズムが開発されている。 感情の認識は、異なる言語によって異なる表現の種類に依存する。 本稿では、Farsiにおけるこの重要な要因を更に研究するために、SheEMOデータセット上の様々な深層学習手法について検討する。 低レベルおよび高レベル記述における信号特徴と異なるディープネットワークと機械学習技術を用いることで、unweighted average recall (uar) は 78.29 の精度で達成される。

Speech Emotion Recognition (SER) is of great importance in Human-Computer Interaction (HCI), as it provides a deeper understanding of the situation and results in better interaction. In recent years, various machine learning and deep learning algorithms have been developed to improve SER techniques. Recognition of emotions depends on the type of expression that varies between different languages. In this article, to further study this important factor in Farsi, we examine various deep learning techniques on the SheEMO dataset. Using signal features in low- and high-level descriptions and different deep networks and machine learning techniques, Unweighted Average Recall (UAR) of 65.20 is achieved with an accuracy of 78.29.
翻訳日:2022-04-29 14:53:08 公開日:2022-04-28
# フェデレーション学習型アーキテクチャパターン選択のための決定モデル

A Decision Model for Federated Learning Architecture Pattern Selection ( http://arxiv.org/abs/2204.13291v1 )

ライセンス: Link先を確認
Sin Kit Lo, Qinghua Lu, Hye-Young Paik, Liming Zhu(参考訳) フェデレーション学習は、機械学習におけるデータの飢餓とプライバシーの問題を解決するために、学術と産業の両方で急速に成長している。 異なるコンポーネントや利害関係者と広く分散している連合学習システムは、ソフトウェアシステム設計の思考を必要とする。 例えば、クライアント管理、トレーニング設定、モデルデプロイメントなど、さまざまな側面をカバーする研究者によって、複数のパターンと戦術が要約されている。 しかし、多くのパターンはデザイナーがいつ、どのパターンを採用するべきかを混乱させてしまう。 そこで本稿では,フェデレーション学習の知識に乏しい設計者や設計者に対して,フェデレーション学習アーキテクチャ設計のためのアーキテクチャパターンを選択する際の意思決定モデルを提案する。 各決定モデルは、連合学習システムの機能的および非機能的要求を一連のパターンにマップする。 また、パターンに暗黙的なトレードオフを明らかにします。 様々な設計決定オプションを通じてアーキテクチャ設計プロセスを導く上での正しさと有用性を評価するため,実践者へのインタビューを通じて意思決定モデルを評価した。

Federated learning is growing fast in both academia and industry to resolve data hungriness and privacy issues in machine learning. A federated learning system being widely distributed with different components and stakeholders requires software system design thinking. For instance, multiple patterns and tactics have been summarised by researchers that cover various aspects, from client management, training configuration, model deployment, etc. However, the multitude of patterns leaves the designers confused about when and which pattern to adopt or adapt. Therefore, in this paper, we present a set of decision models to assist designers and architects who have limited knowledge in federated learning, in selecting architectural patterns for federated learning architecture design. Each decision model maps functional and non-functional requirements of federated learning systems to a set of patterns. we also clarify the trade-offs that may be implicit in the patterns. We evaluated the decision model through a set of interviews with practitioners to assess the correctness and usefulness in guiding the architecture design process through various design decision options.
翻訳日:2022-04-29 14:50:52 公開日:2022-04-28
# 金融市場におけるリアルな離散順序データ生成のための政策グラディエント株GAN

Policy Gradient Stock GAN for Realistic Discrete Order Data Generation in Financial Markets ( http://arxiv.org/abs/2204.13338v1 )

ライセンス: Link先を確認
Masanori Hirano, Hiroki Sakaji, Kiyoshi Izumi(参考訳) 本研究では,金融市場における現実的な秩序を創出するためのGAN(Generative Adversarial Network)を提案する。 以前の研究では、GANアーキテクチャの学習制限のため、金融市場向けのGANが連続空間で偽の注文を発生させた。 しかし、実際の注文は、最小の注文価格単位を持つ注文価格や注文タイプなど、離散的なものである。 そこで本研究では,生成法を変更し,生成した偽の順序を離散空間に配置する。 この変更は通常のGAN学習アルゴリズムを無効にするため、強化学習によく使用されるポリシー勾配を学習アルゴリズムに用いた。 実験により,提案モデルが生成順序分布において先行モデルより優れていることを示す。 政策勾配の導入によるさらなるメリットとして、生成された政策のエントロピーを用いて、GANの学習状況をチェックすることができる。 将来的には、より高いパフォーマンスのgan、より良い評価方法、あるいは私たちのganの応用に対処できるでしょう。

This study proposes a new generative adversarial network (GAN) for generating realistic orders in financial markets. In some previous works, GANs for financial markets generated fake orders in continuous spaces because of GAN architectures' learning limitations. However, in reality, the orders are discrete, such as order prices, which has minimum order price unit, or order types. Thus, we change the generation method to place the generated fake orders into discrete spaces in this study. Because this change disabled the ordinary GAN learning algorithm, this study employed a policy gradient, frequently used in reinforcement learning, for the learning algorithm. Through our experiments, we show that our proposed model outperforms previous models in generated order distribution. As an additional benefit of introducing the policy gradient, the entropy of the generated policy can be used to check GAN's learning status. In the future, higher performance GANs, better evaluation methods, or the applications of our GANs can be addressed.
翻訳日:2022-04-29 14:50:36 公開日:2022-04-28
# 半教師付き分類のための平均場モデルのチューニングについて

On tuning a mean-field model for semi-supervised classification ( http://arxiv.org/abs/2204.13519v1 )

ライセンス: Link先を確認
Em\'ilio Bergamim and Fabricio Breve(参考訳) semi-supervised learning (ssl) はラベル付きデータとラベルなしデータの両方が利用できるシナリオで学習する能力があるため、興味深い研究領域となっている。 本研究では,学習者に提示されるすべてのデータをポッツモデルに平均場近似でラベル付けすることを目的としたトランスダクションのタスクに焦点をあてる。 このタスクを目標として、分類結果が$\beta$ に依存し、最適なフェーズが利用可能なラベル付きデータの量に大きく依存していることを確認する。 同じ研究で、$\beta$の小さなゆらぎに関するより安定した分類が高い確率の構成と関連していることが観察され、そのような観測に基づくチューニングアプローチを提案する。 この方法は、新しいパラメータ$\gamma$に依存し、フィールドの古典的手法と比較して、その量の2つの異なる値を評価する。 この評価は、利用可能なラベル付きデータ量と類似度グラフ内の最寄りの近傍の数を変更することにより行われる。 実験的な結果から,NMFはより少ないクラスを持つデータセットにおいて,他の手法よりも優れていることがわかった。 さらに、$\gamma$で選択された値の1つが、SSLの分野の実践者にとって関心のある隣人の数の変化に対してより回復力のある結果をもたらす。

Semi-supervised learning (SSL) has become an interesting research area due to its capacity for learning in scenarios where both labeled and unlabeled data are available. In this work, we focus on the task of transduction - when the objective is to label all data presented to the learner - with a mean-field approximation to the Potts model. Aiming at this particular task we study how classification results depend on $\beta$ and find that the optimal phase depends highly on the amount of labeled data available. In the same study, we also observe that more stable classifications regarding small fluctuations in $\beta$ are related to configurations of high probability and propose a tuning approach based on such observation. This method relies on a novel parameter $\gamma$ and we then evaluate two different values of the said quantity in comparison with classical methods in the field. This evaluation is conducted by changing the amount of labeled data available and the number of nearest neighbors in the similarity graph. Empirical results show that the tuning method is effective and allows NMF to outperform other approaches in datasets with fewer classes. In addition, one of the chosen values for $\gamma$ also leads to results that are more resilient to changes in the number of neighbors, which might be of interest to practitioners in the field of SSL.
翻訳日:2022-04-29 14:50:20 公開日:2022-04-28
# 緊急HPCワークロードの情報スケジューリングのためのバッチキュー待ち時間予測

Predicting batch queue job wait times for informed scheduling of urgent HPC workloads ( http://arxiv.org/abs/2204.13543v1 )

ライセンス: Link先を確認
Nick Brown, Gordon Gibb, Evgenij Belikov, Rupert Nash(参考訳) 災害への対処に役立つ緊急作業用のhpcマシンの利用への関心が高まっている。 バッチキューシステムはこのようなワークロードをサポートするのに理想的ではないが、待機ジョブの実行開始時期を正確に予測することで、多くのデメリットを回避できる。 しかし、キューの状態が急速に変化し、多くの要因に依存するため、高い精度でそのような予測を達成するには多くの課題がある。 本研究では,待ち時間予測のための新しい機械学習手法について検討し,待ち行列のポリシやその他のインタラクションから生じる複雑な振る舞いをキャプチャして,ジョブ開始時間を正確に生成できると仮定する。 本稿では,ARCHER2 (HPE Cray EX), Cirrus (HPE 8600), 4-cabinet (HPE Cray EX) について,Slurm が生成した推定値と比較して,機械学習のアプローチとテクニックの違いによる予測精度の向上について検討する。 この研究の結果、ARCHER2と4-cabinetのジョブの65%、Cirrusのジョブの66%に対して、実際の開始時間の1分以内のジョブ開始時間を予測できるようになりました。 Slurmが提供できるものと比較すると、ARCHER2の3.8倍、Cirrusの18倍の精度を示している。 さらに,本手法はARCHER2と4-cabinetの実際の開始から10分以内に全ジョブの4分の3の開始時刻を正確に予測し,Cirrusの90%のジョブを予測できる。 この作業の原動力は、hpcマシンにまたがる緊急ワークロードの配置をより容易にすることにあるが、得られた洞察は、ユーザに対してより広範なメリットを提供し、既存のバッチキューシステムとインフォメーションポリシの強化にも利用できる。

There is increasing interest in the use of HPC machines for urgent workloads to help tackle disasters as they unfold. Whilst batch queue systems are not ideal in supporting such workloads, many disadvantages can be worked around by accurately predicting when a waiting job will start to run. However there are numerous challenges in achieving such a prediction with high accuracy, not least because the queue's state can change rapidly and depend upon many factors. In this work we explore a novel machine learning approach for predicting queue wait times, hypothesising that such a model can capture the complex behaviour resulting from the queue policy and other interactions to generate accurate job start times. For ARCHER2 (HPE Cray EX), Cirrus (HPE 8600) and 4-cabinet (HPE Cray EX) we explore how different machine learning approaches and techniques improve the accuracy of our predictions, comparing against the estimation generated by Slurm. We demonstrate that our techniques deliver the most accurate predictions across our machines of interest, with the result of this work being the ability to predict job start times within one minute of the actual start time for around 65\% of jobs on ARCHER2 and 4-cabinet, and 76\% of jobs on Cirrus. When compared against what Slurm can deliver, this represents around 3.8 times better accuracy on ARCHER2 and 18 times better for Cirrus. Furthermore our approach can accurately predicting the start time for three quarters of all job within ten minutes of the actual start time on ARCHER2 and 4-cabinet, and for 90\% of jobs on Cirrus. Whilst the driver of this work has been to better facilitate placement of urgent workloads across HPC machines, the insights gained can be used to provide wider benefits to users and also enrich existing batch queue systems and inform policy too.
翻訳日:2022-04-29 14:49:58 公開日:2022-04-28
# (参考訳) NeurMiPs:ビュー合成のための平面エキスパートの神経混合

NeurMiPs: Neural Mixture of Planar Experts for View Synthesis ( http://arxiv.org/abs/2204.13696v1 )

ライセンス: CC BY 4.0
Zhi-Hao Lin, Wei-Chiu Ma, Hao-Yu Hsu, Yu-Chiang Frank Wang, Shenlong Wang(参考訳) 本稿では,新しい平面型シーン表現である平面エキスパート(neurmips)のニューラルミキシングについて述べる。 NeurMiPsは、シーン表現として3D空間におけるローカルなプランナ専門家のコレクションを利用する。 各平面専門家は、幾何学を表す局所矩形形状のパラメータと、色と不透明度をモデル化した神経放射場から構成される。 線面交点や合成出力色や密度を画像との交差点で計算し,新たなビューを描画する。 NeurMiPsは、明示的なメッシュレンダリングの効率と神経放射場の柔軟性をブレンドする。 実験では,提案手法の性能と速度を,新規なビュー合成における他の3次元表現と比較した。

We present Neural Mixtures of Planar Experts (NeurMiPs), a novel planar-based scene representation for modeling geometry and appearance. NeurMiPs leverages a collection of local planar experts in 3D space as the scene representation. Each planar expert consists of the parameters of the local rectangular shape representing geometry and a neural radiance field modeling the color and opacity. We render novel views by calculating ray-plane intersections and composite output colors and densities at intersected points to the image. NeurMiPs blends the efficiency of explicit mesh rendering and flexibility of the neural radiance field. Experiments demonstrate superior performance and speed of our proposed method, compared to other 3D representations in novel view synthesis.
翻訳日:2022-04-29 14:47:43 公開日:2022-04-28
# テスト時間適応のための共分散認識特徴と事前計算ソース統計

Covariance-aware Feature Alignment with Pre-computed Source Statistics for Test-time Adaptation ( http://arxiv.org/abs/2204.13263v1 )

ライセンス: Link先を確認
Kazuki Adachi, Shin'ya Yamaguchi, Atsutoshi Kumagai(参考訳) テスト環境(ターゲットドメイン)における特徴の分布がトレーニング環境(ソース)環境と異なる場合、ディープニューラルネットワークの精度は低下する。 劣化を軽減するために、モデルがソースデータセットにアクセスせずにターゲットドメインに適応するテスト時間適応(TTA)をテスト環境で使用することができる。 しかし、既存のTTAメソッドは、ソースデータセットへのアクセスがTTA設定で禁止されているため、教師なしのドメイン適応に主に対処するソースドメインとターゲットドメイン間の特徴分散アライメントを欠いている。 本稿では,テスト時のソースとターゲットの特徴分布を明示的にアライメントする新しいTTA手法であるCovariance-Aware Feature alignment (CAFe)を提案する。 ソースデータにアクセスすることなくアライメントを実行するために、CAFeはソースドメインに事前計算された補助的特徴統計(平均と共分散)を使用し、軽量で容易に準備できる。 さらに,効率と安定性を向上させるために,スペクトルクラスタリングを用いて特徴次元をグループに分割し,共分散行列の劣化を回避する特徴群を提案する。 種々の分布シフトにおいて,CAFeが先行TTA法より優れていることを示す。

The accuracy of deep neural networks is degraded when the distribution of features in the test environment (target domain) differs from that of the training (source) environment. To mitigate the degradation, test-time adaptation (TTA), where a model adapts to the target domain without access to the source dataset, can be used in the test environment. However, the existing TTA methods lack feature distribution alignment between the source and target domains, which unsupervised domain adaptation mainly addresses, because accessing the source dataset is prohibited in the TTA setting. In this paper, we propose a novel TTA method, named Covariance-Aware Feature alignment (CAFe), which explicitly aligns the source and target feature distributions at test time. To perform alignment without accessing the source data, CAFe uses auxiliary feature statistics (mean and covariance) pre-computed on the source domain, which are lightweight and easily prepared. Further, to improve efficiency and stability, we propose feature grouping, which splits the feature dimensions into groups according to their correlations by using spectral clustering to avoid degeneration of the covariance matrix. We empirically show that CAFe outperforms prior TTA methods on a variety of distribution shifts.
翻訳日:2022-04-29 14:25:23 公開日:2022-04-28
# 確率的二値最適化問題に対するモーメントベースアルゴリズムの収束性について

On the Convergence of Momentum-Based Algorithms for Federated Stochastic Bilevel Optimization Problems ( http://arxiv.org/abs/2204.13299v1 )

ライセンス: Link先を確認
Hongchang Gao(参考訳) 本稿では,連立確率二次最適化問題について検討した。 特に,この問題を最適化するための運動量に基づくアルゴリズムを2つ開発した。 さらに,これら2つのアルゴリズムの収束速度を定め,サンプルと通信の複雑さを明らかにした。 私たちの知る限りでは、このような好ましい理論結果を達成するのはこれが初めてです。

In this paper, we studied the federated stochastic bilevel optimization problem. In particular, we developed two momentum-based algorithms for optimizing this kind of problem. In addition, we established the convergence rate of these two algorithms, providing their sample and communication complexities. To the best of our knowledge, this is the first work achieving such favorable theoretical results.
翻訳日:2022-04-29 14:25:02 公開日:2022-04-28
# 終わった: トレーニング最適化なしの直接ワンショット学習

It's DONE: Direct ONE-shot learning without training optimization ( http://arxiv.org/abs/2204.13361v1 )

ライセンス: Link先を確認
Kazufumi Hosoda, Keigo Nishida, Shigeto Seno, Tomohiro Mashita, Hideki Kashioka, Izumi Ohzawa(参考訳) ある例から新しい概念を学ぶことは人間の脳の優れた機能であり、一発学習タスクとしての機械学習の分野で注目を集めている。 本稿では,DONE(Direct ONE-shot Learning)という,このタスクの最もシンプルな手法を提案する。 DONEは事前訓練されたディープニューラルネットワーク(DNN)分類器に新しいクラスを追加する。 DONEはヘビアン理論にインスパイアされ、新しい追加クラスに属するデータから得られる最終密度層の神経活動入力を、新しいクラスのために新たに提案された出力ニューロンと接続重量(シナプス強度)として直接利用する。 DONEは最終密度層の出力を得るために1つの推論しか必要とせず、その手順は単純で決定論的であり、パラメータチューニングやハイパーパラメータを必要としない。 DONEの性能は、バックボーンモデルとして使用される事前訓練されたDNNモデルに完全に依存しており、よく訓練されたバックボーンモデルを持つDONEが実用的なレベルの精度を発揮することを確認した。 DONEには、トレーニングに高コストを費やすのが難しいDNNの実践的使用、既存のDNNモデルの評価、脳の理解など、いくつかの利点がある。 DONEは、人間だけでなく、現在よく訓練されているDNNモデルにも簡単な原理で実現できる、ワンショット学習を教えてくれるかもしれない。

Learning a new concept from one example is a superior function of human brain and it is drawing attention in the field of machine learning as one-shot learning task. In this paper, we propose the simplest method for this task, named Direct ONE-shot learning (DONE). DONE adds a new class to a pretrained deep neural network (DNN) classifier with neither training optimization nor other-classes modification. DONE is inspired by Hebbian theory and directly uses the neural activity input of the final dense layer obtained from a data that belongs to the new additional class as the connectivity weight (synaptic strength) with a newly-provided-output neuron for the new class. DONE requires just one inference for obtaining the output of the final dense layer and its procedure is simple, deterministic, not requiring parameter tuning and hyperparameters. The performance of DONE depends entirely on the pretrained DNN model used as a backbone model, and we confirmed that DONE with a well-trained backbone model performs a practical-level accuracy. DONE has some advantages including a DNN's practical use that is difficult to spend high cost for a training, an evaluation of existing DNN models, and the understanding of the brain. DONE might be telling us one-shot learning is an easy task that can be achieved by a simple principle not only for humans but also for current well-trained DNN models.
翻訳日:2022-04-29 14:24:57 公開日:2022-04-28
# risエンパワードワイヤレスネットワークにおける位相シフト設計:最適化からaiベース手法へ

Phase Shift Design in RIS Empowered Wireless Networks: From Optimization to AI-Based Methods ( http://arxiv.org/abs/2204.13372v1 )

ライセンス: Link先を確認
Zongze Li, Shuai Wang, Qingfeng Lin, Yang Li, Miaowen Wen, Yik-Chung Wu, and H. Vincent Poor(参考訳) 再構成可能なインテリジェントサーフェス(RIS)は、無線ネットワークのための無線伝搬環境をカスタマイズする革命的な機能を持つ。 無線システムにおけるRISの利点を完全に活用するには、反射素子の位相をビームフォーマ、送信電力、計算時間などの従来の通信資源と共同で設計する必要がある。 しかし, 位相シフトの特異な制約や, 大規模ネットワークにおける反射ユニットやユーザ数が多いため, 結果として生じる最適化問題は解決が困難である。 本稿では、RISが課す制約を扱うための現在の最適化手法と人工知能に基づく手法を概観し、ソリューションの品質と計算複雑性の観点から比較する。 RISを含む位相シフト最適化における今後の課題についても述べ、潜在的な解決策について議論する。

Reconfigurable intelligent surfaces (RISs) have a revolutionary capability to customize the radio propagation environment for wireless networks. To fully exploit the advantages of RISs in wireless systems, the phases of the reflecting elements must be jointly designed with conventional communication resources, such as beamformers, transmit power, and computation time. However, due to the unique constraints on the phase shift, and massive numbers of reflecting units and users in large-scale networks, the resulting optimization problems are challenging to solve. This paper provides a review of current optimization methods and artificial intelligence-based methods for handling the constraints imposed by RIS and compares them in terms of solution quality and computational complexity. Future challenges in phase shift optimization involving RISs are also described and potential solutions are discussed.
翻訳日:2022-04-29 14:24:36 公開日:2022-04-28
# フェデレーション特徴を用いた分類器再訓練による不均一・長尾データのフェデレーション学習

Federated Learning on Heterogeneous and Long-Tailed Data via Classifier Re-Training with Federated Features ( http://arxiv.org/abs/2204.13399v1 )

ライセンス: Link先を確認
Xinyi Shang, Yang Lu, Gang Huang, Hanzi Wang(参考訳) Federated Learning (FL)は、分散機械学習タスクのためのプライバシ保護ソリューションを提供する。 flモデルの性能を著しく損なう問題の一つは、実際のflアプリケーションで頻繁に現れるデータの不均一性とロングテール分布の共起である。 本稿では,偏りのある分類器が,グローバルモデルの性能低下につながる主要な要因である,興味深い事実を明らかにする。 そこで本研究では, フェデレート機能付き分類器再訓練(CreFF)による不均一・長期データに対する新規かつプライバシー保護的なFL法を提案する。 フェデレートされた機能で再トレーニングされた分類器は、ローカルデータやクラス分布の情報漏洩なしに、プライバシ保存方式で実データで再トレーニングされたものと同等のパフォーマンスが得られる。 いくつかのベンチマークデータセットにおける実験により、提案するcreffは、不均質で長い尾を持つデータの下で有望なflモデルを得るための有効な解であることが示された。 また,最新のFL法との比較により,CreFFの優位性を検証した。 私たちのコードはhttps://github.com/shangxinyi/creff-flで入手できる。

Federated learning (FL) provides a privacy-preserving solution for distributed machine learning tasks. One challenging problem that severely damages the performance of FL models is the co-occurrence of data heterogeneity and long-tail distribution, which frequently appears in real FL applications. In this paper, we reveal an intriguing fact that the biased classifier is the primary factor leading to the poor performance of the global model. Motivated by the above finding, we propose a novel and privacy-preserving FL method for heterogeneous and long-tailed data via Classifier Re-training with Federated Features (CReFF). The classifier re-trained on federated features can produce comparable performance as the one re-trained on real data in a privacy-preserving manner without information leakage of local data or class distribution. Experiments on several benchmark datasets show that the proposed CReFF is an effective solution to obtain a promising FL model under heterogeneous and long-tailed data. Comparative results with the state-of-the-art FL methods also validate the superiority of CReFF. Our code is available at https://github.com/shangxinyi/CReFF-FL.
翻訳日:2022-04-29 14:24:22 公開日:2022-04-28
# 医療イベントタイム予測における電子健康記録の累積滞在時間表現

Cumulative Stay-time Representation for Electronic Health Records in Medical Event Time Prediction ( http://arxiv.org/abs/2204.13451v1 )

ライセンス: Link先を確認
Takayuki Katsuki, Kohei Miyaguchi, Akira Koseki, Toshiya Iwamori, Ryosuke Yanagiya, Atsushi Suzuki(参考訳) 本稿では,患者の電子健康記録(EHR)から,疾患の発生時期,すなわち医療イベント時間(MET)を予測する問題に対処する。 糖尿病のような非感染性疾患のメットは、累積的な健康状態、より具体的には、患者が過去に特定の健康状態に費やした時間と高い相関がある。 一般的な時系列表現は、累積情報ではなく、連続した観測における値間の詳細な依存関係に焦点を当てているため、EHRからそのような情報を間接的に抽出するものである。 本研究では, 累積健康状態を直接モデル化した, 累積滞在時間表現(CTR)という新しいデータ表現を提案する。 我々は、ニューラルネットワークに基づくトレーニング可能なCTRの構築を導き、ターゲットデータに適合する柔軟性と高次元のEHRを扱うスケーラビリティを有する。 合成および実世界のデータセットを用いた数値実験により、CTRだけで高い予測性能が得られ、それらと組み合わせることで既存のモデルの性能が向上することを示した。

We address the problem of predicting when a disease will develop, i.e., medical event time (MET), from a patient's electronic health record (EHR). The MET of non-communicable diseases like diabetes is highly correlated to cumulative health conditions, more specifically, how much time the patient spent with specific health conditions in the past. The common time-series representation is indirect in extracting such information from EHR because it focuses on detailed dependencies between values in successive observations, not cumulative information. We propose a novel data representation for EHR called cumulative stay-time representation (CTR), which directly models such cumulative health conditions. We derive a trainable construction of CTR based on neural networks that has the flexibility to fit the target data and scalability to handle high-dimensional EHR. Numerical experiments using synthetic and real-world datasets demonstrate that CTR alone achieves a high prediction performance, and it enhances the performance of existing models when combined with them.
翻訳日:2022-04-29 14:22:40 公開日:2022-04-28
# 有限共有資源アームを有するマルチプレイヤーマルチアームバンディット:学習アルゴリズムと応用

Multi-Player Multi-Armed Bandits with Finite Shareable Resources Arms: Learning Algorithms & Applications ( http://arxiv.org/abs/2204.13502v1 )

ライセンス: Link先を確認
Xuchuang Wang, Hong Xie, John C.S. Lui(参考訳) マルチプレイヤーマルチアーム・バンドイット(MMAB)は、分散化されたプレイヤーが同じマルチアーム・バンドイットを協調して演奏し、累積報酬を最大化する方法を研究する。 既存のmmabモデルは、多くの場合、複数のプレイヤーが同じ腕を引っ張るとき、衝突してゼロの報酬を得るか、衝突することなく独立した報酬を得るかのどちらかを想定している。 本稿では,衝突と非衝突設定の拡張として,共有可能な資源を持つMMABを提案する。 共有可能な各アームは、有限の共有可能なリソースと、プレイヤーに未知の「負荷ごとの報酬」ランダム変数を持つ。 共有可能なアームからの報酬は、アームを引っ張るプレイヤーの数と、アームの最大共有可能なリソースの間の最小で乗じる「ロード毎の報酬」に等しい。 本稿では、需要情報共有(SDI)と需要情報共有(SDA)の2つのタイプのフィードバックについて考察する。 dpe-sdiアルゴリズムとsic-sdaアルゴリズムをそれぞれ2つのフィードバックのケースで共有可能なアーム問題に対処するように設計し,両アルゴリズムがラウンド数に密着した対数的後悔を持っていることを証明した。 我々は,アルゴリズムの性能を検証し,無線ネットワークとエッジコンピューティングにおける有用性を示すシミュレーションを行う。

Multi-player multi-armed bandits (MMAB) study how decentralized players cooperatively play the same multi-armed bandit so as to maximize their total cumulative rewards. Existing MMAB models mostly assume when more than one player pulls the same arm, they either have a collision and obtain zero rewards, or have no collision and gain independent rewards, both of which are usually too restrictive in practical scenarios. In this paper, we propose an MMAB with shareable resources as an extension to the collision and non-collision settings. Each shareable arm has finite shareable resources and a "per-load" reward random variable, both of which are unknown to players. The reward from a shareable arm is equal to the "per-load" reward multiplied by the minimum between the number of players pulling the arm and the arm's maximal shareable resources. We consider two types of feedback: sharing demand information (SDI) and sharing demand awareness (SDA), each of which provides different signals of resource sharing. We design the DPE-SDI and SIC-SDA algorithms to address the shareable arm problem under these two cases of feedback respectively and prove that both algorithms have logarithmic regrets that are tight in the number of rounds. We conduct simulations to validate both algorithms' performance and show their utilities in wireless networking and edge computing.
翻訳日:2022-04-29 14:22:22 公開日:2022-04-28
# (参考訳) semattnet: 注意に基づくsemantic aware guided depth completionに向けて

SemAttNet: Towards Attention-based Semantic Aware Guided Depth Completion ( http://arxiv.org/abs/2204.13635v1 )

ライセンス: CC BY-SA 4.0
Danish Nazir, Marcus Liwicki, Didier Stricker, Muhammad Zeshan Afzal(参考訳) 深さの完成には、スパースマップとRGB画像から密度の深い深度マップを復元することが含まれる。 最近のアプローチでは、カラーイメージを誘導画像として活用し、無効画素の深さを回復する。 しかし、カラー画像だけではシーンのセマンティックな理解を提供するには不十分である。 その結果、奥行き完了タスクは、RGB画像(例えば影)の突然の照明変化に悩まされる。 本稿では,カラーガイド,セマンティクスガイド,奥行き案内枝からなる新しい3分岐バックボーンを提案する。 具体的には、カラー誘導ブランチは、スパース深度マップとRGB画像とを入力として、シーンのカラーキュー(例えば、オブジェクト境界)を含む色深度を生成する。 意味的画像とスパース深さ地図とを併用した色誘導枝の濃密深度マップを意味誘導枝に入力して意味的深さを推定する。 深度誘導枝は疎度、色、意味的な深度を取り、深度マップを生成する。 色深度,意味深度,ガイド深度は適応的に融合し,提案した3枝バックボーンの出力を生成する。 さらに,本研究では,意味認識型マルチモーダルアテンションベースフュージョンブロック (SAMMAFB) を3つのブランチ間で融合する手法を提案する。 さらにCSPN++とAtrousの畳み込みを使って、3分岐のバックボーンによって生成される深度マップを洗練します。 大規模実験により, 提案時のKITTI深度補完ベンチマークにおいて, 最先端の性能が得られた。

Depth completion involves recovering a dense depth map from a sparse map and an RGB image. Recent approaches focus on utilizing color images as guidance images to recover depth at invalid pixels. However, color images alone are not enough to provide the necessary semantic understanding of the scene. Consequently, the depth completion task suffers from sudden illumination changes in RGB images (e.g., shadows). In this paper, we propose a novel three-branch backbone comprising color-guided, semantic-guided, and depth-guided branches. Specifically, the color-guided branch takes a sparse depth map and RGB image as an input and generates color depth which includes color cues (e.g., object boundaries) of the scene. The predicted dense depth map of color-guided branch along-with semantic image and sparse depth map is passed as input to semantic-guided branch for estimating semantic depth. The depth-guided branch takes sparse, color, and semantic depths to generate the dense depth map. The color depth, semantic depth, and guided depth are adaptively fused to produce the output of our proposed three-branch backbone. In addition, we also propose to apply semantic-aware multi-modal attention-based fusion block (SAMMAFB) to fuse features between all three branches. We further use CSPN++ with Atrous convolutions to refine the dense depth map produced by our three-branch backbone. Extensive experiments show that our model achieves state-of-the-art performance in the KITTI depth completion benchmark at the time of submission.
翻訳日:2022-04-29 14:18:56 公開日:2022-04-28
# RobBERTje: 蒸留されたオランダのBERTモデル

RobBERTje: a Distilled Dutch BERT Model ( http://arxiv.org/abs/2204.13511v1 )

ライセンス: Link先を確認
Pieter Delobelle, Thomas Winters, Bettina Berendt(参考訳) BERTのような事前訓練された大規模言語モデルは、幅広い自然言語タスクにおける優れた性能のおかげで、多くの注目を集めている。 しかしながら、パラメータの数が多いため、デプロイと微調整の両方においてリソース集約的です。 研究者は、性能のトレードオフを小さくして効率を上げるために、言語モデルをより小さなものに蒸留する方法をいくつか作成した。 本稿では,最先端のオランダのRobBERTモデルの蒸留版を複数作成し,それをRobBERTjeと呼ぶ。 蒸留コーパスは蒸留コーパスと異なり、蒸留コーパスがシャッフルされるか、後続文とマージされるかという違いがある。 シャッフルと非シャッフルのデータセットを使ったモデルのパフォーマンスは、ほとんどのタスクで似ており、後続の文をコーパスにランダムにマージすることで、より高速にトレーニングし、長いシーケンスを持つタスクでより良いパフォーマンスを発揮するモデルが作成できることがわかった。 蒸留アーキテクチャを比較すると,より大きな DistilBERT アーキテクチャは Bort ハイパーパラメトリゼーションよりもかなりうまく機能したことがわかった。 興味深いことに, 蒸留したモデルでは, 教師モデルに比べて, ジェンダー・ステレオタイプバイアスが低かった。 より小さなアーキテクチャは微調整の時間を短縮するので、これらのモデルはより効率的なトレーニングと、オランダの下流言語タスクのより軽量なデプロイを可能にします。

Pre-trained large-scale language models such as BERT have gained a lot of attention thanks to their outstanding performance on a wide range of natural language tasks. However, due to their large number of parameters, they are resource-intensive both to deploy and to fine-tune. Researchers have created several methods for distilling language models into smaller ones to increase efficiency, with a small performance trade-off. In this paper, we create several different distilled versions of the state-of-the-art Dutch RobBERT model and call them RobBERTje. The distillations differ in their distillation corpus, namely whether or not they are shuffled and whether they are merged with subsequent sentences. We found that the performance of the models using the shuffled versus non-shuffled datasets is similar for most tasks and that randomly merging subsequent sentences in a corpus creates models that train faster and perform better on tasks with long sequences. Upon comparing distillation architectures, we found that the larger DistilBERT architecture worked significantly better than the Bort hyperparametrization. Interestingly, we also found that the distilled models exhibit less gender-stereotypical bias than its teacher model. Since smaller architectures decrease the time to fine-tune, these models allow for more efficient training and more lightweight deployment of many Dutch downstream language tasks.
翻訳日:2022-04-29 13:58:43 公開日:2022-04-28
# 関係抽出とは何か? データセットに関する調査と科学関係分類に関する研究

What do You Mean by Relation Extraction? A Survey on Datasets and Study on Scientific Relation Classification ( http://arxiv.org/abs/2204.13516v1 )

ライセンス: Link先を確認
Elisa Bassignana and Barbara Plank(参考訳) 過去5年間で、関係抽出(RE)の研究は、多くの新しいデータセットリリースで広範な進歩をみせた。 同時に、セットアップの明確さが低下し、信頼性のある経験的評価の難しさが増した(Taill\'e et al., 2020)。 本稿では,REデータセットの総合的な調査を行い,タスク定義の再検討とコミュニティによる採用について述べる。 クロスデータセットとクロスドメインのセットアップには特に欠けていることが分かりました。 2つのデータセットにわたる科学的関係分類に関する実証的研究を行った。 大量のデータの重複にもかかわらず,本分析はアノテーションにかなりの相違点を明らかにした。 アノテーションの相違は関係分類性能に強く影響を与え、データセット間の評価において大きな低下を説明する。 さらにサブドメイン内での変化は存在するが、関係分類は限定的な程度にしか影響しない。 全体として、調査では、REにおけるレポート設定の厳格化と、複数のテストセットに対する評価が求められている。

Over the last five years, research on Relation Extraction (RE) witnessed extensive progress with many new dataset releases. At the same time, setup clarity has decreased, contributing to increased difficulty of reliable empirical evaluation (Taill\'e et al., 2020). In this paper, we provide a comprehensive survey of RE datasets, and revisit the task definition and its adoption by the community. We find that cross-dataset and cross-domain setups are particularly lacking. We present an empirical study on scientific Relation Classification across two datasets. Despite large data overlap, our analysis reveals substantial discrepancies in annotation. Annotation discrepancies strongly impact Relation Classification performance, explaining large drops in cross-dataset evaluations. Variation within further sub-domains exists but impacts Relation Classification only to limited degrees. Overall, our study calls for more rigour in reporting setups in RE and evaluation across multiple test sets.
翻訳日:2022-04-29 13:58:17 公開日:2022-04-28
# NMTScore:翻訳に基づくテキスト類似度尺度の多言語分析

NMTScore: A Multilingual Analysis of Translation-based Text Similarity Measures ( http://arxiv.org/abs/2204.13692v1 )

ライセンス: Link先を確認
Jannis Vamvas and Rico Sennrich(参考訳) 短いテキストセグメントの類似性をランク付けできることは、ニューラルネットワーク翻訳の興味深いボーナス機能である。 翻訳に基づく類似度尺度には、直接翻訳の確率とピボット翻訳の確率が含まれており、これまで研究されていない。 NMTScoreライブラリ(https://github.com/ZurichNLP/nmtscoreで利用可能)を複数言語NMTの共通フレームワークで解析する。 文埋め込みのようなベースラインと比較すると、翻訳ベースの尺度はパラフレーズ識別において競合性を示し、特に適切な正規化が適用された場合、敵対的あるいは多言語的入力に対してより強固である。 2つのタスクと17の言語におけるデータ対テキスト生成の参照ベース評価に使用される場合、翻訳ベースの尺度は人間の判断と相対的に高い相関を示す。

Being able to rank the similarity of short text segments is an interesting bonus feature of neural machine translation. Translation-based similarity measures include direct and pivot translation probability, as well as translation cross-likelihood, which has not been studied so far. We analyze these measures in the common framework of multilingual NMT, releasing the NMTScore library (available at https://github.com/ZurichNLP/nmtscore). Compared to baselines such as sentence embeddings, translation-based measures prove competitive in paraphrase identification and are more robust against adversarial or multilingual input, especially if proper normalization is applied. When used for reference-based evaluation of data-to-text generation in 2 tasks and 17 languages, translation-based measures show a relatively high correlation to human judgments.
翻訳日:2022-04-29 13:58:06 公開日:2022-04-28
# 主張中心的視点による抽象的議論における選好の影響

The Effect of Preferences in Abstract Argumentation Under a Claim-Centric View ( http://arxiv.org/abs/2204.13305v1 )

ライセンス: Link先を確認
Michael Bernreiter, Wolfgang Dvorak, Anna Rapberger, Stefan Woltran(参考訳) 本稿では,抽象的議論における選好の影響をクレーム中心の観点から検討する。 近年の研究では、推論が引数レベルでではなくクレームレベルで実行される場合、意味論的および計算的性質が変化し得ることが明らかにされている。 さらに,これらの効果についても検討し,議論間の選好を扱いながら4つの顕著な削減を考慮し,選好を考慮すべき点について検討する。 このように、これらの削減はクレーム強化された議論フレームワークの異なるクラスを生み出し、意味的性質と計算複雑性の観点から異なる振る舞いをする。 これにより、好みを扱うための実際の選択は慎重に行う必要があるという見方が強まる。

In this paper, we study the effect of preferences in abstract argumentation under a claim-centric perspective. Recent work has revealed that semantical and computational properties can change when reasoning is performed on claim-level rather than on the argument-level, while under certain natural restrictions (arguments with the same claims have the same outgoing attacks) these properties are conserved. We now investigate these effects when, in addition, preferences have to be taken into account and consider four prominent reductions to handle preferences between arguments. As we shall see, these reductions give rise to different classes of claim-augmented argumentation frameworks, and behave differently in terms of semantic properties and computational complexity. This strengthens the view that the actual choice for handling preferences has to be taken with care.
翻訳日:2022-04-29 13:57:50 公開日:2022-04-28
# 微分論理プログラムセマンティックスを用いた一階規則の学習

Learning First-Order Rules with Differentiable Logic Program Semantics ( http://arxiv.org/abs/2204.13570v1 )

ライセンス: Link先を確認
Kun Gao, Katsumi Inoue, Yongzhi Cao, Hanpin Wang(参考訳) データに対する直感的な洞察をもたらす関係事実から一階述語論理プログラム(LP)を学習することは、ニューロシンボリック研究において難しいトピックである。 本稿では,新たな微分型帰納的論理プログラミング(ILP)モデルである微分型一階述語規則学習器(DFOL)を導入し,LPの解釈可能な行列表現を探索することにより,関係事実から正しいLPを求める。 これらの解釈可能な行列はニューラルネットワーク(NN)のトレーニング可能なテンソルとみなされる。 NNはLPの識別可能なセマンティクスに基づいて考案される。 具体的には、まず、解釈ペアを表すNN可読ベクトル対に事実を転送する新しい命題化手法を採用する。 我々は、即時帰結演算子を代数演算とシグモイド様活性化関数からなるNN制約関数に置き換える。 我々は,LPの記号的前方鎖型フォーマットを,サブシンボリックベクトル表現間の操作からなるNN制約関数にマッピングする。 勾配降下を適用することで、トレーニング済みのNNの井戸パラメータをフォワードチェーン論理形式で正確なシンボルLPにデコードすることができる。 DFOL はいくつかの標準 ILP データセット,知識ベース,確率的関係事実上で動作し,よく知られた微分可能な ILP モデルより優れていることを示す。 実験結果から,DFOLは精度が高く,堅牢で,スケーラブルで,安価で微分可能なLPモデルであることが示唆された。

Learning first-order logic programs (LPs) from relational facts which yields intuitive insights into the data is a challenging topic in neuro-symbolic research. We introduce a novel differentiable inductive logic programming (ILP) model, called differentiable first-order rule learner (DFOL), which finds the correct LPs from relational facts by searching for the interpretable matrix representations of LPs. These interpretable matrices are deemed as trainable tensors in neural networks (NNs). The NNs are devised according to the differentiable semantics of LPs. Specifically, we first adopt a novel propositionalization method that transfers facts to NN-readable vector pairs representing interpretation pairs. We replace the immediate consequence operator with NN constraint functions consisting of algebraic operations and a sigmoid-like activation function. We map the symbolic forward-chained format of LPs into NN constraint functions consisting of operations between subsymbolic vector representations of atoms. By applying gradient descent, the trained well parameters of NNs can be decoded into precise symbolic LPs in forward-chained logic format. We demonstrate that DFOL can perform on several standard ILP datasets, knowledge bases, and probabilistic relation facts and outperform several well-known differentiable ILP models. Experimental results indicate that DFOL is a precise, robust, scalable, and computationally cheap differentiable ILP model.
翻訳日:2022-04-29 13:57:35 公開日:2022-04-28
# エンジニアリング図面における記号の自動検出と分類

Automatic Detection and Classification of Symbols in Engineering Drawings ( http://arxiv.org/abs/2204.13277v1 )

ライセンス: Link先を確認
Sourish Sarkar, Pranav Pandey, Sibsambhu Kar(参考訳) デザインダイアグラムや描画,計画レイアウトなどにおいて,さまざまなコンポーネントやオブジェクトを探索し,分類する手法を提案する。 この方法は、レジェンドテーブルに存在するオブジェクトを自動的に見つけ、複数のディープニューラルネットワークの助けを借りて、その位置、カウント、関連する情報を見つける。 このメソッドは、いくつかの描画や設計テンプレートで事前トレーニングされ、新しいテンプレートを表現するのに役立つ機能セットを学ぶ。 これまで見たことのないテンプレートでは、テンプレートデータセットのトレーニングは必要ない。 提案手法は, 設計検証, オブジェクト数, コンポーネントの接続性など, 複数の産業アプリケーションで有用である。 メソッドはジェネリックでドメインに依存しない。

A method of finding and classifying various components and objects in a design diagram, drawing, or planning layout is proposed. The method automatically finds the objects present in a legend table and finds their position, count and related information with the help of multiple deep neural networks. The method is pre-trained on several drawings or design templates to learn the feature set that may help in representing the new templates. For a template not seen before, it does not require any training with template dataset. The proposed method may be useful in multiple industry applications such as design validation, object count, connectivity of components, etc. The method is generic and domain independent.
翻訳日:2022-04-29 13:55:44 公開日:2022-04-28
# 対称cnnと再帰トランスによる単一画像超解像のための軽量バイモーダルネットワーク

Lightweight Bimodal Network for Single-Image Super-Resolution via Symmetric CNN and Recursive Transformer ( http://arxiv.org/abs/2204.13286v1 )

ライセンス: Link先を確認
Guangwei Gao, Zhengxue Wang, Juncheng Li, Wenjie Li, Yi Yu, Tieyong Zeng(参考訳) シングルイメージ超解像(SISR)は、ディープラーニングの開発において大きなブレークスルーを達成した。 しかし,これらの手法は複雑な演算によって生じる計算コストやメモリコストの問題に必然的に伴うため,現実のシナリオでは適用が困難である。 そこで本研究では,SISRのための軽量バイモーダルネットワーク(LBNet)を提案する。 具体的には,局所特徴抽出と粗い画像再構成に有効なシンメトリCNNを設計する。 一方,画像の長期依存性をフルに学習し,テクスチャの詳細をさらに洗練するためにグローバル情報をフルに活用するための再帰変換器を提案する。 CNNとTransformerのハイブリッドは、より効率的なモデルを構築することができる。 我々のLBNetは、比較的計算コストとメモリ消費の少ない他の最先端手法よりも、より顕著な性能を実現している。 コードはhttps://github.com/iviplab/lbnetで入手できる。

Single-image super-resolution (SISR) has achieved significant breakthroughs with the development of deep learning. However, these methods are difficult to be applied in real-world scenarios since they are inevitably accompanied by the problems of computational and memory costs caused by the complex operations. To solve this issue, we propose a Lightweight Bimodal Network (LBNet) for SISR. Specifically, an effective Symmetric CNN is designed for local feature extraction and coarse image reconstruction. Meanwhile, we propose a Recursive Transformer to fully learn the long-term dependence of images thus the global information can be fully used to further refine texture details. Studies show that the hybrid of CNN and Transformer can build a more efficient model. Extensive experiments have proved that our LBNet achieves more prominent performance than other state-of-the-art methods with a relatively low computational cost and memory consumption. The code is available at https://github.com/IVIPLab/LBNet.
翻訳日:2022-04-29 13:55:33 公開日:2022-04-28
# 半教師付きセマンティックセグメンテーションのための領域レベルのコントラストと一貫性学習

Region-level Contrastive and Consistency Learning for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2204.13314v1 )

ライセンス: Link先を確認
Jianrong Zhang, Tianyi Wu, Chuanghao Ding, Hongwei Zhao and Guodong Guo(参考訳) 現在の半教師付きセマンティックセグメンテーション法は主にピクセルレベルの一貫性と対照的な正規化の設計に焦点を当てている。 しかし、画素レベルの正規化は不正確な予測を持つ画素からのノイズに敏感であり、ピクセルレベルのコントラスト正規化はo(pixel_num^2)のメモリと計算コストを持つ。 そこで本研究では,半教師付きセマンティックセグメンテーションのための領域レベルのコントラスト・一貫性学習フレームワーク(RC^2L)を提案する。 具体的には、まず、地域マスクコントラスト(RMC)損失と地域特徴コントラスト(RFC)損失を提案し、地域レベルのコントラスト特性を達成する。 さらに,地域レベルの整合性を達成するために,地域クラス整合性(RCC)損失とセマンティックマスク整合性(SMC)損失を提案する。 提案する領域レベルのコントラストと一貫性の正規化に基づいて,半教師付き意味セグメンテーションのための領域レベルのコントラストと一貫性学習フレームワーク (rc^2l) を開発し,2つの難解なベンチマーク (pascal voc 2012 と cityscapes) で rc$^2$l の評価を行った。

Current semi-supervised semantic segmentation methods mainly focus on designing pixel-level consistency and contrastive regularization. However, pixel-level regularization is sensitive to noise from pixels with incorrect predictions, and pixel-level contrastive regularization has memory and computational cost with O(pixel_num^2). To address the issues, we propose a novel region-level contrastive and consistency learning framework (RC^2L) for semi-supervised semantic segmentation. Specifically, we first propose a Region Mask Contrastive (RMC) loss and a Region Feature Contrastive (RFC) loss to accomplish region-level contrastive property. Furthermore, Region Class Consistency (RCC) loss and Semantic Mask Consistency (SMC) loss are proposed for achieving region-level consistency. Based on the proposed region-level contrastive and consistency regularization, we develop a region-level contrastive and consistency learning framework (RC^2L) for semi-supervised semantic segmentation, and evaluate our RC$^2$L on two challenging benchmarks (PASCAL VOC 2012 and Cityscapes), outperforming the state-of-the-art.
翻訳日:2022-04-29 13:55:20 公開日:2022-04-28
# 制御可能な画像キャプション

Controllable Image Captioning ( http://arxiv.org/abs/2204.13324v1 )

ライセンス: Link先を確認
Luka Maxwell(参考訳) 最先端の画像キャプタは、制御性と解釈性を考慮することなく、シーケンス的に画像を記述するための正確な文を生成することができる。 しかし、これは画像として広く使われている画像キャプションを、対象や状況に応じて無限に解釈できるものではない。 制御性を達成することは、画像キャプションを異なる方法で異なる人が使用する場合に特に重要である。 本稿では,Part-Of-Speechタグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。 モデルは連続変数間の直接依存を分離する。 このようにしてデコーダは、POS語彙の大きさに比例したデコード速度を維持しながら、潜在するPart-Of-Speech選択を徹底的に探索することができる。 入力されたPart-Of-Speechタグ列に基づいて単語を予測するTransformerネットワークを介してキャプションを生成する手法を提案する。 公開データセットの実験により,我々のモデルは,高品質な多様な画像キャプションを生成する最先端の手法よりも優れていることが示された。

State-of-the-art image captioners can generate accurate sentences to describe images in a sequence to sequence manner without considering the controllability and interpretability. This, however, is far from making image captioning widely used as an image can be interpreted in infinite ways depending on the target and the context at hand. Achieving controllability is important especially when the image captioner is used by different people with different way of interpreting the images. In this paper, we introduce a novel framework for image captioning which can generate diverse descriptions by capturing the co-dependence between Part-Of-Speech tags and semantics. Our model decouples direct dependence between successive variables. In this way, it allows the decoder to exhaustively search through the latent Part-Of-Speech choices, while keeping decoding speed proportional to the size of the POS vocabulary. Given a control signal in the form of a sequence of Part-Of-Speech tags, we propose a method to generate captions through a Transformer network, which predicts words based on the input Part-Of-Speech tag sequences. Experiments on publicly available datasets show that our model significantly outperforms state-of-the-art methods on generating diverse image captions with high qualities.
翻訳日:2022-04-29 13:54:56 公開日:2022-04-28
# マルチエグジットアーキテクチャの分岐分類器について

A Closer Look at Branch Classifiers of Multi-exit Architectures ( http://arxiv.org/abs/2204.13347v1 )

ライセンス: Link先を確認
Shaohui Lin, Bo Ji, Rongrong Ji, Angela Yao(参考訳) マルチエクイットアーキテクチャは、深いニューラルネットワークの実行時間を短縮する推論経路を短縮するバックボーンとブランチ分類器で構成されている。 本稿では,分岐分類器の計算複雑性の割り当てに異なる分岐パターンを解析する。 一定の複雑度ブランチはすべてのブランチを同じに保ち、複雑さの増大と複雑さの低下はそれぞれバックボーンでより複雑なブランチを配置する。 複数のバックボーンとデータセットに関する広範な実験により、複雑性の低下するブランチは、一定の複雑さや複雑性の増大するブランチよりも効果的であることが判明した。 本稿では,バックボーンにブランチを追加する効果を調べるために,知識一貫性を用いて原因を調査する。 以上の結果から,複雑性が増大する分岐は背骨の特徴的抽象的階層を最小に破壊し,分岐パターンの有効性が説明できる。

Multi-exit architectures consist of a backbone and branch classifiers that offer shortened inference pathways to reduce the run-time of deep neural networks. In this paper, we analyze different branching patterns that vary in their allocation of computational complexity for the branch classifiers. Constant-complexity branching keeps all branches the same, while complexity-increasing and complexity-decreasing branching place more complex branches later or earlier in the backbone respectively. Through extensive experimentation on multiple backbones and datasets, we find that complexity-decreasing branches are more effective than constant-complexity or complexity-increasing branches, which achieve the best accuracy-cost trade-off. We investigate a cause by using knowledge consistency to probe the effect of adding branches onto a backbone. Our findings show that complexity-decreasing branching yields the least disruption to the feature abstraction hierarchy of the backbone, which explains the effectiveness of the branching patterns.
翻訳日:2022-04-29 13:54:38 公開日:2022-04-28
# モーフィング攻撃能力

Morphing Attack Potential ( http://arxiv.org/abs/2204.13374v1 )

ライセンス: Link先を確認
Matteo Ferrara, Annalisa Franco, Davide Maltoni, Christoph Busch(参考訳) セキュリティシステムでは、共通基準テストの意味でのリスク評価は非常に重要なトピックであり、攻撃者の専門知識、標的に関する知識、機器へのアクセスといった観点から攻撃可能性の定量化が必要である。 これらの攻撃とは対照的に、最近発表された顔認識システム(FRS)に対するモルヒネ攻撃は、上記の基準では評価できない。 しかし、全てのフォーミング技術が、オペレーショナル顔認識システムに同じリスクをもたらすわけではない。 本稿では,特定のモーフィング攻撃が生み出すリスクを定量化する一貫した手法として,モーフィング攻撃可能性(MAP)を紹介する。

In security systems the risk assessment in the sense of common criteria testing is a very relevant topic; this requires quantifying the attack potential in terms of the expertise of the attacker, his knowledge about the target and access to equipment. Contrary to those attacks, the recently revealed morphing attacks against Face Recognition Systems (FRSs) can not be assessed by any of the above criteria. But not all morphing techniques pose the same risk for an operational face recognition system. This paper introduces with the Morphing Attack Potential (MAP) a consistent methodology, that can quantify the risk, which a certain morphing attack creates.
翻訳日:2022-04-29 13:54:20 公開日:2022-04-28
# 自己教師型行動認識のための聴覚コントラスト学習

Audio-Visual Contrastive Learning for Self-supervised Action Recognition ( http://arxiv.org/abs/2204.13386v1 )

ライセンス: Link先を確認
Haoyuan Lan, Yang Liu, Liang Lin(参考訳) ビデオ内の音声と視覚のモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。 本稿では,行動認識のための識別的視覚表現を学習するために,AVCL(Audio-Visual Contrastive Learning)というエンドツーエンドの自己教師型フレームワークを提案する。 具体的には,音声と視覚を融合するアテンションベースマルチモーダル融合モジュール(amfm)を設計した。 異種音声・視覚的モダリティの整合を図るため,新たにCGRA(co-correlation guided representation alignment module)を構築した。 ラベルのないビデオから教師付き情報を学習するために,自己監督型コントラスト学習モジュール(SelfCL)を提案する。 さらに、既存の音声視覚行動認識データセットを拡張し、我々のフレームワークAVCLをよりよく評価するために、Kinetics-Sounds100という新しい音声視覚行動認識データセットを構築した。 Kinetics-Sounds32 と Kinetics-Sounds100 データセットの実験結果は,大規模行動認識ベンチマークにおける最先端手法よりも AVCL の方が優れていることを示す。

The underlying correlation between audio and visual modalities within videos can be utilized to learn supervised information for unlabeled videos. In this paper, we present an end-to-end self-supervised framework named Audio-Visual Contrastive Learning (AVCL), to learn discriminative audio-visual representations for action recognition. Specifically, we design an attention based multi-modal fusion module (AMFM) to fuse audio and visual modalities. To align heterogeneous audio-visual modalities, we construct a novel co-correlation guided representation alignment module (CGRA). To learn supervised information from unlabeled videos, we propose a novel self-supervised contrastive learning module (SelfCL). Furthermore, to expand the existing audio-visual action recognition datasets and better evaluate our framework AVCL, we build a new audio-visual action recognition dataset named Kinetics-Sounds100. Experimental results on Kinetics-Sounds32 and Kinetics-Sounds100 datasets demonstrate the superiority of our AVCL over the state-of-the-art methods on large-scale action recognition benchmark.
翻訳日:2022-04-29 13:54:10 公開日:2022-04-28
# Semi-MoreGAN - 降雨除去のための新しい半教師付きジェネレーターネットワーク

Semi-MoreGAN: A New Semi-supervised Generative Adversarial Network for Mixture of Rain Removal ( http://arxiv.org/abs/2204.13420v1 )

ライセンス: Link先を確認
Yiyang Shen, Yongzhen Wang, Mingqiang Wei, Honghua Chen, Haoran Xie, Gary Cheng, Fu Lee Wang(参考訳) 雨は画像の品質を完全に低下させ、特に激しい雨条件下で多くのコンピュータビジョンタスクのパフォーマンスを阻害する最も一般的な天候の1つである。 私たちはそれを観察します (i)雨は雨のストレークと雨の煙の混合物である。 (ii)シーンの深さは、雨のストレークの強度と雨の風への変化を決定づける。 (三)既存のデリーニングの手法は、雨の合成画像のみを訓練しており、現実の場面によく当てはまらない。 本研究の目的は,4つのモジュールから構成されるSEMI制御型降雨予測ネットワーク (Semi-MoreGAN) を提案することである: (I) 正確な深度推定を行うための新しい注意深度予測ネットワーク。 (ii) 詳細な画像特徴を生成するために、よく設計された詳細残差ブロックからなる文脈特徴予測ネットワーク (iii)ピラミッド奥行き誘導非ローカルネットワークで、画像コンテキストと奥行き情報とを効果的に統合し、最終雨のない画像を作成すること。 (iv)合成データセットに限らず、現実世界の豪雨シーンにスムーズに一般化するための包括的半教師付き損失関数。 大規模な実験により,合成雨と実世界の降雨の両面において,20件の最先端技術に対するアプローチが明らかに改善された。

Rain is one of the most common weather which can completely degrade the image quality and interfere with the performance of many computer vision tasks, especially under heavy rain conditions. We observe that: (i) rain is a mixture of rain streaks and rainy haze; (ii) the scene depth determines the intensity of rain streaks and the transformation into the rainy haze; (iii) most existing deraining methods are only trained on synthetic rainy images, and hence generalize poorly to the real-world scenes. Motivated by these observations, we propose a new SEMI-supervised Mixture Of rain REmoval Generative Adversarial Network (Semi-MoreGAN), which consists of four key modules: (I) a novel attentional depth prediction network to provide precise depth estimation; (ii) a context feature prediction network composed of several well-designed detailed residual blocks to produce detailed image context features; (iii) a pyramid depth-guided non-local network to effectively integrate the image context with the depth information, and produce the final rain-free images; and (iv) a comprehensive semi-supervised loss function to make the model not limited to synthetic datasets but generalize smoothly to real-world heavy rainy scenes. Extensive experiments show clear improvements of our approach over twenty representative state-of-the-arts on both synthetic and real-world rainy images.
翻訳日:2022-04-29 13:53:12 公開日:2022-04-28
# ファウショット行動認識のためのハイブリッド関係案内セットマッチング

Hybrid Relation Guided Set Matching for Few-shot Action Recognition ( http://arxiv.org/abs/2204.13423v1 )

ライセンス: Link先を確認
Xiang Wang, Shiwei Zhang, Zhiwu Qing, Mingqian Tang, Zhengrong Zuo, Changxin Gao, Rong Jin, Nong Sang(参考訳) 現在の数発のアクション認識手法は、エピソードトレーニングを通じて各ビデオの識別的特徴を学習し、様々な時間的アライメント戦略を設計することにより、印象的なパフォーマンスに達する。 それにもかかわらず、それらは制限されています (a)タスク全体を考慮せずに個々の特徴を学ぶことは、現在のエピソードで最も重要な情報を失う可能性がある。 b) これらのアライメント戦略は、不一致のインスタンスで失敗する可能性がある。 この2つの制限を克服するために、ハイブリッド関係モジュールとセットマッチングメトリックの2つの重要なコンポーネントを組み込んだ、新しいハイブリッド関係ガイドセットマッチング(HyRSM)アプローチを提案する。 ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。 タスク特有の特徴に基づいて,問合せとサポートビデオ間の距離測定をセットマッチング問題として再構成し,さらに双方向平均ハウスドルフ計量を設計すれば,不整合インスタンスに対するレジリエンスが向上する。 この方法では、提案するhyrsmは極めて有益で、最小限の設定でクエリカテゴリを予測するのに柔軟である。 我々は6つの難易度ベンチマークにおけるhyrsmの評価を行い, 実験結果から, 最先端の手法よりも優れていることを説得力のあるマージンで示している。 プロジェクトページ: https://hyrsm-cvpr2022.github.io/

Current few-shot action recognition methods reach impressive performance by learning discriminative features for each video via episodic training and designing various temporal alignment strategies. Nevertheless, they are limited in that (a) learning individual features without considering the entire task may lose the most relevant information in the current episode, and (b) these alignment strategies may fail in misaligned instances. To overcome the two limitations, we propose a novel Hybrid Relation guided Set Matching (HyRSM) approach that incorporates two key components: hybrid relation module and set matching metric. The purpose of the hybrid relation module is to learn task-specific embeddings by fully exploiting associated relations within and cross videos in an episode. Built upon the task-specific features, we reformulate distance measure between query and support videos as a set matching problem and further design a bidirectional Mean Hausdorff Metric to improve the resilience to misaligned instances. By this means, the proposed HyRSM can be highly informative and flexible to predict query categories under the few-shot settings. We evaluate HyRSM on six challenging benchmarks, and the experimental results show its superiority over the state-of-the-art methods by a convincing margin. Project page: https://hyrsm-cvpr2022.github.io/.
翻訳日:2022-04-29 13:52:41 公開日:2022-04-28
# 画素レベル雑音ラベルからの学習 : 光場塩分検出の新しい展望

Learning from Pixel-Level Noisy Label : A New Perspective for Light Field Saliency Detection ( http://arxiv.org/abs/2204.13456v1 )

ライセンス: Link先を確認
Mingtao Feng, Kendong Liu, Liang Zhang, Hongshan Yu, Yaonan Wang, Ajmal Mian(参考訳) 光界画像による塩分検出は、利用可能な豊富な手がかりを考慮すれば魅力的になりつつあるが、これは生成にコストがかかる大規模なピクセルレベルの注釈付きデータの犠牲になる。 そこで本稿では,教師なし手工芸品から得られた画素レベルの雑音ラベルから,光界の静かさを学習する手法を提案する。 この目標を考えると、自然な疑問は: 統一されたフレームワークでクリーンなラベルを識別しながら、光フィールドの手がかり間の関係を効率的に組み込むことができるか? この問題に対して,光場内における融合ストリームとシーン間相関ストリームを併用して学習を最適化し,予測を生成する。 特に,光電界特性を相互に向上させ,各イテレーション間のピクセル一貫性を利用して雑音画素を識別するために,まず,画素忘れ案内型核融合モジュールを導入する。 次に,学習データの潜在構造をよりよく反映し,学習を雑音に不変にするために,クロスシーンノイズペナルティロスを導入する。 複数のベンチマークデータセットに対する広範囲な実験は、我々のフレームワークの優位性を示し、最先端の完全教師付き光電界サリエンシー法に匹敵するサリエンシー予測を学習していることを示している。 私たちのコードはhttps://github.com/OLobbCode/NoiseLFで利用可能です。

Saliency detection with light field images is becoming attractive given the abundant cues available, however, this comes at the expense of large-scale pixel level annotated data which is expensive to generate. In this paper, we propose to learn light field saliency from pixel-level noisy labels obtained from unsupervised hand crafted featured based saliency methods. Given this goal, a natural question is: can we efficiently incorporate the relationships among light field cues while identifying clean labels in a unified framework? We address this question by formulating the learning as a joint optimization of intra light field features fusion stream and inter scenes correlation stream to generate the predictions. Specially, we first introduce a pixel forgetting guided fusion module to mutually enhance the light field features and exploit pixel consistency across iterations to identify noisy pixels. Next, we introduce a cross scene noise penalty loss for better reflecting latent structures of training data and enabling the learning to be invariant to noise. Extensive experiments on multiple benchmark datasets demonstrate the superiority of our framework showing that it learns saliency prediction comparable to state-of-the-art fully supervised light field saliency methods. Our code is available at https://github.com/OLobbCode/NoiseLF.
翻訳日:2022-04-29 13:52:16 公開日:2022-04-28
# ストリーミング多スケール深層平衡モデル

Streaming Multiscale Deep Equilibrium Models ( http://arxiv.org/abs/2204.13492v1 )

ライセンス: Link先を確認
Can Ufuk Ertenli, Emre Akbas, Ramazan Gokberk Cinbis(参考訳) 本稿では,最小フレーム当たりの計算量で動画のフレームワイズ表現を推論するStreamDEQを提案する。 計算時間が少なくともネットワーク深度と線形に増加する従来の手法とは対照的に,我々は連続的に表現を更新することを目指している。 この目的のために,最近出現した暗黙層モデルを利用して,固定点問題を解くことで画像の表現を推定する。 私たちの主な洞察は、ビデオのゆっくりと変化する性質を活用し、以前のフレーム表現を各フレームの初期条件として使用することです。 このスキームは、最近の推論計算を効果的にリサイクルし、必要な処理時間を大幅に削減する。 広範にわたる実験分析により,StreamDEQは数フレームでほぼ最適表現を復元し,ビデオ期間を通じて最新の表現を維持可能であることを示す。 ビデオセマンティックセグメンテーションとビデオオブジェクト検出の実験により、StreamDEQはベースライン(標準MDEQ)と同等の精度で達成でき、しかも3ドル以上高速であることが示された。 プロジェクトページはhttps://ufukertenli.github.io/streamdeq/。

We present StreamDEQ, a method that infers frame-wise representations on videos with minimal per-frame computation. In contrast to conventional methods where compute time grows at least linearly with the network depth, we aim to update the representations in a continuous manner. For this purpose, we leverage the recently emerging implicit layer model which infers the representation of an image by solving a fixed-point problem. Our main insight is to leverage the slowly changing nature of videos and use the previous frame representation as an initial condition on each frame. This scheme effectively recycles the recent inference computations and greatly reduces the needed processing time. Through extensive experimental analysis, we show that StreamDEQ is able to recover near-optimal representations in a few frames time, and maintain an up-to-date representation throughout the video duration. Our experiments on video semantic segmentation and video object detection show that StreamDEQ achieves on par accuracy with the baseline (standard MDEQ) while being more than $3\times$ faster. The project page is available at: https://ufukertenli.github.io/streamdeq/
翻訳日:2022-04-29 13:51:54 公開日:2022-04-28
# 非教師なし画像登録のための対称トランスベースネットワーク

Symmetric Transformer-based Network for Unsupervised Image Registration ( http://arxiv.org/abs/2204.13575v1 )

ライセンス: Link先を確認
Mingrui Ma, Lei Song, Yuanbo Xu, Guixia Liu(参考訳) 医用画像登録は医用画像解析における基本的かつ重要な課題である。 ディープラーニングの急速な発展に伴い、畳み込みニューラルネットワーク(CNN)が医療画像登録分野を支配している。 CNNの局所受容領域の欠点により、最近の登録手法では非局所的な登録にトランスフォーマーを使うことに焦点を当てている。 しかし、標準トランスフォーマーは、非常に多くのパラメータと高い計算複雑性を有しており、登録モデルの下部でのみトランスフォーマーを適用することができる。 その結果、粗い情報のみが最低解像度で利用可能となり、モデルへのトランスフォーマーの寄与が制限される。 これらの課題に対処するために,従来のトランスフォーマーのパラメータを削減し,局所空間コンテキスト情報をキャプチャして,アテンション機構のセマンティックなあいまいさを低減する,畳み込みに基づく効率的なマルチヘッド自己認識ブロックを提案する。 提案したCEMSAに基づいて,新しいSymmetric Transformerベースモデル(SymTrans)を提案する。 SymTransはエンコーダのTransformerブロックとデコーダを使って、長距離空間のクロスイメージ関係をモデル化する。 我々は symtrans を変位場と diffeomorphic registration に適用する。 実験の結果,提案手法は画像登録における最先端性能を実現する。 私たちのコードは、 \url{https://github.com/MingR-Ma/SymTrans}で公開されています。

Medical image registration is a fundamental and critical task in medical image analysis. With the rapid development of deep learning, convolutional neural networks (CNN) have dominated the medical image registration field. Due to the disadvantage of the local receptive field of CNN, some recent registration methods have focused on using transformers for non-local registration. However, the standard Transformer has a vast number of parameters and high computational complexity, which causes Transformer can only be applied at the bottom of the registration models. As a result, only coarse information is available at the lowest resolution, limiting the contribution of Transformer in their models. To address these challenges, we propose a convolution-based efficient multi-head self-attention (CEMSA) block, which reduces the parameters of the traditional Transformer and captures local spatial context information for reducing semantic ambiguity in the attention mechanism. Based on the proposed CEMSA, we present a novel Symmetric Transformer-based model (SymTrans). SymTrans employs the Transformer blocks in the encoder and the decoder respectively to model the long-range spatial cross-image relevance. We apply SymTrans to the displacement field and diffeomorphic registration. Experimental results show that our proposed method achieves state-of-the-art performance in image registration. Our code is publicly available at \url{https://github.com/MingR-Ma/SymTrans}.
翻訳日:2022-04-29 13:51:34 公開日:2022-04-28
# 回転同変3次元物体検出

Rotationally Equivariant 3D Object Detection ( http://arxiv.org/abs/2204.13630v1 )

ライセンス: Link先を確認
Hong-Xing Yu, Jiajun Wu, Li Yi(参考訳) 近年,3次元深層学習コミュニティにおいて回転同値性が強く望まれている。 しかし、既存の方法の多くは、回転対称性が独自の空間的支援を持つという事実を無視しながら、大域的な入力回転に関する同値性に焦点を当てている。 具体的には、3dシーンにおける物体検出問題について検討し、シーンの動きとは無関係に物体境界ボックスを物体ポーズに関して同値にすべきである。 これは私たちがオブジェクトレベルの回転同分散と呼ぶ新しい望ましい特性を示唆する。 オブジェクトレベルの回転同分散を3次元物体検出器に組み込むには,局所的なオブジェクトレベルの空間支援を伴う同変特徴を抽出する機構が必要となる。 この目的を達成するために,回転同分散サスペンション設計による同変物体検出ネットワーク(eon)を提案する。 EONはVoteNetやPointRCNNのような現代のクラウドオブジェクト検出器に適用でき、シーンスケールの入力でオブジェクトの回転対称性を利用することができる。 屋内シーンと自律走行データセットの両方の実験により、EONの設計を既存の最先端の3Dオブジェクト検出器に接続することで、大幅な改善が得られた。

Rotation equivariance has recently become a strongly desired property in the 3D deep learning community. Yet most existing methods focus on equivariance regarding a global input rotation while ignoring the fact that rotation symmetry has its own spatial support. Specifically, we consider the object detection problem in 3D scenes, where an object bounding box should be equivariant regarding the object pose, independent of the scene motion. This suggests a new desired property we call object-level rotation equivariance. To incorporate object-level rotation equivariance into 3D object detectors, we need a mechanism to extract equivariant features with local object-level spatial support while being able to model cross-object context information. To this end, we propose Equivariant Object detection Network (EON) with a rotation equivariance suspension design to achieve object-level equivariance. EON can be applied to modern point cloud object detectors, such as VoteNet and PointRCNN, enabling them to exploit object rotation symmetry in scene-scale inputs. Our experiments on both indoor scene and autonomous driving datasets show that significant improvements are obtained by plugging our EON design into existing state-of-the-art 3D object detectors.
翻訳日:2022-04-29 13:51:14 公開日:2022-04-28
# 信頼性の高い視覚的質問に対する答え:答えは正しくない

Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly ( http://arxiv.org/abs/2204.13631v1 )

ライセンス: Link先を確認
Spencer Whitehead, Suzanne Petryk, Vedaad Shakib, Joseph Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach(参考訳) 機械学習は劇的に進歩し、視覚的質問応答(VQA)のようなマルチモーダルタスクにおいて、人間の精度ギャップを狭めている。 しかしながら、人間は不確実な時に「私は知らない」と言うことができるが(つまり、質問への答えを控える)、そのような能力は実環境でのVQAの使用に対するこの問題の重要性にもかかわらず、マルチモーダルな研究では無視されている。 本研究では,信頼度の高いVQAに対する問題定式化を促進する。 まず、いくつかのVQAモデルに対する禁忌機能を有効にし、その範囲、回答した部分、そしてその部分のエラーを分析します。 そのため、いくつかの回避策を検討します。 最高のパフォーマンスモデルはVQA v2データセットで71%以上の精度を達成するが、モデルのソフトマックススコアを直接使用することで、停止するオプションを導入することで、低いエラーリスク(すなわち1%)を達成するために8%未満の質問に答えることに制限がある。 これは、予測された回答の正しさを直接推定するためにマルチモーダル選択関数を利用する動機であり、例えば、1%のリスクで5.0%から16.7%のカバレッジを3倍にすることができる。 カバレッジとリスクの両方を分析することは重要だが、これらのメトリクスにはトレードオフがあり、VQAモデルの比較は困難である。 そこで本研究では,VQAに対する有効信頼性指標を提案する。 VQAのこの新しい問題定式化、メートル法、分析は、その答えを知らない場合にのみ、自己認識することのできる効果的で信頼性の高いVQAモデルを構築するための基盤を提供する。

Machine learning has advanced dramatically, narrowing the accuracy gap to humans in multimodal tasks like visual question answering (VQA). However, while humans can say "I don't know" when they are uncertain (i.e., abstain from answering a question), such ability has been largely neglected in multimodal research, despite the importance of this problem to the usage of VQA in real settings. In this work, we promote a problem formulation for reliable VQA, where we prefer abstention over providing an incorrect answer. We first enable abstention capabilities for several VQA models, and analyze both their coverage, the portion of questions answered, and risk, the error on that portion. For that we explore several abstention approaches. We find that although the best performing models achieve over 71% accuracy on the VQA v2 dataset, introducing the option to abstain by directly using a model's softmax scores limits them to answering less than 8% of the questions to achieve a low risk of error (i.e., 1%). This motivates us to utilize a multimodal selection function to directly estimate the correctness of the predicted answers, which we show can triple the coverage from, for example, 5.0% to 16.7% at 1% risk. While it is important to analyze both coverage and risk, these metrics have a trade-off which makes comparing VQA models challenging. To address this, we also propose an Effective Reliability metric for VQA that places a larger cost on incorrect answers compared to abstentions. This new problem formulation, metric, and analysis for VQA provide the groundwork for building effective and reliable VQA models that have the self-awareness to abstain if and only if they don't know the answer.
翻訳日:2022-04-29 13:50:55 公開日:2022-04-28
# GRIT: 一般的なロバストイメージタスクベンチマーク

GRIT: General Robust Image Task Benchmark ( http://arxiv.org/abs/2204.13653v1 )

ライセンス: Link先を確認
Tanmay Gupta, Ryan Marten, Aniruddha Kembhavi, Derek Hoiem(参考訳) コンピュータビジョンモデルは、テスト分布がトレーニング分布によく似ている場合の予測に優れている。 このようなモデルは、複数のソースから学習し、新しいデータソースやタスクに一般化する生物学的ビジョンの能力にまだ一致していない。 より一般的な視覚システムの開発と評価を容易にするため,GRIT(General Robust Image Task)ベンチマークを導入する。 GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。 GRITの7つのタスクは、オブジェクトの分類、オブジェクトのローカライゼーション、表現接地参照、視覚的質問応答、セグメンテーション、人間のキーポイント検出、表面正規化など、様々な視覚的スキルをカバーするために選択される。 GRITは、画像摂動下でのロバスト性の評価、画像ソース分布シフト、概念分布シフトを可能にするために慎重に設計されている。 ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一的なプラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。

Computer vision models excel at making predictions when the test distribution closely resembles the training distribution. Such models have yet to match the ability of biological vision to learn from multiple sources and generalize to new data sources and tasks. To facilitate the development and evaluation of more general vision systems, we introduce the General Robust Image Task (GRIT) benchmark. GRIT evaluates the performance, robustness, and calibration of a vision system across a variety of image prediction tasks, concepts, and data sources. The seven tasks in GRIT are selected to cover a range of visual skills: object categorization, object localization, referring expression grounding, visual question answering, segmentation, human keypoint detection, and surface normal estimation. GRIT is carefully designed to enable the evaluation of robustness under image perturbations, image source distribution shift, and concept distribution shift. By providing a unified platform for thorough assessment of skills and concepts learned by a vision model, we hope GRIT catalyzes the development of performant and robust general purpose vision systems.
翻訳日:2022-04-29 13:49:09 公開日:2022-04-28
# 判別器自由画像変換による教師なしマルチモーダル医用画像登録

Unsupervised Multi-Modal Medical Image Registration via Discriminator-Free Image-to-Image Translation ( http://arxiv.org/abs/2204.13656v1 )

ライセンス: Link先を確認
Zekang Chen, Jia Wei and Rui Li(参考訳) 臨床実践において、MR(MR)やCT(CT)などの多モード画像は、共に画像誘導療法の補完情報を提供することができる。 マルチモーダル画像の正確なアライメントにはマルチモーダル画像登録が不可欠である。 しかし、異なるモダリティ間の複雑で未知の空間対応のため、非常に難しい課題である。 本稿では,多モード登録問題をモノモーダルに変換する,新しい翻訳に基づく教師なしデフォルマブル画像登録手法を提案する。 具体的には,識別器を使わない翻訳ネットワークを組み込んで,登録ネットワークの訓練とパッチワイズコントラスト損失の軽減を図り,翻訳ネットワークの物体形状保存を促進する。 さらに,従来のマルチモーダル画像登録手法で広く用いられている対向損失を画素損失に置き換えて,翻訳の出力を目標モダリティに統合する手法を提案する。 これにより、教師なしの方法が、訓練のために地対変形や一対のアライメント画像を必要としない。 我々は,公開Learner2Reg 2021データセットに対するアプローチの4つの変種を評価する。 実験により,提案アーキテクチャが最先端性能を実現することを示す。 私たちのコードはhttps://github.com/heyblackc/dfmirで利用可能です。

In clinical practice, well-aligned multi-modal images, such as Magnetic Resonance (MR) and Computed Tomography (CT), together can provide complementary information for image-guided therapies. Multi-modal image registration is essential for the accurate alignment of these multi-modal images. However, it remains a very challenging task due to complicated and unknown spatial correspondence between different modalities. In this paper, we propose a novel translation-based unsupervised deformable image registration approach to convert the multi-modal registration problem to a mono-modal one. Specifically, our approach incorporates a discriminator-free translation network to facilitate the training of the registration network and a patchwise contrastive loss to encourage the translation network to preserve object shapes. Furthermore, we propose to replace an adversarial loss, that is widely used in previous multi-modal image registration methods, with a pixel loss in order to integrate the output of translation into the target modality. This leads to an unsupervised method requiring no ground-truth deformation or pairs of aligned images for training. We evaluate four variants of our approach on the public Learn2Reg 2021 datasets \cite{hering2021learn2reg}. The experimental results demonstrate that the proposed architecture achieves state-of-the-art performance. Our code is available at https://github.com/heyblackC/DFMIR.
翻訳日:2022-04-29 13:48:49 公開日:2022-04-28
# フリーフォームハンドインタラクションにおけるArticulated Objects

Articulated Objects in Free-form Hand Interaction ( http://arxiv.org/abs/2204.13662v1 )

ライセンス: Link先を確認
Zicong Fan, Omid Taheri, Dimitrios Tzionas, Muhammed Kocabas, Manuel Kaufmann, Michael J. Black, and Otmar Hilliges(参考訳) 私たちは手を使って物体と対話し、操作します。 関節のある物体は、操作に人間の手の全能性を必要とすることが多いため、特に興味深い。 このような相互作用を理解し、モデル化し、合成するには、カラー画像から手と手話の物体を3Dで再構成する自動的かつ堅牢な方法が必要である。 画像から3次元手と物体のポーズを推定する既存の手法は、剛体物体に焦点をあてる。 部分的には、このような方法はトレーニングデータに依存しており、articulated object manipulationのデータセットは存在しない。 その結果、ARCTICは、手と音声による物体の自由形式の相互作用の初めてのデータセットである。 ARCTICは、両手と時間とともに動き、変形する物体の正確な3Dメッシュと、1.2万枚の画像を持っている。 データセットは、ハンドオブジェクトのコンタクト情報も提供する。 提案するデータセットの価値を示すために,(1)2つの手の3次元再構成,(2)相互作用場推定と呼ばれる高密度手対象相対距離の推定という,ARCTIC上での2つの新しいタスクを実行する。 第1の課題として,RGB画像から2つの手と明瞭な物体を共同で再構築する作業のベースライン手法であるArcticNetを提案する。 相互作用場推定では,各手頂点から物体表面までの相対距離を推定し,その逆を推定する。 単一のRGB画像からそのような距離を推定する最初の方法であるInterFieldを導入する。 両タスクの質的,定量的な実験を行い,データの詳細な分析を行う。 コードとデータはhttps://arctic.is.tue.mpg.deで入手できる。

We use our hands to interact with and to manipulate objects. Articulated objects are especially interesting since they often require the full dexterity of human hands to manipulate them. To understand, model, and synthesize such interactions, automatic and robust methods that reconstruct hands and articulated objects in 3D from a color image are needed. Existing methods for estimating 3D hand and object pose from images focus on rigid objects. In part, because such methods rely on training data and no dataset of articulated object manipulation exists. Consequently, we introduce ARCTIC - the first dataset of free-form interactions of hands and articulated objects. ARCTIC has 1.2M images paired with accurate 3D meshes for both hands and for objects that move and deform over time. The dataset also provides hand-object contact information. To show the value of our dataset, we perform two novel tasks on ARCTIC: (1) 3D reconstruction of two hands and an articulated object in interaction; (2) an estimation of dense hand-object relative distances, which we call interaction field estimation. For the first task, we present ArcticNet, a baseline method for the task of jointly reconstructing two hands and an articulated object from an RGB image. For interaction field estimation, we predict the relative distances from each hand vertex to the object surface, and vice versa. We introduce InterField, the first method that estimates such distances from a single RGB image. We provide qualitative and quantitative experiments for both tasks, and provide detailed analysis on the data. Code and data will be available at https://arctic.is.tue.mpg.de.
翻訳日:2022-04-29 13:48:31 公開日:2022-04-28
# (参考訳) 道路画像とポトホール検出のためのコンピュータビジョン:システムとアルゴリズムの現状と展望

Computer Vision for Road Imaging and Pothole Detection: A State-of-the-Art Review of Systems and Algorithms ( http://arxiv.org/abs/2204.13590v1 )

ライセンス: CC BY 4.0
Nachuan Ma, Jiahe Fan, Wenshuo Wang, Jin Wu, Yu Jiang, Lihua Xie, Rui Fan(参考訳) コンピュータビジョンアルゴリズムは20年以上にわたって3次元道路イメージングとポットホール検出に広く利用されている。 それにもかかわらず、現状のコンピュータビジョン技術(特にディープラーニングモデル)に関する体系的な調査記事は、これらの問題に対処するために開発されている。 この記事ではまず,カメラ,レーザースキャナ,microsoft kinectなど,2次元および3次元の道路データ取得に使用されるセンシングシステムについて紹介する。 その後,(1)古典的な2次元画像処理,(2)3次元ポイントクラウドモデリングとセグメンテーション,(3)道路孔検出のためのマシン/ディープ学習など,SoTAのコンピュータビジョンアルゴリズムを徹底的に網羅的にレビューした。 This article also discusses the existing challenges and future development trends of computer vision-based road pothole detection approaches: classical 2-D image processing-based and 3-D point cloud modeling and segmentation-based approaches have already become history; and Convolutional neural networks (CNNs) have demonstrated compelling road pothole detection results and are promising to break the bottleneck with the future advances in self/un-supervised learning for multi-modal semantic segmentation. 本調査は,次世代道路条件アセスメントシステム開発のための実践的ガイダンスとして有用であると考えられる。

Computer vision algorithms have been prevalently utilized for 3-D road imaging and pothole detection for over two decades. Nonetheless, there is a lack of systematic survey articles on state-of-the-art (SoTA) computer vision techniques, especially deep learning models, developed to tackle these problems. This article first introduces the sensing systems employed for 2-D and 3-D road data acquisition, including camera(s), laser scanners, and Microsoft Kinect. Afterward, it thoroughly and comprehensively reviews the SoTA computer vision algorithms, including (1) classical 2-D image processing, (2) 3-D point cloud modeling and segmentation, and (3) machine/deep learning, developed for road pothole detection. This article also discusses the existing challenges and future development trends of computer vision-based road pothole detection approaches: classical 2-D image processing-based and 3-D point cloud modeling and segmentation-based approaches have already become history; and Convolutional neural networks (CNNs) have demonstrated compelling road pothole detection results and are promising to break the bottleneck with the future advances in self/un-supervised learning for multi-modal semantic segmentation. We believe that this survey can serve as practical guidance for developing the next-generation road condition assessment systems.
翻訳日:2022-04-29 13:47:18 公開日:2022-04-28
# デンマーク語テキストの自然読みからの視線追跡記録のコペンハーゲンコーパス

The Copenhagen Corpus of Eye Tracking Recordings from Natural Reading of Danish Texts ( http://arxiv.org/abs/2204.13311v1 )

ライセンス: Link先を確認
Nora Hollenstein, Maria Barrett, Marina Bj\"ornsd\'ottir(参考訳) 読書からの眼球運動記録は、人間の言語処理の最も豊かな信号の1つである。 文脈化された実行中のテキストを読む際の眼球運動のコーパスは、自然言語処理のためにそのようなレコードを利用できる方法である。 このようなコーパスはすでにいくつかの言語に存在している。 本稿では,コペンハーゲンのコペンハーゲン・コーパスであるcopcoについて述べる。 デンマーク語で最初の視線追跡コーパスである。 CopCoには1,832通の文章と34,897通のデンマーク語のテキストが含まれている。 このコーパスの最初のリリースには、22人の参加者による視線追跡データが含まれている。 他のジャンルの参加者やテキストも増えていく予定だ。 記録された眼球運動のデータ品質を評価し,抽出された特徴が関連する研究と一致していることを見出す。 ここで利用可能なデータセットは、https://osf.io/ud8s5/。

Eye movement recordings from reading are one of the richest signals of human language processing. Corpora of eye movements during reading of contextualized running text is a way of making such records available for natural language processing purposes. Such corpora already exist in some languages. We present CopCo, the Copenhagen Corpus of eye tracking recordings from natural reading of Danish texts. It is the first eye tracking corpus of its kind for the Danish language. CopCo includes 1,832 sentences with 34,897 tokens of Danish text extracted from a collection of speech manuscripts. This first release of the corpus contains eye tracking data from 22 participants. It will be extended continuously with more participants and texts from other genres. We assess the data quality of the recorded eye movements and find that the extracted features are in line with related research. The dataset available here: https://osf.io/ud8s5/.
翻訳日:2022-04-29 13:23:17 公開日:2022-04-28
# 低頻度語彙制約下での非自己回帰翻訳の改善

Neighbors Are Not Strangers: Improving Non-Autoregressive Translation under Low-Frequency Lexical Constraints ( http://arxiv.org/abs/2204.13355v1 )

ライセンス: Link先を確認
Chun Zeng, Jiangjie Chen, Tianyi Zhuang, Rui Xu, Hao Yang, Ying Qin, Shimin Tao, Yanghua Xiao(参考訳) しかし、現在の自己回帰的アプローチは高いレイテンシに苦しむ。 本稿では,非自己回帰翻訳(NAT)に着目し,その効率性について考察する。 繰り返し編集に基づく現在の制約付きNATモデルは、低周波制約をうまく処理しない。 そこで本研究では,制約のソース側コンテキストでモデルを精通させることで,この問題を緩和する,アラインド・制約付きトレーニング(ACT)のプラグインアルゴリズムを提案する。 一般的なデータセットとドメインデータセットの実験では、制約保存および翻訳品質、特に稀な制約のために、バックボーン制約付きNATモデルよりも改善されている。

However, current autoregressive approaches suffer from high latency. In this paper, we focus on non-autoregressive translation (NAT) for this problem for its efficiency advantage. We identify that current constrained NAT models, which are based on iterative editing, do not handle low-frequency constraints well. To this end, we propose a plug-in algorithm for this line of work, i.e., Aligned Constrained Training (ACT), which alleviates this problem by familiarizing the model with the source-side context of the constraints. Experiments on the general and domain datasets show that our model improves over the backbone constrained NAT model in constraint preservation and translation quality, especially for rare constraints.
翻訳日:2022-04-29 13:23:05 公開日:2022-04-28
# M-Phasis on the Plurality of Hate: a Feature-based Corpus of Hate Online

Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of Hate Online ( http://arxiv.org/abs/2204.13400v1 )

ライセンス: Link先を確認
Dana Ruiter, Liane Reiners, Ashwin Geet D'Sa, Thomas Kleinbauer, Dominique Fohr, Irina Illina, Dietrich Klakow, Christian Schemer, Angeliki Monnier(参考訳) ネット上でのヘイトスピーチ(HS)は、過去10年間で重要な研究対象となっているが、ほとんどのHS関連コーパスは、ユーザーのコメントを「嫌悪」「中立」とラベル付けしようとすることでヘイト現象を単純化している。 これはHSの複雑で主観的な性質を無視し、これらのコーパスで訓練された分類器の実際の適用性を制限する。 本研究では,移動関連ニュース記事から収集したドイツ語とフランス語のユーザコメントのコーパスであるM-Phasis corpusについて述べる。 それは"hate"-"neutral"二分法を超越したもので、代わりに23の機能で注釈付けされ、批判的なコメントから暗黙的で明示的なヘイト表現まで、様々な種類の音声の記述子となる。 アノテーションは言語毎に4つのネイティブ話者によって実行され、高い (0.77 <= k <= 1) アノテーション間の合意に達する。 コーパスの作成とコンテンツ、エラー、ドメイン分析からの洞察の提示に加えて、いくつかの分類基準をトレーニングすることで、そのデータ特性について検討する。

Even though hate speech (HS) online has been an important object of research in the last decade, most HS-related corpora over-simplify the phenomenon of hate by attempting to label user comments as "hate" or "neutral". This ignores the complex and subjective nature of HS, which limits the real-life applicability of classifiers trained on these corpora. In this study, we present the M-Phasis corpus, a corpus of ~9k German and French user comments collected from migration-related news articles. It goes beyond the "hate"-"neutral" dichotomy and is instead annotated with 23 features, which in combination become descriptors of various types of speech, ranging from critical comments to implicit and explicit expressions of hate. The annotations are performed by 4 native speakers per language and achieve high (0.77 <= k <= 1) inter-annotator agreements. Besides describing the corpus creation and presenting insights from a content, error and domain analysis, we explore its data characteristics by training several classification baselines.
翻訳日:2022-04-29 13:22:53 公開日:2022-04-28
# HPT:階層型テキスト分類のための階層対応プロンプトチューニング

HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification ( http://arxiv.org/abs/2204.13413v1 )

ライセンス: Link先を確認
Zihan Wang, Peiyi Wang, Tianyu Liu, Yunbo Cao, Zhifang Sui, Houfeng Wang(参考訳) 階層的テキスト分類(htc)は、複雑なラベル階層のため、マルチラベル分類の難しいサブタスクである。 最近、プレトレーニング言語モデル(PLM)は、微調整パラダイムを通じてHTCで広く採用されている。 しかし、このパラダイムでは、洗練されたラベル階層を持つ分類タスクとplmの事前学習タスクであるマスク言語モデル(mlm)の間に大きなギャップがあり、plmのポテンシャルを完全に把握することはできない。 本稿では,このギャップを埋めるために,多ラベルMLMの観点からHTCを扱う階層型Prompt Tuning法であるHPTを提案する。 具体的には,ラベル階層知識を融合するためにソフトプロンプトの形式をとる動的仮想テンプレートとラベルワードを構築し,htc と mlm の目的を調和させるためにゼロバウンドマルチラベルクロスエントロピー損失を導入する。 大規模な実験は、HPTが3つの人気HTCデータセットの最先端のパフォーマンスを達成し、不均衡と低リソース状況の処理に長けていることを示している。

Hierarchical text classification (HTC) is a challenging subtask of multi-label classification due to its complex label hierarchy. Recently, the pretrained language models (PLM) have been widely adopted in HTC through a fine-tuning paradigm. However, in this paradigm, there exists a huge gap between the classification tasks with sophisticated label hierarchy and the masked language model (MLM) pretraining tasks of PLMs and thus the potentials of PLMs can not be fully tapped. To bridge the gap, in this paper, we propose HPT, a Hierarchy-aware Prompt Tuning method to handle HTC from a multi-label MLM perspective. Specifically, we construct dynamic virtual template and label words which take the form of soft prompts to fuse the label hierarchy knowledge and introduce a zero-bounded multi-label cross entropy loss to harmonize the objectives of HTC and MLM. Extensive experiments show HPT achieves the state-of-the-art performances on 3 popular HTC datasets and is adept at handling the imbalance and low resource situations.
翻訳日:2022-04-29 13:22:31 公開日:2022-04-28
# Pseudo-Paraphrasing を用いた学習後対話要約

Post-Training Dialogue Summarization using Pseudo-Paraphrasing ( http://arxiv.org/abs/2204.13498v1 )

ライセンス: Link先を確認
Qi Jia, Yizhu Liu, Haifeng Tang, Kenny Q. Zhu(参考訳) 従来の対話要約手法では、対話特有の特徴をモデルに注入することで、物語テキストに事前学習された大きな言語モデルを適用する。 これらの特徴は、結果のモデルをチューニングしにくくする、または認識するために追加の知識を必要とする。 対話要約タスクにおける対話と物語要約の形式的ギャップを埋めるために,対話から物語への言い換えとして,訓練後事前学習言語モデル(PLM)を提案する。 その後、モデルは通常通り対話要約のために微調整される。 包括的実験により,提案手法は対話要約におけるバニラplmを著しく改善し,要約品質と実装コストで他のsotaモデルを上回ることを示した。

Previous dialogue summarization techniques adapt large language models pretrained on the narrative text by injecting dialogue-specific features into the models. These features either require additional knowledge to recognize or make the resulting models harder to tune. To bridge the format gap between dialogues and narrative summaries in dialogue summarization tasks, we propose to post-train pretrained language models (PLMs) to rephrase from dialogue to narratives. After that, the model is fine-tuned for dialogue summarization as usual. Comprehensive experiments show that our approach significantly improves vanilla PLMs on dialogue summarization and outperforms other SOTA models by the summary quality and implementation costs.
翻訳日:2022-04-29 13:22:11 公開日:2022-04-28
# (参考訳) スケールによる高精度微分プライベート画像分類のアンロック

Unlocking High-Accuracy Differentially Private Image Classification through Scale ( http://arxiv.org/abs/2204.13650v1 )

ライセンス: CC BY 4.0
Soham De, Leonard Berrada, Jamie Hayes, Samuel L. Smith, Borja Balle(参考訳) 差分プライバシー(DP)は、機械学習モデルにアクセスする敵が個々のトレーニングポイントに関する情報を抽出することを防ぐ正式なプライバシーを保証する。 最も一般的なDP訓練法であるDP-SGDは,訓練中にノイズを注入することにより,この保護を実現する。 しかし、以前の研究ではdp-sgdは標準画像分類ベンチマークの性能を著しく低下させることが多い。 さらに、DP-SGDは、プライバシーを守るのに必要なノイズのノルムがモデル次元に比例するため、大きなモデルでは本質的には不十分であるとする著者もいる。 対照的に, 過パラメータモデルにおけるdp-sgdの性能は, 従来考えられていたよりも有意に向上することを示す。 信号伝搬の確保と収束率の向上を目的として,40層ワイドResNetを用いてCIFAR-10の81.4%以下 (8, 10^{-5})-DPのSOTAを新たに取得し, 従来のSOTAよりも71.7%向上した。 予めトレーニングした200層正規化器フリーのresnetを微調整すると、imagenet (1, 8*10^{-7})-dpで77.1%のtop-1精度を達成し、8, 8*10^{-7})-dpで81.1%を達成した。 これは、(10, 10^{-6})-DPのより大きなプライバシー予算の下で、以前のSOTAの47.9%を超えている。 我々の結果は、プライベート画像分類と非プライベート画像分類の精度ギャップを埋めるための重要な一歩だと考えています。

Differential Privacy (DP) provides a formal privacy guarantee preventing adversaries with access to a machine learning model from extracting information about individual training points. Differentially Private Stochastic Gradient Descent (DP-SGD), the most popular DP training method, realizes this protection by injecting noise during training. However previous works have found that DP-SGD often leads to a significant degradation in performance on standard image classification benchmarks. Furthermore, some authors have postulated that DP-SGD inherently performs poorly on large models, since the norm of the noise required to preserve privacy is proportional to the model dimension. In contrast, we demonstrate that DP-SGD on over-parameterized models can perform significantly better than previously thought. Combining careful hyper-parameter tuning with simple techniques to ensure signal propagation and improve the convergence rate, we obtain a new SOTA on CIFAR-10 of 81.4% under (8, 10^{-5})-DP using a 40-layer Wide-ResNet, improving over the previous SOTA of 71.7%. When fine-tuning a pre-trained 200-layer Normalizer-Free ResNet, we achieve a remarkable 77.1% top-1 accuracy on ImageNet under (1, 8*10^{-7})-DP, and achieve 81.1% under (8, 8*10^{-7})-DP. This markedly exceeds the previous SOTA of 47.9% under a larger privacy budget of (10, 10^{-6})-DP. We believe our results are a significant step towards closing the accuracy gap between private and non-private image classification.
翻訳日:2022-04-29 13:20:39 公開日:2022-04-28
# 不完全なスーパービジョンのための混合型Deep Metric Learningアプローチ

Mixup-based Deep Metric Learning Approaches for Incomplete Supervision ( http://arxiv.org/abs/2204.13572v1 )

ライセンス: Link先を確認
Luiz H. Buris, Daniel C. G. Pedronette, Joao P. Papa, Jurandy Almeida, Gustavo Carneiro, Fabio A. Faria(参考訳) ディープラーニングアーキテクチャは様々な分野(医学、農業、安全保障など)で有望な成果を上げている。 しかし、これらの強力なテクニックを多くの実アプリケーションで使用することは、トレーニングに必要な大きなラベル付きコレクションのために困難になる。 弱みや半教師付き学習アプローチなど、より多くを学ぶことができる戦略を提案することによって、克服するためのソリューションを追求する研究がいくつかある。 これらの手法は、通常、敵の例に対する暗記や感度に対処しないため、不完全スーパービジョンシナリオにおいて、Mixupと組み合わせた3つの深度学習手法を提案する。 このようなシナリオでは,メトリクス学習における最先端のアプローチがうまく機能しない場合がある。 さらに、提案されたアプローチは、その大部分を異なるデータセットで上回る。

Deep learning architectures have achieved promising results in different areas (e.g., medicine, agriculture, and security). However, using those powerful techniques in many real applications becomes challenging due to the large labeled collections required during training. Several works have pursued solutions to overcome it by proposing strategies that can learn more for less, e.g., weakly and semi-supervised learning approaches. As these approaches do not usually address memorization and sensitivity to adversarial examples, this paper presents three deep metric learning approaches combined with Mixup for incomplete-supervision scenarios. We show that some state-of-the-art approaches in metric learning might not work well in such scenarios. Moreover, the proposed approaches outperform most of them in different datasets.
翻訳日:2022-04-29 13:17:58 公開日:2022-04-28
# オランダ臨床ノートを用いた暴力リスク評価のための機械学習

Machine Learning for Violence Risk Assessment Using Dutch Clinical Notes ( http://arxiv.org/abs/2204.13535v1 )

ライセンス: Link先を確認
Pablo Mosteiro and Emil Rijcken and Kalliopi Zervanou and Uzay Kaymak and Floortje Scheepers and Marco Spruit(参考訳) 精神医学施設における暴力リスク評価は、介入によって暴力事件を避けることができる。 電子健康記録に記載された開業医による臨床記録は、ユニークな情報を収集する貴重な資料であるが、その潜在能力を最大限に活用することはほとんどない。 本研究は,精神科患者の暴力リスクを評価するための従来の深層機械学習手法である。 ベストモデルの性能は,現在使用されているサーベイベース手法に匹敵するものであり,受信者動作特性曲線の約0.8。 深層学習モデルBERTjeは従来の機械学習手法よりも性能が劣ることがわかった。 また、モデルの性能をよりよく理解するために、データと分類器を評価します。 これは、評価された分類器を新しいデータに適用する上で特に重要であり、電子形式での新しいデータが利用可能になるため、実践者にとっても非常に興味がある。

Violence risk assessment in psychiatric institutions enables interventions to avoid violence incidents. Clinical notes written by practitioners and available in electronic health records are valuable resources capturing unique information, but are seldom used to their full potential. We explore conventional and deep machine learning methods to assess violence risk in psychiatric patients using practitioner notes. The performance of our best models is comparable to the currently used questionnaire-based method, with an area under the Receiver Operating Characteristic curve of approximately 0.8. We find that the deep-learning model BERTje performs worse than conventional machine learning methods. We also evaluate our data and our classifiers to understand the performance of our models better. This is particularly important for the applicability of evaluated classifiers to new data, and is also of great interest to practitioners, due to the increased availability of new data in electronic format.
翻訳日:2022-04-29 13:17:45 公開日:2022-04-28
# オブジェクト指向世界モデリングにおける合成一般化に向けて

Toward Compositional Generalization in Object-Oriented World Modeling ( http://arxiv.org/abs/2204.13661v1 )

ライセンス: Link先を確認
Linfeng Zhao, Lingzhi Kong, Robin Walters, Lawson L.S. Wong(参考訳) 構成的一般化は学習と意思決定において重要な能力である。 我々は,オブジェクト指向環境における強化学習の設定に着目し,世界モデリングにおける構成一般化の研究を行う。 我々は(1)代数的アプローチで構成一般化問題を形式化し、(2)世界モデルがそれをどのように実現できるかを研究する。 概念環境,オブジェクトライブラリ,および2つのインスタンスを導入し,一般化能力を測定するための原則パイプラインをデプロイする。 定式化を動機として,我々のフレームワークを用いて構成一般化能力のない複数の手法を正確に分析し,より効率的な構成一般化を実現する相似オブジェクト指向世界モデル (HOWM) を設計する。

Compositional generalization is a critical ability in learning and decision-making. We focus on the setting of reinforcement learning in object-oriented environments to study compositional generalization in world modeling. We (1) formalize the compositional generalization problem with an algebraic approach and (2) study how a world model can achieve that. We introduce a conceptual environment, Object Library, and two instances, and deploy a principled pipeline to measure the generalization ability. Motivated by the formulation, we analyze several methods with exact} or no compositional generalization ability using our framework, and design a differentiable approach, Homomorphic Object-oriented World Model (HOWM), that achieves approximate but more efficient compositional generalization.
翻訳日:2022-04-29 13:17:04 公開日:2022-04-28
# 未確認薬物に対する単細胞摂動応答の予測

Predicting single-cell perturbation responses for unseen drugs ( http://arxiv.org/abs/2204.13545v1 )

ライセンス: Link先を確認
Leon Hetzel, Simon B\"ohm, Niki Kilbertus, Stephan G\"unnemann, Mohammad Lotfollahi, Fabian Theis(参考訳) 単細胞転写学は、個々の細胞の分解における摂動に対する細胞不均一性の研究を可能にした。 しかし、多くの薬物の細胞応答を測定するためにhtss(high-throughput screen)をスケールすることは、技術的な制限とより重要なこととして、そのような多重化実験のコストのために課題である。 これにより、正常に実行されたバルクRNA-seq HTSからの情報を転送する必要がある。 新規なエンコーダデコーダアーキテクチャを導入し, 未知薬物の摂動効果について検討する。 我々は、このモデルと転写学習スキームを組み合わせて、既存のRNA-seq HTSデータセットのトレーニングによって一般化性能が向上することを示す。 より優れた一般化により、シングルセル解像度で広範囲でコストのかかるスクリーンの必要性が軽減される。 提案手法は, インシリコ仮説を生成でき, 究極的には標的薬の発見を促進することにより, より効率的な実験設計を促進することを想定している。

Single-cell transcriptomics enabled the study of cellular heterogeneity in response to perturbations at the resolution of individual cells. However, scaling high-throughput screens (HTSs) to measure cellular responses for many drugs remains a challenge due to technical limitations and, more importantly, the cost of such multiplexed experiments. Thus, transferring information from routinely performed bulk RNA-seq HTS is required to enrich single-cell data meaningfully. We introduce a new encoder-decoder architecture to study the perturbational effects of unseen drugs. We combine the model with a transfer learning scheme and demonstrate how training on existing bulk RNA-seq HTS datasets can improve generalisation performance. Better generalisation reduces the need for extensive and costly screens at single-cell resolution. We envision that our proposed method will facilitate more efficient experiment designs through its ability to generate in-silico hypotheses, ultimately accelerating targeted drug discovery.
翻訳日:2022-04-29 13:14:42 公開日:2022-04-28
# BAGNet: 悪性乳癌の鑑別のための双方向誘導ネットワーク

BAGNet: Bidirectional Aware Guidance Network for Malignant Breast lesions Segmentation ( http://arxiv.org/abs/2204.13342v1 )

ライセンス: Link先を確認
Gongping Chen, Yuming Liu, Yu Dai, Jianxun Zhang, Liang Cui and Xiaotao Yin(参考訳) 乳腺病変の分節はコンピュータ診断システムの重要な段階であり,注目されている。 しかし,乳腺悪性病変の正確な分画は異種構造と類似した強度分布の影響により困難な課題である。 本稿では,乳腺超音波画像から悪性病変を分離する新しい双方向認識誘導ネットワーク(bagnet)を提案する。 特に、双方向認識ガイダンスネットワークは、入力された粗い塩分マップからグローバル(低レベル)とローカル(高レベル)の機能の間のコンテキストをキャプチャするために使用される。 グローバル特徴マップの導入は、病変領域における周囲の組織(背景)の干渉を減らすことができる。 ネットワークのセグメンテーション性能を評価するために, 広く用いられている6つの評価指標を用いて, 公衆乳房超音波データセットにおける最新の医用画像セグメンテーション法を比較した。 広範に実験した結果, 乳房超音波画像において最も競争力のあるセグメント化が得られた。

Breast lesions segmentation is an important step of computer-aided diagnosis system, and it has attracted much attention. However, accurate segmentation of malignant breast lesions is a challenging task due to the effects of heterogeneous structure and similar intensity distributions. In this paper, a novel bidirectional aware guidance network (BAGNet) is proposed to segment the malignant lesion from breast ultrasound images. Specifically, the bidirectional aware guidance network is used to capture the context between global (low-level) and local (high-level) features from the input coarse saliency map. The introduction of the global feature map can reduce the interference of surrounding tissue (background) on the lesion regions. To evaluate the segmentation performance of the network, we compared with several state-of-the-art medical image segmentation methods on the public breast ultrasound dataset using six commonly used evaluation metrics. Extensive experimental results indicate that our method achieves the most competitive segmentation results on malignant breast ultrasound images.
翻訳日:2022-04-29 13:14:02 公開日:2022-04-28
# 深部画像を用いたリストモードPET画像再構成

List-Mode PET Image Reconstruction Using Deep Image Prior ( http://arxiv.org/abs/2204.13404v1 )

ライセンス: Link先を確認
Kibo Ote, Fumio Hashimoto, Yuya Onishi, Takashi Isobe, Yasuomi Ouchi(参考訳) PET(List-mode positron emission tomography)画像再構成は、多くのLOR(Line-of-Response)を持つPETスキャナーにとって重要なツールである。 深層学習はPET画像再構成の品質を高める1つの方法である。 しかし、リストデータはビットコードのシーケンスであり、畳み込みニューラルネットワーク(CNN)による処理には適さないため、リストモードPET画像再構成へのディープラーニング技術の応用は進んでいない。 本研究では,Deep Image Prior(DIP)と呼ばれる教師なしCNNを用いた新しいPET画像再構成手法と乗算器の交互方向法フレームワークを提案する。 リストモードディップ再構成法 (lm-diprecon) は, 正則化リストモード動的行動作最大化アルゴリズム (lm-drama) とmr-dip法 (mr-dip) を繰り返す。 シミュレーションと臨床データの両方を用いてLM-DIPReconを評価し, LM-DRAMAとMR-DIPよりも画像のシャープ化, コントラストとノイズのトレードオフ曲線が良好であった。 これらの結果から,LM-DIPReconはPET画像の定量化に有用であることが示唆された。 また,リストデータは動的シンノグラムよりも詳細な時間情報を有するため,4次元pet画像と運動補正にはリストモード深部画像の事前再構成が有効であることが期待される。

List-mode positron emission tomography (PET) image reconstruction is an important tool for PET scanners with many lines-of-response (LORs) and additional information such as time-of-flight and depth-of-interaction. Deep learning is one possible solution to enhance the quality of PET image reconstruction. However, the application of deep learning techniques to list-mode PET image reconstruction have not been progressed because list data is a sequence of bit codes and unsuitable for processing by convolutional neural networks (CNN). In this study, we propose a novel list-mode PET image reconstruction method using an unsupervised CNN called deep image prior (DIP) and a framework of alternating direction method of multipliers. The proposed list-mode DIP reconstruction (LM-DIPRecon) method alternatively iterates regularized list-mode dynamic row action maximum likelihood algorithm (LM-DRAMA) and magnetic resonance imaging conditioned DIP (MR-DIP). We evaluated LM-DIPRecon using both simulation and clinical data, and it achieved sharper images and better tradeoff curves between contrast and noise than the LM-DRAMA and MR-DIP. These results indicated that the LM-DIPRecon is useful for quantitative PET imaging with limited events. In addition, as list data has finer temporal information than dynamic sinograms, list-mode deep image prior reconstruction is expected to be useful for 4D PET imaging and motion correction.
翻訳日:2022-04-29 13:13:45 公開日:2022-04-28
# KING:Kinematics Gradientsによるロバスト模倣のための安全クリティカルドライビングシナリオの生成

KING: Generating Safety-Critical Driving Scenarios for Robust Imitation via Kinematics Gradients ( http://arxiv.org/abs/2204.13683v1 )

ライセンス: Link先を確認
Niklas Hanselmann, Katrin Renz, Kashyap Chitta, Apratim Bhattacharyya and Andreas Geiger(参考訳) シミュレーターは安全で低コストな自動運転車の開発を可能にする。 しかしながら、現在の運転シミュレータは、バックグラウンドトラフィックに対する「行動モデル」を示す。 手作りのシナリオは通常、安全クリティカルな状況を引き起こすシミュレーション中に追加される。 別のアプローチとして、バックグラウンドトラフィックトラジェクトリを逆向きに摂動させる方法がある。 本稿では,carlaシミュレータを用いた安全クリティカル運転シナリオ生成手法について検討する。 我々は、シミュレータの真のダイナミクスのプロキシとしてキネマティック自転車モデルを使用し、このプロキシモデルによる勾配が背景トラフィック軌跡の最適化に十分なことを観察する。 そこで本研究では,安全クリティカルな運転シナリオをブラックボックス最適化よりも20%高い成功率で生成するKINGを提案する。 特権ルールに基づくエキスパートアルゴリズムを用いて,KINGが生成したシナリオを解くことにより,模倣学習ポリシーのトレーニングデータを得る。 この新データを微調整した結果,衝突回避の方針が整ったことが判明した。 重要なことは、生成したデータによって、KING経由で生成された両方の保留シナリオと従来の手作りシナリオの衝突が減少し、堅牢性が向上したことです。

Simulators offer the possibility of safe, low-cost development of self-driving systems. However, current driving simulators exhibit na\"ive behavior models for background traffic. Hand-tuned scenarios are typically added during simulation to induce safety-critical situations. An alternative approach is to adversarially perturb the background traffic trajectories. In this paper, we study this approach to safety-critical driving scenario generation using the CARLA simulator. We use a kinematic bicycle model as a proxy to the simulator's true dynamics and observe that gradients through this proxy model are sufficient for optimizing the background traffic trajectories. Based on this finding, we propose KING, which generates safety-critical driving scenarios with a 20% higher success rate than black-box optimization. By solving the scenarios generated by KING using a privileged rule-based expert algorithm, we obtain training data for an imitation learning policy. After fine-tuning on this new data, we show that the policy becomes better at avoiding collisions. Importantly, our generated data leads to reduced collisions on both held-out scenarios generated via KING as well as traditional hand-crafted scenarios, demonstrating improved robustness.
翻訳日:2022-04-29 13:13:16 公開日:2022-04-28
# 音楽の自動書き起こしのためのUnaligned Supervision

Unaligned Supervision For Automatic Music Transcription in The Wild ( http://arxiv.org/abs/2204.13668v1 )

ライセンス: Link先を確認
Ben Maman and Amit H. Bermano(参考訳) マルチインストゥルメント自動音楽書き起こし(multi-instrument automatic music transcription、amt)は、音楽情報検索の聖杯の一つである。 現在のAMTアプローチは、難しいデータ収集のため、ピアノと(一部)ギター録音に制限されている。 データ収集障壁を克服するために、以前のATTアプローチでは、同じ曲や曲のデジタル版という形で楽譜を取り入れようと試みていた。 スコアは通常、オーディオ機能と、トレーニングラベルを生成するための厳格な人間の介入を使って調整される。 完全自動化プロセスにおいて,トランクレータを同時にトレーニングし,スコアを対応するパフォーマンスに合わせる手法であるNoteEMを導入する。 擬似ラベルとピッチシフト強化を補完するこのアンアライメント・コメンデーション・スキームを用いて,前代未聞の正確さと楽器の多様性を訓練することができる。 合成データと非整合性監視のみを用いて,MAPSデータセットのSOTAノートレベルの精度と,データセット間の評価において良好なマージンを報告した。 我々はまた、ロバストさと使いやすさを実証し、小規模で容易に入手可能な自己収集データセットでのトレーニングで同等の結果を報告し、MusicNetデータセットの代替ラベルを提案し、より正確であることを示す。 私たちのプロジェクトページはhttps://benadar293.github.ioで閲覧できます。

Multi-instrument Automatic Music Transcription (AMT), or the decoding of a musical recording into semantic musical content, is one of the holy grails of Music Information Retrieval. Current AMT approaches are restricted to piano and (some) guitar recordings, due to difficult data collection. In order to overcome data collection barriers, previous AMT approaches attempt to employ musical scores in the form of a digitized version of the same song or piece. The scores are typically aligned using audio features and strenuous human intervention to generate training labels. We introduce NoteEM, a method for simultaneously training a transcriber and aligning the scores to their corresponding performances, in a fully-automated process. Using this unaligned supervision scheme, complemented by pseudo-labels and pitch-shift augmentation, our method enables training on in-the-wild recordings with unprecedented accuracy and instrumental variety. Using only synthetic data and unaligned supervision, we report SOTA note-level accuracy of the MAPS dataset, and large favorable margins on cross-dataset evaluations. We also demonstrate robustness and ease of use; we report comparable results when training on a small, easily obtainable, self-collected dataset, and we propose alternative labeling to the MusicNet dataset, which we show to be more accurate. Our project page is available at https://benadar293.github.io
翻訳日:2022-04-29 13:12:57 公開日:2022-04-28
# HybriDialogue: 語彙とテクスチュアルデータに基づく情報探索型対話データセット

HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on Tabular and Textual Data ( http://arxiv.org/abs/2204.13243v1 )

ライセンス: Link先を確認
Kai Nakamura, Sharon Levy, Yi-Lin Tuan, Wenhu Chen, William Yang Wang(参考訳) 現在の対話システムでは、様々なモダリティに分散した情報を持つトピックについて、ユーザとの会話が成功している。 マルチターン対話システムにおけるこれまでの作業は、主にテキストまたはテーブル情報に重点を置いてきた。 より現実的なシナリオでは、知識が非構造化形式と構造化形式の両方に分散するので、両者を共同で理解することが重要である。 本稿では,wikipediaテキストとテーブルを基盤としたクラウドソーシングによる自然会話からなる対話データセットhybridialogueを提案する。 会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで作られる。 本稿では,データセットの検索,システム状態追跡,対話応答生成タスクを提案し,ベースライン実験を行う。 以上の結果から,表やテキストを基盤とした複雑な情報探索対話を推論できる,より強力な対話システムを構築することの重要性が示唆された。

A pressing challenge in current dialogue systems is to successfully converse with users on topics with information distributed across different modalities. Previous work in multiturn dialogue systems has primarily focused on either text or table information. In more realistic scenarios, having a joint understanding of both is critical as knowledge is typically distributed over both unstructured and structured forms. We present a new dialogue dataset, HybriDialogue, which consists of crowdsourced natural conversations grounded on both Wikipedia text and tables. The conversations are created through the decomposition of complex multihop questions into simple, realistic multiturn dialogue interactions. We propose retrieval, system state tracking, and dialogue response generation tasks for our dataset and conduct baseline experiments for each. Our results show that there is still ample opportunity for improvement, demonstrating the importance of building stronger dialogue systems that can reason over the complex setting of information-seeking dialogue grounded on tables and text.
翻訳日:2022-04-29 13:12:32 公開日:2022-04-28
# 放射線レポート生成のためのクロスモーダルメモリネットワーク

Cross-modal Memory Networks for Radiology Report Generation ( http://arxiv.org/abs/2204.13258v1 )

ライセンス: Link先を確認
Zhihong Chen, Yaling Shen, Yan Song, Xiang Wan(参考訳) 医学的画像診断は、画像のテキスト報告がそれらの理解とその後の治療の促進に不可欠である医療診断の臨床的実践において重要な役割を果たす。 レポートを自動的に生成することで、放射線科医の負担を軽減し、医療領域に人工知能を適用することに既に注目されている臨床自動化を著しく促進することが有益である。 これまでの研究は主にエンコーダ・デコーダのパラダイムを踏襲し、テキスト生成の側面に焦点を合わせてきたが、クロスモーダルマッピングの重要性を考慮し、放射線学レポート作成を促進するためにそのようなマッピングを明示的に活用する研究はほとんどなかった。 本稿では,画像とテキストのアライメントを共有メモリで記録し,モダリティ間のインタラクションや生成を容易にするように設計した,ラジオロジーレポート生成のためのエンコーダ・デコーダフレームワークを強化するためのクロスモーダルメモリネットワーク(cmn)を提案する。 実験結果から,IU X線とMIMIC-CXRという2つの広く使用されているベンチマークデータセット上で,最先端の性能を実現するモデルの有効性が示された。 また,さらなる分析により,放射線画像やテキストからの情報整合性が向上し,臨床指標の正確性が向上した。

Medical imaging plays a significant role in clinical practice of medical diagnosis, where the text reports of the images are essential in understanding them and facilitating later treatments. By generating the reports automatically, it is beneficial to help lighten the burden of radiologists and significantly promote clinical automation, which already attracts much attention in applying artificial intelligence to medical domain. Previous studies mainly follow the encoder-decoder paradigm and focus on the aspect of text generation, with few studies considering the importance of cross-modal mappings and explicitly exploit such mappings to facilitate radiology report generation. In this paper, we propose a cross-modal memory networks (CMN) to enhance the encoder-decoder framework for radiology report generation, where a shared memory is designed to record the alignment between images and texts so as to facilitate the interaction and generation across modalities. Experimental results illustrate the effectiveness of our proposed model, where state-of-the-art performance is achieved on two widely used benchmark datasets, i.e., IU X-Ray and MIMIC-CXR. Further analyses also prove that our model is able to better align information from radiology images and texts so as to help generating more accurate reports in terms of clinical indicators.
翻訳日:2022-04-29 13:12:16 公開日:2022-04-28
# (参考訳) 双線形値ネットワーク

Bilinear value networks ( http://arxiv.org/abs/2204.13695v1 )

ライセンス: CC BY 4.0
Zhang-Wei Hong, Ge Yang, Pulkit Agrawal(参考訳) オフ・ポリシー・マルチゴール強化学習の主要な枠組みは、目標条件付きq値関数の推定である。 複数の目標を達成するために学習する場合、データ効率は新しい目標へのQ関数の一般化と密接に関連している。 デファクトパラダイムは、モノリシックニューラルネットワークを用いてQ(s, a, g)を近似することである。 Q-関数の一般化を改善するために、2つのベクトル場間のドット積の形で低ランク近似を用いてQ-値を表す双線型分解を提案する。 第1のベクトル場 f(s, a) は状態 s における環境の局所ダイナミクスをキャプチャし、第2の成分 {\phi}(s, g) は現在の状態とゴールの間の大域的な関係をキャプチャする。 両線形分解方式はデータ効率を大幅に向上させ, 従来の方法に比べて分布外目標への移行に優れることを示す。 シミュレーションされたFetchロボットのタスクスーツとシャドウハンドによる巧妙な操作に関する実証的証拠を提供する。

The dominant framework for off-policy multi-goal reinforcement learning involves estimating goal conditioned Q-value function. When learning to achieve multiple goals, data efficiency is intimately connected with the generalization of the Q-function to new goals. The de-facto paradigm is to approximate Q(s, a, g) using monolithic neural networks. To improve the generalization of the Q-function, we propose a bilinear decomposition that represents the Q-value via a low-rank approximation in the form of a dot product between two vector fields. The first vector field, f(s, a), captures the environment's local dynamics at the state s; whereas the second component, {\phi}(s, g), captures the global relationship between the current state and the goal. We show that our bilinear decomposition scheme substantially improves data efficiency, and has superior transfer to out-of-distribution goals compared to prior methods. Empirical evidence is provided on the simulated Fetch robot task-suite and dexterous manipulation with a Shadow hand.
翻訳日:2022-04-29 13:10:44 公開日:2022-04-28
# MMRotate: Pytorchを用いた回転オブジェクト検出ベンチマーク

MMRotate: A Rotated Object Detection Benchmark using Pytorch ( http://arxiv.org/abs/2204.13317v1 )

ライセンス: Link先を確認
Yue Zhou, Xue Yang, Gefan Zhang, Jiabao Wang, Yanyi Liu, Liping Hou, Xue Jiang, Xingzhao Liu, Junchi Yan, Chengqi Lyu, Wenwei Zhang, Kai Chen(参考訳) 本稿では,ディープラーニングに基づく回転物体検出アルゴリズムのトレーニング,推論,評価のためのコヒーレントなアルゴリズムフレームワークを提供する,mmrotateというオープンソースのツールボックスを提案する。 mmrotateは18の最先端アルゴリズムを実装し、最も頻繁に使われる3つの角度定義法をサポートしている。 回転物体検出関連問題の今後の研究と工業的応用を容易にするため,多数の訓練済みモデルと詳細なベンチマークを提供し,回転物体検出の性能について考察する。 mmrotateはhttps://github.com/open-mmlab/mmrotateで公開されている。

We present an open-source toolbox, named MMRotate, which provides a coherent algorithm framework of training, inferring, and evaluation for the popular rotated object detection algorithm based on deep learning. MMRotate implements 18 state-of-the-art algorithms and supports the three most frequently used angle definition methods. To facilitate future research and industrial applications of rotated object detection-related problems, we also provide a large number of trained models and detailed benchmarks to give insights into the performance of rotated object detection. MMRotate is publicly released at https://github.com/open-mmlab/mmrotate.
翻訳日:2022-04-29 12:49:40 公開日:2022-04-28
# キャプション情報を保持する:コントラスト画像検索における近道学習の防止

Keep the Caption Information: Preventing Shortcut Learning in Contrastive Image-Caption Retrieval ( http://arxiv.org/abs/2204.13382v1 )

ライセンス: Link先を確認
Maurits Bleeker, Andrew Yates, Maarten de Rijke(参考訳) 画像キャプチャ検索(icr)法を訓練するには、コントラスト損失関数が最適関数の共通の選択である。 残念ながら、対照的なICRメソッドは、トレーニングデータでうまく機能するが、他のテスト条件に移行できない決定ルールという、学習ショートカットに対して脆弱である。 ICRタスクのショートカット特徴表現を減らすアプローチとして,潜在目標デコーディング(LTD)を提案する。 我々は、入力キャプションを再構築する学習フレームワークにデコーダを追加し、画像とキャプションエンコーダがショートカット機能を学ぶのを防ぐ。 入力空間に入力キャプションを再構成する代わりに,キャプションの意味を潜在空間でデコードする。 LTDの目的を最適化制約として実装し、復元損失がしきい値以下であることを保証するとともに、主にコントラスト損失を最適化する。 重要なことは、LTDは追加の訓練データや高価な(堅い)負の採掘戦略に依存しない。 入力キャプションの再構築とは違って,LTD はショートカット学習を削減し,リコール@k と r-精度スコアを取得することで一般化性を向上させる。 さらに,2つの損失の代わりに最適化制約としてLTDを実装することにより,評価スコアが有用であることを示す。

To train image-caption retrieval (ICR) methods, contrastive loss functions are a common choice for optimization functions. Unfortunately, contrastive ICR methods are vulnerable to learning shortcuts: decision rules that perform well on the training data but fail to transfer to other testing conditions. We introduce an approach to reduce shortcut feature representations for the ICR task: latent target decoding (LTD). We add an additional decoder to the learning framework to reconstruct the input caption, which prevents the image and caption encoder from learning shortcut features. Instead of reconstructing input captions in the input space, we decode the semantics of the caption in a latent space. We implement the LTD objective as an optimization constraint, to ensure that the reconstruction loss is below a threshold value while primarily optimizing for the contrastive loss. Importantly, LTD does not depend on additional training data or expensive (hard) negative mining strategies. Our experiments show that, unlike reconstructing the input caption, LTD reduces shortcut learning and improves generalizability by obtaining higher recall@k and r-precision scores. Additionally, we show that the evaluation scores benefit from implementing LTD as an optimization constraint instead of a dual loss.
翻訳日:2022-04-29 12:49:31 公開日:2022-04-28
# レヴェンシュテイン編集によるロシア語テキストの解毒

Russian Texts Detoxification with Levenshtein Editing ( http://arxiv.org/abs/2204.13638v1 )

ライセンス: Link先を確認
Ilya Gusev(参考訳) テキストデトックス化は、有害テキストの中立バージョンを作成するためのスタイル転送タスクである。 本稿では,テキスト編集の概念を用いて,パラレルコーパスを用いた2段階のタグ付けに基づくデトックス化モデルを構築する。 このモデルにより、RASE Detox共有タスクにおける全てのモデル間で最高のスタイル転送精度を達成し、より大きなシーケンス対シーケンスモデルを上回った。

Text detoxification is a style transfer task of creating neutral versions of toxic texts. In this paper, we use the concept of text editing to build a two-step tagging-based detoxification model using a parallel corpus of Russian texts. With this model, we achieved the best style transfer accuracy among all models in the RUSSE Detox shared task, surpassing larger sequence-to-sequence models.
翻訳日:2022-04-29 12:49:07 公開日:2022-04-28
# 大規模サプライチェーンネットワークのための学習全般的在庫管理政策

Learning General Inventory Management Policy for Large Supply Chain Network ( http://arxiv.org/abs/2204.13378v1 )

ライセンス: Link先を確認
Soh Kumabe, Shinya Shiroshita, Takanori Hayashi and Shirou Maruyama(参考訳) 倉庫の在庫管理は製造業者の利益に直接影響する。 特に大手メーカーは、非常に多くの小売業者が扱う非常に多種多様な製品を生産している。 このような場合、古典的な在庫管理アルゴリズムの計算複雑性は必然的に大きい。 近年,このような問題に対処するための学習ベースのアプローチが普及している。 しかし、これまでの研究は、製品数と小売業者数の両方が大きい管理システムではなかった。 本研究では,商品数と小売業者数の両方が大きいサプライチェーンシステムに適用可能な強化学習型倉庫在庫管理アルゴリズムを提案する。 大規模システムを扱うための計算問題を解くために,訓練段階におけるシステムの近似シミュレーション手法を提案する。 実データと人工データの両方に対する実験により、近似シミュレーションによるアルゴリズムが大規模なサプライチェーンネットワークをうまく扱えることを示した。

Inventory management in warehouses directly affects profits made by manufacturers. Particularly, large manufacturers produce a very large variety of products that are handled by a significantly large number of retailers. In such a case, the computational complexity of classical inventory management algorithms is inordinately large. In recent years, learning-based approaches have become popular for addressing such problems. However, previous studies have not been managed systems where both the number of products and retailers are large. This study proposes a reinforcement learning-based warehouse inventory management algorithm that can be used for supply chain systems where both the number of products and retailers are large. To solve the computational problem of handling large systems, we provide a means of approximate simulation of the system in the training phase. Our experiments on both real and artificial data demonstrate that our algorithm with approximated simulation can successfully handle large supply chain networks.
翻訳日:2022-04-29 12:46:38 公開日:2022-04-28
# データストリーム進化のための機械学習手法の標準化評価

Standardized Evaluation of Machine Learning Methods for Evolving Data Streams ( http://arxiv.org/abs/2204.13625v1 )

ライセンス: Link先を確認
Johannes Haug, Effi Tramountani, Gjergji Kasneci(参考訳) データストリームの明確でダイナミックな性質のため、オンライン機械学習には強力で柔軟なソリューションが必要だ。 しかし,実環境下でのオンライン機械学習手法の評価は困難である。 したがって、既存の作品は、必ずしも有意義で信頼性の高い結果を生み出すとは限らない異なるヒューリスティックやシミュレーションを描いていることが多い。 実際、一般的な評価基準が欠如しているため、オンライン学習手法が実際にどのように機能するか、あるいは類似の作業との比較でどのように機能するかは不明のままであることが多い。 本稿では,進化するデータストリームにおける高品質機械学習のための総合的な特性セットを提案する。 特に,オンライン予測モデル,オンライン特徴選択,コンセプトドリフト検出において,適切なパフォーマンス対策と評価戦略について論じる。 最初の研究として、オンライン学習手法の解釈可能性についても検討する。 提案された評価基準は、floatと呼ばれる新しいpythonフレームワークで提供されている。 Floatは完全にモジュール化されており、Scikit-multiflowやRiverといった共通ライブラリとカスタムコードとの同時統合を可能にする。 floatはオープンソースで、https://github.com/haugjo/floatからアクセスできる。 この意味で、我々の研究がより標準化され、信頼性が高く、現実的なテストやオンライン機械学習手法の比較に貢献することを願っている。

Due to the unspecified and dynamic nature of data streams, online machine learning requires powerful and flexible solutions. However, evaluating online machine learning methods under realistic conditions is difficult. Existing work therefore often draws on different heuristics and simulations that do not necessarily produce meaningful and reliable results. Indeed, in the absence of common evaluation standards, it often remains unclear how online learning methods will perform in practice or in comparison to similar work. In this paper, we propose a comprehensive set of properties for high-quality machine learning in evolving data streams. In particular, we discuss sensible performance measures and evaluation strategies for online predictive modelling, online feature selection and concept drift detection. As one of the first works, we also look at the interpretability of online learning methods. The proposed evaluation standards are provided in a new Python framework called float. Float is completely modular and allows the simultaneous integration of common libraries, such as scikit-multiflow or river, with custom code. Float is open-sourced and can be accessed at https://github.com/haugjo/float. In this sense, we hope that our work will contribute to more standardized, reliable and realistic testing and comparison of online machine learning methods.
翻訳日:2022-04-29 12:45:53 公開日:2022-04-28
# (参考訳) AlphaZeroによるゲーム学習とプレイ

AlphaZero-Inspired General Board Game Learning and Playing ( http://arxiv.org/abs/2204.13307v1 )

ライセンス: CC BY-SA 4.0
Johannes Scheiermann and Wolfgang Konen(参考訳) 最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。 alphagoとalphazero – goやその他の複雑なゲームをスーパーヒューマンレベルでプレイする – の成果は実に印象的ですが、これらのアーキテクチャは、非常に複雑で高い計算リソースを必要とするという欠点を持っています。 多くの研究者がAlphaZeroに類似しているが、計算要求が低く、再現が容易な方法を探している。 本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。 MCTSを初めてRL n-tupleネットワークの周囲にラップし、計算要求の低さを同時に維持する汎用エージェントを作成する。 我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。 特に、このAlphaZeroにインスパイアされたエージェントは、非常に強力なOthelloプログラムであるEdaxを打ち負かし、レベル7(他のほとんどのアルゴリズムがEdaxをレベル2まで打ち負かすしかなかった)を含む、標準的なハードウェア(GPUやTPUを使わない)でトレーニングされた最初のエージェントであることを示す。

Recently, the seminal algorithms AlphaGo and AlphaZero have started a new era in game learning and deep reinforcement learning. While the achievements of AlphaGo and AlphaZero - playing Go and other complex games at super human level - are truly impressive, these architectures have the drawback that they are very complex and require high computational resources. Many researchers are looking for methods that are similar to AlphaZero, but have lower computational demands and are thus more easily reproducible. In this paper, we pick an important element of AlphaZero - the Monte Carlo Tree Search (MCTS) planning stage - and combine it with reinforcement learning (RL) agents. We wrap MCTS for the first time around RL n-tuple networks to create versatile agents that keep at the same time the computational demands low. We apply this new architecture to several complex games (Othello, ConnectFour, Rubik's Cube) and show the advantages achieved with this AlphaZero-inspired MCTS wrapper. In particular, we present results that this AlphaZero-inspired agent is the first one trained on standard hardware (no GPU or TPU) to beat the very strong Othello program Edax up to and including level 7 (where most other algorithms could only defeat Edax up to level 2).
翻訳日:2022-04-29 12:44:05 公開日:2022-04-28
# (参考訳) 非監督型産業異常検出アルゴリズムの検討

A Survey on Unsupervised Industrial Anomaly Detection Algorithms ( http://arxiv.org/abs/2204.11161v2 )

ライセンス: CC BY 4.0
Yajie Cui, Zhaoxiang Liu and Shiguo Lian(参考訳) 産業4.0の発展に伴い、表面欠陥検出の分野に注目が集まっている。 近年、深層学習に基づくアルゴリズムが従来の視力検査法よりも優れている産業分野では、効率の向上と労働コストの削減が大きな関心事となっている。 既存のディープラーニングベースのアルゴリズムは教師付き学習に偏っているが、これは大量のラベル付きデータとかなりの労力を必要とするだけでなく、非効率で一定の制限がある。 対照的に、近年の研究では、教師なし学習は視覚異常検出の欠点に対処する大きな可能性を秘めている。 本稿では,最近の課題を概説し,最近提案された5つのカテゴリを対象とした視覚異常検出のための教師なしアルゴリズムについて概説する。 また、表面画像サンプルを含む公開データセットに関する情報を提供する。 異なる手法のクラスを比較することにより、異常検出アルゴリズムの利点と欠点を要約する。 より広範かつクロスドメインな視点で研究コミュニティと産業の両方を支援することが期待されている。

In line with the development of Industry 4.0, more and more attention is attracted to the field of surface defect detection. Improving efficiency as well as saving labor costs has steadily become a matter of great concern in industry field, where deep learning-based algorithms performs better than traditional vision inspection methods in recent years. While existing deep learning-based algorithms are biased towards supervised learning, which not only necessitates a huge amount of labeled data and a significant amount of labor, but it is also inefficient and has certain limitations. In contrast, recent research shows that unsupervised learning has great potential in tackling above disadvantages for visual anomaly detection. In this survey, we summarize current challenges and provide a thorough overview of recently proposed unsupervised algorithms for visual anomaly detection covering five categories, whose innovation points and frameworks are described in detail. Meanwhile, information on publicly available datasets containing surface image samples are provided. By comparing different classes of methods, the advantages and disadvantages of anomaly detection algorithms are summarized. It is expected to assist both the research community and industry in developing a broader and cross-domain perspective.
翻訳日:2022-04-29 12:21:45 公開日:2022-04-28
# 人間の行動の統一シミュレーション、知覚、および生成

Unified Simulation, Perception, and Generation of Human Behavior ( http://arxiv.org/abs/2204.13678v1 )

ライセンス: Link先を確認
Ye Yuan(参考訳) 人間の行動の理解とモデリングは、人間を含むほとんどすべてのコンピュータビジョンとロボティクスアプリケーションにとって基本である。 本論文では,人間の行動モデリングに総合的なアプローチを取り入れ,シミュレーション,知覚,生成という3つの本質的な側面に取り組む。 論文を通して、3つの側面が深く結びついており、一方の側面の活用と改善が他方の側面に大きな利益をもたらすことを示す。 また、人間の行動モデリングの次のステップについて学んだ教訓とビジョンについても論じる。

Understanding and modeling human behavior is fundamental to almost any computer vision and robotics applications that involve humans. In this thesis, we take a holistic approach to human behavior modeling and tackle its three essential aspects -- simulation, perception, and generation. Throughout the thesis, we show how the three aspects are deeply connected and how utilizing and improving one aspect can greatly benefit the other aspects. We also discuss the lessons learned and our vision for what is next for human behavior modeling.
翻訳日:2022-04-29 12:20:54 公開日:2022-04-28
# 意味コミュニケーション:情報ボトルネックビュー

Semantic Communication: An Information Bottleneck View ( http://arxiv.org/abs/2204.13366v1 )

ライセンス: Link先を確認
Edgar Beck, Carsten Bockelmann and Armin Dekorsy(参考訳) PHY層における最近の機械学習ツールの成功と、次の無線通信標準6Gの高帯域要求によって動機づけられた1949年のWeaverによる意味コミュニケーションの考え方は、大きな注目を集めている。 Shannon氏によると、これはメッセージの意味を正確にコピーするのではなく送信することを目的としており、帯域幅の節約を可能にする。 本研究では, weaver に触発されて, 意味的文脈を確率モデルに明示的に導入する情報理論フレームワークを提案する。 特に,帯域効率のよい伝送では,情報ボトルネック最適化問題として意味コミュニケーションシステム設計を定義し,実装上の重要な側面を考察する。 さらに,従来の5G通信システム設計における意味的コンテキストの制約を明らかにする。 特に,分散画像分類の例に基づき,意味コミュニケーションシステム設計の巨大な可能性を明らかにする。 提案手法では,従来のPHY層の設計に比べて20dBの帯域幅が大幅に削減された。

Motivated by recent success of machine learning tools at the PHY layer and driven by high bandwidth demands of the next wireless communication standard 6G, the old idea of semantic communication by Weaver from 1949 has received considerable attention. It breaks with the classic design paradigm according to Shannon by aiming to transmit the meaning of a message rather than its exact copy and thus potentially allows for savings in bandwidth. In this work, inspired by Weaver, we propose an information-theoretic framework where the semantic context is explicitly introduced into probabilistic models. In particular, for bandwidth efficient transmission, we define semantic communication system design as an Information Bottleneck optimization problem and consider important implementation aspects. Further, we uncover the restrictions of the classic 5G communication system design w.r.t. semantic context. Notably, based on the example of distributed image classification, we reveal the huge potential of a semantic communication system design. Numerical results show a tremendous saving in bandwidth of 20 dB with our proposed approach ISCNet compared to a classic PHY layer design.
翻訳日:2022-04-29 12:20:25 公開日:2022-04-28
# (参考訳) セールスコールのためのエンドツーエンド対話要約システム

An End-to-End Dialogue Summarization System for Sales Calls ( http://arxiv.org/abs/2204.12951v2 )

ライセンス: CC BY 4.0
Abedelkadir Asi, Song Wang, Roy Eisenstadt, Dean Geckt, Yarin Kuper, Yi Mao, Royi Ronen(参考訳) 営業電話の要約は、営業担当者が手動で行う日常業務である。 本稿では,ユーザエージェント設定用に微調整された生成モデルと,対話型要約キュレーションプロセスのためのヒューマン・イン・ザ・ループユーザエクスペリエンスを組み合わせた生産システムを提案する。 長い入力対話,コンテンツ検証,ラベル付きデータの欠如,品質評価を含む実世界における対話要約タスクの難解な側面について述べる。 本稿では,gpt-3をオフラインデータラベラーとして活用し,データ不足のトレーニングと,産業環境でのプライバシ制約に対応する方法を示す。 実験は、公開データセットの要約とコンテンツ検証タスクに取り組む際に、モデルによる大幅な改善を示しています。

Summarizing sales calls is a routine task performed manually by salespeople. We present a production system which combines generative models fine-tuned for customer-agent setting, with a human-in-the-loop user experience for an interactive summary curation process. We address challenging aspects of dialogue summarization task in a real-world setting including long input dialogues, content validation, lack of labeled data and quality evaluation. We show how GPT-3 can be leveraged as an offline data labeler to handle training data scarcity and accommodate privacy constraints in an industrial setting. Experiments show significant improvements by our models in tackling the summarization and content validation tasks on public datasets.
翻訳日:2022-04-29 12:19:03 公開日:2022-04-28
# (参考訳) NLU++:タスク指向対話における自然言語理解のための汎用データセット

NLU++: A Multi-Label, Slot-Rich, Generalisable Dataset for Natural Language Understanding in Task-Oriented Dialogue ( http://arxiv.org/abs/2204.13021v2 )

ライセンス: CC BY 4.0
I\~nigo Casanueva, Ivan Vuli\'c, Georgios Spithourakis, Pawe{\l} Budzianowski(参考訳) 本稿では,タスク指向対話(ToD)システムにおける自然言語理解(NLU)のための新しいデータセットであるNLU++について述べる。 NLU++は2つのドメイン(BANKINGとHOTELS)に分割されており、現在の一般的なNLUデータセットよりもいくつかの重要な改善が行われている。 1) NLU++は、複雑なユーザ目標を伝達する複雑なインテントに結合可能なインテントモジュールのアイデアを導入し、検証し、よりきめ細かいスロットセットと組み合わせることで、多数の挑戦的なマルチインテント文で、きめ細かいドメインオントロジーを提供します。 2)オントロジーはドメイン固有およびジェネリック(ドメイン普遍)のインテントモジュールに分割され、ドメイン間で重なり合い、注釈付き例のクロスドメイン再利用性が促進される。 3)データセットの設計は産業用ToDシステムで見られる問題にインスパイアされている。 4)対話NLUの専門家によって収集,フィルタリング,慎重に注釈付けされ,高品質な注釈付きデータが得られる。 最後に、NLU++上で現在最先端のNLUモデルをベンチマークし、特に低データ状態におけるデータセットの難易度、'インテリジェントなモジュール化'の有効性を示し、ToD NLUに関するさらなる研究を呼びかける。

We present NLU++, a novel dataset for natural language understanding (NLU) in task-oriented dialogue (ToD) systems, with the aim to provide a much more challenging evaluation environment for dialogue NLU models, up to date with the current application and industry requirements. NLU++ is divided into two domains (BANKING and HOTELS) and brings several crucial improvements over current commonly used NLU datasets. 1) NLU++ provides fine-grained domain ontologies with a large set of challenging multi-intent sentences, introducing and validating the idea of intent modules that can be combined into complex intents that convey complex user goals, combined with finer-grained and thus more challenging slot sets. 2) The ontology is divided into domain-specific and generic (i.e., domain-universal) intent modules that overlap across domains, promoting cross-domain reusability of annotated examples. 3) The dataset design has been inspired by the problems observed in industrial ToD systems, and 4) it has been collected, filtered and carefully annotated by dialogue NLU experts, yielding high-quality annotated data. Finally, we benchmark a series of current state-of-the-art NLU models on NLU++; the results demonstrate the challenging nature of the dataset, especially in low-data regimes, the validity of `intent modularisation', and call for further research on ToD NLU.
翻訳日:2022-04-29 12:07:13 公開日:2022-04-28
# (参考訳) Bisimulationはゴール・コンディション強化学習におけるアナロジーを作る

Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2204.13060v2 )

ライセンス: CC BY-SA 4.0
Philippe Hansen-Estruch, Amy Zhang, Ashvin Nair, Patrick Yin, Sergey Levine(参考訳) リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。 伝統的に、目標条件付きrlでは、エージェントは到達しようとする正確な目標を提供する。 しかし、タスクを実行する前に目標の設定を知ることは現実的ではないことが多い。 よりスケーラブルなフレームワークによって、エージェントに類似したタスクの例を提供し、エージェントに現在の状態に対する目標を推測させることができます。 我々は,機能的等分散を捉え,新たな目標を達成するためのスキルの再利用を可能にする,goal-conditioned bisimulationと呼ばれる新しい状態抽象化を提案する。 この抽象化の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。 さらに,この学習表現は,ゴール条件付きタスクだけでなく,状態のみの報酬関数によって記述される下流タスクにも適していることを示す。 ビデオはhttps://sites.google.com/view/gc-bisimulationで見ることができる。

Building generalizable goal-conditioned agents from rich observations is a key to reinforcement learning (RL) solving real world problems. Traditionally in goal-conditioned RL, an agent is provided with the exact goal they intend to reach. However, it is often not realistic to know the configuration of the goal before performing a task. A more scalable framework would allow us to provide the agent with an example of an analogous task, and have the agent then infer what the goal should be for its current state. We propose a new form of state abstraction called goal-conditioned bisimulation that captures functional equivariance, allowing for the reuse of skills to achieve new goals. We learn this representation using a metric form of this abstraction, and show its ability to generalize to new goals in simulation manipulation tasks. Further, we prove that this learned representation is sufficient not only for goal conditioned tasks, but is amenable to any downstream task described by a state-only reward function. Videos can be found at https://sites.google.com/view/gc-bisimulation.
翻訳日:2022-04-29 11:41:16 公開日:2022-04-28
# 文法誘導型遺伝的プログラミングによる一般化型マルチグリッド型ヘルムホルツプリコンディショナーの開発

Evolving Generalizable Multigrid-Based Helmholtz Preconditioners with Grammar-Guided Genetic Programming ( http://arxiv.org/abs/2204.12846v2 )

ライセンス: Link先を確認
Jonas Schmitt, Harald K\"ostler(参考訳) 非定値ヘルムホルツ方程式の解法は多くの物理現象の理解に不可欠であるだけでなく、数値的な手法の応用を成功させるためには、非常に難しいベンチマーク問題でもある。 本稿では,多目的文法誘導型遺伝的プログラミングを用いたヘルムホルツ問題に対する効率的事前条件付き反復解法を提案する。 本手法は,各離散化レベルでの演算列を調整したマルチグリッドプリコンディショナの構築を可能にする,新しい文脈自由文法に基づいている。 与えられた領域をよく一般化する解法を見出すために,次なる問題難易度適応のカスタム手法を提案し,不調な問題インスタンスに対するプリコンディショナーの効率性を評価する。 本研究では,2次元不定値ヘルムホルツ問題に対するマルチグリッド型プリコンディショナーを進化させ,100万以上の未知数を持つ線形方程式系まで,複数のウェーブナンバーの人間が設計した手法に匹敵する手法の有効性を示す。

Solving the indefinite Helmholtz equation is not only crucial for the understanding of many physical phenomena but also represents an outstandingly-difficult benchmark problem for the successful application of numerical methods. Here we introduce a new approach for evolving efficient preconditioned iterative solvers for Helmholtz problems with multi-objective grammar-guided genetic programming. Our approach is based on a novel context-free grammar, which enables the construction of multigrid preconditioners that employ a tailored sequence of operations on each discretization level. To find solvers that generalize well over the given domain, we propose a custom method of successive problem difficulty adaption, in which we evaluate a preconditioner's efficiency on increasingly ill-conditioned problem instances. We demonstrate our approach's effectiveness by evolving multigrid-based preconditioners for a two-dimensional indefinite Helmholtz problem that outperform several human-designed methods for different wavenumbers up to systems of linear equations with more than a million unknowns.
翻訳日:2022-04-29 11:08:48 公開日:2022-04-28
# エンド・ツー・エンドオーディオが復活:効率的な音声分類ネットワークに向けた強化

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network ( http://arxiv.org/abs/2204.11479v3 )

ライセンス: Link先を確認
Avi Gazneli, Gadi Zimerman, Tal Ridnik, Gilad Sharir, Asaf Noy(参考訳) 効率的なアーキテクチャとエンドツーエンドの画像分類タスクの多くの拡張が提案され、よく研究されているが、オーディオ分類の最先端の技術は、大きなデータセットから微調整された大きなアーキテクチャとともに、オーディオ信号の多数の表現に依存している。 音声のライトウェイトな特性と新しい音声拡張を利用することで、強力な一般化能力を持つ効率的なエンドツーエンドネットワークを提供することができた。 各種音響分類セットの実験は, 各種設定における最先端結果の達成により, 提案手法の有効性とロバスト性を示す。 公開コードは利用可能である。

While efficient architectures and a plethora of augmentations for end-to-end image classification tasks have been suggested and heavily investigated, state-of-the-art techniques for audio classifications still rely on numerous representations of the audio signal together with large architectures, fine-tuned from large datasets. By utilizing the inherited lightweight nature of audio and novel audio augmentations, we were able to present an efficient end-to-end network with strong generalization ability. Experiments on a variety of sound classification sets demonstrate the effectiveness and robustness of our approach, by achieving state-of-the-art results in various settings. Public code will be available.
翻訳日:2022-04-29 11:08:31 公開日:2022-04-28
# ディープラーニングは、オブジェクトの詳細を格納する人間の視覚の長期記憶の効率に合致するか?

Can deep learning match the efficiency of human visual long-term memory in storing object details? ( http://arxiv.org/abs/2204.13061v2 )

ライセンス: Link先を確認
A. Emin Orhan(参考訳) 心理学の古典的な実験で実証されたように、人間は単一の露出後も、詳細な視覚情報を長期記憶に保存する能力が非常に大きい。 例えば、Standing (1973) は、人間が認識テストの数日前に一度だけ見た何千もの写真を高精度に認識できることを示した。 ディープラーニングでは、モデルに新しい情報を組み込む主要な方法は、モデルのパラメータ空間における勾配降下である。 本稿では,人間の視覚的長期記憶の効率と勾配勾配による深層学習が一致し,より厳密な定量的比較に新たな情報を組み込むことができるかどうかを問う。 最良の場合であっても、勾配降下による学習モデルでは、人間がたった1回の露出で達成した認識メモリ性能に到達するために、同じ視覚材料に約10の露出を必要とするように見える。 事前トレーニングとより大きなモデルサイズによって引き起こされる事前知識はパフォーマンスを向上させるが、これらの改善は1回の露光であまり目立たない(改善が明らかになるにはいくつかの露出が必要)ため、事前トレーニングデータサイズやモデルサイズをスケールアップするだけでは、モデルが人間のレベルのメモリ効率に達するには不十分である可能性がある。

Humans have a remarkably large capacity to store detailed visual information in long-term memory even after a single exposure, as demonstrated by classic experiments in psychology. For example, Standing (1973) showed that humans could recognize with high accuracy thousands of pictures that they had seen only once a few days prior to a recognition test. In deep learning, the primary mode of incorporating new information into a model is through gradient descent in the model's parameter space. This paper asks whether deep learning via gradient descent can match the efficiency of human visual long-term memory to incorporate new information in a rigorous, head-to-head, quantitative comparison. We answer this in the negative: even in the best case, models learning via gradient descent appear to require approximately 10 exposures to the same visual materials in order to reach a recognition memory performance humans achieve after only a single exposure. Prior knowledge induced via pretraining and bigger model sizes improve performance, but these improvements are not very visible after a single exposure (it takes a few exposures for the improvements to become apparent), suggesting that simply scaling up the pretraining data size or model size might not be enough for the model to reach human-level memory efficiency.
翻訳日:2022-04-29 11:08:19 公開日:2022-04-28
# (参考訳) 借用学習 -- 知識グラフ補完のための無補間エンティティペアのための関係表現

Learning to Borrow -- Relation Representation for Without-Mention Entity-Pairs for Knowledge Graph Completion ( http://arxiv.org/abs/2204.13097v2 )

ライセンス: CC BY 4.0
Huda Hakami, Mona Hakami, Angrosh Mandya and Danushka Bollegala(参考訳) テキストコーパスを知識グラフ(KG)と統合して知識グラフ埋め込み(KGE)を改善する作業は,テキストコーパス内の文に共起するエンティティに対して,優れたパフォーマンスを得ることができた。 このような文(エンティティペアのテキスト参照)は、2つのエンティティ間でLexicalized Dependency Paths(LDP)として表現される。 しかし、LPPを用いて単一の文で共起しないエンティティ間の関係を表現することは不可能である。 本稿では、コーパス中の文(つまり、エンティティペア)に共起するエンティティペア(つまり、エンティティペア)からldpsを借用して、コーパス内の任意の文に共起しないエンティティペア(つまり、エンティティペアに言及せずに)を表現する手法を提案する。 本稿では,事前学習されたエンティティ埋め込みと文脈化されたldp表現を用いて,ldpの適合性を評価するための教師付き借用方法であるsuperborrowを提案する。 実験の結果, SuperBorrow は TransE, DistMult, ComplEx, RotatE など, 広く使われている複数の KGE 手法のリンク予測性能を改善した。

Prior work on integrating text corpora with knowledge graphs (KGs) to improve Knowledge Graph Embedding (KGE) have obtained good performance for entities that co-occur in sentences in text corpora. Such sentences (textual mentions of entity-pairs) are represented as Lexicalised Dependency Paths (LDPs) between two entities. However, it is not possible to represent relations between entities that do not co-occur in a single sentence using LDPs. In this paper, we propose and evaluate several methods to address this problem, where we borrow LDPs from the entity pairs that co-occur in sentences in the corpus (i.e. with mention entity pairs) to represent entity pairs that do not co-occur in any sentence in the corpus (i.e. without mention entity pairs). We propose a supervised borrowing method, SuperBorrow, that learns to score the suitability of an LDP to represent a without-mention entity pair using pre-trained entity embeddings and contextualised LDP representations. Experimental results show that SuperBorrow improves the link prediction performance of multiple widely-used prior KGE methods such as TransE, DistMult, ComplEx and RotatE.
翻訳日:2022-04-29 11:07:27 公開日:2022-04-28
# 複合匿名遅延フィードバックを用いた境界メモリ逆バンディット

Bounded Memory Adversarial Bandits with Composite Anonymous Delayed Feedback ( http://arxiv.org/abs/2204.12764v2 )

ライセンス: Link先を確認
Zongqi Wan, Xiaoming Sun, Jialin Zhang(参考訳) 複合匿名遅延フィードバックによる逆バンディット問題について検討した。 この設定では、アクションの損失は$d$コンポーネントに分割され、アクションが選択された後に連続するラウンドに展開される。 そして各ラウンドにおいて、アルゴリズムは最新の$d$ラウンドからの損失の集計を観察する。 先行研究は、難易度の高い敵の設定に焦点をあて、難易度の高い非公開設定を調査する。 損失シーケンスがメモリ境界である場合でも、非公開設定が$\Omega(T)$疑似後悔を引き起こすことを示す。 しかし,損失シーケンスがメモリ境界であるという仮定で,多くの逆バンディット問題に対して,$o(T)$ポリシーを後悔するラッパーアルゴリズムを提案する。 特に、$k$-armed banditとbandit convexの最適化には、$\mathcal{o}(t^{2/3})$ policy regret boundがあります。 また、$K$-armed banditの一致した下限も証明する。 我々の下限は、損失シーケンスが不明確だが遅延は未公表である場合でも機能する。 これは \cite{wang2021adaptive} で提案された開問題に答え、非公約遅延が$\tilde{\Omega}(T^{2/3})$ regret を発生させるのに十分であることを示す。

We study the adversarial bandit problem with composite anonymous delayed feedback. In this setting, losses of an action are split into $d$ components, spreading over consecutive rounds after the action is chosen. And in each round, the algorithm observes the aggregation of losses that come from the latest $d$ rounds. Previous works focus on oblivious adversarial setting, while we investigate the harder non-oblivious setting. We show non-oblivious setting incurs $\Omega(T)$ pseudo regret even when the loss sequence is bounded memory. However, we propose a wrapper algorithm which enjoys $o(T)$ policy regret on many adversarial bandit problems with the assumption that the loss sequence is bounded memory. Especially, for $K$-armed bandit and bandit convex optimization, we have $\mathcal{O}(T^{2/3})$ policy regret bound. We also prove a matching lower bound for $K$-armed bandit. Our lower bound works even when the loss sequence is oblivious but the delay is non-oblivious. It answers the open problem proposed in \cite{wang2021adaptive}, showing that non-oblivious delay is enough to incur $\tilde{\Omega}(T^{2/3})$ regret.
翻訳日:2022-04-29 10:36:18 公開日:2022-04-28
# ゼロショットロジット調整

Zero-Shot Logit Adjustment ( http://arxiv.org/abs/2204.11822v2 )

ライセンス: Link先を確認
Dubing Chen, Yuming Shen, Haofeng Zhang, Philip H.S. Torr(参考訳) 意味記述に基づく汎用ゼロショット学習(GZSL)は、テストフェーズにおける新しいクラスを認識する上での課題である。 生成モデルの開発により、現在のGZSL技術は意味と視覚のリンクをさらに探究し、ジェネレータと分類器を含む2段階の形式を決定できる。 しかし、既存の世代ベースの手法は、分類器の改善を無視しながらジェネレータの効果を高めることに重点を置いている。 本稿では,生成した疑似未発見試料の2つの性質,バイアスと均質性について最初に解析する。 次に,評価指標をバック導出するために変分ベイズ推定を行い,見掛けたクラスと見当たらないクラスのバランスを反映する。 導出の結果,上記の2つの特性を,ロジット調整による見知らぬ事前学習として分類器訓練に取り入れた。 Zero-Shot Logit Adjustmentはさらに、セマンティックベースの分類器を世代ベースのGZSLで有効にしている。 提案手法は,基本生成器と組み合わせることで最先端技術を実現し,様々な生成型ゼロショット学習フレームワークを改良できることを示す。 私たちのコードはhttps://github.com/cdb342/IJCAI-2022-ZLAで公開されています。

Semantic-descriptor-based Generalized Zero-Shot Learning (GZSL) poses challenges in recognizing novel classes in the test phase. The development of generative models enables current GZSL techniques to probe further into the semantic-visual link, culminating in a two-stage form that includes a generator and a classifier. However, existing generation-based methods focus on enhancing the generator's effect while neglecting the improvement of the classifier. In this paper, we first analyze of two properties of the generated pseudo unseen samples: bias and homogeneity. Then, we perform variational Bayesian inference to back-derive the evaluation metrics, which reflects the balance of the seen and unseen classes. As a consequence of our derivation, the aforementioned two properties are incorporated into the classifier training as seen-unseen priors via logit adjustment. The Zero-Shot Logit Adjustment further puts semantic-based classifiers into effect in generation-based GZSL. Our experiments demonstrate that the proposed technique achieves state-of-the-art when combined with the basic generator, and it can improve various generative zero-shot learning frameworks. Our codes are available on https://github.com/cdb342/IJCAI-2022-ZLA.
翻訳日:2022-04-29 10:35:57 公開日:2022-04-28
# コンタクトリッチマニピュレーションの高速化ロボット学習 : カリキュラム学習研究

Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum Learning Study ( http://arxiv.org/abs/2204.12844v2 )

ライセンス: Link先を確認
Cristian C. Beltran-Hernandez, Damien Petit, Ixchel G. Ramirez-Alpizar, Kensuke Harada(参考訳) 強化学習(RL)パラダイムは、ロボットタスクの自動化に不可欠なツールである。 RLの進歩にもかかわらず、高価な大量のロボットが環境と対話する必要があるため、業界ではまだ広く採用されていない。 カリキュラム学習(cl)は、学習を促進するために提案されている。 しかし、ほとんどの研究は、ビデオゲームからロボット玩具タスクまで、シミュレーション環境でのみ評価されている。 本稿では,Domain Randomization(DR)と組み合わせたカリキュラム学習に基づく,コンタクトリッチな操作タスクのロボット学習の高速化に関する研究を行う。 挿入タスクのような位置制御ロボットを用いて複雑な産業組み立てタスクに取り組む。 そこで本研究では,本研究では,前回の研究に比較して,トレーニング時間(例)の5分の1未満で,drのみを使用する(clは使用しない)手法を著しく上回る手法を提案する。 また,玩具作業によるシミュレーションでのみトレーニングを行う場合においても,実世界ロボットに移行可能な方針を学習できることを示した。 学習した政策は、実世界の複雑な産業用挿入作業で最大86\%の成功率を達成し、訓練中には見られなかった(許容値$\pm 0.01~mm$)。

The Reinforcement Learning (RL) paradigm has been an essential tool for automating robotic tasks. Despite the advances in RL, it is still not widely adopted in the industry due to the need for an expensive large amount of robot interaction with its environment. Curriculum Learning (CL) has been proposed to expedite learning. However, most research works have been only evaluated in simulated environments, from video games to robotic toy tasks. This paper presents a study for accelerating robot learning of contact-rich manipulation tasks based on Curriculum Learning combined with Domain Randomization (DR). We tackle complex industrial assembly tasks with position-controlled robots, such as insertion tasks. We compare different curricula designs and sampling approaches for DR. Based on this study, we propose a method that significantly outperforms previous work, which uses DR only (No CL is used), with less than a fifth of the training time (samples). Results also show that even when training only in simulation with toy tasks, our method can learn policies that can be transferred to the real-world robot. The learned policies achieved success rates of up to 86\% on real-world complex industrial insertion tasks (with tolerances of $\pm 0.01~mm$) not seen during the training.
翻訳日:2022-04-29 10:35:39 公開日:2022-04-28
# 弱教師付き視聴覚映像解析のためのジョイントモーダルラベル雑音化

Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2204.11573v2 )

ライセンス: Link先を確認
Haoyue Cheng, Zhaoyang Liu, Hang Zhou, Chen Qian, Wayne Wu, Limin Wang(参考訳) 本稿では,各モーダリティに属するすべてのイベントを認識し,その時間的境界を局所化することを目的とした,弱教師付き音声映像解析タスクに注目した。 ビデオイベントを示すラベル全体だけがトレーニング用に提供されるため、このタスクは難しい。 しかし、イベントはラベル付けされるが、モダリティの1つには表示されないため、モダリティ特有のノイズラベル問題が発生する。 ネットワークがまずクリーンサンプルを学習する傾向にあり,少なくとも1つのモードでラベル付きイベントが現れるという2つの観察結果から,モーダリティ固有のノイズラベルを動的に識別・除去するためのトレーニング戦略を提案する。 具体的には、各モーダルにおいて各インスタンスの損失を個別にソートし、モーダル内損失とモーダル間損失の関係に応じてノイズサンプルを選択する。 また,信頼度が予め設定された閾値未満のインスタンスの比率を計算することで,簡易かつ有効な雑音比推定法を提案する。 本手法は,従来の技術状況(例えば,セグメントレベルの視覚測定値の60.0%から63.8%)を大きく改善し,アプローチの有効性を実証する。

This paper focuses on the weakly-supervised audio-visual video parsing task, which aims to recognize all events belonging to each modality and localize their temporal boundaries. This task is challenging because only overall labels indicating the video events are provided for training. However, an event might be labeled but not appear in one of the modalities, which results in a modality-specific noisy label problem. Motivated by two observations that networks tend to learn clean samples first and that a labeled event would appear in at least one modality, we propose a training strategy to identify and remove modality-specific noisy labels dynamically. Specifically, we sort the losses of all instances within a mini-batch individually in each modality, then select noisy samples according to relationships between intra-modal and inter-modal losses. Besides, we also propose a simple but valid noise ratio estimation method by calculating the proportion of instances whose confidence is below a preset threshold. Our method makes large improvements over the previous state of the arts (e.g., from 60.0% to 63.8% in segment-level visual metric), which demonstrates the effectiveness of our approach.
翻訳日:2022-04-29 10:35:23 公開日:2022-04-28
# DearKD:ビジョントランスのためのデータ効率の良い早期知識蒸留

DearKD: Data-Efficient Early Knowledge Distillation for Vision Transformers ( http://arxiv.org/abs/2204.12997v2 )

ライセンス: Link先を確認
Xianing Chen, Qiong Cao, Yujie Zhong, Jing Zhang, Shenghua Gao, Dacheng Tao(参考訳) トランスフォーマーは、自己着脱を伴う強力なモデリング能力のため、コンピュータビジョンにうまく適用できる。 しかし、トランスの優れた性能は、膨大なトレーニング画像に大きく依存する。 これにより、データ効率の良いトランスソリューションが緊急に必要となる。 本研究では,変換器が必要とするデータ効率を改善するために,DearKDと呼ばれる早期知識蒸留フレームワークを提案する。 私たちのDearKDは、2段階のフレームワークで、まずCNNの初期中間層から誘導バイアスを蒸留し、その後、蒸留なしでトレーニングによってフルプレイする。 さらに、DearKDは、実際の画像が利用できない極端なデータフリーケースにも容易に適用できます。 そこで本研究では,deepinversionに基づく境界保存型領域内損失法を提案する。 ImageNet、部分的なImageNet、データフリー設定、その他の下流タスクに関する大規模な実験は、そのベースラインと最先端メソッドよりもDearKDの方が優れていることを証明している。

Transformers are successfully applied to computer vision due to their powerful modeling capacity with self-attention. However, the excellent performance of transformers heavily depends on enormous training images. Thus, a data-efficient transformer solution is urgently needed. In this work, we propose an early knowledge distillation framework, which is termed as DearKD, to improve the data efficiency required by transformers. Our DearKD is a two-stage framework that first distills the inductive biases from the early intermediate layers of a CNN and then gives the transformer full play by training without distillation. Further, our DearKD can be readily applied to the extreme data-free case where no real images are available. In this case, we propose a boundary-preserving intra-divergence loss based on DeepInversion to further close the performance gap against the full-data counterpart. Extensive experiments on ImageNet, partial ImageNet, data-free setting and other downstream tasks prove the superiority of DearKD over its baselines and state-of-the-art methods.
翻訳日:2022-04-29 10:35:01 公開日:2022-04-28