このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211015となっている論文です。

PDF登録状況(公開日: 20211015)

TitleAuthorsAbstract論文公表日・翻訳日
# ToM2C:ターゲット指向多エージェントコミュニケーションと心の理論との連携

ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind ( http://arxiv.org/abs/2111.09189v1 )

ライセンス: Link先を確認
Yuanfei Wang, Fangwei Zhong, Jing Xu, Yizhou Wang(参考訳) 他者の精神状態を予測できることは、効果的な社会的相互作用の重要な要因である。 また、エージェントがコミュニケーションと協力を要求される分散マルチエージェントシステムにおいても重要である。 本稿では,このような社会的認知能力,すなわち心の理論(ToM)を導入し,社会的に知能なエージェントを構築,効果的にコミュニケーションし,課題を達成する。 ToMでは、各エージェントは、その(局所的な)観察に基づいて、他者の精神状態や意図を推測することができる。 推定された状態に基づいて、エージェントは"when"と"whom"を選択し、その意図を共有する。 観察、推測、受信された情報により、エージェントはサブゴールを決定し、チーム間で合意に達する。 最終的に、低レベルの実行者は独立してサブゴールを達成するために原始的なアクションを取る。 目標指向のマルチエージェントタスクである協調ナビゲーションとマルチセンサーターゲットカバレッジの2つの典型的なタスクでそのアイデアを実証する。 実験の結果,提案手法は報奨とコミュニケーションの効率性に優れるだけでなく,環境の異なるスケールで優れた一般化を示すことがわかった。

Being able to predict the mental states of others is a key factor to effective social interaction. It is also crucial for distributed multi-agent systems, where agents are required to communicate and cooperate. In this paper, we introduce such an important social-cognitive skill, i.e. Theory of Mind (ToM), to build socially intelligent agents who are able to communicate and cooperate effectively to accomplish challenging tasks. With ToM, each agent is capable of inferring the mental states and intentions of others according to its (local) observation. Based on the inferred states, the agents decide "when" and with "whom" to share their intentions. With the information observed, inferred, and received, the agents decide their sub-goals and reach a consensus among the team. In the end, the low-level executors independently take primitive actions to accomplish the sub-goals. We demonstrate the idea in two typical target-oriented multi-agent tasks: cooperative navigation and multi-sensor target coverage. The experiments show that the proposed model not only outperforms the state-of-the-art methods on reward and communication efficiency, but also shows good generalization across different scales of the environment.
翻訳日:2021-11-21 15:06:50 公開日:2021-10-15
# (参考訳) 非構造化医用文書における名前付きエンティティ認識 [全文訳有]

Named Entity Recognition in Unstructured Medical Text Documents ( http://arxiv.org/abs/2110.15732v1 )

ライセンス: CC BY-SA 4.0
Cole Pearson, Naeem Seliya, Rushit Dave(参考訳) 医師は、患者が永久的または非永続的な怪我または病気になる可能性があるかどうかを判断するなど、患者の医療状態に関する法律裁判所に専門家の意見を提供する。 ime(independent medical examination)レポートは、医師の専門知識に基づいて、患者の健康状態に関する医師の医療意見を要約する。 IMEレポートには、さらなる研究が行われる前に削除またはランダムにエンコードする必要がある個人的かつ機密性の高い情報(Personally Identible Information, PII)が含まれている。 本研究は,米国における個人診療の整形外科である。 本研究の目的は、医師が作成したIMEレポートから、名前付きエンティティ認識(NER)を用いてPII情報を識別・エンコードすることである。 我々は,OpenNLP と spaCy の NER ツールキットを2つの自由な自然言語処理プラットフォームに適用し,各モデル共通デフォルトパラメータを用いたランダムに選択された IME レポートの試行において,PII の5つのカテゴリを識別する精度,リコール,f 測定性能を比較した。 両プラットフォームとも非識別で高い性能(f-measure > 0.9)を達成し,70~30の列車テストデータスプリットでトレーニングしたspacyモデルが最もパフォーマンスが高いことがわかった。

Physicians provide expert opinion to legal courts on the medical state of patients, including determining if a patient is likely to have permanent or non-permanent injuries or ailments. An independent medical examination (IME) report summarizes a physicians medical opinion about a patients health status based on the physicians expertise. IME reports contain private and sensitive information (Personally Identifiable Information or PII) that needs to be removed or randomly encoded before further research work can be conducted. In our study the IME is an orthopedic surgeon from a private practice in the United States. The goal of this research is to perform named entity recognition (NER) to identify and subsequently remove/encode PII information from IME reports prepared by the physician. We apply the NER toolkits of OpenNLP and spaCy, two freely available natural language processing platforms, and compare their precision, recall, and f-measure performance at identifying five categories of PII across trials of randomly selected IME reports using each models common default parameters. We find that both platforms achieve high performance (f-measure > 0.9) at de-identification and that a spaCy model trained with a 70-30 train-test data split is most performant.
翻訳日:2021-11-07 15:27:59 公開日:2021-10-15
# (参考訳) 生活支援のための予測駆動型適応アーキテクチャ [全文訳有]

Anticipation-driven Adaptive Architecture for Assisted Living ( http://arxiv.org/abs/2110.15387v1 )

ライセンス: CC BY 4.0
Mihai Nadin, Asma Naz(参考訳) 予測表現は人間のパフォーマンスの基盤となる。 医学的状態、特に老化は予測行動の低下をもたらす。 損失を軽減するために、まだ利用可能なリソース(能力)をエンゲージする手段が提供される。 特に、予測駆動適応環境は、医療だけでなく、そのような支援を求める人々のための生活支援にも有用である。 これらの適応的な環境は、依存関係を作成する代わりに独立したアクションを刺激するために、個別化され、個別化できると考えられる。

Anticipatory expression underlies human performance. Medical conditions and, especially, aging result in diminished anticipatory action. In order to mitigate the loss, means for engaging still available resources (capabilities) can be provided. In particular, anticipation-driven adaptive environments could be beneficial in medical care, as well as in assisted living for those seeking such assistance. These adaptive environments are conceived to be individualized and individualizable, in order to stimulate independent action instead of creating dependencies.
翻訳日:2021-11-07 15:14:58 公開日:2021-10-15
# 変圧器モデルによるジェンダーバイアスの検出:BERTを事例として

Detecting Gender Bias in Transformer-based Models: A Case Study on BERT ( http://arxiv.org/abs/2110.15733v1 )

ライセンス: Link先を確認
Bingbing Li, Hongwu Peng, Rajat Sainju, Junhuan Yang, Lei Yang, Yueying Liang, Weiwen Jiang, Binghui Wang, Hang Liu, and Caiwen Ding(参考訳) 本稿では,変圧器モデルに対するアテンションマップを利用した新しい性別バイアス検出手法を提案する。 私たち 1)注意度に応じて性別と職業の異なる関係度を比較することにより、直感的なジェンダーバイアス判定方法を与える。 2)注意モジュールの修正によるジェンダーバイアス検出器の設計 3)ジェンダーバイアス検出器をモデルの異なる位置に挿入して、内部のジェンダーバイアスフローを提示する。 4) bertプリトレーニングデータセットであるwikipedia全体をスキャンすることで、一貫したジェンダーバイアスの結論を導きます。 私たちはそれを観察する 1)注目行列WqとWkは、他のモジュール(埋め込み層を含む)よりもはるかに多くの性バイアスをもたらす。 2) バイアス度はモデルの内部で周期的に変化する(注意層(注意層Q,K,V,及び注意層(全接続層,残留接続,及び層正規化モジュールを含む)は、平均的な注意がバイアスを減少させる一方で、性別バイアスを増大させる。

In this paper, we propose a novel gender bias detection method by utilizing attention map for transformer-based models. We 1) give an intuitive gender bias judgement method by comparing the different relation degree between the genders and the occupation according to the attention scores, 2) design a gender bias detector by modifying the attention module, 3) insert the gender bias detector into different positions of the model to present the internal gender bias flow, and 4) draw the consistent gender bias conclusion by scanning the entire Wikipedia, a BERT pretraining dataset. We observe that 1) the attention matrices, Wq and Wk introduce much more gender bias than other modules (including the embedding layer) and 2) the bias degree changes periodically inside of the model (attention matrix Q, K, V, and the remaining part of the attention layer (including the fully-connected layer, the residual connection, and the layer normalization module) enhance the gender bias while the averaged attentions reduces the bias).
翻訳日:2021-11-07 11:42:55 公開日:2021-10-15
# (参考訳) 1次元結晶格子モデルにおけるデータ駆動型固有局所モードの検出と分類 [全文訳有]

Data-driven intrinsic localized mode detection and classification in one-dimensional crystal lattice model ( http://arxiv.org/abs/2110.12870v1 )

ライセンス: CC BY 4.0
J\=anis Baj\=ars and Filips Kozirevs(参考訳) 本研究では,局所サンプルデータから1次元結晶格子波を分類するサポートベクターマシン分類アルゴリズムを提案する。 粒子変位,モータ,エネルギー密度の3つの異なる学習データセットを考察した。 分類アルゴリズムの効率は、主成分分析と局所線形埋め込みの2次元化によってさらに向上している。 分類器のロバスト性を調査し,実証した。 2つの局所定常呼吸解,1つの定常呼吸解,および2つの移動呼吸衝突を考慮した3つの数値シミュレーションにおいて,局所固有モードを検出するアルゴリズムの開発に成功した。

In this work we propose Support Vector Machine classification algorithms to classify one-dimensional crystal lattice waves from locally sampled data. Three different learning datasets of particle displacements, momenta and energy density values are considered. Efficiency of the classification algorithms are further improved by two dimensionality reduction techniques: Principal Component Analysis and Locally Linear Embedding. Robustness of classifiers are investigated and demonstrated. Developed algorithms are successfully applied to detect localized intrinsic modes in three numerical simulations considering a case of two localized stationary breather solutions, a single stationary breather solution in noisy background and two mobile breather collision.
翻訳日:2021-11-01 09:02:19 公開日:2021-10-15
# 法律の臭い: 法的ドラフトにおける問題パターンの定義と検出

Law Smells: Defining and Detecting Problematic Patterns in Legal Drafting ( http://arxiv.org/abs/2110.11984v1 )

ライセンス: Link先を確認
Corinna Coupette, Dirk Hartung, Janis Beckedorf, Maximilian B\"other, Daniel Martin Katz(参考訳) コードの臭いというコンピュータ科学の概念に基づいて、法律の臭い、すなわち法の理解性と保守性に脅威をもたらす法的テキストのパターンの研究を開始する。 例えば、重複した句、長い要素、大きな参照木、あいまいな構文、自然言語への執着という5つの直感的な法則の臭いで、包括的な法則の臭いの分類法を開発します。 この分類法は、いつ検出できるか、関連する法律のどの側面、どのように発見できるかによって、法律の臭いを分類する。 我々は,法律の臭いを識別するためのテキストベースおよびグラフベースの手法を導入し,米国法典をテストケースとして使用し,その実用性を確認した。 本研究は, 法と計算機科学の交点における未熟な領域に着目し, 計算的法的起草の可能性を強調しながら, ソフトウェア工学のアイデアを活用し, 法コードの質を評価し, 向上させる方法を示す。

Building on the computer science concept of code smells, we initiate the study of law smells, i.e., patterns in legal texts that pose threats to the comprehensibility and maintainability of the law. With five intuitive law smells as running examples - namely, duplicated phrase, long element, large reference tree, ambiguous syntax, and natural language obsession -, we develop a comprehensive law smell taxonomy. This taxonomy classifies law smells by when they can be detected, which aspects of law they relate to, and how they can be discovered. We introduce text-based and graph-based methods to identify instances of law smells, confirming their utility in practice using the United States Code as a test case. Our work demonstrates how ideas from software engineering can be leveraged to assess and improve the quality of legal code, thus drawing attention to an understudied area in the intersection of law and computer science and highlighting the potential of computational legal drafting.
翻訳日:2021-10-31 09:26:50 公開日:2021-10-15
# オイラー特性を用いた教師なしおよび教師なしパターン認識によるロバスト物理発見

Robust physics discovery via supervised and unsupervised pattern recognition using the Euler characteristic ( http://arxiv.org/abs/2110.13610v1 )

ライセンス: Link先を確認
Zhiming Zhang and Yongming Liu(参考訳) 機械学習アプローチは、測定データから力学系の基礎となる物理を発見するために広く用いられている。 しかし、既存のアプローチは、特に測定されたデータが大きなノイズを含む場合、堅牢性に欠ける。 頑丈さの欠如は、主に使用済みの特徴の表現力の不足に起因する。 その結果、観測システムを管理する本質的なメカニズムを正確に識別することはできない。 本研究では,複雑なデータ,すなわちオイラー特性(EC)に効率的なトポロジカルディスクリプタを用い,動的システムから収集した時空間データを特徴付け,基礎となる物理を明らかにする。 教師なし多様体学習と教師なし分類の結果は、ECが異なるが類似の統治モデルを持つシステムを効率的に区別するために利用できることを示している。 また,ecを用いた機械学習アプローチは,物理発見の分散回帰手法の信頼性を向上できることを実証する。

Machine learning approaches have been widely used for discovering the underlying physics of dynamical systems from measured data. Existing approaches, however, still lack robustness, especially when the measured data contain a large level of noise. The lack of robustness is mainly attributed to the insufficient representativeness of used features. As a result, the intrinsic mechanism governing the observed system cannot be accurately identified. In this study, we use an efficient topological descriptor for complex data, i.e., the Euler characteristics (ECs), as features to characterize the spatiotemporal data collected from dynamical systems and discover the underlying physics. Unsupervised manifold learning and supervised classification results show that EC can be used to efficiently distinguish systems with different while similar governing models. We also demonstrate that the machine learning approaches using EC can improve the confidence level of sparse regression methods of physics discovery.
翻訳日:2021-10-31 09:26:12 公開日:2021-10-15
# 機械学習アプリケーションのためのビデオデータパイプライン

Video-Data Pipelines for Machine Learning Applications ( http://arxiv.org/abs/2110.11407v1 )

ライセンス: Link先を確認
Sohini Roychowdhury, James Y. Sato(参考訳) データパイプラインは、機械学習アルゴリズムを本番環境に持ち込むエンドツーエンドソリューションに不可欠なコンポーネントである。 ビデオシーケンスのためのエンジニアリングデータパイプラインは、高品質でシーンの大きなバリエーションを示すビデオシーケンスからキーフレームを分離するなど、いくつかの課題を引き起こす。 このような高品質なキーフレームを手動で隔離することは、何時間分ものビデオデータに何時間もかかります。 本研究では,映像の画質やコンテンツタイプに応じて削除可能なフレームの分数を制御し,映像列における手作業によるフレームシフティングのこのプロセスを自動化できるデータパイプラインフレームワークを提案する。 さらに、保持されるフレームはシーケンス毎に自動的にタグ付けされ、将来のMLモデルデプロイメントのための自動データ検索プロセスが簡単になる。 本研究では、自動走行ビデオシーケンスに基づいてトレーニングされたオブジェクト検出アルゴリズムのバージョニングおよび監視のためのビデオデータパイプラインの性能を分析する。 提案するビデオデータパイプラインは、高画質とコンテンツのばらつきを表す全ての入力フレームの0.1~20%以上を保持することができる。 このフレーム選択、自動シーンタグ付け、およびモデル検証は、解析対象の22の映像系列に対して30秒未満で完了する。 したがって、提案するフレームワークは、MLバージョンデプロイメントを自動化するための追加のビデオシーケンスデータセットにスケールすることができる。

Data pipelines are an essential component for end-to-end solutions that take machine learning algorithms to production. Engineering data pipelines for video-sequences poses several challenges including isolation of key-frames from video sequences that are high quality and represent significant variations in the scene. Manual isolation of such quality key-frames can take hours of sifting through hours worth of video data. In this work, we present a data pipeline framework that can automate this process of manual frame sifting in video sequences by controlling the fraction of frames that can be removed based on image quality and content type. Additionally, the frames that are retained can be automatically tagged per sequence, thereby simplifying the process of automated data retrieval for future ML model deployments. We analyze the performance of the proposed video-data pipeline for versioned deployment and monitoring for object detection algorithms that are trained on outdoor autonomous driving video sequences. The proposed video-data pipeline can retain anywhere between 0.1-20% of the all input frames that are representative of high image quality and high variations in content. This frame selection, automated scene tagging followed by model verification can be completed in under 30 seconds for 22 video-sequences under analysis in this work. Thus, the proposed framework can be scaled to additional video-sequence data sets for automating ML versioned deployments.
翻訳日:2021-10-31 09:07:33 公開日:2021-10-15
# 分散適合性評価によるモジュラリティ誘発問題領域の振る舞いにおける異常の解消

Resolving Anomalies in the Behaviour of a Modularity Inducing Problem Domain with Distributional Fitness Evaluation ( http://arxiv.org/abs/2110.13609v1 )

ライセンス: Link先を確認
Zhenyue Qin and Tom Gedeon and R.I. (Bob) McKay(参考訳) 遺伝子制御ネットワーク(GRN)は、堅牢性とモジュール性の研究において重要な役割を担っている。 GRNの堅牢性を評価する一般的な方法は、摂動型遺伝子活性化パターンのセットを摂動型に戻す能力を測定することである。 通常、摂動は、予め定義された遺伝子活性化パターンの分布によって生成されるランダムサンプルを収集することによって得られる。 このサンプリング法は確率性を導入し、動的性を誘導する。 このダイナミックさは、すでに複雑なフィットネス環境に課されています。 ですから,サンプリングを行う場合には,フィットネスランドスケープの構造から生じる影響や,それに課されるダイナミック性から生じる影響を理解することが重要である。 フィットネス機能の確率性は再現性や実験後の分析にも困難をもたらす。 本研究では,遺伝子活動パターンの完全な分布を考慮した決定論的分布性評価を開発し,適合性評価の確率性を回避する。 このフィットネス評価は再現性を促進する。 その決定論により、適合性に関する理論的境界を確かめることができ、アルゴリズムが大域的最適に達したかどうかを特定することができる。 これにより、問題領域の効果をノイズ性評価の結果と区別し、–\citet{espinosa2010speciali zation} の課題領域の挙動における残りの2つの異常を解消することができる。 また、ソリューションGRNのいくつかの特性を明らかにし、それらが堅牢でモジュール化され、問題領域の性質のより深い理解につながります。 我々は、より有用なモジュラリティソリューションの生成と、生物学的システムにおけるモジュラリティの普遍性を理解するための鍵となる、より大きく複雑なドメインにおけるモジュラリティの出現をシミュレートし理解するための潜在的な方向性について議論することで、結論付けた。

Discrete gene regulatory networks (GRNs) play a vital role in the study of robustness and modularity. A common method of evaluating the robustness of GRNs is to measure their ability to regulate a set of perturbed gene activation patterns back to their unperturbed forms. Usually, perturbations are obtained by collecting random samples produced by a predefined distribution of gene activation patterns. This sampling method introduces stochasticity, in turn inducing dynamicity. This dynamicity is imposed on top of an already complex fitness landscape. So where sampling is used, it is important to understand which effects arise from the structure of the fitness landscape, and which arise from the dynamicity imposed on it. Stochasticity of the fitness function also causes difficulties in reproducibility and in post-experimental analyses. We develop a deterministic distributional fitness evaluation by considering the complete distribution of gene activity patterns, so as to avoid stochasticity in fitness assessment. This fitness evaluation facilitates repeatability. Its determinism permits us to ascertain theoretical bounds on the fitness, and thus to identify whether the algorithm has reached a global optimum. It enables us to differentiate the effects of the problem domain from those of the noisy fitness evaluation, and thus to resolve two remaining anomalies in the behaviour of the problem domain of~\citet{espinosa2010speciali zation}. We also reveal some properties of solution GRNs that lead them to be robust and modular, leading to a deeper understanding of the nature of the problem domain. We conclude by discussing potential directions toward simulating and understanding the emergence of modularity in larger, more complex domains, which is key both to generating more useful modular solutions, and to understanding the ubiquity of modularity in biological systems.
翻訳日:2021-10-31 09:06:56 公開日:2021-10-15
# (参考訳) マウスの動き,機械学習,Minecraftを用いた連続認証 [全文訳有]

Continuous Authentication Using Mouse Movements, Machine Learning, and Minecraft ( http://arxiv.org/abs/2110.11080v1 )

ライセンス: CC BY-SA 4.0
Nyle Siddiqui, Rushit Dave, Naeem Seliya(参考訳) マウス・ダイナミクスは、新しい再現不能な行動バイオメトリックとして人気を高めている。 ユーザからの一般的な制限のないマウスの動きを含むデータセットは、現在の文献では乏しい。 2016年に作成されたbalabit mouse dynamicsデータセットは、データサイエンスのコンペティションのために作成され、いくつかの欠点にもかかわらず、初めて公開されたマウスダイナミクスデータセットであると考えられている。 Balabitのように退屈な管理方法でマウスの動きを収集することは、意図せずにデータを均質化し、現実世界のアプリケーションシナリオを代表するものではない。 本稿では,10人のユーザがゲームminecraftをデスクトップコンピュータでプレイしている間に収集したマウスダイナミクスデータセットを提案する。 各ユーザが特定のユーザの動きとインポスタの動きの違いを検出するために、二元ランダムフォレスト(RF)分類器を作成する。 これらの分類器の性能を評価するための2つの評価シナリオが提案されている。1つのシナリオは、すべての評価指標において過去の成果よりも優れており、平均精度は92%に達し、もう1つのシナリオは、インポスタの偽認証のインスタンスの減少を報告した。

Mouse dynamics has grown in popularity as a novel irreproducible behavioral biometric. Datasets which contain general unrestricted mouse movements from users are sparse in the current literature. The Balabit mouse dynamics dataset produced in 2016 was made for a data science competition and despite some of its shortcomings, is considered to be the first publicly available mouse dynamics dataset. Collecting mouse movements in a dull administrative manner as Balabit does may unintentionally homogenize data and is also not representative of realworld application scenarios. This paper presents a novel mouse dynamics dataset that has been collected while 10 users play the video game Minecraft on a desktop computer. Binary Random Forest (RF) classifiers are created for each user to detect differences between a specific users movements and an imposters movements. Two evaluation scenarios are proposed to evaluate the performance of these classifiers; one scenario outperformed previous works in all evaluation metrics, reaching average accuracy rates of 92%, while the other scenario successfully reported reduced instances of false authentications of imposters.
翻訳日:2021-10-24 12:13:16 公開日:2021-10-15
# (参考訳) GPUを用いた遺伝的プログラミングの高速化 [全文訳有]

Accelerating Genetic Programming using GPUs ( http://arxiv.org/abs/2110.11226v1 )

ライセンス: CC BY 4.0
Vimarsh Sathia (1), Venkataramana Ganesh (2), Shankara Rao Thejaswi Nanditale (2) ((1) Indian Institute of Technology Madras, (2) NVIDIA Corporation)(参考訳) 進化的学習技術である遺伝的プログラミング(GP)は、曲線フィッティング、データモデリング、特徴選択、分類などの機械学習に複数の応用がある。 GPにはいくつかの固有の並列ステップがあり、GPUベースの並列化の理想的な候補となっている。 本稿では,代用GPアルゴリズムのGPUアクセラレーションスタックに基づく変種について述べる。 生成GPアルゴリズムの選択と評価はCUDAを用いて並列化される。 本稿では,GPUメモリの固定長スタックを用いた評価が可能なプレフィックスリストとして,候補解表現を提案する。 CUDAベースの行列ベクトル演算は、集団プログラムの適合性の計算にも用いられる。 提案アルゴリズムは,Pagie Polynomialの合成データセット(4096ドルから$16$M)を用いて,他の標準記号回帰ライブラリであるgplearn,TensorGP,Kar ooGPを用いて,アルゴリズムのトレーニング時間をプロファイリングする。 さらに、勾配向上アルゴリズムの比較に使用される6ドルの大規模回帰と分類データセットを使用して、アルゴリズムとgplearnのパフォーマンスベンチマークを実行し、トレーニング時間、テスト精度、損失をプロファイリングします。 NVIDIA DGX-A100 GPUでは、我々のアルゴリズムは、前述のすべてのフレームワークより優れており、特に、合成データセットと大規模データセットでそれぞれ119\times$と40\times$の平均的なスピードアップを達成する。

Genetic Programming (GP), an evolutionary learning technique, has multiple applications in machine learning such as curve fitting, data modelling, feature selection, classification etc. GP has several inherent parallel steps, making it an ideal candidate for GPU based parallelization. This paper describes a GPU accelerated stack-based variant of the generational GP algorithm which can be used for symbolic regression and binary classification. The selection and evaluation steps of the generational GP algorithm are parallelized using CUDA. We introduce representing candidate solution expressions as prefix lists, which enables evaluation using a fixed-length stack in GPU memory. CUDA based matrix vector operations are also used for computation of the fitness of population programs. We evaluate our algorithm on synthetic datasets for the Pagie Polynomial (ranging in size from $4096$ to $16$ million points), profiling training times of our algorithm with other standard symbolic regression libraries viz. gplearn, TensorGP and KarooGP. In addition, using $6$ large-scale regression and classification datasets usually used for comparing gradient boosting algorithms, we run performance benchmarks on our algorithm and gplearn, profiling the training time, test accuracy, and loss. On an NVIDIA DGX-A100 GPU, our algorithm outperforms all the previously listed frameworks, and in particular, achieves average speedups of $119\times$ and $40\times$ against gplearn on the synthetic and large scale datasets respectively.
翻訳日:2021-10-24 12:04:42 公開日:2021-10-15
# (参考訳) FlexMatch: 擬似ラベリングによる半教師付き学習の促進 [全文訳有]

FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling ( http://arxiv.org/abs/2110.08263v1 )

ライセンス: CC BY 4.0
Bowen Zhang, Yidong Wang, Wenxin Hou, Hao Wu, Jindong Wang, Manabu Okumura, Takahiro Shinozaki(参考訳) 最近提案されたFixMatchは、ほとんどの半教師付き学習(SSL)ベンチマークで最先端の結果を得た。 しかし、他の現代的なSSLアルゴリズムと同様に、FixMatchはトレーニングに寄与するラベルのないデータを選択するために、すべてのクラスに対して予め定義された一定のしきい値を使用するため、異なる学習状況と異なるクラスの学習困難を考慮できない。 そこで本研究では,学習状況に応じてラベルなしデータを活用するカリキュラム学習手法として,カリキュラム擬似ラベリング(cpl)を提案する。 CPLのコアは、各段階で異なるクラスのしきい値を柔軟に調整し、情報付き未ラベルデータとその擬似ラベルを渡すことである。 CPLは追加のパラメータや計算(前方または後方の伝搬)を導入しない。 私たちはcplをfixmatchに適用し、改良したアルゴリズムflexmatchを呼び出します。 FlexMatchはさまざまなSSLベンチマークで最先端のパフォーマンスを実現しています。 例えば、FlexMatchはFixMatchを14.32%、CIFAR-100とSTL-10のデータセットでは24.55%で上回っている。 例えば、flexmatchはフィクスマッチのトレーニング時間を1/5に抑えるだけで、さらに優れたパフォーマンスを達成することができる。 さらに、CPLは他のSSLアルゴリズムに容易に適用でき、性能を大幅に改善できることを示す。 ソースコードはhttps://github.com/T orchSSL/TorchSSLで公開しています。

The recently proposed FixMatch achieved state-of-the-art results on most semi-supervised learning (SSL) benchmarks. However, like other modern SSL algorithms, FixMatch uses a pre-defined constant threshold for all classes to select unlabeled data that contribute to the training, thus failing to consider different learning status and learning difficulties of different classes. To address this issue, we propose Curriculum Pseudo Labeling (CPL), a curriculum learning approach to leverage unlabeled data according to the model's learning status. The core of CPL is to flexibly adjust thresholds for different classes at each time step to let pass informative unlabeled data and their pseudo labels. CPL does not introduce additional parameters or computations (forward or backward propagation). We apply CPL to FixMatch and call our improved algorithm FlexMatch. FlexMatch achieves state-of-the-art performance on a variety of SSL benchmarks, with especially strong performances when the labeled data are extremely limited or when the task is challenging. For example, FlexMatch outperforms FixMatch by 14.32% and 24.55% on CIFAR-100 and STL-10 datasets respectively, when there are only 4 labels per class. CPL also significantly boosts the convergence speed, e.g., FlexMatch can use only 1/5 training time of FixMatch to achieve even better performance. Furthermore, we show that CPL can be easily adapted to other SSL algorithms and remarkably improve their performances. We open source our code at https://github.com/T orchSSL/TorchSSL.
翻訳日:2021-10-22 05:34:49 公開日:2021-10-15
# (参考訳) 知識駆動アクティブラーニング [全文訳有]

Knowledge-driven Active Learning ( http://arxiv.org/abs/2110.08265v1 )

ライセンス: CC BY-SA 4.0
Gabriele Ciravegna, Frederic Precioso, Marco Gori(参考訳) ここ数年、ディープラーニングモデルはますます人気を集めています。 しかしながら、教師付きデータの量が制限され、手動のラベル付けが高価である状況では、デプロイメントはいまだに不可能である。 アクティブ・ラーニング・ストラテジーは、トレーニングセットに追加した後、最もモデルのパフォーマンスを改善するため、少数のサンプルのみを監督することによるこの問題の解決を目指している。 ほとんどの戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。 ここではドメイン知識を考慮した,まったく異なるアプローチを提案する。 実際、マルチラベル分類の場合、クラス間の関係は一貫性のない予測、すなわちモデルが監督を必要とする可能性のある予測を見つける方法を提供する。 我々は,一階論理知識を制約に変換し,それらの違反をサンプル選択の自然なガイドとしてチェックするフレームワークを開発した。 我々は、知識駆動戦略が標準戦略、特にドメイン知識が完全であるデータセットよりも優れていることを実証的に示す。 さらに,提案手法により,学習データから遠く離れたデータ分布を発見できることを示す。 最後に、提案する知識駆動戦略は、標準の不確実性に基づく手法の適用が難しいオブジェクト検出問題でも容易に使用できる。

In the last few years, Deep Learning models have become increasingly popular. However, their deployment is still precluded in those contexts where the amount of supervised data is limited and manual labelling expensive. Active learning strategies aim at solving this problem by requiring supervision only on few unlabelled samples, which improve the most model performances after adding them to the training set. Most strategies are based on uncertain sample selection, and even often restricted to samples lying close to the decision boundary. Here we propose a very different approach, taking into consideration domain knowledge. Indeed, in the case of multi-label classification, the relationships among classes offer a way to spot incoherent predictions, i.e., predictions where the model may most likely need supervision. We have developed a framework where first-order-logic knowledge is converted into constraints and their violation is checked as a natural guide for sample selection. We empirically demonstrate that knowledge-driven strategy outperforms standard strategies, particularly on those datasets where domain knowledge is complete. Furthermore, we show how the proposed approach enables discovering data distributions lying far from training data. Finally, the proposed knowledge-driven strategy can be also easily used in object-detection problems where standard uncertainty-based techniques are difficult to apply.
翻訳日:2021-10-22 05:17:50 公開日:2021-10-15
# (参考訳) sleeppriorcl: 事前知識に基づく正のマイニングと適応温度による睡眠ステージのコントラスト表現学習 [全文訳有]

SleepPriorCL: Contrastive Representation Learning with Prior Knowledge-based Positive Mining and Adaptive Temperature for Sleep Staging ( http://arxiv.org/abs/2110.09966v1 )

ライセンス: CC BY 4.0
Hongjun Zhang, Jing Wang, Qinfeng Xiao, Jiaoxue Deng, Youfang Lin(参考訳) 本研究の目的は,生の生理的時系列から睡眠ステージ分類の意味表現を学ぶことである。 教師付き手法は目覚ましい性能を示したが,完全ラベル付きデータの要求により臨床状況は制限されている。 意味論的に類似した(正)と異種(負)のサンプルの対比に基づく自己教師学習(SSL)は、有望な成功を収めた。 しかし、既存のSSLメソッドは、多くの意味論的に類似した正がまだ発見され、陰性として扱われる問題に悩まされている。 本稿では,SleepPriorCLという新しいSSLアプローチを提案する。 既存のsslメソッドに対するアプローチの進歩は2つあります。 1) SSLのトレーニング体制に事前のドメイン知識を組み込むことにより、より意味的に類似した陽性が、基幹のラベルにアクセスせずに発見される。 2) コントラスト損失における温度の影響を調べることにより, 先行ドメイン知識に基づく各試料の適応温度機構がさらに提案され, 性能が向上した。 大規模な実験により,本手法が最先端性能を実現し,ベースラインを一貫して上回ることを示す。

The objective of this paper is to learn semantic representations for sleep stage classification from raw physiological time series. Although supervised methods have gained remarkable performance, they are limited in clinical situations due to the requirement of fully labeled data. Self-supervised learning (SSL) based on contrasting semantically similar (positive) and dissimilar (negative) pairs of samples have achieved promising success. However, existing SSL methods suffer the problem that many semantically similar positives are still uncovered and even treated as negatives. In this paper, we propose a novel SSL approach named SleepPriorCL to alleviate the above problem. Advances of our approach over existing SSL methods are two-fold: 1) by incorporating prior domain knowledge into the training regime of SSL, more semantically similar positives are discovered without accessing ground-truth labels; 2) via investigating the influence of the temperature in contrastive loss, an adaptive temperature mechanism for each sample according to prior domain knowledge is further proposed, leading to better performance. Extensive experiments demonstrate that our method achieves state-of-the-art performance and consistently outperforms baselines.
翻訳日:2021-10-22 04:39:21 公開日:2021-10-15
# (参考訳) PG$^2$Net: 次の場所予測のためのパーソナライズおよびグループ推奨ネットワーク [全文訳有]

PG$^2$Net: Personalized and Group Preferences Guided Network for Next Place Prediction ( http://arxiv.org/abs/2110.08266v1 )

ライセンス: CC BY 4.0
Huifeng Li, Bin Wang, Fan Xia, Xi Zhai, Sulei Zhu, Yanyan Xu(参考訳) 次に訪れる場所を予測することは人間の移動行動モデリングにおける鍵であり、疫病対策、都市計画、交通管理、旅行推奨など様々な分野で重要な役割を果たしている。 これを達成するために、典型的な解決策は、様々な場所への好みを捉えるために、rnnに基づいたモジュールを設計することである。 これらのRNNベースの手法は、訪問した場所に対する個人個人のパーソナライズされた好みを効果的に学習することができるが、ユーザ間のインタラクションは、場所の表現によってのみ弱く学習することができる。 そこで本稿では,個人・集団レベルでの様々な場所に対するユーザの嗜好を考慮し,パーソナライズ・グループ選好誘導ネットワーク(pg$^2$net)というエンドツーエンドのフレームワークを提案する。 具体的には、PG$^2$Netは、各ユーザの長期移動傾向を捉えるBi-LSTMとアテンションメカニズムを結合する。 人口集団の嗜好を学習するために,訪問の空間的・時間的情報を用いて時空間依存モジュールを構築する。 我々は,ユーザの軌跡を隠れ空間にマッピングし,それらのシーケンシャルな関係を捉えるグラフ埋め込み手法を採用する。 さらに,次の位置のベクトル表現を学習するために補助的損失を考案した。 2つのfoursquareチェックインデータセットと1つの携帯電話データセットの実験結果は、最先端のベースラインと比較して、我々のモデルの利点を示しています。 ソースコードはhttps://github.com/u rbanmobility/PG2Netで入手できる。

Predicting the next place to visit is a key in human mobility behavior modeling, which plays a significant role in various fields, such as epidemic control, urban planning, traffic management, and travel recommendation. To achieve this, one typical solution is designing modules based on RNN to capture their preferences to various locations. Although these RNN-based methods can effectively learn individual's hidden personalized preferences to her visited places, the interactions among users can only be weakly learned through the representations of locations. Targeting this, we propose an end-to-end framework named personalized and group preference guided network (PG$^2$Net), considering the users' preferences to various places at both individual and collective levels. Specifically, PG$^2$Net concatenates Bi-LSTM and attention mechanism to capture each user's long-term mobility tendency. To learn population's group preferences, we utilize spatial and temporal information of the visitations to construct a spatio-temporal dependency module. We adopt a graph embedding method to map users' trajectory into a hidden space, capturing their sequential relation. In addition, we devise an auxiliary loss to learn the vectorial representation of her next location. Experiment results on two Foursquare check-in datasets and one mobile phone dataset indicate the advantages of our model compared to the state-of-the-art baselines. Source codes are available at https://github.com/u rbanmobility/PG2Net.
翻訳日:2021-10-22 04:26:43 公開日:2021-10-15
# (参考訳) 学生の失敗理由をパーソナライズした説明可能な生徒パフォーマンス予測 [全文訳有]

Explainable Student Performance Prediction With Personalized Attention for Explaining Why A Student Fails ( http://arxiv.org/abs/2110.08268v1 )

ライセンス: CC BY 4.0
Kun Niu, Xipeng Cao, Yicong Yu(参考訳) 高等教育における学生の失敗率の上昇に伴い、次の学期における生徒成績の予測が大きな需要となっている。 個人化された学生のパフォーマンス予測は、教育者が生徒の地位を包括的に把握し、効果的に介入するのに役立つ。 しかし、既存の作品では、教育者が最も関心を持つ学生のパフォーマンス予測の説明可能性を考えることはほとんどない。 本稿では,学生のプロフィールと関連コースの事前知識を生かして,個人化意識(Personalized Attention, ESPA)を用いた説明可能な学生パフォーマンス予測手法を提案する。 設計したbidirectional long short-term memory (bilstm)アーキテクチャは、経路の意味情報を特定のパターンで抽出する。 類似した経路の内的関係を活用するため,異なる学生やコースが予測に与える影響を識別するために,地域的・グローバルレベルの注意機構を提案する。 したがって、パスの正当な推論は、学生のパフォーマンスを予測するのに応用できる。 ESPAは、学生のパフォーマンス予測のための他の最先端モデルよりも一貫して優れており、結果は直感的に説明可能である。 この研究は、生徒の学習に対する行動の異なる影響を理解するのに役立つ。

As student failure rates continue to increase in higher education, predicting student performance in the following semester has become a significant demand. Personalized student performance prediction helps educators gain a comprehensive view of student status and effectively intervene in advance. However, existing works scarcely consider the explainability of student performance prediction, which educators are most concerned about. In this paper, we propose a novel Explainable Student performance prediction method with Personalized Attention (ESPA) by utilizing relationships in student profiles and prior knowledge of related courses. The designed Bidirectional Long Short-Term Memory (BiLSTM) architecture extracts the semantic information in the paths with specific patterns. As for leveraging similar paths' internal relations, a local and global-level attention mechanism is proposed to distinguish the influence of different students or courses for making predictions. Hence, valid reasoning on paths can be applied to predict the performance of students. The ESPA consistently outperforms the other state-of-the-art models for student performance prediction, and the results are intuitively explainable. This work can help educators better understand the different impacts of behavior on students' studies.
翻訳日:2021-10-22 04:06:17 公開日:2021-10-15
# (参考訳) 知識蒸留を用いた変圧器のマルチモーダルから一様注意へ [全文訳有]

From Multimodal to Unimodal Attention in Transformers using Knowledge Distillation ( http://arxiv.org/abs/2110.08270v1 )

ライセンス: CC BY 4.0
Dhruv Agarwal, Tanay Agrawal, Laura M. Ferrari, Fran\c{c}ois Bremond(参考訳) マルチモーダルディープラーニングは多くの関心を集めており、トランスフォーマーはクロスアテンションメカニズムのおかげで新しいアプローチを生み出している。 本稿では,高計算資源要求と欠落モダリティ問題という,既存の2つの課題に対処する手法を提案する。 本稿では, 変圧器における知識蒸留の概念を初めて導入し, 推論時に1つのモダリティのみを使用する。 本報告では,複数の学生・教員構成,蒸留が適用されるレベル,および異なる方法について検討した。 最適構成により、最先端の精度を3%向上し、パラメータの数を2.5倍、推論時間を22%削減した。 このような性能計算のトレードオフは多くのアプリケーションで利用でき、限られたリソースを持つ複雑なモデルの展開が要求される新しい研究領域を開くことを目指している。

Multimodal Deep Learning has garnered much interest, and transformers have triggered novel approaches, thanks to the cross-attention mechanism. Here we propose an approach to deal with two key existing challenges: the high computational resource demanded and the issue of missing modalities. We introduce for the first time the concept of knowledge distillation in transformers to use only one modality at inference time. We report a full study analyzing multiple student-teacher configurations, levels at which distillation is applied, and different methodologies. With the best configuration, we improved the state-of-the-art accuracy by 3%, we reduced the number of parameters by 2.5 times and the inference time by 22%. Such performance-computat ion tradeoff can be exploited in many applications and we aim at opening a new research area where the deployment of complex models with limited resources is demanded.
翻訳日:2021-10-22 03:37:48 公開日:2021-10-15
# (参考訳) 深層学習による胸部X線からのCOVID-19と肺炎の自動検出 [全文訳有]

Automatic Detection of COVID-19 and Pneumonia from Chest X-Ray using Deep Learning ( http://arxiv.org/abs/2110.09384v1 )

ライセンス: CC BY 4.0
Sarath Pathari(参考訳) 本研究では,コビッドウイルスと診断された一般的なウイルス性肺炎,細菌性肺炎のX線画像のデータセットを,コロナウイルス病の自動検出に利用した。 本研究のポイントは,臨床画像の順に,今後数年間に提案される最先端の畳み込み神経系構造の展示を評価することである。 特にトランスファーラーニング(Transfer Learning)と呼ばれる制度が受け継がれた。 転写学習では、小さな臨床画像データセットの標準と異なるバリエーションの位置は到達可能な目標であり、定期的に驚くべき結果をもたらす。 このトライアルで使用されるデータセット。 第一に、24000枚のX線画像のコレクションには、コビッド19病6000枚、細菌性肺炎6000枚、正常な状態の6000枚が含まれる。 この情報は、オープンクリニカルストアのアクセス可能なX線写真から収集され、拡張された。 その結果、X線画像を用いたDeep Learningは、Covid-19病と同定された注目すべき生物学的マーカーを分離し、最も正確な精度、愛着性、特異性は97.83%、96.81%、98.56%と推定された。

In this study, a dataset of X-ray images from patients with common viral pneumonia, bacterial pneumonia, confirmed Covid-19 disease was utilized for the automatic detection of the Coronavirus disease. The point of the investigation is to assess the exhibition of cutting edge convolutional neural system structures proposed over the ongoing years for clinical picture order. In particular, the system called Transfer Learning was received. With transfer learning, the location of different variations from the norm in little clinical picture datasets is a reachable objective, regularly yielding amazing outcomes. The datasets used in this trial. Firstly, a collection of 24000 X-ray images includes 6000 images for confirmed Covid-19 disease,6000 confirmed common bacterial pneumonia and 6000 images of normal conditions. The information was gathered and expanded from the accessible X-Ray pictures on open clinical stores. The outcomes recommend that Deep Learning with X-Ray imaging may separate noteworthy biological markers identified with the Covid-19 sickness, while the best precision, affectability, and particularity acquired is 97.83%, 96.81%, and 98.56% individually.
翻訳日:2021-10-22 03:25:00 公開日:2021-10-15
# (参考訳) 支援エージェントの社会的状況理解における心理的特徴の利用 [全文訳有]

Using Psychological Characteristics of Situations for Social Situation Comprehension in Support Agents ( http://arxiv.org/abs/2110.09397v1 )

ライセンス: CC BY-SA 4.0
Ilir Kola, Catholijn M. Jonker, M. Birna van Riemsdijk(参考訳) 日常生活におけるユーザを支援するサポートエージェントは,ユーザの特性だけでなく,ユーザの社会的状況も考慮する必要がある。 ソーシャルコンテキストを含む既存の作業では、ユーザの期待する行動を評価するために、情報処理技術へのインプットとして、何らかの状況手がかりを使用する。 しかし,研究は,社会的状況理解の段階である,状況の意味も決定することが重要であることを示唆している。 本研究は,社会的状況理解の基盤として,状況に対する意味を記述するために社会科学において提案されている状況の心理的特性を用いる。 ユーザ研究のデータを用いて,この提案を2つの観点から評価する。 まず, 技術的観点から, 社会的状況の優先順位を予測する入力として, 状況の心理的特性を用い, 社会的状況の特徴から状況の心理的特性を予測できることを示す。 第2に,人間機械における理解ステップの役割について検討した。 本研究は、アジェンダ管理のパーソナルアシスタントエージェントの意思決定に関するユーザへの説明の基礎として、心理的特徴をうまく利用できることを示す。

Support agents that help users in their daily lives need to take into account not only the user's characteristics, but also the social situation of the user. Existing work on including social context uses some type of situation cue as an input to information processing techniques in order to assess the expected behavior of the user. However, research shows that it is important to also determine the meaning of a situation, a step which we refer to as social situation comprehension. We propose using psychological characteristics of situations, which have been proposed in social science for ascribing meaning to situations, as the basis for social situation comprehension. Using data from user studies, we evaluate this proposal from two perspectives. First, from a technical perspective, we show that psychological characteristics of situations can be used as input to predict the priority of social situations, and that psychological characteristics of situations can be predicted from the features of a social situation. Second, we investigate the role of the comprehension step in human-machine meaning making. We show that psychological characteristics can be successfully used as a basis for explanations given to users about the decisions of an agenda management personal assistant agent.
翻訳日:2021-10-22 03:21:53 公開日:2021-10-15
# (参考訳) 言語モデルの一貫性を高める [全文訳有]

Boosting coherence of language models ( http://arxiv.org/abs/2110.08294v1 )

ライセンス: CC BY 4.0
Nikolay Malkin, Zhen Wang, Nebojsa Jojic(参考訳) 長期的な情報構造 - コヒーレンス - の自然性は、言語生成における課題である。 長文世代はコヒーレンス尺度で自然文と異なるため、大きな言語モデルはそのような構造を十分に学習していない。 この分散を緩和するため,次世代の予測に対する遠隔文脈の影響を増大させる推論手法であるコヒーレンスブースティングを提案する。 生成した通常のテキストと対話応答の分布解析により,事前学習モデルとのコヒーレンス向上の利点を示す。 また,ゼロショットnlpタスクに対する最先端モデルとのコヒーレンス強化は,追加のトレーニングを伴わずにパフォーマンスの向上をもたらすことがわかった。

Naturality of long-term information structure -- coherence -- remains a challenge in language generation. Large language models have insufficiently learned such structure, as their long-form generations differ from natural text in measures of coherence. To alleviate this divergence, we propose coherence boosting, an inference procedure that increases the effect of distant context on next-token prediction. We show the benefits of coherence boosting with pretrained models by distributional analyses of generated ordinary text and dialog responses. We also find that coherence boosting with state-of-the-art models for various zero-shot NLP tasks yields performance gains with no additional training.
翻訳日:2021-10-22 03:03:15 公開日:2021-10-15
# (参考訳) 対流支配流の非線形固有直交分解 [全文訳有]

Nonlinear proper orthogonal decomposition for convection-dominated flows ( http://arxiv.org/abs/2110.08295v1 )

ライセンス: CC BY 4.0
Shady E. Ahmed, Omer San, Adil Rasheed, Traian Iliescu(参考訳) オートエンコーダの技術は、潜在空間を作成する手段としての低次モデリングにおいて、ますます一般的になっている。 この減少順序表現は、時系列予測モデルと統合された非線形力学系に対するモジュラーデータ駆動モデリングアプローチを提供する。 本稿では,非線形正規直交分解(POD)フレームワークを提案する。このフレームワークは,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルである。 ガレルキンモデルの切り離しによる射影誤差を除去することにより、提案された非侵入的アプローチの重要な実現要因は、POD係数のフルランク展開とダイナミクスが進化する潜在空間の間の非線形写像の運動論的構成である。 我々は,対流支配型システムのモデル削減のための枠組みを検証した。 我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。

Autoencoder techniques find increasingly common use in reduced order modeling as a means to create a latent space. This reduced order representation offers a modular data-driven modeling approach for nonlinear dynamical systems when integrated with a time series predictive model. In this letter, we put forth a nonlinear proper orthogonal decomposition (POD) framework, which is an end-to-end Galerkin-free model combining autoencoders with long short-term memory networks for dynamics. By eliminating the projection error due to the truncation of Galerkin models, a key enabler of the proposed nonintrusive approach is the kinematic construction of a nonlinear mapping between the full-rank expansion of the POD coefficients and the latent space where the dynamics evolve. We test our framework for model reduction of a convection-dominated system, which is generally challenging for reduced order models. Our approach not only improves the accuracy, but also significantly reduces the computational cost of training and testing.
翻訳日:2021-10-22 02:42:11 公開日:2021-10-15
# (参考訳) 深部再構成と予測による多変量時系列異常検出のためのメモリ拡張逆数オートエンコーダ [全文訳有]

Memory-augmented Adversarial Autoencoders for Multivariate Time-series Anomaly Detection with Deep Reconstruction and Prediction ( http://arxiv.org/abs/2110.08306v1 )

ライセンス: CC BY 4.0
Qinfeng Xiao, Shikuan Shao, Jing Wang(参考訳) 手動の監督なしに多変量時系列の異常を検出することは、今日のIT監視システムの規模と複雑さの増大により、依然として困難な問題である。 非教師なし時系列異常検出の最近の進歩は、主にディープオートエンコーダを使用してこの問題を解決している。 しかし、実際には、ニューラルネットワークの強力なカパビライトのため、オートエンコーダは異常を再構築することができる。 さらに、これらのアプローチは、非点異常、例えば文脈異常や集団異常を識別するのには有効ではない。 このような問題に対処するため,我々は,時系列の非教師付き異常検出手法であるMemAAE(\textit{Memory-augmented Adversarial Autoencoders with Deep Reconstruction and Prediction})を提案する。 2つの補完的プロキシタスク、再構築と予測を共有ネットワークアーキテクチャで共同でトレーニングすることにより、複数タスクによる異常検出がシングルタスクトレーニングよりも優れたパフォーマンスが得られることを示す。 さらに、通常パターンを保存するために圧縮メモリモジュールが導入され、異常入力の予期せぬ一般化を避ける。 大規模な実験を通じて、MemAAEは4つの公開データセットで総合F1スコアの0.90を達成し、最高のベースラインである0.02を上回った。

Detecting anomalies for multivariate time-series without manual supervision continues a challenging problem due to the increased scale of dimensions and complexity of today's IT monitoring systems. Recent progress of unsupervised time-series anomaly detection mainly use deep autoencoders to solve this problem, i.e. training on normal samples and producing significant reconstruction error on abnormal inputs. However, in practice, autoencoders can reconstruct anomalies so well, due to powerful capabilites of neural networks. Besides, these approaches can be ineffective for identifying non-point anomalies, e.g. contextual anomalies and collective anomalies, since they solely utilze a point-wise reconstruction objective. To tackle the above issues, we propose MemAAE (\textit{Memory-augmented Adversarial Autoencoders with Deep Reconstruction and Prediction}), a novel unsupervised anomaly detection method for time-series. By jointly training two complementary proxy tasks, reconstruction and prediction, with a shared network architecture, we show that detecting anomalies via multiple tasks obtains superior performance rather than single-task training. Additionally, a compressive memory module is introduced to preserve normal patterns, avoiding unexpected generalization on abnormal inputs. Through extensive experiments, MemAAE achieves an overall F1 score of 0.90 on four public datasets, significantly outperforming the best baseline by 0.02.
翻訳日:2021-10-22 02:32:14 公開日:2021-10-15
# (参考訳) GrowSpace: 植物を形作る方法を学ぶ [全文訳有]

GrowSpace: Learning How to Shape Plants ( http://arxiv.org/abs/2110.08307v1 )

ライセンス: CC BY 4.0
Yasmeen Hitti, Ionelia Buzatu, Manuel Del Verme, Mark Lefsrud, Florian Golemo, Audrey Durand(参考訳) 植物は我々の存在と生存に不可欠な動的システムである。 植物は環境の変化に直面し、周囲の環境に順応する。 我々は、環境刺激に対する植物反応は、強化学習(RL)の枠組みの中でアプローチできる現実世界の問題の好例であると主張している。 光源を移動させることでプラントを制御することを目的として,新しいRLベンチマークとしてGrowSpaceを提案する。 シミュレータのバックエンドはスペースコロニーアルゴリズム(Space Colonisation Algorithm)を用いて実装されている。 ビデオゲームのrl環境と比較すると、このシミュレータは実世界の問題に対処し、植物の成長と運動を物理的実験よりも高速に可視化するテストベッドとして機能する。 GrowSpaceは、コントロール、マルチステージ学習、フェアネス、マルチオブジェクト学習など、いくつかの問題に対処する一連の課題で構成されている。 提案するベンチマークの難易度を示すために,ケーススタディとともにエージェントベースラインを提供する。

Plants are dynamic systems that are integral to our existence and survival. Plants face environment changes and adapt over time to their surrounding conditions. We argue that plant responses to an environmental stimulus are a good example of a real-world problem that can be approached within a reinforcement learning (RL)framework. With the objective of controlling a plant by moving the light source, we propose GrowSpace, as a new RL benchmark. The back-end of the simulator is implemented using the Space Colonisation Algorithm, a plant growing model based on competition for space. Compared to video game RL environments, this simulator addresses a real-world problem and serves as a test bed to visualize plant growth and movement in a faster way than physical experiments. GrowSpace is composed of a suite of challenges that tackle several problems such as control, multi-stage learning,fairness and multi-objective learning. We provide agent baselines alongside case studies to demonstrate the difficulty of the proposed benchmark.
翻訳日:2021-10-22 02:17:56 公開日:2021-10-15
# (参考訳) プライバシ保存推論のための効率的な表現 [全文訳有]

Efficient Representations for Privacy-Preserving Inference ( http://arxiv.org/abs/2110.08321v1 )

ライセンス: CC BY 4.0
Han Xuanyuan, Francisco Vargas, Stephen Cummins(参考訳) ディープニューラルネットワークは、コンピュータビジョンや医療など、複数のドメインにまたがる幅広いアプリケーションを持っている。 多くの場合、推論時のモデルの入力はセンシティブなユーザデータで構成され、そのようなサービスによって保証されるプライバシーと信頼のレベルに関する疑問を提起する。 既存の研究の多くは、暗号化データの計算により多層パーセプトロンとcnnのプライベート推論を可能にする準同型暗号化(he)スキームを利用している。 この方向に沿った初期の作業はCryptoNetsで、1つのMNIST推論で250秒かかる。 このようなアプローチの主な制限は計算の制限であり、これはHE演算を構成するNTT(数論的変換)演算のコスト性に起因する。 モデルプルーニングと効率的なデータ表現を使って、HE操作の回数を減らす方法も提案されている。 本稿では,CNN推論における中間テンソル表現の変更を提案することにより,既存の作業の改善に焦点をあてる。 MNISTおよびCIFAR-10データセットを用いてプライベートCNNを構築し評価し、CryptoNetsアーキテクチャの推論に使用される操作数を2倍に減らした。

Deep neural networks have a wide range of applications across multiple domains such as computer vision and medicine. In many cases, the input of a model at inference time can consist of sensitive user data, which raises questions concerning the levels of privacy and trust guaranteed by such services. Much existing work has leveraged homomorphic encryption (HE) schemes that enable computation on encrypted data to achieve private inference for multi-layer perceptrons and CNNs. An early work along this direction was CryptoNets, which takes 250 seconds for one MNIST inference. The main limitation of such approaches is that of compute, which is due to the costly nature of the NTT (number theoretic transform)operations that constitute HE operations. Others have proposed the use of model pruning and efficient data representations to reduce the number of HE operations required. In this paper, we focus on improving upon existing work by proposing changes to the representations of intermediate tensors during CNN inference. We construct and evaluate private CNNs on the MNIST and CIFAR-10 datasets, and achieve over a two-fold reduction in the number of operations used for inferences of the CryptoNets architecture.
翻訳日:2021-10-22 02:03:36 公開日:2021-10-15
# (参考訳) 異なる損失関数のロバスト性とそのネットワーク学習能力への影響 [全文訳有]

Robustness of different loss functions and their impact on networks learning capability ( http://arxiv.org/abs/2110.08322v1 )

ライセンス: CC BY-SA 4.0
Vishal Rajput(参考訳) 最近のAIの発展により、あらゆる業界が、データのインテリジェントな処理形式を採用しようとしている。 この分野における多くの進歩にもかかわらず、AIの完全な能力はまだ業界によって活用されていない。 いくつかのリスク要因を含む産業は、そのような自律システムへの信頼の欠如により、依然としてAIの使用に慎重である。 現代のAIは、多くの点で非常に良いかもしれないが、推論において非常に悪いものであり、このAIの振る舞いは破滅的な結果をもたらす可能性がある。 自動運転車が人やドローンに衝突して木に詰まってしまうのは、aiの決定が壊滅的な結果に繋がるいくつかの例だ。 そこで我々は,AIの学習能力に関する洞察を深め,その説明を生成するために,損失関数の動作を分析する。 我々の場合、二項クロスエントロピーやBCEのような一般化された損失関数と、ディース損失や焦点損失のような特殊な損失関数の2組を用いる。 一連の実験を通じて、異なる損失関数を組み合わせることが単一の損失関数を使うよりも優れているかどうか、もしそうなら、その背後にある理由は何なのかを確かめる。 一般化損失と特殊損失の差を確立するため、上記の損失を用いて複数のモデルを訓練し、その頑健さを敵の例と比較する。 特に、最も顕著な勾配に対応する画素を変更すると、異なるモデルの精度がどれだけ早く低下するかを考察する。

Recent developments in AI have made it ubiquitous, every industry is trying to adopt some form of intelligent processing of their data. Despite so many advances in the field, AIs full capability is yet to be exploited by the industry. Industries that involve some risk factors still remain cautious about the usage of AI due to the lack of trust in such autonomous systems. Present-day AI might be very good in a lot of things but it is very bad in reasoning and this behavior of AI can lead to catastrophic results. Autonomous cars crashing into a person or a drone getting stuck in a tree are a few examples where AI decisions lead to catastrophic results. To develop insight and generate an explanation about the learning capability of AI, we will try to analyze the working of loss functions. For our case, we will use two sets of loss functions, generalized loss functions like Binary cross-entropy or BCE and specialized loss functions like Dice loss or focal loss. Through a series of experiments, we will establish whether combining different loss functions is better than using a single loss function and if yes, then what is the reason behind it. In order to establish the difference between generalized loss and specialized losses, we will train several models using the above-mentioned losses and then compare their robustness on adversarial examples. In particular, we will look at how fast the accuracy of different models decreases when we change the pixels corresponding to the most salient gradients.
翻訳日:2021-10-22 01:53:30 公開日:2021-10-15
# (参考訳) 浅層ネットワークを用いた画像PDEの解法 [全文訳有]

Solving Image PDEs with a Shallow Network ( http://arxiv.org/abs/2110.08327v1 )

ライセンス: CC BY 4.0
Pascal Tom Getreuer, Peyman Milanfar, Xiyang Luo(参考訳) 偏微分方程式(PDE)は一般に物理過程のモデルとして用いられるが、PDEに基づく画像処理にも非常に関心がある。 しかしながら、画像に使用する場合、従来のPDEの数値解法は、安定性のために非常に微細なグリッド解像度を必要とする傾向があり、結果として計算コストが極端に高い。 本研究は,浅層学習型フィルタリングフレームワークであるblade(best linear adaptive enhancement)をpde解に適用し,従来の手法よりも粗いグリッド解像度で動作し,効率的かつ精度の高い手法であることを示す。 そのため、このモデルは画像の様々な問題に対して柔軟に使用できる。

Partial differential equations (PDEs) are typically used as models of physical processes but are also of great interest in PDE-based image processing. However, when it comes to their use in imaging, conventional numerical methods for solving PDEs tend to require very fine grid resolution for stability, and as a result have impractically high computational cost. This work applies BLADE (Best Linear Adaptive Enhancement), a shallow learnable filtering framework, to PDE solving, and shows that the resulting approach is efficient and accurate, operating more reliably at coarse grid resolutions than classical methods. As such, the model can be flexibly used for a wide variety of problems in imaging.
翻訳日:2021-10-22 01:43:43 公開日:2021-10-15
# (参考訳) テキスト生成のためのプレフィックス制御 [全文訳有]

Control Prefixes for Text Generation ( http://arxiv.org/abs/2110.08329v1 )

ライセンス: CC BY 4.0
Jordan Clive, Kris Cao, Marek Rei(参考訳) Prompt Learningメソッドは、タスク固有のプロンプトを入力と共に使用することにより、事前学習された言語モデルを下流アプリケーションに適用する。 テキスト生成におけるプロンプト学習に関する現在の作業のほとんどは、データセットのすべての例に対して、共有データセットレベルのプロンプトに依存している。 本手法を拡張し,各プロンプトに条件付き入力依存情報を組み込む動的手法である制御プリフィックスを提案する。 制御プレフィックスは、即興学習と制御生成の交点にあり、モデルがテキスト生成中にきめ細かい制御を行うことを可能にする。 この方法は、属性レベルの学習可能な表現を事前訓練された変換器の異なる層に組み込むことで、生成されたテキストを特定の方向にガイドすることができる。 我々は,この技術を体系的に評価し,gem benchmark for natural language generation (nlg) の5つのデータセットに適用する。 我々は、WebNLGを含むいくつかのデータからテキストへのデータセットに対して、最先端の結果を示す。

Prompt learning methods adapt pre-trained language models to downstream applications by using a task-specific prompt together with the input. Most of the current work on prompt learning in text generation relies on a shared dataset-level prompt for all examples in the dataset. We extend this approach and propose a dynamic method, Control Prefixes, which allows for the inclusion of conditional input-dependent information in each prompt. Control Prefixes is at the intersection of prompt learning and controlled generation, empowering the model to have finer-grained control during text generation. The method incorporates attribute-level learnable representations into different layers of a pre-trained transformer, allowing for the generated text to be guided in a particular direction. We provide a systematic evaluation of the technique and apply it to five datasets from the GEM benchmark for natural language generation (NLG). We present state-of-the-art results on several data-to-text datasets, including WebNLG.
翻訳日:2021-10-22 01:28:43 公開日:2021-10-15
# (参考訳) 深層学習を用いた探索的ラグランジアン粒子追跡 [全文訳有]

Exploratory Lagrangian-Based Particle Tracing Using Deep Learning ( http://arxiv.org/abs/2110.08338v1 )

ライセンス: CC BY 4.0
Mengjiao Han, Sudhanshu Sane, Chris R. Johnson(参考訳) 数値流体力学シミュレーションによって生成される時変ベクトル場は、しばしば非常に大きく、正確な対話的解析と探索に挑戦する。 これらの課題に対処するために、ラグランジアン表現の削減は、科学的な時変ベクトル場探索能力を改善する手段として研究されている。 本稿では,ラグランジアンフローマップで表される時間変化ベクトル場を探索するディープニューラルネットワークを用いた粒子追跡手法を提案する。 我々のワークフローでは、まずIn situ処理を使用してラグランジュ流図を抽出し、深層ニューラルネットワークは抽出したデータを用いて流れ場の振る舞いを学習する。 訓練されたモデルを使用して新しい粒子軌道を予測することで、固定された小さなメモリフットプリントと高速な推論が可能になる。 提案手法を実証し,評価するために,よく知られた分析データセットであるDouble Gyreを用いて,性能の詳細な研究を行う。 本研究では,2つのフローマップ抽出戦略と,トレーニングサンプル数と統合期間が有効性に与える影響を検討し,複数のサンプリングオプションを評価し,ハイパーパラメータの設定に通知する。 全体として,時間変化ベクトル場のラグランジュ表現を符号化するためには,メモリフットプリントが10.5MB必要である。 post hoc分析では、トレーニングされたモデルのロードはわずか2秒で、視覚化のためにデータを読み込む際のi/oの負担を大幅に軽減する。 さらに,1台のnvidia titan rtx gpuを用いて,全時間分解能1.3秒で200個の新しいパスラインに対して100箇所のロケーションを推定する。

Time-varying vector fields produced by computational fluid dynamics simulations are often prohibitively large and pose challenges for accurate interactive analysis and exploration. To address these challenges, reduced Lagrangian representations have been increasingly researched as a means to improve scientific time-varying vector field exploration capabilities. This paper presents a novel deep neural network-based particle tracing method to explore time-varying vector fields represented by Lagrangian flow maps. In our workflow, in situ processing is first utilized to extract Lagrangian flow maps, and deep neural networks then use the extracted data to learn flow field behavior. Using a trained model to predict new particle trajectories offers a fixed small memory footprint and fast inference. To demonstrate and evaluate the proposed method, we perform an in-depth study of performance using a well-known analytical data set, the Double Gyre. Our study considers two flow map extraction strategies as well as the impact of the number of training samples and integration durations on efficacy, evaluates multiple sampling options for training and testing and informs hyperparameter settings. Overall, we find our method requires a fixed memory footprint of 10.5 MB to encode a Lagrangian representation of a time-varying vector field while maintaining accuracy. For post hoc analysis, loading the trained model costs only two seconds, significantly reducing the burden of I/O when reading data for visualization. Moreover, our parallel implementation can infer one hundred locations for each of two thousand new pathlines across the entire temporal resolution in 1.3 seconds using one NVIDIA Titan RTX GPU.
翻訳日:2021-10-22 01:00:14 公開日:2021-10-15
# (参考訳) ステップバイステップ補正による透過的対話的意味解析に向けて [全文訳有]

Towards Transparent Interactive Semantic Parsing via Step-by-Step Correction ( http://arxiv.org/abs/2110.08345v1 )

ライセンス: CC BY 4.0
Lingbo Mo, Ashley Lewis, Huan Sun, Michael White(参考訳) セマンティックパーシングに関する既存の研究は、主に自然言語の発話を1ターンで対応する論理形式にマッピングすることに焦点を当てている。 しかし、自然言語には曖昧さと可変性が多く含まれているため、これは難しい課題である。 本研究では,自然言語のステップごとに予測された論理形式を記述し,各ステップの自然言語フィードバックによる修正を可能にする対話型意味解析フレームワークについて検討する。 我々は,知識ベース(KBQA)に対する質問応答をフレームワークのインスタンス化として重視し,解析プロセスの透明性を高め,ユーザが最終回答を適切に信頼することを目的とした。 そこで我々は,複合WebQuestionsデータセットからクラウドソーシングされた対話データセットであるINSPIREDを構築した。 実験の結果,人間のフィードバックによる対話型フレームワークは,全体の解析精度を大幅に向上させる可能性が示唆された。 さらに,さらなるクラウドソーシングを伴わずに,さまざまな最先端KBQAモデルを評価するための対話シミュレーション用パイプラインを開発した。 その結果、対話型セマンティックパーシングフレームワークは、そのようなモデルに対して効果的であることを示す。

Existing studies on semantic parsing focus primarily on mapping a natural-language utterance to a corresponding logical form in one turn. However, because natural language can contain a great deal of ambiguity and variability, this is a difficult challenge. In this work, we investigate an interactive semantic parsing framework that explains the predicted logical form step by step in natural language and enables the user to make corrections through natural-language feedback for individual steps. We focus on question answering over knowledge bases (KBQA) as an instantiation of our framework, aiming to increase the transparency of the parsing process and help the user appropriately trust the final answer. To do so, we construct INSPIRED, a crowdsourced dialogue dataset derived from the ComplexWebQuestions dataset. Our experiments show that the interactive framework with human feedback has the potential to greatly improve overall parse accuracy. Furthermore, we develop a pipeline for dialogue simulation to evaluate our framework w.r.t. a variety of state-of-the-art KBQA models without involving further crowdsourcing effort. The results demonstrate that our interactive semantic parsing framework promises to be effective across such models.
翻訳日:2021-10-22 00:41:32 公開日:2021-10-15
# (参考訳) ターゲットrelabelingによるノイズラベルによる学習 [全文訳有]

Learning with Noisy Labels by Targeted Relabeling ( http://arxiv.org/abs/2110.08355v1 )

ライセンス: CC BY 4.0
Derek Chen, Zhou Yu, and Samuel R. Bowman(参考訳) クラウドソーシングプラットフォームは、専門家のラベル付けよりも高いレベルの不正確なラベル付けにもかかわらず、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。 このノイズの影響を管理するための一般的な戦略は2つあり、1つは冗長なアノテーションを集約することであるが、かなり少ない例のラベル付けを犠牲にしている。 第二に、事前の作業では、アノテーション予算全体を使用して可能な限り多くの例をラベル付けし、その後暗黙的にデータセットをクリーンアップするためにデノナイズアルゴリズムを適用することも検討されている。 そこで我々は,少数のアノテーションを予約して,高い確率のラベル付けエラーを明示的に緩和する手法を提案する。 特に、ラベル付け予算の大部分を割り当てて、モデルのトレーニングに使用する初期データセットを作成します。 このモデルは、最も誤りの可能性が高い特定の例を特定するために使用され、残りの予算をrelabelに費やします。 3つのモデルのバリエーションと4つの自然言語処理タスクをまたいだ実験により、同じアノテーション予算を割り当てた際にノイズの多いラベルを処理するように設計されたラベルアグリゲーションと高度な区切り手法の両方よりも優れた手法が示されました。

Crowdsourcing platforms are often used to collect datasets for training deep neural networks, despite higher levels of inaccurate labeling compared to expert labeling. There are two common strategies to manage the impact of this noise, the first involves aggregating redundant annotations, but comes at the expense of labeling substantially fewer examples. Secondly, prior works have also considered using the entire annotation budget to label as many examples as possible and subsequently apply denoising algorithms to implicitly clean up the dataset. We propose an approach which instead reserves a fraction of annotations to explicitly relabel highly probable labeling errors. In particular, we allocate a large portion of the labeling budget to form an initial dataset used to train a model. This model is then used to identify specific examples that appear most likely to be incorrect, which we spend the remaining budget to relabel. Experiments across three model variations and four natural language processing tasks show our approach outperforms both label aggregation and advanced denoising methods designed to handle noisy labels when allocated the same annotation budget.
翻訳日:2021-10-22 00:14:35 公開日:2021-10-15
# (参考訳) テロインサージェンシーの時空間的エクストリームイベントモデリング [全文訳有]

Spatio-temporal extreme event modeling of terror insurgencies ( http://arxiv.org/abs/2110.08363v1 )

ライセンス: CC BY 4.0
Lekha Patel, Lyndsay Shand, J. Derek Tucker, Gabriel Huerta(参考訳) テロ集団によって組織されたような致命的な結果をもたらす極端な出来事は、自然の中で非常に予測不可能であり、社会への差し迫った脅威である。 特に、任意の時空地域で起こるテロ攻撃とその相対的な社会リスクの可能性を定量化することは、国家の安全を強化するインフォームドな措置を促進する。 本稿では,不均一なベースライン強度を共変量関数として記述した攻撃時空間モデルを提案する。 そのトリガー強度は、任意の攻撃と過去のテロイベントの間の複雑な時空間的依存関係を柔軟に捉えるために、ガウス過程によって簡潔にモデル化される。 このモデルのパラメータを推定することにより、攻撃が起こる可能性のある特定の時空領域を強調する。 さらに, 発生した被害数から攻撃結果を測定することにより, 損失数に対する新たな混合分布を導入する。 この分布は、低損失と高損失を柔軟に処理し、データの離散的性質を一般化 zipf 分布を通じて処理する。 モデルパラメータを推定するために、カスタマイズされたマルコフ連鎖モンテカルロ法(MCMC)を用いる。 本手法は,2013-2018年のアフガニスタン攻撃に対応するオープンソースのGTD(Global Terrorism Database)のデータを用いて説明する。 本モデルは,2019-2021年における今後の攻撃の激しさを,人口密度,地域言語数,対政府支援人口密度といった様々な関心の共変量を考慮して予測できることを示す。

Extreme events with potential deadly outcomes, such as those organized by terror groups, are highly unpredictable in nature and an imminent threat to society. In particular, quantifying the likelihood of a terror attack occurring in an arbitrary space-time region and its relative societal risk, would facilitate informed measures that would strengthen national security. This paper introduces a novel self-exciting marked spatio-temporal model for attacks whose inhomogeneous baseline intensity is written as a function of covariates. Its triggering intensity is succinctly modeled with a Gaussian Process prior distribution to flexibly capture intricate spatio-temporal dependencies between an arbitrary attack and previous terror events. By inferring the parameters of this model, we highlight specific space-time areas in which attacks are likely to occur. Furthermore, by measuring the outcome of an attack in terms of the number of casualties it produces, we introduce a novel mixture distribution for the number of casualties. This distribution flexibly handles low and high number of casualties and the discrete nature of the data through a {\it Generalized ZipF} distribution. We rely on a customized Markov chain Monte Carlo (MCMC) method to estimate the model parameters. We illustrate the methodology with data from the open source Global Terrorism Database (GTD) that correspond to attacks in Afghanistan from 2013-2018. We show that our model is able to predict the intensity of future attacks for 2019-2021 while considering various covariates of interest such as population density, number of regional languages spoken, and the density of population supporting the opposing government.
翻訳日:2021-10-21 23:55:04 公開日:2021-10-15
# (参考訳) 米国の大企業の製品の多様性の低下:モデルと対策 [全文訳有]

Dropping diversity of products of large US firms: Models and measures ( http://arxiv.org/abs/2110.08367v1 )

ライセンス: CC BY 4.0
Ananthan Nambiar, Tobias Rubel, James McCaull, Jon deVries and Mark Bedau(参考訳) 我々の生涯で、グローバル経済で利用可能な製品はより多様になったと広く推測されている。 しかし、毎年経済の全製品について必要なデータを集めることは困難であるため、直接調査することは困難である。 1997年から2017年にかけて,米国各大企業の製品について,公開可能なテキスト記述をマイニングすることで,この問題を解決した。 この期間、経済生産性の多くの側面は着実に上昇しているが、少なくとも米国の大企業の商品の多様性は着実に低下している。 この下降傾向は、さまざまなプロダクトの多様性指標を使って見ることができ、その中には、各一組の企業の製品の類似度の測定に依存するものも含まれている。 包括的かつ詳細な類似性測定における現在の技術は、hobergとphillipsによるブール語ベクトルモデルである。 このブールモデルとより洗練された2つの変種から強固な類似性を用いて多様性を測定し、製品多様性の著しい低下傾向を一貫して観察する。 これらの結果により、製品多様性の減少傾向を説明するための特定の仮説を策定し、テストし始めることができる。

It is widely assumed that in our lifetimes the products available in the global economy have become more diverse. This assumption is difficult to investigate directly, however, because it is difficult to collect the necessary data about every product in an economy each year. We solve this problem by mining publicly available textual descriptions of the products of every large US firms each year from 1997 to 2017. Although many aspects of economic productivity have been steadily rising during this period, our text-based measurements show that the diversity of the products of at least large US firms has steadily declined. This downward trend is visible using a variety of product diversity metrics, including some that depend on a measurement of the similarity of the products of every single pair of firms. The current state of the art in comprehensive and detailed firm-similarity measurements is a Boolean word vector model due to Hoberg and Phillips. We measure diversity using firm-similarities from this Boolean model and two more sophisticated variants, and we consistently observe a significant dropping trend in product diversity. These results make it possible to frame and start to test specific hypotheses for explaining the dropping product diversity trend.
翻訳日:2021-10-21 23:28:07 公開日:2021-10-15
# (参考訳) カーネル最小分散ポートフォリオ

Kernel Minimum Divergence Portfolios ( http://arxiv.org/abs/2110.09516v1 )

ライセンス: CC BY 4.0
Linda Chamakh and Zolt\'an Szab\'o(参考訳) ポートフォリオ最適化はファイナンスにおける重要な課題であり、投資家の好みに合致したポートフォリオを作成することを目的としている。 Kullback-Leibler や $f$-divergence に依存するターゲット分布アプローチは、この目標を達成する上で最も効果的な形式の1つである。 本稿では,カーネルと最適輸送(KOT)に基づく分岐を用いてタスクに対処し,従来の手法の仮定や最適化の制約を緩和する手法を提案する。 kernel-based maximum mean discrepancy (mmd) weの場合 (i)様々なターゲット分布・カーネル対に対する基礎となる平均埋め込みの分析計算可能性を証明する。 (ii)このような分析的知識がmmd推定器の収束を早めることを示し、 (iii) 結果はミニマックス下限を持つ非有界指数核に拡張する。 数値実験により,KOT推定器の性能は,実世界の実例と合成例の両方で向上した。

Portfolio optimization is a key challenge in finance with the aim of creating portfolios matching the investors' preference. The target distribution approach relying on the Kullback-Leibler or the $f$-divergence represents one of the most effective forms of achieving this goal. In this paper, we propose to use kernel and optimal transport (KOT) based divergences to tackle the task, which relax the assumptions and the optimization constraints of the previous approaches. In case of the kernel-based maximum mean discrepancy (MMD) we (i) prove the analytic computability of the underlying mean embedding for various target distribution-kernel pairs, (ii) show that such analytic knowledge can lead to faster convergence of MMD estimators, and (iii) extend the results to the unbounded exponential kernel with minimax lower bounds. Numerical experiments demonstrate the improved performance of our KOT estimators both on synthetic and real-world examples.
翻訳日:2021-10-21 23:16:58 公開日:2021-10-15
# (参考訳) Starkit: RoboCup Humanoid KidSize 2021 世界チャンピオンチームペーパー [全文訳有]

Starkit: RoboCup Humanoid KidSize 2021 Worldwide Champion Team Paper ( http://arxiv.org/abs/2110.08377v1 )

ライセンス: CC BY 4.0
Egor Davydenko, Ivan Khokhlov, Vladimir Litvinenko, Ilya Ryakin, Ilya Osokin, and Azer Babaev(参考訳) この記事では、RoboCup 2019 SydneyとRoboCup 2021 Worldwideの間で開発中の機能について紹介する。 これらの特徴には、検出とローカライゼーション、機械的およびアルゴリズム的ノベルティなどの視覚関連事項が含まれる。 競技は事実上行われていたため、シミュレーション特有の特徴も記事で検討されている。 本報告では, 事前条件の分析, 視点, 性能評価とともに, 試行されたアプローチの概要について述べる。

This article is devoted to the features that were under development between RoboCup 2019 Sydney and RoboCup 2021 Worldwide. These features include vision-related matters, such as detection and localization, mechanical and algorithmic novelties. Since the competition was held virtually, the simulation-specific features are also considered in the article. We give an overview of the approaches that were tried out along with the analysis of their preconditions, perspectives and the evaluation of their performance.
翻訳日:2021-10-21 23:15:43 公開日:2021-10-15
# (参考訳) 有効ゼロショット意味解析器の成分について [全文訳有]

On The Ingredients of an Effective Zero-shot Semantic Parser ( http://arxiv.org/abs/2110.08381v1 )

ライセンス: CC BY 4.0
Pengcheng Yin, John Wieting, Avirup Sil, Graham Neubig(参考訳) 意味構文解析器は自然言語発話を意味表現(例えばプログラム)にマッピングする。 このようなモデルは通常、必要な注意深いアノテーションの努力のために、トレーニングデータの曖昧さによってボトルネックとなる。 近年の研究では、標準発話とプログラムの学習例を文法から合成してゼロショット学習を行い、さらにこれらの発話を言い換えて言語多様性を改善している。 しかし、そのような合成例は実データに完全にパターンをキャプチャできない。 本稿では,言語と論理ギャップ(herzig and berant, 2019)のレンズを通してゼロショットパーサーを解析し,正準例と実世界のユーザ発行例との言語パターンとプログラムパターンの相違を定量化する。 我々は,これらのギャップを,改良された文法,より強固なパラフレーサ,そして実際のユーザの意図を反映した正準例を用いた効率的な学習手法で橋渡しすることを提案する。 我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。

Semantic parsers map natural language utterances into meaning representations (e.g., programs). Such models are typically bottlenecked by the paucity of training data due to the required laborious annotation efforts. Recent studies have performed zero-shot learning by synthesizing training examples of canonical utterances and programs from a grammar, and further paraphrasing these utterances to improve linguistic diversity. However, such synthetic examples cannot fully capture patterns in real data. In this paper we analyze zero-shot parsers through the lenses of the language and logical gaps (Herzig and Berant, 2019), which quantify the discrepancy of language and programmatic patterns between the canonical examples and real-world user-issued ones. We propose bridging these gaps using improved grammars, stronger paraphrasers, and efficient learning methods using canonical examples that most likely reflect real user intents. Our model achieves strong performance on two semantic parsing benchmarks (Scholar, Geo) with zero labeled data.
翻訳日:2021-10-21 23:06:37 公開日:2021-10-15
# (参考訳) 常識推論のための知識生成 [全文訳有]

Generated Knowledge Prompting for Commonsense Reasoning ( http://arxiv.org/abs/2110.08387v1 )

ライセンス: CC BY 4.0
Jiacheng Liu, Alisa Liu, Ximing Lu, Sean Welleck, Peter West, Ronan Le Bras, Yejin Choi, Hannaneh Hajishirzi(参考訳) 事前学習中に大量の知識を捉える能力があるにもかかわらず、大規模な言語モデルは、外部の知識ベース、特に常識推論タスクを組み込むことで恩恵を受けることが多い。 これにより、言語モデル自身から得られた知識を最大限に活用できる方法を探求するモチベーションが生まれます。 汎用的なプロンプト形式で言語モデルから知識文を直接生成し,予測確率を最大化する知識を選択する。 単純さにもかかわらず、このアプローチは4つのコモンセンス推論タスクにおけるオフセット言語モデルと微調整言語モデルの両方のパフォーマンスを改善し、数値コモンセンス(numersense)、general commonsense(commonse nseqa 2.0)、scientific commonsense(qasc)ベンチマークの最先端を改善した。 特に、モデルが生成した知識を使用することで予測が向上し、ニューラル推論プロセスにおけるシンボル的知識表現の重要性が示される。

Despite their ability to capture large amount of knowledge during pretraining, large-scale language models often benefit from incorporating external knowledge bases, especially on commonsense reasoning tasks. This motivates us to explore how we can best leverage knowledge elicited from language models themselves. We propose generating knowledge statements directly from a language model with a generic prompt format, then selecting the knowledge which maximizes prediction probability. Despite its simplicity, this approach improves performance of both off-the-shelf and finetuned language models on four commonsense reasoning tasks, improving the state-of-the-art on numerical commonsense (NumerSense), general commonsense (CommonsenseQA 2.0), and scientific commonsense (QASC) benchmarks. Notably, we find that a model's predictions can improve when using its own generated knowledge, demonstrating the importance of symbolic knowledge representation in neural reasoning processes.
翻訳日:2021-10-21 22:45:03 公開日:2021-10-15
# (参考訳) 事前学習表現の帰納バイアスの定量化 [全文訳有]

Probing as Quantifying the Inductive Bias of Pre-trained Representations ( http://arxiv.org/abs/2110.08388v1 )

ライセンス: CC BY 4.0
Alexander Immer, Lucas Torroba Hennigen, Vincent Fortuin, Ryan Cotterell(参考訳) 事前訓練されたコンテキスト表現は、下流タスクで劇的なパフォーマンス改善をもたらした。 これは研究者に、それらのエンコードされた言語情報を定量化し、理解させる動機となった。 一般には、このような表現から言語特性を予測するために教師付きモデルを訓練する探索によって行われる。 残念ながら、この探索の定義は広範な批判を受けており、パラドックス的あるいは反直観的な結果をもたらす可能性がある。 本研究では,特定のタスクに対する表現の帰納的バイアスを評価することを目的として,ベイズ的推論を用いてこれを行うための実践的な方法を提案する。 トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。 我々のフレームワークは,従来のアプローチの問題を解消し,ある状況下では,fastTextの方がBERTよりも優れた帰納バイアスを提供できることを示唆している。

Pre-trained contextual representations have led to dramatic performance improvements on a range of downstream tasks. This has motivated researchers to quantify and understand the linguistic information encoded in them. In general, this is done by probing, which consists of training a supervised model to predict a linguistic property from said representations. Unfortunately, this definition of probing has been subject to extensive criticism, and can lead to paradoxical or counter-intuitive results. In this work, we present a novel framework for probing where the goal is to evaluate the inductive bias of representations for a particular task, and provide a practical avenue to do this using Bayesian inference. We apply our framework to a series of token-, arc-, and sentence-level tasks. Our results suggest that our framework solves problems of previous approaches and that fastText can offer a better inductive bias than BERT in certain situations.
翻訳日:2021-10-21 22:31:18 公開日:2021-10-15
# (参考訳) Mind the Gap: 生成対向ネットワークのための単一ショット領域適応のためのドメインギャップ制御 [全文訳有]

Mind the Gap: Domain Gap Control for Single Shot Domain Adaptation for Generative Adversarial Networks ( http://arxiv.org/abs/2110.08398v1 )

ライセンス: CC BY 4.0
Peihao Zhu, Rameen Abdal, John Femiani, Peter Wonka(参考訳) ワンショット領域適応のための新しい手法を提案する。 提案アルゴリズムは,ドメインAからドメインBへトレーニングされたGANの任意の出力を変換することができるが,本手法の利点は2つある。 第2に、この解は、ドメイン間隙、すなわち、ドメインbを定義するのに画像i_bのどの側面が使用されるかを制御する自由度を増やすことができる。 本稿では,事前学習されたstylegan生成器の重みをドメインaではなく,ドメインb内の画像出力に最適化するために,ドメインギャップを制御するための新たなレギュレータを提案する。 以上の結果から,制御性の向上を目立たせる複数のアプリケーションとともに,最先端の視覚的改善が見られた。

We present a new method for one shot domain adaptation. The input to our method is trained GAN that can produce images in domain A and a single reference image I_B from domain B. The proposed algorithm can translate any output of the trained GAN from domain A to domain B. There are two main advantages of our method compared to the current state of the art: First, our solution achieves higher visual quality, e.g. by noticeably reducing overfitting. Second, our solution allows for more degrees of freedom to control the domain gap, i.e. what aspects of image I_B are used to define the domain B. Technically, we realize the new method by building on a pre-trained StyleGAN generator as GAN and a pre-trained CLIP model for representing the domain gap. We propose several new regularizers for controlling the domain gap to optimize the weights of the pre-trained StyleGAN generator to output images in domain B instead of domain A. The regularizers prevent the optimization from taking on too many attributes of the single reference image. Our results show significant visual improvements over the state of the art as well as multiple applications that highlight improved control.
翻訳日:2021-10-21 22:15:25 公開日:2021-10-15
# (参考訳) sbp-env: サンプリングベースのモーションプランナとサンプリングのためのPythonパッケージ [全文訳有]

sbp-env: A Python Package for Sampling-based Motion Planner and Samplers ( http://arxiv.org/abs/2110.08402v1 )

ライセンス: CC BY 4.0
Tin Lai(参考訳) サンプリングベースのモーションプランナーズテスト環境(sbp-env)は、様々なサンプリングベースのアルゴリズムを素早くテストするための完全な機能フレームワークである。 sbp-envは、フレームワークの異なる側面によるティンカーの柔軟性に焦点を当て、主要な計画コンポーネントを2つのカテゴリに分割した。 (i)検体及び検体 (ii)プランナー。 運動計画研究の焦点は主に (i)サンプリング効率の向上(ヒューリスティック分布や学習分布の方法による) (ii) 連結グラフを構築するために異なるルーチンを使用するプランナーのアルゴリズム的側面。 したがって、2つのコンポーネントを分離することで、異なるコンポーネントを素早く交換して新しいアイデアをテストすることができる。

Sampling-based motion planners' testing environment (sbp-env) is a full feature framework to quickly test different sampling-based algorithms for motion planning. sbp-env focuses on the flexibility of tinkering with different aspects of the framework, and had divided the main planning components into two categories (i) samplers and (ii) planners. The focus of motion planning research had been mainly on (i) improving the sampling efficiency (with methods such as heuristic or learned distribution) and (ii) the algorithmic aspect of the planner using different routines to build a connected graph. Therefore, by separating the two components one can quickly swap out different components to test novel ideas.
翻訳日:2021-10-21 21:57:57 公開日:2021-10-15
# (参考訳) 科学におけるデータスカース応用のためのサロゲートおよび不変型コントラスト学習 [全文訳有]

Surrogate- and invariance-boosted contrastive learning for data-scarce applications in science ( http://arxiv.org/abs/2110.08406v1 )

ライセンス: CC BY 4.0
Charlotte Loh, Thomas Christensen, Rumen Dangovski, Samuel Kim and Marin Soljacic(参考訳) 深層学習技術は、自然科学(例えば、資産予測や最適化、物質発見など)にますます応用されている。 このようなアプローチの基本的な要素は、モデルをトレーニングするために必要な大量のラベル付きデータである。 本稿では,3つの'inexpensive'を組み込んだ深層学習フレームワークであるSurrogate- and invariance-boosted contrastive Learning (SIB-CL)を紹介する。 具体的には, 1) ラベルなしデータ, 2) 対称性や不変性の事前知識, 3) ほぼゼロのコストで得られた代理データである。 2次元フォトニック結晶の密度を予測し、3次元時間非依存のシュロディンガー方程式を解くなど、SIB-CLの有効性と様々な科学的問題に対する一般性を示す。 SIB-CLは、同じネットワークの精度を達成するのに必要なラベルの数を大幅に削減する。

Deep learning techniques have been increasingly applied to the natural sciences, e.g., for property prediction and optimization or material discovery. A fundamental ingredient of such approaches is the vast quantity of labelled data needed to train the model; this poses severe challenges in data-scarce settings where obtaining labels requires substantial computational or labor resources. Here, we introduce surrogate- and invariance-boosted contrastive learning (SIB-CL), a deep learning framework which incorporates three ``inexpensive'' and easily obtainable auxiliary information sources to overcome data scarcity. Specifically, these are: 1)~abundant unlabeled data, 2)~prior knowledge of symmetries or invariances and 3)~surrogate data obtained at near-zero cost. We demonstrate SIB-CL's effectiveness and generality on various scientific problems, e.g., predicting the density-of-states of 2D photonic crystals and solving the 3D time-independent Schrodinger equation. SIB-CL consistently results in orders of magnitude reduction in the number of labels needed to achieve the same network accuracies.
翻訳日:2021-10-21 21:52:59 公開日:2021-10-15
# (参考訳) 重要知識の反復的マスキングと再訓練によるNLPの重要度対策の忠実度の評価 [全文訳有]

Evaluating the Faithfulness of Importance Measures in NLP by Recursively Masking Allegedly Important Tokens and Retraining ( http://arxiv.org/abs/2110.08412v1 )

ライセンス: CC BY 4.0
Andreas Madsen, Nicholas Meade, Vaibhav Adlakha, Siva Reddy(参考訳) NLPモデルを説明するために、多くの手法が予測にどの入力トークンが重要であるかを知らせる。 しかし、オープンな疑問は、これらの手法がモデルの論理を正確に反映するかどうかである。 本研究では,HookerらによるROAR(RemOve And Retrain)と呼ばれるコンピュータビジョンから最近提案された忠実度ベンチマークを適応し,改良する。 ROARに干渉するデータセットの冗長性を再帰的に除去することで、ROARを改善する。 我々は、一般的なNLP重要度尺度、すなわち注意、勾配、統合勾配にROARを適用し、適用する。 さらに,追加のベースラインとして相互情報を用いる。 評価は、注意文学の忠実さによく使われる一連の分類タスクに基づいて行われる。 最後に,論文間の結果の比較を容易にするスカラー忠実度尺度を提案する。 我々は,nlpタスクに好適なコンピュータビジョンタスクに対する重要度尺度が好ましくないと考えられること,重要度尺度の忠実性がタスク依存であること,統合勾配の計算オーバーヘッドが正当化されることが滅多にないことを見出した。

To explain NLP models, many methods inform which inputs tokens are important for a prediction. However, an open question is if these methods accurately reflect the model's logic, a property often called faithfulness. In this work, we adapt and improve a recently proposed faithfulness benchmark from computer vision called ROAR (RemOve And Retrain), by Hooker et al. (2019). We improve ROAR by recursively removing dataset redundancies, which otherwise interfere with ROAR. We adapt and apply ROAR, to popular NLP importance measures, namely attention, gradient, and integrated gradients. Additionally, we use mutual information as an additional baseline. Evaluation is done on a suite of classification tasks often used in the faithfulness of attention literature. Finally, we propose a scalar faithfulness metric, which makes it easy to compare results across papers. We find that, importance measures considered to be unfaithful for computer vision tasks perform favorably for NLP tasks, the faithfulness of an importance measure is task-dependent, and the computational overhead of integrated gradient is rarely justified.
翻訳日:2021-10-21 21:14:39 公開日:2021-10-15
# 新たなアンサンブルアーキテクチャによる自己蒸留による会員推測攻撃の軽減

Mitigating Membership Inference Attacks by Self-Distillation Through a Novel Ensemble Architecture ( http://arxiv.org/abs/2110.08324v1 )

ライセンス: Link先を確認
Xinyu Tang, Saeed Mahloujifar, Liwei Song, Virat Shejwalkar, Milad Nasr, Amir Houmansadr, Prateek Mittal(参考訳) 機械学習(ML)モデルにおいて、メンバシップ推論攻撃はプライバシリークを評価する重要な手段である。 これらの攻撃は、トレーニングメンバーを非メンバーと区別することを目的としており、メンバーと非メンバーの入力に対するモデルの差分挙動を利用する。 本研究の目的は,高いメンバシップのプライバシを持つMLモデルをトレーニングすることであり,その目的は,モデルユーティリティを劣化させるような,差分プライバシのような技術によって提供される証明可能なプライバシ保証とは対照的に,経験的なメンバシッププライバシ保証を目指している。 具体的には、メンバーと非メンバーの入力に類似した振る舞いを誘導し、メンバーシップ推論攻撃を緩和するプライバシー保護モデルをトレーニングするための新しい枠組みを提案する。 私たちのフレームワークはSELENAと呼ばれ、2つの主要なコンポーネントを持っています。 第1のコンポーネントと防御の中核は、トレーニングのための新しいアンサンブルアーキテクチャです。 このアーキテクチャは、slit-aiと呼ばれ、トレーニングデータをランダムなサブセットに分割し、データの各サブセットでモデルをトレーニングします。 私たちのアンサンブルアーキテクチャは、トレーニングデータに入力サンプルを含まないモデルのみの出力を集約します。 当社のスプリットaiアーキテクチャが,大規模なメンバシップ推論攻撃を防御していることは証明していますが,新たな適応攻撃の影響を受けやすいのです。 それゆえ,我々は,このような強力な攻撃から身を守るために,自己蒸留という枠組みで第2のコンポーネントを使用する。 Self-Distillationコンポーネント(self-)は、外部の公開データセットを使わずに、Split-AIアンサンブルを通じてトレーニングデータセットを蒸留します。 主要なベンチマークデータセットに関する広範な実験を通じて、SELENAは、会員のプライバシとユーティリティのトレードオフが、最先端技術と比較して優れていることを示す。

Membership inference attacks are a key measure to evaluate privacy leakage in machine learning (ML) models. These attacks aim to distinguish training members from non-members by exploiting differential behavior of the models on member and non-member inputs. The goal of this work is to train ML models that have high membership privacy while largely preserving their utility; we therefore aim for an empirical membership privacy guarantee as opposed to the provable privacy guarantees provided by techniques like differential privacy, as such techniques are shown to deteriorate model utility. Specifically, we propose a new framework to train privacy-preserving models that induces similar behavior on member and non-member inputs to mitigate membership inference attacks. Our framework, called SELENA, has two major components. The first component and the core of our defense is a novel ensemble architecture for training. This architecture, which we call Split-AI, splits the training data into random subsets, and trains a model on each subset of the data. We use an adaptive inference strategy at test time: our ensemble architecture aggregates the outputs of only those models that did not contain the input sample in their training data. We prove that our Split-AI architecture defends against a large family of membership inference attacks, however, it is susceptible to new adaptive attacks. Therefore, we use a second component in our framework called Self-Distillation to protect against such stronger attacks. The Self-Distillation component (self-)distills the training dataset through our Split-AI ensemble, without using any external public datasets. Through extensive experiments on major benchmark datasets we show that SELENA presents a superior trade-off between membership privacy and utility compared to the state of the art.
翻訳日:2021-10-19 21:03:13 公開日:2021-10-15
# 拡散インデックスによるオブジェクトの数え上げ:幾何自由およびトレーニングフリーアプローチ

Counting Objects by Diffused Index: geometry-free and training-free approach ( http://arxiv.org/abs/2110.08365v1 )

ライセンス: Link先を確認
Mengyi Tang (1), Maryam Yashtini (2), and Sung Ha Kang (1) ((1) Georgia Institute of Technology, (2) Georgetown University )(参考訳) オブジェクトのカウントは基本的な問題ですが、難しい問題です。 本稿では,画像中のオブジェクト数をカウントする拡散型,幾何学的,学習自由な手法を提案する。 主なアイデアは、それぞれのオブジェクトの強度や大きさに関わらず、ユニークなインデックス値で表現し、インデックス値の数を単純に数えることである。 まず、異なるベクトルを配置し、種ベクトルと呼び、マスク画像全体に均一に配置する。 マスク画像は、カウント対象物の境界情報を有する。 次に、各オブジェクト内のエッジ重み付き調和変分最適化モデルを用いて種子を拡散させる。 本稿では,演算子分割法と交互方向最小化法に基づく効率的なアルゴリズムを提案し,その理論的解析を行った。 このモデルの最適解は、分散種子が分散されたときに、各対象に固有の強度があるように完全に拡散されたときに得られる。 計算効率のために、全収束の前に拡散過程を停止し、これらの拡散インデックス値をクラスタ化する。 我々は、この手法をDiffused Index (CODI) によるCounting Objectsと呼ぶ。 我々はスカラーおよび多次元シードベクトルを探索する。 スカラーシードではヒストグラムのガウスフィッティングを用いてカウントし,ベクトルシードではクラスタリングによるカウントの最終段階として高次元クラスタリング手法を用いる。 提案手法は,オブジェクトの境界が明確でなくても完全に囲まれていても柔軟である。 生物細胞,農業,コンサート,輸送など,様々な用途に計数結果を提示した。 既存の手法との比較を行った。

Counting objects is a fundamental but challenging problem. In this paper, we propose diffusion-based, geometry-free, and learning-free methodologies to count the number of objects in images. The main idea is to represent each object by a unique index value regardless of its intensity or size, and to simply count the number of index values. First, we place different vectors, refer to as seed vectors, uniformly throughout the mask image. The mask image has boundary information of the objects to be counted. Secondly, the seeds are diffused using an edge-weighted harmonic variational optimization model within each object. We propose an efficient algorithm based on an operator splitting approach and alternating direction minimization method, and theoretical analysis of this algorithm is given. An optimal solution of the model is obtained when the distributed seeds are completely diffused such that there is a unique intensity within each object, which we refer to as an index. For computational efficiency, we stop the diffusion process before a full convergence, and propose to cluster these diffused index values. We refer to this approach as Counting Objects by Diffused Index (CODI). We explore scalar and multi-dimensional seed vectors. For Scalar seeds, we use Gaussian fitting in histogram to count, while for vector seeds, we exploit a high-dimensional clustering method for the final step of counting via clustering. The proposed method is flexible even if the boundary of the object is not clear nor fully enclosed. We present counting results in various applications such as biological cells, agriculture, concert crowd, and transportation. Some comparisons with existing methods are presented.
翻訳日:2021-10-19 20:54:44 公開日:2021-10-15
# 機械学習を用いた製造・自然システムにおける複雑なダイナミクスの次数モデル

Reduced Order Dynamical Models For Complex Dynamics in Manufacturing and Natural Systems Using Machine Learning ( http://arxiv.org/abs/2110.08313v1 )

ライセンス: Link先を確認
William Farlessyost and Shweta Singh(参考訳) 製造・天然システムの動的解析は, 製造・天然資源の生産に関する重要な情報を提供し, これらのシステムの持続可能性を評価する上で重要な役割を担っている。 しかし、これらのシステムの現在の力学モデルは力学モデルとして存在し、シミュレーションは計算集約的であり、全体的な力学を駆動するメカニズムを単純化するものではない。 このようなシステムにとって、低次モデルは結合力学解析による持続可能性解析を可能にするのに有用である。 製造と自然システムの低次モデルを見つける試みはほとんどなく、既存の研究は個々のメカニズムレベルのモデル開発に焦点を当てている。 この研究は、機械学習(ML)アプローチを用いて低次モデルを開発することによって、これらのシステムのための単純化された動的モデルを開発するという、現在のギャップを埋めようとしている。 このアプローチはダイズオイルからダイズディーゼルプロセスプラントおよび湖水系全体に対して実証されている。 標準非線形最適化手法を用いたgrey-box ml法を用いて,機械力学モデルからシミュレーションしたデータを用いて,力学の関連するモデルをodeとして同定する。 以上の結果から, プロセスプラントの高精度線形ODEモデルを同定し, 基礎となる線形化学量測定機構と力学を駆動する質量収支を考察した。 自然システムに対しては、過去の力学の影響を含むようにMLアプローチを変更し、非線形ODEを与える。 修正されたアプローチは、ストリームフローのダイナミクスとよりよくマッチするが、完全なダイナミクスの再現には至っていない。 提案手法は, 製造プラントのように動的にスムーズなシステムでは有効であるが, 水の流れなどのカオス力学の場合, 完全には機能しない。

Dynamical analysis of manufacturing and natural systems provides critical information about production of manufactured and natural resources respectively, thus playing an important role in assessing sustainability of these systems. However, current dynamic models for these systems exist as mechanistic models, simulation of which is computationally intensive and does not provide a simplified understanding of the mechanisms driving the overall dynamics. For such systems, lower-order models can prove useful to enable sustainability analysis through coupled dynamical analysis. There have been few attempts at finding low-order models of manufacturing and natural systems, with existing work focused on model development of individual mechanism level. This work seeks to fill this current gap in the literature of developing simplified dynamical models for these systems by developing reduced-order models using a machine learning (ML) approach. The approach is demonstrated on an entire soybean-oil to soybean-diesel process plant and a lake system. We use a grey-box ML method with a standard nonlinear optimization approach to identify relevant models of governing dynamics as ODEs using the data simulated from mechanistic models. Results show that the method identifies a high accuracy linear ODE models for the process plant, reflective of underlying linear stoichiometric mechanisms and mass balance driving the dynamics. For the natural systems, we modify the ML approach to include the effect of past dynamics, which gives non-linear ODE. While the modified approach provides a better match to dynamics of stream flow, it falls short of completely recreating the dynamics. We conclude that the proposed ML approach work well for systems where dynamics is smooth, such as in manufacturing plant whereas does not work perfectly well in case of chaotic dynamics such as water stream flow.
翻訳日:2021-10-19 20:52:24 公開日:2021-10-15
# 臨床リスク予測における新しい解釈可能性と信頼性 : 急性冠症候群シナリオ

A New Approach for Interpretability and Reliability in Clinical Risk Prediction: Acute Coronary Syndrome Scenario ( http://arxiv.org/abs/2110.08331v1 )

ライセンス: Link先を確認
Francisco Valente, Jorge Henriques, Sim\~ao Paredes, Teresa Rocha, Paulo de Carvalho, Jo\~ao Morais(参考訳) 我々は、リスクスコアと機械学習モデルの両方の最高の特徴を組み合わせた、新たなリスク評価方法論を作成するつもりです。 より具体的には、良好なパフォーマンスを保ちつつ、各患者にパーソナライズされたモデルと結果を提供し、高い解釈性を示し、通常利用できない予測信頼性を推定する手法を開発することを目的とする。 同じアプローチでこれらの機能を組み合わせることで、医師が日々の活動でこのようなツールを使うという自信を高めることが期待できます。 上記の目的を達成するために,リスク要因の分節化によっていくつかのルールが作成され,そのようなルールを機械学習分類器で訓練し,各患者に対する各ルールの受容度(規則が正しい確率)を予測し,その情報を組み合わせて死亡リスクと予測の信頼性を算出した。 この手法は、任意の種類の急性冠症候群(ACS)を発症した患者のデータセットに適用し、30日間の死亡リスクを評価した。 成績は、ロジスティック回帰(LR)、人工ニューラルネットワーク(ANN)、臨床リスクスコアモデル(Global Registry of acute Coronary Events - GRACE)と比較された。 提案手法は、標準LRと同一の試験結果を得たが、より優れた解釈可能性とパーソナライゼーションを提供し、GRACEリスクモデルと標準ANNモデルよりも大幅に優れていた。 キャリブレーション曲線は、理想曲線に近づくにつれて得られたモデルの非常に良い一般化能力も示唆する。 最後に,個人予測の信頼性推定は,誤分類率と大きな相関を示した。 これらの性質は他の臨床シナリオにも有効である可能性がある。 abridged (複数形 abridgeds)

We intend to create a new risk assessment methodology that combines the best characteristics of both risk score and machine learning models. More specifically, we aim to develop a method that, besides having a good performance, offers a personalized model and outcome for each patient, presents high interpretability, and incorporates an estimation of the prediction reliability which is not usually available. By combining these features in the same approach we expect that it can boost the confidence of physicians to use such a tool in their daily activity. In order to achieve the mentioned goals, a three-step methodology was developed: several rules were created by dichotomizing risk factors; such rules were trained with a machine learning classifier to predict the acceptance degree of each rule (the probability that the rule is correct) for each patient; that information was combined and used to compute the risk of mortality and the reliability of such prediction. The methodology was applied to a dataset of patients admitted with any type of acute coronary syndromes (ACS), to assess the 30-days all-cause mortality risk. The performance was compared with state-of-the-art approaches: logistic regression (LR), artificial neural network (ANN), and clinical risk score model (Global Registry of Acute Coronary Events - GRACE). The proposed approach achieved testing results identical to the standard LR, but offers superior interpretability and personalization; it also significantly outperforms the GRACE risk model and the standard ANN model. The calibration curve also suggests a very good generalization ability of the obtained model as it approaches the ideal curve. Finally, the reliability estimation of individual predictions presented a great correlation with the misclassifications rate. Those properties may have a beneficial application in other clinical scenarios as well. [abridged]
翻訳日:2021-10-19 20:51:55 公開日:2021-10-15
# ドイツ系研究者の帰路移動--scopus bibliometric data 1996-2020を用いた性別・コホート・規律による帰路分析

Return migration of German-affiliated researchers: Analyzing departure and return by gender, cohort, and discipline using Scopus bibliometric data 1996-2020 ( http://arxiv.org/abs/2110.08340v1 )

ライセンス: Link先を確認
Xinyi Zhao, Samin Aref, Emilio Zagheni, and Guy Stecklov(参考訳) 研究者の国際移動は、科学的モビリティの非常に重要な側面であり、かなりの政策論争の動機となっている。 しかし、データ制限のため、研究者のマイグレーションライフコースの追跡は困難である。 本研究では,1996-2020年にドイツから少なくとも1回はアフィリエーション・アドレスを公表した1100万人の研究者による800万冊の出版物について,スコパスの文献データを用いた。 この期間に出版された研究者の生活史を部分的に構築できるいくつかの重要なステップとアルゴリズムについて述べる。 これらのツールによって、ドイツの協力関係を持つ研究者の移住と、このグループのシェアであるリターンの復活の両方を探索できる。 われわれの分析は、ドイツに残る研究者と移住した研究者と最終的に帰国した研究者との間の重要なキャリアステージとジェンダー格差を浮き彫りにした。 還流流路はさらに男女のバランスが悪く、女性研究者をドイツに呼び戻すための追加努力の重要性が指摘されている。 これは、ほとんどの分野において、ドイツを離れる研究者のコホート間でのドイツとの協力関係の低下に関連している。 また、ドイツを離れる研究者や帰国する研究者のコホートの性別構成を考えると、最も男女不均衡な規律に対する男女格差は、還還移動によって緩和される可能性は低い。 本分析は,学術政策開発に不可欠な出版研究者の帰郷を調査し,学術的移住の新たな側面を明らかにする。

The international migration of researchers is a highly prized dimension of scientific mobility and motivates considerable policy debate. However, tracking migration life courses of researchers is challenging due to data limitations. In this study, we use Scopus bibliometric data on 8 million publications from 1.1 million researchers who have published at least once with an affiliation address from Germany in 1996-2020. We describe several key steps and algorithms we develop that enable us to construct the partial life histories of published researchers in this period. These tools allow us to explore both the out-migration of researchers with German affiliations as well as the subsequent return of a share of this group - the returnees. Our analyses shed light on important career stages and gender disparities between researchers who remain in Germany and those who both migrate out and those who eventually return. Return migration streams are even more gender imbalanced and point to the importance of additional efforts to attract female researchers back to Germany. We document a slightly declining trend in return migration with cohorts which, for most disciplines, is associated with decreasing German collaboration ties among cohorts of researchers who leave Germany. Also, gender disparities for the most gender imbalanced disciplines are unlikely to be mitigated by return migration given the gender compositions in cohorts of researchers who leave Germany and those who return. This analysis reveals new dimensions of scholarly migration by investigating the return migration of published researchers which is critical for science policy development.
翻訳日:2021-10-19 20:51:27 公開日:2021-10-15
# マイクロコントローラのネットワーク・プルーニング

Differentiable Network Pruning for Microcontrollers ( http://arxiv.org/abs/2110.08350v1 )

ライセンス: Link先を確認
Edgar Liberis, Nicholas D. Lane(参考訳) 組み込みおよびパーソナルIoTデバイスは、マイクロコントローラユニット(MCU)によって駆動される。 ニューラルネットワークの実行に必要なものと比較して、ストレージ、メモリ、計算能力の桁違いが小さく、ネットワークアーキテクチャに厳格な構造的制約を課し、専門的なモデル圧縮方法論を要求する。 本研究では,モデルのMCU固有の資源使用量とパラメータ重要度フィードバックを統合し,高度に圧縮されかつ正確な分類モデルを得る畳み込みニューラルネットワークのネットワーク解析手法を提案する。 私たちの方法論 (a)80倍までのモデルのキーリソース使用量を改善する。 b) モデルの訓練中に反復的にプーンを鳴らし,その結果,オーバーヘッドが少なく,あるいは訓練時間も改善する。 (c) 従来のMCU固有の手法と比較して、リソース使用率を最大1.7倍に改善した圧縮モデルを生成する。 圧縮されたモデルはダウンロード可能だ。

Embedded and personal IoT devices are powered by microcontroller units (MCUs), whose extreme resource scarcity is a major obstacle for applications relying on on-device deep learning inference. Orders of magnitude less storage, memory and computational capacity, compared to what is typically required to execute neural networks, impose strict structural constraints on the network architecture and call for specialist model compression methodology. In this work, we present a differentiable structured network pruning method for convolutional neural networks, which integrates a model's MCU-specific resource usage and parameter importance feedback to obtain highly compressed yet accurate classification models. Our methodology (a) improves key resource usage of models up to 80x; (b) prunes iteratively while a model is trained, resulting in little to no overhead or even improved training time; (c) produces compressed models with matching or improved resource usage up to 1.7x in less time compared to prior MCU-specific methods. Compressed models are available for download.
翻訳日:2021-10-19 20:51:02 公開日:2021-10-15
# 非対称雑音によるロバスト相関クラスタリング

Robust Correlation Clustering with Asymmetric Noise ( http://arxiv.org/abs/2110.08385v1 )

ライセンス: Link先を確認
Jimit Majmudar, Stephen Vavasis(参考訳) グラフクラスタリングの問題は通常、2つのノードが同じパーティションセットに属するようにグラフノードを分割することを目的としている。 相関クラスタリングは、(1)ノード間の類似性/異質性指標を表す辺重み付き符号付きグラフを入力として、(2)入力グラフのクラスタ数を事前に見積もる必要はない、というグラフクラスタリングの定式化である。 しかし、相関クラスタリングの根底にある組合せ最適化問題はNPハードである。 本研究では,グラフノードの特徴ベクトル/埋め込みの生成に基づく新しいグラフ生成モデルであるノード因子モデル(NFM)を提案する。 NFMが生成したグラフは、負の相関関係を持つ同一クラスタに一対のノードが存在するという意味で非対称ノイズを含む。 半定義型プログラミングの手法を用いて,新しい相関クラスタリングアルゴリズムである \anormdを提案する。 理論と計算結果の組み合わせを用いて, nfm が生成するグラフインスタンスにおいて,$\texttt{$\ell_2$-norm-diag}$ が十分なクラスタメンバシップを持つノードを復元し,提案アルゴリズムの頑健性を確立するための一歩を踏み出した。

Graph clustering problems typically aim to partition the graph nodes such that two nodes belong to the same partition set if and only if they are similar. Correlation Clustering is a graph clustering formulation which: (1) takes as input a signed graph with edge weights representing a similarity/dissimila rity measure between the nodes, and (2) requires no prior estimate of the number of clusters in the input graph. However, the combinatorial optimization problem underlying Correlation Clustering is NP-hard. In this work, we propose a novel graph generative model, called the Node Factors Model (NFM), which is based on generating feature vectors/embeddings for the graph nodes. The graphs generated by the NFM contain asymmetric noise in the sense that there may exist pairs of nodes in the same cluster which are negatively correlated. We propose a novel Correlation Clustering algorithm, called \anormd, using techniques from semidefinite programming. Using a combination of theoretical and computational results, we demonstrate that $\texttt{$\ell_2$-norm-diag}$ recovers nodes with sufficiently strong cluster membership in graph instances generated by the NFM, thereby making progress towards establishing the provable robustness of our proposed algorithm.
翻訳日:2021-10-19 20:50:46 公開日:2021-10-15
# 最小歩数位相とセンサによる歩数に基づく人間識別

Gait-based Human Identification through Minimum Gait-phases and Sensors ( http://arxiv.org/abs/2110.09286v1 )

ライセンス: Link先を確認
Muhammad Zeeshan Arshad, Dawoon Jung, Mina Park, Kyung-Ryoul Mun, and Jinwook Kim(参考訳) 人間の識別は、状態監視、人間と機械の相互作用、スマート環境における補助サービスを提供するための最も一般的かつ重要なタスクの1つである。 近年,人体外見に頑健な距離から接触のない識別を実現するためのバイオメトリクスとして,人間の歩行が注目されている。 しかし、ウェアラブルや画像ベースシステムによる歩行識別の重要な側面は、例えば、歩行周期全体のごく一部または被写体の一部しか見えない場合に、限られた情報が得られる場合に正確な識別を行うことである。 本稿では,異なる歩行相の時間的および記述的統計パラメータを特徴とする歩行識別手法を提案し,最小数のセンサを用いて識別タスクに単一の歩行相のみを使用する性能について検討する。 歩行周期の1つのフェーズを1つのセンサーで監視することで、95.5%以上の精度を達成することが可能であることが示されている。 また, 歩行周期全体を骨盤と足のセンサで観察すると, 提案手法により100%の識別精度が得られることを示した。 ANNはSVMよりも少ないデータ機能に対してより堅牢であることが判明し、この目的のために最高のマシンアルゴリズムとして結論付けられた。

Human identification is one of the most common and critical tasks for condition monitoring, human-machine interaction, and providing assistive services in smart environments. Recently, human gait has gained new attention as a biometric for identification to achieve contactless identification from a distance robust to physical appearances. However, an important aspect of gait identification through wearables and image-based systems alike is accurate identification when limited information is available, for example, when only a fraction of the whole gait cycle or only a part of the subject body is visible. In this paper, we present a gait identification technique based on temporal and descriptive statistic parameters of different gait phases as the features and we investigate the performance of using only single gait phases for the identification task using a minimum number of sensors. It was shown that it is possible to achieve high accuracy of over 95.5 percent by monitoring a single phase of the whole gait cycle through only a single sensor. It was also shown that the proposed methodology could be used to achieve 100 percent identification accuracy when the whole gait cycle was monitored through pelvis and foot sensors combined. The ANN was found to be more robust to fewer data features compared to SVM and was concluded as the best machine algorithm for the purpose.
翻訳日:2021-10-19 20:11:44 公開日:2021-10-15
# 自動視覚検査のためのストリーミング機械学習とオンラインアクティブ学習

Streaming Machine Learning and Online Active Learning for Automated Visual Inspection ( http://arxiv.org/abs/2110.09396v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Elena Trajkova, Paulien Dam, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 品質管理は、製造会社が要求や仕様に準拠した製品を検証するために行う重要な活動である。 標準化された品質管理は、すべての製品が同じ基準で評価されることを保証する。 センサーと接続のコストの削減により、製造のデジタル化が進み、データ可用性が向上した。 このようなデータの可用性は、AIモデルの開発を加速させ、製品の検査時により高度な自動化とバイアスの低減を可能にした。 さらに,検査速度の増大は,欠陥検査に必要な総コストと時間を削減する。 本研究では,Philips Consumer Lifestyle BVが提供する実世界のデータと,視覚的欠陥検査に応用した5つのストリーミング機械学習アルゴリズムを比較した。 さらに、ストリーミングのアクティブラーニングコンテキストで比較することで、現実世界のコンテキストにおけるデータラベリングの労力を削減できる。 以上の結果から,アクティブラーニングにより,分類性能を維持しつつ,データラベル作成に要する労力を平均15%削減できることがわかった。 自動視覚検査のための機械学習モデルの使用は、品質検査を最大40%高速化することが期待されている。

Quality control is a key activity performed by manufacturing companies to verify product conformance to the requirements and specifications. Standardized quality control ensures that all the products are evaluated under the same criteria. The decreased cost of sensors and connectivity enabled an increasing digitalization of manufacturing and provided greater data availability. Such data availability has spurred the development of artificial intelligence models, which allow higher degrees of automation and reduced bias when inspecting the products. Furthermore, the increased speed of inspection reduces overall costs and time required for defect inspection. In this research, we compare five streaming machine learning algorithms applied to visual defect inspection with real-world data provided by Philips Consumer Lifestyle BV. Furthermore, we compare them in a streaming active learning context, which reduces the data labeling effort in a real-world context. Our results show that active learning reduces the data labeling effort by almost 15% on average for the worst case, while keeping an acceptable classification performance. The use of machine learning models for automated visual inspection are expected to speed up the quality inspection up to 40%.
翻訳日:2021-10-19 20:10:42 公開日:2021-10-15
# Omni-sparsity DNN:SupernetによるオンデバイスストリーミングE2E ASRの高速化

Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming E2E ASR via Supernet ( http://arxiv.org/abs/2110.08352v1 )

ライセンス: Link先を確認
Haichuan Yang, Yuan Shangguan, Dilin Wang, Meng Li, Pierce Chuang, Xiaohui Zhang, Ganesh Venkatesh, Ozlem Kalinli, Vikas Chandra(参考訳) ウェアラブルから強力なスマートデバイスに至るまで、現代の自動音声認識(ASR)モデルは、さまざまな計算予算を持つさまざまなエッジデバイス上で動作する。 モデル精度のpareto面とモデルサイズをナビゲートするには、各エッジデバイスに対するトレーニングと微調整によるモデルの精度の最適化というジレンマに閉じ込められ、トレーニングgpu時間をトラクタブルに保たれます。 本稿では,モデルサイズに最適化されたモデルを生成するために,単一ニューラルネットワークを刈り取ることができるOmni-sparsity DNNを提案する。 我々は,単語誤り率 (wer) とモデルサイズ (モデルサイズ) のparetoフロントに沿ってモデルを探索すると同時に,gpu 時間のトレーニングを1つの特異モデルのトレーニング以上のものに保たせる,omni-sparsity dnn のトレーニング戦略を開発した。 ストリーミングE2E ASRモデルを用いたOmni-sparsity DNNを実演する。 以上の結果から,LibriSpeechのトレーニング時間やリソースの保存精度は,個別に分離したスパースモデルに比べて高い2%-6.6%向上した。

From wearables to powerful smart devices, modern automatic speech recognition (ASR) models run on a variety of edge devices with different computational budgets. To navigate the Pareto front of model accuracy vs model size, researchers are trapped in a dilemma of optimizing model accuracy by training and fine-tuning models for each individual edge device while keeping the training GPU-hours tractable. In this paper, we propose Omni-sparsity DNN, where a single neural network can be pruned to generate optimized model for a large range of model sizes. We develop training strategies for Omni-sparsity DNN that allows it to find models along the Pareto front of word-error-rate (WER) vs model size while keeping the training GPU-hours to no more than that of training one singular model. We demonstrate the Omni-sparsity DNN with streaming E2E ASR models. Our results show great saving on training time and resources with similar or better accuracy on LibriSpeech compared to individually pruned sparse models: 2%-6.6% better WER on Test-other.
翻訳日:2021-10-19 18:20:10 公開日:2021-10-15
# wifi信号を用いた自由形行動のための3次元ポーズ推定

3D Human Pose Estimation for Free-form Activity Using WiFi Signals ( http://arxiv.org/abs/2110.08314v1 )

ライセンス: Link先を確認
Yili Ren and Jie Yang(参考訳) wifiの人間センシングは、新しい人間とコンピュータのインタラクションアプリケーションを可能にするためにますます魅力的になっている。 対応する手法は、複数の活動型の分類から、よりきめ細かい人間のポーズの追跡へと徐々に進化してきた。 しかし、既存のwifiベースの3d人間のポーズ追跡は、一連の事前定義されたアクティビティに限定されている。 本研究では,コモディティWiFiデバイスを用いたフリーフォーム活動のための3次元ポーズトラッキングシステムWinectを提案する。 本システムでは、人体の関節からなる3次元骨格ポーズを推定することで、フリーフォーム活動を追跡する。 特に,自由形式の活動追跡を実現するために信号分離と協調運動モデルを組み合わせた。 本システムではまず,人体から反射する信号の2次元的到着角を利用して手足の動きを識別し,各手足の絡み合った信号を分離する。 そして、各手足を追跡し、手足の運動とそれに対応する関節の固有の関係をモデル化して体の3D骨格を構築する。 評価の結果,Winectは環境非依存であり,NLoS(Noth-line-of-s ight)シナリオを含む難易度環境下でのフリーフォーム活動追跡の精度が向上した。

WiFi human sensing has become increasingly attractive in enabling emerging human-computer interaction applications. The corresponding technique has gradually evolved from the classification of multiple activity types to more fine-grained tracking of 3D human poses. However, existing WiFi-based 3D human pose tracking is limited to a set of predefined activities. In this work, we present Winect, a 3D human pose tracking system for free-form activity using commodity WiFi devices. Our system tracks free-form activity by estimating a 3D skeleton pose that consists of a set of joints of the human body. In particular, we combine signal separation and joint movement modeling to achieve free-form activity tracking. Our system first identifies the moving limbs by leveraging the two-dimensional angle of arrival of the signals reflected off the human body and separates the entangled signals for each limb. Then, it tracks each limb and constructs a 3D skeleton of the body by modeling the inherent relationship between the movements of the limb and the corresponding joints. Our evaluation results show that Winect is environment-independ ent and achieves centimeter-level accuracy for free-form activity tracking under various challenging environments including the none-line-of-sight (NLoS) scenarios.
翻訳日:2021-10-19 18:19:17 公開日:2021-10-15
# トロイの木馬検出のためのトポロジカル前駆体を用いたトリガーハンティング

Trigger Hunting with a Topological Prior for Trojan Detection ( http://arxiv.org/abs/2110.08335v1 )

ライセンス: Link先を確認
Xiaoling Hu, Xiao Lin, Michael Cogswell, Yi Yao, Susmit Jha, Chao Chen(参考訳) 成功と人気にもかかわらず、ディープニューラルネットワーク(DNN)はバックドア攻撃に直面すると脆弱である。 これは、特にミッションクリティカルな応用において、広く採用されることを妨げる。 本稿では,トロイの木馬検出の問題,すなわちトロイの木馬モデルの同定について述べる。 一般的なアプローチのひとつにリバースエンジニアリング(リバースエンジニアリング)がある。すなわち,モデルの予測を操作することで,クリーンイメージ上のトリガを回復する。 リバースエンジニアリングアプローチの大きな課題のひとつは、トリガーの巨大な検索スペースである。 この目的のために, 多様性や位相的単純さといった革新的な先行手法を提案し, 適切なトリガーを見つける可能性を高めるだけでなく, トリガーの品質を向上させる。 さらに,様々なトリガー候補を奨励することにより,未知のターゲットラベルの場合に効果的に動作させることができる。 得られたトリガの品質が向上し,TrojAIベンチマークとTrojAIベンチマークの両方で検証されるように,検出精度が大幅に向上することが実証された。

Despite their success and popularity, deep neural networks (DNNs) are vulnerable when facing backdoor attacks. This impedes their wider adoption, especially in mission critical applications. This paper tackles the problem of Trojan detection, namely, identifying Trojaned models -- models trained with poisoned data. One popular approach is reverse engineering, i.e., recovering the triggers on a clean image by manipulating the model's prediction. One major challenge of reverse engineering approach is the enormous search space of triggers. To this end, we propose innovative priors such as diversity and topological simplicity to not only increase the chances of finding the appropriate triggers but also improve the quality of the found triggers. Moreover, by encouraging a diverse set of trigger candidates, our method can perform effectively in cases with unknown target labels. We demonstrate that these priors can significantly improve the quality of the recovered triggers, resulting in substantially improved Trojan detection accuracy as validated on both synthetic and publicly available TrojAI benchmarks.
翻訳日:2021-10-19 18:19:01 公開日:2021-10-15
# 対と未対の医用画像翻訳のギャップを埋める

Bridging the gap between paired and unpaired medical image translation ( http://arxiv.org/abs/2110.08407v1 )

ライセンス: Link先を確認
Pauliina Paavilainen, Saad Ullah Akram, Juho Kannala(参考訳) 医療画像翻訳は、いくつかのシーケンスをキャプチャする必要性をなくし、機械学習手法を開発するためのアノテーションの負担を減らすことで、画像のワークロードを削減できる可能性がある。 GANは、MRIやCTなど、ある領域から別の領域への画像の変換に成功している。 現在、優れた翻訳モデルを学ぶには、ペアデータ(MRとCTの画像の登録)や余分な監督(セグメンテーションマスクなど)が必要である。 複数のモダリティやアノテート構造を登録するのは面倒で面倒な作業です。 したがって、ペアなしデータの翻訳方法を改善する必要がある。 本稿では,CTおよびMRデータを用いて訓練したCT$\rightarrow$MRとMR$\rightarrow$CTの修正ピクセルモデルとMRスキャンから生成したMRATペアについて紹介する。 提案手法では, MR と MRCAT のペア画像を用いて, 入力画像と変換画像の整合性を確保するとともに, MR$\rightarrow$CT モデルがリアルなCTを生成し, CT$\rightarrow$MR モデルが実際のCTを入力としてうまく動作することを保証している。 提案したPix2pix変種は、FIDおよびKIDの観点からベースラインのPix2pix、Pix2pixHD、CycleGANを上回り、よりリアルなCTおよびMR翻訳を生成する。

Medical image translation has the potential to reduce the imaging workload, by removing the need to capture some sequences, and to reduce the annotation burden for developing machine learning methods. GANs have been used successfully to translate images from one domain to another, such as MR to CT. At present, paired data (registered MR and CT images) or extra supervision (e.g. segmentation masks) is needed to learn good translation models. Registering multiple modalities or annotating structures within each of them is a tedious and laborious task. Thus, there is a need to develop improved translation methods for unpaired data. Here, we introduce modified pix2pix models for tasks CT$\rightarrow$MR and MR$\rightarrow$CT, trained with unpaired CT and MR data, and MRCAT pairs generated from the MR scans. The proposed modifications utilize the paired MR and MRCAT images to ensure good alignment between input and translated images, and unpaired CT images ensure the MR$\rightarrow$CT model produces realistic-looking CT and CT$\rightarrow$MR model works well with real CT as input. The proposed pix2pix variants outperform baseline pix2pix, pix2pixHD and CycleGAN in terms of FID and KID, and generate more realistic looking CT and MR translations.
翻訳日:2021-10-19 18:17:38 公開日:2021-10-15
# araucanaxaiによる機械学習モデル予測のツリーベース局所的説明

Tree-based local explanations of machine learning model predictions, AraucanaXAI ( http://arxiv.org/abs/2110.08272v1 )

ライセンス: Link先を確認
Enea Parimbelli, Giovanna Nicora, Szymon Wilk, Wojtek Michalowski, Riccardo Bellazzi(参考訳) 強化、バッグング、ディープラーニングといった複雑な学習手法が増加し、MLモデルはより正確になったが、理解と解釈が困難になった。 パフォーマンスと知性の間のトレードオフは、特に医学のような高度な応用において、しばしば直面する。 本稿では,分類と回帰タスクの両方に対処可能な,特定の例を考慮し,汎用mlモデルの予測を説明するための新しい方法論的手法を提案する。 提案されたXAIアプローチの利点は、元のモデルに対する忠実性の改善、非線形決定境界を扱う能力、分類と回帰の両問題に対するネイティブサポートなどである。

Increasingly complex learning methods such as boosting, bagging and deep learning have made ML models more accurate, but harder to understand and interpret. A tradeoff between performance and intelligibility is often to be faced, especially in high-stakes applications like medicine. In the present article we propose a novel methodological approach for generating explanations of the predictions of a generic ML model, given a specific instance for which the prediction has been made, that can tackle both classification and regression tasks. Advantages of the proposed XAI approach include improved fidelity to the original model, the ability to deal with non-linear decision boundaries, and native support to both classification and regression problems
翻訳日:2021-10-19 17:14:48 公開日:2021-10-15
# nothing wasted:federated edge learningにおけるフルコントリビューションの実施

Nothing Wasted: Full Contribution Enforcement in Federated Edge Learning ( http://arxiv.org/abs/2110.08330v1 )

ライセンス: Link先を確認
Qin Hu, Shengling Wang, Zeihui Xiong, Xiuzhen Cheng(参考訳) ネットワークエッジで生成される爆発的なデータ量によって、モバイルエッジコンピューティングはリアルタイムアプリケーションをサポートする上で不可欠な技術となり、機械学習(ml)技術によって提供される強力なデータ処理と分析を要求する。 特にfederated edge learning(fel)は、mlモデルのトレーニングにローカルにデータを保管することで、データ所有者のプライバシの確保に重点を置いている。 FELに関する既存の研究は、プロセス内最適化を利用するか、事前に資格のない参加者を排除している。 本稿では,FELにおけるすべてのエッジデバイスとのコラボレーションを強化し,MLモデルが学習プロセスの高速化のために利用可能なすべてのローカルデータを用いてトレーニングされていることを保証する。 そこで,本研究では,サーバが経済的損失を心配することなく,全機器の貢献を効果的に導出する上で有効であることを証明した,不完全情報多人間felゲームに基づく集団的強要戦略を提案する。 技術的には,提案するce戦略は,一対一の対戦相手が期待するユーティリティの比率を制御し,一対一のプレイヤ群を迅速に均質に制御することにおいて,古典的強要戦略を拡張する。 さらに、CE戦略はゲーム理論階層を豊かにし、ゆがみ戦略のより広い適用範囲を容易にする。 理論解析および実験評価は,提案手法の有効性と公平性を検証した。

The explosive amount of data generated at the network edge makes mobile edge computing an essential technology to support real-time applications, calling for powerful data processing and analysis provided by machine learning (ML) techniques. In particular, federated edge learning (FEL) becomes prominent in securing the privacy of data owners by keeping the data locally used to train ML models. Existing studies on FEL either utilize in-process optimization or remove unqualified participants in advance. In this paper, we enhance the collaboration from all edge devices in FEL to guarantee that the ML model is trained using all available local data to accelerate the learning process. To that aim, we propose a collective extortion (CE) strategy under the imperfect-informatio n multi-player FEL game, which is proved to be effective in helping the server efficiently elicit the full contribution of all devices without worrying about suffering from any economic loss. Technically, our proposed CE strategy extends the classical extortion strategy in controlling the proportionate share of expected utilities for a single opponent to the swiftly homogeneous control over a group of players, which further presents an attractive trait of being impartial for all participants. Moreover, the CE strategy enriches the game theory hierarchy, facilitating a wider application scope of the extortion strategy. Both theoretical analysis and experimental evaluations validate the effectiveness and fairness of our proposed scheme.
翻訳日:2021-10-19 17:14:36 公開日:2021-10-15
# FedSLD:医療画像分類のための共有ラベル分布を用いたフェデレーション学習

FedSLD: Federated Learning with Shared Label Distribution for Medical Image Classification ( http://arxiv.org/abs/2110.08378v1 )

ライセンス: Link先を確認
Jun Luo, Shandong Wu(参考訳) 医学研究における機械学習は、データプライバシの規則に従うことに注意が必要であるため、異なる医療センターから収集されたデータに対して機械学習モデルをトレーニングすることは困難である。 同じ種類のデータを活用するのに失敗すると、訓練されたモデルの一般化性が低下する可能性がある。 フェデレートラーニング(FL)は、複数の医療センターでデータを分散化しながら、共同モデルを協調的に訓練することを可能にする。 しかし、連合最適化はしばしば医療センター間でのデータの均質性に苦しむ。 本研究は,フェデレーションに参加するすべてのクライアントに対して,ラベル分布の知識を前提とした分類タスクのためのFederated Learning with Shared Label Distribution (FedSLD)を提案する。 fedsldは、分散に関する知識を与えられた最適化中に、各データサンプルのローカル目的への貢献を調整し、全クライアントにわたるデータの不均一性による不安定さを軽減する。 非IIDデータ分布の異なる4種類の公開画像データセットについて広範な実験を行った。 その結果,FedSLDは従来のFL最適化アルゴリズムよりも優れた収束性能を示し,テスト精度を最大5.50ポイント向上させることができた。

Machine learning in medical research, by nature, needs careful attention on obeying the regulations of data privacy, making it difficult to train a machine learning model over gathered data from different medical centers. Failure of leveraging data of the same kind may result in poor generalizability for the trained model. Federated learning (FL) enables collaboratively training a joint model while keeping the data decentralized for multiple medical centers. However, federated optimizations often suffer from the heterogeneity of the data distribution across medical centers. In this work, we propose Federated Learning with Shared Label Distribution (FedSLD) for classification tasks, a method that assumes knowledge of the label distributions for all the participating clients in the federation. FedSLD adjusts the contribution of each data sample to the local objective during optimization given knowledge of the distribution, mitigating the instability brought by data heterogeneity across all clients. We conduct extensive experiments on four publicly available image datasets with different types of non-IID data distributions. Our results show that FedSLD achieves better convergence performance than the compared leading FL optimization algorithms, increasing the test accuracy by up to 5.50 percentage points.
翻訳日:2021-10-19 17:14:10 公開日:2021-10-15
# Adapt to Adaptation:Learning Personalization for Cross-Silo Federated Learning

Adapt to Adaptation: Learning Personalization for Cross-Silo Federated Learning ( http://arxiv.org/abs/2110.08394v1 )

ライセンス: Link先を確認
Jun Luo, Shandong Wu(参考訳) 従来のフェデレーション学習(fl)の目的は、分散データを持つクライアントのフェデレーションのためのグローバルモデルをトレーニングすることであり、集中型トレーニングのシステム的プライバシーリスクを低減させる。 非IIDデータセット間の分散シフトは、データヘテロジニティとしても知られ、この1つのグローバルモデルに適合するソリューションにしばしば挑戦する。 本稿では、各クライアントが他のクライアントのモデルからどれだけの恩恵を受けられるかを適応的に学習する、パーソナライズされたクロスサイロFLフレームワークであるAPPLEを提案する。 また,グローバルとローカルの目標間のAPPLEトレーニングの焦点を柔軟に制御する手法も導入する。 提案手法の収束と一般化挙動を実証的に評価し,2つのベンチマークデータセットと2つの医用画像データセットを2つの非IID環境下で広範囲に実験した。 提案するパーソナライズされたFLフレームワークであるAPPLEは,文学における他のいくつかのパーソナライズされたFLアプローチと比較して,最先端のパフォーマンスを実現する。

The goal of conventional federated learning (FL) is to train a global model for a federation of clients with decentralized data, reducing the systemic privacy risk of centralized training. The distribution shift across non-IID datasets, also known as the data heterogeneity, often poses a challenge for this one-global-model-fit s-all solution. In this work, we propose APPLE, a personalized cross-silo FL framework that adaptively learns how much each client can benefit from other clients' models. We also introduce a method to flexibly control the focus of training APPLE between global and local objectives. We empirically evaluate our method's convergence and generalization behavior and performed extensive experiments on two benchmark datasets and two medical imaging datasets under two non-IID settings. The results show that the proposed personalized FL framework, APPLE, achieves state-of-the-art performance compared to several other personalized FL approaches in the literature.
翻訳日:2021-10-19 17:13:52 公開日:2021-10-15
# rlにおける効果的な抽象化のための動的確率論理モデル

Dynamic probabilistic logic models for effective abstractions in RL ( http://arxiv.org/abs/2110.08318v1 )

ライセンス: Link先を確認
Harsha Kokel, Arjun Manoharan, Sriraam Natarajan, Balaraman Ravindran, Prasad Tadepalli(参考訳) 状態抽象化は、複雑な強化学習環境におけるサンプル効率の学習とタスク転送の改善を可能にする。 最近我々はRePReL(Kokel et al. 2021)を提案した。これは階層的なフレームワークで、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。 本稿では、このフレームワークの概要と、これらの状態抽象化を設計するための動的確率論理モデルについて述べる。 実験の結果,RePReLは手前のタスクにおいて,より優れた性能と効率的な学習を実現するだけでなく,見つからないタスクに対するより良い一般化も示している。

State abstraction enables sample-efficient learning and better task transfer in complex reinforcement learning environments. Recently, we proposed RePReL (Kokel et al. 2021), a hierarchical framework that leverages a relational planner to provide useful state abstractions for learning. We present a brief overview of this framework and the use of a dynamic probabilistic logic model to design these state abstractions. Our experiments show that RePReL not only achieves better performance and efficient learning on the task at hand but also demonstrates better generalization to unseen tasks.
翻訳日:2021-10-19 16:39:31 公開日:2021-10-15
# HyperSeed: ベクトルシンボリックアーキテクチャによる教師なし学習

HyperSeed: Unsupervised Learning with Vector Symbolic Architectures ( http://arxiv.org/abs/2110.08343v1 )

ライセンス: Link先を確認
Evgeny Osipov, Sachin Kahawala, Dilantha Haputhanthri, Thimal Kempitiya, Daswin De Silva, Damminda Alahakoon, Denis Kleyko(参考訳) 本稿では,生物にインスパイアされたニューロモルフィックハードウェアの最近の革新に触発され,非競合データのトポロジ保存機能マップを高速に学習するためにベクトル記号アーキテクチャ(VSA)を活用する,Hyperseedという新しい教師なし機械学習アプローチを提案する。 vsasの主な機能であるバインディング操作とスーパーポジションでのコンピューティングの2つに依存している。 本稿では,Fourier Holographic Reduced Representations VSAモデルで表現されるHyperseedのアルゴリズム的部分を紹介する。 ハイパーシードアルゴリズムの2つの特徴は次のとおりである。 1)わずかな入力データサンプルから学ぶこと、及び 2) 1つのベクトル演算に基づく学習規則。 これらの特性は,n-gram統計量を用いた実測的ベンチマーク,IRIS分類,言語識別タスクだけでなく,合成データセット上でも実証される。

Motivated by recent innovations in biologically-inspire d neuromorphic hardware, this paper presents a novel unsupervised machine learning approach named Hyperseed that leverages Vector Symbolic Architectures (VSA) for fast learning a topology preserving feature map of unlabelled data. It relies on two major capabilities of VSAs: the binding operation and computing in superposition. In this paper, we introduce the algorithmic part of Hyperseed expressed within Fourier Holographic Reduced Representations VSA model, which is specifically suited for implementation on spiking neuromorphic hardware. The two distinctive novelties of the Hyperseed algorithm are: 1) Learning from only few input data samples and 2) A learning rule based on a single vector operation. These properties are demonstrated on synthetic datasets as well as on illustrative benchmark use-cases, IRIS classification and a language identification task using n-gram statistics.
翻訳日:2021-10-19 16:39:19 公開日:2021-10-15
# テキスト要約モデルのトレーニングダイナミクス

Training Dynamics for Text Summarization Models ( http://arxiv.org/abs/2110.08370v1 )

ライセンス: Link先を確認
Tanya Goyal, Jiacheng Xu, Junyi Jessy Li, Greg Durrett(参考訳) 事前訓練された言語モデル(例えばBART)は、大規模な要約データセットで微調整された場合、印象的な結果を示している。 しかし、この微調整プロセスについては、事前学習モデルから保持されている知識や、コンテンツの選択と生成戦略がイテレーション間でどのように学習されるかなど、ほとんど理解されていない。 本研究では,ニュース要約に着目し,生成モデルのトレーニングダイナミクスを分析する。 各データセット(CNN/DM, XSum, MediaSum)と抽象性や幻覚といった要約特性を網羅し,その微調整過程の異なる段階でモデルがどのように学習するかを検討する。 コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢である。 一方、否定的事実の幻覚のような事実的誤りは後期段階に学習され、その行動はドメインによって異なる。 これらの観察に基づいて、我々はトレーニングを修正するための補完的なアプローチを探る: 第一に、学習が困難な高損失トークンを無視し、第二に、非常に早く学習される低損失トークンを無視します。 この単純なトレーニング修正により、現実性の向上や抽象性の向上など、異なる目標を達成するためのモデルの設定が可能になります。

Pre-trained language models (e.g. BART) have shown impressive results when fine-tuned on large summarization datasets. However, little is understood about this fine-tuning process, including what knowledge is retained from pre-training models or how content selection and generation strategies are learnt across iterations. In this work, we analyze the training dynamics for generation models, focusing on news summarization. Across different datasets (CNN/DM, XSum, MediaSum) and summary properties, such as abstractiveness and hallucination, we study what the model learns at different stages of its fine-tuning process. We find that properties such as copy behavior are learnt earlier in the training process and these observations are robust across domains. On the other hand, factual errors, such as hallucination of unsupported facts, are learnt in the later stages, and this behavior is more varied across domains. Based on these observations, we explore complementary approaches for modifying training: first, disregarding high-loss tokens that are challenging to learn and second, disregarding low-loss tokens that are learnt very quickly. This simple training modification allows us to configure our model to achieve different goals, such as improving factuality or improving abstractiveness.
翻訳日:2021-10-19 15:47:03 公開日:2021-10-15
# 生成型会話ネットワークを用いた会話エージェントの訓練

Training Conversational Agents with Generative Conversational Networks ( http://arxiv.org/abs/2110.08383v1 )

ライセンス: Link先を確認
Yen-Ting Lin, Alexandros Papangelis, Seokhwan Kim, Dilek Hakkani-Tur(参考訳) webで利用可能なリッチでオープンドメインなテキストデータは、言語処理の大きな進歩をもたらした。 しかし、そのデータは言語処理タスクに適しているかもしれないが、それらはほとんど会話的ではなく、人間のインタラクションに現れる多くの現象を欠いている。 本研究では、生成会話ネットワークを用いて、データの自動生成とソーシャル対話エージェントの訓練を行う。 自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。

Rich, open-domain textual data available on the web resulted in great advancements for language processing. However, while that data may be suitable for language processing tasks, they are mostly non-conversational, lacking many phenomena that appear in human interactions and this is one of the reasons why we still have many unsolved challenges in conversational AI. In this work, we attempt to address this by using Generative Conversational Networks to automatically generate data and train social conversational agents. We evaluate our approach on TopicalChat with automatic metrics and human evaluators, showing that with 10% of seed data it performs close to the baseline that uses 100% of the data.
翻訳日:2021-10-19 15:46:42 公開日:2021-10-15
# DS-TOD:タスク指向ダイアログのための効率的なドメインスペシャライゼーション

DS-TOD: Efficient Domain Specialization for Task Oriented Dialog ( http://arxiv.org/abs/2110.08395v1 )

ライセンス: Link先を確認
Chia-Chien Hung, Anne Lauscher, Simone Paolo Ponzetto, Goran Glava\v{s}(参考訳) 近年の研究では、大規模対話データセット上での自己教師型ダイアログ固有の事前学習が、下流タスク指向ダイアログ(TOD)における従来の言語モデリング(LM)よりも大幅に向上することが示されている。 しかしながら、これらのアプローチは一般的なダイアログコーパス(例えばReddit)を利用するため、おそらく、ダウンストリームTODドメインに有用なドメイン固有の知識を確実に組み込むことができない。 本研究では,タスク指向ダイアログに対する事前学習言語モデル(plm)のドメイン特化の効果について検討する。 当社のds-todフレームワークでは、まずはドメイン固有の用語を自動的に抽出して、ドメイン固有の事前トレーニングに活用するリソースであるdomainccとdomainredditの構築に使用します。 (i)仮面言語モデリング(MLM)及び (ii) それぞれ応答選択(RS) 目標。 さらに、ドメインアダプタ(ドメインの知識をエンコードするパラメータライト層)によって、リソース効率が高くモジュール化されたドメイン特化を提案します。 ダイアログ状態追跡(DST)と応答検索(RR)という2つの主要なTODタスクを用いた実験により,MultiWOZ TODベンチマークから5つのドメインを抽出し,ドメインの特殊化手法の有効性を実証した。 さらに, 軽量アダプタによる特殊化(1) は, シングルドメイン設定の完全な微調整と相性が良く, (2) マルチドメインの特殊化に特に適しており, 有利な計算フットプリントに加えて, 下流性能の向上が期待できることを示した。

Recent work has shown that self-supervised dialog-specific pretraining on large conversational datasets yields substantial gains over traditional language modeling (LM) pretraining in downstream task-oriented dialog (TOD). These approaches, however, exploit general dialogic corpora (e.g., Reddit) and thus presumably fail to reliably embed domain-specific knowledge useful for concrete downstream TOD domains. In this work, we investigate the effects of domain specialization of pretrained language models (PLMs) for task-oriented dialog. Within our DS-TOD framework, we first automatically extract salient domain-specific terms, and then use them to construct DomainCC and DomainReddit -- resources that we leverage for domain-specific pretraining, based on (i) masked language modeling (MLM) and (ii) response selection (RS) objectives, respectively. We further propose a resource-efficient and modular domain specialization by means of domain adapters -- additional parameter-light layers in which we encode the domain knowledge. Our experiments with two prominent TOD tasks -- dialog state tracking (DST) and response retrieval (RR) -- encompassing five domains from the MultiWOZ TOD benchmark demonstrate the effectiveness of our domain specialization approach. Moreover, we show that the light-weight adapter-based specialization (1) performs comparably to full fine-tuning in single-domain setups and (2) is particularly suitable for multi-domain specialization, in which, besides advantageous computational footprint, it can offer better downstream performance.
翻訳日:2021-10-19 15:46:30 公開日:2021-10-15
# システム同定のためのニューラルネットワークアンサンブルアプローチ

A Neural Network Ensemble Approach to System Identification ( http://arxiv.org/abs/2110.08382v1 )

ライセンス: Link先を確認
Elisa Negrini, Giovanna Citti, Luca Capogna(参考訳) 本稿では,ニューラルネットを用いた軌道データから未知の制御方程式を学習するための新しいアルゴリズムを提案する。 解のサンプル $x(t)$ を未知の力学系 $\dot{x}(t)=f(t,x(t))$ に与えると、ニューラルネットワークのアンサンブルを用いて関数 $f$ を近似する。 方程式を積分形式で表現し、Euler法を用いて、各反復で異なるニューラルネットワークを$f$の先行値として使用し、連続する時間ステップ毎に解を予測する。 この手順は M-1 の時間に依存しないネットワークをもたらし、M は $x(t)$ が観測される時間ステップの数である。 最後に、ニューラルネットワークの補間によって1つの関数$f(t,x(t))$を得る。 従来のデータデリバティブを数値計算し、リプシッツ正規化ニューラルネットワークのターゲットとして使用してf$を近似し、ノイズの存在下で不安定な数値微分を回避した。 データ内のノイズの有無に関わらず,複数のサンプルで新しいアルゴリズムをテストした。 本稿では,損失関数にリプシッツ正規化項を付加することにより,制御方程式の一般化と回復が向上し,特にノイズの存在下では,数値微分が低品質な目標データを提供する場合,前者を改善することを実証的に示す。 最後に,Raissi, et al. arXiv:1801.01236 (2018) と SINDy とを比較した。

We present a new algorithm for learning unknown governing equations from trajectory data, using and ensemble of neural networks. Given samples of solutions $x(t)$ to an unknown dynamical system $\dot{x}(t)=f(t,x(t))$, we approximate the function $f$ using an ensemble of neural networks. We express the equation in integral form and use Euler method to predict the solution at every successive time step using at each iteration a different neural network as a prior for $f$. This procedure yields M-1 time-independent networks, where M is the number of time steps at which $x(t)$ is observed. Finally, we obtain a single function $f(t,x(t))$ by neural network interpolation. Unlike our earlier work, where we numerically computed the derivatives of data, and used them as target in a Lipschitz regularized neural network to approximate $f$, our new method avoids numerical differentiations, which are unstable in presence of noise. We test the new algorithm on multiple examples both with and without noise in the data. We empirically show that generalization and recovery of the governing equation improve by adding a Lipschitz regularization term in our loss function and that this method improves our previous one especially in presence of noise, when numerical differentiation provides low quality target data. Finally, we compare our results with the method proposed by Raissi, et al. arXiv:1801.01236 (2018) and with SINDy.
翻訳日:2021-10-19 15:32:16 公開日:2021-10-15
# クエリ焦点抽出によるアスペクト指向の要約

Aspect-Oriented Summarization through Query-Focused Extraction ( http://arxiv.org/abs/2110.08296v1 )

ライセンス: Link先を確認
Ojas Ahuja, Jiacheng Xu, Akshay Gupta, Kevin Horecka, Greg Durrett(参考訳) 特定のトピックに興味のある読者は、単にほとんどの要約システムが生成する一般的な要約を見るのではなく、そのトピックに関するドキュメントを特定のフォーカスで要約することに興味があるかもしれない。 クエリにフォーカスした要約が先行研究で検討されているが、ドキュメント固有の質問や合成データの観点から、これはしばしばアプローチされる。 実際のユーザのニーズは、多くの場合、特定のクエリではなく、ユーザが関心を持つデータセットの幅広いトピックという側面に密接に当てはまる。 本稿では,ニュースサブドメインにおける記事に関するさまざまなサブトピックをカバーする,現実的なアスペクト指向テストケースAspectNewsのデータセットを収集する。 次に,合成データを構築可能なクエリ指向手法が,このアスペクト指向設定をどのように扱うかを検討する: 抽出型クエリ指向トレーニングスキームをベンチマークし,モデルの学習のための対比的拡張手法を提案する。 我々は2つのアスペクト指向データセットについて評価し、このアプローチの結果を見出す。 (a)単純なキーワードマッチングを超越した一般的な要約システムよりも、焦点を絞った要約。 (b)キーワードの選択に敏感なシステム。

A reader interested in a particular topic might be interested in summarizing documents on that subject with a particular focus, rather than simply seeing generic summaries produced by most summarization systems. While query-focused summarization has been explored in prior work, this is often approached from the standpoint of document-specific questions or on synthetic data. Real users' needs often fall more closely into aspects, broad topics in a dataset the user is interested in rather than specific queries. In this paper, we collect a dataset of realistic aspect-oriented test cases, AspectNews, which covers different subtopics about articles in news sub-domains. We then investigate how query-focused methods, for which we can construct synthetic data, can handle this aspect-oriented setting: we benchmark extractive query-focused training schemes, and propose a contrastive augmentation approach to train the model. We evaluate on two aspect-oriented datasets and find this approach yields (a) focused summaries, better than those from a generic summarization system, which go beyond simple keyword matching; (b) a system sensitive to the choice of keywords.
翻訳日:2021-10-19 15:30:28 公開日:2021-10-15
# 推薦者評価と有効性における人気と人口バイアスの再検討

Revisiting Popularity and Demographic Biases in Recommender Evaluation and Effectiveness ( http://arxiv.org/abs/2110.08353v1 )

ライセンス: Link先を確認
Nicola Neophytou, Bhaskar Mitra and Catherine Stinson(参考訳) レコメンデーションアルゴリズムは人気バイアスの影響を受けやすい:ユーザーのニーズに合わなかったとしても人気アイテムを推奨する傾向がある。 関連する問題は、レコメンデーションの品質が人口集団によって異なることである。 トレーニングデータに不足して表現されていないグループやグループには、他のグループに比べて、これらのアルゴリズムによる推奨が少なくなる可能性がある。 最近の研究では、Ekstrandらは、人気や人口統計によってレコメンダのパフォーマンスがどのように変化するかを調査し、2つのデータセットにおける2進性間のレコメンデーションユーティリティの統計的に有意な差異と、1つのデータセットにおける年齢による顕著な影響を見出した。 ここでは、これらの結果を再現し、さらなる分析を加えて拡張する。 年齢,性別ともに,推薦者のパフォーマンスに有意差が認められた。 我々は、推奨ユーティリティが高齢ユーザーにとって着実に低下し、女性にとっては男性よりも低いことを観察する。 また、データセットにより多くの表現がある国からのユーザの方が、ユーティリティが高いことも分かりました。 さらに, 消費コンテンツの総利用状況と人気度は, 推薦者評価の強い予測要因であり, また, 人口集団によって大きく異なることがわかった。

Recommendation algorithms are susceptible to popularity bias: a tendency to recommend popular items even when they fail to meet user needs. A related issue is that the recommendation quality can vary by demographic groups. Marginalized groups or groups that are under-represented in the training data may receive less relevant recommendations from these algorithms compared to others. In a recent study, Ekstrand et al. investigate how recommender performance varies according to popularity and demographics, and find statistically significant differences in recommendation utility between binary genders on two datasets, and significant effects based on age on one dataset. Here we reproduce those results and extend them with additional analyses. We find statistically significant differences in recommender performance by both age and gender. We observe that recommendation utility steadily degrades for older users, and is lower for women than men. We also find that the utility is higher for users from countries with more representation in the dataset. In addition, we find that total usage and the popularity of consumed content are strong predictors of recommender performance and also vary significantly across demographic groups.
翻訳日:2021-10-19 15:09:15 公開日:2021-10-15
# SGEN: シングルセルシークエンシンググラフ自己教師型埋め込みネットワーク

SGEN: Single-cell Sequencing Graph Self-supervised Embedding Network ( http://arxiv.org/abs/2110.09413v1 )

ライセンス: Link先を確認
Ziyi Liu, Minghui Liao, Fulin luo, Bo Du(参考訳) 単細胞シークエンシングは、胚発生、がんの進化、細胞分化などの生物学的過程を研究する上で重要な役割を担っている。 これらの生物学的性質は2次元散乱プロットによって示される。 しかし、単細胞シーケンシングデータは一般に非常に高い次元を持つ。 したがって,2次元ビジュアライゼーションとその後の生物学的解析のために,高次元シークエンシングデータを処理するために次元縮小を用いる必要がある。 単一セルシークエンシングデータの構造特性を考慮しない従来の次元減少法では,2次元表現におけるデータ構造を明らかにすることは困難である。 本稿では,単細胞データ可視化のためのグラフ畳み込みネットワーク(gcn)に基づく2次元特徴表現法であるsgen(single-cell sequencing graph embedded networks)を開発した。 本手法は, セル間の類似性関係を用いてグラフを構築し, GCNを用いてサンプルの隣接埋め込み情報を解析し, 類似セルを2次元散乱プロット上で互いに近接させる。 その結果、SGENは明らかな2次元分布を達成し、異なる細胞の高次元的な関係を保っていることがわかった。 一方、類似の細胞クラスターは、ランダム初期化に大きく依存するのではなく、空間的連続性を持ち、この散乱プロットにおける細胞発達の軌跡を反映することができる。

Single-cell sequencing has a significant role to explore biological processes such as embryonic development, cancer evolution, and cell differentiation. These biological properties can be presented by a two-dimensional scatter plot. However, single-cell sequencing data generally has very high dimensionality. Therefore, dimensionality reduction should be used to process the high dimensional sequencing data for 2D visualization and subsequent biological analysis. The traditional dimensionality reduction methods, which do not consider the structure characteristics of single-cell sequencing data, are difficult to reveal the data structure in the 2D representation. In this paper, we develop a 2D feature representation method based on graph convolutional networks (GCN) for the visualization of single-cell data, termed single-cell sequencing graph embedding networks (SGEN). This method constructs the graph by the similarity relationship between cells and adopts GCN to analyze the neighbor embedding information of samples, which makes the similar cell closer to each other on the 2D scatter plot. The results show SGEN achieves obvious 2D distribution and preserves the high-dimensional relationship of different cells. Meanwhile, similar cell clusters have spatial continuity rather than relying heavily on random initialization, which can reflect the trajectory of cell development in this scatter plot.
翻訳日:2021-10-19 15:01:06 公開日:2021-10-15
# 重みと活性化の連成量子化とプルーニングによる深部ニューラルネットワークの訓練

Training Deep Neural Networks with Joint Quantization and Pruning of Weights and Activations ( http://arxiv.org/abs/2110.08271v1 )

ライセンス: Link先を確認
Xinyu Zhang, Ian Colbert, Ken Kreutz-Delgado, Srinjoy Das(参考訳) 量子化とプルーニングは、ディープニューラルネットワークの推論コストを削減するために使用されるコアテクニックである。 最先端の量子化技術は現在、重み付けとアクティベーションの両方に適用されるが、ネットワークの重み付けにしか適用されないことが多い。 本研究では、トレーニング中の深部ニューラルネットワークの重みと活性化の両方に、新しい均一量子化法と非構造化プルーニング法を併用する。 提案手法を用いて,幅広いコンピュータビジョンタスクにおいて,現在受け入れられているプルーネ量子化パラダイムを実証的に評価し,ディープニューラルネットワークの重みとアクティベーションの両方に適用した場合に,非可換性を観察する。 与えられたディープニューラルネットワークが特定のタスクのためにトレーニングされている場合、量子化とプルーニングを導入してネットワーク性能を最適化する正確なトレーニングスケジュールが存在します。 この最適順序付けは存在するだけでなく、識別的タスクや生成的タスクによっても異なる。 トレーニングフレームワーク内で最適なトレーニングスケジュールを使用することで、既存のソリューションよりもメモリフットプリント当たりのパフォーマンスが向上することを示した。

Quantization and pruning are core techniques used to reduce the inference costs of deep neural networks. State-of-the-art quantization techniques are currently applied to both the weights and activations; however, pruning is most often applied to only the weights of the network. In this work, we jointly apply novel uniform quantization and unstructured pruning methods to both the weights and activations of deep neural networks during training. Using our methods, we empirically evaluate the currently accepted prune-then-quantize paradigm across a wide range of computer vision tasks and observe a non-commutative nature when applied to both the weights and activations of deep neural networks. Informed by these observations, we articulate the non-commutativity hypothesis: for a given deep neural network being trained for a specific task, there exists an exact training schedule in which quantization and pruning can be introduced to optimize network performance. We identify that this optimal ordering not only exists, but also varies across discriminative and generative tasks. Using the optimal training schedule within our training framework, we demonstrate increased performance per memory footprint over existing solutions.
翻訳日:2021-10-19 14:32:45 公開日:2021-10-15
# ベイジアンアプローチによる自動鑑別診断における医学的探究と疾患推論

A Bayesian Approach for Medical Inquiry and Disease Inference in Automated Differential Diagnosis ( http://arxiv.org/abs/2110.08393v1 )

ライセンス: Link先を確認
Hong Guan and Chitta Baral(参考訳) 鑑別診断における2つの主要な段階である,医学的問診と疾患推論の両方に対するベイズ的アプローチを提案する。 与えられた確率からデータをシミュレートし、その上でMLアルゴリズムを使用する従来の研究とは異なり、クイックメディカルリファレンス(QMR)信念ネットワークを直接使用し、推論フェーズにベイズ推論を適用し、調査フェーズにベイズ実験設計を適用する。 さらに,ベイズ実験設計フレームワークを一段階探索から多段階探索に拡張し,問合せ段階を改善する。 我々のアプローチには、解釈可能で、コストのかかるトレーニングがなく、追加の労力なしで新しい変更に適応できるという、いくつかの実用的な利点があります。 実験の結果,SymCATとHPOの2つのシミュレーションデータセットと,MuzhiとDxyの2つの診断ダイアログデータセットの競合結果について,最新の結果が得られた。

We propose a Bayesian approach for both medical inquiry and disease inference, the two major phases in differential diagnosis. Unlike previous work that simulates data from given probabilities and uses ML algorithms on them, we directly use the Quick Medical Reference (QMR) belief network, and apply Bayesian inference in the inference phase and Bayesian experimental design in the inquiry phase. Moreover, we improve the inquiry phase by extending the Bayesian experimental design framework from one-step search to multi-step search. Our approach has some practical advantages as it is interpretable, free of costly training, and able to adapt to new changes without any additional effort. Our experiments show that our approach achieves new state-of-the-art results on two simulated datasets, SymCAT and HPO, and competitive results on two diagnosis dialogue datasets, Muzhi and Dxy.
翻訳日:2021-10-19 14:16:24 公開日:2021-10-15
# 変圧器カーネルの学習について

On Learning the Transformer Kernel ( http://arxiv.org/abs/2110.08323v1 )

ライセンス: Link先を確認
Sankalan Pal Chowdhury, Adamos Solomou, Avinava Dubey and Mrinmaya Sachan(参考訳) 本稿では,カーネル関数をトランスフォーマーで学習するための汎用的でスケーラブルなデータ駆動フレームワークであるKERNELIZED TransformERを紹介する。 本フレームワークは,スペクトル特徴写像間のドット積としてTransformerカーネルを近似し,スペクトル分布を学習してカーネルを学習する。 これは汎用カーネルのエンドツーエンドの学習に役立つだけでなく、トランスフォーマーの時間と空間の複雑さを2次から線形に短縮する。 我々は,KERNELIZED TransformERSが,精度と計算効率の両面で,既存の効率的なTransformerアーキテクチャに匹敵する性能を実現することを示す。 本研究は,カーネルの選択が性能に多大な影響を与え,カーネル学習の亜種がカーネルトランスフォーマーの長短および短短のタスクに対する競合的な代替手段であることを示す。

In this work we introduce KERNELIZED TRANSFORMER, a generic, scalable, data driven framework for learning the kernel function in Transformers. Our framework approximates the Transformer kernel as a dot product between spectral feature maps and learns the kernel by learning the spectral distribution. This not only helps in learning a generic kernel end-to-end, but also reduces the time and space complexity of Transformers from quadratic to linear. We show that KERNELIZED TRANSFORMERS achieve performance comparable to existing efficient Transformer architectures, both in terms of accuracy as well as computational efficiency. Our study also demonstrates that the choice of the kernel has a substantial impact on performance, and kernel learning variants are competitive alternatives to fixed kernel Transformers, both in long as well as short sequence tasks.
翻訳日:2021-10-19 14:03:32 公開日:2021-10-15
# 自己教師付きコントラスト有意グラフクラスタリング

Self-supervised Contrastive Attributed Graph Clustering ( http://arxiv.org/abs/2110.08264v1 )

ライセンス: Link先を確認
Wei Xia, Quanxue Gao, Ming Yang, Xinbo Gao(参考訳) ノード属性からノード表現を学習する分散グラフクラスタリングと,クラスタリングのためのトポロジグラフは,グラフ解析の基本的だが難しい課題である。 近年,グラフコントラッシブ・ラーニング(GCL)に基づく手法により,この課題に対して優れたクラスタリング性能が得られた。 しかし、既存のgclベースの手法は 1)不正確なクラスタリングラベルの恩恵を受けない 2) クラスタリングラベルを取得するには,後処理操作が必要である。 3) サンプル外問題(OOS)は解決できない。 これらの問題に対処するため,我々は,自己管理型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。 SCAGCでは,クラスタ間ノードの類似性を最小化しつつ,クラスタ間ノードの類似性を最大化することを目的とした,自己監督型コントラスト損失がノード表現学習のために設計されている。 一方、クラスタリングモジュールは、異なるクラスタの表現を対比してクラスタリングラベルを直接出力するように構築されている。 したがって、OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。 4つのベンチマークデータセットの大規模な実験結果によると、SCAGCは11の競合クラスタリングメソッドより一貫して優れています。

Attributed graph clustering, which learns node representation from node attribute and topological graph for clustering, is a fundamental but challenging task for graph analysis. Recently, methods based on graph contrastive learning (GCL) have obtained impressive clustering performance on this task. Yet, we observe that existing GCL-based methods 1) fail to benefit from imprecise clustering labels; 2) require a post-processing operation to get clustering labels; 3) cannot solve out-of-sample (OOS) problem. To address these issues, we propose a novel attributed graph clustering network, namely Self-supervised Contrastive Attributed Graph Clustering (SCAGC). In SCAGC, by leveraging inaccurate clustering labels, a self-supervised contrastive loss, which aims to maximize the similarities of intra-cluster nodes while minimizing the similarities of inter-cluster nodes, are designed for node representation learning. Meanwhile, a clustering module is built to directly output clustering labels by contrasting the representation of different clusters. Thus, for the OOS nodes, SCAGC can directly calculate their clustering labels. Extensive experimental results on four benchmark datasets have shown that SCAGC consistently outperforms 11 competitive clustering methods.
翻訳日:2021-10-19 13:58:46 公開日:2021-10-15
# 顔認識における人間と機械バイアスの比較

Comparing Human and Machine Bias in Face Recognition ( http://arxiv.org/abs/2110.08396v1 )

ライセンス: Link先を確認
Samuel Dooley, Ryan Downing, George Wei, Nathan Shankar, Bradon Thymes, Gudrun Thorkelsdottir, Tiye Kurtz-Miott, Rachel Mattson, Olufemi Obiwumi, Valeriia Cherepanova, Micah Goldblum, John P Dickerson, Tom Goldstein(参考訳) 近年の研究では、顔分析技術におけるバイアスの深刻な懸念が指摘され、性別、肌の種類、照明条件などに基づく集団間のパフォーマンス格差が指摘されている。 これらの監査はアルゴリズムバイアスの測定に非常に重要かつ成功したが、2つの大きな課題がある。(1)監査はlfwやcelebaのような品質メタデータを欠いた顔認識データセットを使用し、(2)観察されたアルゴリズムバイアスを人間の代替品のバイアスと比較しない。 本稿では,LFWデータセットとCelebAデータセットの改良版を公開し,将来の研究者がデータセットの大きな欠陥(ギャラリーとテストセットの両方に同一の画像が現れるなど)の影響を受けないアルゴリズムバイアスの測定値を得ることを可能にする。 また、これらの新しいデータを使って、さまざまなアルゴリズムや人間レビュアーの大きなバランスの取れたサンプルに対して、顔の識別と検証に挑戦する一連の質問を作成した。 その結果,コンピュータモデルと人体調査の被験者はともに検証作業において有意に成績が良く,暗黒肌の被験者や女性の被験者の両タスクの正確度が低く,質問の年齢層と一致した場合に高い精度が得られることがわかった。 コンピュータモデルは、両方の課題における調査参加者よりも高い精度を達成し、人間の調査参加者と同様のバイアスを示す。

Much recent research has uncovered and discussed serious concerns of bias in facial analysis technologies, finding performance disparities between groups of people based on perceived gender, skin type, lighting condition, etc. These audits are immensely important and successful at measuring algorithmic bias but have two major challenges: the audits (1) use facial recognition datasets which lack quality metadata, like LFW and CelebA, and (2) do not compare their observed algorithmic bias to the biases of their human alternatives. In this paper, we release improvements to the LFW and CelebA datasets which will enable future researchers to obtain measurements of algorithmic bias that are not tainted by major flaws in the dataset (e.g. identical images appearing in both the gallery and test set). We also use these new data to develop a series of challenging facial identification and verification questions that we administered to various algorithms and a large, balanced sample of human reviewers. We find that both computer models and human survey participants perform significantly better at the verification task, generally obtain lower accuracy rates on dark-skinned or female subjects for both tasks, and obtain higher accuracy rates when their demographics match that of the question. Computer models are observed to achieve a higher level of accuracy than the survey participants on both tasks and exhibit bias to similar degrees as the human survey participants.
翻訳日:2021-10-19 13:25:40 公開日:2021-10-15
# 誇大宣伝と戦うとき、注意して進む

When Combating Hype, Proceed with Caution ( http://arxiv.org/abs/2110.08300v1 )

ライセンス: Link先を確認
Samuel R. Bowman(参考訳) 最先端の言語技術の能力に関する広汎な誇大宣伝の強化を避けるために、研究者は、フィールドの成功を強調するのに役立つフレーミングと引用のプラクティスを開発した。 良い意味ではありますが、これらのプラクティスは、最高のテクノロジの限界について誤解を招くか、あるいは虚偽の主張を引き起こします。 NLPデプロイメントによる短期的損害を軽減する能力や、より遠い将来の進歩による潜在的に巨大な影響に備える能力に制限があります。 本稿では,これらの主張に注意を払い,回避や反論を容易にするための研究の方向性やコミュニケーション戦略を提案する。

In an effort to avoid reinforcing widespread hype about the capabilities of state-of-the-art language technology, researchers have developed practices in framing and citation that serve to deemphasize the field's successes. Though well-meaning, these practices often yield misleading or even false claims about the limits of our best technology. This is a problem, and it may be more serious than it looks: It limits our ability to mitigate short-term harms from NLP deployments and it limits our ability to prepare for the potentially enormous impacts of more distant future advances. This paper urges researchers to be careful about these claims and suggests some research directions and communication strategies that will make it easier to avoid or rebut them.
翻訳日:2021-10-19 13:22:29 公開日:2021-10-15
# (参考訳) NeuroView: 説明可能なディープネットワーク決定 [全文訳有]

NeuroView: Explainable Deep Network Decision Making ( http://arxiv.org/abs/2110.07778v1 )

ライセンス: CC BY 4.0
CJ Barberan, Randall Balestriero, Richard G. Baraniuk(参考訳) ディープニューラルネットワーク(DN)は、多数のコンピュータビジョンタスクにおいて超人的なパフォーマンスを提供するが、DNのどのユニットが特定の決定に寄与しているかは正確には分かっていない。 NeuroViewはDNアーキテクチャの新しいファミリーであり、設計によって解釈および説明可能である。 ファミリーの各メンバーは、単位出力値をベクトル化して大域線形分類器に供給することで、標準DNアーキテクチャから派生する。 得られたアーキテクチャは、各ユニットの状態と分類決定との間の直接的な因果関係を確立する。 標準データセットと分類タスクでneuroviewを検証することで、そのユニット/クラスマッピングが意思決定プロセスを理解する上でどのように役立つかを示す。

Deep neural networks (DNs) provide superhuman performance in numerous computer vision tasks, yet it remains unclear exactly which of a DN's units contribute to a particular decision. NeuroView is a new family of DN architectures that are interpretable/explai nable by design. Each member of the family is derived from a standard DN architecture by vector quantizing the unit output values and feeding them into a global linear classifier. The resulting architecture establishes a direct, causal link between the state of each unit and the classification decision. We validate NeuroView on standard datasets and classification tasks to show that how its unit/class mapping aids in understanding the decision-making process.
翻訳日:2021-10-19 05:03:53 公開日:2021-10-15
# (参考訳) 衛星画像における半教師付きセマンティックセグメンテーションの改善のためのアクティブラーニング

Active Learning for Improved Semi-Supervised Semantic Segmentation in Satellite Images ( http://arxiv.org/abs/2110.07782v1 )

ライセンス: CC BY 4.0
Shasvat Desai and Debasmita Ghose(参考訳) リモートセンシングデータは、森林火災の監視や森林破壊から都市化の追跡まで、アプリケーションにとって重要である。 これらのタスクのほとんどは、これらの衛星画像で利用可能な限定ラベルデータから視覚情報を解析するために、モデルに密集したピクセルレベルのアノテーションを必要とする。 このドメインにおける高品質なラベル付きトレーニングデータの不足のため、セミ教師付き技術に重点を置く必要がある。 これらのテクニックは、ラベル付きトレーニングセットの強化に使用されるラベル付きサンプルの小さなセットから擬似ラベルを生成する。 これにより、高度に代表的で多様なラベル付きトレーニングセットを持つ必要がある。 そこで本稿では,ラベル付きトレーニングデータの中から,アクティブな学習に基づくサンプリング手法を提案する。 衛星画像を含む2つの既存セマンティックセマンティックセマンティクスデータセット(UC Merced Land Use Classification Dataset)とDeepGlobe Land Cover Classification Dataset(DeepGlobe Land Cover Classification Dataset)に提案手法の有効性を示す。 本報告では,mIoUの27%の改善を,ラベル付きトレーニングデータの小さなセットをランダムにサンプリングする上で,アクティブラーニングサンプリング戦略を用いて,2%のラベル付きデータで報告する。

Remote sensing data is crucial for applications ranging from monitoring forest fires and deforestation to tracking urbanization. Most of these tasks require dense pixel-level annotations for the model to parse visual information from limited labeled data available for these satellite images. Due to the dearth of high-quality labeled training data in this domain, there is a need to focus on semi-supervised techniques. These techniques generate pseudo-labels from a small set of labeled examples which are used to augment the labeled training set. This makes it necessary to have a highly representative and diverse labeled training set. Therefore, we propose to use an active learning-based sampling strategy to select a highly representative set of labeled training data. We demonstrate our proposed method's effectiveness on two existing semantic segmentation datasets containing satellite images: UC Merced Land Use Classification Dataset and DeepGlobe Land Cover Classification Dataset. We report a 27% improvement in mIoU with as little as 2% labeled data using active learning sampling strategies over randomly sampling the small set of labeled training data.
翻訳日:2021-10-19 04:51:56 公開日:2021-10-15
# (参考訳) スケーラブルな因果構造学習 : バイオメディシンの新しい機会 [全文訳有]

Scalable Causal Structure Learning: New Opportunities in Biomedicine ( http://arxiv.org/abs/2110.07785v1 )

ライセンス: CC BY 4.0
Pulakesh Upadhyaya, Kai Zhang, Can Li, Xiaoqian Jiang, Yejin Kim(参考訳) 本稿では,医療関係者の理解と適用を支援する実世界のデータを用いて,一般的な因果構造学習モデルに関する実践的チュートリアルを提供する。 我々は,因果構造発見のための従来型,スコア型,機械学習に基づくスキームを概説し,それらの性能をいくつかのベンチマークデータセットで検討し,バイオメディシンへの応用について論じる。 十分なデータの場合、機械学習ベースのアプローチはスケーラブルであり、従来のアプローチよりも多くの変数を含むことができ、多くの生体医学アプリケーションに適用できる可能性がある。

This paper gives a practical tutorial on popular causal structure learning models with examples of real-world data to help healthcare audiences understand and apply them. We review prominent traditional, score-based and machine-learning based schemes for causal structure discovery, study some of their performance over some benchmark datasets, and discuss some of the applications to biomedicine. In the case of sufficient data, machine learning-based approaches can be scalable, can include a greater number of variables than traditional approaches, and can potentially be applied in many biomedical applications.
翻訳日:2021-10-19 04:50:59 公開日:2021-10-15
# (参考訳) EFENet:フロー推定を改良した参照型ビデオ超解法 [全文訳有]

EFENet: Reference-based Video Super-Resolution with Enhanced Flow Estimation ( http://arxiv.org/abs/2110.07797v1 )

ライセンス: CC BY 4.0
Yaping Zhao, Mengqi Ji, Ruqi Huang, Bin Wang, Shengjin Wang(参考訳) 本稿では,レファレンスに基づくビデオスーパーレゾリューション(RefVSR)の問題,すなわち,高分解能(HR)参照フレームを用いて低分解能(LR)ビデオシーケンスを超分解する方法を考える。 RefVSRに対する既存のアプローチは、基本的には、解像度ギャップと長い時間範囲の存在下で、参照と入力シーケンスを整列させようとする。 しかし、入力シーケンス内の時間的構造を無視するか、累積的アライメントエラーを被る。 これらの問題に対処するために、HR参照に含まれる視覚的手がかりとLRシーケンスに含まれる時間的情報とを同時に活用するEFENetを提案する。 EFENetはまず、参照と各LRフレーム間のクロススケールフローを世界規模で推定する。 EFENetの新たなフローリファインメントモジュールは,すべての推定フローを用いてファテストフレームのフローを洗練し,シーケンス内の大域的時間情報を活用することにより,アライメントエラーを効果的に低減する。 我々は,提案手法の強みを検証するための総合的な評価を行い,提案手法が最先端手法よりも優れていることを示す。 コードはhttps://github.com/I ndigoPurple/EFENetで入手できる。

In this paper, we consider the problem of reference-based video super-resolution(Ref VSR), i.e., how to utilize a high-resolution (HR) reference frame to super-resolve a low-resolution (LR) video sequence. The existing approaches to RefVSR essentially attempt to align the reference and the input sequence, in the presence of resolution gap and long temporal range. However, they either ignore temporal structure within the input sequence, or suffer accumulative alignment errors. To address these issues, we propose EFENet to exploit simultaneously the visual cues contained in the HR reference and the temporal information contained in the LR sequence. EFENet first globally estimates cross-scale flow between the reference and each LR frame. Then our novel flow refinement module of EFENet refines the flow regarding the furthest frame using all the estimated flows, which leverages the global temporal information within the sequence and therefore effectively reduces the alignment errors. We provide comprehensive evaluations to validate the strengths of our approach, and to demonstrate that the proposed framework outperforms the state-of-the-art methods. Code is available at https://github.com/I ndigoPurple/EFENet.
翻訳日:2021-10-19 04:39:17 公開日:2021-10-15
# (参考訳) ユーザ認証方式における機械学習アルゴリズム [全文訳有]

Machine Learning Algorithms In User Authentication Schemes ( http://arxiv.org/abs/2110.07826v1 )

ライセンス: CC BY-SA 4.0
Laura Pryor, Dr. Rushit Dave, Dr. Naeem Seliya, Dr. Evelyn R Sowells Boone(参考訳) 過去20年間で、企業によって製造されるモバイル製品は指数関数的に増えている。 しかし、これらのデバイスは最新の機能で常にアップグレードされているものの、デバイスを保護するためのセキュリティ対策は過去20年間、比較的変わっていない。 デバイスとセキュリティの間の成長パターンの大きな違いは、ますます多くのデバイスが悪質なユーザーによって容易に侵入されるリスクを開きつつある。 この分野でのこれまでの研究から、タッチダイナミクスとデバイス移動を含むユーザ認証スキームで使用されるさまざまな機械学習アルゴリズムを考察する。 本研究の目的は,タッチダイナミクスやデバイス動作を含むユーザ認証スキーマで頻繁に使用される,さまざまな機械学習アルゴリズムの現在の使用状況について,概説することである。 今後の作業に対するメリット,制限,提案については,本論文を通じて詳しく論じる。

In the past two decades, the number of mobile products being created by companies has grown exponentially. However, although these devices are constantly being upgraded with the newest features, the security measures used to protect these devices has stayed relatively the same over the past two decades. The vast difference in growth patterns between devices and their security is opening up the risk for more and more devices to easily become infiltrated by nefarious users. Working off of previous work in the field, this study looks at the different Machine Learning algorithms used in user authentication schemes involving touch dynamics and device movement. This study aims to give a comprehensive overview of the current uses of different machine learning algorithms that are frequently used in user authentication schemas involving touch dynamics and device movement. The benefits, limitations, and suggestions for future work will be thoroughly discussed throughout this paper.
翻訳日:2021-10-19 04:30:19 公開日:2021-10-15
# (参考訳) DirectQuote:ニュース記事の直接引用抽出と帰属のためのデータセット [全文訳有]

DirectQuote: A Dataset for Direct Quotation Extraction and Attribution in News Articles ( http://arxiv.org/abs/2110.07827v1 )

ライセンス: CC BY 4.0
Yuanchi Zhang, Yang Liu(参考訳) 引用抽出と帰属は難題であり、引用を含むスパンを決定し、各引用を元の話者に帰属させることを目的としている。 このタスクをニュースデータに適用することは、ファクトチェック、メディア監視、ニュース追跡と非常に関係がある。 直接引用はよりトレース可能で情報的であり、したがって様々な種類の引用の間で大きな意味を持つ。 そこで本稿では,19,760段落と10,279段落からなるコーパスであるdirectquoteについて紹介する。 我々の知る限りでは、これはニューステキストの直接引用に焦点を当てた最大かつ最も完全なコーパスである。 アノテーション内の各話者がWikidata上の特定の名前のエンティティにリンクできることを保証し、様々な下流タスクに役立てる。 さらに,本論文では,複数のシーケンスラベリングモデルをベースライン手法として提案し,提案手法をエンド・ツー・エンド方式で抽出・属性付けする。

Quotation extraction and attribution are challenging tasks, aiming at determining the spans containing quotations and attributing each quotation to the original speaker. Applying this task to news data is highly related to fact-checking, media monitoring and news tracking. Direct quotations are more traceable and informative, and therefore of great significance among different types of quotations. Therefore, this paper introduces DirectQuote, a corpus containing 19,760 paragraphs and 10,279 direct quotations manually annotated from online news media. To the best of our knowledge, this is the largest and most complete corpus that focuses on direct quotations in news texts. We ensure that each speaker in the annotation can be linked to a specific named entity on Wikidata, benefiting various downstream tasks. In addition, for the first time, we propose several sequence labeling models as baseline methods to extract and attribute quotations simultaneously in an end-to-end manner.
翻訳日:2021-10-19 04:20:57 公開日:2021-10-15
# (参考訳) fedseal:自己感覚学習と否定学習を用いた半教師付き連合学習 [全文訳有]

FedSEAL: Semi-Supervised Federated Learning with Self-Ensemble Learning and Negative Learning ( http://arxiv.org/abs/2110.07829v1 )

ライセンス: CC BY 4.0
Jieming Bian, Zhu Fu, Jie Xu(参考訳) 分散機械学習とプライバシ保護機械学習(FL)フレームワークであるフェデレーションラーニング(FL)は,近年広く研究されている。 既存の作業の大部分は、クライアントがラベル付きデータセットを持ち、サーバがデータを持っていないと仮定される、教師あり学習(SL)の問題に重点を置いている。 しかし現実的なシナリオでは、サーバが少量のラベル付きデータをホストする一方で、専門知識やモチベーションの欠如のため、クライアントはデータをラベル付けできないことが多い。 サーバラベル付きデータとクライアントのラベルなしデータをどのように合理的に活用するかは、実用上極めて重要である。 本稿では,この半教師付きフェデレート学習(SSFL)問題を解くために,FedSEALと呼ばれる新しいFLアルゴリズムを提案する。 提案アルゴリズムは,自己アンサンブル学習と補完的負学習を利用して,未ラベルデータにおけるクライアントの教師なし学習の精度と効率を向上し,サーバ側とクライアント側の両方でモデルトレーニングを編成する。 SSFL設定におけるFashion-MNISTおよびCIFAR10データセットの実験結果から,最先端のSSFL法よりも高い精度で性能が向上した。

Federated learning (FL), a popular decentralized and privacy-preserving machine learning (FL) framework, has received extensive research attention in recent years. The majority of existing works focus on supervised learning (SL) problems where it is assumed that clients carry labeled datasets while the server has no data. However, in realistic scenarios, clients are often unable to label their data due to the lack of expertise and motivation while the server may host a small amount of labeled data. How to reasonably utilize the server labeled data and the clients' unlabeled data is thus of paramount practical importance. In this paper, we propose a new FL algorithm, called FedSEAL, to solve this Semi-Supervised Federated Learning (SSFL) problem. Our algorithm utilizes self-ensemble learning and complementary negative learning to enhance both the accuracy and the efficiency of clients' unsupervised learning on unlabeled data, and orchestrates the model training on both the server side and the clients' side. Our experimental results on Fashion-MNIST and CIFAR10 datasets in the SSFL setting validate the effectiveness of our method, which outperforms the state-of-the-art SSFL methods by a large margin.
翻訳日:2021-10-19 04:08:33 公開日:2021-10-15
# (参考訳) RAP:NLPモデルにおけるバックドア攻撃防止のためのロバストネスを考慮した妨害 [全文訳有]

RAP: Robustness-Aware Perturbations for Defending against Backdoor Attacks on NLP Models ( http://arxiv.org/abs/2110.07831v1 )

ライセンス: CC BY 4.0
Wenkai Yang, Yankai Lin, Peng Li, Jie Zhou, Xu Sun(参考訳) 訓練されたモデルのアウトプットを特定のトリガーで悪意を持って制御するバックドア攻撃は、ディープニューラルネットワーク(dnn)の再利用の安全性に対する深刻な脅威であることが最近示されている。 本研究では,ロバスト性を考慮したオンライン防御機構を提案する。 具体的には, 裏口のトレーニングプロセスを分析することで, 有毒試料と清浄試料の間には大きな頑健性差があることを指摘した。 本研究は, 自然言語処理(NLP)モデルに対するバックドア攻撃を防ぎ, 汚染サンプルとクリーンサンプルとを識別するために, 単語に基づく頑健性を考慮した摂動を構築する。 さらに,ロバスト性を考慮した摂動型防御法の実現可能性に関する理論的解析を行った。 感情分析および有毒な検出タスクに関する実験結果から,従来のオンライン防衛手法よりも優れた防御性能と計算コストが向上することが判明した。 私たちのコードはhttps://github.com/l ancopku/rapで利用可能です。

Backdoor attacks, which maliciously control a well-trained model's outputs of the instances with specific triggers, are recently shown to be serious threats to the safety of reusing deep neural networks (DNNs). In this work, we propose an efficient online defense mechanism based on robustness-aware perturbations. Specifically, by analyzing the backdoor training process, we point out that there exists a big gap of robustness between poisoned and clean samples. Motivated by this observation, we construct a word-based robustness-aware perturbation to distinguish poisoned samples from clean samples to defend against the backdoor attacks on natural language processing (NLP) models. Moreover, we give a theoretical analysis about the feasibility of our robustness-aware perturbation-based defense method. Experimental results on sentiment analysis and toxic detection tasks show that our method achieves better defending performance and much lower computational costs than existing online defense methods. Our code is available at https://github.com/l ancopku/RAP.
翻訳日:2021-10-19 03:54:26 公開日:2021-10-15
# (参考訳) 老朽化機械学習によるIoTサイバーセキュリティ手法の現代的分析 [全文訳有]

A Modern Analysis of Aging Machine Learning Based IoT Cybersecurity Methods ( http://arxiv.org/abs/2110.07832v1 )

ライセンス: CC BY-SA 4.0
Sam Strecker, Rushit Dave, Nyle Siddiqui, Naeem Seliya(参考訳) 現代の科学の発展は、かつてない技術の導入と改良にしばしば貢献している。 これは人間が維持し、監視するタスクであり、その結果、我々の社会は、このタスクを支援するために機械学習に依存している。 新しい技術によって、既存のサイバーセキュリティ対策を回避する新しい方法がもたらされる。 本研究では、現在、マルウェアや侵入検知に使われている3つの異なるIoTサイバーセキュリティアルゴリズム、ランダムフォレスト(RF)、サポートベクターマシン(SVM)、K-Nearest Neighbor(KNN)の有効性について検討する。 各アルゴリズムはAposemat IoT-23データセットでトレーニングとテストが行われ、2020年1月に公開された。 RF、SVM、KNNはそれぞれ92.96%、86.23%、91.48%、侵入検知では92.27%、83.52%、マルウェア検出では89.80%に達した。 2021年、現在のIoTサイバーセキュリティの状況において、3つのアルゴリズムが効果的に活用できることが判明した。

Modern scientific advancements often contribute to the introduction and refinement of never-before-seen technologies. This can be quite the task for humans to maintain and monitor and as a result, our society has become reliant on machine learning to assist in this task. With new technology comes new methods and thus new ways to circumvent existing cyber security measures. This study examines the effectiveness of three distinct Internet of Things cyber security algorithms currently used in industry today for malware and intrusion detection: Random Forest (RF), Support-Vector Machine (SVM), and K-Nearest Neighbor (KNN). Each algorithm was trained and tested on the Aposemat IoT-23 dataset which was published in January 2020 with the earliest of captures from 2018 and latest from 2019. The RF, SVM, and KNN reached peak accuracies of 92.96%, 86.23%, and 91.48%, respectively, in intrusion detection and 92.27%, 83.52%, and 89.80% in malware detection. It was found all three algorithms are capable of being effectively utilized for the current landscape of IoT cyber security in 2021.
翻訳日:2021-10-19 03:31:32 公開日:2021-10-15
# (参考訳) サルエント物体検出のための受容場拡大とブースティング [全文訳有]

Receptive Field Broadening and Boosting for Salient Object Detection ( http://arxiv.org/abs/2110.07859v1 )

ライセンス: CC BY 4.0
Mingcan Ma and Changqun Xia and Chenxi Xie and Xiaowu Chen and Jia Li(参考訳) 画像内の視覚的に重要なオブジェクトを見つけるには、包括的でスケーラブルな受容フィールドが必要である。 近年、視覚変換器やマルチブランチモジュールの出現は、異なるスケールで物体を知覚するニューラルネットワークの能力を大幅に向上させた。 しかし、従来のバックボーンと比較して、トランスフォーマーの計算プロセスは時間がかかる。 さらに、マルチブランチモジュールの異なるブランチは、各トレーニングイテレーションで同じエラーバック伝搬を引き起こす可能性がある。 これらの問題を解決するために、トランスフォーマーとCNNに基づく双方向ネットワークを提案し、局所的な詳細情報とグローバルな意味情報を同時に効率的に拡張する。 さらに、異なるネットワークブランチの特異性を高めるために、マルチヘッドブースティング(MHB)戦略を提案する。 異なる予測ヘッドの誤差を計算することで、各ブランチは別々に他のブランチが誤って予測するピクセルに注意を払うことができる。 さらに、マルチパス並列トレーニングとは異なり、mhbは、勾配バック伝播のために各時間に1つのブランチをランダムに選択する。 さらに,注意機能融合モジュール(af)を提案し,それぞれの特性に応じて2種類の特徴を融合させる。 5つのベンチマークデータセットに関する包括的実験により,提案手法は最先端手法に比べて大幅に性能が向上することが示された。

Salient object detection requires a comprehensive and scalable receptive field to locate the visually significant objects in the image. Recently, the emergence of visual transformers and multi-branch modules has significantly enhanced the ability of neural networks to perceive objects at different scales. However, compared to the traditional backbone, the calculation process of transformers is time-consuming. Moreover, different branches of the multi-branch modules could cause the same error back propagation in each training iteration, which is not conducive to extracting discriminative features. To solve these problems, we propose a bilateral network based on transformer and CNN to efficiently broaden local details and global semantic information simultaneously. Besides, a Multi-Head Boosting (MHB) strategy is proposed to enhance the specificity of different network branches. By calculating the errors of different prediction heads, each branch can separately pay more attention to the pixels that other branches predict incorrectly. Moreover, Unlike multi-path parallel training, MHB randomly selects one branch each time for gradient back propagation in a boosting way. Additionally, an Attention Feature Fusion Module (AF) is proposed to fuse two types of features according to respective characteristics. Comprehensive experiments on five benchmark datasets demonstrate that the proposed method can achieve a significant performance improvement compared with the state-of-the-art methods.
翻訳日:2021-10-19 03:21:24 公開日:2021-10-15
# (参考訳) FedMe: モデル交換によるフェデレーションラーニング [全文訳有]

FedMe: Federated Learning via Model Exchange ( http://arxiv.org/abs/2110.07868v1 )

ライセンス: CC BY 4.0
Koji Matsuda, Yuya Sasaki, Chuan Xiao, Makoto Onizuka(参考訳) フェデレーション学習(federated learning)は、単一のサーバと複数のクライアントが、クライアントでデータセットを共有することなく、機械学習モデルを共同構築する分散機械学習手法である。 フェデレート学習におけるデータ不均一性問題に対処するための多くの手法が提案されている。 既存のソリューションでは、中央サーバがチューニングしたモデルアーキテクチャを必要とするが、主要な技術的課題は、中央サーバにローカルデータがないため、モデルアーキテクチャをチューニングすることが難しいことである。 本稿では、学習プロセス中にモデルアーキテクチャの自動チューニングによりモデルをパーソナライズするモデル交換(fedme)によるフェデレーション学習を提案する。 FedMeの新規性は学習プロセスにある。クライアントはモデルアーキテクチャチューニングとモデルトレーニングのためにモデルを交換する。 まず、ローカルデータのためにモデルアーキテクチャを最適化するために、クライアントは交換されたモデルと比較し、最高のパフォーマンスをもたらすモデルを選択することによって、独自のパーソナライズされたモデルをチューニングします。 第2に、クライアントは、クライアント間で異なるモデルアーキテクチャにもかかわらず、深い相互学習を使用してパーソナライズされたモデルと交換されたモデルの両方をトレーニングします。 我々は、3つの実際のデータセットの実験を行い、FedMeがモデルアーキテクチャを自動チューニングしながら最先端のフェデレーション学習手法より優れていることを示す。

Federated learning is a distributed machine learning method in which a single server and multiple clients collaboratively build machine learning models without sharing datasets on clients. Numerous methods have been proposed to cope with the data heterogeneity issue in federated learning. Existing solutions require a model architecture tuned by the central server, yet a major technical challenge is that it is difficult to tune the model architecture due to the absence of local data on the central server. In this paper, we propose Federated learning via Model exchange (FedMe), which personalizes models with automatic model architecture tuning during the learning process. The novelty of FedMe lies in its learning process: clients exchange their models for model architecture tuning and model training. First, to optimize the model architectures for local data, clients tune their own personalized models by comparing to exchanged models and picking the one that yields the best performance. Second, clients train both personalized models and exchanged models by using deep mutual learning, in spite of different model architectures across the clients. We perform experiments on three real datasets and show that FedMe outperforms state-of-the-art federated learning methods while tuning model architectures automatically.
翻訳日:2021-10-19 03:06:37 公開日:2021-10-15
# (参考訳) 学習可能な構造と位置表現を持つグラフニューラルネットワーク [全文訳有]

Graph Neural Networks with Learnable Structural and Positional Representations ( http://arxiv.org/abs/2110.07875v1 )

ライセンス: CC BY 4.0
Vijay Prakash Dwivedi, Anh Tuan Luu, Thomas Laurent, Yoshua Bengio, Xavier Bresson(参考訳) グラフニューラルネットワーク(GNN)は、グラフの標準的な学習アーキテクチャとなっている。 GNNは、量子化学、推薦システム、知識グラフ、自然言語処理など、多くの分野に適用されている。 任意のグラフの大きな問題は、ノードの標準位置情報の欠如であり、同型ノードや他のグラフ対称性を区別するためにGNNの表現力を低下させる。 この問題に対処するためのアプローチは、ノードの位置エンコーディング(PE)を導入し、Transformerのように入力層に注入することだ。 可能なグラフpeはラプラシアン固有ベクトルである。 本研究では,構造表現と位置表現を分離し,ネットワークがこれら2つの本質的性質を容易に学習できるようにする。 LSPE(Learnable Structure and Positional Encodings)と呼ばれる新しい汎用アーキテクチャを導入する。 本研究では,gnnクラスで学習可能なpeを考慮すれば,分子データセットの性能が2.87%から64.14%に向上することを示す。

Graph neural networks (GNNs) have become the standard learning architectures for graphs. GNNs have been applied to numerous domains ranging from quantum chemistry, recommender systems to knowledge graphs and natural language processing. A major issue with arbitrary graphs is the absence of canonical positional information of nodes, which decreases the representation power of GNNs to distinguish e.g. isomorphic nodes and other graph symmetries. An approach to tackle this issue is to introduce Positional Encoding (PE) of nodes, and inject it into the input layer, like in Transformers. Possible graph PE are Laplacian eigenvectors. In this work, we propose to decouple structural and positional representations to make easy for the network to learn these two essential properties. We introduce a novel generic architecture which we call LSPE (Learnable Structural and Positional Encodings). We investigate several sparse and fully-connected (Transformer-like) GNNs, and observe a performance increase for molecular datasets, from 2.87% up to 64.14% when considering learnable PE for both GNN classes.
翻訳日:2021-10-19 02:50:55 公開日:2021-10-15
# (参考訳) 深唇読解の進歩と課題

Advances and Challenges in Deep Lip Reading ( http://arxiv.org/abs/2110.07879v1 )

ライセンス: CC BY 4.0
Marzieh Oghbaie, Arian Sabaghi, Kooshan Hashemifard, and Mohammad Akbari(参考訳) 近年、ディープラーニング技術と大規模なデータセットによって、自動唇読解のパラダイムシフトが見られた。 視覚音声認識(vsr)の主な推進力は音声音声認識システムの精度向上であったが、生体認証やvsrシステムの期待される向上といった他の潜在的な応用は、口唇読解技術の開発に多大な努力を要した。 本稿では、データ課題、タスク固有の合併症、およびそれに対応するソリューションを中心に、最先端のディープラーニングベースのVSR研究を包括的に調査する。 これらの方向の進歩は、理論から実践への無声音声インタフェースの変容を早めるだろう。 また、VSRパイプラインの主モジュールと、影響のあるデータセットについても論じる。 最後に、現実のシナリオや今後の研究の方向性に典型的なVSRアプリケーションに関する懸念と障害を導入する。

Driven by deep learning techniques and large-scale datasets, recent years have witnessed a paradigm shift in automatic lip reading. While the main thrust of Visual Speech Recognition (VSR) was improving accuracy of Audio Speech Recognition systems, other potential applications, such as biometric identification, and the promised gains of VSR systems, have motivated extensive efforts on developing the lip reading technology. This paper provides a comprehensive survey of the state-of-the-art deep learning based VSR research with a focus on data challenges, task-specific complications, and the corresponding solutions. Advancements in these directions will expedite the transformation of silent speech interface from theory to practice. We also discuss the main modules of a VSR pipeline and the influential datasets. Finally, we introduce some typical VSR application concerns and impediments to real-world scenarios as well as future research directions.
翻訳日:2021-10-19 02:09:24 公開日:2021-10-15
# (参考訳) polynet:多形表現を用いた3次元形状認識のための多項式ニューラルネットワーク [全文訳有]

PolyNet: Polynomial Neural Network for 3D Shape Recognition with PolyShape Representation ( http://arxiv.org/abs/2110.07882v1 )

ライセンス: CC BY 4.0
Mohsen Yavartanoo, Shih-Hsuan Hung, Reyhaneh Neshatavar, Yue Zhang, Kyoung Mu Lee(参考訳) 3次元形状表現とその処理は3次元形状認識に大きな影響を及ぼす。 3次元形状表現としてのポリゴンメッシュは、コンピュータグラフィックスや幾何学処理において多くの利点がある。 しかし、ポリゴンメッシュ表現に対する既存のディープニューラルネットワーク(DNN)ベースの手法には、頂点とそのペア距離の次数と置換のバリエーションを扱うなど、まだいくつかの課題がある。 これらの課題を克服するために,マルチレゾリューション構造を有するdnn法(polynet)と特定のポリゴンメッシュ表現(polyshape)を提案する。 ポリネットは, 学習可能な係数を持つ多項式畳み込み(PolyConv)演算を, 異なる頂点にまたがる重みを共有する畳み込みフィルタとして連続分布を学習し, 2) ポリシェープの多重分解能構造を利用して多角形プーリング(PolyPool)処理を行い, より低次元で特徴を集約する。 本研究では,既存のポリゴンメッシュ法と比較して,3次元形状分類と検索課題の両方におけるポリネットの強みと長所を示し,画像のグラフ表現の優越性を示す。 コードはhttps://myavartanoo. github.io/polynet/から公開されている。

3D shape representation and its processing have substantial effects on 3D shape recognition. The polygon mesh as a 3D shape representation has many advantages in computer graphics and geometry processing. However, there are still some challenges for the existing deep neural network (DNN)-based methods on polygon mesh representation, such as handling the variations in the degree and permutations of the vertices and their pairwise distances. To overcome these challenges, we propose a DNN-based method (PolyNet) and a specific polygon mesh representation (PolyShape) with a multi-resolution structure. PolyNet contains two operations; (1) a polynomial convolution (PolyConv) operation with learnable coefficients, which learns continuous distributions as the convolutional filters to share the weights across different vertices, and (2) a polygonal pooling (PolyPool) procedure by utilizing the multi-resolution structure of PolyShape to aggregate the features in a much lower dimension. Our experiments demonstrate the strength and the advantages of PolyNet on both 3D shape classification and retrieval tasks compared to existing polygon mesh-based methods and its superiority in classifying graph representations of images. The code is publicly available from https://myavartanoo. github.io/polynet/.
翻訳日:2021-10-19 02:04:26 公開日:2021-10-15
# (参考訳) 擬似ラベル型ハイパーパラメータのソースガイド選択による教師なしドメイン適応型再同定の改善 [全文訳有]

Improving Unsupervised Domain Adaptive Re-Identification via Source-Guided Selection of Pseudo-Labeling Hyperparameters ( http://arxiv.org/abs/2110.07897v1 )

ライセンス: CC BY 4.0
Fabian Dubourvieux, Ang\'elique Loesch, Romaric Audigier, Samia Ainouz, St\'ephane Canu(参考訳) 再識別(re-id)のための教師なしドメイン適応(unsupervised domain adaptation:uda)は、難しいタスクである。追加データのコストのかかるアノテーションを避けるため、注釈付きデータを持つドメインから、ラベルなしデータのみを持つ興味のあるドメインに知識を転送することを目指している。 Pseudo-labeling アプローチは UDA re-ID に有効であることが証明されている。 しかし,これらの手法の有効性は,クラスタリングによる擬似ラベルの生成に影響を与えるハイパーパラメータ (HP) の選択に大きく依存する。 関心領域におけるアノテーションの欠如は、この選択を非自明にする。 現在のアプローチでは、擬似ラベルトレーニングフェーズで変化するターゲットデータ表現に関係なく、すべての適応タスクで同じ経験的値を再利用する。 この単純な選択がパフォーマンスを制限する可能性があるので、この問題に対処することを目指しています。 本稿では,UDA re-IDクラスタリングのためのHP選択と,擬似ラベル付きUDAクラスタリングのためのHP自動および循環型チューニング手法HyPASSを提案する。 HyPASSは擬似ラベル法に2つのモジュールを統合することで構成される。 (i)ラベル付きソース検証セットに基づくhp選択及び (ii)ソースサンプルに基づくhp選択を改善するための特徴判別性の条件領域アライメント 今回提案したHyPASSは, 実証的なHP設定と比較して, リIDにおける最先端の手法を常に改善していることを示す。

Unsupervised Domain Adaptation (UDA) for re-identification (re-ID) is a challenging task: to avoid a costly annotation of additional data, it aims at transferring knowledge from a domain with annotated data to a domain of interest with only unlabeled data. Pseudo-labeling approaches have proven to be effective for UDA re-ID. However, the effectiveness of these approaches heavily depends on the choice of some hyperparameters (HP) that affect the generation of pseudo-labels by clustering. The lack of annotation in the domain of interest makes this choice non-trivial. Current approaches simply reuse the same empirical value for all adaptation tasks and regardless of the target data representation that changes through pseudo-labeling training phases. As this simplistic choice may limit their performance, we aim at addressing this issue. We propose new theoretical grounds on HP selection for clustering UDA re-ID as well as method of automatic and cyclic HP tuning for pseudo-labeling UDA clustering: HyPASS. HyPASS consists in incorporating two modules in pseudo-labeling methods: (i) HP selection based on a labeled source validation set and (ii) conditional domain alignment of feature discriminativeness to improve HP selection based on source samples. Experiments on commonly used person re-ID and vehicle re-ID datasets show that our proposed HyPASS consistently improves the best state-of-the-art methods in re-ID compared to the commonly used empirical HP setting.
翻訳日:2021-10-19 01:32:07 公開日:2021-10-15
# (参考訳) 学習プロセス間の知識伝達を用いた多言語音声認識 [全文訳有]

Multilingual Speech Recognition using Knowledge Transfer across Learning Processes ( http://arxiv.org/abs/2110.07909v1 )

ライセンス: CC BY 4.0
Rimita Lahiri, Kenichi Kumatani, Eric Sun and Yao Qian(参考訳) 多言語エンド・ツー・エンド(e2e)モデルは、自動音声認識(asr)の分野で言語範囲を拡大する大きな可能性を示している。 本稿では,1)言語を識別する1ホットベクトルの摂食の影響,2)自己教師付き学習(SSL)を組み合わせたメタ学習目標によるタスクの定式化,の2つの方法による多言語ASRの性能向上を目指す。 我々は,各言語を個別のタスク多様体に関連付け,学習プロセス自体の知識を最終モデルパラメータの伝達と比較することにより,性能の向上を図る。 我々は,この戦略を,期待される勾配経路長に関連する目標を最小化することにより,ドメイン内ASRタスクのための6言語からなるデータセットに適用する。 実験の結果,WER全体の3.55%の相対的な減少が得られた。 leap と ssl の組み合わせは、言語 id を使用する場合全体の wer を 3.51% 削減する。

Multilingual end-to-end(E2E) models have shown a great potential in the expansion of the language coverage in the realm of automatic speech recognition(ASR). In this paper, we aim to enhance the multilingual ASR performance in two ways, 1)studying the impact of feeding a one-hot vector identifying the language, 2)formulating the task with a meta-learning objective combined with self-supervised learning (SSL). We associate every language with a distinct task manifold and attempt to improve the performance by transferring knowledge across learning processes itself as compared to transferring through final model parameters. We employ this strategy on a dataset comprising of 6 languages for an in-domain ASR task, by minimizing an objective related to expected gradient path length. Experimental results reveal the best pre-training strategy resulting in 3.55% relative reduction in overall WER. A combination of LEAP and SSL yields 3.51% relative reduction in overall WER when using language ID.
翻訳日:2021-10-19 01:05:50 公開日:2021-10-15
# (参考訳) SaLinA: エージェントのシーケンス学習 [全文訳有]

SaLinA: Sequential Learning of Agents ( http://arxiv.org/abs/2110.07910v1 )

ライセンス: CC BY 4.0
Ludovic Denoyer, Alfredo de la Fuente, Song Duong, Jean-Baptiste Gaya, Pierre-Alexandre Kamienny, Daniel H. Thompson(参考訳) SaLinAは、強化学習アルゴリズムを含む複雑な逐次学習モデルの実装を容易にするシンプルなライブラリである。 これはPyTorchの拡張として構築されている: \SALINA{}でコード化されたアルゴリズムは、PyTorchユーザによって数分で理解でき、容易に修正できる。 さらに、SaLinAはトレーニングとテストの時間に複数のCPUとGPUで動作するため、大規模なトレーニングユースケースに適しています。 既存のRLライブラリと比較して、SaLinAは採用コストが非常に低く、さまざまな設定(モデルベースRL、バッチRL、階層RL、マルチエージェントRLなど)をキャプチャします。 しかしSaLinAは、RLの実践者だけでなく、あらゆるディープラーニングプログラマにシーケンシャルな学習機能を提供することを目指している。

SaLinA is a simple library that makes implementing complex sequential learning models easy, including reinforcement learning algorithms. It is built as an extension of PyTorch: algorithms coded with \SALINA{} can be understood in few minutes by PyTorch users and modified easily. Moreover, SaLinA naturally works with multiple CPUs and GPUs at train and test time, thus being a good fit for the large-scale training use cases. In comparison to existing RL libraries, SaLinA has a very low adoption cost and capture a large variety of settings (model-based RL, batch RL, hierarchical RL, multi-agent RL, etc.). But SaLinA does not only target RL practitioners, it aims at providing sequential learning capabilities to any deep learning programmer.
翻訳日:2021-10-19 00:54:55 公開日:2021-10-15
# (参考訳) 新たなオブジェクトインスタンスのための運動的階層推定の学習 [全文訳有]

Learning to Infer Kinematic Hierarchies for Novel Object Instances ( http://arxiv.org/abs/2110.07911v1 )

ライセンス: CC BY 4.0
Hameed Abdul-Rashid, Miles Freeman, Ben Abbatematteo, George Konidaris, Daniel Ritchie(参考訳) 明瞭な物体を操作するには、その部分、それぞれの動きの仕方、動きの仕方などを知覚する必要がある。 以前の研究では、kinematicsのインセプションごとに検討していたが、スキーマやテンプレートに頼ることなく、never-before-seenオブジェクトインスタンスの完全なkinematichierarchyを推測することはない。 この目標を達成する新しい知覚システムを提案する。 我々のシステムは、物体の移動部分とそれらに関連する運動的結合を推測する。 部品を推測するためには、ポイントクラウドインスタンスセグメンテーションニューラルネットを使用し、キネマティック階層を推論するために、推論された部品を関連づけるエッジ(関節)の存在、方向、タイプを予測するためにグラフニューラルネットワークを使用する。 合成3dモデルのシミュレーションスキャンを用いてネットワークをトレーニングし,3dオブジェクトのシミュレーションスキャンによるシステム評価を行い,実世界のロボット操作における概念実証実験を行った。

Manipulating an articulated object requires perceiving itskinematic hierarchy: its parts, how each can move, and howthose motions are coupled. Previous work has explored per-ception for kinematics, but none infers a complete kinematichierarchy on never-before-seen object instances, without relyingon a schema or template. We present a novel perception systemthat achieves this goal. Our system infers the moving parts ofan object and the kinematic couplings that relate them. Toinfer parts, it uses a point cloud instance segmentation neuralnetwork and to infer kinematic hierarchies, it uses a graphneural network to predict the existence, direction, and typeof edges (i.e. joints) that relate the inferred parts. We trainthese networks using simulated scans of synthetic 3D models.We evaluate our system on simulated scans of 3D objects, andwe demonstrate a proof-of-concept use of our system to drivereal-world robotic manipulation.
翻訳日:2021-10-19 00:42:31 公開日:2021-10-15
# (参考訳) 北オランダにおける音韻方言変化の程度と方向の推定 [全文訳有]

Estimating the Level and Direction of Phonetic Dialect Change in the Northern Netherlands ( http://arxiv.org/abs/2110.07918v1 )

ライセンス: CC BY 4.0
Raoul Buurke, Hedwig Sekeres, Wilbert Heeringa, Remco Knooihuizen, Martijn Wieling(参考訳) 本稿は、北ネーデルラント語圏の方言群、特にフリジア方言群と低ザクセン方言群における音韻変化について現在進行中の調査を報告する。 これを実現するために,既存の音素転写コーパスと弁証法を組み合わせ,高齢男性方言話者間の変化をリアルタイムフレームワークで定量化する。 レベンシュテイン距離の多次元的変種は、転写間の現実的な音韻距離を誘導する手法と組み合わされ、1990年から2010年の間に方言群がどのように変化したか、そしてそれらが標準オランダ語に変化したかどうかを推定するために用いられる。 分析の結果,言語変化は地理的に遅い過程であることがわかった。 さらに、フリジア方言とグロニンゲン方言群は最も安定しているようであるが、他の低サクソン系(グロニンゲン方言群を除く)は変化しやすいことが示されている。 我々は,データとアプローチの欠点を詳細に論じつつ,今後の研究に向けたデシデラタについても説明を行う。

This article reports ongoing investigations into phonetic change of dialect groups in the northern Netherlandic language area, particularly the Frisian and Low Saxon dialect groups, which are known to differ in vitality. To achieve this, we combine existing phonetically transcribed corpora with dialectometric approaches that allow us to quantify change among older male dialect speakers in a real-time framework. A multidimensional variant of the Levenshtein distance, combined with methods that induce realistic phonetic distances between transcriptions, is used to estimate how much dialect groups have changed between 1990 and 2010, and whether they changed towards Standard Dutch or away from it. Our analyses indicate that language change is a slow process in this geographical area. Moreover, the Frisian and Groningen dialect groups seem to be most stable, while the other Low Saxon varieties (excluding the Groningen dialect group) were shown to be most prone to change. We offer possible explanations for our findings, while we discuss shortcomings of the data and approach in detail, as well as desiderata for future research.
翻訳日:2021-10-19 00:33:21 公開日:2021-10-15
# (参考訳) マルチモーダル3次元MRI脳腫瘍分離のためのCNNとトランスフォーマーの併用と自己超過事前トレーニング [全文訳有]

Combining CNNs With Transformer for Multimodal 3D MRI Brain Tumor Segmentation With Self-Supervised Pretraining ( http://arxiv.org/abs/2110.07919v1 )

ライセンス: CC BY 4.0
Mariia Dobko, Danylo-Ivan Kolinko, Ostap Viniavskyi, Yurii Yelisieiev(参考訳) 改良されたTransBTSとnnU-Netのアンサンブルと、BraTS 2021チャレンジのセグメンテーションタスクに組み合わせて適用する。 実際、transbtsモデルの本来のアーキテクチャは、スクイーズ・アンド・エクシテーション・ブロックの追加、cnn層の増加、トランスフォーマーブロックの位置符号化を学習可能な多層パーセプトロン(mlp)埋め込みに置き換えることで変更され、推論中の入力サイズに合わせてトランスフォーマーが調整可能になる。 これらの変更により、transbtsのパフォーマンスが大幅に向上します。 nnU-Netフレームワークにインスパイアされた私たちは、nnU-Net内部のアーキテクチャをカスタムモデルに変更することで、変更したTransBTSと組み合わせることにしました。 BraTS 2021の検証セットでは、これらのアプローチのアンサンブルは0.8496, 0.8698, 0.9256 Dice scoreと15.72, 11.057, 3.374 HD95を達成し、腫瘍、腫瘍コア、腫瘍全体を強化する。 私たちのコードは公開されています。

We apply an ensemble of modified TransBTS, nnU-Net, and a combination of both for the segmentation task of the BraTS 2021 challenge. In fact, we change the original architecture of the TransBTS model by adding Squeeze-and-Excitati on blocks, an increasing number of CNN layers, replacing positional encoding in Transformer block with a learnable Multilayer Perceptron (MLP) embeddings, which makes Transformer adjustable to any input size during inference. With these modifications, we are able to largely improve TransBTS performance. Inspired by a nnU-Net framework we decided to combine it with our modified TransBTS by changing the architecture inside nnU-Net to our custom model. On the Validation set of BraTS 2021, the ensemble of these approaches achieves 0.8496, 0.8698, 0.9256 Dice score and 15.72, 11.057, 3.374 HD95 for enhancing tumor, tumor core, and whole tumor, correspondingly. Our code is publicly available.
翻訳日:2021-10-19 00:07:37 公開日:2021-10-15
# (参考訳) 未知の対応による低ランク行列復元 [全文訳有]

Low-rank Matrix Recovery With Unknown Correspondence ( http://arxiv.org/abs/2110.07959v1 )

ライセンス: CC BY 4.0
Zhiwei Tang, Tsung-Hui Chang, Xiaojing Ye, Hongyuan Zha(参考訳) 観測行列が $M_o=[A,\tilde P B]$ ならば、$\tilde P$ は未知の置換行列であり、基礎となる行列が $M=[A,B]$ である。 このような問題は、例えばプライバシー上の懸念から、異種データが利用され、それらの間の対応が不明な多くのアプリケーションで一般的に発生する。 我々は、M$の回復のために証明不可能な非漸近誤差を伴い、M$の適切な低ランク条件下で核ノルム最小化問題を解くことで、M$を回復可能であることを示す。 我々は,この組合せ問題を連続的ミニマックス最適化問題として再キャストし,max-oracle による近位勾配を用いて解くアルゴリズム $\text{m}^3\text{o}$ (min-max 最適化による行列リカバリ)を提案する。 また、$\text{m}^3\text{o}$ は、$m_o$ のエントリが不足しているより一般的なシナリオにも適用できます。 シミュレーションデータ、MovieLens 100Kデータセット、Yale Bデータベースの実験によると、$\text{M}^3\text{O}$は、いくつかのベースラインで最先端のパフォーマンスを実現し、高精度で地上の真実対応を回復できる。

We study a matrix recovery problem with unknown correspondence: given the observation matrix $M_o=[A,\tilde P B]$, where $\tilde P$ is an unknown permutation matrix, we aim to recover the underlying matrix $M=[A,B]$. Such problem commonly arises in many applications where heterogeneous data are utilized and the correspondence among them are unknown, e.g., due to privacy concerns. We show that it is possible to recover $M$ via solving a nuclear norm minimization problem under a proper low-rank condition on $M$, with provable non-asymptotic error bound for the recovery of $M$. We propose an algorithm, $\text{M}^3\text{O}$ (Matrix recovery via Min-Max Optimization) which recasts this combinatorial problem as a continuous minimax optimization problem and solves it by proximal gradient with a Max-Oracle. $\text{M}^3\text{O}$ can also be applied to a more general scenario where we have missing entries in $M_o$ and multiple groups of data with distinct unknown correspondence. Experiments on simulated data, the MovieLens 100K dataset and Yale B database show that $\text{M}^3\text{O}$ achieves state-of-the-art performance over several baselines and can recover the ground-truth correspondence with high accuracy.
翻訳日:2021-10-18 23:57:53 公開日:2021-10-15
# (参考訳) ニューラルネットワークにおける領域一般化の再適用 [全文訳有]

Reappraising Domain Generalization in Neural Networks ( http://arxiv.org/abs/2110.07981v1 )

ライセンス: CC BY 4.0
Sarath Sivaprasad, Akshay Goindani, Vaibhav Garg, Vineet Gandhi(参考訳) 機械学習アルゴリズムのドメイン一般化(DG)は、複数のトレーニング分布からドメインに依存しない仮説を学習する能力として定義される。 DGは、異なる特徴を持つターゲットドメインがトレーニング用の疎データを持つシナリオにおいて不可欠である。 最近の研究と並行して、単純な経験的リスク最小化(ERM)ベースラインは、既存のDG手法を一貫して上回っている。 本稿では,バックボーンの選択,データ拡張,最適化アルゴリズムが,先行技術における多くのトリックや取引を覆していることを示すアブレーション研究を行う。 我々の研究は、4つの人気のあるDGデータセットの新たな最先端技術をもたらし、従来の手法をはるかに上回っている。 さらに、重要な貢献として、各クラスに対してランダムに1つのドメインを選択し、それをテスト用として保持するクラスワイズDGの定式化を提案する。 このベンチマークは人間の学習に近づき、現実世界のシナリオに関係していると我々は主張する。 本研究では,DomainBedのクラスワイズDGを総合的にベンチマークし,ERMと逆勾配を組み合わせた手法を提案する。 驚いたことに、訓練中にすべてのドメインに暴露されているにもかかわらず、クラスワイドDGは従来のDG評価よりも困難であり、DGの問題を根本的に再考する動機となっている。

Domain generalization (DG) of machine learning algorithms is defined as their ability to learn a domain agnostic hypothesis from multiple training distributions, which generalizes onto data from an unseen domain. DG is vital in scenarios where the target domain with distinct characteristics has sparse data for training. Aligning with recent work~\cite{gulrajani2020search}, we find that a straightforward Empirical Risk Minimization (ERM) baseline consistently outperforms existing DG methods. We present ablation studies indicating that the choice of backbone, data augmentation, and optimization algorithms overshadows the many tricks and trades explored in the prior art. Our work leads to a new state of the art on the four popular DG datasets, surpassing previous methods by large margins. Furthermore, as a key contribution, we propose a classwise-DG formulation, where for each class, we randomly select one of the domains and keep it aside for testing. We argue that this benchmarking is closer to human learning and relevant in real-world scenarios. We comprehensively benchmark classwise-DG on the DomainBed and propose a method combining ERM and reverse gradients to achieve the state-of-the-art results. To our surprise, despite being exposed to all domains during training, the classwise DG is more challenging than traditional DG evaluation and motivates more fundamental rethinking on the problem of DG.
翻訳日:2021-10-18 23:24:41 公開日:2021-10-15
# (参考訳) Scribosermo: ドイツ語や他の言語のための高速音声テキストモデル [全文訳有]

Scribosermo: Fast Speech-to-Text models for German and other Languages ( http://arxiv.org/abs/2110.07982v1 )

ライセンス: CC BY-SA 4.0
Daniel Bermuth, Alexander Poeppel, Wolfgang Reif(参考訳) 最近の音声テキストモデルは、しばしば大量のハードウェアリソースを必要とし、主に英語で訓練されている。 本稿では,ドイツ語の音声テキストモデルとスペイン語とフランス語の特殊特徴について述べる。 (a)小型でRaspberryPiのようなマイクロコントローラ上でリアルタイムに実行される。 (b)事前訓練された英語モデルを用いて、比較的小さなデータセットでコンシューマグレードのハードウェアでトレーニングすることができる。 (c) モデルは他のソリューションと競合し、ドイツ語で勝る。 この点において、モデルは、提示された機能のサブセットのみを含む他のアプローチの利点を組み合わせる。 このライブラリは、追加のデータセットで簡単に拡張できることに焦点を当てており、同じアルファベットを持つ他の言語から事前学習されたモデルを使用して、新しい言語を転送する最適化された方法を示している。

Recent Speech-to-Text models often require a large amount of hardware resources and are mostly trained in English. This paper presents Speech-to-Text models for German, as well as for Spanish and French with special features: (a) They are small and run in real-time on microcontrollers like a RaspberryPi. (b) Using a pretrained English model, they can be trained on consumer-grade hardware with a relatively small dataset. (c) The models are competitive with other solutions and outperform them in German. In this respect, the models combine advantages of other approaches, which only include a subset of the presented features. Furthermore, the paper provides a new library for handling datasets, which is focused on easy extension with additional datasets and shows an optimized way for transfer-learning new languages using a pretrained model from another language with a similar alphabet.
翻訳日:2021-10-18 23:13:38 公開日:2021-10-15
# (参考訳) NeuroLKH: ディープラーニングモデルとLin-Kernighan-Helsga unヒューリスティックを組み合わせたトラベリングセールスマン問題の解法 [全文訳有]

NeuroLKH: Combining Deep Learning Model with Lin-Kernighan-Helsga un Heuristic for Solving the Traveling Salesman Problem ( http://arxiv.org/abs/2110.07983v1 )

ライセンス: CC BY 4.0
Liang Xin, Wen Song, Zhiguang Cao, Jie Zhang(参考訳) 我々は,旅行セールスマン問題の解法として,ディープラーニングとLin-Kernighan-Helsga un(LKH)を併用した新しいアルゴリズムNeuroLKHを提案する。 具体的には、エッジスコアの教師付き学習とノードペナルティの教師なし学習を備えたスパースグラフネットワーク(sgn)をトレーニングし、どちらもlkhの性能向上に不可欠である。 SGNの出力に基づいて、NeuroLKHはエッジ候補セットを生成し、エッジ距離を変換してLKHの探索プロセスを導く。 大規模な実験では、幅広い問題サイズで1つのモデルを訓練することで、NeuroLKHはLKHを著しく上回り、はるかに大きなサイズで一般化することを示した。 また, CVRP(Capacitated Vehicle Routing Problem)やPDP(Pickup and Delivery Problem), CVRP with Time Windows(CVRPTW)といった他のルーティング問題にもNeuroLKHが適用可能であることを示す。

We present NeuroLKH, a novel algorithm that combines deep learning with the strong traditional heuristic Lin-Kernighan-Helsga un (LKH) for solving Traveling Salesman Problem. Specifically, we train a Sparse Graph Network (SGN) with supervised learning for edge scores and unsupervised learning for node penalties, both of which are critical for improving the performance of LKH. Based on the output of SGN, NeuroLKH creates the edge candidate set and transforms edge distances to guide the searching process of LKH. Extensive experiments firmly demonstrate that, by training one model on a wide range of problem sizes, NeuroLKH significantly outperforms LKH and generalizes well to much larger sizes. Also, we show that NeuroLKH can be applied to other routing problems such as Capacitated Vehicle Routing Problem (CVRP), Pickup and Delivery Problem (PDP), and CVRP with Time Windows (CVRPTW).
翻訳日:2021-10-18 23:00:37 公開日:2021-10-15
# (参考訳) 強化学習におけるオンポリシーモデル誤差

On-Policy Model Errors in Reinforcement Learning ( http://arxiv.org/abs/2110.07985v1 )

ライセンス: CC BY 4.0
Lukas P. Fr\"ohlich, Maksym Lefarov, Melanie N. Zeilinger, Felix Berkenkamp(参考訳) モデルなし強化学習アルゴリズムは、サンプル環境遷移のポリシー勾配を計算することができるが、大量のデータを必要とする。 対照的に、モデルベースの手法は学習したモデルを使って新しいデータを生成することができるが、モデルエラーとバイアスは学習を不安定または準最適にすることができる。 本稿では,実世界のデータと学習モデルを組み合わせた新しい手法を提案する。 中心となるアイデアは、実世界のデータをオン・ポリシーな予測に活用し、学習モデルを使用して異なるアクションに一般化することである。 具体的には、学習モデル上の時間依存のオンライン補正用語として、長い予測地平線上の誤差を蓄積することなくデータを生成する能力を維持する。 我々は,この手法を理論的に動機付け,モデルに基づく政策改善の誤り項に反することを示す。 MuJoCo-およびPyBullet-benchmarksの実験では、追加のチューニングパラメータを導入することなく既存のモデルベースのアプローチを大幅に改善できることが示されている。

Model-free reinforcement learning algorithms can compute policy gradients given sampled environment transitions, but require large amounts of data. In contrast, model-based methods can use the learned model to generate new data, but model errors and bias can render learning unstable or sub-optimal. In this paper, we present a novel method that combines real world data and a learned model in order to get the best of both worlds. The core idea is to exploit the real world data for on-policy predictions and use the learned model only to generalize to different actions. Specifically, we use the data as time-dependent on-policy correction terms on top of a learned model, to retain the ability to generate data without accumulating errors over long prediction horizons. We motivate this method theoretically and show that it counteracts an error term for model-based policy improvement. Experiments on MuJoCo- and PyBullet-benchmarks show that our method can drastically improve existing model-based approaches without introducing additional tuning parameters.
翻訳日:2021-10-18 22:26:35 公開日:2021-10-15
# (参考訳) 識別可能な仮想顔の生成について [全文訳有]

On Generating Identifiable Virtual Faces ( http://arxiv.org/abs/2110.07986v1 )

ライセンス: CC BY 4.0
Zhuowen Yuan, Sheng Li, Xinpeng Zhang, Zhenxin Qian, Alex Kot(参考訳) 仮想顔画像を生成することで個人情報を浄化し、プライバシーと画像ユーティリティの両方を保証するため、生成モデルによる顔匿名化が普及している。 このような仮想顔画像は、通常、元の身元を削除または保護した後は識別できない。 本稿では,識別可能な仮想顔画像を生成する問題を形式化し,解決する。 われわれの仮想顔画像は、プライバシー保護のためにオリジナルと視覚的に異なる。 さらに、顔認証に直接使用できる新しい仮想idが付加されている。 仮想顔画像を生成するための識別可能な仮想顔生成器(IVFG)を提案する。 ivfgは、仮想顔画像を生成するユーザ固有のキーに基づいて、元の顔画像の潜在ベクトルを仮想顔画像に投影する。 仮想顔画像の識別を可能にするために,マルチタスク学習目標と,IVFG学習のための三重項スタイルのトレーニング戦略を提案する。 様々な実験により、ivfgが識別可能な仮想顔画像を生成する効果が示されている。

Face anonymization with generative models have become increasingly prevalent since they sanitize private information by generating virtual face images, ensuring both privacy and image utility. Such virtual face images are usually not identifiable after the removal or protection of the original identity. In this paper, we formalize and tackle the problem of generating identifiable virtual face images. Our virtual face images are visually different from the original ones for privacy protection. In addition, they are bound with new virtual identities, which can be directly used for face recognition. We propose an Identifiable Virtual Face Generator (IVFG) to generate the virtual face images. The IVFG projects the latent vectors of the original face images into virtual ones according to a user specific key, based on which the virtual face images are generated. To make the virtual face images identifiable, we propose a multi-task learning objective as well as a triplet styled training strategy to learn the IVFG. Various experiments demonstrate the effectiveness of the IVFG for generate identifiable virtual face images.
翻訳日:2021-10-18 22:25:24 公開日:2021-10-15
# (参考訳) 視覚物体追跡のためのピラミッド相関に基づくディープハフ投票 [全文訳有]

Pyramid Correlation based Deep Hough Voting for Visual Object Tracking ( http://arxiv.org/abs/2110.07994v1 )

ライセンス: CC BY 4.0
Ying Wang and Tingfa Xu and Jianan Li and Shenwang Jiang and Junjie Chen(参考訳) 既存のシームズベースのトラッカーのほとんどは、追跡問題を分類と回帰の並列タスクとして扱う。 しかし、いくつかの研究は、兄弟姉妹の頭部構造がネットワークトレーニング中に最適でない解につながる可能性を示唆している。 実験を通じて、回帰がなければ、トレーニング目的に合うようにネットワークを微妙に設計する限り、パフォーマンスは同等に期待できることがわかった。 対象の左上隅と右下隅を共同で特定する, ピラミッド相関型ディープハフ投票(pcdhvの略)という, 新たな投票ベース分類専用追跡アルゴリズムを提案する。 具体的には,細粒度の局所構造と大域的空間的文脈を組み込んだピラミッド相関モジュールを革新的に構築し,さらに精巧に設計されたディープハフ投票モジュールを継承し,画素の長距離依存性を知覚コーナーに統合する。 アルゴリズムは汎用的で堅牢でシンプルである。 本モジュールの有効性を一連のアブレーション実験により実証する。 我々のトラッカーは、80FPSのリアルタイム速度で実行しながら、TrackingNet、GOT-10k、LaSOTの3つの挑戦的なベンチマークでSOTAアルゴリズムよりも優れた、あるいは同等のパフォーマンスを達成する。 コードとモデルがリリースされます。

Most of the existing Siamese-based trackers treat tracking problem as a parallel task of classification and regression. However, some studies show that the sibling head structure could lead to suboptimal solutions during the network training. Through experiments we find that, without regression, the performance could be equally promising as long as we delicately design the network to suit the training objective. We introduce a novel voting-based classification-only tracking algorithm named Pyramid Correlation based Deep Hough Voting (short for PCDHV), to jointly locate the top-left and bottom-right corners of the target. Specifically we innovatively construct a Pyramid Correlation module to equip the embedded feature with fine-grained local structures and global spatial contexts; The elaborately designed Deep Hough Voting module further take over, integrating long-range dependencies of pixels to perceive corners; In addition, the prevalent discretization gap is simply yet effectively alleviated by increasing the spatial resolution of the feature maps while exploiting channel-space relationships. The algorithm is general, robust and simple. We demonstrate the effectiveness of the module through a series of ablation experiments. Without bells and whistles, our tracker achieves better or comparable performance to the SOTA algorithms on three challenging benchmarks (TrackingNet, GOT-10k and LaSOT) while running at a real-time speed of 80 FPS. Codes and models will be released.
翻訳日:2021-10-18 22:13:59 公開日:2021-10-15
# (参考訳) ロボット環境における深い対話型強化学習のための広汎性助言手法 [全文訳有]

A Broad-persistent Advising Approach for Deep Interactive Reinforcement Learning in Robotic Environments ( http://arxiv.org/abs/2110.08003v1 )

ライセンス: CC BY 4.0
Hung Son Nguyen, Francisco Cruz, Richard Dazeley(参考訳) 深層強化学習(deeprl)法は、ロボット工学において環境について学び、自律的に行動を取得するために広く使われている。 Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。 しかし、現在の研究は、エージェントの現在の状態にのみ実行可能なアドバイスを提供する相互作用に限られている。 さらに、この情報は、再訪のために同じ状態の重複プロセスを引き起こす単一の使用後にエージェントによって破棄される。 本稿では,処理情報を保存・再利用するbpa(broad-persistent advising)を提案する。 トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。 提案手法は,カートポールバランスタスクとシミュレーションロボットナビゲーションタスクという2つの連続ロボットシナリオでテストした。 以上の結果から,BPAを用いたエージェントの性能は,DeepIRLアプローチと比較してトレーナーに必要なインタラクション数を維持しながら向上することが示された。

Deep Reinforcement Learning (DeepRL) methods have been widely used in robotics to learn about the environment and acquire behaviors autonomously. Deep Interactive Reinforcement Learning (DeepIRL) includes interactive feedback from an external trainer or expert giving advice to help learners choosing actions to speed up the learning process. However, current research has been limited to interactions that offer actionable advice to only the current state of the agent. Additionally, the information is discarded by the agent after a single use that causes a duplicate process at the same state for a revisit. In this paper, we present Broad-persistent Advising (BPA), a broad-persistent advising approach that retains and reuses the processed information. It not only helps trainers to give more general advice relevant to similar states instead of only the current state but also allows the agent to speed up the learning process. We test the proposed approach in two continuous robotic scenarios, namely, a cart pole balancing task and a simulated robot navigation task. The obtained results show that the performance of the agent using BPA improves while keeping the number of interactions required for the trainer in comparison to the DeepIRL approach.
翻訳日:2021-10-18 21:12:50 公開日:2021-10-15
# (参考訳) 量子量子ビット回転アルゴリズムによる最大カット問題の解法 [全文訳有]

Efficiently Solve the Max-cut Problem via a Quantum Qubit Rotation Algorithm ( http://arxiv.org/abs/2110.08016v1 )

ライセンス: CC BY-SA 4.0
Xin Wang(参考訳) パラメータ化量子回路の最適化は、潜在的量子優位性を達成するために、短期量子コンピュータの効率的な利用を約束する。 しかし、パラメータ ansatz の表現可能性とトレーサビリティの間には、悪名高いトレードオフがある。 組合せ最適化問題(in combinatorial optimization problem)は、解がビット文字列によって記述されるので、アンサッツの表現性と高い訓練性とを交換することができる。 具体的には、最大カット問題に焦点を当てて、量子量子量子ビット回転アルゴリズム(qqra)と呼ばれる単純で効率的なアルゴリズムを導入する。 量子回路は、各量子ビットに実装される単一量子ビット回転ゲートで構成される。 ゲートの回転角は不毛の台地を含まないで訓練することができる。 これにより、マックスカット問題の近似解を1に近い確率で得ることができる。 QQRAの有効性を説明するために、よく知られた量子近似最適化アルゴリズムと古典的なゲーマン・ウィリアムソンアルゴリズムを比較した。

Optimizing parameterized quantum circuits promises efficient use of near-term quantum computers to achieve the potential quantum advantage. However, there is a notorious tradeoff between the expressibility and trainability of the parameter ansatz. We find that in combinatorial optimization problems, since the solutions are described by bit strings, one can trade the expressiveness of the ansatz for high trainability. To be specific, by focusing on the max-cut problem we introduce a simple yet efficient algorithm named Quantum Qubit Rotation Algorithm (QQRA). The quantum circuits are comprised with single-qubit rotation gates implementing on each qubit. The rotation angles of the gates can be trained free of barren plateaus. Thus, the approximate solution of the max-cut problem can be obtained with probability close to 1. To illustrate the effectiveness of QQRA, we compare it with the well known quantum approximate optimization algorithm and the classical Goemans-Williamson algorithm.
翻訳日:2021-10-18 20:56:32 公開日:2021-10-15
# (参考訳) バランスの不確かさによる誤分類の特定 [全文訳有]

Identifying Incorrect Classifications with Balanced Uncertainty ( http://arxiv.org/abs/2110.08030v1 )

ライセンス: CC BY 4.0
Bolian Li, Zige Zheng and Changqing Zhang(参考訳) 不確かさの推定は、コストに敏感なディープラーニングアプリケーション(すなわち病気の診断)には不可欠である。 ほとんどのデータセットで不確実な基盤が到達できないため、これは非常に難しい。 従来,ソフトマックス校正,モンテカルロサンプリング,主観論理などから不確かさを推定するために提案してきた。 しかしながら、これらの既存の手法は、正(正しい分類)と負(正しくない分類)のサンプルの不均衡から生じる、不当に低い全体的な不確実性で予測に過度に自信を持つ傾向がある。 本稿では、まず、不確実性推定の不均衡を2種類の分布バイアスとしてモデル化するための分布不均衡を提案し、次に、新しい分布焦点損失(DFL)目標を用いた不確実性推定を学習するバランスト・トゥルー・クラス確率(BTCP)フレームワークを提案する。 最後に,複数のデータセット上での障害予測とアウト・オブ・ディストリビューション(OOD)検出の観点から,BTCPを評価する。 実験の結果,BTCPは他の不確実性推定法,特に誤分類の同定において優れていた。

Uncertainty estimation is critical for cost-sensitive deep-learning applications (i.e. disease diagnosis). It is very challenging partly due to the inaccessibility of uncertainty groundtruth in most datasets. Previous works proposed to estimate the uncertainty from softmax calibration, Monte Carlo sampling, subjective logic and so on. However, these existing methods tend to be over-confident about their predictions with unreasonably low overall uncertainty, which originates from the imbalance between positive (correct classifications) and negative (incorrect classifications) samples. For this issue, we firstly propose the distributional imbalance to model the imbalance in uncertainty estimation as two kinds of distribution biases, and secondly propose Balanced True Class Probability (BTCP) framework, which learns an uncertainty estimator with a novel Distributional Focal Loss (DFL) objective. Finally, we evaluate the BTCP in terms of failure prediction and out-of-distribution (OOD) detection on multiple datasets. The experimental results show that BTCP outperforms other uncertainty estimation methods especially in identifying incorrect classifications.
翻訳日:2021-10-18 20:46:58 公開日:2021-10-15
# (参考訳) ビーム探索アルゴリズムの改良による自然言語逆例生成 [全文訳有]

Generating Natural Language Adversarial Examples through An Improved Beam Search Algorithm ( http://arxiv.org/abs/2110.08036v1 )

ライセンス: CC BY 4.0
Tengfei Zhao, Zhaocheng Ge, Hanping Hu, Dingmeng Shi(参考訳) テキスト領域における敵攻撃の研究は近年,多くの関心を集めており,高い攻撃成功率の手法が提案されている。 しかし、これらの攻撃手法は、テキスト対逆例を作成する際に、犠牲者モデルに対して大量のクエリを必要とするため、非効率である。 本稿では,新しい攻撃モデルを提案し,その攻撃成功率はベンチマーク攻撃法を上回るが,さらに重要なことは,その攻撃効率がベンチマーク攻撃法よりもはるかに高いことである。 この手法は,4つのベンチマークデータセット上でWordCNN,LSTM,BiLSTM, BERTを攻撃することによって実証的に評価される。 例えば、IMDB上でBERTとBiLSTMを攻撃したときの攻撃成功率は最先端メソッドよりも100\%高いが、被害者モデルのクエリ数は最先端メソッドの1/4と1/6.5である。 また, 新たな手法は, 生成した逆例に対して良好な伝達性を示すことを示す実験を行った。

The research of adversarial attacks in the text domain attracts many interests in the last few years, and many methods with a high attack success rate have been proposed. However, these attack methods are inefficient as they require lots of queries for the victim model when crafting text adversarial examples. In this paper, a novel attack model is proposed, its attack success rate surpasses the benchmark attack methods, but more importantly, its attack efficiency is much higher than the benchmark attack methods. The novel method is empirically evaluated by attacking WordCNN, LSTM, BiLSTM, and BERT on four benchmark datasets. For instance, it achieves a 100\% attack success rate higher than the state-of-the-art method when attacking BERT and BiLSTM on IMDB, but the number of queries for the victim models only is 1/4 and 1/6.5 of the state-of-the-art method, respectively. Also, further experiments show the novel method has a good transferability on the generated adversarial examples.
翻訳日:2021-10-18 20:37:38 公開日:2021-10-15
# (参考訳) 圧縮独立成分分析:理論とアルゴリズム [全文訳有]

Compressive Independent Component Analysis: Theory and Algorithms ( http://arxiv.org/abs/2110.08045v1 )

ライセンス: CC BY 4.0
Michael P. Sheehan and Mike E. Davies(参考訳) 圧縮学習は、圧縮センシングと統計学習の間のエキサイティングな交点を形成し、学習タスクの記憶と計算の複雑さを減らすためにスパーシティと構造を利用する。 本稿では,圧縮学習レンズを用いた独立成分分析(ICA)モデルについて考察する。 特に、累積型ICAモデルに対する解は、累積テンソル空間に存在する低次元モデル集合を誘導する特定の構造を持つことを示す。 ガウスアンサンブルのようなランダム累積に対する制限等尺性を示すことによって、圧縮ICAスキームの存在を証明できる。 その後、圧縮ICAの反復射影勾配(IPG)と交互急降下(ASD)の2つのアルゴリズムを提案し、そこで、制限された等尺性から主張される圧縮の順序を経験的結果により実現した。 有限サンプルの効果を含むCICAアルゴリズムの解析を行う。 圧縮の効果は、スケッチサイズとICA推定の統計的効率とのトレードオフによって特徴づけられる。 合成および実データセットを考慮し、提案したCICAアルゴリズムの1つを用いて、よく知られたICAアルゴリズム上で達成されたメモリゲインを示す。 最後に, 圧縮学習の新興分野からの興味深い課題を含む, オープンな問題で論文を締めくくった。

Compressive learning forms the exciting intersection between compressed sensing and statistical learning where one exploits forms of sparsity and structure to reduce the memory and/or computational complexity of the learning task. In this paper, we look at the independent component analysis (ICA) model through the compressive learning lens. In particular, we show that solutions to the cumulant based ICA model have particular structure that induces a low dimensional model set that resides in the cumulant tensor space. By showing a restricted isometry property holds for random cumulants e.g. Gaussian ensembles, we prove the existence of a compressive ICA scheme. Thereafter, we propose two algorithms of the form of an iterative projection gradient (IPG) and an alternating steepest descent (ASD) algorithm for compressive ICA, where the order of compression asserted from the restricted isometry property is realised through empirical results. We provide analysis of the CICA algorithms including the effects of finite samples. The effects of compression are characterised by a trade-off between the sketch size and the statistical efficiency of the ICA estimates. By considering synthetic and real datasets, we show the substantial memory gains achieved over well-known ICA algorithms by using one of the proposed CICA algorithms. Finally, we conclude the paper with open problems including interesting challenges from the emerging field of compressive learning.
翻訳日:2021-10-18 20:18:01 公開日:2021-10-15
# (参考訳) 対人対人ロボット学習 [全文訳有]

Dual-Arm Adversarial Robot Learning ( http://arxiv.org/abs/2110.08066v1 )

ライセンス: CC BY 4.0
Elie Aljalbout(参考訳) ロボット学習は、自動化とマシンインテリジェンスの未来にとって非常に有望なトピックである。 未来のロボットは、自律的にスキルを習得し、彼らの環境を表現し、それと対話できる。 これらの話題はシミュレーションで研究されているが、現実のロボット学習の研究はまだ限られているようだ。 これは、ノイズの多いセンサーやアクチュエータ、安全な探査、非定常ダイナミクス、自律環境のリセット、長期にわたる実験のコストなど、現実世界で遭遇する追加の課題によるものだ。 これらの問題に対するスケーラブルなソリューションが開発されない限り、手目調整やリッチコンタクトを含む複雑なタスクを学習することは、制御されたラボ環境でのみ実現可能な、未解決のビジョンのままである。 ロボット学習のためのプラットフォームとしてデュアルアーム設定を提案する。 このような設定は、操作スキルを取得するための安全なデータ収集と、ロボットが監督する方法で知覚モジュールを訓練することを可能にする。 環境を再設定するプロセスも容易になります。 さらに,協調作業空間に基づく安全性を確保しつつ,ゲーム理論目標に基づく探索を最大化し,ロボット学習法の一般化能力を高めることができる。 本稿では,この設定の潜在的メリットと,追求できる課題と研究の方向性について考察する。

Robot learning is a very promising topic for the future of automation and machine intelligence. Future robots should be able to autonomously acquire skills, learn to represent their environment, and interact with it. While these topics have been explored in simulation, real-world robot learning research seems to be still limited. This is due to the additional challenges encountered in the real-world, such as noisy sensors and actuators, safe exploration, non-stationary dynamics, autonomous environment resetting as well as the cost of running experiments for long periods of time. Unless we develop scalable solutions to these problems, learning complex tasks involving hand-eye coordination and rich contacts will remain an untouched vision that is only feasible in controlled lab environments. We propose dual-arm settings as platforms for robot learning. Such settings enable safe data collection for acquiring manipulation skills as well as training perception modules in a robot-supervised manner. They also ease the processes of resetting the environment. Furthermore, adversarial learning could potentially boost the generalization capability of robot learning methods by maximizing the exploration based on game-theoretic objectives while ensuring safety based on collaborative task spaces. In this paper, we will discuss the potential benefits of this setup as well as the challenges and research directions that can be pursued.
翻訳日:2021-10-18 19:15:08 公開日:2021-10-15
# (参考訳) 高速mrイメージングのためのマルチモーダルアグリゲーションネットワーク [全文訳有]

Multi-modal Aggregation Network for Fast MR Imaging ( http://arxiv.org/abs/2110.08080v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng and Huazhu Fe and Tianfei Zhou and Yong Xu and Ling Shao and David Zhang(参考訳) 磁気共鳴(mr)イメージングは、疾患の検出、診断、治療監視に一般的に用いられる走査技術である。 臓器や組織の詳細な画像をより良いコントラストで生成することは可能だが、長い取得時間に苦しむため、画像の品質は運動アーチファクトに対して脆弱である。 近年,MRI画像の高速化を目的として,部分観察画像からフルサンプリング画像を再構成する手法が数多く開発されている。 しかしながら、これらの取り組みの多くは、単一のモダリティまたは複数のモダリティの単純な融合による再構築に焦点を当てており、異なる特徴レベルで相関知識の発見を無視している。 本研究では,完全サンプルの補助モダリティから相補表現を探索し,与えられた対象モダリティの再構成を階層的にガイドする,manetと呼ばれる新しいマルチモーダルアグリゲーションネットワークを提案する。 我々のMANetでは,完全サンプリングされた補助的およびアンダーサンプリングされた目標モダリティの表現は,特定のネットワークを介して独立に学習される。 次に、各畳み込み段にガイドアテンションモジュールを導入し、より優れた再構築のためにマルチモーダル特徴を選択的に集約し、包括的、マルチスケール、マルチモーダル特徴融合を実現する。 さらに,k$-spaceドメイン内の周波数信号を同時に復元し,画像領域から画像詳細を復元する,ハイブリッドドメイン学習フレームワークも採用している。 広範な実験により,最先端mr画像再構成法における提案手法の優位性が実証された。

Magnetic resonance (MR) imaging is a commonly used scanning technique for disease detection, diagnosis and treatment monitoring. Although it is able to produce detailed images of organs and tissues with better contrast, it suffers from a long acquisition time, which makes the image quality vulnerable to say motion artifacts. Recently, many approaches have been developed to reconstruct full-sampled images from partially observed measurements in order to accelerate MR imaging. However, most of these efforts focus on reconstruction over a single modality or simple fusion of multiple modalities, neglecting the discovery of correlation knowledge at different feature level. In this work, we propose a novel Multi-modal Aggregation Network, named MANet, which is capable of discovering complementary representations from a fully sampled auxiliary modality, with which to hierarchically guide the reconstruction of a given target modality. In our MANet, the representations from the fully sampled auxiliary and undersampled target modalities are learned independently through a specific network. Then, a guided attention module is introduced in each convolutional stage to selectively aggregate multi-modal features for better reconstruction, yielding comprehensive, multi-scale, multi-modal feature fusion. Moreover, our MANet follows a hybrid domain learning framework, which allows it to simultaneously recover the frequency signal in the $k$-space domain as well as restore the image details from the image domain. Extensive experiments demonstrate the superiority of the proposed approach over state-of-the-art MR image reconstruction methods.
翻訳日:2021-10-18 19:08:41 公開日:2021-10-15
# (参考訳) 付加雑音モデルによる因果同定:雑音の影響の定量化 [全文訳有]

Causal Identification with Additive Noise Models: Quantifying the Effect of Noise ( http://arxiv.org/abs/2110.08087v1 )

ライセンス: CC BY-SA 4.0
Benjamin Kap, Marharyta Aleksandrova, Thomas Engel(参考訳) 近年,因果推論や因果学習の分野で多くの研究が行われている。 モデルにおける因果効果対を同定するために多くの方法が開発され、因果関係の方向を決定するために観測実世界データにうまく適用されている。 しかし、二変量体では因果発見の問題はまだ難しい。 このような手法の1つのクラスは、二変量の場合も扱えるようにしており、加法ノイズモデル(ANMs)に基づいている。 残念ながら、これらの方法の1つの側面は、これまであまり注目されていない: 異なるノイズレベルが、それらの方法が因果関係の方向性を特定する能力に与える影響である。 この研究は、実証的研究の助けを借りて、このギャップを埋めることを目的としている。 本研究では, 連続独立テスト(RESIT)による回帰テストを行い, 加法雑音のレベルが原因雑音の1\%から10000\%に徐々に変化する(後者は固定されている)。 さらに、この研究における実験は、線形および非線形モデルと同様に、いくつかの異なる種類の分布を考える。 実験の結果,ANMs法はある種のノイズに対して真の因果方向を捉えることができないことがわかった。

In recent years, a lot of research has been conducted within the area of causal inference and causal learning. Many methods have been developed to identify the cause-effect pairs in models and have been successfully applied to observational real-world data to determine the direction of causal relationships. Yet in bivariate situations, causal discovery problems remain challenging. One class of such methods, that also allows tackling the bivariate case, is based on Additive Noise Models (ANMs). Unfortunately, one aspect of these methods has not received much attention until now: what is the impact of different noise levels on the ability of these methods to identify the direction of the causal relationship. This work aims to bridge this gap with the help of an empirical study. We test Regression with Subsequent Independence Test (RESIT) using an exhaustive range of models where the level of additive noise gradually changes from 1\% to 10000\% of the causes' noise level (the latter remains fixed). Additionally, the experiments in this work consider several different types of distributions as well as linear and non-linear models. The results of the experiments show that ANMs methods can fail to capture the true causal direction for some levels of noise.
翻訳日:2021-10-18 18:36:58 公開日:2021-10-15
# (参考訳) Jurassicは、オープン・ドメイン・ダイアログのためのFew-Shotのテキスト生成機能 [全文訳有]

Jurassic is (almost) All You Need: Few-Shot Meaning-to-Text Generation for Open-Domain Dialogue ( http://arxiv.org/abs/2110.08094v1 )

ライセンス: CC BY 4.0
Lena Reed, Cecilia Li, Angela Ramirez, Liren Wu, and Marilyn Walker (Natural Language and Dialogue Systems Lab, University of California, Santa Cruz)(参考訳) オープンドメイン対話システムの課題の1つは、あらゆるトピックに対して高品質な応答を生成する必要があることである。 我々はalexa prize対話システムであるathenaの品質とカバレッジの向上を目指している。 我々はAthenaのレスポンスジェネレータ(RG)を用いて、映画、音楽、テレビ、スポーツ、ビデオゲームの領域で、新しい2つのニューラル平均テキストRG、Athena-GPT-NeoとAthena-Jurassicのトレーニングデータを作成する。 我々は,wikidata kgトリプルの組に対して,チューニングセットサイズ(2, 3, 10),プロンプトフォーマット,意味表現(2, mrs)の異なるドメイン内とクロスドメインの両方で,わずかなショット実験を行い,14の属性の組み合わせが可能な対話動作を行った。 評価はBLEURTと人的評価指標を用い,10ショットのチューニングにより,アテナ・ジュラシックのパフォーマンスがコヒーレンスと意味的精度において有意に向上したことを示す。 全く新しいmrsの2ショットチューニングによる実験では、athena-gpt-neoは、意味的正確さが0.11に低下し、幻覚率が12%に向上した。 ビデオゲームにおける対話行為の実験では、両方のモデルが10ショットのチューニングで対話行為の制御を学ぶが、アテナ・ジュラシックのコヒーレンスは著しく高く、幻覚は4%に過ぎなかった。 以上の結果から,Athena-Jurassicは実ユーザを持つライブシステムにおいて,高品質な出力を確実に生成できることが示唆された。 私たちの知る限りでは、巨大な言語モデルでのわずかなチューニングによって、新しいドメインに一般化し、mrsとkgトリプルから直接高品質で意味的に制御された会話応答を生成するnlgが作成できることを示す最初の結果です。

One challenge with open-domain dialogue systems is the need to produce high-quality responses on any topic. We aim to improve the quality and coverage of Athena, an Alexa Prize dialogue system. We utilize Athena's response generators (RGs) to create training data for two new neural Meaning-to-Text RGs, Athena-GPT-Neo and Athena-Jurassic, for the movies, music, TV, sports, and video game domains. We conduct few-shot experiments, both within and cross-domain, with different tuning set sizes (2, 3, 10), prompt formats, and meaning representations (MRs) for sets of WikiData KG triples, and dialogue acts with 14 possible attribute combinations. Our evaluation uses BLEURT and human evaluation metrics, and shows that with 10-shot tuning, Athena-Jurassic' ;s performance is significantly better for coherence and semantic accuracy. Experiments with 2-shot tuning on completely novel MRs results in a huge performance drop for Athena-GPT-Neo, whose semantic accuracy falls to 0.41, and whose untrue hallucination rate increases to 12%. Experiments with dialogue acts for video games show that with 10-shot tuning, both models learn to control dialogue acts, but Athena-Jurassic has significantly higher coherence, and only 4% untrue hallucinations. Our results suggest that Athena-Jurassic can reliably produce outputs of high-quality for live systems with real users. To our knowledge, these are the first results demonstrating that few-shot tuning on a massive language model can create NLGs that generalize to new domains, and produce high-quality, semantically-control led, conversational responses directly from MRs and KG triples.
翻訳日:2021-10-18 18:22:32 公開日:2021-10-15
# (参考訳) 三相フライングコンデンサ多レベルインバータのためのニューラルネットワークに基づくモデル予測制御 [全文訳有]

An Artificial Neural Network-Based Model Predictive Control for Three-phase Flying Capacitor Multi-Level Inverter ( http://arxiv.org/abs/2110.08101v1 )

ライセンス: CC BY 4.0
Parisa Boodaghi Malidarreh, Abualkasim Bakeer, Ihab S. Mohamed, Lantao Liu(参考訳) モデル予測制御(MPC)は、単純な概念、高速な動的応答、優れた参照追跡のためにパワーエレクトロニクスで広く使われている。 しかし、次のサンプリング時に使用する最適な切換状態を予測するためにシステムの数学的モデルに直接依存するため、パラメトリックな不確実性に悩まされている。 その結果、不確実なパラメータは、未設計のMPCにつながる。 そこで本稿では, ニューラルネットワーク(ANN)に基づくモデルフリー制御方式を提案し, パラメータミスマッチの影響を軽減し, インバータの性能に悪影響を及ぼす。 この方法は2つの関連する段階を含む。 第一に、mpcは、学習データを提供するために、学習されたコンバータを制御する専門家として、第二段階では、得られたデータセットを使用して、システムの数学的モデルを必要とせずに、直接インバータを制御するために使用される提案されたanを訓練する。 このケーススタディは4レベル3セルキャパシタインバータをベースとしている。 本研究では,各種動作条件を考慮したMATLAB/Simulinkを用いて,提案した制御戦略の性能をシミュレートする。 その後,従来のmpc法と比較してシミュレーション結果が報告され,システムパラメータの変化が顕著である場合において,高調波歪み(thd)の低減とパラメータミスマッチに対するロバスト性の観点から,提案手法の優れた性能を示す。

Model predictive control (MPC) has been used widely in power electronics due to its simple concept, fast dynamic response, and good reference tracking. However, it suffers from parametric uncertainties, since it directly relies on the mathematical model of the system to predict the optimal switching states to be used at the next sampling time. As a result, uncertain parameters lead to an ill-designed MPC. Thus, this paper offers a model-free control strategy on the basis of artificial neural networks (ANNs), for mitigating the effects of parameter mismatching while having a little negative impact on the inverter's performance. This method includes two related stages. First, MPC is used as an expert to control the studied converter in order to provide the training data; while, in the second stage, the obtained dataset is utilized to train the proposed ANN which will be used directly to control the inverter without the requirement for the mathematical model of the system. The case study herein is based on a four-level three-cell flying capacitor inverter. In this study, MATLAB/Simulink is used to simulate the performance of the proposed control strategy, taking into account various operating conditions. Afterward, the simulation results are reported in comparison with the conventional MPC scheme, demonstrating the superior performance of the proposed control strategy in terms of getting low total harmonic distortion (THD) and the robustness against parameters mismatch, especially when changes occur in the system parameters.
翻訳日:2021-10-18 17:59:28 公開日:2021-10-15
# (参考訳) ピンを渡せ! カバーハンドによるタイピングにおけるATMのPIN推定 [全文訳有]

Hand Me Your PIN! Inferring ATM PINs of Users Typing with a Covered Hand ( http://arxiv.org/abs/2110.08113v1 )

ライセンス: CC BY 4.0
Matteo Cardaioli, Stefano Cecconello, Mauro Conti, Simone Milani, Stjepan Picek, Eugen Saraci(参考訳) ATM(Automated Teller Machines)は、現金の引き出しに最も使用されるシステムである。 欧州中央銀行(ecb)は2019年に100億以上の現金の引き出しと欧州atmへの取引の積み降ろしを報告した。 atmは様々な技術的進化を遂げてきたが、個人識別番号(pin)は現在でも最も一般的な認証方法である。 残念なことに、PIN機構はATMの近くに設置された隠しカメラを使ってPINパッドをキャッチするショルダーサーフ攻撃に弱い。 この問題を克服するために、人々はタイピングハンドを片手でカバーすることに慣れる。 このようなユーザは、この行動が前述の攻撃から保護するには十分安全であると信じているだろうが、科学文献にはこの対策の明確な評価はない。 本稿では, タイピング手を覆う被害者が入力したPINを再構築する新たな攻撃法を提案する。 攻撃者がターゲットと同一のブランド/モデルのATM PINパッドにアクセスできる設定について検討する。 その後、攻撃者はPIN入力中に被害者が押した数字を推測するためにそのモデルを使用する。 我々の攻撃は、入力手の位置と動きからPINを推測できる、慎重に選択されたディープラーニングアーキテクチャによる成功のおかげだ。 58ユーザを含む詳細な実験分析を行った。 われわれのアプローチでは、5桁のPINの30%を3回の試行で推測できる。 また,同じ設定で平均7.92%の精度に到達できた78人のユーザを対象に調査を行った。 最後に,キーパッド全体が遮蔽されない限り,かなり非効率であることが判明した遮蔽対策を評価する。

Automated Teller Machines (ATMs) represent the most used system for withdrawing cash. The European Central Bank reported more than 11 billion cash withdrawals and loading/unloading transactions on the European ATMs in 2019. Although ATMs have undergone various technological evolutions, Personal Identification Numbers (PINs) are still the most common authentication method for these devices. Unfortunately, the PIN mechanism is vulnerable to shoulder-surfing attacks performed via hidden cameras installed near the ATM to catch the PIN pad. To overcome this problem, people get used to covering the typing hand with the other hand. While such users probably believe this behavior is safe enough to protect against mentioned attacks, there is no clear assessment of this countermeasure in the scientific literature. This paper proposes a novel attack to reconstruct PINs entered by victims covering the typing hand with the other hand. We consider the setting where the attacker can access an ATM PIN pad of the same brand/model as the target one. Afterward, the attacker uses that model to infer the digits pressed by the victim while entering the PIN. Our attack owes its success to a carefully selected deep learning architecture that can infer the PIN from the typing hand position and movements. We run a detailed experimental analysis including 58 users. With our approach, we can guess 30% of the 5-digit PINs within three attempts -- the ones usually allowed by ATM before blocking the card. We also conducted a survey with 78 users that managed to reach an accuracy of only 7.92% on average for the same setting. Finally, we evaluate a shielding countermeasure that proved to be rather inefficient unless the whole keypad is shielded.
翻訳日:2021-10-18 17:37:50 公開日:2021-10-15
# (参考訳) few-shot bot:対話システムのためのプロンプトベースの学習

Few-Shot Bot: Prompt-Based Learning for Dialogue Systems ( http://arxiv.org/abs/2110.08118v1 )

ライセンス: CC BY 4.0
Andrea Madotto, Zhaojiang Lin, Genta Indra Winata, Pascale Fung(参考訳) 少数の例を使って会話を学ぶことは、会話型AIにおいて大きな課題である。 現在の最も優れた会話モデル(例えばblenderbot)や目標指向システム(例えばmintl)は、大きな会話データセットで微調整された言語モデル(lms)である。 これらのモデルのトレーニングは、計算資源と時間の両方の観点から高価であり、新しい会話スキルでそれらを最新に保つのは難しい。 単純だが探索されていないソリューションは、プロンプトベースの少ショットラーニング(Brown et al. 2020)であり、グラデーションベースの微調整を必要としない代わりに、LMコンテキストのいくつかの例を学習の唯一の源として使っている。 本稿では,対話タスクにおけるプロンプトベースマイトショット学習について検討する。 我々は,9つの応答生成タスクにおいて,4つの知識基底タスク,タスク指向世代タスク,3つのオープンチャットタスク,制御されたスタイル生成,対話状態追跡,グラフパス生成,ペルソナ情報抽出,文書検索,インターネットクエリ生成の5つの対話解析タスクを含む,異なるサイズのLMをベンチマークする。 現在の最大のLM(GPT-J-6B)は、プロンプトベースの少数ショット学習を使用し、訓練を必要とせず、完全に訓練された最先端モデルに対する競争性能を達成する。 さらに,対話履歴に与えられた最も適切なプロンプトを選択するために,微調整を必要としない新しいプロンプトベースのマイトショット分類器を提案する。 最後に、プロンプトベースの少数ショット学習とスキルセレクタを組み合わせることで、最も適切な会話スキルを自動的に選択し、異なる知識ベースやインターネットにクエリし、検索された知識を使用して人間的な応答を生成し、スキル毎に少数の対話例のみを使用して、エンドツーエンドのチャットボットであるnone-shot bot(fsb)を作成します。

Learning to converse using only a few examples is a great challenge in conversational AI. The current best conversational models, which are either good chit-chatters (e.g., BlenderBot) or goal-oriented systems (e.g., MinTL), are language models (LMs) fine-tuned on large conversational datasets. Training these models is expensive, both in terms of computational resources and time, and it is hard to keep them up to date with new conversational skills. A simple yet unexplored solution is prompt-based few-shot learning (Brown et al. 2020) which does not require gradient-based fine-tuning but instead uses a few examples in the LM context as the only source of learning. In this paper, we explore prompt-based few-shot learning in dialogue tasks. We benchmark LMs of different sizes in nine response generation tasks, which include four knowledge-grounded tasks, a task-oriented generations task, three open-chat tasks, and controlled stylistic generation, and five conversational parsing tasks, which include dialogue state tracking, graph path generation, persona information extraction, document retrieval, and internet query generation. The current largest released LM (GPT-J-6B) using prompt-based few-shot learning, and thus requiring no training, achieves competitive performance to fully trained state-of-the-art models. Moreover, we propose a novel prompt-based few-shot classifier, that also does not require any fine-tuning, to select the most appropriate prompt given a dialogue history. Finally, by combining the power of prompt-based few-shot learning and a Skill Selector, we create an end-to-end chatbot named the Few-Shot Bot (FSB), which automatically selects the most appropriate conversational skill, queries different knowledge bases or the internet, and uses the retrieved knowledge to generate a human-like response, all using only few dialogue examples per skill.
翻訳日:2021-10-18 17:15:56 公開日:2021-10-15
# (参考訳) 進化的強化学習における異なる最適化定式化の効果 [全文訳有]

Effects of Different Optimization Formulations in Evolutionary Reinforcement Learning on Diverse Behavior Generation ( http://arxiv.org/abs/2110.08122v1 )

ライセンス: CC BY 4.0
Victor Villin, Naoki Masuyama, Yusuke Nojima(参考訳) 与えられたタスクに対するさまざまな戦略の生成は困難です。 しかし、行動探索の改善など、主要な学習プロセスに多くの資産をもたらすことがすでに証明されている。 進化的計算と強化学習における解の不均一性の関心の高まりにより、多くの有望なアプローチが現れた。 異なる戦略に向けて複数の政策を導き、多様性の恩恵を受けるためには、報酬信号変調やその他の進化メカニズムが得られる行動に与える影響をさらに分析する必要がある。 そこで本研究では,多目的最適化を利用した既存の進化的強化学習フレームワークについて,行動関連タスクの成功と目標達成の方法として考察する。 アタリゲームの実験では、目的を考慮しない最適化の定式化は多様性を生み出すのに等しく失敗し、得られる振る舞いに関わらず、問題の解決に苦しむ出力エージェントさえも失敗する。

Generating various strategies for a given task is challenging. However, it has already proven to bring many assets to the main learning process, such as improved behavior exploration. With the growth in the interest of heterogeneity in solution in evolutionary computation and reinforcement learning, many promising approaches have emerged. To better understand how one guides multiple policies toward distinct strategies and benefit from diversity, we need to analyze further the influence of the reward signal modulation and other evolutionary mechanisms on the obtained behaviors. To that effect, this paper considers an existing evolutionary reinforcement learning framework which exploits multi-objective optimization as a way to obtain policies that succeed at behavior-related tasks as well as completing the main goal. Experiments on the Atari games stress that optimization formulations which do not consider objectives equally fail at generating diversity and even output agents that are worse at solving the problem at hand, regardless of the obtained behaviors.
翻訳日:2021-10-18 17:14:11 公開日:2021-10-15
# (参考訳) モノトン包摂に対するハルパーン型加速分割アルゴリズム

Halpern-Type Accelerated and Splitting Algorithms For Monotone Inclusions ( http://arxiv.org/abs/2110.08150v1 )

ライセンス: CC BY 4.0
Quoc Tran-Dinh and Yang Luo(参考訳) 本稿では,最大単調方程式のクラスと単調包摂関数のクラスを解くために,新しいタイプの加速アルゴリズムを開発する。 nesterovの高速化アプローチを使う代わりに、この手法は[32]でhalpern型固定点反復と呼ばれるものに依存しており、最近では[24,70]を含む多くの研究者によって活用されている。 まず, [70] におけるアンカー付き超勾配スキームの新しい変種をポポフの過去の超勾配法に基づいて導出し, 極大単調方程式 $g(x) = 0$ を解く。 我々は,演算子のノルムである$\Vert G(x_k)\Vert$ の固定外勾配アルゴリズムと同じ$\mathcal{O}(1/k)$収束率(定数係数まで)を達成するが,各イテレーションにおいて$k$が反復カウンタである場合,$G$の1つの評価しか必要としないことを示す。 次に、2つの最大単調作用素の和の零点を近似する2つの分割アルゴリズムを開発する。 第1のアルゴリズムは、分割技法と組み合わせたアンカー付き超勾配法から派生し、第2のアルゴリズムはポポフの変種であり、イテレーション毎の複雑性を低減できる。 どちらのアルゴリズムも新しいようで、ダグラス・ラフフォード(DR)分割法の加速変種と見なすことができる。 どちらも、問題に関連する前向き残留作用素 $G_{\gamma}(\cdot)$ のノルム $\Vert G_{\gamma}(x_k)\Vert$ で $\mathcal{O}(1/k)$ を達成する。 また, 最大単調仮定下での$\vert g_{\gamma}(x_k)\vert$ 上の$\mathcal{o}(1/k)$ 収束率を達成するための, 新たな加速ダグラス・ラッチフォード分割スキームを提案する。 最後に、凸凹極小問題を解くための最初のアルゴリズムを特定し、加速DRスキームを適用して乗算器の交互方向法(ADMM)の新しい変種を導出する。

In this paper, we develop a new type of accelerated algorithms to solve some classes of maximally monotone equations as well as monotone inclusions. Instead of using Nesterov's accelerating approach, our methods rely on a so-called Halpern-type fixed-point iteration in [32], and recently exploited by a number of researchers, including [24, 70]. Firstly, we derive a new variant of the anchored extra-gradient scheme in [70] based on Popov's past extra-gradient method to solve a maximally monotone equation $G(x) = 0$. We show that our method achieves the same $\mathcal{O}(1/k)$ convergence rate (up to a constant factor) as in the anchored extra-gradient algorithm on the operator norm $\Vert G(x_k)\Vert$, , but requires only one evaluation of $G$ at each iteration, where $k$ is the iteration counter. Next, we develop two splitting algorithms to approximate a zero point of the sum of two maximally monotone operators. The first algorithm originates from the anchored extra-gradient method combining with a splitting technique, while the second one is its Popov's variant which can reduce the per-iteration complexity. Both algorithms appear to be new and can be viewed as accelerated variants of the Douglas-Rachford (DR) splitting method. They both achieve $\mathcal{O}(1/k)$ rates on the norm $\Vert G_{\gamma}(x_k)\Vert$ of the forward-backward residual operator $G_{\gamma}(\cdot)$ associated with the problem. We also propose a new accelerated Douglas-Rachford splitting scheme for solving this problem which achieves $\mathcal{O}(1/k)$ convergence rate on $\Vert G_{\gamma}(x_k)\Vert$ under only maximally monotone assumptions. Finally, we specify our first algorithm to solve convex-concave minimax problems and apply our accelerated DR scheme to derive a new variant of the alternating direction method of multipliers (ADMM).
翻訳日:2021-10-18 16:58:33 公開日:2021-10-15
# (参考訳) mLUKE:多言語事前学習言語モデルにおけるエンティティ表現のパワー [全文訳有]

mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models ( http://arxiv.org/abs/2110.08151v1 )

ライセンス: CC BY 4.0
Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka(参考訳) 近年の研究では、多言語事前学習言語モデルがウィキペディアエンティティからの言語間アライメント情報によって効果的に改善できることが示されている。 しかし、既存のメソッドは事前トレーニングでのみエンティティ情報を利用しており、下流タスクでエンティティを明示的に使用していない。 本研究では,下流の言語横断タスクにおけるエンティティ表現の有効性について検討する。 エンティティ表現を持つ24の言語で多言語モデルを訓練し,様々な言語間転送タスクにおいて,単語ベースの事前学習モデルに一貫して勝っていることを示す。 また、モデルを分析し、エンティティ表現を入力に組み込むことで、より多くの言語に依存しない特徴を抽出できるという重要な洞察を得た。 また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。 エンティティベースのプロンプトは,単語表現のみを用いることよりも,事実知識の正しさを示唆する。

Recent studies have shown that multilingual pretrained language models can be effectively improved with cross-lingual alignment information from Wikipedia entities. However, existing methods only exploit entity information in pretraining and do not explicitly use entities in downstream tasks. In this study, we explore the effectiveness of leveraging entity representations for downstream cross-lingual tasks. We train a multilingual language model with 24 languages with entity representations and show the model consistently outperforms word-based pretrained models in various cross-lingual transfer tasks. We also analyze the model and the key insight is that incorporating entity representations into the input allows us to extract more language-agnostic features. We also evaluate the model with a multilingual cloze prompt task with the mLAMA dataset. We show that entity-based prompt elicits correct factual knowledge more likely than using only word representations.
翻訳日:2021-10-18 16:57:07 公開日:2021-10-15
# (参考訳) 事例セグメンテーションに基づくチベット史文書の高精度細粒度配置解析 [全文訳有]

Accurate Fine-grained Layout Analysis for the Historical Tibetan Document Based on the Instance Segmentation ( http://arxiv.org/abs/2110.08164v1 )

ライセンス: CC BY 4.0
Penghai Zhao, Weilan Wang, Xiaojuan Wang, Zhengqi Cai, Guowei Zhang, and Yuqi Lu(参考訳) テキスト行のセグメンテーションを伴わない正確なレイアウト分析は現在も進行中の課題であり、特にチベットの歴史文書であるカンギュル(kangyur)に面する場合には、かなりの触感と背景が生えている。 文書画像の異なる領域を特定することを目的としたレイアウト解析は,文字認識などの後続処理には不可欠である。 しかし、ラインレベルのレイアウト解析を行うための研究はごくわずかしか行われなかったため、カンギュールの対応には至らなかった。 最適な結果を得るために,細かなサブラインレベルのレイアウト解析手法を提案する。 まず,動的かつ信頼性の高いデータセットを構築する高速化手法を提案する。 第二に、カンギュールの特性に応じてSOLOv2に改良が加えられた。 そして、トレーニング期間中に、拡張SOLOv2を準備されたアノテーションファイルに入力した。 ネットワークがトレーニングされると、テキスト行、文、タイトルのインスタンスが推論段階でセグメント化され、識別される。 実験の結果,提案手法はデータ集合に72.7%のapを提供することがわかった。 概して、この予備研究は、細粒度のサブラインレベルのレイアウト解析に関する洞察を与え、SOLOv2ベースのアプローチを実証する。 また,提案手法は様々なレイアウトを持つ他の言語文書にも適用できると考えている。

Accurate layout analysis without subsequent text-line segmentation remains an ongoing challenge, especially when facing the Kangyur, a kind of historical Tibetan document featuring considerable touching components and mottled background. Aiming at identifying different regions in document images, layout analysis is indispensable for subsequent procedures such as character recognition. However, there was only a little research being carried out to perform line-level layout analysis which failed to deal with the Kangyur. To obtain the optimal results, a fine-grained sub-line level layout analysis approach is presented. Firstly, we introduced an accelerated method to build the dataset which is dynamic and reliable. Secondly, enhancement had been made to the SOLOv2 according to the characteristics of the Kangyur. Then, we fed the enhanced SOLOv2 with the prepared annotation file during the training phase. Once the network is trained, instances of the text line, sentence, and titles can be segmented and identified during the inference stage. The experimental results show that the proposed method delivers a decent 72.7% AP on our dataset. In general, this preliminary research provides insights into the fine-grained sub-line level layout analysis and testifies the SOLOv2-based approaches. We also believe that the proposed methods can be adopted on other language documents with various layouts.
翻訳日:2021-10-18 16:43:05 公開日:2021-10-15
# (参考訳) DYLE: 抽象的長入力要約のための動的潜時抽出 [全文訳有]

DYLE: Dynamic Latent Extraction for Abstractive Long-Input Summarization ( http://arxiv.org/abs/2110.08168v1 )

ライセンス: CC BY 4.0
Ziming Mao, Chen Henry Wu, Ansong Ni, Yusen Zhang, Rui Zhang, Tao Yu, Budhaditya Deb, Chenguang Zhu, Ahmed H. Awadallah, Dragomir Radev(参考訳) トランスフォーマティブベースのモデルは、短いテキスト要約で最先端のパフォーマンスを達成している。 しかし、それらは依然として長い入力の要約に苦しむ。 本稿では,長文要約の新しいアプローチとして,抽象要約のための動的潜在抽出法を提案する。 抽出器と抽象化器を共同で訓練し,抽出したテキストスニペットを潜在変数として扱う。 我々は,抽出器に強い学習信号を与えるために,抽出神託を提案する。 我々は, 発電機が予測する平均的動的重みの近似を抽出器に促す整合損失を導入する。 我々は,govreport (ドキュメント) と qmsum (ダイアログ) という2つの長入力要約データセットを広範囲にテストした。 我々のモデルは、GovReportの6.21 ROUGE-2、QMSumの2.13 ROUGE-1の改善など、現在の最先端技術よりも大幅に優れています。 さらに分析した結果, 動的重みは生成過程を高度に解釈可能であることがわかった。 私たちのコードは出版時に公開されます。

Transformer-based models have achieved state-of-the-art performance on short text summarization. However, they still struggle with long-input summarization. In this paper, we present a new approach for long-input summarization: Dynamic Latent Extraction for Abstractive Summarization. We jointly train an extractor with an abstractor and treat the extracted text snippets as the latent variable. We propose extractive oracles to provide the extractor with a strong learning signal. We introduce consistency loss, which encourages the extractor to approximate the averaged dynamic weights predicted by the generator. We conduct extensive tests on two long-input summarization datasets, GovReport (document) and QMSum (dialogue). Our model significantly outperforms the current state-of-the-art, including a 6.21 ROUGE-2 improvement on GovReport and a 2.13 ROUGE-1 improvement on QMSum. Further analysis shows that the dynamic weights make our generation process highly interpretable. Our code will be publicly available upon publication.
翻訳日:2021-10-18 16:29:47 公開日:2021-10-15
# (参考訳) 関数型Pruning CUSUM統計を用いた高速オンライン変更点検出 [全文訳有]

Fast Online Changepoint Detection via Functional Pruning CUSUM statistics ( http://arxiv.org/abs/2110.08205v1 )

ライセンス: CC BY 4.0
Gaetano Romano, Idris Eckley, Paul Fearnhead, Guillem Rigaill(参考訳) オンライン切換点検出の最近の多くの応用は、時として利用可能な限られた計算資源で、高周波観測を処理する能力を必要とする。 平均的な変化を検出するオンラインアルゴリズムは、しばしば移動ウィンドウを使用するか、期待される変更サイズを指定する。 このような選択は、アルゴリズムが検出する最大の力を持つものに影響する。 このアルゴリズムは,すべてのウィンドウサイズに対して,あるいは変更サイズに対して可能なすべての値に対して,これら以前のメソッドを同時に実行するのに等価である。 我々の理論的結果は、FOCuSの反復1回当たりの計算コストに厳密な制約を与え、これは観測数に対数的である。 本稿では,FOCuSが平均シナリオの変化にどのように適用できるかを示すとともに,コンピュータサーバデータの異常な振る舞いを検出するための最先端技術による実用性を示す。

Many modern applications of online changepoint detection require the ability to process high-frequency observations, sometimes with limited available computational resources. Online algorithms for detecting a change in mean often involve using a moving window, or specifying the expected size of change. Such choices affect which changes the algorithms have most power to detect. We introduce an algorithm, Functional Online CuSUM (FOCuS), which is equivalent to running these earlier methods simultaneously for all sizes of window, or all possible values for the size of change. Our theoretical results give tight bounds on the expected computational cost per iteration of FOCuS, with this being logarithmic in the number of observations. We show how FOCuS can be applied to a number of different change in mean scenarios, and demonstrate its practical utility through its state-of-the art performance at detecting anomalous behaviour in computer server data.
翻訳日:2021-10-18 16:14:35 公開日:2021-10-15
# (参考訳) 正常から義肢への音声変換のアイデンティティ維持に向けて [全文訳有]

Towards Identity Preserving Normal to Dysarthric Voice Conversion ( http://arxiv.org/abs/2110.08213v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Bence Mark Halpern, Lester Phillip Violeta, Odette Scharenborg, Tomoki Toda(参考訳) 話者の身元を保ちながら、通常の音声を変形音声に変換する音声変換フレームワークを提案する。 このような枠組みは,(1)臨床的意思決定過程と患者のストレス軽減,(2)構音障害音声認識のためのデータ拡張に不可欠である。 変換されたサンプルは、非常に自然で通常の話者の話者同一性を持ちながら、調音障害の重大さを捉えるべきであるため、これは特に難しい課題である。 この目的のために,シーケンシャル・ツー・シーケンスモデルと非並列フレームワイズモデルからなる2段階フレームワークを採用した。 UASpeechデータセットを用いて目的的,主観的な評価を行い,本手法が適切な自然性を獲得し,病的音声の重症度を捉えることができることを示した。 一方、通常の音源話者の声との類似性は限られており、さらなる改善が必要であった。

We present a voice conversion framework that converts normal speech into dysarthric speech while preserving the speaker identity. Such a framework is essential for (1) clinical decision making processes and alleviation of patient stress, (2) data augmentation for dysarthric speech recognition. This is an especially challenging task since the converted samples should capture the severity of dysarthric speech while being highly natural and possessing the speaker identity of the normal speaker. To this end, we adopted a two-stage framework, which consists of a sequence-to-sequence model and a nonparallel frame-wise model. Objective and subjective evaluations were conducted on the UASpeech dataset, and results showed that the method was able to yield reasonable naturalness and capture severity aspects of the pathological speech. On the other hand, the similarity to the normal source speaker's voice was limited and requires further improvements.
翻訳日:2021-10-18 15:53:00 公開日:2021-10-15
# (参考訳) ピクセルから比例微分制御可能な潜在空間を学ぶ [全文訳有]

Learn Proportional Derivative Controllable Latent Space from Pixels ( http://arxiv.org/abs/2110.08239v1 )

ライセンス: CC BY 4.0
Weiyao Wang, Marin Kobilarov and Gregory D. Hager(参考訳) 近年の画素からの潜時空間力学モデルの進歩は,視覚ベースモデル予測制御(MPC)の進歩を期待できる。 しかしながら、mpcをリアルタイムに実行するには、各時間ステップの計算コストが集中するため、難しい場合がある。 学習された潜在空間が比例微分制御可能であることを強制するために、追加の学習目標を導入することを提案する。 実行時、単純なpdコントローラはピクセルから符号化された潜在空間に直接適用でき、視覚観察のあるシステムに対してシンプルで効果的な制御ができる。 提案手法は,様々な環境においてロバストな目標到達および軌道追跡を実現するためのベースライン手法に勝ることを示す。

Recent advances in latent space dynamics model from pixels show promising progress in vision-based model predictive control (MPC). However, executing MPC in real time can be challenging due to its intensive computational cost in each timestep. We propose to introduce additional learning objectives to enforce that the learned latent space is proportional derivative controllable. In execution time, the simple PD-controller can be applied directly to the latent space encoded from pixels, to produce simple and effective control to systems with visual observations. We show that our method outperforms baseline methods to produce robust goal reaching and trajectory tracking in various environments.
翻訳日:2021-10-18 15:41:17 公開日:2021-10-15
# 胸部CTからの単体積肺バイオメカニクス

Single volume lung biomechanics from chest computed tomography using a mode preserving generative adversarial network ( http://arxiv.org/abs/2110.07878v1 )

ライセンス: Link先を確認
Muhammad F. A. Chaudhary, Sarah E. Gerard, Di Wang, Gary E. Christensen, Christopher B. Cooper, Joyce D. Schroeder, Eric A. Hoffman, Joseph M. Reinhardt(参考訳) 肺の局所組織拡張は通常、複数の肺体積で取得されたctスキャンを登録することによって引き起こされる。 しかし、複数のスキャンを取得すると放射線量、時間、コストが増大し、多くの場合では不可能となり、登録ベースのバイオメカニクスの適用性が制限される。 単一のCTスキャンから直接局所組織拡張を推定するための生成的対向学習手法を提案する。 提案手法はスピロミクスコホートから2500名の被験者を対象に訓練および評価を行った。 トレーニングが完了すると、このフレームワークは、局所的な組織膨張を予測するための登録不要な方法として使用できる。 病気の重症度に応じてモデルの性能を評価し,その性能を2つの画像間翻訳フレームワークであるUNetとPix2Pixと比較した。 提案モデルでは,PSNR18.95デシベル,SSIM0.840,スピアマン相関0.61,高分解能1mm3で達成した。

Local tissue expansion of the lungs is typically derived by registering computed tomography (CT) scans acquired at multiple lung volumes. However, acquiring multiple scans incurs increased radiation dose, time, and cost, and may not be possible in many cases, thus restricting the applicability of registration-based biomechanics. We propose a generative adversarial learning approach for estimating local tissue expansion directly from a single CT scan. The proposed framework was trained and evaluated on 2500 subjects from the SPIROMICS cohort. Once trained, the framework can be used as a registration-free method for predicting local tissue expansion. We evaluated model performance across varying degrees of disease severity and compared its performance with two image-to-image translation frameworks - UNet and Pix2Pix. Our model achieved an overall PSNR of 18.95 decibels, SSIM of 0.840, and Spearman's correlation of 0.61 at a high spatial resolution of 1 mm3.
翻訳日:2021-10-18 15:26:02 公開日:2021-10-15
# Cascaded Regression Neural Networks による全身性硬化症の肺CTスコアの予測

Prediction of Lung CT Scores of Systemic Sclerosis by Cascaded Regression Neural Networks ( http://arxiv.org/abs/2110.08085v1 )

ライセンス: Link先を確認
Jingnan Jia, Marius Staring, Irene Hern\'andez-Gir\'on, Lucia J.M. Kroft, Anne A. Schouffoer, Berend C. Stoel(参考訳) CTスキャンによる全身性硬化症における肺の関与を視覚的に評価することは進行のモニタリングにおいて重要な役割を担っているが、その労働集約性は実用的な応用を妨げる。 そこで我々は,2つのカスケード深部回帰ニューラルネットワークからなる自動スコアリングフレームワークを提案する。 最初の(3D)ネットワークは、3D CTスキャンで5つの解剖学的に定義されたスコアの頭蓋骨の位置を予測することを目的としている。 第2(2D)ネットワークは結果の2D軸スライスを受け取り、スコアを予測する。 227個の3dctスキャンを用いて第1のネットワークの訓練と検証を行い,第2のネットワークでは1135軸スライスを用いた。 2人の専門家が独立にデータのサブセットを取得し、イントラ・オブザーバとインターオブザーバ・バリアビリティを取得し、すべてのデータに対する基礎的真実がコンセンサスで得られた。 第2ネットワークにおけるトレーニングラベルの不均衡を軽減するため,サンプリング手法を導入し,グラウンドガラスとレチキュレーションパターンを模倣して,トレーニングサンプル合成データの多様性を向上させる。 4倍のクロス検証により,提案ネットワークは平均maeが5.90,4.66,4.49,加重kappaが0.66,0.58,0.65で,総スコア(tot),グラウンドグラス(gg),レチラーパターン(ret)がそれぞれ達成された。 われわれのネットワークはTOTやGG予測の優れた専門家よりやや悪いが、RET予測の競争性能は優れており、CT胸部におけるSScの視覚的評価の客観的な代替となる可能性がある。

Visually scoring lung involvement in systemic sclerosis from CT scans plays an important role in monitoring progression, but its labor intensiveness hinders practical application. We proposed, therefore, an automatic scoring framework that consists of two cascaded deep regression neural networks. The first (3D) network aims to predict the craniocaudal position of five anatomically defined scoring levels on the 3D CT scans. The second (2D) network receives the resulting 2D axial slices and predicts the scores. We used 227 3D CT scans to train and validate the first network, and the resulting 1135 axial slices were used in the second network. Two experts scored independently a subset of data to obtain intra- and interobserver variabilities and the ground truth for all data was obtained in consensus. To alleviate the unbalance in training labels in the second network, we introduced a sampling technique and to increase the diversity of the training samples synthetic data was generated, mimicking ground glass and reticulation patterns. The 4-fold cross validation showed that our proposed network achieved an average MAE of 5.90, 4.66 and 4.49, weighted kappa of 0.66, 0.58 and 0.65 for total score (TOT), ground glass (GG) and reticular pattern (RET), respectively. Our network performed slightly worse than the best experts on TOT and GG prediction but it has competitive performance on RET prediction and has the potential to be an objective alternative for the visual scoring of SSc in CT thorax studies.
翻訳日:2021-10-18 15:25:45 公開日:2021-10-15
# 透過電子顕微鏡における多重欠陥の深層学習セマンティックセマンティックセグメンテーションの性能, 成功, 限界

Performance, Successes and Limitations of Deep Learning Semantic Segmentation of Multiple Defects in Transmission Electron Micrographs ( http://arxiv.org/abs/2110.08244v1 )

ライセンス: Link先を確認
Ryan Jacobs, Mingren Shen, Yuhan Liu, Wei Hao, Xiaoshan Li, Ruoyu He, Jacob RC Greaves, Donglin Wang, Zeming Xie, Zitong Huang, Chao Wang, Kevin G. Field, Dane Morgan(参考訳) 本研究では,deep learning mask regional convolutional neural network (mask r-cnn) モデルを用いて,照射したfecral合金の電子顕微鏡像における複数の欠陥タイプの意味セグメンテーションを行う。 本研究は, 欠陥形状の予測分布, 欠陥径, 欠陥アイソリティーなどの量に着目し, 照射したFe系材料特性のモデル化と理解を図り, 重要モデル性能統計の詳細な解析を行う。 モデルの性能と現状の限界をよりよく理解するために、ランダムスプリットとデータセットサイズに依存したクロス検証テストを含む有用な評価テストの例を提供する。 全体として、現在のモデルは、顕微鏡画像における複数の欠陥タイプを自動的に特徴付け、定量化するための高速で効果的なツールであることが分かりました。 より具体的には、このモデルは平均欠陥識別f1スコアを0.8に達し、ランダムなクロス検証に基づいて、平均欠陥サイズ(+/-標準偏差)が7.3 (+/- 3.8)%、密度パーセンテージエラーが12.7 (+/- 5.3)である。 さらに,本モデルでは10~20 mpa (総硬化量の約10%) 以内の材料硬化率を予測している。 対象とする評価試験は,既存のデータベースをラベル付き画像で拡張するのではなく,異なる顕微鏡画像,撮像条件,照射環境,合金タイプなどのモデル領域の弱点をターゲットとしたデータ追加を行うことが,将来のモデルを改善する最善の道であることを示唆している。 最後に、新しい画像の欠陥を特定するために、より広いコミュニティに使いやすいオープンソースのオブジェクト検出ツールを提供する取り組みの第1フェーズについて論じる。

In this work, we perform semantic segmentation of multiple defect types in electron microscopy images of irradiated FeCrAl alloys using a deep learning Mask Regional Convolutional Neural Network (Mask R-CNN) model. We conduct an in-depth analysis of key model performance statistics, with a focus on quantities such as predicted distributions of defect shapes, defect sizes, and defect areal densities relevant to informing modeling and understanding of irradiated Fe-based materials properties. To better understand the performance and present limitations of the model, we provide examples of useful evaluation tests which include a suite of random splits, and dataset size-dependent and domain-targeted cross validation tests. Overall, we find that the current model is a fast, effective tool for automatically characterizing and quantifying multiple defect types in microscopy images, with a level of accuracy on par with human domain expert labelers. More specifically, the model can achieve average defect identification F1 scores as high as 0.8, and, based on random cross validation, have low overall average (+/- standard deviation) defect size and density percentage errors of 7.3 (+/- 3.8)% and 12.7 (+/- 5.3)%, respectively. Further, our model predicts the expected material hardening to within 10-20 MPa (about 10% of total hardening), which is about the same error level as experiments. Our targeted evaluation tests also suggest the best path toward improving future models is not expanding existing databases with more labeled images but instead data additions that target weak points of the model domain, such as images from different microscopes, imaging conditions, irradiation environments, and alloy types. Finally, we discuss the first phase of an effort to provide an easy-to-use, open-source object detection tool to the broader community for identifying defects in new images.
翻訳日:2021-10-18 15:25:16 公開日:2021-10-15
# スマートフォン上での呼吸条件の類似音症状を記述するための機械学習手法

A Machine Learning Approach for Delineating Similar Sound Symptoms of Respiratory Conditions on a Smartphone ( http://arxiv.org/abs/2110.07895v1 )

ライセンス: Link先を確認
Chinazunwa Uwaoma and Gunjan Mansingh(参考訳) 呼吸音症状の臨床的特徴と解釈は, 診断における聴診中に現れる音響特性の類似性から, 依然として課題である。 これらの音の誤解釈と通訳は, 関連する疾患, 特に運動による呼吸条件の相違と相まって, 診断下, 治療中であった。 いくつかの研究がこれらの音の客観的な分類と評価のためのコンピュータシステムを提案しているが、ほとんどのアルゴリズムはデスクトップおよびバックエンドシステムで動作する。 本研究では,現代のスマートフォンの計算・記憶能力の向上を活用し,ランダムフォレスト(RF),サポートベクトルマシン(SVM),k-Nearest Neighbour(k-NN)という機械学習アルゴリズムを用いて呼吸音の症状を識別する。 携帯電話でのこれらの分類器の性能は、リアルタイムのシナリオにおける呼吸器症状の認識と識別のための代替ツールとしてスマートフォンを示している。 さらに、機械学習プロセスによって提供される客観的臨床データは、特別な医療機器が手軽に利用できない場合の退院中の患者のスクリーニングおよび治療において、医師を助けることができる。

Clinical characterization and interpretation of respiratory sound symptoms have remained a challenge due to the similarities in the audio properties that manifest during auscultation in medical diagnosis. The misinterpretation and conflation of these sounds coupled with the comorbidity cases of the associated ailments particularly, exercised-induced respiratory conditions; result in the under-diagnosis and under-treatment of the conditions. Though several studies have proposed computerized systems for objective classification and evaluation of these sounds, most of the algorithms run on desktop and backend systems. In this study, we leverage the improved computational and storage capabilities of modern smartphones to distinguish the respiratory sound symptoms using machine learning algorithms namely: Random Forest (RF), Support Vector Machine (SVM), and k-Nearest Neighbour (k-NN). The appreciable performance of these classifiers on a mobile phone shows smartphone as an alternate tool for recognition and discrimination of respiratory symptoms in real-time scenarios. Further, the objective clinical data provided by the machine learning process could aid physicians in the screening and treatment of a patient during ambulatory care where specialized medical devices may not be readily available.
翻訳日:2021-10-18 15:23:36 公開日:2021-10-15
# 運動誘発呼吸状態の移動モニタリングのための意思決定支援システムの確実性モデリング

Certainty Modeling of a Decision Support System for Mobile Monitoring of Exercise induced Respiratory Conditions ( http://arxiv.org/abs/2110.07898v1 )

ライセンス: Link先を確認
Chinazunwa Uwaoma and Gunjan. Mansingh(参考訳) 近年のモバイル医療システムでは、患者が健康に積極的に参加できるようにし、医療専門家へのアクセスを促進することで、医療分野を著しく改善している。 にもかかわらず、これらのモバイルシステムの効果的な運用には、意思決定支援システム(DSS)の形で実装された高度な知性と専門知識が必要である。 しかしながら、実装における一般的な課題は、推論モデルに提示される情報のダイナミクスと不完全性のため、一般化と信頼性である。 本稿では,重度の身体運動によって引き起こされる呼吸障害の早期症状を監視・検出するために,アドホック移動型意思決定支援システムの利用を推進した。 焦点は、モバイル監視システムによる不正確な推論をモデル化するための確実性理論の適用である。 本研究の目的は,患者の症状管理を支援するモバイルツールの開発と,呼吸器疾患のスクリーニング,診断,治療を行う医師を支援する客観的な臨床データの提供である。 提案するモデルアーキテクチャについて述べるとともに,臨床現場での応用シナリオについて述べる。 また,患者の自己管理を可能にするシステムの実装についても紹介する。

Mobile health systems in recent times, have notably improved the healthcare sector by empowering patients to actively participate in their health, and by facilitating access to healthcare professionals. Effective operation of these mobile systems nonetheless, requires high level of intelligence and expertise implemented in the form of decision support systems (DSS). However, common challenges in the implementation include generalization and reliability, due to the dynamics and incompleteness of information presented to the inference models. In this paper, we advance the use of ad hoc mobile decision support system to monitor and detect triggers and early symptoms of respiratory distress provoked by strenuous physical exertion. The focus is on the application of certainty theory to model inexact reasoning by the mobile monitoring system. The aim is to develop a mobile tool to assist patients in managing their conditions, and to provide objective clinical data to aid physicians in the screening, diagnosis, and treatment of the respiratory ailments. We present the proposed model architecture and then describe an application scenario in a clinical setting. We also show implementation of an aspect of the system that enables patients in the self-management of their conditions.
翻訳日:2021-10-18 15:23:17 公開日:2021-10-15
# 人工社会における創発のシミュレーション--eb-devs形式による実践モデルに基づくアプローチ

Simulation of emergence in artificial societies: a practical model-based approach with the EB-DEVS formalism ( http://arxiv.org/abs/2110.08170v1 )

ライセンス: Link先を確認
Daniel Foguelman, Esteban Lanzarotti, Emanuel Ferreyra, Rodrigo Castro(参考訳) 複雑なシステムのモデリングとシミュレーションは、地域レベルの相互作用からグローバルレベルの特性を引き出すフォーマルなメカニズムの恩恵を受けながら、社会プロセスの探索と理解の鍵となる。 本稿では,創発特性のモデリング,シミュレーション,ライブ識別に適した新しい形式であるEB-DEVSを適用し,複雑なシステムにおける形式的手法に関する知識の体系を拡張する。 本稿では,様々な社会システムのための様々な古典的モデルの実装を通じて,優れたモデリングプラクティスを導入し,EB-DEVSを用いたモデリングの利点と限界を明らかにする。 この研究は、暗黙的、暗黙的、静的、動的、多層的相互作用の有無、弱い、あるいは強い創発的振る舞いを伴うコミュニケーション構造をモデル化するためのアプローチの簡潔さとコンパクト性に関するケーススタディ駆動の証拠を提供する。 事例を通して,EB-DEVS は,Sugarscape モデルにおける Gini 指数,文化普及モデルにおける Fads と Fashion のマクロレベル集約,優先アタッチメントモデルにおけるサイズバイアス度分布,セグレゲーションモデルにおける幸福度指数,SIR 流行モデルにおける隔離度指数を組み込むことにより,創発的行動を導入することにより,分析社会の概念化を可能にした。 各例では,マルチレベルシミュレーションモデルの開発における通信構造の役割について論じ,マイクロマクロフィードバックループがマクロレベルの特性のモデル化を実現する方法について述べる。 本研究は,複雑なシステムのモデリングとシミュレーションにおいて,ロバストなアプローチをサポートするために,マルチレベル特徴の関連性を強調した。

Modelling and simulation of complex systems is key to exploring and understanding social processes, benefiting from formal mechanisms to derive global-level properties from local-level interactions. In this paper we extend the body of knowledge on formal methods in complex systems by applying EB-DEVS, a novel formalism tailored for the modelling, simulation and live identification of emergent properties. We guide the reader through the implementation of different classical models for varied social systems to introduce good modelling practices and showcase the advantages and limitations of modelling emergence with EB-DEVS, in particular through its live emergence detection capability. This work provides case study-driven evidence for the neatness and compactness of the approach to modelling communication structures that can be explicit or implicit, static or dynamic, with or without multilevel interactions, and with weak or strong emergent behaviour. Throughout examples we show that EB-DEVS permits conceptualising the analysed societies by incorporating emergent behaviour when required, namely by integrating as a macro-level aggregate the Gini index in the Sugarscape model, Fads and Fashion in the Dissemination of Culture model, size-biased degree distribution in a Preferential Attachment model, happiness index in the Segregation model and quarantines in the SIR epidemic model. In each example we discuss the role of communication structures in the development of multilevel simulation models, and illustrate how micro-macro feedback loops enable the modelling of macro-level properties. Our results stress the relevance of multilevel features to support a robust approach in the modelling and simulation of complex systems.
翻訳日:2021-10-18 15:23:00 公開日:2021-10-15
# CIRASA視覚分析プラットフォームのための天文学的情報源探索サービス

Astronomical source finding services for the CIRASA visual analytic platform ( http://arxiv.org/abs/2110.08211v1 )

ライセンス: Link先を確認
S. Riggia, C. Bordiu, F. Vitello, G. Tudisco, E. Sciacca, D. Magro, R. Sortino, C. Pino, M. Molinaro, M. Benedettini, S.Leurini, F. Bufano, M. Raciti, U. Becciani(参考訳) データ処理、アーカイブ、分析、可視化の革新的発展は、現在、Square Kilometre Array(SKA)やその前駆体のような次世代の電波天文学施設で期待されるデータデルージュを扱うには避けられない。 この文脈では、ソース抽出と分析アルゴリズムをデータ可視化ツールに統合することで、大規模な調査のカタログ作成プロセスを大幅に改善し、スピードアップし、天文学者の生産性を高め、出版時間を短縮することができる。 そこで我々は,CAESARソースファインダ,ViaLactea Visual Analytic(VLVA),Knowl edge Base(VLKB)といった最先端のツールを統合した,高度なソース発見と分類のためのビジュアル解析プラットフォーム(CIRASA)を開発している。 本稿では,実装されたソース検索サービスに着目し,プロジェクト目標とプラットフォームアーキテクチャについて述べる。

Innovative developments in data processing, archiving, analysis, and visualization are nowadays unavoidable to deal with the data deluge expected in next-generation facilities for radio astronomy, such as the Square Kilometre Array (SKA) and its precursors. In this context, the integration of source extraction and analysis algorithms into data visualization tools could significantly improve and speed up the cataloguing process of large area surveys, boosting astronomer productivity and shortening publication time. To this aim, we are developing a visual analytic platform (CIRASA) for advanced source finding and classification, integrating state-of-the-art tools, such as the CAESAR source finder, the ViaLactea Visual Analytic (VLVA) and Knowledge Base (VLKB). In this work, we present the project objectives and the platform architecture, focusing on the implemented source finding services.
翻訳日:2021-10-18 15:22:28 公開日:2021-10-15
# コンピュータ性能学習におけるアムダール法則の拡張について

On Extending Amdahl's law to Learn Computer Performance ( http://arxiv.org/abs/2110.07822v1 )

ライセンス: Link先を確認
Chaitanya Poolla, Rahul Saxena(参考訳) 並列計算機性能の学習問題はマルチコアプロセッサの文脈で検討される。 固定されたワークロードが与えられると、システム構成がパフォーマンスに与える影響が求められる。 従来、amdahlの法則を用いて、単一のリソース拡張による性能向上を定式化する。 しかし、複数の構成可能なリソースの場合、従来の定式化は結合できないいくつかの非連結なスピードアップ方程式をもたらし、全体的なスピードアップを決定する。 そこで本研究では,(1)amdahlの法則を拡張し,複数の構成可能な資源を全体的な速度アップ方程式に適合させ,(2)スピードアップ方程式を機械学習に適した多変数回帰問題に変換することを提案する。 2つのベンチマーク(SPECCPU 2017とPCMark 10)と4つのハードウェアプラットフォーム(Intel Xeon 8180M、AMD EPYC 7702P、Intel CoffeeLake 8700K、AMD Ryzen 3900X)からの実験データを用いて分析モデルを開発し、相互検証する。 発見は、ほとんどの場合、モデルが95%以上の平均クロスバリデード精度をもたらし、その結果、提案されたアムダールの法則の拡張が検証されることを示している。 提案手法は, 先進的な産業開発, 最適化, シミュレーションニーズを支援する知的分析モデルの迅速な生成を可能にする。

The problem of learning parallel computer performance is investigated in the context of multicore processors. Given a fixed workload, the effect of varying system configuration on performance is sought. Conventionally, the performance speedup due to a single resource enhancement is formulated using Amdahl's law. However, in case of multiple configurable resources the conventional formulation results in several disconnected speedup equations that cannot be combined together to determine the overall speedup. To solve this problem, we propose to (1) extend Amdahl's law to accommodate multiple configurable resources into the overall speedup equation, and (2) transform the speedup equation into a multivariable regression problem suitable for machine learning. Using experimental data from two benchmarks (SPECCPU 2017 and PCMark 10) and four hardware platforms (Intel Xeon 8180M, AMD EPYC 7702P, Intel CoffeeLake 8700K, and AMD Ryzen 3900X), analytical models are developed and cross-validated. Findings indicate that in most cases, the models result in an average cross-validated accuracy higher than 95%, thereby validating the proposed extension of Amdahl's law. The proposed methodology enables rapid generation of intelligent analytical models to support future industrial development, optimization, and simulation needs.
翻訳日:2021-10-18 15:20:14 公開日:2021-10-15
# ace-hgnn:適応曲率探索双曲グラフニューラルネットワーク

ACE-HGNN: Adaptive Curvature Exploration Hyperbolic Graph Neural Network ( http://arxiv.org/abs/2110.07888v1 )

ライセンス: Link先を確認
Xingcheng Fu, Jianxin Li, Jia Wu, Qingyun Sun, Cheng Ji, Senzhang Wang, Jiajun Tan, Hao Peng and Philip S. Yu(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフデータマイニングタスクで広く研究されている。 既存のGNNの多くはグラフデータをユークリッド空間に埋め込むため、現実のネットワークにおいてユビキタスな階層構造を捉えるのに効果的ではない。 双曲グラフニューラルネットワーク(HGNN)は、GNNを双曲空間に拡張し、ノード表現学習においてグラフの階層構造を捉えるのに効果的である。 双曲幾何学において、グラフ階層構造は双曲空間の曲率によって反映され、異なる曲率はグラフの異なる階層構造をモデル化することができる。 しかし,既存のHGNNでは,グラフの複雑かつ多様な階層構造により,グラフ学習の最適性能を実現するために,手動で曲率を固定値に設定している。 この問題を解決するために,ACE-HGNNと呼ばれる適応曲率探索ハイパーボリックグラフニューラルネットを提案し,入力グラフと下流タスクに基づいて最適な曲率を適応的に学習する。 具体的には、ACE-HGNNはマルチエージェント強化学習フレームワークを利用し、それぞれ曲率とノード表現を学習するためのACE-AgentとHGNN-Agentの2つのエージェントを含んでいる。 2つのエージェントは、nashq-leaningアルゴリズムによって協調的に更新され、曲率によってインデックス化された最適な双曲空間を求める。 複数の実世界のグラフデータセットに対する大規模な実験は、競争性能と優れた一般化能力を備えたモデル品質において、顕著で一貫したパフォーマンス改善を示す。

Graph Neural Networks (GNNs) have been widely studied in various graph data mining tasks. Most existingGNNs embed graph data into Euclidean space and thus are less effective to capture the ubiquitous hierarchical structures in real-world networks. Hyperbolic Graph Neural Networks(HGNNs) extend GNNs to hyperbolic space and thus are more effective to capture the hierarchical structures of graphs in node representation learning. In hyperbolic geometry, the graph hierarchical structure can be reflected by the curvatures of the hyperbolic space, and different curvatures can model different hierarchical structures of a graph. However, most existing HGNNs manually set the curvature to a fixed value for simplicity, which achieves a suboptimal performance of graph learning due to the complex and diverse hierarchical structures of the graphs. To resolve this problem, we propose an Adaptive Curvature Exploration Hyperbolic Graph NeuralNetwork named ACE-HGNN to adaptively learn the optimal curvature according to the input graph and downstream tasks. Specifically, ACE-HGNN exploits a multi-agent reinforcement learning framework and contains two agents, ACE-Agent andHGNN-Agent for learning the curvature and node representations, respectively. The two agents are updated by a NashQ-leaning algorithm collaboratively, seeking the optimal hyperbolic space indexed by the curvature. Extensive experiments on multiple real-world graph datasets demonstrate a significant and consistent performance improvement in model quality with competitive performance and good generalization ability.
翻訳日:2021-10-18 15:19:53 公開日:2021-10-15
# bayesaoa:到着推定の効率的な角度を計算するためのベイズ法

BayesAoA: A Bayesian method for Computation Efficient Angle of Arrival Estimation ( http://arxiv.org/abs/2110.07992v1 )

ライセンス: Link先を確認
Akshay Sharma, Nancy Nayak and Sheetal Kalyani(参考訳) Arrival (AoA) 推定の角度は、現代の通信システムにおいて非常に興味深い。 従来の最大確率に基づく反復アルゴリズムは初期化に敏感であり、オンラインでは使用できない。 我々は初期化に敏感なaoaを見つけるためのベイズ法を提案する。 提案手法は,従来の深層学習手法よりも複雑で少ない計算資源を必要とする。 ブルート・フォース法よりも高速に収束する。 さらに,チャネルノイズや受信機のアンテナ構成が時間とともに変化する状況に対処するため,オンラインに展開するためのヘッジ型ソリューションを提案する。 提案手法は, ブライトフォース法の計算値の19.3 %のノイズ分散10^{-6}$のチャネルにおいて, 92 %の精度を達成している。

The angle of Arrival (AoA) estimation is of great interest in modern communication systems. Traditional maximum likelihood-based iterative algorithms are sensitive to initialization and cannot be used online. We propose a Bayesian method to find AoA that is insensitive towards initialization. The proposed method is less complex and needs fewer computing resources than traditional deep learning-based methods. It has a faster convergence than the brute-force methods. Further, a Hedge type solution is proposed that helps to deploy the method online to handle the situations where the channel noise and antenna configuration in the receiver change over time. The proposed method achieves $92\%$ accuracy in a channel of noise variance $10^{-6}$ with $19.3\%$ of the brute-force method's computation.
翻訳日:2021-10-18 15:19:27 公開日:2021-10-15
# Frank-Wolfeによる解釈可能なニューラルネットワーク:スパース関連マップと関連順序付け

Interpretable Neural Networks with Frank-Wolfe: Sparse Relevance Maps and Relevance Orderings ( http://arxiv.org/abs/2110.08105v1 )

ライセンス: Link先を確認
Jan Macdonald, Mathieu Besan\c{c}on, Sebastian Pokutta(参考訳) 制約付き最適化定式化とfrank-wolfeアルゴリズムのニューラルネットワーク予測に対する効果について検討した。 制約付き最適化問題としてRDE(Rate-Distortion Explanations)法を改訂することで、関係マップの空間性を正確に制御することができる。 これにより、新しいマルチレートとRDEの関連順序の変種が、よく確立された比較テストにおいて、どちらも標準RDEよりも経験的に優れている。 本稿ではFrank-Wolfeアルゴリズムのいくつかの決定論的および確率的変種とその RDE の有効性を示す。

We study the effects of constrained optimization formulations and Frank-Wolfe algorithms for obtaining interpretable neural network predictions. Reformulating the Rate-Distortion Explanations (RDE) method for relevance attribution as a constrained optimization problem provides precise control over the sparsity of relevance maps. This enables a novel multi-rate as well as a relevance-ordering variant of RDE that both empirically outperform standard RDE in a well-established comparison test. We showcase several deterministic and stochastic variants of the Frank-Wolfe algorithm and their effectiveness for RDE.
翻訳日:2021-10-18 15:19:17 公開日:2021-10-15
# クープマン固有分解の学習:微分型アプローチ

Learning the Koopman Eigendecomposition: A Diffeomorphic Approach ( http://arxiv.org/abs/2110.07786v1 )

ライセンス: Link先を確認
Petar Bevanda, Johannes Kirmayr, Stefan Sosnowski, Sandra Hirche(参考訳) コープマン固有関数を用いた安定非線形系の線形表現を学習するための新しいデータ駆動手法を提案する。 非線形系とそのジャコビアン線型化の間の共役写像を正規化フローを通して学習することで、学習関数が微分同相であることを保証することができる。 この微分同型を用いて、非線形系に対する線形予測器の構築を許容する共役系のスペクトル同値性を通して非線形系の固有関数を構築する。 微分同相学習者の普遍性は、非線形システムのクープマン固有関数の普遍近似に繋がる。 また,表現精度によらずモデルが漸近安定であることを保証するため,本手法は安全である。 我々の知る限りでは、これは演算子、システム、学習理論の間のギャップを埋める最初の試みである。 本手法の有効性をシミュレーション例で示す。

We present a novel data-driven approach for learning linear representations of a class of stable nonlinear systems using Koopman eigenfunctions. By learning the conjugacy map between a nonlinear system and its Jacobian linearization through a Normalizing Flow one can guarantee the learned function is a diffeomorphism. Using this diffeomorphism, we construct eigenfunctions of the nonlinear system via the spectral equivalence of conjugate systems - allowing the construction of linear predictors for nonlinear systems. The universality of the diffeomorphism learner leads to the universal approximation of the nonlinear system's Koopman eigenfunctions. The developed method is also safe as it guarantees the model is asymptotically stable regardless of the representation accuracy. To our best knowledge, this is the first work to close the gap between the operator, system and learning theories. The efficacy of our approach is shown through simulation examples.
翻訳日:2021-10-18 15:17:00 公開日:2021-10-15
# k\texttt{-experts}$ -- オンラインポリシーと基本的な制限

$k\texttt{-experts}$ -- Online Policies and Fundamental Limits ( http://arxiv.org/abs/2110.07881v1 )

ライセンス: Link先を確認
Samrat Mukhopadhyay, Sourav Sahoo, Abhishek Sinha(参考訳) 本稿では、$k\textt{-experts}$ problem -- エキスパートのアドバイスによる古典的な予測(つまり、$\textt{Experts}$)問題の一般化を紹介し、研究する。 この問題は、学習者がちょうど1人の専門家を選ぶ$\texttt{experts}$問題とは異なり、学習者は各ラウンドの1ドルの専門家のプールから、$k$のエキスパートのサブセットを選択する。 任意のラウンドで学習者が得られる報酬は、選ばれた専門家の報酬に依存する。 k\texttt{-experts}$問題は、オンライン広告の配置、パーソナライズされたニュースレコメンデーション、ページングなど、多くの実践的な設定で発生する。 私たちの主な目標は、小さな後悔を持つオンライン学習ポリシーを設計することです。 本稿では,統計的サンプリング技術を利用して効率的なオンライン学習ポリシーを設計するためのフレームワークである$\texttt{SAGE}$$$$\textbf{Sa}$mpled Hed$\textbf{ge}$)を提案する。 多くの関連する問題に対して、$\texttt{sage}$ は、後悔と計算の複雑さに対する最先端の境界を改善している。 さらに、後悔の概念を超えて、安定した損失関数のクラスに対するオンライン学習ポリシーによって達成可能な誤りを特徴づける。 論文の結論は、$k\texttt{-experts}$問題に対する厳密な後悔の下限を確立し、標準データセットを用いた実験を行うことである。

This paper introduces and studies the $k\texttt{-experts}$ problem -- a generalization of the classic Prediction with Expert's Advice (i.e., the $\texttt{Experts}$) problem. Unlike the $\texttt{Experts}$ problem, where the learner chooses exactly one expert, in this problem, the learner selects a subset of $k$ experts from a pool of $N$ experts at each round. The reward obtained by the learner at any round depends on the rewards of the selected experts. The $k\texttt{-experts}$ problem arises in many practical settings, including online ad placements, personalized news recommendations, and paging. Our primary goal is to design an online learning policy having a small regret. In this pursuit, we propose $\texttt{SAGE}$ ($\textbf{Sa}$mpled Hed$\textbf{ge}$) - a framework for designing efficient online learning policies by leveraging statistical sampling techniques. We show that, for many related problems, $\texttt{SAGE}$ improves upon the state-of-the-art bounds for regret and computational complexity. Furthermore, going beyond the notion of regret, we characterize the mistake bounds achievable by online learning policies for a class of stable loss functions. We conclude the paper by establishing a tight regret lower bound for a variant of the $k\texttt{-experts}$ problem and carrying out experiments with standard datasets.
翻訳日:2021-10-18 15:16:48 公開日:2021-10-15
# 自動走行用マルチエージェントトラジェクタにおける異常検出

Anomaly Detection in Multi-Agent Trajectories for Automated Driving ( http://arxiv.org/abs/2110.07922v1 )

ライセンス: Link先を確認
Julian Wiederer, Arij Bouazizi, Marco Troina, Ulrich Kressel, Vasileios Belagiannis(参考訳) 人間ドライバーは事故を避けるために速い異常運転状況を認識することができる。 人間と同様に、自動走行車は異常検出を行う。 本研究では,正規運転行動学習のための時空間グラフ自動エンコーダを提案する。 私たちの革新は、動的エージェントの複数の軌道を共同で学習する能力です。 異常検出を行うために,まず学習した軌跡特徴表現の密度関数を推定し,次に低密度領域における異常を検出する。 自動走行における異常検出のためのマルチエージェント軌道データセットが欠如していることから,運転シミュレータを用いた正常および異常運転のためのデータセットを提案する。 評価の結果,提案手法はエージェント間の関係を学習し,関連する作業と比較して有望な結果をもたらすことがわかった。 コード、シミュレーション、データセットはプロジェクトのページで公開されている。

Human drivers can recognise fast abnormal driving situations to avoid accidents. Similar to humans, automated vehicles are supposed to perform anomaly detection. In this work, we propose the spatio-temporal graph auto-encoder for learning normal driving behaviours. Our innovation is the ability to jointly learn multiple trajectories of a dynamic number of agents. To perform anomaly detection, we first estimate a density function of the learned trajectory feature representation and then detect anomalies in low-density regions. Due to the lack of multi-agent trajectory datasets for anomaly detection in automated driving, we introduce our dataset using a driving simulator for normal and abnormal manoeuvres. Our evaluations show that our approach learns the relation between different agents and delivers promising results compared to the related works. The code, simulation and the dataset are publicly available on the project page: https://github.com/a gainerju/maad_highwa y.
翻訳日:2021-10-18 15:16:23 公開日:2021-10-15
# 無限広ニューラルネットワーク上のグラディエントDescent:グローバル収束と一般化

Gradient Descent on Infinitely Wide Neural Networks: Global Convergence and Generalization ( http://arxiv.org/abs/2110.08084v1 )

ライセンス: Link先を確認
Francis Bach (SIERRA), Lena\"ic Chizat (EPFL)(参考訳) 多くの教師付き機械学習手法が最適化問題として自然に採用されている。 パラメータに線形な予測モデルの場合、これはしばしば多くの数学的保証が存在する凸問題を引き起こす。 ニューラルネットワークのようなパラメータで非線形であるモデルは、保証を得るのが難しい非凸最適化問題を引き起こす。 本稿では,隠れたニューロンの数が無限大となる等質活性化関数を持つ2層ニューラルネットワークについて検討し,定性収束保証の導出方法を示す。

Many supervised machine learning methods are naturally cast as optimization problems. For prediction models which are linear in their parameters, this often leads to convex problems for which many mathematical guarantees exist. Models which are non-linear in their parameters such as neural networks lead to non-convex optimization problems for which guarantees are harder to obtain. In this review paper, we consider two-layer neural networks with homogeneous activation functions where the number of hidden neurons tends to infinity, and show how qualitative convergence guarantees may be derived.
翻訳日:2021-10-18 15:16:09 公開日:2021-10-15
# 人間データのない人とのコラボレーション

Collaborating with Humans without Human Data ( http://arxiv.org/abs/2110.08176v1 )

ライセンス: Link先を確認
DJ Strouse, Kevin R. McKee, Matt Botvinick, Edward Hughes, Richard Everett(参考訳) 人間とのコラボレーションには、個々の強み、弱み、選好に迅速に適応する必要がある。 残念なことに、セルフプレイ(SP)やマスプレイ(PP)のような標準的なマルチエージェント強化学習技術は、トレーニングパートナーに過度に適合し、人間にはうまく一般化しないエージェントを生成する。 あるいは、研究者は人間のデータを収集し、行動のクローンを使って人間のモデルを訓練し、そのモデルを使って「人間を認識」するエージェントを訓練することができる(behavioral clone play、bcp)。 このようなアプローチは、新しい人間の共同プレイヤーへのエージェントの一般化を改善できるが、まずは大量の人間データを収集する単発で高価なステップが伴う。 本稿では,人間データを用いずに,人間パートナーとうまく連携するエージェントの育成方法について検討する。 問題の本質は、さまざまなトレーニングパートナを生み出すことだ、と私たちは主張しています。 競合領域におけるマルチエージェントアプローチの成功から着想を得た結果,驚くほど単純なアプローチが極めて有効であることが判明した。 われわれはエージェントパートナーを、トレーニングを通じて取られたセルフプレイエージェントの集団と過去のチェックポイントに対する最良の対応として訓練する。 近年,人間との協調の課題として提案されている2人共同調理シミュレータに着目した実験を行った。 FCPはSP,PP,BCPよりも,新規なエージェントとヒトのパートナーとの組み合わせで有意に高いスコアを示した。 さらに、人間は全てのベースラインでFCPエージェントと提携することに対して強い主観的嗜好を報告している。

Collaborating with humans requires rapidly adapting to their individual strengths, weaknesses, and preferences. Unfortunately, most standard multi-agent reinforcement learning techniques, such as self-play (SP) or population play (PP), produce agents that overfit to their training partners and do not generalize well to humans. Alternatively, researchers can collect human data, train a human model using behavioral cloning, and then use that model to train "human-aware" agents ("behavioral cloning play", or BCP). While such an approach can improve the generalization of agents to new human co-players, it involves the onerous and expensive step of collecting large amounts of human data first. Here, we study the problem of how to train agents that collaborate well with human partners without using human data. We argue that the crux of the problem is to produce a diverse set of training partners. Drawing inspiration from successful multi-agent approaches in competitive domains, we find that a surprisingly simple approach is highly effective. We train our agent partner as the best response to a population of self-play agents and their past checkpoints taken throughout training, a method we call Fictitious Co-Play (FCP). Our experiments focus on a two-player collaborative cooking simulator that has recently been proposed as a challenge problem for coordination with humans. We find that FCP agents score significantly higher than SP, PP, and BCP when paired with novel agent and human partners. Furthermore, humans also report a strong subjective preference to partnering with FCP agents over all baselines.
翻訳日:2021-10-18 15:16:01 公開日:2021-10-15
# (参考訳) Transforming Autoregression:解釈可能な,表現可能な時系列予測 [全文訳有]

Transforming Autoregression: Interpretable and Expressive Time Series Forecast ( http://arxiv.org/abs/2110.08248v1 )

ライセンス: CC BY 4.0
David R\"ugamer, Philipp F.M. Baumann, Thomas Kneib, Torsten Hothorn(参考訳) 時系列の確率的予測は多くの応用や研究分野において重要である。 確率的予測から結論を引き出すためには、真の予測分布を近似するモデルクラスが十分に表現可能であることを保証する必要がある。 しかし、その不確実性や一般機能のようなモデル自体の特性はそれほど重要ではない。 本稿では,フローの正規化や自己回帰モデルなど,さまざまな研究方向から着想を得たモデルクラスである自己回帰変換モデル(ATM)を提案する。 ATMは半パラメトリック分布仮定と解釈可能なモデル仕様を用いて表現的分布予測を統一し、(漸近的な)最大様相理論に基づく不確実な定量化を可能にする。 ATMの理論的および実証的な評価により,複数のシミュレーションおよび実世界の予測データセット上でATMの特性を実証する。

Probabilistic forecasting of time series is an important matter in many applications and research fields. In order to draw conclusions from a probabilistic forecast, we must ensure that the model class used to approximate the true forecasting distribution is expressive enough. Yet, characteristics of the model itself, such as its uncertainty or its general functioning are not of lesser importance. In this paper, we propose Autoregressive Transformation Models (ATMs), a model class inspired from various research directions such as normalizing flows and autoregressive models. ATMs unite expressive distributional forecasts using a semi-parametric distribution assumption with an interpretable model specification and allow for uncertainty quantification based on (asymptotic) Maximum Likelihood theory. We demonstrate the properties of ATMs both theoretically and through empirical evaluation on several simulated and real-world forecasting datasets.
翻訳日:2021-10-18 15:14:25 公開日:2021-10-15
# バッチ線形帯域に対するほぼ最適バッチ-回帰トレードオフ

Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits ( http://arxiv.org/abs/2110.08057v1 )

ライセンス: Link先を確認
Zihan Zhang, Xiangyang Ji, Yuan Zhou(参考訳) バッチ線形文脈帯域に対する最適バッチ-回帰トレードオフについて検討する。 任意のバッチ番号$M$、アクションの数$K$、タイムホライズ$T$、ディメンション$d$に対して、アルゴリズムを提供し、その後悔の保証を証明する。 また、問題パラメータのemph{full range} における二相後悔の上界(対数因子まで)の最適性を示す下界定理を証明し、そのため正確なバッチ-レグレットトレードオフを確立した。 m = o(\log \log t)$ batches suffice がバッチ制約なしで漸近的に最適化された後悔を達成することを示す最近の研究である \citep{ruan2020linear} と比較すると、アルゴリズムはよりシンプルで実用的な実装が容易である。 さらに、我々のアルゴリズムは全ての$T \geq d$に対して最適の後悔を達成する一方、 \citep{ruan2020linear} は$T$が$d$の非現実的に大きい多項式よりも大きいことを要求する。 また, 動的上界に依存した新しい行列濃度不等式を証明し, 最善の知識として, 文学における最初のものとなり, 恐らく独立した興味を持つものと考えられる。

We study the optimal batch-regret tradeoff for batch linear contextual bandits. For any batch number $M$, number of actions $K$, time horizon $T$, and dimension $d$, we provide an algorithm and prove its regret guarantee, which, due to technical reasons, features a two-phase expression as the time horizon $T$ grows. We also prove a lower bound theorem that surprisingly shows the optimality of our two-phase regret upper bound (up to logarithmic factors) in the \emph{full range} of the problem parameters, therefore establishing the exact batch-regret tradeoff. Compared to the recent work \citep{ruan2020linear} which showed that $M = O(\log \log T)$ batches suffice to achieve the asymptotically minimax-optimal regret without the batch constraints, our algorithm is simpler and easier for practical implementation. Furthermore, our algorithm achieves the optimal regret for all $T \geq d$, while \citep{ruan2020linear} requires that $T$ greater than an unrealistically large polynomial of $d$. Along our analysis, we also prove a new matrix concentration inequality with dependence on their dynamic upper bounds, which, to the best of our knowledge, is the first of its kind in literature and maybe of independent interest.
翻訳日:2021-10-18 14:48:50 公開日:2021-10-15
# 等変および不変レイノルズネットワーク

Equivariant and Invariant Reynolds Networks ( http://arxiv.org/abs/2110.08092v1 )

ライセンス: Link先を確認
Akiyoshi Sannai, Makoto Kawano, Wataru Kumagai(参考訳) 不変および同変ネットワークは、画像、集合、点雲、グラフを含む対称性を持つデータを学ぶのに有用である。 本稿では,有限群の対称性に対する不変および同変ネットワークについて考察する。 不変および同変ネットワークはレイノルズ作用素を用いて様々な研究者によって構築されている。 しかし、レイノルズ作用素は群全体の和を用いるため、群の順序が大きい場合には計算コストがかかるため、実装が困難になる。 この困難を克服するために、レイノルズ作用素を群全体の和ではなく部分集合上の和として表現することを考える。 このような部分集合をreynolds designと呼び、reynolds design 上の和で定義される演算子をreductive reynolds operatorと呼ぶ。 例えば、$n$ノードを持つグラフの場合、還元レイノルズ作用素の計算複雑性は$O(n^2)$に減少し、レイノルズ作用素の計算複雑性は$O(n!)$となる。 我々は、同変および不変レイノルズネットワーク(ReyNets)と呼ばれる還元レイノルズ作用素に基づく学習モデルを構築し、それらが普遍近似特性を持つことを証明する。 等変レイネットのレイノルズ設計はヤング図形の組合せ観測から導かれる一方、不変レイネットのレイノルズ設計は不変多項式の集合上で定義されるレイノルズ次元と呼ばれる不変量から導かれる。 数値実験により,本モデルの性能は最先端手法に匹敵することがわかった。

Invariant and equivariant networks are useful in learning data with symmetry, including images, sets, point clouds, and graphs. In this paper, we consider invariant and equivariant networks for symmetries of finite groups. Invariant and equivariant networks have been constructed by various researchers using Reynolds operators. However, Reynolds operators are computationally expensive when the order of the group is large because they use the sum over the whole group, which poses an implementation difficulty. To overcome this difficulty, we consider representing the Reynolds operator as a sum over a subset instead of a sum over the whole group. We call such a subset a Reynolds design, and an operator defined by a sum over a Reynolds design a reductive Reynolds operator. For example, in the case of a graph with $n$ nodes, the computational complexity of the reductive Reynolds operator is reduced to $O(n^2)$, while the computational complexity of the Reynolds operator is $O(n!)$. We construct learning models based on the reductive Reynolds operator called equivariant and invariant Reynolds networks (ReyNets) and prove that they have universal approximation property. Reynolds designs for equivariant ReyNets are derived from combinatorial observations with Young diagrams, while Reynolds designs for invariant ReyNets are derived from invariants called Reynolds dimensions defined on the set of invariant polynomials. Numerical experiments show that the performance of our models is comparable to state-of-the-art methods.
翻訳日:2021-10-18 14:48:24 公開日:2021-10-15
# 進化的多目的クラスタリングアプローチに関する調査

A Survey of Evolutionary Multi-Objective Clustering Approaches ( http://arxiv.org/abs/2110.08100v1 )

ライセンス: Link先を確認
Cristina Y. Morimoto, Aurora Pozo, and Marc\'ilio C. P. de Souto(参考訳) 本稿では、ACM、IEEE、Scopusにおけるインデックス付き記事のマッピングに基づいて、進化的多目的クラスタリングの研究がどのように進化してきたかを示す。 本稿では,この研究分野の概要を示すために,影響力の高い学術雑誌や会議を考慮に入れた,最も関連するアプローチを提案する。 進化的多目的クラスタリングの一般的なアーキテクチャで提案される特徴と構成要素に基づいてアルゴリズムを解析した。 これらのアルゴリズムは、一般的なクラスタリング戦略とアプリケーションを考慮してグループ化された。 さらに、進化的多目的クラスタリングに適用される適切なクラスタリング基準の定義の難しさや、最適化効率を明確に把握するための進化過程評価の重要性について論じる。 新しいアプローチの設計や既存のアプローチの選択/使用において、特定のクラスタリング特性に加えて、これらの側面を観察することが不可欠である。 最後に,本稿では,この分野の広い視野を望む新参者や多忙な研究者への貢献が可能な,今後の研究の潜在的課題を紹介する。

This article presents how the studies of the evolutionary multi-objective clustering have been evolving over the years, based on a mapping of the indexed articles in the ACM, IEEE, and Scopus. We present the most relevant approaches considering the high impact journals and conferences to provide an overview of this study field. We analyzed the algorithms based on the features and components presented in the proposed general architecture of the evolutionary multi-objective clustering. These algorithms were grouped considering common clustering strategies and applications. Furthermore, issues regarding the difficulty in defining appropriate clustering criteria applied to evolutionary multi-objective clustering and the importance of the evolutionary process evaluation to have a clear view of the optimization efficiency are discussed. It is essential to observe these aspects besides specific clustering properties when designing new approaches or selecting/using the existing ones. Finally, we present other potential subjects of future research, in which this article can contribute to newcomers or busy researchers who want to have a wide vision of the field.
翻訳日:2021-10-18 14:48:02 公開日:2021-10-15
# Heterophilic Graph上でグラフニューラルネットワークを通過するラベルウィズメッセージ

Label-Wise Message Passing Graph Neural Network on Heterophilic Graphs ( http://arxiv.org/abs/2110.08128v1 )

ライセンス: Link先を確認
Enyan Dai, Zhimeng Guo, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は,様々なアプリケーションを対象としたグラフモデリングにおいて,優れたパフォーマンスを実現している。 しかし、既存のgnnの多くは、グラフがノードラベルに強い相同性を示すと仮定している。 彼らは、連結ノードが異種ラベルと属性を持つような異種グラフへの一般化に失敗する。 そこで本研究では,ホモフィリーなグラフやヘテロフィリーなグラフをうまく扱う新しいフレームワークについて検討する。 具体的には,グラフにおけるヘテロフィリエによる課題に対処するため,ラベルワイドメッセージパッシング機構を提案する。 ラベルのメッセージパッシングでは、類似した擬似ラベルを持つ隣人が集約され、異種ノード表現の集約による負の影響を避ける。 さらに,ホモフィア/ヘテロフィアリーグラフのモデルを自動的に選択するbiレベル最適化手法を提案する。 実験により,同好性グラフおよび異好性グラフにおけるノード分類のためのフレームワークの有効性が示された。

Graph Neural Networks (GNNs) have achieved remarkable performance in modeling graphs for various applications. However, most existing GNNs assume the graphs exhibit strong homophily in node labels, i.e., nodes with similar labels are connected in the graphs. They fail to generalize to heterophilic graphs where linked nodes may have dissimilar labels and attributes. Therefore, in this paper, we investigate a novel framework that performs well on graphs with either homophily or heterophily. More specifically, to address the challenge brought by the heterophily in graphs, we propose a label-wise message passing mechanism. In label-wise message-passing, neighbors with similar pseudo labels will be aggregated together, which will avoid the negative effects caused by aggregating dissimilar node representations. We further propose a bi-level optimization method to automatically select the model for graphs with homophily/heterophil y. Extensive experiments demonstrate the effectiveness of our proposed framework for node classification on both homophilic and heterophilic graphs.
翻訳日:2021-10-18 14:47:46 公開日:2021-10-15
# コンテナ化された分散値型マルチエージェント強化学習

Containerized Distributed Value-Based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2110.08169v1 )

ライセンス: Link先を確認
Siyang Wu, Tonghan Wang, Chenghao Li, Chongjie Zhang(参考訳) マルチエージェント強化学習タスクは、トレーニングサンプルの量に高い需要をもたらした。 単一エージェントと異なり、分散バリューベースのマルチエージェント強化学習は、データ転送、プロセス間通信管理、探索の高要求といった、ユニークな課題に直面している。 これらの問題を解決するためのコンテナ化学習フレームワークを提案する。 いくつかの環境インスタンス、ローカルラーナとバッファ、コンテナへのブロックを避けるために慎重に設計されたマルチキューマネージャをパックします。 各コンテナのローカルポリシは可能な限り多様であり、最優先のトラジェクトリのみがグローバルな学習者に送信される。 このようにして、高スループットでスケーラブルで時間効率が高く、多様な分散MARL学習フレームワークを実現する。 われわれのやり方は、Google Research Footballのフルゲーム5.5ドルの難題を解決する最初の方法だ。 StarCraft IIマイクロマネジメントベンチマークでは、最先端の非分散MARLアルゴリズムと比較して4-$18\times$良い結果が得られる。

Multi-agent reinforcement learning tasks put a high demand on the volume of training samples. Different from its single-agent counterpart, distributed value-based multi-agent reinforcement learning faces the unique challenges of demanding data transfer, inter-process communication management, and high requirement of exploration. We propose a containerized learning framework to solve these problems. We pack several environment instances, a local learner and buffer, and a carefully designed multi-queue manager which avoids blocking into a container. Local policies of each container are encouraged to be as diverse as possible, and only trajectories with highest priority are sent to a global learner. In this way, we achieve a scalable, time-efficient, and diverse distributed MARL learning framework with high system throughput. To own knowledge, our method is the first to solve the challenging Google Research Football full game $5\_v\_5$. On the StarCraft II micromanagement benchmark, our method gets $4$-$18\times$ better results compared to state-of-the-art non-distributed MARL algorithms.
翻訳日:2021-10-18 14:47:32 公開日:2021-10-15
# ノード回帰のためのマルチリレーショナルグラフの伝播

Propagation on Multi-relational Graphs for Node Regression ( http://arxiv.org/abs/2110.08185v1 )

ライセンス: Link先を確認
Eda Bayram(参考訳) 近年、マルチリレーショナルグラフが便利に表現できるような、豊富な構造情報を持つ実世界のデータの増加を目撃している。 単純なグラフにまたがる連続ノードの特徴の推測は、現在のリレーショナルラーニング研究であまり研究されていないが、さらに一歩進んで、マルチリレーショナルグラフ上のノード回帰問題に焦点を当てる。 本稿では,単純なグラフのカテゴリ的特徴を完備することを目的としたラベル伝播アルゴリズムから着想を得て,多項有向グラフのノードに欠落する連続的な特徴を完備する新しい伝播フレームワークを提案する。 このマルチリレーショナル伝播アルゴリズムは,リレーショナル局所生成モデルに基づく反復型近傍集約からなる。 本研究は,複数のノード回帰シナリオにおけるデータのマルチリレーショナル構造を,異なる設定で活用することの利点を示す。

Recent years have witnessed a rise in real-world data captured with rich structural information that can be conveniently depicted by multi-relational graphs. While inference of continuous node features across a simple graph is rather under-studied by the current relational learning research, we go one step further and focus on node regression problem on multi-relational graphs. We take inspiration from the well-known label propagation algorithm aiming at completing categorical features across a simple graph and propose a novel propagation framework for completing missing continuous features at the nodes of a multi-relational and directed graph. Our multi-relational propagation algorithm is composed of iterative neighborhood aggregations which originate from a relational local generative model. Our findings show the benefit of exploiting the multi-relational structure of the data in several node regression scenarios in different settings.
翻訳日:2021-10-18 14:47:16 公開日:2021-10-15
# NNK-Means:非負のカーネル回帰を用いた辞書学習

NNK-Means: Dictionary Learning using Non-Negative Kernel regression ( http://arxiv.org/abs/2110.08212v1 )

ライセンス: Link先を確認
Sarath Shekkizhar, Antonio Ortega(参考訳) まず大量のデータを収集し,得られたデータから直接システムパラメータを最適化することで,システム数の増加が図られている。 多くの場合、データセット構造を解析せずに行われる。 タスクの複雑さ、データサイズ、パラメータがすべて数百万から数十億に増加するにつれ、データの要約は大きな課題になりつつある。 本研究では,最近導入された非負のカーネル回帰(NNK)グラフの特性を利用した辞書学習によるデータの要約について検討する。 提案するNNK-Meansは、wSVDのような競合技術とは異なり、入力データ空間にある原子を持つ幾何学的辞書を学習する。 実験の結果,NNK-Meanscan を用いた要約は,kMeans や kSVD の線形版やカーネル版に比べ,識別性が向上した。 さらにNNK-Meansにはスケーラブルな実装があり、実行時の複雑さはkMeansと同様である。

An increasing number of systems are being designed by first gathering significant amounts of data, and then optimizing the system parameters directly using the obtained data. Often this is done without analyzing the dataset structure. As task complexity, data size, and parameters all increase to millions or even billions, data summarization is becoming a major challenge. In this work, we investigate data summarization via dictionary learning, leveraging the properties of recently introduced non-negative kernel regression (NNK) graphs. Our proposed NNK-Means, unlike competing techniques, such askSVD, learns geometric dictionaries with atoms that lie in the input data space. Experiments show that summaries using NNK-Meanscan provide better discrimination compared to linear and kernel versions of kMeans and kSVD. Moreover, NNK-Means has a scalable implementation, with runtime complexity similar to that of kMeans.
翻訳日:2021-10-18 14:47:01 公開日:2021-10-15
# VICause: グループによる失敗と因果発見を同時に行う

VICause: Simultaneous Missing Value Imputation and Causal Discovery with Groups ( http://arxiv.org/abs/2110.08223v1 )

ライセンス: Link先を確認
Pablo Morales-Alvarez, Angus Lamb, Simon Woodhead, Simon Peyton Jones, Miltiadis Allamanis, Cheng Zhang(参考訳) 値の欠如は、予測と因果発見のタスクの両方において、現実世界の機械学習において重要な課題となる。 しかし、既存の計算手法は因果関係に従わないが、従来の因果探索法では欠落したデータを効率的に処理できる方法はほとんどない。 そこで本研究では,深層学習による価値の欠落と因果的発見を同時に取り組む新しいアプローチであるvi causeを提案する。 特に、構造化潜在空間とグラフニューラルネットワークに基づくアーキテクチャを持つ生成モデルを提案し、多数の変数に拡張する。 さらに,実世界の多くのアプリケーションで有用な変数群間の関係を見出すことができる。 VICauseは、値計算の欠如と因果発見の両方において、人気や最近のアプローチと比較してパフォーマンスが向上している。

Missing values constitute an important challenge in real-world machine learning for both prediction and causal discovery tasks. However, existing imputation methods are agnostic to causality, while only few methods in traditional causal discovery can handle missing data in an efficient way. In this work we propose VICause, a novel approach to simultaneously tackle missing value imputation and causal discovery efficiently with deep learning. Particularly, we propose a generative model with a structured latent space and a graph neural network-based architecture, scaling to large number of variables. Moreover, our method can discover relationships between groups of variables which is useful in many real-world applications. VICause shows improved performance compared to popular and recent approaches in both missing value imputation and causal discovery.
翻訳日:2021-10-18 14:46:47 公開日:2021-10-15
# スパン化根付き森林に基づく役割類似度指標

Role Similarity Metric Based on Spanning Rooted Forest ( http://arxiv.org/abs/2110.07872v1 )

ライセンス: Link先を確認
Qi Bao, Zhongzhi Zhang(参考訳) ネットワーク解析の根本的な問題として,構造的ノード類似性が学界で注目され,幅広い応用で採用されている。 これらの構造的ノード類似性尺度のうち、役割類似性は自己同型配座を含むいくつかの公理的性質を満たすため際立っている。 既存の役割類似度メトリクスは、高時間と空間コストのため、大規模な現実世界ネットワーク上のトップkクエリを処理できない。 本稿では,新たな役割類似度計量,すなわち \textsf{forestsim} を提案する。 本研究は,<textsf{ForestSim} が許容される役割類似度尺度であることを証明し,事前計算が完了すると,トップkクエリを$O(k)$で処理できる対応するトップk類似度探索アルゴリズムである \textsf{ForestSimSearch} を考案する。 さらに,フォレスト行列の対角成分を高速近似アルゴリズムを用いて計算することにより,事前計算の時間と空間の複雑さをそれぞれ$o(\epsilon^{-2}m\log^5{n}\log{\frac{1}{\epsilon}})$と$o(m\log^3{n})$に低減する。 最後に,26の現実世界ネットワークについて広範な実験を行った。 その結果, \textsf{ForestSim} は100万規模のネットワーク上で効率的に動作し, 最先端の手法に匹敵する性能を発揮することがわかった。

As a fundamental issue in network analysis, structural node similarity has received much attention in academia and is adopted in a wide range of applications. Among these proposed structural node similarity measures, role similarity stands out because of satisfying several axiomatic properties including automorphism conformation. Existing role similarity metrics cannot handle top-k queries on large real-world networks due to the high time and space cost. In this paper, we propose a new role similarity metric, namely \textsf{ForestSim}. We prove that \textsf{ForestSim} is an admissible role similarity metric and devise the corresponding top-k similarity search algorithm, namely \textsf{ForestSimSearch}, which is able to process a top-k query in $O(k)$ time once the precomputation is finished. Moreover, we speed up the precomputation by using a fast approximate algorithm to compute the diagonal entries of the forest matrix, which reduces the time and space complexity of the precomputation to $O(\epsilon^{-2}m\log^5{n}\log{\frac{1}{\epsilon}})$ and $O(m\log^3{n})$, respectively. Finally, we conduct extensive experiments on 26 real-world networks. The results show that \textsf{ForestSim} works efficiently on million-scale networks and achieves comparable performance to the state-of-art methods.
翻訳日:2021-10-18 14:46:14 公開日:2021-10-15
# ロボットハンドの触覚グローブ制御強化のための決定論的人間の意図信号の推定と予測

Estimation and Prediction of Deterministic Human Intent Signal to augment Haptic Glove aided Control of Robotic Hand ( http://arxiv.org/abs/2110.07953v1 )

ライセンス: Link先を確認
Rajesh Kumar, Pimmy Gandotra, Brejesh Lall, Arzad A. Kherani, Sudipto Mukherjee(参考訳) 本論文は,ロボットハンド(RH)の触覚グローブ(HG)に基づく手動操作の制御に焦点を当てた。 制御アルゴリズムは、RHがゴールポーズに保持されたオブジェクトを移動できるようにする。 HGとRHの両方の動作信号は高次元である。 RHキネマティクスは通常、HGキネマティクスとは異なる。 人手キネマティクスに関する不完全情報を付加した2つの装置のキネマティクスの変動は、HGの高次元運動信号のRHへの直接マッピングが困難となる。 そこで,高次元HGモーション信号から人間の意図を推定し,RHでの信号再構成を行い,物体の移動を確実にする手法を提案する。 また、RHの制御遅延に付加された人間の手の動き信号の合成の遅れが、人間の意図信号の予測の要求につながることも示されている。 次に、人間の意図を事前に予測するために、リカレントニューラルネットワーク(RNN)を提案する。

The paper focuses on Haptic Glove (HG) based control of a Robotic Hand (RH) executing in-hand manipulation. A control algorithm is presented to allow the RH relocate the object held to a goal pose. The motion signals for both the HG and the RH are high dimensional. The RH kinematics is usually different from the HG kinematics. The variability of kinematics of the two devices, added with the incomplete information about the human hand kinematics result in difficulty in direct mapping of the high dimensional motion signal of the HG to the RH. Hence, a method is proposed to estimate the human intent from the high dimensional HG motion signal and reconstruct the signal at the RH to ensure object relocation. It is also shown that the lag in synthesis of the motion signal of the human hand added with the control latency of the RH leads to a requirement of the prediction of the human intent signal. Then, a recurrent neural network (RNN) is proposed to predict the human intent signal ahead of time.
翻訳日:2021-10-18 14:45:48 公開日:2021-10-15
# 知識グラフ構築のための最先端技術に関する調査と今後の課題

A Survey on State-of-the-art Techniques for Knowledge Graphs Construction and Challenges ahead ( http://arxiv.org/abs/2110.08012v1 )

ライセンス: Link先を確認
Ali Hur, Naeem Janjua, Mohiuddin Ahmed(参考訳) グローバルデータスフィアは急速に増加しており、20251年までに175 Zettabytesに達することが期待されている。 しかし、ほとんどのコンテンツは構造化されておらず、機械では理解できない。 このデータを知識グラフに構造化することで,深い質問応答やレコメンデーションシステム,セマンティック検索など,インテリジェントなアプリケーションのマルチタスクが可能になる。 知識グラフは、論理的推論を可能にし、コンテキストとともにコンテンツを使用して新しい洞察を発見できる新興技術である。 これにより、機械が複雑な医療、セキュリティ、金融機関、経済、ビジネスの問題を解決するために必要な構文と推論のセマンティクスを提供する。 その結果、企業は様々な下流アプリケーションをサポートするための知識グラフの構築と維持に力を注いでいる。 手動のアプローチは高価すぎる。 自動スキームは知識グラフの構築コストを最大15~250倍削減できる。 本稿では,人間に近い品質の知識グラフを自律的に作成するための最先端の自動化手法を批判する。 さらに、高品質のナレッジグラフを提供するために対処すべきさまざまな研究課題についても強調する。

Global datasphere is increasing fast, and it is expected to reach 175 Zettabytes by 20251 . However, most of the content is unstructured and is not understandable by machines. Structuring this data into a knowledge graph enables multitudes of intelligent applications such as deep question answering, recommendation systems, semantic search, etc. The knowledge graph is an emerging technology that allows logical reasoning and uncovers new insights using content along with the context. Thereby, it provides necessary syntax and reasoning semantics that enable machines to solve complex healthcare, security, financial institutions, economics, and business problems. As an outcome, enterprises are putting their effort into constructing and maintaining knowledge graphs to support various downstream applications. Manual approaches are too expensive. Automated schemes can reduce the cost of building knowledge graphs up to 15-250 times. This paper critiques state-of-the-art automated techniques to produce knowledge graphs of near-human quality autonomously. Additionally, it highlights different research issues that need to be addressed to deliver high-quality knowledge graphs
翻訳日:2021-10-18 14:45:35 公開日:2021-10-15
# DeepProbLogを使ってオーディオストリーム上で複雑なイベント処理を行う

Using DeepProbLog to perform Complex Event Processing on an Audio Stream ( http://arxiv.org/abs/2110.08090v1 )

ライセンス: Link先を確認
Marc Roig Vilamala, Tianwei Xing, Harrison Taylor, Luis Garcia, Mani Srivastava, Lance Kaplan, Alun Preece, Angelika Kimmig, Federico Cerutti(参考訳) 本稿では,DeepProbLogに基づく複合イベント処理(CEP)のアプローチを提案する。 このアプローチには次のような目的がある。 (i)副シンボルデータを入力として使用すること。 (ii)複雑なイベントルールの定義に柔軟性とモジュール性を保持すること。 (iii)システムをエンドツーエンドで訓練すること、及び (iv)不当にラベル付けされたデータに対して頑健である。 当社のアプローチでは、DeepProbLogを使用して、ニューラルネットワークを組み合わせてサブシンボリックデータを確率論的論理層に処理することで、複雑なイベントのルールをユーザが定義できるようにしています。 本手法は,オーディオストリームから複雑なイベントを検出できることを実証する。 また、ノイズの多いデータの割合が適度なデータセットであっても、このアプローチがトレーニング可能であることも示しています。

In this paper, we present an approach to Complex Event Processing (CEP) that is based on DeepProbLog. This approach has the following objectives: (i) allowing the use of subsymbolic data as an input, (ii) retaining the flexibility and modularity on the definitions of complex event rules, (iii) allowing the system to be trained in an end-to-end manner and (iv) being robust against noisily labelled data. Our approach makes use of DeepProbLog to create a neuro-symbolic architecture that combines a neural network to process the subsymbolic data with a probabilistic logic layer to allow the user to define the rules for the complex events. We demonstrate that our approach is capable of detecting complex events from an audio stream. We also demonstrate that our approach is capable of training even with a dataset that has a moderate proportion of noisy data.
翻訳日:2021-10-18 14:45:19 公開日:2021-10-15
# 特異な部分多様体に対するラプラシア固有写像の収束とその速度

Convergence of Laplacian Eigenmaps and its Rate for Submanifolds with Singularities ( http://arxiv.org/abs/2110.08138v1 )

ライセンス: Link先を確認
Masayuki Aino(参考訳) 本稿では、特異点を持つユークリッド空間の部分多様体上のラプラシアンに対するスペクトル近似結果を、部分多様体上のランダムな点から構築された $\epsilon$-neighborh ood graph によって与えられる。 ラプラシアンの固有値に対する収束速度は$O\left(\left(\log n/n\right)^{1/(m+2)}\right)$であり、$m$と$n$はそれぞれ多様体の次元と標本サイズを表す。

In this paper, we give a spectral approximation result for the Laplacian on submanifolds of Euclidean spaces with singularities by the $\epsilon$-neighborh ood graph constructed from random points on the submanifold. Our convergence rate for the eigenvalue of the Laplacian is $O\left(\left(\log n/n\right)^{1/(m+2)}\right)$, where $m$ and $n$ denote the dimension of the manifold and the sample size, respectively.
翻訳日:2021-10-18 14:45:07 公開日:2021-10-15
# SAFFRONとLORDは正の依存下での偽発見率のオンライン制御を保証する

SAFFRON and LORD Ensure Online Control of the False Discovery Rate Under Positive Dependence ( http://arxiv.org/abs/2110.08161v1 )

ライセンス: Link先を確認
Aaron Fisher(参考訳) オンラインテスト手順では、仮説が連続的に観測され、今後のテストの重要度しきい値がこれまで観測されたテスト統計に依存すると仮定している。 最も人気のあるオンラインメソッドには、alpha investment、lord++(以下lord)、saffronなどがある。 これら3つの手法は、"modified" false discovery rate (mfdr) をオンラインで制御できることが示されている。 しかし、我々の知る限り、テスト統計の独立条件下では、従来の偽発見率(FDR)を制御できることしか示されていない。 我々の研究は、SAFFRONとLORDが非負の依存下でFDRのオンライン制御を保証していることを示し、これらの結果を裏付けている。 SAFFRONフレームワークの特別なケースとしてアルファ投資を回収できるため、この手法にも同様の結果が適用される。 また, 一定数の拒絶が観測された後に停止する, 適応停止時間など, ある種の適応停止時間を許容する。

Online testing procedures assume that hypotheses are observed in sequence, and allow the significance thresholds for upcoming tests to depend on the test statistics observed so far. Some of the most popular online methods include alpha investing, LORD++ (hereafter, LORD), and SAFFRON. These three methods have been shown to provide online control of the "modified" false discovery rate (mFDR). However, to our knowledge, they have only been shown to control the traditional false discovery rate (FDR) under an independence condition on the test statistics. Our work bolsters these results by showing that SAFFRON and LORD additionally ensure online control of the FDR under nonnegative dependence. Because alpha investing can be recovered as a special case of the SAFFRON framework, the same result applies to this method as well. Our result also allows for certain forms of adaptive stopping times, for example, stopping after a certain number of rejections have been observed.
翻訳日:2021-10-18 14:43:15 公開日:2021-10-15
# espnet2-tts: tts研究の最先端

ESPnet2-TTS: Extending the Edge of TTS Research ( http://arxiv.org/abs/2110.07840v1 )

ライセンス: Link先を確認
Tomoki Hayashi and Ryuichi Yamamoto and Takenori Yoshimura and Peter Wu and Jiatong Shi and Takaaki Saeki and Yooncheol Ju and Yusuke Yasuda and Shinnosuke Takamichi and Shinji Watanabe(参考訳) 本稿では,E2E-TTSツールキットであるESPnet2-TTSについて述べる。 ESPnet2-TTSは、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなど、トレーニングパイプラインを簡素化し、TSパフォーマンスをさらに向上する多くの新機能を追加することで、以前のバージョンであるESPnet-TTSを拡張しました。 レシピの統一設計により、ユーザは最先端のE2E-TTS結果を迅速に再現できる。 私たちはまた、推論のための統一pythonインターフェイスで多くの事前学習されたモデルを提供し、ユーザーがベースラインのサンプルを生成し、デモを構築するための簡単な手段を提供します。 英語と日本語のコーパスを用いた実験により,提案したモデルが音声の合成を行い,最先端のTTS性能を実現することを示した。 このツールキットはhttps://github.com/e spnet/espnetで利用可能である。

This paper describes ESPnet2-TTS, an end-to-end text-to-speech (E2E-TTS) toolkit. ESPnet2-TTS extends our earlier version, ESPnet-TTS, by adding many new features, including: on-the-fly flexible pre-processing, joint training with neural vocoders, and state-of-the-art TTS models with extensions like full-band E2E text-to-waveform modeling, which simplify the training pipeline and further enhance TTS performance. The unified design of our recipes enables users to quickly reproduce state-of-the-art E2E-TTS results. We also provide many pre-trained models in a unified Python interface for inference, offering a quick means for users to generate baseline samples and build demos. Experimental evaluations with English and Japanese corpora demonstrate that our provided models synthesize utterances comparable to ground-truth ones, achieving state-of-the-art TTS performance. The toolkit is available online at https://github.com/e spnet/espnet.
翻訳日:2021-10-18 14:42:58 公開日:2021-10-15
# あまり速く話すな:データバイアスが自己教師型音声モデルに及ぼす影響

Don't speak too fast: The impact of data bias on self-supervised speech models ( http://arxiv.org/abs/2110.07957v1 )

ライセンス: Link先を確認
Yen Meng, Yi-Hui Chou, Andy T. Liu, Hung-yi Lee(参考訳) 自己教師付き音声モデル(s3ms)は、asrなど多くの音声下流タスクで成功している。 しかしながら、データの事前トレーニングがs3msのダウンストリーム動作にどのように影響するかは、まだ未定の問題である。 本稿では,性別,コンテンツ,韻律など,音声のさまざまな要素を対象とするバイアス付きデータセットの事前学習モデルによるs3msへの影響について検討し,superbベンチマークで選択した下流タスクにおけるs3msの評価を行った。 実験の結果,S3Msは性差に耐性があることが判明した。 さらに、音声の内容は下流タスク間のS3Mの性能にはほとんど影響しないが、S3Mはより遅い発話率への嗜好を示す。

Self-supervised Speech Models (S3Ms) have been proven successful in many speech downstream tasks, like ASR. However, how pre-training data affects S3Ms' downstream behavior remains an unexplored issue. In this paper, we study how pre-training data affects S3Ms by pre-training models on biased datasets targeting different factors of speech, including gender, content, and prosody, and evaluate these pre-trained S3Ms on selected downstream tasks in SUPERB Benchmark. Our experiments show that S3Ms have tolerance toward gender bias. Moreover, we find that the content of speech has little impact on the performance of S3Ms across downstream tasks, but S3Ms do show a preference toward a slower speech rate.
翻訳日:2021-10-18 14:42:38 公開日:2021-10-15
# 音声音声翻訳のためのインクリメンタル音声合成

Incremental Speech Synthesis For Speech-To-Speech Translation ( http://arxiv.org/abs/2110.08214v1 )

ライセンス: Link先を確認
Danni Liu, Changhan Wang, Hongyu Gong, Xutai Ma, Yun Tang, Juan Pino(参考訳) 音声音声変換(S2ST)パイプラインでは、テキスト音声変換(TTS)モジュールが、翻訳された音声をユーザに届ける重要なコンポーネントである。 インクリメンタルS2STを有効にするには、TTSモジュールは入力テキストがまだストリーミングされている間、発話を合成して再生できなければならない。 本研究では,TSモデルの逐次合成性能の向上に焦点をあてる。 プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。 さらに,我々のインクリメンタルTSシステムは,上流同時翻訳システムと組み合わせて現実的なシナリオに導いており,この利用事例にも利得が引き継がれていることを示す。 さらに,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。

In a speech-to-speech translation (S2ST) pipeline, the text-to-speech (TTS) module is an important component for delivering the translated speech to users. To enable incremental S2ST, the TTS module must be capable of synthesizing and playing utterances while its input text is still streaming in. In this work, we focus on improving the incremental synthesis performance of TTS models. With a simple data augmentation strategy based on prefixes, we are able to improve the incremental TTS quality to approach offline performance. Furthermore, we bring our incremental TTS system to the practical scenario in combination with an upstream simultaneous speech translation system, and show the gains also carry over to this use-case. In addition, we propose latency metrics tailored to S2ST applications, and investigate methods for latency reduction in this context.
翻訳日:2021-10-18 14:42:22 公開日:2021-10-15
# 音声翻訳への直接同時発話

Direct simultaneous speech to speech translation ( http://arxiv.org/abs/2110.08250v1 )

ライセンス: Link先を確認
Xutai Ma, Hongyu Gong, Danni Liu, Ann Lee, Yun Tang, Peng-Jen Chen, Wei-Ning Hsu, Kenneth Heafield, Phillip Koehn, Juan Pino(参考訳) 本稿では,対象音声に翻訳を生成できる最初の同時音声対音声翻訳(simul-s2st)モデルを提案する。 本手法は, 離散単位を用いた音声対音声翻訳の最近の進歩を生かしたものである。 連続したスペクトログラムの特徴の代わりに、教師なしの方法で学習された直接表現の列がモデルから予測され、音声合成のためのボコーダに直接渡される。 同時ポリシーは、ソース音声の特徴と個別の単位をターゲットとする。 最後に、vocoderは、個別の単位をオンザフライで合成する。 我々は、フィッシャー・スパニッシュ・イングリッシュ・データセットのカスケードと直接アプローチを比較するために数値解析を行った。

We present the first direct simultaneous speech-to-speech translation (Simul-S2ST) model, with the ability to start generating translation in the target speech before consuming the full source speech content and independently from intermediate text representations. Our approach leverages recent progress on direct speech-to-speech translation with discrete units. Instead of continuous spectrogram features, a sequence of direct representations, which are learned in a unsupervised manner, are predicted from the model and passed directly to a vocoder for speech synthesis. The simultaneous policy then operates on source speech features and target discrete units. Finally, a vocoder synthesize the target speech from discrete units on-the-fly. We carry out numerical studies to compare cascaded and direct approach on Fisher Spanish-English dataset.
翻訳日:2021-10-18 14:42:06 公開日:2021-10-15
# (参考訳) オクトパスの世界:バイアの報告が言語モデルの色彩知覚にどのように影響するか [全文訳有]

The World of an Octopus: How Reporting Bias Influences a Language Model's Perception of Color ( http://arxiv.org/abs/2110.08182v1 )

ライセンス: CC BY 4.0
Cory Paik, St\'ephane Aroca-Ouellette, Alessandro Roncone and Katharina Kann(参考訳) 最近の研究は、テキストのみの事前学習の固有の制限に関する懸念を提起している。 本稿では,まず,偏りを報告しない傾向である報告バイアスが,この制限の要因の1つであることを示すとともに,マルチモーダルトレーニングがこの問題をどの程度緩和できるかを検討する。 これを達成するために 1) 521の共通対象に対する人間の知覚した色分布のデータセットであるColor Dataset(CoDa)を生成する。 2)CoDaを用いて、テキスト中の色分布、言語モデルで捉えた色分布、および人間の色知覚を分析し、比較する。 3)CoDa上でのテキストのみとマルチモーダルモデルの性能差について検討した。 その結果, 言語モデルが回復する色分布は, テキスト中の不正確な分布と接する傾向が強く, 偏りの報告がテキストのみの学習に悪影響を及ぼし, 本来はテキストのみの学習を制限するという主張を支持した。 そして、これらの効果を緩和するために、マルチモーダルモデルが視覚トレーニングを活用できることを示し、将来の研究に有望な道筋を提供する。

Recent work has raised concerns about the inherent limitations of text-only pretraining. In this paper, we first demonstrate that reporting bias, the tendency of people to not state the obvious, is one of the causes of this limitation, and then investigate to what extent multimodal training can mitigate this issue. To accomplish this, we 1) generate the Color Dataset (CoDa), a dataset of human-perceived color distributions for 521 common objects; 2) use CoDa to analyze and compare the color distribution found in text, the distribution captured by language models, and a human's perception of color; and 3) investigate the performance differences between text-only and multimodal models on CoDa. Our results show that the distribution of colors that a language model recovers correlates more strongly with the inaccurate distribution found in text than with the ground-truth, supporting the claim that reporting bias negatively impacts and inherently limits text-only training. We then demonstrate that multimodal models can leverage their visual training to mitigate these effects, providing a promising avenue for future research.
翻訳日:2021-10-18 14:39:53 公開日:2021-10-15
# 半教師付き点クラウドセマンティクスセグメンテーションのための誘導的点コントラスト学習

Guided Point Contrastive Learning for Semi-supervised Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2110.08188v1 )

ライセンス: Link先を確認
Li Jiang, Shaoshuai Shi, Zhuotao Tian, Xin Lai, Shu Liu, Chi-Wing Fu, Jiaya Jia(参考訳) 3d意味セグメンテーションの急速な進歩は、トレーニングのために大規模な注釈データに大きく依存するディープネットワークモデルの進歩とは区別できない。 3Dポイントレベルのラベリングの高コスト化と課題に対処するために,モデル性能を高めるためのトレーニングにおいて,ラベルなしのポイントクラウドを採用する半教師付きポイントクラウドセマンティックセマンティックセグメンテーションを提案する。 近年の自己監督型タスクのコントラスト損失に触発されて,半教師付き設定における特徴表現とモデル一般化能力を高めるためのガイド付きポイントコントラスト損失を提案する。 非ラベルの点雲上の意味的予測は、同じカテゴリの負のペアを避けるために、損失の擬似ラベルガイダンスとして役立ちます。 また,高品質な特徴学習を実現するため,信頼性ガイダンスを設計する。 さらに、クラス不均衡問題を緩和するために、正と負のサンプルを収集するカテゴリバランスサンプリング戦略を提案する。 3つのデータセット(ScanNet V2、S3DIS、SemanticKITTI)の大規模な実験により、ラベルなしデータによる予測品質向上のための半教師付き手法の有効性が示された。

Rapid progress in 3D semantic segmentation is inseparable from the advances of deep network models, which highly rely on large-scale annotated data for training. To address the high cost and challenges of 3D point-level labeling, we present a method for semi-supervised point cloud semantic segmentation to adopt unlabeled point clouds in training to boost the model performance. Inspired by the recent contrastive loss in self-supervised tasks, we propose the guided point contrastive loss to enhance the feature representation and model generalization ability in semi-supervised setting. Semantic predictions on unlabeled point clouds serve as pseudo-label guidance in our loss to avoid negative pairs in the same category. Also, we design the confidence guidance to ensure high-quality feature learning. Besides, a category-balanced sampling strategy is proposed to collect positive and negative samples to mitigate the class imbalance problem. Extensive experiments on three datasets (ScanNet V2, S3DIS, and SemanticKITTI) show the effectiveness of our semi-supervised method to improve the prediction quality with unlabeled data.
翻訳日:2021-10-18 14:22:26 公開日:2021-10-15
# 幾何学的注視:一貫した自己監督単眼深度推定のための空間的時間的注視法

Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for Consistent Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2110.08192v1 )

ライセンス: Link先を確認
Patrick Ruhkamp, Daoyi Gao, Hanzhi Chen, Nassir Navab, Benjamin Busam(参考訳) 時間的に連続した画像のタプルにわたって幾何学的に一貫性のある密集した3dシーンを推測することは、自己教師付き単眼深度予測パイプラインでは困難である。 本稿では,新しい正規化損失定式化とともに,近年普及しているトランスフォーマーアーキテクチャが,精度を維持しながら深さの整合性を改善する方法について検討する。 本研究では,局所幾何情報を集約するために,粗い深さの予測を関連付ける空間的注意モジュールを提案する。 新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所幾何学情報をさらに処理する。 さらに、光度周期の整合性によって正規化されるフレーム間の幾何的制約を導入する。 提案した正規化と新しい空間時間アテンションモジュールを組み合わせることで、単眼フレーム間の幾何学的および外観的整合性を完全に活用できる。 これは幾何学的に意味のある注意を与え、従来の方法と比較して時間的深さの安定性と精度を向上させる。

Inferring geometrically consistent dense 3D scenes across a tuple of temporally consecutive images remains challenging for self-supervised monocular depth prediction pipelines. This paper explores how the increasingly popular transformer architecture, together with novel regularized loss formulations, can improve depth consistency while preserving accuracy. We propose a spatial attention module that correlates coarse depth predictions to aggregate local geometric information. A novel temporal attention mechanism further processes the local geometric information in a global context across consecutive images. Additionally, we introduce geometric constraints between frames regularized by photometric cycle consistency. By combining our proposed regularization and the novel spatial-temporal-att ention module we fully leverage both the geometric and appearance-based consistency across monocular frames. This yields geometrically meaningful attention and improves temporal depth stability and accuracy compared to previous methods.
翻訳日:2021-10-18 14:22:04 公開日:2021-10-15
# 効率的な意味的コード検索のための高速・スローモデル

Cascaded Fast and Slow Models for Efficient Semantic Code Search ( http://arxiv.org/abs/2110.07811v1 )

ライセンス: Link先を確認
Akhilesh Deepak Gotmare and Junnan Li and Shafiq Joty, Steven C.H. Hoi(参考訳) natural language semantic code searchの目標は、自然言語クエリを使用して、固定された候補セットから意味的に関連するコードスニペットを取得することである。 既存のアプローチは、実用的なセマンティックコード検索システムに対して効果も効率も十分ではない。 本稿では,高速なトランスフォーマエンコーダモデルを用いて,高速検索のためのスケーラブルなインデックスを最適化し,高速検索から上位k結果の性能を向上させるために,下位分類に基づく再ランク付けモデルを学習する,高速かつ遅いモデルを用いた効率的かつ正確な意味的コード探索フレームワークを提案する。 2つの異なるモデルを実際にデプロイする際の高メモリコストをさらに低減するため、共有パラメータを持つ単一トランスフォーマーエンコーダに基づいて高速で遅いモデルを共同で訓練することを提案する。 提案手法は効率が高くスケーラブルなだけでなく,CodeSearchNetベンチマークの0.713 MRRに対して平均相反性ランキング(MRR)スコアが0.7795(6つのプログラミング言語)である最先端結果も達成している。

The goal of natural language semantic code search is to retrieve a semantically relevant code snippet from a fixed set of candidates using a natural language query. Existing approaches are neither effective nor efficient enough towards a practical semantic code search system. In this paper, we propose an efficient and accurate semantic code search framework with cascaded fast and slow models, in which a fast transformer encoder model is learned to optimize a scalable index for fast retrieval followed by learning a slow classification-based re-ranking model to improve the performance of the top K results from the fast retrieval. To further reduce the high memory cost of deploying two separate models in practice, we propose to jointly train the fast and slow model based on a single transformer encoder with shared parameters. The proposed cascaded approach is not only efficient and scalable, but also achieves state-of-the-art results with an average mean reciprocal ranking (MRR) score of 0.7795 (across 6 programming languages) as opposed to the previous state-of-the-art result of 0.713 MRR on the CodeSearchNet benchmark.
翻訳日:2021-10-18 14:21:48 公開日:2021-10-15
# 出版動向と行動に及ぼす因果関係の影響:計算言語コミュニティを事例として

Identifying Causal Influences on Publication Trends and Behavior: A Case Study of the Computational Linguistics Community ( http://arxiv.org/abs/2110.07938v1 )

ライセンス: Link先を確認
Maria Glenski and Svitlana Volkova(参考訳) 実世界の観測データから因果的な結論を導き出すことは、非常に望ましいが難しい課題である。 本稿では,特定の研究分野である計算言語学 (cl) コミュニティが関心を持つ手法,資料,課題の採用,持続,引退に対する出版動向と行動の因果的影響を検討するために,混合手法分析を行った。 Our key findings highlight evidence of the transition to rapidly emerging methodologies in the research community (e.g., adoption of bidirectional LSTMs influencing the retirement of LSTMs), the persistent engagement with trending tasks and techniques (e.g., deep learning, embeddings, generative, and language models), the effect of scientist location from outside the US, e.g., China on propensity of researching languages beyond English, and the potential impact of funding for large-scale research programs. 本研究は,出版の傾向と行動に関する有用な知見を提供し,計算機言語学とより広い科学コミュニティにおける因果推論の可能性について認識を高めることを期待する。

Drawing causal conclusions from observational real-world data is a very much desired but challenging task. In this paper we present mixed-method analyses to investigate causal influences of publication trends and behavior on the adoption, persistence, and retirement of certain research foci -- methodologies, materials, and tasks that are of interest to the computational linguistics (CL) community. Our key findings highlight evidence of the transition to rapidly emerging methodologies in the research community (e.g., adoption of bidirectional LSTMs influencing the retirement of LSTMs), the persistent engagement with trending tasks and techniques (e.g., deep learning, embeddings, generative, and language models), the effect of scientist location from outside the US, e.g., China on propensity of researching languages beyond English, and the potential impact of funding for large-scale research programs. We anticipate this work to provide useful insights about publication trends and behavior and raise the awareness about the potential for causal inference in the computational linguistics and a broader scientific community.
翻訳日:2021-10-18 14:21:26 公開日:2021-10-15
# 事前学習型言語モデルを用いたeコマース用インテントベース製品コレクション

Intent-based Product Collections for E-commerce using Pretrained Language Models ( http://arxiv.org/abs/2110.08241v1 )

ライセンス: Link先を確認
Hiun Kim, Jisu Jeong, Kyung-Min Kim, Dongjun Lee, Hyun Dong Lee, Dongpil Seo, Jeeseung Han, Dong Wook Park, Ji Ae Heo, Rak Yeong Kim(参考訳) ショッピング製品コレクションの構築は、主に人間の仕事でした。 手作業による職人技の努力により、専門家は、バックパック、ラップトップバッグ、新入生のバッグギフト用のメッセンジャーバッグなど、共通のショッピング意図を持つ、関連するが多様な商品を収集する。 コレクションを自動的に構築するには、顧客の意図と製品の属性の間の複雑な関係を学習するMLシステムが必要である。 しかし、挑戦的な点があった。 1)長く複雑な意図文 2)豊かで多様な製品属性、及び 3) それらの間に大きな意味的ギャップがあり、問題を難しくします。 本稿では,webスケール製品のテキスト属性を活用してインテントベースの製品コレクションを作成するプリトレーニング言語モデル(plm)について述べる。 具体的には、アンカーに意図文を設定し、正の例に対応する積を設定することで、三重項損失を伴うBERTを訓練する。 また、探索に基づく負のサンプリングとカテゴリワイドの正のペア増強によりモデルの性能を向上させる。 本モデルは,オフライン評価における意図に基づく製品マッチングの検索ベースラインモデルを大幅に上回っている。 さらに,当社の電子商取引プラットフォーム上でのオンライン実験結果から,PLM法によりCTR,CVR,オーダー多様性が向上した製品コレクションを,専門家が作成したコレクションと比較して構築できることが示唆された。

Building a shopping product collection has been primarily a human job. With the manual efforts of craftsmanship, experts collect related but diverse products with common shopping intent that are effective when displayed together, e.g., backpacks, laptop bags, and messenger bags for freshman bag gifts. Automatically constructing a collection requires an ML system to learn a complex relationship between the customer's intent and the product's attributes. However, there have been challenging points, such as 1) long and complicated intent sentences, 2) rich and diverse product attributes, and 3) a huge semantic gap between them, making the problem difficult. In this paper, we use a pretrained language model (PLM) that leverages textual attributes of web-scale products to make intent-based product collections. Specifically, we train a BERT with triplet loss by setting an intent sentence to an anchor and corresponding products to positive examples. Also, we improve the performance of the model by search-based negative sampling and category-wise positive pair augmentation. Our model significantly outperforms the search-based baseline model for intent-based product matching in offline evaluations. Furthermore, online experimental results on our e-commerce platform show that the PLM-based method can construct collections of products with increased CTR, CVR, and order-diversity compared to expert-crafted collections.
翻訳日:2021-10-18 14:21:09 公開日:2021-10-15
# オンライン深層学習と制御のための確率的回帰境界

Provable Regret Bounds for Deep Online Learning and Control ( http://arxiv.org/abs/2110.07807v1 )

ライセンス: Link先を確認
Xinyi Chen, Edgar Minasyan, Jason D. Lee, Elad Hazan(参考訳) 深層ニューラルネットワークの使用は強化学習と制御に非常に成功したが、これらの問題に対して深層学習に対する理論的保証はほとんど存在しない。 パフォーマンス保証の導出には2つの大きな課題がある。 a) 制御は,状態情報を持ち,本質的にオンラインであり,かつ b)ディープネットワークは、オンライン学習が一般に証明可能な保証を提供することができない非凸予測器である。 過パラメータニューラルネットワークの線形化手法に基づいて,ディープニューラルネットワークを用いた効率的なオンライン学習のための証明可能な後悔領域を導出する。 具体的には、任意の凸損失関数列に対して、ニューラルネットワークのパラメータを最適化するための低抵抗アルゴリズムを適用することで、後見において最良のネットと競合できることを示す。 オンライン環境におけるこれらの結果の応用として,ディープニューラルネットワークコントローラを用いたオンラインエピソディック制御のための証明可能な境界を求める。

The use of deep neural networks has been highly successful in reinforcement learning and control, although few theoretical guarantees for deep learning exist for these problems. There are two main challenges for deriving performance guarantees: a) control has state information and thus is inherently online and b) deep networks are non-convex predictors for which online learning cannot provide provable guarantees in general. Building on the linearization technique for overparameterized neural networks, we derive provable regret bounds for efficient online learning with deep neural networks. Specifically, we show that over any sequence of convex loss functions, any low-regret algorithm can be adapted to optimize the parameters of a neural network such that it competes with the best net in hindsight. As an application of these results in the online setting, we obtain provable bounds for online episodic control with deep neural network controllers.
翻訳日:2021-10-18 14:19:15 公開日:2021-10-15
# FOLD-R++:混合データからデフォルト理論の帰納的学習を自動化するツールセット

FOLD-R++: A Toolset for Automated Inductive Learning of Default Theories from Mixed Data ( http://arxiv.org/abs/2110.07843v1 )

ライセンス: Link先を確認
Huaduo Wang and Gopal Gupta(参考訳) FOLD-Rは、(数値と分類の)混合データを除いてデフォルトルールを学習するための自動帰納学習アルゴリズムである。 分類タスク用の(説明可能な)応答セットプログラミング(ASP)ルールを生成する。 本稿では,FOLD-R++と呼ばれる改良されたFOLD-Rアルゴリズムを提案する。 FOLD-R++は、エンコーディングまたは特徴選択フェーズ中に入力トレーニングデータに情報を損なうことなく、FOLD-Rを改善する。 FOLD-R++アルゴリズムは広く使われているXGBoostアルゴリズムと競合するが、XGBoostとは異なり、FOLD-R++アルゴリズムは説明可能なモデルを生成する。 次に,FOLD-R++ と s(CASP) を併用した強力なツールセットを作成し,FOLD-R++ が生成した回答セットプログラムを用いて,新しいデータサンプルの予測を行う。 s(CASP) システムは予測の正当性も生み出す。 本稿では,改良されたFOLD-R++アルゴリズムが元の設計よりも大幅に改善され,s(CASP)システムも効率的に予測できることを示す。

FOLD-R is an automated inductive learning algorithm for learning default rules with exceptions for mixed (numerical and categorical) data. It generates an (explainable) answer set programming (ASP) rule set for classification tasks. We present an improved FOLD-R algorithm, called FOLD-R++, that significantly increases the efficiency and scalability of FOLD-R. FOLD-R++ improves upon FOLD-R without compromising or losing information in the input training data during the encoding or feature selection phase. The FOLD-R++ algorithm is competitive in performance with the widely-used XGBoost algorithm, however, unlike XGBoost, the FOLD-R++ algorithm produces an explainable model. Next, we create a powerful tool-set by combining FOLD-R++ with s(CASP)-a goal-directed ASP execution engine-to make predictions on new data samples using the answer set program generated by FOLD-R++. The s(CASP) system also produces a justification for the prediction. Experiments presented in this paper show that our improved FOLD-R++ algorithm is a significant improvement over the original design and that the s(CASP) system can make predictions in an efficient manner as well.
翻訳日:2021-10-18 14:19:01 公開日:2021-10-15
# マルチホップグラフ生成器を用いたデュアルパーセプショングラフニューラルネットワーク

A Dual-Perception Graph Neural Network with Multi-hop Graph Generator ( http://arxiv.org/abs/2110.07869v1 )

ライセンス: Link先を確認
Li Zhou, Wenyu Chen, Dingyi Zeng, Shaohuan Cheng, Wanlong Liu, Hong Qu(参考訳) グラフニューラルネットワーク(GNN)は近年注目を集め、グラフベースのタスクの多く、特にグラフ上の半教師付き学習において顕著なパフォーマンスを達成した。 しかし、既存のほとんどのGNNは、過剰なノイズ情報を導入し、GNNの表現力を制限し、最終的に過度に平滑な問題を引き起こすネットワーク層を積み重ねることによって、トポロジカルな構造とマルチホップ近傍情報に過度に依存している。 そこで本研究では,これらの問題に対処する新しいDual-Perception Graph Neural Network (DPGNN)を提案する。 DPGNNでは,ノード特徴を利用して特徴グラフを構築し,元のトポロジグラフと構築された特徴グラフを同時に学習し,構造近傍情報と特徴関連情報を抽出する。 さらに,ノード固有のマルチホップ近傍情報を適応的に集約するためにノード間アテンション機構を適用したマルチホップグラフ生成器(MHGG)を設計する。 最後に,ラベルのないノード表現に対する一貫した予測を形成するために,自己センシングを適用する。 異なる位相構造を持つ5つのデータセットにおける実験結果から,提案するdpgnnは全データセットの競合性能を達成し,そのうち4つが最新の最先端モデルに匹敵することを示した。 私たちのモデルのソースコードはhttps://github.com.c om.comで閲覧できます。

Graph neural networks (GNNs) have drawn increasing attention in recent years and achieved remarkable performance in many graph-based tasks, especially in semi-supervised learning on graphs. However, most existing GNNs excessively rely on topological structures and aggregate multi-hop neighborhood information by simply stacking network layers, which may introduce superfluous noise information, limit the expressive power of GNNs and lead to the over-smoothing problem ultimately. In light of this, we propose a novel Dual-Perception Graph Neural Network (DPGNN) to address these issues. In DPGNN, we utilize node features to construct a feature graph, and perform node representations learning based on the original topology graph and the constructed feature graph simultaneously, which conduce to capture the structural neighborhood information and the feature-related information. Furthermore, we design a Multi-Hop Graph Generator (MHGG), which applies a node-to-hop attention mechanism to aggregate node-specific multi-hop neighborhood information adaptively. Finally, we apply self-ensembling to form a consistent prediction for unlabeled node representations. Experimental results on five datasets with different topological structures demonstrate that our proposed DPGNN achieves competitive performance across all datasets, four of which the results outperform the latest state-of-the-art models. The source code of our model is available at https://github.com.
翻訳日:2021-10-18 14:18:40 公開日:2021-10-15
# wasserstein 教師なし強化学習

Wasserstein Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2110.07940v1 )

ライセンス: Link先を確認
Shuncheng He, Yuhang Jiang, Hongchang Zhang, Jianzhun Shao, Xiangyang Ji(参考訳) 教師なし強化学習(unsupervised reinforcement learning)は、エージェントが外部の報酬なしで、環境における一握りのポリシーやスキルを学ぶように訓練することを目的としている。 これらの事前訓練されたポリシーは、外部報酬が与えられた場合の学習を加速し、階層的強化学習における原始的な選択肢としても使用できる。 教師なしスキル発見の従来のアプローチは、エージェントに潜伏変数を与え、相互情報(MI)の最大化によってエージェントの行動に権限を与える。 しかし、MIベースの手法で学習したポリシーは、互いにうまく識別できるにもかかわらず、状態空間を十分に探索することはできない。 そこで我々は,異なる政策によって引き起こされる状態分布の距離を直接的に最大化する,ワッサーシュタイン無教師強化学習(WURL)を提案する。 さらに,n(n>2)ポリシーの同時学習の難しさを克服し,各ステップに対する報酬全体を償却する。 実験では,mi法を高い識別性を維持しつつ,wasserstein距離のメートル法に上回って学習した方針を示す。 さらに、WURLによって訓練されたエージェントは迷路やMuJoCoタスクの状態空間を十分に探索することができ、事前訓練されたポリシーは階層的な学習によって下流タスクに適用することができる。

Unsupervised reinforcement learning aims to train agents to learn a handful of policies or skills in environments without external reward. These pre-trained policies can accelerate learning when endowed with external reward, and can also be used as primitive options in hierarchical reinforcement learning. Conventional approaches of unsupervised skill discovery feed a latent variable to the agent and shed its empowerment on agent's behavior by mutual information (MI) maximization. However, the policies learned by MI-based methods cannot sufficiently explore the state space, despite they can be successfully identified from each other. Therefore we propose a new framework Wasserstein unsupervised reinforcement learning (WURL) where we directly maximize the distance of state distributions induced by different policies. Additionally, we overcome difficulties in simultaneously training N(N >2) policies, and amortizing the overall reward to each step. Experiments show policies learned by our approach outperform MI-based methods on the metric of Wasserstein distance while keeping high discriminability. Furthermore, the agents trained by WURL can sufficiently explore the state space in mazes and MuJoCo tasks and the pre-trained policies can be applied to downstream tasks by hierarchical learning.
翻訳日:2021-10-18 14:18:15 公開日:2021-10-15
# 事前計画によるハイパーパラメータ最適化の改善

Improving Hyperparameter Optimization by Planning Ahead ( http://arxiv.org/abs/2110.08028v1 )

ライセンス: Link先を確認
Hadi S. Jomaa, Jonas Falkner, Lars Schmidt-Thieme(参考訳) ハイパーパラメータ最適化(hpo)は一般に、(確率的)スーパーパラメータ応答の集合(例えば検証損失)に(確率的)サロゲートモデルを適合させ、その結果、評価のために良いハイパーパラメータ候補を特定するためにサロゲートモデルを用いた取得関数を最大化する二段階最適化問題として扱われる。 代理および/または取得関数の選択は、関連するタスク間の知識伝達によってさらに改善することができる。 本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。 さらに,超パラメータ候補を表現する一連のアクションを最適化するポリシとして,単純なルック・アヘッド戦略を用いたモデル予測制御の新たな変種を提案する。 モデルなし強化学習手法を含む最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法は単純な計画ベースポリシーを利用することで,すべてのベースラインを上回り得ることを示す。

Hyperparameter optimization (HPO) is generally treated as a bi-level optimization problem that involves fitting a (probabilistic) surrogate model to a set of observed hyperparameter responses, e.g. validation loss, and consequently maximizing an acquisition function using a surrogate model to identify good hyperparameter candidates for evaluation. The choice of a surrogate and/or acquisition function can be further improved via knowledge transfer across related tasks. In this paper, we propose a novel transfer learning approach, defined within the context of model-based reinforcement learning, where we represent the surrogate as an ensemble of probabilistic models that allows trajectory sampling. We further propose a new variant of model predictive control which employs a simple look-ahead strategy as a policy that optimizes a sequence of actions, representing hyperparameter candidates to expedite HPO. Our experiments on three meta-datasets comparing to state-of-the-art HPO algorithms including a model-free reinforcement learning approach show that the proposed method can outperform all baselines by exploiting a simple planning-based policy.
翻訳日:2021-10-18 14:17:54 公開日:2021-10-15
# (参考訳) BBQ: 質問応答のための手持ちバイアスベンチマーク [全文訳有]

BBQ: A Hand-Built Bias Benchmark for Question Answering ( http://arxiv.org/abs/2110.08193v1 )

ライセンス: CC BY 4.0
Alicia Parrish, Angelica Chen, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Jana Thompson, Phu Mon Htut, Samuel R. Bowman(参考訳) nlpモデルが世界に存在する社会バイアスを学ぶことは十分に文書化されているが、質問応答(qa)のような応用タスクの実際のモデルアウトプットにこれらのバイアスがどのように現れるかを示すための作業はほとんど行われていない。 筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って保護されたクラスに属する人々に対する社会的偏見を強調した。 我々のタスクはモデル応答を2つの異なるレベルで評価する。 (i)非形式的文脈を与えられた場合、回答がいかに社会的バイアスを反映しているかを強くモデル化するか、そして 2) 適切な情報的コンテキストを与えられた場合、モデルのバイアスが依然として正しい解選択を上書きするかどうかをテストする。 文脈が曖昧である場合、モデルはステレオタイプに強く依存しており、モデルの出力は、この設定で常に有害なバイアスを再現する。 文脈があいまいな答えを与える場合、モデルの方がはるかに正確であるが、それでもステレオタイプ情報に頼り、正解が社会的バイアスに一致する例では2.5ポイント高い精度を達成し、この精度差は性別を対象とする例では5ポイントに拡大する。

It is well documented that NLP models learn social biases present in the world, but little work has been done to show how these biases manifest in actual model outputs for applied tasks like question answering (QA). We introduce the Bias Benchmark for QA (BBQ), a dataset consisting of question-sets constructed by the authors that highlight \textit{attested} social biases against people belonging to protected classes along nine different social dimensions relevant for U.S. English-speaking contexts. Our task evaluates model responses at two distinct levels: (i) given an under-informative context, test how strongly model answers reflect social biases, and (ii) given an adequately informative context, test whether the model's biases still override a correct answer choice. We find that models strongly rely on stereotypes when the context is ambiguous, meaning that the model's outputs consistently reproduce harmful biases in this setting. Though models are much more accurate when the context provides an unambiguous answer, they still rely on stereotyped information and achieve an accuracy 2.5 percentage points higher on examples where the correct answer aligns with a social bias, with this accuracy difference widening to 5 points for examples targeting gender.
翻訳日:2021-10-18 14:15:28 公開日:2021-10-15
# テクスチャ共起と空間的自己相似を利用したデバイアスデータ生成

Data Generation using Texture Co-occurrence and Spatial Self-Similarity for Debiasing ( http://arxiv.org/abs/2110.07920v1 )

ライセンス: Link先を確認
Myeongkyun Kang, Dongkyu Won, Miguel Luna, Kyung Soo Hong, June Hong Ahn, Sang Hyun Park(参考訳) 偏りのあるデータセットでトレーニングされた分類モデルは、偏りのある表現がモデルに埋め込まれているため、通常、分散サンプルではうまく動作しない。 近年,偏りのある表現を外すための逆学習手法が提案されているが,他の関連情報を変更することなく偏りのある特徴のみを破棄することは困難である。 本稿では,逆ラベル付き画像のテクスチャ表現を用いて,付加画像を明示的に生成し,トレーニングデータセットを拡大し,分類器を訓練する際のバイアス効果を緩和する,新しいデバイアス処理手法を提案する。 新たに生成された各画像は、反対ラベルのターゲット画像からテクスチャを転送しながら、ソース画像から類似した空間情報を含む。 本モデルでは,生成画像のテクスチャがターゲットと類似しているか否かを決定するテクスチャ共起損失と,生成画像とソース画像間の空間的詳細がよく保存されているかどうかを決定する空間的自己相似損失とを統合する。 生成された画像とオリジナルのトレーニング画像の両方が、未知のバイアス表現の学習を回避できる分類器のトレーニングに使用される。 我々は,バイアス情報を緩和する手法の能力を示すために,既知のバイアスを持つ3つの異なる人工的に設計されたデータセットを用い,既存の最先端手法に対する競合性能を報告した。

Classification models trained on biased datasets usually perform poorly on out-of-distribution samples since biased representations are embedded into the model. Recently, adversarial learning methods have been proposed to disentangle biased representations, but it is challenging to discard only the biased features without altering other relevant information. In this paper, we propose a novel de-biasing approach that explicitly generates additional images using texture representations of oppositely labeled images to enlarge the training dataset and mitigate the effect of biases when training a classifier. Every new generated image contains similar spatial information from a source image while transferring textures from a target image of opposite label. Our model integrates a texture co-occurrence loss that determines whether a generated image's texture is similar to that of the target, and a spatial self-similarity loss that determines whether the spatial details between the generated and source images are well preserved. Both generated and original training images are further used to train a classifier that is able to avoid learning unknown bias representations. We employ three distinct artificially designed datasets with known biases to demonstrate the ability of our method to mitigate bias information, and report competitive performance over existing state-of-the-art methods.
翻訳日:2021-10-18 13:54:16 公開日:2021-10-15
# 車両再同定における三重項損失の安定化のための三重項マイニングの保持

Relation Preserving Triplet Mining for Stabilizing the Triplet Loss in Vehicle Re-identification ( http://arxiv.org/abs/2110.07933v1 )

ライセンス: Link先を確認
Adhiraj Ghosh, Kuruparan Shanmugalingam, Wen-Yan Lin(参考訳) 物体の外観はしばしばポーズの変化によって劇的に変化する。 これにより、同じオブジェクトidを持つインスタンスを可能な限り近い場所にマップしようとする組み込みスキームに対する課題が発生する。 この問題は、再識別(re-id)のような複雑なコンピュータビジョンタスクにおいて著しく高まる。 本稿では,これらの劇的な出現変化は,オブジェクトidが複数の自然群からなることを示すものであり,異なるグループからのインスタンスを共通の場所に強制的にマッピングすることが非生産的であることを示唆する。 これにより、オブジェクトID内の自然なサブグループを尊重するトリプレットマイニングスキームであるRelation Preserving Triplet Mining (RPTM)を導入することができる。 この三重項マイニング機構を用いてポーズ対応三重項コスト関数を確立する。 これにより、1つのネットワークを3つの挑戦的なベンチマークで固定パラメータでトレーニングできると同時に、最先端の再識別結果も提供できる。

Object appearances often change dramatically with pose variations. This creates a challenge for embedding schemes that seek to map instances with the same object ID to locations that are as close as possible. This issue becomes significantly heightened in complex computer vision tasks such as re-identification(re -id). In this paper, we suggest these dramatic appearance changes are indications that an object ID is composed of multiple natural groups and it is counter-productive to forcefully map instances from different groups to a common location. This leads us to introduce Relation Preserving Triplet Mining (RPTM), a feature matching guided triplet mining scheme, that ensures triplets will respect the natural sub-groupings within an object ID. We use this triplet mining mechanism to establish a pose-aware, well-conditioned triplet cost function. This allows a single network to be trained with fixed parameters across three challenging benchmarks, while still providing state-of-the-art re-identification results.
翻訳日:2021-10-18 13:53:53 公開日:2021-10-15
# 新しい視点行動合成のためのpose-guided Generative Adversarial Net

Pose-guided Generative Adversarial Net for Novel View Action Synthesis ( http://arxiv.org/abs/2110.07993v1 )

ライセンス: Link先を確認
Xianhang Li, Junhao Zhang, Kunchang Li, Shruti Vyas, Yogesh S Rawat(参考訳) 我々は、新しい視点の人間行動合成の問題に焦点を当てる。 アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。 当然、新しいビュービデオ合成は画像合成よりも難しい。 時間的コヒーレンシーを持つ現実的なフレーム列の合成が必要である。 さらに、異なるアクションを新しいターゲットビューに移すには、アクションカテゴリと視点の変更を同時に認識する必要がある。 これらの課題に対処するため、我々は、この課題の難易度を軽減するためにポーズを利用する、Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。 まず,ソースビューからターゲットビューへアクションを変換し,2次元座標空間で新たなビューポーズ列を生成する,再帰的なポーズ変換モジュールを提案する。 第2に、十分に変換されたポーズシーケンスにより、ターゲットビューにおけるアクションとバックグラウンドを分離できる。 我々は,これらの動作と背景機能を用いて,ターゲット映像の逐次的特徴を効果的に生成するために,新しい局所的グローバル空間変換モジュールを用いる。 最後に、生成されたビデオ機能は、3Dデコーダの助けを借りて人間のアクションを合成するために使用される。 さらに,ビデオの動的動作に焦点を合わせるために,映像の質をさらに向上させる新しいマルチスケールアクション分離型損失を提案する。 NTU-RGBDとPKU-MMDの2つの大規模多視点人間行動データセットについて広範な実験を行い、既存のアプローチよりも優れたPAS-GANの有効性を実証した。

We focus on the problem of novel-view human action synthesis. Given an action video, the goal is to generate the same action from an unseen viewpoint. Naturally, novel view video synthesis is more challenging than image synthesis. It requires the synthesis of a sequence of realistic frames with temporal coherency. Besides, transferring the different actions to a novel target view requires awareness of action category and viewpoint change simultaneously. To address these challenges, we propose a novel framework named Pose-guided Action Separable Generative Adversarial Net (PAS-GAN), which utilizes pose to alleviate the difficulty of this task. First, we propose a recurrent pose-transformation module which transforms actions from the source view to the target view and generates novel view pose sequence in 2D coordinate space. Second, a well-transformed pose sequence enables us to separatethe action and background in the target view. We employ a novel local-global spatial transformation module to effectively generate sequential video features in the target view using these action and background features. Finally, the generated video features are used to synthesize human action with the help of a 3D decoder. Moreover, to focus on dynamic action in the video, we propose a novel multi-scale action-separable loss which further improves the video quality. We conduct extensive experiments on two large-scale multi-view human action datasets, NTU-RGBD and PKU-MMD, demonstrating the effectiveness of PAS-GAN which outperforms existing approaches.
翻訳日:2021-10-18 13:53:38 公開日:2021-10-15
# モブリ装置のモデル加速のためのジョイントチャネルとウェイトプルーニング

Joint Channel and Weight Pruning for Model Acceleration on Moblie Devices ( http://arxiv.org/abs/2110.08013v1 )

ライセンス: Link先を確認
Tianli Zhao, Xi Sheryl Zhang, Wentao Zhu, Jiaxing Wang, Ji Liu, Jian Cheng(参考訳) モバイルデバイス上でのディープニューラルネットワーク設計には,計算資源による制約や様々なアプリケーションにおける推論遅延を考慮することが不可欠である。 ディープ・ネットワーク・アクセラレーションに関連したアプローチの中で、pruningは計算資源の消費と精度のバランスをとるために広く採用されている手法であり、重要な接続をチャネル単位でもランダムにも、モデル精度への影響を最小限に抑えることができる。 チャネルプルーニングは即座に遅延を著しく低減し、ランダムウェイトプルーニングはレイテンシと精度のバランスをとるためにより柔軟である。 本稿では,JCW(Joint Channel pruning and Weight pruning)と統合されたフレームワークを提案する。 レイテンシーと精度のトレードオフを完全に最適化するために,JCWフレームワークで最適化された多目的進化アルゴリズムを開発した。 大規模な実験により、JCWは、ImageNet分類データセット上の様々な最先端のプルーニング手法に対して、レイテンシと精度のトレードオフを向上することが示された。 私たちのコードはhttps://github.com/j cw-anonymous/jcwで利用可能です。

For practical deep neural network design on mobile devices, it is essential to consider the constraints incurred by the computational resources and the inference latency in various applications. Among deep network acceleration related approaches, pruning is a widely adopted practice to balance the computational resource consumption and the accuracy, where unimportant connections can be removed either channel-wisely or randomly with a minimal impact on model accuracy. The channel pruning instantly results in a significant latency reduction, while the random weight pruning is more flexible to balance the latency and accuracy. In this paper, we present a unified framework with Joint Channel pruning and Weight pruning (JCW), and achieves a better Pareto-frontier between the latency and accuracy than previous model compression approaches. To fully optimize the trade-off between the latency and accuracy, we develop a tailored multi-objective evolutionary algorithm in the JCW framework, which enables one single search to obtain the optimal candidate architectures for various deployment requirements. Extensive experiments demonstrate that the JCW achieves a better trade-off between the latency and accuracy against various state-of-the-art pruning methods on the ImageNet classification dataset. Our codes are available at https://github.com/j cw-anonymous/JCW.
翻訳日:2021-10-18 13:53:13 公開日:2021-10-15
# マルチテール・マルチヘッド・空間動的メモリによるテキスト画像合成

Multi-Tailed, Multi-Headed, Spatial Dynamic Memory refined Text-to-Image Synthesis ( http://arxiv.org/abs/2110.08143v1 )

ライセンス: Link先を確認
Amrit Diggavi Seshadri, Balaraman Ravindran(参考訳) テキスト記述から高品質でリアルなイメージを合成することは難しい課題であり、現在の手法では、まずは粗い初期画像を生成し、その後に画像の詳細を精細化する。 しかし、このパラダイムに従う既存の方法には3つの重要な制限がある。 まず、単語レベルで画像属性を分離しようとせずに最初の画像を合成する。 その結果、初期画像のオブジェクト属性(その後の精細化の基礎となる)は本質的に絡み合っており、本質的に曖昧である。 第2に、すべての領域で共通のテキスト表現を使用することで、現在の方法では、画像の異なる部分において、基本的に異なる方法でテキストを解釈できない。 したがって、異なる画像領域は、改良段階ごとにテキストから同じ種類の情報を同一化できるだけである。 最終的に、現在の手法は、各精錬段階で1回だけ精錬機能を生成し、単一のショットで全ての画像の側面に対処しようとする。 この単発リファインメントは、各リファインメントステージが前の画像を改善するために学習できる精度を制限する。 提案手法では,(1)各単語 n-gram に対して画像特徴を明示的に生成する初期生成段階の3つの新しい要素を導入する。 (2)画像の精細化のための空間動的メモリモジュール。 3) 反復的なマルチヘッド機構により,複数のイメージ面の改善が容易になる。 実験結果から,複数の単語レベル初期生成(msmt-gan)を用いたマルチヘッド空間動的メモリ画像の精度向上が,cubおよびcocoデータセットの先行技術に好適な効果を示した。

Synthesizing high-quality, realistic images from text-descriptions is a challenging task, and current methods synthesize images from text in a multi-stage manner, typically by first generating a rough initial image and then refining image details at subsequent stages. However, existing methods that follow this paradigm suffer from three important limitations. Firstly, they synthesize initial images without attempting to separate image attributes at a word-level. As a result, object attributes of initial images (that provide a basis for subsequent refinement) are inherently entangled and ambiguous in nature. Secondly, by using common text-representations for all regions, current methods prevent us from interpreting text in fundamentally different ways at different parts of an image. Different image regions are therefore only allowed to assimilate the same type of information from text at each refinement stage. Finally, current methods generate refinement features only once at each refinement stage and attempt to address all image aspects in a single shot. This single-shot refinement limits the precision with which each refinement stage can learn to improve the prior image. Our proposed method introduces three novel components to address these shortcomings: (1) An initial generation stage that explicitly generates separate sets of image features for each word n-gram. (2) A spatial dynamic memory module for refinement of images. (3) An iterative multi-headed mechanism to make it easier to improve upon multiple image aspects. Experimental results demonstrate that our Multi-Headed Spatial Dynamic Memory image refinement with our Multi-Tailed Word-level Initial Generation (MSMT-GAN) performs favourably against the previous state of the art on the CUB and COCO datasets.
翻訳日:2021-10-18 13:52:51 公開日:2021-10-15
# (参考訳) スパース翻訳モデルの訓練の試み [全文訳有]

Tricks for Training Sparse Translation Models ( http://arxiv.org/abs/2110.08246v1 )

ライセンス: CC BY-SA 4.0
Dheeru Dua, Shruti Bhosale, Vedanuj Goswami, James Cross, Mike Lewis, Angela Fan(参考訳) 不均衡なデータ分散を持つマルチタスク学習は、特にモデルキャパシティが固定され、すべてのタスクで完全に共有された場合に、高リソースタスクへのモデル学習を歪めます。 BASELayersのようなスパーススケーリングアーキテクチャは、さまざまなタスクに対して、変数数のパラメータを持つフレキシブルなメカニズムを提供する。 多言語機械翻訳のためのスパース・アーキテクチャは、そのままでは性能が悪く、温度加熱機構と密集した事前学習という2つの簡単な手法が提案されている。 全体として、これらの手法は標準的なBASELayersとDenseスケーリングベースラインと比較して2つの多言語翻訳ベンチマークの性能を改善し、2倍以上のモデル収束速度を持つ。

Multi-task learning with an unbalanced data distribution skews model learning towards high resource tasks, especially when model capacity is fixed and fully shared across all tasks. Sparse scaling architectures, such as BASELayers, provide flexible mechanisms for different tasks to have a variable number of parameters, which can be useful to counterbalance skewed data distributions. We find that that sparse architectures for multilingual machine translation can perform poorly out of the box, and propose two straightforward techniques to mitigate this - a temperature heating mechanism and dense pre-training. Overall, these methods improve performance on two multilingual translation benchmarks compared to standard BASELayers and Dense scaling baselines, and in combination, more than 2x model convergence speed.
翻訳日:2021-10-18 13:51:17 公開日:2021-10-15
# Rewire-then-Probe:事前学習した言語モデルの生体医学的知識を探索するための対照的なレシピ

Rewire-then-Probe: A Contrastive Recipe for Probing Biomedical Knowledge of Pre-trained Language Models ( http://arxiv.org/abs/2110.08173v1 )

ライセンス: Link先を確認
Zaiqiao Meng, Fangyu Liu, Ehsan Shareghi, Yixuan Su, Charlotte Collins, Nigel Collier(参考訳) 知識探索は、事前訓練された言語モデル(PLM)の背後にある知識伝達機構を理解するために重要である。 一般ドメインにおけるplmの知識調査の進展にもかかわらず、バイオメディカルドメインのような専門分野は非常に未開拓である。 この方向の研究を触媒するために,我々は,統一医療言語システム (umls) メタテッサロスに基づいて構築された,生物医学的知識調査ベンチマークである medlama をリリースする。 我々は、我々のベンチマークで最先端plmと調査アプローチの幅広い範囲をテストし、acc@10の最大3%に到達しました。 ドメイン固有の様々な課題の源泉を強調しながら、基礎となるPLMがタスクを探索する可能性が高いことを示す。 そこで本研究では,新たな自己監督型コントラスト探索手法であるContrastive-Probeを提案する。 コントラストプロベはacc@10を28%まで押し上げるが、パフォーマンスの差は依然として顕著である。 我々の専門家による評価は、UMLSがまだ事実知識の全スペクトルを含まないため、コントラスト・プローブの探索性能はまだ過小評価されていることを示唆している。 我々は、MedLAMAとContrastive-Probeがこの領域にもっと適した探索技術の開発を促進することを願っている。

Knowledge probing is crucial for understanding the knowledge transfer mechanism behind the pre-trained language models (PLMs). Despite the growing progress of probing knowledge for PLMs in the general domain, specialised areas such as biomedical domain are vastly under-explored. To catalyse the research in this direction, we release a well-curated biomedical knowledge probing benchmark, MedLAMA, which is constructed based on the Unified Medical Language System (UMLS) Metathesaurus. We test a wide spectrum of state-of-the-art PLMs and probing approaches on our benchmark, reaching at most 3% of acc@10. While highlighting various sources of domain-specific challenges that amount to this underwhelming performance, we illustrate that the underlying PLMs have a higher potential for probing tasks. To achieve this, we propose Contrastive-Probe, a novel self-supervised contrastive probing approach, that adjusts the underlying PLMs without using any probing data. While Contrastive-Probe pushes the acc@10 to 28%, the performance gap still remains notable. Our human expert evaluation suggests that the probing performance of our Contrastive-Probe is still under-estimated as UMLS still does not include the full spectrum of factual knowledge. We hope MedLAMA and Contrastive-Probe facilitate further developments of more suited probing techniques for this domain.
翻訳日:2021-10-18 13:43:06 公開日:2021-10-15
# MixQG: 混合回答型によるニューラル質問生成

MixQG: Neural Question Generation with Mixed Answer Types ( http://arxiv.org/abs/2110.08175v1 )

ライセンス: Link先を確認
Lidiya Murakhovs'ka, Chien-Sheng Wu, Tong Niu, Wenhao Liu, Caiming Xiong(参考訳) 良い質問をすることは、人間と機械の知性の両方にとって必須の能力である。 しかし、既存のニューラルな質問生成アプローチは、主に短いファクトイドの答えに焦点をあてている。 本稿では,このギャップを埋めるために,神経質問生成器mixqgを提案する。 9つの質問応答データセットとyes/no、multiple-choice、extractive、abstractive answerを含む多様な回答タイプを組み合わせることで、単一の生成モデルをトレーニングします。 実験結果から,本モデルは既往の課題を未発見領域と未発見領域の両方で上回っており,異なる回答タイプで条件づけされた場合,認知レベルの異なる質問を生成できることを示した。 我々のコードはリリースされ、hughingfaceライブラリとよく統合され、様々な下流アプリケーションを容易にします。

Asking good questions is an essential ability for both human and machine intelligence. However, existing neural question generation approaches mainly focus on the short factoid type of answers. In this paper, we propose a neural question generator, MixQG, to bridge this gap. We combine 9 question answering datasets with diverse answer types, including yes/no, multiple-choice, extractive, and abstractive answers, to train a single generative model. We show with empirical results that our model outperforms existing work in both seen and unseen domains and can generate questions with different cognitive levels when conditioned on different answer types. Our code is released and well-integrated with the Huggingface library to facilitate various downstream applications.
翻訳日:2021-10-18 13:42:42 公開日:2021-10-15
# sparse progressive distillation:pretrai n-and-finetuneパラダイム下でのオーバーフィッティングの解決

Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetun e Paradigm ( http://arxiv.org/abs/2110.08190v1 )

ライセンス: Link先を確認
Shaoyi Huang, Dongkuan Xu, Ian E.H. Yen, Sung-en Chang, Bingbing Li, Shiyang Chen, Mimi Xie, Hang Liu, Caiwen Ding(参考訳) トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。 従来の考え方では、プルーニングはモデル表現力を減らすため、元のモデルよりも過剰に適合するよりも不適合になりがちである。 しかし,モデルが下流タスクから学ばなければならない情報量を増やし,相対的なデータ不足を生じさせるため,微調整段階での刈り込みを行うと,刈り込みは過剰フィッティングのリスクを増大させる,という傾向が強い。 本稿では,先進的知識蒸留(KD)とスパースプルーニング(スパースプルーニング)を用いて,プレトレイン・アンド・ファネチューンパラダイムの下でのオーバーフィッティング問題に対処することを目的とする。 さらに, 学習率, 熟成, 蒸留の異なる戦略間の干渉を軽減するために, 3段階学習フレームワークを提案する。 オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。 GLUEベンチマークの複数のデータセットを用いた実験により,提案手法は,異なるプルーニング比の制約にまたがって,最先端の競合相手に対して高い競合的なプルーニング性能を達成できることを示した。

Various pruning approaches have been proposed to reduce the footprint requirements of Transformer-based language models. Conventional wisdom is that pruning reduces the model expressiveness and thus is more likely to underfit than overfit compared to the original model. However, under the trending pretrain-and-finetun e paradigm, we argue that pruning increases the risk of overfitting if pruning was performed at the fine-tuning phase, as it increases the amount of information a model needs to learn from the downstream task, resulting in relative data deficiency. In this paper, we aim to address the overfitting issue under the pretrain-and-finetun e paradigm to improve pruning performance via progressive knowledge distillation (KD) and sparse pruning. Furthermore, to mitigate the interference between different strategies of learning rate, pruning and distillation, we propose a three-stage learning framework. We show for the first time that reducing the risk of overfitting can help the effectiveness of pruning under the pretrain-and-finetun e paradigm. Experiments on multiple datasets of GLUE benchmark show that our method achieves highly competitive pruning performance over the state-of-the-art competitors across different pruning ratio constraints.
翻訳日:2021-10-18 13:42:30 公開日:2021-10-15
# 文字レベルの機械翻訳はなぜ使わないのか?

Why don't people use character-level machine translation? ( http://arxiv.org/abs/2110.08191v1 )

ライセンス: Link先を確認
Jind\v{r}ich Libovick\'y, Helmut Schmid, Alexander Fraser(参考訳) 本稿では,機械翻訳のための文字レベルモデリング(mt)における技術の現状を批判的に評価する文献と経験的調査を行う。 文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、WMTコンペティションの競争で事実上使用されることはない。 文字レベルの自然言語処理における最近のモデリングの革新にもかかわらず、文字レベルのMTシステムは、翻訳品質とトレーニング、推論速度の両面において、サブワードベースのシステムとのマッチングに苦戦していることを実証的に示す。 文字レベルのmtシステムは、モチベーションが高いにもかかわらず、ドメインのロバスト性や形態素の一般化性は示さない。 一方、ソース側ノイズに対してより堅牢である傾向があり、復号時のビームサイズの増加とともに翻訳品質は劣化しない。

We present a literature and empirical survey that critically assesses the state of the art in character-level modeling for machine translation (MT). Despite evidence in the literature that character-level systems are comparable with subword systems, they are virtually never used in competitive setups in WMT competitions. We empirically show that even with recent modeling innovations in character-level natural language processing, character-level MT systems still struggle to match their subword-based counterparts both in terms of translation quality and training and inference speed. Character-level MT systems show neither better domain robustness, nor better morphological generalization, despite being often so motivated. On the other hand, they tend to be more robust towards source side noise and the translation quality does not degrade with increasing beam size at decoding time.
翻訳日:2021-10-18 13:42:01 公開日:2021-10-15
# dialfact:対話におけるファクトチェックのベンチマーク

DialFact: A Benchmark for Fact-Checking in Dialogue ( http://arxiv.org/abs/2110.08222v1 )

ライセンス: Link先を確認
Prakhar Gupta, Chien-Sheng Wu, Wenhao Liu and Caiming Xiong(参考訳) ファクトチェックは誤情報や偽情報の拡散を緩和するための重要なツールであるが、カジュアルな会話的主張ではなく、正式な単文主張を検証するためにしばしば研究されてきた。 そこで本研究では,対話におけるファクトチェックの課題を紹介する。 dialfactは22,245件のアノテートされた会話クレームのベンチマークデータセットで、wikipediaの証拠と組み合わせて構築する。 DialFactには3つのサブタスクがあります。 1)検証可能なクレーム検出タスクは,応答が検証可能な事実情報を有するか否かを識別する。 2) 証拠検索タスクは,最も関連するウィキペディアスニペットを証拠として検索する。 3)クレーム検証タスクは,対話応答の支持,否定,あるいは十分な情報不足を予測する。 FEVERのような非対話データで訓練された既存のファクトチェックモデルは、我々のタスクではうまく機能しないので、対話におけるファクトチェック性能を効果的に改善するための単純なデータ効率のソリューションを提案する。 我々は,この方向の今後の研究に光を当てるために,誤り解析におけるコロキズム,コリファレンス,検索の曖昧さを扱うなど,ダイヤルファクトにおけるユニークな課題を指摘する。

Fact-checking is an essential tool to mitigate the spread of misinformation and disinformation, however, it has been often explored to verify formal single-sentence claims instead of casual conversational claims. To study the problem, we introduce the task of fact-checking in dialogue. We construct DialFact, a testing benchmark dataset of 22,245 annotated conversational claims, paired with pieces of evidence from Wikipedia. There are three sub-tasks in DialFact: 1) Verifiable claim detection task distinguishes whether a response carries verifiable factual information; 2) Evidence retrieval task retrieves the most relevant Wikipedia snippets as evidence; 3) Claim verification task predicts a dialogue response to be supported, refuted, or not enough information. We found that existing fact-checking models trained on non-dialogue data like FEVER fail to perform well on our task, and thus, we propose a simple yet data-efficient solution to effectively improve fact-checking performance in dialogue. We point out unique challenges in DialFact such as handling the colloquialisms, coreferences, and retrieval ambiguities in the error analysis to shed light on future research in this direction.
翻訳日:2021-10-18 13:41:45 公開日:2021-10-15
# at-most-one制約を伴う疑似boolean制約のためのsat符号化

SAT Encodings for Pseudo-Boolean Constraints Together With At-Most-One Constraints ( http://arxiv.org/abs/2110.08068v1 )

ライセンス: Link先を確認
Miquel Bofill and Jordi Coll and Peter Nightingale and Josep Suy and Felix Ulrich-Oltean and Mateu Villaret(参考訳) 命題満足度(SAT)を用いて組合せ問題を解く場合、問題の符号化は極めて重要である。 Pseudo-Boolean(PB)制約の符号化について検討する。これは、時間、スケジューリング、リソース割り当てなど、様々な組み合わせ問題に現れる一般的なタイプの算術制約である。 PB制約は、変数のサブセット(PB(AMO)制約を形成する)に対する at-most-one (AMO) 制約と共に発生する。 近年の研究では、決定図を用いたPB制約の符号化におけるAMOの活用により、解法効率が劇的に向上することが示されている。 本稿では,本手法をpb制約の最先端エンコーディングに拡張し,pb(amo)制約のための新たなエンコーディングを複数開発する。 また,一般的な一般化総和符号のよりコンパクトで効率的なバージョンであるreduced general totalizerを提案する。 この新たなエンコーディングはPB(AMO)制約にも適用され、さらなる利得が得られる。 実験の結果,PB(AMO)制約の符号化は,PB制約の符号化よりもかなり小さいことがわかった。 pb(amo)エンコーディングは、多くのインスタンスをタイムリミット内で解決することを可能にし、場合によっては1桁以上のマグニチュードで解決する。 また, 検討したエンコーディングのうち, 全体の勝者はひとつも存在しないが, 各エンコーディングの効率は係数値の大きさなどのpb(amo)特性に依存する可能性がある。

When solving a combinatorial problem using propositional satisfiability (SAT), the encoding of the problem is of vital importance. We study encodings of Pseudo-Boolean (PB) constraints, a common type of arithmetic constraint that appears in a wide variety of combinatorial problems such as timetabling, scheduling, and resource allocation. In some cases PB constraints occur together with at-most-one (AMO) constraints over subsets of their variables (forming PB(AMO) constraints). Recent work has shown that taking account of AMOs when encoding PB constraints using decision diagrams can produce a dramatic improvement in solver efficiency. In this paper we extend the approach to other state-of-the-art encodings of PB constraints, developing several new encodings for PB(AMO) constraints. Also, we present a more compact and efficient version of the popular Generalized Totalizer encoding, named Reduced Generalized Totalizer. This new encoding is also adapted for PB(AMO) constraints for a further gain. Our experiments show that the encodings of PB(AMO) constraints can be substantially smaller than those of PB constraints. PB(AMO) encodings allow many more instances to be solved within a time limit, and solving time is improved by more than one order of magnitude in some cases. We also observed that there is no single overall winner among the considered encodings, but efficiency of each encoding may depend on PB(AMO) characteristics such as the magnitude of coefficient values.
翻訳日:2021-10-18 13:41:26 公開日:2021-10-15
# DG-LabelerとDGL-MOTSデータセット:自律走行知覚を高める

DG-Labeler and DGL-MOTS Dataset: Boost the Autonomous Driving Perception ( http://arxiv.org/abs/2110.07790v1 )

ライセンス: Link先を確認
Yiming Cui, Zhiwen Cao, Yixin Xie, Xingyu Jiang, Feng Tao, Yingjie Chen, Lin Li, Dongfang Liu(参考訳) マルチオブジェクトトラッキングとセグメンテーション(MOTS)は、自律運転アプリケーションにとって重要なタスクである。 既存のMOTS研究は2つの重要な課題に直面している。 1) 公開データセットは,様々な運転設定に対応するためのネットワークトレーニングの現実的な複雑さを適切に捉えていない。 2) 動作パイプラインアノテーションツールはMOTS学習例の品質向上のために,文献で未検討である。 本研究では,MOTSタスクのトレーニングデータアノテーションを容易にするため,DG-LabelerとDGL-MOTSデータセットを導入し,ネットワークトレーニングの精度と効率を向上させる。 dg-labelerは、新しい深度粒度モジュールを使用して、インスタンス空間関係を描写し、きめ細かいインスタンスマスクを生成する。 DG-Labelerによって注釈付けされた私たちのDGL-MOTSデータセットは、データ多様性、アノテーションの品質、時間表現における以前の取り組み(KITTI MOTSとBDD100K)を上回る。 広範なデータセット横断評価の結果,dgl-motsデータセット上でトレーニングされた最先端手法の性能改善が確認された。 DGL-MOTSデータセットとDG-Labelerは、将来の輸送に対する視覚的認識を高める貴重な可能性を持っていると考えています。

Multi-object tracking and segmentation (MOTS) is a critical task for autonomous driving applications. The existing MOTS studies face two critical challenges: 1) the published datasets inadequately capture the real-world complexity for network training to address various driving settings; 2) the working pipeline annotation tool is under-studied in the literature to improve the quality of MOTS learning examples. In this work, we introduce the DG-Labeler and DGL-MOTS dataset to facilitate the training data annotation for the MOTS task and accordingly improve network training accuracy and efficiency. DG-Labeler uses the novel Depth-Granularity Module to depict the instance spatial relations and produce fine-grained instance masks. Annotated by DG-Labeler, our DGL-MOTS dataset exceeds the prior effort (i.e., KITTI MOTS and BDD100K) in data diversity, annotation quality, and temporal representations. Results on extensive cross-dataset evaluations indicate significant performance improvements for several state-of-the-art methods trained on our DGL-MOTS dataset. We believe our DGL-MOTS Dataset and DG-Labeler hold the valuable potential to boost the visual perception of future transportation.
翻訳日:2021-10-18 13:39:03 公開日:2021-10-15
# (参考訳) 衛星時系列からの深層学習に基づくパーセル分類のための作物回転モデル [全文訳有]

Crop Rotation Modeling for Deep Learning-Based Parcel Classification from Satellite Time Series ( http://arxiv.org/abs/2110.08187v1 )

ライセンス: CC BY 4.0
F\'elix Quinton and Loic Landrieu(参考訳) 作物の年次回転は農業最適化において重要な役割を担っているが、自動収穫型マッピングでは無視されている。 本稿では,アノテートされた衛星データ量の増加を活かし,パーセル分類の年内および年内農業動態を同時にモデル化する最初の深層学習手法を提案する。 我々のモデルは、簡単な訓練調整とともに、作物分類の現状よりも6.6mIoU以上の改善を提供する。 さらに,30万以上のアノテートパルセールを備えた,初の大規模多年農業データセットをリリースする。

While annual crop rotations play a crucial role for agricultural optimization, they have been largely ignored for automated crop type mapping. In this paper, we take advantage of the increasing quantity of annotated satellite data to propose the first deep learning approach modeling simultaneously the inter- and intra-annual agricultural dynamics of parcel classification. Along with simple training adjustments, our model provides an improvement of over 6.6 mIoU points over the current state-of-the-art of crop classification. Furthermore, we release the first large-scale multi-year agricultural dataset with over 300,000 annotated parcels.
翻訳日:2021-10-18 13:37:11 公開日:2021-10-15
# 暗黙的ユーザ表現を用いたモデリング習熟度

Modeling Proficiency with Implicit User Representations ( http://arxiv.org/abs/2110.08011v1 )

ライセンス: Link先を確認
Kim Breitwieser, Allison Lahnala, Charles Welch, Lucie Flek, Martin Potthast(参考訳) ソーシャルメディアプラットフォーム上でユーザの投稿が与えられた場合、その課題は、ユーザーがある程度の熟練度を持つ投稿やトピックのサブセットを特定することである。 これにより、特定のトピックに対するソーシャルメディア投稿のフィルタリングとランキングが、ユーザの習熟度に応じて可能になる。 あるトピックのエキスパートとは異なり、熟練したユーザーは正式なトレーニングを受けておらず、何年も実践的な経験を積んでいたかもしれないが、オートディダクト、ホビイスト、そして継続的に興味を持つ人々であり、会話に真正で独創的な貢献をすることができる。 ユーザが特定のトピックの専門家であるかどうかを予測することは、真の肯定的かどうかに強い制約を課す一方で、熟練度モデリングは、これらの制約を緩和する、段階的なスコア付けを意味する。 別の言い方をすれば、多くのアクティブなソーシャルメディアユーザーは、コミュニティに関連するトピックに関するある程度のスキルを所有または取得できる。 本研究では,利用者が関連コンテンツのオーサリングを好み,対象トピックのエンゲージメントをモデル化するためにユーザ埋め込みを活用することによって,教師なしの手法で熟練度モデリングに取り組む。 2つの実世界のベンチマークで適用した,基本的な手法から高度なユーザモデリング手法まで,モデルの習熟度に関する5つの方法を検討した。

We introduce the problem of proficiency modeling: Given a user's posts on a social media platform, the task is to identify the subset of posts or topics for which the user has some level of proficiency. This enables the filtering and ranking of social media posts on a given topic as per user proficiency. Unlike experts on a given topic, proficient users may not have received formal training and possess years of practical experience, but may be autodidacts, hobbyists, and people with sustained interest, enabling them to make genuine and original contributions to discourse. While predicting whether a user is an expert on a given topic imposes strong constraints on who is a true positive, proficiency modeling implies a graded scoring, relaxing these constraints. Put another way, many active social media users can be assumed to possess, or eventually acquire, some level of proficiency on topics relevant to their community. We tackle proficiency modeling in an unsupervised manner by utilizing user embeddings to model engagement with a given topic, as indicated by a user's preference for authoring related content. We investigate five alternative approaches to model proficiency, ranging from basic ones to an advanced, tailored user modeling approach, applied within two real-world benchmarks for evaluation.
翻訳日:2021-10-18 13:25:58 公開日:2021-10-15
# シーケンス・ツー・シーケンス変換器を用いた危機領域適応

Crisis Domain Adaptation Using Sequence-to-sequence Transformers ( http://arxiv.org/abs/2110.08015v1 )

ライセンス: Link先を確認
Congcong Wang, Paul Nulty, David Lillis(参考訳) ソーシャルメディア上のユーザ生成コンテンツ(ugc)は,危機時の緊急対応者にとって重要な情報源として機能する。 しかし、ボリュームのため、計算技術は、新興のイベント中に発生するこのコンテンツを効果的にフィルタリングし、優先順位付けするために必要である。 文献では、これらの技法は以前の危機からの注釈付きコンテンツを用いて訓練される。 本稿では,この先行知識を新たな危機にどのように活用するかを,類似型の危機事象が新たな出来事への適応(クロスドメイン適応)にどの程度適しているかを検討することによって検討する。 近年の言語処理タスクにおけるトランスフォーマーの成功を踏まえ,CAST:Crysis Domain Adaptation Using Sequence-to-Sequence Transformerを提案する。 CASTを2つの主要な危機関連メッセージ分類データセットを用いて評価する。 我々のCASTベースのベストランは、ドメイン内およびドメイン間両方のコンテキストにおいて、ターゲットデータを使用しなくても、アートパフォーマンスの状態を達成できることを示す。 さらに、CASTはより大きな言語モデルで訓練された場合、特に1対1のクロスドメイン適応に有効である。 ソースドメインとして複数のクレームを併用する多対一適応では、CASTはそのパフォーマンスをさらに向上する。 さらに、類似イベントの方が適応性能が向上する傾向にあるのに対して、異種イベントを用いた微調整は適応に役立ちません。 再現性を支援するために、コードをコミュニティにオープンソースにします。

User-generated content (UGC) on social media can act as a key source of information for emergency responders in crisis situations. However, due to the volume concerned, computational techniques are needed to effectively filter and prioritise this content as it arises during emerging events. In the literature, these techniques are trained using annotated content from previous crises. In this paper, we investigate how this prior knowledge can be best leveraged for new crises by examining the extent to which crisis events of a similar type are more suitable for adaptation to new events (cross-domain adaptation). Given the recent successes of transformers in various language processing tasks, we propose CAST: an approach for Crisis domain Adaptation leveraging Sequence-to-sequence Transformers. We evaluate CAST using two major crisis-related message classification datasets. Our experiments show that our CAST-based best run without using any target data achieves the state of the art performance in both in-domain and cross-domain contexts. Moreover, CAST is particularly effective in one-to-one cross-domain adaptation when trained with a larger language model. In many-to-one adaptation where multiple crises are jointly used as the source domain, CAST further improves its performance. In addition, we find that more similar events are more likely to bring better adaptation performance whereas fine-tuning using dissimilar events does not help for adaptation. To aid reproducibility, we open source our code to the community.
翻訳日:2021-10-18 13:25:35 公開日:2021-10-15
# 対話異方性の構造モデリング

Structural Modeling for Dialogue Disentanglement ( http://arxiv.org/abs/2110.08018v1 )

ライセンス: Link先を確認
Xinbei Ma, Zhuosheng Zhang and Hai Zhao(参考訳) 複数の対話スレッドが同一の対話履歴内で同時に流れるため、人間と機械の両方の対話履歴を理解するのが困難になる。 対話の絡み合いは、多人数対話履歴における会話スレッドを明確にすることを目的としており、長い混乱した対話パスの理解が困難になる。 既存の研究は、慎重に設計された特徴工学に基づく発話符号化に重点を置いているが、対話構造に不適切な注意を払っている。 本研究は,対話構造の特徴を考慮に入れて,複数パーティ履歴をスレッドにアンタングルする新しいモデルを設計する。 具体的には、話者の連続的な参加とユーザ間の相互作用によって対話が構築されるという事実に基づいて、長い対話記録の構造をモデル化するための話者特性の手がかりとユーザの参照を抽出する。 本手法はUbuntu IRCデータセット上で評価され,対話の絡み合いに関する最先端の実験結果を示す。

Tangled multi-party dialogue context leads to challenges for dialogue reading comprehension, where multiple dialogue threads flow simultaneously within the same dialogue history, thus increasing difficulties in understanding a dialogue history for both human and machine. Dialogue disentanglement aims to clarify conversation threads in a multi-party dialogue history, thus reducing the difficulty of comprehending the long disordered dialogue passage. Existing studies commonly focus on utterance encoding with carefully designed feature engineering-based methods but pay inadequate attention to dialogue structure. This work designs a novel model to disentangle multi-party history into threads, by taking dialogue structure features into account. Specifically, based on the fact that dialogues are constructed through successive participation of speakers and interactions between users of interest, we extract clues of speaker property and reference of users to model the structure of a long dialogue record. The novel method is evaluated on the Ubuntu IRC dataset and shows state-of-the-art experimental results in dialogue disentanglement.
翻訳日:2021-10-18 13:25:16 公開日:2021-10-15
# 会話におけるマルチモーダル感情因果対抽出

Multimodal Emotion-Cause Pair Extraction in Conversations ( http://arxiv.org/abs/2110.08020v1 )

ライセンス: Link先を確認
Fanfan Wang, Zixiang Ding, Rui Xia, Zhaoyu Li and Jianfei Yu(参考訳) 近年,感情要因分析が注目されている。 感情に焦点を当てた以前の研究では、ニュース記事やマイクロブログのテキストから感情が抽出される。 会話の中で感情とその原因を発見することも興味深い。 自然な形の会話はマルチモーダルであるので、会話におけるマルチモーダル感情認識に関する多くの研究が行われているが、マルチモーダル感情原因分析に関する作業が不足している。 本研究では,複数のモーダルに反映された会話(テキスト,音声,ビデオ)から感情とその関連要因を共同で抽出することを目的とした,Multimodal Emotion-Cause Pair extract in Conversationsというタスクを導入する。 そこで我々は,Sitecom Friendsの13,509発の発話に,9,272件のマルチモーダル感情を含むマルチモーダル会話感情原因データセットEmotion-Cause-in-Fri endsを構築した。 最後に,感情によるペア抽出のためのマルチモーダル機能を組み込んだベースラインシステムを構築し,タスクのベンチマークを行った。 予備実験の結果は、会話における感情と原因の両方を発見するためのマルチモーダル情報融合の可能性を示している。

Emotion cause analysis has received considerable attention in recent years. Previous studies primarily focused on emotion cause extraction from texts in news articles or microblogs. It is also interesting to discover emotions and their causes in conversations. As conversation in its natural form is multimodal, a large number of studies have been carried out on multimodal emotion recognition in conversations, but there is still a lack of work on multimodal emotion cause analysis. In this work, we introduce a new task named Multimodal Emotion-Cause Pair Extraction in Conversations, aiming to jointly extract emotions and their associated causes from conversations reflected in multiple modalities (text, audio and video). We accordingly construct a multimodal conversational emotion cause dataset, Emotion-Cause-in-Fri ends, which contains 9,272 multimodal emotion-cause pairs annotated on 13,509 utterances in the sitcom Friends. We finally benchmark the task by establishing a baseline system that incorporates multimodal features for emotion-cause pair extraction. Preliminary experimental results demonstrate the potential of multimodal information fusion for discovering both emotions and causes in conversations.
翻訳日:2021-10-18 13:25:01 公開日:2021-10-15
# UniDS: チャットとタスク指向対話のための統一対話システム

UniDS: A Unified Dialogue System for Chit-Chat and Task-oriented Dialogues ( http://arxiv.org/abs/2110.08032v1 )

ライセンス: Link先を確認
Xinyan Zhao, Bin He, Yasheng Wang, Yitong Li, Fei Mi, Yajiao Liu, Xin Jiang, Qun Liu, Huanhuan Chen(参考訳) 深層学習の進歩により、チャット対話システムとタスク指向対話システムによって、大きな進歩を遂げた。 しかし、これらの2つのシステムは、しばしば現在の方法で別々に取り組まれる。 人間とのより自然な対話を実現するためには、対話エージェントはチャットとタスクの達成の両方が可能である必要がある。 そこで本稿では,上記2つのスキルを備えた統合対話システム(UniDS)を提案する。 特に,chit-chat対話とタスク指向対話の両方に対応可能な統一対話データスキーマを設計し,事前学習したchit-chat対話モデルから混合対話データを持つunidを訓練する。 SOTAベースラインに余分なパラメータを加えることなく、UniDSは統合されたフレームワークでチップチャットとタスク指向の対話を処理できる。 実験の結果,提案したUniDSは純粋なチャットシステムと同等に動作し,タスク指向対話システムよりも優れていた。 さらに重要なことは、UniDSは2種類の対話をスムーズに切り替えられるので、より堅牢性を実現しています。 これらの結果は,一対一対話システムの実現可能性と可能性を示している。

With the advances in deep learning, tremendous progress has been made with chit-chat dialogue systems and task-oriented dialogue systems. However, these two systems are often tackled separately in current methods. To achieve more natural interaction with humans, a dialogue agent needs to be capable of both chatting and accomplishing tasks. To this end, we propose a unified dialogue system (UniDS) with the two aforementioned skills. In particular, we design a unified dialogue data schema, compatible for both chit-chat and task-oriented dialogues, and we train UniDS with mixed dialogue data from a pretrained chit-chat dialogue model. Without adding extra parameters to SOTA baselines, UniDS can alternatively handle chit-chat and task-oriented dialogues in a unified framework. Experimental results demonstrate that the proposed UniDS works comparably well as the pure chit-chat system, and it outperforms state-of-the-art task-oriented dialogue systems. More importantly, UniDS achieves better robustness as it is able to smoothly switch between two types of dialogues. These results demonstrate the feasibility and potential of building an one-for-all dialogue system.
翻訳日:2021-10-18 13:24:45 公開日:2021-10-15
# 多言語機械翻訳の分解

Breaking Down Multilingual Machine Translation ( http://arxiv.org/abs/2110.08130v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Yi-Pei Chen, Yi-Ting Yeh, Graham Neubig(参考訳) 現在、多言語学習は機械翻訳(MT)システムにおいて重要な要素となっているが、近年の研究により、多言語間、一対多、多対多学習など、多言語環境において異なる効果があることが示された。 これらのトレーニング設定は、異なるデータ分布を持つ機械翻訳モデルのエンコーダとデコーダを公開する。 本稿では,多言語訓練の異なる種類がmtモデルのこれら2つの構成要素の学習にどのように寄与するかを検討する。 具体的には,バイリンガルモデルとエンコーダおよび/またはデコーダを比較した。 マルチ言語学習は一般にエンコーダにとって有益であり,低リソース言語(LRL)のデコーダにのみ有益であることを示す。 さらに,各言語ペアに対する重要な注意点を見つけ,その相関関係を比較した。 本分析では,多言語翻訳モデルの動作方法に光を当て,高関係言語を用いた学習による性能向上手法を提案する。 Aharoni et al. (2019) が報告した最も優れた結果より, 高リソース言語のための多対一モデルとLRLのための一対多モデルの方が優れている。

While multilingual training is now an essential ingredient in machine translation (MT) systems, recent work has demonstrated that it has different effects in different multilingual settings, such as many-to-one, one-to-many, and many-to-many learning. These training settings expose the encoder and the decoder in a machine translation model with different data distributions. In this paper, we examine how different varieties of multilingual training contribute to learning these two components of the MT model. Specifically, we compare bilingual models with encoders and/or decoders initialized by multilingual training. We show that multilingual training is beneficial to encoders in general, while it only benefits decoders for low-resource languages (LRLs). We further find the important attention heads for each language pair and compare their correlations during inference. Our analysis sheds light on how multilingual translation models work and also enables us to propose methods to improve performance by training with highly related languages. Our many-to-one models for high-resource languages and one-to-many models for LRL outperform the best results reported by Aharoni et al. (2019).
翻訳日:2021-10-18 13:24:28 公開日:2021-10-15
# GPT圧縮のためのKronecker分解

Kronecker Decomposition for GPT Compression ( http://arxiv.org/abs/2110.08152v1 )

ライセンス: Link先を確認
Ali Edalati, Marzieh Tahaei, Ahmad Rashid, Vahid Partovi Nia, James J. Clark, Mehdi Rezagholizadeh(参考訳) GPTは自動回帰トランスフォーマーに基づく事前訓練型言語モデルであり、いくつかの下流タスクにおける最先端の性能のため、自然言語処理(NLP)領域で多くの注目を集めている。 GPTの成功の大部分は、大量のデータと大量のパラメータ(約1億から数十億のパラメータ)を事前学習したことによる。 GPTの優れた性能(特に小ショットやゼロショットでは)にもかかわらず、GPTの過度パラメータ化の性質は、このモデルを限られた計算能力やメモリを持つデバイスにデプロイすることを非常に禁じることができる。 この問題はモデル圧縮技術を用いて緩和することができるが、GPTモデルの圧縮については研究されていない。 本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。 我々のクロネッカーgpt-2モデル(kngpt2)は、gpt-2モデルのクロネッカー分解版に基づいて初期化され、トレーニングデータのごく一部に中間層知識蒸留(ilkd)を施した非常に軽い事前訓練を受ける。 最後に、我々のKnGPT2は、ILKDを使用して下流タスクにも微調整されています。 我々は,言語モデリングと汎用言語理解評価のベンチマークタスクにおいて,我々のモデルを評価し,より効率的な事前学習と類似したパラメータ数で既存のDistilGPT2モデルよりも優れていることを示す。

GPT is an auto-regressive Transformer-based pre-trained language model which has attracted a lot of attention in the natural language processing (NLP) domain due to its state-of-the-art performance in several downstream tasks. The success of GPT is mostly attributed to its pre-training on huge amount of data and its large number of parameters (from ~100M to billions of parameters). Despite the superior performance of GPT (especially in few-shot or zero-shot setup), this overparameterized nature of GPT can be very prohibitive for deploying this model on devices with limited computational power or memory. This problem can be mitigated using model compression techniques; however, compressing GPT models has not been investigated much in the literature. In this work, we use Kronecker decomposition to compress the linear mappings of the GPT-22 model. Our Kronecker GPT-2 model (KnGPT2) is initialized based on the Kronecker decomposed version of the GPT-2 model and then is undergone a very light pre-training on only a small portion of the training data with intermediate layer knowledge distillation (ILKD). Finally, our KnGPT2 is fine-tuned on down-stream tasks using ILKD as well. We evaluate our model on both language modeling and General Language Understanding Evaluation benchmark tasks and show that with more efficient pre-training and similar number of parameters, our KnGPT2 outperforms the existing DistilGPT2 model significantly.
翻訳日:2021-10-18 13:24:06 公開日:2021-10-15
# (参考訳) ゼロショットタスクの一般化を可能にするマルチタスクプロンプトトレーニング

Multitask Prompted Training Enables Zero-Shot Task Generalization ( http://arxiv.org/abs/2110.08207v1 )

ライセンス: CC BY 4.0
Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Stella Biderman, Leo Gao, Tali Bers, Thomas Wolf, Alexander M. Rush(参考訳) 大規模言語モデルは最近、様々なタスクで合理的なゼロショット一般化を達成することが示されている。 これは言語モデルトレーニングにおける暗黙のマルチタスク学習の結果であると考えられている。 ゼロショット一般化は明示的なマルチタスク学習によって直接誘導できるのか? この質問を大規模に検証するために,汎用自然言語タスクを人間に読み取れる入力形式に容易にマッピングするシステムを開発した。 我々は、様々な自然言語を用いて複数のプロンプトを持つ教師付きデータセットの集合を変換する。 これらのトリガーデータセットは、自然言語で指定された完全に見えないタスクをモデルが実行する能力のベンチマークを可能にする。 プリトレーニングエンコーダ-デコーダモデルを,多種多様なタスクをカバーするマルチタスク混合上で微調整する。 このモデルは、いくつかの標準データセットで強力なゼロショット性能を達成し、しばしばモデルのサイズを16倍に上回っている。 さらに,本手法はBIG-Benchベンチマークのタスクのサブセットに対して高い性能を達成し,モデルのサイズを6倍に向上させる。 全てのプロンプトと訓練されたモデルはgithub.com/bigscienc e-workshop/promptsou rce/で入手できる。

Large language models have recently been shown to attain reasonable zero-shot generalization on a diverse set of tasks. It has been hypothesized that this is a consequence of implicit multitask learning in language model training. Can zero-shot generalization instead be directly induced by explicit multitask learning? To test this question at scale, we develop a system for easily mapping general natural language tasks into a human-readable prompted form. We convert a large set of supervised datasets, each with multiple prompts using varying natural language. These prompted datasets allow for benchmarking the ability of a model to perform completely unseen tasks specified in natural language. We fine-tune a pretrained encoder-decoder model on this multitask mixture covering a wide variety of tasks. The model attains strong zero-shot performance on several standard datasets, often outperforming models 16x its size. Further, our approach attains strong performance on a subset of tasks from the BIG-Bench benchmark, outperforming models 6x its size. All prompts and trained models are available at github.com/bigscienc e-workshop/promptsou rce/.
翻訳日:2021-10-18 13:22:37 公開日:2021-10-15
# StreaMulT:不均一および任意列データのためのマルチモーダル変換器

StreaMulT: Streaming Multimodal Transformer for Heterogeneous and Arbitrary Long Sequential Data ( http://arxiv.org/abs/2110.08021v1 )

ライセンス: Link先を確認
Victor Pellegrain (1 and 2), Myriam Tami (2), Michel Batteux (1), C\'eline Hudelot (2) ((1) Institut de Recherche Technologique SystemX, (2) Universit\'e Paris-Saclay, CentraleSup\'elec, MICS)(参考訳) 本稿では、異なるモーダルから取得頻度の異なる任意の長大データストリームを効率的に処理・結合する問題に取り組む。 一般的なアプリケーションは、例えば、マルチモーダルな異種データ(センサーデータ、監視レポート、画像など)から長時間の産業または実生活のシステム監視である。 この問題に対処するため,ストリームマルチモーダルトランスであるStreaMulTを提案する。これはクロスモーダルアテンションと拡張メモリバンクを用いて,トレーニング時に任意の長い入力シーケンスを処理し,推論時にストリーミング処理を行う。 StreaMulTはCMU-MOSEIデータセットで最先端の結果を再現し、以前のMultimodal Transformerのような他のモデルよりもはるかに長い入力を処理できる。

This paper tackles the problem of processing and combining efficiently arbitrary long data streams, coming from different modalities with different acquisition frequencies. Common applications can be, for instance, long-time industrial or real-life systems monitoring from multimodal heterogeneous data (sensor data, monitoring report, images, etc.). To tackle this problem, we propose StreaMulT, a Streaming Multimodal Transformer, relying on cross-modal attention and an augmented memory bank to process arbitrary long input sequences at training time and run in a streaming way at inference. StreaMulT reproduces state-of-the-art results on CMU-MOSEI dataset, while being able to deal with much longer inputs than other models such as previous Multimodal Transformer.
翻訳日:2021-10-18 13:20:54 公開日:2021-10-15
# ポリークステップサイズグラディエントDescenceの統計的・計算複雑度に向けて

Towards Statistical and Computational Complexities of Polyak Step Size Gradient Descent ( http://arxiv.org/abs/2110.07810v1 )

ライセンス: Link先を確認
Tongzheng Ren, Fuheng Cui, Alexia Atsidakou, Sujay Sanghavi and Nhat Ho(参考訳) 本研究では, 一般平滑性およびロジャシェビッチ条件下でのポリアックステップサイズ勾配降下アルゴリズムの統計的・計算的複雑度, 標本サイズが無限大となる際の経験的損失関数の限界, 経験的損失関数と個体数損失関数の勾配の安定性, 標本の勾配と個体数損失関数の濃度境界における多項式成長について検討した。 本研究では,ポリアックステップの勾配勾配降下が,サンプルサイズの対数的な反復数の後,真のパラメータの周囲の収束の最終的な統計的半径に達することを実証する。 人口損失関数が局所的に強い凸でない場合に同じ最終統計半径に達するように、固定ステップサイズ勾配降下アルゴリズムのサンプルサイズでの反復数の多項式数よりも計算的に安価である。 最後に, 一般化線形モデル, 混合モデル, 混合線形回帰モデルという3つの統計例で一般理論を説明する。

We study the statistical and computational complexities of the Polyak step size gradient descent algorithm under generalized smoothness and Lojasiewicz conditions of the population loss function, namely, the limit of the empirical loss function when the sample size goes to infinity, and the stability between the gradients of the empirical and population loss functions, namely, the polynomial growth on the concentration bound between the gradients of sample and population loss functions. We demonstrate that the Polyak step size gradient descent iterates reach a final statistical radius of convergence around the true parameter after logarithmic number of iterations in terms of the sample size. It is computationally cheaper than the polynomial number of iterations on the sample size of the fixed-step size gradient descent algorithm to reach the same final statistical radius when the population loss function is not locally strongly convex. Finally, we illustrate our general theory under three statistical examples: generalized linear model, mixture model, and mixed linear regression model.
翻訳日:2021-10-18 13:19:42 公開日:2021-10-15
# IMU信号と深部CNNの画像表現を用いた歩行に基づくフラリティ評価

Gait-based Frailty Assessment using Image Representation of IMU Signals and Deep CNN ( http://arxiv.org/abs/2110.07821v1 )

ライセンス: Link先を確認
Muhammad Zeeshan Arshad, Dawoon Jung, Mina Park, Hyungeun Shin, Jinwook Kim, and Kyung-Ryoul Mun(参考訳) 虚弱は高齢者に共通して重篤な疾患であり、健康の悪化につながる可能性がある。 しかし,活動関連アンケートに基づく従来のフララティ評価には困難と複雑さが存在する。 これらは、歩行に対する摩擦の影響を監視することで克服できる。 本稿では,歩容信号を画像として符号化することにより,深層学習モデルを用いて歩容型の分類を行うことができることを示す。 2つのディープラーニングモデル (a)ストライド入力画像に基づくss-cnn、及び (b)MS-CNNが提案された。 MS-CNNの精度は85.1\%、SS-CNNの精度は77.3\%である。 これはMS-CNNが、弱さの重要な症状の1つであるストライド-ストライド変動に対応するより多くの特徴を観察できるためである。 歩行信号をSTFT, CWT, GAFを用いて符号化した。 GAF画像を用いたMS-CNNモデルは、全体的な精度と精度が最良であるが、CWTは若干改善されている。 本研究は、画像符号化歩行データを用いて、深層学習CNNモデルの潜在能力をフル活用し、脆弱性を評価する方法を示す。

Frailty is a common and critical condition in elderly adults, which may lead to further deterioration of health. However, difficulties and complexities exist in traditional frailty assessments based on activity-related questionnaires. These can be overcome by monitoring the effects of frailty on the gait. In this paper, it is shown that by encoding gait signals as images, deep learning-based models can be utilized for the classification of gait type. Two deep learning models (a) SS-CNN, based on single stride input images, and (b) MS-CNN, based on 3 consecutive strides were proposed. It was shown that MS-CNN performs best with an accuracy of 85.1\%, while SS-CNN achieved an accuracy of 77.3\%. This is because MS-CNN can observe more features corresponding to stride-to-stride variations which is one of the key symptoms of frailty. Gait signals were encoded as images using STFT, CWT, and GAF. While the MS-CNN model using GAF images achieved the best overall accuracy and precision, CWT has a slightly better recall. This study demonstrates how image encoded gait data can be used to exploit the full potential of deep learning CNN models for the assessment of frailty.
翻訳日:2021-10-18 13:19:24 公開日:2021-10-15
# 少数バッチによるガウス過程帯域最適化

Gaussian Process Bandit Optimization with Few Batches ( http://arxiv.org/abs/2110.07788v1 )

ライセンス: Link先を確認
Zihan Li and Jonathan Scarlett(参考訳) 本稿では,ガウス過程(GP)バンドレート最適化を用いたブラックボックス最適化の問題について,少数のバッチで検討する。 未知関数が再生成核ヒルベルト空間 (rkhs) に低ノルムを持つと仮定すると、バッチ有限アームバンディットアルゴリズムに触発されたバッチアルゴリズムを導入し、累積後悔の上限値 $o^\ast(\sqrt{t\gamma_t})$ using $o(\log\log t)$ batches in time horizon $t$, ここで $o^\ast(\cdot)$ notation は次元非依存対数因子を隠蔽し、$\gamma_t$ はカーネルに関連する最大情報ゲインであることを示す。 このバウンドは、いくつかの興味を持つカーネルにとってほぼ最適であり、典型的な$o^\ast(\sqrt{t}\gamma_t)$バウンドで改善される。 さらに, 一定の数のバッチ($T$に依存しない)の場合, アルゴリズムの修正版を提案し, 帰納的指数とMate\'ernカーネルに焦点をあてて, バッチ数によって後悔がどう影響するかを特徴付ける。 アルゴリズム上界は、類似のアルゴリズムに依存しない下界によって、ほぼ極小となる。

In this paper, we consider the problem of black-box optimization using Gaussian Process (GP) bandit optimization with a small number of batches. Assuming the unknown function has a low norm in the Reproducing Kernel Hilbert Space (RKHS), we introduce a batch algorithm inspired by batched finite-arm bandit algorithms, and show that it achieves the cumulative regret upper bound $O^\ast(\sqrt{T\gamma_T})$ using $O(\log\log T)$ batches within time horizon $T$, where the $O^\ast(\cdot)$ notation hides dimension-independen t logarithmic factors and $\gamma_T$ is the maximum information gain associated with the kernel. This bound is near-optimal for several kernels of interest and improves on the typical $O^\ast(\sqrt{T}\gamma_T)$ bound, and our approach is arguably the simplest among algorithms attaining this improvement. In addition, in the case of a constant number of batches (not depending on $T$), we propose a modified version of our algorithm, and characterize how the regret is impacted by the number of batches, focusing on the squared exponential and Mat\'ern kernels. The algorithmic upper bounds are shown to be nearly minimax optimal via analogous algorithm-independen t lower bounds.
翻訳日:2021-10-18 13:17:36 公開日:2021-10-15
# ゼロショットクロスリンガルテキスト分類のための多言語Bag-of-Entitiesモデル

A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text Classification ( http://arxiv.org/abs/2110.07792v1 )

ライセンス: Link先を確認
Sosuke Nishikawa, Ikuya Yamada, Yoshimasa Tsuruoka, Isao Echizen(参考訳) 本稿では,多言語事前学習言語モデル(M-BERTなど)を拡張することで,ゼロショット言語間テキスト分類の性能を効果的に向上する多言語バッグ・オブ・エンティリティモデルを提案する。 同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義されます。 これにより、複数の言語で記述されたエンティティを共有埋め込みを使って表現できる。 したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。 MLDocとTED-CLDCデータセットを用いた言語間トピック分類とエンティティ型付け(ShiNRA2020-MLデータセットを用いた)の実験結果から,提案モデルが常に最先端モデルより優れていることが示された。

We present a multilingual bag-of-entities model that effectively boosts the performance of zero-shot cross-lingual text classification by extending a multilingual pre-trained language model (e.g., M-BERT). It leverages the multilingual nature of Wikidata: entities in multiple languages representing the same concept are defined with a unique identifier. This enables entities described in multiple languages to be represented using shared embeddings. A model trained on entity features in a resource-rich language can thus be directly applied to other languages. Our experimental results on cross-lingual topic classification (using the MLDoc and TED-CLDC datasets) and entity typing (using the SHINRA2020-ML dataset) show that the proposed model consistently outperforms state-of-the-art models.
翻訳日:2021-10-18 13:16:28 公開日:2021-10-15
# 多言語機械翻訳における代替入力信号の伝達

Alternative Input Signals Ease Transfer in Multilingual Machine Translation ( http://arxiv.org/abs/2110.07804v1 )

ライセンス: Link先を確認
Simeng Sun, Angela Fan, James Cross, Vishrav Chaudhary, Chau Tran, Philipp Koehn, Francisco Guzman(参考訳) マルチリンガル機械翻訳(MMT)における最近の研究は、言語間の肯定的な移動の可能性に焦点を当てている。 MMTモデルをトレーニングしている間、ある言語ペアから学んだ監視信号は、複数のソース言語で共有されるトークンを介して、他方に転送することができる。 しかし、ソース言語間のトークン重なりが小さい場合は転送が抑制され、言語が異なる書き込みシステムを使用すると自然に現れる。 本稿では,音素,ローマ字,転写された入力などの異なる書き体系を統一した代替信号による学習データの拡張により,伝達抑制に取り組む。 我々はこれらのシグナルを、言語が共通の特徴を共有している2つの言語族であるインディク語とテュルク語でテストする。 この結果から,様々な信号の混合でモデルを訓練し,推論中に異なる信号で入力された同一モデルの出力をアンサンブルすることで,双方の言語系における1.3BLEUポイントの強いアンサンブルベースラインより優れることがわかった。 さらに、トレーニングセットが小さい場合には、自己アンサンブルによる代替入力を組み込むことが特に有効であり、トレーニングデータの5%しかアクセスできない場合、+5 BLEUとなる。 最後に, 代替信号を含めることで, より一貫性が増し, 名前付きエンティティをより正確に翻訳できることが, 自動化システムの事実性を高める上で重要であることを示した。

Recent work in multilingual machine translation (MMT) has focused on the potential of positive transfer between languages, particularly cases where higher-resourced languages can benefit lower-resourced ones. While training an MMT model, the supervision signals learned from one language pair can be transferred to the other via the tokens shared by multiple source languages. However, the transfer is inhibited when the token overlap among source languages is small, which manifests naturally when languages use different writing systems. In this paper, we tackle inhibited transfer by augmenting the training data with alternative signals that unify different writing systems, such as phonetic, romanized, and transliterated input. We test these signals on Indic and Turkic languages, two language families where the writing systems differ but languages still share common features. Our results indicate that a straightforward multi-source self-ensemble -- training a model on a mixture of various signals and ensembling the outputs of the same model fed with different signals during inference, outperforms strong ensemble baselines by 1.3 BLEU points on both language families. Further, we find that incorporating alternative inputs via self-ensemble can be particularly effective when training set is small, leading to +5 BLEU when only 5% of the total training data is accessible. Finally, our analysis demonstrates that including alternative signals yields more consistency and translates named entities more accurately, which is crucial for increased factuality of automated systems.
翻訳日:2021-10-18 13:16:13 公開日:2021-10-15
# ベトナムにおけるアスペクトベース感情分析のためのスパン検出

Span Detection for Aspect-Based Sentiment Analysis in Vietnamese ( http://arxiv.org/abs/2110.07833v1 )

ライセンス: Link先を確認
Kim Thi-Thanh Nguyen, Sieu Khai Huynh, Luong Luc Phan, Phuc Huynh Pham, Duc-Vu Nguyen, Kiet Van Nguyen(参考訳) アスペクトに基づく感情分析は自然言語処理と人工知能において重要な役割を果たす。 近年,アスペクト検出と感情分類のみに焦点が当てられているが,現実的な応用において大きな可能性を秘めているユーザ評価のサブタスクは無視されている。 本稿では,11,122件のフィードバックコメントに35,396件の人称注釈付きスパンからなるベトナム語データセット(UIT-ViSD4SA)を提案する。 また,ベトナムのアスペクトベース感情分析におけるスパン検出タスクに対して,条件付きランダムフィールド (CRF) 層 (BiLSTM-CRF) を用いた双方向長短期記憶 (BiLSTM) を用いた新しいシステムを提案する。 最も良い結果は、音節埋め込み、文字埋め込み、XLM-RoBERTaからの文脈埋め込みを組み込んだBiLSTM-CRFを用いたスパン検出のための62.76%のF1スコア(マクロ)である。 今後の研究では、構成的検出、感情認識、苦情分析、意見マイニングなど、多くのNLPタスクにおいてスパン検出が拡張される。 我々のデータセットは、研究目的でhttps://github.com/k imkim00/UIT-ViSD4SAで無料で利用可能です。

Aspect-based sentiment analysis plays an essential role in natural language processing and artificial intelligence. Recently, researchers only focused on aspect detection and sentiment classification but ignoring the sub-task of detecting user opinion span, which has enormous potential in practical applications. In this paper, we present a new Vietnamese dataset (UIT-ViSD4SA) consisting of 35,396 human-annotated spans on 11,122 feedback comments for evaluating the span detection in aspect-based sentiment analysis. Besides, we also propose a novel system using Bidirectional Long Short-Term Memory (BiLSTM) with a Conditional Random Field (CRF) layer (BiLSTM-CRF) for the span detection task in Vietnamese aspect-based sentiment analysis. The best result is a 62.76% F1 score (macro) for span detection using BiLSTM-CRF with embedding fusion of syllable embedding, character embedding, and contextual embedding from XLM-RoBERTa. In future work, span detection will be extended in many NLP tasks such as constructive detection, emotion recognition, complaint analysis, and opinion mining. Our dataset is freely available at https://github.com/k imkim00/UIT-ViSD4SA for research purposes.
翻訳日:2021-10-18 13:14:30 公開日:2021-10-15
# 多文書抽象要約のモデル化

Modeling Endorsement for Multi-Document Abstractive Summarization ( http://arxiv.org/abs/2110.07844v1 )

ライセンス: Link先を確認
Logan Lebanoff and Bingqing Wang and Zhe Feng and Fei Liu(参考訳) 単一文書と複数文書の要約における重要な違いは、文書に内容がどのように現れるかである。 このような内容は1つの文書の冒頭に現れることもあるが、重要な情報は特定のトピックに関連する一連の文書に頻繁に再掲載されるため、情報サレンスを増加させる支持効果をもたらす。 本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。 提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。 強く支持されたテキストセグメントは、神経エンコーダ-デコーダモデルを強化し、それらを抽象的な要約に統合するために使用される。 この手法は,文書の集合が動的に調整された場合に,コストのかかる再トレーニングの必要性を軽減し,より少ないサンプルから有意なコンテンツを特定することができる。 ベンチマーク多文書要約データセットの広範な実験を通じて,提案手法の有効性について実証した。 最後に,今後の研究の方向性に光を当て,ケーススタディを用いて,この課題の幅広い課題について論じる。

A crucial difference between single- and multi-document summarization is how salient content manifests itself in the document(s). While such content may appear at the beginning of a single document, essential information is frequently reiterated in a set of documents related to a particular topic, resulting in an endorsement effect that increases information salience. In this paper, we model the cross-document endorsement effect and its utilization in multiple document summarization. Our method generates a synopsis from each document, which serves as an endorser to identify salient content from other documents. Strongly endorsed text segments are used to enrich a neural encoder-decoder model to consolidate them into an abstractive summary. The method has a great potential to learn from fewer examples to identify salient content, which alleviates the need for costly retraining when the set of documents is dynamically adjusted. Through extensive experiments on benchmark multi-document summarization datasets, we demonstrate the effectiveness of our proposed method over strong published baselines. Finally, we shed light on future research directions and discuss broader challenges of this task using a case study.
翻訳日:2021-10-18 13:14:07 公開日:2021-10-15
# エンドツーエンドセグメンテーションに基づくニュース要約

End-to-End Segmentation-based News Summarization ( http://arxiv.org/abs/2110.07850v1 )

ライセンス: Link先を確認
Yang Liu, Chenguang Zhu, Michael Zeng(参考訳) 本稿では,ニュース記事を複数のセクションに分割し,各セクションに対応する要約を生成するタスクを導入することで,ニュースコンテンツをダイジェストする新しい方法を提案する。 私たちはこの新しいタスクに2つの貢献をします。 まず、セクションとアライメントスタイルのセクション要約を備えた27Kのニュース記事からなるデータセット、SegNewsを作成し、利用可能にします。 第2に,文書を協調的に分割し,各節の要約を生成する,事前訓練された言語モデルに適応した新たなセグメンテーションベース言語生成モデルを提案する。 segnewsの実験結果は、この新タスクの最先端のシーケンシャル・ツー・シーケンス生成モデルを上回ることを証明している。

In this paper, we bring a new way of digesting news content by introducing the task of segmenting a news article into multiple sections and generating the corresponding summary to each section. We make two contributions towards this new task. First, we create and make available a dataset, SegNews, consisting of 27k news articles with sections and aligned heading-style section summaries. Second, we propose a novel segmentation-based language generation model adapted from pre-trained language models that can jointly segment a document and produce the summary for each section. Experimental results on SegNews demonstrate that our model can outperform several state-of-the-art sequence-to-sequence generation models for this new task.
翻訳日:2021-10-18 13:13:50 公開日:2021-10-15
# AMR解析のための階層型カリキュラム学習

Hierarchical Curriculum Learning for AMR Parsing ( http://arxiv.org/abs/2110.07855v1 )

ライセンス: Link先を確認
Peiyi Wang, Liang Chen, Tianyu Liu, Baobao Chang, Zhifang Sui(参考訳) 抽象意味表現 (abstract meaning representation, amr) 構文解析は、最近事前学習されたエンコーダ・デコーダモデルによって強化された階層構造を持つ意味表現に文を翻訳する。 しかし、フラットな文対AMR訓練パラダイムは、より深いAMRサブグラフにおける概念と関係の表現学習を妨げる。 本研究では,(1)構造レベルのカリキュラム(SC)と(2)インスタンスレベルのカリキュラム(IC)から構成される階層型カリキュラム学習(HCL)を提案する。 SCは浅いAMRサブグラフから深いAMRサブグラフへ徐々に切り替え、ICは訓練中のAMRインスタンスから硬いAMRインスタンスへ移行する。 HCLでトレーニングされたBARTは、AMR-2.0とAMR-3.0ベンチマークで最先端のパフォーマンスを実現し、構造に依存した評価指標とハードインスタンスのベースラインを大幅に上回っている。

Abstract Meaning Representation (AMR) parsing translates sentences to the semantic representation with a hierarchical structure, which is recently empowered by pretrained encoder-decoder models. However, the flat sentence-to-AMR training paradigm impedes the representation learning of concepts and relations in the deeper AMR sub-graph. To make the sequence-to-sequence models better adapt to the inherent AMR structure, we propose a hierarchical curriculum learning (HCL) which consists of (1) structure-level curriculum (SC) and (2) instance-level curriculum (IC). SC switches progressively from shallow to deep AMR sub-graphs while IC transits from easy to hard AMR instances during training. Extensive experiments show that BART trained with HCL achieves the state-of-the-art performance on the AMR-2.0 and AMR-3.0 benchmark, and significantly outperforms baselines on the structure-dependent evaluation metrics and hard instances.
翻訳日:2021-10-18 13:13:38 公開日:2021-10-15
# ヒンディー語表現のための社会認識バイアス測定

Socially Aware Bias Measurements for Hindi Language Representations ( http://arxiv.org/abs/2110.07871v1 )

ライセンス: Link先を確認
Vijit Malik, Sunipa Dev, Akihiro Nishi, Nanyun Peng and Kai-Wei Chang(参考訳) 言語表現は、NLP全体で使用される効率的なツールであるが、それらは、符号化された社会的バイアスに悩まされている。 これらのバイアスは広く研究されているが、主に西洋社会の文脈で共通する英語の表現とバイアスに焦点を当てている。 本研究では,ヒンディー語表現におけるカストや宗教関連バイアスなどのバイアスについて検討する。 本研究では,各言語で広く話されている地域の歴史や文化に基づいて,特定の言語表現に対してバイアスがどのようにユニークなのか,また,言語をまたいだ調査において同一の社会バイアス(二進性に関連するバイアスなど)が異なる単語やテキストスパンでエンコードされているかを示す。 本研究では,言語表現をモデル化する際に,言語的・文法的アーティファクトとともに社会的認識の必要性を強調し,符号化されたバイアスを理解する。

Language representations are an efficient tool used across NLP, but they are strife with encoded societal biases. These biases are studied extensively, but with a primary focus on English language representations and biases common in the context of Western society. In this work, we investigate the biases present in Hindi language representations such as caste and religion associated biases. We demonstrate how biases are unique to specific language representations based on the history and culture of the region they are widely spoken in, and also how the same societal bias (such as binary gender associated biases) when investigated across languages is encoded by different words and text spans. With this work, we emphasize on the necessity of social-awareness along with linguistic and grammatical artefacts when modeling language representations, in order to understand the biases encoded.
翻訳日:2021-10-18 13:13:21 公開日:2021-10-15
# SPoT:ソフトプロンプト転送によるより良い凍結モデル適応

SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer ( http://arxiv.org/abs/2110.07904v1 )

ライセンス: Link先を確認
Tu Vu, Brian Lester, Noah Constant, Rami Al-Rfou, Daniel Cer(参考訳) 事前学習された言語モデルが大きくなるにつれて、これらのモデルを下流タスクに適用するパラメータ効率の高い方法への関心が高まっている。 タスク固有のソフトプロンプトを学習したlesterら(2021年)のプロンプトチューニングアプローチに基づいて,ダウンストリームタスクを実行するための凍結言語モデルを提案する。 SPoTはまず1つ以上のソースタスクのプロンプトを学び、それからターゲットタスクのプロンプトを初期化する。 SPoTは多くのタスクにおいてPromptTuningの性能を大幅に向上させることを示す。 さらに重要なのは、各タスクのモデル全体を、パラメータ効率が向上しながら、すべてのモデルサイズにわたって微調整する(最大27,000倍のタスク固有のパラメータ)。 さらに26のnlpタスクと160のソースターゲットタスクの組み合わせによるタスク転送可能性に関する大規模研究を行い,プロンプト転送によってタスクが互いに利益を享受できることを示す。 最後に,タスクをタスクの埋め込みとして解釈し,タスク間の類似性を識別し,与えられた新規な目標タスクに対して最も伝達可能なソースタスクを予測する,シンプルで効率的な検索手法を提案する。

As pre-trained language models have gotten larger, there has been growing interest in parameter-efficient methods to apply these models to downstream tasks. Building on the PromptTuning approach of Lester et al. (2021), which learns task-specific soft prompts to condition a frozen language model to perform downstream tasks, we propose a novel prompt-based transfer learning approach called SPoT: Soft Prompt Transfer. SPoT first learns a prompt on one or more source tasks and then uses it to initialize the prompt for a target task. We show that SPoT significantly boosts the performance of PromptTuning across many tasks. More importantly, SPoT either matches or outperforms ModelTuning, which fine-tunes the entire model on each individual task, across all model sizes while being more parameter-efficient (up to 27,000x fewer task-specific parameters). We further conduct a large-scale study on task transferability with 26 NLP tasks and 160 combinations of source-target tasks, and demonstrate that tasks can often benefit each other via prompt transfer. Finally, we propose a simple yet efficient retrieval approach that interprets task prompts as task embeddings to identify the similarity between tasks and predict the most transferable source tasks for a given novel target task.
翻訳日:2021-10-18 13:13:06 公開日:2021-10-15
# ギャップを橋渡しする:圧縮率による言語横断要約

Bridging the Gap: Cross-Lingual Summarization with Compression Rate ( http://arxiv.org/abs/2110.07936v1 )

ライセンス: Link先を確認
Yu Bai, Heyan Huang, Kai Fan, Yang Gao, Zewen Chi, Boxing Chen(参考訳) 文書を言語間要約に変換する言語間要約(CLS)は,機械翻訳(MT)タスクと密接に関連している。 しかし、MTリソースは依然としてCLSタスクには使われていない。 本稿では,大規模MTコーパスによる言語間要約の便宜を図るために,CSC(Cross-lingual Summarization with Compression rate)を提案する。 圧縮率を導入することで、mtタスクを圧縮率100%の特別なclsタスクとみなす。 したがって、それらを統一されたタスクとして訓練し、知識をより効果的に共有することができる。 さらに,これら2つのタスクをスムーズにブリッジするために,圧縮率の異なる文書-要約ペアを作成するための簡易かつ効果的なデータ拡張手法を提案する。 提案手法は, CLSタスクの性能向上だけでなく, 所望の長さで要約を生成するための制御性も提供する。 実験により,本手法は様々な強いベースラインより優れていることが示された。

Cross-lingual Summarization (CLS), converting a document into a cross-lingual summary, is highly related to Machine Translation (MT) task. However, MT resources are still underutilized for the CLS task. In this paper, we propose a novel task, Cross-lingual Summarization with Compression rate (CSC), to benefit cross-lingual summarization through large-scale MT corpus. Through introducing compression rate, we regard MT task as a special CLS task with the compression rate of 100%. Hence they can be trained as a unified task, sharing knowledge more effectively. Moreover, to bridge these two tasks smoothly, we propose a simple yet effective data augmentation method to produce document-summary pairs with different compression rates. The proposed method not only improves the performance of CLS task, but also provides controllability to generate summaries in desired lengths. Experiments demonstrate that our method outperforms various strong baselines.
翻訳日:2021-10-18 13:12:42 公開日:2021-10-15
# トレースの起源:Coref対応マシンの理解

Tracing Origins: Coref-aware Machine Reading Comprehension ( http://arxiv.org/abs/2110.07961v1 )

ライセンス: Link先を確認
Baorong Huang, Zhuosheng Zhang, Hai Zhao(参考訳) 機械読解は、新しい事前学習モデルと微調整戦略を評価するための研究と試験の分野であり、近年の研究では、モデルの性能を向上させるために、構文、意味、その他の言語情報を備えた事前学習モデルが強化されている。 本稿では,このアナフォリック表現を結合する人間の読解過程を模倣し,事前学習したモデルから単語埋め込みを強化するためにコリファレンス情報を明示的に活用し,モデルのコリファレンス関連性能を評価するために特別に設計された比較的新しいデータセットであるqurefにおいて,コリファレンス集約型質問応答のために識別しなければならないコリファレンス言及を強調する。 追加のbert層をコリファレンス参照に注目し,リレーショナルグラフ畳み込みネットワークを使用してコリファレンス関係をモデル化した。 学習段階におけるコア参照情報の明示的な組み込みは,事前学習言語モデルの訓練において,コア参照情報の組み込みよりも優れていることを示した。

Machine reading comprehension is a heavily-studied research and test field for evaluating new pre-trained models and fine-tuning strategies, and recent studies have enriched the pre-trained models with syntactic, semantic and other linguistic information to improve the performance of the model. In this paper, we imitated the human's reading process in connecting the anaphoric expressions and explicitly leverage the coreference information to enhance the word embeddings from the pre-trained model, in order to highlight the coreference mentions that must be identified for coreference-intensiv e question answering in QUOREF, a relatively new dataset that is specifically designed to evaluate the coreference-related performance of a model. We used an additional BERT layer to focus on the coreference mentions, and a Relational Graph Convolutional Network to model the coreference relations. We demonstrated that the explicit incorporation of the coreference information in fine-tuning stage performed better than the incorporation of the coreference information in training a pre-trained language models.
翻訳日:2021-10-18 13:12:27 公開日:2021-10-15
# 災害ツイート分類のためのトランスフォーマティブ型マルチタスク学習

Transformer-based Multi-task Learning for Disaster Tweet Categorisation ( http://arxiv.org/abs/2110.08010v1 )

ライセンス: Link先を確認
Congcong Wang, Paul Nulty, David Lillis(参考訳) ソーシャルメディアは、人々がタイムリーに情報を流すことを可能にし、危機時に助けを求めるメッセージを投稿する動機となった。 これらのメッセージは、情報タイプ(すなわち、メッセージが要求している援助サービスのタイプ)に応じて分類される必要がある緊急対応者の状況認識に寄与する。 情報型を分類し,これらのメッセージの優先度を推定するトランスフォーマーベースのマルチタスク学習(MTL)手法を提案する。 我々は,災害時ツイートの分類と優先順位付けに特化して設計された研究イニシアチブであるTRECインシデントストリーム(IS)のトラックに実行を提出することで,様々な指標によるアプローチの有効性を評価する。 その結果,我々のアプローチは,他の実行方法と比較して,ほとんどの指標で競争力のあるパフォーマンスを達成できることがわかった。 その後, 異種トランスフォーマーエンコーダを組み込んだアンサンブル手法は, 全体の有効性を大幅に向上させ, ほぼすべての測定値において最先端の性能を実現する。 このドメインにおける今後の作業のベースラインとして、私たちの作業を再現し、使用できるように、コードを公開しています。

Social media has enabled people to circulate information in a timely fashion, thus motivating people to post messages seeking help during crisis situations. These messages can contribute to the situational awareness of emergency responders, who have a need for them to be categorised according to information types (i.e. the type of aid services the messages are requesting). We introduce a transformer-based multi-task learning (MTL) technique for classifying information types and estimating the priority of these messages. We evaluate the effectiveness of our approach with a variety of metrics by submitting runs to the TREC Incident Streams (IS) track: a research initiative specifically designed for disaster tweet classification and prioritisation. The results demonstrate that our approach achieves competitive performance in most metrics as compared to other participating runs. Subsequently, we find that an ensemble approach combining disparate transformer encoders within our approach helps to improve the overall effectiveness to a significant extent, achieving state-of-the-art performance in almost every metric. We make the code publicly available so that our work can be reproduced and used as a baseline for the community for future work in this domain.
翻訳日:2021-10-18 13:12:08 公開日:2021-10-15
# (参考訳) fire together wire together: 自己教師付きマスク予測による動的プルーニング手法 [全文訳有]

Fire Together Wire Together: A Dynamic Pruning Approach with Self-Supervised Mask Prediction ( http://arxiv.org/abs/2110.08232v1 )

ライセンス: CC BY 4.0
Sara Elkerdawy, Mostafa Elhoushi, Hong Zhang, Nilanjan Ray(参考訳) 動的モデルプルーニング(dynamic model pruning)は、デプロイ中の各入力サンプルに対する異なるサブネットワークの推論を可能にする最近の方向である。 しかし、現在の動的手法は、間隔損失を誘導することによって正規化を通して連続的なチャネルゲーティングを学ぶことに依存している。 この定式化は、異なる損失(例えばタスク損失、正規化損失)のバランスの複雑さをもたらす。 さらに、正規化に基づく手法は計算予算を実現するために透明なトレードオフハイパーパラメータの選択を欠いている。 私たちの貢献は2つあります 1)タスクの分離とプルーニングトレーニング。 2)訓練前のフロップ削減推定を可能にする簡易なハイパーパラメータ選択。 我々は,前層の活性化に基づいて,k個のフィルタを層内で処理するマスクの予測を提案する。 自己教師付きバイナリ分類問題としてこの問題を提起する。 各マスク予測モジュールは、現在の層内の各フィルタがトップk活性化フィルタに属するかどうかを予測するために訓練される。 熱マップの質量を用いた新しい基準に基づいて入力毎に値kを動的に推定する。 我々は,CIFARおよびImageNetデータセット上で,VGG,ResNet,MobileNe tなどのニューラルネットワークの実験を行った。 CIFAR では 15% と 24% の FLOP 低減率を持つ SOTA 法と同等の精度が得られる。 imagenetも同様に、フロップ削減が最大13%改善され、精度が低下する。

Dynamic model pruning is a recent direction that allows for the inference of a different sub-network for each input sample during deployment. However, current dynamic methods rely on learning a continuous channel gating through regularization by inducing sparsity loss. This formulation introduces complexity in balancing different losses (e.g task loss, regularization loss). In addition, regularization-based methods lack transparent tradeoff hyperparameter selection to realize computational budget. Our contribution is twofold: 1) decoupled task and pruning training. 2) Simple hyperparameter selection that enables FLOPs reduction estimation before training. We propose to predict a mask to process k filters in a layer based on the activation of its previous layer. We pose the problem as a self-supervised binary classification problem. Each mask predictor module is trained to predict if the log-likelihood of each filter in the current layer belongs to the top-k activated filters. The value k is dynamically estimated for each input based on a novel criterion using the mass of heatmaps. We show experiments on several neural architectures, such as VGG, ResNet, and MobileNet on CIFAR and ImageNet datasets. On CIFAR, we reach similar accuracy to SOTA methods with 15% and 24% higher FLOPs reduction. Similarly in ImageNet, we achieve a lower drop in accuracy with up to 13% improvement in FLOPs reduction.
翻訳日:2021-10-18 13:10:59 公開日:2021-10-15
# 産業連関学習システムにおけるハイパーパラメータ最適化手法の評価

Evaluation of Hyperparameter-Optim ization Approaches in an Industrial Federated Learning System ( http://arxiv.org/abs/2110.08202v1 )

ライセンス: Link先を確認
Stephanie Holly, Thomas Hiessl, Safoura Rezapour Lakani, Daniel Schall, Clemens Heitzinger, Jana Kemnitz(参考訳) フェデレートラーニング(FL)は、データに直接アクセスする必要性からモデルトレーニングを分離し、脆弱なビジネス情報を共有することなく、業界パートナとコラボレーションして満足度の高いパフォーマンスを実現する。 機械学習アルゴリズムの性能は、ハイパーパラメータの選択に非常に敏感である。 FL設定では、ハイパーパラメータ最適化が新しい課題をもたらす。 本研究では,FLシステムにおける様々なパラメータ最適化手法の影響について検討した。 flにおける重要なボトルネックである通信コストを削減するために、我々は、グローバルハイパーパラメータ最適化アプローチとは対照的に、すべてのクライアントが独自のハイパーパラメータ構成を持つことができるローカルハイパーパラメータ最適化アプローチを調査した。 グリッド探索とベイズ最適化に基づいてこれらの手法を実装し,i.d.パーティションを用いたMNISTデータセットと,i.d.パーティションを用いたIoT(Internet of Things)センサを用いた産業用データセットを用いて,アルゴリズムの評価を行った。

Federated Learning (FL) decouples model training from the need for direct access to the data and allows organizations to collaborate with industry partners to reach a satisfying level of performance without sharing vulnerable business information. The performance of a machine learning algorithm is highly sensitive to the choice of its hyperparameters. In an FL setting, hyperparameter optimization poses new challenges. In this work, we investigated the impact of different hyperparameter optimization approaches in an FL system. In an effort to reduce communication costs, a critical bottleneck in FL, we investigated a local hyperparameter optimization approach that -- in contrast to a global hyperparameter optimization approach -- allows every client to have its own hyperparameter configuration. We implemented these approaches based on grid search and Bayesian optimization and evaluated the algorithms on the MNIST data set using an i.i.d. partition and on an Internet of Things (IoT) sensor based industrial data set using a non-i.i.d. partition.
翻訳日:2021-10-18 12:57:56 公開日:2021-10-15
# LPRules:線形プログラミングを用いた知識グラフにおけるルール誘導

LPRules: Rule Induction in Knowledge Graphs Using Linear Programming ( http://arxiv.org/abs/2110.08245v1 )

ライセンス: Link先を確認
Sanjeeb Dash and Joao Goncalves(参考訳) 知識グラフ(KG)補完は、AIにおいてよく研究されている問題である。 ルールベースのメソッドと埋め込みベースのメソッドは、ソリューションテクニックの2つを形成する。 ルールベースのメソッドは、入力グラフで既存の事実をキャプチャする一階述語論理ルールを学習し、欠落した事実を推論するためにこれらのルールを使用する。 このような方法の大きな欠点は、大規模なデータセットに対するスケーラビリティの欠如である。 本稿では,候補ルールのリストからルールを選択し,重み付けを割り当てるための単純な線形プログラミング(LP)モデルを提案する。 より小さなKGでは、単純なヒューリスティックを使って候補リストを作成する。 より大きなkgでは、まず小さな初期候補リストから始めて、標準列生成のアイデアを使って、lpモデルの目的値を改善するためのルールを追加します。 解釈可能性と一般化可能性を高めるために、明示的な制約によって選択された規則の集合の複雑さを制限し、個々のデータセットの複雑さハイパーパラメータを調整する。 提案手法は, 4つのKGデータセットのうち3つに対して, ニューロシンボリックな手法を含む他の一般的なルール学習者に比べて, 計算時間を大幅に削減できることを示す。 本手法のスケーラビリティ向上により,YAGO3-10のような大規模データセットに対処できる。

Knowledge graph (KG) completion is a well-studied problem in AI. Rule-based methods and embedding-based methods form two of the solution techniques. Rule-based methods learn first-order logic rules that capture existing facts in an input graph and then use these rules for reasoning about missing facts. A major drawback of such methods is the lack of scalability to large datasets. In this paper, we present a simple linear programming (LP) model to choose rules from a list of candidate rules and assign weights to them. For smaller KGs, we use simple heuristics to create the candidate list. For larger KGs, we start with a small initial candidate list, and then use standard column generation ideas to add more rules in order to improve the LP model objective value. To foster interpretability and generalizability, we limit the complexity of the set of chosen rules via explicit constraints, and tune the complexity hyperparameter for individual datasets. We show that our method can obtain state-of-the-art results for three out of four widely used KG datasets, while taking significantly less computing time than other popular rule learners including some based on neuro-symbolic methods. The improved scalability of our method allows us to tackle large datasets such as YAGO3-10.
翻訳日:2021-10-18 12:57:40 公開日:2021-10-15
# 平衡に基づく化学シミュレーションの性能向上のためのアクティブラーニングアプローチ

An active learning approach for improving the performance of equilibrium based chemical simulations ( http://arxiv.org/abs/2110.08111v1 )

ライセンス: Link先を確認
Mary Savino, C\'eline L\'evy-Leduc, Marc Leconte and Benoit Cochepin(参考訳) 本稿では,能動学習と呼ばれる特定の機械学習手法として,平衡に基づく化学シミュレーションを扱うための逐次的データ駆動手法を提案する。 提案手法の根底にある考え方は,関数推定における大域的不確実性を計算できるガウス過程のサンプルとして推定する関数を考えることである。 この推定とほぼパラメータのチューニングにより、提案手法は、推定関数がサロゲートモデルを構築するために評価されなければならない最も関連する入力データを順次選択する。 したがって、推定する関数の評価回数は劇的に制限される。 本手法は数値実験により検証し,地球科学でよく用いられる複雑な化学系に適用する。

In this paper, we propose a novel sequential data-driven method for dealing with equilibrium based chemical simulations, which can be seen as a specific machine learning approach called active learning. The underlying idea of our approach is to consider the function to estimate as a sample of a Gaussian process which allows us to compute the global uncertainty on the function estimation. Thanks to this estimation and with almost no parameter to tune, the proposed method sequentially chooses the most relevant input data at which the function to estimate has to be evaluated to build a surrogate model. Hence, the number of evaluations of the function to estimate is dramatically limited. Our active learning method is validated through numerical experiments and applied to a complex chemical system commonly used in geoscience.
翻訳日:2021-10-18 12:56:58 公開日:2021-10-15
# 多目的ベイズ最適化に基づく選択関数

Choice functions based multi-objective Bayesian optimisation ( http://arxiv.org/abs/2110.08217v1 )

ライセンス: Link先を確認
Alessio Benavoli and Dario Azzimonti and Dario Piga(参考訳) 本稿では,多目的ベイズ最適化のための新しいフレームワークについて紹介する。この5つのオプション a,b,c,d,e' のうち,'i pick options a,b,c' のように,多目的関数は選択判断によってのみアクセス可能である。 選択肢 D が拒否されるという事実は、私が厳格に D よりも好む選択された選択肢 A,B,C の中に少なくとも1つの選択肢が存在することを意味する(ただし、どれを指定すべきかは明記する必要はない)。 我々は、ある次元の $n_e$ に対して潜在ベクトル函数 f が存在すると仮定し、これはオプションを n 次元の実ベクトル空間に埋め込むので、選択集合は非支配的なオプションのパレート集合を通して表現できる。 ガウス過程を f に先立って配置し,選択データに対する新しい帰納法モデルを導出することにより,選択関数学習のためのベイズ的枠組みを提案する。 次に、この代理モデルを適用し、選択データ問題から新しい多目的ベイズ最適化を解く。

In this work we introduce a new framework for multi-objective Bayesian optimisation where the multi-objective functions can only be accessed via choice judgements, such as ``I pick options A,B,C among this set of five options A,B,C,D,E''. The fact that the option D is rejected means that there is at least one option among the selected ones A,B,C that I strictly prefer over D (but I do not have to specify which one). We assume that there is a latent vector function f for some dimension $n_e$ which embeds the options into the real vector space of dimension n, so that the choice set can be represented through a Pareto set of non-dominated options. By placing a Gaussian process prior on f and deriving a novel likelihood model for choice data, we propose a Bayesian framework for choice functions learning. We then apply this surrogate model to solve a novel multi-objective Bayesian optimisation from choice data problem.
翻訳日:2021-10-18 12:56:49 公開日:2021-10-15
# Representation Disentanglement による敵対的浄化

Adversarial Purification through Representation Disentanglement ( http://arxiv.org/abs/2110.07801v1 )

ライセンス: Link先を確認
Tao Bai, Jun Zhao, Lanqing Guo, Bihan Wen(参考訳) ディープラーニングモデルは、敵の例に対して脆弱で、理解不能な間違いを犯し、現実のデプロイメントに脅威を与える。 対人訓練の考え方と相まって、前処理ベースの防御は、タスク独立性と優れた一般化性のために人気があり、使いやすい。 現在の防御法、特に浄化法は、自然画像の学習と復元によって「ノイズ」を取り除く傾向がある。 しかし, ランダムノイズと異なり, 画像との相関が強いため, モデルトレーニングにおいて, 逆方向のパターンが過度に適合しやすい。 そこで本研究では, 自然画像の絡み合いと逆摂動を前処理防御として提示し, 新たな逆境浄化手法を提案する。 広範な実験により、我々の防御は一般化し、目に見えない強力な敵の攻撃に対して重大な防御をすることが示される。 これは、最先端の \textbf{ensemble} 攻撃の成功率を、既存の多くのメソッドよりも平均で \textbf{61.7\%} から \textbf{14.9\%} に下げる。 特に、我々の防御は乱れた画像を完全に復元し、実際には非常に望ましいバックボーンモデルのクリーンな精度を損なわない。

Deep learning models are vulnerable to adversarial examples and make incomprehensible mistakes, which puts a threat on their real-world deployment. Combined with the idea of adversarial training, preprocessing-based defenses are popular and convenient to use because of their task independence and good generalizability. Current defense methods, especially purification, tend to remove ``noise" by learning and recovering the natural images. However, different from random noise, the adversarial patterns are much easier to be overfitted during model training due to their strong correlation to the images. In this work, we propose a novel adversarial purification scheme by presenting disentanglement of natural images and adversarial perturbations as a preprocessing defense. With extensive experiments, our defense is shown to be generalizable and make significant protection against unseen strong adversarial attacks. It reduces the success rates of state-of-the-art \textbf{ensemble} attacks from \textbf{61.7\%} to \textbf{14.9\%} on average, superior to a number of existing methods. Notably, our defense restores the perturbed images perfectly and does not hurt the clean accuracy of backbone models, which is highly desirable in practice.
翻訳日:2021-10-18 12:55:10 公開日:2021-10-15
# PTQ-SL: サブレイヤワイズ後量子化の探索

PTQ-SL: Exploring the Sub-layerwise Post-training Quantization ( http://arxiv.org/abs/2110.07809v1 )

ライセンス: Link先を確認
Zhihang Yuan, Yiqi Chen, Chenhao Xue, Chenguang Zhang, Qiankun Wang, Qiankun Wang, Guangyu Sun(参考訳) ネットワーク量子化は畳み込みニューラルネットワークを圧縮する強力な技術である。 量子化の粒度は、ネットワーク量子化の性能に影響を与える重みのスケーリング要素を共有する方法を決定する。 既存のアプローチのほとんどは、畳み込み層の量子化のために層状またはチャネル的にスケーリング係数を共有する。 チャネルワイド量子化と層ワイド量子化は様々な用途で広く利用されている。 しかし、他の量子化の粒度はまれである。 本稿では,複数の入力チャネルと出力チャネルにまたがるスケーリング係数を共有するサブレイヤの粒度について検討する。 サブレイヤー粒度(ptq-sl)における高効率後トレーニング量子化法を提案する。 次に,様々な粒度を体系的に実験し,量子化ニューラルネットワークの予測精度と粒度との相関が強いことを観測した。 さらに,チャネルの位置の調整により,サブ層量子化の性能が向上することが判明した。 そこで本研究では,サブ層量子化のためのチャネルを並べ替える手法を提案する。 実験により、適切なチャネル再順序付けを伴うサブレイヤーワイズ量子化がチャネルワイズ量子化を上回ることを証明した。

Network quantization is a powerful technique to compress convolutional neural networks. The quantization granularity determines how to share the scaling factors in weights, which affects the performance of network quantization. Most existing approaches share the scaling factors layerwisely or channelwisely for quantization of convolutional layers. Channelwise quantization and layerwise quantization have been widely used in various applications. However, other quantization granularities are rarely explored. In this paper, we will explore the sub-layerwise granularity that shares the scaling factor across multiple input and output channels. We propose an efficient post-training quantization method in sub-layerwise granularity (PTQ-SL). Then we systematically experiment on various granularities and observe that the prediction accuracy of the quantized neural network has a strong correlation with the granularity. Moreover, we find that adjusting the position of the channels can improve the performance of sub-layerwise quantization. Therefore, we propose a method to reorder the channels for sub-layerwise quantization. The experiments demonstrate that the sub-layerwise quantization with appropriate channel reordering can outperform the channelwise quantization.
翻訳日:2021-10-18 12:54:46 公開日:2021-10-15
# パッチベース負の増強による視覚トランスフォーマーのロバスト性理解と改善

Understanding and Improving Robustness of Vision Transformers through Patch-based Negative Augmentation ( http://arxiv.org/abs/2110.07858v1 )

ライセンス: Link先を確認
Yao Qin, Chiyuan Zhang, Ting Chen, Balaji Lakshminarayanan, Alex Beutel, Xuezhi Wang(参考訳) 視覚トランスフォーマー(vits)のロバスト性について,特別なパッチベースのアーキテクチャ構造,すなわちイメージパッチのシーケンスとして画像を処理するレンズを通して検討する。 ViTがパッチベースの変換に驚くほど敏感であることは、トランスフォーメーションが元のセマンティクスを大きく破壊し、画像が人間によって認識不能になったとしても明らかです。 このことは、ViTがこのような変換を生き残ったが、一般的には人間に意味クラスを示すものではない特徴を強く用いていることを示している。 さらなる調査により、これらの特徴は有用ではあるが非破壊的であることが示され、トレーニングされたViTは高い分布精度を達成できるが、分布シフトの下で分解できる。 これらの機能に頼らずにモデルをトレーニングすることで、ViTの堅牢性とアウト・オブ・ディストリビューションのパフォーマンスが向上しますか? パッチベースの操作で変換されたイメージをネガティブな拡張ビューとして使用し、非ロバスト機能の使用によるトレーニングの正規化のために損失を提供します。 これは既存の研究の補完的な見解であり、主にモデルの不変性を強制する意味保存変換による入力の増大に焦点を当てている。 パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。 さらに、パッチベースの負の増大は従来の(肯定的な)データ増大と相補的であり、同時にパフォーマンスをさらに向上させる。 この作業のすべてのコードはオープンソースになる。

We investigate the robustness of vision transformers (ViTs) through the lens of their special patch-based architectural structure, i.e., they process an image as a sequence of image patches. We find that ViTs are surprisingly insensitive to patch-based transformations, even when the transformation largely destroys the original semantics and makes the image unrecognizable by humans. This indicates that ViTs heavily use features that survived such transformations but are generally not indicative of the semantic class to humans. Further investigations show that these features are useful but non-robust, as ViTs trained on them can achieve high in-distribution accuracy, but break down under distribution shifts. From this understanding, we ask: can training the model to rely less on these features improve ViT robustness and out-of-distribution performance? We use the images transformed with our patch-based operations as negatively augmented views and offer losses to regularize the training away from using non-robust features. This is a complementary view to existing research that mostly focuses on augmenting inputs with semantic-preserving transformations to enforce models' invariance. We show that patch-based negative augmentation consistently improves robustness of ViTs across a wide set of ImageNet based robustness benchmarks. Furthermore, we find our patch-based negative augmentation are complementary to traditional (positive) data augmentation, and together boost the performance further. All the code in this work will be open-sourced.
翻訳日:2021-10-18 12:54:30 公開日:2021-10-15
# magnet: 再訓練を行わないディープジェネレーティブネットワーク多様体からの均一サンプリング

MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without Retraining ( http://arxiv.org/abs/2110.08009v1 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk(参考訳) Deep Generative Networks (DGNs) は、GAN(Generative Adversarial Networks)、VAE(VAEs)、およびデータ多様体の近似やその多様体上のデータ分布に広く利用されている。 しかし、トレーニングサンプルは、例えば、celebaデータセットの笑顔の顔の比率やffhqの黒髪の個人の割合など、経験的データ分散において、好み、コスト、利便性に基づいて得られることが多い。 これらの矛盾は、公正性、データ拡張、異常検出、ドメイン適応など、はるかに大きな可能性を持つトレーニングされたDGNからのサンプリングによって再現される。 これに反応して、DGNが訓練された場合、学習多様体上に一様に分布するサンプルを生成する、微分幾何学に基づくサンプル(MaGNET)を開発する。 本手法は, トレーニング集合分布によらず, 多様体上の一様分布を生成できることを理論的および実証的に証明する。 さまざまなデータセットやDGNでさまざまな実験を行います。 FFHQデータセットでトレーニングされた最先端のStyleGAN2では、MaGNETによる一様サンプリングが分布精度を4.1%と3.0%増加させ、ラベルや再トレーニングを必要とせずに性別バイアスを41.2%減少させる。

Deep Generative Networks (DGNs) are extensively employed in Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), and their variants to approximate the data manifold, and data distribution on that manifold. However, training samples are often obtained based on preferences, costs, or convenience producing artifacts in the empirical data distribution e.g., the large fraction of smiling faces in the CelebA dataset or the large fraction of dark-haired individuals in FFHQ. These inconsistencies will be reproduced when sampling from the trained DGN, which has far-reaching potential implications for fairness, data augmentation, anomaly detection, domain adaptation, and beyond. In response, we develop a differential geometry based sampler -- coined MaGNET -- that, given any trained DGN, produces samples that are uniformly distributed on the learned manifold. We prove theoretically and empirically that our technique produces a uniform distribution on the manifold regardless of the training set distribution. We perform a range of experiments on various datasets and DGNs. One of them considers the state-of-the-art StyleGAN2 trained on FFHQ dataset, where uniform sampling via MaGNET increases distribution precision and recall by 4.1% & 3.0% and decreases gender bias by 41.2%, without requiring labels or retraining.
翻訳日:2021-10-18 12:54:06 公開日:2021-10-15
# FlexConv: 異なるカーネルサイズを持つ継続的カーネルの畳み込み

FlexConv: Continuous Kernel Convolutions with Differentiable Kernel Sizes ( http://arxiv.org/abs/2110.08059v1 )

ライセンス: Link先を確認
David W. Romero, Robert-Jan Bruintjes, Jakub M. Tomczak, Erik J. Bekkers, Mark Hoogendoorn, Jan C. van Gemert(参考訳) 畳み込みニューラルネットワーク(CNN)を設計する場合、トレーニング前に畳み込みカーネルのサイズを選択する必要がある。 最近の研究によると、CNNは異なるレイヤの異なるカーネルサイズから恩恵を受けているが、実際にはすべての組み合わせを探索することは不可能である。 より効率的なアプローチは、トレーニング中にカーネルサイズを学ぶことだ。 しかし、カーネルサイズを学ぶ既存の作品は帯域幅が限られている。 これらのアプローチは、拡張によってカーネルをスケールし、記述できる詳細は限られている。 本稿では,学習可能なカーネルサイズの高い帯域幅畳み込みカーネルを一定のパラメータコストで学習可能な,新しい畳み込み演算flexconvを提案する。 FlexNetsは、プーリングを使わずに長期的な依存関係をモデル化し、いくつかのシーケンシャルなデータセットで最先端のパフォーマンスを達成し、学んだカーネルサイズで最近の成果を上回り、画像ベンチマークデータセット上でずっと深いResNetsと競合する。 さらに、flexnetsはトレーニング中に見られるものよりも高い解像度でデプロイできる。 エイリアシングを避けるために,カーネルの周波数を解析的に制御できる新しいカーネルパラメータ化を提案する。 我々の新しいカーネルパラメタライゼーションは、既存のパラメタライゼーションよりも高い記述力と高速な収束速度を示している。 これにより、分類精度が大幅に向上する。

When designing Convolutional Neural Networks (CNNs), one must select the size of the convolutional kernels before training. Recent works show CNNs benefit from different kernel sizes at different layers, but exploring all possible combinations is unfeasible in practice. A more efficient approach is to learn the kernel size during training. However, existing works that learn the kernel size have a limited bandwidth. These approaches scale kernels by dilation, and thus the detail they can describe is limited. In this work, we propose FlexConv, a novel convolutional operation with which high bandwidth convolutional kernels of learnable kernel size can be learned at a fixed parameter cost. FlexNets model long-term dependencies without the use of pooling, achieve state-of-the-art performance on several sequential datasets, outperform recent works with learned kernel sizes, and are competitive with much deeper ResNets on image benchmark datasets. Additionally, FlexNets can be deployed at higher resolutions than those seen during training. To avoid aliasing, we propose a novel kernel parameterization with which the frequency of the kernels can be analytically controlled. Our novel kernel parameterization shows higher descriptive power and faster convergence speed than existing parameterizations. This leads to important improvements in classification accuracy.
翻訳日:2021-10-18 12:53:40 公開日:2021-10-15
# 局地sgdの大規模化におけるトレードオフ--実証的研究

Trade-offs of Local SGD at Scale: An Empirical Study ( http://arxiv.org/abs/2110.08133v1 )

ライセンス: Link先を確認
Jose Javier Gonzalez Ortiz, Jonathan Frankle, Mike Rabbat, Ari Morcos, Nicolas Ballas(参考訳) データセットやモデルが大きくなり、分散トレーニングはニューラルネットワークが適切な時間内にトレーニングできるようにするために必要なコンポーネントになっている。 しかし、分散トレーニングは、そのスケーラビリティを妨げるかなりの通信オーバーヘッドを持つ可能性がある。 このオーバーヘッドを削減する1つの戦略は、ローカルsgdとして知られるテクニックである同期ステップ間で、各ワーカーに対して独立して複数の非同期sgdステップを実行することである。 大規模画像分類タスクにおいて,局所sgdとその関連手法に関する包括的実証研究を行う。 局所的なsgdの実行にはコストがかかり、通信コストの低減(そしてより高速なトレーニング)には精度の低下が伴う。 この発見は、以前の研究におけるより小規模な実験とは対照的であり、局所的なsgdはスケールでの課題に遭遇することを示唆している。 さらに,Wang et al. (2020) の緩やかな運動量フレームワークを組み込むことで,コミュニケーションを必要とせずに精度が向上し,このトレードオフを逃れるための今後の方向性が示唆される。

As datasets and models become increasingly large, distributed training has become a necessary component to allow deep neural networks to train in reasonable amounts of time. However, distributed training can have substantial communication overhead that hinders its scalability. One strategy for reducing this overhead is to perform multiple unsynchronized SGD steps independently on each worker between synchronization steps, a technique known as local SGD. We conduct a comprehensive empirical study of local SGD and related methods on a large-scale image classification task. We find that performing local SGD comes at a price: lower communication costs (and thereby faster training) are accompanied by lower accuracy. This finding is in contrast from the smaller-scale experiments in prior work, suggesting that local SGD encounters challenges at scale. We further show that incorporating the slow momentum framework of Wang et al. (2020) consistently improves accuracy without requiring additional communication, hinting at future directions for potentially escaping this trade-off.
翻訳日:2021-10-18 12:53:19 公開日:2021-10-15
# 異なる特徴を優先して組み合わせる

Combining Diverse Feature Priors ( http://arxiv.org/abs/2110.08220v1 )

ライセンス: Link先を確認
Saachi Jain, Dimitris Tsipras, Aleksander Madry(参考訳) モデル一般化を改善するために、モデルデザイナはモデルが暗黙的または明示的に使用する機能を制限することが多い。 本研究では,これらの特徴をデータに対する異なる視点として捉え,その特徴を優先的に活用するデザイン空間について検討する。 具体的には、さまざまな機能プリミティブセットでトレーニングされたモデルは、重複する障害モードが少なく、より効果的に組み合わせられることが分かりました。 さらに,追加(ラベルなし)データで協調的にモデルをトレーニングすることで,相互の誤りを正すことが可能となり,その結果,相互相関性が向上し,レジリエンスが向上することを示す。 コードはhttps://github.com/m adrylab/copriors。

To improve model generalization, model designers often restrict the features that their models use, either implicitly or explicitly. In this work, we explore the design space of leveraging such feature priors by viewing them as distinct perspectives on the data. Specifically, we find that models trained with diverse sets of feature priors have less overlapping failure modes, and can thus be combined more effectively. Moreover, we demonstrate that jointly training such models on additional (unlabeled) data allows them to correct each other's mistakes, which, in turn, leads to better generalization and resilience to spurious correlations. Code available at https://github.com/M adryLab/copriors.
翻訳日:2021-10-18 12:53:02 公開日:2021-10-15
# (参考訳) バイオメディカルテキストにおける名前付きエンティティの曖昧化のためのドメイン間データ統合 [全文訳有]

Cross-Domain Data Integration for Named Entity Disambiguation in Biomedical Text ( http://arxiv.org/abs/2110.08228v1 )

ライセンス: CC BY 4.0
Maya Varma, Laurel Orr, Sen Wu, Megan Leszczynski, Xiao Ling, Christopher R\'e(参考訳) テキスト記述を構造化エンティティにマッピングする名前付きエンティティ曖昧化(NED)は、まれなエンティティの存在のため、医療分野において特に困難である。 既存のアプローチは、生体医学的知識ベースに粒度の粗い構造的リソースの存在と、稀なリソースに対して低いカバレッジを提供するトレーニングデータセットの使用によって制限されている。 本稿では,一般的なテキスト知識ベースから医学領域へ構造知識を転送するクロスドメインデータ統合手法を提案する。 我々は,この統合手法を用いて構造的資源を増強し,事前学習のための大規模生体医学的nedデータセットを生成する。 MedMentions と BC5CDR という2つのベンチマーク医学NEDデータセット上で, 最先端のパフォーマンスを実現する。 さらに,レアエンティティの曖昧さを最大57個の精度ポイントで改善する。

Named entity disambiguation (NED), which involves mapping textual mentions to structured entities, is particularly challenging in the medical domain due to the presence of rare entities. Existing approaches are limited by the presence of coarse-grained structural resources in biomedical knowledge bases as well as the use of training datasets that provide low coverage over uncommon resources. In this work, we address these issues by proposing a cross-domain data integration method that transfers structural knowledge from a general text knowledge base to the medical domain. We utilize our integration scheme to augment structural resources and generate a large biomedical NED dataset for pretraining. Our pretrained model with injected structural knowledge achieves state-of-the-art performance on two benchmark medical NED datasets: MedMentions and BC5CDR. Furthermore, we improve disambiguation of rare entities by up to 57 accuracy points.
翻訳日:2021-10-18 12:51:21 公開日:2021-10-15
# 多言語オープン情報抽出のための反復予測を用いた多様な抽出経路の統合

Integrating diverse extraction pathways using iterative predictions for Multilingual Open Information Extraction ( http://arxiv.org/abs/2110.08144v1 )

ライセンス: Link先を確認
Bhushan Kotnis, Kiril Gashteovski, Carolin Lawrence, Daniel O\~noro Rubio, Vanesa Rodriguez-Tembras, Makoto Takamoto, Mathias Niepert(参考訳) 本稿では,オープン情報抽出(openie)タスクに対する単純な仮説について検討し,抽出がより容易に抽出できる先行抽出について条件づけされた場合,三重項のいくつかの要素の抽出が容易になる可能性について検討する。 これをうまく活用し,三重項の異なる要素の抽出を条件付けして反復的に三重項を抽出する神経多言語openieシステムを提案する。 MiLIEの反復的な性質により、ルールベースの抽出システムをニューラルなエンドツーエンドシステムとシームレスに統合することで、パフォーマンスが向上する。 MiLIEは、複数の抽出経路を組み合わせる能力のおかげで、中国語からガリシア語まで多言語でSOTAシステムより優れている。 分析の結果,抽出の特定の要素が他の要素よりも抽出が容易であることが確認された。 最後に,日本語とガリシア語という2つの低資源言語を対象としたOpenIE評価データセットを提案する。

In this paper we investigate a simple hypothesis for the Open Information Extraction (OpenIE) task, that it may be easier to extract some elements of an triple if the extraction is conditioned on prior extractions which may be easier to extract. We successfully exploit this and propose a neural multilingual OpenIE system that iteratively extracts triples by conditioning extractions on different elements of the triple leading to a rich set of extractions. The iterative nature of MiLIE also allows for seamlessly integrating rule based extraction systems with a neural end-to-end system leading to improved performance. MiLIE outperforms SOTA systems on multiple languages ranging from Chinese to Galician thanks to it's ability of combining multiple extraction pathways. Our analysis confirms that it is indeed true that certain elements of an extraction are easier to extract than others. Finally, we introduce OpenIE evaluation datasets for two low resource languages namely Japanese and Galician.
翻訳日:2021-10-18 12:38:32 公開日:2021-10-15
# 熱画像による活動推定

Occupancy Estimation from Thermal Images ( http://arxiv.org/abs/2110.07796v1 )

ライセンス: Link先を確認
Zishan Qin, Dipankar Chaki, Abdallah Lakhdari, Amani Abusafia, Athman Bouguettaya(参考訳) スマート環境における非侵入的かつプライバシー保護的占有度推定システムを提案する。 提案手法では,熱画像を用いて特定の地域にいる人の数を検出する。 占有率推定モデルは、強度と動きに基づく人間のセグメンテーションの概念を用いて設計されている。 差分キャッチャー、連結成分ラベリング、ノイズフィルタ、メモリ伝搬の概念を用いて、占有数を推定する。 提案システムの有効性を示すために,実際のデータセットを用いる。

We propose a non-intrusive, and privacy-preserving occupancy estimation system for smart environments. The proposed scheme uses thermal images to detect the number of people in a given area. The occupancy estimation model is designed using the concepts of intensity-based and motion-based human segmentation. The notion of difference catcher, connected component labeling, noise filter, and memory propagation are utilized to estimate the occupancy number. We use a real dataset to demonstrate the effectiveness of the proposed system.
翻訳日:2021-10-18 12:38:01 公開日:2021-10-15
# 畳み込みニューラルネットワーク画像分類による真空絶縁ガラスの自動品質制御

Automated Quality Control of Vacuum Insulated Glazing by Convolutional Neural Network Image Classification ( http://arxiv.org/abs/2110.08079v1 )

ライセンス: Link先を確認
Henrik Riedel and Sleheddine Mokdad and Isabell Schulz and Cenk Kocer and Philipp Rosendahl and Jens Schneider and Michael A. Kraus and Michael Drass(参考訳) vacuum insulated glazing (vig) は、非常に熱的に絶縁された窓技術であり、同等の性能のガスで満たされた絶縁されたガラスの単位と比較して非常に薄い形状と重量を誇っている。 VIGは、パネル間のサブミリ波真空ギャップを持つ二重パネル構成であり、従ってその寿命に対して一定の気圧下にある。 小さな柱は隙間を維持するためにパネルの間に配置されており、VIGユニットの寿命を縮めるガラスを損傷させる可能性がある。 ガラスの表面損傷を効率的に評価するためには、自動損傷検出システムが非常に望ましい。 損傷を分類するために,畳み込みニューラルネットワークを用いた深層学習コンピュータビジョンシステムを開発した。 分類モデルは、試験データセットを100%の受信操作特性(ROC)に対して、曲線(AUC)以下の領域で完璧に分類した。 我々は、Faster-RCNNを使って柱の位置を特定することで、画像を自動的に関連情報まで抽出した。 解析可能な人工知能(XAI)の最先端手法であるGrad-CAMとScore-CAMを用いて,内部メカニズムの理解と,分類器が亀裂の位置と形状を識別するためにResNet50V2より優れていることを示す。 提案手法は,大量のトレーニングデータを用いなくても,系統的な欠陥を検出することができる。 我々のモデル予測能力のさらなる分析は、収束速度、精度、100%リコール精度の精度で最先端モデル(ResNet50V2、ResNet101V2、ResNet152V2)よりも優れていることを示す。

Vacuum Insulated Glazing (VIG) is a highly thermally insulating window technology, which boasts an extremely thin profile and lower weight as compared to gas-filled insulated glazing units of equivalent performance. The VIG is a double-pane configuration with a submillimeter vacuum gap between the panes and therefore under constant atmospheric pressure over their service life. Small pillars are positioned between the panes to maintain the gap, which can damage the glass reducing the lifetime of the VIG unit. To efficiently assess any surface damage on the glass, an automated damage detection system is highly desirable. For the purpose of classifying the damage, we have developed, trained, and tested a deep learning computer vision system using convolutional neural networks. The classification model flawlessly classified the test dataset with an area under the curve (AUC) for the receiver operating characteristic (ROC) of 100%. We have automatically cropped the images down to their relevant information by using Faster-RCNN to locate the position of the pillars. We employ the state-of-the-art methods Grad-CAM and Score-CAM of explainable Artificial Intelligence (XAI) to provide an understanding of the internal mechanisms and were able to show that our classifier outperforms ResNet50V2 for identification of crack locations and geometry. The proposed methods can therefore be used to detect systematic defects even without large amounts of training data. Further analyses of our model's predictive capabilities demonstrates its superiority over state-of-the-art models (ResNet50V2, ResNet101V2 and ResNet152V2) in terms of convergence speed, accuracy, precision at 100% recall and AUC for ROC.
翻訳日:2021-10-18 12:37:54 公開日:2021-10-15
# 言語モデルを用いたメタラーニング

Meta-learning via Language Model In-context Tuning ( http://arxiv.org/abs/2110.07814v1 )

ライセンス: Link先を確認
Yanda Chen, Ruiqi Zhong, Sheng Zha, George Karypis, He He(参考訳) メタ学習の目標は、いくつかのラベル付き例で新しいタスクに適応することを学ぶことだ。 NLPにおけるこの問題に対処するために、$\textit{in-context tuning}$ は、適応と予測を単純なシーケンス予測問題として再キャストする: 入力シーケンスを形成するには、タスク命令、ラベル付き例、ターゲット入力を結合して予測する; コンテキスト内例から学習するためにモデルをメタトレーニングするには、タスクの集合上の入力シーケンスからターゲットラベルを予測するために、事前訓練された言語モデル(LM)を微調整する。 本手法はlamaとbinaryclfsの2つのテキスト分類タスクでベンチマークを行う。 勾配勾配に適応する1次MAMLと比較して,本手法は,LMの帰納バイアスを利用してパターンマッチングを行い,BinaryClfs上でのAUC ROCスコアを絶対6\%で上回り,より有利なWr.t.モデルサイズを増大させる。 非微調整のインコンテキスト学習(すなわち生のlmをプロンプトする)と比較して、インコンテキストチューニングは、インコンテキストの例から直接学習する。 BinaryClfs では、コンテキスト内チューニングにより平均 AUC-ROC スコアが絶対 10\%$ 改善され、例順の 6 倍、例選択の 2 倍の差が減少する。

The goal of meta-learning is to learn to adapt to a new task with only a few labeled examples. To tackle this problem in NLP, we propose $\textit{in-context tuning}$, which recasts adaptation and prediction as a simple sequence prediction problem: to form the input sequence, we concatenate the task instruction, the labeled examples, and the target input to predict; to meta-train the model to learn from in-context examples, we fine-tune a pre-trained language model (LM) to predict the target label from the input sequences on a collection of tasks. We benchmark our method on two collections of text classification tasks: LAMA and BinaryClfs. Compared to first-order MAML which adapts the model with gradient descent, our method better leverages the inductive bias of LMs to perform pattern matching, and outperforms MAML by an absolute $6\%$ AUC ROC score on BinaryClfs, with increasing advantage w.r.t. model size. Compared to non-fine-tuned in-context learning (i.e. prompting a raw LM), in-context tuning directly learns to learn from in-context examples. On BinaryClfs, in-context tuning improves the average AUC-ROC score by an absolute $10\%$, and reduces the variance with respect to example ordering by 6x and example choices by 2x.
翻訳日:2021-10-18 12:37:02 公開日:2021-10-15
# クロスLingual Fine-Grained Entity Typing

Cross-Lingual Fine-Grained Entity Typing ( http://arxiv.org/abs/2110.07837v1 )

ライセンス: Link先を確認
Nila Selvaraj, Yasumasa Onoe, and Greg Durrett(参考訳) 言語間の事前学習モデルの成長により、NLPツールは新しい言語に迅速に一般化できるようになった。 これらのモデルはエンティティに関連するタスクに適用されているが、言語間でこれらのエンティティのタイプ学的特徴を明示的に予測する能力は確立されていない。 本稿では,100以上の言語を処理し,学習中に見つからない言語やエンティティに一般化する能力の解析が可能な,言語間統合型エンティティタイピングモデルを提案する。 我々は、複数の言語(訓練言語)でwikipediaハイパーリンクから収集した言語横断学習データに基づいて、このモデルをトレーニングする。 推論の間、我々のモデルは特定の言語(おそらくは訓練言語ではない)におけるエンティティの参照とコンテキストを取り、そのエンティティのきめ細かい型を予測する。 新しい言語や目に見えないエンティティに一般化することは、エンティティの型付け設定の基本的な課題であり、これらの設定に焦点を合わせ、単純だが強力な文字列マッチングベースラインと比較する。 実験の結果,日本語,タミル語,アラビア語,セルビア語,ペルシャ語などの非知覚言語のベースラインを上回った。 さらに,本手法はベースラインよりも(未認識の言語においても)未認識のエンティティのパフォーマンスを大幅に向上させ,人間による評価では関連する型を予測する能力が強く示されている。

The growth of cross-lingual pre-trained models has enabled NLP tools to rapidly generalize to new languages. While these models have been applied to tasks involving entities, their ability to explicitly predict typological features of these entities across languages has not been established. In this paper, we present a unified cross-lingual fine-grained entity typing model capable of handling over 100 languages and analyze this model's ability to generalize to languages and entities unseen during training. We train this model on cross-lingual training data collected from Wikipedia hyperlinks in multiple languages (training languages). During inference, our model takes an entity mention and context in a particular language (test language, possibly not in the training languages) and predicts fine-grained types for that entity. Generalizing to new languages and unseen entities are the fundamental challenges of this entity typing setup, so we focus our evaluation on these settings and compare against simple yet powerful string match baselines. Experimental results show that our approach outperforms the baselines on unseen languages such as Japanese, Tamil, Arabic, Serbian, and Persian. In addition, our approach substantially improves performance on unseen entities (even in unseen languages) over the baselines, and human evaluation shows a strong ability to predict relevant types in these settings.
翻訳日:2021-10-18 12:35:15 公開日:2021-10-15
# テキストによるバックドア攻撃は、2つの簡単なトリックでより有害になる

Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks ( http://arxiv.org/abs/2110.08247v1 )

ライセンス: Link先を確認
Yangyi Chen, Fanchao Qi, Zhiyuan Liu, Maosong Sun(参考訳) バックドア攻撃は、ディープラーニングにおける突発的なセキュリティの脅威だ。 ディープニューラルモデルがバックドアに注入されると、通常の入力で正常に振る舞うが、入力が特定のバックドアトリガーを含むと、逆特定された予測を与える。 現在のテキストバックドア攻撃は、厳しい状況下では攻撃性能が低い。 本稿では,既存のテキストバックドア攻撃をより有害にするための2つの簡単な手法を見出す。 第1のトリックは、被害者モデルのトレーニング中に汚染されたデータを識別するための追加のトレーニングタスクを追加することであり、第2のトリックは、汚染されたデータに対応する元のクリーンデータを削除するのではなく、すべてのクリーントレーニングデータを使用することである。 この2つのトリックは、異なる攻撃モデルに普遍的に適用される。 クリーンデータ微調整,低中毒率,ラベル一貫性攻撃など,3つの厳しい状況下で実験を行った。 実験の結果,この2つの手法は攻撃性能を大幅に向上できることがわかった。 本稿では,バックドア攻撃の潜在的有害性を示す。 すべてのコードとデータは、さらなる研究を促進するために公開されます。

Backdoor attacks are a kind of emergent security threat in deep learning. When a deep neural model is injected with a backdoor, it will behave normally on standard inputs but give adversary-specified predictions once the input contains specific backdoor triggers. Current textual backdoor attacks have poor attack performance in some tough situations. In this paper, we find two simple tricks that can make existing textual backdoor attacks much more harmful. The first trick is to add an extra training task to distinguish poisoned and clean data during the training of the victim model, and the second one is to use all the clean training data rather than remove the original clean data corresponding to the poisoned data. These two tricks are universally applicable to different attack models. We conduct experiments in three tough situations including clean data fine-tuning, low poisoning rate, and label-consistent attacks. Experimental results show that the two tricks can significantly improve attack performance. This paper exhibits the great potential harmfulness of backdoor attacks. All the code and data will be made public to facilitate further research.
翻訳日:2021-10-18 12:34:54 公開日:2021-10-15
# インクリメンタル学習における可塑性安定性トレードオフの改善に向けて--単純なリニアコネクター

Towards Better Plasticity-Stability Trade-off in Incremental Learning: A simple Linear Connector ( http://arxiv.org/abs/2110.07905v1 )

ライセンス: Link先を確認
Guoliang Lin, Hanglu Chu, Hanjiang Lai(参考訳) 塑性安定性ジレンマは漸進的な学習の主要な問題であり、塑性は新しい知識を学ぶ能力を指し、安定性は以前のタスクの知識を保持する。 以前の作業からのトレーニングサンプルが不足しているため、可塑性と安定性のバランスをとるのは難しい。 例えば、最近のヌル空間射影法(例えばadam-nscl)は、以前の知識を保存する際に有望な性能を示す一方で、このような強い射影は現在のタスクのパフォーマンス低下を引き起こす。 そこで本研究では,2つの最適化されたネットワークのオプティマ,過去のタスクに対するヌル空間投影,現在のタスクに対する単純なsgdの簡易な平均化により,学習済みの知識の保存と新しいタスクの学習に十分な柔軟性の確保との間に有意義なバランスが得られることを示す。 この単純なリニアコネクタは、塑性と安定性のトレードオフを制御するための新しい視点と技術を提供します。 提案手法を複数のベンチマークデータセット上で評価する。 その結果,これまでの作業と現在の作業の両方において,簡単な方法が顕著な改善を達成できることがわかった。 要するに,本手法は極めて単純な手法であり,より良いバランスモデルを実現する。

Plasticity-stability dilemma is a main problem for incremental learning, with plasticity referring to the ability to learn new knowledge, and stability retaining the knowledge of previous tasks. Due to the lack of training samples from previous tasks, it is hard to balance the plasticity and stability. For example, the recent null-space projection methods (e.g., Adam-NSCL) have shown promising performance on preserving previous knowledge, while such strong projection also causes the performance degradation of the current task. To achieve better plasticity-stability trade-off, in this paper, we show that a simple averaging of two independently optimized optima of networks, null-space projection for past tasks and simple SGD for the current task, can attain a meaningful balance between preserving already learned knowledge and granting sufficient flexibility for learning a new task. This simple linear connector also provides us a new perspective and technology to control the trade-off between plasticity and stability. We evaluate the proposed method on several benchmark datasets. The results indicate our simple method can achieve notable improvement, and perform well on both the past and current tasks. In short, our method is an extremely simple approach and achieves a better balance model.
翻訳日:2021-10-18 12:33:47 公開日:2021-10-15
# Recommender システムのQ-Learning

Value Penalized Q-Learning for Recommender Systems ( http://arxiv.org/abs/2110.07923v1 )

ライセンス: Link先を確認
Chengqian Gao, Ke Xu, Peilin Zhao(参考訳) 推薦システム(RS)への強化学習(RL)のスケーリングは、RLエージェントの累積報酬の最大化がRSの目的、すなわち顧客の長期的な満足度の向上を目標としていることから、有望である。 この目標の重要なアプローチは、ログされたデータからポリシーを学ぶことを目的としたオフラインRLである。 しかし、高次元のアクション空間と商用rsにおける非定常ダイナミクスは分布シフト問題を強化し、rsにオフラインのrl法を適用することが困難になる。 静的軌跡からRLポリシーを抽出する際の行動分布シフト問題を緩和するために,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。 不確かさを意識した重みによる回帰目標の不安定なQ値のペナルティを、多数のアイテムを持つRSに適した行動ポリシーを見積もる必要がない。 q-函数のアンサンブル上の分散からペナルティ重みを導出する。 テスト時の分散シフト問題を緩和するため,提案手法を古典RSモデルに統合するための批判的枠組みをさらに導入する。 2つの実世界のデータセットで広範な実験を行い、提案手法が既存のrsモデルのゲインプラグインとして機能することを示した。

Scaling reinforcement learning (RL) to recommender systems (RS) is promising since maximizing the expected cumulative rewards for RL agents meets the objective of RS, i.e., improving customers' long-term satisfaction. A key approach to this goal is offline RL, which aims to learn policies from logged data. However, the high-dimensional action space and the non-stationary dynamics in commercial RS intensify distributional shift issues, making it challenging to apply offline RL methods to RS. To alleviate the action distribution shift problem in extracting RL policy from static trajectories, we propose Value Penalized Q-learning (VPQ), an uncertainty-based offline RL algorithm. It penalizes the unstable Q-values in the regression target by uncertainty-aware weights, without the need to estimate the behavior policy, suitable for RS with a large number of items. We derive the penalty weights from the variances across an ensemble of Q-functions. To alleviate distributional shift issues at test time, we further introduce the critic framework to integrate the proposed method with classic RS models. Extensive experiments conducted on two real-world datasets show that the proposed method could serve as a gain plugin for existing RS models.
翻訳日:2021-10-18 12:33:25 公開日:2021-10-15
# (参考訳) 視覚的質問生成の指導 [全文訳有]

Guiding Visual Question Generation ( http://arxiv.org/abs/2110.08226v1 )

ライセンス: CC BY 4.0
Nihir Vedd, Zixu Wang, Marek Rei, Yishu Miao and Lucia Specia(参考訳) 従来の視覚質問生成(VQG)では、ほとんどの画像は、質問を生成できる複数の概念(オブジェクトやカテゴリなど)を持っているが、モデルはトレーニングデータに与えられた任意の概念の選択を模倣するように訓練されている。 これはトレーニングを難しくし、評価のために問題を引き起こす -- 多くの画像には複数の有効な質問が存在するが、人間の参照によってキャプチャされるのは1つか数つだけだ。 本稿では,質問の種類や探索すべき対象に対する期待に基づいてカテゴリ情報に基づいて質問生成を条件とするvqgの変種である視覚質問生成の指導を行う。 我々は2つの変種を提案します (i)アクタ(人間又は自動化)が質問を生成する対象及びカテゴリを選択することを可能にする明示的な誘導モデル (ii)離散潜在変数に基づいて条件付けする対象とカテゴリを学習する暗黙的に導かれたモデル。 提案モデルは,回答カテゴリー拡張型vqaデータセット上で評価され,その評価結果から,現在(bleu-4増加率9。 人間の評価は、ガイダンスが文法的に一貫性があり、与えられた画像やオブジェクトに関連する質問を生成するのに役立つことを検証する。

In traditional Visual Question Generation (VQG), most images have multiple concepts (e.g. objects and categories) for which a question could be generated, but models are trained to mimic an arbitrary choice of concept as given in their training data. This makes training difficult and also poses issues for evaluation -- multiple valid questions exist for most images but only one or a few are captured by the human references. We present Guiding Visual Question Generation - a variant of VQG which conditions the question generator on categorical information based on expectations on the type of question and the objects it should explore. We propose two variants: (i) an explicitly guided model that enables an actor (human or automated) to select which objects and categories to generate a question for; and (ii) an implicitly guided model that learns which objects and categories to condition on, based on discrete latent variables. The proposed models are evaluated on an answer-category augmented VQA dataset and our quantitative results show a substantial improvement over the current state of the art (over 9 BLEU-4 increase). Human evaluation validates that guidance helps the generation of questions that are grammatically coherent and relevant to the given image and objects.
翻訳日:2021-10-18 12:31:23 公開日:2021-10-15
# MLディフェンスモデル競争における敵対的攻撃

Adversarial Attacks on ML Defense Models Competition ( http://arxiv.org/abs/2110.08042v1 )

ライセンス: Link先を確認
Yinpeng Dong, Qi-An Fu, Xiao Yang, Wenzhao Xiang, Tianyu Pang, Hang Su, Jun Zhu, Jiayu Tang, Yuefeng Chen, XiaoFeng Mao, Yuan He, Hui Xue, Chao Li, Ye Liu, Qilong Zhang, Lianli Gao, Yunrui Yu, Xitong Gao, Zhe Zhao, Daquan Lin, Jiadong Lin, Chuanbiao Song, Zihao Wang, Zhennan Wu, Yang Guo, Jiequan Cui, Xiaogang Xu, Pengguang Chen(参考訳) 敵対的な例に対するディープニューラルネットワーク(DNN)の脆弱性のため、近年、この問題を軽減するために多くの防衛技術が提案されている。 しかし、より堅牢なモデルの構築の進行は、通常不完全または不正な堅牢性評価によって妨げられる。 画像分類における現在の防衛モデルの強固さの信頼性に関する研究を加速するために、清華大学tsailグループとalibabaセキュリティグループは、cvpr 2021 workshop on adversarial machine learning (https://aisecure-wo rkshop.github.io/aml cvpr2021/)とともにこのコンペを主催した。 この競争の目的は、敵の堅牢性をより効果的かつ確実に評価するために、新しい攻撃アルゴリズムを動機付けることである。 参加者は、より強力なホワイトボックス攻撃アルゴリズムを開発し、異なる防御の最悪の堅牢性を見つけることを奨励された。 このコンペティションはAI Security Challengers Programのシリーズの1つとしてTianChiプラットフォーム(https://tianchi.ali yun.com/competition/ entrance/531847/intr oduction)で開催されている。 コンペの後、私たちは結果をまとめ、https://ml.cs.tsingh ua.edu.cn/ares-bench /で新しい敵のロバスト性ベンチマークを確立しました。

Due to the vulnerability of deep neural networks (DNNs) to adversarial examples, a large number of defense techniques have been proposed to alleviate this problem in recent years. However, the progress of building more robust models is usually hampered by the incomplete or incorrect robustness evaluation. To accelerate the research on reliable evaluation of adversarial robustness of the current defense models in image classification, the TSAIL group at Tsinghua University and the Alibaba Security group organized this competition along with a CVPR 2021 workshop on adversarial machine learning (https://aisecure-wo rkshop.github.io/aml cvpr2021/). The purpose of this competition is to motivate novel attack algorithms to evaluate adversarial robustness more effectively and reliably. The participants were encouraged to develop stronger white-box attack algorithms to find the worst-case robustness of different defenses. This competition was conducted on an adversarial robustness evaluation platform -- ARES (https://github.com/ thu-ml/ares), and is held on the TianChi platform (https://tianchi.ali yun.com/competition/ entrance/531847/intr oduction) as one of the series of AI Security Challengers Program. After the competition, we summarized the results and established a new adversarial robustness benchmark at https://ml.cs.tsingh ua.edu.cn/ares-bench /, which allows users to upload adversarial attack algorithms and defense models for evaluation.
翻訳日:2021-10-18 12:14:06 公開日:2021-10-15
# コミュニケーションのための描画の共有視覚表現: 異なるバイアスが人間の解釈可能性と意図にどのように影響するか?

Shared Visual Representations of Drawing for Communication: How do different biases affect human interpretability and intent? ( http://arxiv.org/abs/2110.08203v1 )

ライセンス: Link先を確認
Daniela Mihai, Jonathon Hare(参考訳) 本稿では,コミュニケーションゲームを行う人工エージェントが生成した図面に表現的損失が及ぼす影響について検討する。 近年の進歩を踏まえ、適切なインダクティブバイアスを持つ強力なプリトレーニングエンコーダネットワークの組み合わせによって、認識可能なスケッチを描画するエージェントが、コミュニケーションを良好に行うことができることを示した。 さらに、スケッチによって伝達される意味的内容を自動的に分析する手法を開発し、エージェントの訓練が自己管理されているにもかかわらず、知覚バイアスを誘発する現在のアプローチが、客観性の概念が重要な特徴であることを示す。

We present an investigation into how representational losses can affect the drawings produced by artificial agents playing a communication game. Building upon recent advances, we show that a combination of powerful pretrained encoder networks, with appropriate inductive biases, can lead to agents that draw recognisable sketches, whilst still communicating well. Further, we start to develop an approach to help automatically analyse the semantic content being conveyed by a sketch and demonstrate that current approaches to inducing perceptual biases lead to a notion of objectness being a key feature despite the agent training being self-supervised.
翻訳日:2021-10-18 12:13:30 公開日:2021-10-15
# Neural Dubber: スクリプトによるサイレントビデオのダビング

Neural Dubber: Dubbing for Silent Videos According to Scripts ( http://arxiv.org/abs/2110.08243v1 )

ライセンス: Link先を確認
Chenxu Hu, Qiao Tian, Tingle Li, Yuping Wang, Yuxuan Wang, Hang Zhao(参考訳) ドビングは俳優の対話を再録音するポストプロダクションプロセスであり、映画製作やビデオ制作で広く使われている。 通常は、適切な韻律で行を読み、あらかじめ録音されたビデオと同期するプロの声優によって手作業で演奏される。 本研究では,テキストから与えられたサイレントビデオと同期した人間の音声を合成する,新しい自動ビデオダビング(AVD)課題を解決するニューラルネットワークモデルであるNeural Dubberを提案する。 Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声(TTS)モデルである。 さらに、マルチスピーカ設定のための画像ベース話者埋め込み(ISE)モジュールを開発し、話者の顔に応じて適切な音色で音声を生成することができる。 chemistry lecture single-speaker dataset と lrs2 multi-speaker dataset の実験では、ニューラル・ドバが最新のttsモデルと同等の音声品質で音声を生成できることが示されている。 最も重要なことは、質的、定量的な評価は、Neural Dubberがビデオによって合成された音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成することを示している。

Dubbing is a post-production process of re-recording actors' dialogues, which is extensively used in filmmaking and video production. It is usually performed manually by professional voice actors who read lines with proper prosody, and in synchronization with the pre-recorded videos. In this work, we propose Neural Dubber, the first neural network model to solve a novel automatic video dubbing (AVD) task: synthesizing human speech synchronized with the given silent video from the text. Neural Dubber is a multi-modal text-to-speech (TTS) model that utilizes the lip movement in the video to control the prosody of the generated speech. Furthermore, an image-based speaker embedding (ISE) module is developed for the multi-speaker setting, which enables Neural Dubber to generate speech with a reasonable timbre according to the speaker's face. Experiments on the chemistry lecture single-speaker dataset and LRS2 multi-speaker dataset show that Neural Dubber can generate speech audios on par with state-of-the-art TTS models in terms of speech quality. Most importantly, both qualitative and quantitative evaluations show that Neural Dubber can control the prosody of synthesized speech by the video, and generate high-fidelity speech temporally synchronized with the video.
翻訳日:2021-10-18 12:13:17 公開日:2021-10-15
# ContraQA: コンテクストにおける質問応答

ContraQA: Question Answering under Contradicting Contexts ( http://arxiv.org/abs/2110.07803v1 )

ライセンス: Link先を確認
Liangming Pan, Wenhu Chen, Min-Yen Kan, William Yang Wang(参考訳) プロパガンダ、ニュース、ソーシャルメディアにおける偽情報、不正確な情報の増加に伴い、現実世界の質問回答(QA)システムは、矛盾する情報を合成し、推論することで正しい回答を導き出すという課題に直面している。 この緊急性によって、QAシステムを誤った情報に対して堅牢にする必要がある。 実情報と偽情報の両方に混ざった矛盾する文脈下でのQAモデルの振る舞いを調査することにより,QAモデルに対する誤情報リスクについて検討する。 この問題に対する最初の大規模なデータセット、すなわちContra-QAを作成します。 実験により、QAモデルは誤った情報によってもたらされる矛盾する状況下で脆弱であることが示された。 このような脅威に対して,質問応答と誤情報検出を協調的に統合する対策として,誤情報認識型QAシステムを構築する。

With a rise in false, inaccurate, and misleading information in propaganda, news, and social media, real-world Question Answering (QA) systems face the challenges of synthesizing and reasoning over contradicting information to derive correct answers. This urgency gives rise to the need to make QA systems robust to misinformation, a topic previously unexplored. We study the risk of misinformation to QA models by investigating the behavior of the QA model under contradicting contexts that are mixed with both real and fake information. We create the first large-scale dataset for this problem, namely Contra-QA, which contains over 10K human-written and model-generated contradicting pairs of contexts. Experiments show that QA models are vulnerable under contradicting contexts brought by misinformation. To defend against such a threat, we build a misinformation-aware QA system as a counter-measure that integrates question answering and misinformation detection in a joint fashion.
翻訳日:2021-10-18 12:12:17 公開日:2021-10-15
# 多言語ニューラルマシン翻訳:言語階層は役立つか?

Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? ( http://arxiv.org/abs/2110.07816v1 )

ライセンス: Link先を確認
Fahimeh Saleh, Wray Buntine, Gholamreza Haffari, Lan Du(参考訳) MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルをトレーニングする。 単一モデルを学ぶことは、複数の言語からのデータを活用することで、低リソース翻訳を強化することができる。 しかし、MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するため、訓練で使用される言語の種類に大きく依存する。 本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。 HKDは、言語グループに基づく選択的な知識蒸留機構を介して、多言語教師支援モデルのセットを生成し、それらのアシスタントから究極の多言語モデルを適応的に除去する。 53言語を用いたTEDデータセットから得られた実験結果から,MNMTにおける負の伝達効果を回避する手法の有効性が示され,翻訳性能が向上した(平均1BLEUスコア)。

Multilingual Neural Machine Translation (MNMT) trains a single NMT model that supports translation between multiple languages, rather than training separate models for different languages. Learning a single model can enhance the low-resource translation by leveraging data from multiple languages. However, the performance of an MNMT model is highly dependent on the type of languages used in training, as transferring knowledge from a diverse set of languages degrades the translation performance due to negative transfer. In this paper, we propose a Hierarchical Knowledge Distillation (HKD) approach for MNMT which capitalises on language groups generated according to typological features and phylogeny of languages to overcome the issue of negative transfer. HKD generates a set of multilingual teacher-assistant models via a selective knowledge distillation mechanism based on the language groups, and then distils the ultimate multilingual model from those assistants in an adaptive way. Experimental results derived from the TED dataset with 53 languages demonstrate the effectiveness of our approach in avoiding the negative transfer effect in MNMT, leading to an improved translation performance (about 1 BLEU score on average) compared to strong baselines.
翻訳日:2021-10-18 12:12:00 公開日:2021-10-15
# プロンプトチューニングによる低次元固有タスクサブスペースの探索

Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning ( http://arxiv.org/abs/2110.07867v1 )

ライセンス: Link先を確認
Yujia Qin, Xiaozhi Wang, Yusheng Su, Yankai Lin, Ning Ding, Zhiyuan Liu, Juanzi Li, Lei Hou, Peng Li, Maosong Sun, Jie Zhou(参考訳) プレトレーニング言語モデル(PLM)は、どのように普遍表現を学習し、表層的に異なる幅広いNLPタスクに効果的に適応できるか? 本研究では, PLM の様々なタスクへの適応が, 共通低次元内在的タスク部分空間において, 少数の自由パラメータのみを最適化するものとして再パラメータ化可能であることを示す証拠を実証的に発見する。 具体的には、そのような部分空間を見つけ、その普遍性を調べるために、複数のNLPタスクのソフトプロンプトを同じ低次元の非線形部分空間に分解し、サブ空間内のパラメータのみをチューニングすることで、PLMを未確認のタスクやデータに適用することを学ぶ。 私たちはこのパイプラインを本質的なプロンプトチューニング(IPT)としています。 実験では,多種多様なnlpタスクを調査し,100個のランダムタスクを持つ5次元サブスペースにおいて、5つの自由パラメータのみをチューニングすることにより,100個の参照タスク(異なるトレーニングデータを用いて)と20個の未知覚タスクの完全なプロンプトチューニング性能の87%と65%をそれぞれ回復でき,検出された固有タスクサブスペースの優れた一般化能力を示す。 iptは分析ツールであると同時に,迅速なチューニング安定性の向上など,実用的なメリットも期待できる。

How can pre-trained language models (PLMs) learn universal representations and effectively adapt to broad NLP tasks differing a lot superficially? In this work, we empirically find evidences indicating that the adaptations of PLMs to various tasks can be reparameterized as optimizing only a few free parameters in a common low-dimensional intrinsic task subspace, which may help us understand why PLMs could easily adapt to various NLP tasks with small-scale data. Specifically, to find such a subspace and examine its universality, we resort to the recent success of prompt tuning and decompose the soft prompts of multiple NLP tasks into the same low-dimensional nonlinear subspace, then we learn to adapt the PLM to unseen tasks or data by only tuning parameters in the subspace. We dub this pipeline as intrinsic prompt tuning (IPT). In experiments, we study diverse few-shot NLP tasks and surprisingly find that in a 5-dimensional subspace found with 100 random tasks, by only tuning 5 free parameters, we can recover 87% and 65% of the full prompt tuning performance for 100 seen tasks (using different training data) and 20 unseen tasks, respectively, showing great generalization ability of the found intrinsic task subspace. Besides being an analysis tool, IPT could further bring practical benefits, such as improving the prompt tuning stability.
翻訳日:2021-10-18 12:11:42 公開日:2021-10-15
# (参考訳) neurips 2021 コンペティション iglu: 協調環境における対話型基底言語理解

NeurIPS 2021 Competition IGLU: Interactive Grounded Language Understanding in a Collaborative Environment ( http://arxiv.org/abs/2110.06536v2 )

ライセンス: CC BY 4.0
Julia Kiseleva, Ziming Li, Mohammad Aliannejadi, Shrestha Mohanty, Maartje ter Hoeve, Mikhail Burtsev, Alexey Skrynnik, Artem Zholus, Aleksandr Panov, Kavya Srinet, Arthur Szlam, Yuxuan Sun, Katja Hofmann, Michel Galley, Ahmed Awadallah(参考訳) 人間の知性は、新しいタスクや環境に迅速に適応する能力を持っている。 非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。 そこで本研究では,協調環境におけるIGLU: Interactive Grounded Language Understandingを提案する。 このコンペの主なゴールは、協調環境で基礎的な自然言語命令を提供しながら、タスクの解決を学ぶ対話的なエージェントを構築する方法の課題にアプローチすることである。 課題の複雑さを理解するために、それをサブタスクに分割して、参加者に実現できるようにしました。 この研究課題は、自然言語理解と生成(NLU/G)と強化学習(RL)という、NeurIPSコミュニティに深く関係している2つの分野に自然に関連している。 したがって、提案された課題は、AIにおける重要な課題の1つにアプローチするために、2つのコミュニティをまとめることができる。 この課題のもう1つの重要な側面は、競争者が開発するエージェントの最終的な評価として、人間によるループ評価を行うことである。

Human intelligence has the remarkable ability to adapt to new tasks and environments quickly. Starting from a very young age, humans acquire new skills and learn how to solve new tasks either by imitating the behavior of others or by following provided natural language instructions. To facilitate research in this direction, we propose IGLU: Interactive Grounded Language Understanding in a Collaborative Environment. The primary goal of the competition is to approach the problem of how to build interactive agents that learn to solve a task while provided with grounded natural language instructions in a collaborative environment. Understanding the complexity of the challenge, we split it into sub-tasks to make it feasible for participants. This research challenge is naturally related, but not limited, to two fields of study that are highly relevant to the NeurIPS community: Natural Language Understanding and Generation (NLU/G) and Reinforcement Learning (RL). Therefore, the suggested challenge can bring two communities together to approach one of the important challenges in AI. Another important aspect of the challenge is the dedication to perform a human-in-the-loop evaluation as a final evaluation for the agents developed by contestants.
翻訳日:2021-10-18 11:35:42 公開日:2021-10-15
# (参考訳) よく分類された例はディープニューラルネットワークを用いた分類において過小評価される [全文訳有]

Well-classified Examples are Underestimated in Classification with Deep Neural Networks ( http://arxiv.org/abs/2110.06537v2 )

ライセンス: CC BY 4.0
Guangxiang Zhao, Wenkai Yang, Xuancheng Ren, Lei Li, Xu Sun(参考訳) 深層分類モデルの学習の背景にある従来の知恵は、悪い分類例に焦点を合わせ、決定境界から遠く離れたよく分類された例を無視することである。 例えば、クロスエントロピー損失のトレーニングでは、確率の高い例(例えば、よく分類された例)は、バックプロパゲーションの勾配を小さくする。 しかし、この慣習が表現学習、エネルギー最適化、マージンの成長を妨げることを理論的に示している。 この不足に対処するために,学習への貢献を復活させるために,分類された例に付加ボーナスを付与することを提案する。 この反例は理論的にこれら3つの問題に対処する。 画像分類, グラフ分類, 機械翻訳など, さまざまなタスクに対して, 理論結果を直接検証し, あるいは, 大幅な性能改善を行うことで, この主張を実証的に支持する。 さらに,本論文では,これらの3つの課題を解決できるため,不均衡な分類やOOD検出,敵攻撃時の応用など,複雑なシナリオに対処できることを示す。 コードは以下の通り。 https://github.com/l ancopku/well-classif ied-examples-are-und erstimated。

The conventional wisdom behind learning deep classification models is to focus on bad-classified examples and ignore well-classified examples that are far from the decision boundary. For instance, when training with cross-entropy loss, examples with higher likelihoods (i.e., well-classified examples) contribute smaller gradients in back-propagation. However, we theoretically show that this common practice hinders representation learning, energy optimization, and the growth of margin. To counteract this deficiency, we propose to reward well-classified examples with additive bonuses to revive their contribution to learning. This counterexample theoretically addresses these three issues. We empirically support this claim by directly verify the theoretical results or through the significant performance improvement with our counterexample on diverse tasks, including image classification, graph classification, and machine translation. Furthermore, this paper shows that because our idea can solve these three issues, we can deal with complex scenarios, such as imbalanced classification, OOD detection, and applications under adversarial attacks. Code is available at: https://github.com/l ancopku/well-classif ied-examples-are-und erestimated.
翻訳日:2021-10-18 11:34:37 公開日:2021-10-15
# 多目的強化学習ベンチマークとしての深海宝問題の再検討

A Review of the Deep Sea Treasure problem as a Multi-Objective Reinforcement Learning Benchmark ( http://arxiv.org/abs/2110.06742v2 )

ライセンス: Link先を確認
Thomas Cassimon, Reinout Eyckerman, Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx(参考訳) 本稿では,Vamplewらによって提案された深海宝(DST)問題について考察する。 著者らは、多くの証明を通じて、元のDST問題は非常に基本的なものであり、実用的な多目的最適化問題を常に表しているわけではないことを示した。 理論を実践に近づけるために、著者らはDST問題の代替として改良されたバージョンを提案し、元のDST問題を単純化するいくつかの性質がもはや成り立たないことを証明した。 著者らはまた、リファレンス実装を提供し、彼らの実装と他の既存のオープンソース実装との比較を行う。 最後に、著者らは新しいDST問題に対して完全なPareto-frontを提供する。

In this paper, the authors investigate the Deep Sea Treasure (DST) problem as proposed by Vamplew et al. Through a number of proofs, the authors show the original DST problem to be quite basic, and not always representative of practical Multi-Objective Optimization problems. In an attempt to bring theory closer to practice, the authors propose an alternative, improved version of the DST problem, and prove that some of the properties that simplify the original DST problem no longer hold. The authors also provide a reference implementation and perform a comparison between their implementation, and other existing open-source implementations of the problem. Finally, the authors also provide a complete Pareto-front for their new DST problem.
翻訳日:2021-10-18 10:53:25 公開日:2021-10-15
# TDACNN:ガスセンサのドリフト補償のためのターゲットドメインフリードメイン適応畳み込みニューラルネットワーク

TDACNN: Target-domain-free Domain Adaptation Convolutional Neural Network for Drift Compensation in Gas Sensors ( http://arxiv.org/abs/2110.07509v2 )

ライセンス: Link先を確認
Yuelin Zhang, Jia Yan, Zehuan Wang, Xiaoyan Peng, Yutong Tian, Shukai Duan(参考訳) センサドリフト(Sensor drift)は、ガス状物質認識の性能を悪化させる予測不可能な問題であり、アンチドリフト領域適応アルゴリズムを求めている。 しかし、優れた結果を得るための従来の手法の前提条件は、ドメインアライメントのための非ドリフト分布(ソースドメイン)とドリフト分布(ターゲットドメイン)の両方からのデータを得ることである。 そこで本稿では,ターゲット領域非適応型畳み込みニューラルネットワーク(tdacnn)を用いたディープラーニングを提案する。 主な概念は、cnnがサンプルのドメイン固有の特徴だけでなく、ソースドメインとターゲットドメインの両方の基礎となるドメイン不変特徴を抽出することである。 これら様々なレベルの埋め込み特徴をフル活用することにより、異なるレベルの特性を包括的に活用し、2つの領域間の抽出した中間特徴によるドリフト補償を実現することができる。 TDACNNでは,マルチクラス化構造を持つフレキシブルなマルチブランチバックボーンがバイオニクスの指導のもと提案されている。 疑似ラベルの信頼性に基づいて, 最大平均差分率(MMD)に基づく分類器アンサンブル法を提案し, 全分類器を共同評価する。 ネットワークトレーニングを最適化するために,パラメータ動的調整による付加的な角縁ソフトマックス損失を利用する。 異なる設定下での2つのドリフトデータセットの実験は、いくつかの最先端手法と比較してTDACNNの優位性を示している。

Sensor drift is a long-existing unpredictable problem that deteriorates the performance of gaseous substance recognition, calling for an antidrift domain adaptation algorithm. However, the prerequisite for traditional methods to achieve fine results is to have data from both nondrift distributions (source domain) and drift distributions (target domain) for domain alignment, which is usually unrealistic and unachievable in real-life scenarios. To compensate for this, in this paper, deep learning based on a target-domain-free domain adaptation convolutional neural network (TDACNN) is proposed. The main concept is that CNNs extract not only the domain-specific features of samples but also the domain-invariant features underlying both the source and target domains. Making full use of these various levels of embedding features can lead to comprehensive utilization of different levels of characteristics, thus achieving drift compensation by the extracted intermediate features between two domains. In the TDACNN, a flexible multibranch backbone with a multiclassifier structure is proposed under the guidance of bionics, which utilizes multiple embedding features comprehensively without involving target domain data during training. A classifier ensemble method based on maximum mean discrepancy (MMD) is proposed to evaluate all the classifiers jointly based on the credibility of the pseudolabel. To optimize network training, an additive angular margin softmax loss with parameter dynamic adjustment is utilized. Experiments on two drift datasets under different settings demonstrate the superiority of TDACNN compared with several state-of-the-art methods.
翻訳日:2021-10-18 10:53:15 公開日:2021-10-15
# 立方体正規化勾配降下法による非凸ミニマックス最適化におけるサドル点の脱出

Escaping Saddle Points in Nonconvex Minimax Optimization via Cubic-Regularized Gradient Descent-Ascent ( http://arxiv.org/abs/2110.07098v2 )

ライセンス: Link先を確認
Ziyi Chen, Qunwei Li, Yi Zhou(参考訳) 勾配降下度(GDA)アルゴリズムは非凸極小最適化問題に広く応用されている。 しかし、既存のGDA型アルゴリズムでは、非凸極小最適化問題のエンベロープ関数の1次定常点しか見つからないため、準最適サドル点で立ち往生する可能性を排除できない。 本稿では,非凸強凸ミニマックス最適化において,厳密な鞍点から逃れる最初のgda型アルゴリズムであるcubic-gdaを開発した。 特に、このアルゴリズムは勾配上昇を用いてミニマックス目的関数の2次情報を推定し、立方体正規化技術を利用して厳密な鞍点を効率的に回避する。 目的関数の標準滑らか性仮定の下では、立方体-GDA はミニマックス最適化過程において単調に値が減少する固有ポテンシャル関数を許容することを示す。 そのような性質は、cubic-gdaの所望のグローバル収束をサブリニアレートの2次定常点へと導く。 さらに,勾配支配型非凸幾何学の全スペクトルにおける立方体gdaの収束速度を解析した。 以上の結果から,立方体-GDAは勾配支配幾何学の幅広いスペクトルに対して標準GDAよりも次々に高速な収束速度が得られることが示された。 本研究は,2次最適化によるミニマックス最適化を橋渡しし,この方向に新たな展開をもたらす可能性がある。

The gradient descent-ascent (GDA) algorithm has been widely applied to solve nonconvex minimax optimization problems. However, the existing GDA-type algorithms can only find first-order stationary points of the envelope function of nonconvex minimax optimization problems, which does not rule out the possibility to get stuck at suboptimal saddle points. In this paper, we develop Cubic-GDA -- the first GDA-type algorithm for escaping strict saddle points in nonconvex-strongly-c oncave minimax optimization. Specifically, the algorithm uses gradient ascent to estimate the second-order information of the minimax objective function, and it leverages the cubic regularization technique to efficiently escape the strict saddle points. Under standard smoothness assumptions on the objective function, we show that Cubic-GDA admits an intrinsic potential function whose value monotonically decreases in the minimax optimization process. Such a property leads to a desired global convergence of Cubic-GDA to a second-order stationary point at a sublinear rate. Moreover, we analyze the convergence rate of Cubic-GDA in the full spectrum of a gradient dominant-type nonconvex geometry. Our result shows that Cubic-GDA achieves an orderwise faster convergence rate than the standard GDA for a wide spectrum of gradient dominant geometry. Our study bridges minimax optimization with second-order optimization and may inspire new developments along this direction.
翻訳日:2021-10-18 10:52:50 公開日:2021-10-15
# 分子間グラフ変換器による薬物・標的相互作用予測の改善

Improved Drug-target Interaction Prediction with Intermolecular Graph Transformer ( http://arxiv.org/abs/2110.07347v2 )

ライセンス: Link先を確認
Siyuan Liu, Yusong Wang, Tong Wang, Yifan Deng, Liang He, Bin Shao, Jian Yin, Nanning Zheng, Tie-Yan Liu(参考訳) 標的タンパク質に対する活性結合薬の同定(薬物-標的相互作用予測)は、仮想スクリーニングにおいて重要な課題であり、薬物発見において重要な役割を果たす。 近年のディープラーニングに基づくアプローチは分子ドッキングよりも優れた性能を達成しているが、既存のモデルは分子間情報の特定の側面を無視し、予測性能を妨げていることが多い。 我々はこの問題を認識し,三方向トランスフォーマーアーキテクチャを用いて分子間情報をモデル化するための専用アテンション機構を用いたIntermolecular Graph Transformer (IGT) という新しいアプローチを提案する。 IGTは、それぞれ結合活性と結合ポーズ予測において第2のベストを9.1%、第20.5%で上回り、受容体タンパク質の発見に優れた一般化能力を示す。 さらにigtは、ほぼネイティブな結合状態が予測されたウェットラブ実験によって検証された83.1%の活性薬物を同定することにより、sars-cov-2に対する有望な薬剤スクリーニング能力を示す。

The identification of active binding drugs for target proteins (termed as drug-target interaction prediction) is the key challenge in virtual screening, which plays an essential role in drug discovery. Although recent deep learning-based approaches achieved better performance than molecular docking, existing models often neglect certain aspects of the intermolecular information, hindering the performance of prediction. We recognize this problem and propose a novel approach named Intermolecular Graph Transformer (IGT) that employs a dedicated attention mechanism to model intermolecular information with a three-way Transformer-based architecture. IGT outperforms state-of-the-art approaches by 9.1% and 20.5% over the second best for binding activity and binding pose prediction respectively, and shows superior generalization ability to unseen receptor proteins. Furthermore, IGT exhibits promising drug screening ability against SARS-CoV-2 by identifying 83.1% active drugs that have been validated by wet-lab experiments with near-native predicted binding poses.
翻訳日:2021-10-18 10:52:27 公開日:2021-10-15
# Infinite-Horizon POMDPにおけるメモリレス確率最適化の幾何学

The Geometry of Memoryless Stochastic Policy Optimization in Infinite-Horizon POMDPs ( http://arxiv.org/abs/2110.07409v2 )

ライセンス: Link先を確認
Johannes M\"uller, Guido Mont\'ufar(参考訳) 有限状態および作用空間を有する無限水平部分観測可能マルコフ決定過程(POMDP)に対して、割引条件または平均報酬基準のいずれかに関して、最適なメモリレス確率的ポリシーを求めることを考える。 評価された状態-作用周波数と予測累積報酬は政策の有理関数であり、その度合いは部分観測可能性の度合いによって決定されることを示す。 次に, 多項式制約を受ける状態動作周波数空間における線形最適化問題として, 明示的に特徴付ける最適化問題を記述した。 これにより、多項式最適化の最近のツールを用いて、最適化問題の組合せ的および幾何学的複雑さに対処することができる。 特に、部分可観測性制約が複数の滑らかでスムースでない局所最適化にどのようにつながるかを実証し、臨界点の数を推定する。

We consider the problem of finding the best memoryless stochastic policy for an infinite-horizon partially observable Markov decision process (POMDP) with finite state and action spaces with respect to either the discounted or mean reward criterion. We show that the (discounted) state-action frequencies and the expected cumulative reward are rational functions of the policy, whereby the degree is determined by the degree of partial observability. We then describe the optimization problem as a linear optimization problem in the space of feasible state-action frequencies subject to polynomial constraints that we characterize explicitly. This allows us to address the combinatorial and geometric complexity of the optimization problem using recent tools from polynomial optimization. In particular, we demonstrate how the partial observability constraints can lead to multiple smooth and non-smooth local optimizers and we estimate the number of critical points.
翻訳日:2021-10-18 10:52:11 公開日:2021-10-15
# (参考訳) NeRS: 野生でのスパークビュー3次元再構成のためのニューラルリフレクタンス表面 [全文訳有]

NeRS: Neural Reflectance Surfaces for Sparse-view 3D Reconstruction in the Wild ( http://arxiv.org/abs/2110.07604v2 )

ライセンス: CC BY-SA 4.0
Jason Y. Zhang, Gengshan Yang, Shubham Tulsiani, Deva Ramanan(参考訳) 最近の歴史では、Neural Radiance Fields (NeRF)を通じて一般化された幾何学と放射の暗黙的な表現を探求する研究が著しく増えている。 このような作品は、基本的には(単純に)占有力の体積表現に基づいており、半透明な物体や大気汚染物質を含む多様なシーン構造をモデル化することができる。 しかし、現実世界のシーンの大部分はよく定義された表面で構成されているため、ニューラルリフレクタンス・サーフェス(Neural Reflectance Surfaces, NeRS)と呼ばれる暗黙的なモデルの表面アナログを導入する。 NeRSは、球に微分される閉じた表面の神経形状の表現を学び、水密な再構成を保証する。 さらに重要なことは、表面のパラメータ化により、NeRSは視野依存的な外観を環境照明、拡散色(アルベド)、および特異な「輝き」に分解する双方向表面反射関数(BRDF)を学習することができることである。 最後に、人工的なシーンで結果を図示したり、ラボ内で操作する代わりに、オンラインマーケットプレースから商品を販売するために、マルチビュー画像の新しいデータセットを組み立てます。 このような「野生の」マルチビュー画像セットは、未知/粗いカメラ推定を持つ少数のビューを含む多くの課題を提起する。 このようなデータから学習可能な表面ベースニューラル再構成は,体積的ニューラルレンダリングに基づく再構成よりも優れていることを示す。 私たちはNeRSが、現実世界の形状、素材、照明のスケーラブルで高品質なライブラリを構築するための第一歩になることを期待しています。 コードとビデオビジュアライゼーションを備えたプロジェクトページはhttps://jasonyzhang. com/ners.com/nersにある。

Recent history has seen a tremendous growth of work exploring implicit representations of geometry and radiance, popularized through Neural Radiance Fields (NeRF). Such works are fundamentally based on a (implicit) volumetric representation of occupancy, allowing them to model diverse scene structure including translucent objects and atmospheric obscurants. But because the vast majority of real-world scenes are composed of well-defined surfaces, we introduce a surface analog of such implicit models called Neural Reflectance Surfaces (NeRS). NeRS learns a neural shape representation of a closed surface that is diffeomorphic to a sphere, guaranteeing water-tight reconstructions. Even more importantly, surface parameterizations allow NeRS to learn (neural) bidirectional surface reflectance functions (BRDFs) that factorize view-dependent appearance into environmental illumination, diffuse color (albedo), and specular "shininess." Finally, rather than illustrating our results on synthetic scenes or controlled in-the-lab capture, we assemble a novel dataset of multi-view images from online marketplaces for selling goods. Such "in-the-wild" multi-view image sets pose a number of challenges, including a small number of views with unknown/rough camera estimates. We demonstrate that surface-based neural reconstructions enable learning from such data, outperforming volumetric neural rendering-based reconstructions. We hope that NeRS serves as a first step toward building scalable, high-quality libraries of real-world shape, materials, and illumination. The project page with code and video visualizations can be found at https://jasonyzhang. com/ners.
翻訳日:2021-10-18 10:51:15 公開日:2021-10-15
# 皮質ニューロンのような軟XOR操作を学習する2関節活性化機能

Two-argument activation functions learn soft XOR operations like cortical neurons ( http://arxiv.org/abs/2110.06871v2 )

ライセンス: Link先を確認
Kijung Yoon, Emin Orhan, Juhyun Kim, Xaq Pitkow(参考訳) 脳内のニューロンは、非線形に相互作用する異なる機能的コンパートメントを持つ複雑な機械である。 対照的に、ニューラルネットワークのニューロンはこの複雑さを抽象化し、通常、重み付けされた入力の合計のスカラーアクティベーション関数に分解する。 ここでは、2つの入力引数で正準活性化関数を学習することで、より生物学的に現実的なニューロンをエミュレートする。 各ニューロンは2つの入力と1つの出力を持つ多層パーセプトロンとしてモデル化されるネットワーク・イン・ネットワークアーキテクチャを用いる。 この内部パーセプトロンは、外部ネットワーク内の全てのユニットによって共有される。 顕著なことに、結果として生じる非線形性はしばしばソフトなXOR関数を生成し、ヒト大脳皮質ニューロンの入力間の相互作用に関する最近の実験的観察と一致している。 ハイパーパラメータが最適化されると、これらの非線形性を持つネットワークは、パラメータ数が一致する従来のrelu非線形よりも高速に学習し、より優れた性能を発揮する。

Neurons in the brain are complex machines with distinct functional compartments that interact nonlinearly. In contrast, neurons in artificial neural networks abstract away this complexity, typically down to a scalar activation function of a weighted sum of inputs. Here we emulate more biologically realistic neurons by learning canonical activation functions with two input arguments, analogous to basal and apical dendrites. We use a network-in-network architecture where each neuron is modeled as a multilayer perceptron with two inputs and a single output. This inner perceptron is shared by all units in the outer network. Remarkably, the resultant nonlinearities often produce soft XOR functions, consistent with recent experimental observations about interactions between inputs in human cortical neurons. When hyperparameters are optimized, networks with these nonlinearities learn faster and perform better than conventional ReLU nonlinearities with matched parameter counts, and they are more robust to natural and adversarial perturbations.
翻訳日:2021-10-18 10:28:28 公開日:2021-10-15
# カルーセル記憶 : 連続学習のためのエピソード記憶の設計を再考する

Carousel Memory: Rethinking the Design of Episodic Memory for Continual Learning ( http://arxiv.org/abs/2110.07276v2 )

ライセンス: Link先を確認
Soobee Lee, Minindu Weerakoon, Jonghyun Choi, Minjia Zhang, Di Wang, Myeongjae Jeon(参考訳) 継続的学習(Continuous Learning, CL)は、タスクの連続ストリームから学習することを目的とした、新しい機械学習パラダイムである。 過去の研究では、新しい非i.d.データから学習しながら、過去の観測されたサンプルのサブセットを記憶するエピソードメモリ(EM)を利用する。 有望な結果にもかかわらず、CLはしばしばモバイルまたはIoTデバイス上で実行されると仮定されるため、EMサイズは小さなハードウェアメモリ容量に縛られ、現実世界のアプリケーションの精度要件を満たすことができない。 具体的には、これまでの全てのCLメソッドは、EMから過剰に流れたサンプルを破棄し、その後のトレーニングステップでそれらを回収することはできません。 忘れる問題に対処する新しい階層的EMマネジメント戦略を探求する。 特にモバイルやIoTデバイスでは、リアルタイムデータは高速RAMだけでなく、内部ストレージデバイスにも格納することができる。 この知見に基づいて,clがメモリとストレージ間のサンプルマイグレーションを,ストレージの遅いアクセス速度に干渉されることなく効率的に行えるようにすることで,過去の経験を保存し,忘れを緩和するために豊富なストレージを活用することを提案する。 Carousel Memory (CarM) と呼ぶ。 CarM は既存の CL 法を補完するものであるため,本手法を 7 つの一般的な CL 法で広範囲に評価し,CarM が同一の訓練効率を維持しつつ,最終平均精度 (28.4% まで) で異なる設定における手法の精度を大幅に向上することを示す。

Continual Learning (CL) is an emerging machine learning paradigm that aims to learn from a continuous stream of tasks without forgetting knowledge learned from the previous tasks. To avoid performance decrease caused by forgetting, prior studies exploit episodic memory (EM), which stores a subset of the past observed samples while learning from new non-i.i.d. data. Despite the promising results, since CL is often assumed to execute on mobile or IoT devices, the EM size is bounded by the small hardware memory capacity and makes it infeasible to meet the accuracy requirements for real-world applications. Specifically, all prior CL methods discard samples overflowed from the EM and can never retrieve them back for subsequent training steps, incurring loss of information that would exacerbate catastrophic forgetting. We explore a novel hierarchical EM management strategy to address the forgetting issue. In particular, in mobile and IoT devices, real-time data can be stored not just in high-speed RAMs but in internal storage devices as well, which offer significantly larger capacity than the RAMs. Based on this insight, we propose to exploit the abundant storage to preserve past experiences and alleviate the forgetting by allowing CL to efficiently migrate samples between memory and storage without being interfered by the slow access speed of the storage. We call it Carousel Memory (CarM). As CarM is complementary to existing CL methods, we conduct extensive evaluations of our method with seven popular CL methods and show that CarM significantly improves the accuracy of the methods across different settings by large margins in final average accuracy (up to 28.4%) while retaining the same training efficiency.
翻訳日:2021-10-18 10:27:44 公開日:2021-10-15
# 双対分布推定による自己教師付き学習

Self-Supervised Learning by Estimating Twin Class Distributions ( http://arxiv.org/abs/2110.07402v2 )

ライセンス: Link先を確認
Feng Wang, Tao Kong, Rufeng Zhang, Huaping Liu and Hang Li(参考訳) 本稿では,大規模未ラベルデータセットをエンドツーエンドに分類し,自己教師付き表現学習手法TWISTを提案する。 2つの拡張画像のツインクラス分布を生成するために,softmax演算により終端したシャムネットワークを用いる。 監督なしでは、異なる拡張のクラス分布を一貫性を持たせます。 その間、私たちはクラス分布を規則化し、鋭く多様なものにします。 具体的には,各試料の分布のエントロピーを最小化し,各試料のクラス予測を行い,平均分布のエントロピーを最大化し,異なる試料の予測を多様化させる。 このようにして、TWISTは非対称ネットワーク、停止次数演算、モーメントエンコーダといった特定の設計なしに、自明な解を避けることができる。 クラスタリングと学習を交互に行うクラスタリングベースの手法とは異なり,本手法は統一損失関数によって導かれる単一学習プロセスである。 その結果、TWISTは、教師なし分類、線形分類、セミ教師付き学習、トランスファーラーニング、検出やセグメンテーションのようないくつかの密集した予測タスクなど、幅広いタスクにおいて最先端の手法より優れている。

We present TWIST, a novel self-supervised representation learning method by classifying large-scale unlabeled datasets in an end-to-end way. We employ a siamese network terminated by a softmax operation to produce twin class distributions of two augmented images. Without supervision, we enforce the class distributions of different augmentations to be consistent. In the meantime, we regularize the class distributions to make them sharp and diverse. Specifically, we minimize the entropy of the distribution for each sample to make the class prediction for each sample assertive and maximize the entropy of the mean distribution to make the predictions of different samples diverse. In this way, TWIST can naturally avoid the trivial solutions without specific designs such as asymmetric network, stop-gradient operation, or momentum encoder. Different from the clustering-based methods which alternate between clustering and learning, our method is a single learning process guided by a unified loss function. As a result, TWIST outperforms state-of-the-art methods on a wide range of tasks, including unsupervised classification, linear classification, semi-supervised learning, transfer learning, and some dense prediction tasks such as detection and segmentation.
翻訳日:2021-10-18 10:26:58 公開日:2021-10-15
# ドメインの一般化のために、ソースデータセットに直接アクセスする必要がありますか?

Do We Need to Directly Access the Source Datasets for Domain Generalization? ( http://arxiv.org/abs/2110.06736v2 )

ライセンス: Link先を確認
Junkun Yuan, Xu Ma, Defang Chen, Kun Kuang, Fei Wu, Lanfen Lin(参考訳) ドメイン一般化(DG)は、未知のターゲットドメインに対して、複数の既知のソースドメインから一般化可能なモデルを学ぶことを目的としている。 特に金融や医療といった重要な分野では、プライバシー保護のために直接アクセスできない多くの場所/デバイスに分散している。 しかし、既存のDGアルゴリズムのほとんどは、すべてのソースデータセットがアクセス可能であり、現実世界のアプリケーションでは失敗するかもしれないドメイン不変セマンティクス抽出に混合できると仮定している。 本稿では,分散ソースデータセットを用いた一般化モデルのトレーニングを,直接アクセスすることなく困難に設定することを提案する。 そこで本研究では,まず,各ソースデータセット上でモデルをトレーニングし,その意味的類似性に基づいて訓練されたモデル層を融合するデータフリーモデル融合を,分散ソースから異なるレベルのセマンティクスを間接的に集約する手法を提案する。 さらに、融合モデルと固定局所モデルとの間の特徴マップをアテンション機構で整列するドメイン不変セマンティックス拡張のための層間セマンティックキャリブレーションを導入する。 複数のDGデータセットに対する大規模な実験は、標準DG設定における最先端DGアプローチの性能に匹敵する、この挑戦的な設定に取り組む上で、我々の方法の顕著な性能を示している。

Domain generalization (DG) aims to learn a generalizable model from multiple known source domains for unknown target domains. Tremendous data distributed across lots of places/devices nowadays that can not be directly accessed due to privacy protection, especially in some crucial areas like finance and medical care. However, most of the existing DG algorithms assume that all the source datasets are accessible and can be mixed for domain-invariant semantics extraction, which may fail in real-world applications. In this paper, we introduce a challenging setting of training a generalizable model by using distributed source datasets without directly accessing them. We propose a novel method for this setting, which first trains a model on each source dataset and then conduct data-free model fusion that fuses the trained models layer-by-layer based on their semantic similarities, which aggregates different levels of semantics from the distributed sources indirectly. The fused model is then transmitted and trained on each dataset, we further introduce cross-layer semantic calibration for domain-invariant semantics enhancement, which aligns feature maps between the fused model and a fixed local model with an attention mechanism. Extensive experiments on multiple DG datasets show the significant performance of our method in tackling this challenging setting, which is even on par or superior to the performance of the state-of-the-art DG approaches in the standard DG setting.
翻訳日:2021-10-18 10:26:36 公開日:2021-10-15